GPT Workspace GPT Workspace

理解 OpenAI GPT 令牌:全面指南

在这份全面指南中探索 OpenAI GPT 令牌的力量。了解什么是令牌、如何计数,以及如何使用它们通过 OpenAI GPT 模型生成连贯且上下文相关的文本

Liubov Shchigoleva
Liubov Shchigoleva 作者
·
2024年1月15日
理解 OpenAI GPT 令牌:全面指南

OpenAI GPT 模型是当今最强大的语言模型之一,能够生成高度连贯且上下文相关的文本。这些模型使用令牌作为计算文本长度的基本单位。但令牌究竟是什么,它们如何工作?在本指南中,我们将深入探讨 OpenAI GPT 令牌的细节,讨论它们的定义、计数方法以及实际应用。

理解 OpenAI GPT 令牌

在 OpenAI GPT 模型的上下文中,令牌是代表文本基本单位的字符簇。这些令牌由分词器算法生成,该算法根据特定规则(如空格、标点符号和特殊字符)将文本分割成较小的片段。令牌有时可能对应单词,但并非总是如此,因为分词器将所有字符(包括表情符号)都视为潜在的令牌。

计算文本中的令牌数量

要确定文本中的令牌数量,您必须使用分词器算法对文本进行分词。OpenAI 提供了一个官方分词器来帮助您完成此过程。分词器生成的令牌数量将取决于所使用的语言和特定模型。但作为一般准则,您可以使用以下单词到令牌的比率:

  • 英语:1 个单词 ≈ 1.3 个令牌
  • 西班牙语:1 个单词 ≈ 2 个令牌
  • 法语:1 个单词 ≈ 2 个令牌

重要的是要认识到,标点符号计为一个令牌,而特殊字符和表情符号分别可以计为一到三个令牌和两到三个令牌。

令牌的实际应用

在 OpenAI GPT 模型中,令牌与 max_tokens 参数结合使用以生成文本。max_tokens 参数规定了在任何 API 请求中应生成的最大令牌数。max_tokens 的值应始终遵循以下约束:prompt_tokens + max_tokens ≤ 模型限制,其中 prompt_tokens 表示提示中的令牌数量。

令牌的成本将取决于所使用的特定模型,并按每 1000 个令牌计费。例如,ChatGPT 的 1000 个令牌价格为 0.0020 美元,而 GPT-4 32k 上下文的 1000 个令牌价格为 0.1200 美元。

结论

令牌是 OpenAI GPT 模型中的一个基本概念,代表了用于生成上下文相关且连贯文本的基本单位。通过理解令牌的性质及其实际用途,您可以释放 OpenAI GPT 模型的全部潜力,并创作出吸引和教育受众的引人入胜的内容。

想直接在 Google Workspace 中使用 GPT 模型吗? 安装 GPT Workspace — 这款 Google Workspace 插件 将 OpenAI GPT 免费带入 Google Docs、Sheets、Slides 和 Gmail。

FREE TO INSTALL

Start using AI in Google Workspace

Join 7M+ professionals who write faster, analyze smarter, and collaborate better with GPT Workspace.