Token 计算完全指南:从原理到成本优化的硬核白皮书
什么是 Token?LLM 的基本计费单元
Token 是大语言模型(LLM)处理文本的最小语义单元。不同于传统自然语言处理中以"词"为单位,现代 LLM 使用子词分词器(Subword Tokenizer)将文本切分为更细粒度的片段。以 GPT-4 使用的 BPE(Byte Pair Encoding)算法为例,英文中大约 1 Token ≈ 0.75 个单词,即 100 个英文单词约等于 75 个 Token。中文由于字符密度更高,1 个汉字约等于 1.5-2 个 Token。这意味着同样的语义信息量,中文通常在 Token 消耗上比英文高出 50%-100%。模型提供商(OpenAI、Anthropic、Google 等)正是以 Token 数量为基准进行计费的,这使得 Token 计算成为每一位 AI 开发者必备的成本控制技能。
Token 计费模型详解:输入与输出的不对称定价
几乎所有商业 LLM API 都采用输入/输出分离定价策略。以 GPT-4 为例,输入 Token 价格为 $30/1M tokens,输出 Token 价格为 $60/1M tokens——输出价格恰好是输入的两倍。这种定价不对称反映了模型在生成阶段的计算资源消耗更大:每次推理需要逐 Token 自回归生成,每个生成步骤都需要完整的注意力计算。Claude 3.5 Sonnet 的定价差距更为悬殊:输入仅 $3/1M,输出却高达 $15/1M,输出价格是输入的 5 倍。实际生产环境中,输出 Token 费用往往占据总费用的 60%-80%。因此,在 Prompt 工程中鼓励模型给出简洁回答可以显著降低运营成本。
中英文混合文本的 Token 估算方法
由于中文和英文在 LLM 分词器中的 Token 密度不同,混合文本的 Token 估算需要分步处理。经验规则:英文文本 ≈ 字符数 × 0.25;中文文本 ≈ 字符数 × 1.5;代码片段 ≈ 字符数 × 0.3;JSON/结构化数据 ≈ 字符数 × 0.35。最佳实践是分别统计中英文部分的字符数,然后加权求和。本工具内置了基于 tiktoken 的估算算法,精确度在 ±5% 以内。
主流模型 Token 价格对比 (2026年5月)
| 模型 | 输入 ($/1M) | 输出 ($/1M) | 上下文窗口 |
|---|---|---|---|
| GPT-4 | $30 | $60 | 128K |
| GPT-4 Turbo | $10 | $30 | 128K |
| GPT-3.5 Turbo | $0.50 | $1.50 | 16K |
| Claude 3.5 Sonnet | $3 | $15 | 200K |
| Claude 3 Opus | $15 | $75 | 200K |