中文大模型“税”：为何英文模型处理中文更费Token？

2026/05/06 10:22阅读量 2

测试显示，Claude和GPT系列模型处理中文的Token消耗比英文高11%-64%，而国产模型Qwen和DeepSeek的中文成本反而更低。根源在于Tokenizer的训练语料以英文为主，导致中文被切碎；古文虽更省Token，但会增加模型的推理负担。一项研究还发现，将汉字切碎可能保留部首语义线索，但整字编码仍是提升效率的主流方向。

核心发现

独立开发者测试表明，Claude Opus 4.7的新Tokenizer主要推高了英文Token消耗（膨胀1.24-1.63倍），中文几乎未变。但在旧版Claude（含4.6）中，中文Token消耗比英文高11%-64%（如NYT商业新闻高出64%）。GPT-4o稍好，多数场景中文比英文贵0-35%。而国产模型Qwen 3.6和DeepSeek-V3的中文Token消耗反而低于英文，DeepSeek最低可降至英文的65%。

同一200k上下文窗口下，使用旧版Claude Tokenizer时，中文用户可输入的内容量比英文少40%-70%。

技术原因：Tokenizer的分词差异

Tokenizer将文本切分为Token（计费单位）。英文单词通常一个Token，但中文因BPE（字节对编码）算法受训练语料影响——早期模型语料以英文为主，中文字符出现频率低，导致一个汉字被拆为多个UTF-8字节Token。GPT-4的cl100k词表扩大后，常用汉字缩为1-2个Token；GPT-4o进一步优化。而Qwen和DeepSeek从设计之初就将大量中文词组（如“人工智能”）作为整体Token，因此效率更高。

古文与语义通道

测试确认古文比现代汉语更省Token（所有模型中均低于英文），因为古文用字精炼。但Token省在编码端，推理负担却上升——模型需从“罔”等单字推断复杂语义，类似解压压缩文件。

2025年《Computational Linguistics》研究指出：当汉字被切成多个UTF-8字节Token时，共享部首（如“氵”）的汉字共享首字节，模型能从中学到部首语义关联；而整字编码封装了结构信息，模型识别部首的准确率下降。不过，整字分词仍是行业主流，能大幅降低成本、提升上下文有效信息量。

历史类比

1947年林语堂发明的“明快打字机”首次将中文打字从“逐字输入”变为“检索+选择”，类似现代输入法。这一适配西方技术基础设施的困境，与今日Tokenizer对中文的处理在结构上同源——优化某个默认值，代价往往藏在设计之外。

阅读原文详情

核心发现

技术原因：Tokenizer的分词差异

古文与语义通道

历史类比

准备好启动您的定制项目了吗？