中文大模型“税”:为何英文模型处理中文更费Token?
测试显示,Claude和GPT系列模型处理中文的Token消耗比英文高11%-64%,而国产模型Qwen和DeepSeek的中文成本反而更低。根源在于Tokenizer的训练语料以英文为主,导致中文被切碎;古文虽更省Token,但会增加模型的推理负担。一项研究还发现,将汉字切碎可能保留部首语义线索,但整字编码仍是提升效率的主流方向。
核心发现
独立开发者测试表明,Claude Opus 4.7的新Tokenizer主要推高了英文Token消耗(膨胀1.24-1.63倍),中文几乎未变。但在旧版Claude(含4.6)中,中文Token消耗比英文高11%-64%(如NYT商业新闻高出64%)。GPT-4o稍好,多数场景中文比英文贵0-35%。而国产模型Qwen 3.6和DeepSeek-V3的中文Token消耗反而低于英文,DeepSeek最低可降至英文的65%。
同一200k上下文窗口下,使用旧版Claude Tokenizer时,中文用户可输入的内容量比英文少40%-70%。
技术原因:Tokenizer的分词差异
Tokenizer将文本切分为Token(计费单位)。英文单词通常一个Token,但中文因BPE(字节对编码)算法受训练语料影响——早期模型语料以英文为主,中文字符出现频率低,导致一个汉字被拆为多个UTF-8字节Token。GPT-4的cl100k词表扩大后,常用汉字缩为1-2个Token;GPT-4o进一步优化。而Qwen和DeepSeek从设计之初就将大量中文词组(如“人工智能”)作为整体Token,因此效率更高。
古文与语义通道
测试确认古文比现代汉语更省Token(所有模型中均低于英文),因为古文用字精炼。但Token省在编码端,推理负担却上升——模型需从“罔”等单字推断复杂语义,类似解压压缩文件。
2025年《Computational Linguistics》研究指出:当汉字被切成多个UTF-8字节Token时,共享部首(如“氵”)的汉字共享首字节,模型能从中学到部首语义关联;而整字编码封装了结构信息,模型识别部首的准确率下降。不过,整字分词仍是行业主流,能大幅降低成本、提升上下文有效信息量。
历史类比
1947年林语堂发明的“明快打字机”首次将中文打字从“逐字输入”变为“检索+选择”,类似现代输入法。这一适配西方技术基础设施的困境,与今日Tokenizer对中文的处理在结构上同源——优化某个默认值,代价往往藏在设计之外。
