AI大模型的中文税:中文比英文更费Token,根源在分词器设计
2026/05/03 12:13阅读量 2
研究发现,AI模型处理中文比英文消耗更多token,导致成本更高,但国产模型Qwen和DeepSeek反而中文更省token。根本原因在于分词器设计差异:英文优先的BPE算法导致中文被拆碎,而国产模型从设计之初就优化了中文分词。此外,古文虽省token但推理负担重,汉字拆分意外带来部首语义线索,技术优化伴随利弊权衡。
事件概述
AI大模型在处理中文时存在"中文税"现象,即中文比英文消耗更多token,但不同模型表现差异显著。经测试,在Claude和GPT系列中,中文token消耗比英文高1.11-1.64倍,商业新闻场景差异最大(64%);而国产模型Qwen和DeepSeek则相反,中文比英文省token,最低达0.65倍。Claude Opus 4.7升级后英文token膨胀1.24-1.63倍,中文几乎不变。
核心信息
- 分词器设计决定token效率:英文为主的BPE算法导致早期模型中文效率低下(如GPT-2一个汉字拆成3token);国产模型从设计之初就优化中文分词,将常用字/词合并为单个token。GPT-4o扩大词表后中文效率提升,但仍不如国产模型。
- 古文token效率的悖论:古文在所有测试模型中token数均低于现代汉语和英文,但模型需要更多推理理解压缩的古文语义,实际成本可能更高,类似zip压缩文件:体积小但解压计算量大。
- 汉字拆分带来的意外语义线索:UTF-8编码按部首排序,当汉字被拆成字节时,模型能通过共享字节识别部首关系。实验证明多token拆分时模型识别部首准确率更高(GPT-4 89%汉字多token时效果更好);整字token虽降低成本,但可能丢失字形结构信息。
值得关注
中文适配西方技术基础设施的历史困境在AI时代重现。类似林语堂明快打字机的挑战,中文始终面临如何适配西方设计的技术体系。Unicode编码排序与BPE算法意外创造了部首识别路径,而优化token效率可能无意中消除某些非设计功能,体现了技术演进的复杂性。
