AI大模型的中文税：中文比英文更费Token，根源在分词器设计

2026/05/03 12:13阅读量 2

研究发现，AI模型处理中文比英文消耗更多token，导致成本更高，但国产模型Qwen和DeepSeek反而中文更省token。根本原因在于分词器设计差异：英文优先的BPE算法导致中文被拆碎，而国产模型从设计之初就优化了中文分词。此外，古文虽省token但推理负担重，汉字拆分意外带来部首语义线索，技术优化伴随利弊权衡。

事件概述

AI大模型在处理中文时存在"中文税"现象，即中文比英文消耗更多token，但不同模型表现差异显著。经测试，在Claude和GPT系列中，中文token消耗比英文高1.11-1.64倍，商业新闻场景差异最大（64%）；而国产模型Qwen和DeepSeek则相反，中文比英文省token，最低达0.65倍。Claude Opus 4.7升级后英文token膨胀1.24-1.63倍，中文几乎不变。

核心信息

分词器设计决定token效率：英文为主的BPE算法导致早期模型中文效率低下（如GPT-2一个汉字拆成3token）；国产模型从设计之初就优化中文分词，将常用字/词合并为单个token。GPT-4o扩大词表后中文效率提升，但仍不如国产模型。
古文token效率的悖论：古文在所有测试模型中token数均低于现代汉语和英文，但模型需要更多推理理解压缩的古文语义，实际成本可能更高，类似zip压缩文件：体积小但解压计算量大。
汉字拆分带来的意外语义线索：UTF-8编码按部首排序，当汉字被拆成字节时，模型能通过共享字节识别部首关系。实验证明多token拆分时模型识别部首准确率更高（GPT-4 89%汉字多token时效果更好）；整字token虽降低成本，但可能丢失字形结构信息。

值得关注

中文适配西方技术基础设施的历史困境在AI时代重现。类似林语堂明快打字机的挑战，中文始终面临如何适配西方设计的技术体系。Unicode编码排序与BPE算法意外创造了部首识别路径，而优化token效率可能无意中消除某些非设计功能，体现了技术演进的复杂性。

阅读原文详情

事件概述

核心信息

值得关注

准备好启动您的定制项目了吗？