大模型“稳稳接住”与“不认识马嘉祺”:两个迷因背后的技术谜题
2026/05/10 19:14阅读量 2
ChatGPT中文版过度使用“我会稳稳地接住你”成为网络迷因,被《连线》杂志分析为翻译腔与治疗语态叠加的结果;MiniMax模型因后训练阶段低频token输出层漂移而说不出“马嘉祺”,工程团队通过500次“罚抄”式合成数据修复。两起事件暴露了大模型在偏好学习与长尾词覆盖上的脆弱性。
事件概述
近期中文互联网上两个大模型相关话题引发关注:ChatGPT在中文对话中频繁使用“我会稳稳地接住你”成为热梗,而MiniMax模型曾被曝“不认识马嘉祺”(无法正确输出该名字)。两者看似孤立,却均指向大模型语言能力在训练环节的工程漏洞。
核心信息
ChatGPT的“稳稳接住”迷因
- ChatGPT在中文回复中高频使用“我会稳稳地接住你”,英文原意为“I will catch you steadily”,是一种情感支持表达。该句式因过度使用被网友吐槽“人机味重”,并衍生出大量meme。
- 《连线》杂志(WIRED)发文分析,提出两种可能性:一是机翻导致——英文中“I've got you”自然简洁,译为中文“我会稳稳接住你”显得用力过猛;二是“治疗语态”(therapyspeak)渗透——中文心理学语境中“接住”指提供情绪包容空间,模型通过强化学习对此类高奖励回复过度优化,形成“模式崩溃”(mode collapse)。
- 报道还指出,其他模型如Claude、DeepSeek也开始出现类似表达,可能与训练数据重叠或模型蒸馏有关。
MiniMax“不认识马嘉祺”的排查与修复
- 用户发现MiniMax模型在不同接口稳定无法输出“马嘉祺”,引发“痛失粉丝”调侃。
- 工程团队发布内部排查报告:分词器(tokenizer)将“马嘉祺”正确切为[4143, 190467](“马”“嘉祺”),预训练embedding语义正常(近日邻为“亚轩”“肖战”等明星人名)。问题锁定在后训练阶段:
- 后训练数据中“嘉祺”作为目标token出现不足5条,导致该token在输出层(lm_head)的向量被大幅改写,与噪声token、特殊标记混淆。
- 类似现象也出现在小语种低频token上,造成日语对话混入其他语言。
- 解决方案:构造“词表覆盖合成数据”——将全量200064个token随机分组,每组约8000个,要求模型“请重复以上内容”,共生成约500条对话,确保每个token至少作为目标出现20次。该“罚抄”500遍的方法显著修复了“马嘉祺”输出以及小语种混杂问题。
值得关注
两个案例分别代表大模型语言能力的两个脆弱环节:
- 表达维度:模型在偏好学习中对高奖励句式过度强化,导致表达僵化(“说得太顺”)。
- 知识维度:长尾token在后训练阶段因覆盖不足造成输出层漂移,导致“知道但说不出”。
两者共同说明,大模型并非语言能力均匀的整体,其可靠性高度依赖分词、预训练、后训练、奖励设计等环节的精细对齐。任何一环的偏差都可能形成具体的“bug”或“迷因”,而这些现象同时为模型行为可观测、可修复提供了入口。
