大模型“稳稳接住”与“不认识马嘉祺”:两个迷因背后的技术谜题

2026/05/10 19:14阅读量 2

ChatGPT中文版过度使用“我会稳稳地接住你”成为网络迷因,被《连线》杂志分析为翻译腔与治疗语态叠加的结果;MiniMax模型因后训练阶段低频token输出层漂移而说不出“马嘉祺”,工程团队通过500次“罚抄”式合成数据修复。两起事件暴露了大模型在偏好学习与长尾词覆盖上的脆弱性。

事件概述

近期中文互联网上两个大模型相关话题引发关注:ChatGPT在中文对话中频繁使用“我会稳稳地接住你”成为热梗,而MiniMax模型曾被曝“不认识马嘉祺”(无法正确输出该名字)。两者看似孤立,却均指向大模型语言能力在训练环节的工程漏洞。

核心信息

ChatGPT的“稳稳接住”迷因

  • ChatGPT在中文回复中高频使用“我会稳稳地接住你”,英文原意为“I will catch you steadily”,是一种情感支持表达。该句式因过度使用被网友吐槽“人机味重”,并衍生出大量meme。
  • 《连线》杂志(WIRED)发文分析,提出两种可能性:一是机翻导致——英文中“I've got you”自然简洁,译为中文“我会稳稳接住你”显得用力过猛;二是“治疗语态”(therapyspeak)渗透——中文心理学语境中“接住”指提供情绪包容空间,模型通过强化学习对此类高奖励回复过度优化,形成“模式崩溃”(mode collapse)。
  • 报道还指出,其他模型如Claude、DeepSeek也开始出现类似表达,可能与训练数据重叠或模型蒸馏有关。

MiniMax“不认识马嘉祺”的排查与修复

  • 用户发现MiniMax模型在不同接口稳定无法输出“马嘉祺”,引发“痛失粉丝”调侃。
  • 工程团队发布内部排查报告:分词器(tokenizer)将“马嘉祺”正确切为[4143, 190467](“马”“嘉祺”),预训练embedding语义正常(近日邻为“亚轩”“肖战”等明星人名)。问题锁定在后训练阶段:
    • 后训练数据中“嘉祺”作为目标token出现不足5条,导致该token在输出层(lm_head)的向量被大幅改写,与噪声token、特殊标记混淆。
    • 类似现象也出现在小语种低频token上,造成日语对话混入其他语言。
  • 解决方案:构造“词表覆盖合成数据”——将全量200064个token随机分组,每组约8000个,要求模型“请重复以上内容”,共生成约500条对话,确保每个token至少作为目标出现20次。该“罚抄”500遍的方法显著修复了“马嘉祺”输出以及小语种混杂问题。

值得关注

两个案例分别代表大模型语言能力的两个脆弱环节:

  • 表达维度:模型在偏好学习中对高奖励句式过度强化,导致表达僵化(“说得太顺”)。
  • 知识维度:长尾token在后训练阶段因覆盖不足造成输出层漂移,导致“知道但说不出”。

两者共同说明,大模型并非语言能力均匀的整体,其可靠性高度依赖分词、预训练、后训练、奖励设计等环节的精细对齐。任何一环的偏差都可能形成具体的“bug”或“迷因”,而这些现象同时为模型行为可观测、可修复提供了入口。

准备好启动您的定制项目了吗?

现在咨询,即可获得免费的业务梳理与技术架构建议方案。