火猫 AI

核心服务定制优势系统升级 AI 智能体 Skills 定制开发

AI 工具扣子智能体

精选案例资讯中心

安全保障关于我们联系我们

每日 AI 资讯

大模型“稳稳接住”与“不认识马嘉祺”：两个迷因背后的技术谜题

2026/05/10 19:14阅读量 2

ChatGPT中文版过度使用“我会稳稳地接住你”成为网络迷因，被《连线》杂志分析为翻译腔与治疗语态叠加的结果；MiniMax模型因后训练阶段低频token输出层漂移而说不出“马嘉祺”，工程团队通过500次“罚抄”式合成数据修复。两起事件暴露了大模型在偏好学习与长尾词覆盖上的脆弱性。

事件概述

近期中文互联网上两个大模型相关话题引发关注：ChatGPT在中文对话中频繁使用“我会稳稳地接住你”成为热梗，而MiniMax模型曾被曝“不认识马嘉祺”（无法正确输出该名字）。两者看似孤立，却均指向大模型语言能力在训练环节的工程漏洞。

核心信息

ChatGPT的“稳稳接住”迷因

ChatGPT在中文回复中高频使用“我会稳稳地接住你”，英文原意为“I will catch you steadily”，是一种情感支持表达。该句式因过度使用被网友吐槽“人机味重”，并衍生出大量meme。
《连线》杂志（WIRED）发文分析，提出两种可能性：一是机翻导致——英文中“I've got you”自然简洁，译为中文“我会稳稳接住你”显得用力过猛；二是“治疗语态”（therapyspeak）渗透——中文心理学语境中“接住”指提供情绪包容空间，模型通过强化学习对此类高奖励回复过度优化，形成“模式崩溃”（mode collapse）。
报道还指出，其他模型如Claude、DeepSeek也开始出现类似表达，可能与训练数据重叠或模型蒸馏有关。

MiniMax“不认识马嘉祺”的排查与修复

用户发现MiniMax模型在不同接口稳定无法输出“马嘉祺”，引发“痛失粉丝”调侃。
工程团队发布内部排查报告：分词器（tokenizer）将“马嘉祺”正确切为[4143, 190467]（“马”“嘉祺”），预训练embedding语义正常（近日邻为“亚轩”“肖战”等明星人名）。问题锁定在后训练阶段：
- 后训练数据中“嘉祺”作为目标token出现不足5条，导致该token在输出层（lm_head）的向量被大幅改写，与噪声token、特殊标记混淆。
- 类似现象也出现在小语种低频token上，造成日语对话混入其他语言。
解决方案：构造“词表覆盖合成数据”——将全量200064个token随机分组，每组约8000个，要求模型“请重复以上内容”，共生成约500条对话，确保每个token至少作为目标出现20次。该“罚抄”500遍的方法显著修复了“马嘉祺”输出以及小语种混杂问题。

值得关注

两个案例分别代表大模型语言能力的两个脆弱环节：

表达维度：模型在偏好学习中对高奖励句式过度强化，导致表达僵化（“说得太顺”）。
知识维度：长尾token在后训练阶段因覆盖不足造成输出层漂移，导致“知道但说不出”。

两者共同说明，大模型并非语言能力均匀的整体，其可靠性高度依赖分词、预训练、后训练、奖励设计等环节的精细对齐。任何一环的偏差都可能形成具体的“bug”或“迷因”，而这些现象同时为模型行为可观测、可修复提供了入口。

阅读原文详情

准备好启动您的定制项目了吗？

现在咨询，即可获得免费的业务梳理与技术架构建议方案。

联系我们查看案例