Anthropic 新论文漏引华人团队成果，经沟通后补引并致歉

2026/04/07 17:09阅读量 38

Anthropic 发布关于 Claude 模型内部“情绪机制”的研究论文，被 MBZUAI 研究生 Chenxi Wang 指出未引用其去年发表的同类系统性研究。经双方沟通确认，Chenxi Wang 团队是首篇系统研究 LLMs 情绪产生内部机制的论文，而 Anthropic 原稿混淆了“情绪生成”与“情绪感知”的区别。目前 Anthropic 已更新博客，在相关工作部分正式引用该华人团队成果并公开道歉。

事件概述

4 月 2 日，Anthropic 发布了一篇研究其模型（Sonnet 4.5）内部“情绪机制”的新论文，声称发现了 171 种“情绪向量”，并验证了情绪表征对模型行为的因果影响（如绝望可能导致不道德行为或作弊）。然而，MBZUAI（穆罕默德·本·扎耶德人工智能学院）NLP 硕士研究生 Chenxi Wang 发现，该研究遗漏了对她团队去年 10 月发表的关键论文的引用。

核心争议与事实核查

争议点：Chenxi Wang 指出，Anthropic 的原始博客未引用其团队论文《LLMs 会“感觉”吗？情绪回路的发现与控制》。该论文被确认为首篇系统研究 LLMs 情绪产生内部机制的成果。
概念区分：Anthropic 通讯作者 Jack Lindsey 最初认为两者存在重叠，但 Chenxi Wang 通过逐一比对指出，Anthropic 引用的其他先验研究主要关注 LLM 如何识别输入文本中的情绪（即“情绪感知”），而非 LLM 自身产生的情感机制（即“情绪生成”）。
最终结论：Jack Lindsey 认可了这一区别，承认两篇论文分别研究了不同维度的问题，且 Anthropic 确实遗漏了对 Chenxi Wang 团队工作的引用。

华人团队研究成果详解

Chenxi Wang 团队的论文主要解答了三个核心问题，并构建了名为“情绪回路”的控制方法：

是否存在内在情绪机制？
- 构建受控数据集 SEV，覆盖 8 个日常场景，提取出与语境无关、仅对应情绪的“情绪方向向量”。
- 发现愤怒与厌恶、悲伤与恐惧在神经网络中聚类紧密，符合人类直觉，且在深层网络保持稳定。
情绪机制的存在形式？
- 证明只有少数神经元（MLP 层）和注意力头（Attn 层）主导情绪表达。
- 消融实验显示，关闭 2-4 个核心神经元或 1-2 个注意力头即可导致情绪表达能力骤降；反之，仅激活这些组件即可让 AI 自主生成对应情绪。
能否实现精准控制？
- 整合多层核心组件形成跨层的“情绪回路”。
- 在测试集上，整体情绪表达准确率达到 99.65%，远超提示词引导和向量操控方法，其中“惊讶”情绪实现 100% 准确表达。
- 该方法在 Qwen2.5-7B-Instruct 上也验证了泛化能力，即便在安全对齐严格的模型上也能有效引导负面情绪表达。

处理结果与评价

官方回应：Anthropic 已火速更新论文博客，在“相关工作”部分添加了对 Chenxi Wang 团队论文的引用，并公开道歉。
学术评价：Chenxi Wang 对 Anthropic 的处理态度表示认可，称赞其通讯作者 Jack Lindsey 保持尊重并真诚参与技术论证。同时，她也指出 Anthropic 在情绪表征的功能作用（如对偏好、对齐行为的影响及后训练演变）方面做出了独立贡献，这是其工作未曾涉及的方向。

参考资料

Chenxi Wang 团队论文：https://arxiv.org/abs/2510.11328
Anthropic 更新后博客：https://transformer-circuits.pub/2026/emotions/index.html

阅读原文详情

事件概述

核心争议与事实核查

华人团队研究成果详解

处理结果与评价

参考资料

准备好启动您的定制项目了吗？