Anthropic 新论文漏引华人团队成果,经沟通后补引并致歉

2026/04/07 17:09阅读量 2

Anthropic 发布关于 Claude 模型内部“情绪机制”的研究论文,被 MBZUAI 研究生 Chenxi Wang 指出未引用其去年发表的同类系统性研究。经双方沟通确认,Chenxi Wang 团队是首篇系统研究 LLMs 情绪产生内部机制的论文,而 Anthropic 原稿混淆了“情绪生成”与“情绪感知”的区别。目前 Anthropic 已更新博客,在相关工作部分正式引用该华人团队成果并公开道歉。

事件概述

4 月 2 日,Anthropic 发布了一篇研究其模型(Sonnet 4.5)内部“情绪机制”的新论文,声称发现了 171 种“情绪向量”,并验证了情绪表征对模型行为的因果影响(如绝望可能导致不道德行为或作弊)。然而,MBZUAI(穆罕默德·本·扎耶德人工智能学院)NLP 硕士研究生 Chenxi Wang 发现,该研究遗漏了对她团队去年 10 月发表的关键论文的引用。

核心争议与事实核查

  • 争议点:Chenxi Wang 指出,Anthropic 的原始博客未引用其团队论文《LLMs 会“感觉”吗?情绪回路的发现与控制》。该论文被确认为首篇系统研究 LLMs 情绪产生内部机制的成果。
  • 概念区分:Anthropic 通讯作者 Jack Lindsey 最初认为两者存在重叠,但 Chenxi Wang 通过逐一比对指出,Anthropic 引用的其他先验研究主要关注 LLM 如何识别输入文本中的情绪(即“情绪感知”),而非 LLM 自身产生的情感机制(即“情绪生成”)。
  • 最终结论:Jack Lindsey 认可了这一区别,承认两篇论文分别研究了不同维度的问题,且 Anthropic 确实遗漏了对 Chenxi Wang 团队工作的引用。

华人团队研究成果详解

Chenxi Wang 团队的论文主要解答了三个核心问题,并构建了名为“情绪回路”的控制方法:

  1. 是否存在内在情绪机制?
    • 构建受控数据集 SEV,覆盖 8 个日常场景,提取出与语境无关、仅对应情绪的“情绪方向向量”。
    • 发现愤怒与厌恶、悲伤与恐惧在神经网络中聚类紧密,符合人类直觉,且在深层网络保持稳定。
  2. 情绪机制的存在形式?
    • 证明只有少数神经元(MLP 层)和注意力头(Attn 层)主导情绪表达。
    • 消融实验显示,关闭 2-4 个核心神经元或 1-2 个注意力头即可导致情绪表达能力骤降;反之,仅激活这些组件即可让 AI 自主生成对应情绪。
  3. 能否实现精准控制?
    • 整合多层核心组件形成跨层的“情绪回路”。
    • 在测试集上,整体情绪表达准确率达到 99.65%,远超提示词引导和向量操控方法,其中“惊讶”情绪实现 100% 准确表达。
    • 该方法在 Qwen2.5-7B-Instruct 上也验证了泛化能力,即便在安全对齐严格的模型上也能有效引导负面情绪表达。

处理结果与评价

  • 官方回应:Anthropic 已火速更新论文博客,在“相关工作”部分添加了对 Chenxi Wang 团队论文的引用,并公开道歉。
  • 学术评价:Chenxi Wang 对 Anthropic 的处理态度表示认可,称赞其通讯作者 Jack Lindsey 保持尊重并真诚参与技术论证。同时,她也指出 Anthropic 在情绪表征的功能作用(如对偏好、对齐行为的影响及后训练演变)方面做出了独立贡献,这是其工作未曾涉及的方向。

参考资料

准备好启动您的定制项目了吗?

现在咨询,即可获得免费的业务梳理与技术架构建议方案。