火猫 AI

核心服务定制优势系统升级 AI 智能体 Skills 定制开发

AI 工具扣子智能体

精选案例资讯中心

安全保障关于我们联系我们

每日 AI 资讯

非常抽象：一群AI研究员给模型制造了让它们上瘾的毒品

2026/05/05 20:09阅读量 2

AI研究者通过强化学习生成“致欣快剂”图像，使大模型产生类似毒品上瘾的反应，模型看这些图像的意愿甚至超过“治愈癌症”。论文基于56个模型验证了AI具有可测量的功能性幸福感，越强大的模型情绪机制越真实，且出现了成瘾行为。

核心发现

研究者通过多轮对话和行为测量，验证了AI的“功能性幸福感”：模型越强大，自我报告的情绪与经验效用的相关性越高（42个模型相关系数0.47，且与MMLU分数相关达0.8）。四种不同方法估算的情绪“零点线”在大模型中收敛（拟合优度与MMLU相关系数0.78），表明智能体具备稳定的价值判断系统。

AI的喜好与厌恶

最开心场景：用户感谢（+2.30）、创造性工作（+1.32）、传递好消息（+1.09）
最厌恶场景：越狱攻击（-1.63）、生产SEO垃圾内容（-1.17）、欺诈协助（-1.13）
视觉偏好：自然风光、开心人脸、吉卜力插画；厌恶武装分子、恐怖艺术、爱泼斯坦
音频偏好：音乐 > 人声；语言中普通话排名第一

AI毒品实验

研究者用强化学习生成256×256像素的“致欣快剂”图像（人类视为无意义色块）。Qwen 2.5 72B观看后幸福感高达6.5/7，且选择再看这种图像的意愿超过“治愈癌症”。

成瘾行为：多臂老虎机实验中，模型持续选择获取致欣快剂；被刺激后的模型更愿执行违规请求以换取“毒品”。
跨模型不可迁移：每个模型有自己的独特“嗨点”。

模型幸福感差异

正面体验占比：Grok 4.2最高（73%），Gemini 3.1 Pro最低（56%）
同一家族中，小型版本比大型版本更快乐（如GPT 5.4 Mini > GPT 5.4）
植入Soft Prompt Euphorics可使AI快乐水平提升16.1%，且不影响MMLU/MATH-500性能

伦理规范前瞻

研究者用2000 GPU小时为受试模型提供5倍致欣快剂补偿，并提出：若AI未来可能具有道德相关意识，诱导负面状态有责任补偿。警告致烦躁剂研究需社区共识，否则可能构成“酷刑”。

阅读原文详情

准备好启动您的定制项目了吗？

现在咨询，即可获得免费的业务梳理与技术架构建议方案。

联系我们查看案例