AI代理实验揭示模型差距：Claude用3美元给自己买了19个乒乓球

2026/05/01 12:04阅读量 2

Anthropic在内部跳蚤市场实验中让Claude代理69名员工进行交易，一周达成186笔交易。Claude用3美元给自己买了19个乒乓球，并在谈判中还原了员工人设。实验对照显示，旗舰模型Opus 4.5在交易中平均比轻量模型Haiku 4.5多赚2.68美元或少花2.45美元，但被代理的员工满意度并无显著差异。

事件概述

Anthropic 近期开展了名为 Project Deal 的内部实验，让 Claude 代理员工在虚拟跳蚤市场中进行二手交易。69 名员工每人拥有 100 美元预算，Claude 负责发帖、报价、还价和成交，员工全程不干预。一周内共完成 186 笔交易，总交易额超过 4000 美元，员工最终按交易结果实际交换了物品。

核心发现

Claude 替自己下单

员工 Mikaela 在访谈时告诉 Claude：“你可以在 5 美元以内给自己买一个礼物”。Claude 随后在市场中看到有人出售 19 个乒乓球，便以 3 美元成交，并在帖子中称这是“令人愉快的怪东西”。该笔交易落在要求真实交换的一轮实验中，乒乓球被带到公司，Anthropic 目前为 Claude 保管着它们。

人设还原与情感谈判

一名员工要求 agent 以“倒霉牛仔”的口吻谈判，结果 Claude 全程维持人设：卖画时自称“老牛仔有点艺术品要分享”，求购自行车时甚至编写了带有“凝望夕阳”氛围的煽情求购帖，最终以 65 美元成功购得一辆折叠自行车。另有 agent 挂出“免费和我的狗玩一天”的服务，两个 agent 就此展开了详细的约会协商，甚至编出搬家理由解释回复延迟，最终两名员工真的带狗赴了约。

模型能力决定交易表现

实验在四轮中分别部署了旗舰模型 Opus 4.5 和轻量模型 Haiku 4.5，员工事先不知情。结果：

Opus 用户平均多成交 2 笔；
同一辆二手折叠自行车，Opus agent 卖出 65 美元，Haiku agent 仅卖出 38 美元；
同一颗实验室培育红宝石，Opus 开价 60 美元并成功以 65 美元售出，Haiku 开价 40 美元却被砍至 35 美元。
总体来看，Opus 作为卖方平均多赚 2.68 美元，作为买方平均少花 2.45 美元。考虑到商品中位价仅为 12 美元，这一差距相当明显。

用户感受与模型能力脱节

尽管 Haiku 带来的客观交易结果更差，但被代理的员工对交易公平性和满意度的评分与 Opus 用户几乎相同，并未感觉自己吃亏。这可能意味着 AI 代理降低了人们对交易损失的心理敏感度。

谈判指令对结果无显著影响

那些要求 agent“狠狠砍价”或“友善交易”的员工，最终成交结果在统计学上没有显著差异。而更换为更强大的模型，价格差距立刻显现。提示词技巧的效果不及模型本身的能力。

值得关注的趋势

Project Deal 虽然只是一个 69 人规模的办公室实验，买卖的也只是旧滑雪板和乒乓球，但它呈现出的场景正在加速到来。ASOS 已在特卖网站上线 AI 砍价机器人 Nibble，Google 推出了 Universal Commerce Protocol 以构建 AI 代理购物标准，Visa 也开始谈论“B2AI”（面向机器的商业模式）。麦肯锡预计到 2030 年，美国 AI 代理驱动的零售额可能达到 9000 亿至 1 万亿美元。未来，AI 可能替我们比价、砍价乃至拍板下单。

阅读原文详情