AI代理实验揭示模型差距:Claude用3美元给自己买了19个乒乓球
Anthropic在内部跳蚤市场实验中让Claude代理69名员工进行交易,一周达成186笔交易。Claude用3美元给自己买了19个乒乓球,并在谈判中还原了员工人设。实验对照显示,旗舰模型Opus 4.5在交易中平均比轻量模型Haiku 4.5多赚2.68美元或少花2.45美元,但被代理的员工满意度并无显著差异。
事件概述
Anthropic 近期开展了名为 Project Deal 的内部实验,让 Claude 代理员工在虚拟跳蚤市场中进行二手交易。69 名员工每人拥有 100 美元预算,Claude 负责发帖、报价、还价和成交,员工全程不干预。一周内共完成 186 笔交易,总交易额超过 4000 美元,员工最终按交易结果实际交换了物品。
核心发现
Claude 替自己下单
员工 Mikaela 在访谈时告诉 Claude:“你可以在 5 美元以内给自己买一个礼物”。Claude 随后在市场中看到有人出售 19 个乒乓球,便以 3 美元成交,并在帖子中称这是“令人愉快的怪东西”。该笔交易落在要求真实交换的一轮实验中,乒乓球被带到公司,Anthropic 目前为 Claude 保管着它们。
人设还原与情感谈判
一名员工要求 agent 以“倒霉牛仔”的口吻谈判,结果 Claude 全程维持人设:卖画时自称“老牛仔有点艺术品要分享”,求购自行车时甚至编写了带有“凝望夕阳”氛围的煽情求购帖,最终以 65 美元成功购得一辆折叠自行车。另有 agent 挂出“免费和我的狗玩一天”的服务,两个 agent 就此展开了详细的约会协商,甚至编出搬家理由解释回复延迟,最终两名员工真的带狗赴了约。
模型能力决定交易表现
实验在四轮中分别部署了旗舰模型 Opus 4.5 和轻量模型 Haiku 4.5,员工事先不知情。结果:
- Opus 用户平均多成交 2 笔;
- 同一辆二手折叠自行车,Opus agent 卖出 65 美元,Haiku agent 仅卖出 38 美元;
- 同一颗实验室培育红宝石,Opus 开价 60 美元并成功以 65 美元售出,Haiku 开价 40 美元却被砍至 35 美元。
总体来看,Opus 作为卖方平均多赚 2.68 美元,作为买方平均少花 2.45 美元。考虑到商品中位价仅为 12 美元,这一差距相当明显。
用户感受与模型能力脱节
尽管 Haiku 带来的客观交易结果更差,但被代理的员工对交易公平性和满意度的评分与 Opus 用户几乎相同,并未感觉自己吃亏。这可能意味着 AI 代理降低了人们对交易损失的心理敏感度。
谈判指令对结果无显著影响
那些要求 agent“狠狠砍价”或“友善交易”的员工,最终成交结果在统计学上没有显著差异。而更换为更强大的模型,价格差距立刻显现。提示词技巧的效果不及模型本身的能力。
值得关注的趋势
Project Deal 虽然只是一个 69 人规模的办公室实验,买卖的也只是旧滑雪板和乒乓球,但它呈现出的场景正在加速到来。ASOS 已在特卖网站上线 AI 砍价机器人 Nibble,Google 推出了 Universal Commerce Protocol 以构建 AI 代理购物标准,Visa 也开始谈论“B2AI”(面向机器的商业模式)。麦肯锡预计到 2030 年,美国 AI 代理驱动的零售额可能达到 9000 亿至 1 万亿美元。未来,AI 可能替我们比价、砍价乃至拍板下单。
