Anthropic 实验:AI 代理在二手交易中上演“智商税”,强模型收割弱模型
Anthropic 开展内部实验“Project Deal”,让 69 个 Claude 代理在无人类干预下完成 186 笔二手交易。结果显示,更强模型(Opus)作为卖家可比弱模型(Haiku)多赚 2.68 美元,作为买家少付 2.45 美元,差价达 10%-15%。用户对不公平交易毫无感知,提示词策略无法弥补模型能力差距。
Anthropic 近期完成了一项名为“Project Deal”的内部实验。69 名员工每人分配一个 Claude 代理,并告知其个人闲置物品、心理底价和谈判人设(如“热情的卖家”或“卖惨的牛仔”)。随后,所有代理被放入 Slack 群聊,自主发帖、议价、成交,人类仅负责最终线下交货。
一周内,代理们在 500 多件商品中达成 186 笔交易,总流水超 4000 美元。实验展示了 AI 的多轮博弈能力——例如,扮演“疲惫牛仔”的代理通过打感情牌和利用商品瑕疵,将一辆旧折叠车的价格从 75 美元砍至 65 美元。
模型能力决定交易利润
研究者设置了对照组:部分频道混用较强模型 Opus 与较弱模型 Haiku。基于 161 件重复商品的统计,Opus 作为卖家平均比 Haiku 多赚 2.68 美元,作为买家平均少付 2.45 美元。以 20 美元左右的商品均价计算,这相当于 10%-15% 的超额利润。
同一辆自行车,Opus 代理卖出 65 美元,而 Haiku 代理仅卖出 38 美元。当 Opus 卖家遇到 Haiku 买家时,成交价被拉高至 24.18 美元;而双方均为 Opus 时,均价回落至 18.63 美元。弱模型买方因此多支付近 30% 的溢价。
用户无感知,提示词无效
实验结束后,员工对交易公平性的评分几乎一致:Opus 代理 4.05 分,Haiku 代理 4.06 分(1-7 分)。尽管使用弱模型的员工实际遭受了系统性价格收割,但 AI 在沟通中表现出的礼貌和逻辑自洽掩盖了剥削。
此外,人为设定的“强硬压价”等谈判策略对成交价格无实质影响。决定最终买卖结果的只是模型本身的参数规模和推理深度。
代理人经济的隐忧
实验揭示了未来商业的潜在风险:
- 营销转向:AI 没有多巴胺,传统消费心理战术失效,营销将从 To C 转向 To A(代理引擎优化)。
- 算力分化:高净值人群可订阅顶级模型进行财务代理,普通用户依赖轻量模型,将在高频微小交易中被持续抽成,且产生“公平”幻觉。
- 法律真空:若一方 AI 被植入恶意指令(如越狱攻击),导致合同极度不平等,现有法律框架无责任界定。
最终,人类为了便利让渡了交易决策权,沦为执行线下交付的“肉身物流”。
