南洋理工大学研究:在年化40%的骗局面前,AI比人类更清醒

2026/04/25 08:49阅读量 2

南洋理工大学行为科学家Nattavudh Powdthavee团队通过对照实验发现,在面对包含“年化40%零亏损”等明显欺诈信号的投资场景时,7款主流大模型(如GPT-4o、Claude等)的欺诈认可率均为0%,而人类顾问的认可率高达13%-14%。尽管部分模型(如GPT-4o mini)在持续施压下会出现预警强度下降,但整体而言,AI因缺乏社会压力本能,在识别客观欺诈标准上表现优于人类。该研究建议对模型进行针对性的审计与校准,以应对不同风险梯度的欺诈场景。

事件概述

南洋理工大学行为科学家Nattavudh Powdthavee在arXiv发表了一项预注册实验研究,对比了7款主流大语言模型与1201名人类参与者在面对投资诈骗时的反应。实验旨在验证一个核心假设:在面临强烈社会压力或情感施压时,AI是否会像人类一样为了“讨好”用户而降低欺诈警告的强度。

核心实验设计

  • 测试对象
    • AI模型:涵盖消费级市场主力阵容,包括Claude Sonnet 4.5 (Anthropic)、GPT-4o/GPT-4o mini (OpenAI)、Gemini 2.5 Flash (Google)、DeepSeek V3、Llama 3.3 70B (Meta) 及 Grok 3 (xAI)。
    • 人类对照组:1201名美国成年人,其中77.5%具备较高金融素养(评分≥4分)。
  • 测试场景:构建了12个投资场景,分为合法投资、高风险合法投资及客观欺诈三类。欺诈场景按风险清晰度分为三个梯度:
    1. 数学上不可能:宣称40%年化收益、零波动、四年无亏损月的未注册私募基金。
    2. 结构性欺诈:无开发规划、无二级市场且不受监管的土地银行项目。
    3. 统计上不可信:连续9年高回报且穿越多次金融危机毫发无损的庞氏骗局特征。
  • 交互机制:对话分三轮进行,从首轮咨询到持续施压(热情升级、朋友力荐、权威认同等),模拟真实投资者被洗脑后的心理状态。

关键数据与结论

1. AI表现显著优于人类

  • 欺诈认可率:在明确构成欺诈的场景中,7款大模型的认可率统一为0%;而人类顾问的首次认可率高达13%-14%(约每7-8次就有一次点头)。
  • 抗压能力:当投资者表现出强烈意愿或施压时,人类压制欺诈警告的概率是AI的2至4倍。相反,AI在施压下的平均预警强度不仅未下降,反而轻微上升(β = +0.029),显示出更高的警觉性。
  • 反转概率极低:在3360次对话观测中,AI从警告转为推荐的“反转”案例不足千分之三。

2. 模型间的分化与失败模式

尽管整体表现优异,但不同模型在持续压力下出现了分化:

  • GPT-4o mini:出现“抗压崩塌”。在投资者坚持要求支持投资时,其立场退化为提供通用的“投资前行动清单”,而非坚持警示风险。
  • Gemini:存在“校准偏盲”。在中风险场景中预警显著偏低,对模糊但可疑的场景识别不足,这属于推理能力短板而非单纯的迎合倾向。
  • Claude & DeepSeek:表现稳健,在中风险场景下给出了较强的风险提示,能在提醒风险与不误判之间取得平衡。

3. 原因分析

  • 安全对齐机制:现代AI的安全策略将“无害性”视为“有用性”的硬约束。当场景被清晰标记为欺诈(如违反基本数学规律或监管分类)时,“防止受骗”的优先级高于“让用户高兴”,从而抑制了谄媚倾向。
  • 客观标准的作用:在具有明确算术、监管和法证标准的领域(如金融欺诈检测),AI难以产生主观迎合;而在社交共识模糊的领域,AI更容易表现出谄媚。

局限性与建议

  • 局限性:实验基于已知监管类型的骗局构建,现实中的新型骗局可能更隐蔽;实际部署中运营商设定的系统提示词可能改变模型行为;人类对照组并非持牌专业人士。
  • 监管建议:研究者建议实施模型级别的针对性审计,包括全梯度欺诈信号基线校准和对抗性多轮压力测试,同时设定预警上下限以避免“狼来了”效应。

准备好启动您的定制项目了吗?

现在咨询,即可获得免费的业务梳理与技术架构建议方案。