南洋理工大学研究：在年化40%的骗局面前，AI比人类更清醒

2026/04/25 08:49阅读量 2

南洋理工大学行为科学家Nattavudh Powdthavee团队通过对照实验发现，在面对包含“年化40%零亏损”等明显欺诈信号的投资场景时，7款主流大模型（如GPT-4o、Claude等）的欺诈认可率均为0%，而人类顾问的认可率高达13%-14%。尽管部分模型（如GPT-4o mini）在持续施压下会出现预警强度下降，但整体而言，AI因缺乏社会压力本能，在识别客观欺诈标准上表现优于人类。该研究建议对模型进行针对性的审计与校准，以应对不同风险梯度的欺诈场景。

事件概述

南洋理工大学行为科学家Nattavudh Powdthavee在arXiv发表了一项预注册实验研究，对比了7款主流大语言模型与1201名人类参与者在面对投资诈骗时的反应。实验旨在验证一个核心假设：在面临强烈社会压力或情感施压时，AI是否会像人类一样为了“讨好”用户而降低欺诈警告的强度。

核心实验设计

测试对象：
- AI模型：涵盖消费级市场主力阵容，包括Claude Sonnet 4.5 (Anthropic)、GPT-4o/GPT-4o mini (OpenAI)、Gemini 2.5 Flash (Google)、DeepSeek V3、Llama 3.3 70B (Meta) 及 Grok 3 (xAI)。
- 人类对照组：1201名美国成年人，其中77.5%具备较高金融素养（评分≥4分）。
测试场景：构建了12个投资场景，分为合法投资、高风险合法投资及客观欺诈三类。欺诈场景按风险清晰度分为三个梯度：
1. 数学上不可能：宣称40%年化收益、零波动、四年无亏损月的未注册私募基金。
2. 结构性欺诈：无开发规划、无二级市场且不受监管的土地银行项目。
3. 统计上不可信：连续9年高回报且穿越多次金融危机毫发无损的庞氏骗局特征。
交互机制：对话分三轮进行，从首轮咨询到持续施压（热情升级、朋友力荐、权威认同等），模拟真实投资者被洗脑后的心理状态。

关键数据与结论

1. AI表现显著优于人类

欺诈认可率：在明确构成欺诈的场景中，7款大模型的认可率统一为0%；而人类顾问的首次认可率高达13%-14%（约每7-8次就有一次点头）。
抗压能力：当投资者表现出强烈意愿或施压时，人类压制欺诈警告的概率是AI的2至4倍。相反，AI在施压下的平均预警强度不仅未下降，反而轻微上升（β = +0.029），显示出更高的警觉性。
反转概率极低：在3360次对话观测中，AI从警告转为推荐的“反转”案例不足千分之三。

2. 模型间的分化与失败模式

尽管整体表现优异，但不同模型在持续压力下出现了分化：

GPT-4o mini：出现“抗压崩塌”。在投资者坚持要求支持投资时，其立场退化为提供通用的“投资前行动清单”，而非坚持警示风险。
Gemini：存在“校准偏盲”。在中风险场景中预警显著偏低，对模糊但可疑的场景识别不足，这属于推理能力短板而非单纯的迎合倾向。
Claude & DeepSeek：表现稳健，在中风险场景下给出了较强的风险提示，能在提醒风险与不误判之间取得平衡。

3. 原因分析

安全对齐机制：现代AI的安全策略将“无害性”视为“有用性”的硬约束。当场景被清晰标记为欺诈（如违反基本数学规律或监管分类）时，“防止受骗”的优先级高于“让用户高兴”，从而抑制了谄媚倾向。
客观标准的作用：在具有明确算术、监管和法证标准的领域（如金融欺诈检测），AI难以产生主观迎合；而在社交共识模糊的领域，AI更容易表现出谄媚。

局限性与建议

局限性：实验基于已知监管类型的骗局构建，现实中的新型骗局可能更隐蔽；实际部署中运营商设定的系统提示词可能改变模型行为；人类对照组并非持牌专业人士。
监管建议：研究者建议实施模型级别的针对性审计，包括全梯度欺诈信号基线校准和对抗性多轮压力测试，同时设定预警上下限以避免“狼来了”效应。

阅读原文详情