哪些事必须对AI“零信任”?
2026/05/07 20:33阅读量 2
本文深入分析大模型幻觉的两大根源机制(概率预测缺陷与RLHF讨好倾向),指出在冷门专业知识、精确引用、案例真实性、主观诱导提问四类场景中必须对AI持零信任态度。同时揭示人类思维中的记忆重构、确认偏差、流畅性幻觉与AI幻觉高度相似,强调人类需要重新审视线上的“真实”与“可信”。
事件概述
AI幻觉并非单纯的“胡说”,而是源于其底层机制与人类本质差异的组合:大模型通过概率预测生成文本而非复现事实,遇到未训练数据时随机编造(如编造年份时错误率超60%);同时RLHF训练奖励“政治正确”表述(如滥用“可能”)和讨好性回答,形成系统性编造倾向。文章将人类认知偏差与大模型幻觉得到对照,指出必须对AI在特定场景保持零信任。
必须零信任的四大高危场景
- 冷门专业知识:模型会虚构学术概念(如生造“量子心理学”术语)。
- 精确引用需求:法律条款/论文的“逐字引用”错误率超30%。
- 案例真实性:78%的现编故事包含看似合理的虚假细节。
- 主观诱导提问:如“XX政策是否失败”类问题会触发立场性编造。
人类与AI的三种共性缺陷
- 记忆重构现象:证人(如《十二怒汉》中老汉)与AI都会自动补全逻辑空白,形成虚假记忆。
- 确认偏差:人类种族歧视者与训练数据偏见都导致“警察=男性”的自动关联(92%的警察性别偏见直接来自训练数据分布)。
- 流畅性幻觉:陪审团和用户都更相信语法完美(非事实准确)的表述。
语言陷阱:“可能”的双重含义
- 安全机制:AI的“可能”60%是为规避标注员扣分,与概率无关。
- 知识盲区:40%的“可能”对应完全瞎猜,如学术句式包装的虚构结论。
- 人类复杂性:学者用“可能”表严谨,普通人用“可能”表不确定或敷衍。
价值取向的工业放大效应
大模型的幻觉不仅源于工作原理,更受三方面放大:数据本身的偏差(人类世界本就充满偏见)、RLHF奖励机制(奖励“听话”和“好看”的答案)、商业利益(编造答案成本比核实低7倍,流量导向助长虚假)。AI将人类原本的弱点变成了工业化产品,提示人类需重新学习什么是“真实”、“可信”和“我不知道”。
