上海交大联合腾讯提出BALTO框架:Token级信用分配精准消除大模型幻觉
2026/06/23 10:13阅读量 2
上海交通大学与腾讯联合提出BALTO(Balanced Token-Level Policy Optimization)框架,通过细粒度检测幻觉token并引入平衡的token级信用分配机制,解决大模型幻觉消除中响应级惩罚误伤正确内容的问题。实验表明,BALTO在ConFiQA、RAGTruth、FinLLM-Eval三个数据集上实现了忠实度与信息量的最优权衡,训练梯度更稳定、收敛更快。
事件概述
大语言模型在医疗、金融等高风险场景部署时,幻觉问题始终是关键挑战。上海交通大学与腾讯研究团队提出BALTO框架,将幻觉检测与优化粒度从回答级下沉到token级,实现精准纠错,避免误伤正确内容。
核心信息
问题本质
- 在金融问答数据集FinLLM-Eval上的先导实验揭示:幻觉token平均仅占回答的2.77%(中位数1.87%),但94.7%的采样组中至少包含一条含有幻觉的回答。
- 传统响应级强化学习方法(如GRPO)对整条回答统一打分,少量幻觉token导致低分时,大量正确内容被错误惩罚,引发“奖励黑客”问题——模型生成更短、更保守的回答以规避风险。
BALTO框架设计
阶段一:细粒度幻觉token检测
- 从模型回答中提取最小粒度的可验证事实声明(实体、数值、日期等)。
- 将每条声明与参考文档比对,判定为“忠实”或“幻觉”。
- 对幻觉声明,精准定位到最小错误token子集(如仅标记错误数字,而非整个句子)。
阶段二:平衡的token级信用分配
- 幻觉token:优势值为-1(负向惩罚)
- 忠实事实token:优势值为N⁻/N⁺(正向补偿,N⁻为幻觉token数,N⁺为忠实token数)
- 中性token(非事实性内容):优势值为0
- 该设计实现响应内零和平衡:每条回答中所有token优势值之和为零,引导模型将概率质量从幻觉内容重新分配到忠实内容上。
理论优势
- 定理1(方差压缩):BALTO的梯度方差仅与幻觉token数量N⁻成正比(远小于回答总长度T),训练过程更稳定。
- 定理2(全阶段优化效率):BALTO的token级优势值始终有界于[-1, 1],训练初期提供最强纠错信号,收敛阶段梯度自然衰减,全程稳定高效。
实验结果
在ConFiQA、RAGTruth、FinLLM-Eval三个基准数据集上,使用Qwen3-8B和Qwen3-4B模型,与SFT、DPO、GRPO(二值/密集奖励)、FSPO等基线对比:
- BALTO是唯一在忠实度和信息量之间实现一致最优权衡的方法。
- 梯度范数均值0.020,比响应级方法(0.145–0.214)小一个数量级。
- BALTO仅需更新约12%的模型参数即可达到0.98忠实度,而GRPO需更新17%参数才能达0.93。
- 消融实验验证:完全移除正向优势(PA=0)会导致忠实度和信息量大幅下降;固定正向优势(PA=0.3或1)性能不稳定;BALTO的自适应平衡机制在所有数据集上最优。
值得关注
BALTO的核心洞察是:消除幻觉不是压制回答,而是精准重新分配概率质量。该框架将事实检验粒度下沉到token级,引入平衡信用分配机制,使强化学习优化信号真正作用于“该改的地方”,避免误伤正确内容。对于金融分析、医疗问诊、法律咨询等要求事实准确性的场景具有实践价值。
