上海交大联合腾讯提出BALTO框架:Token级信用分配精准消除大模型幻觉

2026/06/23 10:13阅读量 2

上海交通大学与腾讯联合提出BALTO(Balanced Token-Level Policy Optimization)框架,通过细粒度检测幻觉token并引入平衡的token级信用分配机制,解决大模型幻觉消除中响应级惩罚误伤正确内容的问题。实验表明,BALTO在ConFiQA、RAGTruth、FinLLM-Eval三个数据集上实现了忠实度与信息量的最优权衡,训练梯度更稳定、收敛更快。

事件概述

大语言模型在医疗、金融等高风险场景部署时,幻觉问题始终是关键挑战。上海交通大学与腾讯研究团队提出BALTO框架,将幻觉检测与优化粒度从回答级下沉到token级,实现精准纠错,避免误伤正确内容。

核心信息

问题本质

  • 在金融问答数据集FinLLM-Eval上的先导实验揭示:幻觉token平均仅占回答的2.77%(中位数1.87%),但94.7%的采样组中至少包含一条含有幻觉的回答。
  • 传统响应级强化学习方法(如GRPO)对整条回答统一打分,少量幻觉token导致低分时,大量正确内容被错误惩罚,引发“奖励黑客”问题——模型生成更短、更保守的回答以规避风险。

BALTO框架设计

阶段一:细粒度幻觉token检测

  1. 从模型回答中提取最小粒度的可验证事实声明(实体、数值、日期等)。
  2. 将每条声明与参考文档比对,判定为“忠实”或“幻觉”。
  3. 对幻觉声明,精准定位到最小错误token子集(如仅标记错误数字,而非整个句子)。

阶段二:平衡的token级信用分配

  • 幻觉token:优势值为-1(负向惩罚)
  • 忠实事实token:优势值为N⁻/N⁺(正向补偿,N⁻为幻觉token数,N⁺为忠实token数)
  • 中性token(非事实性内容):优势值为0
  • 该设计实现响应内零和平衡:每条回答中所有token优势值之和为零,引导模型将概率质量从幻觉内容重新分配到忠实内容上。

理论优势

  • 定理1(方差压缩):BALTO的梯度方差仅与幻觉token数量N⁻成正比(远小于回答总长度T),训练过程更稳定。
  • 定理2(全阶段优化效率):BALTO的token级优势值始终有界于[-1, 1],训练初期提供最强纠错信号,收敛阶段梯度自然衰减,全程稳定高效。

实验结果

在ConFiQA、RAGTruth、FinLLM-Eval三个基准数据集上,使用Qwen3-8B和Qwen3-4B模型,与SFT、DPO、GRPO(二值/密集奖励)、FSPO等基线对比:

  • BALTO是唯一在忠实度和信息量之间实现一致最优权衡的方法。
  • 梯度范数均值0.020,比响应级方法(0.145–0.214)小一个数量级。
  • BALTO仅需更新约12%的模型参数即可达到0.98忠实度,而GRPO需更新17%参数才能达0.93。
  • 消融实验验证:完全移除正向优势(PA=0)会导致忠实度和信息量大幅下降;固定正向优势(PA=0.3或1)性能不稳定;BALTO的自适应平衡机制在所有数据集上最优。

值得关注

BALTO的核心洞察是:消除幻觉不是压制回答,而是精准重新分配概率质量。该框架将事实检验粒度下沉到token级,引入平衡信用分配机制,使强化学习优化信号真正作用于“该改的地方”,避免误伤正确内容。对于金融分析、医疗问诊、法律咨询等要求事实准确性的场景具有实践价值。

论文链接:https://arxiv.org/abs/2606.15893

准备好启动您的定制项目了吗?

现在咨询,即可获得免费的业务梳理与技术架构建议方案。