上海交大联合腾讯提出BALTO框架：Token级信用分配精准消除大模型幻觉

2026/06/23 10:13阅读量 2

上海交通大学与腾讯联合提出BALTO（Balanced Token-Level Policy Optimization）框架，通过细粒度检测幻觉token并引入平衡的token级信用分配机制，解决大模型幻觉消除中响应级惩罚误伤正确内容的问题。实验表明，BALTO在ConFiQA、RAGTruth、FinLLM-Eval三个数据集上实现了忠实度与信息量的最优权衡，训练梯度更稳定、收敛更快。

事件概述

大语言模型在医疗、金融等高风险场景部署时，幻觉问题始终是关键挑战。上海交通大学与腾讯研究团队提出BALTO框架，将幻觉检测与优化粒度从回答级下沉到token级，实现精准纠错，避免误伤正确内容。

核心信息

问题本质

在金融问答数据集FinLLM-Eval上的先导实验揭示：幻觉token平均仅占回答的2.77%（中位数1.87%），但94.7%的采样组中至少包含一条含有幻觉的回答。
传统响应级强化学习方法（如GRPO）对整条回答统一打分，少量幻觉token导致低分时，大量正确内容被错误惩罚，引发“奖励黑客”问题——模型生成更短、更保守的回答以规避风险。

BALTO框架设计

阶段一：细粒度幻觉token检测

从模型回答中提取最小粒度的可验证事实声明（实体、数值、日期等）。
将每条声明与参考文档比对，判定为“忠实”或“幻觉”。
对幻觉声明，精准定位到最小错误token子集（如仅标记错误数字，而非整个句子）。

阶段二：平衡的token级信用分配

幻觉token：优势值为-1（负向惩罚）
忠实事实token：优势值为N⁻/N⁺（正向补偿，N⁻为幻觉token数，N⁺为忠实token数）
中性token（非事实性内容）：优势值为0
该设计实现响应内零和平衡：每条回答中所有token优势值之和为零，引导模型将概率质量从幻觉内容重新分配到忠实内容上。

理论优势

定理1（方差压缩）：BALTO的梯度方差仅与幻觉token数量N⁻成正比（远小于回答总长度T），训练过程更稳定。
定理2（全阶段优化效率）：BALTO的token级优势值始终有界于[-1, 1]，训练初期提供最强纠错信号，收敛阶段梯度自然衰减，全程稳定高效。

实验结果

在ConFiQA、RAGTruth、FinLLM-Eval三个基准数据集上，使用Qwen3-8B和Qwen3-4B模型，与SFT、DPO、GRPO（二值/密集奖励）、FSPO等基线对比：

BALTO是唯一在忠实度和信息量之间实现一致最优权衡的方法。
梯度范数均值0.020，比响应级方法（0.145–0.214）小一个数量级。
BALTO仅需更新约12%的模型参数即可达到0.98忠实度，而GRPO需更新17%参数才能达0.93。
消融实验验证：完全移除正向优势（PA=0）会导致忠实度和信息量大幅下降；固定正向优势（PA=0.3或1）性能不稳定；BALTO的自适应平衡机制在所有数据集上最优。

值得关注

BALTO的核心洞察是：消除幻觉不是压制回答，而是精准重新分配概率质量。该框架将事实检验粒度下沉到token级，引入平衡信用分配机制，使强化学习优化信号真正作用于“该改的地方”，避免误伤正确内容。对于金融分析、医疗问诊、法律咨询等要求事实准确性的场景具有实践价值。

论文链接：https://arxiv.org/abs/2606.15893

阅读原文详情