苹果 AMUSE 框架:突破多说话人音视频理解瓶颈2026/02/24 08:00阅读量 5一套让 AI 能精准分辨多人对话中“谁在何时说了什么”的音视频理解与对齐框架 解决现有多模态模型在多人对话场景中角色混淆、时空定位不准及缺乏代理推理能力的问题 提出 RAFT 对齐框架,结合奖励优化与自我评估,仅需少量参数调整即可实现准确率提升近 40%暂无可展示正文阅读原文详情