腾讯混元开源WorldCompass:为长时序世界模型引入强化学习“指南针”

腾讯混元3D团队正式开源首个面向世界模型的强化学习后训练框架WorldCompass。该框架专为长时序、交互式场景设计,旨在通过强化学习机制引导模型更精准地遵循指令并维持视觉一致性。此举标志着世界模型在从被动生成向主动交互探索方向迈出了关键一步。

事件概述

2026年3月10日,腾讯混元3D团队宣布开源 WorldCompass。这是业界首个专为**世界模型(World Models)**设计的强化学习(RL)后训练框架。

核心功能与定位

  • 角色定义:若将世界模型比作驱动智能的“引擎”,WorldCompass则充当精准的“指南针”。
  • 技术路径:通过引入强化学习机制,对预训练的世界模型进行后训练(Post-training)优化。
  • 解决痛点:重点解决长时序任务中的指令遵循问题,确保模型在复杂交互中能准确理解并执行用户意图。
  • 关键能力:在长序列的时间跨度内,保持视觉内容的高度一致性与逻辑连贯性。

应用场景价值

WorldCompass 主要针对长时序、交互式的世界模型应用场景。它使得模型不再仅仅是静态的视频生成器,而是能够像导航一样,根据用户的动态指令主动探索虚拟世界,同时避免在长时间运行中出现画面崩坏或逻辑偏离。

准备好启动您的定制项目了吗?

现在咨询,即可获得免费的业务梳理与技术架构建议方案。