邱锡鹏详解MOSS全模态技术:统一离散化建模与情境数据合成路径

2026/06/22 13:08阅读量 2

复旦大学邱锡鹏在访谈中详细阐述了“情境智能”技术路线,提出大模型发展核心在于输入维度的扩展与多模态统一建模。MOSS全模态体系通过离散化技术将语音、图像等连续信号转化为离散符号,复用Next-Token Prediction范式,解决了传统桥接式多模态架构的割裂问题。同时,合成管线和世界模型是构建高质量情境数据的关键来源。

情境智能是大模型发展的必然方向

复旦大学邱锡鹏提出“情境智能(Context Intelligence)”概念,认为大模型有三个可扩展方向:预训练规模化、推理路径优化、输入维度扩展。其中,情境扩展(Context Scaling)是核心演进路径,与DeepSeek V4等最新论文方向一致。情境智能系统需要覆盖文本、语音、图像、视频等全模态信息,并建立包含感知、表示、交付、持久化、反馈闭环的完整处理机制。

全模态统一离散化建模打破多模态割裂瓶颈

传统“文本优先”架构将非文本信息强行转化为文本会造成信息损失(如语音中的情绪、语气丢失)。MOSS的全模态统一架构通过离散化技术,将语音、图像、视频等连续信号转化为类似文本词元的离散符号,实现表示统一,可完全复用大语言模型的Next-Token Prediction训练范式,大幅提升可扩展性和训练效率。针对“不同模态统一会损失效率”的质疑,邱锡鹏认为统一建模带来的架构简洁性和规模化优势远超模态特异性的微小损失。

合成管线与世界模型是情境数据的核心来源

情境数据的构建包括三步骤:用文本大模型设计复杂交互场景→将场景转化为图像、语音等多模态数据→精细化标注。更前沿的方向是构建模拟沙箱和世界模型,通过模拟现实物理规律和社会规则的虚拟环境,让模型自主探索生成海量多样化的情境数据。邱锡鹏强调,随着模型向复杂情境理解演进,长轨迹、多模态、高复杂度的上下文数据将愈发关键,各家模型的差距主要体现在数据加工管线和高质量情境数据的积累上。

准备好启动您的定制项目了吗?

现在咨询,即可获得免费的业务梳理与技术架构建议方案。