腾讯混元3D 2.0开源发布:融合生成与重建,性能逼近商业级模型

2026/04/16 16:57阅读量 3

腾讯正式开源HY-World 2.0(含HY-Pano 2.0),首次将文本/图像生成全景场景与多视角3D重建能力融合,构建从稀疏输入到可交互3D世界的完整闭环。该模型在点云F1-score等核心指标上超越SEVA、Gen3C等开源竞品30%以上,并在几何一致性与生成速度上逼近闭源商业模型Marble。作为全球首个开源多模态3D世界模型,其全链路代码与权重开放,显著降低了AGI空间智能的开发门槛。

事件概述

腾讯混元团队正式发布HY-World 2.0(包含HY-Pano 2.0模块),这是全球首个开源的多模态3D世界模型。该模型打破了传统3D建模领域“生成式模型几何精度不足”与“重建式模型缺乏想象力”的技术孤岛,首次实现了从稀疏输入(单图或文本)到可交互3D世界的完整技术闭环。

核心技术创新

  • 全景生成突破:基于Multi-Modal Diffusion Transformer (MMDiT) 架构,HY-Pano 2.0无需相机元数据即可从单张图片或文本生成结构连贯的360°全景场景。在文本到全景(T2P)任务中,CLIP-T指标达0.258(行业最高);在图像到全景(I2P)任务中,几何一致性全面优于CubeDiff、GenEx等模型。
  • 智能探索规划:引入语义感知轨迹规划模块,融合全景点云、语义掩码与导航网格,自动生成无碰撞、全覆盖的相机路径,解决复杂场景下的视角盲区问题。
  • 多视角一致性优化:通过全局几何记忆与空间立体记忆双机制,确保不同轨迹生成的视频在物体错位、光影矛盾等方面保持一致。结合Distribution Matching Distillation蒸馏技术,生成速度提升4倍。
  • 通用重建能力:支持从多图或视频中恢复点云、深度图及法向量。通过归一化位置编码解决分辨率泛化难题,高分辨率下相机姿态AUC@30达86.89(较前代提升31%);深度估计AbsRel误差降至0.162。

关键性能数据

  • 点云质量:在Tanks-and-Temples数据集上,点云F1-score达到43.16,超越SEVA、Gen3C等主流开源模型30%以上
  • 对比闭源模型:在相同全景输入下,生成的3D场景与输入一致性达94%(商业模型Marble为88%),几何误差降低25%。
  • 效率表现:端到端生成速度约12分钟/场景(712秒),远快于Marble的15分钟及开源竞品平均30分钟,效率提升超50%。
  • 推理规模:支持序列并行与混合精度计算,单GPU可处理256视图,4GPU环境下128视图推理时间仅5.6秒。

应用场景与生态价值

  • 游戏开发:内置物理碰撞检测与角色控制,可直接导入Unity/Unreal引擎。传统需数月完成的开放世界场景建模,现可通过文本描述在约12分钟内生成可交互场景。
  • 机器人研发:基于真实环境重建高精度仿真场景,支持路径规划与视觉导航训练,已有多家企业利用该平台优化算法开发流程。
  • 数字孪生:支持工厂、园区等场景的快速建模,仅需导入航拍视频即可在数小时内生成高精度3D模型,大幅降低运维成本。
  • 配套工具:同步推出WorldLens高性能3DGS渲染平台,支持实时物理反馈和空间交互。

目前,HY-World 2.0的全部模型权重、代码及技术细节已对外开放,开发者可基于此进行二次开发,推动3D生成技术在更多领域的商业化落地。

准备好启动您的定制项目了吗?

现在咨询,即可获得免费的业务梳理与技术架构建议方案。