腾讯混元3D 2.0开源发布：融合生成与重建，性能逼近商业级模型

2026/04/16 16:57阅读量 96

腾讯正式开源HY-World 2.0（含HY-Pano 2.0），首次将文本/图像生成全景场景与多视角3D重建能力融合，构建从稀疏输入到可交互3D世界的完整闭环。该模型在点云F1-score等核心指标上超越SEVA、Gen3C等开源竞品30%以上，并在几何一致性与生成速度上逼近闭源商业模型Marble。作为全球首个开源多模态3D世界模型，其全链路代码与权重开放，显著降低了AGI空间智能的开发门槛。

事件概述

腾讯混元团队正式发布HY-World 2.0（包含HY-Pano 2.0模块），这是全球首个开源的多模态3D世界模型。该模型打破了传统3D建模领域“生成式模型几何精度不足”与“重建式模型缺乏想象力”的技术孤岛，首次实现了从稀疏输入（单图或文本）到可交互3D世界的完整技术闭环。

核心技术创新

全景生成突破：基于Multi-Modal Diffusion Transformer (MMDiT) 架构，HY-Pano 2.0无需相机元数据即可从单张图片或文本生成结构连贯的360°全景场景。在文本到全景（T2P）任务中，CLIP-T指标达0.258（行业最高）；在图像到全景（I2P）任务中，几何一致性全面优于CubeDiff、GenEx等模型。
智能探索规划：引入语义感知轨迹规划模块，融合全景点云、语义掩码与导航网格，自动生成无碰撞、全覆盖的相机路径，解决复杂场景下的视角盲区问题。
多视角一致性优化：通过全局几何记忆与空间立体记忆双机制，确保不同轨迹生成的视频在物体错位、光影矛盾等方面保持一致。结合Distribution Matching Distillation蒸馏技术，生成速度提升4倍。
通用重建能力：支持从多图或视频中恢复点云、深度图及法向量。通过归一化位置编码解决分辨率泛化难题，高分辨率下相机姿态AUC@30达86.89（较前代提升31%）；深度估计AbsRel误差降至0.162。

关键性能数据

点云质量：在Tanks-and-Temples数据集上，点云F1-score达到43.16，超越SEVA、Gen3C等主流开源模型30%以上。
对比闭源模型：在相同全景输入下，生成的3D场景与输入一致性达94%（商业模型Marble为88%），几何误差降低25%。
效率表现：端到端生成速度约12分钟/场景（712秒），远快于Marble的15分钟及开源竞品平均30分钟，效率提升超50%。
推理规模：支持序列并行与混合精度计算，单GPU可处理256视图，4GPU环境下128视图推理时间仅5.6秒。

应用场景与生态价值

游戏开发：内置物理碰撞检测与角色控制，可直接导入Unity/Unreal引擎。传统需数月完成的开放世界场景建模，现可通过文本描述在约12分钟内生成可交互场景。
机器人研发：基于真实环境重建高精度仿真场景，支持路径规划与视觉导航训练，已有多家企业利用该平台优化算法开发流程。
数字孪生：支持工厂、园区等场景的快速建模，仅需导入航拍视频即可在数小时内生成高精度3D模型，大幅降低运维成本。
配套工具：同步推出WorldLens高性能3DGS渲染平台，支持实时物理反馈和空间交互。

目前，HY-World 2.0的全部模型权重、代码及技术细节已对外开放，开发者可基于此进行二次开发，推动3D生成技术在更多领域的商业化落地。

阅读原文详情

事件概述

核心技术创新

关键性能数据

应用场景与生态价值

准备好启动您的定制项目了吗？