北大港中文上海AI Lab联合提出VGGT-Edit:5秒完成3D场景编辑,加速120倍

2026/05/27 17:01阅读量 2

北京大学、香港中文大学、上海人工智能实验室等机构提出原生3D编辑框架VGGT-Edit,基于前馈重建模型,采用残差场预测与深度同步文本注入,在DeltaScene测试集上实现5秒完成单次3D场景编辑,语义一致性、多视角稳定性及推理速度均超越现有方法,最高加速120倍。

事件概述

现有3D重建模型(如NeRF、3D Gaussian Splatting、VGGT等)可快速从图片重建场景,但缺乏原生3D编辑能力:复杂编辑常导致多视角不一致(如物体在不同视角下消失或背景变形)。为应对这一挑战,北京大学、香港中文大学、上海AI Lab、南洋理工大学等团队提出VGGT-Edit,直接在3D空间完成编辑,而非绕回2D处理。

核心方法

  • 残差场预测:不重新生成整个场景,而是保留原始场景结构,仅学习局部变化(如移动、删除、材质修改),表示为“新场景 = 原场景 + 局部残差变化”,确保未改动区域稳定。
  • 深度同步文本注入:在多个关键层持续融合文本语义与3D空间特征,使模型在生成过程中明确“改哪里”和“改什么”,同时采用视角重要性加权,优先采用更可靠视角的信息。
  • 专用编辑头:为VGGT-Like模型设计额外编辑分支,直接作用于3D表示空间,预测残差场变化,在保持整体稳定的前提下修改局部区域。

数据集与训练

团队构建了DeltaScene数据集,规模约10万组,覆盖客厅、办公室、住宅、商业空间等场景。数据生成流程高度自动化:利用Qwen3.5-Plus、SAM3、Qwen-Image-Editing-Max等工具自动完成编辑指令生成、目标识别、多视角编辑及3D一致性过滤,确保训练数据满足多视角几何一致。

实验结果

  • 性能:在DeltaScene测试集上,VGGT-Edit在语义一致性、多视角稳定性、推理速度三个维度超过现有方法。添加家具、调整位置、修改材质等复杂任务中,结果更接近真实稳定的3D空间,无明显“贴图感”或几何漂移。
  • 速度:单次编辑约5秒,相比传统方法最高实现120倍加速。
  • 泛化性:对于训练中未见过的指令(如“将中间椅子顺时针旋转90度”),模型仍成功完成编辑,表明其学习到文本语义到3D空间变化的映射,而非固定模板。

值得关注

VGGT-Edit使3D编辑首次接近实时交互,对机器人、数字孪生、AR/VR等需要稳定可编辑3D世界的领域具有重要价值。论文地址:https://arxiv.org/abs/2605.15186

准备好启动您的定制项目了吗?

现在咨询,即可获得免费的业务梳理与技术架构建议方案。