北大港中文上海AI Lab联合提出VGGT-Edit：5秒完成3D场景编辑，加速120倍

2026/05/27 17:01阅读量 2

北京大学、香港中文大学、上海人工智能实验室等机构提出原生3D编辑框架VGGT-Edit，基于前馈重建模型，采用残差场预测与深度同步文本注入，在DeltaScene测试集上实现5秒完成单次3D场景编辑，语义一致性、多视角稳定性及推理速度均超越现有方法，最高加速120倍。

事件概述

现有3D重建模型（如NeRF、3D Gaussian Splatting、VGGT等）可快速从图片重建场景，但缺乏原生3D编辑能力：复杂编辑常导致多视角不一致（如物体在不同视角下消失或背景变形）。为应对这一挑战，北京大学、香港中文大学、上海AI Lab、南洋理工大学等团队提出VGGT-Edit，直接在3D空间完成编辑，而非绕回2D处理。

核心方法

残差场预测：不重新生成整个场景，而是保留原始场景结构，仅学习局部变化（如移动、删除、材质修改），表示为“新场景 = 原场景 + 局部残差变化”，确保未改动区域稳定。
深度同步文本注入：在多个关键层持续融合文本语义与3D空间特征，使模型在生成过程中明确“改哪里”和“改什么”，同时采用视角重要性加权，优先采用更可靠视角的信息。
专用编辑头：为VGGT-Like模型设计额外编辑分支，直接作用于3D表示空间，预测残差场变化，在保持整体稳定的前提下修改局部区域。

数据集与训练

团队构建了DeltaScene数据集，规模约10万组，覆盖客厅、办公室、住宅、商业空间等场景。数据生成流程高度自动化：利用Qwen3.5-Plus、SAM3、Qwen-Image-Editing-Max等工具自动完成编辑指令生成、目标识别、多视角编辑及3D一致性过滤，确保训练数据满足多视角几何一致。

实验结果

性能：在DeltaScene测试集上，VGGT-Edit在语义一致性、多视角稳定性、推理速度三个维度超过现有方法。添加家具、调整位置、修改材质等复杂任务中，结果更接近真实稳定的3D空间，无明显“贴图感”或几何漂移。
速度：单次编辑约5秒，相比传统方法最高实现120倍加速。
泛化性：对于训练中未见过的指令（如“将中间椅子顺时针旋转90度”），模型仍成功完成编辑，表明其学习到文本语义到3D空间变化的映射，而非固定模板。

值得关注

VGGT-Edit使3D编辑首次接近实时交互，对机器人、数字孪生、AR/VR等需要稳定可编辑3D世界的领域具有重要价值。论文地址：https://arxiv.org/abs/2605.15186

阅读原文详情

事件概述

核心方法

数据集与训练

实验结果

值得关注

准备好启动您的定制项目了吗？