港科广陈昶昊团队提出 LegoOcc:单张 RGB 图实现室内 3D 开放词汇占用预测,入选 CVPR 2026 口头报告
2026/05/12 15:43阅读量 5
港科广陈昶昊团队提出 LegoOcc,仅凭单张 RGB 图像即可预测室内 3D 空间的几何占用与开放类别语义,无需 3D 语义体素标注。在 Occ-ScanNet 上达到 59.50 IoU 与 21.05 mIoU,推理速度 22.47 FPS(RTX 4090)。该研究解决了室内场景中标注成本高和固定类别限制的问题,推动室内感知从固定识别迈向自然语言交互。
事件概述
香港科技大学(广州)陈昶昊团队提出 LegoOcc,实现仅用一张室内 RGB 图像进行开放词汇 3D 占用预测,无需多视角图像、深度图或激光雷达,也不依赖 3D 语义体素标注。该成果被 CVPR 2026 接收并入选口头报告。
核心信息
- 任务目标:从单张 RGB 图像预测局部 3D 空间中每个体素是否被占据(几何占用),并支持基于自然语言文本查询物体的语义类别(开放词汇)。
- 训练方式:仅使用二值几何占用标签(“是否有物体”),语义能力通过开放词汇 2D 分割模型(Trident)提取的语言特征对齐获得,无需人工标注 3D 语义类别。
- 关键设计:
- 基于泊松分布的高斯到占用转换:将每个高斯分布视为空间中的占用证据,多个高斯证据自然累积,解决多高斯重叠时透明度平均化导致的优化不稳定问题。
- 渐进式温度衰减:训练初期采用平滑融合稳定学习,后期降低温度使各高斯语义更加清晰;指数衰减策略效果最佳。
- 性能指标(Occ-ScanNet 数据集):
- 几何占用 IoU:59.50(优于闭集方法 RoboOcc 的 56.48)
- 开放词汇语义 mIoU:21.05(远超基线 LOcc 的 9.25、POP-3D 的 5.96)
- 推理速度:22.47 FPS(单张 RTX 4090),高于 ISO(3.81 FPS)、EmbodiedOcc(11.48 FPS)等。
- 开放词汇查询:支持“背包”“鞋子”“纸张”等非固定类别文本查询,模型能将文本特征与 3D 空间特征匹配,定位对应物体。
值得关注
LegoOcc 显著降低了 3D 语义理解的训练成本——只需 2D 图像级标注即可驱动 3D 场景理解。其局限性在于语义 mIoU 仍低于使用完整语义监督的闭集方法,且依赖 2D 分割模型的质量与单目深度歧义。该研究为家庭机器人、辅助设备、AR/VR 等应用提供了低成本、可交互的室内 3D 感知方案。
