港科广陈昶昊团队提出 LegoOcc：单张 RGB 图实现室内 3D 开放词汇占用预测，入选 CVPR 2026 口头报告

2026/05/12 15:43阅读量 5

港科广陈昶昊团队提出 LegoOcc，仅凭单张 RGB 图像即可预测室内 3D 空间的几何占用与开放类别语义，无需 3D 语义体素标注。在 Occ-ScanNet 上达到 59.50 IoU 与 21.05 mIoU，推理速度 22.47 FPS（RTX 4090）。该研究解决了室内场景中标注成本高和固定类别限制的问题，推动室内感知从固定识别迈向自然语言交互。

事件概述

香港科技大学（广州）陈昶昊团队提出 LegoOcc，实现仅用一张室内 RGB 图像进行开放词汇 3D 占用预测，无需多视角图像、深度图或激光雷达，也不依赖 3D 语义体素标注。该成果被 CVPR 2026 接收并入选口头报告。

核心信息

任务目标：从单张 RGB 图像预测局部 3D 空间中每个体素是否被占据（几何占用），并支持基于自然语言文本查询物体的语义类别（开放词汇）。
训练方式：仅使用二值几何占用标签（“是否有物体”），语义能力通过开放词汇 2D 分割模型（Trident）提取的语言特征对齐获得，无需人工标注 3D 语义类别。
关键设计：
- 基于泊松分布的高斯到占用转换：将每个高斯分布视为空间中的占用证据，多个高斯证据自然累积，解决多高斯重叠时透明度平均化导致的优化不稳定问题。
- 渐进式温度衰减：训练初期采用平滑融合稳定学习，后期降低温度使各高斯语义更加清晰；指数衰减策略效果最佳。
性能指标（Occ-ScanNet 数据集）：
- 几何占用 IoU：59.50（优于闭集方法 RoboOcc 的 56.48）
- 开放词汇语义 mIoU：21.05（远超基线 LOcc 的 9.25、POP-3D 的 5.96）
- 推理速度：22.47 FPS（单张 RTX 4090），高于 ISO（3.81 FPS）、EmbodiedOcc（11.48 FPS）等。
开放词汇查询：支持“背包”“鞋子”“纸张”等非固定类别文本查询，模型能将文本特征与 3D 空间特征匹配，定位对应物体。

值得关注

LegoOcc 显著降低了 3D 语义理解的训练成本——只需 2D 图像级标注即可驱动 3D 场景理解。其局限性在于语义 mIoU 仍低于使用完整语义监督的闭集方法，且依赖 2D 分割模型的质量与单目深度歧义。该研究为家庭机器人、辅助设备、AR/VR 等应用提供了低成本、可交互的室内 3D 感知方案。

阅读原文详情

事件概述

核心信息

值得关注

准备好启动您的定制项目了吗？