CVPR 2026：5篇获奖论文、1场跨界演讲、3个核心展台，揭示计算机视觉迈向具身智能的范式转移

2026/06/11 11:49阅读量 1

CVPR 2026收到16,092篇投稿，25.3%录取率，创多项纪录。5篇获奖论文中至少3篇指向具身智能；Simon Kohl的“可编程生物学”演讲打破CV与药物设计边界；NVIDIA、Tesla、Apple展台展示具身智能商业化进展。视觉-语言与多模态LLM论文占比从4.9%飙升至10.6%，中国高校在论文接收Top10中占八席。

事件概述

CVPR 2026于2026年6月在丹佛举办，共有16,092篇投稿，4,071篇录用，录取率25.3%。本届大会5篇获奖论文、1场特邀演讲和3个代表性展台，共同指向计算机视觉从“被动感知”向“主动理解与行动”的范式转移，具身智能成为绝对主线。

5篇获奖论文核心信息

最佳论文：D4RT（Google DeepMind / UCL / 牛津大学）
- 核心贡献：动态场景4D重建，将整段视频压缩为全局场景表示，通过统一解码接口输出深度图、点云、点轨迹、相机参数。
- 性能：比前代方法快300倍，达到动态4D重建与追踪新SOTA，支持全像素稠密重建。
- 意义：为机器人提供时空连续的人体运动感知，区分相机运动、物体运动和静态几何，助力人机协作。
最佳论文提名：NitroGen（NVIDIA / 斯坦福大学等）
- 定位：视觉-动作基础模型，在40,000小时游戏试玩视频（1000+游戏）上训练，零样本泛化至1000个游戏，任务成功率相对提升52%。
- 背景：Jim Fan团队研究脉络从SURREAL、MineDojo、Voyager、Eureka到NitroGen，指向通用具身Agent。
- 意义：框架可直接迁移至机器人模仿学习。
最佳论文提名：SAM 3D（Meta超级智能实验室）
- 内容：包含Objects（重建物体）与Body（估计人体）两个子模型，采用多阶段DiT架构，应对遮挡和凌乱环境。
- 数据：通过“人机协同”管线标注了规模空前的3D重建数据，融合合成数据预训练与真实世界对齐。
- 性能：人类偏好测试胜率至少5:1。
- 意义：机器人仅凭单张图像即可获取3D姿态和场景理解，无需深度传感器。
最佳学生论文：CLAY（清华大学 / 微软研究院 / 中国科学技术大学 / 微软AI）
- 创新：提出O-Voxel稀疏体素结构，编码几何与外观及PBR参数；基于此设计稀疏压缩VAE，训练4B参数流匹配模型用于3D生成。
- 性能：推理高效，生成资产几何与材质质量远超现有模型。
- 意义：可快速构建仿真环境，降低人机交互仿真成本。
最佳学生论文提名：ChordEdit（广东工业大学 / 惠州学院 / 深圳大学 / 北京大学）
- 核心：将一步式图像编辑重新表述为分布间的传输问题，基于动态最优传输理论推导低能量控制策略，使一步式扩散模型实现高保真实时编辑。
- 特点：模型无关、无需训练、无需反演。
- 意义：与端侧部署和实时交互需求契合。

1个演讲：Simon Kohl与“可编程生物学”

前DeepMind蛋白质设计团队核心成员、Latent Labs创始人兼CEO Simon Kohl发表题为“Programmable Biology: Generative AI for Molecular Design”的演讲。他指出传统药物研发因从错误分子出发导致90%候选药失败。其团队创建的AI智能体Latent-Y可自动完成靶点分析、提示词生成、并行设计及迭代全流程。在针对“不可成药”靶标（如KRAS）的压力测试中，AI仅用1天计算加4周验证，在结合力上与传统万亿级筛选相当。

3个展台代表

NVIDIA（Booth 211）：展示机器人抓取、自动驾驶研究、Nemotron 3 Nano Omni端侧多模态模型（统一视觉、音频、语言）。NVIDIA定位为具身智能生态的“军火商”，覆盖从训练到推理的全链条。
Tesla：在WDFM-EAI Workshop上，Autopilot负责人Ashok Elluswamy披露FSD上下文长度从约10秒增至约30秒，首次公开FSD模型完整输入/输出架构。战略意图是将自动驾驶作为具身AI平台一部分，与Optimus机器人项目协同。
Apple（Booth 231）：展示视频生成模型STARFlow-V、视觉统一分词器AToken、4D几何外观表征Velox等，研究方向与D4RT、SAM 3D形成呼应。

深层趋势

多模态与具身智能成为主线：视觉-语言与多模态LLM论文占比从4.9%升至10.6%，是CVPR近年最大增幅。
视觉架构从识别像素走向重建世界：D4RT、SAM 3D、CLAY均致力于从2D输入重建3D/4D世界表征。
重心从感知层移至认知层：D4RT、SAM 3D、NitroGen分别解决动态感知、空间感知和行动策略，研究者转向“理解”与“决策”。
中国力量从参会走向设局：高校论文接收Top10中中国占八席，上海交通大学46篇居首；腾讯为最高级别赞助商，MiniMax为白金赞助商；中国团队在GigaBrain Challenge 2026四个赛道包揽全部冠军。

阅读原文详情

事件概述

5篇获奖论文核心信息

1个演讲：Simon Kohl与“可编程生物学”

3个展台代表

深层趋势

准备好启动您的定制项目了吗？