CVPR 2026:5篇获奖论文、1场跨界演讲、3个核心展台,揭示计算机视觉迈向具身智能的范式转移

2026/06/11 11:49阅读量 1

CVPR 2026收到16,092篇投稿,25.3%录取率,创多项纪录。5篇获奖论文中至少3篇指向具身智能;Simon Kohl的“可编程生物学”演讲打破CV与药物设计边界;NVIDIA、Tesla、Apple展台展示具身智能商业化进展。视觉-语言与多模态LLM论文占比从4.9%飙升至10.6%,中国高校在论文接收Top10中占八席。

事件概述

CVPR 2026于2026年6月在丹佛举办,共有16,092篇投稿,4,071篇录用,录取率25.3%。本届大会5篇获奖论文、1场特邀演讲和3个代表性展台,共同指向计算机视觉从“被动感知”向“主动理解与行动”的范式转移,具身智能成为绝对主线。

5篇获奖论文核心信息

  1. 最佳论文:D4RT(Google DeepMind / UCL / 牛津大学)

    • 核心贡献:动态场景4D重建,将整段视频压缩为全局场景表示,通过统一解码接口输出深度图、点云、点轨迹、相机参数。
    • 性能:比前代方法快300倍,达到动态4D重建与追踪新SOTA,支持全像素稠密重建。
    • 意义:为机器人提供时空连续的人体运动感知,区分相机运动、物体运动和静态几何,助力人机协作。
  2. 最佳论文提名:NitroGen(NVIDIA / 斯坦福大学等)

    • 定位:视觉-动作基础模型,在40,000小时游戏试玩视频(1000+游戏)上训练,零样本泛化至1000个游戏,任务成功率相对提升52%。
    • 背景:Jim Fan团队研究脉络从SURREAL、MineDojo、Voyager、Eureka到NitroGen,指向通用具身Agent。
    • 意义:框架可直接迁移至机器人模仿学习。
  3. 最佳论文提名:SAM 3D(Meta超级智能实验室)

    • 内容:包含Objects(重建物体)与Body(估计人体)两个子模型,采用多阶段DiT架构,应对遮挡和凌乱环境。
    • 数据:通过“人机协同”管线标注了规模空前的3D重建数据,融合合成数据预训练与真实世界对齐。
    • 性能:人类偏好测试胜率至少5:1。
    • 意义:机器人仅凭单张图像即可获取3D姿态和场景理解,无需深度传感器。
  4. 最佳学生论文:CLAY(清华大学 / 微软研究院 / 中国科学技术大学 / 微软AI)

    • 创新:提出O-Voxel稀疏体素结构,编码几何与外观及PBR参数;基于此设计稀疏压缩VAE,训练4B参数流匹配模型用于3D生成。
    • 性能:推理高效,生成资产几何与材质质量远超现有模型。
    • 意义:可快速构建仿真环境,降低人机交互仿真成本。
  5. 最佳学生论文提名:ChordEdit(广东工业大学 / 惠州学院 / 深圳大学 / 北京大学)

    • 核心:将一步式图像编辑重新表述为分布间的传输问题,基于动态最优传输理论推导低能量控制策略,使一步式扩散模型实现高保真实时编辑。
    • 特点:模型无关、无需训练、无需反演。
    • 意义:与端侧部署和实时交互需求契合。

1个演讲:Simon Kohl与“可编程生物学”

前DeepMind蛋白质设计团队核心成员、Latent Labs创始人兼CEO Simon Kohl发表题为“Programmable Biology: Generative AI for Molecular Design”的演讲。他指出传统药物研发因从错误分子出发导致90%候选药失败。其团队创建的AI智能体Latent-Y可自动完成靶点分析、提示词生成、并行设计及迭代全流程。在针对“不可成药”靶标(如KRAS)的压力测试中,AI仅用1天计算加4周验证,在结合力上与传统万亿级筛选相当。

3个展台代表

  1. NVIDIA(Booth 211):展示机器人抓取、自动驾驶研究、Nemotron 3 Nano Omni端侧多模态模型(统一视觉、音频、语言)。NVIDIA定位为具身智能生态的“军火商”,覆盖从训练到推理的全链条。
  2. Tesla:在WDFM-EAI Workshop上,Autopilot负责人Ashok Elluswamy披露FSD上下文长度从约10秒增至约30秒,首次公开FSD模型完整输入/输出架构。战略意图是将自动驾驶作为具身AI平台一部分,与Optimus机器人项目协同。
  3. Apple(Booth 231):展示视频生成模型STARFlow-V、视觉统一分词器AToken、4D几何外观表征Velox等,研究方向与D4RT、SAM 3D形成呼应。

深层趋势

  • 多模态与具身智能成为主线:视觉-语言与多模态LLM论文占比从4.9%升至10.6%,是CVPR近年最大增幅。
  • 视觉架构从识别像素走向重建世界:D4RT、SAM 3D、CLAY均致力于从2D输入重建3D/4D世界表征。
  • 重心从感知层移至认知层:D4RT、SAM 3D、NitroGen分别解决动态感知、空间感知和行动策略,研究者转向“理解”与“决策”。
  • 中国力量从参会走向设局:高校论文接收Top10中中国占八席,上海交通大学46篇居首;腾讯为最高级别赞助商,MiniMax为白金赞助商;中国团队在GigaBrain Challenge 2026四个赛道包揽全部冠军。

准备好启动您的定制项目了吗?

现在咨询,即可获得免费的业务梳理与技术架构建议方案。