苹果在CVPR 2026展示多项计算机视觉前沿研究

2026/05/28 08:00阅读量 2

苹果作为赞助商参加CVPR 2026（6月3-7日，丹佛），设有展位并带来多篇论文与特邀演讲。重点研究包括视频生成模型STARFlow-V、视觉统一分词器AToken、4D几何外观表征Velox、多模态LLM评估基准SO-Bench等，涉及视频理解、图像编辑、手语识别、模型公平性等方向。

事件概述

CVPR 2026于2026年6月3日至7日在丹佛科罗拉多会议中心举行。苹果是本届大会赞助商，在#231展位展示研究，并参与多场Workshop、口头报告与海报展示。

核心日程

6月3日：在GenSign Workshop上，Colin Lea作手语生成方向特邀主题演讲；在ECV Workshop上，Oncel Tuzel作高效深度学习演讲；在EDGE Workshop上，Oncel Tuzel与Lu Jiang分别就高效端侧生成作演讲；晚间WiCV活动中，Hsin-Ping (Cindy) Huang与Maggie Xiao代表苹果参与导师晚宴。
6月4日：在VidLLMs Workshop上，Afshin Dehghan作视频大语言模型方向特邀演讲。
6月5日：苹果展位上午10-12点展示VSAS-Bench（实时视觉流式助手评估），下午2-4点展示AToken（统一视觉分词器）。同期海报论文包括STARFlow-V（视频生成）、空间-功能智能基准、实用学习图像压缩等。
6月6日：展位上午10-12点展示STARFlow-V，下午2-4点展示Velox（4D几何与外观表征）和SO-Bench（多模态LLM结构输出评估）。海报论文包括手语注释启动、AMUSE（多说话人音频-视觉基准）、TrajTok（轨迹token视频理解）等。
6月7日：AToken获选为口头报告（上午9点）。下午海报包括UniGen-1.5（图像生成与编辑）、DSO（偏差缓解直接优化）、VSAS-Bench、Pico-Banana-400K（文本引导图像编辑数据集）、SO-Bench、运动嵌入学习等。

入选论文亮点

以下为核心论文（均为2025-2026年发表）：

STARFlow-V：端到端视频生成建模，采用归一化流方法。
AToken：统一视觉分词器，覆盖图像与视频任务。
Velox：学习4D几何与外观的表示。
AMUSE：多说话人音频-视觉理解基准与对齐框架。
VSAS-Bench：实时评估视觉流式助手模型。
SO-Bench：多模态大语言模型结构化输出评估。
TrajTok：学习轨迹token以提升视频理解。
UniGen-1.5：通过强化学习奖励统一增强图像生成与编辑。
DSO：直接导向优化减少模型偏差。
Bootstrapping Sign Language Annotations：利用手语模型自举标注数据。
Pico-Banana-400K：大规模文本引导图像编辑数据集。
From Where Things Are to What They’re For：评估多模态LLM的空间-功能智能。
Learning Long-term Motion Embeddings：高效运动生成的长时嵌入。
What Matters in Practical Learned Image Compression：实用学习型图像压缩的关键因素。

其他认可

Alex Colburn与Qi Shan获评杰出领域主席；Byeongjoo Ahn、Chen Chen、Fartash Faghri、Oncel Tuzel、Xiaoming Zhao担任领域主席；Jeffrey Bigham为VizWiz挑战赛Workshop联合组织者；Sanjoy Chowdhury、Barry-John Theobald、Santhosh Kumar Ramakrishnan、Raviteja Vemulapalli获评杰出审稿人。

阅读原文详情

事件概述

核心日程

入选论文亮点

其他认可

准备好启动您的定制项目了吗？