苹果在CVPR 2026展示多项计算机视觉前沿研究

2026/05/28 08:00阅读量 2

苹果作为赞助商参加CVPR 2026(6月3-7日,丹佛),设有展位并带来多篇论文与特邀演讲。重点研究包括视频生成模型STARFlow-V、视觉统一分词器AToken、4D几何外观表征Velox、多模态LLM评估基准SO-Bench等,涉及视频理解、图像编辑、手语识别、模型公平性等方向。

事件概述

CVPR 2026于2026年6月3日至7日在丹佛科罗拉多会议中心举行。苹果是本届大会赞助商,在#231展位展示研究,并参与多场Workshop、口头报告与海报展示。

核心日程

  • 6月3日:在GenSign Workshop上,Colin Lea作手语生成方向特邀主题演讲;在ECV Workshop上,Oncel Tuzel作高效深度学习演讲;在EDGE Workshop上,Oncel Tuzel与Lu Jiang分别就高效端侧生成作演讲;晚间WiCV活动中,Hsin-Ping (Cindy) Huang与Maggie Xiao代表苹果参与导师晚宴。
  • 6月4日:在VidLLMs Workshop上,Afshin Dehghan作视频大语言模型方向特邀演讲。
  • 6月5日:苹果展位上午10-12点展示VSAS-Bench(实时视觉流式助手评估),下午2-4点展示AToken(统一视觉分词器)。同期海报论文包括STARFlow-V(视频生成)、空间-功能智能基准、实用学习图像压缩等。
  • 6月6日:展位上午10-12点展示STARFlow-V,下午2-4点展示Velox(4D几何与外观表征)和SO-Bench(多模态LLM结构输出评估)。海报论文包括手语注释启动、AMUSE(多说话人音频-视觉基准)、TrajTok(轨迹token视频理解)等。
  • 6月7日:AToken获选为口头报告(上午9点)。下午海报包括UniGen-1.5(图像生成与编辑)、DSO(偏差缓解直接优化)、VSAS-Bench、Pico-Banana-400K(文本引导图像编辑数据集)、SO-Bench、运动嵌入学习等。

入选论文亮点

以下为核心论文(均为2025-2026年发表):

  • STARFlow-V:端到端视频生成建模,采用归一化流方法。
  • AToken:统一视觉分词器,覆盖图像与视频任务。
  • Velox:学习4D几何与外观的表示。
  • AMUSE:多说话人音频-视觉理解基准与对齐框架。
  • VSAS-Bench:实时评估视觉流式助手模型。
  • SO-Bench:多模态大语言模型结构化输出评估。
  • TrajTok:学习轨迹token以提升视频理解。
  • UniGen-1.5:通过强化学习奖励统一增强图像生成与编辑。
  • DSO:直接导向优化减少模型偏差。
  • Bootstrapping Sign Language Annotations:利用手语模型自举标注数据。
  • Pico-Banana-400K:大规模文本引导图像编辑数据集。
  • From Where Things Are to What They’re For:评估多模态LLM的空间-功能智能。
  • Learning Long-term Motion Embeddings:高效运动生成的长时嵌入。
  • What Matters in Practical Learned Image Compression:实用学习型图像压缩的关键因素。

其他认可

Alex Colburn与Qi Shan获评杰出领域主席;Byeongjoo Ahn、Chen Chen、Fartash Faghri、Oncel Tuzel、Xiaoming Zhao担任领域主席;Jeffrey Bigham为VizWiz挑战赛Workshop联合组织者;Sanjoy Chowdhury、Barry-John Theobald、Santhosh Kumar Ramakrishnan、Raviteja Vemulapalli获评杰出审稿人。

来源:Apple Machine Learning Research
返回列表

准备好启动您的定制项目了吗?

现在咨询,即可获得免费的业务梳理与技术架构建议方案。