Apple 亮相 ICASSP 2026：发布三项语音与音频生成新研究

2026/04/30 08:00阅读量 5

Apple 在西班牙巴塞罗那举办的 ICASSP 2026 大会上展示了三项关于语音处理和音频生成的最新研究成果，并赞助了该会议。核心成果涵盖利用视听数据缩小自监督语音模型的多语言差距、视频驱动的立体声对象感知音频生成，以及针对语音投机解码的粗粒度接受原则。此外，Apple 团队还担任了多个分会主席及审稿人角色，积极参与学术交流。

事件概述

Apple Machine Learning Research 团队于 2026 年 5 月 4 日至 8 日在西班牙巴塞罗那国际会议中心（CCIB）参加了年度International Conference on Acoustics, Speech and Signal Processing (ICASSP) 2026。作为会议的赞助商，Apple 展示了其在信号处理及其应用领域的最新研究进展。

核心信息

1. 展示的研究论文

本次大会共展示了三项主要研究成果，涵盖自监督学习、音频生成及推理优化领域：

利用视听数据缩小自监督语音模型的多语言差距
- 类型：海报展示 (Poster)
- 时间：5 月 6 日 16:30 - 18:30
- 地点：SLP-P25 区域 (Audio-Visual Speech Recognition)
- 作者：María Andrea Cruz Blandón (坦佩雷大学), Zakaria Aldeneh, Jie Chi, Maureen de Seyssel
- 内容方向：探索如何通过结合音频与视觉数据，解决自监督语音模型在多语言场景下的性能差异问题。
StereoFoley：基于视频的对象感知立体声音频生成
- 类型：海报展示 (Poster)
- 时间：5 月 8 日 14:00 - 16:00
- 地点：AASP-P30 区域 (Audio for Video and Multimedia)
- 作者：Tornike Karchkhadze (加州大学圣地亚哥分校), Moji Heydari, Kuan-Lin Chen, Josh Atkins, Mehrez Souden, Robert Henzel, Alessandro Toso
- 内容方向：提出一种从视频中生成具有对象感知能力的立体声音频的技术框架。
语音投机解码中的原则性粗粒度接受方法
- 类型：口头报告 (Oral)
- 时间：5 月 8 日 15:00 - 15:20
- 地点：Room 114 (Streaming and Efficient TTS Systems)
- 作者：Moran Yanuka, Paul Dixon, Eyal Finkelshtein, Daniel Rotman, Raja Giryes (特拉维夫大学)
- 内容方向：针对语音领域的投机解码（Speculative Decoding）技术，提出了一种更高效的粗粒度接受策略，旨在提升流式文本转语音（TTS）系统的效率。

2. 团队参与情况

除展示论文外，Apple 研究人员深度参与了会议的学术组织工作：

区域主席 (Area Chairs)：Daniele Giacobello, Kumari Nishu, Nimshi Venkat Meripo, Sakshi Rathi, Sibel Oyman, Xuankai Chang, Zijin Gu。
分会场主席 (Session Chair)：Bo-Hao Su。
研讨会联合组织者：Daniele Giacobello 组织了“面向远程存在和扩展现实应用的数据科学”研讨会。
审稿人：Bo-Hao Su, Honor Chen。

3. 展位信息

展位号：#P2
开放时间：
- 5 月 4 日（周一）：19:00 - 21:30
- 5 月 5 日至 8 日：09:00 - 17:00
时区：CEST (中欧夏令时)

阅读原文详情

事件概述

核心信息

1. 展示的研究论文

2. 团队参与情况

3. 展位信息

准备好启动您的定制项目了吗？