Apple 亮相 ICASSP 2026:发布三项语音与音频生成新研究

2026/04/30 08:00阅读量 5

Apple 在西班牙巴塞罗那举办的 ICASSP 2026 大会上展示了三项关于语音处理和音频生成的最新研究成果,并赞助了该会议。核心成果涵盖利用视听数据缩小自监督语音模型的多语言差距、视频驱动的立体声对象感知音频生成,以及针对语音投机解码的粗粒度接受原则。此外,Apple 团队还担任了多个分会主席及审稿人角色,积极参与学术交流。

事件概述

Apple Machine Learning Research 团队于 2026 年 5 月 4 日至 8 日在西班牙巴塞罗那国际会议中心(CCIB)参加了年度International Conference on Acoustics, Speech and Signal Processing (ICASSP) 2026。作为会议的赞助商,Apple 展示了其在信号处理及其应用领域的最新研究进展。

核心信息

1. 展示的研究论文

本次大会共展示了三项主要研究成果,涵盖自监督学习、音频生成及推理优化领域:

  • 利用视听数据缩小自监督语音模型的多语言差距

    • 类型:海报展示 (Poster)
    • 时间:5 月 6 日 16:30 - 18:30
    • 地点:SLP-P25 区域 (Audio-Visual Speech Recognition)
    • 作者:María Andrea Cruz Blandón (坦佩雷大学), Zakaria Aldeneh, Jie Chi, Maureen de Seyssel
    • 内容方向:探索如何通过结合音频与视觉数据,解决自监督语音模型在多语言场景下的性能差异问题。
  • StereoFoley:基于视频的对象感知立体声音频生成

    • 类型:海报展示 (Poster)
    • 时间:5 月 8 日 14:00 - 16:00
    • 地点:AASP-P30 区域 (Audio for Video and Multimedia)
    • 作者:Tornike Karchkhadze (加州大学圣地亚哥分校), Moji Heydari, Kuan-Lin Chen, Josh Atkins, Mehrez Souden, Robert Henzel, Alessandro Toso
    • 内容方向:提出一种从视频中生成具有对象感知能力的立体声音频的技术框架。
  • 语音投机解码中的原则性粗粒度接受方法

    • 类型:口头报告 (Oral)
    • 时间:5 月 8 日 15:00 - 15:20
    • 地点:Room 114 (Streaming and Efficient TTS Systems)
    • 作者:Moran Yanuka, Paul Dixon, Eyal Finkelshtein, Daniel Rotman, Raja Giryes (特拉维夫大学)
    • 内容方向:针对语音领域的投机解码(Speculative Decoding)技术,提出了一种更高效的粗粒度接受策略,旨在提升流式文本转语音(TTS)系统的效率。

2. 团队参与情况

除展示论文外,Apple 研究人员深度参与了会议的学术组织工作:

  • 区域主席 (Area Chairs):Daniele Giacobello, Kumari Nishu, Nimshi Venkat Meripo, Sakshi Rathi, Sibel Oyman, Xuankai Chang, Zijin Gu。
  • 分会场主席 (Session Chair):Bo-Hao Su。
  • 研讨会联合组织者:Daniele Giacobello 组织了“面向远程存在和扩展现实应用的数据科学”研讨会。
  • 审稿人:Bo-Hao Su, Honor Chen。

3. 展位信息

  • 展位号:#P2
  • 开放时间
    • 5 月 4 日(周一):19:00 - 21:30
    • 5 月 5 日至 8 日:09:00 - 17:00
  • 时区:CEST (中欧夏令时)
来源:Apple Machine Learning Research
返回列表

准备好启动您的定制项目了吗?

现在咨询,即可获得免费的业务梳理与技术架构建议方案。