Apple ICLR 2026:RNN并行训练突破、SSM工具增强及单图3D重建等核心成果

2026/04/22 08:00阅读量 2

Apple在ICLR 2026上展示了多项机器学习前沿研究,包括实现70亿参数经典RNN的并行训练框架ParaRNN,以及通过外部工具交互解决状态空间模型(SSM)长文本生成局限性的新方法。此外,Apple发布了统一图像理解与生成的MANZANO模型、秒级单图3D重建技术SHARP,以及基于标准Transformer架构的蛋白质折叠模型SimpleFold。这些成果旨在提升序列建模效率、多模态对齐能力及生物计算领域的通用性。

事件概述

第十四届国际学习表征会议(ICLR 2026)于巴西里约热内卢举行,Apple Machine Learning Research团队参与了主会议及相关研讨会,并赞助了支持多元群体的活动。Apple研究人员在多个领域展示了最新研究成果,并在展位#204提供了现场演示,涵盖本地LLM推理及实时3D场景生成等技术。

核心研究亮点

1. 解锁RNN的大规模并行训练 (ParaRNN)

  • 背景挑战:循环神经网络(RNN)虽推理高效,但传统串行计算模式使其难以扩展至数十亿参数规模。
  • 技术突破:Apple提出ParaRNN框架,实现了非线性RNN的并行化训练,相比传统串行方法速度提升665倍
  • 性能表现:该框架成功训练出首个70亿参数的经典RNN模型,其语言建模性能可与Transformer及Mamba2相媲美。
  • 开源贡献:代码已作为开源框架发布,支持自动训练并行化,便于探索新型非线性RNN模型。

2. 增强状态空间模型 (SSMs) 的长程泛化能力

  • 问题发现:尽管SSM(如Mamba)在长上下文处理上具有线性复杂度优势,但其固定内存限制导致在处理复杂长任务时性能下降,即使引入思维链(CoT)也无法解决。
  • 解决方案:论文《To Infinity and Beyond》提出让SSM交互式访问外部工具。通过合理的工具选择与针对性训练数据,SSM能够解决任意可解问题,并泛化至任意长度和复杂度的任务。
  • 实验结果:工具增强的SSM在算术、推理及编码任务中展现出强大的长度泛化能力,证明了其在交互式代理(Agentic)场景下替代Transformer的潜力。

3. 统一图像理解与生成 (MANZANO)

  • 架构创新:提出MANZANO模型,采用混合视觉分词器(Hybrid Vision Tokenizer)。利用单一共享视觉编码器,通过两个轻量适配器分别生成连续嵌入(用于理解)和离散令牌(用于生成)。
  • 工作流程:统一的自回归LLM预测高层语义(文本与图像令牌),辅助扩散解码器将图像令牌转换为像素。
  • 效果评估:该模型在统一模型类别中达到最先进水平(SOTA),在文本丰富型评估中与专用模型相当,有效缓解了理解与生成之间的性能权衡。

4. 单图快速3D场景重建 (SHARP)

  • 技术名称SHARP (Single-image High-Accuracy Real-time Parallax)。
  • 核心能力:仅需单次前向传播,即可在标准GPU上于1秒内从单张照片生成3D高斯表示。
  • 性能指标
    • 支持度量相机运动,提供绝对尺度。
    • 零样本泛化能力强,在多个数据集上刷新SOTA。
    • LPIPS降低25-34%,DISTS降低21-43%。
    • 合成时间比最佳 prior 模型减少三个数量级。
    • 渲染帧率超过100 FPS。

5. 简化蛋白质折叠预测 (SimpleFold)

  • 方法特点:摒弃复杂的专用架构,仅使用标准的Transformer块构建通用架构。
  • 应用场景:根据氨基酸序列预测蛋白质的三维原子坐标,助力药物发现与生物技术。
  • 部署优化:提供代码与模型检查点,可在配备Apple Silicon的Mac设备上利用MLX框架高效本地运行。
  • 性能表现:在CASP14等基准测试中,随着模型规模(1亿至30亿参数)增加,性能持续提升。

展会演示内容

在ICLR展览期间,参会者可在Apple展位#204体验以下实时演示:

  • SHARP 3D重建:展示从选择图片到生成3D高斯点云的全过程,支持iPad Pro(M5芯片)上的实时查看。
  • 本地LLM推理:展示基于MLX框架在MacBook Pro(M5 Max)上运行的量化前沿编码模型,完全在设备端进行推理。
来源:Apple Machine Learning Research
返回列表

准备好启动您的定制项目了吗?

现在咨询,即可获得免费的业务梳理与技术架构建议方案。