Apple ICLR 2026：RNN并行训练突破、SSM工具增强及单图3D重建等核心成果

2026/04/22 08:00阅读量 2

Apple在ICLR 2026上展示了多项机器学习前沿研究，包括实现70亿参数经典RNN的并行训练框架ParaRNN，以及通过外部工具交互解决状态空间模型（SSM）长文本生成局限性的新方法。此外，Apple发布了统一图像理解与生成的MANZANO模型、秒级单图3D重建技术SHARP，以及基于标准Transformer架构的蛋白质折叠模型SimpleFold。这些成果旨在提升序列建模效率、多模态对齐能力及生物计算领域的通用性。

事件概述

第十四届国际学习表征会议（ICLR 2026）于巴西里约热内卢举行，Apple Machine Learning Research团队参与了主会议及相关研讨会，并赞助了支持多元群体的活动。Apple研究人员在多个领域展示了最新研究成果，并在展位#204提供了现场演示，涵盖本地LLM推理及实时3D场景生成等技术。

核心研究亮点

1. 解锁RNN的大规模并行训练 (ParaRNN)

背景挑战：循环神经网络（RNN）虽推理高效，但传统串行计算模式使其难以扩展至数十亿参数规模。
技术突破：Apple提出ParaRNN框架，实现了非线性RNN的并行化训练，相比传统串行方法速度提升665倍。
性能表现：该框架成功训练出首个70亿参数的经典RNN模型，其语言建模性能可与Transformer及Mamba2相媲美。
开源贡献：代码已作为开源框架发布，支持自动训练并行化，便于探索新型非线性RNN模型。

2. 增强状态空间模型 (SSMs) 的长程泛化能力

问题发现：尽管SSM（如Mamba）在长上下文处理上具有线性复杂度优势，但其固定内存限制导致在处理复杂长任务时性能下降，即使引入思维链（CoT）也无法解决。
解决方案：论文《To Infinity and Beyond》提出让SSM交互式访问外部工具。通过合理的工具选择与针对性训练数据，SSM能够解决任意可解问题，并泛化至任意长度和复杂度的任务。
实验结果：工具增强的SSM在算术、推理及编码任务中展现出强大的长度泛化能力，证明了其在交互式代理（Agentic）场景下替代Transformer的潜力。

3. 统一图像理解与生成 (MANZANO)

架构创新：提出MANZANO模型，采用混合视觉分词器（Hybrid Vision Tokenizer）。利用单一共享视觉编码器，通过两个轻量适配器分别生成连续嵌入（用于理解）和离散令牌（用于生成）。
工作流程：统一的自回归LLM预测高层语义（文本与图像令牌），辅助扩散解码器将图像令牌转换为像素。
效果评估：该模型在统一模型类别中达到最先进水平（SOTA），在文本丰富型评估中与专用模型相当，有效缓解了理解与生成之间的性能权衡。

4. 单图快速3D场景重建 (SHARP)

技术名称：SHARP (Single-image High-Accuracy Real-time Parallax)。
核心能力：仅需单次前向传播，即可在标准GPU上于1秒内从单张照片生成3D高斯表示。
性能指标：
- 支持度量相机运动，提供绝对尺度。
- 零样本泛化能力强，在多个数据集上刷新SOTA。
- LPIPS降低25-34%，DISTS降低21-43%。
- 合成时间比最佳 prior 模型减少三个数量级。
- 渲染帧率超过100 FPS。

5. 简化蛋白质折叠预测 (SimpleFold)

方法特点：摒弃复杂的专用架构，仅使用标准的Transformer块构建通用架构。
应用场景：根据氨基酸序列预测蛋白质的三维原子坐标，助力药物发现与生物技术。
部署优化：提供代码与模型检查点，可在配备Apple Silicon的Mac设备上利用MLX框架高效本地运行。
性能表现：在CASP14等基准测试中，随着模型规模（1亿至30亿参数）增加，性能持续提升。

展会演示内容

在ICLR展览期间，参会者可在Apple展位#204体验以下实时演示：

SHARP 3D重建：展示从选择图片到生成3D高斯点云的全过程，支持iPad Pro（M5芯片）上的实时查看。
本地LLM推理：展示基于MLX框架在MacBook Pro（M5 Max）上运行的量化前沿编码模型，完全在设备端进行推理。

阅读原文详情