Apple ICLR 2026:RNN并行训练突破、SSM工具增强及单图3D重建等核心成果
2026/04/22 08:00阅读量 2
Apple在ICLR 2026上展示了多项机器学习前沿研究,包括实现70亿参数经典RNN的并行训练框架ParaRNN,以及通过外部工具交互解决状态空间模型(SSM)长文本生成局限性的新方法。此外,Apple发布了统一图像理解与生成的MANZANO模型、秒级单图3D重建技术SHARP,以及基于标准Transformer架构的蛋白质折叠模型SimpleFold。这些成果旨在提升序列建模效率、多模态对齐能力及生物计算领域的通用性。
事件概述
第十四届国际学习表征会议(ICLR 2026)于巴西里约热内卢举行,Apple Machine Learning Research团队参与了主会议及相关研讨会,并赞助了支持多元群体的活动。Apple研究人员在多个领域展示了最新研究成果,并在展位#204提供了现场演示,涵盖本地LLM推理及实时3D场景生成等技术。
核心研究亮点
1. 解锁RNN的大规模并行训练 (ParaRNN)
- 背景挑战:循环神经网络(RNN)虽推理高效,但传统串行计算模式使其难以扩展至数十亿参数规模。
- 技术突破:Apple提出ParaRNN框架,实现了非线性RNN的并行化训练,相比传统串行方法速度提升665倍。
- 性能表现:该框架成功训练出首个70亿参数的经典RNN模型,其语言建模性能可与Transformer及Mamba2相媲美。
- 开源贡献:代码已作为开源框架发布,支持自动训练并行化,便于探索新型非线性RNN模型。
2. 增强状态空间模型 (SSMs) 的长程泛化能力
- 问题发现:尽管SSM(如Mamba)在长上下文处理上具有线性复杂度优势,但其固定内存限制导致在处理复杂长任务时性能下降,即使引入思维链(CoT)也无法解决。
- 解决方案:论文《To Infinity and Beyond》提出让SSM交互式访问外部工具。通过合理的工具选择与针对性训练数据,SSM能够解决任意可解问题,并泛化至任意长度和复杂度的任务。
- 实验结果:工具增强的SSM在算术、推理及编码任务中展现出强大的长度泛化能力,证明了其在交互式代理(Agentic)场景下替代Transformer的潜力。
3. 统一图像理解与生成 (MANZANO)
- 架构创新:提出MANZANO模型,采用混合视觉分词器(Hybrid Vision Tokenizer)。利用单一共享视觉编码器,通过两个轻量适配器分别生成连续嵌入(用于理解)和离散令牌(用于生成)。
- 工作流程:统一的自回归LLM预测高层语义(文本与图像令牌),辅助扩散解码器将图像令牌转换为像素。
- 效果评估:该模型在统一模型类别中达到最先进水平(SOTA),在文本丰富型评估中与专用模型相当,有效缓解了理解与生成之间的性能权衡。
4. 单图快速3D场景重建 (SHARP)
- 技术名称:SHARP (Single-image High-Accuracy Real-time Parallax)。
- 核心能力:仅需单次前向传播,即可在标准GPU上于1秒内从单张照片生成3D高斯表示。
- 性能指标:
- 支持度量相机运动,提供绝对尺度。
- 零样本泛化能力强,在多个数据集上刷新SOTA。
- LPIPS降低25-34%,DISTS降低21-43%。
- 合成时间比最佳 prior 模型减少三个数量级。
- 渲染帧率超过100 FPS。
5. 简化蛋白质折叠预测 (SimpleFold)
- 方法特点:摒弃复杂的专用架构,仅使用标准的Transformer块构建通用架构。
- 应用场景:根据氨基酸序列预测蛋白质的三维原子坐标,助力药物发现与生物技术。
- 部署优化:提供代码与模型检查点,可在配备Apple Silicon的Mac设备上利用MLX框架高效本地运行。
- 性能表现:在CASP14等基准测试中,随着模型规模(1亿至30亿参数)增加,性能持续提升。
展会演示内容
在ICLR展览期间,参会者可在Apple展位#204体验以下实时演示:
- SHARP 3D重建:展示从选择图片到生成3D高斯点云的全过程,支持iPad Pro(M5芯片)上的实时查看。
- 本地LLM推理:展示基于MLX框架在MacBook Pro(M5 Max)上运行的量化前沿编码模型,完全在设备端进行推理。
