Kimi发布技术报告重构模型结构,马斯克评价“令人印象深刻”
3月16日,月之暗面(Kimi)发布技术报告,提出对大模型核心残差连接结构的改进方案,使各层能选择性关注前序输出而非统一求和。测试数据显示,该优化使48B参数模型的训练效率提升1.25倍。论文发布后,埃隆·马斯克在社交媒体上发文表示该研究“令人印象深刻”。
事件概述
3月16日,月之暗面(Kimi)正式发布了关于大模型架构优化的技术报告。该研究针对过去十年大模型核心结构中残差连接(Residual Connection)未发生根本性变化的现状进行了重新设计。
核心技术创新
- 结构改进:传统架构中,每一层的输出通常与上一层进行统一求和;新方案允许每一层选择性地关注此前各层的输出,从而增强信息流动的灵活性。
- 性能提升:测试数据显示,应用该改进后的48B(480亿参数)模型,其训练效率提升了1.25倍。
- 研发团队:该研究由Kimi联合创始人杨植麟、吴育昕、周昕宇等人联合完成。
行业反响
论文发布后,特斯拉及SpaceX创始人埃隆·马斯克(Elon Musk)在社交平台发文,对该项技术突破表示认可,称其“令人印象深刻”。
