专访前DeepMind核心科学家Andrew Dai：谷歌AI14年得失与视觉推理创业新路径

2026/05/20 15:24阅读量 4

前DeepMind核心科学家Andrew Dai回顾了谷歌AI发展史，指出其2015年率先提出“预训练+微调”范式，但因组织分散错失GPT机遇。谷歌随后整合资源推出Gemini，核心突破在数据质量而非架构。Andrew Dai因大公司创新缓慢离职，创立Elorian AI，专注语言与视觉推理结合的中间路径，已获5500万美元融资，认为当前是小团队创业窗口期。

事件概述

前谷歌DeepMind核心科学家Andrew Dai在虎嗅专访中，复盘了谷歌AI过去14年的发展历程、错失GPT的原因、Gemini奋起直追的关键节点，以及他离职创立Elorian AI的新方向。Elorian AI聚焦多模态视觉推理模型，已获5500万美元融资，估值3亿美元。

核心信息

预训练范式的起源：Andrew Dai与Quoc Le在2015年发表《半监督序列学习》，首次将语言模型预训练与下游微调结合，形成现如今的预训练范式。Transformer论文发表后，他建议Transformer作者Ashish尝试结合预训练，但因对方忙于其他研究未推进。最终OpenAI的Alec Radford据此做出GPT系列。
谷歌战略失误：GPT-3发布前，谷歌内部资源分散，Google Brain研究员各自为政，健康等方向吸引大量人才，语言模型研究投入不足。直到GPT-3引爆市场，谷歌才拉响红色警报，合并DeepMind与Google Brain研发Gemini。
Gemini追赶关键：初期联合领导模式拖累进度，Gemini 1.0被迫采用稠密模型，1.5才应用Andrew Dai 2021年已研发成熟的MoE架构。核心提升来自数据侧：严格筛选高质量数据与优化合成数据。Andrew认为大模型竞争核心是数据质量，而非架构或算力。
离职创业动机：谷歌数千人的大项目难以推进激进创新，Andrew Dai选择离开并创立Elorian AI，走语言+视觉推理的中间路线，将更多训练资源倾斜给视觉数据，当前团队16人，计划扩至50-70人。
AGI路径判断：Andrew将业界路径分为三类：纯语言模型（在基础视觉任务上频繁出错）、世界模型（难以结合人类概念知识体系）、以及Elorian选中的语言与视觉结合路线。他认为现有生成式视觉模型缺乏深度理解，头部公司普遍聚焦编程模型，多模态视觉推理存在窗口期机会。
行业趋势：硅谷Neolab（前沿AI实验室）创业窗口仍持续1-2年，小团队人才密度高可聚焦大公司忽视的方向。当前AI自动化工具产出的想法偏平庸，有创造力的核心研究员仍是最稀缺资源。

值得关注

Andrew Dai对谷歌AI错失GPT的复盘揭示了组织文化对创新的阻碍；其对数据质量优于架构的论断值得行业深思；Elorian选择的视觉推理路线若成功，可能开辟不同于纯语言模型和世界模型的新AGI路径。

阅读原文详情

事件概述

核心信息

值得关注

准备好启动您的定制项目了吗？