专访前DeepMind核心科学家Andrew Dai:谷歌AI14年得失与视觉推理创业新路径
2026/05/20 15:24阅读量 4
前DeepMind核心科学家Andrew Dai回顾了谷歌AI发展史,指出其2015年率先提出“预训练+微调”范式,但因组织分散错失GPT机遇。谷歌随后整合资源推出Gemini,核心突破在数据质量而非架构。Andrew Dai因大公司创新缓慢离职,创立Elorian AI,专注语言与视觉推理结合的中间路径,已获5500万美元融资,认为当前是小团队创业窗口期。
事件概述
前谷歌DeepMind核心科学家Andrew Dai在虎嗅专访中,复盘了谷歌AI过去14年的发展历程、错失GPT的原因、Gemini奋起直追的关键节点,以及他离职创立Elorian AI的新方向。Elorian AI聚焦多模态视觉推理模型,已获5500万美元融资,估值3亿美元。
核心信息
- 预训练范式的起源:Andrew Dai与Quoc Le在2015年发表《半监督序列学习》,首次将语言模型预训练与下游微调结合,形成现如今的预训练范式。Transformer论文发表后,他建议Transformer作者Ashish尝试结合预训练,但因对方忙于其他研究未推进。最终OpenAI的Alec Radford据此做出GPT系列。
- 谷歌战略失误:GPT-3发布前,谷歌内部资源分散,Google Brain研究员各自为政,健康等方向吸引大量人才,语言模型研究投入不足。直到GPT-3引爆市场,谷歌才拉响红色警报,合并DeepMind与Google Brain研发Gemini。
- Gemini追赶关键:初期联合领导模式拖累进度,Gemini 1.0被迫采用稠密模型,1.5才应用Andrew Dai 2021年已研发成熟的MoE架构。核心提升来自数据侧:严格筛选高质量数据与优化合成数据。Andrew认为大模型竞争核心是数据质量,而非架构或算力。
- 离职创业动机:谷歌数千人的大项目难以推进激进创新,Andrew Dai选择离开并创立Elorian AI,走语言+视觉推理的中间路线,将更多训练资源倾斜给视觉数据,当前团队16人,计划扩至50-70人。
- AGI路径判断:Andrew将业界路径分为三类:纯语言模型(在基础视觉任务上频繁出错)、世界模型(难以结合人类概念知识体系)、以及Elorian选中的语言与视觉结合路线。他认为现有生成式视觉模型缺乏深度理解,头部公司普遍聚焦编程模型,多模态视觉推理存在窗口期机会。
- 行业趋势:硅谷Neolab(前沿AI实验室)创业窗口仍持续1-2年,小团队人才密度高可聚焦大公司忽视的方向。当前AI自动化工具产出的想法偏平庸,有创造力的核心研究员仍是最稀缺资源。
值得关注
Andrew Dai对谷歌AI错失GPT的复盘揭示了组织文化对创新的阻碍;其对数据质量优于架构的论断值得行业深思;Elorian选择的视觉推理路线若成功,可能开辟不同于纯语言模型和世界模型的新AGI路径。
