OpenAI 前 CTO Mira Murati 新公司发布「交互模型」,让 AI 实现实时双向对话
OpenAI 前 CTO Mira Murati 创立的 Thinking Machines Lab 发布交互模型,采用 200 毫秒微回合架构,支持实时语音、视频双向交流与打断,显著优于现有商业模型。该模型打破传统回合制对话限制,将交互能力内建于模型,并分两层(交互模型与背景模型)兼顾即时响应与深度推理。公司成立 15 个月即推出定义性产品,但期间经历多位联合创始人离职。
事件概述
2026 年 5 月 11 日,由 OpenAI 前 CTO Mira Murati 创立的 Thinking Machines Lab 发布研究预览视频,展示其「交互模型」(Interaction Model)。该模型不再以「你说一句我回一句」的回合制方式工作,而是支持实时双向交流:用户说话时 AI 可随时打断、插话、并同步处理后台任务(如搜索网页、生成图表)。目前市场上尚无商业 AI 产品具备同类能力。
核心信息
-
技术突破:微回合架构
传统模型以整段输入输出为单元,而 Thinking Machines 将时间切分为 200 毫秒的「微回合」(Time-Aligned Micro-Turns),音频、视频、文本三流连续处理。模型不再有明确的说话边界,可在用户说话时插嘴、边听边搜索,且这些能力直接训练进模型内部,而非依赖外部组件拼凑。 -
双层系统设计
系统由两个模型协作:- 交互模型:始终在线,持续保持双向交流。
- 背景模型:负责深度推理、工具调用和长链条任务。当交互模型遇到复杂问题,委托给背景模型,并持续与用户对话;背景模型结果会选择合适的时机织入对话。
-
性能数据
其 TML-Interaction-Small 模型(276B MoE 架构,活跃参数 12B)在交互质量基准 FD-bench V1.5 上得分 77.8(GPT-realtime-2.0 为 46.8),对话响应延迟仅 0.40 秒(GPT-2.0 为 1.18 秒,Gemini 为 0.57 秒)。自建测试中,TimeSpeak(指定时间主动说话)准确率 64.7%(GPT-2.0 仅 4.3%),CueSpeak(语义时机主动开口)准确率 81.7%(GPT-2.0 仅 2.9%)。 -
团队背景与波折
Mira Murati 在 OpenAI 工作六年半,主导 ChatGPT、DALL-E、Codex、Sora 等产品。2024 年 9 月离职,2025 年 2 月成立 Thinking Machines Lab,联合创始人包括 Barrett Zoph、John Schulman、Lilian Weng 等。公司成立五个月完成 20 亿美元种子轮融资(a16z 领投),估值 120 亿美元。但随后多名核心成员离职或被竞争对手挖角(如 Andrew Tulloch 加入 Meta,Barrett Zoph 与 OpenAI 重新合作)。Murati 将 PyTorch 创造者 Soumith Chintala 从 Meta 挖来并提拔为 CTO。2026 年 4 月 Meta 又挖走至少七名创始团队成员,最终仅剩 John Schulman 一位联合创始人。
值得关注
- 理念差异:当行业追求更自主的 AI Agent 时,Thinking Machines 强调「让人类更容易留在循环中」,提升人机沟通带宽,引用哈耶克关于具体情境知识不可形式化的论述。
- 当前局限:长时间对话上下文管理、依赖稳定网络连接、更大模型因太慢尚无法部署(公司在技术博客中已坦承)。
- 意义:该 Demo 展示了 AI 交互方式可能迎来根本性变革,证明清晰的技术信念比算力和资金更稀缺。
