OpenAI 前 CTO Mira Murati 新公司发布「交互模型」，让 AI 实现实时双向对话

2026/05/12 18:06阅读量 657

OpenAI 前 CTO Mira Murati 创立的 Thinking Machines Lab 发布交互模型，采用 200 毫秒微回合架构，支持实时语音、视频双向交流与打断，显著优于现有商业模型。该模型打破传统回合制对话限制，将交互能力内建于模型，并分两层（交互模型与背景模型）兼顾即时响应与深度推理。公司成立 15 个月即推出定义性产品，但期间经历多位联合创始人离职。

事件概述

2026 年 5 月 11 日，由 OpenAI 前 CTO Mira Murati 创立的 Thinking Machines Lab 发布研究预览视频，展示其「交互模型」（Interaction Model）。该模型不再以「你说一句我回一句」的回合制方式工作，而是支持实时双向交流：用户说话时 AI 可随时打断、插话、并同步处理后台任务（如搜索网页、生成图表）。目前市场上尚无商业 AI 产品具备同类能力。

核心信息

技术突破：微回合架构
传统模型以整段输入输出为单元，而 Thinking Machines 将时间切分为 200 毫秒的「微回合」（Time-Aligned Micro-Turns），音频、视频、文本三流连续处理。模型不再有明确的说话边界，可在用户说话时插嘴、边听边搜索，且这些能力直接训练进模型内部，而非依赖外部组件拼凑。
双层系统设计
系统由两个模型协作：
- 交互模型：始终在线，持续保持双向交流。
- 背景模型：负责深度推理、工具调用和长链条任务。当交互模型遇到复杂问题，委托给背景模型，并持续与用户对话；背景模型结果会选择合适的时机织入对话。
性能数据
其 TML-Interaction-Small 模型（276B MoE 架构，活跃参数 12B）在交互质量基准 FD-bench V1.5 上得分 77.8（GPT-realtime-2.0 为 46.8），对话响应延迟仅 0.40 秒（GPT-2.0 为 1.18 秒，Gemini 为 0.57 秒）。自建测试中，TimeSpeak（指定时间主动说话）准确率 64.7%（GPT-2.0 仅 4.3%），CueSpeak（语义时机主动开口）准确率 81.7%（GPT-2.0 仅 2.9%）。
团队背景与波折
Mira Murati 在 OpenAI 工作六年半，主导 ChatGPT、DALL-E、Codex、Sora 等产品。2024 年 9 月离职，2025 年 2 月成立 Thinking Machines Lab，联合创始人包括 Barrett Zoph、John Schulman、Lilian Weng 等。公司成立五个月完成 20 亿美元种子轮融资（a16z 领投），估值 120 亿美元。但随后多名核心成员离职或被竞争对手挖角（如 Andrew Tulloch 加入 Meta，Barrett Zoph 与 OpenAI 重新合作）。Murati 将 PyTorch 创造者 Soumith Chintala 从 Meta 挖来并提拔为 CTO。2026 年 4 月 Meta 又挖走至少七名创始团队成员，最终仅剩 John Schulman 一位联合创始人。

值得关注

理念差异：当行业追求更自主的 AI Agent 时，Thinking Machines 强调「让人类更容易留在循环中」，提升人机沟通带宽，引用哈耶克关于具体情境知识不可形式化的论述。
当前局限：长时间对话上下文管理、依赖稳定网络连接、更大模型因太慢尚无法部署（公司在技术博客中已坦承）。
意义：该 Demo 展示了 AI 交互方式可能迎来根本性变革，证明清晰的技术信念比算力和资金更稀缺。

阅读原文详情

事件概述

核心信息

值得关注

准备好启动您的定制项目了吗？