陈天桥MiroMind发布MiroThinker-1.7:以验证为核心,精准预测黄金与F1赛事
陈天桥团队MiroMind正式发布新一代重型推理智能体MiroThinker-1.7及H1版本,在BrowseComp、GAIA等基准测试中超越Gemini-3.1-Pro、GPT-5.4-Thinking等顶尖闭源模型。该系列模型摒弃单纯追求速度的策略,转而通过“智能体原生训练”和“验证为核心的重型推理模式”,实现了对F1赛事排名的实时精准预测及15天后黄金价格(误差仅0.08%)的准确预估。
事件概述
2026年3月16日,陈天桥领衔的大模型公司MiroMind正式发布新一代重型推理智能体:MiroThinker-1.7 和 MiroThinker-H1。该系列模型延续了V1.5的深度推理基因,专注于处理更复杂、需高精度结果的任务,并在多项权威基准测试中刷新了行业记录。
核心性能表现
MiroThinker系列在深度研究任务中展现出超越当前主流闭源模型的能力,具体数据如下:
- BrowseComp(网页检索类基准):88.2%
- BrowseComp-ZH(中文适配版):84.4%
- GAIA-Val-165(验证集):88.5%
- HLE-Text(人类终极测试):47.7%
其中,MiroThinker-H1刷新了SOTA(State of the Art),超越了 Gemini-3.1-Pro、GPT-5.4-Thinking 和 Claude-4.6-Opus 等竞品。此外,开源版本 MiroThinker-1.7(235B参数)与小尺寸版 MiroThinker-1.7-mini(30B参数)也在效率与性能间取得了平衡。
实测案例:从F1赛事到金融预测
文章通过实际场景验证了模型的推理能力与准确性:
1. F1上海站正赛预测
模型在赛前2小时、赛中1小时及最后30分钟三个节点进行动态预测:
- 信息整合:建立了完整的信息搜索路径,涵盖比赛策略、车队实力、规则变化及实时天气状况。
- 动态修正:随着比赛进程推进,模型能实时抓取退赛情况及车手节奏,逐步微调预测。
- 最终结果:在比赛最后30分钟,模型给出的排名预测与真实结果完全一致。相比之下,ChatGPT、Gemini和DeepSeek在变量覆盖度或逻辑深度上均不及MiroThinker。
2. 黄金价格预测
针对中长期专业场景,模型提前15天对2026年2月25日的黄金价格(XAU/USD)进行了预估:
- 模型预测值:$5185/oz
- 实际报价:Fortune报价 $5181,150 Currency报价 $5185.89,CME GCG26收盘价 $5206.40
- 误差分析:相对于主要市场报价,误差仅为 0.08%(约$4),处于合理误差范围内。
技术突破:不卷速度,卷验证
MiroThinker的核心竞争力在于其独特的“重型求解器(heavy-duty solver)”架构,主要通过以下两项技术升级实现:
1. 智能体原生训练(Agent-native competence)
- 中期训练(mid-training):新增训练阶段,利用大规模高质量任务数据,重点强化模型的规划、推理和总结能力,使其具备目标分解、工具调用及结果整合的基础能力。
- 能力内化:在此基础上结合 SFT(监督微调)、DPO(偏好优化)和 RL(强化学习),确保长时任务的稳定推理。
2. 以验证为核心的推理模式
- 局部验证:在推理每一步进行自我审查,只有通过的步骤才允许继续,打破传统AI的概率偏置,寻找最优路径。
- 全局验证:生成多条推理路径后回溯整条数据链,确保最终答案逻辑严密而非仅语义流畅。
关键发现:引入验证机制后,模型交互步骤数量反而减少。验证器充当了过滤器,剔除无信息增益的步骤,将算力集中分配给真正推动问题求解的环节,实现了“扩展有效交互”。
团队与资源
- 核心团队:包括COO邴立东博士,以及新加入的三位世界级AI科学家杜少雷、安波和杨凯峪,专注于提升大模型的推理决策能力。
- 获取渠道:
