陈天桥MiroMind发布MiroThinker-1.7：以验证为核心，精准预测黄金与F1赛事

2026/03/16 14:50阅读量 57

陈天桥团队MiroMind正式发布新一代重型推理智能体MiroThinker-1.7及H1版本，在BrowseComp、GAIA等基准测试中超越Gemini-3.1-Pro、GPT-5.4-Thinking等顶尖闭源模型。该系列模型摒弃单纯追求速度的策略，转而通过“智能体原生训练”和“验证为核心的重型推理模式”，实现了对F1赛事排名的实时精准预测及15天后黄金价格（误差仅0.08%）的准确预估。

事件概述

2026年3月16日，陈天桥领衔的大模型公司MiroMind正式发布新一代重型推理智能体：MiroThinker-1.7 和 MiroThinker-H1。该系列模型延续了V1.5的深度推理基因，专注于处理更复杂、需高精度结果的任务，并在多项权威基准测试中刷新了行业记录。

核心性能表现

MiroThinker系列在深度研究任务中展现出超越当前主流闭源模型的能力，具体数据如下：

BrowseComp（网页检索类基准）：88.2%
BrowseComp-ZH（中文适配版）：84.4%
GAIA-Val-165（验证集）：88.5%
HLE-Text（人类终极测试）：47.7%

其中，MiroThinker-H1刷新了SOTA（State of the Art），超越了 Gemini-3.1-Pro、GPT-5.4-Thinking 和 Claude-4.6-Opus 等竞品。此外，开源版本 MiroThinker-1.7（235B参数）与小尺寸版 MiroThinker-1.7-mini（30B参数）也在效率与性能间取得了平衡。

实测案例：从F1赛事到金融预测

文章通过实际场景验证了模型的推理能力与准确性：

1. F1上海站正赛预测

模型在赛前2小时、赛中1小时及最后30分钟三个节点进行动态预测：

信息整合：建立了完整的信息搜索路径，涵盖比赛策略、车队实力、规则变化及实时天气状况。
动态修正：随着比赛进程推进，模型能实时抓取退赛情况及车手节奏，逐步微调预测。
最终结果：在比赛最后30分钟，模型给出的排名预测与真实结果完全一致。相比之下，ChatGPT、Gemini和DeepSeek在变量覆盖度或逻辑深度上均不及MiroThinker。

2. 黄金价格预测

针对中长期专业场景，模型提前15天对2026年2月25日的黄金价格（XAU/USD）进行了预估：

模型预测值：$5185/oz
实际报价：Fortune报价 $5181，150 Currency报价 $5185.89，CME GCG26收盘价 $5206.40
误差分析：相对于主要市场报价，误差仅为 0.08%（约$4），处于合理误差范围内。

技术突破：不卷速度，卷验证

MiroThinker的核心竞争力在于其独特的“重型求解器（heavy-duty solver）”架构，主要通过以下两项技术升级实现：

1. 智能体原生训练（Agent-native competence）

中期训练（mid-training）：新增训练阶段，利用大规模高质量任务数据，重点强化模型的规划、推理和总结能力，使其具备目标分解、工具调用及结果整合的基础能力。
能力内化：在此基础上结合 SFT（监督微调）、DPO（偏好优化）和 RL（强化学习），确保长时任务的稳定推理。

2. 以验证为核心的推理模式

局部验证：在推理每一步进行自我审查，只有通过的步骤才允许继续，打破传统AI的概率偏置，寻找最优路径。
全局验证：生成多条推理路径后回溯整条数据链，确保最终答案逻辑严密而非仅语义流畅。

关键发现：引入验证机制后，模型交互步骤数量反而减少。验证器充当了过滤器，剔除无信息增益的步骤，将算力集中分配给真正推动问题求解的环节，实现了“扩展有效交互”。

团队与资源

核心团队：包括COO邴立东博士，以及新加入的三位世界级AI科学家杜少雷、安波和杨凯峪，专注于提升大模型的推理决策能力。
获取渠道：
- 官网体验：https://dr.miromind.ai
- GitHub：https://github.com/MiroMindAI/MiroThinker
- HuggingFace：https://huggingface.co/collections/miromind-ai/mirothinker-17

阅读原文详情