国产AI Milkyway登顶全球预测榜单，碾压Grok-4：大模型进入“闭卷实战”时代

2026/04/05 08:25阅读量 327

2026年3月29日发布的FutureX全球动态评测榜单显示，北京中关村学院信息智能团队研发的Milkyway以60.9分的成绩超越马斯克旗下xAI的Grok-4（25.9分）及陈天桥团队的MiroFlow（57.5分），登顶榜首。该榜单由字节跳动Seed、斯坦福等机构联合发起，通过实时抓取全球195个信源中的未发生事件进行“闭卷”测试，彻底摒弃了传统静态题库的数据污染问题。测试结果揭示了大模型在深度推理与宏观预测上的显著分化，标志着行业从“做题家”向具备真实世界预见力的“行动引擎”转型。

事件概述

2026年3月29日，由字节跳动Seed团队、斯坦福大学、复旦大学和普林斯顿大学等联合发起的国际评测基准FutureX发布最新榜单。该榜单聚焦于大模型对“尚未揭晓的未来事件”的预测能力，旨在测试模型在真实商业、气候、地缘政治及体育等领域的动态预判水平。

在此次评测中，北京中关村学院信息智能团队自主研发的智能体系统Milkyway以60.9分的绝对优势位列第一。作为对比，曾被寄予厚望的埃隆·马斯克（Elon Musk）旗下xAI推出的Grok-4仅获得25.9分，排名跌至第18位；陈天桥团队开发的MiroFlow框架（搭载GPT-5等模型）以57.5分紧随其后，位列第二。

核心信息：评测机制与数据表现

1. “闭卷实战”评测逻辑

FutureX彻底改变了传统大模型依赖静态题库（如MMLU、HumanEval）的评测方式，其核心特点包括：

数据防污染：每日从全球195个高质量信源实时提取新考题，涵盖微观商业销量、宏观气温偏差、选举结果及体育赛事等，模型无法通过训练数据作弊。
折叠式评分：拒绝简单的二元对立判断，将难度分为四个等级，其中Level 3（多步深度推理）与Level 4（极高不确定性宏观预测）合计占总分的70%。
现实裁定：所有答案对错均由现实世界的最终结果直接验证。

2. 关键得分对比

排名	模型/系统	总分	备注
1	Milkyway (北京中关村学院)	60.9	绝对优势登顶
2	MiroFlow (陈天桥团队)	57.5	Level 4逼近50分，复杂不确定性掌控力强
3	GLM-5-thinking (智谱)	37.3	-
4	DeepSeek-V3.2-thinking (深度求索)	31.2	-
...	Qwen-3.5-plus-thinking (阿里)	26.9	位列第17
18	Grok-4 (xAI)	25.9	较首期冠军成绩大幅下滑

3. 模型能力分化与“偏科”现象

高压测试下，各模型展现出明显的领域特异性：

Grok-4的短板：在Level 1基础任务中得分高达71.43%，但在需要深度推理的Level 3断崖式下跌至8.21分，暴露出其在复杂逻辑推演上的不足。
细分领域强者：
- 政治与科技：GPT-5以72%和68%的准确率称霸。
- 体育赛事：DeepSeek-R1拔得头筹（64%）。
- 金融预测：GPT-5-high和Grok-4表现优异，分别以46.37分和41.25分领跑。
- 零售供应链：Claude-Opus和Kimi-K2展现出极强的商业直觉。

值得关注：技术突破与行业启示

1. 架构创新是制胜关键

Milkyway和MiroMind之所以能综合超越参数量巨大的基础模型，并非单纯依赖算力堆叠，而在于其Harness层（脚手架）和验证机制的深度攻关：

引入DAG（有向无环图）推理协议。
部署双层验证器，在模型内部建立类似“风控中台”的机制，对每一步搜索和推理进行实时审计与强制纠错。

2. 行业范式转移

FutureX榜单的更迭释放了明确信号：

告别套壳聊天：大模型价值正从生成文本转向成为Action Engine（行动引擎），核心价值在于提前预警风险（如物流停摆）或捕捉微弱宏观信号。
垂直领域机会：没有单一模型能通吃所有场景。未来的竞争焦点在于搭建更优秀的智能体外壳、设计抗干扰的验证流，以及在特定垂直领域（如零售、病理、地缘）投喂高质量反馈信号。
赢家定义：未来的行业赢家不一定是拥有最多GPU的巨头，而是最懂如何在不确定性中建立规则、驯服AI的团队。

阅读原文详情