国产AI Milkyway登顶全球预测榜单,碾压Grok-4:大模型进入“闭卷实战”时代
2026/04/05 08:25阅读量 78
2026年3月29日发布的FutureX全球动态评测榜单显示,北京中关村学院信息智能团队研发的Milkyway以60.9分的成绩超越马斯克旗下xAI的Grok-4(25.9分)及陈天桥团队的MiroFlow(57.5分),登顶榜首。该榜单由字节跳动Seed、斯坦福等机构联合发起,通过实时抓取全球195个信源中的未发生事件进行“闭卷”测试,彻底摒弃了传统静态题库的数据污染问题。测试结果揭示了大模型在深度推理与宏观预测上的显著分化,标志着行业从“做题家”向具备真实世界预见力的“行动引擎”转型。
事件概述
2026年3月29日,由字节跳动Seed团队、斯坦福大学、复旦大学和普林斯顿大学等联合发起的国际评测基准FutureX发布最新榜单。该榜单聚焦于大模型对“尚未揭晓的未来事件”的预测能力,旨在测试模型在真实商业、气候、地缘政治及体育等领域的动态预判水平。
在此次评测中,北京中关村学院信息智能团队自主研发的智能体系统Milkyway以60.9分的绝对优势位列第一。作为对比,曾被寄予厚望的埃隆·马斯克(Elon Musk)旗下xAI推出的Grok-4仅获得25.9分,排名跌至第18位;陈天桥团队开发的MiroFlow框架(搭载GPT-5等模型)以57.5分紧随其后,位列第二。
核心信息:评测机制与数据表现
1. “闭卷实战”评测逻辑
FutureX彻底改变了传统大模型依赖静态题库(如MMLU、HumanEval)的评测方式,其核心特点包括:
- 数据防污染:每日从全球195个高质量信源实时提取新考题,涵盖微观商业销量、宏观气温偏差、选举结果及体育赛事等,模型无法通过训练数据作弊。
- 折叠式评分:拒绝简单的二元对立判断,将难度分为四个等级,其中Level 3(多步深度推理)与Level 4(极高不确定性宏观预测)合计占总分的70%。
- 现实裁定:所有答案对错均由现实世界的最终结果直接验证。
2. 关键得分对比
| 排名 | 模型/系统 | 总分 | 备注 |
|---|---|---|---|
| 1 | Milkyway (北京中关村学院) | 60.9 | 绝对优势登顶 |
| 2 | MiroFlow (陈天桥团队) | 57.5 | Level 4逼近50分,复杂不确定性掌控力强 |
| 3 | GLM-5-thinking (智谱) | 37.3 | - |
| 4 | DeepSeek-V3.2-thinking (深度求索) | 31.2 | - |
| ... | Qwen-3.5-plus-thinking (阿里) | 26.9 | 位列第17 |
| 18 | Grok-4 (xAI) | 25.9 | 较首期冠军成绩大幅下滑 |
3. 模型能力分化与“偏科”现象
高压测试下,各模型展现出明显的领域特异性:
- Grok-4的短板:在Level 1基础任务中得分高达71.43%,但在需要深度推理的Level 3断崖式下跌至8.21分,暴露出其在复杂逻辑推演上的不足。
- 细分领域强者:
- 政治与科技:GPT-5以72%和68%的准确率称霸。
- 体育赛事:DeepSeek-R1拔得头筹(64%)。
- 金融预测:GPT-5-high和Grok-4表现优异,分别以46.37分和41.25分领跑。
- 零售供应链:Claude-Opus和Kimi-K2展现出极强的商业直觉。
值得关注:技术突破与行业启示
1. 架构创新是制胜关键
Milkyway和MiroMind之所以能综合超越参数量巨大的基础模型,并非单纯依赖算力堆叠,而在于其Harness层(脚手架)和验证机制的深度攻关:
- 引入DAG(有向无环图)推理协议。
- 部署双层验证器,在模型内部建立类似“风控中台”的机制,对每一步搜索和推理进行实时审计与强制纠错。
2. 行业范式转移
FutureX榜单的更迭释放了明确信号:
- 告别套壳聊天:大模型价值正从生成文本转向成为Action Engine(行动引擎),核心价值在于提前预警风险(如物流停摆)或捕捉微弱宏观信号。
- 垂直领域机会:没有单一模型能通吃所有场景。未来的竞争焦点在于搭建更优秀的智能体外壳、设计抗干扰的验证流,以及在特定垂直领域(如零售、病理、地缘)投喂高质量反馈信号。
- 赢家定义:未来的行业赢家不一定是拥有最多GPU的巨头,而是最懂如何在不确定性中建立规则、驯服AI的团队。
