腾讯混元 Hy3 preview 发布：姚顺雨主导的首代模型，Agent 能力初显但落地仍有短板

2026/04/23 18:58阅读量 5

腾讯首席 AI 科学家姚顺雨主导推出的混元 Hy3 preview 语言模型于 4 月 23 日开源，该模型采用 295B 总参数、21B 激活参数的 MoE 架构，融合快慢思考机制，旨在解决真实世界复杂任务。实测显示，Hy3 preview 在长链路 Agent 规划与工具调用上表现稳定，但在数据获取准确性及最终交付物完整性上仍存在不足。作为腾讯 AI 组织架构重构后的首款核心答卷，该模型标志着混元从“读万卷书”向“行万里路”的转型尝试。

事件概述

2026 年 4 月 23 日，腾讯正式发布并开源了混元大模型 Hy3 preview。这是腾讯首位 LLM（大语言模型）原生技术领导者、首席 AI 科学家姚顺雨加入后全程主导推出的第一代大模型。该模型被视为腾讯重构 AI 研发体系后的首份答卷，也是混元系列从单纯预训练转向解决真实世界复杂问题的关键节点。

核心信息

模型架构：采用混合专家（MoE）架构，总参数量 295B，激活参数仅 21B。融合了“快慢思考”机制，适配复杂逻辑推理与多步工具调用场景（ReAct 循环）。
研发周期：于 2026 年 1 月底正式启动训练，至上线耗时不到三个月。
设计原则：
- 能力体系化：强调推理、长文、代码、工具等能力的深度协同，避免“偏科”。
- 评测真实性：跳出公开榜单，通过自建题目、人工评测及产品众测评估真实战斗力。
- 性价比追求：通过架构与推理框架的深度协同降低任务成本。
应用场景：针对智能体（Agent）场景进行针对性设计，已接入腾讯云、元宝、ima、CodeBuddy、WorkBuddy、QQ、腾讯文档等产品，并上架 TokenHub 平台。
定价策略：输入价格最低 1.2 元/百万 tokens，命中缓存 0.4 元/百万 tokens；输出价格最低 4 元/百万 tokens。

实测表现分析

极客公园对 Hy3 preview 进行了两项核心测试，揭示了其作为“过渡态”模型的特征：

1. 综合任务测试（数据抓取与分析）

任务：抓取纳斯达克 100、伦敦金、沪深 300 数据，计算相关系数，生成动态热力图，并撰写 500 字资产配置 Memo。
结果：
- 优点：展现了自主拆解问题、规划步骤及切换工具的能力。
- 缺点：数据获取阶段受阻（接口认证失败、速率限制），被迫使用模拟数据替代；可视化结果因数据失真可信度打折；最关键的 500 字分析段落缺失，仅输出简略要点。

2. 长链路 Agent 测试（技术文档生成）

任务：在 SkillHub 平台全链路深度抓取腾讯文档 Skill 的 Auth 认证流程与底层机制，输出标准化技术文档。
结果：
- 表现：清晰展示了“搜索 -> 深入抓取 -> 原理查询 -> 写作”的 ReAct 闭环过程。路由调度中心稳定，未出现死循环或中途崩溃，完整走完了长链路规划。

行业背景与战略意义

人才布局：姚顺雨（1998 年生）是著名的语言智能体研究者，提出了 ReAct 和 Tree of Thoughts 框架，曾在 OpenAI 参与 Operator 等智能体产品研发。他的加入填补了腾讯在 NLP/LLM 原生技术领导层的空白。
组织重构：2025 年底，腾讯完成 AI 组织架构调整，新设 AI Infra 部、AI Data 部等，由姚顺雨全面统筹。此次 Hy3 preview 的发布验证了新研发链条的通顺性及 Agent 技术路线的可行性。
产品数据：在 CodeBuddy、WorkBuddy 等内部产品中，Hy3 preview 首 token 延迟降低 54%，端到端时长降低 47%，任务成功率提升至 99.99%+，已稳定驱动最长 495 步的复杂工作流。

结论

Hy3 preview 证明了腾讯在 Agent 长链路规划和工具调用上的技术突破，具备了向真实工作流靠近的基础能力。然而，实测中暴露的数据准确性问题和交付物不完整，表明其在“最后一公里”的稳定性上仍需打磨。作为快速迭代的原型模型，它更多承担了验证技术方向和新研发体系的任务，距离完全成熟的商业落地仍有迭代空间。

阅读原文详情