腾讯混元 Hy3 preview 发布:姚顺雨主导的首代模型,Agent 能力初显但落地仍有短板
2026/04/23 18:58阅读量 5
腾讯首席 AI 科学家姚顺雨主导推出的混元 Hy3 preview 语言模型于 4 月 23 日开源,该模型采用 295B 总参数、21B 激活参数的 MoE 架构,融合快慢思考机制,旨在解决真实世界复杂任务。实测显示,Hy3 preview 在长链路 Agent 规划与工具调用上表现稳定,但在数据获取准确性及最终交付物完整性上仍存在不足。作为腾讯 AI 组织架构重构后的首款核心答卷,该模型标志着混元从“读万卷书”向“行万里路”的转型尝试。
事件概述
2026 年 4 月 23 日,腾讯正式发布并开源了混元大模型 Hy3 preview。这是腾讯首位 LLM(大语言模型)原生技术领导者、首席 AI 科学家姚顺雨加入后全程主导推出的第一代大模型。该模型被视为腾讯重构 AI 研发体系后的首份答卷,也是混元系列从单纯预训练转向解决真实世界复杂问题的关键节点。
核心信息
- 模型架构:采用混合专家(MoE)架构,总参数量 295B,激活参数仅 21B。融合了“快慢思考”机制,适配复杂逻辑推理与多步工具调用场景(ReAct 循环)。
- 研发周期:于 2026 年 1 月底正式启动训练,至上线耗时不到三个月。
- 设计原则:
- 能力体系化:强调推理、长文、代码、工具等能力的深度协同,避免“偏科”。
- 评测真实性:跳出公开榜单,通过自建题目、人工评测及产品众测评估真实战斗力。
- 性价比追求:通过架构与推理框架的深度协同降低任务成本。
- 应用场景:针对智能体(Agent)场景进行针对性设计,已接入腾讯云、元宝、ima、CodeBuddy、WorkBuddy、QQ、腾讯文档等产品,并上架 TokenHub 平台。
- 定价策略:输入价格最低 1.2 元/百万 tokens,命中缓存 0.4 元/百万 tokens;输出价格最低 4 元/百万 tokens。
实测表现分析
极客公园对 Hy3 preview 进行了两项核心测试,揭示了其作为“过渡态”模型的特征:
1. 综合任务测试(数据抓取与分析)
- 任务:抓取纳斯达克 100、伦敦金、沪深 300 数据,计算相关系数,生成动态热力图,并撰写 500 字资产配置 Memo。
- 结果:
- 优点:展现了自主拆解问题、规划步骤及切换工具的能力。
- 缺点:数据获取阶段受阻(接口认证失败、速率限制),被迫使用模拟数据替代;可视化结果因数据失真可信度打折;最关键的 500 字分析段落缺失,仅输出简略要点。
2. 长链路 Agent 测试(技术文档生成)
- 任务:在 SkillHub 平台全链路深度抓取腾讯文档 Skill 的 Auth 认证流程与底层机制,输出标准化技术文档。
- 结果:
- 表现:清晰展示了“搜索 -> 深入抓取 -> 原理查询 -> 写作”的 ReAct 闭环过程。路由调度中心稳定,未出现死循环或中途崩溃,完整走完了长链路规划。
行业背景与战略意义
- 人才布局:姚顺雨(1998 年生)是著名的语言智能体研究者,提出了 ReAct 和 Tree of Thoughts 框架,曾在 OpenAI 参与 Operator 等智能体产品研发。他的加入填补了腾讯在 NLP/LLM 原生技术领导层的空白。
- 组织重构:2025 年底,腾讯完成 AI 组织架构调整,新设 AI Infra 部、AI Data 部等,由姚顺雨全面统筹。此次 Hy3 preview 的发布验证了新研发链条的通顺性及 Agent 技术路线的可行性。
- 产品数据:在 CodeBuddy、WorkBuddy 等内部产品中,Hy3 preview 首 token 延迟降低 54%,端到端时长降低 47%,任务成功率提升至 99.99%+,已稳定驱动最长 495 步的复杂工作流。
结论
Hy3 preview 证明了腾讯在 Agent 长链路规划和工具调用上的技术突破,具备了向真实工作流靠近的基础能力。然而,实测中暴露的数据准确性问题和交付物不完整,表明其在“最后一公里”的稳定性上仍需打磨。作为快速迭代的原型模型,它更多承担了验证技术方向和新研发体系的任务,距离完全成熟的商业落地仍有迭代空间。
