腾讯Hy3 Preview发布:姚顺雨以“上下文学习”重构大模型核心能力
2026/04/25 15:59阅读量 2
腾讯混元团队发布Hy3 preview版本,该模型由姚顺雨主导,核心突破在于解决大模型“学不会、用不对、执行不了”的上下文应用短板。Hy3采用295B总参数混合专家架构,在自建CL-bench基准测试中得分较前代提升约39%,显著增强了从杂乱信息中提取规则并内化为执行逻辑的能力。目前该模型已在元宝、CodeBuddy等内部产品中大规模部署,验证了其在复杂工作流中的稳定性与性价比。
事件概述
腾讯混元团队正式发布Hy3 preview版本,这是继姚顺雨加入腾讯后推出的首个完整落地其“上下文学习”理念的大模型产品。不同于业界普遍聚焦于Agent代码生成或多模态能力的竞争,Hy3 preview将核心能力锚定在上下文推理、检索及指令遵循上,旨在解决当前大模型难以将上下文中的新知识内化为任务执行逻辑的根本性痛点。
核心信息
1. 模型架构与关键指标
- 架构规格:Hy3 preview为混合专家(MoE)模型,总参数量达295B,激活参数21B,支持256K上下文长度。
- 评测表现:
- 在姚顺雨提出的CL-bench(测试模型从上下文中学习新知识并正确应用的能力)中,得分26.7,较Hy2的19.2提升39%。
- 在CL-bench-Life(生活场景变体)中,得分22.8,较Hy2的16.5提升38%。
- 提升并非单纯依赖增加窗口长度,而是源于模型对杂乱信息中隐含规则的提取与应用能力增强。
2. 三大核心能力突破
- 精准定位关键信息:超越简单的关键词匹配,能够理解信息间的逻辑关系,区分前提条件、执行约束与优先级标记。
- 推导隐含执行逻辑:能从对话纪要、文档角落等碎片化信息中整合出完整的执行方案,而非机械拼接。
- 多轮交互连贯性:在多轮对话中保持上下文状态一致,即使话题切换或约束变更(如预算调整),也能动态更新任务理解,避免输出矛盾。
3. 真实场景验证数据
- 复杂工作流驱动:在CodeBuddy和WorkBuddy的实际部署中,Hy3 preview能稳定驱动长达495步的复杂任务链,每一步均能基于前序结果做出合理决策,成功率提升至**99.99%**以上。
- 效率提升:首Token延迟降低54%,端到端时长缩短47%。
- 指令遵循优化:针对JSON格式、数量限制、输出范围等严格要求进行了专门优化,大幅减少生产环境中的下游系统错误。
4. 设计理念与原则
- 能力体系化:不推崇偏科,强调推理、长文、指令、对话、代码、工具等多维能力的深度协同。
- 评测真实性:主动跳出易被刷分的公开榜单,构建50多套内部评测体系,引入清华大学求真书院数学博士考、全国中学生生物学联赛等真实考场成绩进行验证。
- 性价比追求:通过架构与推理框架的深度协同,在保障性能的同时大幅降低任务成本。
值得关注
- 技术路线差异:与Gemini等竞品preview版本侧重展示能力上限不同,Hy3 preview从一开始就将性价比作为核心设计目标,且已具备在生产环境大规模商用的条件。目前,元宝、ima、QQ、腾讯文档等多个腾讯主线产品已上线该模型。
- 未来正式版预期:参考行业演进路径,Hy3正式版预计将在保持能力全面性的前提下,进一步优化推理效率、降低Token消耗并增强边界情况处理能力。腾讯明确表示不会为了降低成本而牺牲模型的均衡性与稳定性,而是通过架构优化实现双赢。
- 底层逻辑延续:从早期的ReAct框架到CL-bench基准,再到Hy3 preview,姚顺雨的研究始终围绕“如何让模型在动态变化的上下文中持续学习并正确行动”这一核心命题展开。
