腾讯混元Hy3 preview实测:推理与代码能力稳健,复杂任务交付仍有短板
2026/04/26 15:08阅读量 2
腾讯于4月23日正式开源新一代语言模型Hy3 preview,该模型采用混合专家架构,参数量达295B,在推理速度、指令遵循及自然对话表现上均有显著提升。实测显示,其在常规逻辑推演和干扰信息提取方面表现稳定,但在陷阱识别、开放式复杂任务交付及数据获取完整性上存在不足。作为腾讯AI战略转折点,该模型已接入元宝、WorkBuddy等核心产品,标志着腾讯大模型从“被动”转向具备实用落地能力的阶段。
事件概述
2026年4月23日,腾讯正式发布并开源了新一代语言模型Hy3 preview。该模型被官方定义为混元系列迄今最智能的版本,由姚顺雨主导重构预训练和强化学习基础设施后产出。模型采用快慢思考融合的混合专家(MoE)架构,总参数295B,激活参数21B,最大支持256K上下文长度。
核心性能指标
- 效率提升:首Token延迟降低54%,端到端时长降低47%。
- 成本优势:腾讯云API输入价格为1.2元/百万Tokens,个人套餐最低28元/月,处于同尺寸模型低价梯队。
- 应用场景:已上线腾讯云、元宝、WorkBuddy等腾讯核心产品,能稳定驱动文档处理、数据分析等Agent工作流。
实测表现分析
1. 推理能力:逻辑拆解强,陷阱识别弱
- 优势:面对条件隐蔽、推导繁琐的复杂逻辑题,模型能逐条拆解线索、提炼互斥关系并进行分步排除,逻辑分析扎实。
- 不足:在涉及逆向思维或生活场景变通的“陷阱题”中表现不稳定。例如在“洗车问题”和“鸡蛋脑筋急转弯”测试中,初期未能识别题目陷阱,需二次提示才能纠正;部分网友反馈其直接答对率存在波动。
2. 上下文学习与指令遵循:抗干扰能力强
- 信息提取:在混乱的会议录音转写场景中,能有效抓取关键信息,准确列出指定类别内容。
- 规则执行:在面对自创语言的翻译任务时,能准确理解并严格执行新设定的语言规则,细节执行到位。
3. 代码与智能体:工具调用成熟,交付闭环待完善
- 基础任务:搭建贪吃蛇小游戏等封闭规则任务表现成熟,画面精美且逻辑完整。
- 复杂任务:
- 数据获取:在爬取空气质量数据生成分析报告的任务中,因数据源受阻导致有效数据缺失(仅获224天),影响结论可信度。
- 深度分析:在分析AI Coding行业商业模式演变等开放式任务中,虽能自动调用工具并规划流程,但最终成果仅停留在基础框架,缺乏深度的论点提炼,存在“有结构无内容”现象。
- 结论:具备日常编码助手能力,但在复杂任务的深度执行和最终交付完整性上仍有提升空间。
4. 自然对话:去“AI味”,情感交互增强
- 闲聊对话:摒弃说教式回复,能先客观分析原因再询问具体情况,语气温和自然。
- 创意写作:叙事逻辑自洽,无明显套路感;在模仿《明朝那些事儿》文风时,能较好捕捉通俗讲史风格,而非刻板照搬框架。
行业意义
Hy3 preview的发布被视为腾讯AI战略的转折点。过去两年腾讯在大模型领域相对被动,缺乏标杆性模型。此次预览版虽非碾压式顶尖,但展现了“稳而不惊”的实用型特质,填补了生态内可用模型的空白。后续随着更大参数规模模型的发布及元宝、QQ等产品实际调用的验证,腾讯AI有望彻底撕掉“被动”标签。
