腾讯混元Hy3 preview实测：推理与代码能力稳健，复杂任务交付仍有短板

2026/04/26 15:08阅读量 2

腾讯于4月23日正式开源新一代语言模型Hy3 preview，该模型采用混合专家架构，参数量达295B，在推理速度、指令遵循及自然对话表现上均有显著提升。实测显示，其在常规逻辑推演和干扰信息提取方面表现稳定，但在陷阱识别、开放式复杂任务交付及数据获取完整性上存在不足。作为腾讯AI战略转折点，该模型已接入元宝、WorkBuddy等核心产品，标志着腾讯大模型从“被动”转向具备实用落地能力的阶段。

事件概述

2026年4月23日，腾讯正式发布并开源了新一代语言模型Hy3 preview。该模型被官方定义为混元系列迄今最智能的版本，由姚顺雨主导重构预训练和强化学习基础设施后产出。模型采用快慢思考融合的混合专家（MoE）架构，总参数295B，激活参数21B，最大支持256K上下文长度。

核心性能指标

效率提升：首Token延迟降低54%，端到端时长降低47%。
成本优势：腾讯云API输入价格为1.2元/百万Tokens，个人套餐最低28元/月，处于同尺寸模型低价梯队。
应用场景：已上线腾讯云、元宝、WorkBuddy等腾讯核心产品，能稳定驱动文档处理、数据分析等Agent工作流。

实测表现分析

1. 推理能力：逻辑拆解强，陷阱识别弱

优势：面对条件隐蔽、推导繁琐的复杂逻辑题，模型能逐条拆解线索、提炼互斥关系并进行分步排除，逻辑分析扎实。
不足：在涉及逆向思维或生活场景变通的“陷阱题”中表现不稳定。例如在“洗车问题”和“鸡蛋脑筋急转弯”测试中，初期未能识别题目陷阱，需二次提示才能纠正；部分网友反馈其直接答对率存在波动。

2. 上下文学习与指令遵循：抗干扰能力强

信息提取：在混乱的会议录音转写场景中，能有效抓取关键信息，准确列出指定类别内容。
规则执行：在面对自创语言的翻译任务时，能准确理解并严格执行新设定的语言规则，细节执行到位。

3. 代码与智能体：工具调用成熟，交付闭环待完善

基础任务：搭建贪吃蛇小游戏等封闭规则任务表现成熟，画面精美且逻辑完整。
复杂任务：
- 数据获取：在爬取空气质量数据生成分析报告的任务中，因数据源受阻导致有效数据缺失（仅获224天），影响结论可信度。
- 深度分析：在分析AI Coding行业商业模式演变等开放式任务中，虽能自动调用工具并规划流程，但最终成果仅停留在基础框架，缺乏深度的论点提炼，存在“有结构无内容”现象。
- 结论：具备日常编码助手能力，但在复杂任务的深度执行和最终交付完整性上仍有提升空间。

4. 自然对话：去“AI味”，情感交互增强

闲聊对话：摒弃说教式回复，能先客观分析原因再询问具体情况，语气温和自然。
创意写作：叙事逻辑自洽，无明显套路感；在模仿《明朝那些事儿》文风时，能较好捕捉通俗讲史风格，而非刻板照搬框架。

行业意义

Hy3 preview的发布被视为腾讯AI战略的转折点。过去两年腾讯在大模型领域相对被动，缺乏标杆性模型。此次预览版虽非碾压式顶尖，但展现了“稳而不惊”的实用型特质，填补了生态内可用模型的空白。后续随着更大参数规模模型的发布及元宝、QQ等产品实际调用的验证，腾讯AI有望彻底撕掉“被动”标签。

阅读原文详情