中国信通院联合发布首个智算运维智能体评测基准,覆盖5款国产芯片
2026/06/30 22:33阅读量 2
中国信通院在2026年6月29日发布AISHPerf 3.0版本,包含智算运维智能体评测基准与算子生成智能体评测基准。前者基于百亿级真实运维数据,覆盖天数、壁仞、沐曦、摩尔、昇腾等5种国产芯片,填补了国产智算运维评测空白。评测体系包含103条高保真用例,覆盖5大技术栈、44种问题现象、22个故障领域,从硬件故障到软件Bug全面考核智能体自主排查修复能力,为国产算力从“能用”到“好用”提供标准支撑。
事件概述
2026年6月29日,在中国信通院人工智能软硬件协同创新与适配验证中心、中国人工智能产业发展联盟、工信部人工智能标准化技术委员会联合主办的“2026‘众智’大模型开放智算生态协同高级别研讨会”上,中国信通院副院长魏亮正式发布AISHPerf人工智能软硬件基准体系3.0版本,包含两项核心评测基准:AISHPerf-智算运维智能体评测基准与AISHPerf-算子生成智能体评测基准。无问芯穹及清华大学团队作为重点技术支持方参与建设。
核心信息
AISHPerf-智算运维智能体评测基准
- 定位:首个面向AI基础设施的运维智能体评测基准,核心考核运维智能体在真实生产场景中解决实际问题的落地能力,而非简单的问答能力。
- 数据基础:基于无问芯穹沉淀的近百亿条真实运维数据,经专家脱敏、标注与筛选后,提炼出103条高保真评测用例。
- 评测体系:打通从底层硬件故障到用户侧软件Bug的全链路问题,覆盖5大技术栈、44种问题现象、22个细分故障领域、3种难度层级,覆盖6种芯片(其中5种为国产芯片:天数、壁仞、沐曦、摩尔、昇腾)。
- 测试方式:不明确指出故障根因,仅提供真实集群环境和有限问题描述,要求智能体自主探索、排查并修复,最终输出时延、Token消耗、工具调用效率等量化结果。
填补国产芯片运维评测空白
- 该基准率先将国产芯片集群运维场景纳入评测体系,覆盖国产GPU硬件故障、驱动适配、框架兼容、通信协议等典型运维痛点。据IDC统计,2025年中国市场AI加速卡国产化率已突破四成,但国产芯片在硬件架构、驱动、通信协议等方面存在显著差异,运维复杂度高。该基准为国产算力从“规模落地”向“效能释放”提供标准化评估标尺。
实际应用效果与趋势
- 无问芯穹已在推理训练业务中部署运维智能体,使工单平均处理时间缩短50%,关键故障处理效率提升约6倍,综合运维成本下降约30%,在算力和电能不变前提下显著提升Token产能。
- 该基准旨在指引AI基础设施向自主自治的“Token工厂”升级,实现自我感知、自我修复、自我迭代。
算子生成智能体评测基准
- 跳出“模型能否生成可运行GPU算子”的基础维度,将评测重心锚定在“模型生成的算子能否在真实量化推理部署中替代现有算子”的工程可部署性上,更贴合产业实际落地需求。
未来规划
中国信通院将持续联合无问芯穹、清华大学,从标准研制、测试验证、生态培育等方面推动基准产业应用,不断扩充场景覆盖与数据集规模,推动该基准成为行业公认的AI集群运维智能体能力评估公共基线,并拓展AI Infra全领域核心评测基准布局。
- 开源地址:https://gitee.com/aishperf-caict/aishperf_openness
- 配套故障模拟器:https://gitee.com/aishperf-caict/aishperf_openness/tree/main/entities/aiops-chaos
- 运维数据集:https://gitee.com/aishperf-caict/aishperf_openness/blob/main/entities/datasets/aiops-eval-prompts.jsonl
- 评测框架:https://gitee.com/aishperf-caict/aishperf_openness/tree/main/suites/aiops-eval
