中国信通院联合发布首个智算运维智能体评测基准，覆盖5款国产芯片

2026/06/30 22:33阅读量 2

中国信通院在2026年6月29日发布AISHPerf 3.0版本，包含智算运维智能体评测基准与算子生成智能体评测基准。前者基于百亿级真实运维数据，覆盖天数、壁仞、沐曦、摩尔、昇腾等5种国产芯片，填补了国产智算运维评测空白。评测体系包含103条高保真用例，覆盖5大技术栈、44种问题现象、22个故障领域，从硬件故障到软件Bug全面考核智能体自主排查修复能力，为国产算力从“能用”到“好用”提供标准支撑。

事件概述

2026年6月29日，在中国信通院人工智能软硬件协同创新与适配验证中心、中国人工智能产业发展联盟、工信部人工智能标准化技术委员会联合主办的“2026‘众智’大模型开放智算生态协同高级别研讨会”上，中国信通院副院长魏亮正式发布AISHPerf人工智能软硬件基准体系3.0版本，包含两项核心评测基准：AISHPerf-智算运维智能体评测基准与AISHPerf-算子生成智能体评测基准。无问芯穹及清华大学团队作为重点技术支持方参与建设。

核心信息

AISHPerf-智算运维智能体评测基准

定位：首个面向AI基础设施的运维智能体评测基准，核心考核运维智能体在真实生产场景中解决实际问题的落地能力，而非简单的问答能力。
数据基础：基于无问芯穹沉淀的近百亿条真实运维数据，经专家脱敏、标注与筛选后，提炼出103条高保真评测用例。
评测体系：打通从底层硬件故障到用户侧软件Bug的全链路问题，覆盖5大技术栈、44种问题现象、22个细分故障领域、3种难度层级，覆盖6种芯片（其中5种为国产芯片：天数、壁仞、沐曦、摩尔、昇腾）。
测试方式：不明确指出故障根因，仅提供真实集群环境和有限问题描述，要求智能体自主探索、排查并修复，最终输出时延、Token消耗、工具调用效率等量化结果。

填补国产芯片运维评测空白

该基准率先将国产芯片集群运维场景纳入评测体系，覆盖国产GPU硬件故障、驱动适配、框架兼容、通信协议等典型运维痛点。据IDC统计，2025年中国市场AI加速卡国产化率已突破四成，但国产芯片在硬件架构、驱动、通信协议等方面存在显著差异，运维复杂度高。该基准为国产算力从“规模落地”向“效能释放”提供标准化评估标尺。

实际应用效果与趋势

无问芯穹已在推理训练业务中部署运维智能体，使工单平均处理时间缩短50%，关键故障处理效率提升约6倍，综合运维成本下降约30%，在算力和电能不变前提下显著提升Token产能。
该基准旨在指引AI基础设施向自主自治的“Token工厂”升级，实现自我感知、自我修复、自我迭代。

算子生成智能体评测基准

跳出“模型能否生成可运行GPU算子”的基础维度，将评测重心锚定在“模型生成的算子能否在真实量化推理部署中替代现有算子”的工程可部署性上，更贴合产业实际落地需求。

未来规划

中国信通院将持续联合无问芯穹、清华大学，从标准研制、测试验证、生态培育等方面推动基准产业应用，不断扩充场景覆盖与数据集规模，推动该基准成为行业公认的AI集群运维智能体能力评估公共基线，并拓展AI Infra全领域核心评测基准布局。

开源地址：https://gitee.com/aishperf-caict/aishperf_openness
配套故障模拟器：https://gitee.com/aishperf-caict/aishperf_openness/tree/main/entities/aiops-chaos
运维数据集：https://gitee.com/aishperf-caict/aishperf_openness/blob/main/entities/datasets/aiops-eval-prompts.jsonl
评测框架：https://gitee.com/aishperf-caict/aishperf_openness/tree/main/suites/aiops-eval

阅读原文详情