百亿真实数据，首个面向AI Infra的运维智能体评测基准正式开源

机器之心发布

随着全球智能体加速落地，算力需求呈指数级爆发，以 GPU 为核心的 AI 基础设施正变得愈发关键。据摩根士丹利报告预测，2028 年全球 AI 基础设施累计总投资将达 2.9 万亿美元。然而，根据行业通用成本结构测，其中由运维人力、故障损失与集群闲置构成的成本占比可高达 15%~20%，全行业潜在的可优化空间超过 4350 亿美元。

作为全球领先的 AI 基础设施服务商，无问芯穹早在去年 10 月便率先启动研发并成功部署早期版本的运维智能体。实践表明，相比传统人工运维，智能体显著提升了整体运维效率：工单平均处理时长缩短 50%，关键故障处理效率提升约 6 倍；运维人员得以从重复性的排查工作中解放，人效提升 5 倍以上，综合运维成本下降约 30%，为大规模 GPU 训练与推理业务提供了更加稳定、高效的基础设施保障。

但究竟什么样的运维智能体才是 “好用” 的智能体？

AI 集群运维是一个极具挑战性的场景，涉及复杂的系统知识、工具调用以及长链路推理，是对智能体能力的综合考验。过去对模型的评估看重语言能力，而当 AI 进入基础设施领域后，“能否解决实际问题” 已成为核心评判标准 —— 它最终会影响到每一度电、每一张 GPU 卡的产出效率。

基于此，中国信息通信研究院（简称 “中国信通院”）推出了首个面向 AI Infra 运维的智能体评测基准 ——AISHPerf - 智算运维智能体评测基准，而无问芯穹作为重点技术支持单位参与了基准建设，基于积累的近百亿条真实运维数据，为智能体在智算运维场景的落地定义了问题并提供了一个可参考的基线。

和传统 Benchmark 不同，AISHPerf - 智算运维智能体评测基准并不关注模型 “说得多好”，而是关注它 “能不能把事情做成”。

我们希望通过这套基准测试开源，与行业共同探索智能体在 AI 原生基础设施运维领域的能力边界，推动 “AI for Infra” 与 “Infra for AI” 的双向赋能与协同进化。

开源地址：https://gitee.com/aishperf-caict/aishperf_openness
配套故障模拟器：https://gitee.com/aishperf-caict/aishperf_openness/tree/main/entities/aiops-chaos
运维数据集：https://gitee.com/aishperf-caict/aishperf_openness/blob/main/entities/datasets/aiops-eval-prompts.jsonl
评测框架：https://gitee.com/aishperf-caict/aishperf_openness/tree/main/suites/aiops-eval

不再纸上谈兵，让运维智能体真正解决现实中多样化的生产问题

2025 年 4 月 7 日，无问芯穹某客户反馈训练任务出现无规律的剧烈性能波动，我们的基础设施团队第一时间介入，先后排查了网络链路、存储性能、节点硬件状态等所有常规维度，均未发现异常。为了定位这个 “幽灵故障”，团队前后投入 7 名资深研发运维人员，连续奋战 15 天，从用户训练框架的模型切分策略，一路向下排查到网络协议、存储参数配置，最终才在一个极其隐蔽的边缘场景中发现：问题根源与存储系统的预期缓冲机制设计存在偏差。

这场持续半个月的故障，累计消耗 105 人天的研发运维人力，256 台服务器全程处于闲置空转状态。

若排查周期再进一步拉长、故障持续发酵，将直接导致大规模资源空转、客户训练进度停滞，甚至会造成灾难性的业务停摆与资产损失。而像这样隐蔽、复杂、跨技术栈的故障，在基础设施服务商的日常中并不罕见。

正是基于无数次这样苦涩的实战教训，我们想将碎片化运维经验结构化、标准化，为运维智能体明确核心问题边界，并提供一套可执行的评测基准。

本次基准全程由领域专家主导评测，邀请了多位资深运维专家对数据进行精细标注与严格筛选，确保每一条问题都具备真实生产价值与高质量评测意义。

（一）真实生产场景的数据积淀

AISHPerf - 智算运维智能体评测基准源自无问芯穹自成立以来积累的百亿条真实运维，筛选后获得十万条场景真实、链路完整、信息完备的有效数据，经过严格的三阶段数据工程处理，最终抽象合成为 103 条高质量、高保真的评测用例。

我们收集了 2024 年至 2026 年 1 月的全部用户工单及其关联的 IM 话题与文档附件，以及所有线上集群的监控告警数据。通过过滤低质内容、去重、脱敏等严格的数据清洗流程，剔除了客户需求、未查明原因、与平台逻辑强耦合等不适合作为通用评测的内容，最终保留了无重复、高质量、信息安全的问题样本。每条用例都包含真实的问题现象、完整的排查链路和明确的故障根因，确保评测结果能够真实反映智能体在生产环境中的实际表现。

（二）多样化的跨层栈问题覆盖

AI 原生基础设施平台的运维复杂度远超传统 IT 基础设施，故障可能发生在从裸金属硬件到上层训推框架的任何一层。

因此，该基准打通了从底层硬件故障到用户侧软件 Bug 的全链路问题，囊括多种表现形式、故障根因和修复方案，不仅全面涵盖网络、GPU、宿主机、云原生平台等传统运维领域，更首创性地纳入了 AI 原生领域的大模型训练、推理关键问题。同时问题覆盖天数、壁仞、沐曦、摩尔、昇腾 5 种国产芯片，真正实现了多维度、多层次、多样化的问题场景全触达。

我们按照技术栈层级将问题划分为宿主机、高性能设备、容器平台、训推脚本、安全与运营商五大类，涵盖 44 种问题现象和 22 个细分故障领域，基本覆盖了真实运维场景中可能遇到的所有情况。此外，所有问题共分为 3 种难度级别，平均人工处理耗时为 1.5 小时，充分保障了问题的复杂性与挑战性。

（三）开放式的故障探索与处置

传统的模型评测往往更像是笔试，侧重考察知识记忆与标准答案复述。而 AISHPerf - 智算运维智能体评测基准是一场实操考核，聚焦于考验智能体贴近生产环境的端到端问题解决能力。

该基准不明确指出故障根因，只提供真实的集群环境和有限的问题现象描述，要求智能体自主探索、自主排查、自主修复。这对智能体提出了极高要求：必须理解从物理设备到上层软件实现的多层复杂技术栈，能够正确与真实环境交互，高效处理长上下文信息，并在复杂场景中完成多跳推理与决策。

例如，针对 “训练任务卡死” 这一常见问题，评测系统会注入特定故障，并启动一个开发机容器，其中包含隐藏了源代码的训练脚本。智能体只会收到一段描述训练任务卡死的客户反馈和复现方式，必须自行复现问题、排查可能的原因、验证假设并最终修复故障。这种开放式的评测方式，能够真正检验智能体的自主决策能力和问题解决能力，而不仅仅是知识记忆能力。

配套利器：GPU 集群故障模拟工程

在大规模 GPU 集群的运维实践中，如何在不破坏生产环境的前提下验证系统的故障恢复能力，一直是行业普遍面临的棘手挑战。物理硬件故障注入成本极高、速度慢且不可重复，而脱离真实集群，用纯软件模拟又存在真实度不足的问题。

为了解决这一难题，AISHPerf - 智算运维智能体评测基准配套提供了 AIops-Chaos—— 一个专为 GPU 集群设计的混沌工程项目。其核心思路是通过软件层精准模拟各类硬件故障场景，包括 GPU 掉卡、显存错误、NVLink 故障、网络分区等典型异常，同时结合真实的业务负载构造高保真的测试环境。这种 “软件模拟 + 真实集群” 的模式，既避免了物理损坏带来的高昂代价，又确保了故障注入的可控性与可重复性。

在工程实现上，AIops-Chaos 针对 GPU 与 RDMA 等智算集群的故障场景，采用了创新的技术方案：

GPU 故障模拟：通过劫持 nvml 库，实现了支持注入多种 GPU 故障的 nvidia-smi，包括温度异常、掉卡、频率异常、风扇故障等
RDMA 故障模拟：端侧故障直接操作物理机；对交换机故障，采用 rdma hostmesh 作为可观测方案，通过构造故障指标来模拟

AIops-Chaos 展现出了高效、低成本、快速的优势。仅需一台 GPU + 多轨 RoCE NIC 服务器，即可支持构造多机任务故障现象，并实现分钟级的故障编排与自动化恢复验证。

科学量化：一个多维度评估体系

（一）评估指标

AISHPerf - 智算运维智能体评测基准采用多维度综合评估体系，评估的指标以结果为导向，分为主指标与辅助指标。不仅关注智能体解决问题的正确率，还全面考量时延、Token 消耗、工具调用效率等关键指标。

1.1 主指标：综合得分

主指标为综合得分，用于衡量智能体在整个运维任务集上的总体解决能力。

要获得更高的分数，必须做对中等和困难题目。

1.2 辅助指标：平均耗时、平均 Token 消耗与工具调用次数

辅助指标由平均耗时与平均 Token 消耗构成，用于评估智能体解决实际问题的时效性与成本。

我们用平均耗时用于衡量智能体在完成任务时的时延表现，单位为秒 / 任务。时延定义为从开始调用智能体到智能体返回最终结论的耗时。
我们用平均 Token 消耗衡量智能体完成任务的资源成本，单位为 Token / 任务。
如果智能体不调用工具，直接猜答案，即使答案正确，也会判为错，用来确保智能体是实际与环境交互后推理出答案。

（二）评估框架

当前社区的评测工具普遍存在三大痛点：缺乏对各类智能体应用的统一接口支持、仅关注最终答案而缺少对中间过程的细粒度评测、不包含环境定义与构造流程。

为了解决这些问题，我们开发了 AIops-Eval—— 一个端到端的智能体评测工具链。它包含五个核心子模块：

User 模块：负责与智能体交互，支持数据集驱动的固定输入和 LLM 驱动的真实用户模拟
Agent 模块：待评测对象，原生支持本地 LLM 和基于 langgraph 构建的本地智能体，并预留了远程智能体接口
Env 模块：为智能体提供交互环境，负责每轮测例前后的环境构造与清理
Evaluator 模块：对智能体的完整轨迹进行评测，支持自定义规则评测和 LLM-as-a-judge 评测
Tracing 模块：基于开源的 langfuse 实现，完整采集智能体的执行轨迹

实测验证

我们对基于 ReAct loop 的简单智能体进行了全面测试。测试使用了多款不同大小的国内外主流模型，同时为了公平测试模型自身的长程多跳推理能力，智能体只使用 shell 工具，且无法连接互联网进行搜索。下图展示了不同模型的总得分与时延，以及模型与人类的对比：

从图中可以看出：

所有模型的总得分均在 50 分以下但达到了数量级的时效性提高
成功率相比人类运维专家仍有差距

下面的图展示了不同难度分类下各模型的表现：

不同难度的正确率

不同难度 tool call 时间占比

不同难度 token 消耗

中等与困难难度上，所有模型的正确率均小于 50%，意味着即使是旗舰模型，也难以稳定、出色的解决复杂运维问题。
面对困难问题，tool call 时间占比显著增加，但正确率下降，意味着模型无法精准有效的采集信息。
不同难度问题的 Token 消耗没有数量级差别，意味着在运维领域，面对简单问题，智能体无法像人类一样快速做出精确判断。

下面的图展示了模型对不同技术栈的任务的表现：

不同技术栈任务的正确率

不同技术栈 token 消耗

模型更善于处理单纯的代码类 bug，而在硬件故障上，模型的正确率普遍低，Token 消耗更高，意味着模型对于硬件故障的置信度不够高，倾向于反复思考和确认，这代表智能体与运维专家的技能可能存在正交性。

基于上述对大量测试轨迹的分析，我们总结出智能体在解决运维问题时的几种典型失败模式：

1. 处理任务的稳定性不足：模型可能生成不符合工具调用解析规则的 Token，导致智能体执行异常终止；也可能违反输出格式要求或执行禁止的危险操作，导致任务无法得分。

2. 推理链的质量差：模型可能治标不治本的临时方案来达到表面上的修复效果；可能输出看似合理但经不起推敲的推理过程；可能只输出宽泛的排障思路，不经过考证就直接给出结论。

3. 决策与执行不够安全：模型可能执行危险的工具调用，执行过程卡死，导致整个物理环境崩溃，甚至需要运维人员人工介入才可恢复。

实践思考与未来展望

过去一年 AI 的发展态势有目共睹，从大模型到智能体，从训练到推理，行业正在形成一个共同的认知：技术发展的瓶颈早已不再局限于模型层，底层算力基础设施同样是决定产业上限的关键要素。AI 系统本质上已经演变成一座 “Token 工厂”：模型是生产逻辑，数据是原材料，而 GPU 集群则是生产设备，工厂的最终产出是一个个 Token。但当我们将视角下沉到更底层，就会发现一个更现实的问题：“Token 工厂” 远没有想象中那么高效。

AISHPerf - 智算运维智能体评测基准正是基于我们长期在 AI 基础设施领域建设与实践的经验，针对 Token 工厂全栈提效的阶段性思考与探索成果。AI 正在重塑基础设施，基础设施也在反过来决定 AI 的效率上限。在这两者不断交织的过程中，我们希望此次的工作能够成为一个小的起点，让 “系统自己解决问题” 这件事，变得更可衡量，也更可实现。

此次开源只是一个开始，未来仍有大量工作可深入挖掘。

我们将持续合成更丰富、高质量的数据，覆盖更多技术栈与领域，更全面地捕捉智能体的运维能力演进趋势；并同步完善 AIops-chaos 混沌工程，实现更丰富、真实、鲁棒的故障注入，为智能体搭建更完善可信的故障模拟环境，提升数据集丰富度与评测结果可靠性。

同时，我们将在评测框架上做更开放的支持。目前我们测试的 Baseline Agent 基于 ReAct 范式构建。后续将逐步扩展评测框架的适配能力，让不同类型的智能体都可以无缝接入，而不是被限制在某一种范式下进行对比。

立足当下国产芯片大力发展、国产 GPU 集群建设日益蓬勃的产业背景，面向国产 GPU 集群的运维工作愈发关键，新问题与挑战也将随之增加。我们将不断在评测集中拓展面向国产芯片集群运维的特定场景及问题，填补国产智算运维评测领域的空白，从而有效助力国产芯片集群运维能力的智能化升级。

我们将持续深化与中国信息通信研究院、清华大学等产学研机构的技术协同，同时也期待着每一位社区开发者的加入共建，共同推动运维智能体技术稳步发展并成为整个行业共享的能力。

如果说目前完成的工作是在回答 “什么是一个好用的运维智能体”，那么接下来，我们更想与行业一起探索的是 —— 在真实世界中，这件事情还能走多远。我们期待 AISHPerf - 智算运维智能体评测基准可以不止于一款 “评测工具”，而是逐步演进为 AI 集群运维智能体能力的公共基线。不同团队可以在同一套标准下验证能力、对齐认知，甚至推动一些最佳实践的沉淀。

DC娱乐网

百亿真实数据，首个面向AI Infra的运维智能体评测基准正式开源

热门分类