首个智算运维智能体评测基准落地 覆盖5款主流国产芯片
来源:证券时报网作者:张淑贤2026-06-30 15:13
字号
超大
标准

在近日举行的2026“众智”大模型开放智算生态协同高级别研讨会上,中国信通院正式发布 AISHPerf人工智能软硬件基准体系3.0版本,包含两项AI Infra领域核心评测基准——AISHPerf-智算运维智能体评测基准以及AISHPerf-算子生成智能体评测基准。

AISHPerf是人工智能软硬件基准体系。国内AI原生基础设施服务商无问芯穹及清华大学团队作为重点技术支持方,参与上述两大评测基准建设。

其中,前者是首个面向AI Infra的运维智能体评测基准,核心考核智算运维智能体在真实生产场景中解决实际问题的落地能力。后者则跳出“模型能否生成可运行GPU算子”的基础维度,将评测重心锚定在“模型生成的算子能否在真实量化推理部署中替代现有算子”的工程可部署性上,更贴合产业实际落地需求。二者从底层算力优化到上层集群运维,共同为智算产业的标准化升级与高质量发展提供了统一的能力参照框架。

在此次发布的两项基准中,AISHPerf-智算运维智能体评测基准尤为引人注目,它不仅标志着我国在智算集群运维智能体领域拥有了首个权威评测体系,更率先将国产芯片集群运维场景纳入评测体系,填补了国产智算运维智能体评测领域的空白。

随着AI发展从“堆算力、拼规模”迈入以“Token效能”为核心的新阶段,算力与电力投入已成为AI基础设施的“基础常量”。然而,当前业内对运维智能体的评估多停留在语言问答能力层面的“纸上谈兵”,往往更像是笔试,侧重考察知识记忆与标准答案复述,而缺乏针对真实运维场景的“实战考核”,无法反映智能体“能否解决实际问题”。

AISHPerf-智算运维智能体评测基准是一套锚定真实生产场景的实操型评测体系,在设计之初便融入了对国产化生态的考量,率先在同类评测基准中纳入包括“天数、壁仞、沐曦、摩尔、昇腾”5款国产芯片集群运维的特定场景及典型问题测例,覆盖国产GPU硬件故障、驱动适配、框架兼容、通信协议等典型运维痛点,首次为国产智算运维智能体建立起统一、可量化的评估标尺,填补了国产智算运维领域的标准空白。

据悉,中国信通院将持续从标准研制、测试验证、生态培育等方面推动基准产业应用,不断丰富国产芯片相关评测用例,构建更加体系化、全栈化的国产智算运维评测体系,一方面精准定位国产芯片集群运维的共性痛点与工程难点,牵引产业链上下游协同攻关、补短板强弱项;另一方面以标准化评测驱动运维智能化能力升级,推动国产算力集群真正实现从“能用”到“好用、高效、稳产”的质变,为我国智算产业自主可控与高质量发展筑牢底层标准支撑。

未来,中国信通院将与无问芯穹、清华大学将深化产学研协同,迭代优化AISHPerf-智算运维智能体评测基准,不断扩充场景覆盖维度、丰富数据集规模、提升评测结果的可靠性与权威性,推动其成为行业公认的AI集群运维智能体能力评估公共基线,牵引全行业优质运维智能体的技术迭代与规模化落地。与此同时,各方也将持续拓展AI Infra全领域核心评测基准布局,构建起全栈的标准矩阵,为建设高效、绿色、自治的新一代AI基础设施筑牢标准底座。

责任编辑: 孙孝熙
校对: 祝甜婷
声明:证券时报力求信息真实、准确,文章提及内容仅供参考,不构成实质性投资建议,据此操作风险自担
下载"证券时报"官方APP,或关注官方微信公众号,即可随时了解股市动态,洞察政策信息,把握财富机会。
为你推荐
用户评论
登录后可以发言
网友评论仅供其表达个人看法,并不表明证券时报立场
发表评论
暂无评论
时报热榜
换一换
    热点视频
    换一换