中国信通院发布“方升”大模型基准测试体系

12月24日，由中国信通院主办，人工智能关键技术和应用评测工业和信息化部重点实验室协办的“2024中国信通院ICT深度观察报告会”人工智能伙伴分论坛在北京召开。

大模型是人工智能技术的新范式，标志着人工智能发展进入新阶段。评估测试在大模型阶段的重要性尤为显著，对于研发、选型、应用、部署、治理等都至关重要，所以大模型评测活动需要嵌入大模型全生命周期的各个阶段，这也是与传统人工智能不同的。

会上发布了“方升”大模型基准测试体系。“方升”大模型基准测试体系涵盖测试指标、测试方法、测试数据集、测试工具等方面，目前已经形成《大规模预训练模型基准测试-总体技术要求》标准。测试指标方面，包括行业、应用、通用和安全能力测试对大模型进行评估，重点强化行业和场景导向的能力考查，目的是加速大模型与行业的融合。测试方法上，首次提出了自适应动态测试方法，解决大模型“刷榜”等问题。测试数据超过百万条，并首次推出面向行业、通用、应用、安全的评测数据集6个。

DC生肖网

中国信通院发布“方升”大模型基准测试体系

科技好难贝川评