中国信通院发布“方升”大模型基准测试体系

科技好难贝川评 2024-03-14 00:41:05

12月24日,由中国信通院主办,人工智能关键技术和应用评测工业和信息化部重点实验室协办的“2024中国信通院ICT深度观察报告会”人工智能伙伴分论坛在北京召开。

大模型是人工智能技术的新范式,标志着人工智能发展进入新阶段。评估测试在大模型阶段的重要性尤为显著,对于研发、选型、应用、部署、治理等都至关重要,所以大模型评测活动需要嵌入大模型全生命周期的各个阶段,这也是与传统人工智能不同的。

会上发布了“方升”大模型基准测试体系。“方升”大模型基准测试体系涵盖测试指标、测试方法、测试数据集、测试工具等方面,目前已经形成《大规模预训练模型基准测试-总体技术要求》标准。测试指标方面,包括行业、应用、通用和安全能力测试对大模型进行评估,重点强化行业和场景导向的能力考查,目的是加速大模型与行业的融合。测试方法上,首次提出了自适应动态测试方法,解决大模型“刷榜”等问题。测试数据超过百万条,并首次推出面向行业、通用、应用、安全的评测数据集6个。

0 阅读:0

科技好难贝川评

简介:感谢大家的关注