大模型评测体系“司南”(OpenCompass2.0)发布

学学看科技 2024-02-04 06:06:04

上海人工智能实验室科学家团队正式发布了大模型开源开放评测体系 “司南” (OpenCompass2.0),用于为大语言模型、多模态模型等提供一站式评测服务。

司南 OpenCompass2.0 评测体系官网:https://opencompass.org.cn/GitHub 主页:https://github.com/open-compass/OpenCompass/

据介绍,“司南” 全面量化模型在知识、语言、理解、推理和考试等五大能力维度的表现,评测榜单涉及的大语言模型和多模态大模型超过 150 个,客观中立地为大模型技术的创新提供坚实的技术支撑。截至目前,已有包括 Meta、阿里巴巴、腾讯、百度等 30 余家国内外企业和科研机构采用 “司南” 助力开展技术研发。

OpenCompass2.0 对过去一年来主流开源模型和商业 API 模型进行了全面评测,分析结果显示,GPT-4 Turbo 在各项评测中均获最佳表现,智谱清言 GLM-4、阿里巴巴 Qwen-Max、百度文心一言 4.0 紧随其后;大语言模型整体能力仍有较大提升空间,复杂推理相关能力仍是短板;中文场景下国内的模型更具优势,与此同时,开源模型进步很快,以较小的体量达到较高性能水平,表现出较大的发展潜力。

完整榜单:https://rank.opencompass.org.cn/home

0 阅读:0

学学看科技

简介:感谢大家的关注