北大出考题难倒一众AIAI还难以胜任科研助手
LLMs能当科研助手了?
北大出考题,结果显示:现有模型都不能胜任。
北京大学DS-Lab发布ScholarSearch,这是首个专门用于评估大语言模型在学术研究中复杂信息检索能力的数据集,包含223道高难度的学术检索题目及其答案。
它对具备联网搜索能力的代表性模型及纯推理模型进行了评估,结果显示,顶尖的纯推理模型,如GPT-4.1、DeepSeek-R1,在处理这些问题时准确率普遍低于9%。
具备搜索功能的模型,相较于其无搜索能力的版本,准确率有显著提升,例如,GPT-4o-mini的准确率提升超过四倍。
尽管浏览能力带来了显著改进,但即便是最先进的搜索增强型模型,如GPT-4o-search-preview,其准确率仅为18.83%。
详细请看👇