北大出考题难倒一众AIAI还难以胜任科研助手LLMs能当科研助手了？北大出考题，

量子位看科技 2025-06-27 11:23:37

北大出考题难倒一众AIAI还难以胜任科研助手

LLMs能当科研助手了？

北大出考题，结果显示：现有模型都不能胜任。

北京大学DS-Lab发布ScholarSearch，这是首个专门用于评估大语言模型在学术研究中复杂信息检索能力的数据集，包含223道高难度的学术检索题目及其答案。

它对具备联网搜索能力的代表性模型及纯推理模型进行了评估，结果显示，顶尖的纯推理模型，如GPT-4.1、DeepSeek-R1，在处理这些问题时准确率普遍低于9%。

具备搜索功能的模型，相较于其无搜索能力的版本，准确率有显著提升，例如，GPT-4o-mini的准确率提升超过四倍。

尽管浏览能力带来了显著改进，但即便是最先进的搜索增强型模型，如GPT-4o-search-preview，其准确率仅为18.83%。

详细请看👇

0 阅读：0

量子位看科技

感谢大家的关注

作者最新文章

1

鸟类识别工具认鸟神器想知道身边的鸟叫什么？Merlin可能是目前最全、最智能的免

2

使用AI的老师每周能省6小时三成美国教师每周都用AIAI正在成为教师工作的一部分

3

阿里云飞天发布时刻阿里云百炼2025年已成为名副其实的Agent元年。不论是Op

4

60年数学悬案被建筑生破解康威猜想被验证扔100次，99次「同一面朝上」。这个由

5

AI眼镜和机器人何时进入家庭量子位AI眼镜格局报告如果要问近期最火热的AI硬件品

6

蓝屏死机将成为过去式微软告别蓝屏死机爷青结，等夏天结束，就要和Windows蓝屏

7

北大出考题难倒一众AIAI还难以胜任科研助手LLMs能当科研助手了？北大出考题，

8

AI提取文案省钱技巧AI字幕翻译省钱技巧用大模型提取视频文案、或是做字幕翻译，如

9

谷歌发布Imagen4谷歌推出创造力图像模型谷歌发布图像模型Imagen 4，主

10

从零开始的机器学习教程机器学习入门教程对机器学习充满好奇，不知从何入手？这份从零

热门分类

推荐热榜军事 NBA 体育社会明星八卦娱乐财经科技汽车历史国际游戏动漫公益搞笑商业互联网数码国际足球房产家居时尚科学探索职场育儿股票教育影视情感热点中国军情武器中国南海中国足球亚洲杯科比综合体育 CBA 投资楼市大咖秀外汇创业风口 SUV 豪车概念车优惠新能源美国欧洲朝日韩俄罗斯孕期街拍恋爱攻略婚姻正能量

科技TOP

1

格力把高管送去火焰山猴哥都抹汗的地方朱总靠空调坚持了下来。😅孙悟空要是有这条

2

罗永浩连怼网友罗永浩怎么了罗永浩连续发微博怼网友，他怎么了

3

很庆幸买了荣耀400Pro，没买华为Nova14Pro。最近换手机，在华为Nov

4

苹果公司第三财季财报太靓丽了，仅仅iPhone16的营业收入就达到了445亿美

5

红米新机Redmi15外观渲染图曝光：后置三摄采用纵向排列的矩形Deco今

6

25年公认最强拍照手机，有你在用的吗。

7

马斯克已确认，三星拿下特斯拉165亿美元的合作，将为特斯拉生产芯片[doge]我

8

三星是不是都沉默了，这次又全面输给了荣耀三星GalaxyZFold7好不

9

荣耀Magic8全系曝光🔥四杯+7500mAh+2亿潜望荣耀Magic8系

10

目前最新的手机处理器排名，不出意外高通骁龙还是占据主流排第一的是骁龙8至尊领先

科技最新文章

1

荣耀Power2来了！10000mAh+骁龙8sGen4！荣耀倒逼充电宝彻底退市

2

按照国际惯例，今年三大旗舰手机分别是iPhone17Ultra，三星S26U

3

荣耀Magic8系列已经定档，10月发布！骁龙峰会9月发布骁龙8Gen5，荣

4

目前最值得入手的3款荣耀手机1、荣耀400Pro，相对上一代产品升级到了满

5

红米K90系列电池容量曝光，标准版7100毫安电池，Pro是7500毫安，因为标

6

小米的芯片困局又来了。英伟达被约谈的消息一出，雷军估计眉头紧锁。小米手机

7

只有华为Mate80RS非凡大师才能打，荣耀Magic8Ultra影像究竟有

8

荣耀最新旗舰荣耀Magic8系列配置预测，为了满足消费者的需求，这次的荣耀Mag

9

补充：华为Pura80Pro日均降价17.78元三星Galaxy

10

GalaxyZFold7很优秀，但我仍然选择等待GalaxyZFo