这篇论文的标题是《ScienceAgentBench: A Benchmark for Evaluating Language Agents for Data-Driven Scientific Discovery》,由俄勒冈州立大学、俄勒冈大学药学院、威斯康星大学麦迪逊分校地理系、俄勒冈州立大学心理学系、威斯康星大学麦迪逊分校化学系、俄勒冈州立大学生物医学信息学系共同研究。
摘要: 大语言模型(LLMs)的进步引发了对基于 LLM 的语言智能体的浓厚兴趣,以实现科学发现的全自动化,这在兴奋的同时也带来了一些对这些智能体真正能力的怀疑。在这项工作中,我们认为,要完全自动化科学发现,智能体必须能够完成工作流程中的所有关键任务。因此,我们呼吁在对全自动化做出大胆声明之前,严格评估智能体在科学工作流程中的各个单独任务。为此,我们推出了 ScienceAgentBench,这是一个用于评估语言智能体在数据驱动科学发现中表现的新基准。为了确保我们基准的科学真实性和现实相关性,我们从四个学科的 44 篇同行评审的出版物中提取了 102 项任务,并邀请了九位主题专家对其进行验证。我们将每个任务的目标输出统一为一个独立的 Python 程序文件,并采用一系列评估指标来检查生成的程序、执行结果和成本。每个任务都经过注释者和主题专家的多轮手动验证,以确保注释质量和科学可信度。我们还提出了两种有效的策略来减轻数据污染的担忧。利用我们的基准,我们评估了五个开放权重和专有 LLM,每个 LLM 使用三种框架:直接提示、OpenHands 和自我调试。在每个任务上给予三次尝试的情况下,表现最佳的智能体只能独立解决 32.4% 的任务,而在获得专家提供的知识后,仅能解决 34.3% 的任务。这些结果凸显了当前语言智能体在为数据驱动发现生成代码方面的能力有限,更不用说在科学研究中实现全自动化了。。
研究背景: 随着语言模型(LLMs)在推理、工具学习和代码生成等方面展现出显著能力,研究者们对开发能够端到端自动化科学发现的LLM基础语言代理产生了浓厚兴趣。然而,对于这些代理的真正能力存在怀疑。
主要贡献:
提出了ScienceAgentBench基准测试工具,包含102个从44篇同行评审出版物中提取的任务,涵盖生物信息学、计算化学、地理信息科学和心理学与认知神经科学四个学科。统一了每个任务的目标输出为自包含的Python程序文件,并采用多种评估指标来检查生成的程序、执行结果和成本。通过多轮手动验证确保任务的注释质量和科学合理性。提出了两种有效的策略来缓解数据污染问题。研究方法: ScienceAgentBench的构建遵循三个关键设计原则:与主题专家共同设计以确保科学的真实性、严格的分级评估和仔细的多阶段质量控制。
实验结果: 在ScienceAgentBench上的评估结果显示,即使是表现最好的代理(使用专家提供的知识的Claude-3.5-Sonnet),也只能独立解决32.4%的任务,并且在给定三次尝试时,最多只能解决34.3%的任务。
结论: 当前的语言代理在生成数据驱动发现的代码方面能力有限,更不用说实现科学研究的端到端自动化了。
一句话总结: 这篇论文介绍了ScienceAgentBench,这是一个用于评估语言代理在数据驱动科学发现中的性能的新基准测试工具,结果表明当前的语言代理在自动化科学任务方面的能力还相当有限。
论文链接https://arxiv.org/abs/2410.05080