最近的发布的大模型产品都在推DeepResearch/Deepsearch。

又仁看科技 2025-03-01 10:22:16

最近的发布的大模型产品都在推Deep Research/Deep search。苹果研究员Bowen Jin,发布了一个开源框架Search-R1,专门用于训练推理和搜索引擎调用交错的大型语言模型。也是通过强化学习训练一个开源版 𝗢𝗽𝗲𝗻𝗔𝗜 “𝗗𝗲𝗲𝗽 𝗿𝗲𝘀𝗲𝗮𝗿𝗰𝗵”的一步。

🔗 github.com/PeterGriffinJin/Search-R1

Search-R1 是一个基于 veRL 的高效、可扩展的强化学习(RL)训练框架,专门用于训练推理和搜索引擎调用交错的大型语言模型(LLM)。训练方法类似Deepseek R1-zero,通过规则化奖励机制,使基础 LLM(如 Qwen2.5-3b 和 Llama3.2-3b)能够自主发展推理和调用搜索引擎的能力。项目提供了详细的安装指南、快速入门教程、初步实验结果以及如何使用自定义数据集和搜索引擎的说明。

0 阅读:0
又仁看科技

又仁看科技

感谢大家的关注