代码、多模态检索全面登顶SOTA!智源BGE向量模型三连击,并全面开放

JavaEdge聊AIss 2025-05-21 02:29:17

代码、多模态检索全面登顶 SOTA!智源 BGE 向量模型三连击,并全面开放 智源发布 BGE 系列代码及多模态向量模型,全面登顶多项基准。 摘要: 针对现有向量模型在代码及多模态检索中效果有待提升的挑战,智源研究院联合多所高校发布了三款 BGE 系列向量模型:BGE-Code-v1 (代码)、BGE-VL-v1.5 (通用多模态) 和 BGE-VL-Screenshot (视觉化文档)。 这些模型在 CoIR、Code-RAG、MMEB、MVRB 等领域主要测试基准上取得 SOTA 效果。文章介绍了各模型基于的基座、训练数据特点及其在不同场景下的应用潜力,如代码检索、多模态问答、视觉化信息检索等。所有模型已全面开放,为检索增强技术在代码及多模态领域的应用提供有力支持。 主要内容: 1. 智源 BGE 系列新模型在代码和多模态检索领域达到 SOTA -- 最新发布的 BGE-Code-v1、BGE-VL-v1.5、BGE-VL-Screenshot 在多个核心基准上显著超越现有模型,刷新了代码及多模态检索的最佳效果。 2. 针对代码、通用多模态和视觉化文档发布了专用向量模型 -- 三款模型分别优化,满足不同模态数据的检索需求,增强了检索增强技术在复杂场景下的应用能力,覆盖更广阔的技术范围。 3. 新模型已全面开源,赋能社区研究与产业应用 -- 智源将 SOTA 模型开放给社区,降低了技术门槛,加速了基于这些模型的 RAG、神经搜索等应用的研发与落地,促进了生态发展。 4. 推出了针对特定任务的新多模态检索基准 -- 为更准确评估模型在代码和视觉化信息检索上的表现,智源团队推出了如 CoIR、CodeRAG-Bench 和 MVRB 等新基准,推动了领域评估标准化。记录我 工作流 编程严选网

0 阅读:0
JavaEdge聊AIss

JavaEdge聊AIss

感谢大家的关注