统一框架打破跨模态干扰如何解决模态干扰多模态检索是AI界的一块硬骨头,尤其“跨模

量子位看科技 2025-06-08 15:25:33

统一框架打破跨模态干扰如何解决模态干扰

多模态检索是AI界的一块硬骨头,尤其“跨模态干扰”问题,一直没被妥善解决。快手联合东北大学的研究团队提出了解法,名为UNITE的统一嵌入框架。

UNITE的核心是“一个嵌入器搞定文本、图像、视频及其组合”。它通过“模态感知对比学习”,解决模态之间的语义干扰问题。UNITE采用MAMCL机制,训练时只对模态一致的负样本进行对比,避免了不同模态“互相抢戏”。

整个训练分两阶段:

- 第一阶段:检索适应,建立基本多模态检索能力,引入细粒度视频-文本数据;

- 第二阶段:指令微调,通过复杂任务增强指令理解与扩展能力。

在多个评测任务中,UNITE都表现亮眼:

- 图文检索超越E5-V、VLM2Vec;

- 视频检索在CaReBench任务中,7B模型刷新SOTA;

- 指令检索中,UNITE 7B跑赢了更大模型如mmE5 11B和IDMR 26B;

- 通用性方面,在Flickr30K、MSR-VTT等任务中表现稳健。

作者还发现:

1. 视频-文本数据具备“统一模态”潜力,图文任务中也能吊打图像训练模型;

2. 指令任务更吃Text–Text和Text–Image数据;

3. 细粒度Text-Video样本加入第一阶段训练效果最佳。

更多细节可见论文与代码仓库:

论文:

项目:

0 阅读:0
量子位看科技

量子位看科技

感谢大家的关注