当地时间6月17日,为期5天的IEEE国际计算机视觉与模式识别会议(CVPR2024)在美国西雅图举办。官方数据显示,本届会议共收到11532篇有效论文投稿,接收了其中2719篇,录用率为23.6%,比例低于往年。
CVPR主办方是IEEE,为全球计算机视觉三大顶会之一,迄今举办了40次会议。本届会议蚂蚁集团有24篇论文被收录,其中一篇被组委会重点推荐(highlight)。24篇论文研究方向包括计算机视觉、深度学习、数字人、大模型等。
被组委会重点推荐的论文“用于时序一致性视频处理的内容变形场”,提出了一种全新的视频处理方法CoDeF,它能将视频处理简化为图像处理。相较于传统方法,CoDeF能够实现跨帧一致性,跟踪烟雾、水流等非刚性物体,支持各种图像算法直接用于视频处理。用户只需要处理每个视频对应的静态规范图像,通过形变场的变换,就可将图像处理结果自然地沿着时间维度进行传播,达到对整个视频处理的目的,也因此保证了高度的时序一致性。
据了解,这二十余篇学术成果,有部分已经在真实业务场景中落地应用。比如“面向地球观测影像通用解译的多模态遥感基础模型”一文,介绍了蚂蚁自研的多模态遥感基础模型SkySense,它是迄今为止国际上参数规模最大、覆盖任务最全、识别精度最高的多模态遥感基础模型。在17 项国际权威测试场景中,SkySense 的指标全面超过国际同类产品。
目前,SkySense已应用于网商银行的卫星遥感风控系统“大山雀”,可精准识别和捕捉20多种农作物的种类和长势,让它们成为银行认可的资产抵押物,从而灵活、随时给到种粮户合理的贷款额度和还款周期。
还有部分学术成果,致力于优化和提高AI的可靠性、经济性和易用性,为AI持续降本增效,以推动大模型在真实场景,尤其是严谨产业中得以规模化落地应用。比如“基于promp的视觉语言模型无监督蒸馏”一文,提出了一种基于可学习提示的视觉语言模型 CLIP 的蒸馏方法,可将大型 CLIP 教师模型的知识迁移至轻量级 CLIP 学生模型中。这是将大模型做“小”,提高AI经济性的有效技术解决方案,AI降本,大模型应用才有可能成为主流。实验结果表明,该蒸馏方法训练出的模型,在多个数据集上达到了最先进的性能。
据介绍,蚂蚁此次被CVPR收录的24篇论文中,有13篇出自蚂蚁技术研究院。作为蚂蚁聚焦前瞻科技的科研团队,蚂蚁技术研究院设立了交互智能、数据库、图计算、计算系统、程序设计语言与编译器、密码学等六个实验室,以推动实现几个阶段性目标:在人工智能方向,能做出真正通过图灵测试的智能模型,以及可以以假乱真、实时可交互的高精度数字人;在隐私计算方向,实现隐私计算软硬件结合加速10万倍;在数据方向,做到让数据库更智能,以及在图计算上部署大脑模拟和融合神经科学的智能机理研究。
除了蚂蚁集团,清华大学、南京大学、华中科技大学、哈尔滨工业大学、西安电子科技大学、华南理工大学、腾讯、字节跳动等国内高校和互联网企业均有论文被该会议收录。在这波生成式AI科技浪潮下,国内校企正在发力积极参与其中。(数智前线/牛慧)