能识图能画画,被吹爆的开源多模态AI模型Mini-Gemini究竟有多好

开心盖土 2024-04-17 06:31:08

AI大模型向多模态发展已经是个趋势,因其能理解和生成图像、文本等多种信息形式而备受瞩目。但是目前还没有一个开源AI大模型集成识别图像和生成的图像的功能,而刚刚由港大贾佳亚团队发布的开源多模态AI模型Mini-Gemini,不仅能理解图像,还能根据指令生成图片,甚至还能读懂梗图、复现数学函数,堪称开源版的“GPT-4 + DALL-E 3”。

图像识别能力比肩顶尖商业闭源模型

我用微软的一个AI知识点手绘图,分别测试 ChatGPT-4、Gemini 1.5 pro、Claude3-Opus目前最好的三个闭源商业模型跟Mini-Gemini对比。

Mini-Gemini-34B-HD

ChatGPT-4 Turbo 128k

Gemini 1.5 pro

Claude 3 - Opus

Mini-Gemini的识别结果完全正确,毫不逊色ChatGPT-4 和Gemini 1.5 pro,而 Claude3-Opus 这次偷懒识别结果不完全。

高清图像理解与推理

以往的多模态模型多局限于低分辨率图像的处理,而Mini-Gemini 则打破了这一局限,能够解析高清图像,并进行相应的推理。

可以从识别图片中一个微小部分的文字

面对复杂的烘焙步骤,Mini-Gemini 可以轻松看懂面包九宫格教程,并像一位经验丰富的烘焙师一样,对每一个步骤进行详细的讲解,帮助用户轻松掌握烘焙技巧。

想要进行艺术创作却缺乏灵感?Mini-Gemini 可以成为你创意的伙伴,例如,只需提供两个简单的毛线团,它就能推理并生成毛线小熊的图片,激发你的创作灵感。

玩梗大师: 面对网络上层出不穷的梗图,Mini-Gemini 可以轻松理解其背后的幽默,并进行准确的解释。例如,一张将麦当劳标志P成健身房(GYM)的表情包,Mini-Gemini 就能准确解读其讽刺的含义。

数据分析师: 面对复杂的数据图表,Mini-Gemini 可以化身专业的数据分析师,快速理解图表内容,并用简洁易懂的语言进行归纳总结。

代码助手: Mini-Gemini 能够理解数学函数曲线图,并用代码进行复现,从而节省程序员宝贵的时间和精力。

图像生成

Mini-Gemini不仅具有出色的图像理解和推理能力,还能根据推理结果生成图像。它就像 ChatGPT 和 DALL-E 3 的结合,能够理解图像中的信息,并根据指令进行推理和生成图像。

给它一幅图,它能理解并生成类似的图像。

直接给它命令,它先推理出prompt后,再生成对应的图像。

技术细节

Mini-Gemini 的强大能力,源于其独特的技术设计:

双编码器机制: 为了高效处理高清图像,Mini-Gemini 采用了双编码器机制。它使用 ViT 作为低分辨率的 Query,并使用卷积网络(ConvNet)将高分辨率的图像编码成 Key 和 Value。通过 Transformer 中常用的 Attention 机制,Mini-Gemini 能够挖掘每个低分辨率 Query 对应的高分辨率区域,从而在保持最终视觉 Token 数目不变的情况下,提升对高清图像的响应,保证了在大语言模型(LLM)中对于高清图像的高效编码。

高质量数据: 数据是 AI 模型的“燃料”,Mini-Gemini 采用了更高质量的训练数据,并加入了与生成模型结合的文本数据进行训练。这使得 Mini-Gemini 在仅使用 2-3M 数据的情况下,就能实现对图像理解、推理和生成的统一流程,并在各种 Zero-shot 榜单上取得优异成绩。

生成模型拓展: 为了实现图像生成功能,Mini-Gemini 借助了 SDXL 生成模型。LLM 在进行推理后,会生成相应的文本信息,并将其与 SDXL 模型连接,从而实现图像的生成,类似于 DALL-E 3 的流程。而且Mini-Gemini还可以插拔其他的绘画模型。

开源共享,人人可玩

Mini-Gemini 一次性发布了10多个不同等级的模型,从最小的Mini-Gemini-2B到最强的Mini-Gemini-34B-HD,代码、模型和数据全部开源,并且提供了线上 Demo,人人都可以上手体验,探索 AI 的无限可能。

Demo地址: 103.170.5.190:7860/

Demo地址: huggingface.co/spaces/wcy1122/Mini-Gemini

总结

在实际使用中,不知是模型本身还是算力的原因,Mini-Gemini 的推理速度相当慢。不能直接对它说生成什么的图像,否则它会说我只是给语言模型不能生成图像,需要对它说生成一个什么,它才会输出一段prompt后出图,一般图片是标准的1024*1024像素。

总的来说,Mini-Gemini 的出现,使开源AI模型终于有接近甚至超过闭源商业模型的性能了。它集成图像理解、推理和生成能力,也为多模态AI模型的发展开启了新思路。

Mini-Gemini 的出现,是否意味着开源 AI 模型将赶超商业模型?未来,多模态AI 模型的发展方向又将如何?

参考链接:

Github地址:https://github.com/dvlab-research/MiniGemini

模型地址:https://huggingface.co/collections/YanweiLi/mini-gemini-6603c50b9b43d044171d0854

数据地址:https://huggingface.co/collections/YanweiLi/mini-gemini-data-660463ea895a01d8f367624e

论文地址:https://arxiv.org/pdf/2403.18814.pdf

0 阅读:0

开心盖土

简介:感谢大家的关注