能识图能画画，被吹爆的开源多模态AI模型Mini-Gemini究竟有多好

AI大模型向多模态发展已经是个趋势，因其能理解和生成图像、文本等多种信息形式而备受瞩目。但是目前还没有一个开源AI大模型集成识别图像和生成的图像的功能，而刚刚由港大贾佳亚团队发布的开源多模态AI模型Mini-Gemini，不仅能理解图像，还能根据指令生成图片，甚至还能读懂梗图、复现数学函数，堪称开源版的“GPT-4 + DALL-E 3”。

图像识别能力比肩顶尖商业闭源模型

我用微软的一个AI知识点手绘图，分别测试 ChatGPT-4、Gemini 1.5 pro、Claude3-Opus目前最好的三个闭源商业模型跟Mini-Gemini对比。

Mini-Gemini-34B-HD

ChatGPT-4 Turbo 128k

Gemini 1.5 pro

Claude 3 - Opus

Mini-Gemini的识别结果完全正确，毫不逊色ChatGPT-4 和Gemini 1.5 pro，而 Claude3-Opus 这次偷懒识别结果不完全。

高清图像理解与推理

以往的多模态模型多局限于低分辨率图像的处理，而Mini-Gemini 则打破了这一局限，能够解析高清图像，并进行相应的推理。

可以从识别图片中一个微小部分的文字

面对复杂的烘焙步骤，Mini-Gemini 可以轻松看懂面包九宫格教程，并像一位经验丰富的烘焙师一样，对每一个步骤进行详细的讲解，帮助用户轻松掌握烘焙技巧。

想要进行艺术创作却缺乏灵感？Mini-Gemini 可以成为你创意的伙伴，例如，只需提供两个简单的毛线团，它就能推理并生成毛线小熊的图片，激发你的创作灵感。

玩梗大师：面对网络上层出不穷的梗图，Mini-Gemini 可以轻松理解其背后的幽默，并进行准确的解释。例如，一张将麦当劳标志P成健身房（GYM）的表情包，Mini-Gemini 就能准确解读其讽刺的含义。

数据分析师：面对复杂的数据图表，Mini-Gemini 可以化身专业的数据分析师，快速理解图表内容，并用简洁易懂的语言进行归纳总结。

代码助手： Mini-Gemini 能够理解数学函数曲线图，并用代码进行复现，从而节省程序员宝贵的时间和精力。

图像生成

Mini-Gemini不仅具有出色的图像理解和推理能力，还能根据推理结果生成图像。它就像 ChatGPT 和 DALL-E 3 的结合，能够理解图像中的信息，并根据指令进行推理和生成图像。

给它一幅图，它能理解并生成类似的图像。

直接给它命令，它先推理出prompt后，再生成对应的图像。

技术细节

Mini-Gemini 的强大能力，源于其独特的技术设计：

双编码器机制：为了高效处理高清图像，Mini-Gemini 采用了双编码器机制。它使用 ViT 作为低分辨率的 Query，并使用卷积网络（ConvNet）将高分辨率的图像编码成 Key 和 Value。通过 Transformer 中常用的 Attention 机制，Mini-Gemini 能够挖掘每个低分辨率 Query 对应的高分辨率区域，从而在保持最终视觉 Token 数目不变的情况下，提升对高清图像的响应，保证了在大语言模型（LLM）中对于高清图像的高效编码。

高质量数据：数据是 AI 模型的“燃料”，Mini-Gemini 采用了更高质量的训练数据，并加入了与生成模型结合的文本数据进行训练。这使得 Mini-Gemini 在仅使用 2-3M 数据的情况下，就能实现对图像理解、推理和生成的统一流程，并在各种 Zero-shot 榜单上取得优异成绩。

生成模型拓展：为了实现图像生成功能，Mini-Gemini 借助了 SDXL 生成模型。LLM 在进行推理后，会生成相应的文本信息，并将其与 SDXL 模型连接，从而实现图像的生成，类似于 DALL-E 3 的流程。而且Mini-Gemini还可以插拔其他的绘画模型。

开源共享，人人可玩

Mini-Gemini 一次性发布了10多个不同等级的模型，从最小的Mini-Gemini-2B到最强的Mini-Gemini-34B-HD，代码、模型和数据全部开源，并且提供了线上 Demo，人人都可以上手体验，探索 AI 的无限可能。

Demo地址: 103.170.5.190:7860/

Demo地址: huggingface.co/spaces/wcy1122/Mini-Gemini

总结

在实际使用中，不知是模型本身还是算力的原因，Mini-Gemini 的推理速度相当慢。不能直接对它说生成什么的图像，否则它会说我只是给语言模型不能生成图像，需要对它说生成一个什么，它才会输出一段prompt后出图，一般图片是标准的1024*1024像素。

总的来说，Mini-Gemini 的出现，使开源AI模型终于有接近甚至超过闭源商业模型的性能了。它集成图像理解、推理和生成能力，也为多模态AI模型的发展开启了新思路。

Mini-Gemini 的出现，是否意味着开源 AI 模型将赶超商业模型？未来，多模态AI 模型的发展方向又将如何？

参考链接：

Github地址：https://github.com/dvlab-research/MiniGemini

模型地址：https://huggingface.co/collections/YanweiLi/mini-gemini-6603c50b9b43d044171d0854

数据地址：https://huggingface.co/collections/YanweiLi/mini-gemini-data-660463ea895a01d8f367624e

论文地址：https://arxiv.org/pdf/2403.18814.pdf

DC生肖网

能识图能画画，被吹爆的开源多模态AI模型Mini-Gemini究竟有多好

开心盖土