编辑:桃子 好困
【新智元导读】一条磁力链,又在AI圈掀起狂澜。成立一年法国AI独角兽Mistral,官宣首个多模态模型Pixtral 12B,不仅能看懂手绘稿,还可以理解复杂公式、图表。法国AI初创Mistral AI,又扔出一条磁力链炸场了。
这次,与以往不同的是,他们发布了首个多模态模型Pixtral 12B,集语言、视觉能力于一身。
这意味着,Mistral AI正式跨界MMML,开启多模态AI新时代,同时向OpenAI、Anthropic等劲敌发起挑战。
多模态Pixtral 12B,是基于文本模型Nemo 12B完成训练。
与GPT-4o、Claude类似,只需上传一张图、提供一个链接,模型就能根据提示回答问题。
它不仅能够识别复杂手写笔记,还能看懂数学公式、图表等等。
在多项基准测试(文本、指令跟随、多模态)中,新模型性能大幅超越Qwen2 7B、Phi-3 Vision开源模型。
Hugging Face技术负责人发现此处列举的Qwen的数据问题很大
相较于闭源模型,Pixtral 12B在图表问答、文档问答、视觉数学推理、大学水平多学科等基准中,性能碾压Claude3 Haiku、Gemini 1.5 8B。
除了大约24GB的磁力链,模型代码还可在HuggingFace、GitHub下载。(由社区开发者上传)
地址:https://huggingface.co/mistral-community/pixtral-12b-240910
值得一提的是,Mistral AI现场还请来了老黄坐镇。
手绘稿直出代码,现场Demo惊艳
Mistral AI在旧金山举办的首届AI峰会上,初次展示了Pixtral 12B的多模态能力。
现场,足以用震撼形容。
让它将一份科学报告转录为Markdown格式,可以看到图片中,包含了许多复杂的数学符号,还有公式。
Pixtral 12B通过OCR能力,精准地识别出所有的内容。
再来一个更复杂的手写稿,别说AI了,小编也有些看不清写的什么字。
没想到,这也难不倒它。
给它扔一张关于美国「风险投资交易密度分布」的图表,并将其总结成一份表。
模型以不同州/城市,以及交易数量、区位商(LQ),列出了非常清晰的表格。
再来看看,它如何去描述一张图像的。
上传一张风景图,然后询问「我们可以从中看到什么」?
Pixtral 12B先从各种动物近景描述,再延伸到背后建筑、基础设施,以及大树、天空云彩等。
整个讲述的过程,非常有逻辑。
在复杂图表方面,Pixtral 12B理解力也是一绝。
上传一张全球不同国家GDP图片,让它给出欧洲中GDP最高的5个国家。
模型根据绿色欧洲区域,总结给出了相应的答案。
不仅如此,它还可以解释科学报告中,图表中DNA结构的具体含义。
想要搭建一个网页,手绘一张草稿,传给模型。
它能看着图直出代码,一个网页HTML的设计分分钟就搞定了。
又或是,当你遇到一道数学推理难题,拍好照片上传给Pixtral 12B,便会得到解题步骤和答案。
外出餐饮小票,它也可以将其中信息提取成JSON格式。
这样一通看下来,一个120亿参数的小模型,竟具备了如此强大的图像识别、文本理解能力。
那么,它是如何训练而来?背后架构是什么?
模型架构现场的介绍中,Pixtral 12B的架构如下图所示。
它包含了一个多模态Transformer解码器,还有视觉Transformer编码器,能够理解原生的图像和文档。
正如开头所述,新模型是基于Nemo 12B完成搭建,关于训练数据目前仍在保密中。
开发者关系主管Sophia Yang表示,「Pixtral 12B独特之处在于,能够原生支持任意数量、大小的图像」。
它能够快速处理小图像,还可以精准处理真实世界和高分辨率的图像。而且,扔出一个图文混杂的大型文档,也能信手拈来。
Pixtral 12B的上下文长度为128k。
根据初始测试者的分享,这个24GB模型架构共有40层,14336个隐藏维度,32个注意力头,用于广泛的计算处理。
在视觉方面,它还有一个专用的视觉编码器,可支持1024×1024图像分辨率,以及24个隐藏层用于高级图像处理。
然而,当Mistral最终通过API提供该模型时,可能会有所改变。
就性能来说,Pixtral 12B在多模态知识和推理基准(MMMU、MathVista)、多模态问答基准(ChatQA、DocVQA、VQAv2)上,完全碾压当前领先的同等参数的模型。
比如,Qwen2-VL、LLaVA-OV、Phi-3 Vision等。
而在指令跟随(多模态、文本)、文本理解(科学、数学、代码)基准上,Pixtral 12B表现也非常出色。
或许多模态模型对于我们来说,屡见不鲜,但Pixtral 12B对于Mistral来说是开创历史。
自去年成立以来,Mistral凭借开源媲美OpenAI等领先实验室大模型,一路走红得到AI社区的认可。
几个月前,它以60亿美金估值,完成6.4亿美元新一轮融资,并随之推出了一款GPT-4级别的模型——Mistral Large 2。
此外,他们在今年,还推出了一个专家混合模型Mixtral 8x22B,包含了一个编码模型Codestral,以及一个数学推理和科学发现的模型。
Mistral或许有实力,成为下一个OpenAI。
穿上皮夹克,和老黄炉边谈话
更让人惊喜的是,大会现场,还上演了经典「皮夹克帮」集结的一幕。
创始人Arthur Mensch穿上皮夹克和老黄坐在台前,开启了炉边谈话,一起探讨了未来AI和算力问题。
老黄表示,在英伟达,GPU的设计、性能、耗能等方面问题,仍将持续优化。
他们希望利用AI先去探索巨大设计空间的可能性,然后再进行收缩,最终专注于有前景的解决方案。
老黄还认为:推理在今天是一次性的,但在未来不会是这样。为了实现这一点,还需把推理速度提高到一个数量级。
因为,利用GPU做推理面临着显著的困难,英伟达90%的工程师都投在了推理,而非训练中。
当然,英伟达对推理技术架构的探索,仍在继续。老黄希望NVLink能够实现低延迟高吞吐量的推理设计。
对于AI未来的探索,老黄表示自己最喜欢的AI应用,便是创建数字人。
他希望,未来公司会有数百万个智能体数字员工,可以自主相互交流,运营业务。
此外,他还讨论了英伟达在「类人机器人」领域的大量工作。
而它的发展,受到了老黄所言的「3台计算机问题」的瓶颈制约——
第一台用于训练多模态模型,第二台用于精确物理模拟和生成合成数据(NVIDIA Omniverse),第三台是机器人体内的计算机(即将推出的NVIDIA Thor)。
最后,老黄还回顾了英伟达历史,「在1993年成立之时,我们在GPU领域还没有竞争对手,到1994年有10个,1995年有50个,然后有100个,竞争对手迅速增加」。
在竞争这么激烈领域中,英伟达能够有所成,一定程度上,可以归咎于你所做的事情与做这些事情的原因不同。
英伟达是PC游戏行业的最大推动者,他们通过创建计算平台、生态系统来创造一个新市场,使之成为「家庭的一部分」。
他们最先在游戏领域做到了这一点,然后是科学计算,现在是AI。
大佬发现「华点」:又来一个评测造假的?
前两天,所谓的「开源新王」Reflection 70B才刚刚深陷Benchmark造假争议。
如今,相似的剧情再次上演。
随着峰会现场的照片大范围流出,Hugging Face技术负责人Philipp Schmid也在第一时间发现,Mistral AI放出的跑分和Qwen 2 VL 7B的官方数据大相径庭。
把数据补全到柱状图中后可以看道,Pixtral 12B在多项评测中的成绩都明显不如Qwen 2 VL 7B。
也就是说,Mistral AI的首个多模态模型,被一个参数量小了近42%的模型,吊打了!
此外,还有网友指出,别说数据有问题,他们连模型的名字好像都没写对……
参考资料:
https://venturebeat.com/ai/pixtral-12b-is-here-mistral-releases-its-first-ever-multimodal-ai-model/
https://x.com/_philschmid/status/1833954941624615151
https://x.com/swyx/status/1833926630861070359