DC生肖网

60亿AI独角兽Mistral祭出磁力链，但被大佬曝出评测造假

之槐看科技 2024-09-13 02:56:04

编辑：桃子好困

【新智元导读】一条磁力链，又在AI圈掀起狂澜。成立一年法国AI独角兽Mistral，官宣首个多模态模型Pixtral 12B，不仅能看懂手绘稿，还可以理解复杂公式、图表。

法国AI初创Mistral AI，又扔出一条磁力链炸场了。

这次，与以往不同的是，他们发布了首个多模态模型Pixtral 12B，集语言、视觉能力于一身。

这意味着，Mistral AI正式跨界MMML，开启多模态AI新时代，同时向OpenAI、Anthropic等劲敌发起挑战。

多模态Pixtral 12B，是基于文本模型Nemo 12B完成训练。

与GPT-4o、Claude类似，只需上传一张图、提供一个链接，模型就能根据提示回答问题。

它不仅能够识别复杂手写笔记，还能看懂数学公式、图表等等。

在多项基准测试（文本、指令跟随、多模态）中，新模型性能大幅超越Qwen2 7B、Phi-3 Vision开源模型。

Hugging Face技术负责人发现此处列举的Qwen的数据问题很大

相较于闭源模型，Pixtral 12B在图表问答、文档问答、视觉数学推理、大学水平多学科等基准中，性能碾压Claude3 Haiku、Gemini 1.5 8B。

除了大约24GB的磁力链，模型代码还可在HuggingFace、GitHub下载。（由社区开发者上传）

地址：https://huggingface.co/mistral-community/pixtral-12b-240910

值得一提的是，Mistral AI现场还请来了老黄坐镇。

手绘稿直出代码，现场Demo惊艳

Mistral AI在旧金山举办的首届AI峰会上，初次展示了Pixtral 12B的多模态能力。

现场，足以用震撼形容。

让它将一份科学报告转录为Markdown格式，可以看到图片中，包含了许多复杂的数学符号，还有公式。

Pixtral 12B通过OCR能力，精准地识别出所有的内容。

再来一个更复杂的手写稿，别说AI了，小编也有些看不清写的什么字。

没想到，这也难不倒它。

给它扔一张关于美国「风险投资交易密度分布」的图表，并将其总结成一份表。

模型以不同州/城市，以及交易数量、区位商（LQ），列出了非常清晰的表格。

再来看看，它如何去描述一张图像的。

上传一张风景图，然后询问「我们可以从中看到什么」？

Pixtral 12B先从各种动物近景描述，再延伸到背后建筑、基础设施，以及大树、天空云彩等。

整个讲述的过程，非常有逻辑。

在复杂图表方面，Pixtral 12B理解力也是一绝。

上传一张全球不同国家GDP图片，让它给出欧洲中GDP最高的5个国家。

模型根据绿色欧洲区域，总结给出了相应的答案。

不仅如此，它还可以解释科学报告中，图表中DNA结构的具体含义。

想要搭建一个网页，手绘一张草稿，传给模型。

它能看着图直出代码，一个网页HTML的设计分分钟就搞定了。

又或是，当你遇到一道数学推理难题，拍好照片上传给Pixtral 12B，便会得到解题步骤和答案。

外出餐饮小票，它也可以将其中信息提取成JSON格式。

这样一通看下来，一个120亿参数的小模型，竟具备了如此强大的图像识别、文本理解能力。

那么，它是如何训练而来？背后架构是什么？

模型架构

现场的介绍中，Pixtral 12B的架构如下图所示。

它包含了一个多模态Transformer解码器，还有视觉Transformer编码器，能够理解原生的图像和文档。

正如开头所述，新模型是基于Nemo 12B完成搭建，关于训练数据目前仍在保密中。

开发者关系主管Sophia Yang表示，「Pixtral 12B独特之处在于，能够原生支持任意数量、大小的图像」。

它能够快速处理小图像，还可以精准处理真实世界和高分辨率的图像。而且，扔出一个图文混杂的大型文档，也能信手拈来。

Pixtral 12B的上下文长度为128k。

根据初始测试者的分享，这个24GB模型架构共有40层，14336个隐藏维度，32个注意力头，用于广泛的计算处理。

在视觉方面，它还有一个专用的视觉编码器，可支持1024×1024图像分辨率，以及24个隐藏层用于高级图像处理。

然而，当Mistral最终通过API提供该模型时，可能会有所改变。

就性能来说，Pixtral 12B在多模态知识和推理基准（MMMU、MathVista）、多模态问答基准（ChatQA、DocVQA、VQAv2）上，完全碾压当前领先的同等参数的模型。

比如，Qwen2-VL、LLaVA-OV、Phi-3 Vision等。

而在指令跟随（多模态、文本）、文本理解（科学、数学、代码）基准上，Pixtral 12B表现也非常出色。

或许多模态模型对于我们来说，屡见不鲜，但Pixtral 12B对于Mistral来说是开创历史。

自去年成立以来，Mistral凭借开源媲美OpenAI等领先实验室大模型，一路走红得到AI社区的认可。

几个月前，它以60亿美金估值，完成6.4亿美元新一轮融资，并随之推出了一款GPT-4级别的模型——Mistral Large 2。

此外，他们在今年，还推出了一个专家混合模型Mixtral 8x22B，包含了一个编码模型Codestral，以及一个数学推理和科学发现的模型。

Mistral或许有实力，成为下一个OpenAI。

穿上皮夹克，和老黄炉边谈话

更让人惊喜的是，大会现场，还上演了经典「皮夹克帮」集结的一幕。

创始人Arthur Mensch穿上皮夹克和老黄坐在台前，开启了炉边谈话，一起探讨了未来AI和算力问题。

老黄表示，在英伟达，GPU的设计、性能、耗能等方面问题，仍将持续优化。

他们希望利用AI先去探索巨大设计空间的可能性，然后再进行收缩，最终专注于有前景的解决方案。

老黄还认为：推理在今天是一次性的，但在未来不会是这样。为了实现这一点，还需把推理速度提高到一个数量级。

因为，利用GPU做推理面临着显著的困难，英伟达90%的工程师都投在了推理，而非训练中。

当然，英伟达对推理技术架构的探索，仍在继续。老黄希望NVLink能够实现低延迟高吞吐量的推理设计。

对于AI未来的探索，老黄表示自己最喜欢的AI应用，便是创建数字人。

他希望，未来公司会有数百万个智能体数字员工，可以自主相互交流，运营业务。

此外，他还讨论了英伟达在「类人机器人」领域的大量工作。

而它的发展，受到了老黄所言的「3台计算机问题」的瓶颈制约——

第一台用于训练多模态模型，第二台用于精确物理模拟和生成合成数据（NVIDIA Omniverse），第三台是机器人体内的计算机（即将推出的NVIDIA Thor）。

最后，老黄还回顾了英伟达历史，「在1993年成立之时，我们在GPU领域还没有竞争对手，到1994年有10个，1995年有50个，然后有100个，竞争对手迅速增加」。

在竞争这么激烈领域中，英伟达能够有所成，一定程度上，可以归咎于你所做的事情与做这些事情的原因不同。

英伟达是PC游戏行业的最大推动者，他们通过创建计算平台、生态系统来创造一个新市场，使之成为「家庭的一部分」。

他们最先在游戏领域做到了这一点，然后是科学计算，现在是AI。

大佬发现「华点」：又来一个评测造假的？

前两天，所谓的「开源新王」Reflection 70B才刚刚深陷Benchmark造假争议。

如今，相似的剧情再次上演。

随着峰会现场的照片大范围流出，Hugging Face技术负责人Philipp Schmid也在第一时间发现，Mistral AI放出的跑分和Qwen 2 VL 7B的官方数据大相径庭。

把数据补全到柱状图中后可以看道，Pixtral 12B在多项评测中的成绩都明显不如Qwen 2 VL 7B。

也就是说，Mistral AI的首个多模态模型，被一个参数量小了近42%的模型，吊打了！

此外，还有网友指出，别说数据有问题，他们连模型的名字好像都没写对……

参考资料：

https://venturebeat.com/ai/pixtral-12b-is-here-mistral-releases-its-first-ever-multimodal-ai-model/

https://x.com/_philschmid/status/1833954941624615151

https://x.com/swyx/status/1833926630861070359

0 阅读：37

之槐看科技

简介：感谢大家的关注

作者最新文章

科技TOP

科技最新文章