马斯克突然发射Grok-2!X爆火AI生图网友玩疯,数学编码追GPT-4o

之槐看科技 2024-08-15 04:06:24

编辑:编辑部

【新智元导读】刚刚,xAI连发两款模型Grok-2和Grok-2 mini,相较上一代在编码、数学、推理方面性能大涨,而且在LMSYS总榜上与GPT-4o不相上下。最让人兴奋的是,最强AI生图Flux能力已经在上线了。

Grok-2测试版来的,让人猝不及防。

刚刚,Xai官方丢出一篇博文,官宣Grok-2测试版正式发布。

而且,一发就是两弹——Grok-2 + 轻量级Grok-2 mini。

马斯克称,Grok进展的速度惊人,只能用坐上火箭来形容。

相较于上一代Grok-1.5,Grok-2取得了显著的进步,在聊天、编码、推理方面,再次刷新SOTA。

大模型竞技场LMSYS上,Grok-2早期版本sus-column-r在总榜上位列第三,可与GPT-4o抗衡,碾压Claude 3.5 Sonnet。

此外,Grok-2在「编码」和「数学」榜单位列第2,Hard Prompts位列第4。

网友:马斯克的Grok已经是榜上第五个GPT-4级模型了,保不齐最终版哪天就超到了TOP 1

目前,Grok-2和Grok-2 mini均在上开启了测试。本月底,两个模型的API将会放出。

值得一提的是,X平台这次还融合了爆火的Flux AI生图能力。

这一点,今早就有网友提前放出了预告。

就看Grok生成美女的能力,真有点TED演讲者那味儿了。

下面这位网友用Luma和Grok 2.0结合后,大赞做出的视频简直就像电影截图一样。

Grok-2能力如何?

Grok-2其实早就在我们身边了,只是没有人得知。

如前所述,早期版本sus-column-r在LMSYS平台,接受了多种基准的评测。

在LLM排行榜中,Grok-2整体Elo评分(1281分),优于Claude 3.5和GPT-4。

就胜率来看,Grok-2远远领先DeepSeek V2、Claude 3 Opus,相较于指令微调版的Llama 3.1超大杯,胜率为58%。

与GPT-4o和GPT-4o mini几乎打成平手。

在Xai内部,研究人员采用了类似的流程,以评估模型。

这里,他们训练了专门的AI系统——AI导师,在模拟Grok真实世界交互的任务中,与新模型进行互动。

每次互动中,AI导师会收到Grok生成的2个响应,并根据指南中列出的特定标准,选择更优的响应。

实验过程中,研究团队重点评估了模型在两个关键领域的能力:

一是遵循指令,二是提供准确、事实性的信息。

结果发现,Grok-2利用检索内容进行推理,以及工具使用方面,得到了大幅提升。

比如,它可以正确识别缺失信息、推理事件的顺序,甚至剔除无关的帖子。

可以看得出,就AI导师的偏好来看,Grok-2胜券在握。

接下来,具体看看Grok-2在不同基准上的表现吧。

性能评估

研究人员在一系列基准测试中评估了Grok-2,包括推理、阅读理解、数学、科学、写代码。

宏观讲,相较于之前的Grok-1.5模型,Grok-2和Grok-2 mini都得到了显著的改进。

下图中可以看出,Grok-2和Grok-2 mini在研究生级别科学知识(GPQA)、数学竞赛问题(MATH),代码(HumanEval)领域,显著提分10%-20%。

而且,另一个值得关注的现象是,Grok-2 mini是小参数版本的Grok-2。

但是,Grok-2 mini的性能丝毫不输,几乎接近大模型的性能,可见并没有因为参数减少,而缩减模型的性能。

与前沿模型相比,Grok-2在编码、数学、通用知识领域,与GPT-4o、Llama 3 405B有一定的差距,但结果非常接近。

它远远超过了GPT-4 Turno、Claude 3 Opus基准的性能。

另外,在视觉化任务中,比如视觉化数学推理(MathVista)和基于文档的问题回答(DocVQA)上,Grok-2表现出色。

令人惊喜的是,经典的「strawberry难题」,也被Grok 2.0一举攻克。

在上的体验

当然了,Grok模型的每次迭代,就是为了更好地服务。

经过几个月的不断改进,全面升级之后的Grok,也有了新的界面和功能。

所有的Premium和Premium+用户,都可以访问这次新推出的Grok-2和Grok-2 mini。

作为上最强的AI助手,Grok-2具备文本和视觉理解的高级能力,并集成了来自平台的实时信息。

Grok-2 mini则是一个规模较小但功能强大的模型,提供了速度和质量之间的最佳平衡。

与前辈相比,Grok-2在广泛的任务中更直观、可控且多功能,无论是寻找答案、协作写作还是解决编程任务。

最近FLUX的爆火,让全网都见识到了这款文生图模型的强劲实力。

如今,xAI正在与推出它的「Black Forest Labs」合作,尝试利用FLUX.1来增强Grok在上的功能。

网友实测生图

拿到测试资格的网友们,已经迫不及待地上手测试了。

生成乔治华盛顿这样人物的图片,果然FLUX最拿手。

在吃热狗的马斯克,有点儿不像本尊。

说到马斯克,下面这个海盗版大家觉得如何?

还有角斗士马斯克,以及马斯克在火星。

此外,也有网友生成了一张小扎拖着腮帮子眉头紧锁的照片。

这位网友表示,Grok 2.0的生图功能比Llama要好,而且没有「愚蠢的护栏」。

宫殿里的豪车、美少女战士、一座雕塑、魔法书院,Grok都拿捏了。

看得出来,这位网友主打的就是一个精致。

加菲猫头戴红帽,附上「Make Mondays Great Again」,可见Grok在生成带有字体的图像时,也非常精致。

和聊天一样,Grok生图还可以生成两种不同模式的,简言之两种风格的图像——趣味和常规。

网友分别测试了这两种模式,趣味模式下Grok的自画像,更像是一位故事中的圣者。

而常规模式下的自画像,反倒有些搞笑了。

它竟把自己设想成了,(类似)一份惠灵顿牛排。

API即将上线

除了能够在上体验之外,Grok-2和Grok-2 mini还将在8月底正式上线企业API平台。

xAI表示,Grok-2的API将基于新的定制技术栈。

一方面是支持多区域推理部署,可以实现全球范围的低延迟访问。

另一方面是支持增强的安全功能,例如强制多因素认证(如使用Yubikey、Apple TouchID或TOTP),丰富的流量统计,以及高级计费分析(包括详细的数据导出)等等。

此外,xAI还提供了一个管理API,让开发者和企业可以将团队、用户和计费管理集成到现有的内部工具和服务中。

接下来是什么?

自从2023年11月Grok-1发布以来,xAI一直在以惊人的速度发展。

现在的Grok-2和Grok-2 mini,已经具备了更强的搜索能力和改进的回复功能,并且可以对的帖子进行更深入的洞察。

不久之后,xAI还会和API上发布Grok的另一个核心体验——多模态理解预览版。

随着Grok-2的推出,xAI再一次站到了AI开发的前沿。并且,有了新集群的加持,模型的推理能力也将得到进一步加强。

1 阅读:144
评论列表
  • 2024-08-16 02:14

    国内的大模型都死了吗?全球角逐居然没有中国的

之槐看科技

简介:感谢大家的关注