每周AI大事记

本文内容来自于笔者之前在百安居的领导纪晓茗先生整理的每周AI视角，我这边转载下给大佬们参考下。

以下内容主要来自于纪总的朋友圈分享：

上周关注到的AI事件：

1. 谷歌举办了Made by Google 2024大会。

比较引人关注的是：

1.1、Pixel 9手机。

因为采用了G4 AI芯片和支持12/16G的内存，可以更顺滑的运行Gemini/Gemma语言模型，从而更好的支持AI使用场景。是Google的第一款语言模型原生手机。这方面国内也没落后，相信除了（华为等少数）自研芯片外，更多的采用高通AI芯片的手机也会陆续推出。

1.2、Gemini Live。

是类似几个月前OpenAI演示过的AI语音助手，可以直接用语音（而不只是文字）和用户流畅的交流。看现场演示，能力不如（被演示过的）GTP-4o。好像没有双工（同时听说）、随意打断、情绪/口气的识别和模拟等功能。不过，Open AI的语音助手目前还没有开放给所有用户，而Gemini 付费用户已经可以用Gemini Live了。Open AI最近一年压力不小，GPT-5还是个遥远的传说，引起巨大反响的Sora视频生成模型和语音助手也迟迟没有发布。我们看到语言模型能力正被谷歌、Anthropic甚至Meta和X.ai无限接近，快手的可灵文生视频工具获得了大量的用户。Scaling Law可能遇到了瓶颈：10倍的投入训练的模型提升正在边际效益递减。

2. x.AI (伊隆马斯克的AI公司）推出了Grok 2。

优秀的模型性能直接将这个成立不到一年的公司变成了语言模型的头部公司（Open AI、Anthropic、谷歌、Meta，x.AI）。和Grok 1，1.5不同，Grok 2不是开权（Open Weight）模型，用户只能通过API或者Twitter付费访问。老马毕竟是商人。

3. 目前的LLM架构和Scaling Law能否实现AGI的争论。

Meta的首席科学家Yann Lecun再次抨击了现在的LLM架构因为没有学到物理世界模型，不具备推理能力和（人类的）智能，只能解决训练数据里有的任务，不能自主解决问题。最近也看到了两篇论文持彼此相反的观点。支持的一篇指出通过对LLM内部的分析，验证了LLM在训练过程中已经像孩子一样慢慢的建立了对语言从模仿->语法->语义的理解，呈现了对客观世界的理解，可以完成没有训练过的任务。

反对的一篇指出，LLM只是基于记忆的推理，并没有什么智能涌现。最近对Deepmind CEO Demis Hassabis的采访，他表明目前我们短期（实现AGI）过于乐观（以及Overhyped），但是并没有对长期实现AGI后做好准备（Underhyped）。GPT-5迟迟没法推出可能说明单纯靠扩大模型和训练量可能遇到了瓶颈。Meta的Llama 4据说会尝试引入新的架构和世界模型（类似Lecun提出的JEPA）。

Yann Lecun

4. 一个创业公司cosine.sh宣称即将推出的一个编程模型Genie

将SWE-Bench（修改github里的真实bug）解决率的目前最好成绩提高了51%，达到了30%。cosine.sh采用了创新的训练方式和数据生成，通过模仿人类程序员的思考方式和工作流程大大提高了模型解决实际问题的能力。坦率的说，SWE-Bench里的任务，对大部分程序员都很有挑战。AI在这个测试集推出不到半年的时间从~10%提高到了30%。真是让人欢喜让人忧...

DC生肖网

运维有笔谈