🧵40天不睡、5个人、死磕出一个Gemini 2.0——这才是大模型战争的真实底色,没有神话,全是硬仗。
DeepMind预训练主管Vlad Feinberg最近把底裤都脱了:外界看MoE、看Flash Thinking,他觉得最值钱的却是这几件事👇1️⃣ “脏活”才是通行证他入职Google Brain拿的第一笔奖金,不是顶会一作,而是调编译器、抠显存、把SFT塞进老旧TPU,让Bard勉强跑通。结论很直:在千亿级训练里,省一张卡、稳一分钟,比发一篇论文值钱。这也是为什么很多“天才论文”在工业界一文不值——规模一上来,全是系统工程问题。2️⃣ 5个人的40天极限生存Gemini 2.0训练期间,团队小到离谱:硅谷+巴黎,双班倒,40天几乎没合眼。算力随时挂、数据索引随时断,每一分钟都在烧几百万美元。这不是科研,是运维+工程+意志力的混合战争。3️⃣ 媒体如何制造“中国超越美国”DeepSeek-V3爆火时,《华尔街日报》发了张对比表:DeepSeek紧跟GPT,Gemini被甩末尾。Vlad直接拆穿:表格故意删掉了当时LMSYS榜第一的Gemini 2.0 Flash Thinking。真实排名:🥇 Gemini 2.0 Flash Thinking🥈 GPT-4🥉 DeepSeek-V3👉 技术没输,公关战先输了。4️⃣ 程序员不会被淘汰的终极理由被问“AI会不会让程序员失业”,他答得很干脆:AI不能被吊销律师执照,也无法承担法律责任。无论多强,代码的终点永远需要一个具体的人签字、背书、坐牢。责任归属,是人类不可替代的最后一道墙。5️⃣ 普通后端如何逆袭进DeepMind团队核心Nate Lintz,之前只是搜索部门写后端架构的普通码农。没AI背景,但他在业务里实打实解决了大模型推理开销问题,摸透底层架构,最后内部转岗,成了Flash系列推理设计的主心骨。Vlad的潜台词:别纠结头衔,去解决别人搞不定的具体问题。6️⃣ 他给想进前沿实验室的人留了一份“硬核作业”手写一个Transformer + 手算Scaling Laws + 录视频讲解,发给他。不做虚的,只看你能不能把东西做出来。(这比刷八股文有用一万倍)
💡 一句话总结:大模型竞争的本质,不是谁参数多,而是谁能把硬件吃满、把成本打下来、把系统稳住。论文可以吹,训练不能停。