🧵40天不睡、5个人、死磕出一个Gemini 2.0——这才是大模型战争的真实

🧵40天不睡、5个人、死磕出一个Gemini 2.0——这才是大模型战争的真实底色，没有神话，全是硬仗。

DeepMind预训练主管Vlad Feinberg最近把底裤都脱了：外界看MoE、看Flash Thinking，他觉得最值钱的却是这几件事👇1️⃣ “脏活”才是通行证他入职Google Brain拿的第一笔奖金，不是顶会一作，而是调编译器、抠显存、把SFT塞进老旧TPU，让Bard勉强跑通。结论很直：在千亿级训练里，省一张卡、稳一分钟，比发一篇论文值钱。这也是为什么很多“天才论文”在工业界一文不值——规模一上来，全是系统工程问题。2️⃣ 5个人的40天极限生存Gemini 2.0训练期间，团队小到离谱：硅谷+巴黎，双班倒，40天几乎没合眼。算力随时挂、数据索引随时断，每一分钟都在烧几百万美元。这不是科研，是运维+工程+意志力的混合战争。3️⃣ 媒体如何制造“中国超越美国”DeepSeek-V3爆火时，《华尔街日报》发了张对比表：DeepSeek紧跟GPT，Gemini被甩末尾。Vlad直接拆穿：表格故意删掉了当时LMSYS榜第一的Gemini 2.0 Flash Thinking。真实排名：🥇 Gemini 2.0 Flash Thinking🥈 GPT-4🥉 DeepSeek-V3👉 技术没输，公关战先输了。4️⃣ 程序员不会被淘汰的终极理由被问“AI会不会让程序员失业”，他答得很干脆：AI不能被吊销律师执照，也无法承担法律责任。无论多强，代码的终点永远需要一个具体的人签字、背书、坐牢。责任归属，是人类不可替代的最后一道墙。5️⃣ 普通后端如何逆袭进DeepMind团队核心Nate Lintz，之前只是搜索部门写后端架构的普通码农。没AI背景，但他在业务里实打实解决了大模型推理开销问题，摸透底层架构，最后内部转岗，成了Flash系列推理设计的主心骨。Vlad的潜台词：别纠结头衔，去解决别人搞不定的具体问题。6️⃣ 他给想进前沿实验室的人留了一份“硬核作业”手写一个Transformer + 手算Scaling Laws + 录视频讲解，发给他。不做虚的，只看你能不能把东西做出来。（这比刷八股文有用一万倍）

💡 一句话总结：大模型竞争的本质，不是谁参数多，而是谁能把硬件吃满、把成本打下来、把系统稳住。论文可以吹，训练不能停。

DC娱乐网

🧵40天不睡、5个人、死磕出一个Gemini 2.0——这才是大模型战争的真实

热门分类