【AI实验室的权力游戏:为什么“中间训练”注定消失】
在顶尖AI实验室,研发链路通常被简化为预训练(Pre-training)和后训练(Post-training)。理论上,中间应该存在一个“中间训练”(Mid-training)环节,用来消化预训练的原始算力并为后训练提供精准信号。但在现实的组织架构中,这个环节正迅速萎缩甚至消失。
这并非技术逻辑跑不通,而是被组织政治挤压的结果。预训练团队是算力霸主,守着昂贵的GPU集群和Scaling Laws的纯粹性;后训练团队则离应用最近,人多势众,负责把模型变成赚钱的产品。中间环节处在一个尴尬的真空地带:它既要向预训练团队“乞讨”算力,又要向后训练团队证明自己的指标有效。
在算力和晋升名额都是稀缺资源的零和博弈下,预训练和后训练团队都会把中间环节视为领地威胁。对于中间环节的负责人来说,技术挑战远不如政治斡旋艰难——你得同时搞定两个互不买账的强势部门。
最终,为了管理效率,高层通常会选择“二元论”,将中间职能拆分吸收。这揭示了一个残酷的行业真相:AI实验室的岗位设置往往不是基于技术最优解,而是基于组织权力的平衡。当技术指标被刷到边际效用递减时,决定模型上限的往往不再是Transformer的层数,而是康威定律下的组织内耗。
x.com/suchenzang/status/2070744887348330812
