DeepSeek-R2真的要来了,这次不是KFCVWO50!
来自路透社的独家报道:
- DeepSeek原计划在5月初发布新一代R2模型,但已经开始考虑提前发布,这段时间Grok 3、Claude 3.7、Qwen 2.5-Max等竞品接连推出,还是有影响的;
- 梁文锋在距离清华、北大两所高校步行可达的地段设立了北京办公室,非常乐于和实习生以及应届生一起工作和讨论问题,而且从不鼓励加班;
- 采访中一名已经离职的研究员依然对前老板赞不绝口,「他把我们视为专家,不断提问,一起学习,而且愿意下放管理权,普通员工也能参与核心技术,这很让人兴奋」;
- 梁文锋在幻方量化时就以薪酬慷慨著称,他会给数据科学家开出150万的年薪,而同行给的数字一般不会超过80万;
- 在创办DeepSeek前,幻方量化就制定了把70%对可支配收入投入到AI研究上的战略,从2020年到2021年,幻方量化花了12亿买卡训练模型;
- 这样的异常支出让幻方量化受到了证券监管部门的注意,但最终没有做出干预,这对后来DeepSeek的问世至关重要,因为2022年开始,中国企业就不太能够合规买到A100了;
- DeepSeek-R1爆火之后,梁文锋被建议不要和媒体接触,因为担心过度炒作会引起不必要的争议,尤其是在地缘政治的风口浪尖,苟住再说;
- 另有前员工表示,DeepSeek不缺算力,能够进行大规模训练,但梁文锋对更具经济成本的模型架构非常关注,这决定了DeepSeek的发展路线以及后来的巨大成功;
- 全球的AI大厂至今都还在消化DeepSeek-R1造成的影响,也都盯着R2的时间表,它的发布会是今年AI行业的又一个关键时刻。