DeepseekV4是市场最关注的话题,最近国内的晚点和国外的Information都发了报道,爆了不少料,包括Deepseek团队被挖走了不少人,梁文锋在考虑公司估值,Deepseek最近招了脑神经和认知科学人才,新模型针对国内算力芯片做了适配………既然他们都可以胡嘞,那我也不负责的胡扯几句1、梁总的偶像是西蒙斯,所以Deepseek党委风格也和西蒙斯创办的熨斗研究院一样,自由创新无拘无束,提倡跨界交流鼓励自由探索,很难有本质上的商业化转变。2、算力芯片适配是推理侧,并不是训练侧。DeepseekV4的训练还是依靠主流平台上,他们一贯在AI infra有很强的工程优化能力,对于N家的GPU集群硬件层面的深刻理解与高超操纵,甚至🆚N家自己的工程师要强得多,毕竟N家自己没有训出过世界顶尖大模型。3、Transformer架构对算力Infra的需求是密集算力加不规则防存,超大规模参数训练对于二者均衡性与可调度性提出更高要求,以Deepseek目前的实力,在自己设计芯片成功前,搞训练不可能有其他选择。之前有过传闻,Deepseek尝试在国产算力芯片上训练,效果并不理想,毕竟CNN加速计算的王者,并不擅长Attention计算,这是架构问题。据说最新版本已经从NPU回归GPGPU路线,架构与制程双双升级,如果是真的,对大家都是好事。4、Transformer架构和ScalingLaw的极限尚未被真正触及,但顶级玩家都在为下一代架构做准备。Ilya在Neur IPS上回顾自己经典论文时指出,目前的深度学习网络复现人类大脑“快思考”模式很成功,但是“慢思考”推理模式差距很大。问题的关键,在于人类大脑的推理演绎和泛化学习机制,计算机界并不熟悉,所以认知科学和脑神经科学家是下一次范式革命的关键力量,Deepseek显然对基础创新充满雄心壮志,正在招募此类人才。5、不知道有多少人察觉到Deepseek最近在Chatbot端的表现,超级上下文长度实际部署让Web Chatbot脱胎换骨,让人对V4充满期待。6、Deepseek可能在考虑Agent类产品扩展,因为Agentic AI是形成大模型商业闭环的关键因素,有利于把Token流卖出高价,这本来就是Deepseek的老本行。
说完了,晚安💤