DeepseekV4是市场最关注的话题，最近国内的晚点和国外的Informati

DeepseekV4是市场最关注的话题，最近国内的晚点和国外的Information都发了报道，爆了不少料，包括Deepseek团队被挖走了不少人，梁文锋在考虑公司估值，Deepseek最近招了脑神经和认知科学人才，新模型针对国内算力芯片做了适配………既然他们都可以胡嘞，那我也不负责的胡扯几句1、梁总的偶像是西蒙斯，所以Deepseek党委风格也和西蒙斯创办的熨斗研究院一样，自由创新无拘无束，提倡跨界交流鼓励自由探索，很难有本质上的商业化转变。2、算力芯片适配是推理侧，并不是训练侧。DeepseekV4的训练还是依靠主流平台上，他们一贯在AI infra有很强的工程优化能力，对于N家的GPU集群硬件层面的深刻理解与高超操纵，甚至🆚N家自己的工程师要强得多，毕竟N家自己没有训出过世界顶尖大模型。3、Transformer架构对算力Infra的需求是密集算力加不规则防存，超大规模参数训练对于二者均衡性与可调度性提出更高要求，以Deepseek目前的实力，在自己设计芯片成功前，搞训练不可能有其他选择。之前有过传闻，Deepseek尝试在国产算力芯片上训练，效果并不理想，毕竟CNN加速计算的王者，并不擅长Attention计算，这是架构问题。据说最新版本已经从NPU回归GPGPU路线，架构与制程双双升级，如果是真的，对大家都是好事。4、Transformer架构和ScalingLaw的极限尚未被真正触及，但顶级玩家都在为下一代架构做准备。Ilya在Neur IPS上回顾自己经典论文时指出，目前的深度学习网络复现人类大脑“快思考”模式很成功，但是“慢思考”推理模式差距很大。问题的关键，在于人类大脑的推理演绎和泛化学习机制，计算机界并不熟悉，所以认知科学和脑神经科学家是下一次范式革命的关键力量，Deepseek显然对基础创新充满雄心壮志，正在招募此类人才。5、不知道有多少人察觉到Deepseek最近在Chatbot端的表现，超级上下文长度实际部署让Web Chatbot脱胎换骨，让人对V4充满期待。6、Deepseek可能在考虑Agent类产品扩展，因为Agentic AI是形成大模型商业闭环的关键因素，有利于把Token流卖出高价，这本来就是Deepseek的老本行。

说完了，晚安💤

DC娱乐网

DeepseekV4是市场最关注的话题，最近国内的晚点和国外的Informati

热门分类