DC娱乐网

五一前夕来中国考察的老外还真不少,这次是Matt White(Linux Fou

五一前夕来中国考察的老外还真不少,这次是Matt White(Linux Foundation 全球 AI CTO,PyTorch Foundation 与 LF AI & Data CTO)带来了他的长文《在中国的八天:我从 AI 实验室、机器人创业公司和学术界学到的事》阅读地址:matthewdwhite.substack.com/p/eight-days-in-china-what-i-learned

文章很长,包括其他几个人没写的DeepSeek团队他也都有接触。而且写的非常详细,每个AI实验室都单独写了一段见闻。再加上他在中国旅游的很多经历等等。摘录几段我没见过或觉得比较好玩的:

----(中国的AI实验室)不是靠长时间工作,而是专注。 我曾在一个节假日周末去过一家实验室,办公室里大概只有六名工程师坐在工位上。中国的研究人员通常上午 10 点或 11 点到,工作到晚上 7 点,并在这段时间里保持高度专注。那种认为中国 AI 从业者仅凭更长工时超过美国同行的看法,是一个迷思。他们工作得很聪明。他们知道约束条件。他们能用更少资源做更多事,因为他们一直不得不这样做。

----今天的 DeepSeek 大约有 300 人,比其他实验室小得多,大多数成员都在 25 岁左右。商务团队仍然不到 10 人,不过随着实验室更积极地与外部合作伙伴接触,这个团队正在扩大。

----Z.ai 的算力结构反映了中国更广泛行业的状况——DeepSeek 更彻底转向华为 Ascend 是例外:大约 80% NVIDIA、20% 华为 Ascend,华为硬件主要用于推理。内部有一个专门团队测试每一种国产芯片,但生产训练部署仍然主要基于 NVIDIA。

----(智谱的工程师) 每次发布前都会预留整整一个月的准备时间,专门用于确保SGLang和vLLM在发布当天就能完全支持新模型的功能,并且在模型正式发布前确保推理性能达到极高水平。

----在我走访的每个实验室里,大家反复提及的“最值得超越的机构”并非DeepSeek,而是字节跳动旗下核心人工智能研发部门——ByteDance Seed。

----剧透:中国某实验室正在进行后续训练,即将发布一个主要模型,预计在未来几周内发布。

----英语数据仍然主导预训练,即便对中国实验室也是如此。……DeepSeek V4 是一个值得注意的变体——团队在预训练中比多数同行更重视中文数据。

----在多个实验室的交流中,被反复提到、被认为长期值得关注的公司,并不是 DeepSeek 或 Moonshot,而是字节跳动和阿里巴巴。

----我拜访的每一家实验室都高度关注 agentic AI。个人 agent 的病毒式采用,尤其是 OpenClaw,确实非常广泛。但更有意思的是:Hermes Agent 正在中国 AI 实验室和企业部署中迅速获得地位,成为许多人的 agent 选择。消费者端,字节跳动的 AI 助手应用豆包在大众中非常流行。我遇到的几乎每个人每天都用它,而它与字节跳动更广泛生态的紧密整合,带来了一种单靠模型质量无法解释的黏性。

----关于开发者工具:Claude Code 确实被中国工程师喜爱。它在各实验室和餐桌交流中不断被主动提起。同样引人注意、也很说明问题的是没有被提起的东西:Codex 和 Cursor 基本没有出现。(注:这还是在4月底的见闻)

----中国并不是在电动车上稍微领先,而是在结构上领先,而且差距正在三个彼此独立的维度上扩大:价格、技术和供应链。

AI创造营How I AI