DeepSeek创始人梁文峰再次语出惊人!他说:“我们经常说中国AI和美国有一两年差距,但真实的差距是原创和模仿之差。如果这个不改变,中国永远只能是追随者,所以有些探索也是逃不掉的。” 用一样的算力训练模型,美国团队要花三个月调参打磨,中国团队两周就能精准复现结果,可真要在算法架构上搞出突破,中国团队往往得耗上两年。这快慢之间的差距,正好把追随者和引领者给分开了。 中国AI团队为啥能这么快复现结果啊?其实就是把“效率优势”用到头了。这些年国内AI产业一直往前冲,核心想法就是“先搞应用”,不管是大厂还是创业公司,都习惯盯着已经被验证过的技术路径走。 别人做出了Transformer架构,我们就琢磨怎么用更少时间、更低成本把参数调得更好;国外模型实现了多模态能力,我们两周内就能复现差不多的效果,还能用到客服、办公这些场景里。 就像DeepSeek-R1在测评里能快速生成专业报告,数据支撑和逻辑框架都挺扎实,可往深了看技术内核,还是没跳出已经有的算法框架。这种“拿来主义”式的精进确实快,但快的代价就是没了探索新方向的动力。 毕竟复现能很快看到成果,还能对接产业需求,拿到商业回报;可搞架构突破就得面对无数次失败,说不定投了两年时间最后啥也得不到。 可美国AI团队心思根本不在“复现”上,他们更愿意在基础架构的“没人管的地方”死磕。就像MIT最近搞出来的PRefLexOR框架,这东西能让AI自己进化,根本不用提前弄好的数据集,反倒能自己生成任务、琢磨推理过程,硬生生靠一次次迭代思考练出了认知能力。 这种突破不是调调参数就能弄出来的,得从根上重新搭算法逻辑,得能接受三个月甚至更久“没成果”的日子,还得敢赌那些没人验证过的技术路径。 再看国内,就算有中科院自动化所做出了SpikingBrain-1.0这种不用Transformer的原创架构,只用2%的数据量就能达到同等性能,可推广起来还是走得特别难。 没有配套的生态环境,也没足够多的团队愿意花两年时间适配这个新架构,大家更习惯在成熟的路径上做“能快速赚钱的生意”,原创成果反倒成了“没人跟着做的孤品”。 这差距说白了,就是“路径依赖”和“生态惯性”在拖后腿。这些年国内AI圈形成了一套“高效的闭环”:企业要快速出业绩,就逼着研发团队追热点、搞复现;科研机构要评职称、拿项目,就倾向于发那些能快速落地的论文;就连算力、数据这些资源,也更愿意往短期能见效的应用项目上投。 就像潘教峰代表说的,人工智能需要“敢闯没人去的地方”的基础研究,可现实里,愿意花两年啃架构硬骨头的团队太少了。毕竟复现的成果能立刻换成订单,而架构突破可能要等好几年才能看出价值。 美国那边就不一样,从Transformer到PRefLexOR,整个生态都鼓励“慢下来探索”,高校实验室敢长期投钱搞基础理论,企业也愿意为没明确回报的架构创新买单,这种“允许失败”的氛围,才是原创能生长的土壤。 更关键的是,模仿得再快也拿不到“制定规则的权力”。现在全球AI的底层架构、评价标准几乎都是美国团队定的,中国团队就算能快速复现,也只是在别人画好的圈子里做事。 梁文峰说“有些探索躲不开”,就是因为只有在架构上实现突破,才能跳出这个圈子。就像SpikingBrain-1.0配套的神经形态芯片,静态功耗只有0.42毫瓦,这种硬件软件一起搞的原创突破,才能避开传统算力竞争的坑。 可这种突破不是两周复现能比的,得沉下心来解决理论上的瓶颈,得耐着性子搭配套的生态,还得接受两年甚至更久的“没动静的时期”。 要是一直待在“两周就能复现”的舒服圈里,中国AI永远只能跟在美国后面跑。 别人拿出新架构,我们花两周追上;别人再出个新框架,我们再花两周跟着跑,看似差距只有“一两年”,实际上是永远隔着“原创”这道坎。 梁文峰的话其实是在敲警钟:那些看起来“慢”的架构探索,那些不追求立刻有效果的基础研究,才是打破“一直当追随者”宿命的关键。毕竟AI竞争到最后,比的不是谁复现得快,而是谁能定义下一个时代的技术方向。
