李开复最新专访,谈如何降低Yi-34训练成本、美国市场

B Impact 2023-12-28 20:40:43

根据创业投资家、前谷歌中国总裁、今年早些时候创办了位于北京的大型语言模型开发初创公司01.AI的李开复的说法,中国的生成型人工智能初创公司正在经历“预选赛阶段”。上个月,该公司以10亿美元的估值完成了一轮融资。

中国最大的互联网公司,如阿里巴巴、腾讯、百度和字节跳动,以及数十家初创公司,都在开发自己的大型语言模型,当地媒体将其描述为“百模之战”。由于中国政府封锁了OpenAI、谷歌和其他美国互联网服务,国内公司正争夺人工智能的霸主地位。李开复在接受采访时表示,公司目前正处于试图证明自己具备构建高质量模型的技术的阶段。那些通过了这一测试的公司将进入下一阶段,这将涉及如何增加收入并最终实现盈利。

要点:风险投资家李开复在采访中谈到了他位于北京的人工智能初创公司01.AI,以及中国人工智能行业的未来以及为什么中国公司可能会在中东找到商机。

李开复的公司成立于今年3月,现在拥有100多名员工,大部分位于中国大陆,主要是北京。上个月,01.AI推出了其第一个开源语言模型Yi-34B,但该公司不会依赖该模型来获取未来的收入。相反,它的商业计划是销售专有的语言模型,主要面向中国的客户。据李开复称,该公司目前正在开发一个拥有超过1000亿参数的新的专有模型。

上个月,Yi-34B迅速攀升至Hugging Face开源语言模型排行榜的首位,引发了一些争议。开发者的询问揭示出Yi-34B使用了Meta Platforms的Llama开源AI模型,但没有提及Llama。最终,01.AI将Yi-34B的部分重命名以致谢Llama,并对此事进行了道歉。详情请参阅此处。

李开复在北京的办公室通过视频通话接受了《The Information》的采访,他谈到了01.AI如何应对美国政府对芯片出口的限制,以及中国人工智能公司在全球的机会。以下是经过编辑的问答内容。

《The Information》:目前中国拥有数十家甚至更多开发大型语言模型的国内竞争对手。接下来会发生什么?

李开复:我认为中国在以前的很多情况下都经历过这种情况,比如Groupon的仿制品、共享单车应用,以及在深度技术领域的计算机视觉和语音识别。当计算机视觉被证明取得重大突破时,中国的每个人都纷纷加入,并尝试用各种可能的应用。但其中大多数都没有生存下来。中国市场是一个非常非常竞争激烈的市场,甚至可能比美国还要激烈。

目前中国的竞争仍处于预选赛阶段。第一个测试是:在这100家公司中,哪一家能够创建出具有真正价值的高质量模型?这意味着要展现出良好的性能,因为在提供有用内容和战略洞察方面,技术的优劣仍然是至关重要的。如果你没有足够好的模型,那么它更像是一个玩具,而不是一个解决实际问题的技术。

在预选赛阶段通过技术测试的公司将进入下一个阶段,即商业价值。你的商业模式是什么?你如何赚钱?很快,这些公司将根据其损益报表进行评估,投资者将问与云服务提供商、企业软件公司和消费者应用程序相同的问题。如果公司无法回答这些问题,它们的增长将停止。在美国,OpenAI已经证明了其世界领先的技术,它也能够产生收入。OpenAI创造了足够的价值,以至于人们在其上构建应用并为此付费。

在中国,最终会有几家大赢家,几家不错的退出,但大多数公司最终要么会退出市场,要么会转向更为保守的领域,例如为特定行业构建应用程序和解决方案,而不是尝试预训练的大型模型,因为这类模型的成本将随时间增加。

中国人工智能初创公司及其投资者表示,中国将与美国分开发展生成型人工智能模型和应用的生态系统。你怎么看?

我们都不希望出现平行宇宙。我们更喜欢在全球范围内竞争,让最好的公司获胜。这样更加高效。但在这种情况下,我们无法控制我们的命运。

尤其存在地缘政治问题。如果我们想进入美国市场,虽然没有规定说我们不能进入,但由于当前对中国软件的(我认为是不公平的)看法,我认为我们不会获得很多业务。所以这只是我们接受了的实际情况。

各国希望对自己的模型拥有更多控制权。

我确实认为有机会为不同的国家构建特殊的模型。这是硅谷公司自然不会去做的事情。为不同的市场构建不同的模型是一项庞大的工程任务。因此,硅谷公司自然不会倾向于构建这些模型。而来自世界其他地区的公司,包括中国,可能有机会研究这些模型。当然,他们必须赢得用户和各国政府的信任。

中国媒体报道称,您的初创公司成功降低了Yi-34B的人工智能训练成本。如何做到的?

我们拥有一个非常强大的基础设施团队。这是我们团队中最大的一部分。我早些时候告诉我的员工,每当你增加一个建模人员,你就在稀释你的[图形处理单元]。每当你增加一个基础设施人员,你就能更好地利用你的GPU。当然,你需要一个强大的建模团队,但从一开始,我们就把建立一个强大的基础设施团队作为首要任务。

基础设施是默默无闻的英雄之工作。他们必须处理硬件、软件和大量的数据传输。他们同时处理GPU、内存和网络,其中任何一个都可能成为瓶颈。

GPU很难扩展到数千个以上。当你从2000个扩展到8000个时,你不能只运行现有的软件,因为随着模型和数据规模的增大,网络需求会发生巨大变化。

我们的基础设施团队由几十名工程师组成,目前是01.AI最大的团队。例如,我们的基础设施团队所做的工作包括全面使用FP8——Nvidia H100芯片的一种数据格式,从而大幅减少计算量。团队找出了在哪些地方可以使用FP8,在哪些地方可以使用其他类型,并且如何无缝转换。他们还处理了像使用哪种网络协议、如何优化编译器以及如何处理故障GPU等问题。GPU的故障率实际上相当高。当一个GPU故障时,你能热插拔吗?拔掉?我们仍在努力解决这个问题。如果你的训练因为一个GPU在千个GPU集群中故障而停止一个小时,能够热插拔将节省你每天一个小时的时间。这些小事情都会累积起来。

另一个相关的问题是弹性训练。这意味着如果你有一个由2000个H100芯片组成的集群,并且你需要500个用于其他任务,你能在检查点之间移除它们,然后再添加回来吗?这些任务与AI研究人员的训练并不相关,更与网络工程师有关。

如果LLM的开发是火箭科学,那么没有工程师,火箭将永远无法起飞。SpaceX之所以成功,并不仅仅因为一群研究人员,而是因为它有一大批非常复杂、错综复杂的工程师。

对于Nvidia芯片。您是如何应对的?

我公开表示,我们有足够的芯片供应可以维持18个月的时间。这基本上是之前我们购买的芯片。我们肯定在努力研究如何使用中国芯片。

Nvidia的芯片非常出色,但有人可能会争辩说,一个更简单的芯片可以以更低的成本完成工作。但Nvidia的强大之处在于其围绕CUDA软件库建立的整个生态系统,使得编程变得简单。如果强迫工程师使用非Nvidia芯片,他们的工作效率会大大降低,他们基本上会反对这样做。但我们现在面临的问题是在18个月内,我们必须开始得更早。如果我们无法获得Nvidia芯片,我们将寻找更专注于transformers的更简单的芯片,但编程将变得非常困难。但如果我们别无选择,那我们就别无选择。

但是中国工程师以能力强、肯做苦工而著称。这与我之前关于我们基础设施团队的工作所说的类似。

中国的创业者坚韧不拔。中国的工程师勤奋努力,他们不怕苦。这正是美团打造卓越服务的原因,也是微信成为卓越产品的原因。

是的,这些都是困难的挑战,你可以说它们是浪费时间和许多人的精力。但这就是我们面临的现实,所以我们会尽力发挥我们的优势。

0 阅读:16

B Impact

简介:宇婷,To B行业观察者、资深媒体人、博主。