
今天我们聊聊人工智能,特别是聊天机器人ChatGPT。我相信大家一定对这个基于OpenAI的大型语言模型(LLM)非常熟悉,不过,你有没有想过如何才能满足这种创新AI技术对数据中心的需求呢?
ChatGPT于去年年底推出,它的内容生成能力吸引了众多眼球。人们利用ChatGPT及其他厂商的机器人来解答复杂问题,自动编写软件代码,甚至创作市场营销文案。
然而,虽然这种通用AI技术潜力巨大,但在数据中心充分利用这些底层模型却是个大挑战。因为大多数模型都是在公开可用的数据上进行训练的,对于一些敏感内部文件的查询等典型的企业应用来说,这可能并不理想。
那么,企业希望这些模型能操作内部企业数据,是不是意味着他们得重新开发一切呢?接下来我们来深入探讨一下。
在数据中心建立大型语言模型是一项花费巨大的任务。这个过程从计算密集型的训练开始,需要数百乃至上千台昂贵的GPU在数据中心服务器中进行数周或数月的集群运算。
“预训练需要大量的计算能力。例如,BLOOM模型(这是一种开源的GPT-3替代方案,具有1760亿参数)需要在384-GPU集群上训练117天。这相当于大约120 GPU年的计算量,”Hugging Face的首席传道士Julian Simon在接受VentureBeat采访时说。
模型越大,训练和再训练所需的GPU数量也越多。举例来说,Google为了训练其拥有5400亿参数的PaLM模型,不得不插入6144个芯片。这个过程还需要熟悉高级训练技术和工具(如微软的DeepSpeed和Nvidia的Megatron-LM)的专业知识,这在组织内部可能并不常见。
一旦训练完成,这些芯片还需要持续运行模型的推理,这会进一步增加成本。从具体的角度来看,仅仅使用500台Nvidia的DGX A100多GPU服务器(通常用于LLM训练和推理),每台售价199,000美元,项目的成本就会达到约1亿美元。此外,服务器的额外电力消耗和热量产出也会增加总成本。
对于只是希望加速某些业务的公司来说,这在数据中心基础设施上的投资是巨大的,尤其是对于那些并非专门从事AI业务的公司。
除非一个公司有独特的高质量数据集,能创造出一个具有明显竞争优势的模型,并且这个投资是值得的,否则最好的方式是针对组织自己的数据(比如公司文件,客户电子邮件等)对现有的开源LLM进行微调,以适应特定的用例。
Simon说:“一个好的反例是BloombergGPT模型,这是一种由Bloomberg从头开始训练的500亿参数模型……有多少机构可以自信地说他们有同样多的独特高质量数据?并不多。”
另一方面,微调是一个更轻量级的过程,只需要一小部分的时间、预算和精力。Hugging Face Hub目前托管了超过250,000个开源模型,覆盖了自然语言处理、计算机视觉和音频任务的广泛范围。你很有可能会发现一个适合你项目的起点。
如果一个企业看到从头开始构建LLM的价值,那么它应该从小处开始,使用托管的云基础设施和机器学习服务,而不是立即购买昂贵的GPU进行现场部署。
“我们最初使用的是云托管的MLOPS基础设施,这使我们可以花更多的时间开发技术,而不是担心硬件。随着我们的成长和我们的解决方案架构从早期的快速研发阶段稳定下来,现在我们开始考虑本地托管,”Undetectable AI的模型、首席技术官兼联合创始人Bars Juhaj在接受VentureBeat采访时说。
云服务还提供了更多的训练选择,不仅有Nvidia的GPU,还有AMD和Intel的产品,以及Google TPU和像AWS Trenium这样的客户加速器。
另一方面,如果本地法律或规定要求远离云,那么现场部署加速硬件(如GPU)将是默认的首选。
规划始终是关键。在投资GPU、技能或云合作伙伴来创建特定领域的LLM和基于它们的应用程序之前,技术决策者需要与企业内的其他领导者和主题专家合作,定义明确的策略。在做出决定时,专注于商业案例,对此类工作负载的当前和未来需求有一个粗略的想法,将是很有帮助的。
有了这样的计划,企业就可以做出明智的决定,知道何时以及如何投资LLM的训练。这包括选择哪种类型的硬件,何处可以使用其他人开发的现有模型,以及谁可以在他们的AI旅程中成为合适的伙伴。
“AI/ML的发展速度令人难以置信……如果用传统的未雨绸缪的思维方式对待这些新技术的引入,那么很可能会发现这个解决方案很快就会过时。技术和硬件的特性意味着,更好的选择可能是首先开发解决方案的方法,然后根据需要升级你的数据中心,” Juhaj说。
他还补充说:“在没有明确原因的情况下盲目追求新技术的热潮和趋势可能很容易,但这无疑会导致潜在的挫折,并忽视了那些可能在未来对企业有益的真正的使用场景。更好的做法可能是寻求平衡,花时间理解相关技术,并与利益相关者一起评估哪些集成可以带来益处。”