AI21Labs推出Jamba-首个基于Mamba架构的开源大语言模型

开心盖土 2024-04-03 07:24:43

刚刚,以色列AI初创公司AI21 Labs 推出了一款名为 Jamba 的开源大语言模型,它是世界上首个基于 Mamba 架构的企业级大语言模型。传统 LLM 大多建基于 Transformer 架构,而 Jamba 则通过融合 Mamba 和 Transformer 的优势,开创了全新的混合 SSM-Transformer 架构模式。

目前大多数大语言模型都是Transformer 架构,尽管 Transformer 架构功能强大,但它也存在一些固有缺陷。一是对内存的占用较大,随着上下文长度增加而快速增长;二是推理速度也会随上下文变长而显著下降。卡耐基大学和普林斯顿大学发布的Mamba 架构正是为解决这些痼疾而被提出的,但单一的 Mamba 模型又难以匹配Transformer模型的输出质量。Jamba 融合了 Mamba 选择性状态空间模型 (SSM) 和传统 Transformer 架构的优势,并和专家混合(MoE)层有机结合而成,可同时优化内存、吞吐量和性能。

Jamba可提供256K个令牌的上下文窗口,相当于约 210 页的文本内容,而在单个 80GB GPU 上,其上下文容量也可高达 140K 个令牌。并且,Jamba 在长上下文处理中的吞吐量是同级别基于 Transformer 的模型(如 Mixtral 8x7B)的 3 倍之多。

Jamba 创新的设计赋予了它优良的性能表现。根据初步评估,除了在长上下文情况下吞吐量领先之外,该模型在多项基准测试中也均能与同级别最先进的开源模型匹配甚至超越。

Jamba模型在Apache 2.0许可下开源。目前可在Hugging Face上使用,并将很快出现在NVIDIA API目录中,将能利用NVIDIA AI Enterprise软件平台进行部署。Jamba目前仅是一个基础模型,AI21 Labs计划未来推出微调版模型,从其宣传看主要服务于企业私有化部署。

Jamba 的问世标志着大语言模型创新的重要里程碑。它不仅将 Mamba 与 Transformer 架构成功融合,并将这一混合 SSM-Transformer 模型推向了生产级别;而且其突破性的混合架构设计,使 Jamba 在吞吐量、效率和成本等关键指标上均取得了长足进展。未来,随着该新颖架构在社区中不断完善和优化,我们有理由期待人工智能模型的性能将再获提升,开辟更加强大的功能。

参考链接:

https://huggingface.co/ai21labs/Jamba-v0.1

https://www.ai21.com/blog

0 阅读:0

开心盖土

简介:感谢大家的关注