智谱AI开源CogVideoX模型,推理仅需18GB显存

聊点科技行叭 2024-08-08 06:26:45

继此前在7月26日推出CogVideoX模型,并发布了基于这一打造的AI视频生成功能清影(Ying)后。日前智谱AI方面宣布,将开源CogVideoX视频生成大模型。

据智谱AI方面透露,CogVideoX包含多个不同尺寸的模型,目前将开源CogVideoX-2B,而参数量更大的模型也或将会在后续开源。该模型在FP-16精度下的推理仅需18GB显存、微调也只需要40GB显存,因此这也就意味着单张NVIDIA GeForce RTX 4090显卡即可用于推理,单张NVIDIA RTX A6000就能完成微调。

公开信息显示,CogVideoX-2B的提示词上限为226个token,其可生成长度为6秒、8帧/秒,分辨率为720×480的视频。需要注意的是,对此智谱AI方面也表示,“我们为视频质量的提升预留了广阔的空间,期待开发者在提示词优化、视频长度、帧率、分辨率、场景微调,以及围绕视频的各类功能开发上贡献开源的力量”。

此前智谱AI方面在发布CogVideoX模型时就曾透露,该模型采用了将文本、时间、空间三维一体融合的transformer架构,并设计了Expert Block来实现文本与视频两种不同模态空间的对齐,以及通过Full Attention机制优化模态间的交互效果。

为了实现内容的连贯性,智谱AI则为CogVideoX研发了一套高效的三维变分自编码器结构(3D VAE),即通过三维卷积同时压缩视频的空间和时间维度,从而实现更高的压缩率和更好的重建质量。此外在可控性方面,其还打造了一款端到端的视频理解模型为大量视频数据生成描述,以增强CogVideoX对文本的理解以及对指令的遵循能力。

据了解,此前CogVideoX就已在智谱清言的PC端、移动端,以及小程序端上线,所有用户均可通过智谱清言开放的入口免费体验AI文本生成视频、图像生产视频服务。此外清影API还同步上线了大模型开放平台bigmodel.cn,企业及开发者可通过调用API的方式,来体验和使用文生视频及图生视频的模型能力。

0 阅读:9

聊点科技行叭

简介:感谢大家的关注