DeepSeek发布236B参数160位专家的专家混合(MoE)模型:DeepSeek-V2

科技研习看今朝 2024-05-09 05:50:47

项目简介

DeepSeek-V2,一个专家混合(MoE)语言模型,其特点是经济高效的训练和推理。它包含 2360 亿个总参数,其中每个token激活了21亿个参数。与 DeepSeek67B相比,DeepSeek-V2 实现了更强的性能,同时节省了 42.5%的训练成本,将 KV 缓存减少了 93.3%,并将最大生成吞吐量提高了 5.76 倍。

在 AlignBench 中排名前三,超越 GPT-4,接近 GPT-4-Turbo。在MT-Bench 中排名顶尖,与 LLaMA3-70B不相上下,并且胜过 Mixtral 8x22B。专注于数学、编码和推理。

DeepSeek-V2 完全开源,可免费用于商业用途。

236B参数,其中21B在生成过程中被激活160位专家,其中有6位在生成中活跃在英文基准测试中与 Mixtral 8x22B 匹配128k上下文在 8.1万亿标记上训练用于在 bf16 8x 80GB GPU 上进行推理接受英语和中文语言训练

模型概述

DeepSeek-V2-Chat是一个先进的Mixture-of-Experts(MoE)语言模型,具有高效的训练和推理能力,总参数量为2360亿,每个token激活21亿参数。与之前的版本相比,该模型在性能方面显著提升,并降低了训练成本、KV缓存需求以及生成开销。

总体架构

Mixture-of-Experts(MoE)结构: DeepSeek-V2-Chat基于混合专家的设计,允许每个输入token仅激活部分参数,大幅降低内存使用并提高计算效率。

参数规模

总参数量达到2360亿,但每个token激活21亿参数,从而实现性能与资源利用的平衡。

长上下文窗口

支持长达128K的上下文窗口。

性能优势

与Dense模型DeepSeek67B相比,DeepSeek-V2在多项标准基准测试中表现更强。减少训练成本42.5%,KV缓存降低93.3%,并将最大生成吞吐量提高5.76倍。

数据训练

DeepSeek-V2在包含8.1万亿token的多样化高质量语料库上进行预训练,并通过监督微调(SFT)和强化学习(RL)来充分发挥模型潜力。

模型价格:价格非常香​!

​模型下载

Huggingface: https://huggingface.co/deepseek-ai/DeepSeek-v2-chat

高性价比GPU资源:https://www.ucloud.cn/site/active/gpu.html?ytag=gpu_696632516_tongyong_toutiao

0 阅读:0

科技研习看今朝

简介:感谢大家的关注