性能爆表,全面赶超!近期,国内悄悄发布了两个大模型。一个是幻方近日发布DeepS

庚黑星君 2024-05-12 01:53:33

性能爆表,全面赶超!

近期,国内悄悄发布了两个大模型。

一个是幻方近日发布DeepSeek-V2模型,可以说是目前业内推理性价比最高的模型。根据DeepSeek官网,V2版本提供了极具竞争力的API价格(用户使用成本/推理成本),分别为1元/百万输入Tokens及2元/百万输出Tokens。之所以成本更低,在于DeepSeek-V2采用了创新架构,保证经济训练和高效推理,分别采用了MLA(多头潜在注意力)和DeepSeekMoE 架构(一种高性能的 MoE 架构)。

据业内评测,DeepSeek-V2新版本的性能接近GPT4等主流大模型,而API价格却远低于竞品,所以说目前DeepSeek-V2性价比很高。

另一个是阿里近日发布通义千问2.5大模型。据阿里云智能集团首席技术官称,在中文语境下,文本理解、文本生成、知识问答&生活建议、闲聊&对话,和安全风险等多项能力上赶超GPT-4,成为地表最强中文大模型。同时,通义千问1100亿参数开源模型在多个基准测评收获最佳成绩,超越Meta的Llama-3-70B,成为开源领域最强大模型。

一个主打性价比,一个追赶中文性能,这两个大模型的发布提升了国内大模型的整体竞争力,同时也为国内AI应用的爆发奠定了基础,尤其是DeepSeek模型有利于降低应用开发者的成本,利好AI应用开发生态。

......

另外,近期海外大模型进展也有一个值得注意的趋势:

4月23日,微软推出了大模型Phi-3-mini,可以在多种手机中部署使用该模型。

4月23日,商汤推出了端侧模型SenseChat Lite,采用了端云“联动”的MoE框架,在部分场景中端侧推理占70%,会让推理成本变得更低。

4月24日,苹果推出了大模型OpenELM,是一款专门针对手机等移动设备的模型。苹果使用了1.8万亿tokens的数据进行预训练,表现出超强性能。

终端大模型也在迅速发展,说明科技大厂已经在往端侧发力了,不久将出现更智能的AI手机等智能终端,尤其是苹果的加入,使得AI手机的发展更具确定性。

0 阅读:64
庚黑星君

庚黑星君

感谢大家的关注