Meta的新一代开源模型Llama3惊艳登场!划重点比GeminiPro1.5都强

开心盖土 2024-04-20 08:33:52

今天,Meta发布了它最新的开源模型 Llama3 ,性能测试超过目前大多数开源模型,甚至部分性能超过Gemini Pro 1.5。其已提供给 AWS 等云服务商,并且很快就会向 Hugging Face 等模型库发布。

Llama 3 目前发布了两个参数的,分别为 Llama 3-8B 和 Llama 3-70B 的预训练和微调模型。 目前为止,Llama 3 仍是一个非多模态模型,只提供基于文本的响应。 Llama 3 在回答提示方面表现出更多的多样性,在回答问题时错误拒绝的情况更少,并且可以更好地推理。 Meta 还表示 Llama 3 比以前能够理解更多指令并编写更好的代码。

性能优势

通过对8B和70B模型的预训练和指令微调,Llama3实现了在模型响应的一致性、多样性以及在编码和推理任务上的显著提升。在某些基准测试中,两种模型都击败了Google 的 Gemma和 Gemini、Mistral 7B 以及 Anthropic 的 Claude 3 等类似尺寸的模型。在通常衡量常识的 MMLU 基准测试中,Llama 3 8B 的表现明显优于 Gemma 7B 和 Mistral 7B,而 Llama 3 70B 略胜于Gemini Pro 1.5。

值得一提的是,Meta 还开发了一套新的高质量人类评估集,该评估集包含 1,800 个提示,涵盖 12 个关键用例:寻求建议、头脑风暴、分类、封闭式问答、编码、创意写作、提取、塑造角色、开放式问答、推理、重写和总结。在该评估集中 Llama 3 70B 在与 Mistral-Medium 、GPT-3.5 和 Claude3-Sonnet 的竞争中脱颖而出。 Meta 表示,为了保持客观性,它限制了建模团队访问该数据集。

技术特点

Llama3借助标准的仅解码器Transformer架构,并通过优化,如引入具有128K标记词汇的标记器,显著提高了模型性能。此外,Llama3经由十五万亿token(本质上是构成模型的单词或具有基本含义的单位)的预训练,借助从公开来源收集的丰富数据集,并在预训练数据上投入显著,使得其训练数据集的规模和质量都有了质的飞跃。通过这种方式,Llama3不仅在提高模型的推理效率方面取得了突破,还在多种实际场景中优化了模型的性能。

Llama 3 还有一个 4000 亿参数的版本仍在训练中,Meta尚未决定是否对其开源。

怎么使用

Llama 3 已集成到Meta的AI助手 Meta AI 中,可以直接通过 meta.ai 直接使用,也可以在 集成 Meta AI 的 Facebook、Instagram、WhatsApp、Messenger中使用。

如果本地部署 Llama 3 ,需要访问Meta Llama 网站下载模型,并接受其许可证。

链接:llama.meta.com/llama-downloads/

Meta通过Llama3的发布,不仅展示了其在AI领域的技术地位,更体现了对开源社区的贡献和支持。Meta 在博客文章中写道:“我们在不久的将来的目标是使 Llama 3 成为多语言和多模式,拥有更长的上下文,并继续提高推理和编码等核心大语言模型的整体性能。” “还有很多事情要做。”

0 阅读:0

开心盖土

简介:感谢大家的关注