我们知道deepseekv3开始用fp8方式训练提升了效率,而这篇论文:arx

又仁看科技 2025-05-27 08:59:01

我们知道deepseek v3开始用fp8方式训练提升了效率,而这篇论文:arxiv.org/abs/2505.14669

提出了Quartet技术,则将这一趋势推向了更前沿的FP4。它展示了研究者们如何通过创新的算法设计(如Quartet本身和低精度缩放定律)和针对性的硬件优化,来克服比FP8更具挑战性的精度问题,从而在更低的位宽上实现高效且准确的模型训练。

AI创造营

0 阅读:1
又仁看科技

又仁看科技

感谢大家的关注