DC娱乐网

MiniMax过去半年的所有工作,公开了

MiniMax把去年12月到现在,整整半年的所有M2相关的工作,写成了一篇论文,还给公开了。

从架构设计,到训练数据,甚至AI怎么自己debug的,全写了出来,整整30多页。

论文甚至详细谈到了:

- MoE架构为什么选256个专家
- 每步只激活4.2%的参数是怎么做到的
- 从GitHub真实代码构建训练数据的完整流水线
- 一个叫Forge的智能体强化学习系统
- AI写完App后让另一个AI去点按钮验收的框架
- 交替思考的推理机制

以及最科幻的部分:M2.7自己跑了100轮迭代优化自己的训练代码,性能涨了30%。

有网友问M3什么时候发布,MiniMax的Ryan Lee透露,已经在路上了。MiniMax