实测mm的coding能力可以独立复现论文实验

前几天看到Minimax刚出了M3，主打的有三大卖点：
1️⃣ Frontier Coding：SWE-Bench Pro 59.0%，超越 GPT-5.5 和 Gemini 3.1 Pro
2️⃣ 1M 上下文：自研 MSA 架构，最低保证 512K，最高支持 1M
3️⃣ 原生多模态：从训练第 0 步即进行混合模态训练，支持图像、视频输入及桌面操作

我注意到官方给的一个case：给 M3 一篇 ICLR 2025 杰出论文奖论文《Learning Dynamics of LLM Finetuning》，要求独立复现。在执行了12h，提交了18个commits，并且生成了23张实验图表后，成功复现了所有核心实验，包括：
1️⃣SFT 阶段预测概率变化趋势
2️⃣DPO 实验中的"squeezing effect"（挤压效应）
3️⃣原论文提出的 Extend 缓解方法验证

于是我也上手实测了一下Minimax M3的效果。最近正在阅读这篇论文《OpenSearch-VL: An Open Recipe for Frontier Multimodal Search Agents》，我用Claude code 配置了Minimax M3的API Key，先部署一下原模型的代码，在Minimax M3的引导下，下载好了所有模型和数据集，还帮我下载了Qwen3-VL-2B，以及SFT和RL训练用到的Search-VL-SFT-36K 和 Search-VL-RL-8K数据集。

配置好了各种工具所需API Key，这个项目要配置10多个API key，Minimax还帮我贴心的贴出来了没个API KEY要去那里获取，比自己一个个配置快很多。

在解决了一大堆bug后，比如显存OOM，cuda版本对不上，Ray 未就绪等等，成功跑起来了SFT和RL的训练。

大家也来试试吧！

DC娱乐网

实测mm的coding能力可以独立复现论文实验

热门分类