【当AI开始自主研究AI:DeepSeek研究员开源的“科研协议”意味着什么】
DeepSeek资深研究员陈德里开源了Deli AutoResearch SKILL。这事儿最有意思的地方在于,它不是一堆复杂的代码库,而是一份名为SKILL.md的协议文件。它通过规约状态持久化、防死循环和心跳机制,让Agent在没有人类干预的情况下,自主完成了从实验设计到在285B大模型上跑RL训练的全过程。
这件事揭示了一个令人兴奋的真相:人类的先验知识有时反而是天花板。基于AlphaZero的逻辑,模型通过Self-play能发现比人类经验更优的全局解。这次开源的第四篇综述论文,就是Agent自己规划实验、写代码、调GPU、debug并总结出来的,甚至在模拟同行评审中拿到了8.6的高分。
关于行业内纠结的PPO与GRPO之争,这里的洞察很毒辣:PPO能处理长周期任务是因为引入了Value Model,但这只是把训练难度从一个地方转移到了另一个地方。真正的瓶颈始终没变,即如何在长周期任务中获得稳定的过程监督。
这标志着科研范式的彻底改变。以前AI是帮手,现在AI是主理人。人类的角色正从“跑实验的人”变成“定义方向和安全边界的人”。当Agent学会了自我迭代和实验闭环,AI原生研究的雪球就真正滚起来了。
victorchen96.github.io/auto_research/framework.html
人工智能AI创造营DeepSeek强化学习Agent
