【当AI开始自主研究AI：DeepSeek研究员开源的“科研协议”意味着什么】D

【当AI开始自主研究AI：DeepSeek研究员开源的“科研协议”意味着什么】

DeepSeek资深研究员陈德里开源了Deli AutoResearch SKILL。这事儿最有意思的地方在于，它不是一堆复杂的代码库，而是一份名为SKILL.md的协议文件。它通过规约状态持久化、防死循环和心跳机制，让Agent在没有人类干预的情况下，自主完成了从实验设计到在285B大模型上跑RL训练的全过程。

这件事揭示了一个令人兴奋的真相：人类的先验知识有时反而是天花板。基于AlphaZero的逻辑，模型通过Self-play能发现比人类经验更优的全局解。这次开源的第四篇综述论文，就是Agent自己规划实验、写代码、调GPU、debug并总结出来的，甚至在模拟同行评审中拿到了8.6的高分。

关于行业内纠结的PPO与GRPO之争，这里的洞察很毒辣：PPO能处理长周期任务是因为引入了Value Model，但这只是把训练难度从一个地方转移到了另一个地方。真正的瓶颈始终没变，即如何在长周期任务中获得稳定的过程监督。

这标志着科研范式的彻底改变。以前AI是帮手，现在AI是主理人。人类的角色正从“跑实验的人”变成“定义方向和安全边界的人”。当Agent学会了自我迭代和实验闭环，AI原生研究的雪球就真正滚起来了。

victorchen96.github.io/auto_research/framework.html

人工智能AI创造营DeepSeek强化学习Agent

DC娱乐网

【当AI开始自主研究AI：DeepSeek研究员开源的“科研协议”意味着什么】D

热门分类