实验项目：AutoGo，让AI从零开始构建一个AlphaGo地址：github.

实验项目：AutoGo，让AI从零开始构建一个AlphaGo地址：github.com/ericjang/autogo

AutoGo 是一个用围棋做实验场的“AI 研究自动化”项目。表面上它是在从零训练一个会下围棋的 AI，实际重点是研究能不能让 Claude 这类 agent 负责设计实验、启动训练、看结果、调整方向。下面是项目介绍-------------AlphaGo 和 MCTS 已经是 2016 年的东西了。为什么还要围绕围棋构建一个研究代码库，而不是选择更新的模型方向，比如 reasoning LLM、VLM、Diffusion 等？

这个仓库本质上并不是关于围棋的。它关注的是如何自动化“围棋研究员”。同样的能力应该可以迁移到许多其他 AI 研究领域。引用 Dario Amodei 在《Machines of Loving Grace》中的一段话：

如果我们关于 AI 进展的核心假设是正确的，那么思考 AI 的正确方式，就不是把它看作一种数据分析方法，而是把它看作一个虚拟生物学家。它会执行生物学家所做的所有任务，包括设计并运行现实世界中的实验——通过控制实验室机器人，或者像首席研究员指导研究生一样，告诉人类该做哪些实验——发明新的生物学方法或测量技术，等等。

AI 真正加速生物学的方式，是加快整个研究流程。我想重复这一点，因为这是我谈到 AI 改变生物学能力时最常见的误解：我说的不是把 AI 仅仅当作分析数据的工具。

按照本文开头对强大 AI 的定义，我说的是用 AI 来执行、指挥并改进几乎所有生物学家所做的事情。

至于为什么围棋特别适合作为“自动化研究员”的环境，主要原因是：它是一个相对计算量较轻的环境，但仍然需要 AI 研究员的核心能力。

在围棋中训练 policy network 和 value network，本质上也是在最小化 perplexity，这一点类似 LLM。不同于专门面向单人游戏的 model-free RL 算法，比如 ALE benchmark、Mujoco，AlphaGo 更偏向于使用相对简单的训练方法，也就是 supervised learning，再配合系统工程的规模化。

前沿实验室中也常见类似的思路：简单算法，加上高性能分布式系统。

由于围棋数据很容易生成，而围棋对局的空间又非常大，我怀疑围棋其实很适合用来研究 scaling laws。如果最终发现围棋并不适合研究 scaling laws，那我们也能从中理解为什么机器人领域的 scaling laws 更难。这个代码库中的初步实验表明，类似 reasoning LLM，基于围棋训练的神经网络同时表现出了训练时和测试时的 scaling law 特性。

能够帮助更快训练围棋网络的技术，很可能也能迁移到 LLM，以及机器人中的 action prediction 和 value prediction。用围棋来评估新的深度学习技术，可以提供一个与 LLM 应用相关性较低的独立信号。

作为一个系统，AlphaGo 与机器人技术栈有很多相似元素：日志记录、数据采集、replay buffer、分布式 RL、模拟评估。但它运行速度快得多，也避免了实现机器人系统时许多麻烦细节：速度慢、复杂度高，以及维护真实世界数据集所带来的巨大负担。

从核心深度学习主题的覆盖面来看，它几乎有“一点点所有东西”。

我觉得一件非常深刻的事情是：只要查询一个用于估计 value 的函数近似器，就可以任意精确地替代仿真。宏观效果竟然可以在不进行微观仿真的情况下被准确预测，这是一件近乎奇迹的事。

沿着这个原则外推，我会想：那些长期存在的计算复杂性问题，比如 P = NP，是否真的是正确的问题？也许我们应该问的是：“P almost NP?”

Self-play、Nash equilibrium、mixed strategy 和 recursive self-improvement，都是前沿实验室当前非常关注的问题。围棋是一个轻量但丰富的环境，适合研究这些动态过程。AI创造营

DC娱乐网

实验项目：AutoGo，让AI从零开始构建一个AlphaGo地址：github.

热门分类