DC娱乐网

实验项目:AutoGo,让AI从零开始构建一个AlphaGo地址:github.

实验项目:AutoGo,让AI从零开始构建一个AlphaGo地址:github.com/ericjang/autogo

AutoGo 是一个用围棋做实验场的“AI 研究自动化”项目。 表面上它是在从零训练一个会下围棋的 AI,实际重点是研究能不能让 Claude 这类 agent 负责设计实验、启动训练、看结果、调整方向。下面是项目介绍-------------AlphaGo 和 MCTS 已经是 2016 年的东西了。为什么还要围绕围棋构建一个研究代码库,而不是选择更新的模型方向,比如 reasoning LLM、VLM、Diffusion 等?

这个仓库本质上并不是关于围棋的。它关注的是如何自动化“围棋研究员”。同样的能力应该可以迁移到许多其他 AI 研究领域。引用 Dario Amodei 在《Machines of Loving Grace》中的一段话:

如果我们关于 AI 进展的核心假设是正确的,那么思考 AI 的正确方式,就不是把它看作一种数据分析方法,而是把它看作一个虚拟生物学家。它会执行生物学家所做的所有任务,包括设计并运行现实世界中的实验——通过控制实验室机器人,或者像首席研究员指导研究生一样,告诉人类该做哪些实验——发明新的生物学方法或测量技术,等等。

AI 真正加速生物学的方式,是加快整个研究流程。我想重复这一点,因为这是我谈到 AI 改变生物学能力时最常见的误解:我说的不是把 AI 仅仅当作分析数据的工具。

按照本文开头对强大 AI 的定义,我说的是用 AI 来执行、指挥并改进几乎所有生物学家所做的事情。

至于为什么围棋特别适合作为“自动化研究员”的环境,主要原因是:它是一个相对计算量较轻的环境,但仍然需要 AI 研究员的核心能力。

在围棋中训练 policy network 和 value network,本质上也是在最小化 perplexity,这一点类似 LLM。不同于专门面向单人游戏的 model-free RL 算法,比如 ALE benchmark、Mujoco,AlphaGo 更偏向于使用相对简单的训练方法,也就是 supervised learning,再配合系统工程的规模化。

前沿实验室中也常见类似的思路:简单算法,加上高性能分布式系统。

由于围棋数据很容易生成,而围棋对局的空间又非常大,我怀疑围棋其实很适合用来研究 scaling laws。如果最终发现围棋并不适合研究 scaling laws,那我们也能从中理解为什么机器人领域的 scaling laws 更难。这个代码库中的初步实验表明,类似 reasoning LLM,基于围棋训练的神经网络同时表现出了训练时和测试时的 scaling law 特性。

能够帮助更快训练围棋网络的技术,很可能也能迁移到 LLM,以及机器人中的 action prediction 和 value prediction。用围棋来评估新的深度学习技术,可以提供一个与 LLM 应用相关性较低的独立信号。

作为一个系统,AlphaGo 与机器人技术栈有很多相似元素:日志记录、数据采集、replay buffer、分布式 RL、模拟评估。但它运行速度快得多,也避免了实现机器人系统时许多麻烦细节:速度慢、复杂度高,以及维护真实世界数据集所带来的巨大负担。

从核心深度学习主题的覆盖面来看,它几乎有“一点点所有东西”。

我觉得一件非常深刻的事情是:只要查询一个用于估计 value 的函数近似器,就可以任意精确地替代仿真。宏观效果竟然可以在不进行微观仿真的情况下被准确预测,这是一件近乎奇迹的事。

沿着这个原则外推,我会想:那些长期存在的计算复杂性问题,比如 P = NP,是否真的是正确的问题?也许我们应该问的是:“P almost NP?”

Self-play、Nash equilibrium、mixed strategy 和 recursive self-improvement,都是前沿实验室当前非常关注的问题。围棋是一个轻量但丰富的环境,适合研究这些动态过程。AI创造营