无需思维链提升模型推理能力1千样本小模型ARC突破40分无需预训练或思维链，就能

量子位看科技 2025-07-23 16:41:17

无需思维链提升模型推理能力1千样本小模型ARC突破40分

无需预训练或思维链，就能展现出超强推理能力？

一篇来自新加坡Sapient Intelligence的研究人员的论文，引发了热议。

研究人员受人类大脑信息处理机制启发，推出了层次推理模型（HRM）。

仅需2700万参数，使用1000个训练样本，就能在ARC-AGI里收获40.3%的高分。

现有的大语言模型主要依赖于思维链技术，这种方法存在任务分解脆弱、数据需求量大和响应延迟高的问题。

HRM的设计灵感来源于人类的大脑，它采用了两个相互依存的循环模块：一个负责慢速、抽象规划的高层模块，和一个处理快速、详细计算的底层模块。

通过高层模块和底层模块的配合，模型在复杂任务面前也能游刃有余，这个配合过程具体可以分为以下几个部分：

- 高层模块（H-module）：负责制定整体策略，它在每个周期结束时接收底层模块的最终状态，并据此调整策略。

- 底层模块（L-module）：底层模块负责具体的计算任务，在每个周期内快速更新，每一步都基于前一步的状态和高层模块的策略。

- 层级收敛（Hierarchical Convergence）：标准的循环神经网络（RNN）容易快速收敛，导致后续计算停滞。HRM通过高层模块的慢速更新和底层模块的快速迭代，避免了这种快速收敛，显著增强了模型的推理能力。

HRM 在多个复杂任务上的表现令人瞩目，尤其是在小样本学习场景下，性能出色。【图2】

- ARC-AGI：在ARC-AGI-1中，HRM使用960个训练样本，达到了40.3%的准确率。显著高于o3-mini-high（34.5%）和 Claude 3.7 8K（21.2%）。

- Sudoku-Extreme：HRM在Sudoku-Extreme测试中达到了55%的准确率，而其他大模型几乎无法解决这些难题，准确率接近0%。

- 30×30迷宫：HRM在30×30迷宫测试中达到了74.5%的准确率，而其他大模型在这一任务上几乎无法找到最优路径，准确率接近0%。

感兴趣的朋友，可以阅读论文原文：

代码仓库：

0 阅读：0

量子位看科技

感谢大家的关注

作者最新文章

1

AI拿金牌数学家崩溃了AI引发存在主义危机OpenAI拿下IMO金牌，还引发了一

2

企业级AI调度新范式上交大将企业级AI流程调度提速79复合LLM应用 (comp

3

亿级人类动作训练机器人亿级短视频数据突破具身智能ScalingLaw如何让机器人

4

嵌入式游戏卡带原理嵌入式卡带堪比微型计算机嵌入式学习必看——任天堂早年发售的Ga

5

硅谷AI初创重新拥抱996硅谷开始卷996了当AI创业进入高潮，连硅谷人们都重新

6

MIT离散数学课MIT讲解离散数学六大核心计算机处理的是离散数据，离散数学则是“

7

MIT新方法提升Agent自主性Agent推理突破长上下文限制Agent自主性大

8

一图看懂AI层层关系AI机器学习深度学习啥区别一张图理清：人工智能（AI）、机器

9

AI误删文件还犟嘴AI把我的文件吞了产品经理Anuraag使用Gemini CL

10

奥特曼首次透露GPT5上手体验奥特曼体验GPT5后感到眩晕OpenAI掌门人奥特

热门分类

推荐热榜军事 NBA 体育社会明星八卦娱乐财经科技汽车历史国际游戏动漫公益搞笑商业互联网数码国际足球房产家居时尚科学探索职场育儿股票教育影视情感热点中国军情武器中国南海中国足球亚洲杯科比综合体育 CBA 投资楼市大咖秀外汇创业风口 SUV 豪车概念车优惠新能源美国欧洲朝日韩俄罗斯孕期街拍恋爱攻略婚姻正能量

科技TOP

1

小米YU7价格25.35万，27.99万，32.99万三个版本，最推荐入门版本，

2

哈哈哈昨晚三星发布会我是真的看爽了！三星折叠屏比直板更轻薄GalaxyZF

3

小米首款智能眼镜AIGlasses发布，支持拍照录像和超级小爱同学。1999起

4

【星链全球大断网！马斯克道歉：确保类似情况不再发生】据媒体报道，SpaceX卫星

5

朝鲜的单摄奥利奥，虽然只是一个很low的后摄单摄，但是也要凑够两个假的组成奥利奥

6

小米深圳总部今日正式开园都说小米之家只有60米高是“矮楼”，但是没人觉得造型很像

7

雷军估计不会再直播了！他怎么也想不到，网友居然在他直播间里干起来了！甚至把雷

8

陈震再次质疑小米YU7到底极限在哪里？到现在为止，他已经连续发了四篇专门的文

9

不得不说，这老头也太幸福了吧！国外的科技都这么先进了吗？这两位美女机器人做的

10

顺利提车。[大笑]

科技最新文章

1

【星链全球大断网！马斯克道歉：确保类似情况不再发生】据媒体报道，SpaceX卫星

2

本月早些时候，微软宣布裁员9000人，引发了外界对公司未来战略与员工士气的广

3

荣耀X70比上一代荣耀X60Pro升级了啥？1.核心处理器升级了：骁龙

4

炸场！2025下半年新机王炸配置，等等党直接赢麻！iPhone17

5

目前最新的手机处理器排名，不出意外高通骁龙还是占据主流排第一的是骁龙8至尊领先

6

用过荣耀Magic7Pro的人才会懂，6.8英寸OLED等深微曲屏，月影灰配色

7

芯片战，硝烟再起。第一波爱国力量来了。面对来势汹汹的美国H20芯片，360集团创

8

三款turboPro机型对比！三选一会选哪个[笑着哭]质感和颜值的话红米更强，毕

9

很多人选择等华为Mate80系列，并不是什么配置升级，单纯就是受不了Mate

10

朋友们，真的，nova14ultra给我最大的感受就是它的手感简直太完美了。主要