从Anthropic Harness实践，读懂Agent基础设施的未来走向

Anthropic近期发布了一篇关于全新Harness工程实践的技术文章，乍看之下，这篇文章是对其新产品的官方介绍，可若跳出产品本身，从更宏观的技术视角去解读，其核心本质其实是在探讨一个关乎Agent系统发展的核心命题：当大模型能力处于持续迭代、不断突破的动态变化中，Agent系统究竟该将哪些部分定义为稳定接口，又该把哪些内容留给未来去持续优化、重构？

通读完整篇文章后，我从中捕捉到了Anthropic对未来Agent基础设施的深层预判，这也是全文最值得行业关注的核心观点：未来的Agent基础设施，终将朝着微型操作系统（Agent OS）的方向演进。

在Agent框架的设计与开发中，最忌讳的误区，便是将当下模型存在的暂时性缺陷，直接固化为永久性的系统架构。

我们所说的Harness，涵盖调度循环、上下文整理、工具路由等核心功能，其本质是基于当下模型能力边界做出的预设与编码，可这些预设会随着模型能力的快速提升，迅速沦为过时的逻辑。

但反观当下的Agent开发，包括我在内的绝大多数开发者，都很容易陷入一个误区：将模型现阶段的缺陷直接写入Agent框架底层。比如因为模型暂不具备自主规划能力，就强行将执行步骤拆解为固定的有向无环图（DAG），诸如此类的做法，本质上都是给Harness打临时补丁。可站在开发者的角度，我们很难精准界定哪些是模型的临时缺陷，哪些是底层能力的本质局限，这也让这类技术债变得难以避免。

面对这一行业痛点，Anthropic给出的解决方案是打造meta-harness（元调度层）：不锁定某一种具体的Harness形态，只对外提供几类具备长期稳定性的核心接口。

这种设计思路，让开发者无需再耗费精力去猜测、适配模型的临时缺陷，其底层逻辑与传统操作系统高度契合——操作系统从不会限定未来应用程序的开发形式，只会提供一套稳定、通用的抽象接口，为上层应用搭建好运行基础。

那么，Anthropic的meta-harness究竟是如何实现Agent系统抽象的？文章中给出了三大核心抽象模块，三者的分离与协同，构成了这套架构的核心创新点。

一、Session：并非模型上下文窗口，而是可恢复事件流

文章中明确提出The session is not Claude’s context window，这句话精准定义了meta-harness对Session的核心抽象逻辑。Session不再是简单的聊天对话记录，而是一套可恢复事件流。

Anthropic将Session设计为只可追加、不可修改的事件日志（append-only event log），它并非直接输入模型的提示词（prompt），而是一份可查询、可回放、可恢复、可重组的真实执行历史记录。如果仅仅把Session当作模型上下文窗口的镜像，就会彻底丢失其核心的可恢复性，让会话历史沦为一次性的执行信息。

二、Harness：可灵活替换的编排层

早期Anthropic将Harness、Session、Sandbox全部封装在同一个容器内，这种耦合式设计引发了诸多问题：一旦Harness崩溃，整个会话几乎无法恢复；容器故障就会导致执行状态丢失；调试难度极大，且因包含用户隐私数据，无法通过Shell直接调试；虚拟私有云（VPC）的接入也面临重重阻碍。

基于这些痛点，Anthropic将Harness从容器中彻底剥离，打造成为一个独立的推理-调度循环中枢，也就是AI的“脑干”。

重构后的Harness具备两大核心特征：不再持有任何运行状态，也不预设工具的部署位置，仅对外暴露一个极简接口execute(name, input) -> string，这一设计完美契合了Unix生态的极简哲学。

这种抽象设计的核心逻辑在于：AI无需感知自身运行的设备、操作系统、运行环境（容器、虚拟机、终端等），只需明确自身可调用的工具能力即可，如同“千手观音”一般，只专注于调度，不绑定具体执行载体。

三、Sandbox：工具执行的“具象手脚”

Anthropic在文章中提出了**decouple the brain from the hands（大脑与手脚解耦）**的核心理念，将Sandbox的定位清晰划分：Claude模型与Harness共同构成Agent的“大脑”，而Sandbox、各类工具、MCP协议、自定义基础设施则是执行操作的“手脚”。

当Sandbox回归“手脚”的定位后，各执行模块彼此完全独立，可依托不同的基础设施搭建，能力支持共享与传递，也无需为每一个Session启动、加载完整的Sandbox环境，这也直接催生了“many brains, many hands”的多模块协同架构。

此次Anthropic的架构升级，核心借鉴了现代分布式系统的经典经验：不要试图保全单个进程的稳定运行，而是要保障可恢复的事实记录与完善的重启协议，这也是分布式系统稳健运行的核心逻辑。

同时，这一架构从底层提升了系统安全性。文章中提到，通过缩小权限范围来防控风险，本质是基于“模型无法突破权限限制”的假设，但随着模型智能程度不断提升，这类安全假设会变得越来越脆弱。

因此Anthropic摒弃了将凭证直接存放在Sandbox的做法，以Git token为例，仅在初始化克隆、推送、拉取等操作时，通过受控方式接入，模型无法直接读取凭证，而是通过MCP代理间接调用，由代理凭借会话令牌从密钥管理系统获取真实凭证后再执行操作。这种设计的核心原则是：不把系统安全建立在模型能力不足的基础之上。

除此之外，该架构还实现了多重技术升级：一方面，将“可恢复历史”从模型上下文窗口中解放出来。Claude的上下文窗口仅作为临时执行现场，Session日志承担证据仓库的角色，Harness则负责信息的检索与重组。如此一来，提示词不再承担永久记忆的职责，上下文裁剪不代表历史信息消失，内容压缩也不代表执行事实无法恢复，恢复会话时可直接调取原始事件，这比单纯的摘要式记忆高出一个层级。另一方面，系统性能得到大幅优化。采用延迟实例化（lazy materialization）思路，无需为每个会话提前预付完整的容器成本，先启动“大脑”模块，“手脚”模块仅在需要时才进行资源配置，极大降低了响应延迟。官方数据显示，优化后p50级别的首令牌响应时间（TTFT）降低约60%，p95级别更是降低超过90%，这也印证了此前Agent系统的性能瓶颈，并非模型推理本身，而是执行环境与请求入口的过度预耦合。

回归架构设计的初衷，这一切都是为了强化Agent系统的未来可扩展性。文章结尾提出的“Many brains, many hands”，预示着Anthropic的终极目标是打造一个Agent运行时基底，实现多智能体协作、多工具编排、跨环境执行的完整生态。

在这套体系中，Agent的本体不再绑定某一个固定的执行容器，而是绑定一组可恢复的状态与可调用的能力，真正实现了能力与载体的解耦。

当然，这种架构也存在一定的局限性：让单一“大脑”调度多类“手脚”，本身对模型的认知能力提出了更高要求，属于更复杂的认知任务。这也意味着，该架构的落地前提是模型智能水平足够高，能够承担更抽象的工具路由与调度责任，本质上是Anthropic对未来模型能力持续提升的前瞻性布局。

最后，这篇文章带给我三大核心启发：第一，会话的本质不是简单的消息列表，而是执行事实流，是可追溯、可恢复的完整执行记录；第二，工具执行环境要与Agent本体彻底解耦，绝不内化为Agent自身的一部分，保持模块的独立性与灵活性；第三，上下文工程应设计为Harness的可替换策略，提前规避技术债，确保未来模型能力提升、检索策略优化时，无需推翻现有架构重构。

这篇文章并未直白阐述，但字里行间透露出Anthropic极致务实的产品哲学：我们不认为当下的Agent Harness是最终形态，因此优先投入资源打造长期稳定的接口，而非追求一次性的最优实现。

DC娱乐网

从Anthropic Harness实践，读懂Agent基础设施的未来走向

热门分类