之前我们对Harness的定义是:Harness就是模型权重以外的一切,即Agent = Model + Harness。
这篇综述给出了一个更精确的定义:他们提出,Agent Harness是"将模型调用转化为有边界、有状态、工具中介的任务执行的工程化包装层"——包括执行基板(Execution)、工具接口(Tool)、上下文控制(Context)、编排(Lifecycle / Orchestration)、可观测性(Observability)、评估反馈(Verification)和治理约束(Governance)。
这七个层面,就是综述论文提出的ETCLOVG七层分类法。
本篇笔记就分别从这七个层面对Harness进行了分析,总结下来对Agent开发工程师有这么几点takeaway:
1️⃣Harness 独立于大模型,绝非配套附属。工具、权限、上下文、编排、观测、评测、安全整套基建,才决定 Agent 长线稳定性。
2️⃣不用一次性落地全七层架构。工程核心是厘清每段组件都是为弥补模型短板而搭建,随着模型变强,及时拆除冗余脚手架。
3️⃣上下文是稀缺资源,不能无限堆砌。信息位置影响效果、内容变长提前出现性能衰减,多余 Token 既抬成本还引入噪声,要像管控预算一样管理上下文。
4️⃣评测不能只盯着最终得分,要落地故障诊断。只知道任务失败、定位不了根源,就等于观测和评测链路失效。
5️⃣Harness 改动要做全系统验证。Prompt、工具、上下文单点优化看似优秀,组合落地后反而拖累整套 Agent 运行。










