Harness Engineering 在讨论什么:三个 Scaling 维度的统一框架网页链接2026 年第一季度,OpenAI、Cursor 和 Anthropic 先后发布了各自在 agent-first 软件开发上的实践报告。三篇文章都被归入同一个术语:harness engineering。但仔细读下来,它们讲的几乎是三件完全不同的事。
OpenAI 的 harness engineering 讲的是环境设计:文档体系、架构约束、可观测性基础设施,让 agent 在一个被精心设计过的工作环境里可靠地生产代码。Cursor 的 self-driving codebases 和 scaling agents 讲的是协调架构:几百个 agent 同时工作,怎么分工、怎么并行、怎么收敛。Anthropic 的 harness design for long-running apps 讲的是运行时纠偏:一个 agent 连续跑几个小时,怎么在过程中保持方向和质量。
这三篇文章的读者群高度重叠,用的术语高度一致,但各自回答的工程问题截然不同。这正是 harness engineering 这个词在当前讨论中造成混乱的根源:人们用同一个词在讨论不同层面的问题,而大量二手解读甚至还停留在两年前的 multi-agent 虚拟团队概念里,离这三篇文章的实际内容更远。
这篇文章尝试提供一个统一框架来理清这些讨论。核心论点是:harness engineering 的本质是让 AI 构建软件变得 scalable,而 scalability 有三个独立的维度。三家各自解了其中一个。