【从 Opus 4.6 到 4.7：窥见 Anthropic 的 AI 治理雄心

【从 Opus 4.6 到 4.7：窥见 Anthropic 的 AI 治理雄心与现实困境】

Anthropic 是目前主流 AI 实验室中，唯一坚持公开其用户端系统提示词（System Prompt）的历史记录。这不仅是一份说明书，更是 AI 进化的“数字宪法”。随着 Opus 4.7 的发布，Simon Willison 通过 Git 历史对比，为我们揭示了 Claude 在行为模式和安全边界上的重大转向。

以下是本次更新的核心要点与深度洞察：

1. 行为逻辑的剧变：从“多问”转向“直做”

在 4.7 版本中，新增了 acting_vs_clarifying 标签。指令明确要求：当用户请求细节模糊时，Claude 应当直接尝试，而不是先进行“面试式”的询问。

这一改变在开发者社区引发了巨大争议。
支持者认为：AI 变得更干练，减少了沟通摩擦。
反对者则感叹：AI 变得更武断，经常在错误的假设下狂奔。
深度思考：这反映了产品逻辑从“对话助手”向“执行代理”的跨越。但当 AI 失去谦逊的询问，它也可能失去对复杂意图的精准捕捉。正如金句所言：平庸的执行往往始于自以为是的理解。

2. 安全边界的“颗粒度”进化

更新中加入了专门的 critical_child_safety_instructions 标签。一个关键细节是：一旦触发儿童安全拒绝，后续所有对话都必须进入“极端谨慎”模式。

此外，新增了关于“进食障碍（Disordered Eating）”的专项保护。Claude 被禁止为表现出相关倾向的用户提供精确的营养、饮食或运动计划。
洞察：AI 的安全护栏正在从宽泛的“不作恶”，细化到对特定心理健康风险的干预。但这同时也引发了关于“数字家长主义”的讨论：每一份保护的背后，都是一部分用户自主权的让步。

3. “恶意软件偏执症”与对齐过载

尽管提示词中关于恶意软件的描述变动不大，但大量 4.7 用户反馈模型出现了严重的“偏执”。即使是正常的财务数据分析或代码重构，也常被误判为网络安全风险。

有用户发现，模型在调用工具前会花费大量 Token 思考该行为是否涉及恶意软件。
深度思考：当安全指令与模型权重产生共振，AI 可能会陷入“防御性罢工”。如果对齐（Alignment）的代价是让合法工具失效，那么这种对齐本身就面临失衡。

4. 消失的“政治补丁”

在 4.6 版本中，提示词曾硬编码确认特朗普的总统身份，以对冲模型知识切断点的滞后。而在 4.7 中，随着知识截止日期更新至 2026 年 1 月，这些补丁已被移除。

这标志着模型终于在时政认知上实现了“自给自足”，不再依赖临时的系统补丁。

5. 隐形的“提示词税”

据推测，Claude 的系统提示词规模已接近 8 万 Token。这意味着用户每次输入前，都已经预支了约 10% 的上下文空间。

这是一种昂贵的治理方式。为了让 AI 表现得像个“文明人”，厂商不得不让它背诵一整部法律典籍。
金句：AI 的智慧往往被锁在规训的铁笼里，而用户正在为这只铁笼的重量买单。

6. 拒绝“是非题”的陷阱

针对常见的“截图攻击”（迫使 AI 对争议话题简单回答是或否），4.7 明确授权 Claude 可以拒绝简单回答，转而提供更具深度和平衡性的叙述。

Opus 4.7 的提示词更新展现了一个更加果断、但也更加敏感的 Claude。它试图在“高效执行”与“绝对安全”之间走钢丝。

对于深度用户而言，了解这些底层逻辑至关重要。如果你发现 Claude 变得难以沟通，或许不是它变笨了，而是它正在严格执行那份长达数万字的“行为准则”。

AI 不只是工具，它是人类价值观的镜像。当我们试图修剪它的枝叶，我们也在定义我们想要的未来。

simonwillison.net/2026/Apr/18/opus-system-prompt/

DC娱乐网

【从 Opus 4.6 到 4.7：窥见 Anthropic 的 AI 治理雄心

热门分类