DC娱乐网

【从 Opus 4.6 到 4.7:窥见 Anthropic 的 AI 治理雄心

【从 Opus 4.6 到 4.7:窥见 Anthropic 的 AI 治理雄心与现实困境】

Anthropic 是目前主流 AI 实验室中,唯一坚持公开其用户端系统提示词(System Prompt)的历史记录。这不仅是一份说明书,更是 AI 进化的“数字宪法”。随着 Opus 4.7 的发布,Simon Willison 通过 Git 历史对比,为我们揭示了 Claude 在行为模式和安全边界上的重大转向。

以下是本次更新的核心要点与深度洞察:

1. 行为逻辑的剧变:从“多问”转向“直做”

在 4.7 版本中,新增了 acting_vs_clarifying 标签。指令明确要求:当用户请求细节模糊时,Claude 应当直接尝试,而不是先进行“面试式”的询问。

这一改变在开发者社区引发了巨大争议。
支持者认为:AI 变得更干练,减少了沟通摩擦。
反对者则感叹:AI 变得更武断,经常在错误的假设下狂奔。
深度思考:这反映了产品逻辑从“对话助手”向“执行代理”的跨越。但当 AI 失去谦逊的询问,它也可能失去对复杂意图的精准捕捉。正如金句所言:平庸的执行往往始于自以为是的理解。

2. 安全边界的“颗粒度”进化

更新中加入了专门的 critical_child_safety_instructions 标签。一个关键细节是:一旦触发儿童安全拒绝,后续所有对话都必须进入“极端谨慎”模式。

此外,新增了关于“进食障碍(Disordered Eating)”的专项保护。Claude 被禁止为表现出相关倾向的用户提供精确的营养、饮食或运动计划。
洞察:AI 的安全护栏正在从宽泛的“不作恶”,细化到对特定心理健康风险的干预。但这同时也引发了关于“数字家长主义”的讨论:每一份保护的背后,都是一部分用户自主权的让步。

3. “恶意软件偏执症”与对齐过载

尽管提示词中关于恶意软件的描述变动不大,但大量 4.7 用户反馈模型出现了严重的“偏执”。即使是正常的财务数据分析或代码重构,也常被误判为网络安全风险。

有用户发现,模型在调用工具前会花费大量 Token 思考该行为是否涉及恶意软件。
深度思考:当安全指令与模型权重产生共振,AI 可能会陷入“防御性罢工”。如果对齐(Alignment)的代价是让合法工具失效,那么这种对齐本身就面临失衡。

4. 消失的“政治补丁”

在 4.6 版本中,提示词曾硬编码确认特朗普的总统身份,以对冲模型知识切断点的滞后。而在 4.7 中,随着知识截止日期更新至 2026 年 1 月,这些补丁已被移除。

这标志着模型终于在时政认知上实现了“自给自足”,不再依赖临时的系统补丁。

5. 隐形的“提示词税”

据推测,Claude 的系统提示词规模已接近 8 万 Token。这意味着用户每次输入前,都已经预支了约 10% 的上下文空间。

这是一种昂贵的治理方式。为了让 AI 表现得像个“文明人”,厂商不得不让它背诵一整部法律典籍。
金句:AI 的智慧往往被锁在规训的铁笼里,而用户正在为这只铁笼的重量买单。

6. 拒绝“是非题”的陷阱

针对常见的“截图攻击”(迫使 AI 对争议话题简单回答是或否),4.7 明确授权 Claude 可以拒绝简单回答,转而提供更具深度和平衡性的叙述。


Opus 4.7 的提示词更新展现了一个更加果断、但也更加敏感的 Claude。它试图在“高效执行”与“绝对安全”之间走钢丝。

对于深度用户而言,了解这些底层逻辑至关重要。如果你发现 Claude 变得难以沟通,或许不是它变笨了,而是它正在严格执行那份长达数万字的“行为准则”。

AI 不只是工具,它是人类价值观的镜像。当我们试图修剪它的枝叶,我们也在定义我们想要的未来。

simonwillison.net/2026/Apr/18/opus-system-prompt/