Anthropic 撤回削弱竞争对手机构研究结果的 Claude Fable 5 规则

Anthropic 正在撤销一项针对研究者的Claude Fable 5 政策，该政策曾秘密削弱为竞争性 AI 系统提供的结果。公司表示，这项限制影响的流量仅占 0.03%。

要点：

Anthropic 撤回了会在前沿 AI 研究中悄悄削弱回答的 Fable 5 政策。

这项未公开的限制隐藏在一份 319 页的系统卡片中，没有任何用户提示。

被标记的请求今后将公开回退到 Claude Opus 4.8，并在每次调用时展示原因。

Claude Fable 5 限制作法被逆转

公司本周向 Wired确认了这一变动。此前，随着研究者、开发者与政策分析人士在网络上几天来愈演愈烈的不满，该媒体率先报道了这次“掉头”。此次撤退紧随周二 Fable 5 的发布——这是 Anthropic 首个向公众开放的Mythos 级模型。由于其在发现软件漏洞方面能力更强，这一系统曾长期被实验室搁置。上线数小时内，用户就发现它会在一小部分前沿 AI 相关任务上悄然重定向或削弱回答。

这些任务涵盖训练竞争模型、调试 AI 代码以及微调神经网络等场景，而相关说明只用一个段落埋在 319 页的系统卡片中。Fable 5 并未直接封禁这些请求，而是通过隐藏的提示词编辑和引导向量，悄悄削弱回复内容。Anthropic 将这一限制的影响范围估计为总流量的 0.03%。

目前的修补方案保留了安全防护，但取消了招致最大批评的“秘密”部分。Anthropic 先前为这种隐藏策略辩护时称，一旦规则透明，就更容易被探测与规避。现在，被标记的提示将公开回退到 Claude Opus 4.8，与网络安全和生物相关请求采用相同路径，且 API 很快会为每次拒绝返回清晰的理由。

研究者拒绝“秘密破坏”

批评者真正针对的是这份秘密本身，而非背后的限制内容。Anthropic 将这项限制描述为禁止利用 Claude 构建竞争系统条款的延伸，并声称“静默执行”可以防止最恶意的违规者获利。创新基金会高级研究员 Dean Ball 将这种做法称为“秘密破坏”，并表示这进一步强化了这样一种观点：部分安全举措只是用来保护商业利益。

这一说法迅速扩散。

其他人则聚焦于规则内置的不对称性。Anthropic 对内部员工开放完整功能的 Fable 5，却对外部团队进行限速，这种差别对待同时激怒了开源倡导者和长期的安全盟友。Fast AI 的 Jeremy Howard 表示，该实验室等同于承诺要削弱试图竞争者的能力；而 AI2 的 Nathan Lambert 则称这种秘密降级“令人震惊且反科学”。

这场争论为 Fable 5 上线首周画上了艰难的句号。Anthropic 先前曾认为该模型风险过高，不适合发布。本周，它在提交保密 IPO 文件约一周后正式开放这一系统，希望通过更严格、且披露更充分的防护栏，将其“漏洞挖掘”能力控制在安全范围内。

下篇阅读： OpenAI Targets Anthropic With Price Cuts Ahead Of A Pivotal IPO