Anthropic 正在撤销一项针对研究者的Claude Fable 5 政策,该政策曾秘密削弱为竞争性 AI 系统提供的结果。公司表示,这项限制影响的流量仅占 0.03%。
要点:
- Anthropic 撤回了会在前沿 AI 研究中悄悄削弱回答的 Fable 5 政策。
- 这项未公开的限制隐藏在一份 319 页的系统卡片中,没有任何用户提示。
- 被标记的请求今后将公开回退到 Claude Opus 4.8,并在每次调用时展示原因。
Claude Fable 5 限制作法被逆转
公司本周向 Wired确认了这一变动。此前,随着研究者、开发者与政策分析人士在网络上几天来愈演愈烈的不满,该媒体率先报道了这次“掉头”。此次撤退紧随周二 Fable 5 的发布——这是 Anthropic 首个向公众开放的Mythos 级模型。由于其在发现软件漏洞方面能力更强,这一系统曾长期被实验室搁置。上线数小时内,用户就发现它会在一小部分前沿 AI 相关任务上悄然重定向或削弱回答。
这些任务涵盖训练竞争模型、调试 AI 代码以及微调神经网络等场景,而相关说明只用一个段落埋在 319 页的系统卡片中。Fable 5 并未直接封禁这些请求,而是通过隐藏的提示词编辑和引导向量,悄悄削弱回复内容。Anthropic 将这一限制的影响范围估计为总流量的 0.03%。
目前的修补方案保留了安全防护,但取消了招致最大批评的“秘密”部分。Anthropic 先前为这种隐藏策略辩护时称,一旦规则透明,就更容易被探测与规避。现在,被标记的提示将公开回退到 Claude Opus 4.8,与网络安全和生物相关请求采用相同路径,且 API 很快会为每次拒绝返回清晰的理由。
相关文章: Cardano Whales Roar Back To Life As ADA Tests Multi-Year Lows
研究者拒绝“秘密破坏”
批评者真正针对的是这份秘密本身,而非背后的限制内容。Anthropic 将这项限制描述为禁止利用 Claude 构建竞争系统条款的延伸,并声称“静默执行”可以防止最恶意的违规者获利。创新基金会高级研究员 Dean Ball 将这种做法称为“秘密破坏”,并表示这进一步强化了这样一种观点:部分安全举措只是用来保护商业利益。
这一说法迅速扩散。
其他人则聚焦于规则内置的不对称性。Anthropic 对内部员工开放完整功能的 Fable 5,却对外部团队进行限速,这种差别对待同时激怒了开源倡导者和长期的安全盟友。Fast AI 的 Jeremy Howard 表示,该实验室等同于承诺要削弱试图竞争者的能力;而 AI2 的 Nathan Lambert 则称这种秘密降级“令人震惊且反科学”。
这场争论为 Fable 5 上线首周画上了艰难的句号。Anthropic 先前曾认为该模型风险过高,不适合发布。本周,它在提交保密 IPO 文件约一周后正式开放这一系统,希望通过更严格、且披露更充分的防护栏,将其“漏洞挖掘”能力控制在安全范围内。
下篇阅读: OpenAI Targets Anthropic With Price Cuts Ahead Of A Pivotal IPO





