Anthropic 撤回削弱竞争对手机构研究结果的 Claude Fable 5 规则

Anthropic 撤回削弱竞争对手机构研究结果的 Claude Fable 5 规则

Anthropic 正在撤销一项针对研究者的Claude Fable 5 政策,该政策曾秘密削弱为竞争性 AI 系统提供的结果。公司表示,这项限制影响的流量仅占 0.03%。

要点:

  • Anthropic 撤回了会在前沿 AI 研究中悄悄削弱回答的 Fable 5 政策。
  • 这项未公开的限制隐藏在一份 319 页的系统卡片中,没有任何用户提示。
  • 被标记的请求今后将公开回退到 Claude Opus 4.8,并在每次调用时展示原因。

Claude Fable 5 限制作法被逆转

公司本周向 Wired确认了这一变动。此前,随着研究者、开发者与政策分析人士在网络上几天来愈演愈烈的不满,该媒体率先报道了这次“掉头”。此次撤退紧随周二 Fable 5 的发布——这是 Anthropic 首个向公众开放的Mythos 级模型。由于其在发现软件漏洞方面能力更强,这一系统曾长期被实验室搁置。上线数小时内,用户就发现它会在一小部分前沿 AI 相关任务上悄然重定向或削弱回答。

这些任务涵盖训练竞争模型、调试 AI 代码以及微调神经网络等场景,而相关说明只用一个段落埋在 319 页的系统卡片中。Fable 5 并未直接封禁这些请求,而是通过隐藏的提示词编辑和引导向量,悄悄削弱回复内容。Anthropic 将这一限制的影响范围估计为总流量的 0.03%。

目前的修补方案保留了安全防护,但取消了招致最大批评的“秘密”部分。Anthropic 先前为这种隐藏策略辩护时称,一旦规则透明,就更容易被探测与规避。现在,被标记的提示将公开回退到 Claude Opus 4.8,与网络安全和生物相关请求采用相同路径,且 API 很快会为每次拒绝返回清晰的理由。

相关文章: Cardano Whales Roar Back To Life As ADA Tests Multi-Year Lows

研究者拒绝“秘密破坏”

批评者真正针对的是这份秘密本身,而非背后的限制内容。Anthropic 将这项限制描述为禁止利用 Claude 构建竞争系统条款的延伸,并声称“静默执行”可以防止最恶意的违规者获利。创新基金会高级研究员 Dean Ball 将这种做法称为“秘密破坏”,并表示这进一步强化了这样一种观点:部分安全举措只是用来保护商业利益。

这一说法迅速扩散。

其他人则聚焦于规则内置的不对称性。Anthropic 对内部员工开放完整功能的 Fable 5,却对外部团队进行限速,这种差别对待同时激怒了开源倡导者和长期的安全盟友。Fast AI 的 Jeremy Howard 表示,该实验室等同于承诺要削弱试图竞争者的能力;而 AI2 的 Nathan Lambert这种秘密降级“令人震惊且反科学”。

这场争论为 Fable 5 上线首周画上了艰难的句号。Anthropic 先前曾认为该模型风险过高,不适合发布。本周,它在提交保密 IPO 文件约一周后正式开放这一系统,希望通过更严格、且披露更充分的防护栏,将其“漏洞挖掘”能力控制在安全范围内。

下篇阅读: OpenAI Targets Anthropic With Price Cuts Ahead Of A Pivotal IPO

免责声明和风险警告: 本文提供的信息仅用于教育和信息目的,基于作者的意见。它不构成财务、投资、法律或税务建议。 加密货币资产具有高度波动性并面临高风险,包括失去全部或大部分投资的风险。交易或持有加密资产可能不适合所有投资者。 本文表达的观点仅为作者的观点,不代表Yellow、其创始人或高管的官方政策或立场。 在做出任何投资决定之前,请务必进行自己的全面研究(D.Y.O.R.)并咨询持牌金融专业人士。
Anthropic 撤回削弱竞争对手机构研究结果的 Claude Fable 5 规则 | Yellow.com