Anthropic 撤销削弱竞争对手研究结果的 Claude Fable 5 规则

Anthropic 撤销削弱竞争对手研究结果的 Claude Fable 5 规则

Anthropic 正在撤销一项针对研究人员、会暗中削弱结果的 Claude Fable 5 policy 规则。该规则针对的是构建竞争性 AI 系统的研究者,请求虽被限制,但公司称只影响了 0.03% 的流量。

要点:

  • Anthropic 撤回了一项让 Fable 5 在前沿 AI 研究请求上“悄悄变弱”的策略。
  • 这一未公开的限制埋在一份 319 页的系统卡片中,并未向用户发出任何提示。
  • 未来被标记的请求将公开回退到 Claude Opus 4.8,并在每次请求中展示原因。

Claude Fable 5 限制被撤销

公司本周向 Wired confirmed 了这一变更;在此之前,研究者、开发者和政策分析人士在网上连日表达愤怒,Wired 率先报道了这次“掉头”。这一退让紧随周二 Fable 5 的发布——这是 Anthropic 首个面向公众的 Mythos-class model,此前实验室一直因其在发现软件缺陷方面的敏锐能力而迟迟未公开。上线数小时内,用户就发现它会在一小部分高级 AI 相关任务上悄悄重路由或削弱回答。

这些任务 covered 了训练竞争模型、调试 AI 代码、微调神经网络等场景,而相关说明只是一段埋藏在 319 页系统卡片中的文字。Fable 5 并未直接阻断这些请求,而是通过隐藏提示词编辑和“引导向量”来悄悄让回答变得迟钝,Anthropic 将其影响范围估算为仅占全部流量的 0.03%。

修复方案保留了安全防护,却去掉了最具争议的“秘密”部分。Anthropic 曾为这一隐形版本辩护,称公开的规则更容易被“对手”研究并绕过。现在,被标记的提示将公开回退到 Claude Opus 4.8,与处理网络安全和生物相关请求的路径相同;API 也将在不久后返回每次拒绝的明确原因。

延伸阅读: Cardano Whales Roar Back To Life As ADA Tests Multi-Year Lows

研究人员拒绝“秘密破坏”

批评者主要针对的是“秘而不宣”,而不是限制本身。Anthropic 把这项限制描绘成禁止利用 Claude 构建竞争系统条款的延伸,声称静默执行可以防止“最糟糕的违规者”借机获利。美国创新基金会高级研究员 Dean Ball 将这一做法称作“secret sabotage”,并表示这印证了一个观点:安全话语的一部分实际上是在保护商业利益。

这个说法迅速广为流传。

其他人则聚焦于这一规则中内嵌的不对称性。Anthropic 在内部员工使用时维持 Fable 5 的全部能力,却对外部团队实施“限流”,这种双重标准激怒了开源拥护者和不少原本亲近安全阵营的人士。Fast AI 的 Jeremy Howard 认为这一做法等同于实验室发誓要“压制”试图追赶的竞争者,而 AI2 的 Nathan Lambert 则在一篇文章中 called 这种隐形降级“令人震惊且反科学”。

这场风波为 Fable 5 上线的第一周蒙上了阴影——此前 Anthropic 一度评估该模型“风险过高而无法发布”。本周,在递交保密 IPO 文件大约一周后,公司最终批准其公开使用,押注于更严格、也更透明的安全护栏,来确保这款擅长挖掘漏洞的模型不会被滥用。

下篇阅读: OpenAI Targets Anthropic With Price Cuts Ahead Of A Pivotal IPO

免责声明和风险警告: 本文提供的信息仅用于教育和信息目的,基于作者的意见。它不构成财务、投资、法律或税务建议。 加密货币资产具有高度波动性并面临高风险,包括失去全部或大部分投资的风险。交易或持有加密资产可能不适合所有投资者。 本文表达的观点仅为作者的观点,不代表Yellow、其创始人或高管的官方政策或立场。 在做出任何投资决定之前,请务必进行自己的全面研究(D.Y.O.R.)并咨询持牌金融专业人士。
Anthropic 撤销削弱竞争对手研究结果的 Claude Fable 5 规则 | Yellow.com