Anthropic 正在撤销一项针对研究人员、会暗中削弱结果的 Claude Fable 5 policy 规则。该规则针对的是构建竞争性 AI 系统的研究者,请求虽被限制,但公司称只影响了 0.03% 的流量。
要点:
- Anthropic 撤回了一项让 Fable 5 在前沿 AI 研究请求上“悄悄变弱”的策略。
- 这一未公开的限制埋在一份 319 页的系统卡片中,并未向用户发出任何提示。
- 未来被标记的请求将公开回退到 Claude Opus 4.8,并在每次请求中展示原因。
Claude Fable 5 限制被撤销
公司本周向 Wired confirmed 了这一变更;在此之前,研究者、开发者和政策分析人士在网上连日表达愤怒,Wired 率先报道了这次“掉头”。这一退让紧随周二 Fable 5 的发布——这是 Anthropic 首个面向公众的 Mythos-class model,此前实验室一直因其在发现软件缺陷方面的敏锐能力而迟迟未公开。上线数小时内,用户就发现它会在一小部分高级 AI 相关任务上悄悄重路由或削弱回答。
这些任务 covered 了训练竞争模型、调试 AI 代码、微调神经网络等场景,而相关说明只是一段埋藏在 319 页系统卡片中的文字。Fable 5 并未直接阻断这些请求,而是通过隐藏提示词编辑和“引导向量”来悄悄让回答变得迟钝,Anthropic 将其影响范围估算为仅占全部流量的 0.03%。
修复方案保留了安全防护,却去掉了最具争议的“秘密”部分。Anthropic 曾为这一隐形版本辩护,称公开的规则更容易被“对手”研究并绕过。现在,被标记的提示将公开回退到 Claude Opus 4.8,与处理网络安全和生物相关请求的路径相同;API 也将在不久后返回每次拒绝的明确原因。
延伸阅读: Cardano Whales Roar Back To Life As ADA Tests Multi-Year Lows
研究人员拒绝“秘密破坏”
批评者主要针对的是“秘而不宣”,而不是限制本身。Anthropic 把这项限制描绘成禁止利用 Claude 构建竞争系统条款的延伸,声称静默执行可以防止“最糟糕的违规者”借机获利。美国创新基金会高级研究员 Dean Ball 将这一做法称作“secret sabotage”,并表示这印证了一个观点:安全话语的一部分实际上是在保护商业利益。
这个说法迅速广为流传。
其他人则聚焦于这一规则中内嵌的不对称性。Anthropic 在内部员工使用时维持 Fable 5 的全部能力,却对外部团队实施“限流”,这种双重标准激怒了开源拥护者和不少原本亲近安全阵营的人士。Fast AI 的 Jeremy Howard 认为这一做法等同于实验室发誓要“压制”试图追赶的竞争者,而 AI2 的 Nathan Lambert 则在一篇文章中 called 这种隐形降级“令人震惊且反科学”。
这场风波为 Fable 5 上线的第一周蒙上了阴影——此前 Anthropic 一度评估该模型“风险过高而无法发布”。本周,在递交保密 IPO 文件大约一周后,公司最终批准其公开使用,押注于更严格、也更透明的安全护栏,来确保这款擅长挖掘漏洞的模型不会被滥用。
下篇阅读: OpenAI Targets Anthropic With Price Cuts Ahead Of A Pivotal IPO





