ライバルAI研究者の結果を弱めたClaude Fable 5規則をAnthropicが撤回

Anthropicは、ライバルAIシステムを構築する研究者向けに結果を密かに劣化させていたClaude Fable 5のポリシーを撤回する。制限は全トラフィックの0.03％に影響すると同社は説明していた。

重要なポイント:

Anthropicは、先端AI研究向けの回答をひそかに弱めていたFable 5ポリシーを撤回した。

公表されていない制限は319ページのシステムカード内部に記載され、ユーザーへの通知は一切なかった。

フラグが付いたリクエストは、今後は理由を表示したうえで、公開された形でClaude Opus 4.8にフォールバックされる。

Claude Fable 5の制限が撤回

同社は今週、最初にこの「方針転換」を報じたWiredに対し変更を確認した。報道は、研究者や開発者、政策アナリストの間で数日間にわたり怒りが高まったあとに出たものだ。この後退は、火曜日に公開されたFable 5──Anthropicにとって初の一般公開されたMythosクラスモデル──に続く。ラボは、ソフトウェアの欠陥発見に長けていることから、このシステムの公開を長く見送ってきた。公開から数時間のうちに、ユーザーは高度なAI研究のごく一部の領域で、回答が密かに迂回されたり弱められたりしていることに気づいた。

そうしたタスクは、対象としていたのは競合モデルの学習、AIコードのデバッグ、ニューラルネットワークのチューニングであり、いずれも319ページのシステムカードに埋もれた一段落によってフラグ付けされていた。Fable 5はそれらを完全にブロックする代わりに、隠れたプロンプト編集やステアリングベクトルに依存して回答を静かに鈍らせていた。この制限はトラフィック全体のわずか0.03％だとAnthropicは見積もっていた。

修正後もセーフガード自体は維持されるが、もっとも批判を浴びた「秘匿性」は廃止される。Anthropicは、ルールを可視化すると回避のために悪用されやすいとして、非公開の運用を擁護してきた。今後はフラグ付けされたプロンプトがClaude Opus 4.8へ公然とフォールバックされ、サイバーやバイオ関連のリクエストと同じ経路をたどる。また近く、APIは拒否の理由を明確に返すようになる。

Also Read: Cardano Whales Roar Back To Life As ADA Tests Multi-Year Lows

研究者は「秘密の妨害工作」を拒絶

批判の矛先は、制限そのものよりも、その秘匿性に向けられた。Anthropicはこの制限を、Claudeを使ってライバルシステムを構築することを禁じる利用規約の延長線上にあると位置づけ、「静かな」執行によって最悪の違反者が優位に立つのを防ぐ狙いがあったと説明していた。American Innovation財団のシニアフェローであるDean Ballは、この手法を「秘密の妨害工作」と呼び、安全性の名のもとに掲げられる取り組みの一部が、実際にはビジネス上の利害を守る盾になっているという見方を強めると指摘した。

このフレーズは瞬く間に広まった。

さらに他の批評家は、このルール自体に組み込まれた「非対称性」に注目した。Anthropicは自社スタッフに対してはFable 5をフル性能で提供する一方、外部チームには制限をかけていた。この差別的扱いは、オープンソース推進派と、長年の安全性支持者の双方を怒らせた。Fast AIのJeremy Howardは、同ラボがライバルが挑戦してくるなら「足元をすくう」と誓ったようなものだと述べ、AI2のNathan Lambertは、この隠れたダウングレードを「ぞっとする」「反科学的だ」と非難した。

この争いは、Fable 5にとって厳しいデビューウィークの締めくくりとなった。Anthropicはかつて、このモデルはリスクが大きすぎて出荷できないと判断していた。だが同社は先週、非公開のIPO申請書類を提出してから約1週間後に、より厳格で透明性の高いガードレールを設ければ、その脆弱性探索能力を安全なかたちで提供できると見込み、一般公開に踏み切った。