Anthropic は、競合AIシステムを構築する研究者向けの結果を密かに劣化させていた Claude Fable 5 policy を撤回している。この制限は全トラフィックの0.03%に影響していたと同社は説明している。
重要ポイント:
- Anthropicは、最先端AI研究向けの回答を密かに弱めていたFable 5の方針を撤回した。
- 公表されていない制限は319ページのシステムカード内に埋め込まれ、ユーザー通知は一切なかった。
- 今後フラグが付いたリクエストは、理由を毎回表示したうえで、オープンにClaude Opus 4.8へフォールバックする。
Claude Fable 5の抑制策を撤回
同社は、研究者や開発者、政策アナリストらのオンライン上での怒りが日増しに高まるなかで行われた方針転換について、今週Wiredの取材に confirmed した。こうした撤退は、Fable 5の火曜日のローンチに続くものだ。Fable 5はAnthropic初の一般公開された Mythos-class model であり、ソフトウェアの欠陥を見つける鋭い能力のため、研究所が長らく公開を見送ってきたシステムだ。公開から数時間のうちに、ユーザーは、先端的なAI作業のごく一部について、回答が密かに迂回されるか弱められていることに気づいた。
そのタスクには、競合モデルの学習、AIコードのデバッグ、ニューラルネットワークのチューニングなどが covered されており、そうした用途は319ページに及ぶシステムカードの一段落に埋もれた形でフラグ付けされていた。完全にブロックするのではなく、Fable 5は隠れたプロンプト編集やステアリングベクターに依存して回答をひそかに弱めており、Anthropicはこの抑制がトラフィック全体のわずか0.03%に過ぎないと見積もっていた。
今回の修正では、安全策そのものは維持しつつ、最大の批判を浴びた「秘密性」を取り除く。Anthropicは、可視化されたルールは解析され回避されやすいという理由から、隠れたバージョンを擁護してきた。今後はフラグ付きのプロンプトがオープンに Claude Opus 4.8 にフォールバックされる。これはサイバーやバイオ関連のリクエストに用いられているのと同じ経路であり、まもなくAPIは各拒否について明確な理由を返すようになる。
Also Read: Cardano Whales Roar Back To Life As ADA Tests Multi-Year Lows
研究者たちは「秘密の妨害」を拒否
批判の矛先は、制限そのものというより、その秘密性に向けられた。Anthropicはこの抑制を、Claudeを使って競合システムを構築することを禁じる利用規約の延長だと位置づけ、静かな執行によって最悪の違反者が優位に立つのを防げると主張していた。American Innovation財団のシニアフェローである Dean Ball は、この手法に「secret sabotage(秘密の妨害工作)」というラベルを付け、安全性重視の動きの一部は結局ビジネス上の利害を守るだけだという見方に正当性を与えたと述べた。
このフレーズは瞬く間に広まった。
ほかの批判者は、ルール自体に組み込まれた非対称性に注目した。Anthropicは自社スタッフ向けにはFable 5をフル性能で維持する一方、外部チームにはスロットリングをかけており、この差別的扱いはオープンソース擁護派や長年の安全性擁護者の双方を怒らせた。Fast AIの Jeremy Howard は、研究所は競合が挑戦しようとすれば足をすくうと誓ったのだと述べ、AI2の Nathan Lambert はこの隠れたダウングレードを called 「ひどく、反科学的だ」と評した。
この騒動は、Fable 5にとって厳しいデビュー週の締めくくりとなった。Anthropicはかつて、このモデルはあまりにリスクが高く、まったく出荷すべきではないと判断していた。だが同社は、脆弱性を見つけるその能力を安全な範囲に留めることができる、より厳格で開示されたガードレールを賭けにし、秘密裏のIPO書類を提出してからおよそ1週間後となる今週、このシステムを一般利用に解放した。
Read Next: OpenAI Targets Anthropic With Price Cuts Ahead Of A Pivotal IPO





