Claude Fable 5のコーディング低下はモデル劣化ではなくルーター問題を示唆

Claude Fable 5 は7月1日に復帰しましたが、ユーザーからは鋭い批判が相次ぎました。一方でベンチマークデータは、モデルの弱体化というより、Anthropic のより厳格なルーターが原因であることを示しています。

重要ポイント

BridgeBenchは、ほとんどのデバッグタスクがモデルから外されてルーティングされたことで、Fable 5のコーディングスコアが崩壊したと報告した。

Arena.AIは、文書やエキスパートテキストのカテゴリでの向上を含め、ブラインドな人間の選好評価では概ね安定した結果を確認した。

開発者は、日常的なデバッグプロンプトでも新しい分類器が作動し得るため、もっとも大きな混乱に直面している。

Fable 5 のルーティング

Claude Fable 5は再導入後の7月1日にオンラインへ復帰し、X上のユーザーはすぐに、以前より壊れている、ナーフされた、能力が落ちた、といった評価を下しました。この見方をもっとも強く裏付けたのが、再導入版に対してBridgeBenchコーディングスイートを再実行した BridgeMind の報告でした。

結果は深刻に見えました。デバッグは86.2から25.9へ、リファクタリングは73.6から38.4へ低下し、幻覚耐性も75.9から61.7へと下がりました。

しかしこれらの数値は、モデルレベルでの明確な崩壊を示すものではありません。というのも、BridgeBenchによると、12件のTypeScriptデバッグタスクのうち、実際にFable 5に届いたのは3件だけだったからです。残りの9件はAnthropicの新しい安全性分類器によって遮断され、Claude Opus 4.8へ送られました。評価対象モデルが回答していないため、それぞれのフォールバックにはゼロ点が付けられました。

Anthropic の分類器

Arena.AI は異なる結論に達しました。同社はテキスト、ビジョン、文書、コード、エージェントタスクを含む、より幅広いプロンプトに対するブラインドな人間の選好を測定したためです。初期データでは、Fable 5は6月版と比べてほぼ安定した性能を保っていると示されました。

フロントエンドコードはElo 1650から1623へわずかに低下しましたが、これは投票数が蓄積される間の信頼区間内に収まるとArenaは説明しました。文書タスクの性能は34ポイント上昇し、エキスパートテキストは25ポイント、クリエイティブライティングは9ポイント向上しました。

これらの分割結果は、「プロンプトさえ届けば、Fable 5は依然としてFable 5として動作している」ことを示唆します。問題は、セキュリティ寄りのコーディング作業が、モデルが応答する前に迂回させられ得る点であり、とくにプロンプトに「vulnerability（脆弱性）」「exploit」「hook」「fix」といった語が含まれる場合に顕著です。

Anthropicは、新しい分類器が通常のコーディングやデバッグ作業に対しても誤検知を生むことを認めています。同社は時間をかけてシステムを洗練させると述べていますが、目標時期は明らかにしていません。

現在の仕組みは、より広範な安全性を巡る論争を受けたものです。Amazon の研究者が、Fable 5にソフトウェアの脆弱性を特定・実演させる「脱獄」手法を報告したためです。Anthropicの回答はきわめて保守的な分類器であり、いまや本来検出対象だった危険なプロンプト以上の範囲をブロックしているように見えます。

次に読む: Trumpは14億ドルの暗号収入について知らなかったと発言

Claude Fable 5のコーディング低下は モデル劣化ではなくルーター問題を示唆

重要ポイント

Fable 5 のルーティング

Anthropic の分類器

Claude Fable 5のコーディング低下はモデル劣化ではなくルーター問題を示唆