Cisco のAI脅威インテリジェンスチームは、OpenAI、Anthropic、Google、Amazon、xAI のクローズドなフラッグシップモデル15個を評価し、マルチターン攻撃シーケンスにより最大88%の安全性バイパス率が達成されることを明らかにした。
According to the Cisco research blog、この調査結果は単一プロンプトのベンチマークに基づく安全性の主張と矛盾しており、研究者らはそれらを「実世界のリスク評価には構造的に不十分」と評している。
シスコがテストした内容
チームは、有害なリクエストを1つのプロンプトでまとめて送るのではなく、複数回の会話ターンに分割して送信する攻撃シーケンスを設計した。
この手法は、モデルがコンテキストの蓄積をどのように処理するかを悪用するものである。
モデルは、明らかに有害な単一リクエストは拒否するかもしれない。しかし同じリクエストであっても、より長い対話の中で段階的なステップに分解されると、応じてしまう可能性がある。
シスコはこの手法を用いて15モデルすべてをテストした。無敵だったモデルは1つもなかった。成功率にはばらつきがあったものの、調査対象となったすべてのモデルが、ある程度以上に洗練された攻撃に対しては破られた。
研究者たちは、個々のモデルのスコアを一般公開のブログ記事では公表しなかった。調査全体で観測された中で最も高い成功率として、88%という数値のみを示している。
背景
標準的なAI安全性評価は、少なくとも2020年以降、単一ターンのベンチマークに依存してきた。MLCommons のようなプラットフォームやサードパーティのレッドチームは、通常1つのプロンプトを送信し、モデルが拒否するかどうかを評価する。この手法は、EU AI法やバイデン政権下のAI安全に関する大統領令における規制議論の基準となり、いずれもコンプライアンス判断のシグナルとしてベンチマーク性能を参照してきた。シスコの調査は、静的ベンチマークが実際の運用条件をどこまで反映しているかを疑問視する研究の蓄積に新たな証拠を加えるものである。
以前の Yellow.com の記事では、能力向上に対して安全性ツールの整備が遅れていること(see prior Yellow coverage)についても取り上げている。
調査結果が意味するもの
シスコの結果は、エンタープライズでの導入に直接的な影響を持つ。ベンダーが公表した安全スコアに基づいてフロンティアモデルをライセンスした企業は、自身が実際よりも安全だと誤解して運用している可能性がある。
本調査は、特定の規制対応を求めているわけではない。研究者らは、安全性評価においてマルチターンの敵対的テストを最低限の要件として組み込むことを推奨している。
OpenAI、Anthropic、Google は、この報告が公開されるまでにシスコの調査結果に対して公的なコメントを出していない。本調査と関連づけられたパッチやモデル更新も発表されていない。
Read Next: Anthropic Cofounder Tells Pope AI Models Contain "Unsettling" Hidden Behaviors





