CiscoのAI脅威インテリジェンスチームは、OpenAI、Anthropic、Google、Amazon、xAIの15個のクローズドな旗艦モデルを評価し、マルチターンの攻撃シーケンスによって最大88%という高い確率で安全策が回避されることを明らかにした。
According to the Cisco research blog、この結果は単一プロンプトのベンチマークに基づく安全性の主張と矛盾しており、研究チームはそれらを実世界のリスクを評価するには構造的に不十分だと述べている。
Ciscoがテストした内容
チームは、有害なリクエストを単一のプロンプトとして出すのではなく、複数の会話ターンに分散させる攻撃シーケンスを設計した。
この手法は、モデルがコンテキストの蓄積をどのように処理するかを悪用する。
モデルは、明らかに有害な単発のリクエストは拒否するかもしれない。しかし同じ内容でも、より長いやり取りの中で小さなステップに分割されると、応じてしまう場合がある。
Ciscoはこの方法論を用いて15モデルすべてをテストした。完全に安全なモデルは存在せず、成功率には差があったものの、研究対象となったすべてのモデルが、攻撃の洗練度が一定の閾値を超えたところで破られた。
研究者たちは、個々のモデルのスコアを公開ブログ記事では公表しなかった。観測された中で最も高い成功率として88%という数字だけを示している。
背景
標準的なAI安全評価は、少なくとも2020年以降、単一ターンのベンチマークに依存してきた。MLCommonsのようなプラットフォームやサードパーティのレッドチームは、通常は1つのプロンプトを送信し、モデルが拒否するかどうかを評価する。このアプローチは、EU AI法やバイデン政権期のAI安全に関する大統領令における規制議論の基準となり、いずれもベンチマークのパフォーマンスを順守のシグナルとして参照してきた。Ciscoの研究は、静的なベンチマークが実際の運用環境を反映しているのかという疑問を投げかける研究の流れに、新たな証拠を追加するものだ。
以前のYellow.comの記事では、(see prior Yellow coverage)安全ツールの整備が能力の成長に追いついていない実態についても取り上げている。
調査結果の意味するもの
Ciscoの結果は、エンタープライズでの導入に直接的な影響を及ぼす。ベンダーが公表した安全スコアを根拠に最前線モデルをライセンスしている企業は、自らが思っているほど保護されていない可能性がある。
本研究は、特定の規制措置を求めているわけではない。研究者たちは、安全評価の基準として、マルチターンの敵対的テストを必須要件に含めることを推奨している。
OpenAI、Anthropic、Googleは、この報告が公開されるまでにCiscoの調査結果に対する公的なコメントを出していない。本研究に関連してパッチやモデルのアップデートも発表されていない。
続きを読む: Anthropic Cofounder Tells Pope AI Models Contain "Unsettling" Hidden Behaviors





