Cisco Research Menunjukkan Model AI Frontier Gagal di Bawah Serangan Multi-Giliran

Tim intelijen ancaman AI Cisco mengevaluasi 15 model tertutup andalan dari OpenAI, Anthropic, Google, Amazon, dan xAI, dan menemukan bahwa rangkaian serangan multi-giliran mencapai tingkat bypass keamanan hingga 88%.

According to the Cisco research blog, temuan ini bertentangan dengan klaim keamanan yang didasarkan pada tolok ukur satu prompt, yang oleh para peneliti digambarkan secara struktural tidak memadai untuk menilai risiko di dunia nyata.

Apa yang Diuji Cisco

Tim merancang rangkaian serangan yang menyebarkan permintaan berbahaya ke beberapa giliran percakapan alih-alih menyampaikannya dalam satu prompt.

Pendekatan ini mengeksploitasi cara model menangani akumulasi konteks.

Sebuah model mungkin menolak satu permintaan berbahaya yang jelas. Model yang sama bisa saja mematuhi ketika permintaan tersebut dipecah menjadi langkah-langkah inkremental dalam percakapan yang lebih panjang.

Cisco menguji semua 15 model menggunakan metodologi ini. Tidak ada model yang terbukti kebal. Tingkat keberhasilan bervariasi, tetapi setiap model dalam studi ini gagal pada ambang tertentu dari kecanggihan serangan.

Para peneliti tidak memublikasikan skor model individual dalam posting blog publik. Mereka mengidentifikasi angka 88% sebagai tingkat keberhasilan tertinggi yang diamati dalam studi tersebut.

Latar Belakang

Evaluasi keamanan AI standar telah bergantung pada tolok ukur satu giliran setidaknya sejak 2020. Platform seperti MLCommons dan tim red eksternal biasanya mengirimkan satu prompt dan menilai apakah model menolak. Pendekatan ini menjadi dasar pembahasan regulasi di bawah EU AI Act dan perintah eksekutif era Biden tentang keamanan AI, yang keduanya merujuk pada kinerja benchmark sebagai sinyal kepatuhan. Riset Cisco menambah semakin banyak karya yang mempertanyakan apakah benchmark statis mencerminkan kondisi saat penerapan.

Laporan Yellow.com sebelumnya membahas bagaimana (see prior Yellow coverage) bahkan ketika perangkat keamanan tertinggal dari pertumbuhan kapabilitas.

Makna Temuan Ini

Hasil Cisco memiliki implikasi langsung bagi penerapan di perusahaan. Perusahaan yang melisensikan model frontier berdasarkan skor keamanan yang dipublikasikan vendor mungkin beroperasi dengan rasa perlindungan yang keliru.

Studi ini tidak menyerukan respons regulasi spesifik apa pun. Para peneliti merekomendasikan agar evaluasi keamanan mencakup pengujian adversarial multi-giliran sebagai persyaratan dasar.

OpenAI, Anthropic, dan Google tidak merespons secara publik terhadap temuan Cisco sebelum laporan ini diterbitkan. Tidak ada patch atau pembaruan model yang diumumkan sehubungan dengan riset tersebut.

Baca Selanjutnya: Anthropic Cofounder Tells Pope AI Models Contain "Unsettling" Hidden Behaviors