Tim intelijen ancaman AI Cisco mengevaluasi 15 model flagship tertutup dari OpenAI, Anthropic, Google, Amazon, dan xAI, dan menemukan bahwa rangkaian serangan multi-turn mencapai tingkat bypass mekanisme keamanan hingga 88%.
According to the Cisco research blog, temuan ini bertentangan dengan klaim keamanan yang didasarkan pada tolok ukur satu prompt, yang oleh para peneliti dianggap secara struktural tidak memadai untuk menilai risiko di dunia nyata.
Apa yang Diuji Cisco
Tim merancang rangkaian serangan yang menyebarkan satu permintaan berbahaya ke beberapa giliran percakapan alih-alih menyampaikannya dalam satu prompt.
Pendekatan ini mengeksploitasi cara model menangani akumulasi konteks.
Sebuah model mungkin menolak satu permintaan yang jelas berbahaya. Model yang sama bisa saja menuruti ketika permintaan itu dipecah menjadi langkah-langkah bertahap dalam percakapan yang lebih panjang.
Cisco menguji semua 15 model menggunakan metodologi ini. Tidak ada satu pun model yang kebal. Tingkat keberhasilan bervariasi, tetapi setiap model dalam studi ini gagal pada ambang tertentu dari kecanggihan serangan.
Para peneliti tidak memublikasikan skor model per individu dalam posting blog publik. Mereka mengidentifikasi angka 88% sebagai tingkat keberhasilan tertinggi yang diamati di seluruh studi.
Latar Belakang
Evaluasi keamanan AI standar telah bergantung pada tolok ukur satu giliran (single-turn) setidaknya sejak 2020. Platform seperti MLCommons dan tim red-teaming pihak ketiga biasanya mengirim satu prompt dan menilai apakah model menolak. Pendekatan ini menjadi dasar diskusi regulasi di bawah EU AI Act dan perintah eksekutif era Biden tentang keamanan AI, yang keduanya merujuk kinerja benchmark sebagai sinyal kepatuhan. Riset Cisco menambah semakin banyak karya yang mempertanyakan apakah benchmark statis mencerminkan kondisi saat penerapan.
Laporan Yellow.com sebelumnya membahas bagaimana (see prior Yellow coverage) bahkan ketika tooling keamanan tertinggal dibanding pertumbuhan kapabilitas.
Makna Temuan Ini
Hasil Cisco memiliki implikasi langsung untuk penerapan di perusahaan. Perusahaan yang melisensikan model frontier berdasarkan skor keamanan yang dipublikasikan vendor mungkin beroperasi dengan rasa aman yang keliru.
Studi ini tidak menyerukan respons regulasi tertentu. Para peneliti merekomendasikan agar evaluasi keamanan menyertakan pengujian adversarial multi-turn sebagai persyaratan dasar.
OpenAI, Anthropic, dan Google belum merespons secara publik terhadap temuan Cisco sebelum laporan ini diterbitkan. Tidak ada patch atau pembaruan model yang diumumkan terkait dengan riset ini.
Baca Juga: Anthropic Cofounder Tells Pope AI Models Contain "Unsettling" Hidden Behaviors





