Riset Cisco Menunjukkan Model AI Frontier Gagal di Bawah Serangan Multi-Turn

Riset Cisco Menunjukkan Model AI Frontier Gagal di Bawah Serangan Multi-Turn

Tim intelijen ancaman AI Cisco mengevaluasi 15 model flagship tertutup dari OpenAI, Anthropic, Google, Amazon, dan xAI, dan menemukan bahwa rangkaian serangan multi-turn mencapai tingkat bypass mekanisme keamanan hingga 88%.

According to the Cisco research blog, temuan ini bertentangan dengan klaim keamanan yang didasarkan pada tolok ukur satu prompt, yang oleh para peneliti dianggap secara struktural tidak memadai untuk menilai risiko di dunia nyata.

Apa yang Diuji Cisco

Tim merancang rangkaian serangan yang menyebarkan satu permintaan berbahaya ke beberapa giliran percakapan alih-alih menyampaikannya dalam satu prompt.

Pendekatan ini mengeksploitasi cara model menangani akumulasi konteks.

Sebuah model mungkin menolak satu permintaan yang jelas berbahaya. Model yang sama bisa saja menuruti ketika permintaan itu dipecah menjadi langkah-langkah bertahap dalam percakapan yang lebih panjang.

Cisco menguji semua 15 model menggunakan metodologi ini. Tidak ada satu pun model yang kebal. Tingkat keberhasilan bervariasi, tetapi setiap model dalam studi ini gagal pada ambang tertentu dari kecanggihan serangan.

Para peneliti tidak memublikasikan skor model per individu dalam posting blog publik. Mereka mengidentifikasi angka 88% sebagai tingkat keberhasilan tertinggi yang diamati di seluruh studi.

Latar Belakang

Evaluasi keamanan AI standar telah bergantung pada tolok ukur satu giliran (single-turn) setidaknya sejak 2020. Platform seperti MLCommons dan tim red-teaming pihak ketiga biasanya mengirim satu prompt dan menilai apakah model menolak. Pendekatan ini menjadi dasar diskusi regulasi di bawah EU AI Act dan perintah eksekutif era Biden tentang keamanan AI, yang keduanya merujuk kinerja benchmark sebagai sinyal kepatuhan. Riset Cisco menambah semakin banyak karya yang mempertanyakan apakah benchmark statis mencerminkan kondisi saat penerapan.

Laporan Yellow.com sebelumnya membahas bagaimana (see prior Yellow coverage) bahkan ketika tooling keamanan tertinggal dibanding pertumbuhan kapabilitas.

Makna Temuan Ini

Hasil Cisco memiliki implikasi langsung untuk penerapan di perusahaan. Perusahaan yang melisensikan model frontier berdasarkan skor keamanan yang dipublikasikan vendor mungkin beroperasi dengan rasa aman yang keliru.

Studi ini tidak menyerukan respons regulasi tertentu. Para peneliti merekomendasikan agar evaluasi keamanan menyertakan pengujian adversarial multi-turn sebagai persyaratan dasar.

OpenAI, Anthropic, dan Google belum merespons secara publik terhadap temuan Cisco sebelum laporan ini diterbitkan. Tidak ada patch atau pembaruan model yang diumumkan terkait dengan riset ini.

Baca Juga: Anthropic Cofounder Tells Pope AI Models Contain "Unsettling" Hidden Behaviors

Penafian dan Peringatan Risiko: Informasi yang diberikan dalam artikel ini hanya untuk tujuan edukasi dan informasi dan berdasarkan opini penulis. Ini tidak merupakan saran keuangan, investasi, hukum, atau pajak. Aset kripto sangat fluktuatif dan mengalami risiko tinggi, termasuk risiko kehilangan seluruh atau sebagian besar investasi Anda. Trading atau memegang aset kripto mungkin tidak cocok untuk semua investor. Pandangan yang dinyatakan dalam artikel ini adalah pandangan penulis saja dan tidak mewakili kebijakan resmi atau posisi Yellow, pendirinya, atau eksekutifnya. Selalu lakukan riset menyeluruh Anda sendiri (D.Y.O.R.) dan konsultasikan dengan profesional keuangan berlisensi sebelum membuat keputusan investasi apapun.
Riset Cisco Menunjukkan Model AI Frontier Gagal di Bawah Serangan Multi-Turn | Yellow.com