Cisco araştırması, çok turlu saldırılarda sınır yapay zeka modellerinin başarısız olduğunu gösteriyor

Cisco'nun yapay zeka tehdit istihbarat ekibi, OpenAI, Anthropic, Google, Amazon ve xAI'den 15 kapalı, amiral gemisi modeli değerlendirdi ve çok turlu saldırı dizilerinin %88'e varan oranlarda güvenlik önlemlerini aşabildiğini buldu.

According to the Cisco research blog, bulgular, araştırmacıların gerçek dünya riskini değerlendirmek için yapısal olarak yetersiz gördüğü tek istemli kıyaslamalara dayalı güvenlik iddialarıyla çelişiyor.

Cisco Ne Test Etti?

Ekip, zararlı bir isteği tek bir istemde vermek yerine, çoklu sohbet turlarına yayacak şekilde tasarlanmış saldırı dizileri geliştirdi.

Bu yaklaşım, modellerin bağlam birikimini nasıl ele aldığından yararlanıyor.

Bir model, açıkça zararlı tek bir isteği reddedebilir. Aynı model, bu istek daha uzun bir diyalog boyunca artımlı adımlara bölündüğünde, buna uyum gösterebilir.

Cisco, tüm 15 modeli bu metodolojiyi kullanarak test etti. Hiçbir model bağışık çıkmadı. Başarı oranları değişse de, çalışmadaki her model, belirli bir saldırı karmaşıklığı eşiğinde başarısız oldu.

Araştırmacılar, tek tek modellerin puanlarını halka açık blog yazısında paylaşmadı. Çalışma genelindeki en yüksek başarı oranı olarak %88 rakamını belirttiler.

Arka Plan

Standart yapay zeka güvenlik değerlendirmeleri en az 2020'den bu yana tek turlu kıyaslamalara dayanıyor. MLCommons gibi platformlar ve üçüncü taraf kırmızı ekipler, tipik olarak tek bir istem gönderip modelin reddedip reddetmediğini değerlendiriyor. Bu yaklaşım, AB Yapay Zeka Yasası ve Biden dönemi yapay zeka güvenliği başkanlık kararnamesi kapsamındaki düzenleyici tartışmalar için temel haline geldi; her ikisi de uyumluluk göstergesi olarak kıyaslama performansına atıfta bulunuyor. Cisco'nun araştırması, statik kıyaslamaların gerçek dağıtım koşullarını yansıtıp yansıtmadığına dair artan sorgulamalara katkıda bulunuyor.

Daha önceki bir Yellow.com haberi, güvenlik araçları yetenek artışının gerisinde kalırken (see prior Yellow coverage) bunun nasıl sorun yarattığını ele almıştı.

Bulgular Ne Anlama Geliyor?

Cisco'nun sonuçları, kurumsal uygulamalar için doğrudan sonuçlar taşıyor. Tedarikçi tarafından yayımlanan güvenlik puanlarına dayanarak sınır modelleri lisanslayan şirketler, gerçekte olduğundan daha korunaklı oldukları yanılgısı altında olabilir.

Çalışma, belirli bir düzenleyici müdahale çağrısında bulunmuyor. Araştırmacılar, güvenlik değerlendirmelerine temel gereklilik olarak çok turlu adversaryal testlerin dahil edilmesini öneriyor.

OpenAI, Anthropic ve Google, bu rapor yayımlanmadan önce Cisco bulgularına kamuya açık bir yanıt vermedi. Araştırmayla bağlantılı herhangi bir yama veya model güncellemesi duyurulmadı.

Sıradaki Haber: Anthropic Cofounder Tells Pope AI Models Contain "Unsettling" Hidden Behaviors