Cisco'nun yapay zekâ tehdit istihbaratı ekibi, OpenAI, Anthropic, Google, Amazon ve xAI'den 15 kapalı amiral gemisi modeli değerlendirdi ve çok turlu saldırı dizilerinin güvenlik atlatma oranlarını %88'e kadar çıkardığını tespit etti.
According to the Cisco research blog, bulgular, araştırmacıların gerçek dünya riskini değerlendirmek için yapısal olarak yetersiz olarak tanımladığı tek istemli kıyaslamalara dayanan güvenlik iddialarıyla çelişiyor.
Cisco Neyi Test Etti?
Ekip, zararlı bir isteği tek bir istemde vermek yerine, birden fazla konuşma turuna yayan saldırı dizileri tasarladı.
Bu yaklaşım, modellerin bağlam birikimini nasıl ele aldığından yararlanıyor.
Bir model, açıkça zararlı olan tek bir isteği reddedebilir. Aynı model, bu isteğin daha uzun bir diyalog boyunca artımlı adımlara bölünmesi durumunda uyum sağlayabilir.
Cisco, tüm 15 modeli bu metodolojiyi kullanarak test etti. Hiçbir model bağışık çıkmadı. Başarı oranları değişiklik gösterdi, ancak çalışmadaki her model belirli bir saldırı karmaşıklığı eşiğinde başarısız oldu.
Araştırmacılar, kamuya açık blog yazısında bireysel model puanlarını yayımlamadı. %88 rakamını, çalışma genelinde gözlemlenen en yüksek başarı oranı olarak belirttiler.
Arka Plan
Standart yapay zekâ güvenlik değerlendirmeleri en az 2020'den bu yana tek turlu kıyaslamalara dayanıyor. MLCommons gibi platformlar ve üçüncü taraf red team ekipleri genellikle tek bir istem gönderip modelin reddedip reddetmediğini değerlendiriyor. Bu yaklaşım, AB Yapay Zekâ Yasası kapsamındaki düzenleyici tartışmalar ve yapay zekâ güvenliğine ilişkin Biden dönemi başkanlık kararnamesi için temel alınarak, her ikisinde de uyum göstergesi olarak kıyaslama performansına atıf yapıldı. Cisco'nun araştırması, statik kıyaslamaların gerçek dağıtım koşullarını yansıtıp yansıtmadığına ilişkin artan bir çalışma gövdesine katkıda bulunuyor.
Önceki bir Yellow.com haberi, güvenlik araçlarının yetenek artışının gerisinde kaldığını (bkz. önceki Yellow haberi) ele almıştı.
Bulgular Ne Anlama Geliyor?
Cisco'nun sonuçlarının kurumsal kullanımlar için doğrudan sonuçları var. Tedarikçi tarafından yayımlanan güvenlik puanlarına dayanarak sınır modeller lisanslayan şirketler, sahte bir korunma algısıyla hareket ediyor olabilir.
Çalışma, belirli bir düzenleyici yanıt çağrısında bulunmuyor. Araştırmacılar, güvenlik değerlendirmelerine asgari gereklilik olarak çok turlu saldırı testlerinin dahil edilmesini öneriyor.
OpenAI, Anthropic ve Google, bu rapor yayımlanmadan önce Cisco bulgularına kamuya açık bir yanıt vermedi. Araştırmayla bağlantılı olarak herhangi bir yama veya model güncellemesi duyurulmadı.
Sıradaki Haber: Anthropic Cofounder Tells Pope AI Models Contain "Unsettling" Hidden Behaviors





