Cisco araştırması, çok turlu saldırılarda sınır yapay zeka modellerinin başarısız olduğunu gösteriyor

Cisco araştırması, çok turlu saldırılarda sınır yapay zeka modellerinin başarısız olduğunu gösteriyor

Cisco'nun yapay zeka tehdit istihbarat ekibi, OpenAI, Anthropic, Google, Amazon ve xAI'den 15 kapalı, amiral gemisi modeli değerlendirdi ve çok turlu saldırı dizilerinin %88'e varan oranlarda güvenlik önlemlerini aşabildiğini buldu.

According to the Cisco research blog, bulgular, araştırmacıların gerçek dünya riskini değerlendirmek için yapısal olarak yetersiz gördüğü tek istemli kıyaslamalara dayalı güvenlik iddialarıyla çelişiyor.

Cisco Ne Test Etti?

Ekip, zararlı bir isteği tek bir istemde vermek yerine, çoklu sohbet turlarına yayacak şekilde tasarlanmış saldırı dizileri geliştirdi.

Bu yaklaşım, modellerin bağlam birikimini nasıl ele aldığından yararlanıyor.

Bir model, açıkça zararlı tek bir isteği reddedebilir. Aynı model, bu istek daha uzun bir diyalog boyunca artımlı adımlara bölündüğünde, buna uyum gösterebilir.

Cisco, tüm 15 modeli bu metodolojiyi kullanarak test etti. Hiçbir model bağışık çıkmadı. Başarı oranları değişse de, çalışmadaki her model, belirli bir saldırı karmaşıklığı eşiğinde başarısız oldu.

Araştırmacılar, tek tek modellerin puanlarını halka açık blog yazısında paylaşmadı. Çalışma genelindeki en yüksek başarı oranı olarak %88 rakamını belirttiler.

Arka Plan

Standart yapay zeka güvenlik değerlendirmeleri en az 2020'den bu yana tek turlu kıyaslamalara dayanıyor. MLCommons gibi platformlar ve üçüncü taraf kırmızı ekipler, tipik olarak tek bir istem gönderip modelin reddedip reddetmediğini değerlendiriyor. Bu yaklaşım, AB Yapay Zeka Yasası ve Biden dönemi yapay zeka güvenliği başkanlık kararnamesi kapsamındaki düzenleyici tartışmalar için temel haline geldi; her ikisi de uyumluluk göstergesi olarak kıyaslama performansına atıfta bulunuyor. Cisco'nun araştırması, statik kıyaslamaların gerçek dağıtım koşullarını yansıtıp yansıtmadığına dair artan sorgulamalara katkıda bulunuyor.

Daha önceki bir Yellow.com haberi, güvenlik araçları yetenek artışının gerisinde kalırken (see prior Yellow coverage) bunun nasıl sorun yarattığını ele almıştı.

Bulgular Ne Anlama Geliyor?

Cisco'nun sonuçları, kurumsal uygulamalar için doğrudan sonuçlar taşıyor. Tedarikçi tarafından yayımlanan güvenlik puanlarına dayanarak sınır modelleri lisanslayan şirketler, gerçekte olduğundan daha korunaklı oldukları yanılgısı altında olabilir.

Çalışma, belirli bir düzenleyici müdahale çağrısında bulunmuyor. Araştırmacılar, güvenlik değerlendirmelerine temel gereklilik olarak çok turlu adversaryal testlerin dahil edilmesini öneriyor.

OpenAI, Anthropic ve Google, bu rapor yayımlanmadan önce Cisco bulgularına kamuya açık bir yanıt vermedi. Araştırmayla bağlantılı herhangi bir yama veya model güncellemesi duyurulmadı.

Sıradaki Haber: Anthropic Cofounder Tells Pope AI Models Contain "Unsettling" Hidden Behaviors

Feragatname ve Risk Uyarısı: Bu makalede sağlanan bilgiler yalnızca eğitici ve bilgilendirici amaçlıdır ve yazarın görüşüne dayanmaktadır. Mali, yatırım, hukuki veya vergi tavsiyesi teşkil etmez. Kripto para varlıkları son derece değişkendir ve yatırımınızın tamamını veya önemli bir kısmını kaybetme riski dahil olmak üzere yüksek riske tabidir. Kripto varlık ticareti veya tutma tüm yatırımcılar için uygun olmayabilir. Bu makalede ifade edilen görüşler yalnızca yazara aittir ve Yellow, kurucuları veya yöneticilerinin resmi politikasını veya pozisyonunu temsil etmez. Her zaman kendi kapsamlı araştırmanızı yapın (D.Y.O.R.) ve herhangi bir yatırım kararı vermeden önce lisanslı bir finansal uzmanla görüşün.
Cisco araştırması, çok turlu saldırılarda sınır yapay zeka modellerinin başarısız olduğunu gösteriyor | Yellow.com