Claude Mythos, 32 Adımlı AISI Saldırı Senaryosunu 10 Denemenin 6’sında Çözdü

Anthropic'in Claude Mythos Önizlemesi'nin yeni bir kontrol noktası, her iki Birleşik Krallık hükümeti siber saldırı simülasyonunu da çözen ilk yapay zeka modeli olarak öne çıktı ve otonom hackleme konusunda yeni soruları gündeme getirdi.

AISI, Mythos’taki Atılımı Bildirdi

Birleşik Krallık'ın AI Security Institute'u, daha yeni Mythos kontrol noktasının 32 adımlık kurumsal ağ saldırı sahası olan "The Last Ones"ı 10 denemenin 6’sında tamamladığını Çarşamba günü bildirdi. Önceki sürüm ise yalnızca 10 denemenin 3’ünde başarı sağlayabilmişti.

Güncellenen model ayrıca, daha önce hiçbir modelin geçemediği endüstriyel kontrol sistemi sahası "Cooling Tower"ı da 10 denemenin 3’ünde çözdü.

Rakip OpenAI'nin GPT-5.5 modeli de aynı tatbikatta test edildi. "The Last Ones"ı 10 denemenin 3’ünde çözdü, ancak "Cooling Tower"ı tamamlayamadı.

AISI, sahaları her deneme için 100 milyon tokenlık hesaplama bütçesiyle çalıştırdı ve performansın bu üst sınırda dahi ölçeklenmeye devam ettiğini, yani daha yüksek bütçelerin başarı oranlarını daha da artırabileceğini belirtti.

Ayrıca Oku: Southeast Asia Blockchain Week Brings Ripple, Avalanche, Solana Foundation, And K-Pop To Bangkok

İkiye Katlanma Süresi Kısalmaya Devam Ediyor

AISI, siber alandaki ilerlemeyi zaman ufku ölçütleriyle, yani bir modelin %80 güvenilirlikle tamamlayabildiği otonom görevin süresine bakarak takip ediyor. Kasım 2025’te kurum, ikiye katlanma süresini 8 ay olarak tahmin etmişti. Şubat 2026’ya gelindiğinde bu rakam 4,7 aya geriledi ve hem Mythos hem de GPT-5.5 o tarihten bu yana bu daha hızlı eğilimi de aştı.

Kurum, en son sonuçların yeni bir hızlanmaya mı yoksa tek seferlik bir sıçramaya mı işaret ettiği konusunda belirsizlik bulunduğunu kabul etti.

Siber sahalar yerine yazılım görevleri üzerinde yapay zekayı izleyen araştırma kuruluşu METR de benzer biçimde yaklaşık 4,2 aylık bir rakam ortaya koydu. AISI, bu yakınsamanın, eğilimin tek bir değerlendirme setine özgü bir tuhaflık değil, gerçek yetenek kazanımlarını yansıttığı yönündeki görüşü güçlendirdiğini söyledi.

Enstitü, sahalarda aktif savunucuların bulunmadığının altını çizerek, sonuçların, modellerin sağlamlaştırılmış kurumsal sistemler yerine zayıf korunmuş ağlara karşı neler yapabildiğini gösterdiğini vurguladı.

Yetenek Sıçramaları Neden Önemli?

Yeni Mythos kontrol noktası, yeni bir model sürümüyle gelmedi. AISI, Anthropic’in geçen ay güvenlik ortaklık programı Project Glasswing ile devreye aldığı aynı model sürümünü, yalnızca aynı modelin güncellenmiş bir derlemesini aldıktan sonra kullandı.

Enstitü, "Dikkate değer yetenek sıçramaları her zaman yeni model sürümleri gerektirmez," diye yazdı. Bu durum, savunmacıların kendilerini yalnızca sürüm döngülerine göre ayarlayabileceği varsayımına ters düşüyor.

Anthropic, Mythos Önizlemesi'ni 7 Nisan’da tanıtarak, modeli, iç testlerde başlıca işletim sistemleri ve tarayıcılarda sıfır gün açıkları tespit etmesinin ardından güvenlik sektörü için bir dönüm noktası olarak konumlandırdı. Şirket, bu yetenekler nedeniyle daha geniş bir yayını ertelediğini ve AISI’nin Nisan ayındaki önceki değerlendirmesinin Mythos’u önceki sınır modellerine göre net bir seviye atlama olarak işaretlediğini söyledi.

Sıradaki Haber: Gemini Space Station Hit By Multiple Securities Fraud Claims After IPO