Claude Mythos, 32 Adımlık AISI Saldırı Simülasyonunu 10 Denemeden 6'sında Çözdü

Claude Mythos, 32 Adımlık AISI Saldırı Simülasyonunu 10 Denemeden 6'sında Çözdü

Anthropic'ın Claude Mythos Preview için yeni bir checkpoint, Birleşik Krallık hükümetinin her iki siber saldırı simülasyonunu da çözen ilk yapay zeka modeli oldu ve otonom hackleme hakkında yeni soruları gündeme getirdi.

AISI, Mythos Atılımını Bildiriyor

Birleşik Krallık'ın AI Security Institute'u, Çarşamba günü yayımladığı raporda, yeni Mythos checkpoint'inin 32 adımlık kurumsal ağ saldırı sahası olan "The Last Ones"ı 10 denemeden 6'sında tamamladığını, önceki sürümün ise yalnızca 10 denemeden 3'ünü başarabildiğini belirtti.

Güncellenen model ayrıca, daha önce hiçbir modelin geçemediği endüstriyel kontrol sistemi sahası "Cooling Tower"ı da 10 denemeden 3'ünde çözdü.

Rakip OpenAI'ın GPT-5.5 modeli aynı egzersizde test edildi. "The Last Ones"ı 10 denemeden 3'ünde çözdü, ancak "Cooling Tower"ı tamamlayamadı.

AISI, her deneme için 100 milyon tokenlık hesaplama bütçesiyle sahaları çalıştırdı ve performansın bu üst sınırda ölçeklenmeye devam ettiğini, daha yüksek bütçelerin başarı oranlarını daha da artırabileceğini kaydetti.

Ayrıca Oku: Southeast Asia Blockchain Week Brings Ripple, Avalanche, Solana Foundation, And K-Pop To Bangkok

İki Katına Çıkma Süresi Kısalmaya Devam Ediyor

AISI, siber alandaki ilerlemeyi zaman ufku ölçütleriyle takip ediyor; bu ölçütler, bir modelin %80 güvenilirlikle tamamlayabildiği otonom görevin ne kadar sürdüğünü hesaplıyor. Kurum, Kasım 2025'te iki katına çıkma süresini 8 ay olarak tahmin etmişti. Şubat 2026'ya gelindiğinde bu rakam 4,7 aya sıkıştı ve hem Mythos hem de GPT-5.5 o tarihten sonra bu daha hızlı trendi aştı.

Kurum, son sonuçların yeni bir ivmelenmeye mi yoksa tek seferlik bir sıçramaya mı işaret ettiği konusunda belirsizlik bulunduğunu kabul etti.

Siber sahalar yerine yazılım görevlerinde yapay zekayı izleyen araştırma kuruluşu METR, yaklaşık 4,2 aylık benzer bir rakam üretti. AISI, bu yakınsamanın, trendin tek bir değerlendirme setinin tuhaflığı değil, gerçek yetenek artışlarını yansıttığı yönündeki argümanı güçlendirdiğini söyledi.

Enstitü, sahalarında aktif savunucular bulunmadığının altını çizerek, sonuçların sıkı korunmuş kurumsal sistemlere değil, zayıf şekilde korunmuş ağlara karşı modellerin neler yapabildiğini gösterdiğini vurguladı.

Yetenek Sıçramaları Neden Önemli?

Yeni Mythos checkpoint'i, yeni bir model sürümüyle birlikte gelmedi. AISI, Anthropic'in geçen ay güvenlik ortaklık programı Project Glasswing ile kullanıma sunduğu aynı model sürümünü, yalnızca güncellenmiş bir derleme aldıktan sonra kullandı.

Enstitü, "Dikkat çekici yetenek sıçramaları her zaman yeni model sürümleri gerektirmez" diye yazdı. Bu durum, savunucuların kendilerini lansman döngülerine göre ayarlayabileceği varsayımıyla çelişiyor.

Anthropic, 7 Nisan'da Mythos Preview'ı tanıttı ve modeli, dahili testlerde başlıca işletim sistemleri ve tarayıcılarda sıfırıncı gün açıkları tespit ettikten sonra güvenlik sektörü için bir dönüm noktası olarak konumlandırdı. Şirket, bu yetenekler nedeniyle daha geniş çaplı yayını ertelediğini belirtti ve AISI'nin Nisan ayındaki önceki değerlendirmesi, Mythos'u önceki sınır sistemlerine göre belirgin bir seviye atlama olarak işaretledi.

Sıradaki Haber: Gemini Space Station Hit By Multiple Securities Fraud Claims After IPO

Feragatname ve Risk Uyarısı: Bu makalede sağlanan bilgiler yalnızca eğitici ve bilgilendirici amaçlıdır ve yazarın görüşüne dayanmaktadır. Mali, yatırım, hukuki veya vergi tavsiyesi teşkil etmez. Kripto para varlıkları son derece değişkendir ve yatırımınızın tamamını veya önemli bir kısmını kaybetme riski dahil olmak üzere yüksek riske tabidir. Kripto varlık ticareti veya tutma tüm yatırımcılar için uygun olmayabilir. Bu makalede ifade edilen görüşler yalnızca yazara aittir ve Yellow, kurucuları veya yöneticilerinin resmi politikasını veya pozisyonunu temsil etmez. Her zaman kendi kapsamlı araştırmanızı yapın (D.Y.O.R.) ve herhangi bir yatırım kararı vermeden önce lisanslı bir finansal uzmanla görüşün.
Claude Mythos, 32 Adımlık AISI Saldırı Simülasyonunu 10 Denemeden 6'sında Çözdü | Yellow.com