Claude Mythos AI Kod Denetimlerinde Rakiplerini Geçiyor, 5 Kat Fiyat Etiketiyle Yarışta Geri Düşüyor

Anthropic's Mythos AI modeli, yazılım açıklarını bulmada rakip sistemlerin önüne geçiyor, ancak yeni bağımsız kıyaslamalar daha zayıf muhakeme ve yüksek çalışma maliyetlerini ortaya koyuyor.

Mythos Preview Kaynak Kod Denetimlerinde Zirvede

Saldırı odaklı siber güvenlik firması XBOW, manşet iddiayı doğruladı. Firma, modeli kıyaslamalar, iş akışları ve entegrasyonlar genelinde değerlendirmek için 10 uzmanlık bir ekip oluşturdu.

XBOW, Mythos Preview'ın “sağlayıcısından bağımsız olarak mevcut tüm modellerin üzerinde kayda değer bir seviye atlama sunduğunu” belirtti. Test uzmanları, modeli bilinen güvenlik açıklarına sahip, dondurulmuş açık kaynak uygulamalar üzerinde çalıştırdı.

Mythos, Opus 4.6’ya kıyasla kaçırılan açıkları (false negative) %42 azalttı; modele kaynak kod erişimi verildiğinde bu oran %55’e ulaştı, diye The Decoder bildirdi. Model, canlı sistem + kaynak kod kombinasyonunda öne çıkarken, yalnızca kaynak kod verildiğinde daha az tutarlı performans gösterdi.

Ayrıca Oku: XRP ETF'leri Rekor 1,39 Milyar Doları Gördü Ancak Token 4. Sırayı BNB'ye Kaptırdı

Maliyet Sorusu Anthropic'in Avantajını Sınırlıyor

Anthropic, Mythos Preview’ın zaten en pahalı seçenekler arasında yer alan bir Opus modelinden yaklaşık 5 kat daha maliyetli olacağını belirtti. Bu yüksek prim, XBOW’yu daha ucuz bir rakibin daha fazla çalışma süresi verilerek Mythos’a yetişip yetişemeyeceğini test etmeye yöneltti.

Yanıt evet oldu. Web güvenlik açığı keşfi için sabit bir token bütçesinde Mythos, Opus 4.6’yı geride bıraktı ancak XBOW’nun kaçırma oranını %10 olarak kaydettiği OpenAI’nin GPT-5.5 modeline yenildi. XBOW, doğruluğun nihai hedef olduğu durumlarda modelin “pek de verimsiz olmadığını” ancak maliyet normalizasyonu devreye girdiğinde sınıfının en iyisi olmaktan uzaklaştığını belirtti.

Firma artık tek bir modele güvenmek yerine modellerin karışımını çalıştırmayı tavsiye ediyor.

Mythos AI Performansının Bağlamı

Mythos, karma bir yargılama profili sergiledi; sahte pozitifleri önceki sürümlerden daha iyi reddederken, kanıtlar kendi biçimsel kriterlerini karşılamadığında zaman zaman gerçek bulguları da eliyordu. Tersine mühendislik ve yerel kod analizi, modelin en güçlü olduğu alanlar arasında yer aldı; Mythos, rakip sistemlerden gelen bulguları derecelendirebildi.

Anthropic Mythos'u ilk kez nisan ayı başında tanıttı; erişimi yaklaşık 50 ortakla sınırlayarak bu sürümü, yapay zekâ siber kapasitesinde bir seviye atlama olarak çerçeveledi. Birleşik Krallık Yapay Zekâ Güvenliği Enstitüsü daha sonra hem Mythos’un hem de GPT-5.5’in hızlandırılmış öngörüsünü “kayda değer biçimde aştığını” söyledi. Kurum, kasım 2025’te açıkladığı sekiz aylık tahmini güncelleyerek siber yeteneklerin artık her 4,7 ayda bir ikiye katlandığını öngörüyor.

Sıradaki Haber: Hyperliquid, HYPE %14 Düşerken Wall Street'in Manipülasyon İddialarını Reddediyor