Anthropic's Mythos AI model, yazılım güvenlik açıklarını bulma konusunda rakip sistemlerin önüne geçiyor, ancak yeni bağımsız kıyaslamalar daha zayıf yargı performansını ve yüksek çalıştırma maliyetlerini ortaya koyuyor.
Mythos Preview Kaynak Kod Denetimlerinde Zirvede
Saldırı odaklı siber güvenlik firması XBOW, manşet iddiayı doğruladı. Firma, modeli kıyaslamalar, iş akışları ve entegrasyonlar genelinde değerlendirmek için 10 uzmanlık bir ekip oluşturdu.
XBOW, Mythos Preview’in “sağlayıcıdan bağımsız olarak mevcut tüm modellerin üzerine anlamlı bir sıçrama” temsil ettiğini söyledi. Test uzmanları, modeli bilinen güvenlik açıklarına sahip, dondurulmuş açık kaynak uygulamalara karşı çalıştırdı.
Mythos, yanlış negatifleri Opus 4.6’ya kıyasla %42 oranında azalttı; modele kaynak koda erişim verildiğinde bu azalma %55’e ulaştı, diye bildirdi The Decoder. Model, canlı test ile kaynak kodunun birlikte kullanıldığı senaryolarda mükemmel performans gösterdi. Yalnızca kaynak kodu verildiğinde ise daha az güvenilir davrandı.
Ayrıca Oku: XRP ETFs Hit Record $1.39B But Token Loses 4th Spot To BNB
Maliyet Sorusu Anthropic'in Avantajını Dengeliyor
Anthropic, Mythos Preview’in halihazırda piyasadaki en pahalı seçenekler arasında yer alan bir Opus modeline göre yaklaşık 5 kat daha pahalı olacağını belirtti. Bu fiyat farkı, XBOW’u daha ucuz bir rakibin daha uzun çalışma süresi verildiğinde Mythos ile eşleşip eşleşemeyeceğini test etmeye yöneltti.
Yanıt evet oldu. Web güvenlik açığı keşfi için sabit bir token bütçesi altında Mythos, Opus 4.6’yı geride bıraktı ancak XBOW’un %10 kaçırma oranıyla kaydettiği OpenAI'nin GPT-5.5 modeline yenildi. XBOW, doğruluğun nihai hedef olduğu senaryolarda modelin “çok da verimsiz olmadığını” not etti, ancak maliyet normalleştirmesi devreye girdiğinde sınıfının en iyisi olmaktan uzaklaşıyor.
Firma artık tek bir modele güvenmek yerine, modellerin karışık şekilde kullanılmasını tavsiye ediyor.
Bağlam İçinde Mythos AI Performansı
Mythos, karma bir yargı profili sergiledi; seleflerine göre yanlış pozitifleri reddetmede daha iyi performans gösterirken, kanıtlar kendi biçimsel kriterlerini karşılamadığında bazen gerçek pozitifleri de eledi. Tersine mühendislik ve yerel kod analizi, en güçlü olduğu alanlar arasında yer aldı; model, rakip sistemlerden gelen bulguları önceliklendirebildi.
Anthropic first unveiled Mythos in early April, erişimi yaklaşık 50 ortakla sınırladı ve bu lansmanı yapay zekâ siber yeteneklerinde sıçrama adımı olarak konumlandırdı. Birleşik Krallık Yapay Zekâ Güvenliği Enstitüsü daha sonra, hem Mythos hem de GPT-5.5’in hızlandırılmış öngörüsünü “kayda değer biçimde aştığını” söyledi. Kurum, siber yeteneklerin artık Kasım 2025’te belirlediği sekiz aylık önceki tahmine kıyasla her 4,7 ayda bir ikiye katlandığını tahmin ediyor.
Sıradaki Haber: Hyperliquid Rejects Wall Street's Manipulation Claims As HYPE Drops 14%





