Anthropic released its newest model, Claude Opus 4.8, bu hafta zeka kıyaslamasında küçük bir üstünlükle öne çıktı, ancak yazılım açıkları üretme konusunda şirketin kısıtlı Mythos sisteminin gerisinde kalıyor.
Öne Çıkan Noktalar:
- Claude Opus 4.8, Yapay Analiz Zeka Endeksi'nde 61,4 puanla, 60,2 puandaki GPT-5.5'in hemen önünde yer alıyor.
- Anthropic'in dahili testlerinde Mythos, hedeflerin %70,8'inde çalışan Firefox açıkları üretirken, Opus 4.8 yalnızca %8,8'e ulaştı.
- Mythos, onaylanmış Project Glasswing ortaklarıyla sınırlı kalırken, Opus 4.8 selefiyle aynı fiyattan sunuluyor.
Opus 4.8 Kıyaslama Üstünlüğü
Şirket, Opus 4.8'i bu hafta piyasaya sürdü ve fiyatını milyon giriş tokenı başına 5 dolar, milyon çıkış tokenı başına 25 dolar olarak belirledi; bu da önceki Opus 4.7 ile aynı seviyede.
Bağımsız testçiler, modelin artık on değerlendirmeden oluşan bileşik bir ölçüm olan Yapay Analiz Zeka Endeksi'nde 61,4 puanla lider olduğunu, GPT-5.5'in ise 60,2 puanda kaldığını bildiriyor. Anthropic, yükseltmeyi adından beklenebilecek kuşak atlamasından ziyade, mütevazı ve kademeli bir adım olarak nitelendiriyor.
Otonom kodlama tarafında Opus 4.8, gerçek hataların büyük kod depoları içinde düzeltilmesini isteyen SWE-bench Pro kıyaslamasında %69,2 puan alırken, GPT-5.5 %58,6'ya ulaşıyor.
İki sistem, lisansüstü seviye bilim sorularında neredeyse başa baş gidiyor; her ikisi de %94 civarına yerleşiyor ve Opus 4.8, seleflerinin geride kaldığı geniş kapsamlı muhakeme sınavında az farkla öne geçiyor.
Mythos, en zor mühendislik çalışmalarında her ikisinin de üzerinde konumlanıyor; aynı kodlama kıyaslamasında %77,8 puan alıyor ve kodla ekran görüntülerini birleştiren görevlerde daha geniş bir üstünlük sağlıyor. Anthropic, Mythos'u Project Glasswing programı kapsamında yalnızca belirli ortaklara sunuyor; modeli açıkça satmak yerine bu yolu tercih ediyor. Ön izleme sürecinde milyon token başına giriş için 25, çıkış için 125 dolar talep ediyor; bu, Opus oranının beş katı.
Ayrıca Oku: Zcash Cools After A 6% Drop While Monero Steals The Spotlight
Mythos'un Siber Üstünlüğü
En büyük fark, saldırı güvenliğinde ortaya çıkıyor.
Güvenlik önlemleri kapatıldığında Mythos, Anthropic'in kendi değerlendirmelerinde Firefox hedeflerinin %70,8'inde tam çalışan bir açık üretti; Opus 4.8 ise yalnızca %8,8'e ulaşabildi.
Açık kaynak koddan derlenen ayrı bir testte, Opus 4.8 hedeflerin %61,5'inde puan alamadı; bu oran, Mythos'un %23,3'lük kaçırma oranının iki katından fazla.
Berkeley RDI tarafından yürütülen ve her sistemi kendi kodlama ajanıyla eşleştiren herkese açık, modeller arası bir denemede Mythos, 898 gerçek dünya zafiyetinden 157'si için çalışan açıklar yazarken, GPT-5.5 120'de kaldı.
GPT-5.5, çekirdek seviyesindeki sömürüde hâlâ üstünlük sağladı ve bu dar alanda Mythos'a karşı 22'ye 12 önde kapattı. UK AI Security Institute, uzman siber görevlerde GPT-5.5'i Mythos'un çok az önünde, %71,4'e karşı %68,6 olarak konumlandırdı.
Anthropic, Mythos'u nisan ayında, modelin büyük işletim sistemleri ve tüm önde gelen web tarayıcıları genelinde, yalnızca Firefox'ta yüzlercesi olmak üzere binlerce daha önce bilinmeyen açık bulmasının ardından tanıttı. Şirket, aynı açık yazma becerilerinin, modelin desteklemek için tasarlandığı savunucular kadar kolaylıkla saldırganlara da yardım edebileceğinden endişe ederek modeli kamuya açmamayı seçti.
Sıradaki Haber: Strategy Pulls $30M In Bitcoin Back, Cooling Sell-Off Fears





