Anthropic released its newest model, Claude Opus 4.8, bu hafta zeka kıyaslamasında küçük bir üstünlükle öne çıktı, ancak yazılım istismarı üretmede şirketin kısıtlı Mythos sistemi kadar başarılı değil.
Temel Noktalar:
- Claude Opus 4.8, Yapay Analiz Zeka Endeksi'nde 61,4 puanla, 60,2 puandaki GPT-5.5'in hemen önünde, kıl payı zirveye yerleşiyor.
- Anthropic'in dahili testlerinde Mythos, hedeflerin %70,8'inde çalışan Firefox istismarları üretirken, Opus 4.8 yalnızca %8,8'e ulaşıyor.
- Mythos, onaylı Project Glasswing ortaklarıyla sınırlı kalırken, Opus 4.8 selefiyle aynı fiyattan sunuluyor.
Opus 4.8 Kıyaslama Üstünlüğü
Şirket, Opus 4.8'i bu hafta piyasaya sürdü ve priced milyon giriş tokenı için 5 dolar, milyon çıkış tokenı için 25 dolar olarak fiyatlandırarak, ücreti önceki Opus 4.7 ile aynı seviyede tuttu.
Bağımsız testçiler, modelin artık on değerlendirmeden oluşan bir toplam skor olan Yapay Analiz Zeka Endeksi'nde 61,4 puanla, report 60,2 puandaki GPT-5.5'in hemen önüne geçtiğini aktarıyor. Anthropic, yükseltmeyi, isminin ima edebileceği nesil atlaması yerine, mütevazı ve artımlı bir adım olarak tanımlıyor.
Aracısal kodlama tarafında, Opus 4.8, büyük kod depolarındaki gerçek hataları düzeltmeyi amaçlayan bir kıyaslama olan SWE-bench Pro'da scores %69,2 puan alırken, GPT-5.5 %58,6'ya ulaşıyor.
İki sistem, lisansüstü seviye bilim sorularında neredeyse başa baş gidiyor; her ikisi de %94 civarında seyrederken, Opus 4.8, seleflerinin geride kaldığı geniş kapsamlı bir muhakeme sınavında kıl payı öne geçiyor.
Mythos, aynı kodlama kıyaslamasında %77,8 puan alarak ve kodu ekran görüntüleriyle birleştiren görevlerde daha geniş bir fark yaratarak, en zorlu mühendislik işlerinde her ikisinin de üzerinde yer alıyor. Anthropic restricts Mythos to a vetted set of partners Project Glasswing programı kapsamında Mythos'u açıkça satmak yerine yalnızca gözden geçirilmiş bir ortak grubuyla sınırlandırıyor. Önizleme için milyon token başına 25 ve 125 dolar charges alarak, Opus oranının beş katı bir fiyat belirliyor.
Ayrıca Oku: Zcash Cools After A 6% Drop While Monero Steals The Spotlight
Mythos’un Siber Üstünlüğü
En belirgin fark, saldırı güvenliğinde ortaya çıkıyor.
Koruma önlemleri kapatıldığında Mythos, Anthropic'in kendi değerlendirmelerinde Firefox hedeflerinin %70,8'inde tam çalışan bir istismar produced üretirken, Opus 4.8 yalnızca %8,8'e ulaşabildi.
Açık kaynak koddan alınan ayrı bir testte ise Opus 4.8, hedeflerin %61,5'inde puan alamadı; bu oran, Mythos'un %23,3’lük ıskalama oranının iki katından fazla.
Berkeley RDI tarafından yürütülen ve 898 gerçek dünya güvenlik açığını kapsayan, her sistemi kendi kodlama aracısıyla eşleştiren halka açık bir çoklu model denemesinde Mythos, GPT-5.5'in 120 çalışır durumdaki istismarına karşılık 157 istismar yazdı.
GPT-5.5, çekirdek düzeyi istismarlarda hâlâ bir avantaja sahip; bu dar alanda Mythos’u 22’ye 12 geride bıraktı. UK AI Security Institute, uzman siber görevlerde GPT-5.5'i %71,4’e karşı %68,6 ile Mythos'un biraz önüne yerleştirdi.
Anthropic, Nisan ayında Mythos'u, modelin büyük işletim sistemleri ve tüm önde gelen web tarayıcılarında, yalnızca Firefox’ta yüzlercesi olmak üzere found thousands of previously unknown flaws binlerce daha önce bilinmeyen güvenlik açığını bulmasının ardından tanıttı. Şirket, aynı istismar yazma becerilerinin, modelin savunmasına yardımcı olmak üzere tasarlandığı kullanıcılar kadar saldırganlara da kolayca yardım edebileceğinden endişe ederek modeli kamuya açık biçimde yayınlamaktan kaçındı.
Sıradaki Haber: Strategy Pulls $30M In Bitcoin Back, Cooling Sell-Off Fears





