Claude Opus 4.8 Zeka Endeksinde Zirvede, Ancak Mythos Saldırı Güvenliğinde Baskın

Claude Opus 4.8 Zeka Endeksinde Zirvede, Ancak Mythos Saldırı Güvenliğinde Baskın

Anthropic released its newest model, Claude Opus 4.8, bu hafta zeka kıyaslamasında küçük bir üstünlükle öne çıktı, ancak yazılım açıkları üretme konusunda şirketin kısıtlı Mythos sisteminin gerisinde kalıyor.

Öne Çıkan Noktalar:

  • Claude Opus 4.8, Yapay Analiz Zeka Endeksi'nde 61,4 puanla, 60,2 puandaki GPT-5.5'in hemen önünde yer alıyor.
  • Anthropic'in dahili testlerinde Mythos, hedeflerin %70,8'inde çalışan Firefox açıkları üretirken, Opus 4.8 yalnızca %8,8'e ulaştı.
  • Mythos, onaylanmış Project Glasswing ortaklarıyla sınırlı kalırken, Opus 4.8 selefiyle aynı fiyattan sunuluyor.

Opus 4.8 Kıyaslama Üstünlüğü

Şirket, Opus 4.8'i bu hafta piyasaya sürdü ve fiyatını milyon giriş tokenı başına 5 dolar, milyon çıkış tokenı başına 25 dolar olarak belirledi; bu da önceki Opus 4.7 ile aynı seviyede.

Bağımsız testçiler, modelin artık on değerlendirmeden oluşan bileşik bir ölçüm olan Yapay Analiz Zeka Endeksi'nde 61,4 puanla lider olduğunu, GPT-5.5'in ise 60,2 puanda kaldığını bildiriyor. Anthropic, yükseltmeyi adından beklenebilecek kuşak atlamasından ziyade, mütevazı ve kademeli bir adım olarak nitelendiriyor.

Otonom kodlama tarafında Opus 4.8, gerçek hataların büyük kod depoları içinde düzeltilmesini isteyen SWE-bench Pro kıyaslamasında %69,2 puan alırken, GPT-5.5 %58,6'ya ulaşıyor.

İki sistem, lisansüstü seviye bilim sorularında neredeyse başa baş gidiyor; her ikisi de %94 civarına yerleşiyor ve Opus 4.8, seleflerinin geride kaldığı geniş kapsamlı muhakeme sınavında az farkla öne geçiyor.

Mythos, en zor mühendislik çalışmalarında her ikisinin de üzerinde konumlanıyor; aynı kodlama kıyaslamasında %77,8 puan alıyor ve kodla ekran görüntülerini birleştiren görevlerde daha geniş bir üstünlük sağlıyor. Anthropic, Mythos'u Project Glasswing programı kapsamında yalnızca belirli ortaklara sunuyor; modeli açıkça satmak yerine bu yolu tercih ediyor. Ön izleme sürecinde milyon token başına giriş için 25, çıkış için 125 dolar talep ediyor; bu, Opus oranının beş katı.

Ayrıca Oku: Zcash Cools After A 6% Drop While Monero Steals The Spotlight

Mythos'un Siber Üstünlüğü

En büyük fark, saldırı güvenliğinde ortaya çıkıyor.

Güvenlik önlemleri kapatıldığında Mythos, Anthropic'in kendi değerlendirmelerinde Firefox hedeflerinin %70,8'inde tam çalışan bir açık üretti; Opus 4.8 ise yalnızca %8,8'e ulaşabildi.

Açık kaynak koddan derlenen ayrı bir testte, Opus 4.8 hedeflerin %61,5'inde puan alamadı; bu oran, Mythos'un %23,3'lük kaçırma oranının iki katından fazla.

Berkeley RDI tarafından yürütülen ve her sistemi kendi kodlama ajanıyla eşleştiren herkese açık, modeller arası bir denemede Mythos, 898 gerçek dünya zafiyetinden 157'si için çalışan açıklar yazarken, GPT-5.5 120'de kaldı.

GPT-5.5, çekirdek seviyesindeki sömürüde hâlâ üstünlük sağladı ve bu dar alanda Mythos'a karşı 22'ye 12 önde kapattı. UK AI Security Institute, uzman siber görevlerde GPT-5.5'i Mythos'un çok az önünde, %71,4'e karşı %68,6 olarak konumlandırdı.

Anthropic, Mythos'u nisan ayında, modelin büyük işletim sistemleri ve tüm önde gelen web tarayıcıları genelinde, yalnızca Firefox'ta yüzlercesi olmak üzere binlerce daha önce bilinmeyen açık bulmasının ardından tanıttı. Şirket, aynı açık yazma becerilerinin, modelin desteklemek için tasarlandığı savunucular kadar kolaylıkla saldırganlara da yardım edebileceğinden endişe ederek modeli kamuya açmamayı seçti.

Sıradaki Haber: Strategy Pulls $30M In Bitcoin Back, Cooling Sell-Off Fears

Feragatname ve Risk Uyarısı: Bu makalede sağlanan bilgiler yalnızca eğitici ve bilgilendirici amaçlıdır ve yazarın görüşüne dayanmaktadır. Mali, yatırım, hukuki veya vergi tavsiyesi teşkil etmez. Kripto para varlıkları son derece değişkendir ve yatırımınızın tamamını veya önemli bir kısmını kaybetme riski dahil olmak üzere yüksek riske tabidir. Kripto varlık ticareti veya tutma tüm yatırımcılar için uygun olmayabilir. Bu makalede ifade edilen görüşler yalnızca yazara aittir ve Yellow, kurucuları veya yöneticilerinin resmi politikasını veya pozisyonunu temsil etmez. Her zaman kendi kapsamlı araştırmanızı yapın (D.Y.O.R.) ve herhangi bir yatırım kararı vermeden önce lisanslı bir finansal uzmanla görüşün.
Claude Opus 4.8 Zeka Endeksinde Zirvede, Ancak Mythos Saldırı Güvenliğinde Baskın | Yellow.com