Claude Opus 4.8, Birçok Kodlama Testinde Gemini ve GPT'yi Geçti

Claude Opus 4.8, Birçok Kodlama Testinde Gemini ve GPT'yi Geçti

Anthropic, geliştirilmiş sürüm Claude Opus 4.8’i yayınladı ve modelin, bir dizi kodlama kıyaslamasında OpenAI’nin GPT-5.5 ve Google’ın Gemini 3.1 Pro modellerinden daha iyi performans gösterdiğini öne sürdü.

Öne Çıkan Noktalar:

  • Anthropic, Claude Opus 4.8’i 28 Mayıs’ta, 4.7 sürümüyle aynı fiyatlandırmayla piyasaya sürdü.
  • Şirket, modelin SWE-Bench Pro ve diğer testlerde OpenAI’nin GPT-5.5’ini ve Google’ın Gemini 3.1 Pro’sunu geçtiğini söylüyor.
  • Yenilenen hızlı mod ve dinamik iş akışları, aracılık (agentic) çalışmalarının maliyetini ve süresini azaltmayı hedefliyor.

Claude Opus 4.8 Kodlama Kıyaslamalarında Zirvede

Şirket, modeli perşembe günü tanıttı ve yaklaşık altı hafta önce sunulan Opus 4.7 sürümü üzerine inşa edildiğini belirtti. Anthropic’e göre Opus 4.8, SWE-Bench Pro kodlama testinde %69,2 puan alarak rakiplerini geçti ve birkaç başka ölçütte de onların üzerine çıktı. Ayrıca bilgisayar kullanımı, bilgi işçiliği ve finansal analiz alanlarında iyileşmeler bildirdi ve Terminal-Bench 2.1 kıyaslamasında %74,2 puan elde etti.

Anthropic, sürümü daha dürüst bir model olarak çerçeveledi; test kullanıcılarının, modelin kendi belirsizliğini işaretlediğini ve temelsiz iddialarda bulunmaktan kaçındığını tespit ettiğini söyledi. İç incelemelere göre Opus 4.8, kodlama hatalarını gözden kaçırma açısından Opus 4.7’ye kıyasla yaklaşık dört kat daha az riskli ve şirket, modelin kullanıcı özerkliğine saygı konusunda daha yüksek puan aldığını belirtiyor.

Ayrıca Oku: Cardano Whales Seize 67.5% Of ADA Supply, A Six-Year High

Anthropic’in Maliyet Kontrolleri Neden Önemli?

Fiyatlandırma, milyon giriş tokenı başına 5 dolar ve milyon çıkış tokenı başına 25 dolar olarak sabit kaldı. Yeniden tasarlanan hızlı mod artık yaklaşık %150 daha hızlı çalışıyor ve önceki ayara göre üçte bir maliyete sahip. Anthropic ayrıca, yüz binlerce satır kodu kapsayan geçişler için yüzlerce paralel alt ajan başlatan dinamik iş akışlarının bir araştırma önizlemesini kullanıma açtı.

Yine de kazanımlar kademeli düzeyde kalıyor.

GPT-5.5 hâlâ bir terminal kodlama testinde önde ve Anthropic de modelini bir sıçramadan çok mütevazı bir adım olarak nitelendirdi. Geliştiriciler artık Mesajlar API’si üzerinden görevin ortasında Claude’un talimatlarını güncelleyebiliyor. Daha ucuz yapay zeka arayan müşteriler, en üst modeller arasındaki küçük performans farklarından ziyade bu harcama kontrollerine daha fazla ağırlık verebilir.

Anthropic’in Değerlemesi ve Mythos Arka Planı

Lansman, Anthropic’in aynı gün, 965 milyar dolarlık değerleme üzerinden 65 milyar dolarlık Seri H turunu doğrulamasıyla çakıştı. Altimeter Capital, Dragoneer, Greenoaks ve Sequoia Capital liderliğindeki bu tur, beş yıllık şirketi OpenAI’nin bildirilen 850 milyar dolarlık değerlemesinin üzerine çıkardı ve yıllık geliri yaklaşık 47 milyar dolara taşıdı.

Değerleme, Şubat ayındaki 380 milyar dolardan neredeyse üç katına çıktı; bu, Anthropic’in halka arzdan önceki son özel sermaye turu olabilir. Şirket, siber güvenlik çalışmaları için tasarlanan daha güçlü Mythos modelini güvenlik endişeleri nedeniyle yalnızca birkaç kuruluşa sunarak geri planda tuttu. Şimdi ise önümüzdeki haftalarda Mythos sınıfı sistemlere tüm müşteriler için daha geniş erişim sağlamayı bekliyor.

Sıradaki Haber: Cisco Research Shows Frontier AI Models Failing Under Multi-Turn Attacks

Feragatname ve Risk Uyarısı: Bu makalede sağlanan bilgiler yalnızca eğitici ve bilgilendirici amaçlıdır ve yazarın görüşüne dayanmaktadır. Mali, yatırım, hukuki veya vergi tavsiyesi teşkil etmez. Kripto para varlıkları son derece değişkendir ve yatırımınızın tamamını veya önemli bir kısmını kaybetme riski dahil olmak üzere yüksek riske tabidir. Kripto varlık ticareti veya tutma tüm yatırımcılar için uygun olmayabilir. Bu makalede ifade edilen görüşler yalnızca yazara aittir ve Yellow, kurucuları veya yöneticilerinin resmi politikasını veya pozisyonunu temsil etmez. Her zaman kendi kapsamlı araştırmanızı yapın (D.Y.O.R.) ve herhangi bir yatırım kararı vermeden önce lisanslı bir finansal uzmanla görüşün.
Claude Opus 4.8, Birçok Kodlama Testinde Gemini ve GPT'yi Geçti | Yellow.com