Anthropic, Yeni Claude Opus 4.8'in Hatalarının 4 Katını Yakaladığını Söylüyor

Anthropic, Claude Opus 4.8’i Perşembe günü piyasaya sürdü ve yükseltilmiş modeli, selefine göre daha dürüst ve uydurma bilgi üretmeye daha az eğilimli olarak konumlandırdı.

Öne Çıkan Noktalar:

Anthropic, dürüstlüğü en önemli kazanım olarak vurgulayarak Claude Opus 4.8’i Perşembe günü kullanıma sundu.

Şirkete göre model, kod hatalarını gözden kaçırma konusunda yaklaşık dört kat daha az hata yapıyor.

Hızlı mod artık 2,5 kat daha hızlı çalışıyor ve önceye göre üçte bir maliyete sahip.

Anthropic, Opus 4.8’in Dürüstlüğünü Öne Çıkarıyor

Şirket, modeli Perşembe günü duyurdu ve onu köklü bir yeniden icattan çok Opus 4.7 üzerine istikrarlı bir geliştirme olarak tanımladı; çoğu kıyaslama puanı yalnızca hafif artışlar gösterdi. SWE-Bench Pro kodlama testinde aldığı puan 64,3’ten 69,2’ye yükseldi ve 58,6%’da kalan OpenAI’nin GPT-5.5’inin önüne geçti.

Dikkatler dürüstlüğe çevrildi. Anthropic, yapay zekâ modellerinin sıklıkla aceleci sonuçlara atladığını, zayıf kanıtlara dayanarak ilerleme iddiasında bulunduğunu ve erken test kullanıcılarının, 4.8’in uzun ve insansız görevler sırasında şüphelerini kabul etme konusunda daha hızlı olduğunu tespit ettiğini söylüyor. Şirketin testleri, modelin kodlama hatalarını fark etmeden geçirme olasılığının 4.7’ye kıyasla yaklaşık dörtte bire indiğini gösterdi.

Güncelleme, kullanıcıların modelin bir görev üzerinde ne kadar yoğun çalışacağını ayarlamasına imkân veren ve artık tüm planlarda sunulan bir ayar da dahil olmak üzere yeni kontrollerle birlikte yayınlandı. Anthropic ayrıca, modelin normalden 2,5 kat hızlı çalıştığı hızlı modun fiyatını, önceki modellere kıyasla üçte bire düşürdü.

Ayrıca Oku: Kalshi Wins CFTC Approval For First U.S. Bitcoin Perpetual Futures

Pritchard, Opus 4.8’in Yargılama Yeteneğini Övüyor

Shopify’da kıdemli mühendis olan Tom Pritchard, kodlamaya odaklı sürümün çok daha iyi bir yargılama yeteneği sergilediğini Anthropic’e söyledi. Pritchard, modelin “doğru soruları sorduğunu, kendi hatalarını yakaladığını” ve bir plan zayıf göründüğünde geri adım attığını belirtti. Canlı üretim veritabanlarını silen yapay zekâ ajanlarından zarar görmüş ekipler için bu tür bir güvence ciddi önem taşıyabilir.

Herkes ikna olmuş değil.

Reddit’te birçok kullanıcı, kıyaslama grafiklerine şüpheyle yaklaştı ve genel havayı kimsenin bu sonuçlara güvenmediği şeklinde özetledi; diğerleri ise günlük işler için hâlâ tercih ettikleri eski Opus 4.6’yı kaybetmekten endişe etti.

Opus 4.8, Anthropic’teki Yükselişi Taçlandırıyor

Lansman, laboratuvar için son derece hareketli bir dönemde geldi. Anthropic’in değerlemesi, yeni bir yatırım turunun ardından, teknoloji tarihinin en büyüklerinden biri sayılan bir seviyeye ulaştı ve OpenAI’nin yaklaşık 965 milyar dolarlık değerini geride bıraktı. Yatırımcılar, şirketin bu yılın ilerleyen dönemlerinde halka arz peşinde koşmasını geniş ölçüde bekliyor.

Bu sürüm aynı zamanda hızlı bir yükseltme serisini de taçlandırdı; Opus 4.7 yalnızca bir ay önce, kendi kıyaslama tartışmaları eşliğinde kullanıcılara ulaşmıştı. Anthropic, siber güvenlik endişeleri nedeniyle kamuya açmadığı, çok daha güçlü bir model olan Mythos’u da şimdiden ima etti.

Sıradaki Haber: Dogecoin Reserves Edge Up To 28B As Whale Support Stays Weak