Anthropic, Yeni Claude Opus 4.8'in Hatalarının 4 Katını Yakaladığını Söylüyor

Anthropic, Yeni Claude Opus 4.8'in Hatalarının 4 Katını Yakaladığını Söylüyor

Anthropic released Claude Opus 4.8 perşembe günü yayımladı ve yükseltilmiş modeli, selefine kıyasla daha dürüst ve gerçekleri uydurmaya daha az eğilimli olarak konumlandırdı.

Öne Çıkan Noktalar:

  • Anthropic, Claude Opus 4.8’i perşembe günü piyasaya sürdü ve en büyük kazanımının dürüstlük olduğunu açıkladı.
  • Şirkete göre model, kod hatalarını gözden kaçırmaya önceki sürüme göre yaklaşık dört kat daha az eğilimli.
  • Hızlı mod artık 2,5 kat daha hızlı çalışıyor ve önceye göre üçte bir maliyetle sunuluyor.

Anthropic, Opus 4.8’in Dürüstlüğünü Öne Çıkarıyor

Şirket, modeli perşembe günü unveiled etti ve köklü bir yeniden icat yerine, Opus 4.7 üzerine istikrarlı bir geliştirme olarak tanımladı; çoğu kıyaslama puanı yalnızca hafif artışlar gösterdi. SWE-Bench Pro kodlama testinde, bir önceki sürümdeki 64,3%'ten scored 69,2%'ye yükseldi ve 58,6% başarabilen OpenAI'nin GPT-5.5 modelini geride bıraktı.

Dikkatler dürüstlük üzerinde toplandı. Anthropic, yapay zeka modellerinin sık sık yetersiz kanıtlara dayanarak acele sonuçlara vardığını ve ilerleme kaydettiğini iddia ettiğini, erken test kullanıcılarının ise 4.8’in uzun ve gözetimsiz görevlerde şüphelerini daha hızlı itiraf ettiğini bildirdiğini söylüyor. Şirketin testleri, modelin kodlama hatalarının fark edilmeden geçip gitmesine izin verme konusunda 4.7’ye kıyasla yaklaşık dört kat daha az olası olduğunu indicated gösterdi.

Yükseltme, kullanıcıların modelin bir görev üzerinde ne kadar sıkı çalışacağını ayarlamasına izin veren ve artık her plan için geçerli olan bir seçenek de dahil olmak üzere yeni kontrollerle birlikte shipped edildi. Anthropic ayrıca, modelin normal hızın 2,5 katında çalıştığı hızlı modun fiyatını, önceki modellere göre üçte birine düşürdü.

Ayrıca Oku: Kalshi Wins CFTC Approval For First U.S. Bitcoin Perpetual Futures

Pritchard, Opus 4.8’in Yargı Yeteneğini Destekliyor

Shopify bünyesinde çalışan kıdemli mühendis Tom Pritchard, kodlama sürümünün çok daha iyi bir yargı yeteneği gösterdiğini Anthropic’e told etti. Modelin “doğru soruları sorduğunu, kendi hatalarını yakaladığını” ve plan zayıf göründüğünde itiraz ettiğini söyledi. Canlı üretim veritabanlarını silen yapay zeka ajanları yüzünden zarar görmüş ekipler için bu tür bir vaat, gerçek anlamda önem taşıyabilir.

Herkes ikna olmuş değil.

Reddit’te birçok kullanıcı, kıyaslama grafiklerine doubted etti; genel havayı, hiç kimsenin bu verilere güvenmediği şeklinde özetlerken, diğerleri ise günlük işler için hâlâ tercih ettikleri eski Opus 4.6’yı kaybetmekten endişe etti.

Opus 4.8, Anthropic’in Yükselişini Taçlandırıyor

Lansman, laboratuvar için heyecan verici bir dönemde geldi. Anthropic’in değerlemesi, teknoloji tarihinin en büyük turlarından biri arasında yer alan yeni finansman sayesinde, neredeyse 965 milyar dolara yaklaşan OpenAI seviyesini climbed aştı. Yatırımcılar, şirketin bu yılın ilerleyen dönemlerinde halka arzı hedeflemesini geniş ölçüde bekliyor.

Bu sürüm aynı zamanda hızlı bir yükseltme dizisini de tamamladı; Opus 4.7, kendi kıyaslama şüpheleri eşliğinde, yalnızca bir ay kadar önce kullanıcılara reaching ulaşmıştı. Anthropic o zamandan beri, siber güvenlik endişeleri nedeniyle kamuya açmadığı, çok daha güçlü Mythos modelini duyurdu.

Sıradaki Haber: Dogecoin Reserves Edge Up To 28B As Whale Support Stays Weak

Feragatname ve Risk Uyarısı: Bu makalede sağlanan bilgiler yalnızca eğitici ve bilgilendirici amaçlıdır ve yazarın görüşüne dayanmaktadır. Mali, yatırım, hukuki veya vergi tavsiyesi teşkil etmez. Kripto para varlıkları son derece değişkendir ve yatırımınızın tamamını veya önemli bir kısmını kaybetme riski dahil olmak üzere yüksek riske tabidir. Kripto varlık ticareti veya tutma tüm yatırımcılar için uygun olmayabilir. Bu makalede ifade edilen görüşler yalnızca yazara aittir ve Yellow, kurucuları veya yöneticilerinin resmi politikasını veya pozisyonunu temsil etmez. Her zaman kendi kapsamlı araştırmanızı yapın (D.Y.O.R.) ve herhangi bir yatırım kararı vermeden önce lisanslı bir finansal uzmanla görüşün.
Anthropic, Yeni Claude Opus 4.8'in Hatalarının 4 Katını Yakaladığını Söylüyor | Yellow.com