GPT-5.6 Sol ve Claude Fable 5: Kodlama Kıyaslamaları Yarışı İkiye Bölüyor

GPT-5.6 Sol ve Claude Fable 5: Kodlama Kıyaslamaları Yarışı İkiye Bölüyor

Taze bire bir incelemeler, önde gelen bir kodlama kıyaslamasında %88,8 puan tutan OpenAI'nin GPT-5.6 Sol’unu, %80,3 yazılım mühendisliği puanına sahip Anthropic'in Claude Fable 5’iyle karşı karşıya getiriyor.

Öne Çıkan Noktalar:

  • GPT-5.6 Sol, Terminal-Bench 2.1’de %88,8 ile zirvede ve Ultra modu skoru %91,9’a çıkarıyor.
  • Claude Fable 5, SWE-Bench Pro’da %80,3 ile en geniş yayımlanmış farkı koruyor; GPT-5.5 ise %58,6’da kalıyor.
  • Sol, hâlâ devlet onaylı sınırlı bir ön izlemede kalırken, Fable 5 1 Temmuz’da küresel erişime geri döndü.

GPT-5.6 Sol Kıyaslama İddiaları

OpenAI, GPT-5.6 ailesini 26 Haziran’da, Nisan’daki GPT-5.5’ten sonraki ilk sürüm olarak ön izlemeye açtı ve seriyi Sol’un amiral gemisi olduğu üç katmana böldü.

Şirket, Sol’un, plan yapan, yineleyen ve araçları koordine eden komut satırı kodlama ajanlarını test eden Terminal-Bench 2.1’de %88,8’e ulaştığını söylüyor. Koordine alt ajanları devreye sokarak karmaşık işi hızlandıran, hesaplama açısından ağır Ultra modu, bu rakamı %91,9’a kadar uzatarak Terminal-Bench tablosundaki en yüksek yayımlanmış dereceyi temsil ediyor.

Yayımlanan tabloları karşılaştıran incelemeciler, Fable 5’i aynı terminal testinde Sol’un birkaç puan gerisinde konumlandırıyor; ancak aktarılan rakamlar %83,4 ile %84,3 arasında değişiyor. ExploitBench güvenlik paketinde Sol’un, Mythos sınıfı performansa ulaştığı, bunu yaparken çıktı token’larının yaklaşık üçte birini harcadığı bildiriliyor; bu da uzun ajan oturumlarında önemli bir maliyet sıkıştırması anlamına geliyor.

Ön izleme dışında neredeyse hiç kimse bu rakamları henüz bağımsız olarak doğrulayamıyor; bu da, birçok incelemecinin ham puanları kabul ederken işaret ettiği bir uyarı olarak öne çıkıyor.

Ayrıca Oku: OpenAI ve Anthropic SpaceX Büyüklüğünde Halka Arz İstiyor, Ancak Wall Street Zorlanabilir

Fable 5’in Kodlama Liderliği ve Fiyatlandırma

Fable 5, çoğu incelemecinin özerk yazılım çalışmaları için belirleyici gördüğü kıyaslamada hâlâ zirvede ve buradaki farkı az değil. Gerçek GitHub sorunlarının uçtan uca çözümlerini ölçen SWE-Bench Pro’da %80,3 puan alırken, daha eski GPT-5.5 %58,6’da kalıyor ve OpenAI, GPT-5.6 için burada herhangi bir rakam yayımlamadı.

Kodlama, akıl yürütme ve bilgi testleri genelinde bu büyüklükte boşluklar bulan analistler, tek bir artımsal sürümün bunları tamamen kapatabileceğinden şüphe duyuyor.

Fiyat ise tam tersi yönde etkiliyor; zira Sol’un milyon giriş token’ı başına 5 dolar ve çıkış token’ı için 30 dolar listelendiği, Fable 5’in ise sırasıyla 10 ve 50 dolar olduğu bildiriliyor. Birkaç incelemeci, makul kurgunun, açıldığında terminal odaklı ajanları Sol’a, depo düzeyindeki düzeltmeleri ise Fable 5’e yönlendirmek olduğunu savundu.

Erişim ise en keskin ayrımı çiziyor; çünkü Sol, yaklaşık 20 devletçe onaylı iş ortağı için sınırlı ön izlemede kalırken, Fable 5 1 Temmuz’da dünya çapında yeniden kullanıma açıldı ve 7 Temmuz’a kadar ücretli abonelere geçici bir kullanım bonusu sundu.

Haziran, her iki laboratuvar için de sınır modeline erişimi hareketli bir hedefe dönüştürdü ve bu savrulma her değerlendirmeye zemin oluşturuyor. Washington, Amazon araştırmacılarının istismar kodu üreten bir jailbreak ortaya çıkarmasının ardından, ciddi siber güvenlik risklerini gerekçe göstererek 12 Haziran’da Fable 5 ve daha güçlü kardeşi Mythos 5’i çevrimdışı aldı. Ticaret Bakanı Howard Lutnick, Mythos 5’in sessizce yaklaşık 100 seçilmiş Amerikan kuruluşa geri dönmesinden günler sonra, iki haftalık bir incelemeyi takiben 30 Haziran’da kararın tersine çevrildiğini doğruladı.

Sıradaki Yazı: Ethereum Stake Edilen Miktar Rekor Kırarken ETH Hâlâ Neden Zayıf?

Feragatname ve Risk Uyarısı: Bu makalede sağlanan bilgiler yalnızca eğitici ve bilgilendirici amaçlıdır ve yazarın görüşüne dayanmaktadır. Mali, yatırım, hukuki veya vergi tavsiyesi teşkil etmez. Kripto para varlıkları son derece değişkendir ve yatırımınızın tamamını veya önemli bir kısmını kaybetme riski dahil olmak üzere yüksek riske tabidir. Kripto varlık ticareti veya tutma tüm yatırımcılar için uygun olmayabilir. Bu makalede ifade edilen görüşler yalnızca yazara aittir ve Yellow, kurucuları veya yöneticilerinin resmi politikasını veya pozisyonunu temsil etmez. Her zaman kendi kapsamlı araştırmanızı yapın (D.Y.O.R.) ve herhangi bir yatırım kararı vermeden önce lisanslı bir finansal uzmanla görüşün.
GPT-5.6 Sol ve Claude Fable 5: Kodlama Kıyaslamaları Yarışı İkiye Bölüyor | Yellow.com