GPT-5.6 Sol ve Claude Fable 5: Kodlama Kıyaslamaları Yarışı İkiye Bölüyor

Yeni yüz yüze incelemeler, önde gelen bir kodlama kıyaslamasında %88,8 puana sahip OpenAI'nin GPT-5.6 Sol modelini, %80,3 yazılım mühendisliği derecesi olan Anthropic'in Claude Fable 5 modeliyle karşı karşıya getiriyor.

Öne Çıkan Noktalar:

GPT-5.6 Sol, Terminal-Bench 2.1'de %88,8 ile zirvede ve Ultra modu skoru %91,9'a çıkarıyor.

Claude Fable 5, SWE-Bench Pro'da %80,3 ile en geniş yayımlanmış farkı koruyor; GPT-5.5 için bu oran %58,6.

Sol, hâlâ devlet onaylı sınırlı bir ön izleme aşamasında kalırken, Fable 5 1 Temmuz'da yeniden küresel erişime açıldı.

GPT-5.6 Sol Kıyaslama İddiaları

OpenAI, GPT-5.6 ailesini ilk kez Nisan’daki GPT-5.5 sürümünden sonra 26 Haziran’da ön izlemeye sundu ve seriyi Sol’un amiral gemisi olduğu üç katmana ayırdı.

Şirkete göre Sol, planlama, yineleme ve araçları koordine eden komut satırı kodlama ajanlarını test eden Terminal-Bench 2.1'de %88,8'e ulaşıyor. Yoğun hesaplama gerektiren Ultra modu, karmaşık işleri hızlandırmak için koordine alt ajanlar çalıştırarak bu rakamı %91,9'a taşıyor; bu da Terminal-Bench tablosundaki en yüksek yayımlanmış işaret.

Yayımlanan tabloları karşılaştıran incelemeciler, aynı terminal testinde Fable 5'i Sol'un birkaç puan gerisinde konumlandırıyor; ancak verilen rakamlar %83,4 ile %84,3 arasında değişiyor. ExploitBench güvenlik paketinde ise Sol’un, çıktı tokenlarının yaklaşık üçte birini harcayarak Mythos sınıfı performansı yakaladığı, uzun ajan çalıştırmalarında önemli olan bir maliyet sıkışması sağladığı bildiriliyor.

Ön izlemenin dışındaki neredeyse hiç kimse bu rakamları henüz bağımsız olarak doğrulayamıyor; bu da birkaç incelemecinin ham puanları kabul ederken özellikle vurguladığı bir çekince.

Ayrıca Oku: OpenAI ve Anthropic UzayX Boyutunda Halka Arz İstiyor, Ancak Wall Street Zorlanabilir

Fable 5’in Kodlama Liderliği ve Fiyatlandırma

Fable 5, çoğu incelemecinin özerk yazılım çalışması için belirleyici gördüğü kıyaslamada hâlâ üstün durumda ve burada fark az değil. Gerçek GitHub sorunlarının uçtan uca düzeltilmesini ölçen SWE-Bench Pro’da %80,3 puan alıyor; bu rakam GPT-5.5 için %58,6 ve OpenAI, GPT-5.6 için burada henüz bir değer yayımlamadı.

Kodlama, akıl yürütme ve bilgi testlerinde bu büyüklükte boşluklar bulan analistler, tek bir artımlı sürümün bunları bütünüyle kapatabileceğinden şüphe duyuyor.

Fiyat ise ters yönde kesiyor; zira Sol’un milyon girdi tokenı başına 5 dolar ve çıktı için 30 dolar seviyesinde listelendiği, bunun da Fable 5’in 10 ve 50 dolarlık ücretlerinin yarısı olduğu bildiriliyor. Birçok incelemeci, mantıklı kurulumun, Sol genel kullanıma açıldığında terminal odaklı ajanları Sol’a, depo düzeyindeki düzeltmeleri ise Fable 5’e yönlendirmek olduğunu savundu.

Erişim en keskin ayrımı çiziyor; çünkü Sol yaklaşık 20 devlet onaylı ortak için sınırlı bir ön izlemede kalırken, Fable 5 1 Temmuz’da ücretli abonelere 7 Temmuz’a kadar süren geçici kullanım bonusuyla birlikte dünya çapında geri döndü.

Haziran, her iki laboratuvar için de sınır modellerine erişimi hareketli bir hedefe dönüştürdü ve bu sarsıntı her incelemenin çerçevesini belirliyor. Washington, Amazon araştırmacılarının bir jailbreak ile exploit kodu üreten çıktılar bulmasının ardından, ciddi siber güvenlik risklerini gerekçe göstererek Fable 5 ve daha güçlü kardeşi Mythos 5'i 12 Haziran’da çevrimdışı aldı. Ticaret Bakanı Howard Lutnick, Mythos 5’in sessizce yaklaşık 100 seçilmiş Amerikan kuruluşa geri dönmesinden birkaç gün sonra, iki haftalık incelemenin ardından 30 Haziran’da kısıtlamaların kaldırıldığını doğruladı.

Sıradaki Yazı: Ethereum Stake Etme Rekor Kırarken ETH Neden Hâlâ Zayıf?