GPT-5.6 Sol vs Claude Fable 5: coderingsbenchmarks tonen verdeeld veld

Nieuwe rechtstreekse vergelijkingen zetten OpenAI's GPT-5.6 Sol, houder van een score van 88,8% op een toonaangevende coderingsbenchmark, tegenover Anthropic's Claude Fable 5 en zijn software‑engineeringcijfer van 80,3%.

Belangrijkste punten:

GPT-5.6 Sol staat bovenaan Terminal-Bench 2.1 met 88,8%, en de Ultra‑modus duwt de score naar 91,9%.

Claude Fable 5 behoudt de ruimste gepubliceerde voorsprong op SWE-Bench Pro met 80,3%, tegenover 58,6% voor GPT-5.5.

Sol blijft beperkt tot een door de overheid goedgekeurde preview, terwijl Fable 5 sinds 1 juli weer wereldwijd beschikbaar is.

Benchmarkclaims van GPT-5.6 Sol

OpenAI presenteerde een preview van de GPT-5.6‑familie op 26 juni, de eerste release sinds GPT-5.5 in april, en splitste de lijn op in drie niveaus met Sol als vlaggenschip.

Het bedrijf stelt dat Sol 88,8% haalt op Terminal-Bench 2.1, een test voor command‑line coderingsagenten die plannen, itereren en tools coördineren. Een rekenintensieve Ultra‑modus, die gecoördineerde subagenten opstart om complex werk te versnellen, rekt dat cijfer op tot 91,9%, de hoogste gepubliceerde score op de Terminal-Bench‑ranglijst.

Reviewers die de gepubliceerde tabellen vergeleken, plaatsen Fable 5 verschillende punten achter Sol op dezelfde terminaltest, al variëren de genoemde cijfers tussen 83,4% en 84,3%. Op de ExploitBench‑beveiligingssuite zou Sol prestaties op Mythos‑niveau evenaren terwijl het ongeveer een derde van de outputtokens verbruikt, een kostenverlaging die zwaar weegt bij lange agentruns.

Buiten de preview kan bijna niemand die cijfers voorlopig onafhankelijk verifiëren, een kanttekening die verschillende reviewers aanhaalden terwijl ze de ruwe scores toch erkenden.

Ook lezen: OpenAI en Anthropic willen SpaceX‑achtige beursgangen, maar Wall Street kan zich verslikken

Coderingsvoorsprong en prijsstelling van Fable 5

Fable 5 bezit nog steeds de benchmark die de meeste reviewers doorslaggevend vinden voor autonoom softwarewerk, en die voorsprong is niet klein. Het scoort 80,3% op SWE-Bench Pro, dat end‑to‑end‑oplossingen voor echte GitHub‑issues meet, tegenover 58,6% voor de oudere GPT-5.5, en OpenAI heeft daar nog geen GPT-5.6‑cijfer gepubliceerd.

Analisten die zulke grote verschillen vaststelden in coding-, redeneer- en kennistests, betwijfelen dat één incrementele release die kloof volledig kan dichten.

De prijs slaat de andere kant uit, aangezien Sol naar verluidt wordt aangeboden voor $5 per miljoen inputtokens en $30 voor output, de helft van Fable 5’s $10 en $50. Verschillende reviewers voerden aan dat een verstandige setup terminal‑gedreven agenten, zodra Sol breder opent, naar Sol stuurt en repository‑brede fixes naar Fable 5.

Toegang vormt de scherpste scheidslijn, aangezien Sol beperkt blijft tot een preview voor ongeveer 20 door de overheid goedgekeurde partners, terwijl Fable 5 op 1 juli wereldwijd terugkeerde met een tijdelijke gebruiksbonus voor betalende abonnees tot en met 7 juli.

Juni maakte de toegang tot frontier‑modellen voor beide laboratoria tot een bewegend doelwit, en die slingerbeweging kleurt elke review. Washington dwong Fable 5 en zijn krachtigere broer Mythos 5 offline op 12 juni, onder verwijzing naar ernstige cybersecurityrisico’s, nadat onderzoekers van Amazon een jailbreak hadden gevonden die exploitcode produceerde. Handelsminister Howard Lutnick bevestigde de ommezwaai op 30 juni na een twee weken durende evaluatie, enkele dagen nadat Mythos 5 stilletjes was teruggekeerd bij ongeveer 100 gescreende Amerikaanse organisaties.

Lees hierna: Waarom blijft ETH zwak terwijl Ethereum‑staking recordhoogtes bereikt?