Nieuwe vergelijkende reviews zetten OpenAI's GPT-5.6 Sol, houder van een score van 88,8% op een toonaangevende codingbenchmark, tegenover Anthropic's Claude Fable 5 en diens software-engineeringscore van 80,3%.
Belangrijkste punten:
- GPT-5.6 Sol staat bovenaan Terminal-Bench 2.1 met 88,8%, en de Ultra-modus stuwt de score naar 91,9%.
- Claude Fable 5 behoudt de breedste gepubliceerde voorsprong op SWE-Bench Pro met 80,3%, tegenover 58,6% voor GPT-5.5.
- Sol blijft beperkt tot een door de overheid goedgekeurde preview, terwijl Fable 5 sinds 1 juli weer wereldwijd beschikbaar is.
Benchmarkclaims voor GPT-5.6 Sol
OpenAI presenteerde de GPT-5.6-familie op 26 juni, de eerste release sinds GPT-5.5 in april, waarbij de lijn in drie niveaus werd gesplitst met Sol als vlaggenschip.
Het bedrijf stelt dat Sol 88,8% haalt op Terminal-Bench 2.1, een test voor commandline-coderingsagenten die plannen, itereren en tools coördineren. Een rekenintensieve Ultra-modus, die gecoördineerde subagenten opstart om complex werk te versnellen, rekt dat cijfer op tot 91,9%, de hoogste gepubliceerde score op de Terminal-Bench-ranglijst.
Reviewers die de gepubliceerde grafieken vergeleken plaatsen Fable 5 enkele punten achter Sol op dezelfde terminaltest, al lopen de genoemde cijfers uiteen tussen 83,4% en 84,3%. Op de ExploitBench-beveiligingssuite zou Sol prestaties op Mythos-niveau evenaren terwijl het ongeveer een derde van de outputtokens verbruikt, een kostenreductie die zwaar weegt bij lange agentruns.
Bijna niemand buiten de preview kan die cijfers voorlopig onafhankelijk verifiëren, een kanttekening die meerdere reviewers maakten terwijl ze de ruwe scores toch erkenden.
Ook lezen: OpenAI en Anthropic willen SpaceX-achtige IPO's, maar Wall Street kan struikelen
Fable 5: coderingsvoorsprong en prijs
Fable 5 heeft nog steeds de benchmark in handen die de meeste reviewers zien als doorslaggevend voor autonoom softwarewerk, en zijn voorsprong daar is niet gering. Het haalt 80,3% op SWE-Bench Pro, dat end-to-end fixes van echte GitHub-issues meet, tegenover 58,6% voor de oudere GPT-5.5, en OpenAI heeft daar nog geen GPT-5.6-cijfer gepubliceerd.
Analisten die zulke grote gaten vaststelden over coding-, redeneer- en kennistests betwijfelen dat één incrementele release die volledig kan dichten.
De prijs werkt de andere kant op, want Sol zou geprijsd zijn op $5 per miljoen inputtokens en $30 voor output, de helft van Fable 5’s $10 en $50. Verschillende reviewers betoogden dat een verstandige opstelling terminalgestuurde agents naar Sol stuurt, zodra die opent, en repository-brede fixes naar Fable 5.
Toegang vormt de scherpste scheidslijn, omdat Sol beperkt blijft tot een preview voor ongeveer 20 door de overheid goedgekeurde partners, terwijl Fable 5 wereldwijd terugkeerde op 1 juli met een tijdelijke gebruiksbonus voor betalende abonnees tot en met 7 juli.
Juni maakte toegang tot frontiermodellen tot een bewegend doelwit voor beide labs, en die schokbeweging vormt de context voor elke review. Washington dwong Fable 5 en de krachtigere broer Mythos 5 offline op 12 juni, onder verwijzing naar ernstige cyberbeveiligingsrisico’s, nadat onderzoekers van Amazon een jailbreak hadden gevonden die exploitcode produceerde. Minister van Handel Howard Lutnick bevestigde de koerswijziging op 30 juni na een twee weken durende herbeoordeling, enkele dagen nadat Mythos 5 stilletjes was teruggekeerd bij circa 100 zorgvuldig gescreende Amerikaanse organisaties.
Lees hierna: Waarom blijft ETH zwak terwijl Ethereum-staking recordhoogtes bereikt?





