OpenAI released GPT-5.5 op woensdag, maar nieuwe benchmarkgegevens tonen dat Anthropic's gated Claude Mythos Preview nog steeds leidt op zes van negen direct vergelijkbare tests.
GPT-5.5 Benchmark-scores
GPT-5.5 arrived in ChatGPT en Codex op 23 april, geprijsd op $5 per miljoen inputtokens en $30 voor output, het dubbele tarief van zijn voorganger.
Het model scored 82,7% op Terminal-Bench 2.0 en bleef Mythos met 0,7 punten voor op de enige benchmark waarop het duidelijk wint.
Mythos, which Anthropic withheld from public release over cybersecurity concerns, leidt op SWE-bench Pro met 77,8% tegenover 58,6%.
Het tops ook GPT-5.5 op Humanity's Last Exam zonder tools, met een score van 56,8% tegenover 41,4%. Het gated model ligt eveneens voor op CyberGym, OSWorld-Verified en long-context GraphWalks-taken.
Also Read: Top Crypto Exchanges Mandate AI Tools, Track Token Use As KPI: Report
Kanttekeningen van analisten zijn belangrijk
De vergelijking blijft onnauwkeurig omdat geen van beide labs de modellen direct tegen elkaar heeft gebenchmarkt. OpenAI chose Claude Opus 4.7 als publieke vergelijkingsbasis, terwijl Anthropics systeemkaart van 245 pagina's Mythos testte tegenover GPT-5.4.
Testomgevingen verschillen ook. OpenAI gebruikte een Codex CLI-opzet op Terminal-Bench, terwijl Anthropics Terminus-2-construct Mythos opdreef tot 92,1% onder de timingregels van Terminal-Bench 2.1.
Anthropics beslissing om Mythos te "gaten", aangekondigd op 7 april, leidde naar verluidt tot vergaderingen met de Europese Commissie en een waarschuwing van de gouverneur van de Bank of England dat het model cyberrisico's zou kunnen openbreken.
Read Next: Ethereum Nears $2,450 Showdown As Bulls And Bears Split On Next Move






