Claude Mythos vs. GPT-5.5: Gated Anthropic-model wint 6 van de 9 tests

Claude Mythos vs. GPT-5.5: Gated Anthropic-model wint 6 van de 9 tests

OpenAI released GPT-5.5 op woensdag, maar nieuwe benchmarkgegevens tonen dat Anthropic's gated Claude Mythos Preview nog steeds leidt op zes van negen direct vergelijkbare tests.

GPT-5.5 Benchmark-scores

GPT-5.5 arrived in ChatGPT en Codex op 23 april, geprijsd op $5 per miljoen inputtokens en $30 voor output, het dubbele tarief van zijn voorganger.

Het model scored 82,7% op Terminal-Bench 2.0 en bleef Mythos met 0,7 punten voor op de enige benchmark waarop het duidelijk wint.

Mythos, which Anthropic withheld from public release over cybersecurity concerns, leidt op SWE-bench Pro met 77,8% tegenover 58,6%.

Het tops ook GPT-5.5 op Humanity's Last Exam zonder tools, met een score van 56,8% tegenover 41,4%. Het gated model ligt eveneens voor op CyberGym, OSWorld-Verified en long-context GraphWalks-taken.

Also Read: Top Crypto Exchanges Mandate AI Tools, Track Token Use As KPI: Report

Kanttekeningen van analisten zijn belangrijk

De vergelijking blijft onnauwkeurig omdat geen van beide labs de modellen direct tegen elkaar heeft gebenchmarkt. OpenAI chose Claude Opus 4.7 als publieke vergelijkingsbasis, terwijl Anthropics systeemkaart van 245 pagina's Mythos testte tegenover GPT-5.4.

Testomgevingen verschillen ook. OpenAI gebruikte een Codex CLI-opzet op Terminal-Bench, terwijl Anthropics Terminus-2-construct Mythos opdreef tot 92,1% onder de timingregels van Terminal-Bench 2.1.

Anthropics beslissing om Mythos te "gaten", aangekondigd op 7 april, leidde naar verluidt tot vergaderingen met de Europese Commissie en een waarschuwing van de gouverneur van de Bank of England dat het model cyberrisico's zou kunnen openbreken.

Read Next: Ethereum Nears $2,450 Showdown As Bulls And Bears Split On Next Move

Disclaimer en risicowaarschuwing: De informatie in dit artikel is uitsluitend voor educatieve en informatieve doeleinden en is gebaseerd op de mening van de auteur. Het vormt geen financieel, investerings-, juridisch of belastingadvies. Cryptocurrency-assets zijn zeer volatiel en onderhevig aan hoog risico, inclusief het risico om uw gehele of een substantieel deel van uw investering te verliezen. Het handelen in of aanhouden van crypto-assets is mogelijk niet geschikt voor alle beleggers. De meningen die in dit artikel worden geuit zijn uitsluitend die van de auteur(s) en vertegenwoordigen niet het officiële beleid of standpunt van Yellow, haar oprichters of haar leidinggevenden. Voer altijd uw eigen grondig onderzoek uit (D.Y.O.R.) en raadpleeg een gelicentieerde financiële professional voordat u een investeringsbeslissing neemt.
Claude Mythos vs. GPT-5.5: Gated Anthropic-model wint 6 van de 9 tests | Yellow.com