OpenAI released GPT-5.5 mercredi, mais de nouvelles données de benchmark montrent que Anthropic's gated Claude Mythos Preview reste en tête sur six des neuf tests directement comparables.
Scores de benchmark de GPT-5.5
GPT-5.5 arrived dans ChatGPT et Codex le 23 avril, au prix de 5 $ par million de tokens en entrée et 30 $ pour la sortie, soit le double du tarif de son prédécesseur.
Le modèle scored 82,7 % sur Terminal-Bench 2.0, devançant Mythos de 0,7 point sur le seul benchmark où il s'impose clairement.
Mythos, which Anthropic withheld from public release over cybersecurity concerns, domine sur SWE-bench Pro avec 77,8 % contre 58,6 %.
Il tops également GPT-5.5 sur Humanity's Last Exam sans outils, avec un score de 56,8 % contre 41,4 %. Le modèle à accès restreint reste en tête sur CyberGym, OSWorld-Verified et les tâches de long contexte GraphWalks.
Also Read: Top Crypto Exchanges Mandate AI Tools, Track Token Use As KPI: Report
Les mises en garde des analystes comptent
La comparaison reste imprécise, car aucun des laboratoires n'a benchmarké les modèles directement l'un contre l'autre. OpenAI chose Claude Opus 4.7 comme modèle de comparaison publique, tandis que la fiche système de 245 pages d'Anthropic opposait Mythos à GPT-5.4.
Les environnements de test divergent également. OpenAI a utilisé une configuration CLI Codex sur Terminal-Bench, tandis que le framework Terminus-2 d'Anthropic a poussé Mythos à 92,1 % selon les règles de minutage de Terminal-Bench 2.1.
La décision d'Anthropic de restreindre l'accès à Mythos, annoncée le 7 avril, aurait déclenché des réunions avec la Commission européenne et un avertissement du gouverneur de la Banque d'Angleterre indiquant que le modèle pourrait bouleverser la gestion du risque cyber.
Read Next: Ethereum Nears $2,450 Showdown As Bulls And Bears Split On Next Move






