OpenAI released GPT-5.5 am Mittwoch, aber neue Benchmarkdaten zeigen, dass Anthropic's gated Claude Mythos Preview weiterhin in sechs von neun direkt vergleichbaren Tests führt.
GPT-5.5-Benchmark-Ergebnisse
GPT-5.5 arrived in ChatGPT und Codex am 23. April, zum Preis von 5 US‑Dollar pro Million Eingabetokens und 30 US‑Dollar für Ausgabe, also doppelt so teuer wie sein Vorgänger.
Das Modell scored 82,7 % auf Terminal-Bench 2.0 und übertraf Mythos um 0,7 Punkte – der einzige Benchmark, bei dem es klar gewinnt.
Mythos, which Anthropic withheld from public release over cybersecurity concerns, liegt bei SWE-bench Pro mit 77,8 % gegenüber 58,6 % vorn.
Es tops GPT-5.5 außerdem bei Humanity's Last Exam ohne Tools und erzielt 56,8 % gegenüber 41,4 %. Das gesperrte Modell führt auch bei CyberGym, OSWorld-Verified und Long-Context-GraphWalks-Aufgaben.
Also Read: Top Crypto Exchanges Mandate AI Tools, Track Token Use As KPI: Report
Analysten-Einschränkungen sind wichtig
Der Vergleich bleibt ungenau, weil keines der Labore die Modelle direkt gegeneinander benchmarkte. OpenAI chose Claude Opus 4.7 als öffentlichen Vergleich, während Anthropics 245‑seitige Systemkarte Mythos gegen GPT-5.4 antreten ließ.
Auch die Testumgebungen unterscheiden sich. OpenAI nutzte ein Codex-CLI-Setup auf Terminal-Bench, während Anthropics Terminus-2-Gerüst Mythos auf 92,1 % unter den Zeitregeln von Terminal-Bench 2.1 brachte.
Anthropics Entscheidung, Mythos zu sperren, die am 7. April bekannt gegeben wurde, führte Berichten zufolge zu Gesprächen mit der Europäischen Kommission und einer Warnung des Gouverneurs der Bank of England, dass das Modell Cyberrisiken aufbrechen könnte.
Read Next: Ethereum Nears $2,450 Showdown As Bulls And Bears Split On Next Move






