OpenAI released GPT-5.5 mercoledì, ma nuovi dati di benchmark mostrano che Anthropic's gated Claude Mythos Preview resta in testa in sei dei nove test direttamente confrontabili.
Punteggi di benchmark di GPT-5.5
GPT-5.5 arrived in ChatGPT e Codex il 23 aprile, con un prezzo di 5 dollari per milione di token in input e 30 dollari per l’output, il doppio rispetto al suo predecessore.
Il modello scored l’82,7% su Terminal-Bench 2.0, superando Mythos di 0,7 punti sull’unico benchmark in cui vince chiaramente.
Mythos, which Anthropic withheld from public release over cybersecurity concerns, è in vantaggio su SWE-bench Pro con il 77,8% contro il 58,6%.
Inoltre tops GPT-5.5 su Humanity's Last Exam senza strumenti, con un punteggio del 56,8% contro il 41,4%. Il modello con accesso limitato è in testa anche su CyberGym, OSWorld-Verified e sui compiti di GraphWalks a lungo contesto.
Also Read: Top Crypto Exchanges Mandate AI Tools, Track Token Use As KPI: Report
Le avvertenze degli analisti contano
Il confronto rimane impreciso perché nessun laboratorio ha messo i modelli alla prova direttamente l’uno contro l’altro. OpenAI chose Claude Opus 4.7 come comparatore pubblico, mentre la system card di 245 pagine di Anthropic ha confrontato Mythos con GPT-5.4.
Anche gli strumenti di test divergono. OpenAI ha utilizzato una configurazione CLI di Codex su Terminal-Bench, mentre l’impalcatura Terminus-2 di Anthropic ha spinto Mythos al 92,1% secondo le regole di timing di Terminal-Bench 2.1.
La decisione di Anthropic di limitare l’accesso a Mythos, annunciata il 7 aprile, avrebbe portato a riunioni con la Commissione europea e a un avvertimento del governatore della Bank of England sul fatto che il modello potrebbe far esplodere il rischio cyber.
Read Next: Ethereum Nears $2,450 Showdown As Bulls And Bears Split On Next Move






