OpenAI released GPT-5.5 na quarta-feira, mas novos dados de benchmark mostram que o Claude Mythos Preview limitado da Anthropic ainda lidera em seis de nove testes diretamente comparáveis.
Pontuações de benchmark do GPT-5.5
O GPT-5.5 arrived no ChatGPT e no Codex em 23 de abril, com preço de US$ 5 por milhão de tokens de entrada e US$ 30 para saída, o dobro da taxa de seu antecessor.
O modelo scored 82,7% no Terminal-Bench 2.0, superando o Mythos por 0,7 ponto no único benchmark em que vence claramente.
Mythos, que a Anthropic deixou de lançar publicamente por preocupações de cibersegurança, lidera no SWE-bench Pro com 77,8% contra 58,6%.
Ele também tops o GPT-5.5 no Humanity's Last Exam sem ferramentas, com 56,8% contra 41,4%. O modelo limitado também lidera no CyberGym, OSWorld-Verified e em tarefas de GraphWalks de longo contexto.
Also Read: Top Crypto Exchanges Mandate AI Tools, Track Token Use As KPI: Report
As ressalvas dos analistas importam
A comparação continua imprecisa porque nenhum dos laboratórios avaliou diretamente os modelos entre si. A OpenAI chose o Claude Opus 4.7 como comparador público, enquanto o system card de 245 páginas da Anthropic analisou o Mythos em relação ao GPT-5.4.
Os frameworks de teste também divergem. A OpenAI usou uma configuração Codex CLI no Terminal-Bench, enquanto o scaffold Terminus-2 da Anthropic levou o Mythos a 92,1% sob as regras de tempo do Terminal-Bench 2.1.
A decisão da Anthropic de limitar o Mythos, anunciada em 7 de abril, supostamente desencadeou reuniões com a Comissão Europeia e um alerta do presidente do Banco da Inglaterra de que o modelo poderia abrir brechas em riscos cibernéticos.
Read Next: Ethereum Nears $2,450 Showdown As Bulls And Bears Split On Next Move






