OpenAI released GPT-5.5 na quarta-feira, mas novos dados de benchmark mostram que o Claude Mythos Preview restrito da Anthropic ainda lidera em seis de nove testes diretamente comparáveis.
Pontuações de benchmark do GPT-5.5
O GPT-5.5 arrived no ChatGPT e no Codex em 23 de abril, com preço de US$ 5 por milhão de tokens de entrada e US$ 30 por milhão de tokens de saída, o dobro da taxa de seu antecessor.
O modelo scored 82,7% no Terminal-Bench 2.0, superando o Mythos por 0,7 ponto, no único benchmark em que vence claramente.
Mythos, which Anthropic withheld from public release over cybersecurity concerns, lidera no SWE-bench Pro com 77,8% contra 58,6%.
Ele também tops o GPT-5.5 no Humanity's Last Exam sem ferramentas, marcando 56,8% contra 41,4%. O modelo restrito também lidera no CyberGym, OSWorld-Verified e em tarefas de GraphWalks de longo contexto.
Also Read: Top Crypto Exchanges Mandate AI Tools, Track Token Use As KPI: Report
As ressalvas dos analistas importam
A comparação continua imprecisa porque nenhum dos laboratórios colocou os modelos lado a lado diretamente nos mesmos benchmarks. A OpenAI chose o Claude Opus 4.7 como comparador público, enquanto o system card de 245 páginas da Anthropic avaliou o Mythos em relação ao GPT-5.4.
Os ambientes de teste também divergem. A OpenAI usou uma configuração Codex CLI no Terminal-Bench, enquanto o scaffold Terminus-2 da Anthropic levou o Mythos a 92,1% sob as regras de tempo do Terminal-Bench 2.1.
A decisão da Anthropic de restringir o acesso ao Mythos, anunciada em 7 de abril, teria provocado reuniões com a Comissão Europeia e um alerta do presidente do Banco da Inglaterra de que o modelo poderia escancarar riscos cibernéticos.
Read Next: Ethereum Nears $2,450 Showdown As Bulls And Bears Split On Next Move






