Claude Mythos Vs. GPT-5.5: modelo limitado da Anthropic vence 6 de 9 testes

Claude Mythos Vs. GPT-5.5: modelo limitado da Anthropic vence 6 de 9 testes

OpenAI released GPT-5.5 na quarta-feira, mas novos dados de benchmark mostram que o Claude Mythos Preview limitado da Anthropic ainda lidera em seis de nove testes diretamente comparáveis.

Pontuações de benchmark do GPT-5.5

O GPT-5.5 arrived no ChatGPT e no Codex em 23 de abril, com preço de US$ 5 por milhão de tokens de entrada e US$ 30 para saída, o dobro da taxa de seu antecessor.

O modelo scored 82,7% no Terminal-Bench 2.0, superando o Mythos por 0,7 ponto no único benchmark em que vence claramente.

Mythos, que a Anthropic deixou de lançar publicamente por preocupações de cibersegurança, lidera no SWE-bench Pro com 77,8% contra 58,6%.

Ele também tops o GPT-5.5 no Humanity's Last Exam sem ferramentas, com 56,8% contra 41,4%. O modelo limitado também lidera no CyberGym, OSWorld-Verified e em tarefas de GraphWalks de longo contexto.

Also Read: Top Crypto Exchanges Mandate AI Tools, Track Token Use As KPI: Report

As ressalvas dos analistas importam

A comparação continua imprecisa porque nenhum dos laboratórios avaliou diretamente os modelos entre si. A OpenAI chose o Claude Opus 4.7 como comparador público, enquanto o system card de 245 páginas da Anthropic analisou o Mythos em relação ao GPT-5.4.

Os frameworks de teste também divergem. A OpenAI usou uma configuração Codex CLI no Terminal-Bench, enquanto o scaffold Terminus-2 da Anthropic levou o Mythos a 92,1% sob as regras de tempo do Terminal-Bench 2.1.

A decisão da Anthropic de limitar o Mythos, anunciada em 7 de abril, supostamente desencadeou reuniões com a Comissão Europeia e um alerta do presidente do Banco da Inglaterra de que o modelo poderia abrir brechas em riscos cibernéticos.

Read Next: Ethereum Nears $2,450 Showdown As Bulls And Bears Split On Next Move

Disclaimer e aviso de risco: As informações fornecidas neste artigo são apenas para fins educacionais e informativos e baseiam-se na opinião do autor. Não constituem aconselhamento financeiro, de investimento, legal ou fiscal. Os ativos de criptomoeda são altamente voláteis e sujeitos a alto risco, incluindo o risco de perder todo ou uma quantia substancial do seu investimento. Negociar ou deter ativos cripto pode não ser adequado para todos os investidores. As opiniões expressas neste artigo são exclusivamente do(s) autor(es) e não representam a política oficial ou posição da Yellow, seus fundadores ou executivos. Sempre conduza a sua própria pesquisa minuciosa (D.Y.O.R.) e consulte um profissional financeiro licenciado antes de tomar qualquer decisão de investimento.
Claude Mythos Vs. GPT-5.5: modelo limitado da Anthropic vence 6 de 9 testes | Yellow.com