Claude Mythos vs. GPT-5.5: modelo restrito da Anthropic vence 6 de 9 testes

Claude Mythos vs. GPT-5.5: modelo restrito da Anthropic vence 6 de 9 testes

OpenAI released GPT-5.5 na quarta-feira, mas novos dados de benchmark mostram que o Claude Mythos Preview restrito da Anthropic ainda lidera em seis de nove testes diretamente comparáveis.

Pontuações de benchmark do GPT-5.5

O GPT-5.5 arrived no ChatGPT e no Codex em 23 de abril, com preço de US$ 5 por milhão de tokens de entrada e US$ 30 por milhão de tokens de saída, o dobro da taxa de seu antecessor.

O modelo scored 82,7% no Terminal-Bench 2.0, superando o Mythos por 0,7 ponto, no único benchmark em que vence claramente.

Mythos, which Anthropic withheld from public release over cybersecurity concerns, lidera no SWE-bench Pro com 77,8% contra 58,6%.

Ele também tops o GPT-5.5 no Humanity's Last Exam sem ferramentas, marcando 56,8% contra 41,4%. O modelo restrito também lidera no CyberGym, OSWorld-Verified e em tarefas de GraphWalks de longo contexto.

Also Read: Top Crypto Exchanges Mandate AI Tools, Track Token Use As KPI: Report

As ressalvas dos analistas importam

A comparação continua imprecisa porque nenhum dos laboratórios colocou os modelos lado a lado diretamente nos mesmos benchmarks. A OpenAI chose o Claude Opus 4.7 como comparador público, enquanto o system card de 245 páginas da Anthropic avaliou o Mythos em relação ao GPT-5.4.

Os ambientes de teste também divergem. A OpenAI usou uma configuração Codex CLI no Terminal-Bench, enquanto o scaffold Terminus-2 da Anthropic levou o Mythos a 92,1% sob as regras de tempo do Terminal-Bench 2.1.

A decisão da Anthropic de restringir o acesso ao Mythos, anunciada em 7 de abril, teria provocado reuniões com a Comissão Europeia e um alerta do presidente do Banco da Inglaterra de que o modelo poderia escancarar riscos cibernéticos.

Read Next: Ethereum Nears $2,450 Showdown As Bulls And Bears Split On Next Move

Isenção de responsabilidade e aviso de risco: As informações fornecidas neste artigo são apenas para fins educacionais e informativos e são baseadas na opinião do autor. Elas não constituem aconselhamento financeiro, de investimento, jurídico ou tributário. Ativos de criptomoedas são altamente voláteis e sujeitos a alto risco, incluindo o risco de perder todo ou uma quantia substancial do seu investimento. Negociar ou manter ativos cripto pode não ser adequado para todos os investidores. As opiniões expressas neste artigo são exclusivamente do(s) autor(es) e não representam a política oficial ou posição da Yellow, seus fundadores ou seus executivos. Sempre conduza sua própria pesquisa minuciosa (D.Y.O.R.) e consulte um profissional financeiro licenciado antes de tomar qualquer decisão de investimento.
Últimas Notícias
Mostrar Todas as Notícias
Claude Mythos vs. GPT-5.5: modelo restrito da Anthropic vence 6 de 9 testes | Yellow.com