Notícias Aprender Pesquisa Classificação Ecossistema

PLATAFORMA AO VIVO

yellow bottom left star road

Claude Mythos vs. GPT-5.5: modelo restrito da Anthropic vence 6 de 9 testes

Alexey BondarevApr, 24 2026 5:36

#IA #OpenAI #ChatGPT #Anthropic #Claude Mythos

Claude Mythos vs. GPT-5.5: modelo restrito da Anthropic vence 6 de 9 testes

OpenAI released GPT-5.5 na quarta-feira, mas novos dados de benchmark mostram que o Claude Mythos Preview restrito da Anthropic ainda lidera em seis de nove testes diretamente comparáveis.

Pontuações de benchmark do GPT-5.5

O GPT-5.5 arrived no ChatGPT e no Codex em 23 de abril, com preço de US$ 5 por milhão de tokens de entrada e US$ 30 por milhão de tokens de saída, o dobro da taxa de seu antecessor.

O modelo scored 82,7% no Terminal-Bench 2.0, superando o Mythos por 0,7 ponto, no único benchmark em que vence claramente.

Mythos, which Anthropic withheld from public release over cybersecurity concerns, lidera no SWE-bench Pro com 77,8% contra 58,6%.

Ele também tops o GPT-5.5 no Humanity's Last Exam sem ferramentas, marcando 56,8% contra 41,4%. O modelo restrito também lidera no CyberGym, OSWorld-Verified e em tarefas de GraphWalks de longo contexto.

Also Read: Top Crypto Exchanges Mandate AI Tools, Track Token Use As KPI: Report

As ressalvas dos analistas importam

A comparação continua imprecisa porque nenhum dos laboratórios colocou os modelos lado a lado diretamente nos mesmos benchmarks. A OpenAI chose o Claude Opus 4.7 como comparador público, enquanto o system card de 245 páginas da Anthropic avaliou o Mythos em relação ao GPT-5.4.

Os ambientes de teste também divergem. A OpenAI usou uma configuração Codex CLI no Terminal-Bench, enquanto o scaffold Terminus-2 da Anthropic levou o Mythos a 92,1% sob as regras de tempo do Terminal-Bench 2.1.

A decisão da Anthropic de restringir o acesso ao Mythos, anunciada em 7 de abril, teria provocado reuniões com a Comissão Europeia e um alerta do presidente do Banco da Inglaterra de que o modelo poderia escancarar riscos cibernéticos.

Read Next: Ethereum Nears $2,450 Showdown As Bulls And Bears Split On Next Move

Isenção de responsabilidade e aviso de risco: As informações fornecidas neste artigo são apenas para fins educacionais e informativos e são baseadas na opinião do autor. Elas não constituem aconselhamento financeiro, de investimento, jurídico ou tributário. Ativos de criptomoedas são altamente voláteis e sujeitos a alto risco, incluindo o risco de perder todo ou uma quantia substancial do seu investimento. Negociar ou manter ativos cripto pode não ser adequado para todos os investidores. As opiniões expressas neste artigo são exclusivamente do(s) autor(es) e não representam a política oficial ou posição da Yellow, seus fundadores ou seus executivos. Sempre conduza sua própria pesquisa minuciosa (D.Y.O.R.) e consulte um profissional financeiro licenciado antes de tomar qualquer decisão de investimento.

Últimas Notícias

Mostrar Todas as Notícias

Mercados de apostas reduzem Rodriguez a 5% antes de ela abandonar corrida ao governo de Wisconsin

Sara Rodriguez abandona disputa em Wisconsin após escândalo financeiro; mercados já precificavam queda de suas chances para perto de 5%.

Apple supera Nvidia com valor de US$ 4,88 trilhões, mas vantagem mínima pode sumir rápido

Apple ultrapassa Nvidia em valor de mercado com US$ 4,88 tri, mas distância é mínima e pode inverter com qualquer oscilação nas ações.

DeepSeek capta US$ 7,4 bilhões e coloca laboratório de IA da China na liga dos gigantes

DeepSeek levanta US$ 7,4 bi, avaliada em US$ 52 bi, com Tencent e CATL à frente, marcando virada comercial na corrida chinesa de IA.

Notícias Relacionadas

GPT-5.6 Sol vs Claude Fable 5: benchmarks de código mostram corrida dividida

Comparação entre GPT-5.6 Sol e Claude Fable 5 em benchmarks de código, preços e acesso, com liderança dividida e restrições regulatórias.

Claude Opus 4.8 supera Gemini e GPT em vários testes de código

Anthropic lança Claude Opus 4.8, que supera GPT-5.5 e Gemini 3.1 Pro em benchmarks de código e traz melhorias em custo, velocidade e segurança.

Claude Mythos AI supera rivais em auditorias de código, mas perde com preço 5x mais alto

XBOW confirma liderança do Mythos em segurança de código, mas preço 5x maior reduz vantagem frente a rivais como o GPT-5.5 em custo-benefício.

OpenAI lança o GPT-5.5, supera o Opus 4.7 em tarefas de agentes e em 14 benchmarks

OpenAI lança o GPT-5.5, modelo voltado para trabalho autônomo e multi‑etapas, superando o Claude Opus 4.7 em 14 benchmarks de referência.

GPT-5.6 Sol realmente venceu o Fable 5, ou só levou a coroa mais fácil?

Sol vence em Terminal-Bench, Fable 5 lidera em SWE-Bench Pro; métricas dividem a “coroa” de código e testes de segurança levantam dúvidas.

Artigos de pesquisa relacionados

Como o Claude Mythos Pode Remodelar o Setor Financeiro e a Indústria de Cripto

Claude Mythos pode mudar cibersegurança, finanças e cripto, ao encontrar falhas críticas sozinho e ser acessível só a grandes parceiros, não ao público.

Claude Mythos e Cripto: o que a nova ameaça de IA significa para o trading

Modelo Claude Mythos descobriu milhares de falhas de dia zero; risco aumenta para cripto com hacks recordes e ofensivas de IA mais rápidas.

42 estados já investigam a OpenAI enquanto Wall Street mira o IPO

42 estados investigam a OpenAI após IPO de US$ 852 bi, exigindo dados sobre segurança, uso de dados e conversão de entidade sem fins lucrativos, afetando o cronograma.

Os tokens de IA são a próxima grande tendência cripto depois dos memecoins?

Tokens de IA encostam nos memecoins após colapso do setor, mas queda de 85% em tokens de agentes expõe riscos e dúvidas sobre nova bolha.

Corretoras de Cripto Como Bancos Sombra: 10 Riscos Estruturais Que o Relatório do BIS Revela em 2026

Análise do alerta de 2026 do BIS sobre corretoras de cripto atuando como bancos sombra e os 10 riscos estruturais para investidores.

Artigos de aprendizado relacionados

A IA descentralizada pode manter seus prompts privados?

Redes de IA privada descentralizada permitem rodar modelos sem expor prompts ou respostas, usando hardware seguro, criptografia e tokens como VVV.

Allora Network explica como modelos de IA conquistam confiança on-chain

Como redes descentralizadas de inferência em IA usam vários modelos concorrentes para gerar previsões mais confiáveis e úteis para o ecossistema cripto.

Por que Agentes de IA Não Conseguem Escalar sem sua Própria Camada de Blockchain

Agentes de IA exigem infraestrutura on-chain própria: contas programáveis, execução sem gás e roteamento por intenção, além de novos modelos de carteira.

Marketplaces de dados para IA estão entrando em operação, aqui está o que você precisa saber

Marketplaces descentralizados de dados para IA usam cripto, verificação, privacidade e tokens para pagar diretamente por dados usados em treinamento.

Como Usar Ferramentas de IA para Pesquisa de Investimento em Criptomoedas: Guia Completo 2025

Não traduzir links de markdown. O cenário de investimento em criptomoedas foi revolucionado pela inteligência artificial, criando oportunidades sem precedentes para investidores.

Claude Mythos vs. GPT-5.5: modelo restrito da Anthropic vence 6 de 9 testes | Yellow