Claude Mythos AI supera rivais em auditorias de código, mas perde com preço 5x mais alto

Anthropic's Mythos AI model lidera sistemas rivais na detecção de vulnerabilidades de software, mas novos benchmarks independentes expõem julgamento mais fraco e custos de operação elevados.

Preview do Mythos lidera auditorias de código-fonte

A empresa de segurança ofensiva XBOW confirmou a principal alegação. A firma montou uma equipe de 10 especialistas para avaliar o modelo em benchmarks, fluxos de trabalho e integrações.

A XBOW afirmou que o Mythos Preview “representa um avanço significativo em relação a todos os modelos existentes, independentemente do provedor”. Os avaliadores rodaram o modelo contra aplicações open source congeladas, com vulnerabilidades conhecidas.

O Mythos reduziu falsos negativos em 42% em comparação ao Opus 4.6, com a redução chegando a 55% quando o modelo teve acesso ao código-fonte, conforme relatou o The Decoder. O modelo se destacou em testes combinando ambiente ao vivo e código-fonte. Ele teve desempenho menos consistente quando recebeu apenas o código.

Also Read: XRP ETFs Hit Record $1.39B But Token Loses 4th Spot To BNB

Questão de custo limita a vantagem da Anthropic

A Anthropic indicou que o Mythos Preview será cerca de 5 vezes mais caro do que um modelo Opus, que já está entre as opções mais caras do mercado. Esse prêmio levou a XBOW a testar se um concorrente mais barato poderia igualar o Mythos com mais tempo de execução.

A resposta foi sim. Com um orçamento fixo de tokens para descoberta de vulnerabilidades na web, o Mythos superou o Opus 4.6, mas perdeu para o GPT-5.5 da OpenAI, que a XBOW registrou com taxa de falhas de 10%. A XBOW observou que o modelo “não é terrivelmente ineficiente” se a precisão for o objetivo, mas deixa de ser o melhor da categoria quando a normalização por custo entra na conta.

A empresa agora recomenda usar uma combinação de modelos em vez de depender de apenas um.

Desempenho do Mythos AI em contexto

O Mythos apresentou um julgamento misto, rejeitando falsos positivos melhor do que seus predecessores, mas às vezes descartando positivos verdadeiros quando as evidências não atendiam a seus critérios formais. Engenharia reversa e análise de código nativo estavam entre suas habilidades mais fortes, com o modelo capaz de priorizar achados de sistemas concorrentes.

Anthropic first unveiled Mythos in early April, restringindo o acesso a cerca de 50 parceiros e apresentando o lançamento como uma mudança de patamar na capacidade cibernética de IA. O Instituto de Segurança de IA do Reino Unido posteriormente afirmou que tanto o Mythos quanto o GPT-5.5 “superaram substancialmente” sua projeção acelerada. A agência agora estima que as capacidades cibernéticas dobram a cada 4,7 meses, ante a estimativa anterior de oito meses definida em novembro de 2025.