Claude Mythos AI supera rivais em auditorias de código, mas perde com preço 5x mais alto

Anthropic's Mythos AI model lidera sistemas rivais na detecção de vulnerabilidades de software, mas novos benchmarks independentes expõem julgamento mais fraco e custos de operação elevados.

Mythos Preview lidera auditorias de código-fonte

A empresa de segurança ofensiva XBOW confirmed a alegação principal. A empresa reuniu uma equipe de 10 especialistas para avaliar o modelo em benchmarks, fluxos de trabalho e integrações.

A XBOW afirmou que o Mythos Preview “representa um avanço significativo em relação a todos os modelos existentes, independentemente do provedor”. Os testadores rodaram o modelo em aplicações open source congeladas, com vulnerabilidades conhecidas.

O Mythos reduziu falsos negativos em 42% em comparação com o Opus 4.6, com a redução chegando a 55% depois que o modelo recebeu acesso ao código-fonte, como o The Decoder reported. O modelo se destacou em testes combinando ambiente ao vivo e código-fonte. Ele teve desempenho menos confiável quando recebeu apenas o código-fonte.

Also Read: XRP ETFs Hit Record $1.39B But Token Loses 4th Spot To BNB

Questão de custo limita a vantagem da Anthropic

A Anthropic indicou que o Mythos Preview será aproximadamente 5 vezes mais caro que um modelo Opus, que já está entre as opções mais caras do mercado. Esse prêmio levou a XBOW a testar se um rival mais barato poderia igualar o Mythos com mais tempo de execução.

A resposta foi sim. Com um orçamento fixo de tokens para descoberta de vulnerabilidades web, o Mythos superou o Opus 4.6, mas perdeu para o OpenAI's GPT-5.5, que a XBOW recorded com taxa de falhas de 10%. A XBOW observou que o modelo “não é terrivelmente ineficiente” se o objetivo for precisão, mas ele deixa de ser o melhor da categoria quando a normalização por custo entra em cena.

A empresa agora recomenda usar uma combinação de modelos em vez de depender de apenas um.

Desempenho do Mythos AI em contexto

O Mythos mostrou julgamento misto, rejeitando falsos positivos melhor que seus predecessores, mas às vezes descartando verdadeiros quando as evidências não atendiam aos seus critérios formais. Engenharia reversa e análise de código nativo ficaram entre suas capacidades mais fortes, com o modelo conseguindo priorizar achados de sistemas concorrentes.

Anthropic first unveiled Mythos in early April, restringindo o acesso a cerca de 50 parceiros e apresentando o lançamento como uma mudança de patamar na capacidade cibernética de IA. O U.K. AI Security Institute posteriormente afirmou que tanto o Mythos quanto o GPT-5.5 haviam “excedido substancialmente” sua previsão acelerada. A agência agora estima que as capacidades cibernéticas dobram a cada 4,7 meses, abaixo da estimativa anterior de oito meses definida em novembro de 2025.