Anthropic's Mythos AI model lidera sistemas rivais na detecção de vulnerabilidades de software, mas novos benchmarks independentes expõem julgamento mais fraco e custos de operação elevados.
Mythos Preview lidera auditorias de código-fonte
A empresa de segurança ofensiva XBOW confirmed a alegação principal. A empresa reuniu uma equipe de 10 especialistas para avaliar o modelo em benchmarks, fluxos de trabalho e integrações.
A XBOW afirmou que o Mythos Preview “representa um avanço significativo em relação a todos os modelos existentes, independentemente do provedor”. Os testadores rodaram o modelo em aplicações open source congeladas, com vulnerabilidades conhecidas.
O Mythos reduziu falsos negativos em 42% em comparação com o Opus 4.6, com a redução chegando a 55% depois que o modelo recebeu acesso ao código-fonte, como o The Decoder reported. O modelo se destacou em testes combinando ambiente ao vivo e código-fonte. Ele teve desempenho menos confiável quando recebeu apenas o código-fonte.
Also Read: XRP ETFs Hit Record $1.39B But Token Loses 4th Spot To BNB
Questão de custo limita a vantagem da Anthropic
A Anthropic indicou que o Mythos Preview será aproximadamente 5 vezes mais caro que um modelo Opus, que já está entre as opções mais caras do mercado. Esse prêmio levou a XBOW a testar se um rival mais barato poderia igualar o Mythos com mais tempo de execução.
A resposta foi sim. Com um orçamento fixo de tokens para descoberta de vulnerabilidades web, o Mythos superou o Opus 4.6, mas perdeu para o OpenAI's GPT-5.5, que a XBOW recorded com taxa de falhas de 10%. A XBOW observou que o modelo “não é terrivelmente ineficiente” se o objetivo for precisão, mas ele deixa de ser o melhor da categoria quando a normalização por custo entra em cena.
A empresa agora recomenda usar uma combinação de modelos em vez de depender de apenas um.
Desempenho do Mythos AI em contexto
O Mythos mostrou julgamento misto, rejeitando falsos positivos melhor que seus predecessores, mas às vezes descartando verdadeiros quando as evidências não atendiam aos seus critérios formais. Engenharia reversa e análise de código nativo ficaram entre suas capacidades mais fortes, com o modelo conseguindo priorizar achados de sistemas concorrentes.
Anthropic first unveiled Mythos in early April, restringindo o acesso a cerca de 50 parceiros e apresentando o lançamento como uma mudança de patamar na capacidade cibernética de IA. O U.K. AI Security Institute posteriormente afirmou que tanto o Mythos quanto o GPT-5.5 haviam “excedido substancialmente” sua previsão acelerada. A agência agora estima que as capacidades cibernéticas dobram a cada 4,7 meses, abaixo da estimativa anterior de oito meses definida em novembro de 2025.
Read Next: Hyperliquid Rejects Wall Street's Manipulation Claims As HYPE Drops 14%





