Anthropic's Mythos AI model lidera sistemas rivais na detecção de vulnerabilidades de software, mas novos benchmarks independentes expõem julgamento mais fraco e altos custos de operação.
Mythos Preview lidera auditorias de código-fonte
A empresa de segurança ofensiva XBOW confirmed a reivindicação principal. A empresa reuniu uma equipe de 10 especialistas para avaliar o modelo em benchmarks, fluxos de trabalho e integrações.
A XBOW afirmou que o Mythos Preview “representa um avanço significativo em relação a todos os modelos existentes, independentemente do provedor”. Os testadores executaram o modelo contra aplicativos open source congelados com vulnerabilidades conhecidas.
O Mythos reduziu falsos negativos em 42% em relação ao Opus 4.6, com a redução chegando a 55% depois que o modelo recebeu acesso ao código-fonte, conforme reported pelo The Decoder. O modelo se destacou em testes combinando ambiente ao vivo e código-fonte. Seu desempenho foi menos consistente quando recebeu apenas o código-fonte.
Also Read: XRP ETFs Hit Record $1.39B But Token Loses 4th Spot To BNB
Questões de custo moderam a vantagem da Anthropic
A Anthropic indicou que o Mythos Preview será cerca de 5 vezes mais caro do que um modelo Opus, que já está entre as opções mais caras do mercado. Esse prêmio levou a XBOW a testar se um rival mais barato poderia igualar o Mythos com mais tempo de execução.
A resposta foi sim. Com um orçamento fixo de tokens para descoberta de vulnerabilidades web, o Mythos superou o Opus 4.6, mas perdeu para o GPT-5.5 da OpenAI, que a XBOW recorded com uma taxa de falhas de 10%. A XBOW observou que o modelo “não é terrivelmente ineficiente” se a precisão for o objetivo, mas não é o melhor da categoria quando a normalização de custos entra em cena.
A empresa agora recomenda usar uma combinação de modelos em vez de depender de apenas um.
Desempenho do Mythos AI em contexto
O Mythos apresentou julgamento misto, rejeitando falsos positivos melhor do que seus predecessores, mas às vezes descartando verdadeiros quando as evidências não atendiam a seus critérios formais. Engenharia reversa e análise de código nativo estão entre suas habilidades mais fortes, com o modelo capaz de priorizar achados de sistemas concorrentes.
Anthropic first unveiled Mythos in early April, restringindo o acesso a cerca de 50 parceiros e apresentando o lançamento como um salto na capacidade cibernética de IA. O Instituto de Segurança de IA do Reino Unido posteriormente afirmou que tanto o Mythos quanto o GPT-5.5 haviam “excedido substancialmente” sua previsão acelerada. A agência agora estima que as capacidades cibernéticas dobram a cada 4,7 meses, abaixo da estimativa anterior de oito meses definida em novembro de 2025.
Read Next: Hyperliquid Rejects Wall Street's Manipulation Claims As HYPE Drops 14%





