Anthropic's Mythos AI model lidera sistemas rivais na identificação de vulnerabilidades de software, mas novos benchmarks independentes expõem julgamento mais fraco e custos de operação elevados.
Mythos Preview lidera auditorias de código-fonte
A empresa de segurança ofensiva XBOW confirmed a afirmação principal. A firma reuniu uma equipe de 10 especialistas para avaliar o modelo em benchmarks, fluxos de trabalho e integrações.
A XBOW afirmou que o Mythos Preview “representa um avanço significativo em relação a todos os modelos existentes, independentemente do provedor”. Os testadores rodaram o modelo contra aplicações open-source congeladas com vulnerabilidades conhecidas.
O Mythos reduziu os falsos negativos em 42% em relação ao Opus 4.6, com a redução chegando a 55% depois que o modelo recebeu acesso ao código-fonte, informou o The Decoder reported. O modelo se destacou em testes combinando execução ao vivo e código-fonte. Ele teve desempenho menos confiável quando recebeu apenas o código-fonte.
Also Read: XRP ETFs Hit Record $1.39B But Token Loses 4th Spot To BNB
Questão de custo reduz a vantagem da Anthropic
A Anthropic indicou que o Mythos Preview será aproximadamente 5 vezes mais caro que um modelo Opus, que já está entre as opções mais caras do mercado. Esse prêmio levou a XBOW a testar se um rival mais barato poderia igualar o Mythos com mais tempo de execução.
A resposta foi sim. Com um orçamento fixo de tokens para descoberta de vulnerabilidades na web, o Mythos superou o Opus 4.6, mas perdeu para o OpenAI's GPT-5.5, que a XBOW recorded com taxa de falhas de 10%. A XBOW observou que o modelo “não é terrivelmente ineficiente” se o objetivo é precisão, mas deixa de ser o melhor da categoria quando a normalização por custo entra na conta.
A empresa agora recomenda usar uma combinação de modelos em vez de depender de apenas um.
Desempenho do Mythos AI em contexto
O Mythos apresentou julgamento misto, rejeitando falsos positivos melhor do que seus predecessores, mas às vezes descartando verdadeiros quando as evidências não atendiam a seus critérios formais. Engenharia reversa e análise de código nativo figuraram entre suas competências mais fortes, com o modelo capaz de priorizar achados de sistemas concorrentes.
Anthropic first unveiled Mythos in early April, restringindo o acesso a cerca de 50 parceiros e apresentando o lançamento como uma mudança de patamar na capacidade cibernética de IA. O U.K. AI Security Institute posteriormente afirmou que tanto o Mythos quanto o GPT-5.5 haviam “ultrapassado substancialmente” sua previsão acelerada. A agência agora estima que as capacidades cibernéticas dobram a cada 4,7 meses, abaixo da estimativa anterior de oito meses definida em novembro de 2025.
Read Next: Hyperliquid Rejects Wall Street's Manipulation Claims As HYPE Drops 14%





