Anthropic's Mythos AI model lidera sistemas rivais na detecção de vulnerabilidades de software, mas novos benchmarks independentes expõem julgamento mais fraco e custos de operação elevados.
Preview do Mythos lidera auditorias de código-fonte
A empresa de segurança ofensiva XBOW confirmou a principal alegação. A firma montou uma equipe de 10 especialistas para avaliar o modelo em benchmarks, fluxos de trabalho e integrações.
A XBOW afirmou que o Mythos Preview “representa um avanço significativo em relação a todos os modelos existentes, independentemente do provedor”. Os avaliadores rodaram o modelo contra aplicações open source congeladas, com vulnerabilidades conhecidas.
O Mythos reduziu falsos negativos em 42% em comparação ao Opus 4.6, com a redução chegando a 55% quando o modelo teve acesso ao código-fonte, conforme relatou o The Decoder. O modelo se destacou em testes combinando ambiente ao vivo e código-fonte. Ele teve desempenho menos consistente quando recebeu apenas o código.
Also Read: XRP ETFs Hit Record $1.39B But Token Loses 4th Spot To BNB
Questão de custo limita a vantagem da Anthropic
A Anthropic indicou que o Mythos Preview será cerca de 5 vezes mais caro do que um modelo Opus, que já está entre as opções mais caras do mercado. Esse prêmio levou a XBOW a testar se um concorrente mais barato poderia igualar o Mythos com mais tempo de execução.
A resposta foi sim. Com um orçamento fixo de tokens para descoberta de vulnerabilidades na web, o Mythos superou o Opus 4.6, mas perdeu para o GPT-5.5 da OpenAI, que a XBOW registrou com taxa de falhas de 10%. A XBOW observou que o modelo “não é terrivelmente ineficiente” se a precisão for o objetivo, mas deixa de ser o melhor da categoria quando a normalização por custo entra na conta.
A empresa agora recomenda usar uma combinação de modelos em vez de depender de apenas um.
Desempenho do Mythos AI em contexto
O Mythos apresentou um julgamento misto, rejeitando falsos positivos melhor do que seus predecessores, mas às vezes descartando positivos verdadeiros quando as evidências não atendiam a seus critérios formais. Engenharia reversa e análise de código nativo estavam entre suas habilidades mais fortes, com o modelo capaz de priorizar achados de sistemas concorrentes.
Anthropic first unveiled Mythos in early April, restringindo o acesso a cerca de 50 parceiros e apresentando o lançamento como uma mudança de patamar na capacidade cibernética de IA. O Instituto de Segurança de IA do Reino Unido posteriormente afirmou que tanto o Mythos quanto o GPT-5.5 “superaram substancialmente” sua projeção acelerada. A agência agora estima que as capacidades cibernéticas dobram a cada 4,7 meses, ante a estimativa anterior de oito meses definida em novembro de 2025.
Read Next: Hyperliquid Rejects Wall Street's Manipulation Claims As HYPE Drops 14%





