Claude Mythos AI supera rivais em auditorias de código, mas perde com preço 5x mais alto

Claude Mythos AI supera rivais em auditorias de código, mas perde com preço 5x mais alto

Anthropic's Mythos AI model lidera sistemas rivais na identificação de vulnerabilidades de software, mas novos benchmarks independentes expõem julgamento mais fraco e custos de operação elevados.

Mythos Preview lidera auditorias de código-fonte

A empresa de segurança ofensiva XBOW confirmed a afirmação principal. A firma reuniu uma equipe de 10 especialistas para avaliar o modelo em benchmarks, fluxos de trabalho e integrações.

A XBOW afirmou que o Mythos Preview “representa um avanço significativo em relação a todos os modelos existentes, independentemente do provedor”. Os testadores rodaram o modelo contra aplicações open-source congeladas com vulnerabilidades conhecidas.

O Mythos reduziu os falsos negativos em 42% em relação ao Opus 4.6, com a redução chegando a 55% depois que o modelo recebeu acesso ao código-fonte, informou o The Decoder reported. O modelo se destacou em testes combinando execução ao vivo e código-fonte. Ele teve desempenho menos confiável quando recebeu apenas o código-fonte.

Also Read: XRP ETFs Hit Record $1.39B But Token Loses 4th Spot To BNB

Questão de custo reduz a vantagem da Anthropic

A Anthropic indicou que o Mythos Preview será aproximadamente 5 vezes mais caro que um modelo Opus, que já está entre as opções mais caras do mercado. Esse prêmio levou a XBOW a testar se um rival mais barato poderia igualar o Mythos com mais tempo de execução.

A resposta foi sim. Com um orçamento fixo de tokens para descoberta de vulnerabilidades na web, o Mythos superou o Opus 4.6, mas perdeu para o OpenAI's GPT-5.5, que a XBOW recorded com taxa de falhas de 10%. A XBOW observou que o modelo “não é terrivelmente ineficiente” se o objetivo é precisão, mas deixa de ser o melhor da categoria quando a normalização por custo entra na conta.

A empresa agora recomenda usar uma combinação de modelos em vez de depender de apenas um.

Desempenho do Mythos AI em contexto

O Mythos apresentou julgamento misto, rejeitando falsos positivos melhor do que seus predecessores, mas às vezes descartando verdadeiros quando as evidências não atendiam a seus critérios formais. Engenharia reversa e análise de código nativo figuraram entre suas competências mais fortes, com o modelo capaz de priorizar achados de sistemas concorrentes.

Anthropic first unveiled Mythos in early April, restringindo o acesso a cerca de 50 parceiros e apresentando o lançamento como uma mudança de patamar na capacidade cibernética de IA. O U.K. AI Security Institute posteriormente afirmou que tanto o Mythos quanto o GPT-5.5 haviam “ultrapassado substancialmente” sua previsão acelerada. A agência agora estima que as capacidades cibernéticas dobram a cada 4,7 meses, abaixo da estimativa anterior de oito meses definida em novembro de 2025.

Read Next: Hyperliquid Rejects Wall Street's Manipulation Claims As HYPE Drops 14%

Disclaimer e aviso de risco: As informações fornecidas neste artigo são apenas para fins educacionais e informativos e baseiam-se na opinião do autor. Não constituem aconselhamento financeiro, de investimento, legal ou fiscal. Os ativos de criptomoeda são altamente voláteis e sujeitos a alto risco, incluindo o risco de perder todo ou uma quantia substancial do seu investimento. Negociar ou deter ativos cripto pode não ser adequado para todos os investidores. As opiniões expressas neste artigo são exclusivamente do(s) autor(es) e não representam a política oficial ou posição da Yellow, seus fundadores ou executivos. Sempre conduza a sua própria pesquisa minuciosa (D.Y.O.R.) e consulte um profissional financeiro licenciado antes de tomar qualquer decisão de investimento.
Últimas Notícias
Mostrar Todas as Notícias
Claude Mythos AI supera rivais em auditorias de código, mas perde com preço 5x mais alto | Yellow.com