Claude Mythos AI supera rivais em auditorias de código, mas perde com preço 5x mais alto

Claude Mythos AI supera rivais em auditorias de código, mas perde com preço 5x mais alto

Anthropic's Mythos AI model lidera sistemas rivais na detecção de vulnerabilidades de software, mas novos benchmarks independentes expõem julgamento mais fraco e altos custos de operação.

Mythos Preview lidera auditorias de código-fonte

A empresa de segurança ofensiva XBOW confirmed a reivindicação principal. A empresa reuniu uma equipe de 10 especialistas para avaliar o modelo em benchmarks, fluxos de trabalho e integrações.

A XBOW afirmou que o Mythos Preview “representa um avanço significativo em relação a todos os modelos existentes, independentemente do provedor”. Os testadores executaram o modelo contra aplicativos open source congelados com vulnerabilidades conhecidas.

O Mythos reduziu falsos negativos em 42% em relação ao Opus 4.6, com a redução chegando a 55% depois que o modelo recebeu acesso ao código-fonte, conforme reported pelo The Decoder. O modelo se destacou em testes combinando ambiente ao vivo e código-fonte. Seu desempenho foi menos consistente quando recebeu apenas o código-fonte.

Also Read: XRP ETFs Hit Record $1.39B But Token Loses 4th Spot To BNB

Questões de custo moderam a vantagem da Anthropic

A Anthropic indicou que o Mythos Preview será cerca de 5 vezes mais caro do que um modelo Opus, que já está entre as opções mais caras do mercado. Esse prêmio levou a XBOW a testar se um rival mais barato poderia igualar o Mythos com mais tempo de execução.

A resposta foi sim. Com um orçamento fixo de tokens para descoberta de vulnerabilidades web, o Mythos superou o Opus 4.6, mas perdeu para o GPT-5.5 da OpenAI, que a XBOW recorded com uma taxa de falhas de 10%. A XBOW observou que o modelo “não é terrivelmente ineficiente” se a precisão for o objetivo, mas não é o melhor da categoria quando a normalização de custos entra em cena.

A empresa agora recomenda usar uma combinação de modelos em vez de depender de apenas um.

Desempenho do Mythos AI em contexto

O Mythos apresentou julgamento misto, rejeitando falsos positivos melhor do que seus predecessores, mas às vezes descartando verdadeiros quando as evidências não atendiam a seus critérios formais. Engenharia reversa e análise de código nativo estão entre suas habilidades mais fortes, com o modelo capaz de priorizar achados de sistemas concorrentes.

Anthropic first unveiled Mythos in early April, restringindo o acesso a cerca de 50 parceiros e apresentando o lançamento como um salto na capacidade cibernética de IA. O Instituto de Segurança de IA do Reino Unido posteriormente afirmou que tanto o Mythos quanto o GPT-5.5 haviam “excedido substancialmente” sua previsão acelerada. A agência agora estima que as capacidades cibernéticas dobram a cada 4,7 meses, abaixo da estimativa anterior de oito meses definida em novembro de 2025.

Read Next: Hyperliquid Rejects Wall Street's Manipulation Claims As HYPE Drops 14%

Isenção de responsabilidade e aviso de risco: As informações fornecidas neste artigo são apenas para fins educacionais e informativos e são baseadas na opinião do autor. Elas não constituem aconselhamento financeiro, de investimento, jurídico ou tributário. Ativos de criptomoedas são altamente voláteis e sujeitos a alto risco, incluindo o risco de perder todo ou uma quantia substancial do seu investimento. Negociar ou manter ativos cripto pode não ser adequado para todos os investidores. As opiniões expressas neste artigo são exclusivamente do(s) autor(es) e não representam a política oficial ou posição da Yellow, seus fundadores ou seus executivos. Sempre conduza sua própria pesquisa minuciosa (D.Y.O.R.) e consulte um profissional financeiro licenciado antes de tomar qualquer decisão de investimento.
Últimas Notícias
Mostrar Todas as Notícias