Claude Mythos AI supera i rivali negli audit del codice, ma perde per il prezzo 5 volte più alto

Anthropic's Mythos AI model supera i sistemi rivali nell’individuazione delle vulnerabilità software, ma nuovi benchmark indipendenti mettono in luce un giudizio più debole e costi operativi elevati.

Mythos Preview domina negli audit del codice sorgente

La società di sicurezza offensiva XBOW ha confermato l’affermazione principale. L’azienda ha riunito un team di 10 esperti per valutare il modello su benchmark, flussi di lavoro e integrazioni.

XBOW ha dichiarato che Mythos Preview «rappresenta un salto significativo rispetto a tutti i modelli esistenti, indipendentemente dal provider». I tester hanno eseguito il modello su applicazioni open‑source congelate, con vulnerabilità note.

Mythos ha ridotto i falsi negativi del 42% rispetto a Opus 4.6, con un calo che ha raggiunto il 55% una volta dato accesso al codice sorgente, ha riportato The Decoder. Il modello ha eccelso nei test combinati live‑più‑sorgente. Si è comportato in modo meno affidabile quando riceveva solo il codice sorgente.

Also Read: XRP ETFs Hit Record $1.39B But Token Loses 4th Spot To BNB

Il problema dei costi ridimensiona il vantaggio di Anthropic

Anthropic ha indicato che Mythos Preview sarà circa 5 volte più costoso di un modello Opus, già tra le opzioni più care sul mercato. Questo sovrapprezzo ha spinto XBOW a verificare se un rivale più economico potesse eguagliare Mythos con più tempo di esecuzione.

La risposta è stata sì. Con un budget fisso di token per la scoperta di vulnerabilità web, Mythos ha battuto Opus 4.6 ma ha perso contro OpenAI's GPT-5.5, che XBOW ha registrato con un tasso di mancato rilevamento del 10%. XBOW ha osservato che il modello «non è terribilmente inefficiente» se l’obiettivo è la precisione, ma non è il migliore in assoluto una volta normalizzati i costi.

L’azienda ora raccomanda di utilizzare una combinazione di modelli, invece di far affidamento su uno solo.

Le prestazioni di Mythos AI nel contesto

Mythos ha mostrato un giudizio disomogeneo, rifiutando i falsi positivi meglio dei predecessori ma talvolta scartando quelli veri quando le prove non soddisfacevano i suoi criteri formali. Il reverse engineering e l’analisi del codice nativo figurano tra le sue capacità più forti, con il modello in grado di classificare i risultati provenienti da sistemi concorrenti.

Anthropic first unveiled Mythos in early April, limitando l’accesso a circa 50 partner e presentando il lancio come un salto di livello nelle capacità cyber dell’IA. In seguito, il U.K. AI Security Institute ha dichiarato che sia Mythos sia GPT‑5.5 avevano «superato sostanzialmente» le sue previsioni accelerate. L’agenzia stima ora che le capacità cyber raddoppino ogni 4,7 mesi, rispetto alla precedente stima di otto mesi fissata nel novembre 2025.