Claude Mythos AI supera i rivali negli audit del codice, ma perde per il prezzo 5 volte superiore

Claude Mythos AI supera i rivali negli audit del codice, ma perde per il prezzo 5 volte superiore

Anthropic's Mythos AI model supera i sistemi rivali nell'individuare vulnerabilità software, ma nuovi benchmark indipendenti ne mettono in luce un giudizio meno affidabile e costi operativi elevati.

Mythos Preview primeggia negli audit del codice sorgente

La società di sicurezza offensiva XBOW ha confermato l'affermazione principale. L'azienda ha riunito un team di 10 esperti per valutare il modello su benchmark, flussi di lavoro e integrazioni.

XBOW ha dichiarato che Mythos Preview «rappresenta un salto di qualità significativo rispetto a tutti i modelli esistenti, indipendentemente dal provider». I tester hanno eseguito il modello su applicazioni open‑source congelate con vulnerabilità note.

Mythos ha ridotto i falsi negativi del 42% rispetto a Opus 4.6, con una riduzione che ha raggiunto il 55% una volta che il modello ha avuto accesso al codice sorgente, ha riportato The Decoder. Il modello ha eccelso nei test combinati live‑più‑sorgente. Si è comportato in modo meno affidabile quando gli veniva fornito solo il codice sorgente.

Also Read: XRP ETFs Hit Record $1.39B But Token Loses 4th Spot To BNB

La questione dei costi ridimensiona il vantaggio di Anthropic

Anthropic ha indicato che Mythos Preview sarà circa 5 volte più costoso di un modello Opus, già tra le opzioni più care sul mercato. Questo sovrapprezzo ha spinto XBOW a verificare se un rivale più economico potesse eguagliare Mythos con più tempo di esecuzione.

La risposta è stata sì. A parità di budget di token per la scoperta di vulnerabilità web, Mythos ha battuto Opus 4.6 ma ha perso contro OpenAI's GPT-5.5, che XBOW ha registrato con un tasso di mancato rilevamento del 10%. XBOW ha osservato che il modello «non è terribilmente inefficiente» se l'obiettivo è la precisione, ma non è il migliore della categoria una volta che si normalizzano i costi.

L'azienda ora raccomanda di utilizzare una combinazione di modelli invece di affidarsi a uno solo.

Le prestazioni di Mythos AI nel contesto

Mythos ha mostrato un giudizio misto, respingendo meglio dei predecessori i falsi positivi ma scartando talvolta anche quelli veri quando le prove non soddisfacevano i suoi criteri formali. Il reverse engineering e l'analisi di codice nativo figurano tra le sue competenze più forti, con il modello in grado di fare triage dei risultati provenienti da sistemi concorrenti.

Anthropic first unveiled Mythos in early April, limitando l’accesso a circa 50 partner e presentando il rilascio come un salto di livello nelle capacità cyber dell’IA. In seguito l’U.K. AI Security Institute ha dichiarato che sia Mythos sia GPT‑5.5 avevano «superato in modo sostanziale» le sue previsioni accelerate. L’agenzia stima ora che le capacità cyber raddoppino ogni 4,7 mesi, rispetto alla precedente stima di otto mesi fissata nel novembre 2025.

Read Next: Hyperliquid Rejects Wall Street's Manipulation Claims As HYPE Drops 14%

Disclaimer e avvertenza sui rischi: Le informazioni fornite in questo articolo sono solo per scopi educativi e informativi e sono basate sull'opinione dell'autore. Non costituiscono consulenza finanziaria, di investimento, legale o fiscale. Gli asset di criptovaluta sono altamente volatili e soggetti ad alto rischio, incluso il rischio di perdere tutto o una parte sostanziale del tuo investimento. Il trading o il possesso di asset crypto potrebbe non essere adatto a tutti gli investitori. Le opinioni espresse in questo articolo sono esclusivamente quelle dell'autore/autori e non rappresentano la politica ufficiale o la posizione di Yellow, dei suoi fondatori o dei suoi dirigenti. Conduci sempre la tua ricerca approfondita (D.Y.O.R.) e consulta un professionista finanziario autorizzato prima di prendere qualsiasi decisione di investimento.
Claude Mythos AI supera i rivali negli audit del codice, ma perde per il prezzo 5 volte superiore | Yellow.com