Claude Mythos risolve un hack AISI in 32 passaggi in 6 tentativi su 10

Claude Mythos risolve un hack AISI in 32 passaggi in 6 tentativi su 10

Un nuovo checkpoint della Claude Mythos Preview di Anthropic è diventato il primo modello di IA a risolvere entrambe le simulazioni di cyberattacco del governo del Regno Unito, sollevando nuove domande sull'hacking autonomo.

AISI segnala la svolta di Mythos

L'AI Security Institute del Regno Unito ha segnalato mercoledì che il nuovo checkpoint di Mythos ha completato il suo cyber range di attacco a una rete aziendale in 32 passaggi, "The Last Ones", in 6 tentativi su 10. La versione precedente era riuscita solo in 3 tentativi su 10.

Il modello aggiornato ha anche superato "Cooling Tower", un range per sistemi di controllo industriale che nessun modello precedente aveva passato, in 3 tentativi su 10.

Il rivale GPT-5.5 di OpenAI è stato testato sullo stesso esercizio. Ha risolto "The Last Ones" in 3 tentativi su 10 ma non ha completato "Cooling Tower".

L'AISI ha eseguito i range con un budget di calcolo di 100 milioni di token per tentativo, e l'agenzia ha osservato che le prestazioni continuavano a migliorare a quel limite, suggerendo che budget più alti aumenterebbero ulteriormente i tassi di successo.

Da leggere anche: Southeast Asia Blockchain Week Brings Ripple, Avalanche, Solana Foundation, And K-Pop To Bangkok

Tempo di raddoppio in costante calo

L'AISI monitora i progressi nel cyber attraverso benchmark di orizzonte temporale, misurando quanto a lungo un compito autonomo può essere completato da un modello con l’80% di affidabilità. Nel novembre 2025, l'agenzia aveva stimato un tempo di raddoppio di 8 mesi. Entro febbraio 2026, quella cifra si era ridotta a 4,7 mesi e sia Mythos sia GPT-5.5 da allora hanno superato anche questo ritmo più rapido.

L'agenzia ha riconosciuto l'incertezza sul fatto che gli ultimi risultati indichino una nuova accelerazione o un balzo una tantum.

L’ente di ricerca no profit METR, che monitora l'IA su compiti software anziché su cyber range, ha prodotto una cifra simile di circa 4,2 mesi. L'AISI ha affermato che questa convergenza rafforza l'idea che la tendenza rifletta reali guadagni di capacità piuttosto che una particolarità di una singola suite di valutazione.

L’istituto ha sottolineato che i suoi range non includono difensori attivi, quindi i risultati mostrano cosa possono fare i modelli contro reti debolmente protette, piuttosto che contro sistemi aziendali ben difesi.

Perché i salti di capacità contano

Il nuovo checkpoint di Mythos non è arrivato con un nuovo rilascio di modello. L'AISI ha utilizzato la stessa versione che Anthropic ha distribuito il mese scorso con Project Glasswing, il suo programma di partnership per la sicurezza, dopo aver ricevuto una build aggiornata dello stesso modello.

"Salti di capacità significativi non richiedono sempre nuovi rilasci di modello", ha scritto l'istituto. Questo va contro l’assunto che i difensori possano regolarsi sui cicli di rilascio.

Anthropic ha introdotto Mythos Preview il 7 aprile, presentando il modello come un punto di svolta per il settore della sicurezza dopo che, nei test interni, aveva identificato vulnerabilità zero-day in importanti sistemi operativi e browser. L'azienda ha dichiarato di aver rinviato un rilascio più ampio proprio a causa di tali capacità, e la valutazione dell'AISI di aprile aveva già segnalato Mythos come un chiaro passo avanti rispetto ai precedenti sistemi di frontiera.

Da leggere dopo: Gemini Space Station Hit By Multiple Securities Fraud Claims After IPO

Disclaimer e avvertenza sui rischi: Le informazioni fornite in questo articolo sono solo per scopi educativi e informativi e sono basate sull'opinione dell'autore. Non costituiscono consulenza finanziaria, di investimento, legale o fiscale. Gli asset di criptovaluta sono altamente volatili e soggetti ad alto rischio, incluso il rischio di perdere tutto o una parte sostanziale del tuo investimento. Il trading o il possesso di asset crypto potrebbe non essere adatto a tutti gli investitori. Le opinioni espresse in questo articolo sono esclusivamente quelle dell'autore/autori e non rappresentano la politica ufficiale o la posizione di Yellow, dei suoi fondatori o dei suoi dirigenti. Conduci sempre la tua ricerca approfondita (D.Y.O.R.) e consulta un professionista finanziario autorizzato prima di prendere qualsiasi decisione di investimento.
Claude Mythos risolve un hack AISI in 32 passaggi in 6 tentativi su 10 | Yellow.com