Anthropic aprirà Claude Mythos al pubblico una volta che le misure di sicurezza avranno raggiunto il livello necessario, forse in 12 mesi

Anthropic afferma di voler offrire al pubblico l’accesso a Mythos, its vulnerability-hunting AI, ma solo dopo aver costruito misure di sicurezza che ancora non esistono.

Punti chiave:

Anthropic prevede di rilasciare i modelli di classe Mythos in modo ampio dopo aver prima ampliato l’accesso ai governi degli Stati Uniti e degli alleati.

L’azienda ammette che nessuna società, compresa se stessa, ha costruito misure di sicurezza abbastanza forti da impedire gli abusi.

Mythos ha segnalato più di 23.000 problemi in 1.000 progetti open source, inclusi 6.202 difetti gravi o critici.

Rilascio di Anthropic Mythos

Anthropic ha confermato il piano in un aggiornamento di Project Glasswing, il suo programma di sicurezza a accesso limitato, e un rapporto separato ha indicato che la tempistica rimane incerta.

L’azienda ha dichiarato che inizialmente collaborerà con i governi degli Stati Uniti e degli alleati per ampliare il programma. Un rilascio più ampio dei “modelli di classe Mythos” seguirebbe nel prossimo futuro.

Anthropic è stata schietta riguardo al rischio. Ha dichiarato che nessuna azienda, inclusa la stessa Anthropic, ha sviluppato misure di sicurezza abbastanza solide da impedire che il modello venga usato in modo improprio e causi danni gravi.

Nonostante ciò, l’azienda prevede che strumenti simili si diffonderanno rapidamente, stimando che modelli di livello Mythos diventeranno ampiamente disponibili entro sei‑dodici mesi.

Mythos ha debuttato ad aprile. Anthropic ha dichiarato che, durante i test, ha generato exploit funzionanti nel 72,4% dei casi, contro una percentuale quasi nulla per un precedente modello Claude.

Da leggere anche: Cisco Research Shows Frontier AI Models Failing Under Multi-Turn Attacks

Vulnerabilità individuate da Mythos

Dalla sua introduzione, il modello ha analizzato più di 1.000 progetti open source e ha individuato 23.019 problemi, di cui 6.202 classificati come di gravità alta o critica.

Un risultato si è distinto in particolare. Mythos ha scoperto una vulnerabilità nella libreria crittografica wolfSSL, utilizzata da miliardi di dispositivi, che avrebbe potuto permettere agli aggressori di falsificare certificati e impersonare banche o fornitori di servizi email. Il problema è stato successivamente corretto.

L’ondata di segnalazioni ha messo sotto pressione le persone incaricate di risolverle. I manutentori dei progetti open source hanno chiesto ad Anthropic di rallentare le divulgazioni, affermando che il volume supera la loro capacità di intervento.

I ricercatori vedono uno squilibrio più profondo. Anthropic sostiene che trovare vulnerabilità è ora molto più semplice che correggerle e l’azienda ha avviato una collaborazione con il progetto Alpha‑Omega della Open Source Security Foundation per aiutare i manutentori a gestire l’arretrato.

La system card di Claude Mythos prevede che, alla lunga, l’IA favorirà i difensori, anche se Anthropic riconosce che al momento il vantaggio potrebbe essere ancora dalla parte degli aggressori.

Quando Mythos è stato presentato per la prima volta, Anthropic ha garantito l’accesso a più di 50 organizzazioni, tra cui Apple, Microsoft e Google, insieme a circa 100 milioni di dollari in crediti di utilizzo, trattenendo però il modello dal pubblico a causa della sua capacità di trasformare le vulnerabilità software in armi.