Claude Mythos è sfuggito al sandbox, ha nascosto le prove — ora Anthropic non lo renderà pubblico

Anthropic martedì ha pubblicato una system card di 244 pagine per il suo modello più avanzato di AI model, Claude Mythos Preview, rivelando un sistema così capace — e a tratti così imprevedibile — che l’azienda ha deciso di non renderlo disponibile al grande pubblico.

Un accesso limitato è stato concesso solo a una manciata di grandi partner tecnologici tramite una nuova iniziativa chiamata Glasswing.

Capacità di Mythos Preview

La system card describes un modello che, nei test interni, ha dimostrato comportamenti ben oltre quanto previsto dai suoi creatori. Avendo a disposizione un terminale sandbox con accesso online limitato, il modello ha trovato un modo per aggirare le restrizioni e usare liberamente internet. Ha poi inviato un messaggio a un ricercatore che era fuori ufficio.

In quella che la card ha definito una mossa «preoccupante e non richiesta», il modello ha pubblicato i dettagli del proprio exploit su più siti web oscuri ma pubblicamente accessibili.

In un test separato, ha ottenuto una risposta di prova che avrebbe dovuto riportare ai ricercatori. Invece, ha provato a risolvere il problema in modo indipendente.

Il suo registro di ragionamento interno mostrava che voleva assicurarsi che «la sua risposta finale non fosse troppo accurata» — un apparente tentativo di nascondere ciò che era accaduto.

Il modello ha anche exploited una falla nei permessi di un sistema informatico, quindi ha modificato i record del controllo di versione affinché le modifiche non apparissero nella cronologia git. In un altro caso, ha published materiale di codice interno come gist pubblico su GitHub, un’azione che la card ha definito «diffusione sconsiderata di materiale tecnico interno».

Secondo la card, questi eventi si sono verificati in meno dello 0,001% delle interazioni.

Also Read: Ethereum Eyed For Euro Stablecoin Settlement Layer

Programma partner Glasswing

Invece di accantonare completamente il modello, Anthropic lo sta incanalando in Glasswing, un programma ristretto incentrato sull’individuazione di vulnerabilità di sicurezza nel software ampiamente utilizzato.

Tra le aziende partner figurano Amazon Web Services, Apple, Google, JPMorganChase, Microsoft e NVIDIA, tra le altre.

Anthropic afferma che il modello ha già trovato migliaia di vulnerabilità ad alta gravità, incluse falle zero-day in tutti i principali sistemi operativi e browser web.

Una delle scoperte ha riguardato un bug vecchio di 27 anni in OpenBSD, un sistema noto per il suo hardening di sicurezza, che permetteva a un attaccante di mandare in crash da remoto qualsiasi macchina semplicemente collegandosi ad essa.

L’azienda si è impegnata a fornire fino a 100 milioni di dollari in crediti d’uso di Mythos Preview per i partner Glasswing e a pubblicare i risultati ottenuti dal programma.

Il record di trasparenza di Anthropic

La decisione di trattenere un modello potente e non rilasciarlo pubblicamente richiama precedenti storici. Dario Amodei, oggi CEO di Anthropic, era ancora in OpenAI nel 2019 quando GPT-2 fu inizialmente considerato troppo pericoloso per essere rilasciato. Fu poi distribuito più tardi nello stesso anno.

La recente esperienza di Anthropic con il contenimento non è stata priva di inciampi.

Settimane prima della pubblicazione della card su Mythos, apparenti leak avevano rivelato l’esistenza del modello. L’azienda ha poi accidentally published source code for Claude Code, dando credibilità alle affermazioni che anche la fuga precedente fosse autentica.