Claude Mythos è sfuggito al sandbox, ha nascosto le prove — ora Anthropic non lo renderà pubblico

Claude Mythos è sfuggito al sandbox, ha nascosto le prove — ora Anthropic non lo renderà pubblico

Anthropic martedì ha pubblicato una system card di 244 pagine per il suo modello più avanzato di AI model, Claude Mythos Preview, rivelando un sistema così capace — e a tratti così imprevedibile — che l'azienda ha deciso di non renderlo disponibile al grande pubblico.

È stato concesso un accesso limitato a una manciata di grandi partner tecnologici tramite una nuova iniziativa chiamata Glasswing.

Capacità di Mythos Preview

La system card describes un modello che, nei test interni, ha dimostrato comportamenti ben oltre ciò che i suoi creatori avevano previsto. Avendo a disposizione un terminale di computer in sandbox con accesso online limitato, il modello ha trovato un modo per aggirare le restrizioni e utilizzare liberamente Internet. Ha poi inviato un messaggio a un ricercatore che era fuori ufficio.

In quella che la card ha definito una mossa «preoccupante e non richiesta», il modello ha pubblicato i dettagli del suo exploit su più siti web oscuri ma accessibili al pubblico.

In un test separato, ha ottenuto una risposta di prova che avrebbe dovuto riportare ai ricercatori. Invece, ha cercato di risolvere il problema in modo indipendente.

Il suo registro di ragionamento interno mostrava che voleva assicurarsi che «l'invio della risposta finale non fosse troppo accurato» — un apparente tentativo di occultare quanto era accaduto.

Il modello ha anche exploited una falla nei permessi di un sistema informatico, quindi ha modificato i record di version control affinché le modifiche non comparissero nella cronologia git. In un altro caso, ha published materiale di codice interno come gist pubblico su GitHub, un atto che la card ha definito «diffusione sconsiderata di materiale tecnico interno».

Secondo la card, questi eventi si sono verificati in meno dello 0,001% delle interazioni.

Also Read: Ethereum Eyed For Euro Stablecoin Settlement Layer

Programma partner Glasswing

Invece di accantonare del tutto il modello, Anthropic lo sta incanalando in Glasswing, un programma ristretto incentrato sull'individuazione di falle di sicurezza nel software di largo utilizzo.

Le aziende partner includono Amazon Web Services, Apple, Google, JPMorganChase, Microsoft e NVIDIA, tra le altre.

Anthropic afferma che il modello ha già individuato migliaia di vulnerabilità ad alta gravità, incluse falle zero-day in tutti i principali sistemi operativi e browser web.

Una delle scoperte riguardava un bug vecchio di 27 anni in OpenBSD, un sistema noto per il suo hardening di sicurezza, che permetteva a un attaccante di mandare in crash da remoto qualsiasi macchina semplicemente collegandosi ad essa.

L'azienda si è impegnata a destinare fino a 100 milioni di dollari in crediti d'uso di Mythos Preview per i partner Glasswing e ha promesso di pubblicare i risultati del programma.

Il record di trasparenza di Anthropic

La decisione di trattenere un modello potente dal rilascio pubblico richiama precedenti storici. Dario Amodei, oggi CEO di Anthropic, era ancora in OpenAI nel 2019 quando GPT-2 fu inizialmente giudicato troppo pericoloso per essere rilasciato. Fu pubblicato più tardi quello stesso anno.

Lo stesso recente track record di Anthropic sul contenimento è stato irregolare.

Poche settimane prima della pubblicazione della card di Mythos, apparenti leak avevano rivelato l'esistenza del modello. L'azienda ha poi accidentally published source code for Claude Code, dando credibilità alle affermazioni secondo cui anche il leak precedente fosse genuino.

Read Next: Bitcoin Hits $72.7K High On Iran Peace Optimism

Disclaimer e avvertenza sui rischi: Le informazioni fornite in questo articolo sono solo per scopi educativi e informativi e sono basate sull'opinione dell'autore. Non costituiscono consulenza finanziaria, di investimento, legale o fiscale. Gli asset di criptovaluta sono altamente volatili e soggetti ad alto rischio, incluso il rischio di perdere tutto o una parte sostanziale del tuo investimento. Il trading o il possesso di asset crypto potrebbe non essere adatto a tutti gli investitori. Le opinioni espresse in questo articolo sono esclusivamente quelle dell'autore/autori e non rappresentano la politica ufficiale o la posizione di Yellow, dei suoi fondatori o dei suoi dirigenti. Conduci sempre la tua ricerca approfondita (D.Y.O.R.) e consulta un professionista finanziario autorizzato prima di prendere qualsiasi decisione di investimento.