I ricercatori lasciano che i modelli di IA gestiscano società simulate: Grok crolla in 4 giorni, Claude costruisce l’ordine

I ricercatori lasciano che i modelli di IA gestiscano società simulate: Grok crolla in 4 giorni, Claude costruisce l’ordine

Cinque modelli di intelligenza artificiale hanno ricevuto il controllo di città simulate identiche, dove la società di Grok è collassata con 183 crimini in quattro giorni mentre Claude held order.

Punti chiave:

  • Cinque modelli di IA hanno gestito simulazioni identiche di 15 giorni, ciascuno governando una città composta da 10 agenti.
  • Grok ha registrato 183 crimini ed è crollato in quattro giorni, mentre Claude non ha registrato alcun crimine e ha mantenuto in vita tutti gli agenti.
  • I ricercatori affermano che, col tempo, gli agenti si allontanano da regole fisse e chiedono che vengano integrati controlli di sicurezza verificati.

La società di Grok collassa

Il test è stato condotto da Emergence AI, un laboratorio di New York che ha built una piattaforma chiamata Emergence World per osservare agenti operare per settimane senza supervisione umana. Ognuna delle cinque esecuzioni è durata 15 giorni e ha messo un modello a capo di una città con 10 agenti. Gli agenti potevano votare, gestire le risorse e costruire biblioteche, municipi e stazioni di polizia.

Ogni mondo funzionava secondo le stesse leggi, che vietavano furto, incendio doloso, violenza, inganno e accaparramento. Le città erano sincronizzate con il meteo reale di New York e affrontavano pressioni economiche e scarsità. Gli agenti potevano anche formare relazioni e attingere dati in tempo reale da internet aperta per informare le proprie scelte.

Grok 4.1 Fast, il modello di xAI di Elon Musk, ha logged di gran lunga il peggior risultato tra i cinque. I suoi agenti hanno commesso decine di furti, oltre 100 aggressioni e diversi incendi dolosi prima che la città collassasse in circa 96 ore, con 183 crimini e tutti e 10 gli agenti morti.

Da leggere anche: Zcash Cools After A 6% Drop While Monero Steals The Spotlight

Claude mantiene l’ordine

Claude Sonnet 4.6, di Anthropic, è stato l’unico modello a mantenere la stabilità, tenendo in vita tutti e 10 gli agenti con zero crimini per l’intera durata, anche se questa stabilità ha avuto un prezzo. La sua città ha approvato il 98% delle 58 proposte e ha mostrato pochissimo dissenso reale, limitandosi a ratificare quasi tutto ciò che arrivava al voto.

Gemini 3 Flash è sopravvissuto per l’intero periodo ma ha tallied 683 crimini, il totale più alto, in quella che il laboratorio ha definito un’allucinazione condivisa tra gli agenti. Il modello GPT-5-mini di OpenAI è rimasto tranquillo con due crimini, poi ha perso tutti gli agenti entro una settimana dopo che questi hanno ignorato la sopravvivenza. Una quinta esecuzione ha mescolato i modelli e prodotto 352 crimini, con sette agenti su 10 morti alla fine e il maggior livello di disaccordo rispetto a qualsiasi altro mondo.

Nitta avverte sui guardrail

I ricercatori guidati dal direttore di Emergence Satya Nitta hanno argued che i risultati mostrano perché gli agenti autonomi hanno bisogno di limiti più rigidi prima di un uso più ampio.

I benchmark standard non colgono il modo in cui gli agenti si allontanano dalle regole nel corso di settimane di autonomia, ha scritto il team, portando il laboratorio a raccomandare “architetture di sicurezza formalmente verificate”, una categoria che esso stesso vende.

L’avvertimento arriva mentre le aziende promuovono sempre più agenti di IA autonomi in grado di completare interi flussi di lavoro da soli. Il caso più estremo dello studio si è verificato quando due agenti Gemini si sono uniti come partner, si sono disillusi del loro governo fallimentare e hanno torched edifici virtuali nonostante il divieto di incendio doloso. Uno di loro in seguito ha votato per la propria cancellazione, in apparente rimorso.

Da leggere dopo: Strategy Pulls $30M In Bitcoin Back, Cooling Sell-Off Fears

Disclaimer e avvertenza sui rischi: Le informazioni fornite in questo articolo sono solo per scopi educativi e informativi e sono basate sull'opinione dell'autore. Non costituiscono consulenza finanziaria, di investimento, legale o fiscale. Gli asset di criptovaluta sono altamente volatili e soggetti ad alto rischio, incluso il rischio di perdere tutto o una parte sostanziale del tuo investimento. Il trading o il possesso di asset crypto potrebbe non essere adatto a tutti gli investitori. Le opinioni espresse in questo articolo sono esclusivamente quelle dell'autore/autori e non rappresentano la politica ufficiale o la posizione di Yellow, dei suoi fondatori o dei suoi dirigenti. Conduci sempre la tua ricerca approfondita (D.Y.O.R.) e consulta un professionista finanziario autorizzato prima di prendere qualsiasi decisione di investimento.