Il cofondatore di Anthropic dice al Papa che i modelli di IA contengono comportamenti nascosti «inquietanti»

Il cofondatore di Anthropic Chris Olah è apparso insieme a Papa Leone XIV in Vaticano e ha detto al pontefice che i ricercatori stanno trovando elementi «inquietanti» all’interno dei modelli di intelligenza artificiale.

La visita aggiunge una dimensione etico‑religiosa insolita al dibattito in corso sull’allineamento dell’IA e sulla sicurezza dei modelli più avanzati.

Cosa è stato detto in Vaticano

Il reportage di Futurism describes il cofondatore di Anthropic mentre fa dichiarazioni su scoperte all’interno dei modelli di IA che sono state descritte come strane.

La natura specifica di queste scoperte non è stata completamente dettagliata nei resoconti pubblici. L’uso del termine «inquietante» è notevole perché la comunicazione pubblica di Anthropic tende a descrivere i rischi dell’IA in modo misurato e tecnico.

Il Vaticano si sta impegnando attivamente con le aziende tecnologiche su questioni etiche. Papa Leone XIV ha proseguito l’opera di sensibilizzazione iniziata dal suo predecessore sull’etica digitale e sulla governance dell’IA. L’incontro rappresenta una delle sedi più insolite per una conversazione sulla sicurezza dell’IA negli ultimi mesi.

Contesto

Anthropic è stata fondata nel 2021 da ex dirigenti di ricerca di OpenAI, tra cui Dario Amodei e Daniela Amodei.

L’azienda si è posizionata come l’alternativa focalizzata sulla sicurezza tra i laboratori di frontiera dell’IA. Pubblica ricerche sull’interpretabilità mirate a comprendere cosa accade all’interno dei grandi modelli linguistici a livello meccanicistico.

Queste ricerche hanno prodotto risultati che gli stessi ricercatori di Anthropic descrivono come difficili da spiegare pienamente. Yellow ha trattato il parallelo percorso di sicurezza di Google DeepMind (vedi la precedente copertura di Yellow), quando il CEO di DeepMind Demis Hassabis ha dichiarato che l’AGI potrebbe arrivare entro tre o quattro anni.

Da leggere anche: Champion Hacker Says Claude Mythos Could Soon Outpace Top Hackers

Interpretabilità e cosa potrebbe significare «inquietante»

Il team di interpretabilità meccanicistica di Anthropic ha pubblicato ricerche finding secondo cui singoli neuroni all’interno dei modelli transformer possono attivarsi per combinazioni inaspettate di concetti.

Uno degli esempi più discussi riguarda un neurone che si attivava sia per il concetto di violenza sia per il concetto di una specifica religione. Questi sono i tipi di risultati che i ricercatori descrivono informalmente come inquietanti, perché sollevano interrogativi su come i modelli rappresentino internamente il significato.

Il più ampio programma di ricerca sull’interpretabilità si chiede se sia possibile comprendere pienamente cosa stia facendo un modello prima di distribuirlo. Le tecniche attuali riescono a spiegare solo una piccola frazione degli stati interni di un grande modello. Il resto rimane opaco.

Perché l’impegno del Vaticano è importante

La Chiesa cattolica conta oltre un miliardo di fedeli. Il suo coinvolgimento con le aziende di IA esercita un tipo di influenza diverso rispetto a un’audizione governativa o a un documento di policy.

Il «Rome Call for AI Ethics» del 2020 del Vaticano è stato firmato da Microsoft e IBM. La presenza di Anthropic a un incontro di alto livello con il Papa estende quella tradizione anche alla conversazione sulla sicurezza dei sistemi di frontiera.

I critici della retorica sulla sicurezza dell’IA sostengono che una narrazione apocalittica possa distogliere l’attenzione dai danni a breve termine, come bias, sostituzione del lavoro e disinformazione. L’incontro in Vaticano verrà probabilmente letto in entrambe le chiavi. Chi è concentrato sul rischio esistenziale lo vedrà come un’escalation appropriata. Chi è focalizzato sui danni immediati potrebbe chiedersi perché il cofondatore di un’azienda di IA stia informando i leader religiosi invece dei regolatori.

Il più ampio panorama della sicurezza

Nella stessa settimana della visita in Vaticano, Cisco ha published ricerche secondo cui nessun modello chiuso di IA di frontiera è immune ad attacchi avversari multi‑turno.

Questo risultato aggiunge peso empirico alla preoccupazione che i sistemi di IA siano meno sicuri di quanto suggeriscano i punteggi di benchmark a singolo prompt.

L’amministrazione Trump sta inoltre valutando se ripristinare i requisiti, introdotti in era Biden, di test pre‑distribuzione per i modelli di frontiera. Non è stata ancora annunciata alcuna decisione definitiva. Per Anthropic, che ha sostenuto le valutazioni di sicurezza come condizione preliminare al rilascio, il confronto regolatorio e l’impegno etico rappresentano due facce della stessa agenda di lungo periodo.

Da leggere dopo: Bitcoin Slides Toward $75K As Wall Street Rewards Miners For Leaving Crypto Behind