Le cofondateur d’Anthropic explique au pape que les modèles d’IA recèlent des comportements « troublants » cachés

Anthropic cofondateur Chris Olah est apparu aux côtés du pape Léon XIV au Vatican et a expliqué au pontife que les chercheurs découvrent des éléments « troublants » à l’intérieur des modèles d’intelligence artificielle.

Cette visite ajoute une dimension éthique et religieuse inhabituelle au débat en cours sur l’alignement de l’IA et la sécurité des modèles de pointe.

Ce qui a été dit au Vatican

Le rapport de Futurism describes le cofondateur d’Anthropic tenant des propos sur des découvertes faites à l’intérieur des modèles d’IA, qu’ils ont qualifiées d’étranges.

La nature précise de ces découvertes n’a pas été entièrement détaillée dans les récits publiés. Le choix du terme « troublant » est remarquable, car la communication publique d’Anthropic a généralement tendance à privilégier des descriptions mesurées et techniques des risques liés à l’IA.

Le Vatican s’engage activement avec les entreprises technologiques sur les questions d’éthique. Le pape Léon XIV a poursuivi l’initiative lancée par son prédécesseur sur l’éthique numérique et la gouvernance de l’IA. La rencontre représente l’un des lieux les plus inhabituels pour une discussion récente sur la sécurité de l’IA.

Contexte

Anthropic a été fondée en 2021 par d’anciens responsables de la recherche chez OpenAI, dont Dario Amodei et Daniela Amodei.

L’entreprise s’est positionnée comme l’alternative axée sur la sécurité parmi les laboratoires d’IA de pointe. Elle publie des travaux de recherche en interprétabilité visant à comprendre, au niveau mécanistique, ce qui se passe à l’intérieur des grands modèles de langage.

Ces travaux ont produit des résultats que les propres chercheurs d’Anthropic décrivent comme difficiles à expliquer pleinement. Yellow a couvert en parallèle le calendrier de sécurité de Google DeepMind (voir la couverture précédente de Yellow), lorsque le PDG de DeepMind, Demis Hassabis, a déclaré que l’AGI pourrait arriver d’ici trois à quatre ans.

Also Read: Champion Hacker Says Claude Mythos Could Soon Outpace Top Hackers

Interprétabilité et ce que « troublant » pourrait signifier

L’équipe d’interprétabilité mécanistique d’Anthropic a publié des recherches finding montrant que certains neurones individuels à l’intérieur des modèles transformeurs peuvent s’activer pour des combinaisons inattendues de concepts.

Un exemple largement commenté concernait un neurone qui s’activait à la fois pour le concept de violence et pour celui d’une religion spécifique. Ce sont le type de résultats que les chercheurs décrivent de manière informelle comme troublants, car ils soulèvent des questions sur la façon dont les modèles représentent le sens en interne.

Le programme de recherche plus large sur l’interprétabilité consiste à se demander s’il est possible de comprendre pleinement ce que fait un modèle avant de le déployer. Les techniques actuelles permettent d’expliquer une petite fraction des états internes d’un grand modèle. Le reste demeure opaque.

Pourquoi l’engagement du Vatican est important

L’Église catholique compte plus d’un milliard de fidèles. Son engagement avec les entreprises d’IA exerce une influence différente de celle d’une audition gouvernementale ou d’un document de politique publique.

L’« Appel de Rome pour l’éthique de l’IA » lancé par le Vatican en 2020 a été signé par Microsoft et IBM. La présence d’Anthropic à une réunion de haut niveau avec le pape prolonge cette tradition au débat sur la sécurité des modèles de pointe.

Les critiques du discours sur la sécurité de l’IA soutiennent qu’un cadrage apocalyptique peut détourner l’attention des dommages à court terme tels que les biais, la perte d’emplois et la désinformation. La rencontre au Vatican sera probablement lue à travers ces deux prismes. Ceux qui se concentrent sur le risque existentiel y verront une escalade appropriée. Ceux qui se concentrent sur les préjudices immédiats peuvent se demander pourquoi le cofondateur d’une entreprise d’IA informe des dirigeants religieux plutôt que des régulateurs.

Un panorama plus large de la sécurité

La même semaine que la visite au Vatican, Cisco a published des recherches montrant qu’aucun modèle d’IA propriétaire de pointe n’est à l’abri des attaques conversationnelles adversariales multitangentes.

Ce résultat renforce, par des éléments empiriques, l’inquiétude selon laquelle les systèmes d’IA sont moins sûrs que ne le suggèrent leurs scores de référence sur des invites uniques.

L’administration Trump examine également la possibilité de rétablir les exigences de tests pré‑déploiement pour les modèles de pointe héritées de l’ère Biden. Aucune décision finale n’a été annoncée. Pour Anthropic, qui a plaidé en faveur d’évaluations de sécurité comme condition préalable au déploiement, le débat réglementaire et la démarche éthique constituent deux volets d’un même programme à long terme.