Medeoprichter van Anthropic vertelt paus dat AI‑modellen “onheilspellende” verborgen gedragingen bevatten

Anthropic‑medeoprichter Chris Olah verscheen samen met paus Leo XIV in het Vaticaan en vertelde de paus dat onderzoekers “onheilspellende” dingen vinden in modellen voor kunstmatige intelligentie.

Het bezoek voegt een ongebruikelijke religieus‑ethische dimensie toe aan het voortdurende debat over AI‑alignment en veiligheid van frontiermodellen.

Wat er in het Vaticaan werd gezegd

Het Futurism‑bericht describes de medeoprichter van Anthropic die uitspraken deed over ontdekkingen in AI‑modellen die zij als vreemd bestempelden.

De precieze aard van die ontdekkingen werd in gepubliceerde verslagen niet volledig uiteengezet. De formulering met het woord “onheilspellend” valt op, omdat de publieke communicatie van Anthropic doorgaans neigt naar beheerste, technische beschrijvingen van AI‑risico’s.

Het Vaticaan gaat actief in gesprek met technologiebedrijven over ethische vraagstukken. Paus Leo XIV heeft de onder zijn voorganger begonnen dialoog over digitale ethiek en AI‑governance voortgezet. De ontmoeting is een van de meer ongebruikelijke podia voor een gesprek over AI‑veiligheid in de afgelopen maanden.

Achtergrond

Anthropic werd in 2021 opgericht door voormalige OpenAI‑onderzoeksexecutives, waaronder Dario Amodei en Daniela Amodei.

Het bedrijf profileert zich als het op veiligheid gerichte alternatief onder de frontier‑AI‑labs. Het publiceert interpretabiliteitsonderzoek dat erop gericht is te begrijpen wat er op mechanistisch niveau in grote taalmodellen gebeurt.

Dat onderzoek heeft bevindingen opgeleverd die zelfs de eigen onderzoekers van Anthropic als moeilijk volledig te verklaren omschrijven. Yellow besprak eerder de parallelle veiligheidstijdlijn van Google DeepMind (zie eerdere Yellow‑berichtgeving), toen DeepMind‑CEO Demis Hassabis zei dat AGI binnen drie tot vier jaar zou kunnen arriveren.

Ook interessant: Champion Hacker Says Claude Mythos Could Soon Outpace Top Hackers

Interpretabiliteit en wat “onheilspellend” kan betekenen

Het team voor mechanistische interpretabiliteit van Anthropic heeft onderzoek finding gepubliceerd waaruit blijkt dat individuele neuronen in transformermodellen kunnen activeren voor onverwachte combinaties van concepten.

Een veelbesproken voorbeeld betrof een neuron dat activeerde voor zowel het concept geweld als het concept van een specifieke religie. Dit zijn de soorten bevindingen die onderzoekers informeel als onheilspellend omschrijven, omdat ze vragen oproepen over hoe modellen intern betekenis representeren.

De bredere interpretabiliteitsagenda vraagt of het mogelijk is volledig te begrijpen wat een model doet voordat het wordt ingezet. Huidige technieken kunnen slechts kleine delen van de interne toestanden van een groot model verklaren. De rest blijft ondoorzichtig.

Waarom het contact met het Vaticaan ertoe doet

De katholieke kerk heeft meer dan een miljard gelovigen. Haar betrokkenheid bij AI‑bedrijven heeft een ander soort invloed dan een parlementaire hoorzitting of een beleidsnotitie.

De “Rome Call for AI Ethics” van het Vaticaan uit 2020 werd ondertekend door Microsoft en IBM. De aanwezigheid van Anthropic bij een overleg op hoog niveau met de paus zet die traditie voort in het gesprek over frontier‑veiligheid.

Critici van AI‑veiligheidsretoriek stellen dat apocalyptische framing kan afleiden van kortetermijnschade zoals bias, verdringing van arbeid en desinformatie. De ontmoeting in het Vaticaan zal waarschijnlijk door beide lenzen worden gelezen. Wie zich op existentieel risico richt, zal het zien als een passende opschaling. Wie focust op onmiddellijke schade kan zich afvragen waarom een medeoprichter van een AI‑bedrijf religieuze leiders inlicht in plaats van toezichthouders.

Het bredere veiligheidslandschap

In dezelfde week als het Vaticaan‑bezoek published Cisco onderzoek waaruit blijkt dat geen enkel gesloten frontier‑AI‑model immuun is voor meerstaps‑adversariële aanvallen.

Die bevinding geeft empirische steun aan de zorg dat AI‑systemen minder veilig zijn dan hun scores op single‑prompt‑benchmarks doen vermoeden.

De regering‑Trump bekijkt ook of de onder Biden ingevoerde vereisten voor testen vóór uitrol van frontiermodellen nieuw leven moeten worden ingeblazen. Er is nog geen definitief besluit aangekondigd. Voor Anthropic, dat heeft gepleit voor veiligheidsevaluaties als voorwaarde voor inzet, zijn het reguleringsdebat en de ethische dialoog twee sporen van dezelfde langetermijnagenda.

Lees hierna: Bitcoin Slides Toward $75K As Wall Street Rewards Miners For Leaving Crypto Behind