Anthropic-Mitgründer sagt Papst, dass KI-Modelle „beunruhigende“ verborgene Verhaltensweisen enthalten

Anthropic-Mitgründer Chris Olah trat im Vatikan gemeinsam mit Papst Leo XIV auf und sagte dem Pontifex, dass Forschende „beunruhigende“ Dinge im Inneren von Modellen der Künstlichen Intelligenz finden.

Der Besuch fügt der laufenden Debatte über KI‑Ausrichtung (Alignment) und die Sicherheit von Frontier‑Modellen eine ungewöhnliche religiös‑ethische Dimension hinzu.

Was im Vatikan gesagt wurde

Der Futurism‑Bericht describes den Anthropic‑Mitgründer mit Aussagen über Entdeckungen im Inneren von KI‑Modellen, die als merkwürdig charakterisiert wurden.

Die genaue Natur dieser Entdeckungen wurde in den veröffentlichten Berichten nicht vollständig dargelegt. Die Wortwahl, insbesondere der Begriff „beunruhigend“, ist bemerkenswert, weil die öffentlichen Mitteilungen von Anthropic bei der Beschreibung von KI‑Risiken normalerweise eher nüchtern und technisch sind.

Der Vatikan setzt sich aktiv mit Technologieunternehmen zu Ethikfragen auseinander. Papst Leo XIV. führt die unter seinem Vorgänger begonnene Outreach‑Arbeit zu digitaler Ethik und KI‑Governance fort. Das Treffen gehört zu den ungewöhnlicheren Schauplätzen für ein Gespräch über KI‑Sicherheit in den vergangenen Monaten.

Hintergrund

Anthropic wurde 2021 von ehemaligen OpenAI‑Forschungsleitenden gegründet, darunter Dario Amodei und Daniela Amodei.

Das Unternehmen positioniert sich als sicherheitsorientierte Alternative unter den Frontier‑KI‑Laboren. Es veröffentlicht Interpretierbarkeitsforschung mit dem Ziel, auf mechanistischer Ebene zu verstehen, was im Inneren großer Sprachmodelle geschieht.

Diese Forschung hat zu Ergebnissen geführt, die selbst die Anthropic‑Forschenden als schwer vollständig erklärbar beschreiben. Yellow berichtete über den parallelen Sicherheitsfahrplan von Google DeepMind (siehe frühere Yellow‑Berichte), als DeepMind‑CEO Demis Hassabis sagte, AGI könne innerhalb von drei bis vier Jahren eintreffen.

Also Read: Champion Hacker Says Claude Mythos Could Soon Outpace Top Hackers

Interpretierbarkeit und was „beunruhigend“ bedeuten könnte

Das Team für mechanistische Interpretierbarkeit von Anthropic hat Forschung finding veröffentlicht, der zufolge einzelne Neuronen in Transformer‑Modellen bei unerwarteten Kombinationen von Konzepten aktiv werden können.

Ein viel diskutiertes Beispiel betraf ein Neuron, das sowohl auf das Konzept von Gewalt als auch auf das Konzept einer bestimmten Religion ansprach. Dies sind die Arten von Ergebnissen, die Forschende informell als beunruhigend bezeichnen, weil sie Fragen danach aufwerfen, wie Modelle Bedeutung intern darstellen.

Das übergeordnete Interpretierbarkeits‑Forschungsprogramm fragt, ob es möglich ist, vollständig zu verstehen, was ein Modell tut, bevor es eingesetzt wird. Aktuelle Methoden können nur kleine Bruchteile der inneren Zustände eines großen Modells erklären. Der Rest bleibt undurchsichtig.

Warum das Engagement des Vatikans wichtig ist

Die katholische Kirche hat über eine Milliarde Anhänger. Ihr Austausch mit KI‑Unternehmen entfaltet eine andere Art von Einfluss als eine Regierungsanhörung oder ein Policy‑Papier.

Der „Rome Call for AI Ethics“ des Vatikans aus dem Jahr 2020 wurde von Microsoft und IBM unterzeichnet. Die Präsenz von Anthropic bei einem hochrangigen Treffen mit dem Papst führt diese Tradition im Kontext der Frontier‑Sicherheitsdebatte fort.

Kritiker der KI‑Sicherheitsrhetorik argumentieren, dass apokalyptische Framings von kurzfristigen Schäden wie Vorurteilen, Arbeitsplatzverlusten und Desinformation ablenken können. Das Treffen im Vatikan wird wahrscheinlich durch beide Brillen gelesen werden. Menschen, die sich auf existenzielle Risiken konzentrieren, werden es als angemessene Eskalation sehen. Jene, die den unmittelbaren Schäden mehr Gewicht geben, könnten sich fragen, warum ein KI‑Mitgründer religiöse Führer statt Regulierungsbehörden informiert.

Die breitere Sicherheitslandschaft

In derselben Woche wie der Vatikan‑Besuch hat Cisco Forschung published veröffentlicht, der zufolge kein geschlossenes Frontier‑KI‑Modell immun gegen mehrstufige (Multi‑Turn) adversarielle Angriffe ist.

Diese Ergebnisse verleihen der Sorge empirisches Gewicht, dass KI‑Systeme weniger sicher sind, als ihre Benchmark‑Ergebnisse auf Einzel‑Prompts vermuten lassen.

Die Trump‑Regierung prüft außerdem, ob Biden‑Ära‑Vorgaben zu Tests vor der Einführung von Frontier‑Modellen wieder eingeführt werden sollen. Eine endgültige Entscheidung wurde noch nicht bekanntgegeben. Für Anthropic, das sich für Sicherheitsevaluierungen als Voraussetzung für die Einführung einsetzt, sind die regulatorische Diskussion und die ethische Öffentlichkeitsarbeit zwei Stränge derselben langfristigen Agenda.