Anthropic 联合创始人向教皇表示 AI 模型中存在“令人不安”的隐藏行为

Anthropic 联合创始人 Chris Olah 现身梵蒂冈，与教皇利奥十四世同台，并向教皇表示，研究人员正在人工智能模型内部发现一些“令人不安”的现象。

此次访问为围绕 AI 对齐与前沿模型安全的持续争论，增添了一个罕见的宗教与伦理维度。

在梵蒂冈说了什么

Futurism 的报道描述了这位 Anthropic 联合创始人，如何谈到他们在 AI 模型内部的发现，并将其形容为怪异。

这些发现的具体性质在公开报道中并未完全披露。不过，这种使用“令人不安”一词的表述颇为引人注目，因为 Anthropic 以往公开沟通 AI 风险时，一般倾向于使用更审慎、技术性的语言。

梵蒂冈一直在就伦理问题积极与科技公司互动。教皇利奥十四世延续了其前任在数字伦理与 AI 治理上的外联传统。这次会面，是近几个月里就 AI 安全展开对话的最不寻常场合之一。

Anthropic 成立于 2021 年，由前 OpenAI 研究高管创立，其中包括 Dario Amodei 和 Daniela Amodei。

该公司将自己定位为前沿 AI 实验室中更注重安全的替代者，发布的可解释性研究，旨在以机械层面理解大型语言模型内部到底发生了什么。

这些研究已经带来了连 Anthropic 自家研究人员都认为难以完全解释的发现。Yellow 曾报道过 Google DeepMind 的平行安全时间表（见以往 Yellow 报道），当时 DeepMind CEO Demis Hassabis 表示 AGI 可能在三到四年内到来。

Anthropic 的机械可解释性团队在研究中发现，在 Transformer 模型内部，单个神经元会对出人意料的概念组合做出激活。

一个被广泛讨论的例子是，有一个神经元既会对“暴力”的概念激活，又会对某一特定宗教的概念激活。研究人员常将这类发现非正式地称为“令人不安”，因为它们引发了关于模型如何在内部表征意义的问题。

更广泛的可解释性研究议程在追问：在部署前，是否有可能完全理解模型在做什么？当前技术只能解释大型模型内部状态的一小部分，其余仍然不透明。

天主教会拥有逾十亿信徒。它与 AI 公司的互动，其影响力与政府听证会或政策文件截然不同。

梵蒂冈在 2020 年发布的《罗马人工智能伦理呼吁》得到微软和 IBM 签署支持。Anthropic 受邀参与与教皇的高层会晤，使前沿 AI 安全话题延续到了这一传统之中。

AI 安全话语的批评者认为，末日式的叙事会分散人们对偏见、劳动替代与虚假信息等近期危害的关注。此次梵蒂冈会面很可能会被从这两种视角解读：关注生存性风险的人会认为这是适度升级；而聚焦现实危害的人则可能质疑，为何 AI 公司的联合创始人要向宗教领袖作简报，而不是去面对监管者。

与梵蒂冈访问同一周内，思科发布研究指出，没有任何闭源前沿 AI 模型能完全抵御多轮对抗攻击。

这一发现为这样一种担忧提供了实证支撑：AI 系统的安全性，可能低于其在单轮提示基准测试中的得分所显示的水平。

特朗普政府也在审议是否要恢复拜登时期对前沿模型的部署前测试要求。目前尚未公布最终决定。对于一直主张将安全评估作为部署前提条件的 Anthropic 来说，监管层面的讨论与伦理外联，是其长期议程的两条并行轨道。