Anthropic 联合创始人向教皇表示 AI 模型中存在“令人不安”的隐藏行为

Anthropic 联合创始人向教皇表示 AI 模型中存在“令人不安”的隐藏行为

Anthropic 联合创始人 Chris Olah 现身梵蒂冈,与教皇利奥十四世同台,并向教皇表示,研究人员正在人工智能模型内部发现一些“令人不安”的现象。

此次访问为围绕 AI 对齐与前沿模型安全的持续争论,增添了一个罕见的宗教与伦理维度。

在梵蒂冈说了什么

Futurism 的报道描述了这位 Anthropic 联合创始人,如何谈到他们在 AI 模型内部的发现,并将其形容为怪异。

这些发现的具体性质在公开报道中并未完全披露。不过,这种使用“令人不安”一词的表述颇为引人注目,因为 Anthropic 以往公开沟通 AI 风险时,一般倾向于使用更审慎、技术性的语言。

梵蒂冈一直在就伦理问题积极与科技公司互动。教皇利奥十四世延续了其前任在数字伦理与 AI 治理上的外联传统。这次会面,是近几个月里就 AI 安全展开对话的最不寻常场合之一。

背景

Anthropic 成立于 2021 年,由前 OpenAI 研究高管创立,其中包括 Dario Amodei 和 Daniela Amodei。

该公司将自己定位为前沿 AI 实验室中更注重安全的替代者,发布的可解释性研究,旨在以机械层面理解大型语言模型内部到底发生了什么。

这些研究已经带来了连 Anthropic 自家研究人员都认为难以完全解释的发现。Yellow 曾报道过 Google DeepMind 的平行安全时间表(见以往 Yellow 报道),当时 DeepMind CEO Demis Hassabis 表示 AGI 可能在三到四年内到来。

延伸阅读:Champion Hacker Says Claude Mythos Could Soon Outpace Top Hackers

可解释性与“令人不安”可能意味着什么

Anthropic 的机械可解释性团队在研究中发现,在 Transformer 模型内部,单个神经元会对出人意料的概念组合做出激活。

一个被广泛讨论的例子是,有一个神经元既会对“暴力”的概念激活,又会对某一特定宗教的概念激活。研究人员常将这类发现非正式地称为“令人不安”,因为它们引发了关于模型如何在内部表征意义的问题。

更广泛的可解释性研究议程在追问:在部署前,是否有可能完全理解模型在做什么?当前技术只能解释大型模型内部状态的一小部分,其余仍然不透明。

梵蒂冈参与为何重要

天主教会拥有逾十亿信徒。它与 AI 公司的互动,其影响力与政府听证会或政策文件截然不同。

梵蒂冈在 2020 年发布的《罗马人工智能伦理呼吁》得到微软和 IBM 签署支持。Anthropic 受邀参与与教皇的高层会晤,使前沿 AI 安全话题延续到了这一传统之中。

AI 安全话语的批评者认为,末日式的叙事会分散人们对偏见、劳动替代与虚假信息等近期危害的关注。此次梵蒂冈会面很可能会被从这两种视角解读:关注生存性风险的人会认为这是适度升级;而聚焦现实危害的人则可能质疑,为何 AI 公司的联合创始人要向宗教领袖作简报,而不是去面对监管者。

更广阔的安全格局

与梵蒂冈访问同一周内,思科发布研究指出,没有任何闭源前沿 AI 模型能完全抵御多轮对抗攻击。

这一发现为这样一种担忧提供了实证支撑:AI 系统的安全性,可能低于其在单轮提示基准测试中的得分所显示的水平。

特朗普政府也在审议是否要恢复拜登时期对前沿模型的部署前测试要求。目前尚未公布最终决定。对于一直主张将安全评估作为部署前提条件的 Anthropic 来说,监管层面的讨论与伦理外联,是其长期议程的两条并行轨道。

接着看:Bitcoin Slides Toward $75K As Wall Street Rewards Miners For Leaving Crypto Behind

免责声明和风险警告: 本文提供的信息仅用于教育和信息目的,基于作者的意见。它不构成财务、投资、法律或税务建议。 加密货币资产具有高度波动性并面临高风险,包括失去全部或大部分投资的风险。交易或持有加密资产可能不适合所有投资者。 本文表达的观点仅为作者的观点,不代表Yellow、其创始人或高管的官方政策或立场。 在做出任何投资决定之前,请务必进行自己的全面研究(D.Y.O.R.)并咨询持牌金融专业人士。
Anthropic 联合创始人向教皇表示 AI 模型中存在“令人不安”的隐藏行为 | Yellow.com