Anthropic 共同創辦人 Chris Olah 與教宗良十四世在梵蒂岡同台,並向教宗表示,研究人員正在人工智慧模型內部發現「令人不安」的現象。
這次拜會,為持續進行中的 AI 對齊與前沿模型安全辯論,加入了不同以往的宗教與倫理視角。
在梵蒂岡說了什麼
Futurism 的報導 describes 指出,這位 Anthropic 共同創辦人談到在 AI 模型內部的各種發現,並將其形容為怪異。
這些發現的具體內容,在公開報導中並未被完整揭露。不過使用「令人不安」這樣的字眼頗為引人注目,因為 Anthropic 一向在公開溝通中,偏好以謹慎、技術性的語言來描述 AI 風險。
梵蒂岡近年積極與科技公司就倫理議題進行對話。教宗良十四世延續其前任在數位倫理與 AI 治理上的外展工作。這場會面,是近月來較為罕見、以宗教場域為背景的 AI 安全對話之一。
背景
Anthropic 於 2021 年由前 OpenAI 研究主管創立,其中包括 Dario Amodei 與 Daniela Amodei。
該公司自我定位為前沿 AI 實驗室中,以安全為重的替代選項。它發表可解釋性研究,試圖在機制層面理解大型語言模型內部究竟在發生什麼事。
這些研究產出了一些連 Anthropic 自家研究人員都認為難以完全解釋的結果。Yellow 曾報導 Google DeepMind 平行展開的安全時間表(可見先前 Yellow 報導),當時 DeepMind 執行長 Demis Hassabis 表示,AGI 可能在三到四年內出現。
延伸閱讀: Champion Hacker Says Claude Mythos Could Soon Outpace Top Hackers
可解釋性與「令人不安」可能指的是什麼
Anthropic 的機制式可解釋性團隊曾發表研究 finding,指出 transformer 模型中的單一神經元,可能會對出人意表的概念組合產生激活。
一個被廣泛討論的例子,是有一個神經元同時對「暴力」這個概念以及某一特定宗教的概念產生激活。研究人員非正式地將這類發現描述為令人不安,因為它們引發人們思考:模型在內部究竟如何表徵與結合各種意義。
更廣泛的可解釋性研究計畫,則在追問:在部署之前,是否有可能充分理解模型在做什麼。現有技術僅能解釋大型模型內部狀態的一小部分,其餘多數仍十分不透明。
為何梵蒂岡的介入很重要
天主教會在全球擁有超過十億信徒。它與 AI 公司的互動,其影響力類型不同於政府聽證會或政策白皮書。
梵蒂岡 2020 年發表的「羅馬 AI 倫理呼籲」(Rome Call for AI Ethics),曾獲得微軟與 IBM 簽署支持。此次 Anthropic 出席與教宗的高層會晤,將這項傳統延伸到前沿 AI 安全的討論。
AI 安全論述的批評者認為,以世界末日為基調的敘事,可能會分散人們對偏見、勞動取代與錯假資訊等短期危害的注意力。這場梵蒂岡會議,極可能會被兩種觀點同時解讀:關注存在性風險者會視之為合理升級;關注明即危害者則可能質疑,為何 AI 公司的共同創辦人是在向宗教領袖簡報,而不是向監管機關報告。
更廣泛的安全局勢
就在梵蒂岡會面同一週,思科發表研究 published 指出,沒有任何封閉的前沿 AI 模型可以完全免於多輪對抗式攻擊。
這項發現,為「AI 系統實際上比其單輪測試成績所顯示的更不安全」這種擔憂,提供了實證支撐。
川普政府也正在評估,是否要恢復拜登時期對前沿模型的部署前測試要求。目前尚未公布最後決定。對一向主張將安全評估視為部署前必要條件的 Anthropic 而言,監管討論與倫理外展是其長期議程中的兩條並行路線。
接著看: Bitcoin Slides Toward $75K As Wall Street Rewards Miners For Leaving Crypto Behind





