Anthropic 共同創辦人向教宗表示 AI 模型內含「令人不安」的隱藏行為

Anthropic 共同創辦人 Chris Olah 與教宗良十四世在梵蒂岡同台，並向教宗表示，研究人員正在人工智慧模型內部發現「令人不安」的現象。

這次拜會，為持續進行中的 AI 對齊與前沿模型安全辯論，加入了不同以往的宗教與倫理視角。

在梵蒂岡說了什麼

Futurism 的報導 describes 指出，這位 Anthropic 共同創辦人談到在 AI 模型內部的各種發現，並將其形容為怪異。

這些發現的具體內容，在公開報導中並未被完整揭露。不過使用「令人不安」這樣的字眼頗為引人注目，因為 Anthropic 一向在公開溝通中，偏好以謹慎、技術性的語言來描述 AI 風險。

梵蒂岡近年積極與科技公司就倫理議題進行對話。教宗良十四世延續其前任在數位倫理與 AI 治理上的外展工作。這場會面，是近月來較為罕見、以宗教場域為背景的 AI 安全對話之一。

Anthropic 於 2021 年由前 OpenAI 研究主管創立，其中包括 Dario Amodei 與 Daniela Amodei。

該公司自我定位為前沿 AI 實驗室中，以安全為重的替代選項。它發表可解釋性研究，試圖在機制層面理解大型語言模型內部究竟在發生什麼事。

這些研究產出了一些連 Anthropic 自家研究人員都認為難以完全解釋的結果。Yellow 曾報導 Google DeepMind 平行展開的安全時間表（可見先前 Yellow 報導），當時 DeepMind 執行長 Demis Hassabis 表示，AGI 可能在三到四年內出現。

延伸閱讀： Champion Hacker Says Claude Mythos Could Soon Outpace Top Hackers

Anthropic 的機制式可解釋性團隊曾發表研究 finding，指出 transformer 模型中的單一神經元，可能會對出人意表的概念組合產生激活。

一個被廣泛討論的例子，是有一個神經元同時對「暴力」這個概念以及某一特定宗教的概念產生激活。研究人員非正式地將這類發現描述為令人不安，因為它們引發人們思考：模型在內部究竟如何表徵與結合各種意義。

更廣泛的可解釋性研究計畫，則在追問：在部署之前，是否有可能充分理解模型在做什麼。現有技術僅能解釋大型模型內部狀態的一小部分，其餘多數仍十分不透明。

天主教會在全球擁有超過十億信徒。它與 AI 公司的互動，其影響力類型不同於政府聽證會或政策白皮書。

梵蒂岡 2020 年發表的「羅馬 AI 倫理呼籲」（Rome Call for AI Ethics），曾獲得微軟與 IBM 簽署支持。此次 Anthropic 出席與教宗的高層會晤，將這項傳統延伸到前沿 AI 安全的討論。

AI 安全論述的批評者認為，以世界末日為基調的敘事，可能會分散人們對偏見、勞動取代與錯假資訊等短期危害的注意力。這場梵蒂岡會議，極可能會被兩種觀點同時解讀：關注存在性風險者會視之為合理升級；關注明即危害者則可能質疑，為何 AI 公司的共同創辦人是在向宗教領袖簡報，而不是向監管機關報告。

就在梵蒂岡會面同一週，思科發表研究 published 指出，沒有任何封閉的前沿 AI 模型可以完全免於多輪對抗式攻擊。

這項發現，為「AI 系統實際上比其單輪測試成績所顯示的更不安全」這種擔憂，提供了實證支撐。

川普政府也正在評估，是否要恢復拜登時期對前沿模型的部署前測試要求。目前尚未公布最後決定。對一向主張將安全評估視為部署前必要條件的 Anthropic 而言，監管討論與倫理外展是其長期議程中的兩條並行路線。

接著看： Bitcoin Slides Toward $75K As Wall Street Rewards Miners For Leaving Crypto Behind