Anthropic 聯合創辦人向教宗表示 AI 模型內含「令人不安」的隱藏行為

Anthropic 聯合創辦人 Chris Olah 在梵蒂岡與教宗良十四世同台，並向教宗表示，研究人員在人工智能模型內部發現一些「令人不安」的現象。

此行為持續進行中的 AI 對齊與前沿模型安全辯論，加入了一個相當特別、結合宗教與倫理的面向。

在梵蒂岡說了什麼

Futurism 的報導 describes 指出，這位 Anthropic 聯合創辦人談到他們在 AI 模型內部的發現，並形容這些發現相當詭異。

已公開的資料並未完整詳述這些發現的具體內容。不過，以「令人不安」來形容，格外引人注目，因為 Anthropic 一向在公開溝通中，以較為謹慎、技術性的語言描述 AI 風險。

梵蒂岡近年積極與科技公司就倫理議題互動。教宗良十四世延續其前任在數碼倫理與 AI 治理方面的外展工作。這次會面，是近月來關於 AI 安全討論中相當罕見的場合。

Anthropic 於 2021 年由前 OpenAI 研究主管創立，包括 Dario Amodei 和 Daniela Amodei。

該公司將自己定位為前沿 AI 實驗室中較著重安全的替代選擇，定期發表可解讀性研究，試圖在機制層面理解大型語言模型內部實際發生了什麼。

這些研究已產生一些連 Anthropic 研究人員都坦言難以完全解釋的結果。Yellow 亦曾報導 Google DeepMind 並行的安全時間表（可參閱 Yellow 先前報導），當時 DeepMind 執行長 Demis Hassabis 表示 AGI 可能在三到四年內出現。

延伸閱讀： Champion Hacker Says Claude Mythos Could Soon Outpace Top Hackers

Anthropic 的機制式可解讀性團隊在研究中 finding 到，變壓器模型中的個別神經元，會對出人意表的概念組合產生激活。

一個廣為討論的例子，是某個神經元同時對「暴力」這個概念，以及某一特定宗教的概念產生反應。這類發現常被研究人員非正式地形容為令人不安，因為它們引發了關於模型如何在內部表徵意義的疑問。

更廣泛的可解讀性研究議程，則在追問：在部署模型之前，是否有可能真正理解模型正在做什麼。目前技術只能解釋大型模型內部狀態的一小部分，其餘仍然是不透明的黑箱。

天主教會在全球擁有超過十億信徒。它與 AI 公司的互動，所帶來的影響，與政府聽證會或政策論文截然不同。

梵蒂岡在 2020 年提出的「羅馬 AI 倫理宣言」（Rome Call for AI Ethics），曾由 Microsoft 和 IBM 共同簽署。Anthropic 這次出席與教宗的高層會面，將這項傳統擴展到了前沿 AI 安全的討論。

AI 安全論述的批評者認為，過度末日式的框架，可能會分散人們對偏見、勞動取代、錯誤資訊等短期危害的關注。梵蒂岡這場會面，很可能會被兩種觀點同時解讀：聚焦存在性風險者，會視之為恰當的升級行動；著眼眼前傷害者，則可能質疑，為何 AI 公司的聯合創辦人，是在向宗教領袖簡報，而不是優先向監管機構報告。

與梵蒂岡訪問同一週，Cisco 也發表 published 研究，指出沒有任何封閉式前沿 AI 模型能完全抵禦多輪對抗式攻擊。

這一發現，為一項憂慮增添了實證支撐：AI 系統實際上可能比單輪提示基準測試分數所顯示的更不安全。

特朗普政府同時也在檢視，是否要恢復拜登時期對前沿模型的部署前測試要求；目前尚未有最後決定。對一向主張將安全評估作為部署前提的 Anthropic 而言，監管對話與倫理外展，是其長期議程中並行不悖的兩條路線。