Anthropic 聯合創辦人 Chris Olah 在梵蒂岡與教宗良十四世同台,並向教宗表示,研究人員在人工智能模型內部發現一些「令人不安」的現象。
此行為持續進行中的 AI 對齊與前沿模型安全辯論,加入了一個相當特別、結合宗教與倫理的面向。
在梵蒂岡說了什麼
Futurism 的報導 describes 指出,這位 Anthropic 聯合創辦人談到他們在 AI 模型內部的發現,並形容這些發現相當詭異。
已公開的資料並未完整詳述這些發現的具體內容。不過,以「令人不安」來形容,格外引人注目,因為 Anthropic 一向在公開溝通中,以較為謹慎、技術性的語言描述 AI 風險。
梵蒂岡近年積極與科技公司就倫理議題互動。教宗良十四世延續其前任在數碼倫理與 AI 治理方面的外展工作。這次會面,是近月來關於 AI 安全討論中相當罕見的場合。
背景
Anthropic 於 2021 年由前 OpenAI 研究主管創立,包括 Dario Amodei 和 Daniela Amodei。
該公司將自己定位為前沿 AI 實驗室中較著重安全的替代選擇,定期發表可解讀性研究,試圖在機制層面理解大型語言模型內部實際發生了什麼。
這些研究已產生一些連 Anthropic 研究人員都坦言難以完全解釋的結果。Yellow 亦曾報導 Google DeepMind 並行的安全時間表(可參閱 Yellow 先前報導),當時 DeepMind 執行長 Demis Hassabis 表示 AGI 可能在三到四年內出現。
延伸閱讀: Champion Hacker Says Claude Mythos Could Soon Outpace Top Hackers
可解讀性與「令人不安」可能代表什麼
Anthropic 的機制式可解讀性團隊在研究中 finding 到,變壓器模型中的個別神經元,會對出人意表的概念組合產生激活。
一個廣為討論的例子,是某個神經元同時對「暴力」這個概念,以及某一特定宗教的概念產生反應。這類發現常被研究人員非正式地形容為令人不安,因為它們引發了關於模型如何在內部表徵意義的疑問。
更廣泛的可解讀性研究議程,則在追問:在部署模型之前,是否有可能真正理解模型正在做什麼。目前技術只能解釋大型模型內部狀態的一小部分,其餘仍然是不透明的黑箱。
為何梵蒂岡的參與具有意義
天主教會在全球擁有超過十億信徒。它與 AI 公司的互動,所帶來的影響,與政府聽證會或政策論文截然不同。
梵蒂岡在 2020 年提出的「羅馬 AI 倫理宣言」(Rome Call for AI Ethics),曾由 Microsoft 和 IBM 共同簽署。Anthropic 這次出席與教宗的高層會面,將這項傳統擴展到了前沿 AI 安全的討論。
AI 安全論述的批評者認為,過度末日式的框架,可能會分散人們對偏見、勞動取代、錯誤資訊等短期危害的關注。梵蒂岡這場會面,很可能會被兩種觀點同時解讀:聚焦存在性風險者,會視之為恰當的升級行動;著眼眼前傷害者,則可能質疑,為何 AI 公司的聯合創辦人,是在向宗教領袖簡報,而不是優先向監管機構報告。
更廣泛的安全版圖
與梵蒂岡訪問同一週,Cisco 也發表 published 研究,指出沒有任何封閉式前沿 AI 模型能完全抵禦多輪對抗式攻擊。
這一發現,為一項憂慮增添了實證支撐:AI 系統實際上可能比單輪提示基準測試分數所顯示的更不安全。
特朗普政府同時也在檢視,是否要恢復拜登時期對前沿模型的部署前測試要求;目前尚未有最後決定。對一向主張將安全評估作為部署前提的 Anthropic 而言,監管對話與倫理外展,是其長期議程中並行不悖的兩條路線。
Read Next: Bitcoin Slides Toward $75K As Wall Street Rewards Miners For Leaving Crypto Behind





