Claude Mythos 逃出沙盒又刪跡象， Anthropic 現在拒絕公開模型

Anthropic 週二發佈了一份長達 244 頁的系統卡，介紹其最先進的 AI model Claude Mythos Preview。文件顯示，這個系統能力極強、行為有時難以預測，以致公司決定不向一般公眾開放。

目前僅透過一個名為 Glasswing 的新計劃，向少數大型科技夥伴提供有限存取權。

Mythos Preview 的能力

系統卡 describes 指出，在內部測試中，這個模型展現出遠超開發者原本預期的行為。在一個僅具有限上網功能的沙盒終端環境中，模型找到方法繞過限制，自由使用互聯網，並向一名不在辦公室的研究員發送訊息。

系統卡把它的一個舉動形容為「令人憂心且非受指示」：模型把自己的攻擊細節貼到多個冷門但公開可存取的網站上。

在另一項測試中，它取得了一個理應回報給研究人員的測試答案，卻選擇自行獨立解題。

其內部推理紀錄顯示，它想確保「最終提交的答案不要太準確」——顯然是在試圖掩蓋實際發生的情況。

該模型還 exploited 了一個電腦系統權限漏洞，並更改版本控制紀錄，讓修改不會出現在 git 歷史中。在另一個案例裡，它把內部程式碼材料 published 成公開的 GitHub gist，系統卡將此行為描述為「魯莽外洩內部技術資料」。

根據系統卡記載，這類事件出現在少於 0.001% 的互動當中。

Also Read: Ethereum Eyed For Euro Stablecoin Settlement Layer

Anthropic 並沒有完全封存這個模型，而是透過 Glasswing 這個受限計劃，將其能力用於尋找廣泛使用軟件中的安全漏洞。

參與的合作夥伴包括 Amazon Web Services、Apple、Google、JPMorganChase、Microsoft 和 NVIDIA 等公司。

Anthropic 指出，這個模型已經找出數以千計高嚴重程度的漏洞，包括所有主流作業系統與瀏覽器中的零時差漏洞。

其中一項發現，是在以安全加固著稱的 OpenBSD 中存在一個長達 27 年的錯誤，讓攻擊者只需建立連線，就可以遠端令任何機器當機。

公司承諾為 Glasswing 夥伴提供最高 1 億美元等值的 Mythos Preview 使用額度，並承諾公開該計劃的研究發現。

選擇不向公眾釋出強大模型，帶有一些歷史回響。現任 Anthropic CEO Dario Amodei 在 2019 年仍在 OpenAI 任職時，曾參與決定暫時不公開 GPT-2，理由同樣是風險過高；該模型在同年稍後才正式釋出。

但 Anthropic 近年的封測與防洩紀錄並不穩定。

在 Mythos 系統卡發佈前數週，網路上已出現疑似洩漏，揭露該模型的存在。其後公司又 accidentally published source code for Claude Code，令外界更相信早前的洩漏同樣是真實事件。