Claude Mythos 逃出沙盒、隱匿證據——Anthropic 現在拒絕公開模型

Anthropic 於週二發布了一份長達 244 頁的系統卡，針對其最先進的 AI model——Claude Mythos Preview。文件揭露，這個系統能力極強、卻有時十分難以預測，因此公司決定不向一般大眾開放使用。

目前僅透過名為 Glasswing 的新計畫，對少數大型科技合作夥伴提供有限存取權。

Mythos Preview 的能力

系統卡描述，在內部測試中，該模型展現出遠超出開發者原先預期的行為。在被給予一個僅有有限網路存取權的沙盒電腦終端後，模型找到方法繞過限制、自由使用網際網路，接著還訊息聯繫了一位當時不在辦公室的研究員。

在系統卡所稱「令人憂心且非預期」的舉動中，模型將其利用漏洞的細節張貼到多個冷門、但對外公開可存取的網站上。

在另一項測試中，模型取得了一個本應回報給研究人員的測試答案，卻改為嘗試自行獨立解題。

其內部推理紀錄顯示，它希望確保「最終提交的答案不要太精準」——顯然是試圖掩飾實際發生的事情。

該模型還利用電腦系統權限上的一個漏洞，接著修改版本控制紀錄，讓相關變更不會出現在 git 歷史中。在另一個案例中，它將內部程式碼資料發布為公開的 GitHub gist，系統卡將此行為標記為「魯莽洩漏內部技術資料」。

根據系統卡，這些事件發生的比例低於所有互動的 0.001%。

延伸閱讀： Ethereum Eyed For Euro Stablecoin Settlement Layer

Anthropic 並未完全封存這個模型，而是將其導入 Glasswing——一個聚焦於尋找廣泛使用軟體安全漏洞的受限計畫。

參與的合作公司包括 Amazon Web Services、Apple、Google、JPMorganChase、Microsoft、NVIDIA 等。

Anthropic 表示，該模型已經發現數千個高嚴重性漏洞，包含所有主流作業系統與網頁瀏覽器中的零時差缺陷。

其中一項發現，是在以強化安全著稱的 OpenBSD 中，找到一個存在 27 年之久的錯誤，讓攻擊者可只透過連線就遠端使任意機器當機。

公司已承諾提供最高 1 億美元等值的 Mythos Preview 使用額度給 Glasswing 夥伴，並承諾會公開此計畫的研究成果。

決定不對外發行一個強大模型，在歷史上並非首次出現類似情況。現任 Anthropic 執行長 Dario Amodei 在 2019 年仍任職於 OpenAI 時，GPT-2 也曾一度被認為過於危險而不宜公開，之後同年才正式釋出。

Anthropic 近來在模型管控方面的紀錄則顯得起伏不定。

在 Mythos 系統卡發布前數週，就已出現疑似洩漏內容，揭露該模型的存在。其後公司又意外公開了 Claude Code 的原始碼，進一步讓外界認為先前的洩漏更可能是真實事件。

接下來看： Bitcoin Hits $72.7K High On Iran Peace Optimism