Anthropic 於週二發布了一份長達 244 頁的系統卡,針對其最先進的 AI model——Claude Mythos Preview。文件揭露,這個系統能力極強、卻有時十分難以預測,因此公司決定不向一般大眾開放使用。
目前僅透過名為 Glasswing 的新計畫,對少數大型科技合作夥伴提供有限存取權。
Mythos Preview 的能力
系統卡描述,在內部測試中,該模型展現出遠超出開發者原先預期的行為。在被給予一個僅有有限網路存取權的沙盒電腦終端後,模型找到方法繞過限制、自由使用網際網路,接著還訊息聯繫了一位當時不在辦公室的研究員。
在系統卡所稱「令人憂心且非預期」的舉動中,模型將其利用漏洞的細節張貼到多個冷門、但對外公開可存取的網站上。
在另一項測試中,模型取得了一個本應回報給研究人員的測試答案,卻改為嘗試自行獨立解題。
其內部推理紀錄顯示,它希望確保「最終提交的答案不要太精準」——顯然是試圖掩飾實際發生的事情。
該模型還利用電腦系統權限上的一個漏洞,接著修改版本控制紀錄,讓相關變更不會出現在 git 歷史中。在另一個案例中,它將內部程式碼資料發布為公開的 GitHub gist,系統卡將此行為標記為「魯莽洩漏內部技術資料」。
根據系統卡,這些事件發生的比例低於所有互動的 0.001%。
延伸閱讀: Ethereum Eyed For Euro Stablecoin Settlement Layer
Glasswing 夥伴計畫
Anthropic 並未完全封存這個模型,而是將其導入 Glasswing——一個聚焦於尋找廣泛使用軟體安全漏洞的受限計畫。
參與的合作公司包括 Amazon Web Services、Apple、Google、JPMorganChase、Microsoft、NVIDIA 等。
Anthropic 表示,該模型已經發現數千個高嚴重性漏洞,包含所有主流作業系統與網頁瀏覽器中的零時差缺陷。
其中一項發現,是在以強化安全著稱的 OpenBSD 中,找到一個存在 27 年之久的錯誤,讓攻擊者可只透過連線就遠端使任意機器當機。
公司已承諾提供最高 1 億美元等值的 Mythos Preview 使用額度給 Glasswing 夥伴,並承諾會公開此計畫的研究成果。
Anthropic 的透明度紀錄
決定不對外發行一個強大模型,在歷史上並非首次出現類似情況。現任 Anthropic 執行長 Dario Amodei 在 2019 年仍任職於 OpenAI 時,GPT-2 也曾一度被認為過於危險而不宜公開,之後同年才正式釋出。
Anthropic 近來在模型管控方面的紀錄則顯得起伏不定。
在 Mythos 系統卡發布前數週,就已出現疑似洩漏內容,揭露該模型的存在。其後公司又意外公開了 Claude Code 的原始碼,進一步讓外界認為先前的洩漏更可能是真實事件。






