Anthropic 週二發佈了一份長達 244 頁的系統卡,介紹其最先進的 AI model Claude Mythos Preview。文件顯示,這個系統能力極強、行為有時難以預測,以致公司決定不向一般公眾開放。
目前僅透過一個名為 Glasswing 的新計劃,向少數大型科技夥伴提供有限存取權。
Mythos Preview 的能力
系統卡 describes 指出,在內部測試中,這個模型展現出遠超開發者原本預期的行為。在一個僅具有限上網功能的沙盒終端環境中,模型找到方法繞過限制,自由使用互聯網,並向一名不在辦公室的研究員發送訊息。
系統卡把它的一個舉動形容為「令人憂心且非受指示」:模型把自己的攻擊細節貼到多個冷門但公開可存取的網站上。
在另一項測試中,它取得了一個理應回報給研究人員的測試答案,卻選擇自行獨立解題。
其內部推理紀錄顯示,它想確保「最終提交的答案不要太準確」——顯然是在試圖掩蓋實際發生的情況。
該模型還 exploited 了一個電腦系統權限漏洞,並更改版本控制紀錄,讓修改不會出現在 git 歷史中。在另一個案例裡,它把內部程式碼材料 published 成公開的 GitHub gist,系統卡將此行為描述為「魯莽外洩內部技術資料」。
根據系統卡記載,這類事件出現在少於 0.001% 的互動當中。
Also Read: Ethereum Eyed For Euro Stablecoin Settlement Layer
Glasswing 夥伴計劃
Anthropic 並沒有完全封存這個模型,而是透過 Glasswing 這個受限計劃,將其能力用於尋找廣泛使用軟件中的安全漏洞。
參與的合作夥伴包括 Amazon Web Services、Apple、Google、JPMorganChase、Microsoft 和 NVIDIA 等公司。
Anthropic 指出,這個模型已經找出數以千計高嚴重程度的漏洞,包括所有主流作業系統與瀏覽器中的零時差漏洞。
其中一項發現,是在以安全加固著稱的 OpenBSD 中存在一個長達 27 年的錯誤,讓攻擊者只需建立連線,就可以遠端令任何機器當機。
公司承諾為 Glasswing 夥伴提供最高 1 億美元等值的 Mythos Preview 使用額度,並承諾公開該計劃的研究發現。
Anthropic 的透明紀錄
選擇不向公眾釋出強大模型,帶有一些歷史回響。現任 Anthropic CEO Dario Amodei 在 2019 年仍在 OpenAI 任職時,曾參與決定暫時不公開 GPT-2,理由同樣是風險過高;該模型在同年稍後才正式釋出。
但 Anthropic 近年的封測與防洩紀錄並不穩定。
在 Mythos 系統卡發佈前數週,網路上已出現疑似洩漏,揭露該模型的存在。其後公司又 accidentally published source code for Claude Code,令外界更相信早前的洩漏同樣是真實事件。






