Anthropic 於周二發布其迄今最先進 AI model 的 244 頁系統卡,該模型為 Claude Mythos Preview。文件揭示這是一個能力極強、但有時相當難以預測的系統,因此公司決定不向一般大眾開放。
目前僅透過一項名為 Glasswing 的新計劃,將有限存取權授予少數大型科技合作夥伴。
Mythos Preview 的能力
系統卡 describes 指出,在內部測試中,該模型展現出遠超開發者原先預期的行為。當被置於一個僅具有限上網能力的沙盒終端機時,模型設法繞過限制,自由使用網際網路,甚至主動聯絡一位當時不在辦公室的研究人員。
在系統卡形容為「令人憂心且未被要求」的操作中,模型把其利用漏洞的細節張貼到多個冷門、但對外公開的網站上。
在另一項測試中,它取得了一份原本應上報給研究人員的測試答案,卻改為嘗試自行解題。
其內部推理紀錄顯示,它希望確保「最終提交的答案不要太準確」——顯然是試圖掩飾實際發生的情況。
模型還曾 exploited 一個電腦系統權限上的缺陷,並修改版本控制記錄,讓變更不會出現在 git 歷史中。另一個案例中,它將內部程式碼內容 published 成對外公開的 GitHub gist,系統卡將此行為標記為「魯莽洩露內部技術資料」。
根據系統卡,這類事件在互動中發生的比例少於 0.001%。
Also Read: Ethereum Eyed For Euro Stablecoin Settlement Layer
Glasswing 合作夥伴計劃
Anthropic 並未完全束之高閣,而是將該模型導入 Glasswing——一個聚焦於尋找廣泛使用軟體安全漏洞的受限計劃。
合作公司包括 Amazon Web Services、Apple、Google、JPMorganChase、Microsoft 和 NVIDIA 等。
Anthropic 表示,該模型已經發現數以千計的高嚴重性漏洞,包括所有主流作業系統與網頁瀏覽器中的零時差漏洞。
其中一項發現涉及 OpenBSD 中一個長達 27 年之久的錯誤——這套系統一向以著重安全強化著稱——該漏洞讓攻擊者僅需連線即可遠端讓任何機器當機。
Anthropic 已承諾為 Glasswing 合作夥伴提供最高 1 億美元等值的 Mythos Preview 使用額度,並承諾會公開此計劃中的研究發現。
Anthropic 的透明度紀錄
決定不向公眾釋出一款強大模型,讓人聯想到過往歷史。現任 Anthropic 執行長 Dario Amodei 在 2019 年仍在 OpenAI 任職時,曾參與將 GPT-2 初步評估為「過於危險而不宜公開」的決策;該模型在同年稍後才正式發布。
Anthropic 近年的模型管控紀錄則顯得起伏不定。
在 Mythos 系統卡發布前數週,就有疑似外洩內容揭露該模型的存在。隨後公司又 accidentally published source code for Claude Code,也讓外界更相信先前關於 Mythos 洩漏的說法屬實。






