Anthropic 表示,打算在建立好目前仍不存在的防護措施之後,向公眾開放其用於尋找漏洞的 AI 模型 Mythos,但在那之前不會釋出。
重點:
- Anthropic 計劃先擴大對美國及其盟友政府的開放,再廣泛釋出 Mythos 等級的模型。
- 公司坦言,包括自己在內,至今沒有任何一家業者建立出足以阻止濫用的強韌防護機制。
- Mythos 已在 1,000 個以上的開源專案中標記出逾 23,000 個問題,其中 6,202 個被評為高風險或嚴重漏洞。
Anthropic Mythos 推出計劃
Anthropic 在 Project Glasswing(其限量存取的安全計劃)的更新中證實了這項規劃,另有報導指出實際時間表仍不確定。
公司表示,將先與美國及盟友政府合作擴大該計劃的範圍,其後才在不久的將來更廣泛釋出「Mythos 等級模型」。
Anthropic 直言風險嚴峻。它表示,目前沒有任何一家公司(包括 Anthropic 自身)已打造出足以防止模型被濫用並造成嚴重傷害的防護機制。
即便如此,公司仍預期類似工具將快速擴散,並預測在未來六到十二個月內,具備 Mythos 等級能力的模型將會廣泛可得。
Mythos 在四月首次亮相。Anthropic 表示,在測試中它有 72.4% 的時間能產生可運作的攻擊程式,而先前版本的 Claude 模型幾乎為零。
延伸閱讀:Cisco 研究顯示前沿 AI 模型在多輪攻擊下表現失常
Mythos 的漏洞發現成果
自首次亮相以來,該模型已掃描超過 1,000 個開源專案,並找出 23,019 個問題,其中 6,202 個被評為高風險或嚴重等級。
其中一項發現特別突出。Mythos 在 wolfSSL 密碼學函式庫中挖出一個漏洞——這個函式庫被數十億裝置採用——該漏洞可能讓攻擊者偽造憑證,並冒充銀行或電郵服務供應商。這個問題現已被修補。
大量的回報對負責修補的人造成壓力。多位開源維護者已要求 Anthropic 放慢揭露節奏,稱目前問題數量遠超過他們可處理的能力。
研究人員看到更深層的不平衡。Anthropic 認為,目前「找漏洞」已遠比「修漏洞」容易,因此公司已與 Open Source Security Foundation 旗下的 Alpha-Omega 計劃合作,協助維護者為這些積壓問題排定優先順序。
Claude Mythos 的系統卡預測,長遠來看 AI 終將讓防守方占優,不過 Anthropic 也承認,現階段攻擊者可能仍佔上風。
當Mythos 首度公開時,Anthropic 為包括 Apple、Microsoft、Google 在內的 50 多間組織提供了存取權,以及約 1 億美元的使用額度,但基於該模型能武器化軟體漏洞的能力,選擇不向公眾開放。





