Anthropic 表示,計劃在建立目前尚不存在的安全防護機制後,向公眾開放 Mythos, its vulnerability-hunting AI 模型。
Key Points:
- Anthropic 計劃先擴大對美國及其盟友政府的存取,再廣泛釋出 Mythos 級模型。
- 公司坦言,目前包括自身在內,尚無任何業者建構出足以確實阻止濫用的防護機制。
- Mythos 已在 1,000 個開源專案中標記超過 23,000 個問題,其中 6,202 個被評為高風險或嚴重漏洞。
Anthropic Mythos 發布計劃
Anthropic 在 Project Glasswing 限制存取安全計劃的更新中 確認 了這項規劃,另一份報告則指出實際時間表仍不明確。
公司表示,將先與美國及其盟友政府合作擴大該計劃的涵蓋範圍,之後在不久的將來再更廣泛地釋出「Mythos 級模型」。
Anthropic 對風險的描述相當直接。它 表示,目前沒有任何公司(包括 Anthropic 自身)建立出足夠強韌的防護機制,能確保模型不被濫用並造成嚴重傷害。
即便如此,該公司預期類似工具將快速擴散,並預測在六到十二個月內,具備 Mythos 等級能力的模型將廣泛可得。
Mythos 於四月 首次亮相。Anthropic 表示,在測試中,Mythos 產生可用攻擊程式的成功率為 72.4%,而舊版 Claude 模型幾乎為零。
Also Read: Cisco Research Shows Frontier AI Models Failing Under Multi-Turn Attacks
Mythos 的漏洞發現成果
自發布以來,該模型已掃描超過 1,000 個開源專案,並 發現 23,019 個問題,其中 6,202 個被評為高風險或嚴重等級。
其中有一項發現特別引人注目:Mythos 在廣泛用於數十億裝置的 wolfSSL 密碼學函式庫中,挖掘出一個漏洞,可能讓攻擊者偽造憑證、冒充銀行或電子郵件服務提供者。這個漏洞目前已經被修補。
大量的報告也壓垮了負責修復問題的人力。開源維護者已要求 Anthropic 放慢揭露速度,表示問題數量已超出其處理能力。
研究人員看到更深層的不平衡。Anthropic 認為,現在「找出臭蟲」遠比「修復臭蟲」容易得多,並已 與 開源安全基金會(Open Source Security Foundation)的 Alpha-Omega 計畫合作,協助維護者分類與處理堆積如山的問題。
Claude Mythos 系統卡預測,長期而言 AI 將有利於防禦方,不過 Anthropic 也承認,目前攻擊者可能仍佔上風。
在 Mythos 首度公開 時,Anthropic 曾向包括 Apple、Microsoft 和 Google 在內的 50 多家組織提供存取權,並附帶約 1 億美元的使用額度;同時,基於其有能力將軟體缺陷武器化,Anthropic 並未向一般大眾開放這個模型。
Read Next: Cardano Whales Seize 67.5% Of ADA Supply, A Six-Year High





