Anthropic 表示打算向公眾開放其Mythos, its vulnerability-hunting AI 模型,但僅會在建置目前仍不存在的防護機制之後才會進行。
Key Points:
- Anthropic 計畫先擴大向美國及其盟友政府開放,之後再更廣泛釋出 Mythos 級模型。
- 公司坦言,包括自家在內,尚無任何機構打造出足以阻止模型被惡意濫用的強韌防護機制。
- Mythos 已在 1,000 個開源專案中標記逾 23,000 個問題,其中 6,202 個被評為高風險或嚴重漏洞。
Anthropic Mythos 發佈計畫
Anthropic 在其有限存取的安全計畫 Project Glasswing 的更新中證實了這項計畫,而一份獨立報告則指出相關時程仍不確定。
公司表示,將先與美國及盟友政府合作擴大此計畫規模,之後再在不久的未來更廣泛釋出「Mythos 級模型」。
Anthropic 對風險的態度相當直白。它表示,目前沒有任何公司(包括 Anthropic 自身)建立出足以防止模型被濫用並造成嚴重傷害的防護措施。
儘管如此,Anthropic 預期類似工具將快速擴散,預測達到 Mythos 等級能力的模型,會在未來六至十二個月內被廣泛取得。
Mythos 於四月首次亮相。Anthropic 表示,在測試中它能在 72.4% 的情況下產生可運作的漏洞利用程式,而早期的 Claude 模型幾乎為零。
Also Read: Cisco Research Shows Frontier AI Models Failing Under Multi-Turn Attacks
Mythos 的漏洞發現成果
自從推出以來,該模型已掃描超過 1,000 個開源專案,並找出 23,019 個問題,其中 6,202 個被評定為高風險或嚴重等級。
有一項發現特別引人注目。Mythos 在廣泛部署於數十億裝置的 wolfSSL 密碼學程式庫中發現一個漏洞,可能讓攻擊者偽造憑證並冒充銀行或電子郵件服務供應商。該漏洞目前已被修補。
大量回報也對負責修正漏洞的人力造成壓力。多位開源維護者已要求 Anthropic 放慢揭露速度,表示目前通報量已遠超其處理能力。
研究人員看到更深層的不平衡。Anthropic 指出,現在「找漏洞」變得遠比「修漏洞」容易,並與開放原始碼安全基金會(Open Source Security Foundation)的 Alpha-Omega 專案合作,協助維護者針對堆積的漏洞報告進行分類與優先順序處理。
Claude Mythos 的系統卡預測,長期而言 AI 終將更有利於防禦方,不過 Anthropic 也承認,在目前階段攻擊者可能仍握有優勢。
在 Mythos was first revealed 之際,Anthropic 讓包括 Apple、Microsoft 和 Google 在內的 50 多家機構取得存取權,並提供約 1 億美元等值的使用額度,但基於該模型有能力武器化軟體漏洞的考量,仍暫不向公眾開放。
Read Next: Cardano Whales Seize 67.5% Of ADA Supply, A Six-Year High





