Anthropic 將在防護機制跟上後向公眾開放 Claude Mythos，可能在 12 個月內

Anthropic 表示，計劃在建立目前尚不存在的安全防護機制後，向公眾開放 Mythos, its vulnerability-hunting AI 模型。

Key Points:

Anthropic 計劃先擴大對美國及其盟友政府的存取，再廣泛釋出 Mythos 級模型。

公司坦言，目前包括自身在內，尚無任何業者建構出足以確實阻止濫用的防護機制。

Mythos 已在 1,000 個開源專案中標記超過 23,000 個問題，其中 6,202 個被評為高風險或嚴重漏洞。

Anthropic Mythos 發布計劃

Anthropic 在 Project Glasswing 限制存取安全計劃的更新中確認了這項規劃，另一份報告則指出實際時間表仍不明確。

公司表示，將先與美國及其盟友政府合作擴大該計劃的涵蓋範圍，之後在不久的將來再更廣泛地釋出「Mythos 級模型」。

Anthropic 對風險的描述相當直接。它表示，目前沒有任何公司（包括 Anthropic 自身）建立出足夠強韌的防護機制，能確保模型不被濫用並造成嚴重傷害。

即便如此，該公司預期類似工具將快速擴散，並預測在六到十二個月內，具備 Mythos 等級能力的模型將廣泛可得。

Mythos 於四月首次亮相。Anthropic 表示，在測試中，Mythos 產生可用攻擊程式的成功率為 72.4%，而舊版 Claude 模型幾乎為零。

Also Read: Cisco Research Shows Frontier AI Models Failing Under Multi-Turn Attacks

Mythos 的漏洞發現成果

自發布以來，該模型已掃描超過 1,000 個開源專案，並發現 23,019 個問題，其中 6,202 個被評為高風險或嚴重等級。

其中有一項發現特別引人注目：Mythos 在廣泛用於數十億裝置的 wolfSSL 密碼學函式庫中，挖掘出一個漏洞，可能讓攻擊者偽造憑證、冒充銀行或電子郵件服務提供者。這個漏洞目前已經被修補。

大量的報告也壓垮了負責修復問題的人力。開源維護者已要求 Anthropic 放慢揭露速度，表示問題數量已超出其處理能力。

研究人員看到更深層的不平衡。Anthropic 認為，現在「找出臭蟲」遠比「修復臭蟲」容易得多，並已與開源安全基金會（Open Source Security Foundation）的 Alpha-Omega 計畫合作，協助維護者分類與處理堆積如山的問題。

Claude Mythos 系統卡預測，長期而言 AI 將有利於防禦方，不過 Anthropic 也承認，目前攻擊者可能仍佔上風。

在 Mythos 首度公開時，Anthropic 曾向包括 Apple、Microsoft 和 Google 在內的 50 多家組織提供存取權，並附帶約 1 億美元的使用額度；同時，基於其有能力將軟體缺陷武器化，Anthropic 並未向一般大眾開放這個模型。