Anthropic's Mythos AI model 在尋找軟件漏洞方面領先其他系統,但最新的獨立基準測試亦揭示其判斷力較弱,以及執行成本高昂的問題。
Mythos Preview 在原始碼審核中拔尖
進攻性資安公司 XBOW confirmed 了這項重點主張。該公司組成一支由 10 名專家組成的團隊,從多項基準測試、實際工作流程與整合情境全方位評估這個模型。
XBOW 表示,Mythos Preview「相較所有現有模型而言,不論供應商為何,都是一次顯著的躍升」。測試人員以凍結版本的開源應用程式進行測試,這些程式皆已知存在漏洞。
相較於 Opus 4.6,Mythos 的漏報(假陰性)減少了 42%;《The Decoder》reported 指出,一旦模型獲得原始碼存取權,降幅更擴大至 55%。該模型在「即時互動 + 原始碼」測試中表現特別突出,但在僅提供原始碼的情境下表現就不那麼穩定。
Also Read: XRP ETFs Hit Record $1.39B But Token Loses 4th Spot To BNB
高成本為 Anthropic 優勢降溫
Anthropic 指出,Mythos Preview 的價格將約為 Opus 模型的 5 倍,而 Opus 已經是市場上最昂貴的選項之一。這個溢價也促使 XBOW 測試:若給予較便宜的競爭模型更多運算時間,是否能追平 Mythos 的表現。
結果顯示可以。在固定的權杖(token)預算下,用於發掘網頁漏洞時,Mythos 雖然擊敗了 Opus 4.6,卻輸給 OpenAI's GPT-5.5;XBOW recorded GPT-5.5 的漏報率只有 10%。XBOW 指出,如果單看準確度,Mythos「其實並不算低效」,但一旦將成本納入比較,就稱不上同級最佳了。
該公司現時建議使用多模型組合,而非只依賴單一模型。
Mythos AI 表現置於更廣泛脈絡中
Mythos 的判斷表現好壞參半:相較前代,它在排除誤報(假陽性)方面更出色,但有時也會因證據未達其正式標準,而錯誤丟棄真正的問題。逆向工程與原生程式碼分析則是它最強的領域之一,能夠協助分類與審視其他系統產生的發現結果。
Anthropic first unveiled Mythos in early April,當時只向約 50 間合作夥伴開放,並將這次發佈定位為 AI 網絡攻防能力的一次躍升。英國 AI 安全研究所其後表示,Mythos 與 GPT-5.5 均「大幅超前」其加速版預測。該機構現時估計,AI 的網絡攻擊能力大約每 4.7 個月就會倍增,較 2025 年 11 月提出、約 8 個月才翻倍的早期估算大為縮短。
Read Next: Hyperliquid Rejects Wall Street's Manipulation Claims As HYPE Drops 14%





