Anthropic's Mythos AI model 在發現軟體弱點方面領先競爭系統,但新的獨立基準測試暴露出其判斷力較弱以及執行成本高昂的問題。
Mythos Preview 凌駕對手的原始碼稽核表現
進攻型資安公司 XBOW confirmed 了這項頭條宣稱。該公司組建了一個由 10 名專家組成的團隊,從多項基準測試、工作流程與整合場景評估此模型。
XBOW 表示,Mythos Preview「相較於所有現有模型,不論供應商為何,都是一次顯著的躍進。」測試人員讓模型針對具已知弱點的凍結開源應用程式進行測試。
相較於 Opus 4.6,Mythos 將漏報(false negatives)減少了 42%;一旦模型取得原始碼存取權,減幅更達 55%,The Decoder reported 指出。該模型在「動態測試+原始碼」情境中特別突出;僅提供原始碼時,表現則較不穩定。
Also Read: XRP ETFs Hit Record $1.39B But Token Loses 4th Spot To BNB
高成本為 Anthropic 優勢降溫
Anthropic 表示,Mythos Preview 的價格將約為 Opus 模型的 5 倍,而 Opus 本身已是市面上最昂貴的選項之一。這樣的溢價促使 XBOW 測試:在給競爭對手更多執行時間的前提下,價格較低的模型是否能追平 Mythos。
結果顯示可以。在固定的 Web 弱點挖掘 Token 預算下,Mythos 擊敗了 Opus 4.6,但輸給了 OpenAI 的 GPT-5.5,XBOW recorded 其漏報率僅為 10%。XBOW 指出,如果追求準確度,該模型「並不算太沒效率」,但在納入成本正規化後,就不是同級最佳表現。
該公司現在建議同時運行多種模型,而非只依賴單一模型。
將 Mythos AI 的表現放在更大脈絡中觀察
Mythos 在判斷力方面表現不一:相較前代更能拒絕誤報(false positives),但在證據未達其形式化標準時,有時也會錯誤捨棄真正的問題。逆向工程與原生程式碼分析是其最突出的技能之一,模型能夠為其他系統的掃描結果進行優先排序與篩選。
Anthropic first unveiled Mythos in early April,當時僅限約 50 個合作夥伴使用,並將此版本定位為 AI 網路攻防能力的一次躍進。隨後,英國 AI 安全研究院表示,Mythos 與 GPT-5.5 都「大幅超前」其加速後的預測。該機構現在估計,AI 在網路攻擊相關能力上的提升週期約為 4.7 個月,較其在 2025 年 11 月提出的 8 個月預估顯著縮短。
Read Next: Hyperliquid Rejects Wall Street's Manipulation Claims As HYPE Drops 14%





