Claude Mythos AI 程式碼稽核表現勝出競爭對手，但因價格高出 5 倍而失利

Anthropic's Mythos AI model 在發現軟體弱點方面領先競爭系統，但新的獨立基準測試暴露出其判斷力較弱以及執行成本高昂的問題。

Mythos Preview 凌駕對手的原始碼稽核表現

進攻型資安公司 XBOW confirmed 了這項頭條宣稱。該公司組建了一個由 10 名專家組成的團隊，從多項基準測試、工作流程與整合場景評估此模型。

XBOW 表示，Mythos Preview「相較於所有現有模型，不論供應商為何，都是一次顯著的躍進。」測試人員讓模型針對具已知弱點的凍結開源應用程式進行測試。

相較於 Opus 4.6，Mythos 將漏報（false negatives）減少了 42%；一旦模型取得原始碼存取權，減幅更達 55%，The Decoder reported 指出。該模型在「動態測試＋原始碼」情境中特別突出；僅提供原始碼時，表現則較不穩定。

Also Read: XRP ETFs Hit Record $1.39B But Token Loses 4th Spot To BNB

高成本為 Anthropic 優勢降溫

Anthropic 表示，Mythos Preview 的價格將約為 Opus 模型的 5 倍，而 Opus 本身已是市面上最昂貴的選項之一。這樣的溢價促使 XBOW 測試：在給競爭對手更多執行時間的前提下，價格較低的模型是否能追平 Mythos。

結果顯示可以。在固定的 Web 弱點挖掘 Token 預算下，Mythos 擊敗了 Opus 4.6，但輸給了 OpenAI 的 GPT-5.5，XBOW recorded 其漏報率僅為 10%。XBOW 指出，如果追求準確度，該模型「並不算太沒效率」，但在納入成本正規化後，就不是同級最佳表現。

該公司現在建議同時運行多種模型，而非只依賴單一模型。

將 Mythos AI 的表現放在更大脈絡中觀察

Mythos 在判斷力方面表現不一：相較前代更能拒絕誤報（false positives），但在證據未達其形式化標準時，有時也會錯誤捨棄真正的問題。逆向工程與原生程式碼分析是其最突出的技能之一，模型能夠為其他系統的掃描結果進行優先排序與篩選。

Anthropic first unveiled Mythos in early April，當時僅限約 50 個合作夥伴使用，並將此版本定位為 AI 網路攻防能力的一次躍進。隨後，英國 AI 安全研究院表示，Mythos 與 GPT-5.5 都「大幅超前」其加速後的預測。該機構現在估計，AI 在網路攻擊相關能力上的提升週期約為 4.7 個月，較其在 2025 年 11 月提出的 8 個月預估顯著縮短。