Claude Mythos AI 在程式碼審計領先對手，但因價格高出 5 倍而失利

Anthropic's Mythos AI model 在尋找軟件漏洞方面領先競爭系統，但最新的獨立基準測試暴露出其判斷力較弱，以及營運成本高昂的問題。

Mythos Preview 在源碼審計中表現最佳

進攻性安全公司 XBOW confirmed 了這項重點說法。該公司組建了一支由 10 名專家組成的團隊，從基準測試、實際工作流程和整合方式多方面評估這個模型。

XBOW 表示，Mythos Preview「相較所有現有模型，不論供應商為何，都是一次顯著的提升」。測試人員把模型套用在已知存在漏洞的凍結開源應用程式上進行測試。

相較於 Opus 4.6，Mythos 將漏報（假陰性）減少了 42%；一旦模型獲得源碼存取權，減幅更達 55%，The Decoder reported 指出。該模型在「線上測試 + 源碼」場景中特別出色，但在只有源碼的情況下表現則較不穩定。

Also Read: XRP ETFs Hit Record $1.39B But Token Loses 4th Spot To BNB

成本問題削弱 Anthropic 優勢

Anthropic 表示，Mythos Preview 的費用大約會是 Opus 模型的 5 倍，而 Opus 本身已是市面上最昂貴的選項之一。這個溢價促使 XBOW 測試，較便宜的競爭對手在給予更多運算時間後，能否追上 Mythos。

結果是可以的。在固定 Token 預算下進行網頁漏洞探索時，Mythos 優於 Opus 4.6，但輸給了 OpenAI's GPT-5.5，XBOW recorded 其漏報率為 10%。XBOW 指出，若以準確度為目標，該模型「並不算太低效」，但一旦把成本標準化比較，就稱不上是同級中最佳。

該公司現時建議同時運行多個模型，而非只依賴單一模型。

Mythos AI 表現的整體脈絡

Mythos 的判斷力表現參差：它在排除誤報方面優於前代模型，但有時也會在證據未達其正式標準時，錯誤地捨棄真實漏洞。逆向工程與原生程式碼分析是其最強的幾項技能之一，模型能幫忙為其他系統的發現結果進行優先排序與分類。

Anthropic first unveiled Mythos in early April，當時只向約 50 個合作夥伴開放存取，並把這次發佈定位為 AI 網絡安全能力的一次躍進。其後，英國 AI 安全研究所表示，Mythos 和 GPT-5.5 均「大幅超前」其加速預測。該機構現估計，網絡攻防相關的 AI 能力約每 4.7 個月就會翻倍，較 2025 年 11 月時提出的 8 個月預期大幅縮短。