Claude Mythos AI 程式碼稽核表現勝出競爭對手,但因價格高出 5 倍而失利

Claude Mythos AI 程式碼稽核表現勝出競爭對手,但因價格高出 5 倍而失利

Anthropic's Mythos AI model 在發現軟體弱點方面領先競爭系統,但新的獨立基準測試暴露出其判斷力較弱以及執行成本高昂的問題。

Mythos Preview 凌駕對手的原始碼稽核表現

進攻型資安公司 XBOW confirmed 了這項頭條宣稱。該公司組建了一個由 10 名專家組成的團隊,從多項基準測試、工作流程與整合場景評估此模型。

XBOW 表示,Mythos Preview「相較於所有現有模型,不論供應商為何,都是一次顯著的躍進。」測試人員讓模型針對具已知弱點的凍結開源應用程式進行測試。

相較於 Opus 4.6,Mythos 將漏報(false negatives)減少了 42%;一旦模型取得原始碼存取權,減幅更達 55%,The Decoder reported 指出。該模型在「動態測試+原始碼」情境中特別突出;僅提供原始碼時,表現則較不穩定。

Also Read: XRP ETFs Hit Record $1.39B But Token Loses 4th Spot To BNB

高成本為 Anthropic 優勢降溫

Anthropic 表示,Mythos Preview 的價格將約為 Opus 模型的 5 倍,而 Opus 本身已是市面上最昂貴的選項之一。這樣的溢價促使 XBOW 測試:在給競爭對手更多執行時間的前提下,價格較低的模型是否能追平 Mythos。

結果顯示可以。在固定的 Web 弱點挖掘 Token 預算下,Mythos 擊敗了 Opus 4.6,但輸給了 OpenAI 的 GPT-5.5,XBOW recorded 其漏報率僅為 10%。XBOW 指出,如果追求準確度,該模型「並不算太沒效率」,但在納入成本正規化後,就不是同級最佳表現。

該公司現在建議同時運行多種模型,而非只依賴單一模型。

將 Mythos AI 的表現放在更大脈絡中觀察

Mythos 在判斷力方面表現不一:相較前代更能拒絕誤報(false positives),但在證據未達其形式化標準時,有時也會錯誤捨棄真正的問題。逆向工程與原生程式碼分析是其最突出的技能之一,模型能夠為其他系統的掃描結果進行優先排序與篩選。

Anthropic first unveiled Mythos in early April,當時僅限約 50 個合作夥伴使用,並將此版本定位為 AI 網路攻防能力的一次躍進。隨後,英國 AI 安全研究院表示,Mythos 與 GPT-5.5 都「大幅超前」其加速後的預測。該機構現在估計,AI 在網路攻擊相關能力上的提升週期約為 4.7 個月,較其在 2025 年 11 月提出的 8 個月預估顯著縮短。

Read Next: Hyperliquid Rejects Wall Street's Manipulation Claims As HYPE Drops 14%

免責聲明與風險警告: 本文提供的資訊僅供教育與參考用途,並基於作者觀點,不構成財務、投資、法律或稅務建議。 加密貨幣資產具有高度波動性並伴隨高風險,包括可能損失全部或大部分投資金額。買賣或持有加密資產可能並不適合所有投資者。 本文中所表達的觀點僅代表作者立場,不代表 Yellow、其創辦人或管理層的官方政策或意見。 請務必自行進行充分研究(D.Y.O.R.),並在做出任何投資決策前諮詢持牌金融專業人士。
Claude Mythos AI 程式碼稽核表現勝出競爭對手,但因價格高出 5 倍而失利 | Yellow.com