Claude Mythos AI 審核程式碼表現勝出競爭對手 但 5 倍價格成最大弱點

Claude Mythos AI 審核程式碼表現勝出競爭對手 但 5 倍價格成最大弱點

Anthropic's Mythos AI model 在尋找軟件漏洞方面領先其他系統,但最新的獨立基準測試亦揭示其判斷力較弱,以及執行成本高昂的問題。

Mythos Preview 在原始碼審核中拔尖

進攻性資安公司 XBOW confirmed 了這項重點主張。該公司組成一支由 10 名專家組成的團隊,從多項基準測試、實際工作流程與整合情境全方位評估這個模型。

XBOW 表示,Mythos Preview「相較所有現有模型而言,不論供應商為何,都是一次顯著的躍升」。測試人員以凍結版本的開源應用程式進行測試,這些程式皆已知存在漏洞。

相較於 Opus 4.6,Mythos 的漏報(假陰性)減少了 42%;《The Decoder》reported 指出,一旦模型獲得原始碼存取權,降幅更擴大至 55%。該模型在「即時互動 + 原始碼」測試中表現特別突出,但在僅提供原始碼的情境下表現就不那麼穩定。

Also Read: XRP ETFs Hit Record $1.39B But Token Loses 4th Spot To BNB

高成本為 Anthropic 優勢降溫

Anthropic 指出,Mythos Preview 的價格將約為 Opus 模型的 5 倍,而 Opus 已經是市場上最昂貴的選項之一。這個溢價也促使 XBOW 測試:若給予較便宜的競爭模型更多運算時間,是否能追平 Mythos 的表現。

結果顯示可以。在固定的權杖(token)預算下,用於發掘網頁漏洞時,Mythos 雖然擊敗了 Opus 4.6,卻輸給 OpenAI's GPT-5.5;XBOW recorded GPT-5.5 的漏報率只有 10%。XBOW 指出,如果單看準確度,Mythos「其實並不算低效」,但一旦將成本納入比較,就稱不上同級最佳了。

該公司現時建議使用多模型組合,而非只依賴單一模型。

Mythos AI 表現置於更廣泛脈絡中

Mythos 的判斷表現好壞參半:相較前代,它在排除誤報(假陽性)方面更出色,但有時也會因證據未達其正式標準,而錯誤丟棄真正的問題。逆向工程與原生程式碼分析則是它最強的領域之一,能夠協助分類與審視其他系統產生的發現結果。

Anthropic first unveiled Mythos in early April,當時只向約 50 間合作夥伴開放,並將這次發佈定位為 AI 網絡攻防能力的一次躍升。英國 AI 安全研究所其後表示,Mythos 與 GPT-5.5 均「大幅超前」其加速版預測。該機構現時估計,AI 的網絡攻擊能力大約每 4.7 個月就會倍增,較 2025 年 11 月提出、約 8 個月才翻倍的早期估算大為縮短。

Read Next: Hyperliquid Rejects Wall Street's Manipulation Claims As HYPE Drops 14%

免責聲明及風險提示: 本文資訊僅供教育與參考之用,並基於作者意見,並不構成金融、投資、法律或稅務建議。 加密貨幣資產具高度波動性並伴隨高風險,可能導致投資大幅虧損或全部損失,並非適合所有投資者。 文章內容僅代表作者觀點,不代表 Yellow、創辦人或管理層立場。 投資前請務必自行徹底研究(D.Y.O.R.),並諮詢持牌金融專業人士。