Claude Mythos AI 在程式碼稽核上領先對手,但因價格高出 5 倍失利

Claude Mythos AI 在程式碼稽核上領先對手,但因價格高出 5 倍失利

Anthropic's Mythos AI model 在尋找軟體弱點方面領先競爭系統,但新的獨立評測同時揭露其判斷力較弱,以及營運成本高昂的問題。

Mythos Preview 在原始碼稽核中表現突出

進攻型資安公司 XBOW confirmed 了這項主打宣稱。該公司組建了一支由 10 名專家組成的團隊,從基準測試、工作流程與整合等面向評估此模型。

XBOW 表示,Mythos Preview「相較所有現有模型,不論供應商為何,都是一次明顯的躍升」。測試人員以含已知弱點的凍結開源應用程式作為測試對象來執行模型。

Mythos 將相較 Opus 4.6 的漏報率降低了 42%,而在模型取得原始碼存取權後,這個降幅進一步擴大到 55%,The Decoder reported。該模型在「即時互動 + 原始碼」測試場景中表現出色,但在僅提供原始碼時則穩定度較差。

Also Read: XRP ETFs Hit Record $1.39B But Token Loses 4th Spot To BNB

成本問題削弱 Anthropic 優勢

Anthropic 指出,Mythos Preview 的價格大約是 Opus 模型的 5 倍,而 Opus 本身已是市面上價格最高的一群。這樣的溢價促使 XBOW 測試:如果給予較便宜的競品更多運行時間,能否追上 Mythos。

結果是可以。在固定的網頁弱點探索 Token 預算下,Mythos 擊敗了 Opus 4.6,卻不及 OpenAI 的 GPT-5.5,後者被 XBOW recorded 為 10% 的漏報率。XBOW 指出,若以準確度為首要目標,這個模型「並不算特別低效」,但一旦將成本標準化後,它就不是同級最佳選擇。

該公司目前建議同時運行多個模型,而非只依賴單一模型。

Mythos AI 表現的整體脈絡

Mythos 在判斷上呈現複合表現:比前代更擅長排除誤報,但有時在證據未達其形式化標準時,會一併捨棄真實弱點。逆向工程與原生程式碼分析是其最突出技能之一,模型也具備為其他系統產出的發現結果進行分流與優先排序的能力。

Anthropic first unveiled Mythos in early April,當時僅對約 50 家合作夥伴開放,並將此發表定位為 AI 在網路資安能力上的一次躍進。之後,英國 AI 安全研究所表示,Mythos 與 GPT-5.5 都「大幅超越」其加速後的預測。該機構目前估計,AI 的網路攻擊能力約每 4.7 個月就會翻倍,較 2025 年 11 月提出的 8 個月預估大幅縮短。

Read Next: Hyperliquid Rejects Wall Street's Manipulation Claims As HYPE Drops 14%

免責聲明與風險警告: 本文提供的資訊僅供教育與參考用途,並基於作者觀點,不構成財務、投資、法律或稅務建議。 加密貨幣資產具有高度波動性並伴隨高風險,包括可能損失全部或大部分投資金額。買賣或持有加密資產可能並不適合所有投資者。 本文中所表達的觀點僅代表作者立場,不代表 Yellow、其創辦人或管理層的官方政策或意見。 請務必自行進行充分研究(D.Y.O.R.),並在做出任何投資決策前諮詢持牌金融專業人士。
Claude Mythos AI 在程式碼稽核上領先對手,但因價格高出 5 倍失利 | Yellow.com