Claude Mythos 在 10 次嘗試中 6 次完成 32 步 AISI 入侵測試

Claude Mythos 在 10 次嘗試中 6 次完成 32 步 AISI 入侵測試

一個新的 AnthropicClaude Mythos 預覽 檢查點, 成為首個解出英國政府兩套網路攻擊模擬測試的 AI 模型,再度引發對自主駭客能力的疑慮。

AISI 報告 Mythos 重大突破

英國 AI Security Institute(AI 安全研究所)在週三的 報告中指出, 新版 Mythos 檢查點在企業內網攻擊演練場景「The Last Ones」中, 在 10 次嘗試中完成了 6 次這項 32 步驟入侵任務;先前版本僅能在 10 次中成功 3 次。

更新後的模型也破解了「Cooling Tower」這個工業控制系統(ICS)演練場景, 過去沒有任何模型能通關,而 Mythos 在 10 次嘗試中完成了 3 次。

競爭對手 OpenAI 的 GPT-5.5 也在同一套測試中受測。 它在「The Last Ones」中 達成 10 次嘗試中 3 次成功,但未能完成「Cooling Tower」。

AISI 在每次嘗試中給予 1 億個 token 的運算預算,並指出即使在這個上限下, 表現仍持續隨資源增加而提升,顯示若提高預算,成功率還可能進一步上升。

延伸閱讀: Southeast Asia Blockchain Week Brings Ripple, Avalanche, Solana Foundation, And K-Pop To Bangkok

能力倍增時間持續縮短

AISI 透過「時間視野」基準來追蹤網攻能力進展,衡量模型在 80% 可靠度下, 能獨立完成任務所需的時間長度。2025 年 11 月,該機構 估計 的能力倍增時間為 8 個月。到了 2026 年 2 月,這個數字壓縮到 4.7 個月,而 Mythos 與 GPT-5.5 之後的進展又超過這條更快的趨勢線。

該機構也坦言,目前仍不確定最新結果代表能力增長加速成為新常態, 還是一次性的巨大躍升。

研究型非營利機構 METR 以軟體任務(而非網路攻防演練)評估 AI, 得到約 4.2 個月的類似數字。AISI 表示,這樣的收斂趨勢強化了以下觀點: 能力提升真正反映模型實力進步,而不是某一套評估工具的偶然偏差。

研究所也強調,它的演練環境中沒有「主動防禦者」, 因此結果顯示的是模型對「防護薄弱網路」的攻擊能力, 並不能直接代表對高度防禦的企業級系統的實戰表現。

為何能力躍升格外重要

最新的 Mythos 檢查點並非透過全新模型釋出而來。AISI 使用的是與上個月 Anthropic 在 Project Glasswing(其安全合作計畫)中部署相同的模型版本, 只是在收到同一模型的更新構建後重新評估。

研究所寫道:「顯著的能力躍升,不一定需要新的模型版本釋出。」 這與安全社群一向假設「防守方可以按照模型發佈週期調整節奏」的想法背道而馳。

Anthropic 在 4 月 7 日 推出 Mythos Preview, 將這款模型定位為安全產業的轉捩點,因為它在內部測試中, 能在多大作業系統與瀏覽器上發現零時差漏洞(zero-day)。 公司表示,由於這些能力,它 延後了更廣泛的公開釋出, 而 AISI 在 4 月的先前評估也指出,Mythos 明顯超越先前一代前沿系統。

下一步閱讀: Gemini Space Station Hit By Multiple Securities Fraud Claims After IPO

免責聲明與風險警告: 本文提供的資訊僅供教育與參考用途,並基於作者觀點,不構成財務、投資、法律或稅務建議。 加密貨幣資產具有高度波動性並伴隨高風險,包括可能損失全部或大部分投資金額。買賣或持有加密資產可能並不適合所有投資者。 本文中所表達的觀點僅代表作者立場,不代表 Yellow、其創辦人或管理層的官方政策或意見。 請務必自行進行充分研究(D.Y.O.R.),並在做出任何投資決策前諮詢持牌金融專業人士。