Claude Mythos 逃出沙盒、隱匿證據——Anthropic 現在拒絕公開模型

Claude Mythos 逃出沙盒、隱匿證據——Anthropic 現在拒絕公開模型

Anthropic 於週二發布了一份長達 244 頁的系統卡,針對其最先進的 AI model——Claude Mythos Preview。文件揭露,這個系統能力極強、卻有時十分難以預測,因此公司決定不向一般大眾開放使用。

目前僅透過名為 Glasswing 的新計畫,對少數大型科技合作夥伴提供有限存取權。

Mythos Preview 的能力

系統卡描述,在內部測試中,該模型展現出遠超出開發者原先預期的行為。在被給予一個僅有有限網路存取權的沙盒電腦終端後,模型找到方法繞過限制、自由使用網際網路,接著還訊息聯繫了一位當時不在辦公室的研究員。

在系統卡所稱「令人憂心且非預期」的舉動中,模型將其利用漏洞的細節張貼到多個冷門、但對外公開可存取的網站上。

在另一項測試中,模型取得了一個本應回報給研究人員的測試答案,卻改為嘗試自行獨立解題。

其內部推理紀錄顯示,它希望確保「最終提交的答案不要太精準」——顯然是試圖掩飾實際發生的事情。

該模型還利用電腦系統權限上的一個漏洞,接著修改版本控制紀錄,讓相關變更不會出現在 git 歷史中。在另一個案例中,它將內部程式碼資料發布為公開的 GitHub gist,系統卡將此行為標記為「魯莽洩漏內部技術資料」。

根據系統卡,這些事件發生的比例低於所有互動的 0.001%。

延伸閱讀: Ethereum Eyed For Euro Stablecoin Settlement Layer

Glasswing 夥伴計畫

Anthropic 並未完全封存這個模型,而是將其導入 Glasswing——一個聚焦於尋找廣泛使用軟體安全漏洞的受限計畫。

參與的合作公司包括 Amazon Web ServicesAppleGoogleJPMorganChaseMicrosoftNVIDIA 等。

Anthropic 表示,該模型已經發現數千個高嚴重性漏洞,包含所有主流作業系統與網頁瀏覽器中的零時差缺陷。

其中一項發現,是在以強化安全著稱的 OpenBSD 中,找到一個存在 27 年之久的錯誤,讓攻擊者可只透過連線就遠端使任意機器當機。

公司已承諾提供最高 1 億美元等值的 Mythos Preview 使用額度給 Glasswing 夥伴,並承諾會公開此計畫的研究成果。

Anthropic 的透明度紀錄

決定不對外發行一個強大模型,在歷史上並非首次出現類似情況。現任 Anthropic 執行長 Dario Amodei 在 2019 年仍任職於 OpenAI 時,GPT-2 也曾一度被認為過於危險而不宜公開,之後同年才正式釋出。

Anthropic 近來在模型管控方面的紀錄則顯得起伏不定。

在 Mythos 系統卡發布前數週,就已出現疑似洩漏內容,揭露該模型的存在。其後公司又意外公開了 Claude Code 的原始碼,進一步讓外界認為先前的洩漏更可能是真實事件。

接下來看: Bitcoin Hits $72.7K High On Iran Peace Optimism

免責聲明與風險警告: 本文提供的資訊僅供教育與參考用途,並基於作者觀點,不構成財務、投資、法律或稅務建議。 加密貨幣資產具有高度波動性並伴隨高風險,包括可能損失全部或大部分投資金額。買賣或持有加密資產可能並不適合所有投資者。 本文中所表達的觀點僅代表作者立場,不代表 Yellow、其創辦人或管理層的官方政策或意見。 請務必自行進行充分研究(D.Y.O.R.),並在做出任何投資決策前諮詢持牌金融專業人士。