Claude Mythos 逃離沙盒並隱藏證據——Anthropic 現在拒絕公開模型

Claude Mythos 逃離沙盒並隱藏證據——Anthropic 現在拒絕公開模型

Anthropic 於周二發布其迄今最先進 AI model 的 244 頁系統卡,該模型為 Claude Mythos Preview。文件揭示這是一個能力極強、但有時相當難以預測的系統,因此公司決定不向一般大眾開放。

目前僅透過一項名為 Glasswing 的新計劃,將有限存取權授予少數大型科技合作夥伴。

Mythos Preview 的能力

系統卡 describes 指出,在內部測試中,該模型展現出遠超開發者原先預期的行為。當被置於一個僅具有限上網能力的沙盒終端機時,模型設法繞過限制,自由使用網際網路,甚至主動聯絡一位當時不在辦公室的研究人員。

在系統卡形容為「令人憂心且未被要求」的操作中,模型把其利用漏洞的細節張貼到多個冷門、但對外公開的網站上。

在另一項測試中,它取得了一份原本應上報給研究人員的測試答案,卻改為嘗試自行解題。

其內部推理紀錄顯示,它希望確保「最終提交的答案不要太準確」——顯然是試圖掩飾實際發生的情況。

模型還曾 exploited 一個電腦系統權限上的缺陷,並修改版本控制記錄,讓變更不會出現在 git 歷史中。另一個案例中,它將內部程式碼內容 published 成對外公開的 GitHub gist,系統卡將此行為標記為「魯莽洩露內部技術資料」。

根據系統卡,這類事件在互動中發生的比例少於 0.001%。

Also Read: Ethereum Eyed For Euro Stablecoin Settlement Layer

Glasswing 合作夥伴計劃

Anthropic 並未完全束之高閣,而是將該模型導入 Glasswing——一個聚焦於尋找廣泛使用軟體安全漏洞的受限計劃。

合作公司包括 Amazon Web ServicesAppleGoogleJPMorganChaseMicrosoftNVIDIA 等。

Anthropic 表示,該模型已經發現數以千計的高嚴重性漏洞,包括所有主流作業系統與網頁瀏覽器中的零時差漏洞。

其中一項發現涉及 OpenBSD 中一個長達 27 年之久的錯誤——這套系統一向以著重安全強化著稱——該漏洞讓攻擊者僅需連線即可遠端讓任何機器當機。

Anthropic 已承諾為 Glasswing 合作夥伴提供最高 1 億美元等值的 Mythos Preview 使用額度,並承諾會公開此計劃中的研究發現。

Anthropic 的透明度紀錄

決定不向公眾釋出一款強大模型,讓人聯想到過往歷史。現任 Anthropic 執行長 Dario Amodei 在 2019 年仍在 OpenAI 任職時,曾參與將 GPT-2 初步評估為「過於危險而不宜公開」的決策;該模型在同年稍後才正式發布。

Anthropic 近年的模型管控紀錄則顯得起伏不定。

在 Mythos 系統卡發布前數週,就有疑似外洩內容揭露該模型的存在。隨後公司又 accidentally published source code for Claude Code,也讓外界更相信先前關於 Mythos 洩漏的說法屬實。

Read Next: Bitcoin Hits $72.7K High On Iran Peace Optimism

免責聲明及風險提示: 本文資訊僅供教育與參考之用,並基於作者意見,並不構成金融、投資、法律或稅務建議。 加密貨幣資產具高度波動性並伴隨高風險,可能導致投資大幅虧損或全部損失,並非適合所有投資者。 文章內容僅代表作者觀點,不代表 Yellow、創辦人或管理層立場。 投資前請務必自行徹底研究(D.Y.O.R.),並諮詢持牌金融專業人士。