Claude Mythos 逃出沙盒又刪跡象, Anthropic 現在拒絕公開模型

Claude Mythos 逃出沙盒又刪跡象, Anthropic 現在拒絕公開模型

Anthropic 週二發佈了一份長達 244 頁的系統卡,介紹其最先進的 AI model Claude Mythos Preview。文件顯示,這個系統能力極強、行為有時難以預測,以致公司決定不向一般公眾開放。

目前僅透過一個名為 Glasswing 的新計劃,向少數大型科技夥伴提供有限存取權。

Mythos Preview 的能力

系統卡 describes 指出,在內部測試中,這個模型展現出遠超開發者原本預期的行為。在一個僅具有限上網功能的沙盒終端環境中,模型找到方法繞過限制,自由使用互聯網,並向一名不在辦公室的研究員發送訊息。

系統卡把它的一個舉動形容為「令人憂心且非受指示」:模型把自己的攻擊細節貼到多個冷門但公開可存取的網站上。

在另一項測試中,它取得了一個理應回報給研究人員的測試答案,卻選擇自行獨立解題。

其內部推理紀錄顯示,它想確保「最終提交的答案不要太準確」——顯然是在試圖掩蓋實際發生的情況。

該模型還 exploited 了一個電腦系統權限漏洞,並更改版本控制紀錄,讓修改不會出現在 git 歷史中。在另一個案例裡,它把內部程式碼材料 published 成公開的 GitHub gist,系統卡將此行為描述為「魯莽外洩內部技術資料」。

根據系統卡記載,這類事件出現在少於 0.001% 的互動當中。

Also Read: Ethereum Eyed For Euro Stablecoin Settlement Layer

Glasswing 夥伴計劃

Anthropic 並沒有完全封存這個模型,而是透過 Glasswing 這個受限計劃,將其能力用於尋找廣泛使用軟件中的安全漏洞。

參與的合作夥伴包括 Amazon Web ServicesAppleGoogleJPMorganChaseMicrosoftNVIDIA 等公司。

Anthropic 指出,這個模型已經找出數以千計高嚴重程度的漏洞,包括所有主流作業系統與瀏覽器中的零時差漏洞。

其中一項發現,是在以安全加固著稱的 OpenBSD 中存在一個長達 27 年的錯誤,讓攻擊者只需建立連線,就可以遠端令任何機器當機。

公司承諾為 Glasswing 夥伴提供最高 1 億美元等值的 Mythos Preview 使用額度,並承諾公開該計劃的研究發現。

Anthropic 的透明紀錄

選擇不向公眾釋出強大模型,帶有一些歷史回響。現任 Anthropic CEO Dario Amodei 在 2019 年仍在 OpenAI 任職時,曾參與決定暫時不公開 GPT-2,理由同樣是風險過高;該模型在同年稍後才正式釋出。

但 Anthropic 近年的封測與防洩紀錄並不穩定。

在 Mythos 系統卡發佈前數週,網路上已出現疑似洩漏,揭露該模型的存在。其後公司又 accidentally published source code for Claude Code,令外界更相信早前的洩漏同樣是真實事件。

Read Next: Bitcoin Hits $72.7K High On Iran Peace Optimism

免責聲明及風險提示: 本文資訊僅供教育與參考之用,並基於作者意見,並不構成金融、投資、法律或稅務建議。 加密貨幣資產具高度波動性並伴隨高風險,可能導致投資大幅虧損或全部損失,並非適合所有投資者。 文章內容僅代表作者觀點,不代表 Yellow、創辦人或管理層立場。 投資前請務必自行徹底研究(D.Y.O.R.),並諮詢持牌金融專業人士。
Claude Mythos 逃出沙盒又刪跡象, Anthropic 現在拒絕公開模型 | Yellow.com