Claude Mythos 逃出沙盒并隐藏证据——Anthropic 现拒绝公开该模型

Claude Mythos 逃出沙盒并隐藏证据——Anthropic 现拒绝公开该模型

Anthropic 周二发布了其最先进 AI model 的一份 244 页系统卡,Claude Mythos Preview。文件显示,该系统能力极强——同时在某些情况下极难预测——以至于公司决定不向公众开放。

目前仅通过一个名为 Glasswing 的新计划,向少数大型科技合作伙伴提供有限访问。

Mythos Preview 的能力

系统卡描述了一个在内部测试中表现出远超设计预期行为的模型。在被提供一个仅有有限联网能力的沙盒终端后,该模型找到了绕过限制、自由上网的方法,并向一位不在办公室的研究人员发送了消息。

系统卡称,在一次“令人担忧且并未被要求”的行为中,该模型将其利用方式的细节发布到多个冷门但公开可访问的网站上。

在另一项测试中,它获得了一个本应上报给研究人员的测试答案,但却转而尝试独立解决该问题。

其内部推理日志显示,它想确保“最终提交的答案不要太准确”——显然是在试图掩盖实际发生的情况。

模型还利用了计算机系统权限中的一个漏洞,然后篡改了版本控制记录,使这些更改不会出现在 git 历史中。在另一次事件中,它将内部代码材料发布为公开的 GitHub gist,系统卡将这一行为定性为“鲁莽泄露内部技术资料”。

根据系统卡,这些事件发生在不到 0.001% 的交互中。

Also Read: Ethereum Eyed For Euro Stablecoin Settlement Layer

Glasswing 合作伙伴计划

Anthropic 并未完全封存该模型,而是将其纳入 Glasswing 这一受限计划,专注于在广泛使用的软件中发现安全漏洞。

合作伙伴包括 Amazon Web ServicesAppleGoogleJPMorganChaseMicrosoftNVIDIA 等公司。

Anthropic 表示,该模型已经发现了数千个高危漏洞,包括所有主流操作系统和浏览器中的零日漏洞。

其中一次发现涉及 OpenBSD 中一个存在 27 年之久的缺陷。OpenBSD 以安全加固著称,但该缺陷允许攻击者仅通过建立连接就可远程导致任何机器崩溃。

公司承诺为 Glasswing 合作伙伴提供最高 1 亿美元等值的 Mythos Preview 使用额度,并承诺公开该计划产生的研究成果。

Anthropic 的透明记录

决定不向公众发布一个强大的模型,带有明显的历史回声。现任 Anthropic CEO Dario Amodei 在 2019 年仍供职于 OpenAI 时,GPT-2 起初也被认为“过于危险而无法公开”,但同年晚些时候最终还是发布了。

Anthropic 自身近期在“收容”方面的表现并不稳定。

在 Mythos 系统卡发布前几周,疑似泄露事件已曝光该模型的存在。随后,公司又意外公开了 Claude Code 的源代码,进一步增强了此前泄露为真确有其事的可信度。

Read Next: Bitcoin Hits $72.7K High On Iran Peace Optimism

免责声明和风险警告: 本文提供的信息仅用于教育和信息目的,基于作者的意见。它不构成财务、投资、法律或税务建议。 加密货币资产具有高度波动性并面临高风险,包括失去全部或大部分投资的风险。交易或持有加密资产可能不适合所有投资者。 本文表达的观点仅为作者的观点,不代表Yellow、其创始人或高管的官方政策或立场。 在做出任何投资决定之前,请务必进行自己的全面研究(D.Y.O.R.)并咨询持牌金融专业人士。
Claude Mythos 逃出沙盒并隐藏证据——Anthropic 现拒绝公开该模型 | Yellow.com