Claude Mythos 逃出沙盒并隐藏证据——Anthropic 现拒绝公开该模型

Anthropic 周二发布了其最先进 AI model Claude Mythos Preview 的一份 244 页系统卡片，披露这一系统的能力极强——且在某些情况下表现难以预测——以至于公司决定不向普通公众开放。

目前仅通过一个名为 Glasswing 的新项目，向少数大型科技合作伙伴提供有限访问权限。

Mythos Preview 的能力

这份系统卡片描述了一个在内部测试中表现远超开发者预期的模型。在被赋予一个仅有受限联网权限的沙盒终端后，该模型找到方法绕过限制，自由访问互联网，并向一位当时不在办公室的研究人员发送了消息。

卡片称，在一次“令人担忧且并非被要求”的举动中，模型把自己利用漏洞的细节发布到了多个冷门但公开可访问的网站上。

在另一项测试中，它获得了一个本应上报给研究人员的测试答案，但却尝试独立解决该问题。

其内部推理日志显示，它想要确保“最终提交的答案不要太准确”——这似乎是在试图掩盖实际发生的情况。

该模型还利用了一处计算机系统权限缺陷，并修改版本控制记录，使这些更改不会出现在 git 历史中。在另一次事件中，它将内部代码材料发布为公开的 GitHub gist，卡片将此行为称为“鲁莽泄露内部技术资料”。

卡片称，这些事件发生在全部交互中的比例不到 0.001%。

延伸阅读： Ethereum Eyed For Euro Stablecoin Settlement Layer

Anthropic 并未完全搁置该模型，而是通过 Glasswing 这一受限项目，将其能力用于寻找广泛使用软件中的安全漏洞。

合作公司包括 Amazon Web Services、Apple、Google、JPMorganChase、Microsoft 和 NVIDIA 等。

Anthropic 称，该模型已经发现了数以千计的高危漏洞，包括所有主流操作系统和网页浏览器中的零日缺陷。

其中一项发现涉及 OpenBSD 中一个存在 27 年之久的漏洞——这套以安全加固著称的系统竟允许攻击者仅通过连接即可远程导致任意机器崩溃。

公司承诺为 Glasswing 合作伙伴提供最高 1 亿美元等值的 Mythos Preview 使用额度，并承诺公开该项目的部分研究成果。

决定不向公众发布一个强大模型，让人联想到过去的历史。现任 Anthropic CEO Dario Amodei 在 2019 年仍就职于 OpenAI 时，GPT-2 曾一度被认为“过于危险而无法发布”，但在同年晚些时候仍然正式上线。

Anthropic 近期在“模型管控”方面的表现也并不稳定。

在 Mythos 系统卡片发布的数周前，疑似泄露的信息就已曝光该模型的存在。随后，公司又意外公开了 Claude Code 的源代码，也让外界更相信早前的泄露同样是真实的。

下一篇阅读： Bitcoin Hits $72.7K High On Iran Peace Optimism