Anthropic 表示,计划向公众开放其漏洞挖掘 AI 模型 Mythos, its vulnerability-hunting AI, 但前提是先构建目前尚不存在的安全防护措施。
要点:
- Anthropic 计划在先扩展对美国及其盟友政府的访问之后,再广泛发布 Mythos 级模型。
- 公司承认,包括自身在内,没有任何公司构建出足以真正阻止滥用的安全防护。
- Mythos 已在 1,000 个开源项目中标记出 23,000 多个问题,其中 6,202 个被评为高危或严重漏洞。
Anthropic Mythos 发布计划
Anthropic 在 Project Glasswing(其限量访问的安全项目)更新中确认了这一计划; 另一份报告则指出时间表仍不确定。
公司表示,将首先与美国及其盟友政府合作,扩大该项目的覆盖范围。 随后将在不久的将来面向更广泛群体发布「Mythos 级模型」。
Anthropic 对风险表述十分直接。它表示, 目前没有任何公司(包括 Anthropic 自身)构建出足够强大的安全防护,能够阻止模型被滥用并造成严重危害。
即便如此,公司仍预计类似工具将迅速扩散,并预测 Mythos 级模型将在 6 到 12 个月内广泛可用。
Mythos 于 4 月首次亮相。 Anthropic 称,在测试中它有 72.4% 的时间能生成可用的攻击利用代码,而此前某个 Claude 模型几乎为零。
延伸阅读: Cisco Research Shows Frontier AI Models Failing Under Multi-Turn Attacks
Mythos 的漏洞发现
自发布以来,该模型已扫描超过 1,000 个开源项目,并发现了 23,019 个问题, 其中 6,202 个被评为高危或严重等级。
其中一个发现尤为突出。Mythos 揭示了加密库 wolfSSL 中的一个缺陷, 该库被数十亿设备使用,该缺陷可能让攻击者伪造证书并冒充银行或电子邮件服务提供商。 这一漏洞现已修复。
大量报告给负责修复的人带来了压力。开源维护者已要求 Anthropic 放缓披露节奏, 称报告数量远超自身处理能力。
研究人员看到的是更深层的不平衡。Anthropic 认为,发现漏洞现在比修复漏洞容易得多, 因此公司与 Open Source Security Foundation 的 Alpha-Omega 项目合作, 帮助维护者梳理和分流积压问题。
Claude Mythos 的系统卡片预测,AI 最终会让防御方受益,不过 Anthropic 也承认,目前攻击者可能仍占上风。
在 Mythos was first revealed 之初, Anthropic 向包括 Apple、Microsoft 和 Google 在内的 50 多家机构提供了访问权限, 并附带约 1 亿美元的使用额度,但由于该模型具备武器化软件漏洞的能力, 当时并未向公众开放。
下篇阅读: Cardano Whales Seize 67.5% Of ADA Supply, A Six-Year High





