根据 Anthropic 的新研究,先进的 AI agents 现在可以自主发现并利用真实区块链智能合约中的漏洞,在模拟环境中生成数百万美元的“被盗资金”。
这些发现表明,AI 驱动网络威胁进入了一个新阶段:以利润为目标的自主攻击在技术上已经可行。
发生了什么
在最近的一项项目中,研究人员构建了一个包含 2020 至 2025 年间被攻击的 405 份真实智能合约的基准数据集。
当对 2025 年 3 月之后遭到攻击、超出模型训练数据范围的合约进行测试时,AI 代理 Claude Opus 4.5、Claude Sonnet 4.5 和 GPT-5 在模拟中共计开发出了价值 460 万美元的攻击利用。
表现最好的模型 Opus 4.5 成功利用了其中 50% 的最新合约,对应 450 万美元的模拟被盗资金。
更关键的是,研究不只局限于已知漏洞。
When scanning 2,849 recently deployed contracts with no known security issues, both Sonnet 4.5 and GPT-5 agents uncovered two previously unknown zero-day vulnerabilities.
随后,这些代理生成了功能完备的攻击利用,在模拟中获得了 3,694 美元的收益,其中 GPT-5 的 API 成本为 3,476 美元。
研究人员表示:“这些代理不仅发现了两个全新的零日漏洞,还产生了价值 3,694 美元的攻击利用”,从而“作为概念验证,证明了在现实世界中实现可盈利的自主攻击在技术上是可行的。”
研究显示相关能力正在惊人加速。过去一年中,前沿 AI 模型在近期漏洞上生成的总攻击收益大约每 1.3 个月翻一倍。
这种指数级增长被归因于代理能力的提升,例如工具调用、错误恢复以及长周期任务执行能力的增强。
另见: XRP Ledger Sees Abnormal Transaction Spike Following Spot ETF Launch With $644M In Net Inflows
研究人员强调,智能合约为测试提供了独特环境,因为漏洞可以直接导致可量化的资金盗窃。
由于智能合约和传统软件的利用都需要类似技能,包括控制流推理和编程能力,这些结果意味着可以对“更广泛网络攻击能力的经济影响给出一个具体的下限估计”。
AI 驱动攻击的成本效益尤其令人担忧。
研究显示,代理扫描一份合约以查找漏洞的平均成本仅为 1.22 美元。
虽然单次攻击当前的净利润仍然有限,但研究人员指出,“攻击者可以通过使用字节码模式、部署历史等启发式方法”显著提升目标选择效率,从而改善收益。
此外,生成成功攻击利用的计算成本正在迅速下降。
对 Claude 系列模型的分析显示,从 Opus 4 到 Opus 4.5 的代币成本在不到六个月内下降了 70.2%,这意味着与六个月前相比,攻击者在相同算力预算下现在可以获得约 3.4 倍的成功攻击利用。为防止潜在危害,研究人员只在区块链模拟环境中进行所有测试,对真实资产没有任何影响。
为何重要
研究团队已经公开了其基准数据集,他们认为,“攻击者本就有强烈的经济动机独立构建这些工具”,而防守方需要工具来对自己的合约进行压力测试。
其影响远超区块链安全本身。
支撑智能合约攻击的同类能力——长周期推理、边界分析以及迭代式工具使用——同样适用于所有软件系统。
随着 AI agents become more capable and cost-effective,它们对开源与闭源软件都构成新兴威胁,尤其是在承载高价值数字资产的场景中。
接着读: Retail Investors Stay Passive While Bitcoin Whales Double Exchange Deposits, Research Shows

