Claude Opus 4.8 在多项编码测试中超越 Gemini 和 GPT

Anthropic 发布了 Claude Opus 4.8，称这款升级模型在多项编码基准测试中优于 OpenAI 的 GPT-5.5 和 Google 的 Gemini 3.1 Pro。

关键要点：

Anthropic 于 5 月 28 日推出 Claude Opus 4.8，定价与此前的 4.7 版本持平。

公司称其在 SWE-Bench Pro 及其他测试中超越 OpenAI 的 GPT-5.5 和 Google 的 Gemini 3.1 Pro。

全新快模式和动态工作流旨在降低智能体式工作的成本和时间。

Claude Opus 4.8 领跑编码基准测试

公司于周四发布了该模型，基于大约六周前推出的 Opus 4.7 版本进行构建。Anthropic 称，Opus 4.8 在 SWE-Bench Pro 编码测试中取得了 69.2% 的成绩，击败了两大竞品，并在多项其他指标上领先。同时，它在电脑操作、知识工作和财务分析方面也有所提升，并在 Terminal-Bench 2.1 基准测试中取得了 74.2% 的成绩。

Anthropic 将此次发布定位为“更诚实”的模型，称测试人员发现，该模型会主动标注自身的不确定性，并避免做出缺乏依据的结论。内部评估显示，相比 Opus 4.7，它放过编码缺陷的概率降低了约四倍，公司还表示它在尊重用户自主性方面得分更高。

为何 Anthropic 的成本控制很重要

定价维持不变：每百万输入 token 收费 5 美元，每百万输出 token 收费 25 美元。全新快模式运行速度提高约 150%，成本仅为此前设置的三分之一。Anthropic 还开放了动态工作流的研究预览版，可在大规模迁移中启动数百个并行子智能体，处理数十万行代码。

尽管如此，这些提升仍属渐进式改进。

GPT-5.5 仍在一项终端编码测试中保持领先，Anthropic 自身也将该模型形容为“小幅前进的一步”，而非突破性进展。开发者现在可以通过 Messages API 在任务进行中修改 Claude 的指令。对于寻求更低成本 AI 的买家而言，相比头部模型之间微小的性能差距，这些成本控制功能可能更具吸引力。

Anthropic 估值与 Mythos 背景

发布会同日，Anthropic 确认完成 650 亿美元的 H 轮融资，估值达到 9650 亿美元。本轮融资由 Altimeter Capital、Dragoneer、Greenoaks 和红杉资本领投，使这家成立五年的公司估值超过 OpenAI 报告中的 8500 亿美元，年收入接近 470 亿美元。

该估值较 2 月份的 3800 亿美元几乎增长了三倍，可能成为公司在上市前的最后一轮私募融资。出于安全方面的考量，公司一直对其更强大的 Mythos 模型保持克制，该模型专注于网络安全工作，目前仅向少量机构开放。公司预计将在未来几周内向所有客户扩大对 Mythos 级系统的访问权限。

下篇阅读： Cisco Research Shows Frontier AI Models Failing Under Multi-Turn Attacks