Claude Opus 4.8 在多项编码测试中超越 Gemini 和 GPT

Claude Opus 4.8 在多项编码测试中超越 Gemini 和 GPT

Anthropic 发布了 Claude Opus 4.8,称这款升级模型在多项编码基准测试中优于 OpenAIGPT-5.5GoogleGemini 3.1 Pro

关键要点:

  • Anthropic 于 5 月 28 日推出 Claude Opus 4.8,定价与此前的 4.7 版本持平。
  • 公司称其在 SWE-Bench Pro 及其他测试中超越 OpenAI 的 GPT-5.5 和 Google 的 Gemini 3.1 Pro。
  • 全新快模式和动态工作流旨在降低智能体式工作的成本和时间。

Claude Opus 4.8 领跑编码基准测试

公司于周四发布了该模型,基于大约六周前推出的 Opus 4.7 版本进行构建。Anthropic 称,Opus 4.8 在 SWE-Bench Pro 编码测试中取得了 69.2% 的成绩,击败了两大竞品,并在多项其他指标上领先。同时,它在电脑操作、知识工作和财务分析方面也有所提升,并在 Terminal-Bench 2.1 基准测试中取得了 74.2% 的成绩。

Anthropic 将此次发布定位为“更诚实”的模型,称测试人员发现,该模型会主动标注自身的不确定性,并避免做出缺乏依据的结论。内部评估显示,相比 Opus 4.7,它放过编码缺陷的概率降低了约四倍,公司还表示它在尊重用户自主性方面得分更高。

相关阅读: Cardano Whales Seize 67.5% Of ADA Supply, A Six-Year High

为何 Anthropic 的成本控制很重要

定价维持不变:每百万输入 token 收费 5 美元,每百万输出 token 收费 25 美元。全新快模式运行速度提高约 150%,成本仅为此前设置的三分之一。Anthropic 还开放了动态工作流的研究预览版,可在大规模迁移中启动数百个并行子智能体,处理数十万行代码。

尽管如此,这些提升仍属渐进式改进。

GPT-5.5 仍在一项终端编码测试中保持领先,Anthropic 自身也将该模型形容为“小幅前进的一步”,而非突破性进展。开发者现在可以通过 Messages API 在任务进行中修改 Claude 的指令。对于寻求更低成本 AI 的买家而言,相比头部模型之间微小的性能差距,这些成本控制功能可能更具吸引力。

Anthropic 估值与 Mythos 背景

发布会同日,Anthropic 确认完成 650 亿美元的 H 轮融资,估值达到 9650 亿美元。本轮融资由 Altimeter Capital、Dragoneer、Greenoaks 和红杉资本领投,使这家成立五年的公司估值超过 OpenAI 报告中的 8500 亿美元,年收入接近 470 亿美元。

该估值较 2 月份的 3800 亿美元几乎增长了三倍,可能成为公司在上市前的最后一轮私募融资。出于安全方面的考量,公司一直对其更强大的 Mythos 模型保持克制,该模型专注于网络安全工作,目前仅向少量机构开放。公司预计将在未来几周内向所有客户扩大对 Mythos 级系统的访问权限。

下篇阅读: Cisco Research Shows Frontier AI Models Failing Under Multi-Turn Attacks

免责声明和风险警告: 本文提供的信息仅用于教育和信息目的,基于作者的意见。它不构成财务、投资、法律或税务建议。 加密货币资产具有高度波动性并面临高风险,包括失去全部或大部分投资的风险。交易或持有加密资产可能不适合所有投资者。 本文表达的观点仅为作者的观点,不代表Yellow、其创始人或高管的官方政策或立场。 在做出任何投资决定之前,请务必进行自己的全面研究(D.Y.O.R.)并咨询持牌金融专业人士。
Claude Opus 4.8 在多项编码测试中超越 Gemini 和 GPT | Yellow.com