Claude Opus 4.8 在多項程式測試中超越 Gemini 和 GPT

Anthropic 發佈了 Claude Opus 4.8，聲稱這個升級版本在多項程式評測中，表現優於 OpenAI 的 GPT-5.5 和 Google 的 Gemini 3.1 Pro。

重點整理：

Anthropic 於 5 月 28 日推出 Claude Opus 4.8，定價與先前的 4.7 版本相同。

公司表示，它在 SWE-Bench Pro 及其他測試中，表現優於 OpenAI 的 GPT-5.5 和 Google 的 Gemini 3.1 Pro。

重新設計的快速模式和動態工作流程，旨在降低代理式工作在成本與時間上的開銷。

Claude Opus 4.8 程式評測成績居前

公司於週四發表這款模型，建立在大約六週前推出的 Opus 4.7 基礎上。Anthropic 表示，Opus 4.8 在 SWE-Bench Pro 程式測試中取得 69.2% 分數，擊敗兩大對手，並在其他多項指標上也名列前茅。公司同時回報，在電腦操作、知識型工作與財務分析方面也有進步，並在 Terminal-Bench 2.1 基準測試拿下 74.2% 的成績。

Anthropic 將此次發佈定位為一款「更誠實」的模型，表示測試者發現它會主動標示自身的不確定性，並避免做出缺乏根據的斷言。內部審查認為，它讓程式錯誤漏網的機率約為 Opus 4.7 的四分之一，公司也稱它在尊重用戶自主性方面表現更佳。

延伸閱讀： Cardano 巨鯨囤積 67.5% ADA 供應量，創六年新高

為何 Anthropic 的成本控制重要？

定價維持不變：每百萬個輸入 token 收費 5 美元，每百萬個輸出 token 收費 25 美元。重新設計的快速模式速度提升約 150%，成本則是先前設定的三分之一。Anthropic 也開放動態工作流程的研究預覽，能為包含數十萬行程式碼的遷移任務，啟動數以百計並行的子代理。

即便如此，整體進步仍屬漸進式。

GPT-5.5 仍在其中一項終端程式測試中領先，而 Anthropic 也自己表示，此次更新是「小幅提升」而非突破。開發者現在可以透過 Messages API，在任務進行途中調整對 Claude 的指令。尋求更便宜 AI 的買家，可能會比起頂尖模型之間些微差距，更重視這些支出控制功能。

Anthropic 估值與 Mythos 背景

發佈同日，Anthropic 也證實完成 650 億美元的 H 輪融資，估值達 9,650 億美元。這輪融資由 Altimeter Capital、Dragoneer、Greenoaks 和 Sequoia Capital 領投，讓這家成立五年的公司估值超越 OpenAI 傳出的 8,500 億美元，年收入也推升至接近 470 億美元。

這次估值較 2 月的 3,800 億美元幾乎翻了三倍，可能是 Anthropic 在上市前最後一輪私募。公司一直按兵不動，未全面釋出其更強大的 Mythos 模型，此模型專為網絡安全而設，基於安全顧慮，目前只提供給少數組織使用。Anthropic 現表示，預計在未來數週內，向所有客戶擴大開放 Mythos 等級系統的使用權限。

下一篇： Cisco 研究顯示前沿 AI 模型在多輪攻擊下表現失常