Claude Opus 4.8 在多項程式測試上超越 Gemini 與 GPT

Anthropic 發布了 Claude Opus 4.8，聲稱這個升級版本在多項程式基準測試中，表現優於 OpenAI 的 GPT-5.5 與 Google 的 Gemini 3.1 Pro。

重點整理：

Anthropic 於 5 月 28 日推出 Claude Opus 4.8，定價與先前的 4.7 版本相同。

公司表示，該模型在 SWE-Bench Pro 與其他測試上，領先 OpenAI 的 GPT-5.5 與 Google 的 Gemini 3.1 Pro。

全新的快速模式與動態工作流程，旨在降低代理式工作所需的成本與時間。

Claude Opus 4.8 程式基準測試表現居前

該公司於週四發表這款模型，建立在約六週前推出的 Opus 4.7 版本之上。Anthropic 表示，Opus 4.8 在 SWE-Bench Pro 程式測試中取得 69.2% 的成績，擊敗兩家競爭對手，並在其他多項指標上勝出。它同時在電腦操作、知識型工作與財務分析方面有所提升，並在 Terminal-Bench 2.1 基準測試中取得 74.2% 的成績。

Anthropic 將這次發布定位成「更誠實」的模型，表示測試人員發現，它會主動標示自身的不確定性，並避免做出缺乏根據的主張。內部評估顯示，相較於 Opus 4.7，新版在放過程式錯誤方面的機率約降低四倍，公司也表示它在尊重使用者自主性方面的表現更好。

延伸閱讀： Cardano Whales Seize 67.5% Of ADA Supply, A Six-Year High

為何 Anthropic 的成本控管很重要

價格維持不變：每百萬個輸入 Token 5 美元、每百萬個輸出 Token 25 美元。重新設計的快速模式現在速度約提升 150%，成本則只有先前設定的三分之一。Anthropic 也開放動態工作流程的研究預覽，可為跨越數十萬行程式碼的遷移任務啟動數百個平行子代理。

儘管如此，整體提升仍屬漸進式。

GPT-5.5 在其中一項終端程式測試上仍保持領先，Anthropic 本身也稱這次更新是「小幅邁進」而非重大突破。開發者現在可以透過 Messages API，在任務進行中修改 Claude 的指示。尋求更低成本 AI 的買家，可能會比起模型間些微性能差距，更看重這些支出控管功能。

Anthropic 估值與 Mythos 背景

發布同日，Anthropic 也確認完成 650 億美元的 H 輪融資，估值達到 9,650 億美元。本輪融資由 Altimeter Capital、Dragoneer、Greenoaks 與 Sequoia Capital 領投，讓這家成立五年的公司估值超越 OpenAI 傳出的 8,500 億美元，同時將其年度營收推升至接近 470 億美元。

該估值自二月的 3,800 億美元幾乎成長了三倍，可能成為 Anthropic 在上市前最後一輪私募。公司一直暫緩推出更強大的 Mythos 模型，這款模型專為網路安全工作打造，基於安全考量，目前僅提供給少數機構使用。Anthropic 現預期在未來數週內，將 Mythos 等級系統的使用範圍擴大到所有客戶。

下一篇： Cisco Research Shows Frontier AI Models Failing Under Multi-Turn Attacks