Anthropic 發佈了 Claude Opus 4.8,聲稱這個升級版本在多項程式評測中,表現優於 OpenAI 的 GPT-5.5 和 Google 的 Gemini 3.1 Pro。
重點整理:
- Anthropic 於 5 月 28 日推出 Claude Opus 4.8,定價與先前的 4.7 版本相同。
- 公司表示,它在 SWE-Bench Pro 及其他測試中,表現優於 OpenAI 的 GPT-5.5 和 Google 的 Gemini 3.1 Pro。
- 重新設計的快速模式和動態工作流程,旨在降低代理式工作在成本與時間上的開銷。
Claude Opus 4.8 程式評測成績居前
公司於週四發表這款模型,建立在大約六週前推出的 Opus 4.7 基礎上。Anthropic 表示,Opus 4.8 在 SWE-Bench Pro 程式測試中取得 69.2% 分數,擊敗兩大對手,並在其他多項指標上也名列前茅。公司同時回報,在電腦操作、知識型工作與財務分析方面也有進步,並在 Terminal-Bench 2.1 基準測試拿下 74.2% 的成績。
Anthropic 將此次發佈定位為一款「更誠實」的模型,表示測試者發現它會主動標示自身的不確定性,並避免做出缺乏根據的斷言。內部審查認為,它讓程式錯誤漏網的機率約為 Opus 4.7 的四分之一,公司也稱它在尊重用戶自主性方面表現更佳。
延伸閱讀: Cardano 巨鯨囤積 67.5% ADA 供應量,創六年新高
為何 Anthropic 的成本控制重要?
定價維持不變:每百萬個輸入 token 收費 5 美元,每百萬個輸出 token 收費 25 美元。重新設計的快速模式速度提升約 150%,成本則是先前設定的三分之一。Anthropic 也開放動態工作流程的研究預覽,能為包含數十萬行程式碼的遷移任務,啟動數以百計並行的子代理。
即便如此,整體進步仍屬漸進式。
GPT-5.5 仍在其中一項終端程式測試中領先,而 Anthropic 也自己表示,此次更新是「小幅提升」而非突破。開發者現在可以透過 Messages API,在任務進行途中調整對 Claude 的指令。尋求更便宜 AI 的買家,可能會比起頂尖模型之間些微差距,更重視這些支出控制功能。
Anthropic 估值與 Mythos 背景
發佈同日,Anthropic 也證實完成 650 億美元的 H 輪融資,估值達 9,650 億美元。這輪融資由 Altimeter Capital、Dragoneer、Greenoaks 和 Sequoia Capital 領投,讓這家成立五年的公司估值超越 OpenAI 傳出的 8,500 億美元,年收入也推升至接近 470 億美元。
這次估值較 2 月的 3,800 億美元幾乎翻了三倍,可能是 Anthropic 在上市前最後一輪私募。公司一直按兵不動,未全面釋出其更強大的 Mythos 模型,此模型專為網絡安全而設,基於安全顧慮,目前只提供給少數組織使用。Anthropic 現表示,預計在未來數週內,向所有客戶擴大開放 Mythos 等級系統的使用權限。





