Anthropic 發布了 Claude Opus 4.8,聲稱這個升級版本在多項程式基準測試中,表現優於 OpenAI 的 GPT-5.5 與 Google 的 Gemini 3.1 Pro。
重點整理:
- Anthropic 於 5 月 28 日推出 Claude Opus 4.8,定價與先前的 4.7 版本相同。
- 公司表示,該模型在 SWE-Bench Pro 與其他測試上,領先 OpenAI 的 GPT-5.5 與 Google 的 Gemini 3.1 Pro。
- 全新的快速模式與動態工作流程,旨在降低代理式工作所需的成本與時間。
Claude Opus 4.8 程式基準測試表現居前
該公司於週四發表這款模型,建立在約六週前推出的 Opus 4.7 版本之上。Anthropic 表示,Opus 4.8 在 SWE-Bench Pro 程式測試中取得 69.2% 的成績,擊敗兩家競爭對手,並在其他多項指標上勝出。它同時在電腦操作、知識型工作與財務分析方面有所提升,並在 Terminal-Bench 2.1 基準測試中取得 74.2% 的成績。
Anthropic 將這次發布定位成「更誠實」的模型,表示測試人員發現,它會主動標示自身的不確定性,並避免做出缺乏根據的主張。內部評估顯示,相較於 Opus 4.7,新版在放過程式錯誤方面的機率約降低四倍,公司也表示它在尊重使用者自主性方面的表現更好。
延伸閱讀: Cardano Whales Seize 67.5% Of ADA Supply, A Six-Year High
為何 Anthropic 的成本控管很重要
價格維持不變:每百萬個輸入 Token 5 美元、每百萬個輸出 Token 25 美元。重新設計的快速模式現在速度約提升 150%,成本則只有先前設定的三分之一。Anthropic 也開放動態工作流程的研究預覽,可為跨越數十萬行程式碼的遷移任務啟動數百個平行子代理。
儘管如此,整體提升仍屬漸進式。
GPT-5.5 在其中一項終端程式測試上仍保持領先,Anthropic 本身也稱這次更新是「小幅邁進」而非重大突破。開發者現在可以透過 Messages API,在任務進行中修改 Claude 的指示。尋求更低成本 AI 的買家,可能會比起模型間些微性能差距,更看重這些支出控管功能。
Anthropic 估值與 Mythos 背景
發布同日,Anthropic 也確認完成 650 億美元的 H 輪融資,估值達到 9,650 億美元。本輪融資由 Altimeter Capital、Dragoneer、Greenoaks 與 Sequoia Capital 領投,讓這家成立五年的公司估值超越 OpenAI 傳出的 8,500 億美元,同時將其年度營收推升至接近 470 億美元。
該估值自二月的 3,800 億美元幾乎成長了三倍,可能成為 Anthropic 在上市前最後一輪私募。公司一直暫緩推出更強大的 Mythos 模型,這款模型專為網路安全工作打造,基於安全考量,目前僅提供給少數機構使用。Anthropic 現預期在未來數週內,將 Mythos 等級系統的使用範圍擴大到所有客戶。
下一篇: Cisco Research Shows Frontier AI Models Failing Under Multi-Turn Attacks





