Claude Opus 4.8 在多項程式測試中超越 Gemini 和 GPT

Claude Opus 4.8 在多項程式測試中超越 Gemini 和 GPT

Anthropic 發佈了 Claude Opus 4.8,聲稱這個升級版本在多項程式評測中,表現優於 OpenAIGPT-5.5GoogleGemini 3.1 Pro

重點整理:

  • Anthropic 於 5 月 28 日推出 Claude Opus 4.8,定價與先前的 4.7 版本相同。
  • 公司表示,它在 SWE-Bench Pro 及其他測試中,表現優於 OpenAI 的 GPT-5.5 和 Google 的 Gemini 3.1 Pro。
  • 重新設計的快速模式和動態工作流程,旨在降低代理式工作在成本與時間上的開銷。

Claude Opus 4.8 程式評測成績居前

公司於週四發表這款模型,建立在大約六週前推出的 Opus 4.7 基礎上。Anthropic 表示,Opus 4.8 在 SWE-Bench Pro 程式測試中取得 69.2% 分數,擊敗兩大對手,並在其他多項指標上也名列前茅。公司同時回報,在電腦操作、知識型工作與財務分析方面也有進步,並在 Terminal-Bench 2.1 基準測試拿下 74.2% 的成績。

Anthropic 將此次發佈定位為一款「更誠實」的模型,表示測試者發現它會主動標示自身的不確定性,並避免做出缺乏根據的斷言。內部審查認為,它讓程式錯誤漏網的機率約為 Opus 4.7 的四分之一,公司也稱它在尊重用戶自主性方面表現更佳。

延伸閱讀: Cardano 巨鯨囤積 67.5% ADA 供應量,創六年新高

為何 Anthropic 的成本控制重要?

定價維持不變:每百萬個輸入 token 收費 5 美元,每百萬個輸出 token 收費 25 美元。重新設計的快速模式速度提升約 150%,成本則是先前設定的三分之一。Anthropic 也開放動態工作流程的研究預覽,能為包含數十萬行程式碼的遷移任務,啟動數以百計並行的子代理。

即便如此,整體進步仍屬漸進式。

GPT-5.5 仍在其中一項終端程式測試中領先,而 Anthropic 也自己表示,此次更新是「小幅提升」而非突破。開發者現在可以透過 Messages API,在任務進行途中調整對 Claude 的指令。尋求更便宜 AI 的買家,可能會比起頂尖模型之間些微差距,更重視這些支出控制功能。

Anthropic 估值與 Mythos 背景

發佈同日,Anthropic 也證實完成 650 億美元的 H 輪融資,估值達 9,650 億美元。這輪融資由 Altimeter Capital、Dragoneer、Greenoaks 和 Sequoia Capital 領投,讓這家成立五年的公司估值超越 OpenAI 傳出的 8,500 億美元,年收入也推升至接近 470 億美元。

這次估值較 2 月的 3,800 億美元幾乎翻了三倍,可能是 Anthropic 在上市前最後一輪私募。公司一直按兵不動,未全面釋出其更強大的 Mythos 模型,此模型專為網絡安全而設,基於安全顧慮,目前只提供給少數組織使用。Anthropic 現表示,預計在未來數週內,向所有客戶擴大開放 Mythos 等級系統的使用權限。

下一篇: Cisco 研究顯示前沿 AI 模型在多輪攻擊下表現失常

免責聲明及風險提示: 本文資訊僅供教育與參考之用,並基於作者意見,並不構成金融、投資、法律或稅務建議。 加密貨幣資產具高度波動性並伴隨高風險,可能導致投資大幅虧損或全部損失,並非適合所有投資者。 文章內容僅代表作者觀點,不代表 Yellow、創辦人或管理層立場。 投資前請務必自行徹底研究(D.Y.O.R.),並諮詢持牌金融專業人士。