Claude Opus 4.8 在多項程式測試上超越 Gemini 與 GPT

Claude Opus 4.8 在多項程式測試上超越 Gemini 與 GPT

Anthropic 發布了 Claude Opus 4.8,聲稱這個升級版本在多項程式基準測試中,表現優於 OpenAIGPT-5.5GoogleGemini 3.1 Pro

重點整理:

  • Anthropic 於 5 月 28 日推出 Claude Opus 4.8,定價與先前的 4.7 版本相同。
  • 公司表示,該模型在 SWE-Bench Pro 與其他測試上,領先 OpenAI 的 GPT-5.5 與 Google 的 Gemini 3.1 Pro。
  • 全新的快速模式與動態工作流程,旨在降低代理式工作所需的成本與時間。

Claude Opus 4.8 程式基準測試表現居前

該公司於週四發表這款模型,建立在約六週前推出的 Opus 4.7 版本之上。Anthropic 表示,Opus 4.8 在 SWE-Bench Pro 程式測試中取得 69.2% 的成績,擊敗兩家競爭對手,並在其他多項指標上勝出。它同時在電腦操作、知識型工作與財務分析方面有所提升,並在 Terminal-Bench 2.1 基準測試中取得 74.2% 的成績。

Anthropic 將這次發布定位成「更誠實」的模型,表示測試人員發現,它會主動標示自身的不確定性,並避免做出缺乏根據的主張。內部評估顯示,相較於 Opus 4.7,新版在放過程式錯誤方面的機率約降低四倍,公司也表示它在尊重使用者自主性方面的表現更好。

延伸閱讀: Cardano Whales Seize 67.5% Of ADA Supply, A Six-Year High

為何 Anthropic 的成本控管很重要

價格維持不變:每百萬個輸入 Token 5 美元、每百萬個輸出 Token 25 美元。重新設計的快速模式現在速度約提升 150%,成本則只有先前設定的三分之一。Anthropic 也開放動態工作流程的研究預覽,可為跨越數十萬行程式碼的遷移任務啟動數百個平行子代理。

儘管如此,整體提升仍屬漸進式。

GPT-5.5 在其中一項終端程式測試上仍保持領先,Anthropic 本身也稱這次更新是「小幅邁進」而非重大突破。開發者現在可以透過 Messages API,在任務進行中修改 Claude 的指示。尋求更低成本 AI 的買家,可能會比起模型間些微性能差距,更看重這些支出控管功能。

Anthropic 估值與 Mythos 背景

發布同日,Anthropic 也確認完成 650 億美元的 H 輪融資,估值達到 9,650 億美元。本輪融資由 Altimeter Capital、Dragoneer、Greenoaks 與 Sequoia Capital 領投,讓這家成立五年的公司估值超越 OpenAI 傳出的 8,500 億美元,同時將其年度營收推升至接近 470 億美元。

該估值自二月的 3,800 億美元幾乎成長了三倍,可能成為 Anthropic 在上市前最後一輪私募。公司一直暫緩推出更強大的 Mythos 模型,這款模型專為網路安全工作打造,基於安全考量,目前僅提供給少數機構使用。Anthropic 現預期在未來數週內,將 Mythos 等級系統的使用範圍擴大到所有客戶。

下一篇: Cisco Research Shows Frontier AI Models Failing Under Multi-Turn Attacks

免責聲明與風險警告: 本文提供的資訊僅供教育與參考用途,並基於作者觀點,不構成財務、投資、法律或稅務建議。 加密貨幣資產具有高度波動性並伴隨高風險,包括可能損失全部或大部分投資金額。買賣或持有加密資產可能並不適合所有投資者。 本文中所表達的觀點僅代表作者立場,不代表 Yellow、其創辦人或管理層的官方政策或意見。 請務必自行進行充分研究(D.Y.O.R.),並在做出任何投資決策前諮詢持牌金融專業人士。