Anthropic、Claude Opus 4.8を発表　自己検出エラーが4倍に

Anthropic released Claude Opus 4.8 on Thursday, pitching the upgraded model as more honest and less prone to inventing facts than the version it replaces.

主なポイント:

Anthropicは木曜日にClaude Opus 4.8をリリースし、「正直さ」を最大の向上点として強調した。

同社によると、このモデルはコードの欠陥を見逃す可能性が従来よりおよそ4分の1になった。

高速モードは従来比2.5倍の速度で動作し、コストは3分の1になった。

Anthropic、Opus 4.8の「正直さ」をアピール

同社は木曜日にこのモデルをunveiledし、大幅な刷新というよりOpus 4.7からの着実なビルドアップだと位置づけ、多くのベンチマークスコアはわずかに向上した程度だと説明した。SWE-Bench Proのコーディングテストでは、前バージョンの64.3%から69.2%へとscoredが向上し、58.6%にとどまったOpenAIのGPT-5.5を上回った。

注目を集めたのは「正直さ」だ。Anthropicによると、AIモデルはしばしば証拠が乏しいのに結論を急ぎ、進捗があるかのように主張してしまうが、初期テスターは4.8について、長時間の自律タスク中に疑念を認めるスピードが速くなったと報告した。同社のテストでは、このモデルは4.7に比べて、コードの欠陥を見逃して指摘しない可能性が約4分の1になったことがindicatedという。

このアップグレードでは、ユーザーがタスクに対してモデルにどれだけ「頑張らせる」かを調整できる設定など、新しいコントロールもshippedされ、すべてのプランで利用可能になった。さらに、高速モードの価格も引き下げられ、通常の2.5倍の速度で動作しながら、従来モデルの3分の1の料金で利用できるようになった。

Also Read: Kalshi Wins CFTC Approval For First U.S. Bitcoin Perpetual Futures

Pritchard氏、Opus 4.8の判断力を評価

ShopifyのスタッフエンジニアであるTom Pritchard氏は、コーディング版モデルは判断力が大幅に向上したとAnthropicにtoldしている。同氏によれば、このモデルは「適切な質問を投げかけ、自分のミスを見つけ出し」、計画が弱く見えるときには反論してくるという。ライブの本番データベースを消してしまうようなAIエージェントに痛い目を見せられてきたチームにとっては、そうした特性は大きな意味を持つだろう。

しかし、すべての人が納得しているわけではない。

Redditでは、多くのユーザーがベンチマークチャートに疑問を呈し、全体的な空気としては「誰も信じていない」という調子だった。一方で、日常の作業では依然としてOpus 4.6を好んでおり、それを失うことを恐れる声も上がっている。

Opus 4.8でAnthropicの急成長に一区切り

このリリースは、同社にとって勢いのあるタイミングで到来した。Anthropicの評価額は、新たな資金調達ラウンドを受けて、テック業界でも最大級の規模となり、OpenAIの約9,650億ドルという水準をもclimbedして上回った。投資家の間では、同社が年内にも株式公開を目指すとの見方が広がっている。

また、このリリースは、矢継ぎ早に行われたアップグレードのひと区切りともなった。Opus 4.7は、独自のベンチマーク疑惑の雲が立ち込めるなか、わずか1か月前にユーザーへreachingされたばかりだった。Anthropicはその後、はるかに強力なモデルであるMythosの存在をほのめかしているが、サイバーセキュリティ上の懸念から一般公開は見送っている。

Anthropic、Claude Opus 4.8を発表 自己検出エラーが4倍に

主なポイント:

Anthropic、Opus 4.8の「正直さ」をアピール

Pritchard氏、Opus 4.8の判断力を評価

Opus 4.8でAnthropicの急成長に一区切り

Anthropic、Claude Opus 4.8を発表　自己検出エラーが4倍に