Anthropic、Claude Opus 4.8を発表 自己検出エラーが4倍に

Anthropic、Claude Opus 4.8を発表 自己検出エラーが4倍に

Anthropic released Claude Opus 4.8 on Thursday, pitching the upgraded model as more honest and less prone to inventing facts than the version it replaces.

主なポイント:

  • Anthropicは木曜日にClaude Opus 4.8をリリースし、「正直さ」を最大の向上点として強調した。
  • 同社によると、このモデルはコードの欠陥を見逃す可能性が従来よりおよそ4分の1になった。
  • 高速モードは従来比2.5倍の速度で動作し、コストは3分の1になった。

Anthropic、Opus 4.8の「正直さ」をアピール

同社は木曜日にこのモデルをunveiledし、大幅な刷新というよりOpus 4.7からの着実なビルドアップだと位置づけ、多くのベンチマークスコアはわずかに向上した程度だと説明した。SWE-Bench Proのコーディングテストでは、前バージョンの64.3%から69.2%へとscoredが向上し、58.6%にとどまったOpenAIのGPT-5.5を上回った。

注目を集めたのは「正直さ」だ。Anthropicによると、AIモデルはしばしば証拠が乏しいのに結論を急ぎ、進捗があるかのように主張してしまうが、初期テスターは4.8について、長時間の自律タスク中に疑念を認めるスピードが速くなったと報告した。同社のテストでは、このモデルは4.7に比べて、コードの欠陥を見逃して指摘しない可能性が約4分の1になったことがindicatedという。

このアップグレードでは、ユーザーがタスクに対してモデルにどれだけ「頑張らせる」かを調整できる設定など、新しいコントロールもshippedされ、すべてのプランで利用可能になった。さらに、高速モードの価格も引き下げられ、通常の2.5倍の速度で動作しながら、従来モデルの3分の1の料金で利用できるようになった。

Also Read: Kalshi Wins CFTC Approval For First U.S. Bitcoin Perpetual Futures

Pritchard氏、Opus 4.8の判断力を評価

ShopifyのスタッフエンジニアであるTom Pritchard氏は、コーディング版モデルは判断力が大幅に向上したとAnthropicにtoldしている。同氏によれば、このモデルは「適切な質問を投げかけ、自分のミスを見つけ出し」、計画が弱く見えるときには反論してくるという。ライブの本番データベースを消してしまうようなAIエージェントに痛い目を見せられてきたチームにとっては、そうした特性は大きな意味を持つだろう。

しかし、すべての人が納得しているわけではない。

Redditでは、多くのユーザーがベンチマークチャートに疑問を呈し、全体的な空気としては「誰も信じていない」という調子だった。一方で、日常の作業では依然としてOpus 4.6を好んでおり、それを失うことを恐れる声も上がっている。

Opus 4.8でAnthropicの急成長に一区切り

このリリースは、同社にとって勢いのあるタイミングで到来した。Anthropicの評価額は、新たな資金調達ラウンドを受けて、テック業界でも最大級の規模となり、OpenAIの約9,650億ドルという水準をもclimbedして上回った。投資家の間では、同社が年内にも株式公開を目指すとの見方が広がっている。

また、このリリースは、矢継ぎ早に行われたアップグレードのひと区切りともなった。Opus 4.7は、独自のベンチマーク疑惑の雲が立ち込めるなか、わずか1か月前にユーザーへreachingされたばかりだった。Anthropicはその後、はるかに強力なモデルであるMythosの存在をほのめかしているが、サイバーセキュリティ上の懸念から一般公開は見送っている。

Read Next: Dogecoin Reserves Edge Up To 28B As Whale Support Stays Weak

免責事項とリスク警告: この記事で提供される情報は教育および情報提供のみを目的としており、著者の意見に基づいています。金融、投資、法的、または税務上のアドバイスを構成するものではありません。 暗号資産は非常に変動性が高く、投資の全部または相当な部分を失うリスクを含む高いリスクにさらされています。暗号資産の取引または保有は、すべての投資家に適しているとは限りません。 この記事で表明された見解は著者のものであり、Yellow、その創設者、または役員の公式な方針や立場を表すものではありません。 投資決定を行う前に、常にご自身で十分な調査(D.Y.O.R.)を行い、ライセンスを持つ金融専門家にご相談ください。
Anthropic、Claude Opus 4.8を発表 自己検出エラーが4倍に | Yellow.com