Anthropic released Claude Opus 4.8 を木曜日に公開し、アップグレード版モデルは、置き換えられる従来版よりも「より正直で、事実をでっち上げにくい」モデルだと位置づけた。
主なポイント:
- Anthropic は木曜日に Claude Opus 4.8 をリリースし、「誠実さ」を最大の進歩点として強調した。
- 同社によると、このモデルはコードの欠陥を見逃す可能性が従来の約4分の1になった。
- 高速モードは従来比2.5倍の速度で動作し、コストは3分の1になった。
Anthropic、Opus 4.8 の「誠実さ」を強調
同社は木曜日にこのモデルを発表し、大幅な作り直しではなく Opus 4.7 の着実な改良版と位置づけた。多くのベンチマークスコアはわずかに向上するにとどまっている。SWE-Bench Pro コーディングテストでは スコア が 64.3% から 69.2% に上昇し、OpenAI の GPT-5.5(58.6%)を上回った。
注目を集めたのは「誠実さ」だ。Anthropic は、AI モデルはしばしば証拠が乏しいにもかかわらず結論を急ぎがちだとし、初期テスターは 4.8 が長時間の無人タスク中に疑念を口にするのが速くなったと報告している。同社のテストでは、示されたように、このモデルは 4.7 と比べてコードの欠陥を見逃す可能性が約4分の1になっている。
今回のアップグレードでは、新たなコントロールも提供され、ユーザーがタスクに対してモデルにどれだけ「力を入れて」考えさせるかを調整できる設定が、すべてのプランで利用可能になった。さらに Anthropic は、高速モード(通常の 2.5 倍の速度で動作)の価格を、従来モデルの 3 分の 1 に引き下げた。
Also Read: Kalshi Wins CFTC Approval For First U.S. Bitcoin Perpetual Futures
Pritchard が評価する Opus 4.8 の判断力
Shopify のスタッフエンジニアである Tom Pritchard は、コーディング向けバージョンは判断力が大きく向上したと 語った。彼によれば、このモデルは「適切な質問を行い、自分のミスを見つけ」、計画が弱いときには異議を唱えるという。ライブの本番データベースを誤って消してしまう AI エージェントに痛い目を見たチームにとっては、こうした約束は大きな意味を持つかもしれない。
もっとも、全員が納得しているわけではない。
Reddit では、多くのユーザーがベンチマークチャートに疑念を示し、誰も信用していないという空気をまとめていた。一方で、日常業務には依然として好んで使っている旧版の Opus 4.6 を失うことを恐れる声もあった。
Anthropic の急成長を象徴する Opus 4.8
このローンチは、同社にとって勢いのあるタイミングで訪れた。Anthropic の評価額は、最新ラウンドを受けて OpenAI の約 9,650 億ドルという水準を上回るまでに上昇し、テック業界でも最大級の資金調達の一つとなった。投資家の間では、同社が年内にも株式公開を目指すとの見方が広く出ている。
このリリースはまた、矢継ぎ早に行われたアップグレードの締めくくりでもある。Opus 4.7 は、独自のベンチマーク不信の「雲」に包まれたまま、わずか1か月前にユーザーに提供されたばかりだった。Anthropic はその後、はるかに強力なモデル Mythos を予告しているが、サイバーセキュリティ上の懸念から一般公開は見送っている。
Read Next: Dogecoin Reserves Edge Up To 28B As Whale Support Stays Weak





