Claude Opus 4.7 の公開が迫る一方で Anthropic 最強の AI は依然として一般非公開

Anthropic は、ウェブサイトやプレゼンテーションを構築するための AI 駆動デザインツールと Claude Opus 4.7 の公開を準備しており、この動きは月曜日に Adobe、Wix、Figma の株価を揺るがした。

Opus 4.7 のローンチ詳細

The Information は 4 月 14 日に reported し、計画に詳しい人物の話として、両プロダクトは早ければ今週中にも出荷される可能性があると伝えた。このデザインツールは自然な英語のプロンプトを受け付け、開発者だけでなく非技術系ユーザーも対象としている。

この動きにより、Anthropic は puts Gamma や Google の Stitch といったスタートアップと直接競合することになる。

なお、Opus 4.7 は Anthropic にとってもっとも高度なモデルというわけではない。

その称号は、企業が Project Glasswing を通じて一部のセキュリティ企業にのみ提供しているサイバーセキュリティ特化システム Claude Mythos, a cybersecurity-focused system に属しており、一般ユーザーからは遠ざけられている。

Also Read: World Liberty Financial Demands Insiders Burn 10% Of Their WLFI Or Stay Locked

AI ベンチマーク危機と Mythos

OpenAI は最近、最先端のコーディングベンチマークである SWE-bench Verified について、フロンティアモデルが学習時に解答を丸暗記していたことが判明したとして「汚染されている」と宣言した。それにもかかわらず、各研究所は依然としてモデル比較に同じテストを引用し続けている。

別の ARC-AGI-3 評価では、AI システムと人間の推論力とのギャップが浮き彫りになった。 Gemini は 0.37%、GPT-5.4 は 0.26% だったのに対し、人間は 100% を達成した。 Anthropic から詳細なモデルカードがないため、 Opus 4.7 の性能向上に関する主張を第三者が検証するのは依然として難しい。

英国の AI Security Institute は最近 evaluated Mythos Preview を評価し、他のどのモデルよりも高い頻度で自律的に高度なサイバー攻撃を実行できることを明らかにした。 Mythos は、人間のレッドチームが通常 20 時間かけて行う 32 段階の企業ネットワーク攻撃シミュレーション「The Last Ones」を完遂した初の AI となった。