Claude Opus 4.8 führt den Intelligence Index an, doch Mythos dominiert beim Hacken

Anthropic released its newest model, Claude Opus 4.8, diese Woche mit einem knappen Vorsprung in einem Intelligenz-Benchmark, liegt jedoch hinter dem eingeschränkten Mythos-System des Unternehmens, wenn es um das Schreiben von Software-Exploits geht.

Kernpunkte:

Claude Opus 4.8 führt knapp den Artificial Analysis Intelligence Index mit 61,4 an, knapp vor GPT-5.5 mit 60,2.

In internen Tests von Anthropic erzeugte Mythos funktionierende Firefox-Exploits bei 70,8 % der Ziele, gegenüber 8,8 % bei Opus 4.8.

Mythos bleibt auf geprüfte Project-Glasswing-Partner beschränkt, während Opus 4.8 zum gleichen Preis wie sein Vorgänger ausgeliefert wird.

Benchmark-Vorsprung von Opus 4.8

Das Unternehmen rollte Opus 4.8 diese Woche aus und priced es mit 5 US-Dollar pro Million Eingabetokens und 25 US-Dollar pro Million Ausgabetokens, womit der Tarif auf dem Niveau des vorherigen Opus 4.7 gehalten wird.

Unabhängige Tester report, dass das Modell nun den Artificial Analysis Intelligence Index mit 61,4 anführt, einem Aggregat aus zehn Bewertungen, knapp vor GPT-5.5 mit 60,2. Anthropic stellt das Upgrade als einen bescheidenen, inkrementellen Schritt dar, nicht als den Generationssprung, den der Name vermuten lassen könnte.

Beim agentischen Codieren scores Opus 4.8 69,2 % auf SWE-bench Pro, einem Benchmark, bei dem ein Modell reale Fehler in großen Code-Repositories beheben soll, während GPT-5.5 58,6 % erreicht.

Bei Fragen auf Niveau eines Graduiertenstudiums in den Naturwissenschaften liegen beide Systeme nahezu gleichauf, beide bei knapp 94 %, und Opus 4.8 führt knapp in einer breit angelegten Reasoning-Prüfung, bei der seine Vorgänger zurücklagen.

Mythos liegt bei der schwierigsten Ingenieurarbeit über beiden, mit 77,8 % in demselben Coding-Benchmark und einem größeren Vorsprung bei Aufgaben, die Code mit Screenshots kombinieren. Anthropic restricts Mythos to a vetted set of partners im Rahmen seines Project-Glasswing-Programms, anstatt es offen zu verkaufen. Für die Vorschau charges das Unternehmen 25 und 125 US-Dollar pro Million Tokens, also das Fünffache des Opus-Tarifs.

Auch lesen: Zcash Cools After A 6% Drop While Monero Steals The Spotlight

Cyber-Dominanz von Mythos

Die größte Lücke zeigt sich in der offensiven Sicherheit.

Mit deaktivierten Schutzmechanismen produced Mythos in 70,8 % der Firefox-Ziele einen vollständig funktionierenden Exploit in Anthropics eigenen Bewertungen, während Opus 4.8 nur auf 8,8 % kam.

In einem separaten Test mit Open-Source-Code erzielte Opus 4.8 bei 61,5 % der Ziele keinen Treffer, mehr als doppelt so viel wie die Ausfallrate von 23,3 %, die Mythos verzeichnete.

Ein öffentlicher Cross-Model-Versuch, durchgeführt vom Berkeley RDI, koppelte jedes System mit seinem eigenen Coding-Agenten über 898 reale Schwachstellen, wobei Mythos 157 funktionierende Exploits schrieb, gegenüber 120 bei GPT-5.5.

GPT-5.5 behielt dennoch einen Vorsprung bei Kernel-Exploitation und lag in diesem engen Segment mit 22 zu 12 vor Mythos. Das UK AI Security Institute sah GPT-5.5 bei Expertenaufgaben in der Cybersicherheit mit 71,4 % leicht vor Mythos mit 68,6 %.

Anthropic stellte Mythos im April vor, nachdem das Modell found thousands of previously unknown flaws in großen Betriebssystemen und in allen führenden Webbrowsern entdeckt hatte, mit Hunderten allein in Firefox. Das Unternehmen hielt es anschließend von einer öffentlichen Veröffentlichung zurück, aus Sorge, dass dieselben Fähigkeiten zum Schreiben von Exploits Angreifern ebenso helfen könnten wie den Verteidigern, für die es entwickelt wurde.

Als Nächstes lesen: Strategy Pulls $30M In Bitcoin Back, Cooling Sell-Off Fears