Anthropic hat in dieser Woche sein neuestes Modell, Claude Opus 4.8, veröffentlicht, das in einem Intelligenz-Benchmark knapp führt, aber hinter dem eingeschränkten Mythos-System zurückliegt, wenn es um das Schreiben von Software-Exploits geht.
Zentrale Punkte:
- Claude Opus 4.8 liegt mit 61,4 knapp an der Spitze des Artificial Analysis Intelligence Index, direkt vor GPT-5.5 mit 60,2.
- In den internen Tests von Anthropic erzeugte Mythos funktionsfähige Firefox-Exploits bei 70,8 % der Ziele, gegenüber 8,8 % bei Opus 4.8.
- Mythos bleibt auf geprüfte Projekt-Glasswing-Partner beschränkt, während Opus 4.8 zum gleichen Preis wie sein Vorgänger angeboten wird.
Opus 4.8 führt bei Benchmarks
Das Unternehmen hat Opus 4.8 in dieser Woche eingeführt und den Preis auf 5 US‑Dollar pro Million Eingabetoken und 25 US‑Dollar pro Million Ausgabetoken festgelegt, womit der Tarif auf dem Niveau des vorherigen Opus 4.7 bleibt.
Unabhängige Tester berichten, dass das Modell nun mit 61,4 Punkten den Artificial Analysis Intelligence Index anführt – einem Aggregat aus zehn Bewertungen – knapp vor GPT-5.5 mit 60,2. Anthropic beschreibt das Upgrade als einen bescheidenen, inkrementellen Schritt, nicht als den generationssprengenden Sprung, den der Name vermuten lassen könnte.
Beim agentischen Coden erzielt Opus 4.8 einen Wert von 69,2 % auf SWE-bench Pro, einem Benchmark, bei dem ein Modell reale Fehler in großen Code-Repositories beheben soll, während GPT-5.5 auf 58,6 % kommt.
Bei Fragen auf Hochschulniveau in den Naturwissenschaften liegen die beiden Systeme nahezu gleichauf und erreichen beide fast 94 %, und Opus 4.8 führt knapp in einer breit angelegten Logikprüfung, bei der seine Vorgänger zurücklagen.
Mythos liegt bei den schwierigsten ingenieurtechnischen Aufgaben über beiden, mit 77,8 % beim gleichen Coding-Benchmark und einem größeren Vorsprung bei Aufgaben, die Code mit Screenshots kombinieren. Anthropic beschränkt Mythos auf einen geprüften Kreis von Partnern im Rahmen des Project-Glasswing-Programms, anstatt es offen zu verkaufen. Für die Vorschau verlangt das Unternehmen 25 bzw. 125 US‑Dollar pro Million Token – das Fünffache des Opus-Tarifs.
Außerdem lesenswert: Zcash kühlt nach einem Rückgang von 6 % ab, während Monero das Rampenlicht stiehlt
Mythos dominiert im Cyberbereich
Die größte Lücke zeigt sich in der offensiven Sicherheit.
Mit deaktivierten Schutzmechanismen erzeugte Mythos in Anthropics eigenen Bewertungen bei 70,8 % der Firefox-Ziele einen vollständig funktionsfähigen Exploit, während Opus 4.8 nur auf 8,8 % kam.
In einem separaten Test mit Open-Source-Code gelang es Opus 4.8 bei 61,5 % der Ziele nicht, einen Treffer zu landen – mehr als doppelt so viel wie die Ausfallrate von 23,3 % bei Mythos.
In einem öffentlichen Vergleichslauf über mehrere Modelle, den Berkeley RDI durchführte, wurde jedes System mit einem eigenen Coding-Agenten über 898 reale Schwachstellen hinweg gekoppelt; dabei schrieb Mythos 157 funktionsfähige Exploits, gegenüber 120 bei GPT-5.5.
GPT-5.5 behielt jedoch bei Kernel-Exploits einen Vorsprung und lag in diesem engen Bereich mit 22 zu 12 vor Mythos. Das UK AI Security Institute sah GPT-5.5 bei anspruchsvollen Cyberaufgaben mit 71,4 % leicht vor Mythos mit 68,6 %.
Anthropic stellte Mythos im April vor, nachdem das Modell tausende zuvor unbekannte Schwachstellen in großen Betriebssystemen und allen führenden Webbrowsern entdeckt hatte, darunter Hunderte allein in Firefox. Das Unternehmen entschied sich anschließend dagegen, das Modell öffentlich freizugeben, aus Sorge, dass dieselben Fähigkeiten zum Schreiben von Exploits Angreifern ebenso nützen könnten wie den Verteidigern, zu deren Unterstützung es entwickelt wurde.
Als Nächstes lesen: Strategy holt 30 Mio. US‑Dollar in Bitcoin zurück und dämpft die Angst vor einer Verkaufswelle





