Claude Opus 4.8 übertrifft Gemini und GPT in mehreren Coding-Tests

Anthropic hat Claude Opus 4.8 veröffentlicht und erklärt, dass das überarbeitete Modell OpenAIs GPT-5.5 und Googles Gemini 3.1 Pro in mehreren Coding-Benchmarks übertrifft.

Wichtigste Punkte:

Anthropic brachte Claude Opus 4.8 am 28. Mai auf den Markt und setzte den Preis auf das Niveau der vorherigen Version 4.7.

Das Unternehmen sagt, es übertrifft OpenAIs GPT-5.5 und Googles Gemini 3.1 Pro bei SWE-Bench Pro und anderen Tests.

Ein überarbeiteter Schnellmodus und dynamische Workflows sollen Kosten und Zeit für agentische Arbeit senken.

Claude Opus 4.8 führt Coding-Benchmarks an

Das Unternehmen präsentierte das Modell am Donnerstag und baut damit auf der Version Opus 4.7 auf, die es etwa sechs Wochen zuvor ausgeliefert hatte. Anthropic erklärte, Opus 4.8 habe im SWE-Bench-Pro-Coding-Test 69,2 % erzielt, womit es beide Konkurrenten dort übertreffe und sie auch bei mehreren anderen Messgrößen hinter sich lasse. Zudem meldete das Unternehmen Verbesserungen bei Computerbedienung, Wissensarbeit und Finanzanalyse sowie einen Wert von 74,2 % im Terminal-Bench-2.1-Benchmark.

Anthropic stellte den Release als ehrlicheres Modell dar und erklärte, Tester hätten festgestellt, dass es seine eigene Unsicherheit markiere und auf unbegründete Behauptungen verzichte. Interne Prüfungen bewerten es als etwa viermal weniger anfällig als Opus 4.7, Programmierfehler durchzulassen, und das Unternehmen sagt, es schneide besser beim Respekt vor der Nutzerautonomie ab.

Auch lesen: Cardano Whales Seize 67.5% Of ADA Supply, A Six-Year High

Warum Anthropics Kostenkontrollen wichtig sind

Die Preise blieben bei 5 US-Dollar pro einer Million Eingabetokens und 25 US-Dollar pro einer Million Ausgabetokens stabil. Ein überarbeiteter Schnellmodus läuft nun etwa 150 % schneller und kostet nur ein Drittel des früheren Settings. Anthropic hat außerdem eine Forschungs-Vorschau für dynamische Workflows gestartet, die Hunderte paralleler Subagenten starten, um Migrationen mit Hunderttausenden Codezeilen zu bewältigen.

Dennoch bleiben die Fortschritte inkrementell.

GPT-5.5 führt weiterhin bei einem Terminal-Coding-Test, und Anthropic selbst bezeichnete das Modell als bescheidenen Schritt statt als Durchbruch. Entwickler können nun die Anweisungen für Claude während einer laufenden Aufgabe über die Messages-API anpassen. Käufer, die günstigere KI suchen, könnten diese Ausgabenkontrollen höher gewichten als die geringen Abstände zwischen den Spitzenmodellen.

Anthropics Bewertung und Mythos-Hintergrund

Der Launch fiel auf denselben Tag, an dem Anthropic eine Series-H-Runde über 65 Milliarden US-Dollar bei einer Bewertung von 965 Milliarden US-Dollar bestätigte. Diese Finanzierungsrunde, angeführt von Altimeter Capital, Dragoneer, Greenoaks und Sequoia Capital, brachte das fünf Jahre alte Unternehmen über die berichteten 850 Milliarden US-Dollar von OpenAI hinaus und hob den Jahresumsatz auf fast 47 Milliarden US-Dollar.

Die Bewertung hat sich seit Februar, als sie bei 380 Milliarden US-Dollar lag, nahezu verdreifacht und könnte sich als letzte private Finanzierungsrunde vor einem Börsengang erweisen. Das Unternehmen hat sein leistungsstärkeres Mythos-Modell, das für Cybersicherheitsarbeit entwickelt wurde, bislang aus Sicherheitsgründen nur einer Handvoll Organisationen zugänglich gemacht. Nun rechnet es damit, den Zugang zu Mythos-Klasse-Systemen für alle Kunden in den kommenden Wochen zu erweitern.

Als Nächstes lesen: Cisco Research Shows Frontier AI Models Failing Under Multi-Turn Attacks