Anthropic sagt, dass das neue Claude Opus 4.8 viermal mehr eigene Fehler erkennt

Anthropic released Claude Opus 4.8 am Donnerstag und positioniert das aktualisierte Modell als ehrlicher und weniger anfällig dafür, Fakten zu erfinden als die Vorgängerversion.

Zentrale Punkte:

Anthropic brachte Claude Opus 4.8 am Donnerstag heraus und bezeichnet Ehrlichkeit als seinen auffälligsten Fortschritt.

Das Modell lässt nach Unternehmensangaben etwa viermal seltener Programmierfehler unbemerkt passieren.

Der Fast-Modus läuft jetzt 2,5‑mal schneller und kostet nur noch ein Drittel des früheren Preises.

Anthropic bewirbt die Ehrlichkeit von Opus 4.8

Das Unternehmen unveiled das Modell am Donnerstag und stellte es eher als behutsame Weiterentwicklung von Opus 4.7 denn als komplette Neuerfindung dar, wobei die meisten Benchmark‑Werte nur leicht zulegten. Im SWE‑Bench‑Pro‑Coding‑Test scored es 69,2 %, nach zuvor 64,3 % für die ältere Version und damit vor OpenAIs GPT‑5.5, der 58,6 % erreichte.

Die Ehrlichkeit stand im Mittelpunkt. Anthropic erklärt, KI‑Modelle sprängen oft vorschnell zu Schlussfolgerungen und meldeten Fortschritte auf dünner Beweislage, und frühe Tester hätten festgestellt, dass 4.8 bei langen, unbeaufsichtigten Aufgaben schneller Zweifel eingesteht. Interne Tests indicated demnach, dass das Modell etwa viermal seltener als 4.7 Programmierfehler unkommentiert durchlässt.

Das Upgrade shipped mit neuen Einstellmöglichkeiten, darunter einer Funktion, mit der Nutzer festlegen können, wie viel Aufwand das Modell in eine Aufgabe steckt – jetzt in allen Tarifen verfügbar. Anthropic senkte zudem den Preis des Fast‑Modus, in dem das Modell mit 2,5‑facher Normalgeschwindigkeit läuft, auf ein Drittel der Kosten früherer Modelle.

Auch lesen: Kalshi Wins CFTC Approval For First U.S. Bitcoin Perpetual Futures

Pritchard lobt das Urteilsvermögen von Opus 4.8

Tom Pritchard, Staff Engineer bei Shopify, told Anthropic, die Coding‑Variante zeige deutlich besseres Urteilsvermögen. Er sagte, das Modell „stellt die richtigen Fragen, erkennt eigene Fehler“ und wehrt sich, wenn ein Plan schwach wirkt. Für Teams, die von KI‑Agenten bereits geschädigt wurden, weil diese produktive Live‑Datenbanken gelöscht haben, könnte dieses Versprechen viel bedeuten.

Nicht alle waren überzeugt.

Auf Reddit doubted viele Nutzer die Benchmark‑Grafiken und fassten die Stimmung so zusammen, dass ihnen kaum jemand traue, während andere befürchteten, das ältere Opus 4.6 zu verlieren, das sie für die tägliche Arbeit weiterhin bevorzugen.

Opus 4.8 krönt Anthrophics Aufschwung

Der Start kam in einem Höhenflug für das Labor. Die Bewertung von Anthropic ist nach einer neuen Finanzierungsrunde, die zu den größten der Tech‑Branche zählt, laut climbed über die Marke von fast 965 Milliarden Dollar von OpenAI hinaus gestiegen. Anleger rechnen fest damit, dass das Unternehmen noch in diesem Jahr einen Börsengang anstrebt.

Die Veröffentlichung setzte außerdem den Schlusspunkt unter eine Serie schneller Upgrades: Opus 4.7 reaching die Nutzer erst vor gut einem Monat – begleitet von eigenen Benchmark‑Zweifeln. Inzwischen hat Anthropic Mythos angeteasert, ein deutlich leistungsfähigeres Modell, das aus Cybersicherheitsgründen vorerst nicht öffentlich zugänglich gemacht wird.

Als Nächstes lesen: Dogecoin Reserves Edge Up To 28B As Whale Support Stays Weak