Anthropic sagt, dass das neue Claude Opus 4.8 viermal mehr eigene Fehler erkennt

Anthropic sagt, dass das neue Claude Opus 4.8 viermal mehr eigene Fehler erkennt

Anthropic hat am Donnerstag Claude Opus 4.8 veröffentlicht und das neue Modell als ehrlicher und weniger anfällig für erfundene Fakten als die Vorgängerversion positioniert.

Wichtige Punkte:

  • Anthropic hat Claude Opus 4.8 am Donnerstag ausgeliefert und hebt Ehrlichkeit als größten Fortschritt hervor.
  • Das Modell lässt laut Unternehmen etwa viermal seltener Codefehler unbemerkt passieren.
  • Der Schnellmodus läuft jetzt 2,5‑mal schneller und kostet nur noch ein Drittel des bisherigen Preises.

Anthropic bewirbt die Ehrlichkeit von Opus 4.8

Das Unternehmen hat das Modell am Donnerstag vorgestellt und als behutsame Weiterentwicklung von Opus 4.7 statt als komplette Neuerfindung beschrieben, wobei die meisten Benchmark‑Werte nur leicht zulegten. Im Coding‑Test SWE‑Bench Pro erreichte es 69,2 %, gegenüber 64,3 % der Vorgängerversion und vor OpenAIs GPT‑5.5, der auf 58,6 % kam.

Die Ehrlichkeit stand im Mittelpunkt. Anthropic erklärt, dass KI‑Modelle häufig vorschnelle Schlüsse ziehen und auf dünner Beweislage Fortschritte behaupten, und dass frühe Tester 4.8 als schneller darin erlebten, bei langen, unbeaufsichtigten Aufgaben Zweifel einzugestehen. Interne Tests zeigten, dass das Modell etwa viermal seltener als 4.7 Codierfehler unkommentiert durchlässt.

Das Upgrade wurde ausgeliefert mit neuen Steuerungsmöglichkeiten, darunter eine Einstellung, mit der Nutzer festlegen können, wie intensiv das Modell an einer Aufgabe arbeiten soll – nun in allen Tarifen verfügbar. Außerdem senkte Anthropic den Preis des Schnellmodus, in dem das Modell mit dem 2,5‑fachen der normalen Geschwindigkeit läuft, auf ein Drittel der Kosten früherer Modelle.

Auch lesenswert: Kalshi Wins CFTC Approval For First U.S. Bitcoin Perpetual Futures

Pritchard lobt das Urteilsvermögen von Opus 4.8

Tom Pritchard, Staff Engineer bei Shopify, berichtete Anthropic, dass die Coding‑Variante ein deutlich besseres Urteilsvermögen zeige. Er sagte, das Modell „stellt die richtigen Fragen, findet eigene Fehler“ und widerspricht, wenn ein Plan schwach wirkt. Für Teams, die von KI‑Agenten enttäuscht wurden, die produktive Live‑Datenbanken gelöscht haben, könnte dieses Versprechen erhebliches Gewicht haben.

Nicht alle waren überzeugt.

Auf Reddit zweifelten viele Nutzer die Benchmark‑Grafiken an und fassten die Stimmung so zusammen, dass ihnen kaum jemand traue, während andere befürchteten, das ältere Opus 4.6 zu verlieren, das sie weiterhin für die tägliche Arbeit bevorzugten.

Opus 4.8 krönt Anthropics Aufschwung

Der Start kam in einem Höhenflug für das Labor. Die Bewertung von Anthropic ist nach einer neuen Finanzierungsrunde, eine der größten in der Tech‑Branche, gestiegen und hat die Marke von fast 965 Milliarden US‑Dollar von OpenAI überschritten. Investoren rechnen weithin damit, dass das Unternehmen später in diesem Jahr einen Börsengang anstrebt.

Die Veröffentlichung markierte auch den vorläufigen Höhepunkt einer raschen Serie von Upgrades: Opus 4.7 war erst einen knappen Monat zuvor zu den Nutzern gelangt – begleitet von eigenen Benchmark‑Zweifeln. Inzwischen hat Anthropic Mythos angeteasert, ein deutlich leistungsstärkeres Modell, das wegen Cybersicherheitsbedenken vorerst nicht öffentlich zugänglich ist.

Als Nächstes lesen: Dogecoin Reserves Edge Up To 28B As Whale Support Stays Weak

Haftungsausschluss und Risikowarnung: Die in diesem Artikel bereitgestellten Informationen dienen nur Bildungs- und Informationszwecken und basieren auf der Meinung des Autors. Sie stellen keine Finanz-, Anlage-, Rechts- oder Steuerberatung dar. Kryptowährungsassets sind hochvolatil und unterliegen hohen Risiken, einschließlich des Risikos, Ihre gesamte oder einen erheblichen Teil Ihrer Investition zu verlieren. Der Handel oder das Halten von Krypto-Assets ist möglicherweise nicht für alle Anleger geeignet. Die in diesem Artikel geäußerten Ansichten sind ausschließlich die des Autors/der Autoren und repräsentieren nicht die offizielle Politik oder Position von Yellow, seinen Gründern oder seinen Führungskräften. Führen Sie immer Ihre eigenen gründlichen Recherchen (D.Y.O.R.) durch und konsultieren Sie einen lizenzierten Finanzprofi, bevor Sie eine Anlageentscheidung treffen.
Neueste Nachrichten
Alle Nachrichten anzeigen
Anthropic sagt, dass das neue Claude Opus 4.8 viermal mehr eigene Fehler erkennt | Yellow.com