Claude Fable 5 Coding-Absturz zeigt Router-Problem, kein Modelldecay

Claude Fable 5 Coding-Absturz zeigt Router-Problem, kein Modelldecay

Claude Fable 5 kehrte am 1. Juli zurück und stieß auf scharfe Nutzerbeschwerden, doch Benchmark-Daten deuten eher auf einen strengeren Anthropic-Router als auf ein schwächeres Modell hin.

Wichtige Punkte:

  • BridgeBench meldete einen Einbruch der Fable 5-Coding-Scores, nachdem die meisten Debugging-Aufgaben vom Modell weggeroutet wurden.
  • Arena.AI fand überwiegend stabile, blinde menschliche Präferenzwerte mit Zugewinnen bei Dokument- und Experten­texten.
  • Entwickler sind am deutlichsten betroffen, weil Routine-Debugging-Prompts nun den neuen Klassifikator auslösen können.

Fable 5-Routing

Claude Fable 5 ging am 1. Juli nach seiner Wiedereinführung wieder online, und Nutzer auf X beschrieben es schnell als kaputt, generft oder weniger leistungsfähig als zuvor. Die stärksten Argumente für diese Sicht kamen von BridgeMind, das seine BridgeBench-Coding-Suite gegen die reaktivierte Version erneut ausführte.

Die Ergebnisse sahen drastisch aus. Debugging fiel von 86,2 auf 25,9, Refactoring von 73,6 auf 38,4 und die Halluzinations­resistenz von 75,9 auf 61,7.

Diese Zahlen zeigen jedoch keinen klaren Zusammenbruch auf Modellebene, denn BridgeBench erklärte, dass nur drei von zwölf TypeScript-Debugging-Aufgaben tatsächlich Fable 5 erreichten. Die anderen neun wurden von Anthropics neuem Sicherheits­klassifikator abgefangen und an Claude Opus 4.8 weitergeleitet; jeder dieser Fallbacks wurde mit null bewertet, weil das zu testende Modell nicht antwortete.

Auch lesen: Strategys 491 BTC-Mysterium belebt Debatte über Saylors Verkaufsstrategie

Anthropic-Klassifikator

Arena.AI kam zu einem anderen Schluss, weil dort blinde menschliche Präferenzen über eine breitere Mischung von Prompts gemessen wurden, darunter Text-, Vision-, Dokument-, Code- und Agentenaufgaben. Die frühen Daten zeigten, dass Fable 5 im Vergleich zur Juni-Version weitgehend stabil blieb.

Frontend-Code sank von 1650 auf 1623 Elo, was laut Arena weiterhin innerhalb des Konfidenz­intervalls lag, während weitere Stimmen hinzukamen. Die Dokument­leistung stieg um 34 Punkte, Experten­texte legten um 25 Punkte zu und kreatives Schreiben verbesserte sich um 9 Punkte.

Die Aufspaltung legt nahe, dass Fable 5 sich weiterhin wie Fable 5 verhält, wenn Prompts es tatsächlich erreichen. Das Problem ist, dass sicherheitsnahe Coding-Arbeiten abgefangen werden können, bevor das Modell antwortet – insbesondere, wenn Prompts Begriffe wie Vulnerability, Exploit, Hook oder Fix enthalten.

Anthropic hat eingeräumt, dass die neuen Klassifikatoren bei normaler Coding- und Debugging-Arbeit Fehlalarme erzeugen werden. Das Unternehmen erklärte, man werde das System im Lauf der Zeit verfeinern, nannte aber kein Zieldatum.

Das aktuelle Setup folgt auf einen größeren Safety-Konflikt, nachdem Amazon-Forscher einen Jailbreak meldeten, der Fable 5 dazu brachte, Software­schwachstellen zu identifizieren und zu demonstrieren. Anthropics Antwort war ein konservativer Klassifikator, der nun offenbar mehr blockiert als nur die gefährlichen Prompts, für die er entwickelt wurde.

Als Nächstes lesen: Trump sagt, er wusste nichts von 1,4 Mrd. $ Krypto-Einnahmen

Haftungsausschluss und Risikowarnung: Die in diesem Artikel bereitgestellten Informationen dienen nur Bildungs- und Informationszwecken und basieren auf der Meinung des Autors. Sie stellen keine Finanz-, Anlage-, Rechts- oder Steuerberatung dar. Kryptowährungsassets sind hochvolatil und unterliegen hohen Risiken, einschließlich des Risikos, Ihre gesamte oder einen erheblichen Teil Ihrer Investition zu verlieren. Der Handel oder das Halten von Krypto-Assets ist möglicherweise nicht für alle Anleger geeignet. Die in diesem Artikel geäußerten Ansichten sind ausschließlich die des Autors/der Autoren und repräsentieren nicht die offizielle Politik oder Position von Yellow, seinen Gründern oder seinen Führungskräften. Führen Sie immer Ihre eigenen gründlichen Recherchen (D.Y.O.R.) durch und konsultieren Sie einen lizenzierten Finanzprofi, bevor Sie eine Anlageentscheidung treffen.