GPT-5.6 Sol vs. Claude Fable 5: Coding-Benchmarks zeigen ein geteiltes Rennen

GPT-5.6 Sol vs. Claude Fable 5: Coding-Benchmarks zeigen ein geteiltes Rennen

Frische Kopf-an-Kopf-Reviews stellen OpenAIs GPT-5.6 Sol, Inhaber einer 88,8-%-Wertung auf einem führenden Coding-Benchmark, gegen Anthropics Claude Fable 5 mit seiner 80,3-%-Bewertung in Software Engineering.

Zentrale Punkte:

  • GPT-5.6 Sol führt Terminal-Bench 2.1 mit 88,8 % an, und sein Ultra-Modus treibt die Punktzahl auf 91,9 %.
  • Claude Fable 5 hält mit 80,3 % die breiteste veröffentlichte Führung auf SWE-Bench Pro, gegenüber 58,6 % für GPT-5.5.
  • Sol bleibt in einer begrenzten, staatlich genehmigten Vorschau, während Fable 5 seit dem 1. Juli wieder weltweit verfügbar ist.

Benchmark-Ansprüche von GPT-5.6 Sol

OpenAI hat am 26. Juni die GPT-5.6-Familie angekündigt, die erste Veröffentlichung seit GPT-5.5 im April, und die Reihe in drei Stufen aufgeteilt, mit Sol als Flaggschiff.

Das Unternehmen sagt, Sol erreiche 88,8 % auf Terminal-Bench 2.1, einem Test für Kommandozeilen-Coding-Agenten, die planen, iterieren und Tools koordinieren. Ein rechenintensiver Ultra-Modus, der koordinierte Subagenten startet, um komplexe Aufgaben zu beschleunigen, dehnt diese Zahl auf 91,9 % aus – die höchste veröffentlichte Marke in der Terminal-Bench-Tabelle.

Reviewer, die die veröffentlichten Diagramme verglichen haben, sehen Fable 5 auf demselben Terminal-Test einige Punkte hinter Sol, auch wenn die genannten Werte zwischen 83,4 % und 84,3 % schwanken. In der ExploitBench-Sicherheits-Suite soll Sol eine Leistung auf Mythos-Niveau erreichen und dabei ungefähr ein Drittel der Output-Tokens verbrauchen – eine Kostendämpfung, die in langen Agentenläufen ins Gewicht fällt.

Fast niemand außerhalb der Vorschau kann diese Zahlen bislang unabhängig verifizieren – ein Vorbehalt, den mehrere Reviewer betonen, während sie die Rohwerte dennoch anerkennen.

Auch lesen: OpenAI und Anthropic wollen SpaceX-große IPOs, aber Wall Street könnte ersticken

Fable 5: Coding-Führung und Preise

Fable 5 hält weiterhin den Benchmark, den die meisten Reviewer als entscheidend für autonome Softwarearbeit ansehen – und sein Vorsprung dort ist nicht klein. Es erreicht 80,3 % auf SWE-Bench Pro, der End-to-End-Fixes realer GitHub-Issues misst, gegenüber 58,6 % für das ältere GPT-5.5; OpenAI hat für GPT-5.6 dort keine Zahl veröffentlicht.

Analysten, die in Coding-, Reasoning- und Wissens-Tests Lücken dieser Größenordnung festgestellt haben, bezweifeln, dass ein einzelnes inkrementelles Release sie vollständig schließen kann.

Beim Preis kippt das Bild in die andere Richtung: Sol soll mit 5 US-Dollar pro Million Input-Tokens und 30 US-Dollar für Output gelistet sein, also zur Hälfte von Fable 5 mit 10 und 50 US-Dollar. Mehrere Reviewer haben argumentiert, dass ein sinnvolles Setup terminalgesteuerte Agenten zu Sol routet, sobald es allgemein verfügbar ist, und Repository-weite Fixes zu Fable 5.

Beim Zugang verläuft die schärfste Linie: Sol bleibt in einer begrenzten Vorschau für rund 20 staatlich geprüfte Partner, während Fable 5 seit dem 1. Juli weltweit zurück ist – mit einem vorübergehenden Nutzungbonus für zahlende Abonnenten bis zum 7. Juli.

Der Juni hat den Zugang zu Frontier-Modellen für beide Labore zu einem beweglichen Ziel gemacht, und dieses Hin und Her bildet den Hintergrund jeder Review. Washington zwang Fable 5 und seinen leistungsstärkeren Geschwister-Stack Mythos 5 offline am 12. Juni, unter Verweis auf ernsthafte Cybersicherheitsrisiken, nachdem Amazon-Forscher einen Jailbreak entdeckt hatten, der Exploit-Code erzeugte. Handelsminister Howard Lutnick bestätigte die Aufhebung am 30. Juni nach einer zweiwöchigen Prüfung – wenige Tage, nachdem Mythos 5 leise für rund 100 geprüfte US-Organisationen zurückgekehrt war.

Als Nächstes lesen: Warum bleibt ETH schwach, während Ethereum-Staking Rekordhöhen erreicht?

Haftungsausschluss und Risikowarnung: Die in diesem Artikel bereitgestellten Informationen dienen nur Bildungs- und Informationszwecken und basieren auf der Meinung des Autors. Sie stellen keine Finanz-, Anlage-, Rechts- oder Steuerberatung dar. Kryptowährungsassets sind hochvolatil und unterliegen hohen Risiken, einschließlich des Risikos, Ihre gesamte oder einen erheblichen Teil Ihrer Investition zu verlieren. Der Handel oder das Halten von Krypto-Assets ist möglicherweise nicht für alle Anleger geeignet. Die in diesem Artikel geäußerten Ansichten sind ausschließlich die des Autors/der Autoren und repräsentieren nicht die offizielle Politik oder Position von Yellow, seinen Gründern oder seinen Führungskräften. Führen Sie immer Ihre eigenen gründlichen Recherchen (D.Y.O.R.) durch und konsultieren Sie einen lizenzierten Finanzprofi, bevor Sie eine Anlageentscheidung treffen.
Neueste Nachrichten
Alle Nachrichten anzeigen