GPT-5.6 Sol vs. Claude Fable 5: Coding-Benchmarks zeigen ein geteiltes Rennen

Frische Kopf-an-Kopf-Reviews stellen OpenAIs GPT-5.6 Sol, Inhaber einer 88,8-%-Wertung auf einem führenden Coding-Benchmark, gegen Anthropics Claude Fable 5 mit seiner 80,3-%-Bewertung in Software Engineering.

Zentrale Punkte:

GPT-5.6 Sol führt Terminal-Bench 2.1 mit 88,8 % an, und sein Ultra-Modus treibt die Punktzahl auf 91,9 %.

Claude Fable 5 hält mit 80,3 % die breiteste veröffentlichte Führung auf SWE-Bench Pro, gegenüber 58,6 % für GPT-5.5.

Sol bleibt in einer begrenzten, staatlich genehmigten Vorschau, während Fable 5 seit dem 1. Juli wieder weltweit verfügbar ist.

Benchmark-Ansprüche von GPT-5.6 Sol

OpenAI hat am 26. Juni die GPT-5.6-Familie angekündigt, die erste Veröffentlichung seit GPT-5.5 im April, und die Reihe in drei Stufen aufgeteilt, mit Sol als Flaggschiff.

Das Unternehmen sagt, Sol erreiche 88,8 % auf Terminal-Bench 2.1, einem Test für Kommandozeilen-Coding-Agenten, die planen, iterieren und Tools koordinieren. Ein rechenintensiver Ultra-Modus, der koordinierte Subagenten startet, um komplexe Aufgaben zu beschleunigen, dehnt diese Zahl auf 91,9 % aus – die höchste veröffentlichte Marke in der Terminal-Bench-Tabelle.

Reviewer, die die veröffentlichten Diagramme verglichen haben, sehen Fable 5 auf demselben Terminal-Test einige Punkte hinter Sol, auch wenn die genannten Werte zwischen 83,4 % und 84,3 % schwanken. In der ExploitBench-Sicherheits-Suite soll Sol eine Leistung auf Mythos-Niveau erreichen und dabei ungefähr ein Drittel der Output-Tokens verbrauchen – eine Kostendämpfung, die in langen Agentenläufen ins Gewicht fällt.

Fast niemand außerhalb der Vorschau kann diese Zahlen bislang unabhängig verifizieren – ein Vorbehalt, den mehrere Reviewer betonen, während sie die Rohwerte dennoch anerkennen.

Auch lesen: OpenAI und Anthropic wollen SpaceX-große IPOs, aber Wall Street könnte ersticken

Fable 5: Coding-Führung und Preise

Fable 5 hält weiterhin den Benchmark, den die meisten Reviewer als entscheidend für autonome Softwarearbeit ansehen – und sein Vorsprung dort ist nicht klein. Es erreicht 80,3 % auf SWE-Bench Pro, der End-to-End-Fixes realer GitHub-Issues misst, gegenüber 58,6 % für das ältere GPT-5.5; OpenAI hat für GPT-5.6 dort keine Zahl veröffentlicht.

Analysten, die in Coding-, Reasoning- und Wissens-Tests Lücken dieser Größenordnung festgestellt haben, bezweifeln, dass ein einzelnes inkrementelles Release sie vollständig schließen kann.

Beim Preis kippt das Bild in die andere Richtung: Sol soll mit 5 US-Dollar pro Million Input-Tokens und 30 US-Dollar für Output gelistet sein, also zur Hälfte von Fable 5 mit 10 und 50 US-Dollar. Mehrere Reviewer haben argumentiert, dass ein sinnvolles Setup terminalgesteuerte Agenten zu Sol routet, sobald es allgemein verfügbar ist, und Repository-weite Fixes zu Fable 5.

Beim Zugang verläuft die schärfste Linie: Sol bleibt in einer begrenzten Vorschau für rund 20 staatlich geprüfte Partner, während Fable 5 seit dem 1. Juli weltweit zurück ist – mit einem vorübergehenden Nutzungbonus für zahlende Abonnenten bis zum 7. Juli.

Der Juni hat den Zugang zu Frontier-Modellen für beide Labore zu einem beweglichen Ziel gemacht, und dieses Hin und Her bildet den Hintergrund jeder Review. Washington zwang Fable 5 und seinen leistungsstärkeren Geschwister-Stack Mythos 5 offline am 12. Juni, unter Verweis auf ernsthafte Cybersicherheitsrisiken, nachdem Amazon-Forscher einen Jailbreak entdeckt hatten, der Exploit-Code erzeugte. Handelsminister Howard Lutnick bestätigte die Aufhebung am 30. Juni nach einer zweiwöchigen Prüfung – wenige Tage, nachdem Mythos 5 leise für rund 100 geprüfte US-Organisationen zurückgekehrt war.

Als Nächstes lesen: Warum bleibt ETH schwach, während Ethereum-Staking Rekordhöhen erreicht?