GPT-5.6 Sol vs. Claude Fable 5: Coding-Benchmarks zeigen ein geteiltes Rennen

GPT-5.6 Sol vs. Claude Fable 5: Coding-Benchmarks zeigen ein geteiltes Rennen

Frische Kopf-an-Kopf-Reviews stellen OpenAI's GPT-5.6 Sol, Inhaber eines 88,8-%-Scores auf einem führenden Coding-Benchmark, gegen Anthropic's Claude Fable 5 mit seiner 80,3-%-Bewertung in Software Engineering.

Zentrale Punkte:

  • GPT-5.6 Sol führt Terminal-Bench 2.1 mit 88,8 % an, und sein Ultra-Modus treibt den Score auf 91,9 %.
  • Claude Fable 5 behält mit 80,3 % den größten veröffentlichten Vorsprung auf SWE-Bench Pro, gegenüber 58,6 % für GPT-5.5.
  • Sol bleibt in einer begrenzten, staatlich genehmigten Vorschau, während Fable 5 seit dem 1. Juli wieder weltweit verfügbar ist.

Benchmark-Ansprüche von GPT-5.6 Sol

OpenAI hat am 26. Juni die GPT-5.6-Familie vorgestellt, die erste Veröffentlichung seit GPT-5.5 im April, und die Produktlinie in drei Stufen aufgeteilt, mit Sol als Flaggschiff.

Das Unternehmen gibt an, dass Sol 88,8 % auf Terminal-Bench 2.1 erreicht, einem Test für Kommandozeilen-Coding-Agenten, die planen, iterieren und Tools koordinieren. Ein rechenintensiver Ultra-Modus, der koordinierte Subagenten startet, um komplexe Arbeit zu beschleunigen, dehnt diese Zahl auf 91,9 % aus – die höchste veröffentlichte Marke in der Terminal-Bench-Tabelle.

Reviewer, die die veröffentlichten Charts verglichen haben, sehen Fable 5 auf demselben Terminal-Test einige Punkte hinter Sol, wobei die genannten Werte zwischen 83,4 % und 84,3 % schwanken. Auf der ExploitBench-Sicherheitssuite soll Sol angeblich eine Leistung der Mythos-Klasse erreichen und dabei etwa ein Drittel der Output-Tokens verbrauchen – eine Kostensenkung, die bei langen Agentenläufen zählt.

Fast niemand außerhalb der Vorschau kann diese Zahlen bislang unabhängig verifizieren, ein Vorbehalt, den mehrere Reviewer anmerkten, während sie die Rohwerte dennoch zur Kenntnis nahmen.

Auch lesen: OpenAI und Anthropic wollen IPOs in SpaceX-Größe, aber die Wall Street könnte schlucken

Fable 5: Coding-Führung und Preise

Fable 5 hält weiterhin den Benchmark, den die meisten Reviewer als entscheidend für autonome Softwarearbeit betrachten – und sein Vorsprung dort ist nicht gering. Es erzielt 80,3 % auf SWE-Bench Pro, das End-to-End-Fixes realer GitHub-Issues misst, gegenüber 58,6 % für das ältere GPT-5.5; OpenAI hat dort bislang keinen GPT-5.6-Wert veröffentlicht.

Analysten, die Lücken dieser Größe über Coding-, Reasoning- und Wissenstests hinweg festgestellt haben, bezweifeln, dass ein einzelnes inkrementelles Release sie vollständig schließen kann.

Beim Preis kehrt sich das Bild um: Sol soll mit 5 US-Dollar pro Million Input-Tokens und 30 US-Dollar für Output gelistet sein, also zur Hälfte von Fable 5 mit 10 und 50 US-Dollar. Mehrere Reviewer haben argumentiert, dass ein sinnvolles Setup terminalgesteuerte Agenten – sobald Sol allgemein verfügbar ist – in Richtung Sol routet und Repository-weite Fixes in Richtung Fable 5.

Beim Zugang verläuft die schärfste Trennlinie: Sol bleibt in einer begrenzten Vorschau für rund 20 staatlich freigegebene Partner, während Fable 5 weltweit am 1. Juli zurückkehrte – mit einem befristeten Nutzungbonus für zahlende Abonnenten bis zum 7. Juli.

Der Juni machte den Zugang zu Frontier-Modellen für beide Labore zu einem beweglichen Ziel, und dieser Rückprall bildet den Rahmen für jedes Review. Washington zwang Fable 5 und sein noch leistungsfähigeres Geschwistermodell Mythos 5 offline am 12. Juni, unter Verweis auf schwere Risiken für die Cybersicherheit, nachdem Amazon-Forscher einen Jailbreak aufgedeckt hatten, der Exploit-Code produzierte. Handelsminister Howard Lutnick bestätigte die Kehrtwende am 30. Juni nach einer zweiwöchigen Überprüfung – wenige Tage nachdem Mythos 5 leise zu rund 100 geprüften amerikanischen Organisationen zurückgekehrt war.

Weiter lesen: Warum ist ETH immer noch schwach, während Ethereum-Staking Rekordhochs erreicht?

Haftungsausschluss und Risikowarnung: Die in diesem Artikel bereitgestellten Informationen dienen nur Bildungs- und Informationszwecken und basieren auf der Meinung des Autors. Sie stellen keine Finanz-, Anlage-, Rechts- oder Steuerberatung dar. Kryptowährungsassets sind hochvolatil und unterliegen hohen Risiken, einschließlich des Risikos, Ihre gesamte oder einen erheblichen Teil Ihrer Investition zu verlieren. Der Handel oder das Halten von Krypto-Assets ist möglicherweise nicht für alle Anleger geeignet. Die in diesem Artikel geäußerten Ansichten sind ausschließlich die des Autors/der Autoren und repräsentieren nicht die offizielle Politik oder Position von Yellow, seinen Gründern oder seinen Führungskräften. Führen Sie immer Ihre eigenen gründlichen Recherchen (D.Y.O.R.) durch und konsultieren Sie einen lizenzierten Finanzprofi, bevor Sie eine Anlageentscheidung treffen.
Neueste Nachrichten
Alle Nachrichten anzeigen