GPT-5.6 Sol kontra Claude Fable 5: testy kodowania pokazują wyrównany wyścig

Świeże bezpośrednie porównania zestawiają GPT-5.6 Sol od OpenAI, który osiąga wynik 88,8% w czołowym benchmarku kodowania, z Claude Fable 5 od Anthropic i jego wynikiem 80,3% w inżynierii oprogramowania.

Kluczowe punkty:

GPT-5.6 Sol zajmuje pierwsze miejsce w Terminal-Bench 2.1 z wynikiem 88,8%, a tryb Ultra podbija rezultat do 91,9%.

Claude Fable 5 utrzymuje najszerszą opublikowaną przewagę w SWE-Bench Pro z wynikiem 80,3%, wobec 58,6% dla GPT-5.5.

Sol pozostaje w ograniczonym, zatwierdzonym przez rząd podglądzie, podczas gdy Fable 5 wrócił do globalnej dostępności 1 lipca.

Deklaracje benchmarków GPT-5.6 Sol

OpenAI zaprezentowało rodzinę GPT-5.6 26 czerwca, to jej pierwsze wydanie od GPT-5.5 z kwietnia, dzielące linię na trzy poziomy, z Sol jako flagowym modelem.

Firma twierdzi, że Sol osiąga 88,8% w Terminal-Bench 2.1, teście agentów kodujących w wierszu poleceń, którzy planują, iterują i koordynują narzędzia. Obliczeniowo ciężki tryb Ultra, który uruchamia skoordynowane subagentów przyspieszające złożone zadania, rozciąga ten wynik do 91,9%, co jest najwyższą opublikowaną wartością w tabeli Terminal-Bench.

Recenzenci, którzy porównali opublikowane wykresy, lokują Fable 5 kilka punktów za Sol w tym samym teście terminalowym, choć przywoływane wartości wahają się między 83,4% a 84,3%. W pakiecie bezpieczeństwa ExploitBench Sol ma rzekomo dorównywać klasie Mythos, zużywając przy tym około jedną trzecią tokenów wyjściowych, co stanowi istotne obniżenie kosztów przy długich przebiegach agentów.

Niemal nikt spoza programu podglądu nie może jeszcze samodzielnie zweryfikować tych liczb, co jest zastrzeżeniem, na które wskazało kilku recenzentów, nawet jeśli uznają surowe wyniki.

Zobacz także: OpenAI i Anthropic chcą IPO na skalę SpaceX, ale Wall Street może się zadławić

Prowadzenie Fable 5 w kodowaniu i ceny

Fable 5 nadal posiada benchmark, który większość recenzentów uznaje za rozstrzygający dla autonomicznego tworzenia oprogramowania, i jego przewaga nie jest mała. Osiąga 80,3% w SWE-Bench Pro, który mierzy kompleksowe naprawy prawdziwych zgłoszeń z GitHuba, wobec 58,6% dla starszego GPT-5.5, a OpenAI nie opublikowało jeszcze wyniku GPT-5.6 w tym teście.

Analitycy, którzy stwierdzili różnice tej skali w testach kodowania, rozumowania i wiedzy, wątpią, by pojedyncze przyrostowe wydanie mogło całkowicie je zniwelować.

Pod względem cen sytuacja odwraca się, ponieważ Sol jest podobno wyceniany na 5 USD za milion tokenów wejściowych i 30 USD za wyjściowe, czyli połowę stawek Fable 5 wynoszących 10 i 50 USD. Kilku recenzentów argumentowało, że rozsądna konfiguracja kieruje agentów operujących w terminalu w stronę Sol, gdy tylko się otworzy, a poprawki na poziomie repozytorium w stronę Fable 5.

Dostęp rysuje jednak najostrzejszą granicę, ponieważ Sol nadal pozostaje w ograniczonym podglądzie dla około 20 partnerów zatwierdzonych przez rząd, podczas gdy Fable 5 wrócił do globalnej oferty 1 lipca z tymczasowym bonusem zużycia dla płacących subskrybentów do 7 lipca.

Czerwiec zamienił dostęp do modeli czołowych w ruchomy cel dla obu laboratoriów, a ten efekt domina stanowi tło każdej recenzji. Waszyngton odłączył Fable 5 i jego potężniejszego „rodzeństwa” Mythos 5 12 czerwca, powołując się na poważne ryzyka cyberbezpieczeństwa, po tym jak badacze Amazona odkryli jailbreak generujący kod eksploita. Sekretarz Handlu Howard Lutnick potwierdził odwrócenie decyzji 30 czerwca, po dwutygodniowym przeglądzie, kilka dni po tym, jak Mythos 5 po cichu wrócił do około 100 zweryfikowanych amerykańskich organizacji.

Czytaj dalej: Dlaczego ETH nadal jest słabe, gdy staking Ethereum bije rekordy?