Świeże, bezpośrednie porównania zestawiają GPT-5.6 Sol od OpenAI, posiadacza wyniku 88,8% w czołowym teście kodowania, z Claude Fable 5 od Anthropic, który osiąga 80,3% w inżynierii oprogramowania.
Kluczowe punkty:
- GPT-5.6 Sol osiąga 88,8% w Terminal-Bench 2.1, a tryb Ultra podnosi wynik do 91,9%.
- Claude Fable 5 utrzymuje najszerszą opublikowaną przewagę w SWE-Bench Pro z wynikiem 80,3%, wobec 58,6% dla GPT-5.5.
- Sol pozostaje w ograniczonym, zatwierdzonym przez rząd podglądzie, podczas gdy Fable 5 wrócił do globalnej dostępności 1 lipca.
Deklaracje benchmarków GPT-5.6 Sol
OpenAI zaprezentowało rodzinę GPT-5.6 26 czerwca, to pierwsze wydanie od GPT-5.5 z kwietnia, dzieląc linię na trzy poziomy z Sol jako flagowcem.
Firma twierdzi, że Sol osiąga 88,8% w Terminal-Bench 2.1, teście agentów wiersza poleceń, którzy planują, iterują i koordynują narzędzia. Obciążony obliczeniowo tryb Ultra, który uruchamia skoordynowane subagenty do przyspieszania złożonych zadań, rozciąga ten wynik do 91,9%, najwyższego opublikowanego wyniku na wykresie Terminal-Bench.
Recenzenci, którzy porównali opublikowane wykresy, umieszczają Fable 5 kilka punktów za Sol w tym samym teście terminalowym, choć przytaczane liczby wahają się między 83,4% a 84,3%. W pakiecie bezpieczeństwa ExploitBench Sol ma rzekomo dorównywać klasie Mythos, zużywając przy tym około jedną trzecią tokenów wyjściowych, co stanowi istotną oszczędność kosztów przy długich przebiegach agentów.
Prawie nikt spoza programu podglądu nie może jeszcze samodzielnie zweryfikować tych liczb, co kilku recenzentów podkreśliło jako zastrzeżenie, jednocześnie uznając surowe wyniki.
Zobacz też: OpenAI i Anthropic chcą IPO na miarę SpaceX, ale Wall Street może się dławić
Prowadzenie Fable 5 w kodowaniu i ceny
Fable 5 nadal dominuje w benchmarku, który większość recenzentów uważa za rozstrzygający dla autonomicznej pracy nad oprogramowaniem, i jego przewaga nie jest mała. Uzyskuje 80,3% w SWE-Bench Pro, który mierzy kompleksowe naprawy rzeczywistych zgłoszeń z GitHuba, wobec 58,6% dla starszego GPT-5.5, a OpenAI nie opublikowało jeszcze wyniku GPT-5.6 w tym teście.
Analitycy, którzy stwierdzili luki tej wielkości w testach kodowania, rozumowania i wiedzy, wątpią, by pojedyncze przyrostowe wydanie mogło całkowicie je zasypać.
Jeśli chodzi o ceny, przewaga idzie w drugą stronę, ponieważ Sol jest podobno wyceniony na 5 USD za milion tokenów wejściowych i 30 USD za wyjście, czyli połowę stawek Fable 5 — 10 i 50 USD. Kilku recenzentów argumentowało, że rozsądna konfiguracja kieruje agentów opartych na terminalu w stronę Sol, gdy tylko się otworzy, a poprawki na poziomie repozytoriów w stronę Fable 5.
Dostęp wyznacza najostrzejszą granicę, ponieważ Sol pozostaje w ograniczonym podglądzie dla około 20 partnerów zatwierdzonych przez rząd, podczas gdy Fable 5 wrócił na cały świat 1 lipca z tymczasowym bonusem użycia dla płacących subskrybentów do 7 lipca.
Czerwiec zamienił dostęp do modeli granicznych w ruchomy cel dla obu laboratoriów, a ten zwrot akcji stanowi tło każdej recenzji. Waszyngton kazał Fable 5 i jego potężniejszemu rodzeństwu Mythos 5 zejść z sieci 12 czerwca, powołując się na poważne zagrożenia cyberbezpieczeństwa, po tym jak badacze Amazona ujawnili jailbreak generujący kod exploitów. Sekretarz handlu Howard Lutnick potwierdził odwrócenie decyzji 30 czerwca po dwutygodniowym przeglądzie, kilka dni po tym, jak Mythos 5 po cichu wrócił do około 100 zweryfikowanych amerykańskich organizacji.
Przeczytaj również: Dlaczego ETH wciąż jest słabe, mimo że staking Ethereum bije rekordy?





