GPT-5.6 Sol kontra Claude Fable 5: testy kodowania pokazują wyrównany wyścig

GPT-5.6 Sol kontra Claude Fable 5: testy kodowania pokazują wyrównany wyścig

Świeże, bezpośrednie porównania zestawiają GPT-5.6 Sol od OpenAI, posiadacza wyniku 88,8% w czołowym teście kodowania, z Claude Fable 5 od Anthropic, który osiąga 80,3% w inżynierii oprogramowania.

Kluczowe punkty:

  • GPT-5.6 Sol osiąga 88,8% w Terminal-Bench 2.1, a tryb Ultra podnosi wynik do 91,9%.
  • Claude Fable 5 utrzymuje najszerszą opublikowaną przewagę w SWE-Bench Pro z wynikiem 80,3%, wobec 58,6% dla GPT-5.5.
  • Sol pozostaje w ograniczonym, zatwierdzonym przez rząd podglądzie, podczas gdy Fable 5 wrócił do globalnej dostępności 1 lipca.

Deklaracje benchmarków GPT-5.6 Sol

OpenAI zaprezentowało rodzinę GPT-5.6 26 czerwca, to pierwsze wydanie od GPT-5.5 z kwietnia, dzieląc linię na trzy poziomy z Sol jako flagowcem.

Firma twierdzi, że Sol osiąga 88,8% w Terminal-Bench 2.1, teście agentów wiersza poleceń, którzy planują, iterują i koordynują narzędzia. Obciążony obliczeniowo tryb Ultra, który uruchamia skoordynowane subagenty do przyspieszania złożonych zadań, rozciąga ten wynik do 91,9%, najwyższego opublikowanego wyniku na wykresie Terminal-Bench.

Recenzenci, którzy porównali opublikowane wykresy, umieszczają Fable 5 kilka punktów za Sol w tym samym teście terminalowym, choć przytaczane liczby wahają się między 83,4% a 84,3%. W pakiecie bezpieczeństwa ExploitBench Sol ma rzekomo dorównywać klasie Mythos, zużywając przy tym około jedną trzecią tokenów wyjściowych, co stanowi istotną oszczędność kosztów przy długich przebiegach agentów.

Prawie nikt spoza programu podglądu nie może jeszcze samodzielnie zweryfikować tych liczb, co kilku recenzentów podkreśliło jako zastrzeżenie, jednocześnie uznając surowe wyniki.

Zobacz też: OpenAI i Anthropic chcą IPO na miarę SpaceX, ale Wall Street może się dławić

Prowadzenie Fable 5 w kodowaniu i ceny

Fable 5 nadal dominuje w benchmarku, który większość recenzentów uważa za rozstrzygający dla autonomicznej pracy nad oprogramowaniem, i jego przewaga nie jest mała. Uzyskuje 80,3% w SWE-Bench Pro, który mierzy kompleksowe naprawy rzeczywistych zgłoszeń z GitHuba, wobec 58,6% dla starszego GPT-5.5, a OpenAI nie opublikowało jeszcze wyniku GPT-5.6 w tym teście.

Analitycy, którzy stwierdzili luki tej wielkości w testach kodowania, rozumowania i wiedzy, wątpią, by pojedyncze przyrostowe wydanie mogło całkowicie je zasypać.

Jeśli chodzi o ceny, przewaga idzie w drugą stronę, ponieważ Sol jest podobno wyceniony na 5 USD za milion tokenów wejściowych i 30 USD za wyjście, czyli połowę stawek Fable 5 — 10 i 50 USD. Kilku recenzentów argumentowało, że rozsądna konfiguracja kieruje agentów opartych na terminalu w stronę Sol, gdy tylko się otworzy, a poprawki na poziomie repozytoriów w stronę Fable 5.

Dostęp wyznacza najostrzejszą granicę, ponieważ Sol pozostaje w ograniczonym podglądzie dla około 20 partnerów zatwierdzonych przez rząd, podczas gdy Fable 5 wrócił na cały świat 1 lipca z tymczasowym bonusem użycia dla płacących subskrybentów do 7 lipca.

Czerwiec zamienił dostęp do modeli granicznych w ruchomy cel dla obu laboratoriów, a ten zwrot akcji stanowi tło każdej recenzji. Waszyngton kazał Fable 5 i jego potężniejszemu rodzeństwu Mythos 5 zejść z sieci 12 czerwca, powołując się na poważne zagrożenia cyberbezpieczeństwa, po tym jak badacze Amazona ujawnili jailbreak generujący kod exploitów. Sekretarz handlu Howard Lutnick potwierdził odwrócenie decyzji 30 czerwca po dwutygodniowym przeglądzie, kilka dni po tym, jak Mythos 5 po cichu wrócił do około 100 zweryfikowanych amerykańskich organizacji.

Przeczytaj również: Dlaczego ETH wciąż jest słabe, mimo że staking Ethereum bije rekordy?

Zastrzeżenie i ostrzeżenie o ryzyku: Informacje zawarte w tym artykule służą wyłącznie celom edukacyjnym i informacyjnym i opierają się na opinii autora. Nie stanowią one porad finansowych, inwestycyjnych, prawnych czy podatkowych. Aktywa kryptowalutowe są bardzo zmienne i podlegają wysokiemu ryzyku, w tym ryzyku utraty całości lub znacznej części Twojej inwestycji. Handel lub posiadanie aktywów krypto może nie być odpowiednie dla wszystkich inwestorów. Poglądy wyrażone w tym artykule są wyłącznie poglądami autora/autorów i nie reprezentują oficjalnej polityki lub stanowiska Yellow, jej założycieli lub dyrektorów. Zawsze przeprowadź własne dokładne badania (D.Y.O.R.) i skonsultuj się z licencjonowanym specjalistą finansowym przed podjęciem jakiejkolwiek decyzji inwestycyjnej.
Najnowsze wiadomości
Pokaż wszystkie wiadomości
GPT-5.6 Sol kontra Claude Fable 5: testy kodowania pokazują wyrównany wyścig | Yellow.com