Claude Opus 4.8 wyprzedza Gemini i GPT w wielu testach kodowania

Anthropic wydał Claude Opus 4.8, twierdząc, że zaktualizowany model przewyższa OpenAI’s GPT-5.5 i Google’s Gemini 3.1 Pro w kilku benchmarkach programistycznych.

Kluczowe punkty:

Anthropic uruchomił Claude Opus 4.8 28 maja, wyceniając go na poziomie poprzedniej wersji 4.7.

Firma twierdzi, że model wyprzedza GPT-5.5 od OpenAI i Gemini 3.1 Pro od Google w SWE-Bench Pro i innych testach.

Przebudowany tryb szybkiej pracy i dynamiczne przepływy zadań mają obniżyć koszt i czas pracy agentowej.

Claude Opus 4.8 wygrywa w benchmarkach kodowania

Firma zaprezentowała model w czwartek, rozwijając wersję Opus 4.7 wydaną około sześć tygodni wcześniej. Anthropic poinformował, że Opus 4.8 osiągnął wynik 69,2% w teście programistycznym SWE-Bench Pro, pokonując tam obu rywali i wyprzedzając ich w kilku innych miarach. Firma zgłosiła również poprawę w zakresie obsługi komputera, pracy wiedzochłonnej i analiz finansowych, a także wynik 74,2% w benchmarku Terminal-Bench 2.1.

Anthropic przedstawił wydanie jako bardziej uczciwy model, podkreślając, że testerzy stwierdzili, iż model sygnalizuje własną niepewność i powstrzymuje się od nieuzasadnionych twierdzeń. Wewnętrzne przeglądy oceniają, że jest on około cztery razy mniej skłonny niż Opus 4.7 do przepuszczania błędów w kodzie, a firma twierdzi, że wypada lepiej pod względem poszanowania autonomii użytkownika.

Also Read: Cardano Whales Seize 67.5% Of ADA Supply, A Six-Year High

Dlaczego kontrola kosztów w Anthropic ma znaczenie

Cennik pozostał na poziomie 5 USD za milion tokenów wejściowych i 25 USD za milion tokenów wyjściowych. Przebudowany tryb szybkiej pracy działa teraz około 150% szybciej i kosztuje trzy razy mniej niż poprzednie ustawienie. Anthropic otworzył też podgląd badawczy dynamicznych przepływów zadań, które uruchamiają setki równoległych subagentów do migracji obejmujących setki tysięcy linii kodu.

Mimo to zyski pozostają stopniowe.

GPT-5.5 nadal prowadzi w jednym teście kodowania terminalowego, a Anthropic sam określa model jako umiarkowany krok naprzód, a nie przełom. Programiści mogą teraz modyfikować instrukcje dla Claude’a w trakcie zadania poprzez Messages API. Kupujący szukający tańszego AI mogą przykładać większą wagę do tych mechanizmów kontroli wydatków niż do niewielkich różnic między czołowymi modelami.

Wycena Anthropic i tło Mythos

Premiera zbiegła się z dniem, w którym Anthropic potwierdził rundę Series H o wartości 65 mld USD przy wycenie 965 mld USD. Ta runda, prowadzona przez Altimeter Capital, Dragoneer, Greenoaks i Sequoia Capital, wyniosła pięcioletnią firmę powyżej raportowanej wyceny 850 mld USD dla OpenAI i podniosła roczne przychody do około 47 mld USD.

Wycena niemal potroiła się z poziomu 380 mld USD w lutym, co może okazać się ostatnią prywatną rundą Anthropic przed wejściem na giełdę. Firma wstrzymała się z szerszym udostępnieniem swojego bardziej potężnego modelu Mythos, stworzonego do pracy w cyberbezpieczeństwie, udostępniając go tylko kilku organizacjom z uwagi na obawy dotyczące bezpieczeństwa. Obecnie spodziewa się rozszerzyć dostęp do systemów klasy Mythos dla wszystkich klientów w nadchodzących tygodniach.