Anthropic twierdzi, że nowy Claude Opus 4.8 wyłapuje swoje błędy cztery razy częściej

Anthropic released Claude Opus 4.8 w czwartek, przedstawiając zaktualizowany model jako bardziej uczciwy i mniej skłonny do wymyślania faktów niż wersja, którą zastępuje.

Kluczowe punkty:

Anthropic wypuścił Claude Opus 4.8 w czwartek, wskazując uczciwość jako jego główną zaletę.

Według firmy model jest mniej więcej cztery razy mniej skłonny przepuszczać błędy w kodzie.

Tryb fast działa teraz 2,5 razy szybciej i kosztuje trzykrotnie mniej niż wcześniej.

Anthropic promuje uczciwość Opus 4.8

Firma unveiled model w czwartek, przedstawiając go jako spokojny rozwój Opus 4.7, a nie rewolucję, z większością wyników w benchmarkach rosnącą jedynie nieznacznie. W teście kodowania SWE-Bench Pro scored 69,2%, w porównaniu z 64,3% w poprzedniej wersji i przed OpenAI GPT-5.5, który osiągnął 58,6%.

Na pierwszy plan wysunęła się uczciwość. Anthropic twierdzi, że modele AI często pochopnie wyciągają wnioski, ogłaszając postęp na wątłych podstawach, a pierwsi testerzy zauważyli, że 4.8 szybciej przyznaje się do wątpliwości podczas długich, niesuperwizowanych zadań. Testy firmy indicated że model jest około cztery razy mniej skłonny niż 4.7 przepuszczać błędy w kodzie bez komentarza.

Aktualizacja shipped z nowymi ustawieniami, w tym opcją pozwalającą użytkownikom regulować, jak intensywnie model pracuje nad zadaniem, dostępną teraz we wszystkich planach. Anthropic obniżył też cenę trybu fast, w którym model działa 2,5 raza szybciej od normalnego, do jednej trzeciej stawki wcześniejszych modeli.

Also Read: Kalshi Wins CFTC Approval For First U.S. Bitcoin Perpetual Futures

Pritchard chwali ocenę Opus 4.8

Tom Pritchard, starszy inżynier w Shopify, told Anthropic, że wersja przeznaczona do kodowania wykazuje znacznie lepszy osąd. Powiedział, że model „zadaje właściwe pytania, wyłapuje własne błędy” i stawia opór, gdy plan wygląda słabo. Dla zespołów poparzonych przez agentów AI, którzy wyczyścili produkcyjne bazy danych na żywo, taka obietnica może mieć realne znaczenie.

Nie wszyscy byli przekonani.

Na Reddicie wielu użytkowników doubted wykresy benchmarków, podsumowując nastroje jako brak zaufania do nich, podczas gdy inni obawiali się utraty starszego Opus 4.6, który nadal woleli do codziennej pracy.

Opus 4.8 wieńczy falę wzrostu Anthropic

Premiera nastąpiła w gorącym dla laboratorium momencie. Wycena Anthropic climbed powyżej niemal 965 miliardów dolarów OpenAI po nowej rundzie finansowania, jednej z największych w branży technologicznej. Inwestorzy powszechnie spodziewają się, że firma będzie dążyć do wejścia na giełdę jeszcze w tym roku.

Wydanie zamknęło też serię szybkich aktualizacji: Opus 4.7 reaching użytkowników zaledwie miesiąc wcześniej, w otoczce własnych wątpliwości wokół benchmarków. Anthropic od tego czasu zapowiada Mythos, znacznie potężniejszy model, który wstrzymuje przed publicznym udostępnieniem z powodu obaw o cyberbezpieczeństwo.