Anthropic twierdzi, że nowy Claude Opus 4.8 wyłapuje cztery razy więcej własnych błędów

Anthropic twierdzi, że nowy Claude Opus 4.8 wyłapuje cztery razy więcej własnych błędów

Anthropic released Claude Opus 4.8 w czwartek, prezentując ulepszony model jako bardziej uczciwy i mniej skłonny do wymyślania faktów niż wersja, którą zastępuje.

Kluczowe punkty:

  • Anthropic udostępnił Claude Opus 4.8 w czwartek, wskazując uczciwość jako jego główną zaletę.
  • Według firmy model jest około cztery razy mniej skłonny przepuszczać błędy w kodzie.
  • Tryb Fast działa teraz 2,5 raza szybciej i kosztuje trzykrotnie mniej niż wcześniej.

Anthropic promuje uczciwość Opus 4.8

Firma unveiled model w czwartek, przedstawiając go jako stabilne rozwinięcie Opus 4.7, a nie całkowite przeprojektowanie, z większością wyników benchmarków rosnących jedynie nieznacznie. W teście kodowania SWE-Bench Pro uzyskał on scored 69,2%, w porównaniu z 64,3% dla poprzedniej wersji i lepiej niż OpenAI GPT-5.5, który osiągnął 58,6%.

Uwagę przyciągnęła uczciwość. Anthropic twierdzi, że modele AI często wyciągają pochopne wnioski, ogłaszając postęp przy słabych dowodach, a pierwsi testerzy zauważyli, że wersja 4.8 szybciej przyznaje się do wątpliwości podczas długich, niepilnowanych zadań. Jej testy indicated wykazały, że model jest około cztery razy mniej skłonny niż 4.7 przepuszczać błędy w kodzie bez komentarza.

Aktualizacja shipped została wyposażona w nowe ustawienia, w tym opcję pozwalającą użytkownikom regulować, jak intensywnie model pracuje nad zadaniem, dostępną teraz we wszystkich planach. Anthropic obniżył też cenę trybu Fast, w którym model działa 2,5 raza szybciej niż normalnie, do jednej trzeciej kosztu wcześniejszych modeli.

Also Read: Kalshi Wins CFTC Approval For First U.S. Bitcoin Perpetual Futures

Pritchard chwali ocenę Opus 4.8

Tom Pritchard, starszy inżynier w Shopify, told Anthropic, że wersja nastawiona na kodowanie wykazuje znacznie lepszy osąd. Powiedział, że model „zadaje właściwe pytania, wyłapuje własne błędy” i sprzeciwia się, gdy plan wygląda słabo. Dla zespołów poparzonych przez agentów AI, którzy wyczyścili produkcyjne bazy danych na żywo, taka obietnica może mieć realną wagę.

Nie wszyscy byli przekonani.

Na Reddicie wielu użytkowników doubted przedstawione wykresy benchmarków, podsumowując nastrój jako brak zaufania, podczas gdy inni obawiali się utraty starszego Opus 4.6, który wciąż woleli do codziennej pracy.

Opus 4.8 wieńczy wzrost Anthropic

Premiera zbiegła się z gorącym okresem dla laboratorium. Wycena Anthropic climbed powyżej niemal 965 miliardów dolarów OpenAI po nowej rundzie finansowania, jednej z największych w branży technologicznej. Inwestorzy powszechnie oczekują, że firma będzie dążyć do debiutu giełdowego jeszcze w tym roku.

Wydanie to zwieńczyło też szybkie tempo aktualizacji, ponieważ Opus 4.7 reaching trafił do użytkowników zaledwie miesiąc wcześniej, w atmosferze wątpliwości wobec benchmarków. Anthropic od tego czasu zapowiada Mythos, znacznie potężniejszy model, który wstrzymuje przed publicznym udostępnieniem z powodu obaw o cyberbezpieczeństwo.

Read Next: Dogecoin Reserves Edge Up To 28B As Whale Support Stays Weak

Zastrzeżenie i ostrzeżenie o ryzyku: Informacje zawarte w tym artykule służą wyłącznie celom edukacyjnym i informacyjnym i opierają się na opinii autora. Nie stanowią one porad finansowych, inwestycyjnych, prawnych czy podatkowych. Aktywa kryptowalutowe są bardzo zmienne i podlegają wysokiemu ryzyku, w tym ryzyku utraty całości lub znacznej części Twojej inwestycji. Handel lub posiadanie aktywów krypto może nie być odpowiednie dla wszystkich inwestorów. Poglądy wyrażone w tym artykule są wyłącznie poglądami autora/autorów i nie reprezentują oficjalnej polityki lub stanowiska Yellow, jej założycieli lub dyrektorów. Zawsze przeprowadź własne dokładne badania (D.Y.O.R.) i skonsultuj się z licencjonowanym specjalistą finansowym przed podjęciem jakiejkolwiek decyzji inwestycyjnej.
Najnowsze wiadomości
Pokaż wszystkie wiadomości
Anthropic twierdzi, że nowy Claude Opus 4.8 wyłapuje cztery razy więcej własnych błędów | Yellow.com