Claude Opus 4.8 na szczycie indeksu inteligencji, ale Mythos dominuje w hackingu

Claude Opus 4.8 na szczycie indeksu inteligencji, ale Mythos dominuje w hackingu

Anthropic released its newest model, Claude Opus 4.8, w tym tygodniu, z niewielką przewagą w jednym z benchmarków inteligencji, jednak pozostaje w tyle za ograniczonym systemem Mythos w pisaniu exploitów na oprogramowanie.

Kluczowe punkty:

  • Claude Opus 4.8 minimalnie wyprzedza Artificial Analysis Intelligence Index z wynikiem 61,4, tuż przed GPT-5.5 z 60,2.
  • W wewnętrznych testach Anthropic Mythos wygenerował działające exploity na Firefoksa dla 70,8% celów, wobec 8,8% dla Opus 4.8.
  • Mythos pozostaje ograniczony do sprawdzonych partnerów Project Glasswing, podczas gdy Opus 4.8 jest oferowany w tej samej cenie co jego poprzednik.

Prowadzenie Opus 4.8 w benchmarkach

Firma wprowadziła Opus 4.8 w tym tygodniu i wyceniła go na 5 USD za milion tokenów wejściowych i 25 USD za milion tokenów wyjściowych, utrzymując stawkę na poziomie poprzedniego Opus 4.7.

Niezależni testerzy informują, że model obecnie prowadzi w Artificial Analysis Intelligence Index z wynikiem 61,4, będącym agregatem dziesięciu ewaluacji, tuż przed GPT-5.5 z 60,2. Anthropic przedstawia tę aktualizację jako skromny, stopniowy krok naprzód, a nie generacyjny skok, którego mogłaby sugerować sama nazwa.

W zadaniach z zakresu agentowego kodowania Opus 4.8 osiąga 69,2% w teście SWE-bench Pro, benchmarku, który sprawdza, czy model potrafi naprawiać rzeczywiste błędy w dużych repozytoriach kodu, podczas gdy GPT-5.5 osiąga 58,6%.

Oba systemy wypadają niemal identycznie w pytaniach z zakresu nauk ścisłych na poziomie studiów magisterskich, osiągając wyniki bliskie 94%, a Opus 4.8 minimalnie prowadzi w szerokim teście rozumowania, w którym jego poprzednicy wypadali gorzej.

Mythos plasuje się powyżej obu modeli w najtrudniejszych zadaniach inżynieryjnych, osiągając 77,8% w tym samym benchmarku kodowania oraz uzyskując większą przewagę w zadaniach łączących kod ze zrzutami ekranu. Anthropic restricts Mythos to a vetted set of partners w ramach programu Project Glasswing, zamiast sprzedawać go otwarcie. Firma pobiera 25 i 125 USD za milion tokenów w wersji preview, czyli pięć razy więcej niż w przypadku Opus.

Also Read: Zcash Cools After A 6% Drop While Monero Steals The Spotlight

Cybernetyczna dominacja Mythos

Największa różnica ujawnia się w obszarze ofensywnego bezpieczeństwa.

Po wyłączeniu zabezpieczeń Mythos produced w pełni działający exploit dla 70,8% celów w Firefoksie w wewnętrznych ewaluacjach Anthropic, podczas gdy Opus 4.8 osiągnął zaledwie 8,8%.

W osobnym teście opartym na otwartym kodzie źródłowym Opus 4.8 nie zdołał uzyskać wyniku dla 61,5% celów, czyli ponad dwukrotnie częściej niż Mythos, który miał współczynnik niepowodzeń na poziomie 23,3%.

Publiczny test porównawczy, przeprowadzony przez Berkeley RDI, sparował każdy system z jego własnym agentem kodującym w 898 rzeczywistych podatnościach, w którym Mythos wygenerował 157 działających exploitów, wobec 120 w przypadku GPT-5.5.

GPT-5.5 nadal miał przewagę w exploitach na poziomie jądra systemu, prowadząc z wynikiem 22 do 12 w tym wąskim obszarze. UK AI Security Institute umieścił go nieznacznie przed Mythos w eksperckich zadaniach cybernetycznych, z wynikiem 71,4% wobec 68,6%.

Anthropic zaprezentował Mythos w kwietniu, po tym jak model found thousands of previously unknown flaws w głównych systemach operacyjnych i wszystkich czołowych przeglądarkach internetowych, z setkami błędów zgłoszonych tylko w Firefoksie. Firma następnie wstrzymała jego publiczne wydanie, obawiając się, że te same umiejętności tworzenia exploitów mogą równie łatwo pomóc atakującym, jak obrońcom, dla których został zbudowany.

Read Next: Strategy Pulls $30M In Bitcoin Back, Cooling Sell-Off Fears

Zastrzeżenie i ostrzeżenie o ryzyku: Informacje zawarte w tym artykule służą wyłącznie celom edukacyjnym i informacyjnym i opierają się na opinii autora. Nie stanowią one porad finansowych, inwestycyjnych, prawnych czy podatkowych. Aktywa kryptowalutowe są bardzo zmienne i podlegają wysokiemu ryzyku, w tym ryzyku utraty całości lub znacznej części Twojej inwestycji. Handel lub posiadanie aktywów krypto może nie być odpowiednie dla wszystkich inwestorów. Poglądy wyrażone w tym artykule są wyłącznie poglądami autora/autorów i nie reprezentują oficjalnej polityki lub stanowiska Yellow, jej założycieli lub dyrektorów. Zawsze przeprowadź własne dokładne badania (D.Y.O.R.) i skonsultuj się z licencjonowanym specjalistą finansowym przed podjęciem jakiejkolwiek decyzji inwestycyjnej.
Claude Opus 4.8 na szczycie indeksu inteligencji, ale Mythos dominuje w hackingu | Yellow.com