Anthropic released its newest model, Claude Opus 4.8, w tym tygodniu, z niewielką przewagą w jednym z benchmarków inteligencji, jednak pozostaje w tyle za ograniczonym systemem Mythos w pisaniu exploitów na oprogramowanie.
Kluczowe punkty:
- Claude Opus 4.8 minimalnie wyprzedza Artificial Analysis Intelligence Index z wynikiem 61,4, tuż przed GPT-5.5 z 60,2.
- W wewnętrznych testach Anthropic Mythos wygenerował działające exploity na Firefoksa dla 70,8% celów, wobec 8,8% dla Opus 4.8.
- Mythos pozostaje ograniczony do sprawdzonych partnerów Project Glasswing, podczas gdy Opus 4.8 jest oferowany w tej samej cenie co jego poprzednik.
Prowadzenie Opus 4.8 w benchmarkach
Firma wprowadziła Opus 4.8 w tym tygodniu i wyceniła go na 5 USD za milion tokenów wejściowych i 25 USD za milion tokenów wyjściowych, utrzymując stawkę na poziomie poprzedniego Opus 4.7.
Niezależni testerzy informują, że model obecnie prowadzi w Artificial Analysis Intelligence Index z wynikiem 61,4, będącym agregatem dziesięciu ewaluacji, tuż przed GPT-5.5 z 60,2. Anthropic przedstawia tę aktualizację jako skromny, stopniowy krok naprzód, a nie generacyjny skok, którego mogłaby sugerować sama nazwa.
W zadaniach z zakresu agentowego kodowania Opus 4.8 osiąga 69,2% w teście SWE-bench Pro, benchmarku, który sprawdza, czy model potrafi naprawiać rzeczywiste błędy w dużych repozytoriach kodu, podczas gdy GPT-5.5 osiąga 58,6%.
Oba systemy wypadają niemal identycznie w pytaniach z zakresu nauk ścisłych na poziomie studiów magisterskich, osiągając wyniki bliskie 94%, a Opus 4.8 minimalnie prowadzi w szerokim teście rozumowania, w którym jego poprzednicy wypadali gorzej.
Mythos plasuje się powyżej obu modeli w najtrudniejszych zadaniach inżynieryjnych, osiągając 77,8% w tym samym benchmarku kodowania oraz uzyskując większą przewagę w zadaniach łączących kod ze zrzutami ekranu. Anthropic restricts Mythos to a vetted set of partners w ramach programu Project Glasswing, zamiast sprzedawać go otwarcie. Firma pobiera 25 i 125 USD za milion tokenów w wersji preview, czyli pięć razy więcej niż w przypadku Opus.
Also Read: Zcash Cools After A 6% Drop While Monero Steals The Spotlight
Cybernetyczna dominacja Mythos
Największa różnica ujawnia się w obszarze ofensywnego bezpieczeństwa.
Po wyłączeniu zabezpieczeń Mythos produced w pełni działający exploit dla 70,8% celów w Firefoksie w wewnętrznych ewaluacjach Anthropic, podczas gdy Opus 4.8 osiągnął zaledwie 8,8%.
W osobnym teście opartym na otwartym kodzie źródłowym Opus 4.8 nie zdołał uzyskać wyniku dla 61,5% celów, czyli ponad dwukrotnie częściej niż Mythos, który miał współczynnik niepowodzeń na poziomie 23,3%.
Publiczny test porównawczy, przeprowadzony przez Berkeley RDI, sparował każdy system z jego własnym agentem kodującym w 898 rzeczywistych podatnościach, w którym Mythos wygenerował 157 działających exploitów, wobec 120 w przypadku GPT-5.5.
GPT-5.5 nadal miał przewagę w exploitach na poziomie jądra systemu, prowadząc z wynikiem 22 do 12 w tym wąskim obszarze. UK AI Security Institute umieścił go nieznacznie przed Mythos w eksperckich zadaniach cybernetycznych, z wynikiem 71,4% wobec 68,6%.
Anthropic zaprezentował Mythos w kwietniu, po tym jak model found thousands of previously unknown flaws w głównych systemach operacyjnych i wszystkich czołowych przeglądarkach internetowych, z setkami błędów zgłoszonych tylko w Firefoksie. Firma następnie wstrzymała jego publiczne wydanie, obawiając się, że te same umiejętności tworzenia exploitów mogą równie łatwo pomóc atakującym, jak obrońcom, dla których został zbudowany.
Read Next: Strategy Pulls $30M In Bitcoin Back, Cooling Sell-Off Fears





