Claude Opus 4.8 przewyższa indeks inteligencji, lecz Mythos dominuje w hackingu

Anthropic wypuścił w tym tygodniu swój najnowszy model, Claude Opus 4.8, który z niewielką przewagą prowadzi w jednym z benchmarków inteligencji, lecz wyraźnie ustępuje ograniczonemu systemowi Mythos w pisaniu exploitów na oprogramowanie.

Kluczowe punkty:

Claude Opus 4.8 minimalnie wyprzedza Artificial Analysis Intelligence Index z wynikiem 61,4, tuż przed GPT-5.5 z 60,2.

W wewnętrznych testach Anthropic Mythos tworzył działające exploity na Firefoksa dla 70,8% celów, wobec 8,8% dla Opus 4.8.

Mythos pozostaje ograniczony do sprawdzonych partnerów Project Glasswing, podczas gdy Opus 4.8 jest oferowany w tej samej cenie co jego poprzednik.

Prowadzenie Opus 4.8 w benchmarkach

Firma wprowadziła Opus 4.8 w tym tygodniu i wyceniła go na 5 dolarów za milion tokenów wejściowych i 25 dolarów za milion tokenów wyjściowych, utrzymując stawki na poziomie poprzedniego Opus 4.7.

Niezależni testerzy informują, że model prowadzi obecnie w Artificial Analysis Intelligence Index z wynikiem 61,4, będącym agregatem dziesięciu ewaluacji, tuż przed GPT-5.5 z 60,2. Anthropic przedstawia aktualizację jako skromny, stopniowy krok naprzód, a nie generacyjny skok, który sugerowałaby nazwa.

W agentowym programowaniu Opus 4.8 uzyskuje 69,2% w teście SWE-bench Pro, benchmarku, który sprawdza zdolność modelu do naprawiania prawdziwych błędów w dużych repozytoriach kodu, podczas gdy GPT-5.5 osiąga 58,6%.

Oba systemy wypadają niemal identycznie w pytaniach z nauk na poziomie magisterskim, uzyskując około 94%, a Opus 4.8 minimalnie prowadzi w szerokim teście rozumowania, w którym jego poprzednicy pozostawali w tyle.

Mythos plasuje się ponad nimi w najtrudniejszych zadaniach inżynieryjnych, osiągając 77,8% w tym samym benchmarku programistycznym i uzyskując większą przewagę w zadaniach łączących kod ze zrzutami ekranu. Anthropic ogranicza Mythos do wyselekcjonowanego grona partnerów w ramach programu Project Glasswing, zamiast oferować go publicznie. Za wersję próbną pobiera 25 i 125 dolarów za milion tokenów, czyli pięciokrotność stawek dla Opus.

Zobacz także: Zcash słabnie po 6% spadku, podczas gdy Monero kradnie show

Cybernetyczna dominacja Mythos

Największa różnica ujawnia się w ofensywnym bezpieczeństwie.

Po wyłączeniu zabezpieczeń Mythos wygenerował w ocenie Anthropic w pełni działający exploit dla 70,8% celów w Firefoksie, podczas gdy Opus 4.8 osiągnął jedynie 8,8%.

W osobnym teście, opartym na kodzie typu open source, Opus 4.8 nie zdołał zdobyć punktów w 61,5% przypadków, ponad dwukrotnie więcej niż 23,3% odnotowane przez Mythos.

W publicznym, między-modelowym teście przeprowadzonym przez Berkeley RDI, w którym każdy system współpracował z własnym agentem programistycznym na 898 rzeczywistych podatnościach, Mythos stworzył 157 działających exploitów wobec 120 w przypadku GPT-5.5.

GPT-5.5 utrzymał jednak przewagę w exploitacji na poziomie jądra systemu, wyprzedzając Mythos 22 do 12 w tym wąskim obszarze. UK AI Security Institute umieścił go nieznacznie przed Mythos w zadaniach cybernetycznych na poziomie eksperckim, z wynikiem 71,4% do 68,6%.

Anthropic zaprezentował Mythos w kwietniu, po tym jak model odnalazł tysiące wcześniej nieznanych luk w głównych systemach operacyjnych i we wszystkich wiodących przeglądarkach internetowych, z setkami zgłoszonych jedynie w Firefoksie. Firma wstrzymała następnie jego publiczne wydanie, obawiając się, że te same umiejętności tworzenia exploitów mogą równie łatwo pomóc atakującym, jak i obrońcom, którym miał służyć.

Czytaj dalej: Strategia ściąga z powrotem 30 mln dolarów w Bitcoinie, łagodząc obawy przed wyprzedażą