Claude Opus 4.8 voert de intelligentie-index aan, maar Mythos domineert bij hacken

Anthropic released its newest model, Claude Opus 4.8, deze week, met een kleine voorsprong op een intelligentie-benchmark, maar het blijft achter op het beperkte Mythos-systeem bij het schrijven van software-exploits.

Belangrijkste punten:

Claude Opus 4.8 voert de Artificial Analysis Intelligence Index nipt aan met 61,4, net voor GPT-5.5 met 60,2.

In de interne tests van Anthropic produceerde Mythos werkende Firefox-exploits voor 70,8% van de doelen, tegenover 8,8% voor Opus 4.8.

Mythos blijft beperkt tot gescreende Project Glasswing-partners, terwijl Opus 4.8 voor dezelfde prijs wordt aangeboden als zijn voorganger.

Opus 4.8 leidt in benchmarks

Het bedrijf bracht Opus 4.8 deze week uit en priced het op $5 per miljoen inputtokens en $25 per miljoen output, waarmee het tarief gelijk blijft aan de eerdere Opus 4.7.

Onafhankelijke testers report dat het model nu bovenaan de Artificial Analysis Intelligence Index staat met 61,4, een samengestelde score van tien evaluaties, net voor GPT-5.5 met 60,2. Anthropic presenteert de upgrade als een bescheiden, incrementele stap in plaats van de generatiesprong die de naam zou kunnen suggereren.

Op het gebied van agentisch coderen scores Opus 4.8 69,2% op SWE-bench Pro, een benchmark die van een model vraagt om echte bugs in grote coderepositories te verhelpen, terwijl GPT-5.5 58,6% haalt.

De twee systemen liggen vrijwel gelijk bij natuurkundevragen op masterniveau, waarbij beide rond de 94% uitkomen, en Opus 4.8 leidt nipt op een brede redeneerproef waarop zijn voorgangers achterbleven.

Mythos staat boven beide bij het zwaarste technische werk, met 77,8% op diezelfde codebenchmark en een grotere voorsprong bij taken die code met schermafbeeldingen combineren. Anthropic restricts Mythos to a vetted set of partners onder het Project Glasswing-programma, in plaats van het openlijk te verkopen. Het charges $25 en $125 per miljoen tokens voor de preview, vijf keer het tarief van Opus.

Ook lezen: Zcash Cools After A 6% Drop While Monero Steals The Spotlight

De cyberdominantie van Mythos

De grootste kloof is zichtbaar bij offensieve beveiliging.

Met beveiligingsfilters uitgeschakeld produced Mythos een volledig werkende exploit voor 70,8% van de Firefox-doelen in Anthropic’s eigen evaluaties, terwijl Opus 4.8 slechts 8,8% haalde.

In een aparte test, gebaseerd op opensourcecode, lukte het Opus 4.8 niet om te scoren op 61,5% van de doelen, meer dan het dubbele van het uitvalpercentage van 23,3% bij Mythos.

Een openbare cross-model-proef, uitgevoerd door Berkeley RDI, koppelde elk systeem aan zijn eigen codeagent voor 898 kwetsbaarheden in de echte wereld, waarbij Mythos 157 werkende exploits schreef tegenover 120 voor GPT-5.5.

GPT-5.5 behield nog steeds een voorsprong bij exploits op kernelniveau, met een score van 22 tegen 12 voor Mythos op dat smalle terrein. Het UK AI Security Institute plaatste het iets voor op Mythos bij geavanceerde cyberopdrachten, met 71,4% tegen 68,6%.

Anthropic onthulde Mythos in april, nadat het model found thousands of previously unknown flaws had gevonden in grote besturingssystemen en elke toonaangevende webbrowser, met honderden meldingen alleen al in Firefox. Het bedrijf hield het model vervolgens uit de publieke release, uit vrees dat dezelfde exploit-schrijfvaardigheden aanvallers net zo goed zouden kunnen helpen als de verdedigers voor wie het was ontworpen.

Lees ook: Strategy Pulls $30M In Bitcoin Back, Cooling Sell-Off Fears