Anthropic released its newest model, Claude Opus 4.8, deze week met een kleine voorsprong op een intelligentiebenchmark, maar het blijft achter op het beperkte Mythos-systeem bij het schrijven van software-exploits.
Belangrijkste punten:
- Claude Opus 4.8 staat nipt bovenaan de Artificial Analysis Intelligence Index met 61,4, net voor GPT-5.5 met 60,2.
- In interne tests van Anthropic produceerde Mythos werkende Firefox-exploits voor 70,8% van de doelwitten, tegenover 8,8% voor Opus 4.8.
- Mythos blijft beperkt tot gescreende Project Glasswing-partners, terwijl Opus 4.8 tegen dezelfde prijs wordt geleverd als zijn voorganger.
Opus 4.8 leidt op benchmarks
Het bedrijf rolde Opus 4.8 deze week uit en priced het op $5 per miljoen invoertokens en $25 per miljoen uitvoertokens, waarmee het tarief gelijk blijft aan de vorige Opus 4.7.
Onafhankelijke testers report dat het model nu bovenaan de Artificial Analysis Intelligence Index staat met 61,4, een aggregaat van tien evaluaties, net voor GPT-5.5 met 60,2. Anthropic presenteert de upgrade als een bescheiden, incrementele stap in plaats van de generatiesprong die de naamgeving zou kunnen suggereren.
Op het gebied van agentisch coderen scores Opus 4.8 69,2% op SWE-bench Pro, een benchmark die een model vraagt echte bugs in grote coderepositories op te lossen, terwijl GPT-5.5 58,6% haalt.
De twee systemen liggen vrijwel gelijk bij vragen op masterniveau in de natuurwetenschappen, beide rond de 94%, en Opus 4.8 leidt nipt op een brede redeneertoets waarop zijn voorgangers achterbleven.
Mythos staat boven beide bij het zwaarste technische werk, met 77,8% op diezelfde codebenchmark en een grotere voorsprong bij taken die code met schermafbeeldingen combineren. Anthropic restricts Mythos to a vetted set of partners onder zijn Project Glasswing-programma, in plaats van het openlijk te verkopen. Het charges $25 en $125 per miljoen tokens voor de preview, vijf keer het Opus-tarief.
Ook interessant: Zcash Cools After A 6% Drop While Monero Steals The Spotlight
Cyberdominantie van Mythos
De grootste kloof komt naar voren in offensieve beveiliging.
Met beveiligingsmaatregelen uitgeschakeld produced Mythos een volledig werkende exploit voor 70,8% van de Firefox-doelwitten in Anthropic’s eigen evaluaties, terwijl Opus 4.8 slechts 8,8% haalde.
In een aparte test op basis van opensourcecode slaagde Opus 4.8 er niet in om te scoren op 61,5% van de doelwitten, meer dan het dubbele van het mislukkingpercentage van 23,3% voor Mythos.
Een publieke cross-modelproef, uitgevoerd door Berkeley RDI, koppelde elk systeem aan zijn eigen codeagent voor 898 kwetsbaarheden uit de praktijk, waarbij Mythos 157 werkende exploits schreef tegenover 120 voor GPT-5.5.
GPT-5.5 behield nog een voorsprong bij exploitatie op kernelniveau, met een score van 22 tegen 12 voor Mythos op dat smalle gebied. Het UK AI Security Institute plaatste het iets voor Mythos bij experttaken op cybergebied, met 71,4% tegen 68,6%.
Anthropic introduceerde Mythos in april nadat het model found thousands of previously unknown flaws in grote besturingssystemen en alle toonaangevende webbrowsers, met honderden gemelde problemen alleen al in Firefox. Het bedrijf hield het model daarna buiten de publieke release, uit vrees dat dezelfde exploitschrijfvaardigheden aanvallers net zo goed zouden kunnen helpen als de verdedigers waarvoor het werd ontwikkeld.
Lees ook: Strategy Pulls $30M In Bitcoin Back, Cooling Sell-Off Fears





