Claude Opus 4.8 voert de intelligentie-index aan terwijl Mythos domineert bij hacken

Claude Opus 4.8 voert de intelligentie-index aan terwijl Mythos domineert bij hacken

Anthropic released its newest model, Claude Opus 4.8, deze week met een kleine voorsprong op een intelligentiebenchmark, maar het blijft achter op het beperkte Mythos-systeem bij het schrijven van software-exploits.

Belangrijkste punten:

  • Claude Opus 4.8 staat nipt bovenaan de Artificial Analysis Intelligence Index met 61,4, net voor GPT-5.5 met 60,2.
  • In interne tests van Anthropic produceerde Mythos werkende Firefox-exploits voor 70,8% van de doelwitten, tegenover 8,8% voor Opus 4.8.
  • Mythos blijft beperkt tot gescreende Project Glasswing-partners, terwijl Opus 4.8 tegen dezelfde prijs wordt geleverd als zijn voorganger.

Opus 4.8 leidt op benchmarks

Het bedrijf rolde Opus 4.8 deze week uit en priced het op $5 per miljoen invoertokens en $25 per miljoen uitvoertokens, waarmee het tarief gelijk blijft aan de vorige Opus 4.7.

Onafhankelijke testers report dat het model nu bovenaan de Artificial Analysis Intelligence Index staat met 61,4, een aggregaat van tien evaluaties, net voor GPT-5.5 met 60,2. Anthropic presenteert de upgrade als een bescheiden, incrementele stap in plaats van de generatie­sprong die de naamgeving zou kunnen suggereren.

Op het gebied van agentisch coderen scores Opus 4.8 69,2% op SWE-bench Pro, een benchmark die een model vraagt echte bugs in grote coderepositories op te lossen, terwijl GPT-5.5 58,6% haalt.

De twee systemen liggen vrijwel gelijk bij vragen op masterniveau in de natuurwetenschappen, beide rond de 94%, en Opus 4.8 leidt nipt op een brede redeneer­toets waarop zijn voorgangers achterbleven.

Mythos staat boven beide bij het zwaarste technische werk, met 77,8% op diezelfde codebenchmark en een grotere voorsprong bij taken die code met schermafbeeldingen combineren. Anthropic restricts Mythos to a vetted set of partners onder zijn Project Glasswing-programma, in plaats van het openlijk te verkopen. Het charges $25 en $125 per miljoen tokens voor de preview, vijf keer het Opus-tarief.

Ook interessant: Zcash Cools After A 6% Drop While Monero Steals The Spotlight

Cyberdominantie van Mythos

De grootste kloof komt naar voren in offensieve beveiliging.

Met beveiligings­maatregelen uitgeschakeld produced Mythos een volledig werkende exploit voor 70,8% van de Firefox-doelwitten in Anthropic’s eigen evaluaties, terwijl Opus 4.8 slechts 8,8% haalde.

In een aparte test op basis van opensource­code slaagde Opus 4.8 er niet in om te scoren op 61,5% van de doelwitten, meer dan het dubbele van het mislukkingpercentage van 23,3% voor Mythos.

Een publieke cross-modelproef, uitgevoerd door Berkeley RDI, koppelde elk systeem aan zijn eigen codeagent voor 898 kwetsbaarheden uit de praktijk, waarbij Mythos 157 werkende exploits schreef tegenover 120 voor GPT-5.5.

GPT-5.5 behield nog een voorsprong bij exploitatie op kernelniveau, met een score van 22 tegen 12 voor Mythos op dat smalle gebied. Het UK AI Security Institute plaatste het iets voor Mythos bij expert­taken op cybergebied, met 71,4% tegen 68,6%.

Anthropic introduceerde Mythos in april nadat het model found thousands of previously unknown flaws in grote besturingssystemen en alle toonaangevende webbrowsers, met honderden gemelde problemen alleen al in Firefox. Het bedrijf hield het model daarna buiten de publieke release, uit vrees dat dezelfde exploit­schrijfvaardigheden aanvallers net zo goed zouden kunnen helpen als de verdedigers waarvoor het werd ontwikkeld.

Lees ook: Strategy Pulls $30M In Bitcoin Back, Cooling Sell-Off Fears

Disclaimer en risicowaarschuwing: De informatie in dit artikel is uitsluitend voor educatieve en informatieve doeleinden en is gebaseerd op de mening van de auteur. Het vormt geen financieel, investerings-, juridisch of belastingadvies. Cryptocurrency-assets zijn zeer volatiel en onderhevig aan hoog risico, inclusief het risico om uw gehele of een substantieel deel van uw investering te verliezen. Het handelen in of aanhouden van crypto-assets is mogelijk niet geschikt voor alle beleggers. De meningen die in dit artikel worden geuit zijn uitsluitend die van de auteur(s) en vertegenwoordigen niet het officiële beleid of standpunt van Yellow, haar oprichters of haar leidinggevenden. Voer altijd uw eigen grondig onderzoek uit (D.Y.O.R.) en raadpleeg een gelicentieerde financiële professional voordat u een investeringsbeslissing neemt.
Claude Opus 4.8 voert de intelligentie-index aan terwijl Mythos domineert bij hacken | Yellow.com