Claude Mythos AI overtreft rivalen bij code-audits, verliest door 5x hogere prijs

Anthropic's Mythos AI model loopt voor op rivaliserende systemen bij het vinden van softwarekwetsbaarheden, maar nieuwe, onafhankelijke benchmarks tonen zwakkere oordeelsvorming en hoge gebruikskosten.

Mythos Preview domineert audits van broncode

Offensief beveiligingsbedrijf XBOW bevestigde de belangrijkste claim. Het bedrijf stelde een team van 10 experts samen om het model te evalueren op benchmarks, workflows en integraties.

XBOW stelde dat Mythos Preview „een aanzienlijke stap vooruit betekent ten opzichte van alle bestaande modellen, ongeacht de aanbieder.” Testers draaiden het model tegen bevroren open‑source-applicaties met bekende kwetsbaarheden.

Mythos verlaagde het aantal gemiste kwetsbaarheden (false negatives) met 42% ten opzichte van Opus 4.6; die reductie liep op tot 55% zodra het model toegang kreeg tot de broncode, aldus The Decoder meldde. Het model blonk uit in gecombineerde live‑plus‑source-tests. Het presteerde minder betrouwbaar wanneer het alleen broncode kreeg.

Also Read: XRP ETFs Hit Record $1.39B But Token Loses 4th Spot To BNB

Vragen over kosten temperen Anthropics voorsprong

Anthropic heeft aangegeven dat Mythos Preview ongeveer vijf keer zo duur zal zijn als een Opus‑model, dat nu al tot de duurste opties op de markt behoort. Die premie bracht XBOW ertoe te testen of een goedkoper model Mythos kan evenaren als het meer rekentijd krijgt.

Het antwoord was ja. Bij een vast tokenbudget voor het opsporen van webkwetsbaarheden versloeg Mythos weliswaar Opus 4.6, maar verloor het van OpenAI's GPT-5.5, dat XBOW vastlegde met een foutmarge van 10%. XBOW merkte op dat het model „niet bijzonder inefficiënt” is als nauwkeurigheid het hoofddoel is, maar dat het niet langer best‑in‑class is zodra kosten worden genormaliseerd.

Het bedrijf raadt nu aan een mix van modellen te gebruiken in plaats van op één model te vertrouwen.

Mythos AI-prestaties in context

Mythos liet een gemengd oordeelsvermogen zien: het wees valse positieven beter af dan voorgangers, maar gooide soms echte kwetsbaarheden weg wanneer het bewijs niet voldeed aan de formele criteria. Reverse engineering en analyse van native code behoorden tot zijn sterkste vaardigheden, waarbij het model bevindingen van concurrerende systemen kon triageren.

Anthropic onthulde Mythos voor het eerst begin april, gaf slechts ongeveer 50 partners toegang en positioneerde de lancering als een sprong voorwaarts in AI‑capaciteiten voor cyberbeveiliging. Het Britse AI Security Institute verklaarde later dat zowel Mythos als GPT-5.5 zijn „versnelde” prognose ruim hadden overtroffen. De instantie schat nu dat cybercapaciteiten elke 4,7 maand verdubbelen, tegenover een eerdere raming van acht maanden in november 2025.