Anthropic's Mythos AI model liegt beim Aufspüren von Softwareschwachstellen vor Konkurrenzsystemen, doch neue unabhängige Benchmarks decken schwächere Urteilsfähigkeit und hohe Betriebskosten auf.
Mythos Preview führt bei Source‑Code‑Audits
Das Offensive‑Security‑Unternehmen XBOW bestätigte die zentrale Behauptung. Das Unternehmen stellte ein Team aus 10 Expertinnen und Experten zusammen, um das Modell anhand von Benchmarks, Workflows und Integrationen zu bewerten.
XBOW erklärte, Mythos Preview „stellt einen bedeutenden Fortschritt gegenüber allen bestehenden Modellen dar, unabhängig vom Anbieter“. Die Tester ließen das Modell gegen eingefrorene Open‑Source‑Anwendungen mit bekannten Schwachstellen antreten.
Mythos reduzierte die False‑Negatives im Vergleich zu Opus 4.6 um 42 %, wobei die Reduktion 55 % erreichte, sobald das Modell Zugriff auf den Quellcode erhielt, wie The Decoder berichtete. Das Modell glänzte beim kombinierten Live‑plus‑Source‑Testing. Es arbeitete weniger zuverlässig, wenn es nur den Quellcode erhielt.
Also Read: XRP ETFs Hit Record $1.39B But Token Loses 4th Spot To BNB
Kostenfrage schmälert Anthropics Vorsprung
Anthropic hat angedeutet, dass Mythos Preview etwa fünfmal so teuer sein wird wie ein Opus‑Modell, das bereits zu den teuersten Optionen am Markt zählt. Diese Preisprämie veranlasste XBOW zu prüfen, ob ein günstigerer Rivale mit mehr Laufzeit mit Mythos mithalten kann.
Die Antwort war ja. Bei einem festen Token‑Budget für die Entdeckung von Web‑Schwachstellen schlug Mythos zwar Opus 4.6, verlor jedoch gegen OpenAI's GPT-5.5, das XBOW mit einer Fehlrate von 10 % verzeichnete. XBOW merkte an, dass das Modell „nicht sonderlich ineffizient“ sei, wenn Genauigkeit das Ziel ist, aber nicht mehr Klassenbester, sobald Kosten‑Normalisierung berücksichtigt wird.
Das Unternehmen empfiehlt nun, einen Mix aus Modellen einzusetzen, statt sich auf eines zu verlassen.
Mythos‑KI‑Leistung im Kontext
Mythos zeigte eine gemischte Urteilsfähigkeit: Es wies False‑Positives besser zurück als Vorgänger, verwarf jedoch gelegentlich auch echte Funde, wenn die Beweislage seine formalen Kriterien nicht erfüllte. Reverse Engineering und die Analyse von nativen Binaries gehörten zu seinen stärksten Fähigkeiten; das Modell konnte außerdem Ergebnisse konkurrierender Systeme triagieren.
Anthropic first unveiled Mythos in early April, beschränkte den Zugang auf rund 50 Partner und präsentierte den Release als Quantensprung bei KI‑Cyberfähigkeiten. Das U.K. AI Security Institute erklärte später, sowohl Mythos als auch GPT‑5.5 hätten seine beschleunigte Prognose „deutlich übertroffen“. Die Behörde schätzt nun, dass sich Cyber‑Fähigkeiten alle 4,7 Monate verdoppeln, gegenüber einer früheren Acht‑Monats‑Schätzung aus November 2025.
Read Next: Hyperliquid Rejects Wall Street's Manipulation Claims As HYPE Drops 14%





