Claude Mythos KI übertrifft Rivalen bei Code-Audits, verliert durch 5-fachen Preisvorteil

Anthropic's Mythos AI model liegt bei der Erkennung von Softwareschwachstellen vor den Konkurrenzsystemen, doch neue unabhängige Benchmarks decken schwächere Urteilsfähigkeit und hohe Betriebskosten auf.

Mythos Preview führt bei Source-Code-Audits

Das Offensive-Security-Unternehmen XBOW confirmed die zentrale Behauptung. Das Unternehmen stellte ein Team aus zehn Expertinnen und Experten zusammen, um das Modell anhand von Benchmarks, Workflows und Integrationen zu evaluieren.

XBOW erklärte, Mythos Preview „stellt einen bedeutenden Fortschritt gegenüber allen bestehenden Modellen dar, unabhängig vom Anbieter“. Die Tester setzten das Modell gegen eingefrorene Open‑Source‑Anwendungen mit bekannten Schwachstellen ein.

Mythos verringerte die False Negatives gegenüber Opus 4.6 um 42 %, wobei die Reduktion auf 55 % anstieg, sobald das Modell Zugriff auf den Quellcode erhielt, wie The Decoder reported berichtete. Das Modell glänzte bei Tests, die Live‑Systeme plus Quellcode kombinierten. Es arbeitete weniger zuverlässig, wenn es ausschließlich Quellcode erhielt.

Also Read: XRP ETFs Hit Record $1.39B But Token Loses 4th Spot To BNB

Kostendebatte bremst Anthropics Vorsprung

Anthropic hat angegeben, dass Mythos Preview etwa fünfmal teurer sein wird als ein Opus‑Modell, das bereits zu den kostspieligsten Optionen am Markt zählt. Diese Preisprämie veranlasste XBOW zu testen, ob ein günstigerer Rivale bei längerer Laufzeit mit Mythos mithalten kann.

Die Antwort lautete ja. Bei einem festen Token‑Budget für das Aufspüren von Web‑Schwachstellen schlug Mythos zwar Opus 4.6, unterlag jedoch OpenAI's GPT-5.5, das XBOW recorded mit einer Fehlerrate von 10 % dokumentierte. XBOW merkte an, das Modell sei „nicht sonderlich ineffizient“, wenn Genauigkeit das Ziel ist, aber es sei nicht mehr führend, sobald die Kosten in die Bewertung einfließen.

Das Unternehmen empfiehlt nun, eine Mischung aus Modellen einzusetzen, statt sich auf eines zu verlassen.

Mythos KI-Leistung im Kontext

Mythos zeigte eine gemischte Urteilsfähigkeit: Es wies False Positives besser zurück als Vorgänger, verwarf jedoch gelegentlich echte Funde, wenn die Belege nicht seinen formalen Kriterien entsprachen. Reverse Engineering und die Analyse von nativen Binaries gehörten zu seinen stärksten Fähigkeiten; das Modell konnte dabei auch Ergebnisse konkurrierender Systeme triagieren.

Anthropic first unveiled Mythos in early April und beschränkte den Zugang zunächst auf rund 50 Partner, wobei der Release als Quantensprung in der KI‑Cyber‑Fähigkeit positioniert wurde. Das britische U.K. AI Security Institute erklärte später, sowohl Mythos als auch GPT‑5.5 hätten seine beschleunigte Prognose „deutlich übertroffen“. Die Behörde schätzt nun, dass sich die Cyber‑Fähigkeiten etwa alle 4,7 Monate verdoppeln, nach zuvor rund acht Monaten, die im November 2025 veranschlagt worden waren.