Claude Mythos AI surpasse ses rivaux sur les audits de code, mais perd avec un prix 5 fois plus élevé

Anthropic's Mythos AI model devance les systèmes rivaux pour la détection des vulnérabilités logicielles, mais de nouveaux benchmarks indépendants révèlent un jugement plus faible et des coûts d’exécution élevés.

Mythos Preview domine les audits de code source

La société de sécurité offensive XBOW a confirmé l’affirmation principale. L’entreprise a réuni une équipe de 10 experts pour évaluer le modèle sur des benchmarks, des flux de travail et des intégrations.

XBOW indique que Mythos Preview « représente une avancée significative par rapport à tous les modèles existants, quel que soit le fournisseur ». Les testeurs ont exécuté le modèle sur des applications open source figées présentant des vulnérabilités connues.

Mythos a réduit les faux négatifs de 42 % par rapport à Opus 4.6, la réduction atteignant 55 % une fois que le modèle avait accès au code source, a rapporté The Decoder reported. Le modèle a excellé dans les tests combinant exécution en direct et accès au code source. Il s’est montré moins fiable lorsqu’il ne disposait que du code source.

Also Read: XRP ETFs Hit Record $1.39B But Token Loses 4th Spot To BNB

La question du coût tempère l’avantage d’Anthropic

Anthropic a indiqué que Mythos Preview serait environ 5 fois plus cher qu’un modèle Opus, déjà parmi les options les plus coûteuses du marché. Cette prime a poussé XBOW à tester si un rival moins cher pouvait égaler Mythos avec plus de temps de calcul.

La réponse est oui. Sur un budget de jetons fixe pour la découverte de vulnérabilités web, Mythos a battu Opus 4.6 mais a perdu face à OpenAI's GPT-5.5, qu’XBOW a recorded avec un taux de ratés de 10 %. XBOW a noté que le modèle « n’est pas terriblement inefficace » si l’objectif est la précision, mais qu’il n’est pas le meilleur de sa catégorie dès lors que l’on tient compte des coûts.

L’entreprise recommande désormais d’exécuter un ensemble de modèles plutôt que de s’appuyer sur un seul.

Performance de Mythos AI dans son contexte

Mythos a montré un jugement mitigé, rejetant mieux les faux positifs que ses prédécesseurs, mais écartant parfois de vrais positifs lorsque les preuves ne répondaient pas à ses critères formels. L’ingénierie inverse et l’analyse de code natif comptent parmi ses points forts, le modèle étant capable de trier les résultats provenant de systèmes concurrents.

Anthropic first unveiled Mythos in early April, en limitant l’accès à environ 50 partenaires et en présentant cette sortie comme un changement d’échelle des capacités d’IA en cybersécurité. L’AI Security Institute du Royaume‑Uni a ensuite indiqué que Mythos et GPT‑5.5 avaient « largement dépassé » ses prévisions accélérées. L’agence estime désormais que les capacités cyber doublent tous les 4,7 mois, contre une précédente estimation de huit mois fixée en novembre 2025.