Claude Mythos AI dépasse ses rivaux sur les audits de code, mais perd l’avantage avec un prix 5 fois plus élevé

Claude Mythos AI dépasse ses rivaux sur les audits de code, mais perd l’avantage avec un prix 5 fois plus élevé

Anthropic's Mythos AI model domine les systèmes rivaux pour la détection de vulnérabilités logicielles, mais de nouveaux benchmarks indépendants révèlent un jugement plus faible et des coûts d’exécution élevés.

Mythos Preview domine les audits de code source

La société de sécurité offensive XBOW a confirmé l’affirmation principale. L’entreprise a réuni une équipe de 10 experts pour évaluer le modèle sur des benchmarks, des flux de travail et des intégrations.

XBOW a indiqué que Mythos Preview « représente une avancée significative par rapport à tous les modèles existants, quel que soit le fournisseur ». Les testeurs ont soumis le modèle à des applications open source figées contenant des vulnérabilités connues.

Mythos a réduit les faux négatifs de 42 % par rapport à Opus 4.6, la réduction atteignant 55 % une fois que le modèle a obtenu l’accès au code source, a rapporté The Decoder. Le modèle a excellé dans les tests combinant exécution en direct et accès au code source. Ses performances étaient moins fiables lorsqu’il ne recevait que le code source.

Also Read: XRP ETFs Hit Record $1.39B But Token Loses 4th Spot To BNB

La question du coût tempère l’avantage d’Anthropic

Anthropic a indiqué que Mythos Preview sera environ 5 fois plus cher qu’un modèle Opus, déjà parmi les options les plus coûteuses du marché. Cette prime a incité XBOW à tester si un rival moins cher pouvait égaler Mythos avec plus de temps de calcul.

La réponse est oui. Avec un budget de jetons fixe pour la découverte de vulnérabilités web, Mythos a battu Opus 4.6 mais a perdu face à OpenAI's GPT-5.5, que XBOW a mesuré avec un taux de ratés de 10 %. XBOW a noté que le modèle « n’est pas terriblement inefficace » si la précision est l’objectif, mais qu’il n’est pas le meilleur une fois le coût normalisé pris en compte.

L’entreprise recommande désormais d’utiliser un mélange de modèles plutôt que de se reposer sur un seul.

Les performances de Mythos AI en contexte

Mythos a montré un jugement mitigé, rejetant mieux les faux positifs que ses prédécesseurs, mais écartant parfois de vrais positifs lorsque les preuves ne satisfaisaient pas à ses critères formels. L’ingénierie inverse et l’analyse de code natif figuraient parmi ses compétences les plus marquées, le modèle étant capable de trier les résultats produits par des systèmes concurrents.

Anthropic first unveiled Mythos in early April, en limitant l’accès à environ 50 partenaires et en présentant cette sortie comme un changement d’échelle des capacités cyber de l’IA. L’AI Security Institute du Royaume‑Uni a ensuite indiqué que Mythos et GPT-5.5 avaient « largement dépassé » ses prévisions accélérées. L’agence estime désormais que les capacités cyber doublent tous les 4,7 mois, contre une estimation précédente de huit mois fixée en novembre 2025.

Read Next: Hyperliquid Rejects Wall Street's Manipulation Claims As HYPE Drops 14%

Avertissement et avertissement sur les risques : Les informations fournies dans cet article sont à des fins éducatives et informatives uniquement et sont basées sur l'opinion de l'auteur. Elles ne constituent pas des conseils financiers, d'investissement, juridiques ou fiscaux. Les actifs de cryptomonnaie sont très volatils et sujets à des risques élevés, y compris le risque de perdre tout ou une partie substantielle de votre investissement. Le trading ou la détention d'actifs crypto peut ne pas convenir à tous les investisseurs. Les opinions exprimées dans cet article sont uniquement celles de l'auteur/des auteurs et ne représentent pas la politique officielle ou la position de Yellow, de ses fondateurs ou de ses dirigeants. Effectuez toujours vos propres recherches approfondies (D.Y.O.R.) et consultez un professionnel financier agréé avant de prendre toute décision d'investissement.
Dernières nouvelles
Voir toutes les nouvelles
Claude Mythos AI dépasse ses rivaux sur les audits de code, mais perd l’avantage avec un prix 5 fois plus élevé | Yellow.com