Claude Opus 4.8 domine l’indice d’intelligence tandis que Mythos surclasse en piratage

Anthropic released its newest model, Claude Opus 4.8, cette semaine, avec une légère avance sur un benchmark d’intelligence, mais il reste derrière le système restreint Mythos de l’entreprise pour la génération d’exploits logiciels.

Points clés :

Claude Opus 4.8 arrive de justesse en tête de l’Artificial Analysis Intelligence Index avec 61,4, juste devant GPT-5.5 à 60,2.

Dans les tests internes d’Anthropic, Mythos a produit des exploits fonctionnels pour Firefox sur 70,8 % des cibles, contre 8,8 % pour Opus 4.8.

Mythos reste limité à des partenaires triés sur le volet du projet Glasswing, tandis que Opus 4.8 est proposé au même prix que son prédécesseur.

Avance de référence pour Opus 4.8

L’entreprise a déployé Opus 4.8 cette semaine et l’a priced à 5 $ par million de tokens en entrée et 25 $ par million en sortie, maintenant le tarif au niveau de l’ancien Opus 4.7.

Des testeurs indépendants report que le modèle est désormais en tête de l’Artificial Analysis Intelligence Index avec 61,4, une agrégation de dix évaluations, juste devant GPT-5.5 à 60,2. Anthropic présente cette mise à niveau comme une amélioration modeste et incrémentale plutôt qu’un saut générationnel comme son nom pourrait le suggérer.

Sur le codage agentique, Opus 4.8 scores 69,2 % sur SWE-bench Pro, un benchmark qui demande à un modèle de corriger de vrais bogues dans de grands dépôts de code, tandis que GPT-5.5 atteint 58,6 %.

Les deux systèmes sont presque à égalité sur les questions scientifiques de niveau master, autour de 94 %, et Opus 4.8 devance légèrement un examen de raisonnement général sur lequel ses prédécesseurs étaient à la traîne.

Mythos surpasse les deux sur les tâches d’ingénierie les plus difficiles, avec un score de 77,8 % sur ce même benchmark de codage et un avantage plus large sur les tâches mêlant code et captures d’écran. Anthropic restricts Mythos to a vetted set of partners dans le cadre de son programme Project Glasswing, au lieu de le vendre librement. Il charges 25 $ et 125 $ par million de tokens pour la phase de préversion, soit cinq fois le tarif d’Opus.

Also Read: Zcash Cools After A 6% Drop While Monero Steals The Spotlight

Domination cyber de Mythos

L’écart le plus marqué apparaît en sécurité offensive.

Avec les garde‑fous désactivés, Mythos produced un exploit complet et fonctionnel sur 70,8 % des cibles Firefox dans les propres évaluations d’Anthropic, tandis que Opus 4.8 n’a atteint que 8,8 %.

Sur un autre test tiré de code open source, Opus 4.8 n’a obtenu aucun score sur 61,5 % des cibles, plus du double du taux d’échec de 23,3 % enregistré par Mythos.

Un essai public croisé entre modèles, mené par le Berkeley RDI, a associé chaque système à son propre agent de codage sur 898 vulnérabilités réelles, où Mythos a écrit 157 exploits fonctionnels contre 120 pour GPT-5.5.

GPT-5.5 a toutefois conservé un avantage sur l’exploitation au niveau du noyau, devançant Mythos 22 à 12 sur ce segment étroit. Le UK AI Security Institute l’a placé légèrement devant Mythos sur les tâches cyber de niveau expert, à 71,4 % contre 68,6 %.

Anthropic a dévoilé Mythos en avril après que le modèle a found thousands of previously unknown flaws dans les principaux systèmes d’exploitation et tous les principaux navigateurs web, avec des centaines de failles signalées sur Firefox à lui seul. L’entreprise a ensuite renoncé à une diffusion publique, craignant que ces capacités d’écriture d’exploits puissent aussi bien aider les attaquants que les défenseurs pour lesquels il avait été conçu.