Anthropic a publié cette semaine son nouveau modèle, Claude Opus 4.8, avec une légère avance sur un test d’intelligence, mais il reste derrière le système restreint Mythos pour l’écriture d’exploits logiciels.
Points clés :
- Claude Opus 4.8 dépasse de peu l’Artificial Analysis Intelligence Index avec un score de 61,4, juste devant GPT-5.5 à 60,2.
- Dans les tests internes d’Anthropic, Mythos a produit des exploits Firefox fonctionnels sur 70,8 % des cibles, contre 8,8 % pour Opus 4.8.
- Mythos reste réservé à des partenaires triés sur le volet dans le cadre de Project Glasswing, tandis qu’Opus 4.8 est commercialisé au même prix que son prédécesseur.
Avance d’Opus 4.8 sur les benchmarks
L’entreprise a déployé Opus 4.8 cette semaine et l’a tarifié à 5 $ par million de tokens en entrée et 25 $ par million en sortie, maintenant le même niveau que l’ancien Opus 4.7.
Des testeurs indépendants indiquent que le modèle est désormais en tête de l’Artificial Analysis Intelligence Index avec 61,4, une moyenne de dix évaluations, juste devant GPT-5.5 à 60,2. Anthropic présente cette mise à niveau comme une amélioration modeste et incrémentale, plutôt qu’un saut générationnel suggéré par son nom.
Sur le codage agentique, Opus 4.8 obtient 69,2 % sur SWE-bench Pro, un benchmark qui demande au modèle de corriger de vrais bugs dans de grands dépôts de code, alors que GPT-5.5 atteint 58,6 %.
Les deux systèmes sont presque à égalité sur les questions de sciences de niveau master, avoisinant tous deux les 94 %, et Opus 4.8 devance légèrement un large examen de raisonnement sur lequel ses prédécesseurs étaient en retrait.
Mythos surpasse les deux sur les tâches d’ingénierie les plus difficiles, avec 77,8 % sur ce même benchmark de codage, et un avantage plus marqué sur les tâches mêlant code et captures d’écran. Anthropic limite l’accès à Mythos à un ensemble de partenaires vérifiés dans le cadre de son programme Project Glasswing, plutôt que de le vendre librement. L’entreprise facture 25 $ et 125 $ par million de tokens pour la préversion, soit cinq fois le tarif d’Opus.
À lire aussi : Zcash Cools After A 6% Drop While Monero Steals The Spotlight
Suprématie cyber de Mythos
L’écart le plus marqué apparaît en sécurité offensive.
Avec les garde-fous désactivés, Mythos a produit un exploit complet et fonctionnel sur 70,8 % des cibles Firefox dans les évaluations internes d’Anthropic, tandis qu’Opus 4.8 n’a atteint que 8,8 %.
Sur un autre test issu de code open source, Opus 4.8 n’a pas réussi à marquer de point sur 61,5 % des cibles, plus du double du taux d’échec de 23,3 % enregistré par Mythos.
Un essai public croisé de modèles mené par le Berkeley RDI a associé chaque système à son propre agent de codage sur 898 vulnérabilités réelles : Mythos a rédigé 157 exploits fonctionnels, contre 120 pour GPT-5.5.
GPT-5.5 gardait toutefois un avantage sur l’exploitation au niveau du noyau, devançant Mythos 22 à 12 sur ce segment restreint. Le UK AI Security Institute l’a placé légèrement devant Mythos sur les tâches cyber de niveau expert, à 71,4 % contre 68,6 %.
Anthropic a dévoilé Mythos en avril, après que le modèle a découvert des milliers de failles jusqu’alors inconnues dans les principaux systèmes d’exploitation et tous les principaux navigateurs, avec des centaines de vulnérabilités signalées rien que dans Firefox. L’entreprise a ensuite renoncé à une sortie publique, estimant que ces mêmes capacités d’écriture d’exploits pourraient autant aider les attaquants que les défenseurs pour lesquels il était conçu.
À lire ensuite : Strategy Pulls $30M In Bitcoin Back, Cooling Sell-Off Fears





