Claude Opus 4.8 domine l’indice d’intelligence tandis que Mythos surclasse en piratage

Alexey BondarevMay, 31 2026 8:59

#IA #Claude #Claude Mythos #ChatGPT #Anthropic #OpenAI #Claude Opus

Anthropic's freshly launched Claude Opus 4.8 leads on intelligence while its restricted Mythos model proves far stronger at writing software exploits. (Image: Shutterstock)

Anthropic released its newest model, Claude Opus 4.8, cette semaine, avec une légère avance sur un benchmark d’intelligence, mais il reste derrière le système restreint Mythos de l’entreprise pour la génération d’exploits logiciels.

Points clés :

Claude Opus 4.8 arrive de justesse en tête de l’Artificial Analysis Intelligence Index avec 61,4, juste devant GPT-5.5 à 60,2.

Dans les tests internes d’Anthropic, Mythos a produit des exploits fonctionnels pour Firefox sur 70,8 % des cibles, contre 8,8 % pour Opus 4.8.

Mythos reste limité à des partenaires triés sur le volet du projet Glasswing, tandis que Opus 4.8 est proposé au même prix que son prédécesseur.

Avance de référence pour Opus 4.8

L’entreprise a déployé Opus 4.8 cette semaine et l’a priced à 5 $ par million de tokens en entrée et 25 $ par million en sortie, maintenant le tarif au niveau de l’ancien Opus 4.7.

Des testeurs indépendants report que le modèle est désormais en tête de l’Artificial Analysis Intelligence Index avec 61,4, une agrégation de dix évaluations, juste devant GPT-5.5 à 60,2. Anthropic présente cette mise à niveau comme une amélioration modeste et incrémentale plutôt qu’un saut générationnel comme son nom pourrait le suggérer.

Sur le codage agentique, Opus 4.8 scores 69,2 % sur SWE-bench Pro, un benchmark qui demande à un modèle de corriger de vrais bogues dans de grands dépôts de code, tandis que GPT-5.5 atteint 58,6 %.

Les deux systèmes sont presque à égalité sur les questions scientifiques de niveau master, autour de 94 %, et Opus 4.8 devance légèrement un examen de raisonnement général sur lequel ses prédécesseurs étaient à la traîne.

Mythos surpasse les deux sur les tâches d’ingénierie les plus difficiles, avec un score de 77,8 % sur ce même benchmark de codage et un avantage plus large sur les tâches mêlant code et captures d’écran. Anthropic restricts Mythos to a vetted set of partners dans le cadre de son programme Project Glasswing, au lieu de le vendre librement. Il charges 25 $ et 125 $ par million de tokens pour la phase de préversion, soit cinq fois le tarif d’Opus.

Also Read: Zcash Cools After A 6% Drop While Monero Steals The Spotlight

Domination cyber de Mythos

L’écart le plus marqué apparaît en sécurité offensive.

Avec les garde‑fous désactivés, Mythos produced un exploit complet et fonctionnel sur 70,8 % des cibles Firefox dans les propres évaluations d’Anthropic, tandis que Opus 4.8 n’a atteint que 8,8 %.

Sur un autre test tiré de code open source, Opus 4.8 n’a obtenu aucun score sur 61,5 % des cibles, plus du double du taux d’échec de 23,3 % enregistré par Mythos.

Un essai public croisé entre modèles, mené par le Berkeley RDI, a associé chaque système à son propre agent de codage sur 898 vulnérabilités réelles, où Mythos a écrit 157 exploits fonctionnels contre 120 pour GPT-5.5.

GPT-5.5 a toutefois conservé un avantage sur l’exploitation au niveau du noyau, devançant Mythos 22 à 12 sur ce segment étroit. Le UK AI Security Institute l’a placé légèrement devant Mythos sur les tâches cyber de niveau expert, à 71,4 % contre 68,6 %.

Anthropic a dévoilé Mythos en avril après que le modèle a found thousands of previously unknown flaws dans les principaux systèmes d’exploitation et tous les principaux navigateurs web, avec des centaines de failles signalées sur Firefox à lui seul. L’entreprise a ensuite renoncé à une diffusion publique, craignant que ces capacités d’écriture d’exploits puissent aussi bien aider les attaquants que les défenseurs pour lesquels il avait été conçu.

Alexey Bondarev

Alexey Bondarev est responsable du contenu chez Yellow.com et couvre l’actualité crypto depuis dix ans. Il est spécialisé dans les articles de Recherche et Learn approfondis, avec un accent particulier sur l’analyse, la mise en contexte sectorielle et les grandes forces qui façonnent l’écosystème crypto, de l’ère de l’IA et des technologies de sécurité aux innovations fintech. Il est convaincu que tout ce qui est numérique supplantera très prochainement tout ce qui est analogique et travaille dur pour contribuer à rendre cela possible.

Avertissement et avertissement sur les risques : Les informations fournies dans cet article sont à des fins éducatives et informatives uniquement et sont basées sur l'opinion de l'auteur. Elles ne constituent pas des conseils financiers, d'investissement, juridiques ou fiscaux. Les actifs de cryptomonnaie sont très volatils et sujets à des risques élevés, y compris le risque de perdre tout ou une partie substantielle de votre investissement. Le trading ou la détention d'actifs crypto peut ne pas convenir à tous les investisseurs. Les opinions exprimées dans cet article sont uniquement celles de l'auteur/des auteurs et ne représentent pas la politique officielle ou la position de Yellow, de ses fondateurs ou de ses dirigeants. Effectuez toujours vos propres recherches approfondies (D.Y.O.R.) et consultez un professionnel financier agréé avant de prendre toute décision d'investissement.

Dernières nouvelles

Voir toutes les nouvelles

XRP se stabilise au‑dessus de 1 $ alors que les entrées sur Binance tombent à un plus bas historique

il y a 43 minutes

XRP se consolide au‑dessus de 1 $, la pression vendeuse faiblit mais le franchissement durable de 1,12 $ reste tributaire des flux institutionnels.

Bitget reconfigure BGBTC pour offrir aux détenteurs de Bitcoin des récompenses quotidiennes

il y a 1 heure

Bitget modernise BGBTC : rendements BTC quotidiens, transferts inter-chaînes via Chainlink et supervision des risques confiée à Gauntlet.

Elon Musk dément une vente de Tesla Chine alors que les rumeurs de fusion avec SpaceX enflent

il y a 3 heures

Musk rejette une scission de Tesla Chine, mais le marché parie encore sur une fusion Tesla–SpaceX, lourde d’enjeux géopolitiques.

Actualités Connexes