Claude Opus 4.8 dépasse Gemini et GPT sur plusieurs tests de programmation

Anthropic a lancé Claude Opus 4.8, affirmant que ce modèle amélioré surpasse OpenAI et son GPT-5.5 ainsi que Google et son Gemini 3.1 Pro sur plusieurs benchmarks de programmation.

Points clés :

Anthropic a lancé Claude Opus 4.8 le 28 mai, avec un prix identique à la version 4.7 précédente.

L’entreprise affirme qu’il dépasse GPT-5.5 d’OpenAI et Gemini 3.1 Pro de Google sur SWE-Bench Pro et d’autres tests.

Un mode rapide repensé et des workflows dynamiques visent à réduire le coût et le temps du travail agentique.

Claude Opus 4.8 domine les benchmarks de programmation

L’entreprise a présenté le modèle jeudi, en s’appuyant sur la version Opus 4.7 sortie environ six semaines plus tôt. Anthropic indique qu’Opus 4.8 a obtenu un score de 69,2 % au test de programmation SWE-Bench Pro, dépassant ses deux rivaux sur ce benchmark et les devançant sur plusieurs autres mesures. L’entreprise signale également des progrès dans l’usage de l’ordinateur, le travail de connaissance et l’analyse financière, ainsi qu’un score de 74,2 % sur le benchmark Terminal-Bench 2.1.

Anthropic présente cette version comme un modèle plus honnête, expliquant que les testeurs ont constaté qu’il signale davantage ses incertitudes et évite les affirmations non étayées. Les évaluations internes le jugent environ quatre fois moins susceptible qu’Opus 4.7 de laisser passer des erreurs de code, et la société affirme qu’il obtient de meilleurs scores en matière de respect de l’autonomie des utilisateurs.

Pourquoi les contrôles de coûts d’Anthropic comptent

Les tarifs restent fixés à 5 $ par million de tokens en entrée et 25 $ par million de tokens en sortie. Un mode rapide repensé fonctionne désormais environ 150 % plus vite et coûte trois fois moins cher que le réglage précédent. Anthropic a également ouvert un aperçu de recherche de workflows dynamiques, qui lancent des centaines de sous-agents parallèles pour des migrations couvrant des centaines de milliers de lignes de code.

Malgré cela, les progrès restent incrémentiels.

GPT-5.5 conserve l’avantage sur un test de programmation en terminal, et Anthropic elle‑même décrit le modèle comme une étape modeste plutôt qu’une percée. Les développeurs peuvent désormais modifier les instructions données à Claude en cours de tâche via l’API Messages. Les acheteurs en quête d’IA moins coûteuse pourraient accorder plus d’importance à ces mécanismes de contrôle des dépenses qu’aux marges minimes entre les meilleurs modèles.

Valorisation d’Anthropic et contexte autour de Mythos

Le lancement est intervenu le même jour où Anthropic a confirmé un tour de table de série H de 65 milliards de dollars, pour une valorisation de 965 milliards de dollars. Cette levée, menée par Altimeter Capital, Dragoneer, Greenoaks et Sequoia Capital, a propulsé cette entreprise de cinq ans devant les 850 milliards de dollars rapportés pour OpenAI et a fait grimper son chiffre d’affaires annuel à près de 47 milliards de dollars.

La valorisation a presque triplé par rapport aux 380 milliards de dollars de février, dans ce qui pourrait être la dernière levée privée d’Anthropic avant une introduction en bourse. L’entreprise a retenu son modèle plus puissant Mythos, conçu pour la cybersécurité, et ne l’a fourni qu’à une poignée d’organisations pour des raisons de sécurité. Elle s’attend désormais à élargir l’accès aux systèmes de la gamme Mythos à l’ensemble de ses clients dans les semaines à venir.