GPT-5.6 Sol contre Claude Fable 5 : les benchmarks de code montrent une course serrée

GPT-5.6 Sol contre Claude Fable 5 : les benchmarks de code montrent une course serrée

De nouveaux face-à-face opposent OpenAI et son GPT-5.6 Sol, détenteur d’un score de 88,8 % sur un benchmark de code de référence, à Anthropic et son Claude Fable 5, crédité d’une note de 80,3 % en ingénierie logicielle.

Points clés :

  • GPT-5.6 Sol arrive en tête sur Terminal-Bench 2.1 avec 88,8 %, et son mode Ultra pousse ce score à 91,9 %.
  • Claude Fable 5 conserve la plus grande avance publiée sur SWE-Bench Pro avec 80,3 %, contre 58,6 % pour GPT-5.5.
  • Sol reste limité à un aperçu approuvé par les autorités, tandis que Fable 5 est redevenu disponible dans le monde entier le 1ᵉʳ juillet.

Les revendications de benchmark de GPT-5.6 Sol

OpenAI a présenté en avant-première la famille GPT-5.6 le 26 juin, sa première mise à jour depuis GPT-5.5 en avril, en scindant la gamme en trois niveaux avec Sol comme porte-étendard.

L’entreprise affirme que Sol atteint 88,8 % sur Terminal-Bench 2.1, un test d’agents de programmation en ligne de commande capables de planifier, d’itérer et de coordonner des outils. Un mode Ultra très gourmand en calcul, qui lance des sous-agents coordonnés pour accélérer les tâches complexes, porte ce chiffre à 91,9 %, la meilleure marque publiée sur le tableau Terminal-Bench.

Les testeurs qui ont comparé les graphiques publiés placent Fable 5 plusieurs points derrière Sol sur le même test de terminal, même si les chiffres cités varient entre 83,4 % et 84,3 %. Sur la suite de sécurité ExploitBench, Sol égalerait apparemment les performances de la classe Mythos tout en consommant environ un tiers des jetons de sortie, une compression des coûts importante pour les longues exécutions d’agents.

Presque personne en dehors du programme d’aperçu ne peut encore vérifier ces chiffres de manière indépendante, un bémol signalé par plusieurs examinateurs tout en reconnaissant les scores bruts.

À lire aussi : OpenAI et Anthropic veulent des introductions en bourse à la SpaceX, mais Wall Street pourrait s’étouffer

Avantage de Fable 5 sur le code et tarification

Fable 5 conserve le benchmark que la plupart des analystes considèrent comme décisif pour le travail logiciel autonome, et son avance y est loin d’être négligeable. Il obtient 80,3 % sur SWE-Bench Pro, qui mesure les corrections de bout en bout de véritables problèmes GitHub, contre 58,6 % pour l’ancien GPT-5.5, et OpenAI n’a publié aucun chiffre GPT-5.6 sur ce test.

Les analystes qui ont constaté de tels écarts en programmation, raisonnement et connaissances doutent qu’une simple mise à jour incrémentale suffise à les combler totalement.

Les prix penchent dans l’autre sens, Sol étant annoncé à 5 $ par million de jetons d’entrée et 30 $ pour la sortie, soit la moitié des 10 $ et 50 $ de Fable 5. Plusieurs testeurs ont soutenu qu’une configuration rationnelle dirigerait les agents pilotés par terminal vers Sol, une fois ouvert, et les corrections au niveau dépôt vers Fable 5.

L’accès marque la différence la plus nette, puisque Sol reste cantonné à un aperçu limité pour une vingtaine de partenaires approuvés par les autorités, tandis que Fable 5 est revenu dans le monde entier le 1ᵉʳ juillet avec un bonus d’usage temporaire pour les abonnés payants jusqu’au 7 juillet.

Juin a transformé l’accès aux modèles de pointe en cible mouvante pour les deux laboratoires, et ces à-coups conditionnent toutes les évaluations. Washington a forcé Fable 5 et son grand frère plus puissant Mythos 5 à être mis hors ligne le 12 juin, invoquant de graves risques de cybersécurité, après que des chercheurs d’Amazon ont mis au jour un jailbreak produisant du code d’exploitation. Le secrétaire au Commerce Howard Lutnick a confirmé le revirement le 30 juin, à l’issue d’un examen de deux semaines, quelques jours après le retour discret de Mythos 5 auprès d’environ 100 organisations américaines sélectionnées.

À lire ensuite : Pourquoi l’ETH reste faible alors que le staking d’Ethereum atteint des records ?

Avertissement et avertissement sur les risques : Les informations fournies dans cet article sont à des fins éducatives et informatives uniquement et sont basées sur l'opinion de l'auteur. Elles ne constituent pas des conseils financiers, d'investissement, juridiques ou fiscaux. Les actifs de cryptomonnaie sont très volatils et sujets à des risques élevés, y compris le risque de perdre tout ou une partie substantielle de votre investissement. Le trading ou la détention d'actifs crypto peut ne pas convenir à tous les investisseurs. Les opinions exprimées dans cet article sont uniquement celles de l'auteur/des auteurs et ne représentent pas la politique officielle ou la position de Yellow, de ses fondateurs ou de ses dirigeants. Effectuez toujours vos propres recherches approfondies (D.Y.O.R.) et consultez un professionnel financier agréé avant de prendre toute décision d'investissement.
Dernières nouvelles
Voir toutes les nouvelles