GPT-5.6 Sol contre Claude Fable 5 : les benchmarks de code montrent une course serrée

De nouveaux comparatifs en face à face opposent le GPT-5.6 Sol d’OpenAI, détenteur d’un score de 88,8 % sur un benchmark de code de premier plan, au Claude Fable 5 d’Anthropic et à sa note de 80,3 % en génie logiciel.

Points clés :

GPT-5.6 Sol arrive en tête de Terminal-Bench 2.1 avec 88,8 %, et son mode Ultra pousse le score à 91,9 %.

Claude Fable 5 conserve l’avance publiée la plus large sur SWE-Bench Pro avec 80,3 %, contre 58,6 % pour GPT-5.5.

Sol reste limité à un aperçu approuvé par les autorités, tandis que Fable 5 est redevenu disponible dans le monde entier le 1er juillet.

Les revendications de benchmarks de GPT-5.6 Sol

OpenAI a présenté en avant-première la famille GPT-5.6 le 26 juin, sa première sortie depuis GPT-5.5 en avril, en scindant la gamme en trois niveaux avec Sol comme vaisseau amiral.

L’entreprise affirme que Sol atteint 88,8 % sur Terminal-Bench 2.1, un test d’agents de programmation en ligne de commande qui planifient, itèrent et coordonnent des outils. Un mode Ultra très gourmand en calcul, qui lance des sous-agents coordonnés pour accélérer les tâches complexes, fait grimper ce chiffre à 91,9 %, la meilleure marque publiée sur le tableau Terminal-Bench.

Les testeurs qui ont comparé les graphiques publiés placent Fable 5 plusieurs points derrière Sol sur le même test de terminal, même si les chiffres cités varient entre 83,4 % et 84,3 %. Sur la suite de sécurité ExploitBench, Sol égalerait apparemment les performances de la classe Mythos tout en consommant environ un tiers des jetons de sortie, une compression des coûts qui compte pour les longues exécutions d’agents.

Presque personne en dehors du programme d’aperçu ne peut encore vérifier ces chiffres de manière indépendante, une réserve signalée par plusieurs testeurs tout en reconnaissant les scores bruts.

Avantage de Fable 5 en code et tarification

Fable 5 conserve le benchmark que la plupart des testeurs considèrent comme décisif pour le travail logiciel autonome, et son avance n’y est pas mince. Il obtient 80,3 % sur SWE-Bench Pro, qui mesure la résolution de bout en bout de vrais problèmes GitHub, contre 58,6 % pour l’ancien GPT-5.5, et OpenAI n’a publié aucun chiffre GPT-5.6 sur ce test.

Les analystes qui ont mis en évidence des écarts de cette ampleur en programmation, raisonnement et connaissances doutent qu’une simple mise à jour incrémentale puisse les combler entièrement.

Les prix jouent dans l’autre sens, puisque Sol serait affiché à 5 $ par million de jetons en entrée et 30 $ en sortie, soit la moitié des 10 $ et 50 $ de Fable 5. Plusieurs testeurs ont soutenu qu’une configuration raisonnable orienterait les agents pilotés par terminal vers Sol, une fois ouvert, et les corrections au niveau dépôt vers Fable 5.

L’accès marque la frontière la plus nette, car Sol reste limité à un aperçu réservé à environ vingt partenaires agréés par les autorités, tandis que Fable 5 est revenu dans le monde entier le 1er juillet avec un bonus d’utilisation temporaire pour les abonnés payants jusqu’au 7 juillet.

Juin a transformé l’accès aux modèles de pointe en cible mouvante pour les deux laboratoires, et ces à-coups servent de toile de fond à chaque test. Washington a forcé la mise hors ligne de Fable 5 et de son frère plus puissant Mythos 5 le 12 juin, en invoquant de graves risques de cybersécurité, après que des chercheurs d’Amazon ont mis au jour un jailbreak produisant du code d’exploitation. Le secrétaire au Commerce Howard Lutnick a confirmé l’annulation de cette décision le 30 juin, à l’issue d’un examen de deux semaines, quelques jours après que Mythos 5 est revenu discrètement auprès d’environ 100 organisations américaines sélectionnées.