Anthropic affirme que le nouveau Claude Opus 4.8 repère quatre fois plus de ses propres erreurs

Anthropic released Claude Opus 4.8 jeudi, présentant ce modèle amélioré comme plus honnête et moins enclin à inventer des faits que la version qu’il remplace.

Points clés :

Anthropic a déployé Claude Opus 4.8 jeudi, en mettant en avant l’honnêteté comme principal progrès.

Selon l’entreprise, le modèle est environ quatre fois moins susceptible de laisser passer des failles de code.

Le mode rapide fonctionne désormais 2,5 fois plus vite et coûte trois fois moins cher qu’auparavant.

Anthropic met en avant l’honnêteté d’Opus 4.8

L’entreprise a unveiled le modèle jeudi, le présentant comme une évolution progressive d’Opus 4.7 plutôt qu’une réinvention, la plupart des scores de benchmarks n’augmentant que légèrement. Au test de codage SWE-Bench Pro, il a scored 69,2 %, contre 64,3 % pour la version précédente, et devance le GPT‑5.5 d’OpenAI, qui a atteint 58,6 %.

L’honnêteté a retenu l’attention. Anthropic affirme que les modèles d’IA tirent souvent des conclusions hâtives, en revendiquant des progrès sur des bases fragiles, et que les premiers testeurs ont trouvé la version 4.8 plus rapide à admettre ses doutes lors de longues tâches non supervisées. Ses tests ont indicated que le modèle est environ quatre fois moins susceptible que la version 4.7 de laisser passer des failles de code sans les signaler.

La mise à jour a été shipped avec de nouveaux contrôles, notamment un réglage qui permet aux utilisateurs de définir l’intensité de travail du modèle sur une tâche, désormais disponible pour chaque offre. Anthropic a également réduit le prix du mode rapide, dans lequel le modèle fonctionne à 2,5 fois la vitesse normale, à un tiers du tarif des versions précédentes.

Pritchard soutient le jugement d’Opus 4.8

Tom Pritchard, ingénieur principal chez Shopify, a told à Anthropic que la version spécialisée en codage fait preuve d’un bien meilleur jugement. Il a déclaré que le modèle « pose les bonnes questions, repère ses propres erreurs » et s’oppose lorsqu’un plan lui semble fragile. Pour les équipes qui ont été échaudées par des agents d’IA ayant effacé des bases de données de production en direct, ce type de promesse peut avoir un réel poids.

Tout le monde n’est pas convaincu.

Sur Reddit, de nombreux utilisateurs ont doubted les graphiques de benchmark, résumant l’ambiance par une méfiance généralisée, tandis que d’autres craignaient de perdre l’ancien Opus 4.6 qu’ils préfèrent encore pour le travail quotidien.

Opus 4.8 couronne la montée en puissance d’Anthropic

Ce lancement intervient à un moment exaltant pour le laboratoire. La valorisation d’Anthropic a climbed au‑delà du seuil proche de 965 milliards de dollars d’OpenAI après un nouveau tour de table parmi les plus importants de la tech. Les investisseurs s’attendent largement à ce que l’entreprise poursuive une introduction en bourse plus tard cette année.

Cette sortie conclut également une série rapide de mises à niveau, Opus 4.7 ayant reaching les utilisateurs à peine un mois plus tôt, déjà sous un nuage de doutes liés aux benchmarks. Anthropic a depuis teasé Mythos, un modèle bien plus puissant qu’elle retient pour l’instant du grand public en raison de préoccupations de cybersécurité.