Anthropic released Claude Opus 4.8 jeudi, présentant ce modèle amélioré comme plus honnête et moins enclin à inventer des faits que la version qu’il remplace.
Points clés :
- Anthropic a lancé Claude Opus 4.8 jeudi, en faisant de l’honnêteté son principal atout.
- Le modèle est environ quatre fois moins susceptible de laisser passer des défauts de code, selon l’entreprise.
- Le mode rapide fonctionne désormais 2,5 fois plus vite et coûte trois fois moins cher qu’auparavant.
Anthropic met en avant l’honnêteté d’Opus 4.8
L’entreprise a unveiled le modèle jeudi, le présentant comme une évolution régulière d’Opus 4.7 plutôt qu’une refonte, la plupart des scores de benchmarks n’augmentant que légèrement. Au test de programmation SWE-Bench Pro, il a scored 69,2 %, contre 64,3 % pour la version précédente et devant le GPT‑5.5 d’OpenAI, qui a atteint 58,6 %.
L’honnêteté a attiré l’attention. Anthropic explique que les modèles d’IA tirent souvent des conclusions hâtives, revendiquant des progrès sur des bases fragiles, et que les premiers testeurs ont trouvé qu’Opus 4.8 admettait plus vite ses doutes lors de longues tâches autonomes. Ses tests indicated que le modèle est environ quatre fois moins susceptible qu’Opus 4.7 de laisser passer des défauts de code sans les signaler.
La mise à jour shipped avec de nouveaux contrôles, dont un réglage permettant aux utilisateurs de définir à quel point le modèle doit s’investir dans une tâche, désormais disponible sur toutes les offres. Anthropic a aussi réduit le prix du mode rapide, où le modèle fonctionne à 2,5 fois la vitesse normale, à un tiers de ce que facturaient les versions précédentes.
À lire aussi : Kalshi Wins CFTC Approval For First U.S. Bitcoin Perpetual Futures
Pritchard salue le jugement d’Opus 4.8
Tom Pritchard, ingénieur principal chez Shopify, a told Anthropic que la version orientée code montre un bien meilleur jugement. Il explique que le modèle « pose les bonnes questions, repère ses propres erreurs » et résiste lorsqu’un plan paraît fragile. Pour les équipes déjà échaudées par des agents d’IA qui ont effacé des bases de données de production, cette promesse peut compter.
Tout le monde n’est pas convaincu.
Sur Reddit, de nombreux utilisateurs ont doubted les graphiques de benchmarks, résumant l’ambiance par une méfiance généralisée, tandis que d’autres craignaient de perdre l’ancien Opus 4.6 qu’ils préféraient encore pour le travail quotidien.
Opus 4.8 couronne l’essor d’Anthropic
Ce lancement arrive à un moment euphorique pour le laboratoire. La valorisation d’Anthropic a climbed au‑delà de celle d’OpenAI, proche de 965 milliards de dollars, après un nouveau tour de table parmi les plus importants de la tech. Les investisseurs s’attendent largement à ce que l’entreprise vise une introduction en bourse plus tard cette année.
Cette sortie vient aussi couronner une série rapide de mises à niveau, Opus 4.7 ayant reaching les utilisateurs à peine un mois plus tôt, déjà sous un nuage de doutes autour des benchmarks. Anthropic a depuis teasé Mythos, un modèle bien plus puissant qu’elle retient du public pour des raisons de cybersécurité.
À lire ensuite : Dogecoin Reserves Edge Up To 28B As Whale Support Stays Weak





