Claude Opus 4.8 overtreft Gemini en GPT op meerdere coderingstests

Anthropic heeft Claude Opus 4.8 uitgebracht en beweert dat het verbeterde model beter presteert dan OpenAI's GPT-5.5 en Google's Gemini 3.1 Pro op verschillende coderingsbenchmarks.

Belangrijkste punten:

Anthropic lanceerde Claude Opus 4.8 op 28 mei, met dezelfde prijsstelling als de eerdere 4.7-release.

Het bedrijf zegt dat het beter scoort dan OpenAI's GPT-5.5 en Google's Gemini 3.1 Pro op SWE-Bench Pro en andere tests.

Een vernieuwde snelle modus en dynamische workflows moeten de kosten en tijd van agentisch werk terugdringen.

Claude Opus 4.8 leidt coderingsbenchmarks

Het bedrijf onthulde het model donderdag, voortbouwend op de Opus 4.7-versie die ongeveer zes weken eerder verscheen. Anthropic meldde dat Opus 4.8 een score van 69,2% behaalde op de SWE-Bench Pro‑coderings test, waarmee het beter presteerde dan beide rivalen en hen op meerdere andere maatstaven overtrof. Het rapporteerde ook vooruitgang in computergebruik, kenniswerk en financiële analyse, samen met een score van 74,2% op de Terminal-Bench 2.1‑benchmark.

Anthropic presenteerde de release als een eerlijker model en zei dat testers vaststelden dat het zijn eigen onzekerheid aangeeft en afziet van ongefundeerde claims. Interne beoordelingen schatten dat het ongeveer vier keer minder geneigd is dan Opus 4.7 om coderingsfouten door te laten glippen, en het bedrijf zegt dat het hoger scoort op het respecteren van gebruikersautonomie.

Ook lezen: Cardano Whales Seize 67.5% Of ADA Supply, A Six-Year High

Waarom de kostenbeheersing van Anthropic ertoe doet

De prijs bleef stabiel op $5 per miljoen inputtokens en $25 per miljoen outputtokens. Een vernieuwde snelle modus werkt nu ongeveer 150% sneller en kost drie keer minder dan de vorige instelling. Anthropic opende ook een onderzoekspreview van dynamische workflows, die honderden parallelle subagenten opstarten voor migraties van honderden duizenden regels code.

Toch blijven de verbeteringen gradueel.

GPT-5.5 blijft voorlopen op één terminal‑coderings test, en Anthropic zelf noemde het model een bescheiden stap in plaats van een doorbraak. Ontwikkelaars kunnen nu Claude's instructies halverwege een taak aanpassen via de Messages API. Kopers die naar goedkopere AI zoeken, zullen deze uitgavencontroles mogelijk zwaarder laten wegen dan de kleine marges tussen de topmodellen.

Waardering van Anthropic en de Mythos‑achtergrond

De lancering viel op dezelfde dag dat Anthropic een Series H‑ronde van 65 miljard dollar bevestigde tegen een waardering van 965 miljard dollar. Die kapitaalinjectie, geleid door Altimeter Capital, Dragoneer, Greenoaks en Sequoia Capital, duwde het vijf jaar oude bedrijf voorbij de vermeende 850 miljard dollar van OpenAI en tilde de jaarlijkse omzet naar bijna 47 miljard dollar.

De waardering is bijna verdrievoudigd ten opzichte van 380 miljard dollar in februari, in wat Anthropic's laatste private financieringsronde vóór een beursgang zou kunnen zijn. Het bedrijf heeft zijn krachtiger Mythos-model, ontwikkeld voor cyberbeveiligingswerk, tot nu toe alleen aan een handvol organisaties vrijgegeven uit veiligheidsoverwegingen. Het verwacht de toegang tot Mythos-klasse systemen voor alle klanten in de komende weken te verbreden.

Lees hierna: Cisco Research Shows Frontier AI Models Failing Under Multi-Turn Attacks