Anthropic zegt dat nieuwe Claude Opus 4.8 vier keer meer eigen fouten oppikt

Anthropic released Claude Opus 4.8 op donderdag, en presenteerde het verbeterde model als eerlijker en minder geneigd om feiten te verzinnen dan de versie die het vervangt.

Belangrijkste punten:

Anthropic bracht Claude Opus 4.8 donderdag uit en noemt eerlijkheid de belangrijkste verbetering.

Volgens het bedrijf is het model ongeveer vier keer minder geneigd om fouten in code over het hoofd te zien.

Fast-modus draait nu 2,5 keer sneller en kost drie keer minder dan voorheen.

Anthropic benadrukt eerlijkheid van Opus 4.8

Het bedrijf unveiled het model donderdag en presenteerde het als een gestage doorontwikkeling van Opus 4.7 in plaats van een volledige heruitvinding, waarbij de meeste benchmark-scores slechts licht zijn gestegen. Op de SWE-Bench Pro-codetest scored het 69,2%, tegenover 64,3% voor de vorige versie en vóór OpenAI’s GPT-5.5, dat 58,6% behaalde.

Eerlijkheid kreeg de meeste aandacht. Anthropic zegt dat AI‑modellen vaak te snel conclusies trekken en voortgang claimen op basis van mager bewijs, en dat vroege testers merkten dat 4.8 sneller twijfels uitte tijdens lange, onbewaakte taken. In interne tests indicated het bedrijf dat het model ongeveer vier keer minder geneigd is dan 4.7 om fouten in code ongemerkt voorbij te laten gaan.

De upgrade shipped met nieuwe instellingen, waaronder een optie waarmee gebruikers kunnen bepalen hoe hard het model aan een taak werkt; die is nu op elk abonnement beschikbaar. Anthropic verlaagde ook de prijs van de fast‑modus, waarin het model 2,5 keer zo snel draait, tot een derde van wat eerdere modellen kostten.

Ook interessant: Kalshi Wins CFTC Approval For First U.S. Bitcoin Perpetual Futures

Pritchard prijst beoordelingsvermogen van Opus 4.8

Tom Pritchard, stafingenieur bij Shopify, told Anthropic dat de codegerichte versie een veel beter beoordelingsvermogen toont. Hij zei dat het model „de juiste vragen stelt, zijn eigen fouten oppikt” en tegengas geeft wanneer een plan zwak oogt. Voor teams die eerder zijn opgebrand door AI‑agents die live productiedatabases wisten, kan zo’n belofte zwaar wegen.

Niet iedereen was overtuigd.

Op Reddit doubted veel gebruikers de benchmark‑grafieken; de algemene teneur was dat niemand ze vertrouwt, terwijl anderen bang waren hun oudere Opus 4.6 te verliezen, dat ze nog altijd liever gebruiken voor dagelijks werk.

Opus 4.8 bekroont snelle opmars van Anthropic

De lancering kwam op een opwindend moment voor het lab. De waardering van Anthropic is climbed tot boven de bijna 965 miljard dollar van OpenAI na een nieuwe financieringsronde, een van de grootste in de technologiesector. Investeerders verwachten breed dat het bedrijf later dit jaar naar de beurs zal gaan.

De release bekroonde ook een snelle reeks upgrades, waarbij Opus 4.7 gebruikers reaching nog geen maand eerder bereikte, al onder een eigen wolk van twijfel over benchmarks. Anthropic heeft sindsdien Mythos geteased, een veel krachtiger model dat het vanwege zorgen over cyberbeveiliging voorlopig niet publiek vrijgeeft.

Lees ook: Dogecoin Reserves Edge Up To 28B As Whale Support Stays Weak