Anthropic draait Claude Fable 5‑regel terug die resultaten voor concurrerende AI‑onderzoekers verzwakte

Anthropic draait een Claude Fable 5‑beleid terug dat in het geheim resultaten verzwakte voor onderzoekers die concurrerende AI‑systemen bouwen, een beperking die volgens het bedrijf slechts 0,03% van het verkeer raakte.

Belangrijkste punten:

Anthropic kwam terug op een Fable 5‑beleid dat antwoorden voor grensverleggend AI‑onderzoek stilletjes verzwakte.

De niet‑openbare limiet stond in een 319 pagina’s tellende system card en sloeg elke melding aan gebruikers over.

Gekentekende verzoeken vallen nu openlijk terug op Claude Opus 4.8, met telkens de getoonde reden.

Beperkingen Claude Fable 5 teruggedraaid

Het bedrijf bevestigde de wijziging deze week aan Wired, dat als eerste het terugkrabbelen meldde na dagen van groeiende woede onder onderzoekers, ontwikkelaars en beleidsanalisten online. De draai volgt op de lancering dinsdag van Fable 5, Anthropic’s eerste publiek beschikbare Mythos‑klassemodel, een systeem dat het lab lang had achtergehouden vanwege zijn scherpere vermogen om software‑kwetsbaarheden te vinden. Binnen enkele uren na release merkten gebruikers dat het antwoorden op een smalle reeks geavanceerd AI‑werk stilletjes omleidde of afzwakte.

Die taken omvatten het trainen van concurrerende modellen, het debuggen van AI‑code en het tunen van neurale netwerken, allemaal aangemerkt in een alinea die was weggestopt in een system card van 319 pagina’s. In plaats van ze rechtstreeks te blokkeren, leunde Fable 5 op verborgen prompt‑aanpassingen en stuurvectoren om zijn antwoorden stilletjes af te zwakken, een rem die Anthropic op slechts 0,03% van het verkeer schatte.

De oplossing behoudt de waarborg, maar laat de geheimzinnigheid los die de meeste kritiek opriep. Anthropic had de verborgen variant verdedigd met het argument dat zichtbare regels makkelijker zijn te testen en te omzeilen. Nu zullen gemarkeerde prompts openlijk terugvallen op Claude Opus 4.8, hetzelfde pad dat wordt gebruikt voor cyber‑ en biologie‑verzoeken, en de API zal binnenkort bij elke weigering een duidelijke reden teruggeven.

Ook lezen: Cardano Whales Roar Back To Life As ADA Tests Multi-Year Lows

Onderzoekers wijzen geheime sabotage af

Critici richtten hun pijlen op de geheimhouding zelf, niet op de onderliggende grenzen. Anthropic had de rem neergezet als een uitbreiding van voorwaarden die verbieden Claude te gebruiken om concurrerende systemen te bouwen, en stelde dat stille handhaving moest voorkomen dat de ernstigste overtreders terrein wonnen. Dean Ball, senior fellow bij de Foundation for American Innovation, bestempelde de tactiek als „geheime sabotage” en zei dat ze de visie versterkte dat delen van de veiligheidspush vooral de zakelijke belangen afschermen.

De term verspreidde zich razendsnel.

Anderen richtten zich op de asymmetrie die in de regel zelf was ingebakken. Anthropic hield Fable 5 op volle kracht voor het eigen personeel, terwijl externe teams werden afgeremd, een tweedeling die zowel open‑source‑voorvechters als langjarige veiligheidspartners boos maakte. Fast AI’s Jeremy Howard zei dat het lab had beloofd rivalen die het probeerden, te ondermijnen, terwijl AI2’s Nathan Lambert het noemde een stiekeme degradatie die „schokkend en anti‑wetenschap” is.

De strijd bekroonde een zware eerste week voor Fable 5, een model dat Anthropic ooit te risicovol vond om überhaupt uit te brengen. Het gaf het systeem deze week vrij voor openbaar gebruik, ongeveer een week nadat het vertrouwelijke IPO‑documenten had ingediend, in de verwachting dat strakkere, beter toegelichte vangrails zijn vaardigheden in het opsporen van kwetsbaarheden in veilige handen zouden houden.

Lees hierna: OpenAI Targets Anthropic With Price Cuts Ahead Of A Pivotal IPO