Anthropic draait een Claude Fable 5-beleid terug dat in het geheim resultaten verzwakte voor onderzoekers die concurrerende AI‑systemen bouwen, een beperking die volgens het bedrijf slechts 0,03% van het verkeer raakte.
Belangrijkste punten:
- Anthropic heeft een Fable 5‑beleid teruggedraaid dat antwoorden voor frontier‑AI‑onderzoek stilletjes verzwakte.
- De niet‑openbare limiet stond verstopt in een 319 pagina’s tellende system card en sloeg elke vorm van gebruikersmelding over.
- Gemarkeerde verzoeken vallen nu zichtbaar terug op Claude Opus 4.8, met elke keer een getoonde reden.
Beperkingen Claude Fable 5 teruggedraaid
Het bedrijf bevestigde de wijziging deze week aan Wired, dat de koerswijziging als eerste meldde na dagen van toenemende woede onder onderzoekers, ontwikkelaars en beleidsanalisten online. De stap volgt op de lancering van Fable 5 op dinsdag, Anthropic’s eerste publiek beschikbare Mythos‑klassemodel, een systeem dat het lab lange tijd had achtergehouden vanwege zijn scherpere vermogen om softwarefouten te vinden. Binnen enkele uren na de release merkten gebruikers dat het antwoorden op een smalle reeks geavanceerd AI‑werk stilletjes omleidde of verzwakte.
Die taken hadden betrekking op het trainen van concurrerende modellen, het debuggen van AI‑code en het tunen van neurale netwerken, allemaal gemarkeerd via een alinea die was begraven in een 319 pagina’s tellende system card. In plaats van ze volledig te blokkeren, leunde Fable 5 op verborgen prompt‑aanpassingen en stuurvectoren om zijn antwoorden stilletjes af te zwakken, een rem die Anthropic inschatte op slechts 0,03% van het verkeer.
De oplossing behoudt de veiligheidsmaatregel maar laat de geheimzinnigheid vallen die de meeste kritiek opriep. Anthropic had de verborgen versie verdedigd met het argument dat zichtbare regels makkelijker zijn te analyseren en te omzeilen. Nu zullen gemarkeerde prompts openlijk terugvallen op Claude Opus 4.8, hetzelfde pad als voor cyber‑ en biologie‑verzoeken, en de API zal binnenkort een duidelijke reden geven voor elke weigering.
Ook interessant: Cardano Whales Roar Back To Life As ADA Tests Multi-Year Lows
Onderzoekers wijzen geheime sabotagetruc af
Critici richtten zich op de geheimhouding zelf, niet op de onderliggende beperkingen. Anthropic had de rem gepresenteerd als een uitbreiding van voorwaarden die verbieden om Claude te gebruiken om concurrerende systemen te bouwen, en stelde dat stille handhaving moest voorkomen dat de grootste overtreders terrein wonnen. Dean Ball, senior fellow bij de Foundation for American Innovation, bestempelde de tactiek als „geheime sabotage” en zei dat deze de indruk versterkte dat delen van de safety‑agenda vooral de bedrijfsbelangen beschermen.
De term verspreidde zich razendsnel.
Anderen focusten op de asymmetrie die in de regel zelf zat ingebakken. Anthropic hield Fable 5 op volle kracht voor eigen medewerkers, terwijl externe teams werden afgeremd, een tweedeling die zowel open‑source‑voorstanders als oude bondgenoten uit de safety‑hoek boos maakte. Fast AI’s Jeremy Howard zei dat het lab had beloofd rivalen die het probeerden, te ondermijnen, terwijl AI2’s Nathan Lambert het noemde een afschuwelijke en anti‑wetenschappelijke geheime downgrade.
De strijd vormde het sluitstuk van een zware eerste week voor Fable 5, een model dat Anthropic ooit te risicovol vond om überhaupt uit te brengen. Het bedrijf stelde het systeem deze week open voor publiek gebruik, ongeveer een week nadat het vertrouwelijke IPO‑papieren had ingediend, en gokt erop dat strakkere, beter toegelichte vangrails de kwetsbaarheidsjachtcapaciteiten in veilige handen kunnen houden.
Lees hierna: OpenAI Targets Anthropic With Price Cuts Ahead Of A Pivotal IPO





