Anthropic macht Claude Fable‑5‑Regel rückgängig, die Ergebnisse für rivalisierende KI‑Forscher geschwächt hat

Anthropic macht eine Claude Fable 5‑Richtlinie rückgängig, die heimlich Ergebnisse für Forscher abschwächte, die rivalisierende KI‑Systeme entwickeln – eine Einschränkung, die laut Unternehmen nur 0,03 % des Traffics betraf.

Zentrale Punkte:

Anthropic hat eine Fable‑5‑Richtlinie zurückgenommen, die Antworten für Forschung an Frontier‑KI stillschweigend abgeschwächt hat.

Die nicht offengelegte Begrenzung versteckte sich in einer 319‑seitigen Systemkarte und umging jede Benachrichtigung der Nutzer.

Markierte Anfragen fallen nun offen auf Claude Opus 4.8 zurück, wobei der Grund jedes Mal angezeigt wird.

Rücknahme der Beschränkungen für Claude Fable 5

Das Unternehmen hat die Änderung gegenüber Wired bestätigt, das zuerst über den Rückzieher berichtet hatte, nachdem sich tagelang der Ärger unter Forschern, Entwicklern und Politikexperten online aufgebaut hatte. Der Rückzug folgt auf den Start von Fable 5 am Dienstag, Anthrowpics erstem öffentlich verfügbaren Mythos‑Klasse‑Modell, einem System, das das Labor lange zurückgehalten hatte, weil es besonders gut darin ist, Software‑Schwachstellen aufzuspüren. Wenige Stunden nach der Veröffentlichung bemerkten Nutzer, dass das Modell Anfragen in einem engen Band fortgeschrittener KI‑Arbeit leise umleitete oder seine Antworten abschwächte.

Diese Aufgaben umfassten das Trainieren konkurrierender Modelle, das Debuggen von KI‑Code und das Tuning neuronaler Netze – alles markiert in einem Absatz, der in einer 319‑seitigen Systemkarte vergraben war. Anstatt sie komplett zu blockieren, setzte Fable 5 auf versteckte Prompt‑Anpassungen und Steuer‑Vektoren, um seine Antworten still zu entschärfen – eine Begrenzung, die Anthropic auf nur 0,03 % des Traffics bezifferte.

Die Korrektur behält die Schutzmaßnahme bei, lässt aber die Heimlichkeit fallen, die den meisten Ärger ausgelöst hatte. Anthropic hatte die verdeckte Version damit verteidigt, dass sichtbare Regeln leichter zu testen und zu umgehen seien. Künftig werden markierte Prompts offen auf Claude Opus 4.8 zurückfallen, denselben Pfad, der auch für Anfragen zu Cyber‑ und Biologie‑Themen genutzt wird; zudem soll die API bald für jede Verweigerung einen klaren Grund zurückgeben.

Auch lesen: Cardano Whales Roar Back To Life As ADA Tests Multi-Year Lows

Forscher weisen geheime Sabotage zurück

Die Kritik richtete sich auf die Geheimhaltung selbst, nicht auf die eigentlichen Grenzen. Anthropic hatte die Beschränkung als Erweiterung der Nutzungsbedingungen dargestellt, die verbieten, Claude zum Aufbau konkurrierender Systeme zu verwenden, und argumentiert, stille Durchsetzung halte die schlimmsten Verstöße besser in Schach. Dean Ball, Senior Fellow bei der Foundation for American Innovation, bezeichnete die Taktik als „geheime Sabotage“ und sagte, sie stütze die Sicht, dass Teile der Sicherheits‑Agenda vor allem Geschäftsinteressen schützen.

Der Begriff verbreitete sich schnell.

Andere konzentrierten sich auf die Asymmetrie, die in die Regel selbst eingebaut war. Anthropic nutzte Fable 5 intern mit voller Stärke, während externe Teams gedrosselt wurden – eine Spaltung, die Open‑Source‑Verfechter und langjährige Sicherheitsverbündete gleichermaßen verärgerte. Fast AIs Jeremy Howard sagte, das Labor habe gelobt, Rivalen auszubremsen, die es versuchten, während Nathan Lambert vom AI2 die verdeckte Herabstufung als empörend und wissenschaftsfeindlich bezeichnete.

Der Streit krönte eine strapaziöse erste Woche für Fable 5, ein Modell, das Anthropic einst als zu riskant eingestuft hatte, um es überhaupt auszuliefern. Das Unternehmen gab das System diese Woche für die öffentliche Nutzung frei, etwa eine Woche nachdem es vertrauliche IPO‑Unterlagen eingereicht hatte, und wettete darauf, dass strengere, besser offengelegte Leitplanken seine Fähigkeiten zur Schwachstellen‑Suche in sicheren Bahnen halten können.

Als Nächstes lesen: OpenAI Targets Anthropic With Price Cuts Ahead Of A Pivotal IPO