Anthropic wycofuje zasadę Claude Fable 5, która osłabiała wyniki dla rywalizujących zespołów badawczych AI

Anthropic wycofuje się z zasady Claude Fable 5, która potajemnie pogarszała wyniki dla badaczy budujących konkurencyjne systemy AI, ograniczenia, które firma oszacowała na 0,03% ruchu.

Kluczowe punkty:

Anthropic wycofał się z zasady Fable 5, która po cichu osłabiała odpowiedzi w obszarze zaawansowanych badań nad AI.

Nieujawniony limit ukryto w 319‑stronicowej karcie systemowej, bez jakiegokolwiek powiadomienia użytkowników.

Oznaczone zapytania będą teraz jawnie przekierowywane do Claude Opus 4.8, z wyświetlaniem powodu przy każdym przypadku.

Cofnięcie ograniczeń Claude Fable 5

Firma potwierdziła zmianę w rozmowie z Wired w tym tygodniu; redakcja jako pierwsza opisała odwrót po dniach narastającej złości wśród badaczy, deweloperów i analityków polityki w sieci. Odwrót nastąpił krótko po wtorkowej premierze Fable 5, pierwszego publicznie dostępnego modelu klasy Mythos Anthropic, systemu długo wstrzymywanego ze względu na jego większą skuteczność w wyszukiwaniu błędów w oprogramowaniu. W ciągu kilku godzin od premiery użytkownicy zauważyli, że model po cichu przekierowuje lub osłabia swoje odpowiedzi w wąskim zakresie zaawansowanych zadań z obszaru AI.

Te zadania obejmowały trenowanie konkurencyjnych modeli, debugowanie kodu AI i strojenie sieci neuronowych, wszystkie oznaczane na podstawie akapitu ukrytego w 319‑stronicowej karcie systemowej. Zamiast całkowicie je blokować, Fable 5 korzystał z ukrytych edycji promptów i wektorów sterujących, aby po cichu stępić swoje odpowiedzi; Anthropic szacował skalę tego ograniczenia na zaledwie 0,03% ruchu.

Poprawka zachowuje zabezpieczenie, ale usuwa tajność, która budziła największe oburzenie. Anthropic bronił ukrytej wersji, argumentując, że widoczne reguły łatwiej badać i obchodzić. Teraz oznaczone prompty będą jawnie przekierowywane do Claude Opus 4.8, tej samej ścieżki używanej dla zapytań z obszaru cyberbezpieczeństwa i biologii, a API wkrótce zacznie zwracać jasne uzasadnienie każdej odmowy.

Zobacz także: Cardano Whales Roar Back To Life As ADA Tests Multi-Year Lows

Badacze odrzucają tajne „sabotowanie”

Krytyka dotyczyła przede wszystkim samej tajności, a nie stojących za nią limitów. Anthropic przedstawiał ograniczenie jako rozszerzenie warunków zabraniających używania Claude do budowy konkurencyjnych systemów, twierdząc, że ciche egzekwowanie utrudnia najbardziej problematycznym graczom zyskanie przewagi. Dean Ball, starszy członek Foundation for American Innovation, określił tę taktykę mianem „tajnej sabotacji” i stwierdził, że wzmacnia ona przekonanie, iż część działań na rzecz bezpieczeństwa służy jedynie ochronie interesów biznesowych.

To określenie błyskawicznie się rozpowszechniło.

Inni zwracali uwagę na asymetrię wbudowaną w samą zasadę. Anthropic pozostawił Fable 5 w pełnej mocy dla własnych pracowników, jednocześnie ograniczając możliwości zewnętrznych zespołów — podział, który rozzłościł zarówno zwolenników open source, jak i wieloletnich sojuszników ruchu bezpieczeństwa. Jeremy Howard z Fast AI powiedział, że laboratorium w istocie obiecało podkopywać rywali, którzy spróbują konkurować, podczas gdy Nathan Lambert z AI2 określił ukryte obniżanie możliwości jako oburzające i antynaukowe.

Spór zakończył burzliwy pierwszy tydzień Fable 5, modelu, który Anthropic niegdyś uznał za zbyt ryzykowny, by w ogóle go udostępnić. Firma dopuściła system do użytku publicznego w tym tygodniu, około tydzień po złożeniu poufnych dokumentów IPO, licząc, że ściślejsze i lepiej opisane zabezpieczenia pozwolą utrzymać jego umiejętności wyszukiwania podatności w bezpiecznych ramach.

Czytaj dalej: OpenAI Targets Anthropic With Price Cuts Ahead Of A Pivotal IPO