Anthropic está revirtiendo una Claude Fable 5 policy que degradaba en secreto los resultados para investigadores que construyen sistemas de IA rivales, una restricción que la empresa dijo que afectaba al 0,03% del tráfico.
Puntos clave:
- Anthropic dio marcha atrás en una política de Fable 5 que debilitaba en silencio las respuestas para investigación de IA de frontera.
- El límite no divulgado estaba dentro de una tarjeta de sistema de 319 páginas y omitía cualquier notificación al usuario.
- Las solicitudes marcadas ahora pasarán abiertamente a Claude Opus 4.8, con el motivo mostrado cada vez.
Se revierten los límites de Claude Fable 5
La empresa confirmó el cambio a Wired esta semana, que fue el primero en informar sobre la marcha atrás tras días de creciente indignación entre investigadores, desarrolladores y analistas de políticas en línea. La retirada sigue al lanzamiento el martes de Fable 5, el primer modelo de clase Mythos de Anthropic disponible públicamente, un sistema que el laboratorio había retenido durante mucho tiempo por su mayor habilidad para encontrar fallos de software. A las pocas horas del lanzamiento, los usuarios detectaron que redirigía en silencio o debilitaba sus respuestas en una franja estrecha de trabajo avanzado en IA.
Esas tareas abarcaban el entrenamiento de modelos competidores, la depuración de código de IA y el ajuste de redes neuronales, todo ello señalado en un párrafo enterrado en una tarjeta de sistema de 319 páginas. En lugar de bloquearlas por completo, Fable 5 se basaba en ediciones ocultas del prompt y vectores de dirección para atenuar silenciosamente sus respuestas, una limitación que Anthropic cifró en solo el 0,03% del tráfico.
La solución mantiene la salvaguarda pero elimina el secreto que provocó la mayor parte de las críticas. Anthropic había defendido la versión oculta alegando que las normas visibles son más fáciles de explorar y eludir. Ahora los prompts marcados pasarán abiertamente a Claude Opus 4.8, el mismo camino usado para solicitudes de ciberseguridad y biología, y la API pronto devolverá un motivo claro para cada negativa.
También lee: Cardano Whales Roar Back To Life As ADA Tests Multi-Year Lows
Los investigadores rechazan el sabotaje secreto
Las críticas se dirigieron al propio secreto, no a los límites que había detrás. Anthropic había presentado la restricción como una extensión de las condiciones que prohíben usar Claude para construir sistemas rivales, diciendo que la aplicación silenciosa impedía que los peores infractores ganaran terreno. Dean Ball, senior fellow en la Foundation for American Innovation, calificó la táctica de "sabotaje secreto" y dijo que daba peso a la idea de que parte del impulso de seguridad solo protege intereses comerciales.
La expresión se difundió rápidamente.
Otros señalaron la asimetría incorporada en la propia regla. Anthropic mantuvo Fable 5 a plena potencia para su propio personal mientras limitaba a los equipos externos, una diferencia que enfureció tanto a defensores del código abierto como a antiguos aliados de seguridad. Jeremy Howard, de Fast AI, dijo que el laboratorio había prometido socavar a los rivales que lo intentaran, mientras que Nathan Lambert, de AI2, calificó la degradación encubierta de espantosa y anticientífica.
La disputa coronó una primera semana difícil para Fable 5, un modelo que Anthropic en su momento había considerado demasiado arriesgado para lanzarlo. Autorizó el sistema para uso público esta semana, aproximadamente una semana después de presentar en confidencial su documentación para una OPV, apostando a que salvaguardas más estrictas y mejor divulgadas podrían mantener sus habilidades para encontrar vulnerabilidades en manos seguras.
Lee a continuación: OpenAI Targets Anthropic With Price Cuts Ahead Of A Pivotal IPO





