Anthropic está revertendo uma Claude Fable 5 policy que degradava secretamente resultados para pesquisadores que desenvolvem sistemas de IA rivais, uma restrição que a empresa afirmou afetar 0,03% do tráfego.
Pontos principais:
- A Anthropic desistiu de uma política do Fable 5 que enfraquecia silenciosamente respostas para pesquisa de fronteira em IA.
- O limite não divulgado estava em um system card de 319 páginas e não gerava qualquer notificação ao usuário.
- Solicitações sinalizadas agora retrocederão abertamente para o Claude Opus 4.8, com o motivo exibido a cada vez.
Restrições do Claude Fable 5 revertidas
A empresa confirmou a mudança à Wired nesta semana, que primeiro noticiou o recuo após dias de crescente indignação entre pesquisadores, desenvolvedores e analistas de políticas on-line. A reversão veio logo após o lançamento, na terça-feira, do Fable 5, o primeiro Mythos-class model disponível publicamente pela Anthropic, um sistema que o laboratório havia retido por muito tempo devido à sua habilidade mais apurada em encontrar falhas de software. Em poucas horas após o lançamento, usuários perceberam que ele redirecionava silenciosamente ou enfraquecia suas respostas em uma faixa estreita de trabalhos avançados em IA.
Essas tarefas cobriam treinamento de modelos concorrentes, depuração de código de IA e ajuste de redes neurais, todas sinalizadas em um parágrafo enterrado em um system card de 319 páginas. Em vez de bloqueá-las diretamente, o Fable 5 se apoiava em edições ocultas de prompt e vetores de direcionamento para suavizar silenciosamente suas respostas, uma limitação que a Anthropic estimou em apenas 0,03% do tráfego.
A correção mantém a salvaguarda, mas remove o sigilo que gerou a maior parte das críticas. A Anthropic havia defendido a versão oculta com o argumento de que regras visíveis são mais fáceis de testar e contornar. Agora, prompts sinalizados passarão abertamente para o Claude Opus 4.8, o mesmo caminho usado para solicitações de cibersegurança e biologia, e a API em breve retornará um motivo claro para cada recusa.
Also Read: Cardano Whales Roar Back To Life As ADA Tests Multi-Year Lows
Pesquisadores rejeitam sabotagem secreta
As críticas miraram o sigilo em si, não os limites por trás dele. A Anthropic havia apresentado a restrição como uma extensão dos termos que proíbem usar o Claude para construir sistemas rivais, dizendo que a aplicação silenciosa impedia que os piores infratores ganhassem vantagem. Dean Ball, pesquisador sênior da Foundation for American Innovation, chamou a tática de “sabotagem secreta” e disse que ela reforçava a visão de que partes do esforço de segurança apenas protegem interesses comerciais.
A expressão se espalhou rapidamente.
Outros focaram na assimetria embutida na própria regra. A Anthropic manteve o Fable 5 em plena potência para sua própria equipe enquanto limitava grupos externos, uma divisão que irritou defensores do open source e antigos aliados da agenda de segurança. Jeremy Howard, da Fast AI, disse que o laboratório havia prometido prejudicar rivais que tentassem competir, enquanto Nathan Lambert, do AI2, called o rebaixamento encoberto de assustador e anticientífico.
O embate coroou uma primeira semana difícil para o Fable 5, um modelo que a Anthropic antes considerara arriscado demais para lançar. A empresa liberou o sistema para uso público nesta semana, cerca de uma semana depois de registrar confidencialmente documentos para um IPO, apostando que controles mais rígidos e melhor divulgados poderiam manter suas habilidades de caça a vulnerabilidades em mãos seguras.
Read Next: OpenAI Targets Anthropic With Price Cuts Ahead Of A Pivotal IPO





