Anthropic está revertendo uma política do Claude Fable 5 que degradava secretamente resultados para pesquisadores que constroem sistemas de IA rivais, uma restrição que a empresa afirmou atingir apenas 0,03% do tráfego.
Pontos-chave:
- A Anthropic voltou atrás em uma política do Fable 5 que enfraquecia silenciosamente respostas para pesquisa de IA de fronteira.
- O limite não divulgado estava em uma system card de 319 páginas e não gerava qualquer notificação ao usuário.
- Solicitações sinalizadas agora recuarão abertamente para o Claude Opus 4.8, com o motivo mostrado a cada vez.
Restrições do Claude Fable 5 revertidas
A empresa confirmou a mudança à Wired nesta semana, que noticiou primeiro a volta atrás após dias de crescente indignação entre pesquisadores, desenvolvedores e analistas de políticas on-line. A reversão veio logo após o lançamento, na terça-feira, do Fable 5, o primeiro modelo de classe Mythos publicamente disponível da Anthropic, um sistema que o laboratório havia mantido em sigilo por muito tempo devido à sua habilidade mais aguçada em encontrar falhas de software. Horas após o lançamento, usuários perceberam que ele redirecionava ou enfraquecia silenciosamente suas respostas em uma faixa estreita de trabalhos avançados em IA.
Essas tarefas abrangiam treinar modelos concorrentes, depurar código de IA e ajustar redes neurais, todas sinalizadas em um parágrafo enterrado em uma system card de 319 páginas. Em vez de bloqueá-las de forma explícita, o Fable 5 se apoiava em edições ocultas de prompt e vetores de direcionamento para suavizar silenciosamente suas respostas, uma restrição que a Anthropic estimou em apenas 0,03% do tráfego.
A correção mantém a proteção, mas elimina o sigilo que gerou as críticas mais duras. A Anthropic havia defendido a versão oculta sob o argumento de que regras visíveis são mais fáceis de sondar e contornar. Agora, prompts sinalizados recuarão abertamente para o Claude Opus 4.8, o mesmo caminho usado para solicitações de cibersegurança e biologia, e a API em breve retornará um motivo claro para cada recusa.
Também leia: Cardano Whales Roar Back To Life As ADA Tests Multi-Year Lows
Pesquisadores rejeitam sabotagem secreta
As críticas miraram o sigilo em si, não os limites por trás dele. A Anthropic havia apresentado a restrição como uma extensão dos termos que proíbem usar o Claude para construir sistemas rivais, alegando que a aplicação silenciosa impedia que os piores infratores ganhassem vantagem. Dean Ball, pesquisador sênior da Foundation for American Innovation, classificou a tática como “sabotagem secreta” e disse que ela reforçava a visão de que partes da agenda de segurança apenas protegem interesses comerciais.
A expressão se espalhou rapidamente.
Outros se concentraram na assimetria embutida na própria regra. A Anthropic mantinha o Fable 5 em plena capacidade para sua própria equipe enquanto limitava grupos externos, uma divisão que irritou defensores do código aberto e antigos aliados da segurança. Jeremy Howard, da Fast AI, disse que o laboratório havia prometido prejudicar rivais que tentassem competir, enquanto Nathan Lambert, do AI2, chamou o rebaixamento encoberto de chocante e anticientífico.
O embate coroou uma primeira semana difícil para o Fable 5, um modelo que a Anthropic já considerou arriscado demais para ser lançado. A empresa liberou o sistema para uso público nesta semana, cerca de uma semana após protocolar, de forma confidencial, documentos para um IPO, apostando que proteções mais rígidas e melhor divulgadas poderiam manter suas habilidades de detectar vulnerabilidades em boas mãos.
Leia a seguir: OpenAI Targets Anthropic With Price Cuts Ahead Of A Pivotal IPO





