Anthropic está revertendo uma política do Claude Fable 5 que degradava secretamente resultados para pesquisadores que constroem sistemas de IA rivais, uma restrição que a empresa disse afetar 0,03% do tráfego.
Pontos principais:
- A Anthropic voltou atrás em uma política do Fable 5 que enfraquecia silenciosamente respostas para pesquisa de IA de fronteira.
- O limite não divulgado estava escondido em um system card de 319 páginas e não exibia qualquer notificação ao usuário.
- Pedidos sinalizados agora passarão abertamente para o Claude Opus 4.8, com o motivo mostrado em cada caso.
Restrições do Claude Fable 5 são revertidas
A empresa confirmou a mudança à Wired nesta semana, que foi a primeira a noticiar a reversão após dias de crescente indignação entre pesquisadores, desenvolvedores e analistas de políticas online. A retirada vem na esteira do lançamento, na terça‑feira, do Fable 5, o primeiro modelo de classe Mythos publicamente disponível da Anthropic, um sistema que o laboratório vinha retendo havia tempo por causa de sua capacidade mais aguçada de encontrar falhas em software. Em poucas horas após o lançamento, usuários perceberam que ele redirecionava silenciosamente ou enfraquecia suas respostas em uma faixa estreita de trabalhos avançados em IA.
Essas tarefas abrangiam treinar modelos concorrentes, depurar código de IA e ajustar redes neurais, todas sinalizadas por meio de um parágrafo enterrado em um system card de 319 páginas. Em vez de bloqueá‑las de forma explícita, o Fable 5 se apoiava em edições ocultas de prompt e vetores de direcionamento para suavizar discretamente suas respostas, uma restrição que a Anthropic estimou em apenas 0,03% do tráfego.
A correção mantém a salvaguarda, mas remove o sigilo que gerou a maior parte das críticas. A Anthropic havia defendido a versão oculta com o argumento de que regras visíveis são mais fáceis de explorar e contornar. Agora, prompts sinalizados passarão abertamente para o Claude Opus 4.8, o mesmo caminho usado para solicitações de cibersegurança e biologia, e a API em breve retornará um motivo claro para cada recusa.
Leia também: Cardano Whales Roar Back To Life As ADA Tests Multi-Year Lows
Pesquisadores rejeitam sabotagem secreta
As críticas miraram o sigilo em si, não os limites por trás dele. A Anthropic enquadrou a restrição como uma extensão dos termos que proíbem usar o Claude para construir sistemas rivais, dizendo que a aplicação silenciosa impedia que os piores infratores ganhassem vantagem. Dean Ball, pesquisador sênior na Foundation for American Innovation, chamou a tática de “sabotagem secreta” e afirmou que ela dava força à visão de que partes da agenda de segurança apenas protegem interesses comerciais.
A expressão se espalhou rapidamente.
Outros focaram na assimetria embutida na própria regra. A Anthropic manteve o Fable 5 em força total para sua própria equipe enquanto limitava grupos externos, uma divisão que irritou defensores do open source e antigos aliados da segurança. Jeremy Howard, da Fast AI, disse que o laboratório havia prometido prejudicar rivais que tentassem competir, enquanto Nathan Lambert, do AI2, chamou a redução encoberta de chocante e anticientífica.
A disputa coroou uma primeira semana difícil para o Fable 5, um modelo que a Anthropic antes julgara arriscado demais para ser lançado. O sistema foi liberado para uso público nesta semana, cerca de uma semana após o envio confidencial da papelada para IPO, numa aposta de que guardrails mais rígidos e melhor divulgados poderiam manter suas habilidades de caça a vulnerabilidades em mãos seguras.
Leia a seguir: OpenAI Targets Anthropic With Price Cuts Ahead Of A Pivotal IPO





