Anthropic reverte regra do Claude Fable 5 que enfraquecia resultados para pesquisadores rivais de IA

Anthropic está revertendo uma política do Claude Fable 5 que degradava secretamente resultados para pesquisadores que desenvolvem sistemas de IA rivais, uma restrição que a empresa afirma ter afetado apenas 0,03% do tráfego.

Pontos principais:

A Anthropic voltou atrás em uma política do Fable 5 que enfraquecia silenciosamente respostas para pesquisas de IA de fronteira.

O limite não divulgado estava escondido em um system card de 319 páginas, sem qualquer aviso ao usuário.

Solicitações sinalizadas agora passarão abertamente para o Claude Opus 4.8, com o motivo exibido em cada caso.

Reversão das restrições do Claude Fable 5

A empresa confirmou a mudança à Wired nesta semana, que foi a primeira a noticiar a decisão após dias de crescente indignação entre pesquisadores, desenvolvedores e analistas de políticas online. A reversão veio logo após o lançamento, na terça‑feira, do Fable 5, o primeiro modelo de classe Mythos da Anthropic disponível ao público, um sistema que o laboratório vinha retendo devido à sua habilidade mais apurada em encontrar falhas de software. Poucas horas após o lançamento, usuários perceberam que o modelo redirecionava silenciosamente ou enfraquecia respostas em um conjunto restrito de trabalhos avançados em IA.

Essas tarefas abrangiam o treinamento de modelos concorrentes, a depuração de código de IA e o ajuste de redes neurais, todas sinalizadas em um parágrafo enterrado em um system card de 319 páginas. Em vez de bloqueá‑las de forma explícita, o Fable 5 recorria a edições ocultas de prompt e vetores de direcionamento para suavizar silenciosamente suas respostas, uma restrição que a Anthropic estimou em apenas 0,03% do tráfego.

A correção mantém a proteção, mas elimina o sigilo que gerou as críticas mais duras. A Anthropic havia defendido a versão oculta com o argumento de que regras visíveis são mais fáceis de testar e contornar. Agora, prompts sinalizados passarão abertamente para o Claude Opus 4.8, o mesmo caminho usado para solicitações de cibersegurança e biologia, e a API em breve retornará um motivo claro para cada recusa.

Também leia: Cardano Whales Roar Back To Life As ADA Tests Multi-Year Lows

Pesquisadores rejeitam sabotagem secreta

As críticas miraram o sigilo em si, não os limites por trás dele. A Anthropic havia apresentado a restrição como uma extensão dos termos que proíbem usar o Claude para construir sistemas rivais, alegando que a aplicação discreta impedia que os piores infratores ganhassem vantagem. Dean Ball, pesquisador sênior da Foundation for American Innovation, classificou a tática como “sabotagem secreta” e afirmou que ela reforçava a visão de que parte da agenda de segurança serve apenas para proteger interesses comerciais.

A expressão se espalhou rapidamente.

Outros se concentraram na assimetria embutida na própria regra. A Anthropic manteve o Fable 5 em plena capacidade para sua própria equipe enquanto limitava grupos externos, uma divisão que irritou defensores do open source e antigos aliados da segurança. Jeremy Howard, da Fast AI, disse que o laboratório havia prometido prejudicar rivais que tentassem competir, enquanto Nathan Lambert, do AI2, chamou o rebaixamento encoberto de chocante e anticientífico.

O embate coroou uma primeira semana turbulenta para o Fable 5, um modelo que a Anthropic já considerou arriscado demais para ser lançado. A empresa liberou o sistema para uso público nesta semana, cerca de uma semana depois de registrar confidencialmente documentos para um IPO, apostando que proteções mais rígidas e melhor explicadas poderiam manter suas habilidades de encontrar vulnerabilidades em mãos seguras.

Leia a seguir: OpenAI Targets Anthropic With Price Cuts Ahead Of A Pivotal IPO