Fable 5 superou o GPT 5.5 antes de ordem dos EUA tirá-lo do ar

Anthropic’s Fable 5 superou brevemente o OpenAI’s GPT 5.5 em grandes benchmarks de IA antes que uma ordem de controle de exportação dos EUA em 12 de junho o tirasse do ar.

Pontos principais:

Fable 5 liderou o GPT 5.5 no Chatbot Arena, SWE-Bench Pro e grandes testes de programação.

O modelo ficou disponível por apenas três dias antes de o governo dos EUA ordenar que a Anthropic o desativasse.

O GPT 5.5 agora é o modelo mais forte disponível por padrão, não porque tenha superado o Fable 5.

Fable 5 desligado

O Fable 5 se tornou o modelo público de IA mais capaz após seu lançamento em 9 de junho, superando o GPT 5.5 em grandes benchmarks antes de a intervenção do governo dos EUA três dias depois.

O modelo ficou em primeiro lugar no Chatbot Arena, enquanto o GPT 5.5 ficou em quarto. No SWE-Bench Pro, o Fable 5 obteve 80,3%, contra 58,6% do GPT 5.5, uma diferença de quase 22 pontos em tarefas reais de engenharia de software.

A vantagem também foi clara nos testes de programação. O Fable 5 marcou 1.665 no Code Arena, 98 pontos de Elo acima do GPT 5.5, e alcançou 29,3% no FrontierCode Diamond, onde o GPT 5.5 conseguiu 5,7%.

O GPT 5.5 tinha uma vantagem mais estreita em posicionamento prático. Ele custa US$ 5 por milhão de tokens de entrada e US$ 30 por milhão de tokens de saída, enquanto o Fable 5 custava US$ 10 e US$ 50, tornando o modelo da OpenAI mais barato para uso em grande escala.

O Fable 5 também oferecia uma janela de contexto de um milhão de tokens e 128.000 tokens de saída. A Anthropic o havia disponibilizado para assinantes Pro, Max, Team e Enterprise sem custo extra até 22 de junho, antes de a ordem encerrar esse período antecipadamente.

GPT 5.5 é o rei

O desligamento seguiu uma diretiva de controle de exportação de 12 de junho que citou uma vulnerabilidade de jailbreak no Fable 5 e na família mais ampla de modelos Mythos 5. A Anthropic contestou a conclusão, dizendo que o problema era menor, já conhecido e também possível no GPT 5.5 sem métodos especiais de bypass.

O resultado é incomum para o mercado de IA.

Desenvolvedores perderam acesso ao modelo que liderava as tabelas de benchmarks, enquanto o GPT 5.5 se tornou a melhor opção disponível porque seu rival mais próximo foi removido.

Essa diferença importa principalmente para fluxos de trabalho de programação. Uma diferença de 22 pontos no SWE-Bench Pro significa a distância entre um modelo que resolve cerca de quatro em cinco problemas reais de código e outro que lida com algo mais próximo de três em cinco.

A breve trajetória do Fable 5 também mostrou quão rápido a fronteira pode se mover. O GPT 5.5 foi lançado no fim de abril sob o codinome interno “Spud”, mas sua liderança durou apenas até a Anthropic liberar o acesso público a um sistema mais forte da classe Mythos em junho.

Leia em seguida: Anthropic Refused To Patch Claude Fable's Jailbreak, So The US Banned It, David Sacks Says