Fable 5 superou o GPT 5.5 antes de ordem dos EUA tirá-lo do ar

Anthropic’s Fable 5 superou brevemente o OpenAI’s GPT 5.5 em grandes benchmarks de IA antes que uma diretiva de controle de exportação dos EUA em 12 de junho o tirasse do ar.

Pontos-chave:

Fable 5 liderou o GPT 5.5 no Arena, SWE-Bench Pro e nos principais testes de código.

O modelo ficou disponível por apenas três dias antes de o governo dos EUA ordenar que a Anthropic o desativasse.

O GPT 5.5 agora é o modelo mais forte disponível por padrão, não porque superou o Fable 5.

Fable 5 foi desligado

O Fable 5 se tornou o modelo de IA público mais capaz após seu lançamento em 9 de junho, superando o GPT 5.5 em grandes benchmarks antes de o governo dos EUA intervir três dias depois.

O modelo ficou em primeiro lugar no Arena, enquanto o GPT 5.5 ficou em quarto. No SWE-Bench Pro, o Fable 5 marcou 80,3%, contra 58,6% do GPT 5.5, uma diferença de quase 22 pontos em tarefas reais de engenharia de software.

A liderança também era nítida nos testes de código. O Fable 5 marcou 1.665 no Code Arena, 98 pontos de Elo acima do GPT 5.5, e alcançou 29,3% no FrontierCode Diamond, onde o GPT 5.5 chegou a 5,7%.

O GPT 5.5 tinha uma vantagem mais estreita em termos práticos de posicionamento. Ele custa US$ 5 por milhão de tokens de entrada e US$ 30 por milhão de tokens de saída, enquanto o Fable 5 custava US$ 10 e US$ 50, tornando o modelo da OpenAI mais barato para uso em grande escala.

O Fable 5 também oferecia uma janela de contexto de um milhão de tokens e 128.000 tokens de saída. A Anthropic o havia disponibilizado para assinantes Pro, Max, Team e Enterprise sem custo extra até 22 de junho, antes de a ordem encerrar esse período antecipadamente.

Also Read: Is AI Becoming A Real Advantage In Court? Ask The Lawyer Who Just Beat Meta

GPT 5.5 é o rei

O desligamento ocorreu após uma diretiva de controle de exportação de 12 de junho que citava uma vulnerabilidade de jailbreak no Fable 5 e na família de modelos Mythos 5. A Anthropic contestou a conclusão, dizendo que o problema era menor, já conhecido e também reproduzível no GPT 5.5 sem métodos especiais de bypass.

O resultado é incomum para o mercado de IA.

Os desenvolvedores perderam o acesso ao modelo que liderava as tabelas de benchmarks, enquanto o GPT 5.5 se tornou a melhor opção disponível porque seu rival mais próximo foi removido.

Essa diferença importa principalmente para fluxos de trabalho de programação. Um intervalo de 22 pontos no SWE-Bench Pro significa a diferença entre um modelo que resolve cerca de quatro em cada cinco problemas reais de código e outro que lida com algo mais próximo de três em cinco.

A breve fase do Fable 5 também mostrou quão rápido a fronteira pode avançar. O GPT 5.5 foi lançado no fim de abril sob o codinome interno “Spud”, mas sua liderança durou apenas até a Anthropic abrir o acesso público a um sistema mais forte da classe Mythos em junho.