Fable 5 superou o GPT 5.5 antes de uma ordem dos EUA tirá-lo do ar

Anthropic’s Fable 5 superou brevemente o OpenAI’s GPT 5.5 em grandes benchmarks de IA antes de uma ordem de controle de exportação dos EUA em 12 de junho tirá-lo do ar.

Key Points:

Fable 5 liderou o GPT 5.5 no Arena, SWE-Bench Pro e em grandes testes de programação.

O modelo ficou disponível por apenas três dias antes de o governo dos EUA ordenar que a Anthropic o desativasse.

O GPT 5.5 agora é o modelo disponível mais forte por padrão, não porque tenha superado o Fable 5.

Encerramento do Fable 5

O Fable 5 tornou-se o modelo público de IA mais capaz após seu lançamento em 9 de junho, superando o GPT 5.5 nos principais benchmarks antes de o governo dos EUA intervir três dias depois.

O modelo ficou em primeiro lugar no Arena, enquanto o GPT 5.5 ficou em quarto. No SWE-Bench Pro, o Fable 5 marcou 80,3%, contra 58,6% do GPT 5.5, uma diferença de quase 22 pontos em tarefas reais de engenharia de software.

A liderança também foi clara nos testes de código. O Fable 5 marcou 1.665 no Code Arena, 98 pontos de Elo acima do GPT 5.5, e alcançou 29,3% no FrontierCode Diamond, onde o GPT 5.5 chegou a 5,7%.

O GPT 5.5 mantinha uma vantagem mais estreita na questão prática de posicionamento. Ele custa US$ 5 por milhão de tokens de entrada e US$ 30 por milhão de tokens de saída, enquanto o Fable 5 custava US$ 10 e US$ 50, tornando o modelo da OpenAI mais barato para uso em grande escala.

O Fable 5 também oferecia uma janela de contexto de um milhão de tokens e 128.000 tokens de saída. A Anthropic o havia disponibilizado para assinantes Pro, Max, Team e Enterprise sem custo adicional até 22 de junho, antes de a ordem encerrar esse período antecipadamente.

Also Read: Is AI Becoming A Real Advantage In Court? Ask The Lawyer Who Just Beat Meta

GPT 5.5 é o rei

O desligamento seguiu uma diretiva de controle de exportação de 12 de junho que citava uma vulnerabilidade de jailbreak no Fable 5 e na família de modelos Mythos 5 em geral. A Anthropic contestou a conclusão, dizendo que o problema era menor, já conhecido e também alcançável no GPT 5.5 sem métodos especiais de bypass.

O resultado é incomum para o mercado de IA.

Os desenvolvedores perderam acesso ao modelo que liderava as tabelas de benchmark, enquanto o GPT 5.5 se tornou a melhor opção disponível porque seu rival mais próximo foi removido.

Essa diferença importa sobretudo para fluxos de trabalho de programação. Uma diferença de 22 pontos no SWE-Bench Pro significa a distância entre um modelo que consegue resolver cerca de quatro em cinco problemas reais de codebase e outro que lida com algo mais próximo de três em cinco.

A breve passagem do Fable 5 também mostrou quão rápido a fronteira pode avançar. O GPT 5.5 foi lançado no fim de abril sob o codinome interno “Spud”, mas sua liderança durou apenas até a Anthropic abrir o acesso público a um sistema mais forte de classe Mythos em junho.