GPT-5.6 Sol vs Claude Fable 5: benchmarks de código mostram corrida dividida

Novas análises diretas colocam o GPT-5.6 Sol da OpenAI, que detém 88,8% em um dos principais benchmarks de programação, frente ao Claude Fable 5 da Anthropic, com 80,3% em engenharia de software.

Pontos-chave:

O GPT-5.6 Sol lidera o Terminal-Bench 2.1 com 88,8%, e seu modo Ultra eleva a pontuação para 91,9%.

O Claude Fable 5 mantém a maior vantagem publicada no SWE-Bench Pro, com 80,3%, contra 58,6% do GPT-5.5.

O Sol permanece em um preview limitado e aprovado por governos, enquanto o Fable 5 voltou à disponibilidade global em 1º de julho.

Alegações de benchmark do GPT-5.6 Sol

A OpenAI apresentou em preview a família GPT-5.6 em 26 de junho, seu primeiro lançamento desde o GPT-5.5 em abril, dividindo a linha em três níveis, com o Sol como carro-chefe.

A empresa afirma que o Sol atinge 88,8% no Terminal-Bench 2.1, um teste de agentes de programação em linha de comando que planejam, iteram e coordenam ferramentas. Um modo Ultra, pesado em computação, que aciona subagentes coordenados para acelerar trabalhos complexos, estica esse número para 91,9%, a marca publicada mais alta no ranking do Terminal-Bench.

Avaliadores que compararam os gráficos publicados colocam o Fable 5 alguns pontos atrás do Sol no mesmo teste de terminal, embora os números citados variem entre 83,4% e 84,3%. No conjunto de segurança ExploitBench, o Sol supostamente iguala o desempenho da classe Mythos enquanto consome cerca de um terço dos tokens de saída, uma compressão de custo que importa em execuções longas de agentes.

Quase ninguém fora do programa de preview consegue verificar esses números de forma independente por enquanto, uma ressalva destacada por vários avaliadores, ainda que reconhecendo as pontuações brutas.

Veja também: OpenAI e Anthropic querem IPOs do tamanho da SpaceX, mas Wall Street pode travar

Liderança do Fable 5 em código e preços

O Fable 5 ainda domina o benchmark que a maioria dos avaliadores trata como decisivo para trabalho autônomo de software, e sua vantagem ali não é pequena. Ele marca 80,3% no SWE-Bench Pro, que mede correções ponta a ponta de issues reais do GitHub, contra 58,6% do antigo GPT-5.5, e a OpenAI não publicou nenhum número do GPT-5.6 nesse teste.

Analistas que identificaram lacunas desse tamanho em testes de programação, raciocínio e conhecimento duvidam que um único lançamento incremental consiga fechá-las totalmente.

O preço pende para o outro lado, já que o Sol estaria listado em US$ 5 por milhão de tokens de entrada e US$ 30 por milhão de tokens de saída, metade dos US$ 10 e US$ 50 do Fable 5. Vários avaliadores argumentaram que a configuração sensata encaminha agentes dirigidos por terminal para o Sol, assim que ele abrir, e correções em nível de repositório para o Fable 5.

O acesso traça a linha mais nítida, já que o Sol permanece em um preview limitado para cerca de 20 parceiros aprovados por governos, enquanto o Fable 5 voltou ao mundo todo em 1º de julho com um bônus temporário de uso para assinantes pagos até 7 de julho.

Junho transformou o acesso a modelos de fronteira em um alvo móvel para ambos os laboratórios, e essa montanha-russa contextualiza todas as análises. Washington forçou o Fable 5 e seu irmão mais potente, o Mythos 5, a saírem do ar em 12 de junho, citando graves riscos de cibersegurança, depois que pesquisadores da Amazon descobriram um jailbreak que gerava código de exploração. O Secretário de Comércio Howard Lutnick confirmou a reversão em 30 de junho, após duas semanas de revisão, poucos dias depois de o Mythos 5 ter retornado discretamente para cerca de 100 organizações americanas avaliadas.

Leia a seguir: Por que o ETH ainda está fraco enquanto o staking de Ethereum atinge recordes?