Novas análises diretas colocam o GPT-5.6 Sol da OpenAI, detentor de 88,8% em um dos principais benchmarks de programação, frente ao Claude Fable 5 da Anthropic e sua marca de 80,3% em engenharia de software.
Pontos principais:
- GPT-5.6 Sol lidera o Terminal-Bench 2.1 com 88,8%, e seu modo Ultra eleva a pontuação para 91,9%.
- Claude Fable 5 mantém a maior vantagem publicada no SWE-Bench Pro com 80,3%, contra 58,6% do GPT-5.5.
- Sol continua em um preview limitado, aprovado por governo, enquanto o Fable 5 voltou à disponibilidade global em 1º de julho.
Alegações de benchmark do GPT-5.6 Sol
A OpenAI apresentou em preview a família GPT-5.6 em 26 de junho, seu primeiro lançamento desde o GPT-5.5 em abril, dividindo a linha em três níveis, com Sol como carro-chefe.
A empresa afirma que Sol atinge 88,8% no Terminal-Bench 2.1, um teste de agentes de programação em linha de comando que planejam, iteram e coordenam ferramentas. Um modo Ultra, mais pesado em computação, que ativa subagentes coordenados para acelerar trabalhos complexos, estica esse número para 91,9%, a maior marca publicada na tabela do Terminal-Bench.
Revisores que compararam os gráficos publicados colocam o Fable 5 alguns pontos atrás do Sol no mesmo teste de terminal, embora as cifras citadas variem entre 83,4% e 84,3%. Na suíte de segurança ExploitBench, Sol teria desempenho de classe Mythos consumindo cerca de um terço dos tokens de saída, uma compressão de custo que importa em execuções longas de agentes.
Quase ninguém fora do preview consegue verificar esses números de forma independente por enquanto, uma ressalva destacada por vários revisores mesmo ao reconhecerem as pontuações brutas.
Veja também: OpenAI e Anthropic querem IPOs do tamanho da SpaceX, mas Wall Street pode travar
Liderança de código e preços do Fable 5
O Fable 5 ainda detém o benchmark que a maioria dos revisores trata como decisivo para trabalho autônomo de software, e sua vantagem ali não é pequena. Ele marca 80,3% no SWE-Bench Pro, que mede correções ponta a ponta de issues reais do GitHub, contra 58,6% do antigo GPT-5.5, e a OpenAI não publicou nenhum número do GPT-5.6 nesse teste.
Analistas que identificaram lacunas desse tamanho em testes de programação, raciocínio e conhecimento duvidam que um único lançamento incremental consiga fechá-las totalmente.
O preço pesa para o outro lado, já que Sol estaria listado em US$ 5 por milhão de tokens de entrada e US$ 30 para saída, metade dos US$ 10 e US$ 50 do Fable 5. Vários revisores argumentaram que a configuração sensata encaminha agentes orientados a terminal para o Sol, assim que ele abrir, e correções em nível de repositório para o Fable 5.
O acesso marca a linha mais nítida, já que Sol continua em um preview limitado para cerca de 20 parceiros aprovados pelo governo, enquanto o Fable 5 voltou ao mundo todo em 1º de julho com um bônus temporário de uso para assinantes pagos até 7 de julho.
Junho transformou o acesso a modelos de fronteira em alvo móvel para ambos os laboratórios, e essa gangorra orienta cada análise. Washington tirou o Fable 5 e seu irmão mais poderoso, o Mythos 5, do ar em 12 de junho, citando graves riscos de cibersegurança, depois que pesquisadores da Amazon revelaram um jailbreak que produzia código de exploit. O secretário de Comércio Howard Lutnick confirmou a reversão em 30 de junho após uma revisão de duas semanas, poucos dias depois de o Mythos 5 ter retornado discretamente para cerca de 100 organizações americanas avaliadas.
Próximo: Por que o ETH ainda está fraco enquanto o staking de Ethereum bate recordes?





