Novas análises lado a lado colocam o GPT-5.6 Sol da OpenAI, detentor de 88,8% em um dos principais benchmarks de programação, contra o Claude Fable 5 da Anthropic, com marca de 80,3% em engenharia de software.
Principais pontos:
- GPT-5.6 Sol lidera o Terminal-Bench 2.1 com 88,8%, e o modo Ultra eleva a pontuação para 91,9%.
- Claude Fable 5 mantém a maior vantagem publicada no SWE-Bench Pro com 80,3%, contra 58,6% do GPT-5.5.
- Sol continua em prévia limitada aprovada por governo, enquanto Fable 5 voltou à disponibilidade global em 1º de julho.
Alegações de benchmark do GPT-5.6 Sol
A OpenAI apresentou em prévia a família GPT-5.6 em 26 de junho, seu primeiro lançamento desde o GPT-5.5 em abril, dividindo a linha em três níveis com Sol como carro-chefe.
A empresa afirma que Sol atinge 88,8% no Terminal-Bench 2.1, um teste de agentes de programação em linha de comando que planejam, iteram e coordenam ferramentas. Um modo Ultra, intensivo em computação e que aciona subagentes coordenados para acelerar trabalhos complexos, estende esse número para 91,9%, a maior marca publicada na tabela do Terminal-Bench.
Revisores que compararam os gráficos publicados colocam o Fable 5 alguns pontos atrás do Sol no mesmo teste de terminal, embora os números citados variem entre 83,4% e 84,3%. No conjunto de segurança ExploitBench, o Sol supostamente iguala o desempenho da classe Mythos gastando cerca de um terço dos tokens de saída, uma compressão de custo que pesa em execuções longas de agentes.
Quase ninguém fora da prévia consegue verificar esses números de forma independente por enquanto, uma ressalva que vários revisores destacaram mesmo ao reconhecer as pontuações brutas.
Veja também: OpenAI e Anthropic querem IPOs do tamanho da SpaceX, mas Wall Street pode travar
Liderança do Fable 5 em código e preços
O Fable 5 ainda domina o benchmark que a maioria dos revisores trata como decisivo para trabalho autônomo em software, e sua vantagem ali não é pequena. Ele marca 80,3% no SWE-Bench Pro, que mede correções ponta a ponta de issues reais do GitHub, contra 58,6% do antigo GPT-5.5, e a OpenAI não publicou nenhum número do GPT-5.6 nesse teste.
Analistas que encontraram lacunas desse tamanho em testes de código, raciocínio e conhecimento duvidam que um único lançamento incremental consiga fechá-las totalmente.
No preço, a balança pende para o outro lado, já que o Sol estaria tabelado em US$ 5 por milhão de tokens de entrada e US$ 30 para saída, metade dos US$ 10 e US$ 50 do Fable 5. Vários revisores argumentaram que a configuração sensata direciona agentes dirigidos por terminal para o Sol, quando ele abrir, e correções em nível de repositório para o Fable 5.
O acesso traça a linha mais nítida, pois o Sol continua em prévia limitada para cerca de 20 parceiros aprovados por governos, enquanto o Fable 5 voltou ao mundo todo em 1º de julho com um bônus temporário de uso para assinantes pagos até 7 de julho.
Junho transformou o acesso a modelos de fronteira em um alvo móvel para ambos os laboratórios, e esse vai‑e‑vem contextualiza todas as análises. Washington tirou o Fable 5 e seu irmão mais poderoso, o Mythos 5, do ar em 12 de junho, citando graves riscos de cibersegurança, depois que pesquisadores da Amazon descobriram um jailbreak que produzia código de exploração. O secretário de Comércio, Howard Lutnick, confirmou a reversão em 30 de junho após uma revisão de duas semanas, dias depois de o Mythos 5 ter voltado discretamente para cerca de 100 organizações americanas avaliadas.
Leia a seguir: Por que o ETH continua fraco enquanto o staking de Ethereum atinge recordes?





