GPT-5.6 Sol vs Claude Fable 5: benchmarks de código mostram corrida dividida

Novas análises diretas colocam o GPT-5.6 Sol da OpenAI, com 88,8% em um dos principais benchmarks de programação, frente ao Claude Fable 5 da Anthropic, que registra 80,3% em engenharia de software.

Pontos principais:

GPT-5.6 Sol lidera o Terminal-Bench 2.1 com 88,8%, e o modo Ultra eleva a pontuação para 91,9%.

Claude Fable 5 mantém a maior vantagem publicada no SWE-Bench Pro com 80,3%, contra 58,6% do GPT-5.5.

Sol continua em um preview limitado aprovado por governos, enquanto o Fable 5 voltou à disponibilidade global em 1º de jul.

Alegações de benchmark do GPT-5.6 Sol

A OpenAI apresentou em preview a família GPT-5.6 em 26 de jun., seu primeiro lançamento desde o GPT-5.5 em abril, dividindo a linha em três camadas, com Sol como carro-chefe.

A empresa afirma que o Sol atinge 88,8% no Terminal-Bench 2.1, um teste de agentes de linha de comando que planejam, iteram e coordenam ferramentas. Um modo Ultra, intensivo em computação, que aciona subagentes coordenados para acelerar trabalhos complexos, estica esse número para 91,9%, a maior marca publicada no ranking do Terminal-Bench.

Analistas que compararam os gráficos publicados colocam o Fable 5 alguns pontos atrás do Sol no mesmo teste de terminal, embora as cifras citadas variem entre 83,4% e 84,3%. No pacote de segurança ExploitBench, o Sol supostamente iguala o desempenho da classe Mythos consumindo cerca de um terço dos tokens de saída, uma compressão de custos que pesa em execuções longas de agentes.

Quase ninguém fora do preview consegue verificar esses números de forma independente por enquanto, uma ressalva destacada por vários avaliadores, mesmo ao reconhecer as pontuações brutas.

Liderança do Fable 5 em código e preços

O Fable 5 ainda domina o benchmark que a maioria dos avaliadores trata como decisivo para trabalho autônomo de software, e sua vantagem ali não é pequena. Ele marca 80,3% no SWE-Bench Pro, que mede correções ponta a ponta de problemas reais do GitHub, contra 58,6% do antigo GPT-5.5, e a OpenAI não publicou nenhum número do GPT-5.6 nesse teste.

Analistas que identificaram lacunas desse tamanho em testes de código, raciocínio e conhecimento duvidam que um único lançamento incremental consiga fechá-las totalmente.

Nos preços, a vantagem é inversa, já que o Sol estaria listado a US$ 5 por milhão de tokens de entrada e US$ 30 por saída, metade dos US$ 10 e US$ 50 do Fable 5. Vários avaliadores argumentaram que a configuração sensata direciona agentes baseados em terminal para o Sol, quando abrir, e correções em nível de repositório para o Fable 5.

O acesso marca a linha mais nítida, já que o Sol continua em um preview limitado para cerca de 20 parceiros aprovados por governos, enquanto o Fable 5 retornou ao mundo todo em 1º de jul., com um bônus temporário de uso para assinantes pagos até 7 de jul.

Junho transformou o acesso a modelos de fronteira em um alvo móvel para ambos os laboratórios, e esse vai‑e‑vem molda todas as análises. Washington tirou o Fable 5 e seu irmão mais potente, Mythos 5, do ar em 12 de jun., citando riscos severos de cibersegurança, depois que pesquisadores da Amazon descobriram um jailbreak que produzia código de exploração. O secretário de Comércio Howard Lutnick confirmou a reversão em 30 de jun., após duas semanas de revisão, poucos dias depois de o Mythos 5 ter retornado discretamente para cerca de 100 organizações americanas avaliadas.

Leia em seguida: Why Is ETH Still Weak While Ethereum Staking Hits Record Highs?