GPT-5.6 Sol vs Claude Fable 5: benchmarks de código mostram corrida dividida

GPT-5.6 Sol vs Claude Fable 5: benchmarks de código mostram corrida dividida

Novas análises lado a lado colocam o GPT-5.6 Sol da OpenAI, detentor de 88,8% em um dos principais benchmarks de programação, contra o Claude Fable 5 da Anthropic, com marca de 80,3% em engenharia de software.

Principais pontos:

  • GPT-5.6 Sol lidera o Terminal-Bench 2.1 com 88,8%, e o modo Ultra eleva a pontuação para 91,9%.
  • Claude Fable 5 mantém a maior vantagem publicada no SWE-Bench Pro com 80,3%, contra 58,6% do GPT-5.5.
  • Sol continua em prévia limitada aprovada por governo, enquanto Fable 5 voltou à disponibilidade global em 1º de julho.

Alegações de benchmark do GPT-5.6 Sol

A OpenAI apresentou em prévia a família GPT-5.6 em 26 de junho, seu primeiro lançamento desde o GPT-5.5 em abril, dividindo a linha em três níveis com Sol como carro-chefe.

A empresa afirma que Sol atinge 88,8% no Terminal-Bench 2.1, um teste de agentes de programação em linha de comando que planejam, iteram e coordenam ferramentas. Um modo Ultra, intensivo em computação e que aciona subagentes coordenados para acelerar trabalhos complexos, estende esse número para 91,9%, a maior marca publicada na tabela do Terminal-Bench.

Revisores que compararam os gráficos publicados colocam o Fable 5 alguns pontos atrás do Sol no mesmo teste de terminal, embora os números citados variem entre 83,4% e 84,3%. No conjunto de segurança ExploitBench, o Sol supostamente iguala o desempenho da classe Mythos gastando cerca de um terço dos tokens de saída, uma compressão de custo que pesa em execuções longas de agentes.

Quase ninguém fora da prévia consegue verificar esses números de forma independente por enquanto, uma ressalva que vários revisores destacaram mesmo ao reconhecer as pontuações brutas.

Veja também: OpenAI e Anthropic querem IPOs do tamanho da SpaceX, mas Wall Street pode travar

Liderança do Fable 5 em código e preços

O Fable 5 ainda domina o benchmark que a maioria dos revisores trata como decisivo para trabalho autônomo em software, e sua vantagem ali não é pequena. Ele marca 80,3% no SWE-Bench Pro, que mede correções ponta a ponta de issues reais do GitHub, contra 58,6% do antigo GPT-5.5, e a OpenAI não publicou nenhum número do GPT-5.6 nesse teste.

Analistas que encontraram lacunas desse tamanho em testes de código, raciocínio e conhecimento duvidam que um único lançamento incremental consiga fechá-las totalmente.

No preço, a balança pende para o outro lado, já que o Sol estaria tabelado em US$ 5 por milhão de tokens de entrada e US$ 30 para saída, metade dos US$ 10 e US$ 50 do Fable 5. Vários revisores argumentaram que a configuração sensata direciona agentes dirigidos por terminal para o Sol, quando ele abrir, e correções em nível de repositório para o Fable 5.

O acesso traça a linha mais nítida, pois o Sol continua em prévia limitada para cerca de 20 parceiros aprovados por governos, enquanto o Fable 5 voltou ao mundo todo em 1º de julho com um bônus temporário de uso para assinantes pagos até 7 de julho.

Junho transformou o acesso a modelos de fronteira em um alvo móvel para ambos os laboratórios, e esse vai‑e‑vem contextualiza todas as análises. Washington tirou o Fable 5 e seu irmão mais poderoso, o Mythos 5, do ar em 12 de junho, citando graves riscos de cibersegurança, depois que pesquisadores da Amazon descobriram um jailbreak que produzia código de exploração. O secretário de Comércio, Howard Lutnick, confirmou a reversão em 30 de junho após uma revisão de duas semanas, dias depois de o Mythos 5 ter voltado discretamente para cerca de 100 organizações americanas avaliadas.

Leia a seguir: Por que o ETH continua fraco enquanto o staking de Ethereum atinge recordes?

Disclaimer e aviso de risco: As informações fornecidas neste artigo são apenas para fins educacionais e informativos e baseiam-se na opinião do autor. Não constituem aconselhamento financeiro, de investimento, legal ou fiscal. Os ativos de criptomoeda são altamente voláteis e sujeitos a alto risco, incluindo o risco de perder todo ou uma quantia substancial do seu investimento. Negociar ou deter ativos cripto pode não ser adequado para todos os investidores. As opiniões expressas neste artigo são exclusivamente do(s) autor(es) e não representam a política oficial ou posição da Yellow, seus fundadores ou executivos. Sempre conduza a sua própria pesquisa minuciosa (D.Y.O.R.) e consulte um profissional financeiro licenciado antes de tomar qualquer decisão de investimento.
Últimas Notícias
Mostrar Todas as Notícias
GPT-5.6 Sol vs Claude Fable 5: benchmarks de código mostram corrida dividida | Yellow.com