GPT-5.6 Sol contro Claude Fable 5: i benchmark di coding mostrano una corsa divisa

Nuove recensioni testa a testa contrappongono il GPT-5.6 Sol di OpenAI, che detiene un punteggio dell’88,8% su un importante benchmark di coding, a Claude Fable 5 di Anthropic e al suo 80,3% nei test di ingegneria del software.

Punti chiave:

GPT-5.6 Sol guida la classifica di Terminal-Bench 2.1 con l’88,8%, e la modalità Ultra spinge il punteggio al 91,9%.

Claude Fable 5 mantiene il più ampio margine pubblicato su SWE-Bench Pro con l’80,3%, contro il 58,6% di GPT-5.5.

Sol rimane in un’anteprima limitata approvata dal governo, mentre Fable 5 è tornato disponibile a livello globale il 1° luglio.

Le affermazioni di benchmark di GPT-5.6 Sol

OpenAI ha presentato in anteprima la famiglia GPT-5.6 il 26 giugno, il suo primo rilascio dopo GPT-5.5 di aprile, suddividendo la linea in tre livelli con Sol come ammiraglia.

L’azienda afferma che Sol raggiunge l’88,8% su Terminal-Bench 2.1, un test per agenti di coding da riga di comando che pianificano, iterano e coordinano strumenti. Una modalità Ultra ad alto consumo di calcolo, che attiva sub‑agenti coordinati per accelerare i lavori complessi, estende quel valore al 91,9%, il miglior punteggio pubblicato nella classifica di Terminal-Bench.

I recensori che hanno confrontato le classifiche pubblicate collocano Fable 5 alcuni punti dietro Sol nello stesso test da terminale, sebbene le cifre citate varino tra l’83,4% e l’84,3%. Sulla suite di sicurezza ExploitBench, Sol avrebbe prestazioni paragonabili alla classe Mythos pur utilizzando circa un terzo dei token di output, una compressione dei costi che conta nelle lunghe esecuzioni degli agenti.

Quasi nessuno al di fuori del programma di anteprima può ancora verificare in modo indipendente questi numeri, una riserva che diversi recensori hanno evidenziato pur riconoscendo i punteggi grezzi.

Vedi anche: OpenAI e Anthropic vogliono IPO grandi quanto SpaceX, ma Wall Street potrebbe non reggere

Il vantaggio di Fable 5 nel coding e i prezzi

Fable 5 mantiene il benchmark che la maggior parte dei recensori considera decisivo per il lavoro autonomo sul software, e il suo vantaggio lì non è piccolo. Ottiene l’80,3% su SWE-Bench Pro, che misura le correzioni end‑to‑end di reali issue su GitHub, contro il 58,6% del più vecchio GPT-5.5, e OpenAI non ha pubblicato alcun valore per GPT-5.6 su quel test.

Gli analisti che hanno riscontrato divari di queste dimensioni in test di coding, ragionamento e conoscenza dubitano che un singolo rilascio incrementale possa colmarli completamente.

I prezzi giocano nella direzione opposta, dato che Sol è indicato a 5 dollari per milione di token in input e 30 dollari per l’output, la metà dei 10 e 50 dollari di Fable 5. Diversi recensori hanno sostenuto che la configurazione sensata instrada gli agenti guidati dal terminale verso Sol, una volta reso disponibile, e le correzioni a livello di repository verso Fable 5.

L’accesso segna la linea di demarcazione più netta, poiché Sol rimane in un’anteprima limitata per circa 20 partner approvati dal governo, mentre Fable 5 è tornato disponibile in tutto il mondo il 1° luglio con un bonus di utilizzo temporaneo per gli abbonati paganti fino al 7 luglio.

Giugno ha trasformato l’accesso ai modelli di frontiera in un bersaglio mobile per entrambi i laboratori, e questo effetto “frusta” fa da cornice a ogni recensione. Washington ha costretto Fable 5 e il suo fratello più potente Mythos 5 offline il 12 giugno, citando gravi rischi per la cybersicurezza, dopo che i ricercatori di Amazon avevano scoperto un jailbreak che produceva codice di exploit. Il Segretario al Commercio Howard Lutnick ha confermato la revoca il 30 giugno dopo una revisione di due settimane, pochi giorni dopo che Mythos 5 era tornato silenziosamente disponibile per circa 100 organizzazioni americane selezionate.

Da leggere dopo: Perché ETH è ancora debole mentre lo staking di Ethereum tocca nuovi massimi?