GPT-5.6 Sol contro Claude Fable 5: i benchmark di coding mostrano una corsa divisa

GPT-5.6 Sol contro Claude Fable 5: i benchmark di coding mostrano una corsa divisa

Nuove recensioni testa a testa mettono OpenAI e il suo GPT-5.6 Sol, che detiene un punteggio dell’88,8% in un importante benchmark di coding, contro Anthropic e Claude Fable 5 con il suo 80,3% in ingegneria del software.

Punti chiave:

  • GPT-5.6 Sol guida la classifica di Terminal-Bench 2.1 con l’88,8%, e la modalità Ultra spinge il punteggio al 91,9%.
  • Claude Fable 5 mantiene il più ampio vantaggio pubblicato su SWE-Bench Pro con l’80,3%, contro il 58,6% di GPT-5.5.
  • Sol resta in un’anteprima limitata approvata dal governo, mentre Fable 5 è tornato disponibile a livello globale il 1° luglio.

Le affermazioni di benchmark di GPT-5.6 Sol

OpenAI ha presentato in anteprima la famiglia GPT-5.6 il 26 giugno, il primo rilascio dopo GPT-5.5 di aprile, suddividendo la linea in tre livelli con Sol come modello di punta.

L’azienda afferma che Sol raggiunge l’88,8% su Terminal-Bench 2.1, un test per agenti di coding da riga di comando che pianificano, iterano e coordinano strumenti. Una modalità Ultra ad alto consumo di calcolo, che attiva sub‑agenti coordinati per accelerare i compiti complessi, estende quel valore al 91,9%, il punteggio pubblicato più alto nella classifica di Terminal-Bench.

I recensori che hanno confrontato le tabelle pubblicate collocano Fable 5 diversi punti dietro Sol nello stesso test da terminale, anche se le cifre citate variano tra l’83,4% e l’84,3%. Nella suite di sicurezza ExploitBench, Sol pare eguagliare le prestazioni della classe Mythos pur utilizzando circa un terzo dei token di output, una compressione dei costi che conta nelle lunghe esecuzioni di agenti.

Quasi nessuno al di fuori del programma di anteprima può però verificare in modo indipendente questi numeri, una riserva che diversi recensori hanno segnalato pur riconoscendo i punteggi grezzi.

Da leggere anche: OpenAI e Anthropic vogliono IPO grandi quanto SpaceX, ma Wall Street potrebbe soffocare

Il vantaggio di coding e i prezzi di Fable 5

Fable 5 detiene ancora il benchmark che la maggior parte dei recensori considera decisivo per il lavoro software autonomo, e il suo margine lì non è piccolo. Segna l’80,3% su SWE-Bench Pro, che misura correzioni end‑to‑end di veri issue su GitHub, contro il 58,6% del vecchio GPT-5.5, e OpenAI non ha pubblicato alcun valore per GPT-5.6 su quel test.

Gli analisti che hanno riscontrato divari di queste dimensioni tra test di coding, ragionamento e conoscenza dubitano che un singolo rilascio incrementale possa colmarli del tutto.

Sul fronte dei prezzi il vantaggio va invece nella direzione opposta, dato che Sol è indicato a 5 dollari per milione di token in input e 30 per l’output, la metà dei 10 e 50 dollari di Fable 5. Diversi recensori hanno sostenuto che la configurazione sensata instrada gli agenti guidati da terminale verso Sol, una volta che si aprirà, e gli interventi a livello di repository verso Fable 5.

L’accesso traccia la linea di demarcazione più netta, poiché Sol rimane in un’anteprima limitata per circa 20 partner approvati dal governo, mentre Fable 5 è tornato disponibile in tutto il mondo il 1° luglio con un bonus di utilizzo temporaneo per gli abbonati a pagamento fino al 7 luglio.

Giugno ha reso l’accesso ai modelli di frontiera un bersaglio mobile per entrambi i laboratori, e tale effetto altalena fa da cornice a ogni recensione. Washington ha imposto la disconnessione di Fable 5 e del suo fratello più potente Mythos 5 il 12 giugno, citando gravi rischi di cybersecurity, dopo che i ricercatori di Amazon avevano individuato un jailbreak che produceva codice di exploit. Il Segretario al Commercio Howard Lutnick ha confermato la revoca il 30 giugno al termine di una revisione di due settimane, pochi giorni dopo il ritorno silenzioso di Mythos 5 presso circa 100 organizzazioni americane selezionate.

Leggi anche: Perché ETH è ancora debole mentre lo staking di Ethereum tocca nuovi massimi?

Disclaimer e avvertenza sui rischi: Le informazioni fornite in questo articolo sono solo per scopi educativi e informativi e sono basate sull'opinione dell'autore. Non costituiscono consulenza finanziaria, di investimento, legale o fiscale. Gli asset di criptovaluta sono altamente volatili e soggetti ad alto rischio, incluso il rischio di perdere tutto o una parte sostanziale del tuo investimento. Il trading o il possesso di asset crypto potrebbe non essere adatto a tutti gli investitori. Le opinioni espresse in questo articolo sono esclusivamente quelle dell'autore/autori e non rappresentano la politica ufficiale o la posizione di Yellow, dei suoi fondatori o dei suoi dirigenti. Conduci sempre la tua ricerca approfondita (D.Y.O.R.) e consulta un professionista finanziario autorizzato prima di prendere qualsiasi decisione di investimento.
GPT-5.6 Sol contro Claude Fable 5: i benchmark di coding mostrano una corsa divisa | Yellow.com