Claude Opus 4.8 supera Gemini e GPT in diversi test di programmazione

Anthropic ha rilasciato Claude Opus 4.8, sostenendo che il modello aggiornato supera GPT-5.5 di OpenAI e Gemini 3.1 Pro di Google in diversi benchmark di programmazione.

Punti chiave:

Anthropic ha lanciato Claude Opus 4.8 il 28 maggio, con un prezzo allineato alla precedente versione 4.7.

L’azienda afferma che supera GPT-5.5 di OpenAI e Gemini 3.1 Pro di Google su SWE-Bench Pro e altri test.

Una modalità rapida rinnovata e flussi di lavoro dinamici puntano a ridurre i costi e i tempi del lavoro agentico.

Claude Opus 4.8 supera i benchmark di programmazione

L’azienda ha presentato il modello giovedì, sviluppando la versione Opus 4.7 distribuita circa sei settimane prima. Anthropic ha dichiarato che Opus 4.8 ha ottenuto il 69,2% nel test di programmazione SWE-Bench Pro, battendo entrambi i rivali in quella prova e superandoli in diverse altre misurazioni. Ha inoltre riportato progressi nell’uso del computer, nel lavoro di conoscenza e nell’analisi finanziaria, insieme a un punteggio del 74,2% nel benchmark Terminal-Bench 2.1.

Anthropic ha presentato il rilascio come un modello più onesto, affermando che i tester hanno riscontrato che segnala la propria incertezza e si ferma prima di formulare affermazioni non supportate. Le revisioni interne lo valutano circa quattro volte meno incline rispetto a Opus 4.7 a lasciar passare difetti di codice, e l’azienda afferma che ottiene punteggi più alti nel rispetto dell’autonomia degli utenti.

Da leggere anche: Cardano Whales Seize 67.5% Of ADA Supply, A Six-Year High

Perché i controlli dei costi di Anthropic contano

I prezzi sono rimasti stabili a 5 dollari per milione di token in input e 25 dollari per milione di token in output. Una modalità rapida rinnovata ora funziona circa il 150% più velocemente e costa tre volte meno rispetto all’impostazione precedente. Anthropic ha anche aperto una anteprima di ricerca dei flussi di lavoro dinamici, che avviano centinaia di sub‑agent in parallelo per migrazioni che coprono centinaia di migliaia di righe di codice.

Anche così, i progressi restano incrementali.

GPT-5.5 mantiene ancora il primato in un test di programmazione da terminale, e la stessa Anthropic ha definito il modello un passo modesto piuttosto che una svolta. Gli sviluppatori possono ora modificare le istruzioni di Claude a metà attività tramite la sua Messages API. Gli acquirenti in cerca di IA più economica potrebbero valutare quei controlli di spesa più dei margini sottili tra i modelli di punta.

Valutazione di Anthropic e contesto Mythos

Il lancio è avvenuto lo stesso giorno in cui Anthropic ha confermato un round di Serie H da 65 miliardi di dollari a una valutazione di 965 miliardi di dollari. Il finanziamento, guidato da Altimeter Capital, Dragoneer, Greenoaks e Sequoia Capital, ha spinto l’azienda, fondata cinque anni fa, oltre i presunti 850 miliardi di OpenAI e ha portato i ricavi annuali vicino ai 47 miliardi.

La valutazione è quasi triplicata rispetto ai 380 miliardi di febbraio, in quello che potrebbe rivelarsi l’ultimo aumento di capitale privato di Anthropic prima della quotazione in borsa. L’azienda ha trattenuto il suo modello Mythos più potente, progettato per la cybersicurezza, rilasciandolo solo a poche organizzazioni per motivi di sicurezza. Ora prevede di ampliare l’accesso ai sistemi di classe Mythos per tutti i clienti nelle prossime settimane.

Da leggere dopo: Cisco Research Shows Frontier AI Models Failing Under Multi-Turn Attacks