Anthropic afferma che il nuovo Claude Opus 4.8 intercetta 4 volte più errori

Anthropic released Claude Opus 4.8 giovedì, presentando il modello aggiornato come più onesto e meno incline a inventare fatti rispetto alla versione precedente.

Punti chiave:

Anthropic ha rilasciato Claude Opus 4.8 giovedì, definendo l’onestà il suo principale miglioramento.

Secondo l’azienda, il modello è circa quattro volte meno propenso a lasciarsi sfuggire difetti nel codice.

La modalità veloce ora è 2,5 volte più rapida e costa tre volte meno di prima.

Anthropic punta sull’onestà di Opus 4.8

L’azienda unveiled il modello giovedì, descrivendolo come un’evoluzione graduale di Opus 4.7 piuttosto che una reinvenzione, con la maggior parte dei punteggi nei benchmark in lieve crescita. Nel test di coding SWE-Bench Pro ha scored il 69,2%, rispetto al 64,3% della versione precedente e superando il GPT-5.5 di OpenAI, fermo al 58,6%.

L’onestà è finita sotto i riflettori. Anthropic afferma che i modelli di IA spesso saltano troppo in fretta alle conclusioni, dichiarando progressi su basi fragili, e che i primi tester hanno trovato la versione 4.8 più rapida ad ammettere i propri dubbi durante compiti lunghi e non supervisionati. I suoi test indicated che il modello è circa quattro volte meno propenso rispetto al 4.7 a lasciare passare inosservati difetti nel codice.

L’aggiornamento shipped con nuovi controlli, tra cui un’impostazione che permette agli utenti di regolare quanto intensamente il modello lavora su un compito, ora disponibile per tutti i piani. Anthropic ha anche ridotto il prezzo della modalità veloce, in cui il modello gira a 2,5 volte la velocità normale, a un terzo del costo delle versioni precedenti.

Pritchard sostiene il giudizio di Opus 4.8

Tom Pritchard, staff engineer presso Shopify, told Anthropic che la versione per il coding mostra un giudizio molto migliore. Ha detto che il modello “fa le domande giuste, intercetta i propri errori” e si oppone quando un piano sembra debole. Per i team scottati da agenti di IA che hanno cancellato database di produzione in ambiente live, questo tipo di promessa può avere un peso reale.

Non tutti sono rimasti convinti.

Su Reddit molti utenti hanno doubted i grafici dei benchmark, riassumendo l’atmosfera come una generale mancanza di fiducia in essi, mentre altri temevano di perdere il vecchio Opus 4.6 che ancora preferivano per il lavoro quotidiano.

Opus 4.8 corona l’ascesa di Anthropic

Il lancio è arrivato in un momento euforico per il laboratorio. La valutazione di Anthropic è climbed oltre la soglia dei quasi 965 miliardi di dollari di OpenAI dopo un nuovo round di finanziamento tra i più grandi del settore tech. Gli investitori si aspettano ampiamente che l’azienda persegua una quotazione in borsa entro la fine dell’anno.

Il rilascio ha anche coronato una rapida serie di aggiornamenti, con Opus 4.7 reaching gli utenti appena un mese prima, circondato a sua volta da dubbi sui benchmark. Da allora Anthropic ha anticipato Mythos, un modello molto più potente che sta trattenendo dal rilascio pubblico per motivi di sicurezza informatica.

Leggi dopo: Dogecoin Reserves Edge Up To 28B As Whale Support Stays Weak