Anthropic afferma che il nuovo Claude Opus 4.8 intercetta 4 volte più errori

Anthropic afferma che il nuovo Claude Opus 4.8 intercetta 4 volte più errori

Anthropic released Claude Opus 4.8 giovedì, presentando il modello aggiornato come più onesto e meno incline a inventare fatti rispetto alla versione che sostituisce.

Punti chiave:

  • Anthropic ha rilasciato Claude Opus 4.8 giovedì, indicando l’onestà come il principale miglioramento.
  • Secondo l’azienda, il modello è circa quattro volte meno propenso a lasciarsi sfuggire difetti nel codice.
  • La modalità veloce ora è 2,5 volte più rapida e costa tre volte meno di prima.

Anthropic punta sull’onestà di Opus 4.8

L’azienda ha unveiled il modello giovedì, presentandolo come un’evoluzione graduale di Opus 4.7 piuttosto che una reinvenzione, con la maggior parte dei punteggi nei benchmark in lieve aumento. Nel test di programmazione SWE-Bench Pro ha scored il 69,2%, in crescita dal 64,3% della versione precedente e davanti al GPT-5.5 di OpenAI, fermo al 58,6%.

L’onestà è finita al centro dell’attenzione. Anthropic afferma che i modelli di AI spesso saltano alle conclusioni, dichiarando progressi su basi fragili, e che i primi tester hanno riscontrato che la versione 4.8 è più rapida ad ammettere dubbi durante compiti lunghi e non supervisionati. I suoi test indicated che il modello è circa quattro volte meno incline rispetto al 4.7 a lasciare passare inosservati difetti nel codice.

L’aggiornamento è stato shipped con nuovi controlli, inclusa un’impostazione che permette agli utenti di regolare quanto intensamente il modello lavora su un compito, ora disponibile in ogni piano. Anthropic ha inoltre ridotto il prezzo della modalità veloce, in cui il modello lavora a 2,5 volte la velocità normale, portandolo a un terzo del costo dei modelli precedenti.

Also Read: Kalshi Wins CFTC Approval For First U.S. Bitcoin Perpetual Futures

Pritchard sostiene il giudizio di Opus 4.8

Tom Pritchard, staff engineer in Shopify, ha told ad Anthropic che la versione dedicata al coding mostra un giudizio decisamente migliore. Ha detto che il modello «fa le domande giuste, intercetta i propri errori» e si oppone quando un piano appare debole. Per i team scottati da agenti di AI che hanno cancellato database di produzione in uso, una promessa del genere potrebbe avere un peso concreto.

Non tutti sono stati convinti.

Su Reddit, molti utenti hanno doubted i grafici dei benchmark, riassumendo il clima come un generale scetticismo, mentre altri temevano di perdere il vecchio Opus 4.6, che continuavano a preferire per il lavoro quotidiano.

Opus 4.8 corona la crescita di Anthropic

Il lancio è arrivato in un momento euforico per il laboratorio. La valutazione di Anthropic è climbed oltre la soglia vicina ai 965 miliardi di dollari di OpenAI dopo un nuovo round, tra i più consistenti nel settore tech. Gli investitori si aspettano ampiamente che l’azienda punti a una quotazione in borsa più avanti nel corso dell’anno.

Il rilascio ha inoltre coronato una rapida serie di aggiornamenti, con Opus 4.7 che aveva reaching gli utenti appena un mese prima, circondato da un proprio scetticismo sui benchmark. Da allora Anthropic ha anticipato Mythos, un modello molto più potente che sta trattenendo dal rilascio pubblico per preoccupazioni legate alla cybersicurezza.

Read Next: Dogecoin Reserves Edge Up To 28B As Whale Support Stays Weak

Disclaimer e avvertenza sui rischi: Le informazioni fornite in questo articolo sono solo per scopi educativi e informativi e sono basate sull'opinione dell'autore. Non costituiscono consulenza finanziaria, di investimento, legale o fiscale. Gli asset di criptovaluta sono altamente volatili e soggetti ad alto rischio, incluso il rischio di perdere tutto o una parte sostanziale del tuo investimento. Il trading o il possesso di asset crypto potrebbe non essere adatto a tutti gli investitori. Le opinioni espresse in questo articolo sono esclusivamente quelle dell'autore/autori e non rappresentano la politica ufficiale o la posizione di Yellow, dei suoi fondatori o dei suoi dirigenti. Conduci sempre la tua ricerca approfondita (D.Y.O.R.) e consulta un professionista finanziario autorizzato prima di prendere qualsiasi decisione di investimento.
Anthropic afferma che il nuovo Claude Opus 4.8 intercetta 4 volte più errori | Yellow.com