Claude Opus 4.8 guida l’Indice di Intelligenza ma Mythos domina l’hacking

Anthropic ha rilasciato il suo modello più recente, Claude Opus 4.8 questa settimana, con un leggero vantaggio in un benchmark di intelligenza, ma dietro al sistema ristretto Mythos nella scrittura di exploit software.

Punti chiave:

Claude Opus 4.8 supera di poco l’Artificial Analysis Intelligence Index con 61,4, appena davanti a GPT-5.5 con 60,2.

Nei test interni di Anthropic, Mythos ha prodotto exploit funzionanti per Firefox sul 70,8% dei target, contro l’8,8% di Opus 4.8.

Mythos rimane limitato a partner selezionati del Project Glasswing, mentre Opus 4.8 viene distribuito allo stesso prezzo del suo predecessore.

Vantaggio di Opus 4.8 nei benchmark

L’azienda ha lanciato Opus 4.8 questa settimana e lo ha prezzato 5 dollari per milione di token in input e 25 dollari per milione in output, mantenendo lo stesso costo del precedente Opus 4.7.

Tester indipendenti riportano che il modello ora guida l’Artificial Analysis Intelligence Index con 61,4, una media di dieci valutazioni, appena davanti a GPT-5.5 con 60,2. Anthropic presenta l’aggiornamento come un passo modesto e incrementale, più che un salto generazionale come il nome potrebbe far pensare.

Sull’agentic coding, Opus 4.8 ottiene il 69,2% su SWE-bench Pro, un benchmark che chiede al modello di correggere bug reali all’interno di grandi repository di codice, mentre GPT-5.5 arriva al 58,6%.

I due sistemi sono quasi alla pari sulle domande di scienza a livello di laurea magistrale, entrambi vicino al 94%, e Opus 4.8 è di poco in testa in un ampio esame di ragionamento in cui i suoi predecessori erano indietro.

Mythos è sopra entrambi sul lavoro di ingegneria più difficile, con il 77,8% nello stesso benchmark di coding e un vantaggio più ampio nei compiti che combinano codice e screenshot. Anthropic limita Mythos a un insieme selezionato di partner nel suo programma Project Glasswing, invece di venderlo apertamente. Per l’anteprima chiede 25 e 125 dollari per milione di token, cinque volte la tariffa di Opus.

Da leggere anche: Zcash Cools After A 6% Drop While Monero Steals The Spotlight

Dominio cyber di Mythos

Il divario più ampio emerge nella sicurezza offensiva.

Con le protezioni disattivate, Mythos ha prodotto un exploit completo e funzionante sul 70,8% dei target Firefox nelle valutazioni interne di Anthropic, mentre Opus 4.8 si è fermato all’8,8%.

In un altro test basato su codice open‑source, Opus 4.8 non è riuscito a ottenere un punteggio nel 61,5% dei target, più del doppio del tasso di mancato successo del 23,3% registrato da Mythos.

Una prova pubblica tra modelli, condotta da Berkeley RDI, ha abbinato ogni sistema al proprio agente di coding su 898 vulnerabilità reali: Mythos ha scritto 157 exploit funzionanti contro i 120 di GPT-5.5.

GPT-5.5 ha comunque mantenuto un vantaggio nello sfruttamento a livello di kernel, superando Mythos 22 a 12 in quella nicchia. Il UK AI Security Institute lo ha collocato leggermente davanti a Mythos nei compiti cyber per esperti, con il 71,4% contro il 68,6%.

Anthropic ha presentato Mythos ad aprile, dopo che il modello ha trovato migliaia di vulnerabilità prima sconosciute nei principali sistemi operativi e in tutti i browser web leader, con centinaia di casi solo in Firefox. L’azienda ha poi deciso di non rilasciarlo pubblicamente, preoccupata che le stesse capacità di scrittura di exploit possano aiutare gli aggressori tanto quanto i difensori per cui è stato progettato.

Leggi dopo: Strategy Pulls $30M In Bitcoin Back, Cooling Sell-Off Fears