Anthropic released its newest model, Claude Opus 4.8, questa settimana, con un leggero vantaggio in un benchmark di intelligenza, ma resta indietro rispetto al sistema Mythos dell’azienda nella scrittura di exploit software.
Punti chiave:
- Claude Opus 4.8 supera di poco l’Artificial Analysis Intelligence Index con 61,4, appena davanti a GPT-5.5 con 60,2.
- Nei test interni di Anthropic, Mythos ha prodotto exploit funzionanti per Firefox sul 70,8% dei bersagli, contro l’8,8% di Opus 4.8.
- Mythos resta limitato a partner selezionati di Project Glasswing, mentre Opus 4.8 viene distribuito allo stesso prezzo del suo predecessore.
Vantaggio di Opus 4.8 nei benchmark
L’azienda ha lanciato Opus 4.8 questa settimana e lo ha prezzato a 5 dollari per milione di token in input e 25 dollari per milione di token in output, mantenendo la stessa tariffa del precedente Opus 4.7.
I tester indipendenti segnalano che il modello ora è in testa all’Artificial Analysis Intelligence Index con 61,4, una media di dieci valutazioni, appena davanti a GPT-5.5 con 60,2. Anthropic presenta l’aggiornamento come un passo modesto e incrementale, piuttosto che il salto generazionale che il nome potrebbe suggerire.
Sull’ambito del coding agentico, Opus 4.8 ottiene il 69,2% su SWE-bench Pro, un benchmark che chiede al modello di correggere bug reali all’interno di grandi repository di codice, mentre GPT-5.5 arriva al 58,6%.
I due sistemi sono quasi alla pari sulle domande di scienza a livello graduate, entrambi intorno al 94%, e Opus 4.8 guida di poco un esame di ragionamento ampio su cui i suoi predecessori erano indietro.
Mythos supera entrambi sul lavoro di ingegneria più complesso, con il 77,8% sullo stesso benchmark di coding e un vantaggio ancora maggiore sui compiti che combinano codice e screenshot. Anthropic limita Mythos a un gruppo selezionato di partner nel programma Project Glasswing, invece di venderlo apertamente. Per l’anteprima fa pagare 25 e 125 dollari per milione di token, cinque volte la tariffa di Opus.
Da leggere anche: Zcash Cools After A 6% Drop While Monero Steals The Spotlight
Dominio cyber di Mythos
Il divario più ampio emerge nella sicurezza offensiva.
Con le protezioni disattivate, Mythos ha prodotto un exploit completamente funzionante sul 70,8% dei bersagli Firefox nelle valutazioni interne di Anthropic, mentre Opus 4.8 si è fermato all’8,8%.
In un test separato basato su codice open source, Opus 4.8 non è riuscito a ottenere un punteggio sul 61,5% dei bersagli, più del doppio del tasso di mancato successo del 23,3% registrato da Mythos.
Una prova pubblica cross‑model condotta dal Berkeley RDI ha abbinato ciascun sistema al proprio agente di coding su 898 vulnerabilità reali, dove Mythos ha scritto 157 exploit funzionanti contro i 120 di GPT-5.5.
GPT-5.5 mantiene comunque un vantaggio nello sfruttamento a livello di kernel, con 22 exploit contro 12 di Mythos in quel segmento ristretto. Il UK AI Security Institute lo ha collocato leggermente davanti a Mythos nei compiti cyber per esperti, con il 71,4% contro il 68,6%.
Anthropic ha presentato Mythos ad aprile dopo che il modello ha scoperto migliaia di vulnerabilità prima sconosciute in tutti i principali sistemi operativi e in ogni browser web di punta, con centinaia di falle riportate solo in Firefox. L’azienda ha poi deciso di non rilasciarlo pubblicamente, temendo che le stesse capacità di scrittura di exploit possano aiutare gli aggressori tanto quanto i difensori per cui era stato progettato.
Da leggere dopo: Strategy Pulls $30M In Bitcoin Back, Cooling Sell-Off Fears





