Anthropic's Claude Mythos Preview e OpenAI's GPT-5.5, due modelli di frontiera dell'IA, hanno completato compiti informatici autonomi a un ritmo che ha superato di molto le previsioni di capacità esistenti, hanno riferito mercoledì i ricercatori.
I modelli di frontiera superano la tendenza
Claude Mythos Preview e GPT-5.5 outperformed l'andamento di raddoppio che l'AI Security Institute del Regno Unito monitorava dalla fine del 2024.
L'AISI aveva stimato all'inizio dell'anno che l'orizzonte temporale per raggiungere l'80% di affidabilità in ambito cyber stesse raddoppiando circa ogni cinque mesi, in calo rispetto agli otto mesi di novembre 2025. Una versione più recente di Mythos Preview ha solved "The Last Ones", un attacco simulato a una rete aziendale in 32 fasi, in 6 tentativi su 10, e ha completato "Cooling Tower" in 3 tentativi su 10. GPT-5.5 ha superato "The Last Ones" in 3 tentativi su 10.
È stata la prima volta che un modello è riuscito a completare entrambe le serie di test AISI.
Also Read: Ripple's Schwartz Says Bitcoin's Mining Model Is The Flaw XRP Avoided
L'allarme di Palo Alto sulla "vulnpocalisse"
Palo Alto Networks reported conclusioni simili attraverso i propri test.
L'azienda ha analizzato oltre 130 prodotti nell'ultimo mese e ha scoperto 75 vulnerabilità reali, più di sette volte il suo conteggio mensile tipico, tutte ora corrette.
Lee Klarich, direttore tecnico dell'azienda, ha affermato che le organizzazioni hanno una finestra temporale ristretta prima che gli avversari acquisiscano capacità simili.
Ha stimato una "ristretta finestra di tre-cinque mesi per consentire alle organizzazioni di superare gli avversari".
L'AISI ha avvertito che il suo campione resta limitato e che per i compiti più difficili i dati di confronto con gli esseri umani sono scarsi. Tuttavia, l'istituto ha affermato che escludere qualsiasi singolo modello dall'analisi sposta la stima del periodo di raddoppio di meno di un mese. METR, un'organizzazione senza scopo di lucro che tracks le prestazioni dell'IA nei compiti software, è arrivata a una cifra quasi identica di circa quattro mesi.
La curva delle capacità si fa più ripida
Anthropic ha limitato il lancio iniziale di Mythos lo scorso mese a un gruppo selezionato che include Palo Alto Networks, CrowdStrike, Amazon, Apple e JPMorgan.
OpenAI ha risposto con il suo modello GPT-5.5-Cyber e con l'iniziativa cyber Daybreak.
Il ritmo del cambiamento è aumentato drasticamente negli ultimi 18 mesi. L'AISI ha ridotto il suo periodo di raddoppio previsto da otto mesi a 4,7 mesi nel febbraio 2026, per poi ridurlo nuovamente dopo quest'ultima tornata di test. La cifra ricalcolata è ora più vicina a quattro mesi, in linea con la stima di METR sui compiti di ingegneria del software.
Read Next: Coinbase Opens $100K USDC Loans Against Solana Token Holdings





