Claude Mythos vs GPT-5.5: il modello con accesso limitato di Anthropic vince 6 test su 9

Claude Mythos vs GPT-5.5: il modello con accesso limitato di Anthropic vince 6 test su 9

OpenAI released GPT-5.5 mercoledì, ma nuovi dati di benchmark mostrano che Anthropic's gated Claude Mythos Preview resta in testa in sei dei nove test direttamente confrontabili.

Punteggi di benchmark di GPT-5.5

GPT-5.5 arrived in ChatGPT e Codex il 23 aprile, con un prezzo di 5 dollari per milione di token in input e 30 dollari per l’output, il doppio rispetto al suo predecessore.

Il modello scored l’82,7% su Terminal-Bench 2.0, superando Mythos di 0,7 punti sull’unico benchmark in cui vince chiaramente.

Mythos, which Anthropic withheld from public release over cybersecurity concerns, è in vantaggio su SWE-bench Pro con il 77,8% contro il 58,6%.

Inoltre tops GPT-5.5 su Humanity's Last Exam senza strumenti, con un punteggio del 56,8% contro il 41,4%. Il modello con accesso limitato è in testa anche su CyberGym, OSWorld-Verified e sui compiti di GraphWalks a lungo contesto.

Also Read: Top Crypto Exchanges Mandate AI Tools, Track Token Use As KPI: Report

Le avvertenze degli analisti contano

Il confronto rimane impreciso perché nessun laboratorio ha messo i modelli alla prova direttamente l’uno contro l’altro. OpenAI chose Claude Opus 4.7 come comparatore pubblico, mentre la system card di 245 pagine di Anthropic ha confrontato Mythos con GPT-5.4.

Anche gli strumenti di test divergono. OpenAI ha utilizzato una configurazione CLI di Codex su Terminal-Bench, mentre l’impalcatura Terminus-2 di Anthropic ha spinto Mythos al 92,1% secondo le regole di timing di Terminal-Bench 2.1.

La decisione di Anthropic di limitare l’accesso a Mythos, annunciata il 7 aprile, avrebbe portato a riunioni con la Commissione europea e a un avvertimento del governatore della Bank of England sul fatto che il modello potrebbe far esplodere il rischio cyber.

Read Next: Ethereum Nears $2,450 Showdown As Bulls And Bears Split On Next Move

Disclaimer e avvertenza sui rischi: Le informazioni fornite in questo articolo sono solo per scopi educativi e informativi e sono basate sull'opinione dell'autore. Non costituiscono consulenza finanziaria, di investimento, legale o fiscale. Gli asset di criptovaluta sono altamente volatili e soggetti ad alto rischio, incluso il rischio di perdere tutto o una parte sostanziale del tuo investimento. Il trading o il possesso di asset crypto potrebbe non essere adatto a tutti gli investitori. Le opinioni espresse in questo articolo sono esclusivamente quelle dell'autore/autori e non rappresentano la politica ufficiale o la posizione di Yellow, dei suoi fondatori o dei suoi dirigenti. Conduci sempre la tua ricerca approfondita (D.Y.O.R.) e consulta un professionista finanziario autorizzato prima di prendere qualsiasi decisione di investimento.
Claude Mythos vs GPT-5.5: il modello con accesso limitato di Anthropic vince 6 test su 9 | Yellow.com