Hermes MoA 2.0 combina GPT, Claude e DeepSeek e supera qualsiasi modello singolo

Nous Research ha rilasciato domenica Hermes Mixture of Agents 2.0, che combina gli output di più large language model, tra cui GPT, Claude e DeepSeek, per produrre risposte che superano qualsiasi modello individuale sui benchmark standard.

Secondo un report, MoA 2.0 è un aggiornamento dell’esistente framework Hermes Agent di Nous Research e ne preserva la struttura open source.

Come funziona il sistema

Hermes MoA 2.0 opera come uno strato di ensemble. Interroga in parallelo diversi modelli di base, raccoglie i loro output e sintetizza una risposta finale. L’approccio, noto come Mixture of Agents, tratta i diversi modelli di IA come specialisti contributori invece di richiedere a un singolo modello di gestire ogni compito da solo.

Gli utenti possono configurare quali modelli partecipano a un dato ensemble. La configurazione predefinita utilizza GPT, Claude e DeepSeek, tre modelli che rappresentano filosofie di addestramento e composizioni di dati diverse. Aggregando i loro output, MoA 2.0 cattura punti di forza complementari.

I risultati dei benchmark condivisi con il rilascio mostrano che MoA 2.0 supera ciascun modello componente preso singolarmente in compiti di ragionamento, programmazione e seguire istruzioni. Il margine è significativo nei test di ragionamento a lungo orizzonte, dove i singoli modelli spesso perdono coerenza.

Il framework rimane open source, il che significa che ricercatori e sviluppatori possono ispezionare l’architettura, sostituire i modelli di base e adattare l’ensemble a casi d’uso specifici.

I laboratori open-weight puntano sull’orchestrazione di agenti

Nous Research si è costruita una reputazione per i rilasci di modelli open-weight destinati alla comunità di ricerca. Il framework originale Hermes Agent ha stabilito un punto di riferimento per l’orchestrazione multi‑modello all’inizio del 2026.

Il contesto più ampio è un ciclo di sviluppo dell’IA open-weight in forte accelerazione. Z.ai ha pubblicato GLM-5.2 all’inizio di luglio 2026, presentandolo come modello open-weight per il coding su compiti di ingegneria a lungo orizzonte. Il rilascio segue un modello di laboratori open-weight che prendono di mira domini di capacità specifici in cui i modelli chiusi detengono vantaggi reputazionali.

L’ex responsabile tecnico di Qwen, Junyang Lin, ha sostenuto pubblicamente alla fine di giugno 2026 che i sistemi agentici rappresentano il passo successivo corretto per lo sviluppo dell’IA. Questa tesi è in linea con la filosofia di progettazione alla base di MoA 2.0, che tratta agenti e combinazioni di modelli come un percorso verso guadagni di capacità che i singoli cicli di addestramento non possono replicare facilmente.

Il rilascio di Hermes MoA arriva anche in un momento di intenso dibattito nella comunità di ricerca sull’IA sul ruolo corretto dei modelli fondamentali rispetto agli strati di agenti.

Andrej Karpathy ha avvertito all’inizio di questa settimana che uno sviluppo “agent‑first” rischia di ripetere errori dei precedenti cicli di ricerca di OpenAI. L’approccio di Nous Research tenta una via di mezzo, utilizzando forti modelli fondamentali come input e aggiungendo sopra uno strato di orchestrazione.

Cosa osservare

Hermes MoA 2.0 non è stato ancora testato contro i più recenti modelli di frontiera rilasciati. Claude Sonnet 5 e le varianti aggiornate di GPT rilasciate a metà 2026 potrebbero cambiare il quadro dei benchmark. Nous Research non ha pubblicato un articolo accademico formale insieme al rilascio.

Il significato pratico per gli sviluppatori è chiaro. Uno strumento open source che dimostra di migliorare i benchmark dei modelli chiusi combinandoli abbassa la barriera per i team di ricerca nell’accedere a capacità di ragionamento di altissimo livello senza pagare i costi API dei modelli di frontiera per ogni chiamata di inferenza.

Per l’industria dell’IA, MoA 2.0 rafforza l’argomento secondo cui la diversità dei modelli, più che un singolo modello dominante, potrebbe definire la prossima fase di distribuzione dell’IA. Si attendono le risposte di OpenAI e Anthropic sugli approcci basati su ensemble nei prossimi mesi.

Da leggere dopo: La politica bifronte su Trump e Anthropic che la Casa Bianca non vuole spiegare