Hermes MoA 2.0 combine GPT, Claude et DeepSeek pour dépasser chaque modèle pris isolément

Nous Research a publié dimanche Hermes Mixture of Agents 2.0, qui combine les sorties de plusieurs grands modèles de langage, dont GPT, Claude et DeepSeek, afin de produire des réponses qui dépassent tout modèle individuel sur les benchmarks standard.

Selon un rapport, MoA 2.0 est une mise à jour du framework Hermes Agent existant de Nous Research et conserve sa structure open source.

Comment fonctionne le système

Hermes MoA 2.0 fonctionne comme une couche d’ensemble. Il interroge plusieurs modèles de base en parallèle, collecte leurs sorties, puis synthétise une réponse finale. Cette approche, appelée Mixture of Agents, traite les modèles d’IA distincts comme des contributeurs spécialistes plutôt que d’exiger d’un seul modèle qu’il gère chaque tâche seul.

Les utilisateurs peuvent configurer quels modèles participent à un ensemble donné. La configuration par défaut s’appuie sur GPT, Claude et DeepSeek, trois modèles qui représentent des philosophies d’entraînement et des compositions de données différentes. En regroupant leurs sorties, MoA 2.0 capture des forces complémentaires.

Les résultats de benchmark partagés lors de la sortie montrent que MoA 2.0 surpasse chacun des modèles composants pris individuellement sur les tâches de raisonnement, de programmation et de suivi d’instructions. L’écart est significatif sur les tests de raisonnement de long terme, où les modèles uniques perdent souvent en cohérence.

Le framework reste open source, ce qui signifie que les chercheurs et développeurs peuvent inspecter l’architecture, remplacer les modèles de base et adapter l’ensemble à des cas d’usage spécifiques.

Les labos open-weight se tournent vers l’orchestration d’agents

Nous Research s’est forgé une réputation avec des publications de modèles open-weight destinées à la communauté de recherche. Le framework Hermes Agent d’origine a établi début 2026 une base pour l’orchestration multi-modèles.

Le contexte plus large est un cycle de développement de l’IA open-weight qui s’accélère. Z.ai a publié GLM-5.2 début juillet 2026, le présentant comme un modèle de programmation open-weight pour des tâches d’ingénierie de long terme. Cette sortie s’inscrit dans un schéma où les labos open-weight ciblent des domaines de capacités spécifiques dans lesquels les modèles fermés conservent un avantage de réputation.

L’ancien responsable technique de Qwen, Junyang Lin, a soutenu publiquement fin juin 2026 que les systèmes agentiques représentent la prochaine étape adéquate pour le développement de l’IA. Cet argument est en phase avec la philosophie de conception derrière MoA 2.0, qui considère les agents et les combinaisons de modèles comme une voie vers des gains de capacité que des entraînements individuels ne peuvent pas facilement reproduire.

La sortie d’Hermes MoA intervient également au milieu d’un débat actif dans la communauté de recherche en IA sur le rôle approprié des modèles fondamentaux par rapport aux couches d’agents.

Andrej Karpathy a mis en garde plus tôt cette semaine contre le risque que le développement « agent-first » répète des erreurs des cycles de recherche antérieurs d’OpenAI. L’approche de Nous Research tente une voie médiane, en utilisant de puissants modèles fondamentaux comme entrées tout en ajoutant par-dessus une couche d’orchestration.

Ce qu’il faut surveiller

Hermes MoA 2.0 n’a pas encore été testé face aux modèles de pointe les plus récemment publiés. Claude Sonnet 5 et les variantes GPT mises à jour, sorties à la mi-2026, pourraient modifier le paysage des benchmarks. Nous Research n’a pas publié d’article académique formel accompagnant la sortie.

La portée pratique pour les développeurs est claire. Un outil open source qui améliore de façon démontrable les benchmarks de modèles fermés en les combinant abaisse la barrière pour les équipes de recherche souhaitant accéder à des capacités de raisonnement de premier plan sans payer le coût des API de modèles de pointe pour chaque appel d’inférence.

Pour l’industrie de l’IA, MoA 2.0 renforce l’argument selon lequel la diversité des modèles, plutôt qu’un modèle unique dominant, pourrait définir la prochaine phase de déploiement de l’IA. Il faudra surveiller les réponses d’OpenAI et d’Anthropic aux approches fondées sur les ensembles dans les mois à venir.