Hermes MoA 2.0 组合 GPT、Claude 和 DeepSeek，成绩超越任一单模型

Nous Research 于周日发布 Hermes Mixture of Agents 2.0，它通过组合多个大语言模型的输出，包括 GPT、Claude 和 DeepSeek，生成在标准基准测试中超越任一单模型的回答。

根据一份报道，MoA 2.0 是对 Nous Research 现有 Hermes Agent 框架的升级版本，并保留了其开源结构。

系统如何运作

Hermes MoA 2.0 作为一个集成（ensemble）层运行。它并行调用多个基础模型，收集各自的输出，再综合成最终回复。该方法被称为“Mixture of Agents（代理混合）”，把不同的 AI 模型视为各自专长的贡献者，而不是要求单个模型独立处理所有任务。

用户可以配置在特定集成中参与的模型。默认配置调用 GPT、Claude 和 DeepSeek，这三种模型代表了不同的训练理念和数据构成。通过汇聚它们的输出，MoA 2.0 得以捕捉互补优势。

随发布一同公布的基准结果显示，在推理、编程和指令跟随任务中，MoA 2.0 均优于各个组成模型的单独表现。在长程推理测试上，这一领先幅度尤为显著，而单模型在此类测试中往往容易丢失连贯性。

该框架保持开源，这意味着研究人员和开发者可以审查其架构、更换基础模型，并针对具体应用场景调整集成方案。

Nous Research 因面向研究社区的开源权重模型发布而建立起声誉。最初的 Hermes Agent 框架在 2026 年早些时候，为多模型编排奠定了一个基准。

更广阔的背景是开源权重 AI 研发周期正在加速。Z.ai 于 2026 年 7 月上旬发布 GLM-5.2，将其定位为面向长周期工程任务的开源权重代码模型。这一发布延续了开源权重实验室的惯例：在封闭模型拥有口碑优势的特定能力领域发力。

Qwen 前技术负责人林俊阳在 2026 年 6 月下旬公开表示，具备行动能力的“agent 系统”代表了 AI 发展正确的下一步。这一观点与 MoA 2.0 背后的设计理念相契合：通过代理与模型组合来获取能力提升，而这些提升是单次训练迭代难以轻易复刻的。

Hermes MoA 的发布也正值 AI 研究社区就基础模型与代理层之间“正确分工”展开激烈争论之际。

Andrej Karpathy 在本周早些时候警告，过度“agent 优先”的研发路径，可能重蹈 OpenAI 早期研究周期的覆辙。Nous Research 的做法试图走一条中间路线：在顶部添加编排层的同时，以强大的基础模型作为输入。

Hermes MoA 2.0 尚未针对最新发布的前沿模型进行测试。2026 年年中发布的 Claude Sonnet 5 和更新的 GPT 变体，可能会改变基准测试格局。Nous Research 尚未在发布时同步发表正式的学术论文。

对开发者而言，其现实意义十分明确：一个可以通过“组合封闭模型”在基准上取得可验证提升的开源工具，降低了研究团队获取顶级推理能力的门槛，而无需为每一次推理调用都支付前沿模型 API 费用。

对整个 AI 行业来说，MoA 2.0 增强了这样一种观点：下一阶段的 AI 部署格局，或许由模型多样性而非单一“统治性”模型来定义。接下来几个月，可以关注 OpenAI 和 Anthropic 针对集成式方案会给出怎样的回应。