1. 首页>>分享

港大等多家机构联合提出创新多智能体框架,成果显著

香港大学以及camel-ai等众多机构共同研发了一款名为Workforce的创新型多智能体架构,并同步推出了OWL(Optimized Workforce Learning)的培训技术。这一成果在通用AI助手领域的标杆性测试GAIA中实现了69.70%的准确率,不仅打破了开源系统的最高成绩,还超越了众多商业系统以及OpenAI Deep Research的开源项目。

该研究成果所涉及的全部代码已经对外公布,并且目前在github平台上获得了17k个点赞。

背景与挑战:多智能体系统的「领域壁垒」

LLM的迅猛进步使得单一智能体在应对复杂现实任务时显现出其不足。因此,多智能体系统(MAS)得以诞生,它通过多个专业智能体的协同作业,有效增强了系统的整体效能。尽管如此,现有的多智能体系统普遍存在一个关键难题:它们在跨领域迁移方面的能力极为有限。现有系统通常针对特定领域进行深度定制,然而,这种设计模式存在两个显著的缺点:

在推理领域,系统架构的全面重构是进入新领域的必要条件。以MetaGPT框架为例,它是针对软件工程量身打造的,对特定操作程序有着高度依赖,因此难以在其他领域直接应用。而在训练层面,现有技术往往要求对所有智能体进行全面的训练。以MALT为例,其构建的生成器、验证器和改进器组成的流水线需要针对每一个环节单独进行训练,这样的迁移学习成本相当高昂。

这些限制因素限制了多智能体系统的灵活运用和扩展能力,因此,我们亟需一种更为广泛适用、模块化的解决方案。

创新突破:Workforce 架构的「解耦设计」

研究团队所提出的Workforce框架,基于创新的“解耦设计”理念,成功攻克了跨领域迁移的难题。该框架将系统拆解为三个关键组成部分:,,,。

领域无关的规划代理(Planner Agent)承担着分析输入任务的重任,并将之细分为多个子任务。它依据高层目标,制定出抽象的任务分解策略。这一组件充当着系统的“大脑”,其设计理念完全不受特定应用领域的限制。智能协调器,即协调器代理,它扮演着核心协调者的角色,主要负责将子任务合理地分配给最合适的工作节点。同时,它还负责处理任务间的依赖关系,并汇总整合中间结果。协调器通过一个共享的“任务通道”来达成高效的通信管理。专业工作节点,即Worker Nodes,由一个或多个专业化的智能体构成,它们装备了特定的功能和工具包,以执行所分配的子任务。这些节点能够根据实际应用需求进行灵活的替换或增加,而无需对核心的规划机制进行任何修改。

这种模块化设计的最大优点在于贯彻了“稳固中心,灵活周边”的设计理念。在面临进入新领域的需求时,我们只需替换或增加相应的工作模块,而无需对规划器和协调器进行调整,这显著减少了系统迁移的难度和成本。

技术创新:OWL 训练方法的「精准优化」

在 Workforce 架构的支撑下,研究团队创新性地提出了 OWL(Optimized Workforce Learning)训练方案,该方案着重于提升核心规划器的性能,而非对整个系统进行全面的训练。该方案整体上采用了分两阶段的训练策略:,

在第一阶段,我们实施了监督微调(SFT)策略,通过专家提供的演示数据对规划器进行了初始训练,旨在使其熟练掌握基本任务分解技巧。为此,研究团队精心打造了一个包含1599个高质量轨迹的训练数据集,该数据集涵盖了在线信息搜索、推理以及多模态处理等多个能力领域。在第二阶段,我们着重于通过强化学习优化,运用直接偏好优化(DPO)算法,来增强规划器的决策效能,从而使它能够培养出超越单纯模仿的、更为复杂的决策技巧。

该课程经过精心设计,旨在确保规划器能够有效应对现实世界中各式各样的复杂任务。

实验验证:全面超越现有基准

研究团队对 GAIA 基准测试进行了全方位的实验检验。GAIA 作为衡量通用人工智能助手的权威标准,它要求系统具备对多模态信息的理解、网络搜索、代码的执行以及复杂推理等多种综合技能。

在多智能体推理领域,Workforce 表现卓越,其 GAIA 验证集上的 pass@1 准确率达到了 69.70%,这一成绩显著超过了以往所有开源系统的最佳表现,同时亦超过了 OpenAI Deep Research(67.36%)等众多实力强劲的商业系统。

在验证 OWL 训练方法成效时,我们发现 OWL 的训练方案显著提升了 Qwen2.5-32B-Instruct 模型在 GAIA 平台上的表现,将其性能从原先的 36.36% 提高至 52.73%,这一成绩甚至超过了未经训练的 72B 模型(49.09%)。此外,在 Level 3 任务中,该模型的表现与 GPT-4o 模型相当,达到了 26.92%。

深入的分析实验揭示了 Workforce 框架的多项优势:

在跨能力维度的稳定性方面:Workforce 框架在多种能力层面上均表现出卓越的效能,不论是单一、双数还是超过三种的能力需求,Workforce 均能持续展现出稳定的性能,与此相对,单一智能体方法在处理多能力任务时,其性能明显出现下滑。在测试过程中,一旦遭遇由Workforce设计任务引发的失败,系统会启动自我纠错机制和重新规划流程。此过程能够促使系统在测试中实时调整其策略。随着重新规划次数的累积,系统的性能不断优化,显著表现出其卓越的自我纠错和进化功能。模块化训练的显著优势在于,实验对比表明,仅对规划器进行训练,其性能便可与对全部组件进行训练时相媲美,并且这一做法能够显著减少计算的开销,从而证实了“以规划器为重”的设计理念的准确性。

实际应用:真实环境下的诸多挑战

在处理现实世界中的复杂且多变任务时,我们往往会遭遇众多难题。针对这些挑战,研究团队进行了细致的剖析,并将它们归纳为以下几个主要类别:

信息来源各异,同一问题在不同信息平台可能收获不同的回应。信息更新迅速,网络数据的实时变动可能会使得预想中的答案变得过时。语言表述存在模糊性,用户提问中的不明确之处要求系统进行智能解析和区分。网络状况复杂,网络波动和访问权限的限制等问题均需系统有效应对。

结论:通向通用人工智能的新路径

OWL的成就为打造全面通用的人工智能系统提供了一条创新途径。特别是,Workforce模块的灵活设计以及其在不同领域间的迁移能力,带来了诸多益处:

在架构设计上,通过解耦策略,系统实现了高度模块化,这不仅确保了核心功能的稳固性,同时也赋予了周边功能以足够的灵活性。在训练阶段,我们聚焦于对核心模块的优化,而非对整个系统进行训练,这样的做法显著提升了训练的效率以及系统的迁移能力。至于应用层面,我们为各类实际应用场景提供了便捷的即插即用方案,从而大幅降低了系统部署的难度。

通过整合即插即用的计算节点和广泛适用的规划中心,这一方法为通用人工智能助手构建了可扩展的框架,从而有效推动了通用人工智能助手研究的快速发展。

本文采摘于网络,不代表本站立场,转载联系作者并注明出处:http://mjgaz.cn/fenxiang/276026.html

联系我们

在线咨询:点击这里给我发消息

微信号:13588888888

工作日:9:30-18:30,节假日休息