300字范文,内容丰富有趣,生活中的好帮手!
300字范文 > 多智能体通信:MAGNet用于深度多智能体强化学习的多智能体图网络

多智能体通信:MAGNet用于深度多智能体强化学习的多智能体图网络

时间:2023-07-30 13:13:26

相关推荐

多智能体通信:MAGNet用于深度多智能体强化学习的多智能体图网络

题目:MAGNet: Multi-agent Graph Network for Deep Multi-agent Reinforcement Learning

出处:XVI International Symposium "Problems of Redundancy in Information and Control Systems" (REDUNDANCY,)

摘要:近年来,深度强化学习在复杂的单智能体任务中取得了巨大成功,最近这种方法也被应用于多智能体领域。在本文中,我们提出了一种新的多智能体强化学习方法,称为MAGNet,该方法利用了通过自我注意机制获得的环境相关图表示和消息生成技术。我们将我们的MAGNet方法应用于捕食者-食饵多智能体合成环境和Pommerman博弈,结果表明它显著优于最先进的MARL解决方案,包括多智能体深度Q网络(MADQN)、多智能体深度确定性策略梯度(MADDPG)和QMIX。

关键字:术语多智能体系统、关联图、深度学习

1,介绍

多智能体环境(MARL)中强化学习的一个常见困难是,为了实现成功的协调,智能体需要关于环境对象对自身和其他智能体的关系的信息。例如,在Pommerman[1]游戏中,重要的是要知道放置在环境中的炸弹对队友有多重要,例如炸弹是否能威胁到他们。虽然这样的信息可以手工制作成状态表示,以便更好地理解环境,但在鲜为人知的环境中,最好将其作为学习过程的一部分

在本文中,我们提出了一种新的方法,称为MAGNet(Multi-Agent Graph Network),以相关图的形式学习此类相关信息,并将其纳入强化学习过程。该方法分两个阶段工作。

在第一阶段,学习相关图。在第二阶段,该图与状态信息一起被馈送到一个Actor-Critic强化学习网络,该网络负责agent的决策,并在相关图上结合了消息传递技术。

这项工作的贡献是一种在多智能体环境中学习对象和智能体相关信息的新技术,并将这些信息整合到深度多智能体强化学习中。

我们将MAGNet应用于合成捕食者-食饵博弈(通常用于评估多智能体系统[2])和流行的Pommerman[1]多智能体环境。我们取得比最先进的Marl技术包括(MADQN[3]、MADDPG[4]和QMIX[5]等)更好的性能。此外,我们还实证证明了利用自我注意[6]、图形共享和消息传递系统的有效性。

2,深层多智能体强化学习

2.1,多智能体深度Q网络

深度Q学习利用神经网络预测状态-动作对的Q值[7]。这种所谓的深度Q网络经过训练,可以最小化以下损失函数:

(1)

(2)

其中, 是我们通过在状态 中采取行动 而过渡到的状态, 是该行动的回报,是当前Q函数近似的参数向量。表示 状态下允许的所有动作。

Multi-agent Deep Q-Networks(MADQN[3])方法通过在两个重复步骤中形成训练来修改多agent系统的这一过程。首先,他们一次训练一名智能体,同时保持其他智能体的策略不变。当智能体完成训练后,它会将其政策作为一个额外的环境变量分发给所有盟友。

2.2,多智能体深层确定性策略梯度

在处理连续作用空间时,不能应用上述MADQN方法。为了克服这一局限性,提出了强化学习的 Actor-Critic方法。在这种方法中,Actor算法试图输出最佳动作向量,Critic尝试预测该动作的值函数。

具体而言,在深度确定性策略梯度(DDPG[9])算法中,使用了两个神经网络:是返回动作向量的 Actor 网络。是 Critic 网络,它返回 值,即状态 中 的行为的值估计。

临界网络的梯度可以用与上述深度Q网络的梯度相同的方法计算(方程式1)。了解 Critic 的梯度 然后我们可以计算 actor 的梯度,如下所示:

其中 和 分别是 critic 和 actor神经网络的参数,是策略 到达状态 的概率。

[10]的作者提出了该方法的一个扩展,创建了多个参与者,每个参与者都有自己的critic ,每个critic 都会接受各自智能体的观察和所有智能体的行动。这就构成了actor的值函数:

在连续状态空间和动作空间中广泛使用的深度强化学习技术中,这种多智能体深度确定性策略梯度方法的效果最好。

2.3,QMIX

另一种最近很有前途的深度多智能体强化学习方法是QMIX[5]方法。它对每个智能体使用单独的Q函数,对一组智能体使用联合Q函数。QMIX体系结构由三种类型的神经网络组成。智能体网络评估智能体在当前观察和先前操作中的单个Q函数。混合网络将来自智能体网络的单个Q函数和当前状态作为输入,然后计算所有智能体的联合Q函数。超网络为混合网络增加了一层复杂性。超网络没有直接将当前状态传递给混合网络,而是将其用作输入,并在混合网络的每个级别计算权重乘数。我们建议读者参考原稿以获得更完整的解释[5]。

作者在许多RL域上进行了经验证明,这种方法优于MADQN和MADDPG方法。

3,MAGNET方法和架构

下图显示了我们的MAGNet方法的整体网络架构。整个过程可分为相关图生成阶段(左图)和决策阶段(右图)。在这种结构中,当前状态的串联并且前一个动作构成模型的输入,而输出则是下一个动作。

3.1,关联图生成阶段

在 MAGNet 方法的第一部分,我们训练了一个神经网络来生成相关图,它被表示为一个数值矩阵,式中, 是智能体的数量, 是给定的环境空间的最大数量,例如:庞默曼的炸弹和墙壁。当前时间不存在的对象的权重设置为 。关联图表示智能体之间以及智能体与环境对象之间的关系。智能体 和另一个智能体 或对象 之间的边的绝对权重越高, 或 对智能体的任务的完成越重要。图的每个顶点 都有一个类型 ,由用户定义。示例类型有“墙”、“炸弹”和“智能体”。类型是用户定义的,用于消息生成步骤(见下文)。该图由 MAGNet 根据当前和以前的状态以及各自的动作生成。

4,关联图可视化

为了生成这个关联图,我们通过反向传播训练神经网络,输出一个图表示矩阵。网络的输入是当前状态和之前的两种状态(由,, 在上图中),之前的两个动作(由 表示),以及在上一时间步生成的相关图(由图 表示)。对于第一个学习步骤(即),输入由初始状态的三个副本、无操作和随机关联图组成。输入被传递到卷积和池层,然后是填充层,然后连接并传递到完全连接层,最后进入图形生成网络(GGN)。在这项工作中,我们将GGN实现为一个多层感知器(MLP)或一个自我注意网络,它使用注意机制来捕捉长期和短期的时间依赖。我们在表1中给出了两种实现的结果。自我注意网络类似于循环网络,如LSTM,但计算时间要少得多[6]。GGN的结果被反馈到一个两层完全连接的带有丢弃的网络中,该网络生成相关图矩阵。

反向传播训练的损失函数如下所示:

损失函数基于当前图 中的边权重与前一状态 中生成的边权重之间的平方差。我们可以在没有这个损失函数的情况下训练图形,而只需要将决策阶段的损失函数反向传播到图形生成阶段。然而,我们发现这会降低性能(见图3)。庞默曼和捕食者-食饵环境都有这些默认智能体。然而,我们发现更好的训练MAGNet的方法是先对图形生成进行预训练,然后添加智能体网络(5.5节)。训练相关图有两种选择:(1)为每个智能体训练单个相关图,或(2)为团队中的所有智能体训练一个相同的共享图(GS)。我们进行了实验,以确定哪种方法更好(见表一)。

4.1,决策阶段

负责决策的智能体AI被表示为一个神经网络,其输入是累积的消息和环境的当前状态。网络的输出是要执行的操作。此操作通过消息传递系统分4步计算。

【第一步】个体(即特定于位置的)观察到的智能体和对象由神经网络预处理为信息向量(表示为数字向量)。该神经网络随机初始化,并在整个学习过程中使用相同的全局损失函数进行训练。

【第二步】一个神经网络(也经过训练)获取一个智能体的信息向量,并将其映射成一条消息(也是一个数字向量),在相关图中,每个连接的顶点类型对应一个消息。该消息将乘以相应边的权重,并传递到相应的顶点。

【第三步】关联图中的每个智能体或对象也使用经过训练的网络,基于传入消息和之前的信息向量更新其信息向量。在我们的实验中,第2步和第3步重复给定次数,重复五次。

【最后一步】智能体接收到的最终消息以及当前状态信息由经过训练的决策网络映射到动作中。由于消息传递系统输出一个动作,我们将其视为DDPG actor-critic方法[9]中的一个参与者,并对其进行相应的训练。关于这个决策阶段的更正式描述如下。

(1)信息向量的初始化。每个顶点 都有一个与之相关联的初始化网络 ,该网络根据其类型 将当前单个观测值 作为输入,并为每个顶点输出初始信息向量 。

(2)消息生成。消息生成以迭代步骤执行。在消息生成步骤 (不要与环境时间 混淆),消息网络 计算每个边缘 的输出消息基于边 的类型,然后乘以相关图形中相应边的权重。

(3)信息处理。消息传播步骤 处的信息向量 由相关更新网络 根据其类型 进行更新。网络将所有传入消息向量和上一步的信息向量 之和作为输入。

(4)行动的选择。与智能体关联的所有顶点都有一个决策网络 选项,该网络将其最终信息向量 作为输入,并计算高斯策略作用的平均值。

5,实验

5.1,环境

在本文中,我们使用两种流行的多智能体基准环境进行测试,即合成多智能体捕食者-猎物博弈[2]和Pommerman博弈[1]。

在捕食者-食饵环境中,捕食者的目标是在500次迭代中杀死移动更快的猎物。捕食者必须学会合作,才能包围并杀死猎物。每个猎物的生命值为10。在给定范围内移动的捕食者每一时间步会降低猎物1点的生命值。将猎物生命值降低到0会杀死猎物。如果在500次迭代后,哪怕只有一个猎物存活下来,猎物团队也会获胜。游戏开始时,在环境中放置随机障碍物。

Pommerman游戏是一个受欢迎的环境,最多可由4名玩家玩。多智能体变体有两个团队,每个团队有两名球员。这个游戏已经在最近的多智能体算法竞赛中使用,因此特别适合与最先进的技术进行比较。

在Pommerman中,环境是一个网格世界,每个智能体可以向四个方向中的一个移动,放置炸弹,或者什么也不做。网格正方形要么是空的(这意味着智能体可以进入)、木制的,要么是僵硬的。木格方格不能进入,但可以被炸弹摧毁(即变成透明方格)。僵硬的正方形是坚不可摧、不可逾越的。当一个木制方块被摧毁时,有可能出现物品,例如额外的炸弹、增加炸弹射程或踢腿能力。一旦一枚炸弹被放置在一个方格中,它会在10个时间步后爆炸。爆炸摧毁了射程1内的所有木制方格,并杀死了射程4内的所有智能体。如果一个队的两名智能体都死了,那么该队将输掉比赛,而对方队将获胜。每一集的环境地图都是随机生成的。

游戏有两种不同的模式:自由和团队比赛。我们的实验是在团队匹配模式下进行的,目的是评估MAGnet利用发现的智能体之间关系(例如,在同一团队中)的能力。

我们将两种环境中的状态表示为 张量 ,其中 是环境场地的维数,是可能的最大对象数。如果 空间中存在对象 ,则 ,否则为 。捕食-被捕食状态为 张量,Pommerman状态为。

5.2,评价基线

在我们的实验中,我们将所提出的方法与上述两种环境中最先进的强化学习算法进行了比较。图3显示了与MADQN[3]、MADDPG[4]和QMIX[5]算法的比较。这些算法中的每一个都是通过对游戏中提供的默认AI进行大量游戏(即剧集)来训练的,并显示了相应的获胜率。所有图表显示20次运行的95%置信区间,以显示统计显著性。

通过参数探索,MADQN基线的参数设置如下。捕食者-食饵环境的网络由七个卷积层组成,每个层中有64个5x5过滤器,然后是五个完全连接的层,每个层有512个神经元,每个神经元都有残差连接[11]和批量标准化[12],它接受一个128x128x6环境状态张量和一个热编码动作向量(一个填充的1x5向量)的输入,并为此输出一个Q函数状态动作对。由于DQN的输出是离散的,但捕食者-食饵环境需要连续的动作,所以智能体只使用两个速度和10个方向。Pommerman网络由五个卷积层组成,每个层中有64个3x3滤波器,然后是三个完全连接的层,每个层有128个神经元,每个神经元都有剩余连接和批量标准化,输入一个11x11x4环境状态张量和一个热编码动作向量(填充1x6向量),由Pommerman环境提供,并输出一个Q函数为了状态动作对。

在MADDPG的实现中,我们使用了一个多层感知器(MLP),其中3层完全连接,512-128-64个神经元用于捕食者-猎物博弈的 Actor-Critic,5层完全连接,每层128个神经元用于批评者,3层网络,每层128个神经元用于庞默曼博弈的参与者。

QMIX的参数探索为这两种环境提供了以下设置。所有智能体网络都是DQN,具有64维隐藏状态的门循环单元(GRU[13])的循环层。混合网络由32个神经元组成的单个隐藏层组成。由于MADDPG和QMIX的输出是连续的,但Pommerman 预期一个离散的行动,我们离散了它。

在最初的QMIX论文[5]中,我们在前50k个时间步中将学习率从1.0线性降低到0.05,然后保持不变。从图3可以看出,我们的MAGnet方法明显优于当前最先进的算法。

5.3,MagNet 网络训练

在这两种环境中,我们首先使用相同的参数和默认的人工智能作为决策智能体,在50000个事件上训练图形生成网络。捕食者-食饵环境和Pommerman环境都提供了这些默认智能体。初始训练后,默认AI被第三节中描述的学习决策AI替换。所有学习图显示了此替换后开始的训练事件。

表一显示了不同 MagNet 变体在捕食者-猎物游戏中60万集和Pommerman游戏中100万集后,对默认智能体的获胜百分比。MagNet 变体在方法的复杂性上有所不同,从最简单的版本(将学习到的关联图作为输入的直接添加)到包含消息生成、图共享和自我注意的版本。该表清楚地显示了每个扩展的好处。

以下介绍了三个扩展及其超参数:

自我关注(SA)。我们可以将图形生成网络(GGN)训练为一个简单的多层感知器(层和神经元的数量是多种多样的,一个由3个完全连接的层512-128-128个神经元组成的网络获得了最好的结果)。或者,我们可以将其训练为变压器网络(SA)层[6]的一个具有默认参数的自我关注编码器部分。图共享(GS):为智能体单独训练相关图,或以共享图的形式为一个团队中的所有智能体训练相关图。消息生成(MG):消息生成模块实现为MLP或消息生成(MG)体系结构,如第4.1节所述。

5.4,MAGNet 参数

我们在关联图中定义顶点类型 和边类型 ,如下所示:

在捕食者-食饵博弈中,对应于:“捕食者在第1组(1,2,3)”,“捕食者在第2组(4,5,6)”,“猎物”,“墙”。每个边都有一个类型:,对应于“一个团队中捕食者之间的边缘”、“不同团队中捕食者之间的边缘”和“捕食者与环境中的物体或猎物之间的边缘”。

在Pommerman游戏中,对应于:“盟友”、“敌人”、“放置炸弹”(即将爆炸)、“增加踢腿能力”、“增加爆炸威力”、“额外炸弹”(可以拾取)。每个边都有一个类型:,对应于“智能体之间的边”和“智能体与环境中的对象之间的边”。

我们用一系列超参数测试了MLP和消息生成网络,选择了最佳参数。在捕食者-猎物博弈中,MLP有3个完全连接的层,包含512-512-128个神经元,而消息生成网络有5个层,包含512-512-128-128-32个神经元。对于Pommerman环境,MLP有3个完全连接的层1024-256-64个神经元,而消息生成网络有2个层128-32个神经元。在这两个域中,5次消息传递迭代显示了最佳结果。

在[0,0.2,0.4]空间中,通过网格搜索分别优化丢弃层。我们测试了两种卷积大小:[3x3]和[5x5]。[5x5]卷积显示出最好的结果。所有连接均采用校正线性单元(ReLU)变换。

5.5,无预训练

关于图形生成网络的预训练,我们需要回答以下问题。首先,我们需要确定在没有外部智能体进行预训练的情况下训练网络是否可行。换句话说,我们可以从一开始就同时训练图形生成网络和决策网络。其次,我们需要证明图形网络的预训练是否能改善结果。

为了回答这个问题,我们在没有对图形网络进行预训练的情况下进行了实验。图3显示了这些实验的结果(MAGNet无PT)。可以看出,网络确实可以在不进行预训练的情况下学习,但预训练显著提高了学习效果。这可能是由于决策错误以负面方式影响图形生成器网络。

5.6,特定领域的启发式

我们还进行了实验,以了解有关环境的额外知识是否可以改善我们方法的结果。为了结合这些知识,我们按照以下方式更改了图生成的损失函数。

第一个分量是相同的:它基于当前图形 中的边的权重与前一状态 中生成的边的权重之间的平方差。第二个在时间 迭代事件 ,并计算事件 中涉及的边 的权重与事件权重 之间的平方差。

例如,在Pommerman环境中,我们将对应于我们的团队智能体杀死另一个团队智能体的设置为100,将对应于拿起炸弹的智能体的 设置为25。在捕食者-猎物环境中,如果捕食者杀死猎物,我们将事件的权重设置为100。如果捕食者只伤害猎物,该事件的重量设置为50。

如图3(线性 MAGNet-DSH)所示,使用该环境领域知识的模型训练速度更快,性能更好。然而,需要注意的是,没有任何启发式的MAGNet仍然优于当前最先进的方法。在未来的研究中,我们考虑创建一种自动分配事件权重的方法。

6,结论

在本文中,我们提出了一种新的方法,MAGNet,用于深度多智能体强化学习,该方法结合了其他智能体和环境对象与RL智能体的相关性信息。我们还通过各种优化扩展了这种基本方法,即自我关注、共享关联图和消息生成。MAGNet变体在流行的捕食者-猎物和庞默尔曼游戏环境中进行了评估,并与最先进的泥灰岩技术进行了比较。我们的研究结果显示,MAGNet的表现明显优于所有竞争对手。

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。