CN120087875A

CN120087875A - 一种基于qmix算法的多智能体路径规划方法

Info

Publication number: CN120087875A
Application number: CN202510250502.8A
Authority: CN
Inventors: 石华光; 朱梦艳; 于自超; 敖天勇; 黄剑; 周毅
Original assignee: Henan University
Current assignee: Henan University
Priority date: 2025-03-04
Filing date: 2025-03-04
Publication date: 2025-06-03

Abstract

本发明公开了一种基于QMIX算法的多智能体路径规划方法，涉及机器学习的技术领域，方法包括：基于QMIX算法并结合A*算法建立多智能体路径规划模型，结合事后经验回放机制训练多智能体路径规划模型，得到训练好的多智能体路径规划模型；基于训练好的多智能体路径规划模型，实现在动态变化的复杂多任务场景下的多智能体路径规划。本发明解决了现有方法在动态变化的复杂多任务场景下缺乏灵活性和对全局目标优先级的动态平衡的技术问题，为多智能体路径规划提供了创新性解决方案，实现了全局策略与局部路径优化的高效结合，提升了路径规划的整体效率，兼具通用性与实用性，值得推广。

Description

一种基于QMIX算法的多智能体路径规划方法

技术领域

本发明涉及机器学习的技术领域，尤其涉及一种多智能体路径规划方法。

背景技术

多智能体系统已经成为解决自动化生产、物流运输和复杂任务调度等问题的重要技术手段。尤其在仓储、制造等场景中。多个智能体常常需要协同完成货物搬运、路径规划等任务。然而随着环境的复杂化，诸如动态障碍物、智能体之间的路径冲突、动态目标调整等问题，使得传统的单一规划算法难以适应复杂多变的环境。

当前，A*算法作为一种经典的路径规划算法，广泛用于静态地图中的全局路径规划。然而，A*算法只能提供静态的全局最优路径，难以应对实时变化的动态环境。例如，当智能体遇到突然出现的障碍物时，A*算法无法快速调整规划的路径，因此存在一定的局限性。

为了应对多智能体系统中的复杂协作问题，近年来，基于强化学习的路径规划算法逐渐受到关注。其中，QMIX算法作为一种分布式强化学习算法，能够有效解决多智能体系统中的部分可观测问题，支持各智能体独立决策并协同完成全局任务。然而，现有的QMIX算法在动态变化的复杂环境中仍存在不足，特别是在路径规划任务中，如何将全局信息与局部动态变化相结合，是现有技术亟待解决的问题。

申请号为202210868106.8的专利公开了一种基于深度强化学习的多智能体未知环境搜救方法及系统，首先获取基于多智能体未知环境搜救的马尔可夫决策模型；然后基于所述马尔可夫决策模型利用QMIX算法获取每个所述智能体的动作；每个智能体基于上述动作利用A*算法规划从当前点到下一状态目标点的最优路径；不断循环QMIX算法确定动作且A*算法规划路径的过程，直到达到预设终止条件时输出多智能体未知环境搜救结果。上述专利有效提高了多智能体在未知环境中搜救的效率。但上述专利在动态环境下缺乏灵活性，且在复杂的多任务场景中缺乏对全局目标优先级的动态平衡，易导致资源分配不均、任务饥饿以及陷入局部最优的情况。

发明内容

针对现有多智能体路径规划方法在动态变化的复杂多任务场景下缺乏灵活性和对全局目标优先级的动态平衡的技术问题，本发明提出了一种基于QMIX算法的多智能体路径规划方法，通过将A*算法与QMIX算法相结合，提高了智能体对复杂环境的适应性和路径规划效率，实现全局与局部探索的动态平衡，避免陷入资源分配不均、任务饥饿以及陷入局部最优的情况，优化了智能体协作和路径规划的整体效果。

为了达到上述目的，本发明的技术方案是这样实现的：

一种基于QMIX算法的多智能体路径规划方法，包括以下步骤：

基于QMIX算法并结合A*算法建立多智能体路径规划模型，结合事后经验回放机制训练多智能体路径规划模型，得到训练好的多智能体路径规划模型；

基于训练好的多智能体路径规划模型，实现在动态变化的复杂多任务场景下的多智能体路径规划。

优选地，所述基于QMIX算法并结合A*算法建立多智能体路径规划模型的步骤包括：

S1、将智能体的路径规划问题建模转化为分布式部分可观测马尔可夫决策模型；

S2、基于分布式部分可观测马尔可夫决策模型，利用QMIX算法学习多智能体的全局协作策略，综合分析全局状态信息和任务需求，优化任务分配和整体行为决策；

S3、基于任务分配，依据最大化QMIX算法中联合Q值的原则确定每个智能体的动作；当智能体遇到障碍物或者与其他智能体冲突时，利用A*算法规划从当前节点到局部目标节点的路径；

S4、循环执行步骤S2和步骤S3直至任务完成。

优选地，所述将智能体的路径规划问题建模转化为分布式部分可观测马尔可夫决策模型的方法为：

S1.1、根据智能体的物理特性和功能需求，定义智能体的观测和动作，并对智能体的全局状态进行建模；

智能体i在时刻t的局部观测信息包括智能体i的位置向量速度向量目标位置向量g_i和障碍物信息则智能体i在时刻t的局部观测信息

其中，智能体i的位置向量智能体i的速度向量智能体i的目标位置向量智能体i感知到的障碍物信息包括最近的动态和静态障碍物的位置；以左下角为原点建立笛卡尔坐标系，表示智能体i在x轴方向的位置，表示智能体i在y轴方向的位置，表示智能体i在x轴方向的速度分量，表示智能体i在y轴方向的速度分量，表示智能体i的目标位置向量在x轴方向的位置，表示智能体i的目标位置向量在y轴方向的位置；

智能体i在时刻t时的选择动作为离散动作上、下、左、右或停，智能体i的移动距离取决于时间步长和施加的加速度；

所有智能体的位置与速度、环境的当前状态以及任务的相关参数作为全局状态s；

S1.2、基于定义的智能体的观测及动作，结合智能体的全局状态，设计结构化奖励函数，得到分布式部分可观测马尔可夫决策模型。

优选地，所述结构化奖励函数的表达式为：

其中，K_i∈(0,1]，i＝1,2,3,4,5，K₁为智能体i到达目标点时的奖励的权重参数，K₂为智能体i碰撞或靠近障碍物时的惩罚的权重参数，K₃为路径长度惩罚的权重参数，K₄为智能体i无效移动或延迟的惩罚的权重参数，K₅为智能体i保持与动态障碍物安全距离的奖励的权重参数。

优选地，智能体i到达目标点时的奖励的表达式为：

智能体i碰撞或靠近障碍物时的惩罚的表达式为：

其中，min_range表示智能体i到智能体i检测到的最近障碍物或其他智能体的最小距离；路径长度惩罚的表达式为：

其中，λ₃表示路径惩罚常数，L_path表示智能体i的路径长度；

智能体i无效移动或延迟的惩罚的表达式为：

其中，λ₄表示无效移动或不必要等待时间的惩罚常数，t_idle表示智能体i的不必要等待时间或无效移动时间；

智能体i保持与动态障碍物安全距离的奖励的表达式为：

其中，d表示智能体i与障碍物之间的当前距离，d_safe表示预定义的安全距离，λ₅、λ₆和α为可调节的参数。

优选地，所述分布式部分可观测马尔可夫决策模型用七元组表示，其中，I＝{1,2,…,N}表示智能体集合，N为智能体的数量；S表示全局状态空间，A_i表示智能体i的动作空间，智能体i选择的动作a_i∈A_i，在时刻t组合所有智能体的动作，形成在时刻t的联合动作a＝(a₁,a₂,……,a_N)；O_i为由观测函数O_i(s,a_i)生成的局部观测空间；P为状态转移概率；R表示在全局状态信息s下所有智能体采取联合动作a时所获得的奖励；γ∈[0,1)表示用于控制未来奖励的权重的折扣因子。

优选地，所述利用QMIX算法，依据最大化QMIX算法中联合Q值的原则确定每个智能体的动作的方法为：

QMIX网络由混合网络和每个智能体的局部Q网络组成；其中，局部Q网络的结构包括依次连接的输入层-第一多层感知机-门控循环单元-第二多层感知机，在局部Q网络的第二多层感知机的权重中引入噪声机制；

智能体通过局部Q网络的输入层接收局部观测信息和先前动作并送入第一多层感知机，第一多层感知机对输入的数据进行特征融合，生成特征向量，门控循环单元结合智能体的历史轨迹信息和特征向量更新智能体的轨迹表示，第二多层感知机作为输出层，将更新后的智能体的轨迹表示映射为智能体的局部Q值；智能体基于局部Q值执行∈-贪婪策略选择动作；

由于在局部Q网络的第二多层感知机的权重中引入了噪声机制，在每次向前传播时，噪声权重参数和随机噪声会动态作用于第二多层感知机的权重，使得第二多层感知机的权重具备随机化特性，提升智能体在决策过程中的探索能力和动作选择的多样性；

混合网络接收所有智能体的局部Q值和全局状态作为输入，通过前馈神经网络基于非线性加权混合方式生成联合Q值Q_tot，并确保联合Q值Q_tot满足单调性约束使得最大化联合Q值Q_tot等价于最大化每个局部Q值Q_i。

优选地，当智能体遇到障碍物或者与其他智能体冲突时，利用A*算法规划从当前节点到局部目标节点的路径的方法为：

若智能体与障碍物或其他智能体的距离小于安全阈值d_safe，触发局部路径重规划：以当前位置为起点，局部目标节点为终点，结合动态环境信息生成避障路径候选动作集智能体的后续动作仅从避障路径候选动作集A_safe中选取。

优选地，所述结合事后经验回放机制训练多智能体路径规划模型包括以下步骤：

Ⅰ、初始化参数并定义初始的经验回放池：初始化参数包括初始化场景和智能体、初始化QMIX算法的网络权重参数并设定总迭代轮数及网络参数更新频率；Ⅱ、路径规划与动作执行；Ⅲ、经验存储与网络更新：智能体执行动作后，观测环境反馈的新状态和即时获得的奖励，记录状态转移的样本，存入经验回放池；计算经验回放池中样本的时序误差并设定样本的优先级，当回放池容量超过阈值，移除优先级最低的样本；最小化加权损失函数，更新网络权重参数和任务分配策略；Ⅳ、任务完成与评估：重复执行步骤Ⅱ和步骤Ⅲ，直至所有智能体到达目标位置或到达最大迭代轮数，对完成更新网络权重参数和任务分配策略的多智能体路径规划模型进行性能评估，若评估结果满足预设目标，则完成更新网络权重参数和任务分配策略的多智能体路径规划模型为训练好的多智能体路径规划模型。

优选地，所述时序误差的计算公式为：

δ＝|Q_tot(s,a；θ)-(R+γmax_a′(Q_tot(s′,a′；θ^-)))|

设定样本优先级p＝|δ|+∈，∈为防止零概率的常数，计算按概率抽取的批次样本的加权损失函数值，α∈[0,1]为控制均匀性的变量；

加权损失函数的表达式为：

其中，表示对多个状态-动作对的均方误差求期望，为经验回放池，w_i＝(N·P(i))^-β为重要性采样权重，β为控制偏差修正强度的变量，y＝r+γQ_tot(s′,argmax_a′Q_tot(s′,a′；θ)；θ^-)表示当前时间步的目标Q值，Q_tot(s,a；θ)表示网络参数为θ时，在全局状态s下联合动作a的估值，Q_tot(s′,a′；θ^-)表示网络参数为θ^-时，在新状态s′下新联合动作a′的估值。

与现有技术相比，本发明的有益效果：

本发明通过在QMIX算法中引入噪声机制来增强策略探索的多样性，提高了多智能体系统的决策鲁棒性和适应性。在动态环境中，引入噪声机制的局部Q网络能够使智能体在面对复杂和不确定因素时更好地探索有效路径，避免陷入局部最优。本发明在资源分配和路径冲突方面实现了优化，提高了多智能体路径规划的响应速度和效率。

本发明通过引入事后经验回放机制优化优先级任务分配，实现了全局与局部探索的动态平衡，提升了智能体在复杂环境中的适应性和决策质量，强化了智能体的学习能力和路径规划效果。事后经验回放允许智能体在多次迭代中反复利用关键路径数据，从而加速多智能体路径规划模型的收敛，提高在动态环境中的学习效率。还使智能体能够从历史决策中总结经验，优化当前任务的执行路径，有效避免资源浪费，提升了稳定性与决策精度。

本发明为多智能体路径规划提供了创新性解决方案，实现了全局策略与局部路径优化的高效结合，提升了路径规划的整体效率，兼具通用性与实用性，值得推广。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的流程图。

图2为本发明引入噪声机制的QMIX算法的网络结构示意图；其中，图2-(a)为混合网络的结构示意图，图2-(b)为QMIX网络的结构示意图，图2-(c)为局部Q网络的结构示意图

图3为本发明训练多智能体路径规划模型的流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，一种基于QMIX算法的多智能体路径规划方法，包括以下步骤：

基于QMIX算法并结合A*算法建立多智能体路径规划模型，结合事后经验回放机制训练多智能体路径规划模型，得到训练好的多智能体路径规划模型。

进一步地，所述基于QMIX算法并结合A*算法建立多智能体路径规划模型包括以下步骤：

S1、将智能体的路径规划问题建模转化为分布式部分可观测马尔可夫决策模型。

S1.1、根据智能体的物理特性和功能需求，定义智能体的观测和动作，并对智能体的全局状态进行建模。

具体地，智能体i在时刻t的局部观测信息包括智能体i的位置向量速度向量目标位置向量g_i和障碍物信息则智能体i在时刻t的局部观测信息

其中，智能体i的位置向量智能体i的速度向量智能体i的目标位置向量智能体i感知到的障碍物信息包括最近的动态和静态障碍物的位置。以左下角为原点建立笛卡尔坐标系，表示智能体i在x轴方向的位置，表示智能体i在y轴方向的位置，表示智能体i在x轴方向的速度分量，表示智能体i在y轴方向的速度分量，表示智能体i的目标位置向量在x轴方向的位置，表示智能体i的目标位置向量在y轴方向的位置。

智能体i在时刻t时的选择动作为离散动作上、下、左、右或停，智能体i的移动距离取决于时间步长和施加的加速度。

所有智能体的位置与速度、环境的当前状态(包括障碍物的分布以及环境的动态变化特征和更新频率)以及任务的相关参数(包括目标位置、任务优先级和任务种类)作为全局状态s。

当智能体i到达目标点时的奖励为：

当智能体i碰撞或靠近障碍物时的惩罚为：

其中，min_range表示智能体i到智能体i检测到的最近障碍物或其他智能体的最小距离。

为鼓励智能体i选择最短路径，设置路径长度惩罚为：

其中，λ₃表示路径惩罚常数，L_path表示智能体i的路径长度，路径长度越大惩罚越大，从而鼓励智能体i选择更短的路径。

智能体i无效移动或延迟的惩罚为：

其中，λ₄表示无效移动或不必要等待时间的惩罚常数，t_idle表示智能体i的不必要等待时间或无效移动时间，不必要等待时间或无效移动时间越久，惩罚越大。

智能体i保持与动态障碍物安全距离的奖励为：

综上，智能体i在时刻t获得的奖励为：

综合智能体的观测、动作、全局状态和奖励函数得到分布式部分可观测马尔可夫决策模型。

所述分布式部分可观测马尔可夫决策模型用一个七元组表示，其中，I＝{1,2,…,N}表示智能体集合，N为智能体的数量；S表示全局状态空间，是所有全局状态s∈S的集合；A_i表示智能体i的动作空间，智能体i选择的动作a_i∈A_i，在时刻t组合所有智能体的动作，形成在时刻t的联合动作a＝(a₁,a₂,……,a_N)；O_i为由观测函数O_i(s,a_i)生成的局部观测空间；状态转移概率P表示在全局状态s下给定联合动作a后转移到新状态s′的概率；R表示在全局状态信息s下所有智能体采取联合动作a时所获得的奖励；γ∈[0,1)表示用于控制未来奖励的权重的折扣因子。

S2、基于分布式部分可观测马尔可夫决策模型，利用QMIX算法学习多智能体的全局协作策略，综合分析全局状态信息和任务需求，优化任务分配和整体行为决策，以确保全局路径规划的最优性。

S3、基于任务分配，依据最大化QMIX算法中联合Q值的原则确定每个智能体的动作，为整体目标提供统一的长程指导；当智能体遇到障碍物或者与其他智能体冲突时，利用A*算法规划从当前节点到局部目标节点的路径，通过局部观测信息快速响应环境中的障碍物或动态变化，优化局部路径决策，以灵活应对局部障碍和动态变化，确保局部路径决策和全局路径规划的高效结合。

进一步地，所述QMIX算法的网络结构如图2所示，QMIX网络由混合网络和每个智能体的局部Q网络组成。其中，局部Q网络的结构包括依次连接的输入层-第一多层感知机-门控循环单元-第二多层感知机，为增强策略探索的多样性，在局部Q网络的第二多层感知机的权重中引入噪声机制。

进一步地，如图2-(c)和图2-(b)所示，智能体通过局部Q网络生成智能体的局部Q值其中，表示生成的智能体i的轨迹表示，表示智能体i在时刻t的动作。

具体的，在t时刻，局部Q网络的输入层接收局部观测信息和先前动作并送入第一多层感知机MLP，通过第一多层感知机MLP对输入数据进行特征融合，生成特征向量接着，门控循环单元GRU结合历史轨迹信息和第一多层感知机MLP的输出更新轨迹表示第二多层感知机MLP作为输出层，将更新后的轨迹表示映射为智能体的局部Q值智能体基于局部Q值执行∈-贪婪策略选择动作

计算噪声权重的表达式如下：

W_noisy＝W+σ_W·∈_W

其中，W是标准权重；σ_W是可学习的噪声权重参数，会根据梯度信息进行动态更新；∈_W是从标准正态分布中采样的随机噪声。

由于在局部Q网络的第二多层感知机的权重中引入了噪声机制，在每次向前传播时，噪声权重参数σ_W和随机噪声∈_W会动态作用于第二多层感知机MLP的权重，使得第二多层感知机MLP的权重具备随机化特性，从而有效提升智能体在决策过程中的探索能力和动作选择的多样性。

进一步地，如图2-(a)和图2-(b)所示，混合网络接收所有智能体的局部Q值和全局状态s作为输入，通过前馈神经网络基于非线性加权混合方式生成联合Q值Q_tot＝W₂·σ(W₁·[Q₁,Q₂,…,Q_N]^Τ+b₁)+b₂进行全局任务优化，其中W₁和W₂为超网络生成的非负权重矩阵，σ(·)为单调递增的激活函数，b₁和b₂为超网络生成的偏置向量，并确保联合Q值Q_tot满足单调性约束使得最大化联合Q值Q_tot等价于最大化每个局部Q值Q_i。

S4、循环执行步骤S2和步骤S3直至任务完成。

进一步地，在训练多智能体路径规划模型时，引入事后经验回放，使智能体能够从历史数据中总结有效的应对策略，不断优化智能体的局部决策，从而实现全局的路径优化，提高对环境动态变化的适应性和灵活性，如图3所示，包括以下步骤：

Ⅰ、初始化参数并定义初始的经验回放池：①初始化场景和智能体：将实际环境转换为网格化表示，定义动态障碍物和静态障碍物及动态障碍物和静态障碍物的更新规则；设置每个智能体的初始位置和目标位置，并根据任务需求设定任务优先级；为每个智能体分配初始状态，包括位置、速度、历史轨迹、目标点等。②初始化改进的QMIX算法的网络权重参数，包括局部Q网络和混合网络的所有可训练参数；设定总迭代轮数及网络参数更新频率。③定义初始的经验回放池，用于存储历史状态、动作、奖励和下一个状态等。

Ⅱ、路径规划与动作执行：获取当前全局状态s和各智能体采集的局部观测智能体通过局部Q网络计算各动作的Q值采用∈-贪婪策略选择动作混合网络融合所有智能体的局部Q值和全局状态s，生成联合Q值Q_tot，满足单调性约束优化全局策略。

若智能体与障碍物或其他智能体的距离小于安全阈值d_safe，触发局部路径重规划。以当前位置为起点，局部目标节点为终点，结合动态环境信息生成避障路径候选动作集智能体的后续动作仅从避障路径候选动作集A_safe中选取，确保安全性与路径可行性。

Ⅲ、经验存储与网络更新：智能体执行动作后，观测环境反馈的新状态s′和即时获得的奖励记录状态转移的样本(s，a，R，s′)，存入经验回放池

计算经验回放池中样本的时序误差(TD error)并设定样本的优先级，当经验回放池容量超过阈值移除优先级最低的样本；

计算时序误差的公式为：

δ＝|Q_tot(s,a；θ)-(R+γmax_a′(Q_tot(s′,a′；θ^-)))|

设定样本的优先级p＝|δ|+∈，∈为防止零概率的极小常数，计算按概率抽取的批次样本的加权损失函数值，α∈[0,1]为控制均匀性的变量。

最小化加权损失函数：

其中，表示对多个状态-动作对的均方误差求期望，D为经验回放池，w_i＝(N·P(i))^-β为重要性采样权重，β为控制偏差修正强度的变量，y＝r+γQ_tot(s′,argmax_a′Q_tot(s′,a′；θ)；θ^-)表示当前时间步的目标Q值，Q_tot(x,a；θ)表示网络参数为θ时，在全局状态s下联合动作a的估值，Q_tot(x′,a′；θ^-)表示网络参数为θ^-时，在新状态x′下新联合动作a′的估值。每隔一个时间步同步更新目标网络参数θ为θ^-。

更新网络权重参数和任务分配策略。

Ⅳ、任务完成与评估：重复执行步骤Ⅱ和步骤Ⅲ，直至所有智能体到达目标位置或到达最大迭代轮数，对完成更新网络权重参数和任务分配策略的多智能体路径规划模型进行性能评估，若评估结果达到预设目标，则完成更新网络权重参数和任务分配策略的多智能体路径规划模型为训练好的多智能体路径规划模型

所有智能体均到达目标位置时视为任务完成；若任务失败(如智能体未能在规定时间内完成任务、智能体与障碍物相撞或智能体间相互碰撞)，则记录相关数据进行后续分析和改进后重新训练。通过完成率、平均路径长度、计算时间、冲突率等指标评估多智能体路径规划模型的性能。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于QMIX算法的多智能体路径规划方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于QMIX算法的多智能体路径规划方法，其特征在于，所述基于QMIX算法并结合A*算法建立多智能体路径规划模型的步骤包括：

S4、循环执行步骤S2和步骤S3直至任务完成。

3.根据权利要求2所述的基于QMIX算法的多智能体路径规划方法，其特征在于，所述将智能体的路径规划问题建模转化为分布式部分可观测马尔可夫决策模型的方法为：

4.根据权利要求3所述的基于QMIX算法的多智能体路径规划方法，其特征在于，所述结构化奖励函数的表达式为：

5.根据权利要求4所述的基于QMIX算法的多智能体路径规划方法，其特征在于，智能体i到达目标点时的奖励的表达式为：

智能体i碰撞或靠近障碍物时的惩罚的表达式为：

其中，min_range表示智能体i到智能体i检测到的最近障碍物或其他智能体的最小距离；

路径长度惩罚的表达式为：

智能体i无效移动或延迟的惩罚的表达式为：

智能体i保持与动态障碍物安全距离的奖励的表达式为：

6.根据权利要求2-5中任意一项所述的基于QMIX算法的多智能体路径规划方法，其特征在于，所述分布式部分可观测马尔可夫决策模型用七元组表示，其中，I＝{1,2,…,N}表示智能体集合，N为智能体的数量；S表示全局状态空间，A_i表示智能体i的动作空间，智能体i选择的动作a_i∈A_i，在时刻t组合所有智能体的动作，形成在时刻t的联合动作a＝(a₁,a₂,……,a_N)；O_i为由观测函数O_i(s,a_i)生成的局部观测空间；P为状态转移概率；R表示在全局状态信息s下所有智能体采取联合动作a时所获得的奖励；γ∈[0,1)表示用于控制未来奖励的权重的折扣因子。

7.根据权利要求2所述的基于QMIX算法的多智能体路径规划方法，其特征在于，所述依据最大化QMIX算法中联合Q值的原则确定每个智能体的动作的方法为：

QMIX算法中的QMIX网络由混合网络和每个智能体的局部Q网络组成；其中，局部Q网络的结构包括依次连接的输入层-第一多层感知机-门控循环单元-第二多层感知机，在局部Q网络的第二多层感知机的权重中引入噪声机制；

8.根据权利要求7所述的基于QMIX算法的多智能体路径规划方法，其特征在于，当智能体遇到障碍物或者与其他智能体冲突时，利用A*算法规划从当前节点到局部目标节点的路径的方法为：

9.根据权利要求1、2或7中任一项所述的基于QMIX算法的多智能体路径规划方法，其特征在于，所述结合事后经验回放机制训练多智能体路径规划模型包括以下步骤：

10.根据权利要求1所述的基于QMIX算法的多智能体路径规划方法，其特征在于，所述时序误差的计算公式为：

δ＝|Q_tot(s,a；θ)-(R+γmax_a′(Q_tot(s′,a′；θ^-)))|

加权损失函数的表达式为：