CN114077258B

CN114077258B - 一种基于强化学习ppo2算法的无人艇位姿控制方法

Info

Publication number: CN114077258B
Application number: CN202111410180.7A
Authority: CN
Inventors: 薛文涛; 吴帅; 李顺; 叶辉; 杨晓飞
Original assignee: Jiangsu University of Science and Technology
Current assignee: Suzhou Xiaobo Intelligent Technology Co ltd
Priority date: 2021-11-22
Filing date: 2021-11-22
Publication date: 2023-11-21
Anticipated expiration: 2041-11-22
Also published as: CN114077258A

Abstract

本发明公开了一种基于强化学习PPO2算法的无人艇位姿控制方法，包括无人艇环境建模；根据无人艇的情况设置动作和状态空间；设置奖励目标权重，基于所需无人艇控制目标设置奖励函数来控制无人艇；设计深度神经网络，包括状态价值函数估计器网络和策略网络；用PPO2算法进行无人艇位姿控制器训练，并对策略网络参数迭代，直到设定的训练周期数目全部结束，观察无人艇位姿控制结果，并将学习步长、观测空间、动作空间、训练策略以及训练完成的神经网络保存，作为无人艇下次调用。本发明利用PPO2算法进行无人艇的姿态航向控制；通过强化学习，不依赖于具体模型，能有效地控制复杂环境下的无人艇系统。

Description

一种基于强化学习PPO2算法的无人艇位姿控制方法

技术领域

本发明属于无人艇控制技术领域，涉及一种基于强化学习PPO2算法的无人艇位姿控制方法。

背景技术

无人艇是一种可以实现自主导航、自主避障、自主水面作业的水面无人航行器，具有体积小、速度高、隐身性和无人员伤亡风险等优点。无人艇非常适宜执行对人员伤亡有着较大风险的危险海域内的水面作业任务或者对人员参与度要求低的简单水面作业任务，具有良好的应用，因此广泛而有效地应用在海洋监测、海洋调查、海上搜救、无人货运等领域。

尽管无人艇研究取得了重大进展，但目前对于水面无人艇的控制有很多难点，复杂的非线性系统、控制的变量多、变量之间相互耦合、欠驱系统等方面都对水面无人艇的控制造成困难。水面无人艇的姿态和位置控制是研究水面无人艇的重要的一部分，主要研究的是在复杂的水面环境中，在有外部干扰和海浪的情况下，对水面无人艇姿态和位置的精准控制。

强化学习是机器学习中的重要分支，由控制科学、计算机科学等学科发展而来，是智能体在环境中交互试错后，学习选择合适的行为动作以获取最大的累积回报的过程。可以认为强化学习是一种奖惩式的学习方法，目前，已经成为一种求解序贯决策问题的有效方法。

现有技术中，对于水面无人艇的控制需要获得无人艇的准确模型，而无人艇的控制的变量多、变量之间相互耦合更是造成对无人艇的控制困难，且使用强化学习设计无人艇尤其是无人艇的姿态运动控制器较少。

公告号CN 112540614 A的中国专利公开了一种用于具有大迟滞性系统的无人艇航迹控制的深度强化学习框架，通过该深度强化学习框架使无人艇这类大迟滞性的非马尔科夫系统也可通过深度强化学习取得良好的训练效果。其缺陷是，环境中没有加入无人艇运动学模型；使用强化学习控制无人艇姿态控制器较少；需要较长的训练时间。

发明内容

本发明的目的在于克服现有技术的缺陷，提供一种基于强化学习PPO2(ProximalPolicy Optimization 2)算法的无人艇位姿控制方法，采用一体化控制器代替传统内外环控制器，利用PPO2算法进行无人艇的姿态航向控制；通过强化学习，不依赖于具体模型，能有效地控制复杂环境下的无人艇系统。

为解决上述技术问题，本发明采用以下技术方案。

本发明的一种基于强化学习PPO2算法的无人艇位姿控制方法，包括以下步骤：

S1、无人艇的环境建模：

设计无人艇的模型，建立无人艇运行环境规则、生成无人艇起始点和终点，无人艇的输入为两路PWM波，通过转换后变为两路电机推力，设计分层奖励函数以完成起点到终点的运行，最后通过仿真环境与实际无人艇的交互获得真实情况下的无人艇电机转速，转换后作为环境输入进入神经网络；

S2、设置动作空间和状态空间，根据所建立无人艇的情况设置动作空间和状态空间；

S3、设置奖励函数：设置奖励的目标权重，基于所需无人艇的控制目标设置奖励函数以达到控制无人艇；

S4、设计深度神经网络架构：

其深度神经网络结构包括状态价值函数估计器网络结构和策略网络结构；对于一个完整的神经网络Actor-critic算法拥有Actor和Critic两个神经网络结构；

S5、基于PPO2算法的控制器训练：

使用PPO2算法进行无人艇的位姿控制器训练，设定训练的总周期数目N，在每个周期内无人艇与环境进行信息交互，即模拟无人艇在环境中的运动过程以及无人艇的姿态和位置变化，无论跟踪的结果如何，交互的信息数据都将被按照时间序列存储在经验池中；每当经验池数据存满时，将数据全部取出，依照PPO2算法对策略网络结构进行参数迭代，直到设定的训练周期数目全部训练结束，观察无人艇位姿控制结果，并将学习步长，观测空间，动作空间，训练策略以及训练完成的神经网络保存，作为无人艇下一次调用。

进一步地，在步骤S3中，由于训练的目标是使无人艇能够朝向目标点运动，无人艇与目标点之间距离越小，获得的奖励越高，为使无人艇在目标跟踪过程中平稳追踪目标，将无人艇的速度也作为奖励函数设计的一部分，设计针对无人艇目标跟踪问题强化学习算法中使用的奖励函数为：

r＝-angle_normalize(x)-0.1r²-0.001(f1+f2)²-(u-0.5)²-0.0001a_u ²

该奖励函数将无人艇的角度和速度作为控制目标，通过归一化函数将输入函数里的弧度值转化到[-π,π]的范围内，同时设置角度速度权重，该奖励解决了无人艇在稀疏奖励下的无效探索问题。

进一步地，在步骤S4中，所述的Actor网络包括三层结构，每层结构有若干结点；根据控制器的要求设计各层节点输入层2个结点，分别为航向角ψ和速度v，隐藏层64个结点，输出层2个结点，分别为左电机控制率u_l(t)和右电机控制率u_r(t)，在得到u(t)后需要进行转化才能得到转速量化值，进而得到电机转速；Critic网络和Actor网络的结构的隐藏层相同，输入层4个结点分别为航向角ψ、速度、左电机控制率u_l(t)和右电机控制率u_r(t)，且航向角和速度需要分别除以45°和v_max进行归一化后输入神经网络，输出层的一个结点为值函数的估计V(t)，用于评价动作的好坏；当Actor网络和Critic网络训练达到最大更新次数或误差小于设定值时，权值更新停止。所述的Actor网络的最大更新次数设为200，误差阈值设为0.005。所述的Critic网络的最大更新次数设为100，误差阈值设为0.05。

进一步地，在步骤S5中：在环境中加入风速干扰，通过引入积分补偿器保证干扰条件下的系统稳定。另外，在基本PPO2算法中加入最大熵修正算法，从而在保证策略探索性的同时弥补最大熵带来的低估，提高算法的学习效率。

与现有的技术相比，本发明具有以下优点和有益效果：

1.本发明采用强化学习算法具有高度自我学习能力，可以经过简单的训练适应大部分复杂的环境，从而实现无人艇的自主感知以及更好的位姿控制。

2.本发明通过设计具有无人艇特性的奖惩函数进行控制无人艇，提升了无人艇在稀疏奖励下的训练速度，并使无人艇能够更好的接近目标。

3.本发明通过在无人艇仿真环境中加入延迟环节，最大程度上模拟无人艇的真实环境，为强化学习应用于实际无人艇做了准备。

4.本发明在基本PPO2算法中加入最大熵修正算法，使用该修正项能够在保证策略探索性的同时弥补最大熵带来的低估，提高算法的学习效率。

附图说明

图1是本发明所采用的强化学习PPO2算法的原理图。

图2是本发明的一种实施例的方法流程图。

图3是本发明的一种实施例方法的强化学习马尔可夫决策流程。

图4是本发明的一种实施例的无人艇的动作选择示意图。

图5是本发明的一种实施例的强化学习PPO2无人艇控制器。

图6是本发明的一种实施例的无人艇训练损失曲线。

图7是本发明的一种实施例的无人艇所获得奖励函数曲线。

图8是本发明的一种实施例的无人艇航向角变化曲线(单位：度)。

图9是本发明的一种实施例的无人艇速度变化曲线(单位：米/秒)。

图10是本发明的一种实施例的无人艇位置变化曲线(单位：米)。

具体实施方式

下面结合附图，对本发明做进一步详细说明。

步骤S1：建立无人艇环境模型；

无人艇模型符号定义见表：

在无人艇运动控制中记以下矢量：

η₁＝[x,y,z]^T∈R³,

v₁＝[u,v,w]^T∈R³,v₂＝[p,q,r]^T∈R³

τ₁＝[X,Y,Z]^T∈R³,τ₂＝[K,M,N]^T∈R³

其中，η是惯性坐标系下的无人艇的位置矢量、方向矢量，v是体坐标系下的无人艇线速度矢量、角速度矢量，τ是体坐标系下的无人艇力矢量、力矩矢量。

无人艇运动的数学模型为：

其中J(η)是坐标系转换矩阵，C(v)是科里奥向心矩阵，D(v)是阻尼矩阵，g(η)是回复力。

对无人艇六自由度模型简化，忽略掉水面无人艇在竖直面三个方向的运动，只考虑水面无人艇在水平面三个方向的运动。

无人艇的三自由度模型的标量形式如下：

其中m₁₁、m₂₂、m₃₃为刚体惯性矩阵对角元素，d₁₁、d₂₂、d₃₃为阻尼矩阵的对角元素。

S2：确定动作空间和观测空间，根据所建立无人艇的情况设置动作空间和状态空间；

S2.1：无人艇的速度控制，设置无人艇的动作空间大小为[-20,20]，状态空间为水面无人艇前进的速度和加速度，空间大小分别为：[-1,1]，[-0.1,0.1]。

S2.2：无人艇的角度控制，为控制无人艇的摇艏角度，需要控制无人艇的摇艏力矩，其空间大小为[-2,2]；状态为无人艇的角度，角速度和角加速度，其空间的大小分别为：[-1,1]，[-1,1]，[-1.1,1.1]。

S2.3：无人艇的速度、角度同时控制，设置无人艇的动作空间大小为[-2,2]，观测的状态为无人艇运行的角度和无人艇前进的速度，其状态空间的大小为：[-1,1]，[-1,1]，[-1.1,1.1]，[-1,1]，[-0.1,0.1]。

S3：综合参考无人艇模型设计位姿奖励函数；

奖励目标通过以下方式获得：

在对于无人艇的速度控制中，为使水面无人艇的速度能够达到0.5m/s，当速度接近0.5m/s时，使无人艇的加速度为0，为使无人艇达到预期目标，将奖励函数设置如下：

r＝-(u-0.5)²-0.0001a_u ²

在对于无人艇的角度控制中，控制无人艇的角度达到指定角度，然后再控制无人艇的角速度为0，再控制无人艇的角加速度为0，将奖励函数设置如下：

r＝-angle_normalize(x)-0.1r²-0.001N²

其中，-angle_normalize()函数把输入函数里的弧度值转化到[-π,π]的范围内。

在对于无人艇的角度与速度的同时控制中，通过同时控制无人艇前进的力和力矩和摇艏力来控制无人艇，将奖励函数设置如下：

r＝-angle_normalize(x)-0.1r²-0.001N²-(u-0.5)²-0.0001a_u ²

同时为使无人艇训练达到更好效果，设置分层奖励函数，给无人艇的运动环境设置边界值，当无人艇运行到边界之外则reset环境，分层奖励函数为：

其中et为目标边界值，iet为目标奖励。

其中mp为边界裁剪值，bp为惩罚项。

S4：设计深度神经网络架构

深度神经网络结构包括状态价值函数估计器网络结构和策略网络结构。算法拥有Actor和Critic两个神经网络结构。Actor网络共有三层结构，每层结构有若干结点，根据控制器的要求设计各层节点输入层2个结点，分别为航向角ψ和速度v，隐藏层64个结点，输出层2个结点，分别为左电机控制率u_l(t)和右电机控制率u_r(t)，在得到u(t)后需要进行转化才能得到转速量化值，进而得到电机转速。Critic网络和Actor网络的结构的隐藏层相同，输入层4个结点分别为航向角ψ、速度、左电机控制率u_l(t)和右电机控制率u_r(t)，且航向角和速度需要分别除以45°和v_max进行归一化后输入神经网络，输出层的一个结点为值函数的估计V(t)。

算法动作选择过程如图4所示，对于每一回合的每一步，算法需要做的是首先选择一个动作，图4所示所采取的策略叫做行为策略，用β来表示。然而β并不是所得到的最优策略，β仅仅用来在训练的过程中，生成给环境的动作，从而获得我们想要的数据集，然后用这个数据集去训练策略μ，从而获得最优策略，为了平衡探索与发展之间的关系，对动作的选择引入随机噪音N_t，具体形式如下：

a_t＝μ(s_t|θ^μ)+N_t

S5：基于PPO2算法的控制器训练；

使用PPO2算法进行无人艇的位姿控制器训练，设定训练的总周期数目N，在每个周期内无人艇与环境进行信息交互，即模拟无人艇在环境中的运动过程以及无人艇的姿态和位置变化，无论跟踪的结果如何，交互的信息数据都将被按照时间序列存储在经验池中；每当经验池数据存满时，将数据全部取出，依照PPO2算法对策略网络结构进行参数迭代，直到设定的训练周期数目全部训练结束。

PPO2算法的实现中有三个网络，一个评价者网络，两个演员家网络(新演员和旧演员网络)。其中actor网络的输入为无人艇的角度和速度，输出为一个均值和方差，并返回一个由该均值和方差得到的正态分布，动作基于此正态分布进行采样。Critic网络的输入和actor的相同，输出为advantage value作为评价动作好坏的标准。

算法采集完batch数据后，使用critic network获得估计的值函数，然后根据critic network估计的值函数和batch数据中存储的每个时刻的reward按照一定的折扣率分别计算采集到的这个batch数据中每个时刻值函数，如下公式所示：

在对采集到的这个batch数据学习时，用到旧的演员网络。将获得这个batch数据的新演员网络中的参数复制给旧演员网络，然后开始进行新演员网络和评价网络的学习。首先将这个batch数据存储的无人艇的速度和角度状态输入给评价网络，评价网络输出估计值函数，然后再计算出目标值函数，最后就可以计算出优势函数(TD error)，之后就利用batch数据的TD error对新演员网络的参数进行N次优化，其中的loss如下式所示：

在训练过程结束后，观察无人艇位姿控制结果，并将学习步长，观测空间，动作空间，训练策略以及训练完成的神经网络保存，作为无人艇下一次调用。

同时为了使训练效果更接近实际，训练次数更少，在无人艇运行的环境中加入延迟环节，并在神经网络中对加入的延迟进行预处理得到处理后的状态然后通过PPO2算法进行无人艇的训练。为解决算法带来的值函数低估问题在PPO2算法中加入最大熵修正算法，用状态值函数和策略函数设计一种状态动作值函数的估计，使用构造的状态动作值函数通过贝尔曼最优方程构造新的目标函数。新的目标函数以提高算法的期望回报和算法的收敛速度。而加入最大熵优化算法相较于原目标函数多了一项修正项。使用该修正项能够在保证策略探索性的同时弥补最大熵带来的低估，提高算法的学习效率。

Claims

1.一种基于强化学习PPO2算法的无人艇位姿控制方法，其特征在于，包括以下步骤：

S1、无人艇的环境建模：

S4、设计深度神经网络架构：

S5、基于PPO2算法的控制器训练：

2.根据权利要求1所述的一种基于强化学习PPO2算法的无人艇位姿控制方法，其特征在于，在步骤S3中，由于训练的目标是使无人艇能够朝向目标点运动，无人艇与目标点之间距离越小，获得的奖励越高，为使无人艇在目标跟踪过程中平稳追踪目标，将无人艇的速度也作为奖励函数设计的一部分，设计针对无人艇目标跟踪问题强化学习算法中使用的奖励函数为：

r＝-angle_normalize(x)-0.1r²-0.001(f1+f2)²-(u-0.5)²-0.0001a_u ²

3.根据权利要求1所述的一种基于强化学习PPO2算法的无人艇位姿控制方法，其特征在于，在步骤S4中，所述的Actor网络包括三层结构，每层结构有若干结点；根据控制器的要求设计各层节点输入层2个结点，分别为航向角和速度v，隐藏层64个结点，输出层2个结点，分别为左电机控制率u_l(t)和右电机控制率u_r(t)，在得到u(t)后需要进行转化才能得到转速量化值，进而得到电机转速；Critic网络和Actor网络的结构的隐藏层相同，输入层4个结点分别为航向角速度、左电机控制率u_l(t)和右电机控制率u_r(t)，且航向角和速度需要分别除以45°和v_max进行归一化后输入神经网络，输出层的一个结点为值函数的估计V(t)，用于评价动作的好坏；当Actor网络和Critic网络训练达到最大更新次数或误差小于设定值时，权值更新停止。

4.根据权利要求1或3所述的一种基于强化学习PPO2算法的无人艇位姿控制方法，其特征在于，所述的Actor网络的最大更新次数设为200，误差阈值设为0.005。

5.根据权利要求1或3所述的一种基于强化学习PPO2算法的无人艇位姿控制方法，其特征在于，所述的Critic网络的最大更新次数设为100，误差阈值设为0.05。

6.根据权利要求1所述的一种基于强化学习PPO2算法的无人艇位姿控制方法，其特征在于，在步骤S5中：在环境中加入风速干扰，通过引入积分补偿器保证干扰条件下的系统稳定。

7.根据权利要求1所述的一种基于强化学习PPO2算法的无人艇位姿控制方法，其特征在于，在步骤S5中：在基本PPO2算法中加入最大熵修正算法，从而在保证策略探索性的同时弥补最大熵带来的低估，提高算法的学习效率。