CN111026157B

CN111026157B - 一种基于奖励重塑强化学习的飞行器智能引导方法

Info

Publication number: CN111026157B
Application number: CN201911307975.8A
Authority: CN
Inventors: 李辉; 王壮; 陈希亮; 吴昭欣; 吴昊霖
Original assignee: Sichuan University
Current assignee: Sichuan University
Priority date: 2019-12-18
Filing date: 2019-12-18
Publication date: 2020-07-28
Anticipated expiration: 2039-12-18
Also published as: CN111026157A

Abstract

本发明公开了一种基于奖励重塑强化学习的飞行器智能引导方法，包括下述步骤：首先设置使用空域范围，以及飞行器和目的地的动态模型；然后，构建深度强化学习智能体，并重塑奖励函数，包括终止条件奖励、引导平滑性奖励、飞行器姿态奖励；之后，在训练模式下，设置飞行器初始姿态，目的地初始位置、朝向，并使用强化学习方法训练引导智能体；最后，在应用模式下，使用训练完成的引导智能体，引导飞行器沿着特定方向到达移动的目的地。本发明的方法可以应用在现有飞行器指挥引导系统中，采用预先规划或实时指挥的方式，引导飞行器从任意姿态开始，沿着特定方向到达移动目的地。

Description

一种基于奖励重塑强化学习的飞行器智能引导方法

技术领域

本发明涉及飞行器指挥引导领域，特别涉及一种基于奖励重塑强化学习的飞行器智能引导方法。

背景技术

在诸多飞行任务中，需要引导飞行器沿着特定方向到达移动目的地。如战斗机空战占位任务，需要引导飞机到达不断移动的目标后方并朝向目标；舰载机降落任务中，需要在航母航行中引导舰载机沿跑道方向到达航母；空中加油任务中，需要引导飞机到达直线航行加油机的正后方等。

现有算法对引导飞行器到达移动无朝向要求的目的地以及固定位置有朝向要求的目的地有许多研究，如引导旋转翼无人机降落到移动车辆上，引导固定翼飞机沿跑道方向到达机场。对于移动有朝向要求目的地的引导，大多采用提前规划、固定区域等待等方法实现，计算效率低，无法满足实际飞行任务中实时性的要求，仍需要进一步研究。强化学习执行效率高，使用灵活，与奖励重塑方法结合后，可用在飞行器指挥引导系统中，支持按照现有模式在飞行任务前生成引导规划，也支持实时、准确给出引导指令，对战斗机空中占位、舰载机降落、空中加油等目的地移动且有朝向要求的飞行任务具有实践意义

发明内容

本发明的目的在于克服现有技术的缺点与不足，提出一种基于奖励重塑强化学习的飞行器智能引导方法，训练飞行器引导智能体，针对移动的，具有朝向要求的目的地，预先给出引导航迹或实时给出引导指令。

为实现以上目的，本发明采取如下技术方案：

一种基于奖励重塑强化学习的飞行器智能引导方法，包括下述步骤：

(1)根据飞行任务确定使用空域范围，设置飞行器的动态模型及可移动目的地的动态模型；

(2)依据飞行器特性，构建基于深度强化学习的引导智能体，智能体的输入是飞行器姿态和目的地信息，输出是对飞行器的引导指令；

(3)根据飞行任务，从终止条件、引导平稳性、飞行器与目的地相对姿态等方面重塑强化学习奖励函数；

(4)在训练模式下，设置飞行器初始姿态，包括三维坐标、俯仰角、朝向角、速度、剩余油量，设置目的地三维坐标、速度和朝向角，设置训练终止条件；

(5)利用深度强化学习的方法，训练引导智能体深度神经网络，在每个训练步长内，根据飞行器当前姿态，生成引导指令，根据指令质量给出重塑后的奖励值，最终引导飞行器沿特定方向到达按动态模型移动的目的地；

(6)经过海量训练后，在应用模式下，根据输入的飞行器姿态和目的地信息，准确地生成引导指令，引导飞行器沿特定方向到达移动目的地。

作为优选的技术方案，步骤(1)中，目的地是移动的，具备动态模型。

作为优选的技术方案，步骤(3)中，重塑奖励函数的具体计算过程如下：

R(s_t，a_t，s_t+1)＝T(s_t+1)+C(a_t)+F(s_t，a_t，s_t+1)

其中，s_t为t时刻的强化学习状态，a_t为t时刻的引导指令，s_t+1为t+1时刻的强化学习状态，R(s_t，a_t，s_t+1)是重塑后的奖励函数，T(s_t+1)是终止条件奖励函数，C(a_t)是引导平滑性奖励函数，F(s_t，a_t，s_t+1)是飞行器姿态重塑奖励函数；如果引导成功，终止条件奖励为正奖励，否则为负奖励；如果引导指令变化，平滑性奖励为负奖励，否则为非负奖励；飞行器姿态重塑奖励计算公式如下：

F(s_t，a_t，a_t+1)＝φ(s_t+1)-φ(s_t)

其中，φ(s_t)是关于飞行器在t时刻状态的函数，其计算公式如下：

φ(s_t)＝aD(s_t)+bO(s_t)+cH(s_t)

其中，D(s_t)为水平距离评价函数，O(s_t)为朝向评价函数，H(s_t)为高度评价函数，a，b，c为权重。

作为优选的技术方案，步骤(4)中，目的地初始信息不仅包含三维坐标信息，还包括朝向信息，目的地在训练中依据其动态模型，位置和朝向不断变化，智能体引导飞行器沿特定方向到达移动目的地。

作为优选的技术方案，步骤(6)中，对于计划模式，在飞行任务开始时，根据飞行器初始姿态，生成一系列引导指令进行开环控制；对于实时模式，在飞行器飞行过程中，实时生成引导指令，进行闭环控制。

本发明相对于现有技术具有如下的优点和效果：

(1)本发明与传统方法相比，采用基于强化学习的人工智能技术，计算效率更高，能在10ms之内生成一条引导指令。

(2)本发明采用奖励重塑的方法，设计终止条件奖励、引导平滑性奖励和飞行器与目的地相对姿态奖励，提高智能体训练速度，更高效地生成平滑、路径短的引导指令。

(3)本发明将基于奖励重塑强化学习的飞行器智能引导方法应用在飞行器指挥引导系统中，实现引导飞行器沿着特定方向到达移动目的地，在飞行器任意姿态下生成引导指令，对战斗机空中占位、舰载机降落、空中加油等飞行任务具有实践意义。

附图说明

图1为本实施例的一种基于奖励重塑强化学习的飞行器智能引导方法的流程图；

图2为本实施例的一种基于奖励重塑强化学习的飞行器智能引导方法的深度强化学习训练架构图；

图3为本实施例的一种基于奖励重塑强化学习的飞行器智能引导方法的引导智能体训练过程奖励变化图；

图4为本实施例的一种基于奖励重塑强化学习的飞行器智能引导方法的飞行器引导实例航迹图。

具体实施方式

为了使本发明的目的、技术方案以及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步的详细说明。应当理解，此处所描述的具体实施例仅用于解释本发明，并不用于限定本发明。

在本实施例中，在三维有界空域内，引导飞行器飞行，一种基于奖励重塑强化学习的飞行器智能引导方法，实现在目的地具有方向属性且直线移动的场景下，飞机沿着特定方向到达移动目的地；如图1所示，该方法包括下述步骤：

在本实施例中，空域范围是水平面横坐标x∈[-10km，10km]，水平面纵坐标

高度h∈[0，10km]；飞机动态模型如下：

其中，(x^a，y^a，h^a)为飞行器三维坐标，

为飞行器在水平面横坐标、水平面纵坐标、高度的变化率，γ^a为飞行器俯仰角，ψ^a为飞行器朝向角，υ^a为飞行器速度；目的地动态模型如下：

其中，(x^d，y^d)为目的地水平面内坐标，目的地高度h_d固定，

为目的地在水平面横坐标、水平面纵坐标的变化率，ψ^d为目的地朝向角，v^d为目的地移动速度。

在本实施例中，智能体的输入空间是高维连续的，可同时引导无人飞行器和有人飞行器，训练架构如图2所示；

在本实施例中，智能体输入的状态内容是飞行器的三维坐标、朝向角、速度、剩余油量，以及目的地的三维坐标、朝向角，输出的对飞行器的引导指令集是直飞、左转、右转、爬升、俯冲、保持当前指令不变。

(3)根据飞行任务，从终止条件、引导平稳性、飞行器与目的地相对姿态等方面重塑强化学习奖励函数，重塑奖励函数的具体计算过程如下：

R(s_t，a_t，s_t+1)＝T(s_t+1)+C(a_t)+F(s_t，a_t，s_t+1)

F(s_t，a_t，a_t+1)＝φ(s_t+1)-φ(s_t)

φ(s_t)＝aD(s_t)+bO(s_t)+cH(s_t)

其中，D(s_t)为水平距离评价函数，O(s_t)为朝向评价函数，H(s_t)为高度评价函数，a，b，c为权重；

在本实施例中，引导成功时终止条件奖励值为20，飞行器飞出空域时终止奖励为-20，飞机剩余油量降为0时终止奖励为-10；

在本实施例中，每个步长内飞行器引导指令维持不变时引导平滑性奖励值为-0.01，飞行器引导指令发生变化使引导平滑性奖励值为-0.1

在本实施例中，水平距离评价函数D(s_t)，朝向评价函数O(s_t)，高度评价函数H(s_t)计算公式如下：

其中，

为飞行器姿态，分别代表t时刻水平面横坐标、水平面纵坐标、高度、朝向角，

为目的地姿态，分别代表t时刻水平面横坐标、水平面纵坐标、高度、朝向角，权重a，b，c的值分别为0.0001、0.5、0.1。

(4)在训练模式下，设置飞行器初始姿态，包括三维坐标、俯仰角、朝向角、速度、剩余油量，设置目的地三维坐标、速度和朝向角，设置训练终止条件，目的地初始信息不仅包含三维坐标信息，还包括朝向信息，目的地在训练中依据其动态模型，位置和朝向不断变化，智能体引导飞行器沿特定方向到达移动目的地；

在本实施例中，训练模式下的飞行器初始姿态随机，目的地高度为0，位于水平面坐标原点，朝向为y轴正向。

在本实施例中，采用近端策略优化深度强化学习方法(PP0)训练引导智能体，引导智能体在飞行器引导训练环境中不断自学习；

在本实施例中，引导智能体训练过程中，所获奖励不断提升，如图3所示，随着训练的进行，智能体所获得的奖励值不断提升。

(6)经过海量训练后，智能体具备了引导能力，在应用模式下，根据输入的飞行器姿态和目的地信息，准确地生成引导指令，引导飞行器沿特定方向到达移动目的地；

在本实施例中，如图4所示，训练完成的引导智能体可生成准确的引导指令，引导飞行器沿特定方向到达移动目的地。

以上所述实施例仅表达了本发明的一种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以权利要求所述为准。

Claims

1.一种基于奖励重塑强化学习的飞行器智能引导方法，其特征在于，包括以下步骤：

(3)根据飞行任务，从终止条件、引导平稳性、飞行器与目的地相对姿态三个方面重塑强化学习奖励函数，重塑奖励函数的具体计算过程如下：

R(s_t，a_t，s_t+1)＝T(s_t+1)+C(a_t)+F(s_t，a_t，s_t+1)

其中，s_t为t时刻的强化学习状态，a_t为t时刻的引导指令，s_t+1为t+1时刻的强化学习状态，R(s_t，a_t，s_t+1)是重塑后的奖励函数，T(s_t+1)是终止条件奖励函数，C(a_t)是引导平滑性奖励函数，F(s_t，a_t，s_t+1)是飞行器姿态重塑奖励函数，如果引导成功，终止条件奖励为正奖励，否则为负奖励；如果引导指令变化，平滑性奖励为负奖励，否则为非负奖励，飞行器姿态重塑奖励计算公式如下：

F(s_t，a_t，s_t+1)＝φ(s_t+1)-φ(s_t)

φ(s_t)＝aD(s_t)+bO(s_t)+cH(s_t)

2.根据权利要求1所述的基于奖励重塑强化学习的飞行器智能引导方法，其特征在于，步骤(1)中，目的地是移动的，具备动态模型。

3.根据权利要求1所述的基于奖励重塑强化学习的飞行器智能引导方法，其特征在于，步骤(4)中，目的地初始信息不仅包含三维坐标信息，还包括朝向信息，目的地在训练中依据其动态模型，位置和朝向不断变化，智能体引导飞行器沿特定方向到达移动目的地。

4.根据权利要求1所述的基于奖励重塑强化学习的飞行器智能引导方法，其特征在于，步骤(6)中，对于计划模式，在飞行任务开始时，根据飞行器初始姿态，生成一系列引导指令进行开环控制；对于实时模式，在飞行器飞行过程中，实时生成引导指令，进行闭环控制。