CN111026157B - 一种基于奖励重塑强化学习的飞行器智能引导方法 - Google Patents
一种基于奖励重塑强化学习的飞行器智能引导方法 Download PDFInfo
- Publication number
- CN111026157B CN111026157B CN201911307975.8A CN201911307975A CN111026157B CN 111026157 B CN111026157 B CN 111026157B CN 201911307975 A CN201911307975 A CN 201911307975A CN 111026157 B CN111026157 B CN 111026157B
- Authority
- CN
- China
- Prior art keywords
- aircraft
- reward
- destination
- guidance
- reinforcement learning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/10—Simultaneous control of position or course in three dimensions
- G05D1/101—Simultaneous control of position or course in three dimensions specially adapted for aircraft
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/0088—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots characterized by the autonomous decision making process, e.g. artificial intelligence, predefined behaviours
Landscapes
- Engineering & Computer Science (AREA)
- Aviation & Aerospace Engineering (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Automation & Control Theory (AREA)
- Business, Economics & Management (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Game Theory and Decision Science (AREA)
- Medical Informatics (AREA)
- Traffic Control Systems (AREA)
Abstract
本发明公开了一种基于奖励重塑强化学习的飞行器智能引导方法,包括下述步骤:首先设置使用空域范围,以及飞行器和目的地的动态模型;然后,构建深度强化学习智能体,并重塑奖励函数,包括终止条件奖励、引导平滑性奖励、飞行器姿态奖励;之后,在训练模式下,设置飞行器初始姿态,目的地初始位置、朝向,并使用强化学习方法训练引导智能体;最后,在应用模式下,使用训练完成的引导智能体,引导飞行器沿着特定方向到达移动的目的地。本发明的方法可以应用在现有飞行器指挥引导系统中,采用预先规划或实时指挥的方式,引导飞行器从任意姿态开始,沿着特定方向到达移动目的地。
Description
技术领域
本发明涉及飞行器指挥引导领域,特别涉及一种基于奖励重塑强化学习的飞行器智能引导方法。
背景技术
在诸多飞行任务中,需要引导飞行器沿着特定方向到达移动目的地。如战斗机空战占位任务,需要引导飞机到达不断移动的目标后方并朝向目标;舰载机降落任务中,需要在航母航行中引导舰载机沿跑道方向到达航母;空中加油任务中,需要引导飞机到达直线航行加油机的正后方等。
现有算法对引导飞行器到达移动无朝向要求的目的地以及固定位置有朝向要求的目的地有许多研究,如引导旋转翼无人机降落到移动车辆上,引导固定翼飞机沿跑道方向到达机场。对于移动有朝向要求目的地的引导,大多采用提前规划、固定区域等待等方法实现,计算效率低,无法满足实际飞行任务中实时性的要求,仍需要进一步研究。强化学习执行效率高,使用灵活,与奖励重塑方法结合后,可用在飞行器指挥引导系统中,支持按照现有模式在飞行任务前生成引导规划,也支持实时、准确给出引导指令,对战斗机空中占位、舰载机降落、空中加油等目的地移动且有朝向要求的飞行任务具有实践意义
发明内容
本发明的目的在于克服现有技术的缺点与不足,提出一种基于奖励重塑强化学习的飞行器智能引导方法,训练飞行器引导智能体,针对移动的,具有朝向要求的目的地,预先给出引导航迹或实时给出引导指令。
为实现以上目的,本发明采取如下技术方案:
一种基于奖励重塑强化学习的飞行器智能引导方法,包括下述步骤:
(1)根据飞行任务确定使用空域范围,设置飞行器的动态模型及可移动目的地的动态模型;
(2)依据飞行器特性,构建基于深度强化学习的引导智能体,智能体的输入是飞行器姿态和目的地信息,输出是对飞行器的引导指令;
(3)根据飞行任务,从终止条件、引导平稳性、飞行器与目的地相对姿态等方面重塑强化学习奖励函数;
(4)在训练模式下,设置飞行器初始姿态,包括三维坐标、俯仰角、朝向角、速度、剩余油量,设置目的地三维坐标、速度和朝向角,设置训练终止条件;
(5)利用深度强化学习的方法,训练引导智能体深度神经网络,在每个训练步长内,根据飞行器当前姿态,生成引导指令,根据指令质量给出重塑后的奖励值,最终引导飞行器沿特定方向到达按动态模型移动的目的地;
(6)经过海量训练后,在应用模式下,根据输入的飞行器姿态和目的地信息,准确地生成引导指令,引导飞行器沿特定方向到达移动目的地。
作为优选的技术方案,步骤(1)中,目的地是移动的,具备动态模型。
作为优选的技术方案,步骤(3)中,重塑奖励函数的具体计算过程如下:
R(st,at,st+1)=T(st+1)+C(at)+F(st,at,st+1)
其中,st为t时刻的强化学习状态,at为t时刻的引导指令,st+1为t+1时刻的强化学习状态,R(st,at,st+1)是重塑后的奖励函数,T(st+1)是终止条件奖励函数,C(at)是引导平滑性奖励函数,F(st,at,st+1)是飞行器姿态重塑奖励函数;如果引导成功,终止条件奖励为正奖励,否则为负奖励;如果引导指令变化,平滑性奖励为负奖励,否则为非负奖励;飞行器姿态重塑奖励计算公式如下:
F(st,at,at+1)=φ(st+1)-φ(st)
其中,φ(st)是关于飞行器在t时刻状态的函数,其计算公式如下:
φ(st)=aD(st)+bO(st)+cH(st)
其中,D(st)为水平距离评价函数,O(st)为朝向评价函数,H(st)为高度评价函数,a,b,c为权重。
作为优选的技术方案,步骤(4)中,目的地初始信息不仅包含三维坐标信息,还包括朝向信息,目的地在训练中依据其动态模型,位置和朝向不断变化,智能体引导飞行器沿特定方向到达移动目的地。
作为优选的技术方案,步骤(6)中,对于计划模式,在飞行任务开始时,根据飞行器初始姿态,生成一系列引导指令进行开环控制;对于实时模式,在飞行器飞行过程中,实时生成引导指令,进行闭环控制。
本发明相对于现有技术具有如下的优点和效果:
(1)本发明与传统方法相比,采用基于强化学习的人工智能技术,计算效率更高,能在10ms之内生成一条引导指令。
(2)本发明采用奖励重塑的方法,设计终止条件奖励、引导平滑性奖励和飞行器与目的地相对姿态奖励,提高智能体训练速度,更高效地生成平滑、路径短的引导指令。
(3)本发明将基于奖励重塑强化学习的飞行器智能引导方法应用在飞行器指挥引导系统中,实现引导飞行器沿着特定方向到达移动目的地,在飞行器任意姿态下生成引导指令,对战斗机空中占位、舰载机降落、空中加油等飞行任务具有实践意义。
附图说明
图1为本实施例的一种基于奖励重塑强化学习的飞行器智能引导方法的流程图;
图2为本实施例的一种基于奖励重塑强化学习的飞行器智能引导方法的深度强化学习训练架构图;
图3为本实施例的一种基于奖励重塑强化学习的飞行器智能引导方法的引导智能体训练过程奖励变化图;
图4为本实施例的一种基于奖励重塑强化学习的飞行器智能引导方法的飞行器引导实例航迹图。
具体实施方式
为了使本发明的目的、技术方案以及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步的详细说明。应当理解,此处所描述的具体实施例仅用于解释本发明,并不用于限定本发明。
在本实施例中,在三维有界空域内,引导飞行器飞行,一种基于奖励重塑强化学习的飞行器智能引导方法,实现在目的地具有方向属性且直线移动的场景下,飞机沿着特定方向到达移动目的地;如图1所示,该方法包括下述步骤:
(1)根据飞行任务确定使用空域范围,设置飞行器的动态模型及可移动目的地的动态模型;
(2)依据飞行器特性,构建基于深度强化学习的引导智能体,智能体的输入是飞行器姿态和目的地信息,输出是对飞行器的引导指令;
在本实施例中,智能体的输入空间是高维连续的,可同时引导无人飞行器和有人飞行器,训练架构如图2所示;
在本实施例中,智能体输入的状态内容是飞行器的三维坐标、朝向角、速度、剩余油量,以及目的地的三维坐标、朝向角,输出的对飞行器的引导指令集是直飞、左转、右转、爬升、俯冲、保持当前指令不变。
(3)根据飞行任务,从终止条件、引导平稳性、飞行器与目的地相对姿态等方面重塑强化学习奖励函数,重塑奖励函数的具体计算过程如下:
R(st,at,st+1)=T(st+1)+C(at)+F(st,at,st+1)
其中,st为t时刻的强化学习状态,at为t时刻的引导指令,st+1为t+1时刻的强化学习状态,R(st,at,st+1)是重塑后的奖励函数,T(st+1)是终止条件奖励函数,C(at)是引导平滑性奖励函数,F(st,at,st+1)是飞行器姿态重塑奖励函数;如果引导成功,终止条件奖励为正奖励,否则为负奖励;如果引导指令变化,平滑性奖励为负奖励,否则为非负奖励;飞行器姿态重塑奖励计算公式如下:
F(st,at,at+1)=φ(st+1)-φ(st)
其中,φ(st)是关于飞行器在t时刻状态的函数,其计算公式如下:
φ(st)=aD(st)+bO(st)+cH(st)
其中,D(st)为水平距离评价函数,O(st)为朝向评价函数,H(st)为高度评价函数,a,b,c为权重;
在本实施例中,引导成功时终止条件奖励值为20,飞行器飞出空域时终止奖励为-20,飞机剩余油量降为0时终止奖励为-10;
在本实施例中,每个步长内飞行器引导指令维持不变时引导平滑性奖励值为-0.01,飞行器引导指令发生变化使引导平滑性奖励值为-0.1
在本实施例中,水平距离评价函数D(st),朝向评价函数O(st),高度评价函数H(st)计算公式如下:
其中,为飞行器姿态,分别代表t时刻水平面横坐标、水平面纵坐标、高度、朝向角,为目的地姿态,分别代表t时刻水平面横坐标、水平面纵坐标、高度、朝向角,权重a,b,c的值分别为0.0001、0.5、0.1。
(4)在训练模式下,设置飞行器初始姿态,包括三维坐标、俯仰角、朝向角、速度、剩余油量,设置目的地三维坐标、速度和朝向角,设置训练终止条件,目的地初始信息不仅包含三维坐标信息,还包括朝向信息,目的地在训练中依据其动态模型,位置和朝向不断变化,智能体引导飞行器沿特定方向到达移动目的地;
在本实施例中,训练模式下的飞行器初始姿态随机,目的地高度为0,位于水平面坐标原点,朝向为y轴正向。
(5)利用深度强化学习的方法,训练引导智能体深度神经网络,在每个训练步长内,根据飞行器当前姿态,生成引导指令,根据指令质量给出重塑后的奖励值,最终引导飞行器沿特定方向到达按动态模型移动的目的地;
在本实施例中,采用近端策略优化深度强化学习方法(PP0)训练引导智能体,引导智能体在飞行器引导训练环境中不断自学习;
在本实施例中,引导智能体训练过程中,所获奖励不断提升,如图3所示,随着训练的进行,智能体所获得的奖励值不断提升。
(6)经过海量训练后,智能体具备了引导能力,在应用模式下,根据输入的飞行器姿态和目的地信息,准确地生成引导指令,引导飞行器沿特定方向到达移动目的地;
在本实施例中,如图4所示,训练完成的引导智能体可生成准确的引导指令,引导飞行器沿特定方向到达移动目的地。
以上所述实施例仅表达了本发明的一种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以权利要求所述为准。
Claims (4)
1.一种基于奖励重塑强化学习的飞行器智能引导方法,其特征在于,包括以下步骤:
(1)根据飞行任务确定使用空域范围,设置飞行器的动态模型及可移动目的地的动态模型;
(2)依据飞行器特性,构建基于深度强化学习的引导智能体,智能体的输入是飞行器姿态和目的地信息,输出是对飞行器的引导指令;
(3)根据飞行任务,从终止条件、引导平稳性、飞行器与目的地相对姿态三个方面重塑强化学习奖励函数,重塑奖励函数的具体计算过程如下:
R(st,at,st+1)=T(st+1)+C(at)+F(st,at,st+1)
其中,st为t时刻的强化学习状态,at为t时刻的引导指令,st+1为t+1时刻的强化学习状态,R(st,at,st+1)是重塑后的奖励函数,T(st+1)是终止条件奖励函数,C(at)是引导平滑性奖励函数,F(st,at,st+1)是飞行器姿态重塑奖励函数,如果引导成功,终止条件奖励为正奖励,否则为负奖励;如果引导指令变化,平滑性奖励为负奖励,否则为非负奖励,飞行器姿态重塑奖励计算公式如下:
F(st,at,st+1)=φ(st+1)-φ(st)
其中,φ(st)是关于飞行器在t时刻状态的函数,其计算公式如下:
φ(st)=aD(st)+bO(st)+cH(st)
其中,D(st)为水平距离评价函数,O(st)为朝向评价函数,H(st)为高度评价函数,a,b,c为权重;
(4)在训练模式下,设置飞行器初始姿态,包括三维坐标、俯仰角、朝向角、速度、剩余油量,设置目的地三维坐标、速度和朝向角,设置训练终止条件;
(5)利用深度强化学习的方法,训练引导智能体深度神经网络,在每个训练步长内,根据飞行器当前姿态,生成引导指令,根据指令质量给出重塑后的奖励值,最终引导飞行器沿特定方向到达按动态模型移动的目的地;
(6)经过海量训练后,在应用模式下,根据输入的飞行器姿态和目的地信息,准确地生成引导指令,引导飞行器沿特定方向到达移动目的地。
2.根据权利要求1所述的基于奖励重塑强化学习的飞行器智能引导方法,其特征在于,步骤(1)中,目的地是移动的,具备动态模型。
3.根据权利要求1所述的基于奖励重塑强化学习的飞行器智能引导方法,其特征在于,步骤(4)中,目的地初始信息不仅包含三维坐标信息,还包括朝向信息,目的地在训练中依据其动态模型,位置和朝向不断变化,智能体引导飞行器沿特定方向到达移动目的地。
4.根据权利要求1所述的基于奖励重塑强化学习的飞行器智能引导方法,其特征在于,步骤(6)中,对于计划模式,在飞行任务开始时,根据飞行器初始姿态,生成一系列引导指令进行开环控制;对于实时模式,在飞行器飞行过程中,实时生成引导指令,进行闭环控制。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN201911307975.8A CN111026157B (zh) | 2019-12-18 | 2019-12-18 | 一种基于奖励重塑强化学习的飞行器智能引导方法 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN201911307975.8A CN111026157B (zh) | 2019-12-18 | 2019-12-18 | 一种基于奖励重塑强化学习的飞行器智能引导方法 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| CN111026157A CN111026157A (zh) | 2020-04-17 |
| CN111026157B true CN111026157B (zh) | 2020-07-28 |
Family
ID=70209506
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| CN201911307975.8A Expired - Fee Related CN111026157B (zh) | 2019-12-18 | 2019-12-18 | 一种基于奖励重塑强化学习的飞行器智能引导方法 |
Country Status (1)
| Country | Link |
|---|---|
| CN (1) | CN111026157B (zh) |
Families Citing this family (11)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP6950117B1 (ja) * | 2020-04-30 | 2021-10-13 | 楽天グループ株式会社 | 学習装置、情報処理装置、及び学習済の制御モデル |
| CN111596677B (zh) * | 2020-05-07 | 2021-11-30 | 北京航空航天大学 | 一种基于在线学习的航天器临近操作自主控制方法及系统 |
| CN111882047B (zh) * | 2020-09-28 | 2021-01-15 | 四川大学 | 一种基于强化学习与线性规划的快速空管防冲突方法 |
| CN111898770B (zh) * | 2020-09-29 | 2021-01-15 | 四川大学 | 一种多智能体强化学习方法、电子设备及存储介质 |
| CN112486192B (zh) * | 2020-11-18 | 2022-04-08 | 四川大学 | 一种基于目的地运动预测的飞行器引导迁移学习训练算法 |
| CN112896485B (zh) * | 2021-02-24 | 2023-04-28 | 河南大学 | 一种流线型机身的两轴倾斜翼飞行器及控制方法 |
| CN114237267B (zh) * | 2021-11-02 | 2023-11-24 | 中国人民解放军海军航空大学航空作战勤务学院 | 基于强化学习的飞行机动决策的辅助方法 |
| CN114526738B (zh) * | 2022-01-25 | 2023-06-16 | 中国科学院深圳先进技术研究院 | 一种基于深度强化学习的移动机器人视觉导航方法及装置 |
| CN116301030B (zh) * | 2022-12-01 | 2025-03-11 | 西南科技大学 | 一种水空多旋翼飞行器控制方法及其系统 |
| CN119882418B (zh) * | 2024-12-06 | 2025-11-28 | 中国航空工业集团公司沈阳飞机设计研究所 | 一种适应多任务场景的引导控制方法 |
| CN119717870B (zh) * | 2024-12-13 | 2025-08-01 | 天津大学 | 基于可解释强化学习的飞行器姿态控制方法 |
Family Cites Families (7)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2019211969A (ja) * | 2018-06-04 | 2019-12-12 | オリンパス株式会社 | 学習管理装置、学習管理サーバ、および学習管理方法 |
| CN110136481B (zh) * | 2018-09-20 | 2021-02-02 | 初速度(苏州)科技有限公司 | 一种基于深度强化学习的停车策略 |
| CN109669452A (zh) * | 2018-11-02 | 2019-04-23 | 北京物资学院 | 一种基于并行强化学习的云机器人任务调度方法和系统 |
| CN109655066B (zh) * | 2019-01-25 | 2022-05-17 | 南京邮电大学 | 一种基于Q(λ)算法的无人机路径规划方法 |
| CN110413000B (zh) * | 2019-05-28 | 2020-10-13 | 北京航空航天大学 | 一种基于深度学习的高超声速飞行器再入预测校正容错制导方法 |
| CN110488859B (zh) * | 2019-07-15 | 2020-08-21 | 北京航空航天大学 | 一种基于改进Q-learning算法的无人机航路规划方法 |
| CN110471444B (zh) * | 2019-08-19 | 2022-07-12 | 西安微电子技术研究所 | 基于自主学习的无人机智能避障方法 |
-
2019
- 2019-12-18 CN CN201911307975.8A patent/CN111026157B/zh not_active Expired - Fee Related
Also Published As
| Publication number | Publication date |
|---|---|
| CN111026157A (zh) | 2020-04-17 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CN111026157B (zh) | 一种基于奖励重塑强化学习的飞行器智能引导方法 | |
| CN109933086B (zh) | 基于深度q学习的无人机环境感知与自主避障方法 | |
| CN111258231B (zh) | 仿猛禽视觉导航的自主空中加油对接半物理系统及其方法 | |
| US7228227B2 (en) | Bezier curve flightpath guidance using moving waypoints | |
| CN111027143B (zh) | 一种基于深度强化学习的舰载机进近引导方法 | |
| EP4047314A2 (en) | Route planning among no-fly zones and terrain | |
| CN105549617B (zh) | 一种仿鸟群行为和虚拟结构的无人机编队控制方法 | |
| CN109358645B (zh) | 一种小型舰载无人机自适应绳钩回收制导航路及制导方法 | |
| WO2021244545A1 (zh) | 一种无人机制导方法、无人机及存储介质 | |
| CN100541372C (zh) | 一种无人机发动机意外停车下的自动归航控制方法 | |
| CN110825113A (zh) | 一种适用于四旋翼无人机集群飞行的队形保持方法 | |
| CN110413005A (zh) | 一种基于逆推法的多无人机协同航迹规划方法 | |
| CN111240348B (zh) | 基于运动基座的无人机降落控制方法、计算机可读存储介质及控制设备 | |
| CN114035448B (zh) | 一种基于物理域模型的无人机舰载起降半实物仿真系统 | |
| CN110262547B (zh) | 一种基于路径跟踪的圆形编队起飞方法 | |
| CN104656661B (zh) | 一种公务机下降着陆控制方法 | |
| JP2019073179A (ja) | 垂直離着陸機の誘導制御装置、垂直離着陸機、垂直離着陸機の誘導制御方法及び垂直離着陸機の誘導制御プログラム | |
| CN114661066A (zh) | 一种基于强化学习的无人机集群智能避障方法 | |
| CN115454130A (zh) | 一种基于机载视角相对定位的室内无人机编队控制方法 | |
| CN114859959A (zh) | 一种几何约束规则的单一航路虚拟长机编队方法 | |
| CN114967735B (zh) | 一种多ucav协同实时航迹规划方法 | |
| CN116257080A (zh) | 一种基于混合智能优化的无人飞行器动态路径规划方法 | |
| CN112416017B (zh) | 一种舰载无人直升机返航进场的航向引导控制方法 | |
| CN119861744A (zh) | 一种基于强化学习的无人机规避策略确定方法、装置、设备及介质 | |
| CN117170409A (zh) | 一种基于直接力控制的固定翼无人机空中回收精确对接控制方法 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| PB01 | Publication | ||
| PB01 | Publication | ||
| SE01 | Entry into force of request for substantive examination | ||
| SE01 | Entry into force of request for substantive examination | ||
| GR01 | Patent grant | ||
| GR01 | Patent grant | ||
| CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20200728 Termination date: 20201218 |
|
| CF01 | Termination of patent right due to non-payment of annual fee |