CN118502457A

CN118502457A - 轨迹规划方法、装置和自主系统

Info

Publication number: CN118502457A
Application number: CN202410522413.XA
Authority: CN
Inventors: 孟庆虎; 王建坤; 王蓬禹
Original assignee: Southern University of Science and Technology
Current assignee: Southern University of Science and Technology
Priority date: 2024-04-28
Filing date: 2024-04-28
Publication date: 2024-08-16

Abstract

本申请公开一种轨迹规划方法、装置和自主系统，该方法包括：获取自主系统中可移动主体的作业环境的第一地图；将第一地图中的障碍物信息、当前作业任务的起点信息和终点信息输入至经训练的第一模型中，得到第一地图中的启发式区域，其中启发式区域中包括当前作业任务的最优移动路径的可能性大于可能性阈值；基于启发式区域，确定可移动主体的移动轨迹。这种轨迹规划方法计算量小、内存开销也较小，即使在复杂环境下也能快速实现对可移动主体的轨迹规划，从而可以在各种场景下均可以实现快速自主作业。

Description

轨迹规划方法、装置和自主系统

技术领域

本申请属于自主系统技术领域，尤其涉及一种轨迹规划方法、装置和自主系统。

背景技术

近年来，各种自主系统正处于快速发展阶段，不断取得新的技术突破，但同时也面临着多种技术挑战。以无人机系统为例，无人机因其灵活性和多功能性，在多种复杂场景中展现出巨大的应用潜力。然而，现有技术中的无人机的轨迹规划方法较复杂，难以应对复杂环境中的快速自主飞行。

发明内容

本申请实施例提供了一种轨迹规划方法、装置和自主系统，可以在复杂环境下快速实现对可移动主体的移动轨迹的规划，从而可以实现可移动主体的快速自主作业。

本申请实施例的第一方面提供了一种轨迹规划方法，包括：

获取可移动主体的作业环境的第一地图；

将第一地图中的障碍物信息、当前作业任务的起点信息和终点信息输入至经训练的第一模型中，得到第一地图中的启发式区域，其中在启发式区域中包括当前作业任务的最优移动路径的可能性大于可能性阈值；

基于启发式区域，确定可移动主体的移动轨迹。

本申请实施例的第二方面提供了一种轨迹规划装置，包括：

获取模块，用于获取可移动主体的作业环境的第一地图；

地图模块，用于将第一地图中的障碍物信息、当前作业任务的起点信息和终点信息输入至经训练的第一模型中，得到第一地图中的启发式区域，其中启发式区域中包括当前作业任务的最优移动路径的可能性大于可能性阈值；

规划模块，用于基于启发式区域，确定可移动主体的移动轨迹。

本申请实施例的第三方面提供了一种自主系统，包括定位装置、轨迹规划装置和移动控制器，其中轨迹规划装置分别连接定位装置和移动控制器，并用于执行上述轨迹规划方法，移动控制器用于控制可移动主体移动作业，其中，可移动主体是无人机，定位装置包括视觉传感器和惯性测量单元；和/或移动控制器包括串联的内环控制器和外环控制器，内环控制器和外环控制器分别用于控制无人机的位置和姿态，以使无人机按照轨迹规划装置所确定的飞行轨迹飞行作业。

本申请实施例的第一方面提供的轨迹规划方法，首先将可移动主体的作业环境的第一地图中的障碍物信息、当前作业任务的起点信息和终点信息输入至经训练的第一模型中，快速确定出第一地图中的启发式区域。进而，基于启发式区域快速确定可移动主体的移动轨迹。这种轨迹规划方法计算量小、内存开销也较小，即使在复杂环境下也能快速实现对可移动主体的轨迹规划，从而可以在各种场景下均可以实现快速自主作业。

可以理解的是，上述第二方面和第三方面的有益效果可以参见上述第一方面中的相关描述，在此不再赘述。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一个实施例提供的轨迹规划方法的示意性流程图；

图2是本申请一个实施例提供的启发式区域样本的局部示意图；

图3是本申请另一个实施例提供的轨迹规划方法的示意性流程图；

图4是本申请一个实施例提供的轨迹规划装置的结构示意图；

图5是本申请一个实施例提供的终端设备的结构示意图；

图6是本申请一个实施例提供的自主系统的结构示意图；

图7是本申请另一个实施例提供的自主系统的结构示意图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本申请实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本申请的描述。

应当理解，当在本申请说明书和所附权利要求书中使用时，术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

另外，在本申请说明书和所附权利要求书的描述中，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

在本申请说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本申请的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此，在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例，而是意味着“一个或多个但不是所有的实施例”，除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”，除非是以其他方式另外特别强调。

本申请实施例提供一种轨迹规划方法，可用于各种合适的具有可移动主体的自主系统，包括但不限于自主机器人系统(例如，工业机器人、服务机器人、清洁机器人、无人机等)、自主车辆系统(例如自动驾驶汽车、自动驾驶船舶等)、自主航天系统(例如自主航行的卫星、探测器、火箭等)。具体地，该轨迹规划方法可以由终端设备的处理器在运行相应的计算机程序时执行，通过深度学习模型快速确定全局地图中的启发式区域，进而基于启发式区域快速确定可移动主体的移动轨迹。这种轨迹规划方法计算量小、内存开销也较小，即使在复杂环境下也能快速实现对可移动主体的轨迹规划。

该终端设备可以是可移动主体本身、也可以是(云)服务器、手机、平板电脑、可穿戴设备、增强现实(Augmented Reality，AR)/虚拟现实(Virtual Reality，VR)设备、笔记本电脑、超级移动个人计算机(Ultra-Mobile Personal Computer，UMPC)、上网本、个人数字助理(Personal Digital Assistant，PDA)等能够与可移动主体通信，以对可移动主体进行控制的计算设备。

为了简便，下文以自主系统是自主机器人系统中的无人机系统为例进行展开说明。在这种示例中，可移动主体可以是任意类型的无人机，包括但不限于多旋翼无人机(Multirotor Drone)、固定翼无人机(Fixed-wing Drone)、混合动力无人机(HybridDrone)、垂直起降和水陆两用无人机(VTOL and Amphibious Drone)、定点悬停无人机(Hovering Drone)、专业应用无人机(Specialized Drones)等。

如图1所示，本申请实施例提供的轨迹规划方法，包括如下步骤S120、步骤S140和步骤S160：

步骤S120，获取可移动主体的作业环境的第一地图。

例如，可以采用各种合适的方法获取四旋翼无人机当前作业环境的地图，作为第一地图。该第一地图可以是历史地图。换言之，当前作业环境可以是无人机的历史任务中探索过的领域环境。或者，当前作业环境也可以是无人机尚未探索过的新领域，该第一地图也可以是重新建立的地图或更新后的地图。例如，在此次作业开始后(例如，接收到用户的任务启动指令)，首先利用无人机系统的定位装置进行初步探索，并采用多种合适的建图方法生成的包含当前作业环境的地图。

第一地图可以是全局地图，也可以是局部地图，只要第一地图中包括当前作业环境的信息即可。第一地图可以是多种合适形式的地图，包括但不限于栅格地图、矢量地图或混合地图等。例如，第一地图可以是二维栅格地图或三维栅格地图。

步骤S140，将第一地图中的障碍物信息、当前作业任务的起点信息和终点信息输入至经训练的第一模型中，得到第一地图中的启发式区域，其中启发式区域中包括当前作业任务的最优移动路径的可能性大于可能性阈值。

此步骤中，由于启发式区域是根据障碍物信息、当前作业任务的起点信息和终点信息所确定的，因此启发式区域中不包括第一地图中的障碍物区域，即启发式区域避开障碍物。此外，启发式区域可以是第一地图中包括起点和终点的连通域，并且该连通域中可以包括多条连接起点和终点的可通行路径所在区域。即启发式区域可以对应多条连接起点和终点且避开障碍物的可通行路径。

在本申请实施例中，启发式区域中包括当前作业任务的最优移动路径的可能性大于可能性阈值。可能性阈值可以对应所测试的第一模型的生成样本分布与真实样本分布的相似度阈值，其可以根据实际需求进行设置。也就是说，启发式区域对应的可通行路径相较于其他的可通行路径具有优越性。优越性的评价标准可以是任意的。例如，路径越短越优越；或者，路径越平滑越优越；又或者，路径中所涉及的路径点距离障碍物越远越优越。示例性地，启发式区域对应的可通行路径可以是选定路径，选定路径的长度不大于连接起点和终点的其他可通行路径。

第一模型可以是多种合适的机器学习模型。具体地，其可以是深度学习模型，包括但不限于各种合适形式的卷积神经网络(Convolutional Neural Networks，简称CNNs)、生成对抗网络(Generative Adversarial Networks，简称GANs)、深度Q网络(DQN)、循环神经网络(RNN)等，只要经过训练之后，深度学习模型能够根据第一地图中的障碍物信息、起点信息和终点信息输出能够直接或间接表示启发式区域在第一地图中的位置相关的信息即可。例如，可以将第一地图中的障碍物信息、当前作业任务的起点信息和终点信息输入至训练好的条件生成对抗网络，输出第一地图中的启发式区域。例如，条件生成对抗网络可以输出与第一地图等大的栅格地图，栅格地图中启发式区域的标记信息与其他区域(如称作非启发式区域)的标记信息不同。

可以理解，机器学习模型能够快速学习并识别环境中的关键特征，从而可以快速得到启发式区域，这可以显著减少传统启发式搜索所需的计算量。并且，训练好的机器学习模型通常可以快速运行，因此，对于各种环境下的输入均可以实时或近实时地得到对应最优移动路径的启发式区域。此外，机器学习模型具有良好的泛化能力，能够从大量数据中学习到通用的模式，这样即使在环境改变或条件改变的情况下，依然可以得到有效的启发式区域。

步骤S160，基于启发式区域，确定可移动主体的移动轨迹。

此步骤中，可以先根据所确定的启发式区域，确定可移动主体的移动路径，然后再根据所确定的移动路径，确定匹配该移动路径的移动轨迹。例如，可以采用各种合适的路径搜索算法从启发式区域或启发式区域的扩展区域中快速确定出无人机当前任务的最优飞行路径。然后，按照所确定的最优飞行路径以及针对无人机的飞行参数的约束条件，确定出匹配该移动路径且满足各种约束条件的最优移动轨迹。这种方案的实施方式将在后文展开阐述，在此不再赘述。

当然，在一些特殊的示例中，也可以直接根据启发式区域，确定可移动主体的移动轨迹。示例性而非限制性地，可以预先训练一个端到端的深度学习模型，并利用深度学习模型确定可移动主体的移动轨迹。例如，可以将所确定的启发式区域、连同无人机的飞行参数的约束条件等信息输入至训练好的深度学习模型，输出无人机从起点至终点之间的连续状态序列，进而根据该连续状态序列确定无人机的移动轨迹。

可以理解，以无人机为例，当前无人机面临着在未知复杂环境中快速避障、路径优化和稳定控制等挑战，这要求无人机在各种场景下均能做出快速准确的运动规划和飞行决策。而现有技术中的自主系统通常采用复杂的路径规划算法通过不断地迭代优化确定可移动主体的最优移动路径，在环境复杂的场景下，这种方案需要花费较多的处理时间规划移动路径，之后还需花费大量的时间来进行轨迹规划，因此难以应对复杂环境中的快速自主飞行。

本申请实施例的上述轨迹规划方法，通过将第一地图中的障碍物信息、当前作业任务的起点信息和终点信息输入至经训练的第一模型中，能够快速且准确地确定全局地图中的启发式区域。进而基于启发式区域快速确定可移动主体的移动轨迹。由于将第一地图中的障碍物信息、起点信息和终点信息作为输入，因此，所确定的启发式区域不包括已知的危险区域或障碍物区域，而仅包含潜在的可通行区域，并可以过滤掉一些明显不适合通行的区域，从而可以减少后续的搜索空间，提高轨迹规划的效率。并且，启发式区域的确定还可以减少轨迹规划中的计算量，避免不必要的计算消耗。此外，启发式区域的确定可以帮助可移动主体避开已知的危险区域或障碍物，从而可以提高所确定的移动轨迹的安全性。并且，由于机器学习模型可以实现端到端的学习和并具有并行化能力，处理速度更快，因此实时性更高。因此，本申请实施例的轨迹规划方法计算量小、内存开销也较小、安全性也较高并且实时性更好，即使在复杂环境下也能快速实现对可移动主体的轨迹规划。

在一种实施方式中，该方法还包括步骤S111和步骤S112。步骤S111，获取作业环境的三维空间数据和可移动主体的运动数据。步骤S112，利用扩展卡尔曼滤波算法对三维空间数据和运动数据进行融合处理，以确定可移动主体的位姿数据和/或生成第一地图。

以无人机为例，无人机可以包括定位装置。该定位装置可以由多种传感器组成。例如，该定位装置可以包括视觉传感器和惯性测量单元。或者，该定位装置可以包括动作捕捉装置。

在一个示例中，可以在无人机在尚未探索的领域执行任务之前，先进行作业环境的初步探索，以初步建立第一地图。具体地，以无人机的定位装置包括视觉传感器和惯性测量单元为例，可以先控制无人机以较低的速度在当前作业环境中进行飞行探索，可以在探索过程中利用视觉传感器实时采集当前作业环境的三维空间数据，并可以利用惯性测量单元实时采集无人机的运动数据。进而，可以将带有时间戳的三维空间数据和运动数据送入扩展卡尔曼滤波器中，以利用扩展卡尔曼滤波器对这两种数据进行融合处理，并可以根据融合处理后的数据生成当前作业环境的第一地图。

在另一示例中，在无人机执行飞行任务的过程中，可以将视觉传感器和惯性测量单元实时采集到的数据送入扩展卡尔曼滤波器中进行融合处理，并可以根据融合处理后的数据实时对无人机进行位姿估计。例如，利用四旋翼无人机在已探索过的某一空间区域喷洒农药。首先可以利用上述轨迹规划方法针对该空间区域的地图确定出启发式区域，并确定出当前喷洒任务的最优飞行轨迹。然后，可以控制无人机按照该最优飞行轨迹飞行并喷洒农药。在飞行的过程中，可以将视觉传感器和惯性测量单元实时采集到的数据送入扩展卡尔曼滤波器中，以得到无人机的位姿数据，并可以根据该位姿数据精准地调控无人机的位姿，以顺利完成当前的喷洒任务。

扩展卡尔曼滤波算法是一种非线性状态估计方法。在步骤S112中，可以利用扩展卡尔曼滤波算法针对三维空间数据和运动数据进行两种不同频率信息的松/紧耦合融合。具体地，在松耦合系统中，每个传感器的数据或者说每种数据可以首先被单独处理为各自的位置估计和/或姿态估计数据。然后，可以利用卡尔曼滤波器对这些估计数据进行融合。融合的过程通常不会直接影响状态向量的地图部分。在紧耦合系统中，所有传感器的原始数据可以同时被处理和联合优化。卡尔曼滤波器的状态向量可以包含可移动主体的位置、速度、姿态以及环境地图的特征数据。此外，随着传感器所采集数据的更新，还可以通过所有传感器的数据来校正之前的状态预测。

示例性地，步骤S112还可以包括：对当前作业环境的三维空间数据和可移动主体的运动数据执行时间戳对齐处理、丢包处理、延迟处理、状态增强处理等至少一种特殊处理操作。

可以理解，自主系统通常包括多个传感器，如上述视觉传感器和惯性测量单元。每个传感器的数据流可能因为传输延迟或处理速度不同而出现时间戳不一致的问题。此步骤中，可以采用时间同步算法对当前作业环境的三维空间数据和可移动主体的运动数据执行时间戳对齐处理。首先，可以为每个传感器引入一个时间偏移量的状态变量，并可以在状态估计过程中对其进行优化。然后，通过最小化传感器数据与预测状态之间的时间偏差，动态调整各传感器数据的时间戳，确保数据在时间上的一致性，从而可以提高位姿估计和/或所确定第一地图的精度。

此外，在无线传输或处理高负载时，可能存在数据丢包和延迟的问题。此步骤中，可以采用历史信息的数据插值和外推算法，对丢失的三维空间数据和运动数据进行补充。具体地，当检测到数据丢失时，可以自动根据历史数据进行状态估计的插值或外推，以补充丢失的数据片段。此外，对于延迟的数据也可以在数据到达时进行延迟处理，例如可以根据延迟数据的时间戳与当前时间的差值调整其权重，减少数据延迟对位姿估计带来的不利影响。

此步骤中，为了应对复杂环境下的各种不确定性，还可以采用状态增强的的方法处理数据。具体可以引入额外的状态变量(如环境动态因素、传感器性能衰减等)，并可以在卡尔曼滤波过程中对这些变量进行估计和更新。这种方法可以使得系统能够更好地理解和适应环境变化，增强位姿估计的鲁棒性。

以无人机为例，无人机可以包括视觉传感器和惯性测量单元。在无人机执行任务的过程中，可以采用上述步骤S112中的方法实时对视觉传感器和惯性测量单元采集到的数据进行处理，并实时估计出无人机的实际位姿数据，例如得到无人机的三维位置(经度、纬度、高度)和三个角度(偏航角、俯仰角、滚动角)。并可以根据最优移动轨迹确定每个时刻的位姿数据的期望值(例如称作期望位姿数据)，然后可以根据无人机的实际位姿数据和期望位姿数据的差异情况，对无人机的位姿进行调控，以使无人机能够精准自主飞行并完成相应的任务。

上述方案中，采用扩展卡尔曼滤波的方法对当前作业环境的三维空间数据和可移动主体的运动数据进行融合，得到可移动主体的位姿和/或生成第一地图，可以提高位姿估计的鲁棒性和精度，保证所构建的第一地图的准确性，进而可以提高轨迹规划的精度。

在一种实施方式中，第一模型是条件生成对抗网络。步骤S140将第一地图中的障碍物信息、当前作业任务的起点信息和终点信息输入至经训练的第一模型中，得到启发式区域包括步骤S141。

步骤S141，将包含障碍物信息的环境地图和包含起点信息和终点信息的状态地图作为条件信息，连同预先获取的噪声向量输入至经训练的条件生成对抗网络中，以输出启发式区域。

条件生成对抗网络(Conditional Generative Adversarial Networks，简称CGAN)包括生成器(Generator)和判别器(Discriminator)。对于CGAN而言，通过在训练过程中加入条件变量，使得生成的数据不仅仅是随机的，而是可以被条件所引导和控制的，因此模型输出结果更符合预期。

CGAN中的生成器可以包括编码器、解码器和残差模块。编码器-解码器结构允许生成器学习输入数据的有效表征，并可以生成与真实数据分布相匹配的新样本。残差模块可以进一步增强模型的学习能力和稳定性，特别是在处理深层网络时，这种结构的生成器可以更有效地捕获和再现数据的复杂分布。示例性地，神经启发式区域可以是由离散点构成的栅格地图。CGAN中的判别器可以由解码器和注意力机制组成。判别器包含四个体积卷积层，并在末尾连接一个Sigmoid函数来输出介于0和1之间的概率值。

CGAN中的生成器则可以根据输入的条件信息构建从潜在空间到输出空间的非线性映射，从而可以控制生成并提高生成数据的质量。具体地，在本申请实施例中，针对CGAN的生成器输入的潜在空间是三维噪声向量，条件信息是包含障碍物信息的环境地图、包含起点和终点的状态地图。生成器通过卷积和链接操作对输入的各种信息进行特征提取，并生成预测的神经启发式区域(即本文中的启发式区域)。而判别器的任务是区分数据是否是真实的，以及它是否与给定的条件信息相匹配。具体地，判别器可以接受预测的启发式区域，并以环境地图或状态地图为条件，输出介于0和1之间的概率值。

上述方案中，将包含障碍物信息的环境地图和包含起点信息及终点信息的状态地图作为条件信息输入至训练好的CGAN中，并结合噪声向量来快速生成启发式区域。CGAN输出的启发式区域可以充分考虑环境中的障碍物分布，避开障碍物密集或无法通过的区域，还可以体现出从起点到终点的导向性。此外，CGAN生成启发式区域的过程常比传统的路径搜索算法更快，因此效率更高。并且，通过引入条件信息，可以更精确地控制生成数据的过程，生成符合特定条件的启发式区域。由于CGAN的判别器不仅判断数据的真实性，还判断数据是否满足条件，因此可以保证生成器生成的启发式区域质量更高，更准确。因此，这种方案可以不受环境条件的限制，在多种场景下均可以实时确定出高质量的启发式区域，进而可以提高整个轨迹规划的效率和精度。

在一种实施方式中，该方法还包括步骤S130。

步骤S130，利用环境地图样本、状态地图样本、噪声向量样本、启发式区域样本以及损失函数训练条件生成对抗网络。其中，启发式区域样本是对真实路径所在区域进行扩展后得到的，损失函数用于优化条件生成对抗网络，以使条件生成对抗网络所输出的启发式区域包含从起点至终点之间的平滑路径且避开障碍物。

在本申请实施例中，可以预先收集大量的环境地图样本、状态地图样本和对应的启发式区域样本。环境地图样本可以对应当前作业环境，也可以对应与当前作业环境完全不同的其他环境。启发式区域样本可以是对真实路径所在区域进行扩展后得到的。例如，针对每一组环境地图样本和状态地图样本，可以采用A*算法生成无碰撞、高连通性的至少一条路径，作为真实路径。然后可以采用预设的膨胀处理方法对真实路径所在区域进行膨胀处理，得到启发式区域样本。即，启发式区域样本可以是真实路径的扩展区域。如图2所示，A点所在的栅格和B点所在的栅格可以对应状态地图中的起点和终点，从A点至B点的各个黑色栅格可以是利用A*算法生成的真实路径所在区域。通过对真实路径所在区域沿预设方向(例如前后左右四个方向)进行膨胀处理，可以得到启发式区域样本(图中黑色栅格和灰色栅格所形成的区域)。

在本申请实施例中，可以采用多种合适的方法生成噪声向量样本，例如可以从标准正态分布(高斯分布)中随机采样得到噪声向量样本。可以理解，噪声向量样本的作用是引入随机性，可以使得生成器能够产生多样化的启发式区域。

在本申请实施例中，可以利用环境地图样本、状态地图样本、噪声向量样本、启发式区域样本以及损失函数对CGAN的生成器和判别器进行交替训练，即对抗性训练。首先，可以初始化生成器和判别器的网络权重。然后，可以开始训练判别器，生成器产生一批假样本(生成器所生成的启发式区域)，假样本与真实数据集中的真实样本(例如启发式区域样本，即A*生成的真实路径的扩展区域)混合在一起。判别器尝试区分这些混合的样本，哪些来自真实数据集，哪些是由生成器生成的。之后，判别器固定不动，只训练生成器。生成器的目标是生成尽可能真实的样本，以欺骗判别器。然后，交替重复对判别器和生成器的训练过程，并更新生成器和判别器的网络权重。在训练的过程中可以根据损失函数的值判断判别器和生成器是否达到预期目标。可以理解，在训练CGAN的过程中，生成器生成假的数据样本，判别器尝试区分假样本和真实样本。同时，判别器还提供了关于生成样本与条件信息匹配程度的反馈。判别器和生成器之间的对抗过程使得生成器生成的启发式区域的质量和多样性逐渐提高，最终生成器可以很快学习到生成符合特定条件的高质量数据，即具备生成符合条件信息的高质量启发式区域。

并且，在本申请实施例中，还考虑所生成启发式区域所表示路径的平滑性和安全性，设置相应的损失函数来优化对抗网络。损失函数的设置可以是任意的，只要所设置的损失函数能够保证生成器所生成的启发式区域所表示路径的平滑性和安全性即可。

上述训练对抗网络的方法可以使得训练后的对抗网络能够生成高质量且安全性和连通性均较好的启发式区域。并且，利用对真实路径所在区域进行膨胀处理后得到的启发式区域样本作为真样本训练判别器，可以使得输出的启发式区域更完整、更稳定，避免因真实路径区域占比小而对模型学习造成的不利影响，从而可以保证模型输出的结果更可靠。

在一种实施方式中，条件生成对抗网络包括生成器和判别器。损失函数包括连通性损失函数和安全性损失函数。连通性损失函数和安全性损失函数分别利用以下公式表示：

其中，L₁表示连通性损失函数，L₂表示安全性损失函数，表示期望，R表示生成器所生成的启发式区域，S表示状态地图样本，N表示噪声向量样本，ε表示环境地图样本，D()表示判别器的输出结果，G()表示生成器的输出结果。

D(R|S)表示判别器基于生成器生成的启发式区域和状态地图样本所输出的结果；G(N|ε，S)表示将状态地图样本、噪声向量样本和环境地图样本输入至生成器中后，生成器的输出结果；D(G(N|ε，S)，S)表示将状态地图样本、噪声向量样本和环境地图样本输入至生成器中，并将状态地图样本作为条件信息输入至判别器中后，判别器的输出结果。可以理解，对于连通性损失函数L₁的表达式而言，表示期望判别器识别出启发式区域中连通的部分，而则表示期望判别器识别出启发式区域中不连通的部分。类似地，对于安全性损失函数L₂的表达式而言，表示期望判别器识别出启发式区域中安全的部分，而则表示期望判别器识别出启发式区域中不安全的部分。换言之，对于这两个损失函数的表达式，加号前面的部分使得判别器被训练来更好地识别真实数据，加号后面的部分使得判别器被训练来更准确地区分生成的数据。

由此，利用上述连通性损失函数和安全性损失函数训练CGAN，可以使得CGAN可以快速生成连通性和安全性均较好的启发式区域。

在一种实施方式中，基于启发式区域，确定可移动主体的移动轨迹，包括步骤S161和步骤S162。

步骤S161，基于启发式区域，确定可移动主体的最优移动路径。其中，最优移动路径是按顺序连接各个路径点形成的路径，各个路径点包括起点、终点和位于起点和终点之间的至少一个中间点。

可以采用多种合适的方法确定可移动主体的最优移动路径。例如，可以将CGAN所输出的针对无人机当前作业任务的启发式区域作为输入数据，利用诸如如A*算法、Dijkstra算法或快速随机树(RRT)等路径搜索算法来探索从起点至终点之间的可能的飞行路径。还可以预先定义一个评估和选择最优飞行路径的成本函数。具体可以根据路径长度、威胁成本、飞行高度、平滑性和燃料消耗等因素设置成本函数。进而，可以至少根据上述成本函数，确定出例如满足最短路径、最快时间、最小能耗或最高安全性等条件的飞行路径，最为最优飞行路径。

具体地，此步骤中所确定的最优移动路径可以各个路径点的三维坐标序列表示。例如，最优移动路径中的各个路径点依次为g1，g2，……，gn，其中g1和gn分别表示起点和终点，g₂～g_n-1则表示各个中间点。

步骤S162，根据最优移动路径，确定可移动主体的移动轨迹。

以无人机为例，可以理解，步骤S161中所确定的最优移动路径可能是折线形式的(例如g₁～g_n的各个路径点通过直线连接)，因此在步骤S162中可以通过轨迹平滑技术将最优移动路径转换为连续的移动轨迹。此外，还需要对轨迹进行动力学优化，以满足无人机的飞行性能限制。在轨迹优化过程中，可能需要考虑多个目标，如轨迹长度、平滑性、安全性、动力学特性和飞行时间等。可以采用多种合适的求解方法求解最优移动轨迹。例如，可以通过建立加权目标函数并使用诸如梯度下降法等的优化算法，来求解最优移动轨迹。或者，也可以采用最优性充要条件的方法快速求解最优移动轨迹。可以理解，最优路径考虑了距离最短、时间最快或成本最低等因素，可以减少无人机的飞行时间和能耗，提高整体飞行效率。对于动态变化的环境，先确定路径可以快速响应环境变化，然后在轨迹生成阶段进行必要的调整，以适应这些变化。此外，通过启发式区域的指导，路径规划可以更加可控，可以根据不同任务的具体要求，如监控、巡检等，定制化地生成路径。并且路径确定通常涉及的计算量较小，可以快速完成。而轨迹优化则需要更复杂的计算，分步进行可以显著提高计算效率。此外，即使在轨迹生成阶段出现问题，已有的最优路径也可以作为备用方案，保证整个轨迹规划过程的鲁棒性。

上述方案中，在确定启发式区域之后，先根据启发式区域快速确定出最优移动路径，进而确定出最优移动轨迹。通过这种分步策略，将轨迹规划问题分解为路径确定和轨迹生成两个步骤，可以简化问题复杂度，提高规划效率。可以更有效地解决无人机路径规划问题，生成既安全又高效的飞行轨迹。

在一种实施方式中，步骤S161基于启发式区域，确定可移动主体的最优移动路径，包括步骤S161.1和步骤S161.2。

步骤S161.1，以第一概率从启发式区域中采样，并以第二概率从非启发式区域中进行采样以通过路径搜索确定初始移动路径，其中第一概率大于第二概率，非启发式区域是第一地图中除启发式区域之外的区域。

可以采用多种合适的全局路径搜索算法实现此步骤，包括但不限于各种快速探索随机树(RRT)以及基于生物启发的算法(例如，粒子群优化算法和遗传算法)等。

示例性地，第一概率和第二概率的和可以等于1。第一概率和第二概率具体可以根据实际需求进行任意设置。例如，第一概率可以等于0.8，第二概率可以等于0.2。即可以在找到最优移动路径的初始解之前，基于采样的方法以较大的概率在启发式区域内进行采样。可以理解，由于启发式区域是最优移动路径可能存在的区域，因此启发式区域更有可能包含最优或近似最优解。在启发式区域内进行集中采样可以快速找到可行的初始解，从而快速找到从起点至终点之间的最优移动路径的初始解。

步骤S161.2，基于初始移动路径，继续以第三概率从启发式区域中采样并以第四概率从非启发式区域中采样，以通过路径搜索确定可移动主体的最优移动路径，其中第三概率小于第一概率，第四概率大于第二概率。

类似地，第三概率和第四概率的和也可以等于1。第三概率和第四概率具体可以根据实际需求进行任意设置。例如，第三概率可以等于0.5，第二概率可以等于0.5。即可以在找到最优移动路径的初始解之后，增大在非启发式区域中的采样概率，既可以扩大搜索范围避免遗漏，又可以保证快速收敛到最优路径解。

上述方案中，结合启发式区域的指导和随机采样算法的全局搜索能力，提高了在复杂搜索空间中找到高质量解的概率。在搜索初期，通过增加启发式区域内的采样概率，算法能够迅速定位到那些有潜力成为初始解的区域，从而快速找到至少一个可行的路径。并且还减少了在无关区域的无效计算，从而节约了计算资源。一旦找到了初始解，算法转向全局空间的探索，有助于发现可能存在的更优解或者备选路径，从而提高整体搜索的效率。并且这种方案平衡了探索新区域与利用已知信息之间的关系，确保了算法不会过早地陷入局部最优解。根据搜索进程动态调整采样策略，使得算法能够适应环境变化或问题特性的变化。此外，这种方案还具有优化路径质量、增强鲁棒性和灵活性、实时性好的优点。

在一种实施方式中，步骤S162根据最优移动路径，确定可移动主体的移动轨迹，包括步骤S162.1和步骤S162.2。

步骤S162.1，根据最优移动路径中各个子路径的长度、预设最大速度、预设最大加速度和预设最大减速度，按照梯形时间剖面算法确定可移动主体在各个子路径移动的初始持续时间，其中子路径是相邻的两个路径点之间的路径。

此步骤中，按照梯形时间剖面算法(Trapezoidal Time Profile，简称TTP)为最优移动路径中的每个子路径分配合理的时间段，以使整个轨迹中的速度变化曲线更平滑。可以先将整个路径按照各个路径点划分为若干个连续的子路径(或称作轨迹段)。每个子路径由两个连续的路径点定义，路径点之间通过直线连接。然后可以计算每个子路径的长度。然后，根据可移动主体(如无人机)的动力学约束，确定每个子路径的最大速度(Vmax)和最大加速度(Amax)。然后对于每个子路径，设计一个梯形速度曲线，该曲线在段内以恒定最大速度飞行，并在两端平滑地加速和减速。对于每个子路径，可以根据最大加速度和减速度)、最大速度和子路径长度，计算加速和减速阶段所需的时间。并可以将每个子路径的初始持续时间可以分为四个部分：加速时间(T1)、恒速时间(T2)、减速时间(T3)和停止时间(T4)。T4可以是零，除非轨迹段结束时需要停止。利用梯形时间剖面算法考虑了平滑性、动力学约束和时间效率，因此所分配的时间更合理。

步骤S162.2，根据每个子路径的初始持续时间、预设的轨迹约束条件和最优移动路径下的多种候选移动轨迹各自对应的控制量，确定多种候选移动轨迹中的最优移动轨迹。其中，最优移动轨迹对应的控制量小于其他候选移动轨迹对应的控制量，控制量与可移动主体在移动过程中所消耗的能量正相关。

预设的轨迹约束条件可以根据自主系统和当前作业任务的要求进行设置。以无人机为例，轨迹约束条件包括但不限于障碍物避让、最小安全高度、最大爬升和转弯能力、禁飞区、燃料消耗、飞行时间、动力学约束、飞行角度、起飞和降落等方面的约束条件。

在一个示例中，可以采用多阶段无约束最小化控制努力轨迹优化的方法实现此步骤，以最小化在整个轨迹中所需的控制输入的总和，同时考虑系统的动态行为，最终可以减少控制系统需要做的工作量。示例性地，可以根据控制量设置需要最小化的目标函数，以优化移动轨迹。具体地，控制量可以至少与能量消耗正相关，还可以与控制输入的大小或变化次数正相关。可以设置合适的目标函数和决策变量，并可以通过调整决策变量的值不断优化目标函数，直至找到最优移动轨迹，优化的过程可以视作是不断从候选移动轨迹中筛选出最优移动轨迹的过程。

在另一示例中，也可以采用其他方法根据每个子路径的初始持续时间、预设的轨迹约束条件和最优移动路径下的多种候选移动轨迹各自对应的控制量，确定最优移动轨迹，包括但不限于各种现有的或者未来研发的轨迹优化算法等。

上述确定最优移动轨迹的方案可以提高轨迹优化的效率，并可以保证所确定的最优移动轨迹消耗的能量更少，可以确保自主系统的运行更加高效，也更经济。

在一种实施方式中，步骤S162确定可移动主体的移动轨迹包括步骤S162.3。步骤S162.3，最小化如下目标函数的值，以确定可移动主体按照最优移动路径移动的最优移动轨迹：

γ^s(t)＝l(t)，t∈[t₀，t_M]；

其中，F(t)表示目标函数，l(t)表示期望最小化的控制量，γ(t)是可移动主体在t时刻的移动轨迹的多项式表达式，且γ(t)为最小化目标函数的决策变量，s表示预设的积分链的阶数，M表示最优移动路径中所包含的子路径的总数量，子路径是相邻的两个路径点之间的路径，t₀表示可移动主体从起点开始移动的初始时刻，t_M表示可移动主体到达终点的结束时刻，Q表示半正定矩阵。

在上述目标函数的公式中，二次型可以确保轨迹的光滑性。s可以根据实际需求进行设置，例如，s＝5，即控制量l(t)表示t时刻的移动轨迹的5阶导数。这种方案中，将各时刻的移动轨迹作为决策变量最小化上述目标函数，有助于实现全局优化，并可以保证轨迹的平滑性，还可以简化控制，即优化得到的轨迹可以直接用于控制系统。

在一种实施方式中，步骤S162.3确定可移动主体按照最优移动路径移动的最优移动轨迹，包括步骤S162.3a、步骤S162.3b和步骤S162.3c。步骤S162.3a，确定最优移动轨迹需要满足的充要条件，其中充要条件用于直接构造唯一的最优移动轨迹。步骤S162.3b，根据充要条件，求解使得目标函数的值达到最小时决策变量的值。步骤S162.3c，根据决策变量的值，确定最优移动轨迹。

上述充要条件可以是求解最优移动轨迹的最优性充要条件，可以根据实际需求进行设置，以确保找到的轨迹既符合实际操作要求，又是在约束条件下的最优解。例如，在无人机轨迹规划任务中，可以通过最小化加速度的一阶导数和二阶导数来找到最优飞行轨迹。而这两者与角速度(有利于视觉跟踪)和微分电机推力(节省能量)分别对应。可以针对上述目标函数公式中二次型问题结构确定最优性充分必要条件。这个条件告诉我们如何在所有可能的分段间距、时间和中间条件设置下直接构造唯一的最优移动轨迹。

在一种实施方式中，充要条件包括：

映射γ^*(t)：→[t_i-1，t_i]为2s-1阶的多项式，其中，1≤i≤M，γ^*(t)对应最优移动轨迹中每个子路径的轨迹部分；

其中和分别表示可移动主体在起点和终点时的轨迹约束条件，表示可移动主体在第i个子路径的轨迹约束条件，1≤i≤M；

映射γ^*(t)：→[t_i-1，t_i]在t_i时刻阶连续可微，其中di表示在第i个子路径期望约束的阶数。

以最优移动轨迹是γ^*(t)为例，γ^*(t)对于每一个子路径或说轨迹段都是一个2s-1阶的多项式，对于以多项式样条为特征的轨迹生成问题，线性约束可以分为两类。导数约束指定每个轨迹的起点和终点处的每个阶的导数值。连续性约束指定前后两条轨迹交汇处的各阶导数值相同。可以理解，根据上述最优性充要条件，可以得到关于系数矩阵的线性方程(例如，用Ac＝b表示)，其中A是对于任何正的时间分配都具有非奇异性的带状稀疏矩阵。该方程可以通过带状PLU分解以线性的时间和空间复杂度快速进行求解，求解的结果即对应最终的最优移动轨迹。

利用上述充要条件和上述目标函数，可以直接求解得到最优移动轨迹的表达式，并且这种求解方案计算量也非常小，因此可以显著提高轨迹优化的效率。这种方案的实时性也更好。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

在一个具体示例中，如图3所示，自主系统可以是无人机。无人机可以包括深度相机和惯性测量单元。或者，无人机可以包括动作捕捉装置。对于无人机包括深度相机和惯性测量单元的情况，在无人机飞行的过程中，可以利用深度相机实时采集无人机作业环境的三维空间数据，并可以利用惯性测量单元采集无人机的运动数据。然后，可以将两者采集的数据实时送入扩展卡尔曼滤波器中进行融合处理，以实时得到无人机的位姿数据。或者，也可以利用动作捕捉装置实时得到无人机的位姿数据。在无人机接收到作业指令的情况下，可以将预先建立的当前作业环境的环境地图和包括当前作业任务的起点信息和终点信息的状态地图(这两者即图中的原始地图)连同随机产生的噪声向量输入至训练好的条件生成对抗网络中，并输出原始地图中的启发式区域(图中的启发式地图)，以用于路径规划和轨迹规划。之后，可以按照全局路径搜索方法，分别以不同的概率从所述启发式区域(例如采样概率为0.8)和非启发式区域(例如采样概率为0.2)中进行采样，以确定初始飞行路径。进而，可以增大在非启发式区域中的采样概率，基于该初始飞行路径，继续按照全局路径搜索方法，从启发式区域和非启发式区域中进行采样，以确定无人机的最优飞行路径。接着，可以根据最优飞行路径中各个子路径的长度、最大速度、最大加速度和最大减速度，按照梯形时间剖面算法确定无人机在各个子路径飞行的初始持续时间。然后，可以根据每个子路径的初始持续时间、预设的轨迹约束条件以及步骤S162.3中需要最小化的目标函数，根据所设置的最优性充要条件，快速求解出无人机执行当前作业任务的最优飞行轨迹。之后，可以将无人机的实际位姿数据和最优飞行轨迹发送至无人机的飞行控制器，该飞行控制器可以包括串联的内环和外环控制器，内环控制器和外环控制器均可以是比例-积分-微分控制器。内环PID控制器和外环PID控制器可以根据实际位姿数据和最优飞行轨迹中所对应的期望位姿数据，对无人机的位姿进行控制，以使无人机按照最优移动轨迹飞行作业。具体地，内环PID控制器负责无人机的姿态控制，即稳定滚转、俯仰和偏航角度，确保无人机的飞行稳定性。外环PID控制器则负责无人机的位置控制，确保达到目标位置。由此，实现对无人机在三维空间中的位置和姿态的精准控制。

本申请实施例还提供一种轨迹规划装置，用于执行上述方法实施例中的方法步骤。该装置可以是终端设备中的虚拟装置(virtual appliance)，由终端设备的处理器运行，也可以是终端设备本身。

如图4所示，本申请实施例提供的轨迹规划装置400包括：

获取模块410，用于获取可移动主体的作业环境的第一地图；

地图模块420，用于将第一地图中的障碍物信息、当前作业任务的起点信息和终点信息输入至经训练的第一模型中，得到第一地图中的启发式区域，其中启发式区域中包括当前作业任务的最优移动路径的可能性大于可能性阈值；

规划模块430，用于基于启发式区域，确定可移动主体的移动轨迹。

在一种实施方式中，地图模块具体用于：

将包含障碍物信息的环境地图和包含起点信息和终点信息的状态地图作为条件信息，连同预先获取的噪声向量输入至经训练的条件生成对抗网络中，以输出启发式区域。

在一种实施方式中，轨迹规划装置还包括训练模块。

训练模块用于利用环境地图样本、状态地图样本、噪声向量样本、启发式区域样本以及损失函数训练条件生成对抗网络；其中，启发式区域样本是对真实路径所在区域进行扩展后得到的，损失函数用于优化条件生成对抗网络，以使条件生成对抗网络所输出的启发式区域包含从起点至终点之间的平滑路径且避开障碍物。

在一种实施方式中，条件生成对抗网络包括生成器和判别器，损失函数包括连通性损失函数和安全性损失函数，连通性损失函数和安全性损失函数分别利用以下公式表示：

在一种实施方式中，规划模块包括路径规划单元和轨迹规划单元。

路径规划单元用于基于启发式区域，确定可移动主体的最优移动路径，其中最优移动路径是按顺序连接各个路径点形成的路径，各个路径点包括起点、终点和位于起点和终点之间的至少一个中间点；

轨迹规划单元用于根据最优移动路径，确定可移动主体的移动轨迹。

在一种实施方式中，路径规划单元还用于：

以第一概率从启发式区域中采样兵役第二概率从非启发式区域中采样，以通过路径搜索确定初始移动路径，其中第一概率大于第二概率，非启发式区域是第一地图中除启发式区域之外的区域；

基于初始移动路径，以第三概率从启发式区域中采样并以第四概率从非启发式区域中采样，以确定可移动主体的最优移动路径，其中第三概率小于第一概率，第四概率大于第二概率。

在一种实施方式中，轨迹规划单元还用于：

根据最优移动路径中各个子路径的长度、预设最大速度、预设最大加速度和预设最大减速度，按照梯形时间剖面算法确定可移动主体在各个子路径移动的初始持续时间，其中子路径是相邻的两个路径点之间的路径；

根据初始持续时间、预设的轨迹约束条件和最优移动路径下的多种候选移动轨迹各自对应的控制量，确定多种候选移动轨迹中的最优移动轨迹，其中最优移动轨迹对应的控制量小于其他候选移动轨迹对应的控制量，控制量与可移动主体在移动过程中所消耗的能量正相关。

在一种实施方式中，轨迹规划单元还用于最小化如下目标函数的值，以确定可移动主体按照最优移动路径移动的最优移动轨迹：

γ^s(t)＝l(t)，t∈[t₀，t_M]；

在一种实施方式中，轨迹规划单元还用于：

确定最优移动轨迹需要满足的充要条件，其中充要条件用于直接构造唯一的最优移动轨迹；

根据充要条件，求解使得目标函数的值达到最小时决策变量的值；

根据决策变量的值，确定最优移动轨迹。

在一种实施方式中，充要条件包括：

映射γ^*(t)：→[t_i-1，t_i]为2s-1阶的多项式，其中1≤i≤M，γ^*(t)对应最优移动轨迹中每个子路径的轨迹部分；

映射γ^*(t)：→[t_i-1，t_i]在t_i时刻阶连续可微，其中d_i表示在第i个子路径期望约束的阶数。

在一种实施方式中，轨迹规划装置还包括：

数据获取模块，用于获取作业环境的三维空间数据和可移动主体的运动数据；

数据处理模块，用于利用扩展卡尔曼滤波算法对三维空间数据和运动数据进行融合处理，以确定可移动主体的位姿数据和/或生成第一地图。

上述装置中的各模块可以为软件程序模块，也可以通过处理器中集成的不同逻辑电路或与处理器连接的独立物理部件实现，还可以通过多个分布式处理器实现。

如图5所示，本申请实施例还提供一种终端设备500，包括：至少一个处理器510(图5中仅示出一个处理器)、存储器520以及存储在存储器520中并可在至少一个处理器510上运行的计算机程序530，处理器510执行计算机程序530时实现上述轨迹规划方法。

终端设备可包括但不仅限于处理器以及存储器，图5仅仅是终端设备的举例，并不构成对终端设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件。处理器可以是中央处理单元(Central Processing Unit，CPU)，该处理器还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

如图6所示，本申请实施例还提供一种自主系统600，包括至少一个定位装置610、轨迹规划装置620和移动控制器630，其中，轨迹规划装置620分别连接定位装置610和移动控制器630，并用于执行上述轨迹规划方法，移动控制器630用于控制可移动主体移动作业。至少一个定位装置610、轨迹规划装置620和移动控制器630均可以设置在可移动主体上。在一些示例中，轨迹规划装置620也可以不设置在可移动主体上，而设置在能够与可移动主体通信的计算设备上。

在一种实施方式中，自主系统可以是无人机系统，可移动主体可以是无人机。如图7所示，定位装置610可以包括视觉传感器611和惯性测量单元612；和/或移动控制器630包括串联的内环控制器631和外环控制器632，内环控制器631和外环控制器632分别用于控制无人机的位置和姿态，以使无人机按照轨迹规划装置620所确定的飞行轨迹飞行作业。内环控制器631和外环控制器632可以是PID控制器。

具体地，视觉传感器611可以包括RGB-D(Red-Green-Blue-Depth)摄像头。可以利用上述视觉传感器采集无人机作业环境的RGB图像和深度图像，能够提供更准确的作业环境的三维空间信息，还有助于准确识别障碍物的类别和形态信息。惯性测量单元612可以准确测量无人机的角速度和加速度等姿态信息。利用视觉传感器611和惯性测量单元612所采集到的这两种信息，可以实现对无人机的较高精度的位姿估计，从而不仅可以得到高精度的环境地图，还可以实时得到无人机的位姿信息。由此，可以显著提高轨迹规划的精度，并可以实现对无人机的位姿的精准控制，实现无人机的高效且精准的自主飞行。

如上所述，内环控制器631和外环控制器632分别对应姿态控制和位置控制。结合图3，内环控制器负责无人机的姿态控制，即稳定滚转、俯仰和偏航角度，从而可以确保无人机的飞行稳定性。外环控制器则负责无人机的位置控制，确保无人机可以实时到达最优移动轨迹中所规划的目标位置，从而可以实现对无人机在三维空间中的位置和姿态的精准控制。具体地，内环控制器和外环控制器均可以连接无人机的执行器，并可以将向执行器发送控制信号，以使执行器基于控制信号执行相应的动作，如驱动阀门、电机或其他机械部件进行开启、关闭、调节等。内环控制器和外环控制器具体可以是PID控制器，可以根据当前无人机的位姿数据与期望值(例如最优轨迹中所要求的位姿数据)之间的偏差，通过比例(P)、积分(I)和微分(D)三个基本控制方式的组合输出响应的控制信号。这样，可以减少无人机的实际位姿与期望值之间的偏差，提高系统的稳定性和响应速度。

这种串联的控制结构能够有效地处理无人机的非线性和耦合性，提高无人机在复杂环境中的飞行精度和稳定性。通过调整控制参数，可以根据无人机的实时飞行状态和环境变化，实现对无人机的高效、稳定的轨迹规划、跟踪和飞行控制。

在本申请实施例中，无人机可以是四旋翼无人机。而包含上述定位装置610、轨迹规划装置620和移动控制器630的无人机系统由于可以根据无人机的实时飞行状态和环境变化，实现对无人机的高效、稳定的轨迹规划、跟踪和飞行控制，因此，本申请实施例的无人机具备更高的实用性和可靠性，可以广泛应用于农业喷洒、快递物流、航拍摄影、紧急救援等领域。例如，可以利用本申请实施例的四旋翼无人机在农业中实现自动精准喷药，在物流中提高配送效率，在紧急情况下快速提供救援物资等。

需要说明的是，上述装置/模块之间的信息交互、执行过程等内容，由于与本申请方法实施例基于同一构思，其具体功能及带来的技术效果，具体可参见方法实施例部分，此处不再赘述。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要将上述功能分配由不同的功能模块完成，即将所述装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中，上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。另外，各功能模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。上述系统中模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

本申请实施例还提供了一种计算机可读存储介质，计算机可读存储介质中存储有计算机程序，计算机程序被处理器所执行时可实现上述各个方法实施例中的步骤。

本申请实施例提供了一种计算机程序产品，当计算机程序产品在终端设备上运行时，使得终端设备可实现上述各个方法实施例中的步骤。

以上所述实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围，均应包含在本申请的保护范围之内。

Claims

1.一种轨迹规划方法，其特征在于，包括：

获取可移动主体的作业环境的第一地图；

将所述第一地图中的障碍物信息、当前作业任务的起点信息和终点信息输入至经训练的第一模型中，得到所述第一地图中的启发式区域，其中所述启发式区域中包括当前作业任务的最优移动路径的可能性大于可能性阈值；

基于所述启发式区域，确定所述可移动主体的移动轨迹。

2.如权利要求1所述的轨迹规划方法，其特征在于，所述第一模型是条件生成对抗网络，所述将所述第一地图中的障碍物信息、当前作业任务的起点信息和终点信息输入至经训练的第一模型中，得到所述第一地图中的启发式区域，包括：

将包含所述障碍物信息的环境地图和包含所述起点信息和所述终点信息的状态地图作为条件信息，连同预先获取的噪声向量输入至经训练的条件生成对抗网络中，以输出所述启发式区域。

3.如权利要求2所述的轨迹规划方法，其特征在于，所述方法还包括：

利用环境地图样本、状态地图样本、噪声向量样本、启发式区域样本以及损失函数训练所述条件生成对抗网络；

其中，所述启发式区域样本是对真实路径所在区域进行扩展后得到的，所述损失函数用于优化所述条件生成对抗网络，以使所述条件生成对抗网络所输出的启发式区域包含从所述起点至所述终点之间的平滑路径且避开所述障碍物；

其中，所述条件生成对抗网络包括生成器和判别器，所述损失函数包括连通性损失函数和安全性损失函数，所述连通性损失函数和安全性损失函数分别利用以下公式表示：

其中，L₁表示所述连通性损失函数，L₂表示所述安全性损失函数，表示期望，R表示所述生成器所生成的启发式区域，S表示所述状态地图样本，N表示所述噪声向量样本，ε表示所述环境地图样本，D()表示所述判别器的输出结果，G()表示所述生成器的输出结果。

4.如权利要求1至3任一项所述的轨迹规划方法，其特征在于，所述基于所述启发式区域，确定所述可移动主体的移动轨迹，包括：

基于所述启发式区域，确定所述可移动主体的最优移动路径，其中所述最优移动路径是按顺序连接各个路径点形成的路径，所述各个路径点包括所述起点、所述终点和位于所述起点和所述终点之间的至少一个中间点；

根据所述最优移动路径，确定所述可移动主体的移动轨迹。

5.如权利要求4所述的轨迹规划方法，其特征在于，所述基于所述启发式区域，确定所述可移动主体的最优移动路径，包括：

以第一概率从所述启发式区域中采样，并以第二概率从非启发式区域中采样，以通过路径搜索确定初始移动路径，其中所述第一概率大于所述第二概率，所述非启发式区域是所述第一地图中除所述启发式区域之外的区域；

基于所述初始移动路径，以第三概率从所述启发式区域中采样＝并以第四概率从所述非启发式区域中采样，以确定所述可移动主体的最优移动路径，其中所述第三概率小于所述第一概率，所述第四概率大于所述第二概率。

6.如权利要求4所述的轨迹规划方法，其特征在于，所述根据所述最优移动路径，确定所述可移动主体的移动轨迹，包括：

根据所述最优移动路径中各个子路径的长度、预设最大速度、预设最大加速度和预设最大减速度，按照梯形时间剖面算法确定所述可移动主体在各个子路径移动的初始持续时间，其中所述子路径是相邻的两个路径点之间的路径；

根据所述初始持续时间、预设的轨迹约束条件和所述最优移动路径下的多种候选移动轨迹各自对应的控制量，确定所述多种候选移动轨迹中的最优移动轨迹，其中所述最优移动轨迹对应的控制量小于其他候选移动轨迹对应的控制量，所述控制量与所述可移动主体在移动过程中所消耗的能量正相关。

7.如权利要求4所述的轨迹规划方法，其特征在于，所述确定所述可移动主体的移动轨迹包括最小化如下目标函数的值，以确定所述可移动主体按照所述最优移动路径移动的最优移动轨迹：

γ^s(t)＝l(t),t∈[t₀，t_M]；

其中，F(t)表示所述目标函数，l(t)表示期望最小化的控制量，γ(t)是所述可移动主体在t时刻的移动轨迹的多项式表达式，且γ(t)为最小化所述目标函数的决策变量，s表示预设的积分链的阶数，M表示所述最优移动路径中所包含的子路径的总数量，所述子路径是相邻的两个路径点之间的路径，t₀表示所述可移动主体从所述起点开始移动的初始时刻，t_M表示所述可移动主体到达所述终点的结束时刻，Q表示半正定矩阵。

8.如权利要求7所述的轨迹规划方法，其特征在于，所述确定所述可移动主体按照所述最优移动路径移动的最优移动轨迹，包括：

确定最优移动轨迹需要满足的充要条件，其中所述充要条件用于直接构造唯一的最优移动轨迹；

根据所述充要条件，求解使得所述目标函数的值达到最小时所述决策变量的值；

根据所述决策变量的值，确定所述最优移动轨迹；

其中，所述充要条件包括：

映射γ^*(t)：→[t_i-1，t_i]为2s-1阶的多项式，其中1≤i≤M，γ^*(t)对应所述最优移动轨迹中每个子路径的轨迹部分；

其中和分别表示所述可移动主体在所述起点和所述终点时的轨迹约束条件，表示所述可移动主体在第i个子路径的轨迹约束条件，1≤i≤M；

9.一种轨迹规划装置，其特征在于，包括：

获取模块，用于获取可移动主体的作业环境的第一地图；

地图模块，用于将所述第一地图中的障碍物信息、当前作业任务的起点信息和终点信息输入至经训练的第一模型中，得到所述第一地图中的启发式区域，其中所述启发式区域中包括当前作业任务的最优移动路径的可能性大于可能性阈值；

规划模块，用于基于所述启发式区域，确定所述可移动主体的移动轨迹。

10.一种自主系统，其特征在于，包括定位装置、轨迹规划装置和移动控制器，其中，所述轨迹规划装置分别连接所述定位装置和所述移动控制器，并用于执行如权利要求1至8任一项所述的轨迹规划方法，所述移动控制器用于控制所述可移动主体移动作业；

其中，所述可移动主体是无人机，所述定位装置包括视觉传感器和惯性测量单元；和/或所述移动控制器包括串联的内环控制器和外环控制器，所述内环控制器和外环控制器分别用于控制所述无人机的位置和姿态，以使所述无人机按照所述轨迹规划装置所确定的飞行轨迹飞行作业。