CN108108822B

CN108108822B - 并行训练的异策略深度强化学习方法

Info

Publication number: CN108108822B
Application number: CN201810040895.XA
Authority: CN
Inventors: 陈志波; 张直政; 陈嘉乐; 石隽
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2018-01-16
Filing date: 2018-01-16
Publication date: 2020-06-26
Anticipated expiration: 2038-01-16
Also published as: CN108108822A

Abstract

本发明公开了一种并行训练的异策略深度强化学习方法，包括：创建一个环境进程池，需要深度强化学习的智能主体作为主进程选择两个以上的环境进程同时开始交互；在交互过程中，环境进程将每一步交互中所产生的经验信息存储在当前环境进程所对应的经验信息缓存单元中，每当该环境进程中的经验信息缓存单元增加n条单步交互信息时，主进程基于经验样本采样算法从经验存储单元中进行采样并对智能主体进行相应的参数更新；在一个回合结束时，环境进程依基于经验样本筛选及存储算法对这一回合的交互所产生的经验信息进行筛选并选择存储到对应的经验存储单元或直接删除。该方法可以提高强化学习算法的样本效率，缩短训练用时，进而提高其学习的效率和稳定性。

Description

并行训练的异策略深度强化学习方法

技术领域

本发明涉及人工智能、机器学习技术领域，尤其涉及一种并行训练的异策略深度强化学习方法。

背景技术

强化学习作为一种重要的机器学习方法，在智能控制机器人、人机博弈、临床医学及分析预测等领域有着诸多应用。强化学习独立于传统机器学习中监督学习和非监督学习之外，从智能主体和环境之间的交互中获得经验，从而完成智能主体从环境到行为映射的策略学习。在强化学习中，智能主体接收来自于环境的状态信息并基于学习的策略产生一个动作作用于环境，环境接受该动作后状态发生变化，同时产生一个回报值(奖励或惩罚)，并将变化后的当前状态和该奖惩信号发送给智能主体，智能主体再根据接收到的信息更新策略并根据策略选择下一个决策结果(即动作)。强化学习系统的学习目标在于与环境的交互过程中，动态地调整智能主体自身的参数从而更新待学习的策略，使得环境反馈的正信号最大。

深度强化学习是在强化学习的基础上，用深度学习模型构建强化学习中的智能主体的一种新型强化学习方式。在深度强化学习中，智能主体需要更多的训练样本，因此就要求智能主体和环境之间产生大量的交互行为来产生训练数据。然而，实际科学研究和工业生产中的环境和反馈信号(回报值)的设计均十分复杂，根据智能主体所发送的动作信号计算环境变化后状态值及回报值运算量大，耗时长，对智能主体学习的训练方式和样本效率都提出了极高的要求。

鉴于此，有必要进行深入研究，提高深度强化学习中智能主体的样本效率，缩短对于智能主体训练的用时，从而提高强化学习中智能主体的学习能力，使其在应用场景中更快、更好地发挥实用价值。

发明内容

本发明的目的是提供一种并行训练的异策略深度强化学习方法，可以提高强化学习算法的样本效率，缩短训练用时，进而提高其学习的效率和稳定性。

本发明的目的是通过以下技术方案实现的：

一种并行训练的异策略深度强化学习方法，包括：

创建一个环境进程池，所述环境进程池中包含多个同种类型的环境进程；

需要深度强化学习的智能主体作为主进程向环境进程池发送交互请求，根据各环境进程返回的信息选择两个以上的环境进程同时开始交互；

在主进程和当前环境进程交互的过程中，环境进程将每一步交互中所产生的经验信息存储在当前环境进程所对应的经验信息缓存单元中，每当该环境进程中的经验信息缓存单元增加n条单步交互信息时，主进程基于经验样本采样算法从经验存储单元中进行采样并对智能主体进行相应的参数更新；

在主进程和当前环境进程交互中的一个回合结束时，环境进程基于经验样本筛选及存储算法对这一回合的交互所产生的经验信息进行筛选并存储到对应的经验存储单元或直接删除。

由上述本发明提供的技术方案可以看出，经验样本筛选及存储算法和经验样本采样算法为在异步并行训练框架的基础之上采用的优化算法，可以根据具体的应用需求和应用场景进行取舍和调整，从而提高该类异策略强化学习算法的样本效率，缩短训练用时，进而提高其学习的效率和稳定性。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他附图。

图1为本发明实施例提供的传统异策略深度强化学习方法的流程图；

图2为本发明实施例提供的并行训练的异策略深度强化学习方法的流程图；

图3为本发明实施例提供的神经网络结构示意图。

具体实施方式

下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明的保护范围。

本发明实施例提供一种并行训练的异策略深度强化学习方法，针对异策略深度强化学习算法，利用多进程实现一个智能主体与多个环境同时进行交互，并将与多个环境进行交互所产生的经验对智能主体进行异步训练，主要过程如下：

1、创建一个环境进程池，所述环境进程池中包含多个同种类型的环境进程。

本发明实施例中，各个环境进程之间可以采用相同或者不同的参数设置。

2、需要深度强化学习的智能主体作为主进程向环境进程池发送交互请求，根据各环境进程返回的信息选择两个以上的环境进程同时开始交互。

在本步骤中，智能主体作为主进程向环境进程池发送交互请求，如果进程池中存在未处于交互状态的环境进程，则向主进程返回相应环境进程的标识，主进程将对应环境进程的环境标识从“空闲”状态设置成“被占用”状态，并与对应环境进程进行交互；如果进程池中不存在未处于交互状态的环境进程，则将处于“被占用”状态的环境标识作为等待信号返回给主进程，主进程根据得到的等待信号，选择等待或是继续向环境进程池发送交互请求。

3、在主进程和当前环境进程交互的过程中，环境进程将每一步交互中所产生的经验信息存储在当前环境进程所对应的经验信息缓存单元中，每当该环境进程中的经验信息缓存单元增加n条单步交互信息时，主进程基于经验样本采样算法从经验存储单元中进行采样并对智能主体进行相应的参数更新。

本发明实施例中，所述的经验信息主要包括：状态值、动作值、回报值、交互终止标识和累计回报值(可选)。

4、在主进程和当前环境进程交互中的一个回合结束时，环境进程基于经验样本筛选及存储算法对这一回合的交互所产生的经验信息进行筛选并存储到对应的经验存储单元或直接删除。

本发明实施例中，在主进程和当前环境进程交互中的一个回合结束时，主进程释放当前环境进程，将相关环境进程重置为“空闲”状态；被重置的环境进程对环境进行重置并等待下一次交互的发起。

本发明实施例中，经验存储单元主要包括普通经验信息存储单元和高回报经验信息存储单元。所述普通经验信息存储单元和高回报经验信息存储单元均为固定的长度，并采用FIFO(先进先出)的存储方式对经验信息进行存储；长度是指最大能存储的单步交互所对应的经验信息的数目。将普通经验信息存储单元的长度记为L_O，普通经验信息存储单元中已经存储的单步交互所对应的经验信息的数目记为N_O；将高回报经验信息存储单元的长度记为L_H，高回报经验信息存储单元中已经存储的单步交互所对应的经验信息的数目记为N_H。

本发明实施例中，所述经验样本筛选及存储算法，是在智能主体对应的主进程和某一环境进程交互的一个完整的回合(episode)结束后，对该环境进程中的经验信息缓存单元中的经验信息进行筛选及存储操作，主要过程如下：

将当前经验信息缓存单元中的缓存的这一回合的交互所产生的经验信息存储到普通经验信息存储单元，并更新N_O；将更新后的N_O与第一阈值N_limit进行比较。

本发明实施例中，交互是以步(step)为单位进行的，一个回合(episode)包含多步(step)交互。并且经验信息缓存单元和经验信息存储单元具有不同的功能，一个回合未完成时，先将当前已经完成的步对应的经验信息存到经验信息缓存单元中，等这个回合结束了，再将这个回合所有步的经验信息存到经验信息存储单元中。

如果N_O小于第一阈值N_limit，则此次存储操作结束；

如果N_O大于第一阈值N_limit，则分别计算最新存储的N_new个回合的经验信息所对应的回合累计回报值的第p₁百分位数的值R_high，与第p₂百分位数的值R_low，其中p₁＞p₂；记当前存储到普通经验信息存储单元中的经验信息的回合累计回报值为R，当时R＞R_high，将该回合所对应的经验信息复制到高回报经验信息存储单元中进行存储；当R_low≤R≤R_high时，将该回合所对应的经验信息以概率p＝(R-R_high)/(R_high-R_low)复制到高回报经验信息存储单元中进行存储；当R≤R_low时，结束此次存储操作。

本发明实施例中，一个回合(episode)中的每步交互(step)都会产生一个回报值，这里的回合累积回报值是指对某个回合中所有步(step)的回报值进行累计，即该累计是以步(step)为单位操作的。

所述经验样本采样算法作用于智能主体对应的主进程从存储单元中采样，并对自身参数进行更新时。主要过程如下：

当主进程准备对智能主体进行参数更新时，先检测普通经验信息存储单元中已经存储的经验信息的数目N_O，并将其与第二阈值N_l(通常设置为Batch Size的整数倍)进行比较：如果N_O＜N_l，则放弃此次采样及参数更新；如果N_O≥N_l，则对高回报经验信息存储单元中已经存储的经验信息的数目进行检测，如果已经存储的经验样本数目低于第三阈值N_l1，则从普通经验样本存储单元中进行采样，如果不低于第四阈值N_l2，则从以下两种方式中选择一种完成采样：

以概率P从高回报经验信息存储单元中进行采样并用所获得样本进行参数更新，以概率(1-P)从普通经验信息存储单元中进行采样并用所获得样本进行参数更新；

每次采样的样本集合中有P的样本从高回报经验信息存储单元中采样获得，另外(1-P)的样本从普通经验信息存储单元中采样获得。

为了便于说明，下面结合具体示例来进行说明。

图1所示传统异策略深度强化学习算法采用单个智能主体与单个环境串行同步的训练方式，与其不同，本发明实例所提供的方案如图2所示，为单个智能主体同时和多个同类型环境进行并行交互并对经验信息的存储和采样方式进行了相应的优化；主要如下：

本发明实例中的智能主体基于经典的策略梯度算法Deep Deterministic PolicyGradient，主要由图3所示的策略网络和价值网络组成。设置普通经验信息存储单元的长度L_O＝10⁶；高回报经验信息存储单元的长度L_H＝10⁴；更新智能主体中的神经网络时采用的Baych Size＝128；从普通经验信息存储单元中采样所要求的已存经验信息数目阈值N_limit＝64*128；从高回报经验信息存储单元中采样所要求的已存经验信息数目阈值N_l＝32*128。

首先，按照前述方案中所述方法创建包含多个同类型环境进程的进程池，其中，不同进程中的环境进程可以采用相同或者不同的参数设置(如在游戏环境中可以设置不同的难度等级)。然后，智能主体对应的主进程同时和不同环境进程进行交互，每完成一步交互，智能主体依据前述方案中所描述的经验样本采样算法检测各存储单元中已经存储的经验信息数目是否满足要求，并决定对智能主体中神经网络的更新方式。更为具体地，每次神经网络的后向传播中，以0.1的概率从高回报经验信息存储单元进行采样，以0.9的概率从普通经验信息存储单元进行采样。同时，环境进程将单步交互所获得的经验信息存储到该进程所对应的经验信息缓存单元中。当一个完整的回合交互完成后，环境进程依据技术方案中的经验信息筛选及存储算法对该回合交互产生的经验信息进行存储。其中，取最近存入普通经验信息存储单元的100个回合的经验信息(即N_new＝100)的回合累积回报值的第90(即p₁＝90)百分位数作为R_high，第10(即p₂＝10)百分位数作为R_low；再与当前存储到普通经验信息存储单元中的经验信息的回合累计回报值R进行比较，从而选择相应的存储策略。

需要说明的是，上式示例中所涉及的各参数的具体数值仅为举例，并非构成限制；在实际应用中，用户可以根据实际需要或经验来设定各参数的具体取值。

本发明专利具有一定的可检测性，具体的检测方案如下：

一、检测相关程序的进程数目。如果相关程序中存在一个主进程和多个与其交互的环境进程，则很可能使用了本发明专利所涉及的技术方案。

二、检测相关程序的存储单元和进程对其的读写情况。如果相关程序中存在多个“读写”频率较高的存储单元和两个“读”操作频率明显高于“写”操作频率的存储单元，则很可能使用了本发明专利所涉及的技术方案。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例可以通过软件实现，也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解，上述实施例的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明披露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求书的保护范围为准。

Claims

1.一种并行训练的异策略深度强化学习方法，其特征在于，包括：

在主进程和当前环境进程交互中的一个回合结束时，环境进程基于经验样本筛选及存储算法对这一回合的交互所产生的经验信息进行筛选并存储到对应的经验存储单元或直接删除；

其中，所述环境进程基于经验样本筛选及存储算法对这一回合的交互所产生的经验信息进行筛选并存储到对应的经验存储单元包括：

经验存储单元包括普通经验信息存储单元和高回报经验信息存储单元；将普通经验信息存储单元的长度记为L_O，普通经验信息存储单元中已经存储的单步交互所对应的经验信息的数目记为N_O；将高回报经验信息存储单元的长度记为L_H，高回报经验信息存储单元中已经存储的单步交互所对应的经验信息的数目记为N_H；

将当前经验信息缓存单元中的信息存储到普通经验信息存储单元，并更新N_O；将更新后的N_O与第一阈值N_limit进行比较；

如果N_O小于第一阈值N_limit，则此次存储操作结束；

如果N_O大于第一阈值N_limit，则分别计算最新存储的N_new个回合的经验信息所对应的回合累计回报值的第p₁百分位数的值R_high，与第p₂百分位数的值R_low，其中p₁＞p₂；记当前存储到普通经验信息存储单元中的经验信息的回合累计回报值为R，当R＞R_high时，将该回合所对应的经验信息复制到高回报经验信息存储单元中进行存储；当R_low≤R≤R_high时，将该回合所对应的经验信息以概率p＝(R-R_high)/(R_high-R_low)复制到高回报经验信息存储单元中进行存储；当R≤R_low时，结束此次存储操作。

2.根据权利要求1所述的一种并行训练的异策略深度强化学习方法，其特征在于，智能主体作为主进程向环境进程池发送交互请求，如果进程池中存在未处于交互状态的环境进程，则向主进程返回相应环境进程的标识，主进程将对应环境进程的环境标识从空闲状态设置成被占用状态，并与对应环境进程进行交互；

如果进程池中不存在未处于交互状态的环境进程，则将处于被占用状态的环境标识作为等待信号返回给主进程，主进程根据得到的等待信号，选择等待或是继续向环境进程池发送交互请求。

3.根据权利要求1所述的一种并行训练的异策略深度强化学习方法，其特征在于，所述的经验信息包括：状态值、动作值、回报值、交互终止标识和累计回报值。

4.根据权利要求1所述的一种并行训练的异策略深度强化学习方法，其特征在于，所述主进程基于经验样本采样算法从经验存储单元中进行采样并对智能主体进行相应的参数更新包括：

当主进程准备对智能主体进行参数更新时，先检测普通经验信息存储单元中已经存储的经验信息的数目N_O，并将其与第二阈值N_l进行比较：如果N_O＜N_l，则放弃此次采样及参数更新；如果N_O≥N_l，则对高回报经验信息存储单元中已经存储的经验信息的数目进行检测，如果高回报经验信息存储单元中已经存储的经验样本数目低于第三阈值N_l1，则从普通经验样本存储单元中进行采样，如果不低于第四阈值N_l2，则从以下两种方式中选择一种完成采样：

5.根据权利要求1所述的一种并行训练的异策略深度强化学习方法，其特征在于，所述普通经验信息存储单元和高回报经验信息存储单元均为固定的长度，并采用FIFO的存储方式对经验信息进行存储；长度是指最大能存储的单步交互所对应的经验信息的数目。

6.根据权利要求1所述的一种并行训练的异策略深度强化学习方法，其特征在于，在主进程和当前环境进程交互中的一个回合结束时，主进程释放当前环境进程，将相关环境进程重置为空闲状态；被重置的环境进程对环境进行重置并等待下一次交互的发起。