CN119301608A

CN119301608A - 用于强化学习的计算机实现方法和装置

Info

Publication number: CN119301608A
Application number: CN202280096389.7A
Authority: CN
Inventors: 朱军; 应铖阳; 郝中楷; 周辛宁; 苏航; 闫栋; 王晓强
Original assignee: Tsinghua University; Robert Bosch GmbH
Current assignee: Tsinghua University; Robert Bosch GmbH
Priority date: 2022-05-26
Filing date: 2022-05-26
Publication date: 2025-01-10
Also published as: WO2023225941A1

Abstract

本公开内容涉及一种用于强化学习的计算机实现的方法，该方法包括：通过一个或多个行为策略将一个或多个轨迹采样为数据集，其中所述一个或多个轨迹中的每一个轨迹包括状态、动作以及对状态和动作的相应奖励的序列；经由重要性采样，基于使用所述一个或多个轨迹而获得的估计来评估目标策略的性能；以及通过使性能的估计最大化，同时约束估计与数据集上的性能的偏差，来优化数据集上的目标策略。

Description

用于强化学习的计算机实现方法和装置

技术领域

概括地说，本公开内容的各方面涉及人工智能，具体地说，本公开内容的各方面涉及用于离线策略强化学习的方法和装置。

背景技术

学习直接从高维传感器输入(例如，视觉和语音)来控制代理(agents)是强化学习(RL)的长期挑战之一。在这些领域上运行的大多数成功的RL应用都依赖于手工制作的特征。显然，这些应用的性能在很大程度上取决于特征表示的质量。

深度学习的最新进展使得从原始传感器数据中提取高级特征成为可能，从而在计算机视觉和语音识别方面取得突破。然而，从深度学习的角度来看，强化学习带来了一些挑战。例如，在强化学习中，数据分布随着算法学习新行为而发生变化，这对于假设固定底层分布的深度学习方法来说可能是有问题的。另一个问题是，大多数深度学习算法都假设数据样本是独立的，而在强化学习中，通常会遇到高度相关的状态序列。

为了缓解这些问题，提出了离线策略强化学习算法，以提高深度强化学习(DRL)的样本效率。离线策略算法的关键思想是重用重放缓冲区中的历史轨迹，例如，随机采样先前的转换，以平滑许多过去行为的训练分布，但这意味着这些轨迹不是从当前策略中采样的。换言之，离线策略评估利用由其它策略(例如，历史策略)产生的轨迹来估计当前策略的预期回报，这导致了分布偏移。

为了缓解这一问题，离线策略评估中的标准方法是重要性采样，这是一种广泛使用的蒙特卡罗(Monte Carlo)技术，其用于当训练数据是由不同的行为策略生成的时，评估当前策略的预期回报。在实践中，重要性采样通常计算当前策略(即，目标策略)和行为策略之间的偏差程度。

准确的离线策略评估尤其重要，因为它是离线策略强化学习算法的核心，而不准确的离线策略评估可能会误导梯度的方向，显著减慢训练速度，并高概率地导致较差结果。因此，从准确性的角度来看，希望提供一种用于离线策略强化学习中的重要性采样的改进方法。

发明内容

为了对根据本公开内容的一个或多个方面有一个基本的理解，下面概括了这些方面的简化概括。该概括部分不是对所有预期方面的详尽概述，也不是旨在标识本公开内容的所有方面的关键或重要元素，或者描述任意或全部方面的范围。其唯一目的是用简化的形式呈现一个或多个方面的一些概念，以此作为后面的详细说明的前奏。

在本公开内容的一个方面，提供了一种用于强化学习的计算机实现方法，该方法包括：通过一个或多个行为策略将一个或多个轨迹采样为数据集，其中所述一个或多个轨迹中的每一个轨迹包括状态、动作以及对所述状态和所述动作的相应奖励的序列；经由重要性采样，基于使用所述一个或多个轨迹而获得的估计来评估目标策略的性能；以及通过使所述性能的所述估计最大化，同时约束所述估计与所述数据集上的所述性能的偏差，来优化所述数据集上的所述目标策略。

在本公开内容的另一个方面，提供了一种用于控制任务的强化学习的计算机实现方法，该方法包括：通过一个或多个行为策略将一个或多个轨迹采样为数据集，其中所述一个或多个轨迹中的每一个轨迹包括状态、动作以及对所述状态和所述动作的相应奖励的序列；经由重要性采样，基于使用所述一个或多个轨迹而获得的估计来评估目标策略的性能；以及通过使所述性能的所述估计最大化，同时约束所述估计与所述数据集上的所述性能的偏差，来优化所述数据集上的所述目标策略；其中，所述数据集包括图像、语音或其它传感器数据，并且其中，学习所述目标策略以控制任务，该任务包括控制机器人、车辆、家用电器、电动工具、制造业机器、个人助理或访问控制系统。

在本公开内容的另一个方面，提供了一种用于强化学习的装置，该装置包括存储器和耦合到所述存储器的至少一个处理器，所述至少一个处理器被配置为：通过一个或多个行为策略将一个或多个轨迹采样为数据集，其中所述一个或多个轨迹中的每一个轨迹包括状态、动作以及对所述状态和所述动作的相应奖励的序列；经由重要性采样，基于使用所述一个或多个轨迹而获得的估计来评估目标策略的性能；以及通过使所述性能的所述估计最大化，同时约束所述估计与所述数据集上的所述性能的偏差，来优化所述数据集上的所述目标策略。

在本公开内容的另一个方面，提供了一种用于强化学习的计算机程序产品，该计算机程序产品包括用于执行以下操作的处理器可执行计算机代码：通过一个或多个行为策略将一个或多个轨迹采样为数据集，其中所述一个或多个轨迹中的每一个轨迹包括状态、动作以及对所述状态和所述动作的相应奖励的序列；经由重要性采样，基于使用所述一个或多个轨迹而获得的估计来评估目标策略的性能；以及通过使所述性能的所述估计最大化，同时约束所述估计与所述数据集上的所述性能的偏差，来优化所述数据集上的所述目标策略。

在本公开内容的另一个方面，提供了一种存储有用于强化学习的计算机代码的计算机可读介质，当该计算机代码由处理器执行时，使得所述处理器执行包括以下的操作：通过一个或多个行为策略将一个或多个轨迹采样为数据集，其中所述一个或多个轨迹中的每一个轨迹包括状态、动作以及对所述状态和所述动作的相应奖励的序列；经由重要性采样，基于使用所述一个或多个轨迹而获得的估计来评估目标策略的性能；以及通过使所述性能的所述估计最大化，同时约束所述估计与所述数据集上的所述性能的偏差，来优化所述数据集上的所述目标策略。

从观察到重复使用重放缓冲区中的轨迹进行优化和评估所导致的离线策略评估偏差为出发点，提出了一种偏差正则化重要性采样方法，以显著提高离线策略方法的性能和样本效率。

通过考虑以下详细描述和附图，本公开内容的其它方面或变型及其它优点将变得显而易见。

附图说明

下文将结合附图描述所公开的方面，提供附图是为了说明而非限制所公开的各方面。

图1示出了根据本公开内容的一个或多个方面的、通过MiniGrid中的实验结果，经由重要性采样的离线策略评估中的重用偏差(或简称为偏差)的示例。

图2示出了根据本公开内容的一个或多个方面的、用于控制偏差的偏差正则化重要性采样(BIRIS)的方法的示例性流程。

图3示出了根据本公开内容的一个或多个方面的、用于控制偏差的偏差正则化重要性采样(BIRIS)的方法的另一个示例性流程。

图4示出了可以在其中实现本公开内容的一个或多个方面的偏差正则化重要性采样(BIRIS)框架的示例图。

图5和图6分别示出了两种通用的离线策略算法SAC(柔性动作评价)和TD3(双延迟深度确定性策略梯度)与本文提出的方法相结合的实验结果。

图7示出了根据本公开内容的一个或多个方面的装置的硬件实现的例子。

具体实施方式

现在将参考一些示例性实现来讨论本公开内容。应当理解，讨论这些实现仅仅是为了使本领域普通技术人员能够更好地理解并因此实现本公开内容的实施例，而不是对本公开内容的保护范围提出任何限制。

强化学习问题涉及学习做什么、如何将状态映射到动作，从而最大化数字奖励信号。从本质上讲，它们是闭环问题，因为学习系统的动作会影响其后期输入。此外，在许多形式的机器学习中，学习者并没有被告知要采取哪些动作，而是必须通过尝试来发现哪些动作产生的奖励最大。在未知的领域中，学习代理必须能够从其自己的经验中学习。在最有趣和最具挑战性的情况下，动作不仅会影响即时奖励，而且还影响下一状态，并通过这种情况影响所有后续奖励。强化学习问题可以包括顺序决策任务，例如机器人操纵物体或自动驾驶汽车决定何时变道。

这些例子可能涉及主动决策代理与其环境之间的互动，在这种互动中，尽管对其环境存在不确定性，但代理仍试图实现目标。允许代理的行为影响环境的未来状态(例如，机器人或车辆的下一个位置)，从而影响代理在以后时间可用的选项和机会。

在强化学习中，策略定义了学习性代理在给定时间的行为方式。一般来说，策略是从感知的环境状态到在这些状态下要采取的动作的映射。它可能对应于心理学中所谓的一组刺激反应规则或关联。策略是代理的核心，因为它单独就足以确定代理要采取的行为。一般来说，策略可以是随机的。

奖励信号定义了强化学习问题的目标。在每个时间步长上，环境都会向代理发送一个单独的数字，即奖励。代理的唯一目标是最大限度地提高其长期以来获得的总奖励。因此，奖励信号定义了对于代理而言什么是好事件和坏事件。在任何时候发送给代理的奖励，取决于代理的当前动作和代理的环境的当前状态。代理能够影响奖励信号的唯一途径是通过其动作，这可以对奖励产生直接影响，也可以通过改变环境的状态产生间接影响。

尽管奖励信号指示了什么是即时意义上的好，但价值函数指定了什么是长期意义上的好。一般来说，一个状态的价值是从该状态开始，代理在未来可以期望积累的奖励总额。奖励决定了环境状态的及时、内在可取性，而价值则表明了在考虑可能跟随的状态以及在这些状态中可获得的奖励后，状态的长期可取性。

一般来说，奖励在某种意义上是首要的，而价值作为对奖励的预测是次要的。没有奖励就没有价值，对价值进行估计的唯一目的就是获得更多的奖励。然而，在做出决策和评估决策时，最关心的是价值。行动选择是基于价值判断做出的。寻求能带来具有最高价值、而不是最高奖励的状态的动作，因为从长远来看，这些动作能获得最大额度的奖励。然而，确定价值比确定奖励要困难得多。奖励基本上是由环境直接给予的，但价值必须根据代理在其整个生命周期中做出的观察序列来估计和重新估计。事实上，几乎所有强化学习算法中最重要的组成部分是用于对价值进行高效估计的方法。

与在线策略强化学习相比，离线策略强化学习从不同的策略生成轨迹，其中在线策略强化学习在给定使用一个策略所生成的无限轨迹供应(即，与环境的实际或模拟交互中的状态、动作和奖励的经验样本序列)的情况下，对该策略的价值函数进行估计。也就是说，为了估计策略π的价值，我们所拥有的只是遵循另一个策略的轨迹，其中策略π之所以称为目标策略，是因为学习其价值是学习过程的目标，而策略之所以称为行为策略，是由于它是控制代理并产生行为的策略。总体问题称为离线策略学习，因为它是在只给定“离线”(不遵循)策略的经验的情况下学习策略。一般来说，行为策略可以是随机的和探索性的。因此，离线策略强化学习可以提高深度强化学习的样本效率。

深度学习可以利用一系列神经网络架构，其包括但不限于卷积网络、多层感知器、受限玻尔兹曼机和递归神经网络等等。深度学习可以从原始传感器数据中提取高级特征，这有利于利用传感器数据进行强化学习。

重要性采样是用于在给定来自另一个分布的样本的情况下，估计一个分布下的期望值的通用技术。重要性采样可以用于离线策略学习，通过根据它们在目标策略和行为策略下发生的轨迹的相对概率来加权回报。众所周知，当目标策略与样本独立时，重要性采样是无偏的，但具有与轨迹长度呈指数关系的高方差。因此，许多研究集中在离线策略评估的方差减少上。然而，很少有工作致力于检查离线策略评估的偏差。

在本公开内容中，重点关注离线策略评估的偏差。与Q学习中由于函数近似而产生的过高估计偏差不同，本文中提到的偏差是由于重复使用重放缓冲区中的轨迹进行优化和评估而产生的。这种不可避免的估计偏差可能会误导对策略的评估，在时间差异学习中可能进一步放大这种误导。

虽然当目标策略独立于由行为策略生成的样本时，重要性采样是无偏的，但当目标策略与样本相关时，这种无偏性可能不再成立。换言之，如果在评估中重用来自训练过程的同一批数据来优化目标策略，则在离线策略评估中，重要性采样可能有偏差。

在本公开内容中，从理论和实验的角度都表明，当重复使用轨迹的相同重放缓冲区来进行优化和评估时，通过重要性采样的离线策略评估是过高估计的。此外，可以获得偏差的高概率边界，这表明不能仅通过增加轨迹样本的数量来消除偏差。基于上述观察结果，提出了一种用于偏差正则化重要性采样的方法，以显著提高离线策略方法的性能和样本效率。

通常，可以考虑的马尔可夫决策过程(MDP)，其中和可以分别表示状态空间和动作空间。对于任何状态动作对是上的分布，其表示其转换。此外，是奖励函数，γ∈(0,1)是折扣因子。将任何代理的策略都建模为映射π:即π(·|s)是给定状态下在上的分布，其中是轨迹的数据集。

在RL中，代理通过在每个时间步长做出决定，来与环境进行交互。在开始时，假设代理处于状态s₀～μ(·)，其中μ(·)是初始状态分布。在时间步长t，代理选择其动作a_t～π(·|s_t)，并到达接收相应的奖励可以将策略π的性能定义为对轨迹折现回报的预期：

其中，表示轨迹的折现回报。

由于轨迹分布是未知的，可以通过蒙特卡罗采样来估计J(π)。为了提高样本效率，离线策略算法可以利用经由重要性采样根据其它策略采样的轨迹。值得注意的是，在重放缓冲区中有m个轨迹。轨迹是根据策略采样的，即

为了简化和清晰起见，应当注意，和在离线策略评估中，为了估计与对轨迹进行采样的策略不同的目标策略π的J(π)，可以使用重要性采样来修改中每个轨迹的回报权重。由此获得的针对目标策略π的性能的重要性采样估计可以写成：

其中，表示使用策略π来生成轨迹的概率，即

在本公开内容的一个方面，提出了重用偏差(或简称偏差)的新概念，以用于测量离线策略评估方法中的偏差。假设策略的假设集合是对于任何离线策略算法，其可以格式化为映射该映射以初始化的策略和重放缓冲区为输入，并输出策略

在离线策略评估中，在式(2)中定义的重要性采样估计可以用作预期回报的近似值。可以将它们的差定义为离线策略算法对初始化策略π₀和重放缓冲区的重用偏差(或简称为偏差)，如本文所给出的。对于任何离线策略算法初始化策略π₀和重放缓冲区在π₀和上的重用偏差(或简称偏差)可以定义为：

当要估计的分布独立于样本时，重要性采样可以是无偏估计。因此，当独立于时，离线策略评估是无偏的，即然而，实际的离线策略算法通常可以利用重放缓冲区中的轨迹来优化目标策略。在这种情况下，目标策略确实依赖于这使得离线策略的评估不再是无偏的。

在本公开内容的一个或多个方面，从理论角度表明，当重复使用轨迹的相同重放缓冲区来进行优化和评估时，经由重要性采样的离线策略评估是过高估计的。首先假设离线策略算法满足具有通过的最高的估计性能的条件，其中是在重放缓冲区上的最优策略，即，

为了简化符号，设置可以重新采样数据集它独立于因此，具有

考虑以下事实，是数据集上的最优策略，那么可以具有

在式(7)中，第一等式可以成立，因为内部部分独立于数据集

因此，证明了这意味着是对的过高估计，即如果等式成立，那么对于任何具有：

换言之，对于任何成立。

在本公开内容的另一个方面，可以表明，在某些假设下，估计的性能甚至可以大于最优策略的性能。假设动作空间是离散的，并且任何状态-动作对(s,a)的奖励都不是负的，即并且π^*是最优策略，是轨迹上的最优策略，即，

为了简化符号，设置首先，设置

已知对于任何和π，那么，对于任何满足的具有因此，具有

也就是说，具有如果该不等式取等号，那么对于任何满足的状态动作对(s,a)，都满足π^*(a|s)＝1的情况。

由于在非试验环境中可能不满足式(12)中的相等条件，因此重用偏差可能导致将甚至坏的策略过度估计为具有比最优策略更高的价值。这可能导致策略优化和最终性能的退化。

图1示出了根据本公开内容的一个或多个方面的、通过MiniGrid中的实验结果经由重要性采样的离线策略评估中的重用偏差(或简称为偏差)的示例。MiniGrid包括不同形状的网格，例如图1的实验中使用的5×5,6×6,8×8,16×16，并且这些网格中的每个网格具有离散的状态空间和离散的动作空间。在实验中，可以将策略初始化为使用三层卷积神经网络进行参数化，并且将40个轨迹采样作为重放缓冲区。在实验的优化阶段，可以使用策略梯度方法，以通过最大化通过经由重放缓冲区的重要性采样获得的估计性能来优化策略。在实验的测试阶段，可以计算通过使用经由重放缓冲区的重要性采样来获得的优化策略的估计性能，以及该优化策略的真实性能。每个不同网格的实验可以用50个不同的随机种子进行测试。以盒状图100的形式来报告结果。在图1的每个子图中，在左边示出了优化策略的真实性能的分布，而在右边示出了优化策略的估计性能的分布。在每个盒状图中，盒状图的顶部110和底部120处的水平线分别表示最大值和最小值，盒状图的顶部130和底部140处的水平线分别表示第一四分位数和第三四分位数。此外，盒状图中的虚线和加号分别表示中值和期望值。

如图1中所示，在每个环境(例如，5×5,6×6,8×8,16×16网格)中，估计的性能高于真实性能。这与根据本公开内容的一个或多个方面的理论观点一致，即，使用相同的重放缓冲区来优化和评估策略可能导致过高估计。此外，不同网格的相对重用偏差(或简称相对偏差)(即，分别为0.35、0.89、1.88、29.37。因此，当网格环境更大、更复杂时，这些实验中显示的重用偏差(或简称偏差)更大，这意味着这种过高估计的现象在更复杂的环境中会更严重。

尽管当要估计的分布独立于由另一分布生成的样本时，重要性采样可以是无偏估计，但是本公开内容的观察结果表明，当要估计的分布依赖于由另一分布生成的样本时，在估计中存在不可避免且不可忽略的偏差，这可能是实际的离线策略算法的情况。因此，考虑到要估计的分布依赖于由另一分布生成的样本时，重要性采样中存在不可避免且不可忽略的偏差，本文提出了一种用于偏差正则化重要性采样的方法，以提高离线策略方法的性能和样本效率。

在本公开内容的一个方面，为了控制偏差，可以设置偏差的边界。可以认为，所有轨迹都是通过单个策略采样的，并且可以提供用于偏差的高概率边界。可以假设，对于任何轨迹可以将其回报设置边界为然后，对于任何离线策略算法和初始策略在选择由相同策略采样的独立同分布训练集上具有至少1-δ的概率的情况下，以下公式可以成立：

其中，

在式(14)中，∈₁(作为和的轨迹分布的KL散度)可以指示它们之间的相似性。此外，ε₂可以关注这两个策略在重放缓冲区上的相似性。从公式(13)中可以得出，当样本数m趋于无穷大时，高概率边界将收敛到而不是零。因此，不能仅通过增加轨迹样本的数量来消除偏差。

在本公开内容的一个或多个方面，基于式(13)，高概率上界取决于这两个策略的KL散度及其在上的概率。因此，控制它们的散度(尤其是在上的散度)，有助于离线策略评估。

图2示出了根据本公开内容的一个或多个方面的、用于控制偏差的偏差正则化重要性采样(BIRIS)的方法200的示例性流程。方法200可以与常规的离线策略方法一起使用，例如用于随机策略和/或确定性策略。在框210，可以通过与环境交互的一个或多个行为策略，将一个或多个轨迹采样为数据集，其中，所述一个或多个轨迹中的每个轨迹包括状态、动作以及对状态和动作的相应奖励的序列。例如，该数据集可以是或者包括重放缓冲区。在框220，可以经由重要性采样，基于通过使用一个或多个轨迹而获得的估计来评估目标策略的性能。在框230，可以通过使性能的估计最大化，同时约束该估计与数据集上的性能的偏差，来优化该数据集上的目标策略。

在方法200中，通过在优化中引入对偏差的约束，可以减轻如本文所提出的观察结果所阐释的偏差的负面影响，从而可以相应地提高传统离线策略强化学习算法的性能。

举一个例子，可以将方法200用公式表示为：

其中，

在式(15)中，可以是传统离线策略强化学习(RL)算法的标称损失函数，而可以是用于惩罚偏差的正则化项。例如，在框230处的优化期间，可以使用标称损失函数通过使目标策略的性能估计最大化，同时通过正则化项惩罚偏差，来改进目标策略。

在本公开内容的一个方面，目标策略可以不同于一个或多个行为策略。例如，所述一个或多个行为策略可以是随机的。例如，目标策略可以是随机的或确定性的。

在本公开内容的另一个方面，由于重复使用数据集进行优化和评估，因此偏差可能包括对目标策略的性能的过高估计。

在本公开内容的另一个方面，在框230处的优化期间，在式(15)中可以使用超参数α，以控制标准RL损失和正则化损失之间的权衡。

在本公开内容的一个或多个方面，可以使用正则化项来计算任何状态动作对的以便控制ε₂，例如可以将对偏差的约束用公式表示为：

因为ε₂可以变形为：

图3示出了根据本公开内容的一个或多个方面的、用于控制偏差的偏差正则化重要性采样(BIRIS)的方法300的另一示例性流程。方法300在大多数过程中可以类似于方法200。在框310，可以通过与环境进行交互的一个或多个行为策略将一个或多个轨迹采样为数据集，其中所述一个或多个轨迹中的每一个轨迹包括状态、动作以及对状态和动作的相应奖励的序列。在框320，可以经由重要性采样，基于使用所述一个或多个轨迹而获得的估计来评估目标策略的性能。在框330，可以通过使性能的估计最大化，同时约束该估计与数据集上的性能的偏差，来优化该数据集上的目标策略。然后，方法300的过程可以返回到框310，在框310中，可以使用先前在框330优化的历史策略来更新所述一个或多个行为策略，其中这些历史策略不同于在框330的最新迭代中优化的目标策略(即，当前策略)。例如，所述一个或多个行为策略可以包括在优化期间的历史策略，并且目标策略是在优化期间的当前策略。通过使用历史策略作为行为策略，可以在一定程度上控制ε₁的KL散度。

图4示出了根据本公开内容的一个或多个方面的、偏差正则化重要性采样(BIRIS)框架400的示例图，其中在框架400中可以实现方法200或300。框架400可以包括采样或数据集收集410和优化420。在采样或数据集收集410中，一个或多个行为策略412可以与环境411交互(例如，通过动作413和下一状态以及相应的奖励414进行交互)，以对一个或多个轨迹415进行采样以传递到优化420。优化420可以包括常规离线策略强化学习(RL)算法421的标称损失函数和惩罚偏差的正则化项422，通过它们可以优化目标策略423以获得最优策略。作为由虚线424所示的选项，可以使用与在最新迭代中优化的当前策略不同的先前优化的策略423，来更新一个或多个行为策略412。

图5和图6示出了两种通用离线策略算法SAC(柔性动作评价)和TD3(双延迟深度确定性策略梯度)与本文提出的方法(例如，方法200和/或方法300和/或框架400)相结合的各自实验结果。由于环境(例如，Ant、Halfcheetah、Humanoid和Walker2d)和策略是随机的，因此针对每个任务中的每个算法训练10个具有不同随机种子的策略。为了减轻随机性的影响，将这10个策略的平均值和方差绘制为训练阶段的时间步长(如横轴所示)的函数。此外，实线表示10个策略的平均奖励，阴影较浅的部分表示它们的方差。在图5中报告了SAC和SAC+BIRIS的比较，在图6中报告了TD3和TD3+BIRIS的比较，其中纵轴指示回合奖励。如结果所示，与SAC或TD3相比，SAC+BIRIS或TD3+BIRIS可以学习到更好的策略。

图7示出了根据本公开内容的一个或多个方面的装置700的硬件实现的例子。用于强化学习的装置700可以包括存储器710和至少一个处理器720。处理器720可以耦合到存储器710，并且被配置为执行上面参考图2、图3和图4描述的方法200、300和框架400。处理器720可以是通用处理器，或者也可以实现为计算设备的组合，例如DSP和微处理器的组合、多个微处理器、结合DSP核心的一个或多个微处理器、或者任何其它这样的配置。存储器710可以存储输入数据、输出数据、由处理器720生成的数据、和/或由处理器720执行的指令。

结合本文公开内容描述的各种操作、模型和网络可以利用硬件、由处理器执行的软件、固件、计算机或其任何组合来实现。根据本公开内容的一个或多个方面，用于强化学习的计算机程序产品可以包括用于执行上面参考图2、图3和图4描述的方法200、300和框架400的处理器可执行计算机代码。根据本公开内容的另一个实施例，计算机可读介质可以存储用于强化学习的计算机代码，当该计算机代码被处理器执行时，可以使处理器执行上面参考图2、图3和图4描述的方法200、300和框架400。计算机可读介质包括非临时性计算机存储介质和通信介质，通信介质包括有助于将计算机程序从一个地方传送到另一个地方的任何介质。任何连接都可以适当地称为计算机可读介质。其它实施例和实现方式也落入本公开内容的保护范围内。

在本公开内容的一个实施例中，目标策略可以不同于一个或多个行为策略。例如，目标策略可以是随机的或确定性的，并且一个或多个行为策略可以是随机的。再举一个例子，一个或多个行为策略可以是历史策略，在优化期间在最新迭代之前的先前迭代中已经优化了这些历史策略，并且目标策略可以是在优化期间在最新迭代中已经优化了的当前策略。也就是说，除了的最新输出之外的的先前输出可以用作行为策略。

在本公开内容的一个实施例中，偏差可能是由于重用数据集进行优化和评估，并且可能导致估计具有比性能更高的值。

在本公开内容的一个实施例中，可以经由正则化项来约束偏差。

在本公开内容的一个实施例中，可以基于标称损失函数、正则化项和超参数来进行优化，超参数用于控制标称损失函数和正则化项之间的平衡。例如，超参数可以具有0.01、0.05或0.1的值。

在本公开内容的一个实施例中，方法200、300和/或框架400可以容易地与其它离线策略强化学习方法(例如，SAC、TD3)一起使用，以提高这些方法的性能。

例如，对于SAC+BIRIS，可以采用以下计算来控制ε₂：

然而，当太小时，该比值可能是不稳定的。因此，为了避免的值过低所引起的数值不稳定，可以在SAC+BIRIS中使用超参数β将该值剪为：

其中，β的值可以是-0.5、-1.0或-2.0。

为使本领域任何普通技术人员能够实现或者使用各个实施例，上面围绕所公开实施例进行了描述。对于本领域普通技术人员来说，对这些实施例的各种修改是显而易见的，并且，本文定义的总体原理也可以在不脱离各个实施例的精神或保护范围的基础上适用于其它实施例。因此，本发明并不限于本申请所示出的实施例，而是符合与所附权利要求和本文公开的原理和新颖性特征相一致的最广范围。

Claims

1.一种用于强化学习的计算机实现方法，包括：

通过一个或多个行为策略将一个或多个轨迹采样为数据集，其中所述一个或多个轨迹中的每一个轨迹包括状态、动作以及对所述状态和所述动作的相应奖励的序列；

经由重要性采样，基于使用所述一个或多个轨迹而获得的估计来评估目标策略的性能；以及

通过使所述性能的所述估计最大化，同时约束所述估计与所述数据集上的所述性能的偏差，来优化所述数据集上的所述目标策略。

2.根据权利要求1所述的计算机实现方法，其中，所述目标策略不同于所述一个或多个行为策略。

3.根据权利要求1所述的计算机实现方法，其中，所述偏差是由于将所述数据集重新用于所述优化和所述评估，并且使得所述估计具有比所述性能更高的值。

4.根据权利要求1所述的计算机实现方法，其中，所述偏差是经由正则化项来约束的。

5.根据权利要求4所述的计算机实现方法，其中，所述优化是基于标称损失函数、所述正则化项和超参数来进行的，所述超参数用于控制所述标称损失函数和所述正则化项之间的平衡。

6.根据权利要求5所述的计算机实现方法，其中，所述超参数具有0.01、0.05或0.1的值。

7.根据权利要求1所述的计算机实现方法，其中，所述一个或多个行为策略包括在所述优化期间的历史策略，并且所述目标策略是在所述优化期间的当前策略。

8.一种用于控制任务的强化学习的计算机实现方法，包括：

通过使所述性能的所述估计最大化，同时约束所述估计与所述数据集上的所述性能的偏差，来优化所述数据集上的所述目标策略；

其中，所述数据集包括图像、语音或其它传感器数据，以及

其中，学习所述目标策略以控制任务，该任务包括控制机器人、车辆、家用电器、电动工具、制造业机器、个人助理或访问控制系统。

9.一种用于强化学习的装置，包括：

存储器；以及

至少一个处理器，其耦合到所述存储器并且被配置为执行根据权利要求1-8之一所述的计算机实现方法。

10.一种用于强化学习的计算机程序产品，包括：用于执行根据权利要求1-8之一所述的计算机实现方法的处理器可执行计算机代码。

11.一种存储有用于强化学习的计算机代码的计算机可读介质，当所述计算机代码由处理器执行时，使得所述处理器执行根据权利要求1-8之一所述的计算机实现方法。