CN108038538A

CN108038538A - 基于强化学习的多目标进化算法

Info

Publication number: CN108038538A
Application number: CN201711279238.2A
Authority: CN
Inventors: 郭宝龙; 郭新兴; 宁伟康; 李�诚; 安陆; 闫允; 闫允一; 陈祖铭; 李星星
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2017-12-06
Filing date: 2017-12-06
Publication date: 2018-05-15

Abstract

本发明公开了基于强化学习的多目标进化算法，从搜索空间中随机产生初始种群，对所求得的种群进行评价；对不满足终止条件的种群，利用强化学习选择的DEvariant算子和T算子产生新的值，并对其与邻域的值进行交叉，变异产生新解；产生的新解，与原种群的解进行比较，选择使子问题函数满足最优值的解，来更新种群；利用产生的新种群，计算出新的5维观察向量和回报值R，进而更新RL控制器的状态；判断是否满足终止条件，不满足则不断进行迭代计算，直到满足终止条件，结束。本发明有效解决了MOEA/D对于T参数调节不敏感的问题。

Description

基于强化学习的多目标进化算法

技术领域

本发明涉及科学和工程技术领域，尤其涉及基于强化学习的多目标进化算法。

背景技术

在科学和工程领域存在大量的多目标优化问题(Multi-objectiveOptimizationProblem，MOP)，与单目标优化问题(Single-objectiveOptimization Problem，SOP)不同，MOP的最优解是由所谓Pareto最优解组成的集合。传统多目标优化算法包括加权法、约束法、目标规划法和极小极大法等。这些方法都是将MOP转换为SOP，其缺点是需要充分的先验知识，而且难以处理目标噪声，鲁棒性较差。由于多目标优化问题的目标函数和约束函数可能是非线性、不可微或不连续的，传统的数学规划方法往往效率较低，且它们对于权重值或目标给定的次序较敏感。

2.进化算法(EvolutionaryAlgorithm，EA)是一种模拟自然进化过程的随机全局优化方法，EA采用群体搜索和群体中个体间信息交换的方式搜索问题的解。由于EA固有的并行性，有可能在模拟中找到多个Pareto最优解。与传统算法比较，其优点在于：首先，进化搜索过程具有随机性，不易陷入局部最优；其次，EA具有固有的并行性，能够同时进化寻找到多个解，适合多目标优化问题；第三，能够处理不连续，不可微和Pareto前沿非凸等问题，不需要过多先验知识。

3.算法基于Pareto占优机制，采用不同的适应度分配策略和选择机制；采取不同方案保持种群多样性并避免算法过早收敛，使得算法的Pareto解分布均匀。

4.作为一种高效的和具有良好鲁棒性的多目标优化器，由于多目标进化算法的优势，MOEA已经被广泛应用于科学和工程的许多领域，包括控制工程、系统规划、生产调度、数据挖掘等。

5.MOEA/D将MOP分解为N个标量的子问题。它通过进化出一个解的种群来同时解决所有子问题。对于每一代种群，种群是从所有代中选出的每一个子问题的最优解的集合。相邻两个子问题键的关联程度是由它们的聚合系数向量间的距离所决定的。对于两个相邻子问题来说，最优解应该是非常相似的。对于每一个子问题来说，只是用与其相邻的子问题的信息来优化它。

MOEA/D有以下特性：

MOEA/D提供了一个简单但是有效的方法，那就是将分解的方法引入到多目标进化计算中。对于常常在数学规划领域发展的分解方法，它可以真正的被并入到EA中，通过使用MOEA/D框架来解决MOP问题。因为MOEA/D算法是同时优化N标量子问题而不是直接将MOP问题作为一个整体来解决，那么对于传统的并不是基于分解的MOEA算法来说适应度分配和多样性控制的难度将在MOEA/D框架中得到降低。

6.但是，MOEA/D存在着不足，就是对于T参数调节不敏感，T小了没有广度，大了没有深度，自适应调节能力差。

发明内容

本发明的目的在于克服现有技术的缺点，提供基于强化学习的多目标进化算法，以解决上述技术问题。

为实现上述目的本发明采用以下技术方案：

基于强化学习的多目标进化算法，包括如下步骤：步骤1、从搜索空间中随机生成初始种群；

步骤2、对所求得的种群根据评估准则进行评价；

步骤3、更新搜索到的目标函数的最佳值；

步骤4、利用产生的近似解Z^*和终止条件进行比较判断，满足就结束；对不满足终止条件的种群，利用强化学习RL控制器选择的DEvariant算子和T算子产生新的值，并对其与邻域的值进行交叉，变异产生新解；

步骤5、产生的新解与原种群的解进行比较，选择使子问题函数满足最优值的解，来更新种群；

步骤6、利用产生的新种群，计算出新的5维观察向量和回报值R，进而更新RL控制器的状态，判断是否满足终止条件，不满足则不断进行迭代计算，直到满足终止条件，结束。

优选的，所述步骤1的具体步骤为：

步骤1.1、计算任意两个权重向量间的欧式距离，查找每个权重向量最近的T个权重向量，其中T是每一个邻域中的权重向量的个数，对于每个i＝1,…,N，令B_i＝{i₁,…,i_T}，λⁱ ₁,…λⁱ _T是λⁱ最近的T个权重向量；

步骤1.2、建立一个外部种群EP，用于存储搜索最优解过程中找到的非支配解，初始化EP为空；

步骤1.3、从搜索空间中均匀随机采集生成使目标函数F(X)＝(f₁(x),f₂(x),…,f_i(x))取最优值的解作为初始种群，其中i＝1,2,...,m；X为一组决策向量，x是自变量；

步骤1.4、利用切比雪夫方法，将目标函数F(X)分解成N层子问题：其中，第i个子问题的相邻关系由所有的子问题关于λⁱ点的权重向量来表示，Z^*是目前能搜索到的目标函数的最优向量值，也称为近似解,Z^*＝min{(f₁(x),f₂(x),…,f_i(x))}。

优选的，所述步骤4中产生的值与其邻域的值进行如下运算，产生新解：步骤4.1选择运算：从B(i)中随机选取两个序号h,k,运用遗传算子由x^h和x^k产生一个新的值，其中x^h是第h个子问题的当前的最优解，和x^k是第k个子问题的当前的最优解；把产生的值与其邻域的值进行比较，进行优胜略汰操作，选择适应度高的优秀的值留下来，遗传到下一代；

步骤4.2交叉运算：对种群中的个体进行配对，进行基因的交叉操作，产生新的个体；

步骤4.3变异运算：对基因值进行低概率的变动操作。

优选的，所述步骤6中回报值R由以下公式得出：

本发明的有益效果是：本发明引入了强化学习机制，利用RL控制器不断优化，可以做到参数的自适应；具体为利用强化学习的RL控制器选择的算子，根据最大奖励R和五维观察向量，来产生最优值不断优化种群，直到满足终止条件，有效解决了MOEA/D对于T参数调节不敏感的问题。

附图说明

图1为本发明方法流程示意图。

图2为本发明在测试UF3问题的验证效果图。

图3为本发明在测试UF7问题的验证效果图。

具体实施方式

下面结合附图和具体实施例对本发明作进一步详细阐述。

如图1所示，基于强化学习的多目标进化算法，包括如下步骤：

步骤1、从搜索空间中随机生成初始种群；

步骤2、对所求得的种群根据评估准则进行评价；

步骤3、更新搜索到的目标函数的最佳值；

产生的值与其邻域的值进行如下运算，产生新解：

步骤4.1选择运算：从B(i)中随机选取两个序号h,k,运用遗传算子由x^h和x^k产生一个新的值，其中x^h是第h个子问题的当前的最优解，和x^k是第k个子问题的当前的最优解；把产生的值与其邻域的值进行比较，进行优胜略汰操作，选择适应度高的优秀的值留下来，遗传到下一代；

步骤4.3变异运算：对基因值进行低概率的变动操作。

回报值R由以下公式得出：

如图2-3所示，为了表明算法的有效性，选取了两个标准测试集UF3，UF7来验证。其中UF3，UF7为2个目标的优化问题。群体规模设为300。实验结果表明，基于强化学习的多目标优化算法在对T参数的调节上优于的MOEA/D算法。

本发明引入了强化学习机制，利用RL控制器不断优化，可以做到参数的自适应；利用强化学习的RL控制器选择的算子，根据最大奖励R和五维观察向量，来产生最优值不断优化种群，直到满足终止条件，有效解决了MOEA/D对于T参数调节不敏感的问题。

以上所述为本发明较佳实施例，对于本领域的普通技术人员而言，根据本发明的教导，在不脱离本发明的原理与精神的情况下，对实施方式所进行的改变、修改、替换和变型仍落入本发明的保护范围之内。

Claims

1.基于强化学习的多目标进化算法，其特征在于，包括如下步骤：

步骤1、从搜索空间中随机生成初始种群；

步骤2、对所求得的种群根据评估准则进行评价；

步骤3、更新搜索到的目标函数的最佳值；

2.根据权利要求1所述的基于强化学习的多目标进化算法，其特征在于，所述步骤1的具体步骤为：

3.根据权利要求2所述的基于强化学习的多目标进化算法，其特征在于，所述步骤4中产生的值与其邻域的值进行如下运算，产生新解：步骤4.1选择运算：从B(i)中随机选取两个序号h,k,运用遗传算子由x^h和x^k产生一个新的值，其中x^h是第h个子问题的当前的最优解，和x^k是第k个子问题的当前的最优解；把产生的值与其邻域的值进行比较，进行优胜略汰操作，选择适应度高的优秀的值留下来，遗传到下一代；

步骤4.3变异运算：对基因值进行低概率的变动操作。

4.根据权利要求3所述的基于强化学习的多目标进化算法，其特征在于，所述步骤6中回报值R由以下公式得出：

<mrow> <mi>R</mi> <mo>=</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>N</mi> </munderover> <mfrac> <mrow> <msup> <mi>g</mi> <mrow> <mi>t</mi> <mi>e</mi> </mrow> </msup> <mrow> <mo>(</mo> <msubsup> <mi>X</mi> <mrow> <mi>t</mi> <mo>-</mo> <mn>1</mn> </mrow> <mi>i</mi> </msubsup> <mo>|</mo> <msup> <mi>&lambda;</mi> <mi>i</mi> </msup> <mo>,</mo> <mi>z</mi> <mo>*</mo> <mo>)</mo> </mrow> <mo>-</mo> <msup> <mi>g</mi> <mrow> <mi>e</mi> <mi>t</mi> </mrow> </msup> <mrow> <mo>(</mo> <msubsup> <mi>X</mi> <mi>t</mi> <mi>i</mi> </msubsup> <mo>|</mo> <msup> <mi>&lambda;</mi> <mi>i</mi> </msup> <mo>,</mo> <mi>z</mi> <mo>*</mo> <mo>)</mo> </mrow> </mrow> <mrow> <msup> <mi>g</mi> <mrow> <mi>t</mi> <mi>e</mi> </mrow> </msup> <mrow> <mo>(</mo> <msubsup> <mi>X</mi> <mrow> <mi>t</mi> <mo>-</mo> <mn>1</mn> </mrow> <mi>i</mi> </msubsup> <mo>|</mo> <msup> <mi>&lambda;</mi> <mi>i</mi> </msup> <mo>,</mo> <mi>z</mi> <mo>*</mo> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>.</mo> </mrow>