CN118917259A

CN118917259A - 基于强化学习的与非图优化方法、装置、计算机设备、可读存储介质和程序产品

Info

Publication number: CN118917259A
Application number: CN202411422114.5A
Authority: CN
Inventors: 徐俊刚; 刘淼
Original assignee: University of Chinese Academy of Sciences
Current assignee: University of Chinese Academy of Sciences
Priority date: 2024-10-12
Filing date: 2024-10-12
Publication date: 2024-11-08
Anticipated expiration: 2044-10-12
Also published as: CN118917259B

Abstract

本申请涉及一种基于强化学习的与非图优化方法、装置、计算机设备、可读存储介质和程序产品。通过强化学习模型根据待优化的与非图的嵌入特征和预设逻辑优化工具，确定与非图对应的多个状态以及各个状态对应的各个目标预设与非图优化算法，输出各个目标预设与非图优化算法对应的优化序列，基于优化序列中各个优化算法，对与非图进行优化。相较于传统的基于人工经验进行优化，本方案通过利用强化学习框架和逻辑优化工具训练强化学习模型，利用训练好的强化学习模型对与非图的嵌入特征进行预测学习，识别特征对应的多个状态和各个状态对应的优化算法，基于模型输出的各个优化算法对与非图进行优化，提高了对与非图优化的效率。

Description

基于强化学习的与非图优化方法、装置、计算机设备、可读存储介质和程序产品

技术领域

本申请涉及电子自动化技术领域，特别是涉及一种基于强化学习的与非图优化方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。

背景技术

在电子设计自动化中，逻辑综合的过程包括逻辑转换，逻辑优化和工艺映射，逻辑优化是将逻辑表达式转化为“最佳实现 ”，在复杂程度、面积、延迟等参数上综合考虑最优，即针对现有的逻辑表达进行化简，其中针对与非图的优化是逻辑优化过程的必要步骤。目前对与非图进行优化通常是通过人工对其进行优化。然而，基于人工经验进行优化，存在耗时耗力进而导致效率低下的问题。

因此，目前对与非图优化的方法存在优化效率低的缺陷。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提高优化效率的基于强化学习的与非图优化方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。

第一方面，本申请提供了一种基于强化学习的与非图优化方法，所述方法包括：

获取待优化的与非图，提取所述与非图对应嵌入特征；

将所述嵌入特征输入经训练的强化学习模型，由所述强化学习模型根据所述嵌入特征和预设逻辑优化工具，确定所述与非图对应的多个状态以及各个所述状态对应的各个目标预设与非图优化算法，根据各个所述目标预设与非图优化算法输出优化序列；所述强化学习模型在预设强化学习框架中基于与非图样本和所述预设逻辑优化工具训练得到；

根据所述优化序列中的各个目标预设与非图优化算法，对所述与非图进行优化。

在其中一个实施例中，所述方法还包括：

根据所述预设逻辑优化工具，构建预设强化学习框架；所述预设逻辑优化工具中包括多个预设与非图优化算法；

获取待训练的强化学习模型、与非图样本以及所述与非图样本对应的优化序列样本，提取所述与非图样本对应的嵌入特征样本；

在所述预设强化学习框架内，将所述嵌入特征样本输入所述强化学习模型，由所述强化学习模型基于所述嵌入特征样本确定所述与非图样本对应的当前状态；

根据所述当前状态，从所述预设逻辑优化工具中的多个预设与非图优化算法中确定对应的预设与非图优化算法样本；

执行所述预设与非图优化算法样本，得到所述与非图样本对应的新的当前状态；

返回根据所述当前状态，从所述预设逻辑优化工具中的多个预设与非图优化算法中确定对应的预设与非图优化算法样本的步骤，直至满足预设预测结束条件时，根据各个所述预设与非图优化算法样本输出优化序列预测信息；

将所述优化序列预测信息和所述优化序列样本输入预设损失函数，根据所述预设损失函数的输出值，调整所述强化学习模型的模型参数，直至满足预设训练结束条件时，得到经训练的所述强化学习模型。

在其中一个实施例中，所述根据所述当前状态，从所述预设逻辑优化工具中的多个预设与非图优化算法中确定对应的预设与非图优化算法样本，包括：

针对所述预设逻辑优化工具中的每个预设与非图优化算法，获取所述预设与非图优化算法在所述当前状态下对应的模拟执行结果；

根据所述当前状态和所述模拟执行结果，确定所述预设与非图优化算法对应的动作概率；

根据各个所述预设与非图优化算法中所述动作概率最大的预设与非图优化算法，得到所述当前状态对应的预设与非图优化算法样本。

在其中一个实施例中，所述将所述嵌入特征输入经训练的强化学习模型，由所述强化学习模型根据所述嵌入特征和预设逻辑优化工具，确定所述与非图对应的多个状态以及各个所述状态对应的各个目标预设与非图优化算法，根据各个所述目标预设与非图优化算法输出优化序列，包括：

基于所述嵌入特征确定所述与非图对应的当前状态；

根据所述当前状态，从所述预设逻辑优化工具中确定对应的目标预设与非图优化算法；

执行对应的所述目标预设与非图优化算法，得到所述与非图对应的新的当前状态；

返回根据所述当前状态，从所述预设逻辑优化工具中确定对应的目标预设与非图优化算法的步骤，直至满足预设预测结束条件时，根据各个所述目标预设与非图优化算法输出所述优化序列。

在其中一个实施例中，所述根据所述优化序列中的各个目标预设与非图优化算法，对所述与非图进行优化，包括：

将所述优化序列中的首个目标预设与非图优化算法作为当前待执行算法；

根据所述当前待执行算法对待优化的所述与非图进行优化，得到新的待优化的与非图；

获取所述优化序列中所述当前待执行算法对应的下一个目标预设与非图优化算法，作为新的当前待执行算法；

返回根据所述当前待执行算法对待优化的所述与非图进行优化的步骤，直至所述优化序列中的各个所述目标预设与非图优化算法均执行完毕，得到优化完成的所述与非图。

在其中一个实施例中，所述提取所述与非图对应嵌入特征，包括：

获取所述与非图对应的图嵌入特征；

根据所述与非图中的各个节点，提取节点嵌入特征；

根据所述图嵌入特征和所述节点嵌入特征，得到所述与非图对应的嵌入特征。

第二方面，本申请提供了一种基于强化学习的与非图优化装置，所述装置包括：

获取模块，用于获取待优化的与非图，提取所述与非图对应嵌入特征；

预测模块，用于将所述嵌入特征输入经训练的强化学习模型，由所述强化学习模型根据所述嵌入特征和预设逻辑优化工具，确定所述与非图对应的多个状态以及各个所述状态对应的各个目标预设与非图优化算法，根据各个所述目标预设与非图优化算法输出优化序列；所述强化学习模型在预设强化学习框架中基于与非图样本和所述预设逻辑优化工具训练得到；

优化模块，用于根据所述优化序列中的各个目标预设与非图优化算法，对所述与非图进行优化。

第三方面，本申请提供了一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述的方法的步骤。

第四方面，本申请提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述的方法的步骤。

第五方面，本申请提供了一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现上述的方法的步骤。

上述基于强化学习的与非图优化方法、装置、计算机设备、计算机可读存储介质和计算机程序产品，通过强化学习模型根据待优化的与非图的嵌入特征和预设逻辑优化工具，确定与非图对应的多个状态以及各个状态对应的各个目标预设与非图优化算法，输出各个目标预设与非图优化算法对应的优化序列，基于优化序列中各个优化算法，对与非图进行优化。相较于传统的基于人工经验进行优化，本方案通过利用强化学习框架和逻辑优化工具训练强化学习模型，利用训练好的强化学习模型对与非图的嵌入特征进行预测学习，识别特征对应的多个状态和各个状态对应的优化算法，基于模型输出的各个优化算法对与非图进行优化，提高了对与非图优化的效率。

附图说明

为了更清楚地说明本申请实施例或相关技术中的技术方案，下面将对本申请实施例或相关技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为一个实施例中基于强化学习的与非图优化方法的流程示意图；

图2为一个实施例中与非图的结构示意图；

图3为一个实施例中强化学习框架的结构示意图；

图4为一个实施例中强化学习模型预测的结构示意图；

图5为一个实施例中基于强化学习的与非图优化装置的结构框图；

图6为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

在一个实施例中，如图1所示，提供了一种基于强化学习的与非图优化方法，本实施例以该方法应用于服务器进行举例说明，可以理解的是，该方法也可以应用于终端，还可以应用于包括终端和服务器的系统，并通过终端和服务器的交互实现，包括以下步骤S202至步骤S206。其中：

步骤S202，获取待优化的与非图，提取与非图对应嵌入特征。

其中，在电子设计自动化中，需要对电路进行逻辑综合步骤，包括逻辑转换，逻辑优化和工艺映射。其中，逻辑转换是将其他形式的逻辑表达式转化为方便处理的逻辑表达式，逻辑优化是将逻辑表达式转化为“最佳实现 ”，在复杂程度、面积、延迟等参数上综合考虑最优。为了获取这些指标和参数，工艺映射可以实现将门电路转化为指定工艺的标准单元网表，通过物理设计分析可以得到基于单元库中的延迟和面积等参数。其中，面积是指工艺映射阶段之后该逻辑电路在芯片中占用的面积。延迟是指工艺映射阶段之后该逻辑电路在芯片中从输入到输出所需要的单位时间长度。

对与非图的逻辑优化是保证电路效果的必要举措，目前对复杂电路设计不能一次性完成逻辑优化，因此对于与非图，需要利用一系列优化算法生成优化序列，以对与非图进行逐步针对性优化。其中，与非图是指只包含二输入与门和非门的逻辑网络。

其中，服务器可以是对待优化的电路的待优化的与非图进行优化的计算机设备。服务器中的程序可以通过强化学习的方式对待优化的与非图进行优化。例如，服务器中的程序基于深度强化学习框架和强化学习模型构建，引入自适应学习机制，能够根据实时反馈调整优化反向。使得强化学习框架在训练和后续测试过程中不断优化自身的模型，提高了在不同与非图和约束条件下的适应性与效果。

为实现对上述与非图的优化，需要提取与非图对应的相关特征。服务器中的程序在预处理阶段可以在获取待优化的与非图后，提取上述与非图对应的嵌入特征。其中，上述嵌入特征包括多种类型的嵌入特征。服务器中的程序可以结合多种类型的嵌入特征得到上述与非图对应的嵌入特征。

在一个实施例中，提取与非图对应嵌入特征，包括：获取与非图对应的图嵌入特征；根据与非图中的各个节点，提取节点嵌入特征；根据图嵌入特征和节点嵌入特征，得到与非图对应的嵌入特征。

本实施例中，上述待优化的与非图对应的嵌入特征可以包括多种，例如图嵌入特征和节点嵌入特征等。

其中，如图2所示，图2为一个实施例中与非图的结构示意图。可以得知待优化的与非图中包括多个节点以及多个与门和非门。服务器中的程序可以获取上述与非图对应的图嵌入特征。图嵌入特征主要包括将上述与非图数据转化为低维向量表示，同时尽可能保留原始图的结构和节点之间的关系信息。上述与非图中包括多个节点，服务器中的程序可以根据与非图中的各个节点，提取对应的节点嵌入特征。其中，节点嵌入特征可以是将与非图中的节点映射到一个低维向量空间中，以保留节点在网络中的结构信息。从而服务器中的程序可以根据上述图嵌入特征和节点嵌入特征，得到上述与非图对应的嵌入特征。

步骤S204，将嵌入特征输入经训练的强化学习模型，由强化学习模型根据嵌入特征和预设逻辑优化工具，确定与非图对应的多个状态以及各个状态对应的各个目标预设与非图优化算法，根据各个目标预设与非图优化算法输出优化序列；强化学习模型在预设强化学习框架中基于与非图样本和预设逻辑优化工具训练得到。

其中，强化学习是指智能体以“试错”的方式进行学习，通过与环境进行交互获得的奖赏指导行为，目标是使智能体获得最大的奖赏。服务器中的程序训练的后端可以预先在预设强化学习框架中，基于与非图样本和预设逻辑优化工具，对待训练的强化学习模型进行训练，得到上述经训练的强化学习模型。其中，上述强化学习模型也可以是一种深度学习模型。深度学习模型是机器学习的一种方法，它使用深度神经网络来进行数据分析和特征提取。上述预设逻辑优化工具可以包括多种预设与非图优化算法。其中，预设与非图优化算法可以用于对与非图进行优化，预设与非图优化算法由在上述预设逻辑优化工具提供。上述预设逻辑优化工具可以是一种集成电路设计工具。

服务器训练完成上述强化学习模型后，可以将上述获取的嵌入特征输出经训练的强化学习模型，强化学习模型可以根据上述嵌入特征和预设逻辑优化工具，确定对上述与非图对应的多个状态以及各个状态对应的各个目标预设与非图优化算法。例如，强化学习模型可以上述输入的嵌入特征为起点，逐步确定每个与非图的状态对应的目标预设与非图优化算法以及基于各个目标预设与非图优化算法对当前状态优化后得到的新的状态，进而强化学习模型可以得到包括多个目标预设与非图优化算法的优化序列。其中，优化序列中的各个目标预设与非图优化算法可以按照强化学习模型对算法的确定顺序进行排序。

服务器中的程序前端可以获取强化学习模型输出的上述优化序列，从而利用优化序列对与非图进行相应的优化。其中，上述预设逻辑优化工具中的各个预设与非图优化算法可以通过可视化进行操作，通过可视化优化过程和决策依据，工程师可以更清楚地理解每一步骤的原因，从而有效提高可靠度和决策质量。

步骤S206，根据优化序列中的各个目标预设与非图优化算法，对与非图进行优化。

其中，上述优化序列可以是强化学习模型输出的序列。其中，优化序列中包括多个目标预设与非图优化算法。服务器中的程序可以按照多个目标预设与非图优化算法在优化序列中的排序，对上述待优化的与非图进行自动优化，例如服务器中的程序按照目标预设与非图优化算法的排序，依次对上述与非图执行相应的目标预设与非图优化算法，进而在上述各个预设与非图优化算法均对上述与非图执行完成后，得到优化后的与非图。其中，电路设计中的任意与非图均可以通过上述强化学习模型得到对应的优化序列，进而服务器中的程序可以实现对任意与非图进行优化序列的生成以及优化。

上述基于强化学习的与非图优化方法中，通过强化学习模型根据待优化的与非图的嵌入特征和预设逻辑优化工具，确定与非图对应的多个状态以及各个状态对应的各个目标预设与非图优化算法，输出各个目标预设与非图优化算法对应的优化序列，基于优化序列中各个优化算法，对与非图进行优化。相较于传统的基于人工经验进行优化，本方案通过利用强化学习框架和逻辑优化工具训练强化学习模型，利用训练好的强化学习模型对与非图的嵌入特征进行预测学习，识别特征对应的多个状态和各个状态对应的优化算法，基于模型输出的各个优化算法对与非图进行优化，提高了对与非图优化的效率，并且，利用强化学习算法自动生成优化序列，显著提高了优化效率。通过分析与非图结构特征和已有的优化算法，系统能够快速产生高质量的优化序列，从而减少了对人工经验的依赖，避免了耗时耗力的手动设计过程。

在一个实施例中，还包括：根据预设逻辑优化工具，构建预设强化学习框架；预设逻辑优化工具中包括多个预设与非图优化算法；获取待训练的强化学习模型、与非图样本以及与非图样本对应的优化序列样本，提取与非图样本对应的嵌入特征样本；在预设强化学习框架内，将嵌入特征样本输入强化学习模型，由强化学习模型基于嵌入特征样本确定与非图样本对应的当前状态；根据当前状态，从预设逻辑优化工具中的多个预设与非图优化算法中确定对应的预设与非图优化算法样本；执行预设与非图优化算法样本，得到与非图样本对应的新的当前状态；返回根据当前状态，从预设逻辑优化工具中的多个预设与非图优化算法中确定对应的预设与非图优化算法样本的步骤，直至满足预设预测结束条件时，根据各个预设与非图优化算法样本输出优化序列预测信息；将优化序列预测信息和优化序列样本输入预设损失函数，根据预设损失函数的输出值，调整强化学习模型的模型参数，直至满足预设训练结束条件时，得到经训练的强化学习模型。

本实施例中，服务器可以预先对待训练的强化学习模型进行训练，得到上述经训练的强化学习模型。其中，服务器可以预先构建训练和识别时的预设强化学习框架。例如，上述预设逻辑优化工具中可以包括多个预设与非图优化算法，则可以根据上述预设逻辑优化工具，构建预设强化学习框架，可以构建满足预设逻辑优化工具使用的环境，以及基于预设逻辑优化工具确定可以使用的预设与非图优化算法。

服务器构建上述预设强化学习框架后，为实现对强化学习模型的训练，服务器可以获取待训练的强化学习模型、与非图样本和与非图样本对应的优化序列样本。其中，与非图样本可以有多种，优化序列样本可以是与非图样本对应的符合优化要求的优化序列。服务器可以提取上述与非图样本对应的嵌入特征样本。在对强化学习模型进行训练时，服务器可以在预设强化学习框架内，将上述嵌入特征样本输入待训练的强化学习模型，由强化学习模型基于嵌入特征样本确定与非图样本对应的当前状态。其中，当前状态表示上述与非图样本在强化学习模型中的状态。上述强化学习模型可以根据当前状态，从预设逻辑优化工具中的多个预设与非图优化算法中确定对应的预设与非图优化算法样本。其中，上述确定出的预设与非图优化算法样本可以是基于奖励机制确定出的算法，即强化学习模型认为使用该预设与非图优化算法样本，可以使与非图样本的状态得到改进。

强化学习模型可以执行预设与非图优化算法样本，得到与非图样本对应的新的当前状态。强化学习模型基于上述新的当前状态，返回根据当前状态，从预设逻辑优化工具中的多个预设与非图优化算法中确定对应的预设与非图优化算法样本的步骤，直至满足预设预测结束条件时，例如达到学习总步长、预设与非图优化算法样本的数量达到预设数量阈值或训练迭代次数达到预设次数阈值等。强化学习模型根据各个预设与非图优化算法样本输出优化序列预测信息。其中，优化序列预测信息中包括多个确定出的预设与非图优化算法样本。

从而服务器可以将上述优化序列预测信息和优化序列样本输入预设损失函数，并获取预设损失函数基于上述优化序列预测信息和对应的优化序列样本的输出值，服务器根据预设损失函数的输出值，可以调整强化学习模型的模型参数，对强化学习模型进行迭代训练，直至满足预设训练结束条件时，得到经训练的强化学习模型。其中，预设训练结束条件可以包括在预设训练迭代次数内，上述损失函数的输出值最小；或上述模型的迭代训练次数达到上述预设训练迭代次数阈值。

具体地，服务器中的程序在训练强化学习模型时，可以预先安装预设逻辑优化工具和工艺映射工具，并准备大量与非图数据作为样本。服务器可以预先构建强化学习框架，其中包括强化学习环境、智能体、状态、动作和奖励的定义。如图3所示，图3为一个实施例中强化学习框架的结构示意图。其中，上述强化学习模型可以是深度Q网络模型，也可以是其他神经网络模型或预测模型。深度Q网络模型可以是一种深度神经网络，服务器通过深度神经网络以近似值函数Q（s，a）。其中，s表示状态，a表示动作，r表示动作的奖励，s’表示执行动作a后的下一状态。上述环境为逻辑优化工具和工艺映射工具的使用环境；状态为当前与非图网络的统计信息和来自历史经验的其他有用信息；动作为当前优化工具中提供的预设与非图优化算法，动作空间是指当前与非图可以执行的一组有效动作，奖励为执行动作之后环境到达新的状态之后与原状态之间与目标状态之间的距离对于和改进，用于指导智能体进行动作选择。其中，智能体为强化学习框架中用于与预测结果和环境交互的结构，可以通过服务器端返回的动作得分确定是否采用动作。

例如，服务器利用强化学习模型中的深度Q网络得到优化序列预测信息，可以由智能体对其进行采样后执行其中各个动作，即各个预设与非图优化算法样本，进而得到相应的新的状态和奖励，智能体结合优化序列预测信息和对应的优化序列样本，输入预设损失函数中，进而可以基于预设损失函数的输出值，对强化学习模型进行经验回放学习，实现对强化学习模型的训练。

其中，服务器对强化学习模型进行训练时，可以采用PyTorch构建深度Q网络模型，作为强化学习模型。其中，PyTorch是一种深度学习框架。并在强化学习模型中使用随机初始化的正交向量作为初始值、采用学习率为0.001的Adam优化器训练，训练迭代次数为预设训练迭代次数阈值，例如可以是1000次。在训练过程中，以与非图为输入，最终输出优化序列预测信息。其中，Adam优化器为深度学习优化目标网络的一种算法。

具体地，在对强化学习模型进行训练时，服务器中的强化学习框架可以初始化强化学习环境和网络参数，确定学习总步长N，优化序列最大长度L和训练迭代次数n_k。在学习总步长N内，强化学习模型可以多次执行以下步骤：重置环境，初始化优化序列，在优化序列最大长度范围内，执行提取状态s_t，并从当前网络模型中采样得到动作a_t，即上述预设与非图优化算法样本，在环境中执行动作a_t，更新参数（状态）并将动作a_t加入优化序列的步骤。其中，t表示执行上述步骤的次数，若优化序列完成，即优化序列中存在可以使与非图的状态满足要求的多个预设与非图优化算法样本，或优化序列中预设与非图优化算法样本的数量大于上述L，跳出上述循环，并在迭代次数内，多次执行以下步骤：基于上述优化序列的预测信息和优化序列样本，确定损失函数的输出值，进而确定当前奖励，根据奖励和反向传播算法，更新强化学习模型的模型参数。通过多次调整模型参数后，服务器可以得到经训练的强化学习模型。

通过本实施例，服务器可以结合强化学习框架以及多个与非图样本，对强化学习模型进行迭代训练，进而利用经训练的强化学习模型进行与非图的优化序列预测识别，提高了优化与非图的效率。

在一个实施例中，根据当前状态，从预设逻辑优化工具中的多个预设与非图优化算法中确定对应的预设与非图优化算法样本，包括：针对预设逻辑优化工具中的每个预设与非图优化算法，获取预设与非图优化算法在当前状态下对应的模拟执行结果；根据当前状态和模拟执行结果，确定预设与非图优化算法对应的动作概率；根据各个预设与非图优化算法中动作概率最大的预设与非图优化算法，得到当前状态对应的预设与非图优化算法样本。

本实施例中，上述训练过程中，强化学习模型可以基于当前状态确定使得与非图样本能够有改进的预设与非图优化算法样本，从而强化学习模型可以得到多个预设与非图优化算法样本。其中，每个预设与非图优化算法样本可以基于动作打分从多个预设与非图优化算法中确定。例如，针对预设逻辑优化工具中的每个预设与非图优化算法，强化学习模型可以获取预设与非图优化算法在当前状态下对应的模拟执行结果，从而强化学习模型可以根据当前状态和模拟执行结果，确定预设与非图优化算法对应的动作概率。其中，上述动作概率可以由强化学习模型对该动作进行打分确定，动作得分和动作概率成正相关。从而强化学习模型可以根据各个预设与非图优化算法中动作概率最大的预设与非图优化算法，得到当前状态对应的预设与非图优化算法样本。

其中，上述动作打分表示预设与非图优化算法若执行后，对与非图的改进程度，改进程度越大，则动作打分越高，进而得到更高的动作概率。具体地，如图4所示，图4为一个实施例中强化学习模型预测的结构示意图。以强化学习模型是深度Q网络模型为例，服务器将节点嵌入特征和图嵌入特征输入深度Q网络模型后，可以经过深度Q网络学习输出各个预设与非图优化算法的动作得分，具体可以表示为{Q（st，“balance”；w_t）；Q（st，“rewrite”；w_t）；…；Q（st，“rw-z-l”；w_t）}。其中，w_t表示第t次对当前状态进行算法预测时的权重，balance（平衡优化算法）、rewrite（重写优化算法）、rw-z-l等表示不同的预设与非图优化算法，需要说明的是，上述预设与非图优化算法不限于上述记载的算法。从而强化学习模型可以根据各个动作得分，确定对应的动作概率，并基于动作概率的大小，确定当前状态对应的最优动作，即当前最优的预设与非图优化算法，作为上述当前状态对应的预设与非图优化算法样本。其中，上述深度Q网络模型的Q函数可以采用简单深度感知机模型表示。

通过本实施例，服务器中的强化学习框架可以利用动作概率和动作得分的方式，确定每个当前状态对应的最优预设与非图优化算法，进而基于包含多个确定出的与非图优化算法的优化序列，实现对与非图的优化，提高了优化与非图的效率。并且服务器还可以进行自适应优化，通过深度学习机制确保优化方向的一致性。这样可以在满足面积和延迟限制的情况下，生成各类与非图可能的最优选的优化序列，使得优化结果更加一致、可预期，降低了不同工程师间的结果差异。并且，服务器还可以采用模块化设计，不同的优化策略和模型算法可以被迁移学习方法移植到不同系统中，并针对不同的与非图进行定制。系统形成的优化知识库和模型经验可以积累并应用于新的与非图设计，从而提高了其可推广性和重复使用能力。

在一个实施例中，将嵌入特征输入经训练的强化学习模型，由强化学习模型根据嵌入特征和预设逻辑优化工具，确定与非图对应的多个状态以及各个状态对应的各个目标预设与非图优化算法，根据各个目标预设与非图优化算法输出优化序列，包括：基于嵌入特征确定与非图对应的当前状态；根据当前状态，从预设逻辑优化工具中确定对应的目标预设与非图优化算法；执行对应的目标预设与非图优化算法，得到与非图对应的新的当前状态；返回根据当前状态，从预设逻辑优化工具中确定对应的目标预设与非图优化算法的步骤，直至满足预设预测结束条件时，根据各个目标预设与非图优化算法输出优化序列。

本实施例中，服务器可以利用经训练的强化学习模型进行优化序列的输出。其中，上述输入强化模型的可以是待优化的与非图的嵌入特征，包括图嵌入特征和节点嵌入特征等。服务器将嵌入特征输入经训练的强化学习模型后，可以基于嵌入特征确定与非图对应的当前状态。强化学习模型根据当前状态，可以从预设逻辑优化工具中确定对应的目标预设与非图优化算法。例如，针对预设逻辑优化工具中的每个预设与非图优化算法，强化学习模型可以获取预设与非图优化算法在当前状态下对应的模拟执行结果，从而强化学习模型可以根据当前状态和模拟执行结果，确定预设与非图优化算法对应的动作概率。从而强化学习模型可以根据各个预设与非图优化算法中动作概率最大的预设与非图优化算法，得到当前状态对应的目标预设与非图优化算法。

强化学习模型可以执行上述当前状态对应的目标预设与非图优化算法，得到与非图对应的新的当前状态，并基于新的当前状态返回根据当前状态，从预设逻辑优化工具中确定对应的目标预设与非图优化算法的步骤，进行多次目标预设与非图优化算法的预测，直至满足预设预测结束条件时，根据各个目标预设与非图优化算法输出优化序列。具体地，上述强化学习模型具体可以是深度Q网络模型，服务器利用深度Q网络模型实现优化序列的输出与训练强化学习模型过程中优化序列预测信息的输出过程类似，在此不再赘述。

通过本实施例，服务器可以利用训练好的强化学习模型，对与非图的特征依次进行多个状态的预测，以及每个状态对应的目标预设与非图优化算法的确定，从而最终输出优化序列，利用优化序列对与非图进行优化，提高了优化与非图的效率。并且，通过自适应学习机制和深度模型学习方式，还实现了较高的可靠性。

在一个实施例中，根据优化序列中的各个目标预设与非图优化算法，对与非图进行优化，包括：将优化序列中的首个目标预设与非图优化算法作为当前待执行算法；根据当前待执行算法对待优化的与非图进行优化，得到新的待优化的与非图；获取优化序列中当前待执行算法对应的下一个目标预设与非图优化算法，作为新的当前待执行算法；返回根据当前待执行算法对待优化的与非图进行优化的步骤，直至优化序列中的各个目标预设与非图优化算法均执行完毕，得到优化完成的与非图。

本实施例中，上述强化学习模型输出的优化序列中，可以包括多个目标预设与非图优化算法。各个目标预设与非图优化算法按照强化学习模型预测的顺序进行排序。则服务器可以利用上述优化序列，对待优化的与非图进行优化。例如，服务器从优化序列中获取首个目标预设与非图优化算法，即强化学习模型基于输入的嵌入特征确定当前状态后，确定的首个目标预设与非图优化算法。

服务器将上述首个目标预设与非图优化算法作为当前待执行算法，并根据当前待执行算法对待优化的与非图进行优化，得到新的待优化的与非图。其中，该新的待优化的与非图可以是具有一定改进的与非图，但还需进行优化。则服务器可以获取优化序列中当前待执行算法对应的下一个目标预设与非图优化算法，作为新的当前待执行算法，并基于新的当前待执行算法以及新的待优化的与非图，返回根据当前待执行算法对待优化的与非图进行优化的步骤，进行多次优化，直至优化序列中的各个目标预设与非图优化算法均对与非图执行完毕，基于最后一次执行目标预设与非图优化算法后输出的与非图，得到优化完成的与非图。

通过本实施例，服务器可以利用强化学习模型对与非图的特征进行多次状态识别，并输出优化序列，利用优化序列对与非图进行逐步优化，提高了优化与非图的效率。

应该理解的是，虽然如上的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，如上的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

基于同样的发明构思，本申请实施例还提供了一种用于实现上述所涉及的基于强化学习的与非图优化方法的基于强化学习的与非图优化装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似，故下面所提供的一个或多个基于强化学习的与非图优化装置实施例中的具体限定可以参见上文中对于基于强化学习的与非图优化方法的限定，在此不再赘述。

在一个示例性的实施例中，如图5所示，提供了一种基于强化学习的与非图优化装置，包括：获取模块500、预测模块502和优化模块504，其中：

获取模块500，用于获取待优化的与非图，提取与非图对应嵌入特征。

预测模块502，用于将嵌入特征输入经训练的强化学习模型，由强化学习模型根据嵌入特征和预设逻辑优化工具，确定与非图对应的多个状态以及各个状态对应的各个目标预设与非图优化算法，根据各个目标预设与非图优化算法输出优化序列；强化学习模型在预设强化学习框架中基于与非图样本和预设逻辑优化工具训练得到。

优化模块504，用于根据优化序列中的各个目标预设与非图优化算法，对与非图进行优化。

在一个实施例中，上述装置还包括：训练模块，用于根据预设逻辑优化工具，构建预设强化学习框架；预设逻辑优化工具中包括多个预设与非图优化算法；获取待训练的强化学习模型、与非图样本以及与非图样本对应的优化序列样本，提取与非图样本对应的嵌入特征样本；在预设强化学习框架内，将嵌入特征样本输入强化学习模型，由强化学习模型基于嵌入特征样本确定与非图样本对应的当前状态；根据当前状态，从预设逻辑优化工具中的多个预设与非图优化算法中确定对应的预设与非图优化算法样本；执行预设与非图优化算法样本，得到与非图样本对应的新的当前状态；返回根据当前状态，从预设逻辑优化工具中的多个预设与非图优化算法中确定对应的预设与非图优化算法样本的步骤，直至满足预设预测结束条件时，根据各个预设与非图优化算法样本输出优化序列预测信息；将优化序列预测信息和优化序列样本输入预设损失函数，根据预设损失函数的输出值，调整强化学习模型的模型参数，直至满足预设训练结束条件时，得到经训练的强化学习模型。

在一个实施例中，上述训练模块，具体用于针对预设逻辑优化工具中的每个预设与非图优化算法，获取预设与非图优化算法在当前状态下对应的模拟执行结果；根据当前状态和模拟执行结果，确定预设与非图优化算法对应的动作概率；根据各个预设与非图优化算法中动作概率最大的预设与非图优化算法，得到当前状态对应的预设与非图优化算法样本。

在一个实施例中，上述预测模块502，具体用于基于嵌入特征确定与非图对应的当前状态；根据当前状态，从预设逻辑优化工具中确定对应的目标预设与非图优化算法；执行对应的目标预设与非图优化算法，得到与非图对应的新的当前状态；返回根据当前状态，从预设逻辑优化工具中确定对应的目标预设与非图优化算法的步骤，直至满足预设预测结束条件时，根据各个目标预设与非图优化算法输出优化序列。

在一个实施例中，上述优化模块504，具体用于将优化序列中的首个目标预设与非图优化算法作为当前待执行算法；根据当前待执行算法对待优化的与非图进行优化，得到新的待优化的与非图；获取优化序列中当前待执行算法对应的下一个目标预设与非图优化算法，作为新的当前待执行算法；返回根据当前待执行算法对待优化的与非图进行优化的步骤，直至优化序列中的各个目标预设与非图优化算法均执行完毕，得到优化完成的与非图。

在一个实施例中，上述获取模块500，具体用于获取与非图对应的图嵌入特征；根据与非图中的各个节点，提取节点嵌入特征；根据图嵌入特征和节点嵌入特征，得到与非图对应的嵌入特征。

上述基于强化学习的与非图优化装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个示例性的实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图6所示。该计算机设备包括处理器、存储器、输入/输出接口(Input/Output，简称I/O）和通信接口。其中，处理器、存储器和输入/输出接口通过系统总线连接，通信接口通过输入/输出接口连接到系统总线。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储与非图数据。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种文本评测方法。

本领域技术人员可以理解，图6中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个示例性的实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述的强化学习的与非图优化方法。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述的强化学习的与非图优化方法。

在一个实施例中，提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现上述的强化学习的与非图优化方法。

需要说明的是，本申请所涉及的用户信息（包括但不限于用户设备信息、用户个人信息等）和数据（包括但不限于用于分析的数据、存储的数据、展示的数据等），均为经用户授权或者经过各方充分授权的信息和数据，且相关数据的收集、使用和处理需要符合相关规定。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用，均可包括非易失性存储器和易失性存储器中的至少一种。非易失性存储器可包括只读存储器（Read-Only Memory，ROM）、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器（Resistive Random Access Memory，ReRAM）、磁变存储器（Magnetoresistive RandomAccess Memory，MRAM）、铁电存储器（Ferroelectric Random Access Memory，FRAM）、相变存储器（Phase Change Memory，PCM）、石墨烯存储器等。易失性存储器可包括随机存取存储器（Random Access Memory，RAM）或外部高速缓冲存储器等。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器（Static Random Access Memory，SRAM）或动态随机存取存储器（Dynamic Random Access Memory，DRAM）等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等，不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器、人工智能（Artificial Intelligence，AI）处理器等，不限于此。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本申请记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请的保护范围应以所附权利要求为准。

Claims

1.一种基于强化学习的与非图优化方法，其特征在于，所述方法包括：

获取待优化的与非图，提取所述与非图对应嵌入特征；

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

3.根据权利要求2所述的方法，其特征在于，所述根据所述当前状态，从所述预设逻辑优化工具中的多个预设与非图优化算法中确定对应的预设与非图优化算法样本，包括：

4.根据权利要求1所述的方法，其特征在于，所述将所述嵌入特征输入经训练的强化学习模型，由所述强化学习模型根据所述嵌入特征和预设逻辑优化工具，确定所述与非图对应的多个状态以及各个所述状态对应的各个目标预设与非图优化算法，根据各个所述目标预设与非图优化算法输出优化序列，包括：

基于所述嵌入特征确定所述与非图对应的当前状态；

5.根据权利要求1所述的方法，其特征在于，所述根据所述优化序列中的各个目标预设与非图优化算法，对所述与非图进行优化，包括：

6.根据权利要求1至5任意一项所述的方法，其特征在于，所述提取所述与非图对应嵌入特征，包括：

获取所述与非图对应的图嵌入特征；

根据所述与非图中的各个节点，提取节点嵌入特征；

7.一种基于强化学习的与非图优化装置，其特征在于，所述装置包括：

8.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述的方法的步骤。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。

10.一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。