CN117938959A

CN117938959A - 基于深度强化学习和遗传算法的多目标sfc部署方法

Info

Publication number: CN117938959A
Application number: CN202410048027.1A
Authority: CN
Inventors: 王然; 赵佳亮; 吴强; 郝洁
Original assignee: Nanjing University of Aeronautics and Astronautics
Current assignee: Nanjing University of Aeronautics and Astronautics
Priority date: 2024-01-12
Filing date: 2024-01-12
Publication date: 2024-04-26

Abstract

本发明公开了一种基于深度强化学习和遗传算法的多目标SFC部署方法，属于服务功能链编排技术。该方法首先构建物理网络模型和SFC请求模型，且建立系统模型之间的映射关系，并且使用二进制决策变量表示请求r中的VNF f_i是否可以部署在服务器节点v上。然后构建SFC部署问题的数学模型，包括问题的优化目标和约束条件，并且引入了时隙τ的概念，分别使用τ_r，a和τ_r，1来表示请求的到达时间和生存时间，其中还包括最小化延迟、最小化成本和最大化请求的总吞吐量三个目标的优化。接着将SFC部署问题建模为马尔可夫决策过程模型来描述网络状态的变化；最后是将深度强化学习和多目标遗传算法结合设计编排方案。

Description

基于深度强化学习和遗传算法的多目标SFC部署方法

技术领域

本发明属于服务功能链编排技术，具体涉及一种基于深度强化学习和遗传算法相结合的多目标服务功能链部署方法。

背景技术

在NFV系统中，服务请求通常由服务功能链(SFC)表示，它由一组按严格顺序执行的虚拟网络功能(VNF)组成。服务功能链作为网络与服务的重要承载形式，通过合理编排虚拟化的网络服务功能，从而构建完整的端到端网络服务。在4G时代，SFC的部署主要关注单一优化目标，例如资源利用率的最大化。然而，在5G和6G时代，极致的应用场景和多样化的业务需求的出现将推动移动通信演进的深刻变革。这种转变将侧重于促进SFC部署，以实现多个优化目标，包括延迟、成本和吞吐量等关键指标。这些极致场景和需求包括具有更高的可靠性和安全性的高精度产业、具有更高的通信速度和更低延迟的增强现实(AR)、虚拟现实(VR)、高清视频流媒体等。

目前，SFC的部署问题已经得到了大量的解决，并且被证明是NP-hard问题，如图1所示。在多目标SFC部署问题中，通常使用多目标进化算法和深度强化学习。然而两种算法都有各自的优点和缺点。多目标进化算法例如NSGA-II算法可以在不将多个目标函数转化为单个目标函数的情况下同时优化多个目标功能，并且可以有效地生成帕累托前沿以及一组帕累托最优解。然而算法的性能很大程度上依赖于初始种群的质量，高质量的初始种群通常有助于算法更快地收敛到较优解。多目标进化算法同时需要大量的迭代和计算时间来获得初始解。深度强化学习在解决多目标优化问题方面显示出巨大的潜力，因为它能够直接从一些高维的初始数据中学习控制的策略，而不需要人工干预。然而训练深度神经网络需要大量的计算资源和时间。因此，迫切需要一种更高效的部署算法，来实现对多目标服务功能链的动态和高效部署。

本发明提出了一种MOERL求解多目标功能链的部署方法，将时延最小、请求接受率最大以及成本最小作为优化目标，建立多目标SFC部署模型，研究了基于深度强化学习和遗传算法相结合的多目标服务链的智能部署策略。

发明内容

发明目的：为了解决现有SFC部署算法的局限性，单目标优化难以满足低时延、高接受率和低成本的需求等问题，本发明提供一种基于深度强化学习和遗传算法相结合的多目标服务功能链的部署方法，实现时延最小、请求接受率最大以及成本最小的三个优化目标。

技术方案：一种基于深度强化学习和遗传算法的多目标SFC部署方法，包括如下步骤：

S1、构建系统模型，包括物理网络模型和SFC模型，还包括建立系统模型之间的映射关系；

该系统模型中，对于网络中的SFC请求需要考虑部署VNF以满足每个SFC请求的特定业务需要，对于VNF考虑CPU需求和内存需求，通过二进制决策变量表示请求r中的VNFf_i是否可以部署在服务器节点v上；

S2、构建SFC部署问题的数学模型，包括问题的优化目标和约束条件，所述的优化目标包括最小化延迟、最小化成本和最大化请求的总吞吐量；

所述方法引入时隙τ以解决由请求的随机到达和离开引起的实时网络动态问题，在时隙τ中，用二进制变量x_r，τ表示请求r是否仍在被服务的状态：

其中，τ_r，a和τ_r，1分别表示请求r的到达时间和生存时间；

由于单个节点可以部署VNF服务的多个实例来处理多个请求，使用二进制决策变量来表示部署在节点v上的VNF f_i服务实例的数量：

其中，r(i)表示请求r的第i个VNF，第i个VNF表示为f_i；

所述最小化延迟的目标函数表示如下：

其中，T_d表示总响应延迟，包括链路上的通信延迟和服务器节点上的处理延迟；

所述最小化成本的目标函数表示如下：

其中，λ_v和λ_B分别表示服务器资源和带宽的单位成本；C_v表示第v个服务器节点上的可用的CPU和内存容量；表示请求r中的VNF f_i是否可以部署在服务器节点v上；B_v表示服务器v的总输出带宽，表示请求r中的虚拟链路l_i是否可以映射到物理链路e上；

该方法使用二进制决策变量y_r来表示请求r是否被接受，表示如下：

其中，T_d表示总响应延迟，T_r表示最大容忍延迟；

所述最大化请求的总吞吐量的目标函数表示如下：

其中，B_r表示请求r的带宽需求，τ_r，1表示请求r的生存时间。

(3)将SFC部署问题建模为马尔可夫决策过程模型来描述网络状态的变化；

马尔可夫决策过程模型表示为<S，A，P，R，γ>，分别对应状态空间、动作空间、状态转移概率、奖励函数以及折扣因子，在每个决策事件中，智能体观测系统状态s(t)并且选择动作a(t)，通过选择动作a(t)，获得奖励r(t)和下一个系统状态s(t+1)；其中的奖励r(t)用来评估动作a(t)的有效性；

(4)将深度强化学习和多目标遗传算法结合设计编排方案，具体是基于深度强化学习方法，构建Actor-Critic神经网络；通过actor网络负责生成VNF部署策略，critic网络用于评估生成策略的价值，并通过近端策略优化进行训练，训练得到的不同部署方案作为NSGA-II算法的初始种群，通过NSGA-II算法继续对部署方案进行优化。

进一步地，步骤S1包括：

将NFV网络表示为无向图G＝(V，E)，其中V表示服务器节点的集合，E表示连接任意两个节点的物理链路的集合，且每个服务器都能够实例化一个及以上的虚拟机以支持不同类型的VNF，支持VNF的虚拟机的集合表示为M＝{m₁，m₂，...，m_|M|}；每个服务器都有固定的资源容量，其中包括计算资源和存储资源；表示第v个服务器节点上的可用的CPU和内存容量；B_v表示服务器v的总输出带宽，T_e表示链路e的通信延迟；

将网络中的一个SFC请求序列表示为R＝{r_i，r₂，...，r_R}，对于不同的业务请求，需要部署一系列的VNF以满足每个SFC请求的特定业务需求，将服务所需的VNF集合表示为F＝{f₁，f₂，...，f_N}，每个VNF都有特定的资源需求，因此使用分别表示VNF的CPU需求和内存需求；一个SFC请求表示为{f₁，f₂，...，f_k}，这表示该SFC请求将依次通过k个VNF；

考虑到每个SFC请求都有特殊的QoS要求，其中包括带宽需求B_r和最大延迟容忍T_r；

此外，将连接SFC请求的VNF之间的虚拟链路表示为L＝{l₁，l₂，...，l_N-1}，其中l_i是连接SFC请求中的VNF f_i和VNF f_i+1的第i个虚拟链路。

进一步地，步骤S1基于二进制决策变量对于服务节点上是否成功部署VNF的具体处理是：

如果请求r中的VNFf_i成功地部署在服务器节点v上，否则，类似地，表示请求r中的虚拟链路l_i是否可以映射到物理链路e上；

如果请求r中的虚拟链路l_i成功地映射到物理链路e上，否则，

进一步地，步骤S2还具体包括：

(21)在资源充足的情况下，可以在同一个服务器节点上部署多个VNF，因此服务器节点的资源约束为：

(22)由于服务器节点的总输出带宽为通过该节点的所有请求的带宽需求设置了上限，因此带宽约束为：

(23)用T_d表示总响应延迟，包括链路上的通信延迟和服务器节点上的处理延迟，将链路上的通信延迟T_c表示为：

(24)VNF的处理延迟受虚拟机计算能力和VNF类型的影响，可能导致不同虚拟机的处理延迟不同；因此将请求r在虚拟机m上的处理速率表示为v_m，总处理延迟T_p表示为：

其中，λ表示请求r的平均到达率，假设请求的到达遵循泊松过程，α_m表示虚拟机m对请求r的CPU共享率，δ_m表示虚拟机m的最大聚合处理能力，D_m表示虚拟计算机m对请求r的处理密度；

因此，总响应延迟T_d为：

T_d＝T_c+T_p

时延约束为：

进一步地，步骤S3具体包括：

(31)系统状态表示

所述方法将时隙t处的系统状态表示为

对于系统中每个状态，应该包括物理网络的特征与正在处理的请求的特征，将状态定义为一组向量其中表示每个节点的可用资源，表示可用的链路带宽资源，M_t表示了正在处理的请求的特征，包括资源需求带宽需求请求r中未部署的VNF的数量剩余延时空间请求r的生存时间Pr；

(32)动作表示

动作A表示为服务器索引的集合A＝{a|a∈{0，1，2，...，|N|}}，它指向服务器节点的索引，这意味着已经在第a个服务器节点上成功地部署了VNF；

其中a＝0表示无法在任何节点上部署VNF，对于每个VNF，都有(|N|+1)个动作；

(33)奖励设置

基于需要共同优化的最小化延迟、最小化成本和最大化请求的总吞吐量三个目标，奖励函数为总接受请求吞吐量的加权和减去总部署成本的加权和和总响应延迟的加权和，表示为：

r_t＝αB_rτ_r，1-βC(τ)-ωT_d

其中，α、β和ω是每个目标的加权因子，C(τ)是每个时隙τ的成本；

因此，总奖励为：

其中，γ∈[0，1]是折扣因子，表示未来奖励的折扣程度。

进一步地，步骤S4具体包括：

将物理网络的状态和请求的特征提取出来作为state，并输入到actor网络中，然后通过隐藏层将它们变成单列向量，接着通过softmax层映射成(0，1)区间的向量，其中向量中的每个值表示VNF部署到对应服务器节点上的概率，选择最高概率的节点来部署VNF，即actor网络的输出π_θ(s_t，a_t)；critic网络的输出Q_π(s_t，a_t)用来评估策略π_θ(s_t，a_t)的价值；选择使用近端策略优化算法来训练神经网络，近端策略优化旨在更新策略网络的参数，使当前策略下生成的动作序列能够获得更高的累积奖励；

将策略π表示为连续函数π_θ(s，a)＝P(a|s，θ)，表示在状态s中采取行动a的概率，通过构造损失函数来更新网络。

更近一步地，近端策略优化中的actor网络损失函数通常基于KL散度来计算；critic网络损失函数通常使用TD误差；

actor网络和critic网络的损失函数分别如下所示：

其中，π_θ(s，a)表示新策略的行动选择概率，表示旧策略的行动选取概率，A(s，a)表示用于衡量行动优势的优势函数，KL(θ，θ_old)表示新策略相对于旧策略的KL发散，参数β是控制KL散度权重的超参数，表示critic网络预测的状态值。

更近一步地，该方法还包括采用多目标优化算法，用于解决具有多个冲突目标的优化问题；所述的多目标优化算法基于遗传算法原理，包括如下的方面的计算：

目标函数：最小化时延、最小化部署成本与最大化已接受请求的总吞吐量；

种群：在每个时隙τ中，将所有请求的部署方案整合起来，当作多目标优化算法的初始种群；

个体编码：用[1，N]区间内的整数来表示每个选择的染色体，其中N是服务器的数量，每个值对应一个可以承载VNF的服务器编号；

交叉：交叉操作采取单点交叉，在一个随机选定的交叉点将两个个体的基因切分，然后将切分的部分交换，从而生成新的个体；

突变：突变操作采取单点突变，通过引入随机性，以便在搜索空间中探索新的解。

有益效果：本发明为了确保不同网络服务的不同QoS要求，将传统的SFC单目标优化模型扩展为多目标优化模型，解决了现有工作中考虑延迟、部署成本和吞吐量的问题。同时本发明为了解决现有SFC部署算法的局限性，提出了一个两阶段的解决方案MOERL算法，提高了SFC部署的效率和有效性。

附图说明

图1为服务功能链部署的示意图；

图2为MOERL算法的流程框架；

图3为MOERL和NSGA-II、DRL方法得到的Pareto前沿对比示意图。

具体实施方式

为了详细的说明本发明所公开的技术方案，下面结合附图和实例对本发明做进一步的说明。

为了解决现有SFC部署算法的局限性，单目标优化难以满足低时延、高接受率和低成本的需求等问题，本发明提供一种基于深度强化学习和遗传算法相结合的多目标服务功能链的部署方法，实现时延最小、请求接受率最大以及成本最小的三个优化目标。具体包括如下步骤：

(1)构建系统模型，主要包括物理网络模型、SFC请求模型以及映射关系；

本发明将NFV网络表示为无向图G＝(V，E)，其中V表示服务器节点的集合，E表示连接任意两个节点的物理链路的集合，v_i表示第i个服务器节点，e_i表示第j条物理链路。每个服务器都能够实例化多个虚拟机以支持不同类型的VNF，支持VNF的虚拟机的集合表示为M＝{m₁，m₂，...，m_|M|}。每个服务器都有固定的资源容量，其中包括计算资源和存储资源。表示第v个服务器节点上的可用的CPU和内存容量。B_v表示服务器v的总输出带宽，T_e表示链路e的通信延迟。

本发明将网络中的一个SFC请求序列表示为R＝{r₁，r₂，...，r_R}。对于不同的业务请求，需要部署一系列的VNF，以满足每个SFC请求的特定业务需求。服务所需的VNF集合表示为F＝{f₁，f₂，...，f_N}，每个VNF都有特定的资源需求，因此使用分别表示VNF的CPU需求和内存需求。一个SFC请求表示为{f₁，f₂，...f_k}，这表示该SFC请求将依次通过k个VNF。每个SFC请求都有特殊的QoS要求，其中包括带宽需求B_r和最大延迟容忍T_r。此外，将连接SFC请求的VNF之间的虚拟链路表示为L＝{l₁，l₂，...，l_N-1}，其中l_i是连接SFC请求中的VNFf_i和VNFf_i+1的第i个虚拟链路。

在服务器节点上是否成功部署VNF取决于是否有足够的资源。使用二进制决策变量表示请求r中的VNFf_i是否可以部署在服务器节点v上。详细地说，如果请求r中的VNFf_i成功地部署在服务器节点v上，否则，类似地，表示请求r中的虚拟链路l_i是否可以映射到物理链路e上。如果请求r中的虚拟链路l_i成功地映射到物理链路e上，否则，

(2)构建SFC部署问题的数学模型，包括问题的优化目标和约束条件；

为了解决由请求的随机到达和离开引起的实时网络动态问题，本发明引入了时隙τ的概念，分别使用τ_r，a和τ_r，1来表示请求的到达时间和生存时间。在时隙τ中，用二进制变量x_r，τ表示请求r是否仍在被服务的状态：

由于单个节点可以部署VNF服务的多个实例来处理多个请求，使用来表示部署在节点v上的VNFf_i服务实例的数量：

其中，r(i)表示请求r的第i个VNF。

首先，在资源充足的情况下，可以在同一个服务器节点上部署多个VNF。因此服务器节点的资源约束为：

其次，由于服务器节点的总输出带宽为通过该节点的所有请求的带宽需求设置了上限，因此带宽约束为：

最后，用T_d表示总响应延迟，包括链路上的通信延迟和服务器节点上的处理延迟。将链路上的通信延迟T_c表示为：

VNF的处理延迟受虚拟机计算能力和VNF类型的影响，可能导致不同虚拟机的处理延迟不同。因此将请求r在虚拟机m上的处理速率表示为v_m，总处理延迟T_p表示为：

其中，λ表示请求r的平均到达率，假设请求的到达遵循泊松过程，α_m表示虚拟机m对请求r的CPU共享率，δ_m表示虚拟机m的最大聚合处理能力，D_m表示虚拟计算机m对请求r的处理密度。

因此，总响应延迟T_d为：

T_d＝T_c+T_p

时延约束为：

本发明所述方法提出了三个优化目标函数，目标1是最小化延迟，目标2是最小化成本，目标3是最大化请求的总吞吐量。

目标函数1的表达如下：

目标函数2的表达如下：

其中，λ_v和λ_B分别表示服务器资源和带宽的单位成本。

本发明所述方法使用二进制决策变量y_r来表示请求r是否被接受，表示如下：

目标函数3的表达如下：

有了上述的准备工作，继而是提出马尔可夫决策过程模型，马尔可夫决策过程模型的数学表示为<S，A，P，R，γ>，分别对应状态空间、动作空间、状态转移概率、奖励函数以及折扣因子。在每个决策事件中，智能体观测系统状态s(t)并且选择动作a(t)，通过选择动作a(t)，获得奖励r(t)和下一个系统状态s(t+1)。奖励r(t)可以用来评估动作a(t)的有效性。具体如下：

1)STATE

对于系统中每个状态，应该包括物理网络的特征与正在处理的请求的特征。将状态定义为一组向量其中表示每个节点的可用资源，表示可用的链路带宽资源。M_t表示了正在处理的请求的特征，包括了资源需求带宽需求请求r中未部署的VNF的数量剩余延时空间请求r的生存时间P_r。因此，时隙t处的系统状态表示为

2)ACTION

动作A表示为服务器索引的集合A＝{a|a∈{0，1，2，...，|N|}}，它指向服务器节点的索引，这意味着已经在第a个服务器节点上成功地部署了VNF。a＝0表示无法在任何节点上部署VNF。对于每个VNF，都有(|N|+1)个动作。

3)REWARD

鉴于共同优化这三个目标，奖励函数为总接受请求吞吐量的加权和减去总部署成本的加权和和总响应延迟的加权和，可以表示为：

r_t＝αB_rτ_r，1-βC(τ)-ωT_d

其中，α、β和ω是每个目标的加权因子，C(τ)是每个时隙τ的成本。

因此，总奖励为：

其中，γ∈[0，1]是折扣因子，表示未来奖励的折扣程度。

(4)本发明将深度强化学习和多目标遗传算法结合，设计了一个合理高效的编排方案(MOERL)。如图2所示，使用深度强化学习方法，构建Actor-Critic神经网络。actor网络负责生成VNF部署策略，critic网络用于评估生成策略的价值。并通过近端策略优化进行训练，训练得到的不同部署方案作为NSGA-II算法的初始种群，通过NSGA-II算法继续对部署方案进行优化，具体为：

MOERL的智能体是actor网络和critic网络，其中actor网络的输入状态、输出动作和生成VNF放置策略，用于近似策略模型π(s，a)。而critic网络的输入状态，输出价值函数评估该策略的价值，用于近似值函数Q_π(s，a)。首先，将物理网络的状态和请求的特征提取出来作为state，并输入到actor网络中，然后通过隐藏层将它们变成单列向量，接着通过sofimax层映射成(0，1)区间的向量，其中向量中的每个值表示VNF部署到对应服务器节点上的概率，选择最高概率的节点来部署VNF，即actor网络的输出π_θ(s_t，a_t)。critic网络的输出Q_π(s_t，a_t)用来评估策略π_θ(s_t，a_t)的价值。选择使用近端策略优化算法来训练神经网络，近端策略优化旨在更新策略网络的参数，使当前策略下生成的动作序列能够获得更高的累积奖励。我们将策略π表示为连续函数π_θ(s，a)＝P(a|s，θ)，表示在状态s中采取行动a的概率。通过构造损失函数来更新网络。近端策略优化中的actor网络损失函数通常基于KL散度来计算。critic网络损失函数通常使用TD误差。两个损失函数如下所示：

NSGA-II(Non-dominated Sorting Genetic Algorithm II)是一种多目标优化算法，基于遗传算法原理，用于解决具有多个冲突目标的优化问题。它通过非支配排序、拥挤度距离等技术，生成一组近似最优解集，有效平衡了解的多样性与收敛性，适用于复杂多目标问题的求解。由于DRL生成的部署方案是满足约束的，因此比直接使用NSGA-II算法随机生成的初始种群效率要高。NSGA-II主要包括以下几个方面：

(a)目标函数：最小化时延、最小化部署成本与最大化已接受请求的总吞吐量。

(b)种群：在每个时隙τ中，将所有请求的部署方案整合起来，当作NSGA-II的初始种群。

(c)个体编码：我们用[1，N]区间内的整数来表示每个选择的染色体，其中N是服务器的数量，每个值对应一个可以承载VNF的服务器编号。

(d)交叉：交叉操作采取单点交叉，即在一个随机选定的交叉点将两个个体的基因切分，然后将切分的部分交换，从而生成新的个体。

(e)突变：突变操作采取单点突变，突变是指在个体基因编码中的一个或多个基因值发生随机变化的过程。它用于引入一些随机性，以便在搜索空间中探索新的解。

NSGA-II迭代地执行选择、交叉和变异操作，以在多代中进化种群，从而在帕累托前沿保持多样化且高质量的解决方案集。适应度值根据最小化延迟、最小化成本以及最大化已接受请求的总吞吐量三个优化目标计算。该算法旨在找到一组解决方案，在这些相互冲突的目标之间提供权衡，从而产生代表SFC不同部署策略的解决方案的帕累托前沿。

实施例：结合图1-图3所示，仿真实验采用了基于PyTorch框架的Python编程语言，运行于配备有2.10GHz、12th GenIntel(R)Core(TM)i7-12700F的CPU处理器和16GB内存的电脑。仿真的相关参数如下所示：网络拓扑有12个节点与15个双向链路。为了生成SFC请求，网络中有6种类型的VNFs。每个SFC的VNFs数量设置为[1,6]。SFC请求所需的最小带宽随机分布在[10,30]Mbps。此外，每个SFC请求的最大容忍延迟在[20,50]ms之间。每个VNF需要服务器节点上的CPU和内存资源的支持，每个VNF所需的容量分别在[1,20]核和[2,4]GB之间。NSGA-II参数：种群规模设置为100；突变概率为20％；交叉概率为90％；最大代数设置为100。

为了评估MOERL的性能，本实验NSGA-II算法、DRL进行对比，比较这三种算法的Pareto前沿。MOERL、DRL、NSGA-II算法得到的Pareto前沿如图3所示，与NSGA-II方法相比，MOERL方法的部署方案能减少8.3％的延迟，同时减少4.8％的成本，并将已接受请求的吞吐量提升了5.5％；与DRL方法相比，MOERL方法的部署方案能减少16.1％的延迟，同时减少1.3％的成本，并将已接受请求的吞吐量提升了10％。观察图3中的三维Pareto边界，可以明显看出所提出的MOERL方法优于其余对比算法。这是由于DRL生成一组初始的放置方案，这可以看作是一种初步的局部搜索。然后，将其用作NSGA-II的初始种群可以加速NSGA-II的收敛速度，因为NSGA-II不需要从随机种群开始搜索。NSGA-II可以进一步优化这些方案，以便获得更好的Pareto前沿。这种混合方法的优点在于它能够充分利用深度强化学习的全局搜索能力和多目标遗传算法的多样性维护能力。

Claims

1.一种基于深度强化学习和遗传算法的多目标SFC部署方法，其特征在于，包括如下步骤：

该系统模型中，对于网络中的SFC请求需要考虑部署VNF以满足每个SFC请求的特定业务需要，对于VNF考虑CPU需求和内存需求，通过二进制决策变量表示请求r中的VNF f_i是否可以部署在服务器节点v上；

其中，r(i)表示请求r的第i个VNF，第i个VNF表示为f_i；

所述最小化延迟的目标函数表示如下：

所述最小化成本的目标函数表示如下：

其中，λ_v和λ_B分别表示服务器资源和带宽的单位成本；C_v表示第v个服务器节点上的可用的CPU和内存容量；表示请求r中的VNF f_i是否可以部署在服务器节点v上；B_v表示服务器v的总输出带宽，表示请求r中的虚拟链路1_i是否可以映射到物理链路e上；

其中，T_d表示总响应延迟，T_r表示最大容忍延迟；

所述最大化请求的总吞吐量的目标函数表示如下：

其中，B_r表示请求r的带宽需求，τ_r，1表示请求r的生存时间；

2.根据权利要求1所述的基于深度强化学习和遗传算法的多目标SFC部署方法，其特征在于，步骤S1包括：

将NFV网络表示为无向图G＝(V，E)，其中V表示服务器节点的集合，E表示连接任意两个节点的物理链路的集合，且每个服务器都能够实例化一个及以上的虚拟机以支持不同类型的VNF，支持VNF的虚拟机的集合表示为M＝{m₁，m₂，...，m_|M|}；每个服务器都有固定的资源容量，其中包括计算资源和存储资源；表示第v个服务器节点上的可用的CPU和内存容量；B_v表示服务器v的总输出带宽，T_e表示链路e的通信延迟。

3.根据权利要求2所述的基于深度强化学习和遗传算法的多目标SFC部署方法，其特征在于，该方法将网络中的SFC请求序列表示为R＝{r_i，r₂，...，r_R}，对于不同的业务请求，需要部署一系列的VNF以满足每个SFC请求的特定业务需求，将服务所需的VNF集合表示为F＝{f₁，f₂，...，f_N}，每个VNF都有特定的资源需求，因此使用分别表示VNF的CPU需求和内存需求；一个SFC请求表示为{f₁，f₂，...，f_k}，表示该SFC请求将依次通过k个VNF；

并且考虑到每个SFC请求都有特殊的QoS要求，其中包括带宽需求B_r和最大延迟容忍T_r；

4.根据权利要求1所述的基于深度强化学习和遗传算法的多目标SFC部署方法，其特征在于，步骤S1基于二进制决策变量对于服务节点上是否成功部署VNF的具体处理是：

如果请求r中的VNF f_i成功地部署在服务器节点v上，否则，

类似地，表示请求r中的虚拟链路1_i是否可以映射到物理链路e上，如果请求r中的虚拟链路1_i成功地映射到物理链路e上，否则，

5.根据权利要求1所述的基于深度强化学习和遗传算法的多目标SFC部署方法，其特征在于，步骤S2还具体包括：

(21)针对资源满足在同一个服务器节点上部署若干个VNF的情况，将此服务器节点的资源约束为：

(22)由于服务器节点的总输出带宽为通过该节点的所有请求的带宽需求设置了上限，因此将带宽约束定义为：

因此，总响应延迟T_d为：

T_d＝T_c+T_p

时延约束为：

6.根据权利要求1所述的基于深度强化学习和遗传算法的多目标SFC部署方法，其特征在于，步骤S3具体包括：

(31)系统状态表示

所述方法将时隙t处的系统状态表示为

对于系统中每个状态，应该包括物理网络的特征与正在处理的请求的特征，将状态定义为一组向量其中表示每个节点的可用资源，表示可用的链路带宽资源，M_t表示了正在处理的请求的特征，包括资源需求带宽需求请求r中未部署的VNF的数量剩余延时空间请求r的生存时间P_r；

(32)动作表示

(33)奖励设置

基于需要共同优化的最小化延迟、最小化成本和最大化请求的总吞吐量三个目标，奖励函数为总接受请求吞吐量的加权和减去总部署成本的加权和和总响应延迟的加权和，表示为:

r_t＝αB_rτ_r,1-βC(t)-ωT_d

因此，总奖励为：

其中，γ∈[0，1]是折扣因子，表示未来奖励的折扣程度。

7.根据权利要求1所述的基于深度强化学习和遗传算法的多目标SFC部署方法，其特征在于，步骤S4具体包括：

将物理网络的状态和请求的特征提取出来作为state，并输入到actor网络中，然后通过隐藏层将它们变成单列向量，接着通过softmax层映射成(0,1)区间的向量，其中向量中的每个值表示VNF部署到对应服务器节点上的概率，选择最高概率的节点来部署VNF，即actor网络的输出π_θ(s_t，a_t)；critic网络的输出Q_π(s_t，a_t)用来评估策略π_θ(s_t，a_t)的价值；选择使用近端策略优化算法来训练神经网络，近端策略优化旨在更新策略网络的参数，使当前策略下生成的动作序列能够获得更高的累积奖励；

8.根据权利要求7所述的基于深度强化学习和遗传算法的多目标SFC部署方法，其特征在于，近端策略优化中的actor网络损失函数通常基于KL散度来计算；critic网络损失函数通常使用TD误差；

actor网络和critic网络的损失函数分别如下所示：

9.根据权利要求1所述的基于深度强化学习和遗传算法的多目标SFC部署方法，其特征在于，该方法还包括采用多目标优化算法，用于解决具有多个冲突目标的优化问题；所述的多目标优化算法基于遗传算法原理，包括如下的方面的计算：