[go: up one dir, main page]

CN117938959A - 基于深度强化学习和遗传算法的多目标sfc部署方法 - Google Patents

基于深度强化学习和遗传算法的多目标sfc部署方法 Download PDF

Info

Publication number
CN117938959A
CN117938959A CN202410048027.1A CN202410048027A CN117938959A CN 117938959 A CN117938959 A CN 117938959A CN 202410048027 A CN202410048027 A CN 202410048027A CN 117938959 A CN117938959 A CN 117938959A
Authority
CN
China
Prior art keywords
request
sub
sfc
vnf
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202410048027.1A
Other languages
English (en)
Inventor
王然
赵佳亮
吴强
郝洁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Aeronautics and Astronautics
Original Assignee
Nanjing University of Aeronautics and Astronautics
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Aeronautics and Astronautics filed Critical Nanjing University of Aeronautics and Astronautics
Priority to CN202410048027.1A priority Critical patent/CN117938959A/zh
Publication of CN117938959A publication Critical patent/CN117938959A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/60Scheduling or organising the servicing of application requests, e.g. requests for application data transmissions using the analysis and optimisation of the required network resources
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/142Network analysis or design using statistical or mathematical methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/145Network analysis or design involving simulating, designing, planning or modelling of a network
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/16Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks using machine learning or artificial intelligence

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Evolutionary Computation (AREA)
  • Algebra (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Pure & Applied Mathematics (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明公开了一种基于深度强化学习和遗传算法的多目标SFC部署方法,属于服务功能链编排技术。该方法首先构建物理网络模型和SFC请求模型,且建立系统模型之间的映射关系,并且使用二进制决策变量表示请求r中的VNF fi是否可以部署在服务器节点v上。然后构建SFC部署问题的数学模型,包括问题的优化目标和约束条件,并且引入了时隙τ的概念,分别使用τr,a和τr,1来表示请求的到达时间和生存时间,其中还包括最小化延迟、最小化成本和最大化请求的总吞吐量三个目标的优化。接着将SFC部署问题建模为马尔可夫决策过程模型来描述网络状态的变化;最后是将深度强化学习和多目标遗传算法结合设计编排方案。

Description

基于深度强化学习和遗传算法的多目标SFC部署方法
技术领域
本发明属于服务功能链编排技术,具体涉及一种基于深度强化学习和遗传算法相结合的多目标服务功能链部署方法。
背景技术
在NFV系统中,服务请求通常由服务功能链(SFC)表示,它由一组按严格顺序执行的虚拟网络功能(VNF)组成。服务功能链作为网络与服务的重要承载形式,通过合理编排虚拟化的网络服务功能,从而构建完整的端到端网络服务。在4G时代,SFC的部署主要关注单一优化目标,例如资源利用率的最大化。然而,在5G和6G时代,极致的应用场景和多样化的业务需求的出现将推动移动通信演进的深刻变革。这种转变将侧重于促进SFC部署,以实现多个优化目标,包括延迟、成本和吞吐量等关键指标。这些极致场景和需求包括具有更高的可靠性和安全性的高精度产业、具有更高的通信速度和更低延迟的增强现实(AR)、虚拟现实(VR)、高清视频流媒体等。
目前,SFC的部署问题已经得到了大量的解决,并且被证明是NP-hard问题,如图1所示。在多目标SFC部署问题中,通常使用多目标进化算法和深度强化学习。然而两种算法都有各自的优点和缺点。多目标进化算法例如NSGA-II算法可以在不将多个目标函数转化为单个目标函数的情况下同时优化多个目标功能,并且可以有效地生成帕累托前沿以及一组帕累托最优解。然而算法的性能很大程度上依赖于初始种群的质量,高质量的初始种群通常有助于算法更快地收敛到较优解。多目标进化算法同时需要大量的迭代和计算时间来获得初始解。深度强化学习在解决多目标优化问题方面显示出巨大的潜力,因为它能够直接从一些高维的初始数据中学习控制的策略,而不需要人工干预。然而训练深度神经网络需要大量的计算资源和时间。因此,迫切需要一种更高效的部署算法,来实现对多目标服务功能链的动态和高效部署。
本发明提出了一种MOERL求解多目标功能链的部署方法,将时延最小、请求接受率最大以及成本最小作为优化目标,建立多目标SFC部署模型,研究了基于深度强化学习和遗传算法相结合的多目标服务链的智能部署策略。
发明内容
发明目的:为了解决现有SFC部署算法的局限性,单目标优化难以满足低时延、高接受率和低成本的需求等问题,本发明提供一种基于深度强化学习和遗传算法相结合的多目标服务功能链的部署方法,实现时延最小、请求接受率最大以及成本最小的三个优化目标。
技术方案:一种基于深度强化学习和遗传算法的多目标SFC部署方法,包括如下步骤:
S1、构建系统模型,包括物理网络模型和SFC模型,还包括建立系统模型之间的映射关系;
该系统模型中,对于网络中的SFC请求需要考虑部署VNF以满足每个SFC请求的特定业务需要,对于VNF考虑CPU需求和内存需求,通过二进制决策变量表示请求r中的VNFfi是否可以部署在服务器节点v上;
S2、构建SFC部署问题的数学模型,包括问题的优化目标和约束条件,所述的优化目标包括最小化延迟、最小化成本和最大化请求的总吞吐量;
所述方法引入时隙τ以解决由请求的随机到达和离开引起的实时网络动态问题,在时隙τ中,用二进制变量xr,τ表示请求r是否仍在被服务的状态:
其中,τr,a和τr,1分别表示请求r的到达时间和生存时间;
由于单个节点可以部署VNF服务的多个实例来处理多个请求,使用二进制决策变量来表示部署在节点v上的VNF fi服务实例的数量:
其中,r(i)表示请求r的第i个VNF,第i个VNF表示为fi
所述最小化延迟的目标函数表示如下:
其中,Td表示总响应延迟,包括链路上的通信延迟和服务器节点上的处理延迟;
所述最小化成本的目标函数表示如下:
其中,λv和λB分别表示服务器资源和带宽的单位成本;Cv表示第v个服务器节点上的可用的CPU和内存容量;表示请求r中的VNF fi是否可以部署在服务器节点v上;Bv表示服务器v的总输出带宽,表示请求r中的虚拟链路li是否可以映射到物理链路e上;
该方法使用二进制决策变量yr来表示请求r是否被接受,表示如下:
其中,Td表示总响应延迟,Tr表示最大容忍延迟;
所述最大化请求的总吞吐量的目标函数表示如下:
其中,Br表示请求r的带宽需求,τr,1表示请求r的生存时间。
(3)将SFC部署问题建模为马尔可夫决策过程模型来描述网络状态的变化;
马尔可夫决策过程模型表示为<S,A,P,R,γ>,分别对应状态空间、动作空间、状态转移概率、奖励函数以及折扣因子,在每个决策事件中,智能体观测系统状态s(t)并且选择动作a(t),通过选择动作a(t),获得奖励r(t)和下一个系统状态s(t+1);其中的奖励r(t)用来评估动作a(t)的有效性;
(4)将深度强化学习和多目标遗传算法结合设计编排方案,具体是基于深度强化学习方法,构建Actor-Critic神经网络;通过actor网络负责生成VNF部署策略,critic网络用于评估生成策略的价值,并通过近端策略优化进行训练,训练得到的不同部署方案作为NSGA-II算法的初始种群,通过NSGA-II算法继续对部署方案进行优化。
进一步地,步骤S1包括:
将NFV网络表示为无向图G=(V,E),其中V表示服务器节点的集合,E表示连接任意两个节点的物理链路的集合,且每个服务器都能够实例化一个及以上的虚拟机以支持不同类型的VNF,支持VNF的虚拟机的集合表示为M={m1,m2,...,m|M|};每个服务器都有固定的资源容量,其中包括计算资源和存储资源;表示第v个服务器节点上的可用的CPU和内存容量;Bv表示服务器v的总输出带宽,Te表示链路e的通信延迟;
将网络中的一个SFC请求序列表示为R={ri,r2,...,rR},对于不同的业务请求,需要部署一系列的VNF以满足每个SFC请求的特定业务需求,将服务所需的VNF集合表示为F={f1,f2,...,fN},每个VNF都有特定的资源需求,因此使用分别表示VNF的CPU需求和内存需求;一个SFC请求表示为{f1,f2,...,fk},这表示该SFC请求将依次通过k个VNF;
考虑到每个SFC请求都有特殊的QoS要求,其中包括带宽需求Br和最大延迟容忍Tr
此外,将连接SFC请求的VNF之间的虚拟链路表示为L={l1,l2,...,lN-1},其中li是连接SFC请求中的VNF fi和VNF fi+1的第i个虚拟链路。
进一步地,步骤S1基于二进制决策变量对于服务节点上是否成功部署VNF的具体处理是:
如果请求r中的VNFfi成功地部署在服务器节点v上,否则,类似地,表示请求r中的虚拟链路li是否可以映射到物理链路e上;
如果请求r中的虚拟链路li成功地映射到物理链路e上,否则,
进一步地,步骤S2还具体包括:
(21)在资源充足的情况下,可以在同一个服务器节点上部署多个VNF,因此服务器节点的资源约束为:
(22)由于服务器节点的总输出带宽为通过该节点的所有请求的带宽需求设置了上限,因此带宽约束为:
(23)用Td表示总响应延迟,包括链路上的通信延迟和服务器节点上的处理延迟,将链路上的通信延迟Tc表示为:
(24)VNF的处理延迟受虚拟机计算能力和VNF类型的影响,可能导致不同虚拟机的处理延迟不同;因此将请求r在虚拟机m上的处理速率表示为vm,总处理延迟Tp表示为:
其中,λ表示请求r的平均到达率,假设请求的到达遵循泊松过程,αm表示虚拟机m对请求r的CPU共享率,δm表示虚拟机m的最大聚合处理能力,Dm表示虚拟计算机m对请求r的处理密度;
因此,总响应延迟Td为:
Td=Tc+Tp
时延约束为:
进一步地,步骤S3具体包括:
(31)系统状态表示
所述方法将时隙t处的系统状态表示为
对于系统中每个状态,应该包括物理网络的特征与正在处理的请求的特征,将状态定义为一组向量其中表示每个节点的可用资源,表示可用的链路带宽资源,Mt表示了正在处理的请求的特征,包括资源需求带宽需求请求r中未部署的VNF的数量剩余延时空间请求r的生存时间Pr;
(32)动作表示
动作A表示为服务器索引的集合A={a|a∈{0,1,2,...,|N|}},它指向服务器节点的索引,这意味着已经在第a个服务器节点上成功地部署了VNF;
其中a=0表示无法在任何节点上部署VNF,对于每个VNF,都有(|N|+1)个动作;
(33)奖励设置
基于需要共同优化的最小化延迟、最小化成本和最大化请求的总吞吐量三个目标,奖励函数为总接受请求吞吐量的加权和减去总部署成本的加权和和总响应延迟的加权和,表示为:
rt=αBrτr,1-βC(τ)-ωTd
其中,α、β和ω是每个目标的加权因子,C(τ)是每个时隙τ的成本;
因此,总奖励为:
其中,γ∈[0,1]是折扣因子,表示未来奖励的折扣程度。
进一步地,步骤S4具体包括:
将物理网络的状态和请求的特征提取出来作为state,并输入到actor网络中,然后通过隐藏层将它们变成单列向量,接着通过softmax层映射成(0,1)区间的向量,其中向量中的每个值表示VNF部署到对应服务器节点上的概率,选择最高概率的节点来部署VNF,即actor网络的输出πθ(st,at);critic网络的输出Qπ(st,at)用来评估策略πθ(st,at)的价值;选择使用近端策略优化算法来训练神经网络,近端策略优化旨在更新策略网络的参数,使当前策略下生成的动作序列能够获得更高的累积奖励;
将策略π表示为连续函数πθ(s,a)=P(a|s,θ),表示在状态s中采取行动a的概率,通过构造损失函数来更新网络。
更近一步地,近端策略优化中的actor网络损失函数通常基于KL散度来计算;critic网络损失函数通常使用TD误差;
actor网络和critic网络的损失函数分别如下所示:
其中,πθ(s,a)表示新策略的行动选择概率,表示旧策略的行动选取概率,A(s,a)表示用于衡量行动优势的优势函数,KL(θ,θold)表示新策略相对于旧策略的KL发散,参数β是控制KL散度权重的超参数,表示critic网络预测的状态值。
更近一步地,该方法还包括采用多目标优化算法,用于解决具有多个冲突目标的优化问题;所述的多目标优化算法基于遗传算法原理,包括如下的方面的计算:
目标函数:最小化时延、最小化部署成本与最大化已接受请求的总吞吐量;
种群:在每个时隙τ中,将所有请求的部署方案整合起来,当作多目标优化算法的初始种群;
个体编码:用[1,N]区间内的整数来表示每个选择的染色体,其中N是服务器的数量,每个值对应一个可以承载VNF的服务器编号;
交叉:交叉操作采取单点交叉,在一个随机选定的交叉点将两个个体的基因切分,然后将切分的部分交换,从而生成新的个体;
突变:突变操作采取单点突变,通过引入随机性,以便在搜索空间中探索新的解。
有益效果:本发明为了确保不同网络服务的不同QoS要求,将传统的SFC单目标优化模型扩展为多目标优化模型,解决了现有工作中考虑延迟、部署成本和吞吐量的问题。同时本发明为了解决现有SFC部署算法的局限性,提出了一个两阶段的解决方案MOERL算法,提高了SFC部署的效率和有效性。
附图说明
图1为服务功能链部署的示意图;
图2为MOERL算法的流程框架;
图3为MOERL和NSGA-II、DRL方法得到的Pareto前沿对比示意图。
具体实施方式
为了详细的说明本发明所公开的技术方案,下面结合附图和实例对本发明做进一步的说明。
为了解决现有SFC部署算法的局限性,单目标优化难以满足低时延、高接受率和低成本的需求等问题,本发明提供一种基于深度强化学习和遗传算法相结合的多目标服务功能链的部署方法,实现时延最小、请求接受率最大以及成本最小的三个优化目标。具体包括如下步骤:
(1)构建系统模型,主要包括物理网络模型、SFC请求模型以及映射关系;
本发明将NFV网络表示为无向图G=(V,E),其中V表示服务器节点的集合,E表示连接任意两个节点的物理链路的集合,vi表示第i个服务器节点,ei表示第j条物理链路。每个服务器都能够实例化多个虚拟机以支持不同类型的VNF,支持VNF的虚拟机的集合表示为M={m1,m2,...,m|M|}。每个服务器都有固定的资源容量,其中包括计算资源和存储资源。表示第v个服务器节点上的可用的CPU和内存容量。Bv表示服务器v的总输出带宽,Te表示链路e的通信延迟。
本发明将网络中的一个SFC请求序列表示为R={r1,r2,...,rR}。对于不同的业务请求,需要部署一系列的VNF,以满足每个SFC请求的特定业务需求。服务所需的VNF集合表示为F={f1,f2,...,fN},每个VNF都有特定的资源需求,因此使用分别表示VNF的CPU需求和内存需求。一个SFC请求表示为{f1,f2,...fk},这表示该SFC请求将依次通过k个VNF。每个SFC请求都有特殊的QoS要求,其中包括带宽需求Br和最大延迟容忍Tr。此外,将连接SFC请求的VNF之间的虚拟链路表示为L={l1,l2,...,lN-1},其中li是连接SFC请求中的VNFfi和VNFfi+1的第i个虚拟链路。
在服务器节点上是否成功部署VNF取决于是否有足够的资源。使用二进制决策变量表示请求r中的VNFfi是否可以部署在服务器节点v上。详细地说,如果请求r中的VNFfi成功地部署在服务器节点v上,否则,类似地,表示请求r中的虚拟链路li是否可以映射到物理链路e上。如果请求r中的虚拟链路li成功地映射到物理链路e上,否则,
(2)构建SFC部署问题的数学模型,包括问题的优化目标和约束条件;
为了解决由请求的随机到达和离开引起的实时网络动态问题,本发明引入了时隙τ的概念,分别使用τr,a和τr,1来表示请求的到达时间和生存时间。在时隙τ中,用二进制变量xr,τ表示请求r是否仍在被服务的状态:
由于单个节点可以部署VNF服务的多个实例来处理多个请求,使用来表示部署在节点v上的VNFfi服务实例的数量:
其中,r(i)表示请求r的第i个VNF。
首先,在资源充足的情况下,可以在同一个服务器节点上部署多个VNF。因此服务器节点的资源约束为:
其次,由于服务器节点的总输出带宽为通过该节点的所有请求的带宽需求设置了上限,因此带宽约束为:
最后,用Td表示总响应延迟,包括链路上的通信延迟和服务器节点上的处理延迟。将链路上的通信延迟Tc表示为:
VNF的处理延迟受虚拟机计算能力和VNF类型的影响,可能导致不同虚拟机的处理延迟不同。因此将请求r在虚拟机m上的处理速率表示为vm,总处理延迟Tp表示为:
其中,λ表示请求r的平均到达率,假设请求的到达遵循泊松过程,αm表示虚拟机m对请求r的CPU共享率,δm表示虚拟机m的最大聚合处理能力,Dm表示虚拟计算机m对请求r的处理密度。
因此,总响应延迟Td为:
Td=Tc+Tp
时延约束为:
本发明所述方法提出了三个优化目标函数,目标1是最小化延迟,目标2是最小化成本,目标3是最大化请求的总吞吐量。
目标函数1的表达如下:
目标函数2的表达如下:
其中,λv和λB分别表示服务器资源和带宽的单位成本。
本发明所述方法使用二进制决策变量yr来表示请求r是否被接受,表示如下:
目标函数3的表达如下:
(3)将SFC部署问题建模为马尔可夫决策过程模型来描述网络状态的变化;
有了上述的准备工作,继而是提出马尔可夫决策过程模型,马尔可夫决策过程模型的数学表示为<S,A,P,R,γ>,分别对应状态空间、动作空间、状态转移概率、奖励函数以及折扣因子。在每个决策事件中,智能体观测系统状态s(t)并且选择动作a(t),通过选择动作a(t),获得奖励r(t)和下一个系统状态s(t+1)。奖励r(t)可以用来评估动作a(t)的有效性。具体如下:
1)STATE
对于系统中每个状态,应该包括物理网络的特征与正在处理的请求的特征。将状态定义为一组向量其中表示每个节点的可用资源,表示可用的链路带宽资源。Mt表示了正在处理的请求的特征,包括了资源需求带宽需求请求r中未部署的VNF的数量剩余延时空间请求r的生存时间Pr。因此,时隙t处的系统状态表示为
2)ACTION
动作A表示为服务器索引的集合A={a|a∈{0,1,2,...,|N|}},它指向服务器节点的索引,这意味着已经在第a个服务器节点上成功地部署了VNF。a=0表示无法在任何节点上部署VNF。对于每个VNF,都有(|N|+1)个动作。
3)REWARD
鉴于共同优化这三个目标,奖励函数为总接受请求吞吐量的加权和减去总部署成本的加权和和总响应延迟的加权和,可以表示为:
rt=αBrτr,1-βC(τ)-ωTd
其中,α、β和ω是每个目标的加权因子,C(τ)是每个时隙τ的成本。
因此,总奖励为:
其中,γ∈[0,1]是折扣因子,表示未来奖励的折扣程度。
(4)本发明将深度强化学习和多目标遗传算法结合,设计了一个合理高效的编排方案(MOERL)。如图2所示,使用深度强化学习方法,构建Actor-Critic神经网络。actor网络负责生成VNF部署策略,critic网络用于评估生成策略的价值。并通过近端策略优化进行训练,训练得到的不同部署方案作为NSGA-II算法的初始种群,通过NSGA-II算法继续对部署方案进行优化,具体为:
MOERL的智能体是actor网络和critic网络,其中actor网络的输入状态、输出动作和生成VNF放置策略,用于近似策略模型π(s,a)。而critic网络的输入状态,输出价值函数评估该策略的价值,用于近似值函数Qπ(s,a)。首先,将物理网络的状态和请求的特征提取出来作为state,并输入到actor网络中,然后通过隐藏层将它们变成单列向量,接着通过sofimax层映射成(0,1)区间的向量,其中向量中的每个值表示VNF部署到对应服务器节点上的概率,选择最高概率的节点来部署VNF,即actor网络的输出πθ(st,at)。critic网络的输出Qπ(st,at)用来评估策略πθ(st,at)的价值。选择使用近端策略优化算法来训练神经网络,近端策略优化旨在更新策略网络的参数,使当前策略下生成的动作序列能够获得更高的累积奖励。我们将策略π表示为连续函数πθ(s,a)=P(a|s,θ),表示在状态s中采取行动a的概率。通过构造损失函数来更新网络。近端策略优化中的actor网络损失函数通常基于KL散度来计算。critic网络损失函数通常使用TD误差。两个损失函数如下所示:
其中,πθ(s,a)表示新策略的行动选择概率,表示旧策略的行动选取概率,A(s,a)表示用于衡量行动优势的优势函数,KL(θ,θold)表示新策略相对于旧策略的KL发散,参数β是控制KL散度权重的超参数,表示critic网络预测的状态值。
NSGA-II(Non-dominated Sorting Genetic Algorithm II)是一种多目标优化算法,基于遗传算法原理,用于解决具有多个冲突目标的优化问题。它通过非支配排序、拥挤度距离等技术,生成一组近似最优解集,有效平衡了解的多样性与收敛性,适用于复杂多目标问题的求解。由于DRL生成的部署方案是满足约束的,因此比直接使用NSGA-II算法随机生成的初始种群效率要高。NSGA-II主要包括以下几个方面:
(a)目标函数:最小化时延、最小化部署成本与最大化已接受请求的总吞吐量。
(b)种群:在每个时隙τ中,将所有请求的部署方案整合起来,当作NSGA-II的初始种群。
(c)个体编码:我们用[1,N]区间内的整数来表示每个选择的染色体,其中N是服务器的数量,每个值对应一个可以承载VNF的服务器编号。
(d)交叉:交叉操作采取单点交叉,即在一个随机选定的交叉点将两个个体的基因切分,然后将切分的部分交换,从而生成新的个体。
(e)突变:突变操作采取单点突变,突变是指在个体基因编码中的一个或多个基因值发生随机变化的过程。它用于引入一些随机性,以便在搜索空间中探索新的解。
NSGA-II迭代地执行选择、交叉和变异操作,以在多代中进化种群,从而在帕累托前沿保持多样化且高质量的解决方案集。适应度值根据最小化延迟、最小化成本以及最大化已接受请求的总吞吐量三个优化目标计算。该算法旨在找到一组解决方案,在这些相互冲突的目标之间提供权衡,从而产生代表SFC不同部署策略的解决方案的帕累托前沿。
实施例:结合图1-图3所示,仿真实验采用了基于PyTorch框架的Python编程语言,运行于配备有2.10GHz、12th GenIntel(R)Core(TM)i7-12700F的CPU处理器和16GB内存的电脑。仿真的相关参数如下所示:网络拓扑有12个节点与15个双向链路。为了生成SFC请求,网络中有6种类型的VNFs。每个SFC的VNFs数量设置为[1,6]。SFC请求所需的最小带宽随机分布在[10,30]Mbps。此外,每个SFC请求的最大容忍延迟在[20,50]ms之间。每个VNF需要服务器节点上的CPU和内存资源的支持,每个VNF所需的容量分别在[1,20]核和[2,4]GB之间。NSGA-II参数:种群规模设置为100;突变概率为20%;交叉概率为90%;最大代数设置为100。
为了评估MOERL的性能,本实验NSGA-II算法、DRL进行对比,比较这三种算法的Pareto前沿。MOERL、DRL、NSGA-II算法得到的Pareto前沿如图3所示,与NSGA-II方法相比,MOERL方法的部署方案能减少8.3%的延迟,同时减少4.8%的成本,并将已接受请求的吞吐量提升了5.5%;与DRL方法相比,MOERL方法的部署方案能减少16.1%的延迟,同时减少1.3%的成本,并将已接受请求的吞吐量提升了10%。观察图3中的三维Pareto边界,可以明显看出所提出的MOERL方法优于其余对比算法。这是由于DRL生成一组初始的放置方案,这可以看作是一种初步的局部搜索。然后,将其用作NSGA-II的初始种群可以加速NSGA-II的收敛速度,因为NSGA-II不需要从随机种群开始搜索。NSGA-II可以进一步优化这些方案,以便获得更好的Pareto前沿。这种混合方法的优点在于它能够充分利用深度强化学习的全局搜索能力和多目标遗传算法的多样性维护能力。

Claims (9)

1.一种基于深度强化学习和遗传算法的多目标SFC部署方法,其特征在于,包括如下步骤:
S1、构建系统模型,包括物理网络模型和SFC模型,还包括建立系统模型之间的映射关系;
该系统模型中,对于网络中的SFC请求需要考虑部署VNF以满足每个SFC请求的特定业务需要,对于VNF考虑CPU需求和内存需求,通过二进制决策变量表示请求r中的VNF fi是否可以部署在服务器节点v上;
S2、构建SFC部署问题的数学模型,包括问题的优化目标和约束条件,所述的优化目标包括最小化延迟、最小化成本和最大化请求的总吞吐量;
所述方法引入时隙τ以解决由请求的随机到达和离开引起的实时网络动态问题,在时隙τ中,用二进制变量xr,τ表示请求r是否仍在被服务的状态:
其中,τr,a和τr,1分别表示请求r的到达时间和生存时间;
由于单个节点可以部署VNF服务的多个实例来处理多个请求,使用二进制决策变量来表示部署在节点v上的VNF fi服务实例的数量:
其中,r(i)表示请求r的第i个VNF,第i个VNF表示为fi
所述最小化延迟的目标函数表示如下:
其中,Td表示总响应延迟,包括链路上的通信延迟和服务器节点上的处理延迟;
所述最小化成本的目标函数表示如下:
其中,λv和λB分别表示服务器资源和带宽的单位成本;Cv表示第v个服务器节点上的可用的CPU和内存容量;表示请求r中的VNF fi是否可以部署在服务器节点v上;Bv表示服务器v的总输出带宽,表示请求r中的虚拟链路1i是否可以映射到物理链路e上;
该方法使用二进制决策变量yr来表示请求r是否被接受,表示如下:
其中,Td表示总响应延迟,Tr表示最大容忍延迟;
所述最大化请求的总吞吐量的目标函数表示如下:
其中,Br表示请求r的带宽需求,τr,1表示请求r的生存时间;
(3)将SFC部署问题建模为马尔可夫决策过程模型来描述网络状态的变化;
马尔可夫决策过程模型表示为<S,A,P,R,γ>,分别对应状态空间、动作空间、状态转移概率、奖励函数以及折扣因子,在每个决策事件中,智能体观测系统状态s(t)并且选择动作a(t),通过选择动作a(t),获得奖励r(t)和下一个系统状态s(t+1);其中的奖励r(t)用来评估动作a(t)的有效性;
(4)将深度强化学习和多目标遗传算法结合设计编排方案,具体是基于深度强化学习方法,构建Actor-Critic神经网络;通过actor网络负责生成VNF部署策略,critic网络用于评估生成策略的价值,并通过近端策略优化进行训练,训练得到的不同部署方案作为NSGA-II算法的初始种群,通过NSGA-II算法继续对部署方案进行优化。
2.根据权利要求1所述的基于深度强化学习和遗传算法的多目标SFC部署方法,其特征在于,步骤S1包括:
将NFV网络表示为无向图G=(V,E),其中V表示服务器节点的集合,E表示连接任意两个节点的物理链路的集合,且每个服务器都能够实例化一个及以上的虚拟机以支持不同类型的VNF,支持VNF的虚拟机的集合表示为M={m1,m2,...,m|M|};每个服务器都有固定的资源容量,其中包括计算资源和存储资源;表示第v个服务器节点上的可用的CPU和内存容量;Bv表示服务器v的总输出带宽,Te表示链路e的通信延迟。
3.根据权利要求2所述的基于深度强化学习和遗传算法的多目标SFC部署方法,其特征在于,该方法将网络中的SFC请求序列表示为R={ri,r2,...,rR},对于不同的业务请求,需要部署一系列的VNF以满足每个SFC请求的特定业务需求,将服务所需的VNF集合表示为F={f1,f2,...,fN},每个VNF都有特定的资源需求,因此使用分别表示VNF的CPU需求和内存需求;一个SFC请求表示为{f1,f2,...,fk},表示该SFC请求将依次通过k个VNF;
并且考虑到每个SFC请求都有特殊的QoS要求,其中包括带宽需求Br和最大延迟容忍Tr
此外,将连接SFC请求的VNF之间的虚拟链路表示为L={l1,l2,...,lN-1},其中li是连接SFC请求中的VNF fi和VNF fi+1的第i个虚拟链路。
4.根据权利要求1所述的基于深度强化学习和遗传算法的多目标SFC部署方法,其特征在于,步骤S1基于二进制决策变量对于服务节点上是否成功部署VNF的具体处理是:
如果请求r中的VNF fi成功地部署在服务器节点v上,否则,
类似地,表示请求r中的虚拟链路1i是否可以映射到物理链路e上,如果请求r中的虚拟链路1i成功地映射到物理链路e上,否则,
5.根据权利要求1所述的基于深度强化学习和遗传算法的多目标SFC部署方法,其特征在于,步骤S2还具体包括:
(21)针对资源满足在同一个服务器节点上部署若干个VNF的情况,将此服务器节点的资源约束为:
(22)由于服务器节点的总输出带宽为通过该节点的所有请求的带宽需求设置了上限,因此将带宽约束定义为:
(23)用Td表示总响应延迟,包括链路上的通信延迟和服务器节点上的处理延迟,将链路上的通信延迟Tc表示为:
(24)VNF的处理延迟受虚拟机计算能力和VNF类型的影响,可能导致不同虚拟机的处理延迟不同;因此将请求r在虚拟机m上的处理速率表示为vm,总处理延迟Tp表示为:
其中,λ表示请求r的平均到达率,假设请求的到达遵循泊松过程,αm表示虚拟机m对请求r的CPU共享率,δm表示虚拟机m的最大聚合处理能力,Dm表示虚拟计算机m对请求r的处理密度;
因此,总响应延迟Td为:
Td=Tc+Tp
时延约束为:
6.根据权利要求1所述的基于深度强化学习和遗传算法的多目标SFC部署方法,其特征在于,步骤S3具体包括:
(31)系统状态表示
所述方法将时隙t处的系统状态表示为
对于系统中每个状态,应该包括物理网络的特征与正在处理的请求的特征,将状态定义为一组向量其中表示每个节点的可用资源,表示可用的链路带宽资源,Mt表示了正在处理的请求的特征,包括资源需求带宽需求请求r中未部署的VNF的数量剩余延时空间请求r的生存时间Pr
(32)动作表示
动作A表示为服务器索引的集合A={a|a∈{0,1,2,...,|N|}},它指向服务器节点的索引,这意味着已经在第a个服务器节点上成功地部署了VNF;
其中a=0表示无法在任何节点上部署VNF,对于每个VNF,都有(|N|+1)个动作;
(33)奖励设置
基于需要共同优化的最小化延迟、最小化成本和最大化请求的总吞吐量三个目标,奖励函数为总接受请求吞吐量的加权和减去总部署成本的加权和和总响应延迟的加权和,表示为:
rt=αBrτr,1-βC(t)-ωTd
其中,α、β和ω是每个目标的加权因子,C(τ)是每个时隙τ的成本;
因此,总奖励为:
其中,γ∈[0,1]是折扣因子,表示未来奖励的折扣程度。
7.根据权利要求1所述的基于深度强化学习和遗传算法的多目标SFC部署方法,其特征在于,步骤S4具体包括:
将物理网络的状态和请求的特征提取出来作为state,并输入到actor网络中,然后通过隐藏层将它们变成单列向量,接着通过softmax层映射成(0,1)区间的向量,其中向量中的每个值表示VNF部署到对应服务器节点上的概率,选择最高概率的节点来部署VNF,即actor网络的输出πθ(st,at);critic网络的输出Qπ(st,at)用来评估策略πθ(st,at)的价值;选择使用近端策略优化算法来训练神经网络,近端策略优化旨在更新策略网络的参数,使当前策略下生成的动作序列能够获得更高的累积奖励;
将策略π表示为连续函数πθ(s,a)=P(a|s,θ),表示在状态s中采取行动a的概率,通过构造损失函数来更新网络。
8.根据权利要求7所述的基于深度强化学习和遗传算法的多目标SFC部署方法,其特征在于,近端策略优化中的actor网络损失函数通常基于KL散度来计算;critic网络损失函数通常使用TD误差;
actor网络和critic网络的损失函数分别如下所示:
其中,πθ(s,a)表示新策略的行动选择概率,表示旧策略的行动选取概率,A(s,a)表示用于衡量行动优势的优势函数,KL(θ,θold)表示新策略相对于旧策略的KL发散,参数β是控制KL散度权重的超参数,表示critic网络预测的状态值。
9.根据权利要求1所述的基于深度强化学习和遗传算法的多目标SFC部署方法,其特征在于,该方法还包括采用多目标优化算法,用于解决具有多个冲突目标的优化问题;所述的多目标优化算法基于遗传算法原理,包括如下的方面的计算:
目标函数:最小化时延、最小化部署成本与最大化已接受请求的总吞吐量;
种群:在每个时隙τ中,将所有请求的部署方案整合起来,当作多目标优化算法的初始种群;
个体编码:用[1,N]区间内的整数来表示每个选择的染色体,其中N是服务器的数量,每个值对应一个可以承载VNF的服务器编号;
交叉:交叉操作采取单点交叉,在一个随机选定的交叉点将两个个体的基因切分,然后将切分的部分交换,从而生成新的个体;
突变:突变操作采取单点突变,通过引入随机性,以便在搜索空间中探索新的解。
CN202410048027.1A 2024-01-12 2024-01-12 基于深度强化学习和遗传算法的多目标sfc部署方法 Pending CN117938959A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410048027.1A CN117938959A (zh) 2024-01-12 2024-01-12 基于深度强化学习和遗传算法的多目标sfc部署方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410048027.1A CN117938959A (zh) 2024-01-12 2024-01-12 基于深度强化学习和遗传算法的多目标sfc部署方法

Publications (1)

Publication Number Publication Date
CN117938959A true CN117938959A (zh) 2024-04-26

Family

ID=90762476

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410048027.1A Pending CN117938959A (zh) 2024-01-12 2024-01-12 基于深度强化学习和遗传算法的多目标sfc部署方法

Country Status (1)

Country Link
CN (1) CN117938959A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118433183A (zh) * 2024-05-17 2024-08-02 北京邮电大学 一种面向运行可靠性和时延的多目标dnn推理任务部署方法和系统
CN119967446A (zh) * 2025-01-14 2025-05-09 中国石油大学(华东) 一种面向混合边缘云的星地融合网络服务功能链编排方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118433183A (zh) * 2024-05-17 2024-08-02 北京邮电大学 一种面向运行可靠性和时延的多目标dnn推理任务部署方法和系统
CN119967446A (zh) * 2025-01-14 2025-05-09 中国石油大学(华东) 一种面向混合边缘云的星地融合网络服务功能链编排方法

Similar Documents

Publication Publication Date Title
CN111445111B (zh) 一种基于边缘协同的电力物联网任务分配方法
Zhao et al. Adaptive swarm intelligent offloading based on digital twin-assisted prediction in VEC
CN113285832B (zh) 基于nsga-ii的电力多模态网络资源优化分配方法
CN113098714A (zh) 一种基于深度强化学习的低时延网络切片的方法
CN117938959A (zh) 基于深度强化学习和遗传算法的多目标sfc部署方法
CN115686846B (zh) 边缘计算中融合图神经网络和强化学习的容器集群在线部署方法
CN119012236B (zh) 一种数字孪生辅助的虚拟网络功能资源预测和迁移方法
CN112990485A (zh) 基于强化学习的知识策略选择方法与装置
Yuan et al. Efficient IoV resource management through enhanced clustering, matching, and offloading in DT-enabled edge computing
CN115883371B (zh) 边缘-云协同系统中基于学习优化方法的虚拟网络功能放置方法
CN116566891B (zh) 时延敏感的服务功能链并行路由优化方法、装置及介质
Qi et al. Vehicular edge computing via deep reinforcement learning
CN120540776A (zh) 一种基于深度强化学习的分布式环境下虚拟机调度方法
Zhao et al. Optimizing task offloading in VEC: A PDQKM scheme combining deep reinforcement learning and kuhn-munkres matching
CN116367190B (zh) 一种面向6g移动网络的数字孪生功能虚拟化方法
Yang et al. Knowledge-defined edge computing networks assisted long-term optimization of computation offloading and resource allocation strategy
CN117858165A (zh) 一种车载网络环境下基于v2v的车辆成组协同计算卸载策略
CN120050199B (zh) 一种面向智算融合网络多维异构环境的服务资源分配方法
CN120372315B (zh) 课程学习和强化学习驱动的动态最优自洽聚类方法
CN118540222A (zh) 基于不可行解指导遗传算法优化的虚拟网络嵌入方法
CN117880123A (zh) QoS指导的基于HBW-GOA的分布式集群服务动态重构方法
CN106406082A (zh) 一种系统控制方法、装置,控制器及控制系统
CN116684291A (zh) 一种适用通用化平台的服务功能链映射资源智能分配方法
CN112906745B (zh) 基于边缘协同的诚信智能网络训练方法
Zhang et al. Novel resource allocation algorithm of edge computing based on deep reinforcement learning mechanism

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination