CN116508346A

CN116508346A - 用于无线通信系统中负载平衡的装置和方法

Info

Publication number: CN116508346A
Application number: CN202180074823.7A
Authority: CN
Inventors: 康计堃; 陈熙; 吴迪; Y·T·徐; X·刘; G·L·杜德克; 李泰燮; 朴仁泽
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2020-11-06
Filing date: 2021-11-04
Publication date: 2023-07-28
Also published as: ES2993459T3; US20220150786A1; EP4150956B1; US20230247509A1; EP4150956A4; EP4150956C0; US11930414B2; WO2022098131A1; EP4150956A1; US11751115B2

Abstract

提供了双重策略的混合使用来改进通信系统。在多址接入场景中，当非活跃的用户设备(UE)转换到活跃状态时，它可能成为其先前驻留的无线电小区的负担。在一些实施例中，使用基于强化学习的层级机器学习范式来提供混合负载平衡，其中LSTM为影响小区重选的一个策略生成目标，以使得可以帮助影响活跃UE上的切换的另一个策略。受策略影响的通信系统被建模为马尔可夫决策过程(MDP)。控制活跃UE和非活跃UE的策略被耦合，并且可测量的系统特性被改善。在一些实施例中，策略动作至少部分地取决于节能。

Description

用于无线通信系统中负载平衡的装置和方法

技术领域

本公开涉及使用人工智能(AI)改善通信系统中的负载平衡。

背景技术

本申请涉及通信系统的负载平衡。在通信系统中，存在空闲模式用户设备(UE)和活跃模式UE。通信系统可能跨通信系统的小区经历不平衡的负载。不均衡的负载导致一些小区有太多的用户，而其他小区负载较轻。负载重的小区中的用户可能会经历延迟、低吞吐量或高错误率。此外，系统运营商可能希望将系统带宽的更高部分用于用户有效载荷数据，而不是用于与小区重选相关的信令和/或与切换相关的信令。

因为存在空闲模式用和活跃模式用户两者，所以问题比较复杂。例如，在将空闲模式用户转移到第二小区之后，空闲模式用户可以变成更有利地与不同于第二小区的小区相关联的活跃模式用户。使得这种情况下的切换增加了用于信令的系统带宽，并且可能被用户察觉。

发明内容

解决方案

在多址接入的无线电资源分配中存在问题。在多址场景中，一些用户设备(UE)在通信系统(例如，无线电网络)中活跃地发送/接收，并且一些其他UE与该通信系统相关联，但是其他UE不活跃地发送/接收。当非活跃UE转换到活跃状态时，它可能会成为其先前驻留的无线电小区的负担。此外，由于该问题，通信系统的用户经历了延迟、低吞吐量和/或高错误率。这个问题可以通过将一些空闲模式用户转移到其他小区并影响活跃模式用户的一些切换来减轻。

第二个问题存在于基站的电力消耗中。有时基站正在运行，消耗电能，而基站不需要运行。

该解决方案使用了一种称为强化学习的机器学习范式。强化学习将系统建模为马尔可夫决策过程(MDP)，当系统从一个状态改变到另一个状态时，该过程包括动作和奖励。策略选择动作以增加一系列动作上的奖励的累积。

该解决方案通过形成用于非活跃UE的较低策略(lower policy)和用于活跃UE的较高策略(higher policy)来调整非活跃UE与无线电小区的关联以及活跃UE与无线电小区的关联。

对于电力问题，较低策略旨在决定是否关闭基站的一个方面。例如，较低策略的动作可以关闭特定基站的无线电设备。

在应用中，较高策略用于选择影响活跃UE的第一动作。然后，解决方案根据第一个动作设定目标。基于修改后的较低策略选择第二动作。因此，控制活跃UE和非活跃UE的策略被耦合，并且改善了可测量的系统特性。可测量的系统特性的示例是吞吐量的标准偏差(公平性)、系统的平均吞吐量(表征系统性能的单一数字)以及切换速率的适度性(与切换开销相关的单一数字)。

一个实施例的概要使用以下流程：确定参数的系统集合；基于参数的系统集合和较高损失更新较高策略；基于较高策略选择较高动作(higher action)；基于参数的系统集合和较高动作为较低策略选择目标；基于参数的系统集合、目标和较低损失更新较低策略；基于目标和较低策略选择较低动作；以及将联合动作应用于通信系统。联合动作是基于较低动作和较高动作的。

这里提供了一种由服务器进行的服务器方法，该服务器方法用于在通信系统中更好地平衡网络流量的层级双重强化学习过程，其中该通信系统包括第一基站和第二基站，该服务器方法包括：基于参数的系统集合和第二损失更新较高策略以在第一时间处提高较高级别的奖励；基于较高策略选择第一动作；基于参数的系统集合并基于第一动作，选择较低策略的目标；基于参数的系统集合并基于第一损失更新较低策略，以在第一时间处提高较低级别的奖励；基于目标并基于第一损失选择第二动作；以及将联合动作应用于通信系统，其中联合动作是基于第一动作和第一动作的。

在一些实施例中，联合动作包括服务器配置第一基站和服务器配置第二基站。

在一些实施例中，第一动作与活跃UE负载平衡(AULB)相关联，第二动作与非活跃UE负载平衡(IULB)相关联。

在一些实施例中，更新较低策略是较低策略学习的一种形式，更新较高策略是较高策略学习的一种形式。

在一些实施例中，参数的系统集合包括：通信系统的第一小区的第一状态，以及与第一小区相关联的第一奖励，其中第一基站支持第一小区。

在一些实施例中，第一小区的第一状态是包括至少三个元素的第一小区向量，第一小区向量的第一元素是第一小区中UE的平均数量，第一小区向量的第二元素是第一小区的平均带宽利用率，第一小区向量的第三元素是第一小区的平均吞吐量，并且其中服务器方法还包括通过接收第一小区向量、接收第二小区向量来确定参数的系统集合。

在一些实施例中，较低策略被配置为识别与第一基站和第二基站处的小区重选相关联的较低级别动作，并且较高策略被配置为识别与第一基站和第二基站之间的切换相关联的较高级别动作。

在一些实施例中，较低级别动作包括从第一小区到第二小区的第一小区重选的第一较低级别动作，以及从第二小区到第一小区的第二小区重选的第二较低级别动作，并且较高级别动作包括从第一小区到第二小区的第一切换的第一较高级别动作，以及从第二小区到第一小区的第二切换的第二较高级别动作。

在一些实施例中，第一较低级别动作是第一阈值对，第一beta和第一alpha，第一较高级别动作是第一单一阈值，第一alpha，并且第二较低级别动作是第二阈值对，第二beta和第二alpha，第二较高级别动作是第二单一阈值，第二alpha。

在一些实施例中，选择联合动作被配置成改善指示通信系统公平性的吞吐量的标准偏差，改善通信系统的平均吞吐量，和/或平滑乒乓效应以缓和每单位时间每小区的切换数量。

本文还提供了一种服务器，包括一个或多个处理器和一个或多个存储器，一个或多个存储器被配置为保存指令，其中由一个或多个处理器执行指令使得服务器执行：基于参数的系统集合和第二损失更新较高策略，以在第一时间处提高较高级别的奖励；基于较高策略选择第一动作；基于参数的系统集合并基于第一动作选择较低策略的目标；基于参数的系统集合并基于第一损失更新较低策略，以在第一时间处提高较低级别的奖励；基于目标并基于第一损失选择第二动作；以及将联合动作应用于通信系统，其中该联合动作是基于第一动作和第二动作的。

本文还提供了一种被配置为保存指令的非暂时性计算机可读介质，其中指令的执行被配置为使服务器：基于参数的系统集合和第二损失更新较高策略，以在第一时间处提高较高级别的奖励；基于较高策略选择第一动作；基于参数的系统集合并基于第一动作选择较低策略的目标；基于参数的系统集合并基于第一损失更新较低策略，以在第一时间处提高较低级别的奖励；基于目标并基于第一损失选择第二动作；以及将联合动作应用于通信系统，其中该联合动作是基于第一动作和第二动作的。

根据本公开的一个方面，提供了一种用于无线通信系统中的负载平衡的方法。该方法包括从至少一个基站(BS)接收带宽利用率、活跃用户设备(UE)的数量和平均吞吐量，基于带宽利用率、活跃UE的数量和平均吞吐量获得第一状态数据，通过将第一状态数据和第一奖励数据输入到第一强化学习模型来获得与活跃UE负载平衡(AULB)相关联的第一动作数据和用于获得第二动作数据的第一目标数据，通过将第一状态数据、第一目标数据和第二奖励数据输入到第二强化学习模型来获得与空闲UE负载平衡(IULB)相关联的第二动作数据，基于第一动作数据和第二动作数据确定与AULB和IULB两者相关联的第三动作数据，并且将第三动作数据发送到至少一个基站(BS)。

根据本公开的另一方面，提供了一种用于无线通信系统中的负载平衡的装置。该装置包括收发器、存储一个或多个指令的存储器以及至少一个处理器，该处理器被配置为执行存储在存储器中的一个或多个指令，以从至少一个基站(BS)接收带宽利用率、活跃用户设备(UE)的数量和平均吞吐量，基于带宽利用率、活跃UE的数量和平均吞吐量获得第一状态数据，通过将第一状态数据和第一奖励数据输入到第一强化学习模型来获得与活跃UE负载平衡(AULB)相关联的第一动作数据和用于获得第二动作数据的第一目标数据，通过将第一状态数据、第一目标数据和第二奖励数据输入到第二强化学习模型来获得与空闲UE负载平衡(IULB)相关联的第二动作数据，基于第一动作数据和第二动作数据来确定与AULB和IULB两者相关联的第三动作数据；并将第三动作数据发送到至少一个基站(BS)。

根据本公开的另一方面，一种存储程序的计算机可读存储介质，该程序可由至少一个处理器执行以实现负载平衡的方法，该方法包括：从至少一个基站(BS)接收带宽利用率、活跃用户设备(UE)的数量和平均吞吐量，基于带宽利用率、活跃UE的数量和平均吞吐量获得第一状态数据，通过将第一状态数据和第一奖励数据输入到第一强化学习模型来获得与活跃UE负载平衡(AULB)相关联的第一动作数据和用于获得第二动作数据的第一目标数据，通过将第一状态数据、第一目标数据和第二奖励数据输入到第二强化学习模型来获得与空闲UE负载平衡(IULB)相关联的第二动作数据，基于第一动作数据和第二动作数据，确定与AULB和IULB两者相关联的第三动作数据，将第三动作数据发送到至少一个基站(BS)。

附图说明

文本和附图仅作为示例提供，以帮助读者理解本发明。它们不旨在也不应被解释为以任何方式限制本发明的范围。尽管已经提供了某些实施例和示例，但是基于这里的公开内容，对于本领域技术人员来说显而易见的是，在不脱离这里提供的实施例的范围的情况下，可以对所示的实施例和示例进行改变。

图1A示出了根据一些实施例的用于联合地确定第一策略和第二策略并将联合动作应用于通信网络的逻辑流程。

图1B示出了根据一些实施例的策略确定服务器确定的系统1-19，其用于联合确定第一策略和第二策略并将联合动作应用于通信网络。

类似于图1B，图1C示出了根据一些实施例的系统1-99，其示出了由通过策略确定服务器1-9影响、控制或优化的小区1-93服务的驻留UE 1-91、活跃UE 1-92。

图1D示出了根据一些实施例的示例通信系统1-4。

图2A示出了根据一些实施例的逻辑流程2-8。

图2B示出了以通信系统1-4作为示例环境的层级策略学习的示例性架构2-9。

图3示出了根据一些实施例的消息反弹(message bounce)图3-1。

图4示出了根据一些实施例的算法流程4-1。

图5示出了用于实现实施例中的一个或多个的装置，例如图1B的策略确定服务器。

图6A示出了根据一些实施例的马尔可夫决策过程(MDP)6-1。

图6B示出了根据一些实施例的示例性伪代码6-11，即逻辑流程2-8的更具体的示例。

图7A示出了根据一些实施例的协作策略7-8的基本逻辑。

图7B示出了根据一些实施例的与图7A的逻辑相关联的系统7-19。

图8示出了根据一些实施例的示例性系统8-4，其中强化学习设备8-5和环境8-1进行交互。

具体实施方式

蜂窝通信已经渗透到我们日常生活的每个角落。为了支持我们不断增长的通信需求，小区已经被部署在各地以提供更好的服务。然而，由于法规和工程的限制，小区不能随意部署。

这就导致了小区分布相对均匀和人的人口分布不均匀之间的不匹配。因此，蜂窝系统通常会在不同小区之间出现高度不均衡的负载，导致用户不满意和资源浪费。

已经进行了大量的努力来通过跨小区迁移用户设备(UE)来平衡负载。现有的负载均衡(LB)方法可以分为两类，活跃UE LB(AULB)和空闲UE LB(IULB)。AULB方法利用切换(HO)机制将活跃模式UE(即，当前收发信号的UE)从繁忙的服务小区卸载到不太繁忙的相邻小区。这种方法通过付出增加系统开销的代价来获得瞬时负载平衡结果。IULB方法利用小区重选(CR)机制将空闲模式UE(即，连接但不收发信号的UE)从拥塞的驻留小区移动到其他小区。这些方法更加轻量级，因为CR比HO需要更少的系统开销。然而，只有在迁移的空闲UE变得活跃之后，才能实现这种好处。

AULB的操作可能与IULB的操作冲突(反之亦然)，导致系统性能意外下降。

为了提高系统性能，实施例提供了层级策略学习(HPL)方法，该方法将AULB和IULB两者集成到两级强化学习(RL)结构中。具体地说，较高级别调整AULB动作，较低级别控制IULB动作。较高级别以优化系统性能为目标，直接作为RL奖励，同时学习为较低级别设定目标。因为这个目标特别针对较低级别，而不是系统的总体目标，所以较低级别的目标是一种子目标。

较低级别的目标是期望的RL状态，这进一步提高了较高级别的奖励(但仅通过较高级别的动作是无法实现的)。通过接近这个目标，较低级别1)间接地增强了系统性能，并且2)被影响以与较高级别一致。

这样，AULB和IULB之间就建立了协作，减少或消除了冲突。

实施例提供了HPL-第一层级学习方法，其以协作的方式集成了不同的LB机制(即AULB和IULB)。

在不同的UE密度设置下，我们的HPL方法总是优于SOTA方法。具体来说，与SOTAAULB和IULB的直接组合相比，HPL将平均吞吐量提高了24％，同时将吞吐量的标准偏差降低了31％。

术语“负载”指的是被服务的UE的数量。BS位于放置无线电接入设备的物理站点。考虑具有NB个BS的蜂窝网络，BS中的每一个由NS个不重叠的扇区组成。扇区服务于位于其托管BS的某个方向上的UE。扇区支持NC个载波频率，载波频率中的每一个对应小区。小区是在BS的特定方向内和特定载波频率上服务于UE的服务实体。

图1A示出了逻辑流程1-8。逻辑流程1-8是较低策略和较高策略的逻辑。在1-10，逻辑流程联合确定较高策略1-1和较低策略1-2。基于较高策略1-1和较低策略1-2，向通信系统1-4提供联合动作1-3。在1-20，联合动作1-3被应用于通信系统1-4。

图1B示出了系统1-19和策略演变。系统1-19是受较高策略1-1和较低策略1-2影响的系统。该系统包括策略确定服务器1-5和通信系统1-4。一系列时间事件用括号中的数字来索引。所有事件(1)、(2)、(3)和(4)可以说发生在一个时间时期(epoch)，然后具有不同数据的类似事件发生在下一个时间时期。时期也可以被称为迭代。

在事件(1)处，从通信系统1-4向策略确定服务器1-5提供参数的系统集合1-6。在事件(2)处，执行逻辑1-10，并且确定或演变(修订或训练)较高策略1-1和较低策略1-2。在事件(3)，联合动作1-3被提供给通信系统1-4。在事件(4)处，执行逻辑1-20，并将联合动作1-3应用于通信系统1-4。然后，在事件(5)处，演变继续，更新的系统参数的集合1-6被提供给策略确定服务器1-5。如在先前的时间时期中，策略确定服务器1-5然后将执行逻辑1-10，等等。

图1C示出了系统1-99，其包括由策略确定服务器1-5影响、控制或优化的示例性通信系统1-4的关于图1A和1B的进一步细节。图1C是示出了被称为UE 1-91的驻留UE和被称为UE 1-92的活跃UE的示意表示。驻留UE 1-91包括驻留在小区k上的UE_j。活跃UE 1-92包括在小区n上发送和接收用户数据的UE_m

图1D示出了通信系统1-4的示例部分。在图1D的示例中，七个基站支持21个所示的小区。每个小区都是一个饼形。图1D本质上是示意性的，实际上小区在地理上重叠以提供重叠的覆盖，使得任何UE都可以获得服务。示出的点表示驻留UE 1-91和活跃UE 1-92。指示了驻留UE 1-91的示例UE_j。此外，指示了活跃UE 1-92的示例UE_m。

图2A提供了说明实现图1A的逻辑1-8的示例性进一步逻辑细节的逻辑2-8。逻辑2-8的概述包括确定参数的系统集合；基于参数的系统集合和较高损失更新较高策略；基于较高策略选择较高动作；基于参数的系统集合和较高动作为较低策略选择目标；基于参数的系统集合、目标和较低损失更新较低策略；基于目标和较低策略选择较低动作；以及将联合动作应用于通信系统。联合动作是基于较低动作和较高动作的。

现在详细讨论逻辑2-8。在2-10，获得系统集合参数1-6。该系统集合可以是如图1B的事件(5)处所示的更新版本。作为示例，参数的系统集合1-6包括每个小区中驻留UE的数量、每个小区中活跃UE的数量以及每个小区的用户数据吞吐量的实时(或低延迟)统计。吞吐量统计用于估计未来动作的奖励。参见图6B的伪代码的第5行(下面讨论)。

也可以在逻辑流程2-8的2-10处获得奖励(未示出)。可以使用例如等式(10)(将在下文讨论)来获得较低级别奖励。可以使用等式(1)(下面讨论)的时间T期间的平均吞吐量获得较高级别奖励。

在2-12，基于参数的系统集合1-6和较高级别损失2-5更新较低策略1-2。例如，可以使用为较高策略定义的损失函数的梯度来训练较高策略。等式(12)(下文讨论)提供了用于表示较高级别损失2-5的损失函数的示例。

在2-14，基于较高策略1-1选择第一动作2-1。第一动作2-1与活跃UE 1-92相关。

在2-16，基于参数的系统集合1-6并基于第一动作2-1，为较低策略1-2选择目标2-3。例如，可以使用长短期记忆(LSTM)神经网络来选择目标2-3。LSTM 2-91的示例如图2B所示。由时间索引的目标的示例在图2B中给出(参见变量g₀，g₁，...，g_k-1，g_k，...).

在2-18，基于参数的系统集合1-6和较低级别损失2-4更新较低策略1-2。较低级别损失2-4取决于目标2-3。例如，可以使用损失函数的梯度来训练较低策略1-2。下面在等式(11)中给出了用于表示较低级别损失2-4的损失函数的示例。

在2-20，基于目标2-3选择第二动作2-2。第二动作2-2与驻留UE 1-92相关。

第一动作2-1和第二动作2-2然后例如通过拼接(concatenation)被组合为联合动作1-3。拼接可以用代数符号来表示。对于向量u＝[a，b，c]和向量v＝[d，e，f]，

在2-22，联合动作1-3被应用于通信系统1-4。

作为联合动作1-3的结果，通信系统1-4的性能度量(metric)1-5得到改善(这在2-24处示出)。示例性能度量在等式(1)、等式(2)、等式(3)中指示(在下面讨论)。额外的性能度量是每单位时间每小区切换次数的减少。

然后，逻辑如2-26所示流回至2-10用于下一次迭代或时间时期。

图2B示出了较高策略和较低策略相对于时间的演变。时间轴显示在图2B的底部，时间从左向右前进。显示了有助于策略演变的奖励(r^H和r^L)。较高策略的动作a^H被显示由较高策略在每个时刻(moment in time)(时期或迭代k)输出。较低策略的动作a^L被显示由较低策略在每个时刻输出。这些动作被组合，然后应用于通信系统1-4(在图2B中被指示为“环境”)。目标由LSTM 2-91生成，LSTM 2-91的隐藏层被表示为h 2-90。随着时间的推移，隐藏层提供了目标之间的连续性。图2B的进一步细节将在下面的附加讨论中再次提及。

根据一个实施例，架构2-9可以包括N(N>2)个策略。策略1可能意味着最高策略，策略N可能意味着最低策略。第N-1个目标可以基于策略N-1的动作和当前状态来获得，即，子目标生成器(如下所述)可以作为较高策略1-1被包括在第N-1个强化模块中。

图3示出了示例性反弹图3-1，其示出了图1B和1C的策略确定服务器1-5和通信系统1-4的事件。

图3左侧的时间轴示出了从图的顶部到底部前进的时间。通常，策略确定服务器1-5配置网络服务器1-9。网络服务器1-9配置小区1-93。驻留UE 1-91和活跃UE 1-92观察小区1-93的功率电平和标识。

然后，在图3中，网络服务器1-9在消息3-10中向策略确定服务器1-5提供参数的系统集合1-6的当前版本。该消息3-10可以在网络回程上传递，该网络回程可以是有线的或无线的。

如3-11所示，策略确定服务器1-5然后执行逻辑1-10来更新策略并生成联合动作1-3。联合动作1-3在联合动作消息3-6中作为事件3-12被发送到网络服务器1-9。

网络服务器1-9然后配置小区1-93。对于联合动作1-3的这一实例，如3-21所示的示例性总体配置。联合动作1-3包括第一动作2-1(与活跃UE 1-91相关)和第二动作2-2(与驻留UE 1-92相关)。

然后，小区1-93更新重选参数3-50，并且驻留UE 1-91获知该更新(例如，通过传统的系统信息块(SIB)等)。关于示例重选参数3-50的更多细节，参见下面的表达式(8)和(9)。

类似地，小区1-93然后更新切换参数3-60，并且活跃UE 1-91获知该更新(例如，通过传统系统信息块(SIB)等)。关于示例切换参数3-60的更多细节，参见下面的表达式(4)。在一些实施例中，活跃UE 1-91在它们活跃时从由小区1-93发送的(经由服务器1-5和/或服务器1-9转发的)SIB消息中获得切换参数α。驻留(例如，空闲)UE 1-91在驻留时从由小区1-93发送的(经由服务器1-5和/或服务器1-9转发的)SIB消息中获得小区重选参数β和γ。

如事件3-15所示，驻留UE 1-91的一部分3-2基于重选参数3-50执行重选3-3。

此外，在3-16，活跃UE 1-92的一部分3-4基于切换参数3-60执行切换3-5。

时间轴不是成比例的，并且在配置小区、UE学习更新的参数、UE观察功率电平(RSRP，下面讨论)和UE采取重选或切换动作之间可能存在各种延迟。

系统继续演变，并且策略确定服务器1-5在3-17接收更新的参数的系统集合1-6。在3-18，执行逻辑1-10，并且在3-19，发送用于下一次迭代的联合动作消息3-6。

该过程继续重复，如图3底部的垂直省略号所示(...)。

基于策略的演变和所采取的动作，通信系统1-4的无线电资源利用率得到改善，如3-20所示。虽然在图3中3-20被显示为单个实例，但是这种改善在每次迭代中都出现。

图4示出了算法流程4-1，它是图1B的演变、图2A的逻辑2-8和图3的反弹图的总视图。

在图4中，在算法状态1，获得参数的系统集合1-6。作为示例，参数的系统集合1-6可以包括三个集合：标识驻留UE 1-91和每个UE驻留在哪个小区上的集合，标识活跃UE 1-92和每个UE正在哪个小区上发送/接收的集合(这可以是同时多于一个小区)，以及指示最近时间段的每个小区的吞吐量估计的吞吐量数据集合。

该算法然后流向算法状态2，并且执行联合确定1-10的逻辑(参见图1A，也参见图2A的项目2-12、2-14、2-16、2-18和2-20)。

该算法然后流向算法状态3，在该状态下，通过动作2-1和2-2(作为整体，联合动作1-3)在通信系统1-4中更新重选参数3-50和切换参数3-60。

在算法状态3之后，第二动作2-2是驻留UE 1-91的部分3-2执行重选的原因，统称为重选3-3；也参见图3中的3-15。同样在算法状态3之后，第一动作2-1是活跃UE 1-92的部分3-4发起切换的原因，统称为切换3-5；也参见图3中的3-16。

现在参照图5描述用于执行这里提供的实施例的硬件。

图5示出了用于实现本文公开的实施例的示例性装置5-1。例如，装置5-1可以是服务器、计算机、膝上型计算机、手持设备或平板计算机设备。装置5-1可以包括一个或多个硬件处理器5-9。一个或多个硬件处理器5-9可以包括ASIC(专用集成电路)、CPU(例如CISC或RISC设备)和/或定制硬件。装置5-1还可以包括用户接口5-5(例如显示屏和/或键盘和/或诸如鼠标的定点设备)。装置5-1可以包括一个或多个易失性存储器5-2和一个或多个非易失性存储器5-3。一个或多个非易失性存储器5-3可以包括存储由一个或多个硬件处理器5-1执行以使装置5-1执行本文公开的实施例的任何方法的指令的非暂时性计算机可读介质。在本公开的实施例中，发送器和接收器可以统称为收发器5-4，收发器5-4可以向UE、BS或网络实体发送信号或者从UE、BS或网络实体接收信号。发送或接收的信号可以包括控制信息和数据。为此，收发器5-4可以包括用于上变频和放大要发送的信号的射频(RF)发送器，以及用于低噪声放大和下变频接收信号的RF接收器。然而，这仅仅是收发器5-4的示例，因此，收发器5-4的元件不限于RF发送器和RF接收器。此外，收发器5-4可以通过有线或无线信道接收信号并将信号输出到处理器5-4，并且可以通过有线或无线信道发送从处理器5-9输出的信号。

图6A示出了马尔可夫决策过程(MDP)6-1的过程中的概念决策(decision)点的示例。第一个决策在图6A中称为决策“i”，另一决策在图6A中称为决策“w”。状态被定义为元组(S；A；R；P)(下面将进一步详细讨论)。

图6A示出了状态“通信系统1-4状态1”的一些属性。这些属性是驻留在小区k上的UE的平均数量、与小区k进行发送/接收的活跃UE的平均数量、小区k的平均带宽利用率以及小区k的平均吞吐量。

作为示例，示出了可以从状态1到达的四个下一状态。状态A(i1)和状态B(i2)可以通过选择决策i来达到。状态X(w1)和Y(w2)可以通过选择决策w来达到。马尔可夫方面由以下事实来示出，即做出决策并不总是导致相同的后续状态，而是存在到达A(i1)的概率i1和到达B(i2)的概率i2。类似地，在选择采取决策w之后，存在到达X(w1)的概率w1和到达Y(w2)的概率w2。类似地，有四种可能的奖励，奖励i1、奖励i2、奖励w1和奖励w2。

在作出决策i之后，策略1-1和1-2根据所达到的状态和奖励是哪个进行更新。类似地，在做出决策w之后，策略1-1和1-2根据所达到的状态以及奖励是哪个来更新。

在应用于通信系统1-4的特定示例中，状态与小区工作得如何(吞吐量)相关联。

图6B示出了示例实施例的伪代码。第3行对应于将联合动作1-3应用于通信系统1-4。

图6B的第4行对应于获得参数的系统集合1-6。

第5行指代计算奖励。奖励在下面讨论，例如，参见下面针对较低级别的奖励的等式(10)以及下面作为较高级别的奖励的示例的等式(1)的讨论。

第6行涉及优势函数。优势函数是给定某个状态下某个动作在多大程度上是一个好的或坏的决策的计量(measure)。优势函数给出了从某个状态选择某个动作的优势的计量。

第7-9行参考下面的等式(11)、等式(12)和等式(13)。

在第10行，选择由较高级别的策略指示的具有最大奖励的动作。

在第11行，子目标生成器(基于LSTM)生成新的子目标。子目标在这里也被称为目标。

在第12行，部分基于目标，生成较低级别动作。

第13行表示将联合动作1-3形成为来自每个策略的动作的拼接。

第14行表示返回到第1行(这类似于图2A的环回路径2-26)。

图7A和7B示出了由实施例指示的层级策略方法的应用范围。

例如，较低策略1-2与朝着与小区重选相关联的目标2-3移动相关联，例如，图3事件3-15的重选3-3。

然而，实施例不将较低策略1-2限制为与小区重选相关联。

例如，图7A示出了逻辑流程7-8。逻辑流程7-8是第一策略和第二策略的逻辑。在7-10，逻辑流程联合地确定第一策略7-1和第二策略7-2。基于第一策略7-1和第二策略7-2，向通信系统7-4提供联合动作7-3。在7-20，联合动作1-3被应用于通信系统1-4。

除了图7A之外，图7B示出了系统7-19和策略演变。系统7-19是受第一策略7-1和第二策略7-2影响的系统。系统包括策略确定服务器7-5和通信系统7-4。一系列时间事件用括号中的数字来索引。事件(1)、(2)、(3)和(4)中的全部可以说发生在一个时间时期，然后具有不同数据的类似事件发生在下一个时间时期。

在事件(1)处，从通信系统7-4向策略确定服务器7-5提供参数的系统集合7-6。在事件(2)处，执行7-10的逻辑，并且确定或演进(修订或训练)较低策略7-1和较高策略7-2。在事件(3)，联合动作7-3被提供给通信系统7-4。在事件(4)处，执行逻辑7-20，并将联合动作7-3应用于通信系统7-4。然后，在事件(5)处，演变继续，将更新的系统参数的集合7-6提供给策略确定服务器7-5。如在先前的时间时期中，策略确定服务器7-5然后将执行逻辑7-10，等等。

因此，参数7-6、奖励、动作和通信系统7-4不限于驻留UE 1-91。例如，在一些实施例中，逻辑7-8和系统7-19的参数的系统集合7-6是传感器数据。联合确定7-10实现过程1的奖励使用系统性能度量。因此，过程1不限于针对驻留UE的小区重选的策略μ^L。在一些实施例中，形成联合动作7-3的动作是可以手动或自动设置的可控参数。在一些实施例中，通信系统7-4是通信系统1-4。例如图1C的策略确定服务器1-5和网络服务器1-9之间的通信接口(也参见图3的消息3-10和3-12)适于将参数的系统集合7-6传送到策略确定服务器1-5，并将联合动作7-3传送到网络服务器1-9，用于控制代理的进一步命令。

在另外的实施例中，图1A的层级策略用于帮助服务器节省能量。在这种情况下，除了先前描述的状态值(每小区平均驻留UE、每小区平均活跃UE、带宽和/或吞吐量)之外，图6A的MDP的状态还包括小区PRB(物理资源块)使用情况。该实施例中的较低动作是在小区级别控制无线电打开/关闭开关(对于图1C的小区1-93的每个小区，关闭特定基站的无线电设备)，并且较高动作包括针对活跃UE负载平衡(图1C的UE 1-92)调整α。较高级别的奖励是除了原始IP吞吐量度量之外的系统能量度量；两者都是在环境中直接观察到的。较低级别的奖励评估目标是否已经实现，并且用奖励函数来计算。

图8示出了根据本公开的一些实施例的示例系统8-4，其中强化学习装置8-5和环境8-1进行交互。

参照图8，强化学习装置8-5可以将联合动作8-10作为动作发送到环境8-1，从而可以在环境8-1中执行BS和UE之间的切换过程。环境8-1可以向强化学习装置8-5发送环境8-1的状态8-3。状态8-3可以包括环境8-1的基站(BS)的带宽利用率、基站的活跃UE的数量以及BS的平均吞吐量。联合动作可以包括切换/AULB阈值和小区重选/IULB阈值。例如，联合动作8-10是图1A所示的联合动作1-3。

在本公开的实施例中，强化学习装置8-5可以基于预定义的操作规则(例如，逻辑流程2-8)或AI模型来控制输入数据，输入数据是从接收的控制信号和接收的数据信号中导出的。

预定义的操作规则或AI模型可以通过训练来制作。这里，当通过训练来制作预定义的操作规则或AI模型时，这可以意味着基于学习算法通过使用多个训练数据来训练基本的AI模型，以便执行期望的特性(或目的)，从而制作预定义的操作规则或AI模型。这种训练可以由根据本公开的AI在其上实现的BS或网络实体来执行，或者由单独的服务器和/或系统来执行。

在本公开的实施例中，第一活跃UE 8-20可以经由作为服务BS的第一BS 8-30接入网络，并且可以被提供服务，然后可以向第一BS 8-30发送测量报告消息。测量报告消息可以包括用于第一活跃UE 8-20执行切换过程的信息。例如，测量报告消息可以包括指示从第一BS 8-30接收的信号小于或等于预设功率的信息。可以基于切换阈值和小区重选阈值来更新预设功率。第一BS 8-30可以将当前第一数据吞吐量8-2以及作为第一状态8-3的数据吞吐量、活跃UE的数量和带宽利用率发送到强化学习装置8-5。强化学习装置8-5可以响应于第一状态8-3和/或第一数据吞吐量8-2的输入，获得联合动作8-10。

在本公开的实施例中，多个BS中的每一个可以接收联合动作8-10，并且可以向UE发送联合动作的全部或一部分。基于联合动作8-10，第一活跃UE 8-20可以执行与第二基站8-31的切换过程(例如，通过条件等式(4))。

在本公开的实施例中，类似于第一活跃UE 8-20，基于联合动作8-10，第一空闲UE8-21可以执行与第一BS 8-30的小区重选过程(例如，通过条件等式(5))。

在预设时间段之后，环境8-1可以响应于至少一个UE的切换，向强化学习装置8-5发送第二状态和第二数据吞吐量。强化学习装置8-5可以在第二数据吞吐量与第一数据吞吐量相比总的来说增加时将奖励识别为+，并且可以在第二数据吞吐量与第一数据吞吐量相比总的来说减少时将奖励识别为-。以下部分提供了示例实施例的示例细节(参见图1A、1B、1C、1D、2A、2B、3、4、6A和6B)。

假设有N_U个UE(驻留UE 1-91和活跃UE 1-92合在一起)。当前时刻的空闲UE可能在未来变得活跃，反之亦然。

实施例的目标是跨不同小区平衡所有UE的分布，以便最大化以下度量。

其中T是感兴趣的时间段，A_i,k是u_i,k在T内接收的分组的总大小。

第二个度量是最小吞吐量G_min，即，

第三个度量是吞吐量的标准偏差(SD)，G_sd。

最小化G_sd减小了不同UE的性能之间的差距，因此在跨UE共同提供了更公平的服务。

一些LB方法依赖于活跃UE的切换(HO)。关于重选和切换如何发生，考虑基于参考信号接收功率(RSRP1)的HO机制的示例。UE观察小区功率；具体而言，UE将其服务小区的RSRP值与其相邻小区的值进行比较。如果以下条件成立，则活跃UE将被切换到相邻小区，即，

RSRP_j＞RSRP_i+α_i，j+H 表达式(4)

其中，RSRP_i表示来自服务小区i的UE的RSRP，RSRP_j表示来自相邻小区j的UE的RSRP，α_i，j是从小区i到小区j的HO阈值，H是HO滞后。这个HO阈值α_i，j是成对的定向的(directional)变量(例如，α_i，j≠α_j，i)。通过改变{α_i，j}，实施例调整了小区之间的HO边界，并因此跨小区平衡了活跃UE的数量。

另一类LB方法依赖于空闲UE的小区重选(CR)。当UE开启时，它首先进入空闲模式并“驻留”在小区上。空闲UE准备发起潜在的专用服务或接收广播服务。一旦变为活跃的，UE通常将停留在它在空闲模式期间驻留的相同小区中。

空闲UE可以经由小区重选(CR)过程驻留在另一个小区上，以便在移动时保持连接。如果对于空闲UE，以下条件成立，则将触发该CR过程：

RSRP_i＜β_i，j，and RSRP_j＞γ_i，j 表达式(5)

其中β_i，j和γ_i，j是用于触发从驻留小区i到相邻小区j的CR的成对的且定向的RSRP阈值。由等式(5)中所示的条件标识的CR机制是一种广义机制。通过调整{β_i，j}和{γ_i，j}，实施例实现跨小区的空闲UE的平衡分布。这有助于在空闲UE变得活跃时减少拥塞。

实施例解决了混合LB问题，其中AULB和IULB两者都被应用来实现平衡的负载和更好的系统性能。实施例如下定义混合LB问题。

以使得a_i，j∈[α_min，α_max] 表达式(7)

β_i，j∈{β_min，β_max] 表达式(8)

γ_i，j∈{γ_min，γ_max] 表达式(9)

其中G是系统性能，α_min和α_max定义了AULB动作的可控范围，而β_min、β_max、γ_min和γ_max定义了IULB动作的可控范围。

虽然单独的AULB和IULB对分别使用的网络提供了一些改进，但将它们融合在一起并非易事。

作为困难的示例，考虑两个共址(co-located)的小区，小区1和小区2(相同的基站)，驻留在不同的载波频率上。例如，AULB方法可以设置α_1，2＝α_2，1＝2dB并且H＝1dB，而IULB方法可以设置β_1，2＝-100dBm并且γ_1，2＝-106dBm。系统可以设置γ_i，j＜β_i，j和γ_i，j＜β_i，j和γ_i，j＞β_j，i，使得UE可以与小区的带宽(或其他资源)成比例地平衡。

在该示例中，示例UE最初是空闲的，并且以RSRP₁＝-101dB和RSRP₂＝-105dB驻留在小区1上。满足CR条件(表达式5)，即，RSRP₁<β_1，2并且RSRP₂>γ_1，2。因此，该示例UE重新选择小区2并驻留该小区。在该示例的扩展中，紧接在那之后，示例UE变得活跃(发送和接收用户数据)，并且使用小区2作为其服务小区。此时，示例UE观察到从小区2到小区1的HO条件(表达式4)成立为真，即，RSRP₁>RSRP₂+α_1，2+H。因此，示例UE经由HO(切换)移回到小区1。通常，小区间这种快速的UE振荡(“乒乓”)会导致性能下降和资源浪费。

实施例提供了(深度)RL框架，其对于LB问题是有效且高效的。应用RL的第一步是将混合LB问题公式化为如上所述的MDP模型，例如图6A。MDP模型被定义为元组(S；A；R；P)如下。

(i)S：是状态空间。每个状态是连续的多维变量，它包含每个小区中活跃用户的平均数量、每个小区的带宽利用率以及每个小区的平均吞吐量。

(ii)A：是动作空间。每个动作都包含两个部分。第一部分a^H对应于控制AULB动作的HO参数(即α_i，j)。第二部分a^L对应于控制IULB动作的CR参数(即β_i，j和γ_i，j)。在一些实施例中，作为替代，第二部分a^L针对开启或关闭基站的一个方面(例如，关闭特定基站的无线电设备，诸如电源、功率放大器、发送器和/或接收器)。

(iii)R：是奖励。示例实施例使用吞吐量作为奖励。其他奖励也是可能的。任何期望的系统度量都可以被配置为奖励。在一些实施例中，较高级别的奖励至少部分地取决于小区1-93的电力消耗。

(iv)P：是转移概率函数；参见图6A所示的示例概率。

为了解决AULB和IULB之间缺乏合作(例如，乒乓)的问题，实施例提供了两级层级策略学习结构，如图2B所示。较高级别用策略μ^H(较高策略1-1)控制AULB动作a^H(动作2-1)，较低级别用策略μ^L(较低策略1-2)控制IULB动作a^L(动作2-2)。动作a^H和a^L被馈送到小区1-93中，以调整HO和CR参数(下面将详细描述)。在时间t用于较高策略的动作2-1可以表示为或a^H _t。然后收集所得到的系统性能，以提供更新的RL奖励。

在每个时间步(time step)t，较高级别的和较低级别的策略都从环境接收状态s_t。基于该状态，较高级别的策略μ^H(s_t)产生较高级别控制动作a^H(动作2-1)。这个较高级别动作以两种方式使用。1)它被馈送给系统以用于切换控制，以及2)这个较高级别的动作也被用于产生较低级别的目标2-3。目标被表示为其中d是g的维度。目标(也表示为g_t)通过目标转移函数计算。换句话说，每一个时间步，这个函数都会根据当前状态s_t和时间t：a^H _t处的较高级别的动作生成目标。实施例利用LSTM网络来实现目标转移函数，即，使用LSTM确保当前生成的目标与之前的目标一致。

基于当前状态s_t和目标g_t，较低级别策略μ^L(s_t；g_t)产生IULB动作a^L _t。由于目标嵌入了较高级别的操作，因此在实现该目标时，较低级别的策略被迫与较高级别的策略对齐。可以表示为拼接的组合的较高和较低动作被应用于系统，使得环境可以返回下一个状态s_t+1以及奖励r_t。

每个级别的奖励是不同的。在时间步t+1，较高级别的策略直接从环境接收奖励r_t，即r^H _t＝r_t，它测量系统性能。较低级别的奖励r^L _t评估目标是否已经达到，并且用奖励函数r^L _t＝η(g_t；s_t+1)来计算。

目标被定义为预期提供比当前状态更大的较高级别的奖励的目标状态。通常，目标状态仅仅利用较高级别的动作是无法实现的。因此，较低级别开始发挥作用，使得较高级别的奖励被进一步提高。因此，实施例基于当前状态和目标状态之间的距离定义较低级别的奖励函数，即，

其中是将高维空间映射到低维空间的嵌入函数；实施例使用低维欧几里德距离来描述两个高维状态有多接近。较低级别的策略因采取产生接近期望目标g_t的状态s_t+1的动作而得到奖励。

通过将g_t作为额外输入并入值和策略函数中，可以使用高级RL方法来训练这两种策略。由于其鲁棒性，一些实施例使用同策略(on-policy)学习方法近似策略优化(PPO)作为我们的策略训练方法。PPO是较高和较低策略学习算法的非限制性示例。其他策略学习算法也适用于这里公开的框架。

例如，这两种策略的学习算法都可以从软行动者批判者(actor critic)采用。软行动者批判者是一种基于最大熵强化学习框架的异策略(off-policy)行动者-批判者深度RL算法。行动者的目标是最大化期望奖励，同时也最大化熵。

可以应用的另一种技术通过包括目标策略平滑的正则化策略来解决行动者-批判者方法中的函数近似误差。

给定等式(10)中的较低级别的奖励，较低级别的Q值函数是使以下损失最小化：

上图中，Qμ^L指示较低级别的优势值函数，D表示重播缓冲器(replay buffer)。较低级别的损失，等式11，强制使得学习的动作应该移动状态以接近目标。

重放缓冲器存储许多最近收集的转换，并使用这些来改进训练。重放缓冲器可以被实现为循环缓冲器，其中缓冲器中最旧的转换被移除，以便为刚刚收集的转换腾出空间。从重放缓冲器中对转换进行采样，以用于训练。

较高级别的奖励函数如等式(12)所示。学习策略旨在基于当前状态最大化未来的集体奖励。换句话说，较高级别的策略生成目标，该目标被期望改善系统性能(这是一个主要目标)。

其中Qμ^H是较高级别的优势值函数。

结合所提出的两种策略，混合AULB和IULB的学习动作在改善系统性能方面协同工作，而彼此不冲突。较高级别的AULB策略通过选择它自己的动作以及为较低级别的IULB策略设置目标，向最佳系统性能迈出了重要的一步。通过实现目标，较低级别的策略有助于在较高级别的策略已经实现的系统性能的基础上进一步提高系统性能。

一些层级RL(HRL)技术使用较高级别的策略来直接生成目标。与它们不同，实施例采用LSTM作为我们的目标生成器。这种设计的好处可以总结如下。首先，LSTM可以逼近非线性高维目标转换函数，这是现有的二维目标转换函数无法实现的。第二，在生成目标时，在当前目标和之前的目标之间保持一定程度的一致性非常重要。通过在实施例中使用LSTM模型，在每个时间步中计算的隐藏单元状态将考虑先前的状态并生成一致的目标。见图2B的h2-90。

LSTM 2-91是通过训练以生成可以进一步提高r_t的g_t来引导的，为此，这个LSTM模型的训练损失被设置为优势值函数的相反(注意优势值函数捕捉奖励中的增量)，即，

L_generator＝-Qμ^L(s_t，a_t，g_t) 等式(13)

通过最小化该损失(L_generator)，LSTM被训练以产生可以进一步提高r_t的目标状态g_t。这种基于LSTM的目标生成器与控制策略一起被训练。

整个HPL过程在图6B中被总结为过程1。

HPL过程已经与其他负载平衡方法并针对不同的度量进行了比较。

其他负载平衡方法有：

单独AULB，单独IULB，顺序AULB然后IULB，AULB和IULB一起。不同的度量是等式(3)的吞吐量的标准偏差、等式(1)的平均吞吐量、等式(2)的最小吞吐量、以及每小时每个小区的切换数量。每个小区的UE数量从10个UE到30个UE的范围变化。示例通信系统在图1D中示出。

使用HPL，与比较方法相比，吞吐量的SD降低了20％到30％。与比较方法相比，平均吞吐量增加了0.3％到24％。最小吞吐量增加了0.17％到13％。切换数量减少了2％到9％。

Claims

1.一种用于无线通信系统中负载平衡的方法，所述方法包括：

从至少一个基站(BS)接收带宽利用率、活跃用户设备(UE)的数量和平均吞吐量；

基于所述带宽利用率、所述活跃UE的数量和所述平均吞吐量获得第一状态数据；

通过将所述第一状态数据和第一奖励数据输入到第一强化学习模型，获得与活跃UE负载平衡(AULB)相关联的第一动作数据和用于获得第二动作数据的第一目标数据；

通过将所述第一状态数据、所述第一目标数据和第二奖励数据输入到第二强化学习模型，获得与空闲UE负载平衡(IULB)相关联的第二动作数据；

基于所述第一动作数据和所述第二动作数据，确定与AULB和IULB两者相关联的第三动作数据；和

向所述至少一个基站(BS)发送所述第三动作数据。

2.根据权利要求1所述的方法，其中获得与AULB相关联的所述第一动作数据和用于获得所述第二动作数据的所述第一目标数据包括：

通过将所述第一状态数据和所述第一奖励数据输入到所述第一强化学习模型来获得所述第一动作数据；和

通过将所述第一状态数据和所述第一动作数据输入到长短期记忆(LSTM)网络来获得所述第一目标数据。

3.根据权利要求1所述的方法，其中所述第一奖励数据包括平均吞吐量、最小吞吐量或吞吐量的标准偏差中的至少一个。

4.根据权利要求1所述的方法，其中所述第一动作数据包括与AULB相关联的至少一个阈值，并且所述第二动作数据包括与IULB相关联的至少一个阈值。

5.根据权利要求4所述的方法，其中，所述第三动作数据是所述第一动作数据和所述第二动作数据的拼接。

6.根据权利要求1所述的方法，其中所述第二奖励是基于所述第一状态数据和所述第一目标数据获得的。

7.根据权利要求2所述的方法，进一步包括：

基于所述第一状态数据、所述第一目标数据和所述第三动作数据更新所述LSTM网络。

8.一种用于无线通信系统中的负载平衡的装置，该装置包括：

收发器；

存储器，存储一个或多个指令；和

至少一个处理器，连接到所述收发器，并且被配置为执行存储在所述存储器中的一个或多个指令，以：

基于所述第一动作数据和所述第二动作数据，确定与所述AULB和所述IULB两者相关联的第三动作数据；和

向所述至少一个基站(BS)发送所述第三动作数据。

9.根据权利要求8所述的装置，其中所述至少一个处理器进一步被配置以执行所述一个或多个指令以：

10.根据权利要求8所述的装置，其中所述第一奖励数据包括平均吞吐量、最小吞吐量或吞吐量的标准偏差中的至少一个。

11.根据权利要求8所述的装置，其中，所述第一动作数据包括与AULB相关联的至少一个阈值，并且所述第二动作数据包括与IULB相关联的至少一个阈值。

12.根据权利要求8所述的装置，其中，所述第三动作数据是所述第一动作数据和所述第二动作数据的拼接。

13.根据权利要求8所述的装置，其中所述第二奖励是基于所述第一状态数据和所述第一目标数据获得的。

14.根据权利要求8所述的装置，其中所述至少一个处理器进一步被配置以执行所述一个或多个指令以：

15.一种存储程序的计算机可读存储介质，所述程序可由至少一个处理器执行，以执行用于负载平衡的方法，所述方法包括：

向所述至少一个基站(BS)发送所述第三动作数据。