TWI812371B

TWI812371B - 基於人工智慧算法之下行模式區分多址接入系統資源分配方法

Info

Publication number: TWI812371B
Application number: TW111128417A
Authority: TW
Inventors: 陳曉華; 周廣誌
Original assignee: 國立成功大學
Priority date: 2022-07-28
Filing date: 2022-07-28
Publication date: 2023-08-11
Also published as: TW202406390A

Abstract

一種資源分配方法，一基站向 K個用戶端分配 N個子載波以獲得 N× K個當前子載波分配結果，再獲得 N×K個當前分配功率，並以一動作強化學習網路獲得多個動作值，且判定該等動作值是否皆小於等於0。當判定結果為否時，選擇一目標分配動作，獲得多個更新分配功率，以產生並儲存一訓練資料，再根據所儲存的多筆目標訓練資料訓練至少一包括該動作強化學習網路的強化學習網路，重複上述動作直到該等動作值皆小於等於0。當判定結果為是時，根據該等當前分配功率計算出一候選頻譜效率。重複上述動作以獲得 P個候選頻譜效率，以選出一目標頻譜效率。

Description

基於人工智慧算法之下行模式區分多址接入系統資源分配方法

本發明是有關於一種資源分配方法，特別是指一種基於人工智慧算法之下行模式區分多址接入系統資源分配方法。

在現有的正交多重存取(Orthogonal multiple access,OMA)中，每一個用戶只能使用一個特定的資源塊，如頻帶、時隙、正交擴頻碼，但隨著行動通訊蓬的發展，對頻譜效率的需求也與日俱增，正交多重存取顯然已經無法滿足現今用戶的需求。

為因應頻譜效率提升的需求，非正交多重存取(Non-orthogonal multiple access,NOMA)技術，例如多用戶疊加傳輸(Multi-User Superposition Transmission,MUST)及模式區分多址接入(Pattern Division Multiple Access,PDMA)技術。

MUST技術是屬於單載波NOMA，在MUST技術中，通過功率域、碼域或星座域的疊加，允許多個用戶複用同一個資源塊，以提高頻譜效率和接入用戶數，且在MUST系統傳輸訊息時，重疊編碼將多用戶的訊號用不同的功率分配疊加在一起，傳送到接收端時再利用連續性干擾消除(successive interference cancellation,SIC)技術將多用戶的疊加訊號分離開來，這時如果用戶訊號間的能量差異越大，就越容易分辨出訊號，從而有較佳的錯誤率，故合理分配訊號的功率對MUST系統來說尤為重要。

不同於MUST技術，PDMA技術是屬於多載波NOMA，在PDMA系統傳輸訊息時，除了重疊編碼將多用戶的訊號用不同的功率分配疊加在一起外，還通過模式矩陣設計將用戶的相同編碼位元映射到不同的子載波上，從而實現分集(Diversity)及多路複用(multiplexing)，故合理分配訊號的功率及子載波對PDMA系統來說尤為重要。

然而，現有的PDMA系統無法根據系統的動態場景進行最優功率及子載波分配。

因此，本發明的目的，即在提供一種根據系統的動態場景進行最優功率及子載波分配的基於人工智慧算法之下行模式區分多址接入系統資源分配方法。

於是，本發明基於人工智慧算法之下行模式區分多址接入系統資源分配方法，由一基站來實施，該基站經由一無線通道與K個用戶端通訊連接，該基站儲存多個子載波分配動作、多個功率分配動作，及一包括N×K個相關於該等用戶端分別在N個子載波的通道強度的通道狀態資訊，其中K>1，N>1，該方法包含一步驟(A)、一步驟(B)、一步驟(C)、一步驟(D)、一步驟(E)、一步驟(F)、一步驟(G)、一步驟(H)、一步驟(I)、一步驟(J)、一步驟(K)、一步驟(L)，及一步驟(M)。

在該步驟(A)中，該基站向該等用戶端分配該等子載波，以獲得N×K個指示出該等用戶端是否分配到該等子載波的當前子載波分配結果。

在該步驟(B)中，該基站根據該等當前子載波分配結果及該通道狀態資訊獲得N×K個分別對應該等當前子載波分配結果的當前分配功率。

在該步驟(C)中，該基站將該等子載波分配動作、該等功率分配動作、該等當前子載波分配結果，及該等當前分配功率輸入至一動作強化學習網路，以致該動作強化學習網路輸出多個分別對應該等功率分配動作及該等子載波分配動作的動作值。

在該步驟(D)中，該基站判定該等動作值是否皆小於等於 0。

在該步驟(E)中，當判定出該等動作值之其中一者大於0時，該基站從該等子載波分配動作及該等功率分配動作中選擇一目標分配動作。

在該步驟(F)中，該基站根據該等當前子載波分配結果、該等當前分配功率及該目標分配動作，獲得多個分別對應該等當前子載波分配結果的更新子載波分配結果及多個分別對應該等當前分配功率的更新分配功率。

在該步驟(G)中，該基站根據該等當前分配功率及該等更新分配功率計算出一獎勵值。

在該步驟(H)中，該基站產生並儲存一包括該等當前子載波分配結果、該等當前分配功率、該目標分配動作、該獎勵值、該等更新子載波分配結果，及該等更新分配功率的訓練資料。

在該步驟(I)中，該基站從儲存的訓練資料中選取多筆目標訓練資料，並根據該等目標訓練資料訓練至少一強化學習網路，該至少一強化學習網路包括該動作強化學習網路。

在該步驟(J)中，該基站將該等更新子載波分配結果及該等更新分配功率分別作為該等當前子載波分配結果及該等當前分配功率重複步驟(C)~(I)直到該等動作值皆小於等於0。

在該步驟(K)中，當判定出該等動作值皆小於等於0時，該基站根據該等當前分配功率計算出一候選頻譜效率，並儲存該等當前子載波分配結果、該等當前分配功率，及該候選頻譜效率。

在該步驟(L)中，重複進行步驟(A)~(K)P次，以獲得P個候選頻譜效率，其中P>1。

在該步驟(M)中，該基站從該等候選頻譜效率中獲得一最高的目標頻譜效率。

本發明之功效在於：該基站利用該動作強化學習網路在不同場景記錄學習，以獲取具有最大的獎勵值之最佳分配動作，並進一步獲得該等候選頻譜效率，再從該等候選頻譜效率中獲得最高的該目標頻譜效率，其中，該目標頻譜效率對應的子載波分配及功率分配即為最優。

11:基站

12:用戶端

100:無線通道

21~34:步驟

241、242:子步驟

281~289:子步驟

301~303:子步驟

321~323:子步驟

本發明的其他的特徵及功效，將於參照圖式的實施方式中清楚地呈現，其中：圖1是一方塊圖，說明用以實施本發明基於人工智慧算法之下行模式區分多址接入系統資源分配方法的一實施例的一基站；圖2是一流程圖，說明本發明基於人工智慧算法之下行模式區分多址接入系統資源分配方法的該實施例；圖3是一流程圖，輔助說明圖2步驟24的子步驟；圖4是一流程圖，輔助說明圖2步驟28的子步驟；圖5是一流程圖，輔助說明圖2步驟30的子步驟；及圖6是一流程圖，輔助說明圖2步驟32的子步驟。

在本發明被詳細描述之前，應當注意在以下的說明內容中，類似的元件是以相同的編號來表示。

參閱圖1，本發明基於人工智慧算法之下行模式區分多址接入系統資源分配方法的一實施例是由一基站11執行，該基站11支援下行功率域的模式區分多址接入技術，該基站11經由一無線通道100與K個用戶端12通訊連接，該基站11通過為每一用戶端12使用不同等級的功率將該等用戶端12的信號疊加在N個子載波上，其中K>1，N>1。值的注意的是，在本實施例中，該基站11例如為單天線基站(base station,BS)，該等用戶端12例如為智慧型手機，但不以此為限。

該基站11儲存有多個子載波分配動作、多個功率分配動作，及一包括K個分別對應該等用戶端12的通道強度的通道狀態資訊，其中該通道狀態資訊係該基站11根據上行導頻估算出來的。

參閱圖1、2展示了本發明基於人工智慧算法之下行模式區分多址接入系統資源分配方法的該實施例，以下詳述圖2所示的該實施例的各個步驟。

在步驟21中，該基站11初始化多個強化學習網路。

值得注意的是，在本實施例中，該等強化學習網路的類型例如為Q學習網路，且數量為二，該等強化學習網路分別為一更新網路和一目標網路，該等強化學習網路例如包括一具有五十個節點的全連階層，啟動函數例如為整流線性單位函數(Rectified Linear Unit,ReLU)，設定一學習演算法例如為自適應時刻估計方法(Adaptive Moment Estimation,Adam)，設定一損失函數例如為均方誤差(mean-square error,MSE)，在其他實施方式中，該等強化學習網路例如包括一對照表(Q表格)，該學習演算法可為隨機梯度下降法(Stochastic gradient descent,SGD)、動量梯度下降法(Momentum)、或Adagrad算法，損失函數可為平方損失函數或絕對值損失函數，此外，強化學習網路的類型不限於Q學習網路，同時該基站11亦可僅初始化一強化學習網路，但不以此為限。

在步驟22中，該基站11判定是否已循環P次。當該基站11判定出未循環P次時，流程進行步驟23；而當該基站11判定出已循環P次時，流程進行步驟34。值得注意的是，在本實施例中，該基站是以一循環計數器(圖未示)計數循環次數，其中P=20000，但不以此為限。

在步驟23中，該基站11向該等用戶端12分配該等子載波，以獲得N×K個指示出該等用戶端12是否分配到該等子載波的當前子載波分配結果。

值得注意的是，該基站11是按照一特徵模式矩陣(characteristic pattern matrix)M _PDMA=(m _n,k,t)_N×K向該等用戶端12分配該等子載波，該等當前子載波分配結果m _n,k,t滿足下列條件：

1，及1

N _max，其中，m _n,k,t為第k個的用戶端12在當前時刻t是否分配到第n個子載波的當前子載波分配結果，m _n,k,t

{0,1}，m _n,k,t=1為第k個的用戶端12在當前時刻t分配到第n個子載波，m _n,k,t=0為第k個的用戶端12在當前時刻t未分配到第n個子載波，N _max為每一子載波上的最大用戶端數，該特徵模式矩陣M _PDMA可表示為：

要再注意的是，每一用戶端12分配的子載波數量和每一子載波上的用戶端數量需要考慮接收機正確檢測和用戶端12間干擾問題，以K=6，N=4為例，每一用戶端12分配的子載波數量L為 1

L

4，每一子載波上的用戶端數量U為2

U

5。

在步驟24中，該基站11根據該等當前子載波分配結果及該通道狀態資訊獲得N×K個分別對應該等當前子載波分配結果的當前分配功率。

搭配參閱圖3，步驟24包括子步驟241、242，以下說明步驟24所包括的子步驟。

在子步驟241中，對於每一子載波，該基站11根據該通道狀態資訊中該等用戶端12在該子載波的通道強度由大至小排序該等用戶端12。該基站11排序方式以下式表示：|h _n,k,t|²>|h _n,k+1,t|²，其中k

{1,2,...K}，n

{1,2,...N}，|h _n,k,t|²為在第n個子載波上的第k個順序的用戶端12在當前時刻t的通道強度，|h _n,k+1,t|²為在第n個子載波上的第k+1個順序的用戶端12在當前時刻t的通道強度。

值得注意的是，在本實施例中，由於在SIC技術中，為了信幹噪比(SINR)最大化，要求該等用戶端12的分配功率與通道強度成反比，且在解碼時，該基站11按照該等用戶端12的分配功率之係數由大至小進行解碼，故先行將該等用戶端12依照該等通道強度由大至小排序，方便該基站11後續依據排序由小至大分配功率以及解碼，但不以此為限。

在子步驟242中，對於每一子載波，該基站11根據分配到該子載波的用戶端12的順序依序分配功率，未分配到該子載波的用戶端12則不分配功率，即功率為零，以獲得該等當前分配功率。

其中，該等當前分配功率ν _n,k,t滿足下列條件：

1，0

ν _n,k,t

1，若m _n,k,t,m _n,k',t=1則ν _n,k,t>ν _n,k',t，及若m _n,k,t=0則ν _n,k,t=0，n

{1,2,...,N}，k,k'

{1,2,...,K}，k>k'，m _n,k,t為第k個用戶端12在當前時刻t是否分配到第n個子載波的子載波分配結果，m _n,k,t

{0,1}，ν _n,k',t為在第n個子載波上的第k'個順序的用戶端12在當前時刻t分配到的當前分配功率之係數，ν _n,k,t為在第n個子載波上的第k個順序的用戶端12在當前時刻t分配到的當前分配功率之係數。

在步驟25中，該基站11將該等子載波分配動作、該等功率分配動作、該等當前子載波分配結果，及該等當前分配功率輸入至該等強化學習網路中之一動作強化學習網路，以致該動作強化學習網路輸出多個分別對應該等功率分配動作及該等子載波分配動作的動作值。

值得注意的是，在本實施例中，該動作強化學習網路為該更新網路，該等動作值為Q值，每一子載波分配動作一次只調整一個用戶端12的一個子載波，該等子載波分配動作可以下式表示：

其中n _n,k,t=1表示在當前時刻t第n個子載波被分配給第k個用戶端12，如第n個子載波在上一時刻已經被分配給第k個用戶端12，則保持子載波分配情況不變。n _n,k,t=0表示在當前時刻t第n個子載波未被分配給第k個用戶端12，如第n個子載波在上一時刻已經未被分配給第k個用戶端12，則保持子載波分配情況不變，該等子載波分配動作的數量為2×N×K個。此外，每一功率分配動作一次只調整一個功率係數，該等功率分配動作可以下式表示：

其中δ _n,k,t

{δ,0,-δ}，0<δ<1，δ _n,k,t=δ表示對功率係數ν _n,k,t增加δ，δ _n,k,t=0表示功率係數ν _n,k,t不變，δ _n,k,t=-δ表示對功率係數ν _n,k,t減少δ，該等功率分配動作的數量為3×N×K個，但不以此為限。

在步驟26中，該基站11判定該等動作值是否皆小於等於0。當該基站11判定出該等動作值之其中一者大於0時，流程進行步驟27；而當該基站11判定出該等動作值皆小於等於0時，則流程進行步驟33。

要特別注意的是，在本實施例的步驟26中，判定該等動作值是否皆小於等於0，只觀察適用於當前超載率的該更新網路輸出的動作值，並不借鑒當前超載率下的該目標網路的輸出值，因此，在步驟25中，該基站11只將該等子載波分配動作、該等功率分配動作，及該等當前分配功率輸入至該更新網路。

要再特別注意的是，若該等動作值皆小於等於0，則認為在當前的狀態下採取任何功率分配動作都會使得長期預期獎勵變低，然而，獎勵需要越高越好，因此判定此時的功率分配動作為最優結果，不再進行功率分配動作，而進行步驟33。

在步驟27中，該基站11從該等子載波分配動作及該等功率分配動作中選擇一目標分配動作。其中，該目標分配動作為隨機選取的機率為P ₁，該目標分配動作對應的動作值為該等動作值中最高的機率為P ₂，P ₁+P ₂=1且P ₁<P ₂。值得注意的是，在本實施例中，P ₁為10%，P ₂為90%，但不以此為限，在其他實施方式中，該目標分配動作亦可僅為根據當前狀態選取，或是選擇該等動作值中最高者所對應的動作。

在步驟28中，該基站11根據該等當前子載波分配結果、該等當前分配功率及該目標分配動作，獲得多個分別對應該等當前子載波分配結果的更新子載波分配結果及多個分別對應該等當前分配功率的更新分配功率。

搭配參閱圖4，步驟28包括子步驟281~289，以下說明步驟28所包括的子步驟。

在子步驟281中，該基站11判定該目標分配動作是否為子載波分配動作。當該基站11判定出該目標分配動作為子載波分配動作，流程進行子步驟282；而當該基站11判定出該目標分配動作不為子載波分配動作，表示目標分配動作為功率分配動作，則流程進行子步驟286。

在子步驟282中，該基站11根據該目標分配動作獲得N×K個分別對應該等當前子載波分配結果的替換子載波分配結果。

在子步驟283中，該基站11判定該等替換子載波分配結果是否滿足多個子載波分配條件。當該基站11判定出該等替換子載波分配結果不滿足該等子載波分配條件之其中一者時，流程進行子步驟284；而當該基站11判定出該等替換子載波分配結果滿足該等子載波分配條件時，則流程進行子步驟285。

值得注意的是，該等子載波分配條件包括：

1，及1

N _max，其中，m _n,k,t+1為在第n個子載波上的第k個順序的用戶端12在下一時刻t+1的替換子載波分配結果，m _n,k,t+1

{0,1}，m _n,k,t+1=1為第k個用戶端12在下一時刻t+1分配到第n個子載波，m _n,k,t+1=0為第k個用戶端12在下一時刻t+1未分配到第n個子載波，N _max為每一子載波上的最大用戶端數，但不以此為限。

在子步驟284中，該基站11將該等當前子載波分配結果及該等當前分配功率分別作為該等更新子載波分配結果及該等更新分配功率，即子載波分配結果及分配功率保持不變。

在子步驟285中，該基站11將該等替換子載波分配結果作為該等更新子載波分配結果，並根據該等更新子載波分配結果及該通道狀態資訊獲得該等更新分配功率。

要特別注意的是，在子步驟285中該基站11獲得該等更新分配功率的方式類似於子步驟241、242獲得該等當前分配功率的方式，故在此不加以贅述。

在子步驟286中，該基站11對該等當前分配功率進行該目標分配動作，以獲得多個分別對應該等當前分配功率的替換分配功率。

要特別注意的是，若該目標分配動作為功率分配，不論是根據當前狀態選取的動作或是該等動作值中最高者所對應的動作δ _n,k,t，對應的當前子載波分配結果m _n,k,t=1，且要增加δ的ν _n,k",t或減少δ的ν _n,k',t對應的當前子載波分配結果m _n,k",t,m _n,k',t=1。

在子步驟287中，該基站11判定該等替換分配功率是否滿足多個功率分配條件。當該基站11判定出該等替換分配功率不滿足該等功率分配條件之其中一者時，流程進行子步驟288；而當該基站11判定出該等替換分配功率滿足該等功率分配條件時，則流程進行子步驟289。

值得注意的是，該等功率分配條件包括：

1，0

ν _n,k,t+1

1，若m _n,k,t+1,m _n,k',t+1=1則ν _n,k',t+1<ν _n,k,t+1，及若m _n,k,t+1=0則ν _n,k,t+1=0，其中，k,k'

{1,2,...,K}，k>k'，ν _n,k',t+1為在第n個子載波上的第k'個順序的用戶端12在下一時刻t+1分配到的替換分配功率之係數，ν _n,k,t+1為在第n個子載波上的第k個順序的用戶端12在下一時刻t+1分配到的替換分配功率之係數。

在子步驟288中，該基站11將該等當前子載波分配結果及該等當前分配功率分別作為該等更新子載波分配結果及該等更新分配功率，即子載波分配結果及分配功率保持不變。

在子步驟289中，該基站11將該等當前子載波分配結果及該等替換分配功率分別作為該等更新子載波分配結果及該等更新分配功率。

在步驟29中，該基站11判定一相關於當前該基站11通訊連接的用戶端12之數量與用戶端12的信號疊加到的子載波之數量的超載率是否為K/N。當該基站11判定出該超載率為K/N時，流程進行步驟30；而當該基站11判定出該超載率不為K/N時，則流程重複步驟21。

要特別注意的是，該超載率為當前該基站11通訊連接的用戶端12之數量除以用戶端12的信號疊加到的子載波之數量，在本實施例中，該基站11通訊的用戶端數量和位置都是不固定的，該基站11會根據用戶端12的數量調整資源配置方案，故在通過上行導頻估計發現該超載率不為K/N時，即該超載率改變時(設改變後的超載率為K’/N，K’>1且K’≠K)，該基站11會儲存一包括該等强化學習網路且對應超載率為K/N的歷史強化學習網路資訊，並判定是否儲存有一對應超載率為K’/N的目標歷史強化學習網路資訊，若儲存有該目標歷史強化學習網路資訊，則載入該歷史強化學習網路資訊，並進行步驟22，否則流程回到步驟21，該基站11初始化該等强化學習網路，以作為適用於超載率為K’/N的强化學習網路。

在步驟30中，該基站11根據該等當前子載波分配結果、該等當前分配功率、該等更新子載波分配結果，及該等更新分配功率計算出一獎勵值。

搭配參閱圖5，步驟30包括子步驟301~303，以下說明步驟30所包括的子步驟。

在子步驟301中，該基站11根據該等當前子載波分配結果及該等當前分配功率計算出一第一頻譜效率f _t。其中該第一頻譜效率f _t以下式表示：

，R _n,k,t=B _n log₂(1+ρ _n,k,t)，

其中，s _t={M _t,V _t}該等當前子載波分配結果及該等當前分配功率的集合，M _t={m _1,1,t,...,m _n,k,t,...,m _N,K,t}為該等當前子載波分配結果，V _t={ν _1,1,t,...,ν _n,k,t,...,ν _N,K,t}為該等當前分配功率，R _n,k,t為第k個用戶端12在第n個子載波及在當前時刻t的通道容量(Channel capacity)，B _n為第n個子載波頻寬，ρ _n,k,t為第k個用戶端12在第n個子載波及在當前時刻t的信幹噪比，ν _n,j,t為在第n個子載波上的第j個順序的用戶端12在當前時刻t分配到的當前分配功率之係數，m _n,j,t為第j個用戶端12在當前時刻t是否分配到第n個子載波的當前子載波分配結果，P _T為該基站11的分配的總功率，β為SIC殘留係數，σ ²為加性高斯白色雜訊(AWGN)。

要再特別注意的是，由於未分配到該子載波的用戶端12則不分配功率，因此在步驟30中，該基站11實際可僅根據該等當前分配功率及該等更新分配功率計算出該獎勵值，第k個用戶端 12在第n個子載波及在當前時刻t的信幹噪比ρ _n,k,t亦可表示為：

在子步驟302中，該基站11根據該等更新子載波分配結果及該等更新分配功率計算出一第二頻譜效率f _t+1。該第二頻譜效率f _t+1算式與該第一頻譜效率f _t相同故在此不加以贅述。

在子步驟303中，該基站11根據該第一頻譜效率f _t及該第二頻譜效率f _t+1計算出一獎勵值r(s _t,a _t)，a _t為在當前時刻t所選取的該目標分配動作。

值得注意的是，在本實施例中，該獎勵值為該第二頻譜效率減去該第一頻譜效率，即該獎勵值r(s _t,a _t)=f _t+1-f _t，但不以此為限。

在步驟31中，該基站11產生並儲存一包括該等當前子載波分配結果、該等當前分配功率、該目標分配動作、該獎勵值、該等更新子載波分配結果，及該等更新分配功率的訓練資料。

在步驟32中，該基站11從儲存的訓練資料中選取多筆目標訓練資料，並根據該等目標訓練資料訓練該等強化學習網路，並重複進行步驟25。

值得一提的是，在重複步驟25前，該基站11會先將在步驟28所獲得該等更新子載波分配結果及該等更新分配功率分別作為該等當前子載波分配結果及該等當前分配功率，再重複進行步驟25。

搭配參閱圖6，步驟32包括子步驟321~323，以下說明步驟32所包括的子步驟。

在子步驟321中，該基站11從儲存的訓練資料中選取該等目標訓練資料。

值得注意的是，在本實施例中，該基站11例如隨機選取32筆目標訓練資料，而在循環開始初期，因為沒有儲存足夠的訓練資料，故32筆目標訓練資料中會有幾筆目標訓練資料為空，但不以此為限。

在子步驟322中，該基站11將該等目標訓練資料的當前子載波分配結果、當前分配功率，及目標分配動作輸入至該動作強化學習網路，以致該動作強化學習網路輸出多個分別對應該等目標訓練資料的訓練動作值。

在子步驟323中，該基站11根據該等目標訓練資料及該等訓練動作值調整該等強化學習網路。

值得注意的是，在本實施例中，該基站11根據該等目標訓練資料的獎勵值及該等訓練動作值利用該損失函數獲得一損失值，並根據該損失值利用該學習演算法將該等強化學習網路進行更新，以調整該等強化學習網路，亦即對於每一目標訓練資料，該基站11將該目標訓練資料中的當前子載波分配結果、當前分配功率，及目標分配動作輸入至該更新網路，使得該更新網路輸出Q(s _t,a _t)，再將該目標訓練資料中的獎勵值、更新子載波分配結果，及更新分配功率輸入至該目標網路，使得該目標網路輸出r(s _t,a _t)+γmaxQ(s _t+1,a _t+1)，並求得r(s _t,a _t)+γmaxQ(s _t+1,a _t+1)與Q(s _t,a _t)的均方誤差作為該損失值，其中γ

[0,1]為權衡即時獎勵和後續獎勵重要性的折現因數，Q(s _t,a _t)為該目標訓練資料對應的訓練動作值，maxQ(s _t+1,a _t+1)為該目標訓練資料的更新子載波分配結果及更新分配功率集合搭配所有子載波分配動作及功率分配動作能獲得的最大動作值，再根據該等目標訓練資料的損失值利用自適應時刻估計方法對該更新網路的參數進行更新，在多次更新之後，例如32次，再將該更新網路的參數複製到該目標網路，以更新該目標網路的參數，但不以此為限，在其他只有該更新網路的實施方式中，則不需要將該更新網路的參數複製到該目標網路。

要特別注意的是，在其他該等強化學習網路例如包括該對照表的實施方式中，該對照表具有多個表格動作值，每一表格動作值對應一子載波分配結果、一分配功率結果，及一分配動作，在步驟32中，該基站11根據該等目標訓練資料更新該對照表，以訓練該等強化學習網路。詳細而言，該基站11根據以下公式更新該對照表：

其中，s _i表示第i筆目標訓練資料的子載波分配集合及分配功率集合，a _i表示第i筆目標訓練資料的目標分配動作，r(s _i,a _i)表示第i筆目標訓練資料的獎勵值，s _i'表示第i筆目標訓練資料的更新子載波分配結果及更新分配功率集合，m表示Q(s _i,a _i)更新的次數，Q _m(s _i,a _i)為該對照表中對應該第i筆目標訓練資料的子載波分配結果、分配功率，及目標分配動作的一目標表格動作值，Q _m+1(s _i, a _i)表示該目標表格動作值更新後的值，α表示更新的學習率，

表示該對照表中對應該第i筆目標訓練資料的更新子載波分配結果及更新分配功率集合搭配所有子載波分配動作及功率分配動作能獲得的一最大表格動作值，

是由該等強化學習網路中的目標網路計算出來，Q _m(s _i,a _i)是由該等強化學習網路中的更新網路計算出來，因為PDMA技術子載波分配動作及功率分配動作較多，Q表格需要較多的儲存空間，故本實施例是採用含有一隱藏層的Q網路對Q表格進行擬合，即Q網路的輸入對應Q表格中的狀態矩陣，Q網路的輸出對應Q表格中該狀態的Q值，因為Q網路中參數的個數遠小於Q表格中Q值的個數，所以節省了該基站的儲存空間。

在步驟33中，該基站11根據該等當前子載波分配結果及該等當前分配功率計算出一候選頻譜效率，並儲存該等當前子載波分配結果、該等當前分配功率，及該候選頻譜效率，並重複進行步驟22。值得注意的是，在本實施例中，每當進行步驟33該循環計數器加1，但不以此為限，在其他實施方式中，該循環計數器亦可在步驟23或步驟24加1。

在步驟34中，該基站11從該等候選頻譜效率中獲得一最高的目標頻譜效率，該循環計數器清零並重複步驟22，其中，該目標頻譜效率對應的子載波分配結果及分配功率即為最佳的子載波分配結果及最佳的分配功率。

綜上所述，本發明為基於人工智慧算法之下行模式區分多址接入系統資源分配方法，藉由該基站11利用該等強化學習網路在不同場景記錄學習，以獲取具有最大的獎勵值之最佳分配動作，並進一步獲得該等候選頻譜效率，再從該等候選頻譜效率中獲得最高的該目標頻譜效率，其中，該目標頻譜效率對應的子載波分配及功率分配即為最優，故確實能達成本發明的目的。

惟以上所述者，僅為本發明的實施例而已，當不能以此限定本發明實施的範圍，凡是依本發明申請專利範圍及專利說明書內容所作的簡單的等效變化與修飾，皆仍屬本發明專利涵蓋的範圍內。

21~34:步驟

Claims

一種基於人工智慧算法之下行模式區分多址接入系統資源分配方法，由一基站來實施，該基站經由一無線通道與K個用戶端通訊連接，該基站儲存多個子載波分配動作、多個功率分配動作，及一包括N×K個相關於該等用戶端分別在N個子載波的通道強度的通道狀態資訊，其中K>1，N>1，該方法包含以下步驟：(A)向該等用戶端分配該等子載波，以獲得N×K個指示出該等用戶端是否分配到該等子載波的當前子載波分配結果；(B)根據該等當前子載波分配結果及該通道狀態資訊獲得N×K個分別對應該等當前子載波分配結果的當前分配功率；(C)將該等子載波分配動作、該等功率分配動作、該等當前子載波分配結果，及該等當前分配功率輸入至一動作強化學習網路，以致該動作強化學習網路輸出多個分別對應該等功率分配動作及該等子載波分配動作的動作值；(D)判定該等動作值是否皆小於等於0；(E)當判定出該等動作值之其中一者大於0時，從該等子載波分配動作及該等功率分配動作中選擇一目標分配動作；(F)根據該等當前子載波分配結果、該等當前分配功率及該目標分配動作，獲得多個分別對應該等當前子載波分配結果的更新子載波分配結果及多個分別對應該等當前分配功率的更新分配功率；(G)根據該等當前分配功率及該等更新分配功率計算出一獎勵值(reward value)；(H)產生並儲存一包括該等當前子載波分配結果、該等當前分配功率、該目標分配動作、該獎勵值、該等更新子載波分配結果，及該等更新分配功率的訓練資料；(I)從儲存的訓練資料中選取多筆目標訓練資料，並根據該等目標訓練資料訓練至少一強化學習網路，該至少一強化學習網路包括該動作強化學習網路；(J)將該等更新子載波分配結果及該等更新分配功率分別作為該等當前子載波分配結果及該等當前分配功率重複步驟(C)~(I)直到該等動作值皆小於等於0；(K)當判定出該等動作值皆小於等於0時，根據該等當前子載波分配結果及該等當前分配功率計算出一候選頻譜效率，並儲存該等當前子載波分配結果、該等當前分配功率，及該候選頻譜效率；(L)重複進行步驟(A)~(K)P次，以獲得P個候選頻譜效率，其中P>1；及(M)從該等候選頻譜效率中獲得一最高的目標頻譜效率。
如請求項1所述的基於人工智慧算法之下行模式區分多址接入系統資源分配方法，其中，步驟(B)包括以下子步驟：(B-1)對於每一子載波，根據該通道狀態資訊中該等用戶端在該子載波的通道強度由大至小排序該等用戶端；及(B-2)對於每一子載波，根據分配到該子載波的用戶端的順序依序分配功率，未分配到該子載波的用戶端則不分配功率，以獲得該等當前分配功率，該等當前分配功率ν _n,k,t滿足下列條件：
1，0
ν _n,k,t
1，若m _n,k,t,m _n,k',t=1則ν _n,k,t>ν _n,k',t，及若m _n,k,t=0則ν _n,k,t=0，其中，n
{1,2,...,N}，k,k'
{1,2,...,K}，k>k'，m _n,k,t為第k個用戶端在當前時刻t是否分配到第n個子載波的當前子載波分配結果，m _n,k,t
{0,1}，m _n,k,t=1為第k個用戶端在當前時刻t分配到第n個子載波，m _n,k,t=0為第k個用戶端在當前時刻t未分配到第n個子載波，ν _n,k',t為在第n個子載波上的第k’個順序的用戶端在當前時刻t分配到的當前分配功率之係數，ν _n,k,t為第n個子載波上的第k個順序的用戶端在當前時刻t分配到的當前分配功率之係數。
如請求項1所述的基於人工智慧算法之下行模式區分多址接入系統資源分配方法，其中，步驟(F)包括以下子步驟：(F-1)判定該目標分配動作是否為子載波分配動作；(F-2)當判定出該目標分配動作為子載波分配動作時，根據該目標分配動作獲得N×K個分別對應該等當前子載波分配結果的替換子載波分配結果； (F-3)判定該等替換子載波分配結果是否滿足多個子載波分配條件；(F-4)當判定出不滿足該等子載波分配條件之其中一者時，將該等當前子載波分配結果及該等當前分配功率分別作為該等更新子載波分配結果及該等更新分配功率；及(F-5)當判定出滿足該等子載波分配條件時，將該等替換子載波分配結果作為該等更新子載波分配結果，並根據該等更新子載波分配結果及該通道狀態資訊獲得該等更新分配功率。
如請求項3所述的基於人工智慧算法之下行模式區分多址接入系統資源分配方法，其中，在步驟(A)中，該等當前子載波分配結果m _n,k,t滿足下列條件：
1，及1
N _max，其中，m _n,k,t為第k個用戶端在當前時刻t是否分配到第n個子載波的當前子載波分配結果，m _n,k,t
{0,1}，n
{1,2,...,N}，k
{1,2,...,K}，m _n,k,t=1為第k個用戶端在當前時刻t分配到第n個子載波，m _n,k,t=0為第k個用戶端在當前時刻t未分配到第n個子載波，N _max為每一子載波上的最大用戶端數，在步驟(F-3)中，該等子載波分配條件包括：
1，及1
N _max，其中，m _n,k,t+1為第k個用戶端在下一時刻t+1是否分配到第n個子載波的替換子載波分配結果，m _n,k,t+1
{0,1}，n
{1,2,...,N}，k
{1,2,...,K}，m _n,k,t+1=1為第k個用戶端在下一時刻t+1分配到第n個子載波，m _n,k,t+1=0為第k個用戶端在下一時刻t+1未分配到第n個子載波，N _max為每一子載波上的最大用戶端數。
如請求項3所述的基於人工智慧算法之下行模式區分多址接入系統資源分配方法，其中，在子步驟(F-1)之後包括以下子步驟：(F-6)當判定出該目標分配動作不為子載波分配動作時，對該等當前分配功率進行該目標分配動作，以獲得多個分別對應該等當前分配功率的替換分配功率；(F-7)判定該等替換分配功率是否滿足多個功率分配條件；(F-8)當判定出不滿足該等功率分配條件之其中一者時，將該等當前子載波分配結果及該等當前分配功率分別作為該等更新子載波分配結果及該等更新分配功率；及(F-9)當判定出滿足該等功率分配條件時，將該等當前子載波分配結果及該等替換分配功率分別作為該等更新子載波分配結果及該等更新分配功率。
如請求項5所述的基於人工智慧算法之下行模式區分多址接入系統資源分配方法，其中，在子步驟(F-7)中，該等功率分配條件包括：
1，0
ν _n,k,t+1
1，若m _n,k,t+1,m _n,k',t+1=1則ν _n,k',t+1<ν _n,k,t+1，及若m _n,k,t+1=0則ν _n,k,t+1=0，其中，n
{1,2,...,N}，k,k'
{1,2,...,K}，k>k'，m _n,k,t+1為第k個用戶端在下一時刻t+1是否分配到第n個子載波的當前子載波分配結果，m _n,k,t+1
{0,1}，m _n,k,t+1=1為第k個用戶端在下一時刻t+1分配到第n個子載波，m _n,k,t+1=0為第k個用戶端在下一時刻t+1未分配到第n個子載波，ν _n,k',t+1為在第n個子載波上的第k'個順序的用戶端在下一時刻t+1分配到的替換分配功率之係數，ν _n,k,t+1為在第n個子載波上的第k個順序的用戶端在下一時刻t+1分配到的替換分配功率之係數。
如請求項1所述的基於人工智慧算法之下行模式區分多址接入系統資源分配方法，在步驟(F)及步驟(G)之間還包含以下步驟：(M)判定一相關於當前該基站通訊連接的用戶端之數量與用戶端的信號疊加到的子載波之數量的一超載率是否為K/N；當判定出該超載率為K/N時，進行步驟(G)。
如請求項7所述的基於人工智慧算法之下行模式區分多址接入系統資源分配方法，在步驟(A)之前還包含以下步驟：(N)初始化多個强化學習網路；在步驟(M)之後還包含以下步驟：(O)當判定出該超載率不為K/N時，儲存一包括該等强化學習網路且對應超載率為K/N的歷史強化學習網路資訊，並判定是否儲存有一對應超載率為K’/N的目標歷史強化學習網路資訊，K’>1且K’≠K；及(P)當判定出儲存有該目標歷史強化學習網路資訊時，載入該目標歷史強化學習網路資訊，並重複步驟(A)~(F)、(M)；當判定出不儲存有該目標歷史強化學習網路資訊時，重複步驟(N)、(A)~(F)、(M)。
如請求項1所述的基於人工智慧算法之下行模式區分多址接入系統資源分配方法，其中，在步驟(E)中，該目標分配動作為隨機選取的機率為P ₁，該目標分配動作對應的動作值為該等動作值中最高的機率為P ₂，P ₁+P ₂=1且P ₁<P ₂。
如請求項1所述的基於人工智慧算法之下行模式區分多址接入系統資源分配方法，其中，步驟(G)包括以下子步驟：(G-1)根據該等當前分配功率計算出一第一頻譜效率；(G-2)根據該等更新分配功率計算出一第二頻譜效率；及(G-3)根據該第一頻譜效率及該第二頻譜效率計算出該獎勵值。
如請求項1所述的基於人工智慧算法之下行模式區分多址接入系統資源分配方法，其中，步驟(I)包括以下子步驟： (I-1)從儲存的訓練資料中選取該等目標訓練資料；(I-2)將該等目標訓練資料的子載波分配結果、分配功率，及目標分配動作輸入至該動作目標強化學習網路，以致該動作目標強化學習網路輸出多個分別對應該等目標訓練資料的訓練動作值；及(I-3)根據該等目標訓練資料及該等訓練動作值調整該至少一強化學習網路。
如請求項11所述的基於人工智慧算法之下行模式區分多址接入系統資源分配方法，其中，在步驟(I-3)中，根據該等目標訓練資料的獎勵值及該等訓練動作值利用一損失函數獲得一損失值，並根據該損失值利用一學習演算法將該至少一強化學習網路進行更新，以調整該至少一強化學習網路。