TWI675296B

TWI675296B - 備援方法及備援系統

Info

Publication number: TWI675296B
Application number: TW107125655A
Authority: TW
Inventors: 黃耀緯; Yao-wei HUANG
Original assignee: 神雲科技股份有限公司; Mitac Computing Technology Corporation
Priority date: 2018-07-25
Filing date: 2018-07-25
Publication date: 2019-10-21
Also published as: TW202008165A; US11132269B2; US20200034253A1

Abstract

一種備援方法，包含下列步驟：二控制單元分別操作在一主控模式及一從屬模式；在該主控模式的該控制單元產生一健康信號；對應的一邏輯運算單元根據該健康信號，判斷該控制單元是否正常運作；當該邏輯運算單元判斷該控制單元運作異常時，控制一第一發光二極體發光，以指示維修人員發生異常的主板位置，且即時通知操作在該從屬模式的該控制單元改為操作在該主控模式。再者，受到該二邏輯運算單元驅動的多個第二發光二極體的控制權，由原本的該控制單元改為後來操作在該主控模式的該控制單元，以實現正確控制燈號的功效。

Description

備援方法及備援系統

本發明是有關於一種備援方法及備援系統，特別是指一種即時通知與轉換的備援方法及備援系統。

習知具有備援功能的伺服器系統包含一個背板(BackPlane；BP)、多個主板(MainBoard；MB)、多個設置在該背板上的多個發光二極體(LED)、及多個系統晶片(SOC)。該等發光二極體的燈號顯示例如是對應多個磁碟機的運作狀態，且該等主板為兩兩相對應的主板，也就是說該兩兩相對的其中一個主板上所設置的系統晶片與其對應的另一個主板上設置有相同的系統晶片，例如是基板管理控制器(Baseboard Management Controller；BMC)、晶片組、或是SAS擴展器(Expander)的控制器(Controller)等等。當伺服器系統開機正常運作後，設置在該兩兩相對應的主板之其中一者的系統晶片會操作在一個主控模式(Master Mode)，而設置在其中另一者的系統晶片會操作在一個從屬模式(Slave Mode)。

此時，分別設置於該兩兩相對應的主板上之該二個系統晶片會透過預設的協定(Protocol)，協調由其中操作在該主控模式者，負責控制設置在背板上的該等發光二極體是否發光。當操作在該主控模式的系統晶片發生運作異常或故障時，習知的作法是同樣透過該預設的協定將具有發生運作異常或故障的系統晶片的主板所對應的另一主板上原本操作在該從屬模式的該系統晶片的操作模式切換為操作在該主控模式，同時將設置在背板上的該等發光二極體的控制權轉為由原本操作在該從屬模式的系統晶片來控制。然而，由於發生運作異常或故障的系統晶片因故障而無法控制其所在的主板的操作模式，如此卻可能導致該發生運作異常或故障的系統晶片所在的主板仍操作於該主控模式而沒有切換至操作於從屬模式，進而造成更多的元件運作異常，或是使該具有備援功能的伺服器系統被誤判為具有兩個操作於該主控模式的主板，而成為一個待解決的問題。

因此，本發明的目的，即在提供一種即時通知與轉換的備援方法及備援系統。

於是，本發明之一個觀點，提供一種備援系統，適用於二個第一發光二極體，並包含二個主板(MainBoard；MB)、二個邏輯運算單元、及二個控制單元。

該二個主板分別提供該二個第一發光二極體設置。該二個邏輯運算單元分別設置在該二個主板上，且分別電連接該二個第一發光二極體，以分別控制該二個第一發光二極體是否發光。

該二個控制單元分別設置在該二個主板上，並分別電連接該二個邏輯運算單元。其中，每一個控制單元執行一個韌體，使得該二個控制單元之其中一者操作在一個主控模式且其中另一者操作在一個從屬模式。

當操作在該主控模式的該控制單元執行該韌體時，產生一個健康信號。該邏輯運算單元接收來自操作在該主控模式的該控制單元的該健康信號，並據以判斷該控制單元為運作正常及運作異常之其中ㄧ者。

當該邏輯運算單元判斷操作在該主控模式的該控制單元運作異常時，該邏輯運算單元控制對應的該第一發光二極體發光，且通知操作在該從屬模式的該控制單元改為操作在該主控模式。

在一些實施態樣中，還適用於電連接該二個邏輯運算單元的多個第二發光二極體。其中，當對應的該邏輯運算單元判斷操作在該主控模式的該控制單元運作正常時，該邏輯運算單元還接受對應的該控制單元的控制，以驅動該等第二發光二極體發光。

對應的該邏輯運算單元判斷操作在該主控模式的該控制單元運作異常時，該邏輯運算單元還會不驅動該等第二發光二極體發光，由操作在該從屬模式改為操作在該主控模式的該控制單元控制對應的該邏輯運算單元，以驅動該等第二發光二極體發光。

在一些實施態樣中，其中，由操作在該從屬模式改為主控模式的該控制單元還藉由網際網路傳送一個通知訊息，且儲存相關於原本操作在該主控模式的該控制單元的一個異常紀錄。

在另一些實施態樣中，其中，該控制單元運作正常時，該健康信號是一種具有一邏輯值的週期性信號，且在每一個週期中，該邏輯值會有預定變化。

在一些實施態樣中，其中，該健康信號是一個週期性的脈衝信號。當該邏輯運算單元在每一個預定時間區間之內，判斷所接收的該健康信號的邏輯值符合該預定變化時，則判定對應的該控制單元運作正常。而當該邏輯運算單元在某一個該預定時間區間之內，判斷到該健康信號的邏輯值不符合該預定變化時，則判定對應的該控制單元運作異常。該預定時間區間大於等於該健康信號的週期。

於是，本發明之另一個觀點，提供一種備援方法，適用於二個第一發光二極體、二個邏輯運算單元、及二個控制單元。該二個邏輯運算單元分別電連接對應的該二個控制單元及對應的該二個第一發光二極體。該備援方法包含步驟(a)~(d)。

於步驟(a)，藉由每一個控制單元執行一個韌體，使得該二個控制單元之其中一者操作在一個主控模式且其中另一者操作在一個從屬模式。

於步驟(b)，當操作在該主控模式的該控制單元執行該韌體時，產生一個健康信號。

於步驟(c)，藉由對應的該邏輯運算單元接收來自操作在該主控模式的該控制單元的該健康信號，並據以判斷該控制單元為運作正常及運作異常之其中一者。

於步驟(d)，當對應的該邏輯運算單元判斷操作在該主控模式的該控制單元運作異常時，該邏輯運算單元控制對應的該第一發光二極體發光，且通知操作在該從屬模式的該控制單元改為操作在該主控模式。

在一些實施態樣中，還適用於電連接該二個邏輯運算單元的多個第二發光二極體。該備援方法還包含步驟(e)，當對應的該邏輯運算單元判斷操作在該主控模式的該控制單元運作正常時，該邏輯運算單元還接受對應的該控制單元的控制，以驅動該等第二發光二極體發光。

其中，在步驟(d)中，該邏輯運算單元還會不驅動該等第二發光二極體發光，由操作在該從屬模式改為操作在該主控模式的該控制單元控制對應的該邏輯運算單元，以驅動該等第二發光二極體發光。

在一些實施態樣中，其中，在步驟(d)中，由操作在該從屬模式改為主控模式的該控制單元還藉由網際網路傳送一個通知訊息，且儲存相關於原本操作在該主控模式的該控制單元的一個異常紀錄。

在另一些實施態樣中，其中，在步驟(b)中，該控制單元運作正常時，該健康信號是一種具有一邏輯值的週期性信號，且在每一個週期中，該邏輯值會有預定變化。

在一些實施態樣中，其中，在步驟(b)中，該健康信號是一個週期性的脈衝信號。在步驟(c)中，當該邏輯運算單元在每一個預定時間區間之內，判斷所接收的該健康信號的邏輯值符合該預定變化時，則判定對應的該控制單元運作正常。而當該邏輯運算單元在某一個該預定時間區間之內，判斷到該健康信號的邏輯值不符合該預定變化時，則判定對應的該控制單元運作異常，該預定時間區間大於等於該健康信號的週期。

本發明的功效在於：藉由對應的該邏輯運算單元根據該健康信號，判斷操作在該主控模式的該控制單元是否運作異常。當該控制單元的運作發生異常時，對應的該邏輯運算單元能夠控制對應的該第一發光二極體發光，以指示對應發生異常的主板位置，且更重要的是能夠即時通知另一個控制單元改為操作在該主控模式，以即時地啟動備援機制。再者，對應的該邏輯運算單元同時不驅動該等第二發光二極體發光，使得另一個邏輯運算單元受控制而能驅動該等第二發光二極體發光以正確地顯示磁碟機的運作狀態。

在本發明被詳細描述之前，應當注意在以下的說明內容中，類似的元件是以相同的編號來表示。

參閱圖1，本發明備援系統的一個實施例，適用於二個第一發光二極體(LED)81、82、一個背板(BackPlane；BP)6及一個設置在該背板6上的發光二極體單元9，並包含二個主板(MainBoard；MB)71、72、二個邏輯運算單元21、22、及二個控制單元11、12。

更具體的說，一個具有備援功能的伺服器系統包含一個磁碟儲存單元(圖未示)、一個背板6、多個第一發光二極體81、82、設置於該背板6上的該發光二極體單元9、及該備援系統。該等第一發光二極體81、82的數量與該等主板71、72的數量相同，且分別設置在該等主板71、72上或該等主板71、72所在的機殼(圖未示)上，以指示對應的該控制單元11、12是否運作異常。該發光二極體單元9包括多個第二發光二極體91~98，以對應顯示該磁碟儲存單元所具有的多個磁碟機的運作狀態，例如，每二個第二發光二極體對應一台磁碟機的運作狀態，但不在此限。

該二個邏輯運算單元21、22分別設置在該二個主板71、72上，且分別電連接該二個第一發光二極體81、82，以分別控制該二個第一發光二極體81、82是否發光。該每一邏輯運算單元21、22還電連接該發光二極體單元9的該每一第二發光二極體91~98，並驅動該等第二發光二極體91~98發光，其中該邏輯運算單元21、22是受控制而驅動該等第二發光二極體91~98發光。

該二個控制單元11、12分別設置在該二個主板71、72上，並分別電連接該二個邏輯運算單元21、22，且具備分別控制該二個邏輯運算單元21、22以驅動該等第二發光二極體91~98是否發光的能力。

該二個控制單元11、12例如都是基板管理控制器(Baseboard Management Controller；BMC) 、中央處理器(CPU)、南橋晶片、晶片組、系統單晶片(SOC)或都是SAS擴展器(Expander)的控制器(Controller)。其中，由於該發光二極體單元9所包括的多個第二發光二極體是用來指示對應的磁碟機的運作狀態，因此，該多個第二發光二極體的數量也會因為近年來伺服器系統的磁碟儲存單元所包括的磁碟機數量增加而增加，同時，也因此對控制單元的輸出入腳位的數量的需求也就更高。然而，基板管理控制器的輸出入腳位受到一定數量的限制，晶片組的輸出入腳位也受到一定數量的限制，SAS擴展器的控制器也因為需要符合高速信號的傳輸要求，如PCIe協定，而同樣具有輸出入腳位數量的限制。該二個邏輯運算單元21、22例如是複雜可程式邏輯裝置(Complex Programmable Logic Device；CPLD)，透過對應的該邏輯運算單元21、22，該控制單元11、12即可在有限的輸出入腳位數量的情況下，相較於使用該控制單元11、12的輸出入腳位直接控制該發光二極體單元9，而能控制數量更多的該等第二發光二極體91~98發光。

另外要補充說明的是：在本實施例中，該伺服器系統的該備援系統所包含的主板71、72的數量是二個，而在其他實施例中，該備援系統也可以是包含二個以上的多個主板，而該等主板呈兩兩相對，分別運作在該主控模式及該從屬模式。此外，該每一控制單元11、12是接收同樣設置在相同主板71、72的一個中央處理器的一個控制信號，並據以控制或傳送至對應的該邏輯運算單元21、22以驅動該等第二發光二極體91~98發光。也就是說，該等第二發光二極體91~98要如何發光以顯示正確的燈號是由同樣操作在該主控模式(即在同一張主板上)的該中央處理器來決定。

再參閱圖2，該備援系統實施一個備援方法，並包含步驟S1~S5。

於步驟S1，每一控制單元11、12執行一韌體，使得該二控制單元11、12之其中一者操作在一主控模式(Master Mode)且其中另一者操作在一從屬模式(Slave Mode)。舉例來說，該控制單元11操作在該主控模式，而該控制單元12操作在該從屬模式，以下並同樣以該例子說明，但不以此為限。

於步驟S2，當操作在該主控模式的該控制單元11執行該韌體時，產生一個健康信號。當該控制單元運作正常時，該健康信號是一種具有一邏輯值的週期性信號，且在每一個週期中，該邏輯值會有預定變化。在本實施例中，該健康信號是一個週期性的脈衝信號(Pulse)，其週期例如是1秒，但不在此限。

於步驟S3，藉由對應的該邏輯運算單元21接收來自操作在該主控模式的該控制單元11的該健康信號，並據以判斷該控制單元11是否運作正常。

以下舉例說明該邏輯運算單元21如何根據該健康信號判斷該控制單元11是否運作正常。第一種態樣，當該邏輯運算單元21在每一個預定時間區間之內，判斷所接收的該健康信號的邏輯值符合該預定變化時，則判定對應的該控制單元11運作正常。而當該邏輯運算單元21在某一個該預定時間區間之內，判斷到該健康信號的邏輯值不符合該預定變化時，則判定對應的該控制單元11為相異於運作正常的處於運作異常。該預定時間區間大於等於該健康信號的週期，該預定時間區間例如是1.5秒，即大於週期的1秒。

第二種態樣，該健康信號是一種週期性信號，也是一種觸發信號。當該邏輯運算單元21接收到該健康信號在每個週期中的邏輯變化時，則該邏輯運算單元21對其所包括的一個暫存器(圖未示)寫入一個預定的數值。該邏輯運算單元21在每一個預定時間區間之內，判斷在該暫存器有讀取到該預定的數值，則判定對應的該控制單元11運作正常，並進而將另一個數值寫入該暫存器。而當該邏輯運算單元21在某一個該預定時間區間之內，判斷在該暫存器都讀取到相異於該預設的數值時，則判定對應的該控制單元11運作異常。

第三種態樣，該健康信號是一種週期性信號，也是一種觸發信號。當該邏輯運算單元21接收到該健康信號在每個週期中的邏輯變化時，則該邏輯運算單元21對其所包括的一個計時器(Timer)的數值累加(或累減)一次。該邏輯運算單元21在每一個預定時間區間之內，判斷該計時器的數值與前一次所讀取的數值有變化，則判定對應的該控制單元11運作正常。而當該邏輯運算單元21在某一個該預定時間區間之內，判斷該計時器的數值與前一次所讀取的數值沒有變化時，則判定對應的該控制單元11運作異常。

於步驟S4，當對應的該邏輯運算單元21判斷操作在該主控模式的該控制單元11運作正常時，該邏輯運算單元21還接受對應的該控制單元11的控制，以驅動該等第二發光二極體91~98發光。

於步驟S5，當對應的該邏輯運算單元21判斷操作在該主控模式的該控制單元11運作異常時，該邏輯運算單元21控制對應的該第一發光二極體81發光，以指示出具有該發生運作異常或故障的該控制單元11所對應的該主板71，藉以幫助維修人員較快或較簡易的找出具有該發生運作異常或故障的該控制單元11所對應的該主板71的相關位置，且通知操作在該從屬模式的該控制單元12改為操作在該主控模式，即啟動備援的功能，以維持伺服器系統的正常運作。

再者，該邏輯運算單元21還會不驅動該等第二發光二極體發光91~98，由操作在該從屬模式改為操作在該主控模式的該控制單元12控制對應的該邏輯運算單元22，以驅動該等第二發光二極體91~98發光。

此外，由操作在該從屬模式改為主控模式的該控制單元12還藉由網際網路傳送一個通知訊息，以通知一個系統管理者關於該控制單元11發生運作異常的事件，且儲存相關於原本操作在該主控模式的該控制單元11也就是發生運作異常的該控制單元11的一個異常紀錄(Fail Log)。

綜上所述，藉由對應的該邏輯運算單元根據該健康信號，判斷操作在該主控模式的該控制單元是否運作異常。當該控制單元的運作發生異常時，對應的該邏輯運算單元不但控制對應的該第一發光二極體發光，以指示對應發生異常的主板位置，更重要的是能夠即時通知另一個控制單元改為操作在該主控模式，以即時地啟動備援機制，且同時不驅動該等第二發光二極體發光，使得另一個邏輯運算單元受控制而能驅動該等第二發光二極體發光以正確地顯示磁碟機的運作狀態，故確實能達成本發明的目的。

惟以上所述者，僅為本發明的實施例而已，當不能以此限定本發明實施的範圍，凡是依本發明申請專利範圍及專利說明書內容所作的簡單的等效變化與修飾，皆仍屬本發明專利涵蓋的範圍內。

11‧‧‧控制單元

12‧‧‧控制單元

21‧‧‧邏輯運算單元

22‧‧‧邏輯運算單元

6‧‧‧背板

71‧‧‧主板

72‧‧‧主板

81‧‧‧第一發光二極體

82‧‧‧第一發光二極體

9‧‧‧發光二極體單元

91~98‧‧‧第二發光二極體

本發明的其他的特徵及功效，將於參照圖式的實施方式中清楚地呈現，其中：圖1是一方塊圖，說明本發明備援系統的一個實施例；及圖2是一流程圖，說明本發明備援方法的多個步驟。

Claims

一種備援系統，適用於二個第一發光二極體，並包含：二個主板(MainBoard；MB)，分別提供該二個第一發光二極體設置；二個控制單元，分別設置在該二個主板上，其中，每一個控制單元執行一個韌體，使得該二個控制單元之其中一者操作在一個主控模式且其中另一者操作在一個從屬模式；及二個邏輯運算單元，分別設置在該二個主板上，並分別電連接該二個控制單元，以分別受控於該二個控制單元，且分別電連接該二個第一發光二極體，以分別控制該二個第一發光二極體是否發光，其中，當操作在該主控模式的該控制單元執行該韌體時，產生一個健康信號，該邏輯運算單元接收來自操作在該主控模式的該控制單元的該健康信號，並據以判斷該控制單元為運作正常及運作異常之其中一者，當該邏輯運算單元判斷操作在該主控模式的該控制單元運作異常時，該邏輯運算單元控制對應的該第一發光二極體發光，且通知操作在該從屬模式的該控制單元改為操作在該主控模式。
如請求項1所述的備援系統，還適用於電連接該二個邏輯運算單元的多個第二發光二極體，其中：當對應的該邏輯運算單元判斷操作在該主控模式的該控制單元運作正常時，該邏輯運算單元還接受對應的該控制單元的控制，以驅動該等第二發光二極體發光，對應的該邏輯運算單元判斷操作在該主控模式的該控制單元運作異常時，該邏輯運算單元還會不驅動該等第二發光二極體發光，由操作在該從屬模式改為操作在該主控模式的該控制單元控制對應的該邏輯運算單元，以驅動該等第二發光二極體發光。
如請求項2所述的備援系統，其中，由操作在該從屬模式改為主控模式的該控制單元還藉由網際網路傳送一個通知訊息，且儲存相關於原本操作在該主控模式的該控制單元的一個異常紀錄。
如請求項1所述的備援系統，其中，該控制單元運作正常時，該健康信號是一種具有一邏輯值的週期性信號，且在每一個週期中，該邏輯值會有預定變化。
如請求項4所述的備援系統，其中：該健康信號是一個週期性的脈衝信號，當該邏輯運算單元在每一個預定時間區間之內，判斷所接收的該健康信號的邏輯值符合該預定變化時，則判定對應的該控制單元運作正常，而當該邏輯運算單元在某一個該預定時間區間之內，判斷到該健康信號的邏輯值不符合該預定變化時，則判定對應的該控制單元運作異常，該預定時間區間大於等於該健康信號的週期。
一種備援方法，適用於二個第一發光二極體、二個邏輯運算單元、及二個控制單元，該二個邏輯運算單元分別電連接對應的該二個控制單元及對應的該二個第一發光二極體，且分別受控於該二個控制單元，該備援方法包含下列步驟：(a)藉由每一個控制單元執行一個韌體，使得該二個控制單元之其中一者操作在一個主控模式且其中另一者操作在一個從屬模式；(b)當操作在該主控模式的該控制單元執行該韌體時，產生一個健康信號；(c)藉由對應的該邏輯運算單元接收來自操作在該主控模式的該控制單元的該健康信號，並據以判斷該控制單元為運作正常及運作異常之其中一者；及(d)當對應的該邏輯運算單元判斷操作在該主控模式的該控制單元運作異常時，該邏輯運算單元控制對應的該第一發光二極體發光，且通知操作在該從屬模式的該控制單元改為操作在該主控模式。
如請求項6所述的備援方法，還適用於電連接該二個邏輯運算單元的多個第二發光二極體，該備援方法還包含，步驟(e)，當對應的該邏輯運算單元判斷操作在該主控模式的該控制單元運作正常時，該邏輯運算單元還接受對應的該控制單元的控制，以驅動該等第二發光二極體發光，其中，在步驟(d)中，該邏輯運算單元還會不驅動該等第二發光二極體發光，由操作在該從屬模式改為操作在該主控模式的該控制單元控制對應的該邏輯運算單元，以驅動該等第二發光二極體發光。
如請求項7所述的備援方法，其中，在步驟(d)中，由操作在該從屬模式改為主控模式的該控制單元還藉由網際網路傳送一個通知訊息，且儲存相關於原本操作在該主控模式的該控制單元的一個異常紀錄。
如請求項6所述的備援方法，其中，在步驟(b)中，該控制單元運作正常時，該健康信號是一種具有一邏輯值的週期性信號，且在每一個週期中，該邏輯值會有預定變化。
如請求項9所述的備援方法，其中：在步驟(b)中，該健康信號是一個週期性的脈衝信號；及在步驟(c)中，當該邏輯運算單元在每一個預定時間區間之內，判斷所接收的該健康信號的邏輯值符合該預定變化時，則判定對應的該控制單元運作正常，而當該邏輯運算單元在某一個該預定時間區間之內，判斷到該健康信號的邏輯值不符合該預定變化時，則判定對應的該控制單元運作異常，該預定時間區間大於等於該健康信號的週期。