TWI684859B - 遠端系統復原之方法 - Google Patents
遠端系統復原之方法 Download PDFInfo
- Publication number
- TWI684859B TWI684859B TW107126547A TW107126547A TWI684859B TW I684859 B TWI684859 B TW I684859B TW 107126547 A TW107126547 A TW 107126547A TW 107126547 A TW107126547 A TW 107126547A TW I684859 B TWI684859 B TW I684859B
- Authority
- TW
- Taiwan
- Prior art keywords
- bmc
- cpld
- server system
- reset
- wdt
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/0703—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
- G06F11/0751—Error or fault detection not based on redundancy
- G06F11/0754—Error or fault detection not based on redundancy by exceeding limits
- G06F11/0757—Error or fault detection not based on redundancy by exceeding limits by exceeding a time limit, i.e. time-out, e.g. watchdogs
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/0703—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
- G06F11/0706—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
- G06F11/0709—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a distributed system consisting of a plurality of standalone computer nodes, e.g. clusters, client-server systems
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/0703—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
- G06F11/0793—Remedial or corrective actions
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/14—Error detection or correction of the data by redundancy in operation
- G06F11/1402—Saving, restoring, recovering or retrying
- G06F11/1415—Saving, restoring, recovering or retrying at system level
- G06F11/1438—Restarting or rejuvenating
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/14—Error detection or correction of the data by redundancy in operation
- G06F11/1402—Saving, restoring, recovering or retrying
- G06F11/1415—Saving, restoring, recovering or retrying at system level
- G06F11/1441—Resetting or repowering
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/3003—Monitoring arrangements specially adapted to the computing system or computing system component being monitored
- G06F11/3006—Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/3058—Monitoring arrangements for monitoring environmental properties or parameters of the computing system or of the computing system component, e.g. monitoring of power, currents, temperature, humidity, position, vibrations
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/34—Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
- G06F11/3409—Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment for performance assessment
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2201/00—Indexing scheme relating to error detection, to error correction, and to monitoring
- G06F2201/88—Monitoring involving counting
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Quality & Reliability (AREA)
- General Physics & Mathematics (AREA)
- Computing Systems (AREA)
- Computer Hardware Design (AREA)
- Mathematical Physics (AREA)
- Debugging And Monitoring (AREA)
Abstract
本揭露提供了一種系統和方法以重置掛斷基板管理控制器(baseboard management controller,BMC)或伺服器系統的另一組件,使用硬體看門狗定時器(HW WDT)電路及/或複雜可編程邏輯器件(CPLD)或伺服器系統。HW WDT電路可以監視來自BMC的心跳訊號,並決定BMC的健康狀況。在BMC的健康狀況不符合預定標準的事件中,HW WDT電路產生重置訊號來重置BMC。CPLD可收集來自BMC之伺服器系統組件的健康資訊。CPLD也可收集來自HW WDT電路BMC的健康狀況。在決定伺服器系統的哪個特定組件掛斷後,CPLD可以產生重置訊號以重置特定組件。
Description
本發明是有關於一種系統復原,且特別是有關於一種計算系統的系統復原。
在伺服器架構中,伺服器系統通常具有基板管理控制器(baseboard management controller,BMC)。BMC用於監視系統管理狀態(例如熱量和電力),並控制伺服器系統。由BMC控制的系統管理功能通常對伺服器系統是很重要的。
然而,若BMC發生功能故障、無法運作、或掛置(hang),伺服器系統的性能和能力可能受到嚴重影響。
根據本揭露的各種示例的系統和方法,使用硬體看門狗定時器(hardware watch-dog-timer,HW WDT)電路及/或複雜可編程邏輯器件(complex programmable logic device,CPLD),藉以重置掛斷(hang-up)的基板管理控制器(baseboard management controller,BMC)或伺服器系統的另一組件,來提供上述問題的解決方案。HW WDT電路可以監視來自BMC的心跳訊號,並決定BMC的健康狀況。在BMC的健康狀況無法符合預定標準的事件中,HW WDT電路會產
生重置訊號來重置BMC。CPLD可以從BMC收集伺服器系統組件的健康資訊,並從HW WDT電路收集BMC的健康狀況。在決定伺服器系統的哪個特定組件掛斷後,CPLD可以產生重置訊號以重置特定組件。
在一些實施方式中,CPLD包括兩個或更多個部分(例如,第一CPLD部分和第二CPLD部分)。第一CPLD部分可以設置在伺服器系統的母板上,第二CPLD部分可以設置在伺服器系統的背板上。第一CPLD部分和第二CPLD部分都通過內部整合電路(inter-integrated circuit,I2C)通道連接到BMC。第一CPLD部分可以從BMC收集伺服器系統組件的健康資訊,並從HW WDT電路收集BMC的健康狀況。第二CPLD部分可以作為第一CPLD部分的冗餘備份,及/或直接收集伺服器系統的多個電源供應單元(power supply unit,PSU)的健康資訊。在一些示例中,第一CPLP部分或第二CPLD部分可以在接收到復原和休息(RSM_RST)訊號之後發送重置訊號。在一些示例中,第一CPLP可以處理伺服器系統的電源和重置序列。
在一些實施方式中,伺服器系統還包括經由網路與遠端裝置通訊的物理層(physical layer,PHY)積體電路(integrated-circuit,IC)。PHY IC可以接收來自管理員或遠端裝置的管理訊息,並通過電源管理事件(power management event,PME)訊號與第一CPLD部分和BMC通訊。在一些示例中,可以使遠端裝置或管理員能夠經由PHY IC 112和第一CPLD部分遠端地重置BMC或伺服器系統的特定組件。在一些示例中,PHY IC作為BMC和RJ45連接器之間的橋接器。PHY IC可以通過RGMII訊號與BMC進行通訊,並通過PHY_MDIP訊號與RJ45連接器進行通訊。
在一些實施方式中,BMC包括軟體WDT。軟體WDT由BMC的心跳訊號重置。若BMC的心跳訊號無法重置軟體WDT,則軟體WDT會有逾時,且產生一個逾時訊號來重置BMC。在一些實施方式中,軟體WDT可以執行系統電源周期、平台控制器集線器(platform controller hub,PCH)重置、及系統重置。
在一些實施方式中,第一CPLD部分和第二CPLD部分都包括逾時偵測模組。逾時偵測模組可以監視發送到BMC或伺服器系統的另一個組件的重置訊號。回應於決定重置訊號無法重置目標組件,逾時偵測模組可以觸發對應的CPLD部份以重新發送重置訊號。
根據本揭露的一個方面,一種用於重置伺服器系統的掛斷組件之電腦處理方法,包括:伺服器系統的HW WDT電路接收來自伺服器系統之BMC的心跳訊號(heartbeat signal);HW WDT電路基於心跳訊號決定BMC的健康狀況;以及若BMC的健康狀況低於預定標準,重置BMC。
在一些實施方式中,用於重置伺服器系統的掛斷組件之電腦處理方法更包括:在從管理員或遠端裝置接收到管理訊息,藉由PHY IC與第一CPLD通過PME訊號進行通訊;由第一CPLD從BMC收集伺服器系統組件的健康資訊;由第一CPLD從HW WDT電路收集BMC的健康狀況;基於所收集的組件健康資訊和BMC健康狀況,決定伺服器系統的特定組件掛斷;及由第一CPLD產生重置訊號以重置特定組件。
根據本揭露的另一方面,提供了一種儲存指令的非暫時性電腦可讀取儲存媒體。指令在由處理器執行時使處理器執行操作包括:由伺服器系統的HW WDT電路接收來自伺服器系統的BMC的心跳訊號;HW
WDT電路根據心跳訊號決定BMC的健康狀況;及若BMC的健康狀況低於預定標準,重置BMC。
在一些實施方式中,指令在由處理器執行時使處理器執行操作更包括:在從管理員或遠端裝置接收到管理訊息,藉由PHY IC與第一CPLD通過PME訊號進行通訊;由第一CPLD從BMC收集伺服器系統組件的健康資訊;由第一CPLD從HW WDT電路收集BMC的健康狀況;基於所收集的組件健康資訊和BMC健康狀況,決定伺服器系統的特定組件掛斷;及由第一CPLD產生重置訊號以重置特定組件。
根據一些配置,可以將伺服器系統的組件的操作狀況儲存在伺服器系統的記憶體、硬碟驅動器或快閃記憶裝置上。組件的操作狀況可由BMC、機架管理控制器(rack management controller,RMC)或伺服器系統上的中央處理單元(central processing unit,CPU)所存取。快閃記憶裝置可以是被配置為在一段時間內儲存程式指令或資料的任何儲存媒體。根據一些示例,快閃儲存裝置可以是快閃記憶體驅動器、隨機存取記憶體(random access memory,RAM)、非揮發性隨機存取記憶體(non-volatile random-access memory,NVRAM)、電性可抹除可編程唯讀記憶體(EEPROM)、或郵箱暫存器。
為了對本發明之上述及其他方面有更佳的瞭解,下文特舉實施例,並配合所附圖式詳細說明如下:
100A、100B‧‧‧伺服器系統
101、102‧‧‧電源供應單元(PSU)
103‧‧‧基板管理控制器(BMC)
103-1‧‧‧軟體WDT
104、330、410‧‧‧處理器
105‧‧‧BIOS
106‧‧‧北橋邏輯(NB邏輯)
107‧‧‧PCI匯流排
108‧‧‧南橋邏輯(SB邏輯)
109‧‧‧儲存裝置
110‧‧‧冷卻模組
111‧‧‧記憶體
112‧‧‧PHY IC
113、113-1、113-2‧‧‧CPLD
113-1A、113-2A‧‧‧逾時偵測模組
115‧‧‧HW WDT電路
116‧‧‧母板
117‧‧‧背板
150、151‧‧‧ISA插槽
160‧‧‧周邊組件互連快速插槽(PCIe插槽)
170、171‧‧‧PCI插槽
200‧‧‧方法
202、204、206、208、210、212、214、216、218‧‧‧流程步驟
300、400‧‧‧計算系統
302‧‧‧匯流排
304‧‧‧記憶體
306‧‧‧唯讀記憶體(ROM)
308、418‧‧‧隨機存取記憶體(RAM)
310‧‧‧控制器
312、416‧‧‧儲存裝置
314‧‧‧模組1
316‧‧‧模組2
318‧‧‧模組3
320‧‧‧輸入裝置
322、414‧‧‧輸出裝置
324、408‧‧‧通訊介面
326‧‧‧感測器
328‧‧‧快取
332‧‧‧快閃記憶體
334、412‧‧‧韌體
336‧‧‧顯示器
402‧‧‧晶片組
404‧‧‧橋接器
406‧‧‧使用者介面組件
本揭露及其優點和附圖,以下將參照附圖以對範例性實施例的描述提供更佳的理解。這些附圖僅描繪了範例性實施例,並且因此不被認為是對各種實施例或請求項之範圍限制。
第1A圖繪示依照本揭露實施方式之範例性系統的示意方塊圖。
第1B圖繪示依照本揭露實施方式之用於重置BMC及/或範例性系統之另一元件之範例性HW WDT電路及範例性CPLD的示意方塊圖。
第2圖繪示依照本揭露實施方式之用於重置伺服器系統之掛斷組件的範例性方法。
第3圖及第4圖繪示依照本揭露各種範例之範例性系統。
本揭露可以以許多不同的形式實施。代表性實施例係繪示於附圖中,並且將在此處詳細描述。本揭露為本揭露的原理示例或範例,並且不旨在將本揭露的廣泛方面限制於所述實施例。就此而言,例如在摘要、發明內容和實施方式部分中揭露但未在申請專利範圍中明確闡述的要素和限制,不應通過暗示、推斷而單獨或集體被併入申請專利範圍中,或被以其他方式限制之。為了實施方法詳細描述的目的,單數包括複數,反之亦然,除非明確否認;並且用語“包括”意味著“包括但不限於”。再者,近似用語例如“大約”、“幾乎”、“實質上”、“近似”及類似用語,可以在本文中例如用於表示“正好在”、“接近”、“靠近在”、或“在3-5%之內”、或“在可接收的製造公差內”或其任何邏輯組合。
本揭露的各種示例提供系統和方法,用於使用HW WDT電路及/或CPLD以重置伺服器系統的BMC或另一個組件。HW WDT電路可以監視來自BMC的心跳訊號並決定BMC的健康狀況。在BMC的健康狀況無法符合預定標準的事件中,HW WDT電路可重置BMC。CPLD可從BMC收集伺服器系統組件的健康資訊,並從HW WDT電路收集BMC的健康狀況。在決定伺服器系統的哪個特定組件正在引起問題時,CPLD可以發送重置訊號來重置特定組件。
第1A圖繪示根據本揭露實施方式之範例性伺服器系統100A的示意方塊圖。在這個例子中,伺服器系統100A包括至少一個微處理器或處理器104;BMC 103;PHY IC 112;CPLD 113;HW WDT電路115;一個或多個冷卻模組110;主記憶體(memory,MEM)111;至少一個電源供應單元(power supply unit,PSU)102,從AC電源供應單元(power supply unit,PSU)101接收AC電源,並提供電源給伺服器系統100A的多種組件(例如處理器104、北橋(north bridge,NB)邏輯106、PCIe插槽160、南橋(south bridge,SB)邏輯108、儲存裝置109、ISA插槽150、PCI插槽170、BMC 103、PHY IC 112、CPLD 113和HW WDT電路115。在通電之後,伺服器系統100A被配置為加載來自記憶體、電腦儲存裝置或外部儲存裝置的軟體應用,以執行各種操作。儲存裝置109被建構為可用於伺服器系統100A的作業系統和應用的邏輯方塊。儲存裝置109被配置為即使在伺服器系統100A斷電時仍保留伺服器資料。
在第1A圖中,記憶體111經由NB邏輯106耦接至處理器104。記憶體111可包括但不限於動態隨機存取記憶體(dynamic random access
memory,DRAM)、雙倍資料速率DRAM(double data rate DRAM,DDR DRAM)、靜態RAM(static RAM,SRAM)或其他類型的合適記憶體。記憶體111可被配置為儲存伺服器系統100A的韌體資料。在一些配置中,韌體資料可儲存在儲存裝置109上。
在一些實施方式中,伺服器系統100A可進一步包括快閃儲存裝置。快閃儲存裝置可以是快閃驅動器、隨機存取記憶體(random access memory,RAM)、非揮發性隨機存取記憶體(non-volatile random-access memory,NVRAM)、或電性可抹除可編程唯讀記憶體(electrically erasable programmable read-only memory,EEPROM)。快閃儲存裝置可被配置為儲存系統配置,例如韌體資料。
處理器104可被配置為執行用於特定功能的程式指令的中央處理單元(central processing unit,CPU)。例如,在開機過程中,處理器104可以存取儲存在BMC 103或快閃儲存裝置中的韌體資料,並且執行BIOS 105以初始化伺服器系統100A。在開機過程後,處理器104可以執行作業系統以執行和管理用於伺服器系統100A的特定任務。
在一些配置中,處理器104可以是多核處理器,其中的每一個通過連接到NB邏輯106的CPU匯流排耦接在一起。在一些配置中,NB邏輯106可以被整合到處理器104內。NB邏輯106還可被連接到多個周邊組件互連快速(peripheral component interconnect express,PCIe)插槽160和SB邏輯108(選擇性的)。多個PCIe插槽160可用於連接和匯流排,例如PCI Express x1、USB 2.0,SMBus、SIM卡、用於另一PCIe通道(lane)的未來擴展、1.5V和3.3V電源、及用於診斷伺服器系統100A機箱上的LED的導線。
在伺服器系統100A中,NB邏輯106和SB邏輯108通過周邊組件互連(PCI)匯流排107連接。PCI匯流排107可以支援處理器104的功能,但是以獨立於任何處理器104的本地(native)匯流排的標準格式。PCI匯流排107可以進一步連接到多個PCI插槽170(例如,PCI插槽171)。連接到PCI匯流排107的裝置對於匯流排控制器(未示出)而言,可以看起來是直接連接到CPU匯流排、指定處理器104位址空間內的位址、及同步到單個匯流排時鐘。可以在多個PCI插槽170中使用的PCI卡包括但不限於網路介面卡(network interface card,NIC)、音效卡、數據機(modem)、TV調諧卡、磁碟控制器、視訊卡、小型電腦系統介面(small computer system interface,SCSI)配接器(adapter)、及個人電腦記憶卡國際協會(personal computer memory card international association,PCMCIA)卡。
SB邏輯108可以經由擴展匯流排將PCI匯流排107耦接到多個擴展卡或ISA插槽150(例如,ISA插槽151)。擴展匯流排可以是用於SB邏輯108和周邊裝置之間通訊的匯流排,且可以包括但不限於工業標準架構(industry standard architecture,ISA)匯流排、PC/104匯流排、低引腳數(low pin count bus)匯流排、擴展ISA(extended ISA,EISA)匯流排、通用序列匯流排(universal serial bus,USB)、整合驅動電子電路(integrated drive electronics,IDE)匯流排、或可用於周邊裝置之資料通訊的任何其他合適的匯流排。
在這個示例中,BIOS 105可以是被配置為發起和識別伺服器系統100A的各種組件的任何程式指令或韌體。BIOS是一個重要的系統組件,負責初始化和測試相應伺服器系統的硬體組件。BIOS可以為硬體組件
提供抽象層,從而為應用程式及作業系統提供與周邊裝置(例如鍵盤、顯示器和其他輸入/輸出裝置)互動的一致方式。
在伺服器系統100A中,SB邏輯108更耦接到連接到至少一個PSU 102和HW WDT電路115的BMC 103。在一些實施方式中,BMC 103也可以是機架管理控制器(rack management controller,RMC)。
BMC 103被配置為監視伺服器系統100A的組件的操作狀態,且基於組件的操作狀態來控制伺服器系統100A。例如,BMC 103可監視被傳遞到PSU 102的電源;伺服器系統100A的組件的功耗;伺服器系統100A的內部溫度;及/或伺服器系統100A的特定組件的溫度。基於伺服器系統100A的內部溫度或特定組件的溫度,BMC 103可以控制冷卻模組110以增加或減少伺服器系統100A或特定組件的冷卻。在一些實施方式中,BMC 103可以比例縮小(scale down)伺服器系統100A的特定組件(例如,處理器104、記憶體111、儲存裝置109及/或匯流排)的頻率及/或功耗。
在此示例中,PHY IC 112被配置為從管理員或遠端裝置(未繪示)接收管理訊息,並且經由PME訊號與CPLD 113及BMC 103通訊。
HW WDT電路115被配置為監視來自BMC 103的心跳訊號,且決定BMC 103的健康狀況。當BMC 103的健康狀況低於預定標準時,HW WDT電路115可以產生重置訊號以重置BMC 103。
在一些實施方式中,HW WDT電路115可以是由BMC 103的心跳訊號重置的定時器。若來自BMC 103的心跳訊號無法重置HW WDT電路115或者沒有來自BMC 103的心跳訊號,HW WDT電路115將會逾時,並產生逾時訊號以重置BMC 103。
CPLD 113被配置為從BMC 103收集伺服器系統100A的組件的健康資訊,並且從HW WDT電路115收集BMC 103的健康狀況。在決定伺服器系統100A的特定組件或BMC 103掛斷,CPLD 113可以發送重置訊號以重置特定組件或BMC 103。
這種配置的一個例子在第1B圖中進一步示出。第1B圖繪示根據本揭露實施方式之範例性HW WDT電路115和範例性CPLD 113-1和113-2的示意方塊圖,用於重置BMC 103及/或範例性系統100B的其他組件。
在此示例中,伺服器系統100B包括PSU 101、母板116、及背板117。背板連接到PSU 101及第一CPLD 113-1。母板116連接到PHY IC 112、BMC 103、HW WDT電路115、及第二CPLD 113-2。第一CPLD 113-1及第二CPLD 113-2分別包括第一逾時偵測模組113-1A及第二逾時偵測模組113-2A。BMC 103通過I2C通道連接到第一逾時偵測模組113-1A和第二逾時偵測模組113-2A。BMC 103還經由通訊通道連接至PHY IC 112(通訊通道例如媒體獨立介面(media independent interface,MII)、精簡媒體獨立介面(Reduced Media Independent Interface,RMII)、十億位元媒體獨立介面(gigabit media independent interface,GMII)、精簡十億位元媒體獨立介面(reduced gigabit media independent interface,RGMII)、百億位元媒體獨立介面(10-gigabit media-independent interface,XGMII)、及串列十億位元媒體獨立介面(serial gigabit media-independent interface,SGMII)),這使得BMC 103能夠控制PHY IC 112。
PHY IC 112經由網路耦接到遠端裝置,且被配置為從遠端裝置或管理員接收管理訊息/封包。PHY IC 112可操作以經由PME訊號與BMC
103和第二CPLD 113-2進行通訊。在一些實施方式中,遠端裝置或管理員能夠經由PHY IC 112及第二CPLD 113-2遠端重置BMC 103或伺服器系統100B的特定組件。
在這個例子中,BMC 103包括軟體WDT 103-1。軟體WDT 103-1由BMC 103的心跳訊號重置。若BMC 103的心跳訊號無法重置軟體WDT 103-1,則軟體WDT 103-1可操作以逾時,而產生逾時訊號以重置BMC103。
雖然分別在第1A及1B圖中的範例性伺服器系統100A-100B中僅繪示某些組件,能夠處理或儲存資料或者接收或發送訊號的各種類型的電子或計算組件也可以被包括在範例性伺服器系統100A-100B內。此外,範例性伺服器系統100A-100B中的電子或計算組件可以被配置為執行各種類型的應用,及/或可以使用各種類型的作業系統。這些作業系統可以包括但不限於安卓(Android)、柏克萊軟體分配(Berkeley Software Distribution,BSD)、蘋果行動設備作業系統(iPhone OS,iOS)、Linux、OSX、類似Unix的即時作業系統(例如QNX)、微軟視窗(Microsoft Windows)、視窗電話(Window phone)、及IBM z/OS。
依照範例性伺服器系統100A-100B的期望實現方式,各種網路及訊息協議可被使用,包括但不限於TCP/IP、開放系統互連(open systems interconnection,OSI)、文件傳輸協議(file transfer protocol,FTP)、通用隨插即用(universal plug and play,UpnP)、網路檔案系統(network file system,NFS)、通用互聯網檔案系統(common internet file system,CIFS)、AppleTalk等等。本技藝之具有通常知識者應知,分別繪示於第1A-1B圖之範例性伺服器系統
100A-100B係用於解釋之目的。因此,網路系統可以適當地實現為多種變異,而仍根據本揭露的各種示例提供網路平台的配置。
分別在第1A及1B圖的範例性配置中,範例性伺服器系統100A-100D也可包括一個或多個無線組件,無線組件可操作以與特定無線通道的計算範圍內的一個或多個電子裝置進行通訊。無線通道可以是用於使裝置能夠無線通訊的任何適當的通道,例如藍牙、蜂巢式(cellular)、NFC、或Wi-Fi通道。應理解的是,裝置可以具有一個或多個傳統有線通訊連接,例如本領域所知悉者。各種其他組件及/或組合也可以在各種示例的範圍內。
以上討論意在說明本揭露的原理和各種示例。一旦完全理解了上述公開內容,許多變化和修改將變得顯而易見。
第2圖繪示根據本揭露的實施方式之用於重置伺服器系統的掛斷組件的範例性方法200。應理解的是,範例性方法200僅出於說明性目的而被呈現,並且在根據本揭露的其他方法中可以包括額外的、更少的、或替代的步驟,且以類似或替代的順序或併行(in parallel)的方式而被執行。範例性方法200起始於步驟202,啟動伺服器系統。
在步驟204,HW WDT電路可以從伺服器系統的BMC接收心跳訊號,如第1A及1B圖所示。在步驟206,HW WDT電路可以基於心跳訊號決定BMC的健康狀況,且在步驟208,若BMC的健康狀況無法滿足預定標準,重置BMC。
在一些示例中,BMC包括軟體WDT,如第1B圖所示。軟體WDT由BMC的心跳訊號重置。若BMC的心跳訊號無法重置軟體WDT,軟體WDT會產生逾時訊號以重置BMC。
在步驟210,在從管理員或遠端裝置接收到管理訊息,PHY IC可通過PME訊號與第一CPLD進行通訊,如第1A和1B圖所示。在步驟212,第一CPLD從BMC收集伺服器系統的組件的健康資訊,在步驟214,從HW WDT電路收集BMC的健康狀況。
在步驟216,第一CPLD可基於所收集的組件的健康資訊和BMC的健康狀況來決定伺服器系統的特定組件已經掛斷。在步驟218,第一CPLD可產生重置訊號以重置特定組件。在一些實施方式中,第一CPLD可以使BMC掃描伺服器系統的組件,且收集伺服器系統的組件的健康資訊。
在一些示例中,第一CPLD包括經由I2C通道連接到BMC的第一逾時偵測模組。第一逾時偵測模組可以監視發送到BMC或伺服器系統的特定組件的逾時訊號。回應於決定逾時訊號無法重置目標組件,第一逾時偵測模組可以觸發第一CPLD以重新發送逾時訊號。
在一些實施方式中,伺服器系統還包括第二CPLD。第二CPLD包括第二逾時偵測模組,第二逾時偵測模組通過另一個I2C通道連接到BMC。第二CPLD部分可以直接從BMC收集伺服器系統組件的健康資訊,且可作為第一個CPLD的冗餘備份。
範例性系統和網路的簡要介紹性描述係揭露於此,如第3-4圖所示。此些變化形式將在本文中作為各種示例進行描述。本揭露現在將參照第3圖作說明。
第3圖繪示範例性計算系統300,其中計算系統的組件使用匯流排302彼此電性通訊。計算系統300包括處理單元(CPU或處理器)330及系統匯流排302,系統匯流排302耦接各種系統組件至處理器330,各種組件包
括系統記憶體304(例如,唯讀記憶體(ROM)306和隨機存取記憶體(RAM)308)。計算系統300可包括高速記憶體的快取,此快取直接連接至處理器330、緊密接近處理器330、或整合為處理器330的一部分。計算系統300可將來自記憶體304及/或儲存裝置312的資料複製到快取328以供處理器330快速存取。以此方式,快取可提供處理器330在等待資料時的性能提升。這些和其他模組可以控制或被配置為控制處理器330以執行各種動作。其他系統記憶體304也可供使用。記憶體304可以包括具有不同性能特徵的多種不同類型的記憶體。處理器330可以包括任何一般用途處理器和硬體模組或軟體模組,例如嵌入在儲存裝置312中的模組1 314、模組2 316、和模組3 318。硬體模組或軟體模組被配置為控制處理器330,以及將軟體指令整合入實際處理器設計的特殊用途處理器。處理器330可以是實質上完全獨立的計算系統,其包含多個核或處理器、匯流排、記憶體控制器、快取等。多核處理器可以是對稱的或不對稱的。
為了使使用者能夠與計算系統300進行互動,輸入裝置320係被提供作為輸入機制。輸入裝置320可包括用於語音的麥克風、用於手勢或圖形輸入的觸控螢幕、鍵盤、滑鼠、動作輸入等等。在一些情況下,多模式系統可以使使用者能夠提供多種類型的輸入以與計算系統300通訊。在此例中,輸出裝置322也被提供。通訊介面324可以主宰和管理使用者輸入和系統輸出。
儲存裝置312可以是用於儲存可由計算機存取資料的非揮發性記憶體。儲存裝置312可以是磁帶盒、快閃記憶卡、固態記憶裝置、數位多功能碟、卡閘(cartridge)、RAM 308、ROM 306及其混合。
控制器310可以是計算系統300上的專用微控制器或處理器,例如BMC。在一些情況下,控制器310可以是智慧平台管理介面(intelligent platform management interface,IPMI)的一部分。再者,在一些情況下,控制器310可以被嵌入在計算系統300的母板或主電路板上。控制器310可以管理系統管理軟體和平台硬體之間的介面。控制器310還可以與各種系統裝置和組件(內部及/或外部)進行通訊,例如控制器或周邊組件,如下面進一步描述。
控制器310可以產生對通知、警報及/或事件的特定響應,並與遠端裝置或組件(例如,電子郵件訊息,網路訊息等)通訊,以產生用於自動硬體復原程序的指令或命令等。管理員還可以與控制器310遠端通訊以發起或執行特定的硬體復原程序或操作,如下面進一步描述。
控制器310還可以包括用於管理和維護控制器310所接收的事件、警報和通知的系統事件日誌控制器及/或儲存器。例如,控制器310或系統事件日誌控制器可以接收來自一個或多個裝置及組件的警報或通知,並將警報或通知維護在系統事件日誌儲存組件中。
快閃記憶體332可以是可由計算系統300用於儲存及/或資料傳輸的電子非揮發性計算機儲存媒介或晶片。快閃記憶體332可以被電性抹除及/或重新編程。例如,快閃記憶體332可以包括EPROM、EEPROM、ROM、NVRAM或互補金屬氧化物半導體(complementary metal-oxide semiconductor,CMOS)。快閃記憶體332可儲存當計算系統300首次通電時由計算系統300執行的韌體334、及為韌體334指定的一組配置。快閃記憶體332還可以儲存韌體334所使用的配置。
韌體334可以包括基本輸入/輸出系統或均等物,例如可延伸韌體介面(Extensible Firmware Interface,EFI)或統一可延伸韌體介面(Unified Extensible Firmware Interface,UEFI)。每當計算系統300啟動時,韌體334可作為順序程式而被載入和執行。韌體334可基於此組配置來識別、初始化、及測試計算系統300中存在的硬體。韌體334可在計算系統300上執行自檢(例如開機自檢(Power-on-Self-Test,POST))。此自檢可以測試各種硬體組件的功能,例如硬碟驅動器、光學讀取裝置、冷卻裝置、記憶體模組、延伸卡等。韌體334可以定址和分配記憶體304、ROM 306、RAM 308、及/或儲存裝置312中的區域,以儲存作業系統(operating system,OS)。韌體334可以載入啟動載入器(boot loader)及/或OS,並將計算系統300的控制權交給OS。
計算系統300的韌體334可以包括韌體配置,韌體配置定義韌體334如何控制計算系統300中的各種硬體組件。韌體配置可以決定計算系統300中的各種硬體組件被啟動的順序。韌體334可以提供允許設置各種不同參數的介面,例如UEFI,其可以與韌體預設配置中的參數不同。例如,使用者(例如管理員)可以使用韌體334來指定時鐘和匯流排速度;定義連接到計算系統300的周邊;設置健康監測(例如,風扇速度和CPU溫度限制);及/或提供影響計算系統300的整體性能和功率使用的各種其他參數。雖然韌體334被繪示為儲存在快閃記憶體332中,但本領域的具有通常知識將容易認識到韌體334可以儲存在其他記憶體組件中,例如記憶體304或ROM 306。
計算系統300可以包括一個或多個感測器326。一個或多個感測器326可以包括例如一個或多個溫度感測器、熱體(thermal)感測器、氧感測器、化學感測器、噪音感測器、熱能(heat)感測器、電流感測器、電壓偵測器、氣流感測器、流量感測器、紅外溫度計、熱通量感測器、溫度計、高溫計等。一個或多個感測器326可以與處理器、快取328、快閃記憶體332、通訊介面324、記憶體304、ROM 306、RAM 308,控制器310、及儲存裝置312,例如經由匯流排302進行通訊。一個或多個感測器326也可以經由一個或多個不同手段與系統中的其他組件進行通訊,例如經由I2C、一般用途輸出(general purpose output,GPO)及類似物。計算系統300上不同類型的感測器(例如感測器326)也可以向控制器310報告例如冷卻風扇速度、電力狀態、OS狀態、硬體狀態等的參數。計算系統300可以使用顯示器336來提供與控制器310或處理器330所執行的應用有關的圖形。
第4圖繪示具有晶片組架構之範例計算系統400之示意圖,可用於執行所述方法或操作,以及產生和顯示圖形化使用者介面(graphical user interface,GUI)。計算系統400可以包括可用來實現所揭露之技術的計算機硬體、軟體和韌體。計算系統400可以包括處理器410,處理器410代表能夠執行軟體、韌體和硬體的任何數量的物理及/或邏輯上不同的資源,被配置以進行所識別的計算。處理器410可以與晶片組402通訊,晶片組402可以控制送至處理器410的輸入及來自處理器410的輸出。在此範例中,晶片組402將訊息輸出到輸出裝置414,例如顯示器,並且可以讀取訊息並將訊息寫入儲存裝置416,儲存裝置416可以包括例如磁媒介和固態媒介。晶片組402還可以從RAM 418讀取資料並將資料寫入到RAM 418中。橋
接器404用於與各種使用者介面組件406接合(interface),可被提供以與晶片組402接合。使用者介面組件406可以包括鍵盤、麥克風、觸碰偵測和處理電路以及例如滑鼠的指向設備。一般而言,計算系統400的輸入可來自機器產生及/或人為產生任何的各種來源。
晶片組402也可以與可具有不同物理介面的一個或多個通訊介面408接合。這種通訊介面可以包括用於有線和無線區域網路、用於寬頻帶無線網路、和用於個人區域網路的介面。再者,機器可以通過使用者介面組件406接收來自使用者的輸入並執行適當的功能,例如通過使用處理器410解譯這些輸入的瀏覽功能。
再者,晶片組402也可以與韌體412通訊,韌體412可以在通電時由計算系統400執行。韌體412可以基於一組韌體配置來識別、初始化和測試存在於計算機系統400中的硬體。韌體412可以在計算系統400上執行自檢(例如POST)。自檢可以測試晶片組402、橋接器404、使用者介面組件406、通訊介面408、計算系統400、處理器410、韌體、輸出裝置414、儲存裝置416、RAM 418等各種硬體組件的功能。韌體412可以定址和分配RAM記憶體418中的區域以儲存OS。韌體412可以載入啟動載入器及/或OS,並且將計算系統400的控制權交給OS。在一些情況下,韌體412可以與晶片組402、橋接器404、使用者介面組件406、通訊介面408、計算系統400、處理器410等硬體組件和輸出裝置414、儲存裝置416、RAM 418等硬體組件通訊。於此,韌體412可以通過晶片組402與晶片組402、橋接器404、使用者介面組件406、通訊介面408、計算系統400、處理器410等硬體組件402-410和輸出裝置414、儲存裝置416、RAM 418
等硬體組件通訊,及/或通過一個或多個其他組件與晶片組402、橋接器404、使用者介面組件406、通訊介面408、計算系統400、處理器410等硬體組件和輸出裝置414、儲存裝置416、RAM 418等硬體組件通訊。在一些情況下,韌體412可以直接與硬體組件晶片組402、橋接器404、使用者介面組件406、通訊介面408、計算系統400、處理器410等和輸出裝置414、儲存裝置416、RAM 418等硬體組件通訊。
可以理解的是,示例計算系統300和400可以具有多於一個處理器(例如處理器330、處理器410),或者可以是一組或一群(cluster)連網在一起的計算裝置的其中一部分,以提供更強的處理能力。
為了清楚說明,在一些情況下,本揭露可以被呈現為包括功能方塊,包括裝置、裝置組件、在軟體或硬體和軟體的組合所實施的方法中的步驟或流程。
在一些實施例中,電腦可讀取儲存裝置、媒介和記憶體可以包括有線或無線訊號,包含位元流及類似物。然而,如上所述,非揮發性電腦可讀取儲存媒介本身明確排除例如能量、載波訊號、電磁波、及訊號的媒介。
根據上述範例的方法可以使用從電腦可讀取媒介儲存或以其他方式獲得的電腦可執行指令來實現。這樣的指令可以包括指令和資料以例如使得一般用途電腦、特定用途電腦、或特定用途處理裝置進行某一功能或某一組功能。所使用的電腦資源的部分可以通過網路而存取的。電腦可執行指令可以是例如二位元和中間(intermediate)格式指令,例如組合語言、韌體、或源代碼。
實現根據這些揭露方法的裝置可以包括硬體、韌體、及/或軟體,並且可以採取各種形式因素中的任何一種。這種形式因素的典型例子包括膝上型電腦、智慧手機、小型形式因素個人電腦、個人數位助理、機架安裝裝置、獨立(standalone)裝置等等。所述功能也可以實施在周邊裝置或附加(add-in)卡中。舉例來說,這樣的功能也可以在不同的晶片中的電路板上被實現,或者在單個裝置所執行的不同過程而被實現。
多種範例也可更被實現在範泛形式的操作環境,其中操作環境在一些情況下可以包括可以用於運作多個應用中的任何應用的一個或多個伺服器電腦、使用者電腦、或運算裝置。使用者或客戶裝置可以包括許多一般用途個人電腦的任何一個,例如運作標準OS的桌上型或膝上型電腦,以及運作行動軟體的蜂巢式、無線、和手持式裝置,並且能夠支援多種網路和訊息協定。這樣的系統也可以包括多個工作站以運作各種商業上可取得的多種OS中的任何一個,以及用於例如開發和資料庫管理的其他已知應用。這些裝置也可以包括其他電子裝置,例如虛擬(dummy)終端、精簡型客戶(thin-client)、遊戲系統、以及能夠通過網路進行通訊的其他
就範例或其部分係以硬體實現而言,本揭露可使用以下技術中的任一者或其組合來實現:離散邏輯電路,具有邏輯閘以用於實現邏輯功能於資料訊號上;應用專用集成電路(application specific integrated circuit,ASIC),具有適當的組合邏輯閘;可編程硬體,例如可編程閘陣列(programmable gate array,PGA);場可編程閘陣列(field programmable gate array,FPGA)等等。
大多數範例利用本領域具有通常知識者所熟悉的至少一個網路來支援使用例如TCP/IP、OSI、FTP、UpnP、NFS、CIFS、AppleTalk等各種商業可取得之協定中的任何協定來進行通訊。網路可以是例如區域網路、廣域網路、虛擬私人網路、網際網路、內部網路、外部網路、公共交換電話網路、紅外網路、無線網路、及其任何組合。
實現根據這些揭露方法的裝置可以包括硬體、韌體、及/或軟體,並且可以採取各種形式因素中的任何一種。這種形式因素的典型例子包括膝上型電腦、智慧手機、小型形式因素個人電腦、個人數位助理、機架安裝裝置、獨立裝置等等。所述功能也可以實施在周邊裝置或附加卡中。舉例來說,這樣的功能也可以在不同的晶片中的電路板上被實現,或者在單個裝置所執行的不同過程而被實現。
在利用Web伺服器的範例中,Web伺服器可以運作任何種類的伺服器或中間層(mid-tier)應用程序,包括HTTP伺服器、FTP伺服器、CGI伺服器、資料伺服器、Java伺服器和商業應用伺服器。回應於來自使用者裝置的請求,Web伺服器也能夠執行程式或指令檔(script)。例如,Web伺服器可以執行一個或多個Web應用,其可以被實現為以任何編程語言編寫的一個或多個指令檔或程式,例如Java®、C、C#、或C++、或任何指令檔語言,例如Perl、Python、或TCL,及其組合。Web伺服器也可以涵蓋資料庫伺服器,包括在公開市場上可取得的資料庫伺服器。
伺服器系統可以包括多種資料儲存和其他記憶體與儲存媒介,如上所述。此些可以駐留在各種位置,例如在一個或多個本地(及/或駐留)的儲存媒介上、或遠端網路上的任一或所有電腦。在特定的一組範例中,資訊可以駐留在本領域具有通常知識者所知悉的儲存區域網路(storage-area
network,SAN)中。相仿地,用於執行歸屬於電腦、伺服器或其他網路裝置之功能所需的任何必要文件,可以適當地在本地及/或遠端儲存。在包括電腦化裝置之系統的情況下,每個此種裝置可以包括可經由匯流排電性耦接的硬體組件,此些組件包括例如至少一個CPU,至少一個輸入裝置(例如滑鼠、鍵盤、控制器、觸碰感應顯示器組件、或小鍵盤)以及至少一個輸出裝置(例如顯示裝置、印表機、或揚聲器)。這樣的系統還可包括一個或多個儲存裝置,例如磁碟驅動器、光儲存裝置、及固態儲存裝置例如RAM或ROM,以及可卸除媒介裝置、記憶卡、快閃卡等。
用於包含代碼或部分代碼的儲存媒介和電腦可讀取媒介,可包括本領域具有通常知識者所知悉或使用的任何適當的媒介,包括儲存媒介和電腦媒介。儲存媒介及電腦媒介可以包括但不限於用於儲存和/或傳送資料或資訊的揮發性及非揮發性、可卸除及不可卸除的媒介。可卸除及不可卸除媒介包括RAM、ROM、EPROM、EEPROM、快閃記憶體或其他記憶技術、CD-ROM、DVD或其他光儲存、磁卡帶、磁帶(tape)、磁碟儲存或其他磁性儲存裝置或任何可用於儲存所需資訊並可由系統裝置存取的其他媒介。資料或資訊可以包括電腦可讀取指令、資料結構、程式模組或其他資料。基於此處所提供的技術和教導,本領域具有通常知識者將認識到能有其他方式及/或方法以實現本揭露的各種方面。
綜上所述,雖然本發明已以實施例揭露如上,然其並非用以限定本發明。本發明所屬技術領域中具有通常知識者,在不脫離本發明之精神和範圍內,當可作各種之更動與潤飾。因此,本發明之保護範圍當視後附之申請專利範圍所界定者為準。
200‧‧‧方法
202~218‧‧‧流程步驟
Claims (9)
- 一種遠端系統復原之方法,用以重置一伺服器系統的一掛斷(hang-up)組件,包括:該伺服器系統之一硬體看門狗定時器(hardware watch-dog-timer,HW WDT)電路接收來自該伺服器系統之一基板管理控制器(baseboard management controller,BMC)的複數個心跳訊號(heartbeat signal);該HW WDT電路基於該些心跳訊號,決定該BMC的健康狀況;若該BMC的健康狀況無法符合一預定標準,重置該BMC;以及在接收來自一遠端裝置或一管理員的一管理訊息時,經由一電源管理事件(power management event,PME)訊號,一實體層(physical layer,PHY)積體電路(integrated-circuit,IC)與一第一複雜可編程邏輯裝置(complex programmable logic device,CPLD)進行通訊;該第一CPLD收集來自該BMC之該伺服器系統之複數個組件的一健康資訊;該第一CPLD收集來自該HW WDT電路之該BMC的該健康狀況;基於所收集之該些組件的該健康資訊及該BMC之該健康狀況,該第一CPLD決定該伺服器系統之一特定組件已掛斷;及該第一CPLD產生一重置訊號,以重置該特定組件。
- 如申請專利範圍第1項所述之方法,其中該第一CPLD包括一第一逾時偵測模組,該第一逾時偵測模組用以監視傳送至該特定組件的該重置訊號。
- 如申請專利範圍第2項所述之方法,更包括:回應於決定該重置訊號已無法重置該特定組件,使該第一CPLD重送該重置訊號。
- 如申請專利範圍第1項所述之方法,其中該伺服器系統更包括一第二CPLD,該第二CPLD用以作為該第一CPLD的一冗餘備份,及/或直接收集該伺服器系統之該些組件的該健康資訊。
- 如申請專利範圍第4項所述之方法,其中該第二CPLD包括一第二逾時偵測模組。
- 如申請專利範圍第1項所述之方法,其中該第一CPLD係經由一內部整合電路(inter-integrated circuit,I2C)連接至該BMC。
- 如申請專利範圍第1項所述之方法,其中該BMC係經由一通訊通道連接至該PHY IC,該通訊通道使得該BMC控制該PHY IC,該通訊通道係媒體獨立介面(media independent interface,MII)、精簡媒體獨立介面(Reduced Media Independent Interface,RMII)、十億位元媒體獨立介面(gigabit media independent interface,GMII)、精簡十億位元媒體獨立介面(reduced gigabit media independent interface,RGMII)、 百億位元媒體獨立介面(10-gigabit media-independent interface,XGMII)、及串列十億位元媒體獨立介面(serial gigabit media-independent interface,SGMII)之其中之一。
- 如申請專利範圍第1項所述之方法,更包括:使該BMC掃描該伺服器系統的該些組件,並收集該伺服器系統的該些組件的健康資訊。
- 如申請專利範圍第1項所述之方法,其中該BMC包括一軟體WDT,可由該BMC的該些心跳訊號所重置,該軟體WDT被配置在該BMC之該些心跳訊號無法重置該軟體WDT之一事件中,產生一逾時訊號以重置該BMC。
Applications Claiming Priority (4)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| US201862616644P | 2018-01-12 | 2018-01-12 | |
| US62/616,644 | 2018-01-12 | ||
| US15/944,139 | 2018-04-03 | ||
| US15/944,139 US10846160B2 (en) | 2018-01-12 | 2018-04-03 | System and method for remote system recovery |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| TW201931117A TW201931117A (zh) | 2019-08-01 |
| TWI684859B true TWI684859B (zh) | 2020-02-11 |
Family
ID=63682966
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| TW107126547A TWI684859B (zh) | 2018-01-12 | 2018-07-31 | 遠端系統復原之方法 |
Country Status (5)
| Country | Link |
|---|---|
| US (1) | US10846160B2 (zh) |
| EP (1) | EP3511831A1 (zh) |
| JP (1) | JP6686266B2 (zh) |
| CN (1) | CN110032462A (zh) |
| TW (1) | TWI684859B (zh) |
Families Citing this family (38)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| TWI679532B (zh) * | 2018-10-05 | 2019-12-11 | 緯穎科技服務股份有限公司 | 監測系統與方法 |
| CN110489367B (zh) * | 2019-07-29 | 2020-10-02 | 苏州浪潮智能科技有限公司 | 一种灵活调配且易于cpld管理背板的方法与系统 |
| TWI709045B (zh) * | 2019-08-12 | 2020-11-01 | 神雲科技股份有限公司 | 遠端查看伺服器開機狀態的方法與伺服器 |
| TWI742430B (zh) * | 2019-09-17 | 2021-10-11 | 神雲科技股份有限公司 | 自動回復基板管理控制器之韌體的方法 |
| CN111124849A (zh) * | 2019-11-08 | 2020-05-08 | 苏州浪潮智能科技有限公司 | 一种服务器故障告警的方法、设备及介质 |
| TWI734357B (zh) * | 2020-01-21 | 2021-07-21 | 英業達股份有限公司 | 主機板及輔助測試主機板的方法 |
| US11099838B1 (en) * | 2020-02-26 | 2021-08-24 | Quanta Computer Inc. | Method and system for recovery for custom integrated circuit |
| JP7380403B2 (ja) * | 2020-04-27 | 2023-11-15 | 富士通株式会社 | 情報処理装置及び連携方法 |
| CN111767174B (zh) * | 2020-06-30 | 2025-01-21 | 西安易朴通讯技术有限公司 | 一种bios刷新控制方法及服务器、存储介质 |
| CN111858239B (zh) * | 2020-06-30 | 2022-06-10 | 浪潮电子信息产业股份有限公司 | 一种服务器硬盘监测方法、装置、设备及介质 |
| CN111949449A (zh) * | 2020-08-12 | 2020-11-17 | 曙光信息产业(北京)有限公司 | 固件恢复方法、装置、系统、计算机设备和存储介质 |
| US11226862B1 (en) * | 2020-09-03 | 2022-01-18 | Dell Products L.P. | System and method for baseboard management controller boot first resiliency |
| CN112463222A (zh) * | 2020-11-11 | 2021-03-09 | 苏州浪潮智能科技有限公司 | 一种服务器bios与bmc之间的数据交互方法、装置及设备 |
| CN112511863A (zh) * | 2020-11-20 | 2021-03-16 | 北京滴普科技有限公司 | 一种智能边缘计算系统 |
| CN112764699A (zh) * | 2020-12-28 | 2021-05-07 | 西安易朴通讯技术有限公司 | 双显示切换装置、方法、服务器及存储介质 |
| CN113064479B (zh) * | 2021-03-03 | 2023-05-23 | 山东英信计算机技术有限公司 | 一种gpu服务器的电源冗余控制系统、方法及介质 |
| CN113032182B (zh) * | 2021-03-12 | 2022-11-29 | 山东英信计算机技术有限公司 | 一种计算机系统异常恢复的方法和设备 |
| CN112860623B (zh) * | 2021-03-15 | 2022-03-18 | 英业达科技有限公司 | 单处理器系统的伺服器主机板 |
| CN113359967B (zh) * | 2021-04-15 | 2022-04-22 | 山东英信计算机技术有限公司 | 一种设备启动方法和装置 |
| CN113220524B (zh) * | 2021-04-27 | 2024-10-15 | 北京百度网讯科技有限公司 | 微服务器的监控系统、方法、装置及电子设备 |
| CN113204510B (zh) * | 2021-04-29 | 2023-02-28 | 山东英信计算机技术有限公司 | 一种服务器管理架构和服务器 |
| JP7600878B2 (ja) | 2021-06-03 | 2024-12-17 | エフサステクノロジーズ株式会社 | 情報処理装置及び復旧方法 |
| US11334452B1 (en) * | 2021-06-08 | 2022-05-17 | International Business Machines Corporation | Performing remote part reseat actions |
| US11714696B2 (en) * | 2021-06-14 | 2023-08-01 | Dell Products, L.P. | Custom baseboard management controller (BMC) firmware stack watchdog system and method |
| CN113656339B (zh) * | 2021-07-14 | 2024-02-02 | 浪潮商用机器有限公司 | Nvme热插拔的处理方法、bmc、装置、设备及介质 |
| CN113625855B (zh) * | 2021-07-25 | 2023-07-25 | 苏州浪潮智能科技有限公司 | 一种服务器系统的电源控制方法、系统、介质及设备 |
| US11782791B2 (en) * | 2021-08-25 | 2023-10-10 | Western Digital Technologies, Inc. | System and method for memory hang recovery using a distributed power management system |
| CN113872796B (zh) * | 2021-08-26 | 2024-04-23 | 浪潮电子信息产业股份有限公司 | 服务器及其节点设备信息获取方法、装置、设备、介质 |
| CN113867815B (zh) * | 2021-09-17 | 2023-08-11 | 杭州当虹科技股份有限公司 | 服务器挂起监测和自动重启方法以及应用其的服务器 |
| CN113849060B (zh) * | 2021-09-26 | 2023-08-04 | 苏州浪潮智能科技有限公司 | 存储设备、cpld器件、存储设备的复位方法和存储介质 |
| US11822505B2 (en) * | 2021-10-28 | 2023-11-21 | Quanta Computer Inc. | Systems and methods for remote management of a network device |
| CN114296995B (zh) * | 2021-11-30 | 2023-11-03 | 苏州浪潮智能科技有限公司 | 一种服务器自主修复bmc的方法、系统、设备及存储介质 |
| US20230216607A1 (en) * | 2021-12-30 | 2023-07-06 | Microsoft Technology Licensing, Llc | Systems and methods to initiate device recovery |
| CN114817096B (zh) * | 2022-04-08 | 2023-07-25 | 苏州浪潮智能科技有限公司 | Bmc和bios的串口切换系统、方法、设备及计算机可读介质 |
| CN115543053B (zh) * | 2022-09-09 | 2025-06-06 | 苏州浪潮智能科技有限公司 | 一种bbu供电方法、系统、存储介质及设备 |
| CN116085289B (zh) * | 2022-12-29 | 2025-11-18 | 超聚变数字技术有限公司 | 一种风扇调速方法和服务器 |
| CN116820827B (zh) * | 2023-08-28 | 2024-01-23 | 苏州浪潮智能科技有限公司 | 一种节点服务器的基板管理控制器的控制方法及其系统 |
| CN119166419A (zh) * | 2024-09-02 | 2024-12-20 | 中科可控信息产业有限公司 | 服务器的自检方法、装置、电子设备及存储介质 |
Citations (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US20110004780A1 (en) * | 2009-07-06 | 2011-01-06 | Yutaka Hirata | Server system and crash dump collection method |
| CN104598329A (zh) * | 2015-02-12 | 2015-05-06 | 浪潮电子信息产业股份有限公司 | 一种基于rmc管理的自动bmc故障解决方法 |
| CN105224049A (zh) * | 2015-09-24 | 2016-01-06 | 浪潮电子信息产业股份有限公司 | 一种防止bmc失效后服务器系统过热的方法 |
| TW201714085A (zh) * | 2015-10-02 | 2017-04-16 | 緯創資通股份有限公司 | 監測伺服器的方法、監測裝置及監測系統 |
| CN107145428A (zh) * | 2017-05-26 | 2017-09-08 | 郑州云海信息技术有限公司 | 一种服务器及服务器监控方法 |
Family Cites Families (23)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP3693226B2 (ja) | 1999-06-30 | 2005-09-07 | 矢崎総業株式会社 | マイコンのバックアップ装置及び自動車用パワーウインドウ制御装置 |
| US7523350B2 (en) * | 2005-04-01 | 2009-04-21 | Dot Hill Systems Corporation | Timer-based apparatus and method for fault-tolerant booting of a storage controller |
| US7391237B2 (en) * | 2005-04-29 | 2008-06-24 | O2 Micro International Limited | Robust and economic solution for FPGA bitfile upgrade |
| JP4955585B2 (ja) * | 2008-02-18 | 2012-06-20 | エヌイーシーコンピュータテクノ株式会社 | コンピュータシステム、情報処理方法及びプログラム |
| US8155897B2 (en) * | 2008-12-16 | 2012-04-10 | Advantest Corporation | Test apparatus, transmission system, program, and recording medium |
| JP5509730B2 (ja) | 2009-08-26 | 2014-06-04 | 日本電気株式会社 | フォールトトレラントコンピュータ及び電源制御方法 |
| TWI510917B (zh) | 2009-11-18 | 2015-12-01 | Insyde Software Corp | 伺服器管理系統及其方法 |
| CN102479141A (zh) * | 2010-11-30 | 2012-05-30 | 英业达股份有限公司 | 监控上电自检信息的处理系统 |
| JP5561622B2 (ja) * | 2011-09-27 | 2014-07-30 | 日本電気株式会社 | 多重化システム、データ通信カード、状態異常検出方法、及びプログラム |
| US9229839B2 (en) * | 2013-01-09 | 2016-01-05 | Microsoft Technology Licensing, Llc | Implementing rate controls to limit timeout-based faults |
| US20140201578A1 (en) * | 2013-01-11 | 2014-07-17 | Apple Inc. | Multi-tier watchdog timer |
| TWI493458B (zh) | 2013-04-22 | 2015-07-21 | Acer Inc | 電腦裝置及其重開機方法 |
| WO2015042925A1 (zh) * | 2013-09-29 | 2015-04-02 | 华为技术有限公司 | 服务器的控制方法和服务器的控制设备 |
| CN104679200B (zh) * | 2013-11-28 | 2017-06-20 | 英业达科技有限公司 | 服务器系统及其通电后运作时序的控制方法 |
| KR102413537B1 (ko) * | 2014-05-16 | 2022-06-27 | 어플라이드 메디컬 리소시스 코포레이션 | 전기수술용 시스템 |
| US10114438B2 (en) * | 2014-08-04 | 2018-10-30 | Dell Products, Lp | Dynamic power budgeting in a chassis |
| TWI530778B (zh) | 2014-12-02 | 2016-04-21 | 營邦企業股份有限公司 | 具有自動重置功能的機櫃及其自動重置方法 |
| US9846617B2 (en) | 2015-05-07 | 2017-12-19 | Dell Products, Lp | System and method for self-healing basic input/output system boot image and secure recovery |
| KR20170029929A (ko) * | 2015-09-08 | 2017-03-16 | 현대자동차주식회사 | 차량 네트워크의 통신 노드에 대한 적합성 검사 방법 |
| US10127095B2 (en) * | 2015-11-04 | 2018-11-13 | Quanta Computer Inc. | Seamless automatic recovery of a switch device |
| US10346271B2 (en) | 2015-12-28 | 2019-07-09 | Quanta Computer Inc. | Manage power supply units and modularized automatic transfer switches |
| US20170269984A1 (en) | 2016-03-18 | 2017-09-21 | Qualcomm Incorporated | Systems and methods for improved detection of processor hang and improved recovery from processor hang in a computing device |
| US10310575B2 (en) * | 2016-08-23 | 2019-06-04 | Dell Products, L.P. | Virtual AC cycling within an information handling system |
-
2018
- 2018-04-03 US US15/944,139 patent/US10846160B2/en active Active
- 2018-07-31 TW TW107126547A patent/TWI684859B/zh active
- 2018-08-15 CN CN201810929125.0A patent/CN110032462A/zh active Pending
- 2018-09-04 EP EP18192443.2A patent/EP3511831A1/en not_active Withdrawn
- 2018-09-13 JP JP2018171266A patent/JP6686266B2/ja active Active
Patent Citations (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US20110004780A1 (en) * | 2009-07-06 | 2011-01-06 | Yutaka Hirata | Server system and crash dump collection method |
| CN104598329A (zh) * | 2015-02-12 | 2015-05-06 | 浪潮电子信息产业股份有限公司 | 一种基于rmc管理的自动bmc故障解决方法 |
| CN105224049A (zh) * | 2015-09-24 | 2016-01-06 | 浪潮电子信息产业股份有限公司 | 一种防止bmc失效后服务器系统过热的方法 |
| TW201714085A (zh) * | 2015-10-02 | 2017-04-16 | 緯創資通股份有限公司 | 監測伺服器的方法、監測裝置及監測系統 |
| CN107145428A (zh) * | 2017-05-26 | 2017-09-08 | 郑州云海信息技术有限公司 | 一种服务器及服务器监控方法 |
Also Published As
| Publication number | Publication date |
|---|---|
| CN110032462A (zh) | 2019-07-19 |
| US20190220340A1 (en) | 2019-07-18 |
| TW201931117A (zh) | 2019-08-01 |
| EP3511831A1 (en) | 2019-07-17 |
| JP2019125339A (ja) | 2019-07-25 |
| JP6686266B2 (ja) | 2020-04-22 |
| US10846160B2 (en) | 2020-11-24 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| TWI684859B (zh) | 遠端系統復原之方法 | |
| TWI644259B (zh) | 計算機實施方法、系統、以及非暫時性計算機可讀儲存媒體 | |
| TWI659301B (zh) | 於一伺服器系統中動態調整最大風扇負載 | |
| EP3255527B1 (en) | Remote keyboard-video-mouse technologies | |
| US10031736B2 (en) | Automatic system software installation on boot | |
| JP6864718B2 (ja) | ハイブリッド電源のシステム及び方法 | |
| US10533563B2 (en) | Management of multiple fan modules | |
| TW202113591A (zh) | 用於電腦裝置的可靠啟動系統 | |
| CN107170474A (zh) | 可扩展存储盒、计算机实施方法以及计算机可读存储装置 | |
| CN102999362A (zh) | 一种修改bios启动项顺序的方法 | |
| TWI634434B (zh) | 在資料中心自動組成資料中心資源的電腦實施方法 | |
| TWI652919B (zh) | 自動組合資料中心資源的方法及自動組合資料中心資源的系統 |