[go: up one dir, main page]

TW201502806A - 針對另一系統韌體域中具有邏輯處理器之刀鋒式裝置的錯誤協調訊息技術 - Google Patents

針對另一系統韌體域中具有邏輯處理器之刀鋒式裝置的錯誤協調訊息技術 Download PDF

Info

Publication number
TW201502806A
TW201502806A TW103110499A TW103110499A TW201502806A TW 201502806 A TW201502806 A TW 201502806A TW 103110499 A TW103110499 A TW 103110499A TW 103110499 A TW103110499 A TW 103110499A TW 201502806 A TW201502806 A TW 201502806A
Authority
TW
Taiwan
Prior art keywords
error
processor
sfw
blade
blade device
Prior art date
Application number
TW103110499A
Other languages
English (en)
Other versions
TWI560557B (en
Inventor
Derek Schumacher
Sylvia K Myer
Russ W Herrell
Original Assignee
Hewlett Packard Development Co
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hewlett Packard Development Co filed Critical Hewlett Packard Development Co
Publication of TW201502806A publication Critical patent/TW201502806A/zh
Application granted granted Critical
Publication of TWI560557B publication Critical patent/TWI560557B/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0709Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a distributed system consisting of a plurality of standalone computer nodes, e.g. clusters, client-server systems
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0712Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a virtual computing platform, e.g. logically partitioned systems
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • G06F11/0778Dumping, i.e. gathering error/state information after a fault for later diagnosis
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • G06F11/0784Routing of error reports, e.g. with a specific transmission path or data flow

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Mathematical Physics (AREA)
  • Computer Hardware Design (AREA)
  • Debugging And Monitoring (AREA)
  • Hardware Redundancy (AREA)

Abstract

此處揭示之實施例係有關於針對具有一邏輯處理器在另一系統韌體(SFW)域的一刀鋒式裝置之一錯誤協調訊息。實施例包括一刀鋒式系統之一分區以利用含個別邏輯處理器在不同SFW域操作的刀鋒式裝置而跑一作業系統(OS)。實施例進一步包括一藉該等刀鋒式裝置中之一者而為該等刀鋒式裝置中之另一者所可用的一錯誤協調訊息。

Description

針對另一系統韌體域中具有邏輯處理器之刀鋒式裝置的錯誤協調訊息技術
本發明係有關於針對另一系統韌體域中具有邏輯處理器之刀鋒式裝置的錯誤協調訊息技術。
發明背景
刀鋒式系統可包括安裝於一刀鋒式包圍體中的多個刀鋒式裝置。例如該等刀鋒式裝置各自可具有一刀鋒式伺服器。於若干實施例中,一使用者可設定該刀鋒式系統之一分區包括安裝於該刀鋒式包圍體中的該等刀鋒式裝置中之一者、數者、或全部。於此等實施例中,該分區可跑一作業系統(OS)及以該OS跑應用程式。
依據本發明之一實施例,係特地提出一種以包含指令之管理韌體編碼之非過渡機器可讀取儲存媒體,該等指令可藉一第一刀鋒式裝置之一第一服務處理器執行以:從該第一刀鋒式裝置之一第一邏輯處理器獲得一錯誤協調訊息,指示於一刀鋒式系統之一分區中偵測得一錯誤:及 透過一第二刀鋒式裝置之一第二服務處理器使得該錯誤協調訊息為該第二刀鋒式裝置之一第二邏輯處理器所可利用,其中該等第一及第二邏輯處理器係將於不同系統韌體(SFW)域操作,及該分區係跑一作業系統(OS)以利用與該第一邏輯處理器相聯結的該第一刀鋒式裝置之記憶體及與該第二邏輯處理器相聯結的該第二刀鋒式裝置之記憶體。
100、300‧‧‧刀鋒式系統
108、308‧‧‧分區
110‧‧‧分區管理器
115‧‧‧作業系統(OS)
120‧‧‧機器可讀取儲存媒體
121、321‧‧‧管理韌體
122、124、322、324、372、374、382、384‧‧‧指令
130、140、330、340‧‧‧刀鋒式裝置
132、142、332、342‧‧‧邏輯處理器
134、144、334、344‧‧‧記憶體
150、170、350、370‧‧‧服務處理器
152、172、352、372‧‧‧服務記憶體
160、162、360、362‧‧‧系統韌體(SFW)域
190、192、392‧‧‧錯誤協調訊息
305‧‧‧刀鋒式包圍體
320、370、380‧‧‧韌體記憶體
331、341‧‧‧記憶體控制器
365‧‧‧偵錯管理基礎架構(FMI)
371、381‧‧‧SFW案例
376、386‧‧‧錯誤處理器
394、396‧‧‧錯誤資訊
400、500‧‧‧方法
405-430、505-550‧‧‧操作
後文詳細說明部分參考附圖,附圖中:圖1為刀鋒式系統實施例之方塊圖以提供一錯誤協調訊息給於另一系統韌體(SFW)域具有一邏輯處理器的另一刀鋒式裝置;圖2為圖1之刀鋒式系統實施例之另一方塊圖;圖3為系統應答於接收一錯誤協調訊息而使用邏輯處理器收集錯誤資訊之一實施例之方塊圖;圖4為用以透過服務處理器提供一錯誤協調訊息給於另一系統韌體(SFW)域中具有另一邏輯處理器的另一刀鋒式裝置之方法實施例之流程圖;及圖5為使用個別錯誤處理器收集於不同SFW域中操作的邏輯處理器之錯誤資訊之方法實施例之流程圖。
較佳實施例之詳細說明
如前記,刀鋒式系統之一分區可跑作業系統(OS)及使用OS跑應用程式。執行該OS之該分區可包括多個刀鋒式裝置,各自包括邏輯處理器及記憶體。各個邏輯處理器 可包括於一積體電路(IC)(例如晶片)上。包括至少一個中央處理單元(CPU)之一IC於此處可稱作為一「CPU IC」。於若干實施例中,除了邏輯處理器之外,一CPU IC可包括至少一個集積式記憶體控制器以管理該刀鋒式裝置之記憶體。於此等實施例中,一CPU IC之一記憶體控制器能夠管理相當有限量的記憶體,其可限制於一刀鋒式裝置上可用的記憶體量,及如此限制分區中之記憶體量。
藉增加額外刀鋒式裝置至一分區,可增加更多記憶體至該分區。但針對由該OS跑的某些應用程式,授權成本可能根據該應用程式可用的邏輯處理器之數目運算。如此,增加刀鋒式裝置至一分區由於該增加的刀鋒式裝置之邏輯處理器之可利用性,可能實質上增加了某些應用程式的授權成本。
因此,於若干實施例中,以分別地包括第一及第二邏輯處理器的擴充及運算刀鋒式裝置,一刀鋒式系統之一分區可執行一OS,其中該等第一及第二邏輯處理器係將於不同系統韌體(SFW)域操作。藉將該等第一及第二邏輯處理器置於不同SFW域,及不識別該第一邏輯處理器給該OS,此等實施例許可該分區的該OS以利用該擴充刀鋒式裝置之記憶體,同時該第一邏輯處理器為該OS或由該OS跑的應用程式所不可利用。如此,此處揭示之實施例許可一分區使用一擴充刀鋒式裝置之記憶體跑一OS及應用程式,而該擴充刀鋒式裝置之邏輯處理器不增加應用程式授權費用。但因該等第一及第二邏輯處理器於不同SFW域操作, 該等邏輯處理器不可能瞭解於其它SFW域中可見的錯誤及中斷。
為了解決此等問題,此處揭示之實施例可提供可由第一刀鋒式裝置之第一邏輯處理器執行的管理韌體(亦即機器可讀取指令)以從該第一刀鋒式裝置之邏輯處理器獲得一錯誤協調訊息指示於該分區中檢測得一錯誤,及透過一第二刀鋒式裝置之一第二服務處理器使得該錯誤協調訊息為該第二刀鋒式裝置之邏輯處理器為可用,於該處該等第一及第二刀鋒式裝置之該等邏輯處理器係將於不同SFW域操作。藉此方式,此處揭示之實施例可通訊有關在不同SFW域操作的一分區之不同刀鋒式裝置之邏輯處理器間的錯誤以協助錯誤應答動作之協調,諸如錯誤資訊之收集。
現在參考附圖,圖1為刀鋒式系統100實施例之方塊圖以提供一錯誤協調訊息給於另一SFW域具有一邏輯處理器的另一刀鋒式裝置。於此處描述的實施例中,一刀鋒式系統可為包含一刀鋒式包圍體至安裝於該刀鋒式包圍體中之至少一者刀鋒式裝置之運算系統。刀鋒式系統100可包含各自安裝於刀鋒式系統100之一刀鋒式包圍體中的刀鋒式裝置130及140。刀鋒式系統100可使用刀鋒式裝置130及140各自之資源跑OS 115。例如,OS 115可藉包括至少刀鋒式裝置130及140的刀鋒式系統100之一分區108跑。於若干實施例中,刀鋒式系統100及分區108例如可包括額外資源,諸如圖2中之例示。刀鋒式系統100之特性件也可關係 圖2描述如下,此乃圖1之刀鋒式系統100實施例的另一方塊圖。
如此處使用,「刀鋒式裝置」可為包含記憶體及至少一個邏輯處理器且可安裝至一刀鋒式包圍體之一實體運算裝置。於若干實施例中,刀鋒式裝置可能模組運算裝置,其為實體上可安裝至一刀鋒式包圍體用於操作,其包括某些核心運算資源(例如CPU IC及記憶體),及排除某些實體周邊運算資源(例如電源供應器、冷卻扇、外部網路埠等或其組合)。如此處使用,「刀鋒式包圍體」可為一機架以容納多個刀鋒式裝置,及提供針對所容納刀鋒式裝置之至少一個周邊資源。舉例言之,一刀鋒式包圍體可包括風扇以冷卻所安裝的刀鋒式裝置,至少一個電源供應器以供電給所安裝的刀鋒式裝置,針對所安裝的刀鋒式裝置之外部網路埠等或其組合。
刀鋒式裝置130可包括一服務處理器150及編碼含指令122及124的管理韌體121之機器可讀取儲存媒體120。於若干實施例中,管理韌體121可包括額外指令。如此處使用,「機器可讀取儲存媒體」可為任何電子、磁性、光學、或其它實體儲存裝置以含有或儲存資訊,諸如可執行指令、資料等。舉例言之,此處描述的任何機器可讀取儲存媒體可為隨機存取記憶體(RAM)、唯讀記憶體(ROM)、依電性記憶體、非依電性記憶體、快閃記憶體、儲存裝置驅動裝置(例如硬碟機)、固態驅動裝置、任何型別的儲存碟(例如光碟-唯讀記憶體(CD-ROM)、任何其它型別 的光碟、DVD等)等或其組合中之任一者。又,此處描述的任何機器可讀取儲存媒體可為非過渡。此處描述的任何「記憶體」可為至少一個機器可讀取儲存媒體之至少一部分。又,此處描述的任何機器可讀取儲存媒體可為非過渡。此處描述的任何「記憶體」可為可為至少一個機器可讀取儲存媒體之至少一部分。
管理韌體121之指令可藉服務處理器150執行以從事後文關聯管理韌體121之指令描述的功能。服務處理器150可提取、解碼、與執行儲存於儲存媒體120上的指令。於此處描述之實施例中,一服務處理器可為CPU、以半導體為基礎之微處理器、適用於提取及執行儲存於機器可讀取儲存媒體上的指令之其它電子電路、或其組合中之至少一者。儲存媒體120可為儲存管理韌體121之一ROM。於若干實施例中,管理韌體121可為欲藉刀鋒式裝置130的服務處理器150跑之中央電子複雜(CEC)韌體。於此等實施例中,管理韌體121可於此處稱作為刀鋒式裝置130之一管理韌體案例。
於若干實施例中,分區108各自的刀鋒式裝置可包括至少一個服務處理器以執行個別管理韌體案例(例如個別CEC韌體案例)。於此等實施例中,各個刀鋒式裝置可執行其管理韌體案例(亦即機器可讀取指令)。舉例言之,刀鋒式裝置140可包括與服務處理器150通訊的一服務處理器170,及記憶體以儲存可由服務處理器170執行以從事後文關聯服務處理器170描述的功能之另一管理韌體案例(例如 個別CEC韌體案例)的指令。
此外,刀鋒式裝置130可包括一邏輯處理器132及與邏輯處理器132相聯結的記憶體134,及刀鋒式裝置140可包括一邏輯處理器142及與邏輯處理器142相聯結的記憶體144。如此處使用,一「邏輯處理器」可為一CPU IC、一CPU IC上之一CPU(例如在一多核心CPU IC上之多個核心中之一者)、或一CPU IC上之一CPU(或核心)上之執行緒。於若干實施例中,刀鋒式裝置130及140例如可包括額外資源,諸如圖2中之例示者。於若干實施例中,刀鋒式裝置130可包括多個邏輯處理器,其中之部分或全部具有相聯結的記憶體。又,於若干實施例中,刀鋒式裝置140可包括多個邏輯處理器,其中之部分或全部具有相聯結的記憶體。
如此處使用,與一邏輯處理器「相聯結的」記憶體(或邏輯處理器之「相聯結的」記憶體)乃由集積在含或組成該邏輯處理器之CPU IC上的一記憶體控制器管理的記憶體。舉例言之,含與一邏輯處理器相聯結的記憶體之一刀鋒式裝置可包含至少一個記憶體模組,及一CPU IC包括至少一個邏輯處理器(例如CPU或核心)及至少一個整合式記憶體控制器以管理該(等)記憶體模組。於若干實施例中,一刀鋒式裝置可包括多個CPU IC,各自包括至少一個整合式記憶體控制器以管理該刀鋒式裝置之記憶體模組。如此處使用,一記憶體模組可為例如雙排型記憶體模組(DIMM)、單排型記憶體模組(SIMM)、或包括多個記憶體裝置之任何其它型別的記憶體模組。
此外,刀鋒式裝置130可包括含可由邏輯處理器132執行的指令之以一第一SFW案例編碼之另一機器可讀取儲存媒體,及刀鋒式裝置140可包括含可由邏輯處理器142執行的指令之以一第二SFW案例編碼之另一機器可讀取儲存媒體。如此處使用,「系統韌體案例」(或「SFW案例」)可為一集合之機器可執行指令以啟動與管理一刀鋒式裝置之資源。舉例言之,於復置之後,一刀鋒式裝置之邏輯處理器可開始執行SFW案例之指令以啟動邏輯處理器操作,及啟動刀鋒式裝置之其它資源,諸如與邏輯處理器相聯結的記憶體。於若干實施例中,此種邏輯處理器及相聯結的記憶體之啟動可包括由SFW案例所具現的開機自檢(POST)。
SFW案例之指令當由邏輯處理器執行時也可組配邏輯處理器以於與SFW案例相聯結的SFW域中操作。如此處使用,與一SFW案例相聯結的「系統韌體域」(或「SFW域」)可為於啟動後當執行SFW案例之指令時,其中可操作可由SFW案例啟動之一邏輯處理器的一環境。於若干實施例中,一SFW域可包括多個SFW資源,包括例如SFW資料結構及SFW碼(亦即機器可執行指令)。如此處使用,操作為SFW域之部分的一邏輯處理器可為具有存取SFW域之SFW資源的一邏輯處理器。於若干實施例中,SFW域之SFW資源(例如SFW資料結構及SFW碼)可儲存於針對SFW域之一系統管理記憶體區域(例如SMRAM)。於此等實施例中,操作為SFW域部分的一邏輯處理器可為具有存取儲存於針對 SFW域之該系統管理記憶體區域中之SFW資源的一邏輯處理器。
操作為SFW域部分的一邏輯處理器可能不隨時存取於該系統管理記憶體區域中之SFW資源。反而,該邏輯處理器可於某些時間(例如啟動期間)於某個(某些)模式(例如系統管理模式(SMM))等存取。於此處描述的實施例中,具有如此有限存取的一邏輯處理器仍可視為於該系統管理記憶體區域中具有存取該等SFW資源。於若干實施例中,該系統管理記憶體區域可為安裝於一刀鋒式包圍體中的至少一個刀鋒式裝置之一機器可讀取儲存媒體之至少一部分,及包括具有存取該區的邏輯處理器。
SFW資料結構例如可包括高階組態及功率介面(ACPI)表、系統管理BIOS(SMBIOS)表、記憶體資料結構、中斷向量、號誌等或其組合。SFW資料結構可藉執行SFW案例指令之邏輯處理器而生成及儲存於該系統管理記憶體區域中。SFW碼可包括具現中斷服務常式之可執行指令,諸如系統管理中斷(SMI)處理器等。SFW碼可包括具現錯誤處理器之可執行指令。SFW碼可為複製入系統管理記憶體區域內的SFW案例之指令。
於圖1之實施例中,邏輯處理器132及142可藉使用不同SFW案例啟動而經組配以操作為不同SFW域之部分。舉例言之,邏輯處理器132可經組配以藉使用第一SFW案例之指令啟動邏輯處理器132而操作為與該第一SFW案例相聯結的第一SFW域160部分,及邏輯處理器142可經組 配以藉使用第二SFW案例之指令啟動邏輯處理器142而操作為與該第二SFW案例相聯結的第二SFW域162部分。於此處描述的實施例中,操作為不同SFW域之部分的邏輯處理器可為經組配以存取於不同系統管理記憶體區域(例如不同SMRAM區域)中的不同SFW資源。於此等實施例中,組配以操作為SFW域中之一者的部分的邏輯處理器可不存取SFW域中之另一者的任何SFW資源。
舉例言之,組配以操作為SFW域160之部分的邏輯處理器132可存取(例如於SMM)儲存於第一系統管理記憶體區域(例如SMRAM)中的針對SFW域160之第一SFW資源,而可不存取儲存於第二系統管理記憶體區域(例如SMRAM)中的針對SFW域162之第二SFW資源。於此等實施例中,組配以操作為SFW域162之部分的邏輯處理器142可存取(例如於SMM)儲存於第二系統管理記憶體區域(例如SMRAM)中的針對SFW域162之第二SFW資源,而可不存取儲存於第一系統管理記憶體區域中的針對SFW域160之第一SFW資源。例如第一SFW案例之指令可組配邏輯處理器132的硬體位址對映圖,使得邏輯處理器132係存取儲存於第一系統管理記憶體區域(例如SMRAM)中的針對SFW域160之第一SFW資源,而第二SFW案例之指令可組配邏輯處理器142的硬體位址對映圖,使得邏輯處理器142可不存取儲存於第二系統管理記憶體區域中的針對SFW域162之第二SFW資源。
在刀鋒式系統100之至少一部分復置(例如分區 108復置)之後,邏輯處理器132可執行第一SFW案例之指令以組配邏輯處理器132以操作為SFW域160之部分,及邏輯處理器142可執行第二SFW案例之指令以組配邏輯處理器142以操作為SFW域162之部分。當執行第一SFW案例之指令時,邏輯處理器132也可識別可用於由OS 115使用的與邏輯處理器132相聯結的記憶體134之至少一部分。又,當執行第二SFW案例之指令時,邏輯處理器142也可識別可用於由OS 115使用的與邏輯處理器142相聯結的記憶體144之至少一部分。
於若干實施例中,分區108之一主宰邏輯處理器(例如自我啟動邏輯處理器)可負責協調分區108的啟動以運轉OS 115。於此等實施例中,主宰邏輯處理器(例如邏輯處理器132或142)可由OS 115使用記憶體134及144之已識別部分。舉例言之,主宰邏輯處理器可儲存經識別的記憶體之描述於可由OS 115存取的分區108之記憶體之一區域。該描述可呈任何合宜格式或資料結構(例如表等),諸如至少一個ACPI表。
於若干實施例中,主宰邏輯處理器也可諸如藉識別ACPI表中之資源,使得OS 115可利用刀鋒式裝置130或刀鋒式裝置140的其它資源,諸如刀鋒式裝置130或140的邏輯處理器。舉例言之,分區108之OS 115可利用分區108之運算及擴充刀鋒式裝置之記憶體及運算刀鋒式裝置之至少一個邏輯處理器,而擴充刀鋒式裝置之邏輯處理器為無法由OS 115使用。藉此方式,擴充刀鋒式裝置可給分區增加記 憶體而其邏輯處理器不增加授權費用。於此等實施例中,主宰邏輯處理器可使用運算刀鋒式裝置之邏輯處理器為OS 115所可資利用(例如藉於ACPI表中識別之),而不識別擴充刀鋒式裝置之邏輯處理器給OS 115(例如於ACPI表)。
於若干實施例中,刀鋒式裝置130及140中之一者可為擴充刀鋒式裝置,而另一者為運算刀鋒式裝置。於此處描述的實施例中,擴充刀鋒式裝置可為分派以提供記憶體由含刀鋒式裝置的一分區之一OS使用的刀鋒式裝置,但非提供邏輯處理器。於此處描述的實施例中,運算刀鋒式裝置可為分派以提供記憶體及邏輯處理器供由一分區之OS含刀鋒式裝置使用。於若干實施例中,一分區之各個刀鋒式裝置可被分派為描述該分區組態之各面向的分區資訊中之一擴充或運算刀鋒式裝置。
刀鋒式裝置130及140之資源(含至少刀鋒式裝置130及140之經識別的記憶體)變成為OS 115所可用之後,OS 115利用對OS 115經識別的資源(例如於ACPI表中)可在分區108上執行。舉例言之,若刀鋒式裝置130被指定為擴充刀鋒式裝置及刀鋒式裝置140被指定為運算刀鋒式裝置,OS 115利用刀鋒式裝置130及140之經識別的可用記憶體及至少邏輯處理器142可執行及跑應用程式,而邏輯處理器132為OS 115或OS 115所跑的任何應用程式所無法利用。於其它實施例中,若刀鋒式裝置130及140係分別地指定為運算及擴充刀鋒式裝置,則OS 115利用刀鋒式裝置130及140之經識別的可用記憶體及至少邏輯處理器132可執行及跑應 用程式,而邏輯處理器142為OS 115或OS 115所跑的任何應用程式所無法利用。
如前文描述在開始跑OS 115之後,邏輯處理器132可偵知在分區108中的錯誤。例如,邏輯處理器132可以任何合宜方式偵知在分區108之刀鋒式裝置130的錯誤。例如,邏輯處理器132藉由應答於接收中斷等而偵知刀鋒式裝置130上的錯誤指示,可在與分區108的其它資源(例如記憶體134或144)互動中偵測錯誤。應答於檢測得錯誤,邏輯處理器132可生成一錯誤協調訊息190。於若干實施例中,錯誤協調訊息190可識別於分區108中由邏輯處理器132所偵測的錯誤型別,及至少一個錯誤應答動作。
於錯誤協調訊息190中可識別的錯誤型別之實施例可包括例如可校正錯誤、不可校正錯誤、致命錯誤、或任何其它合宜錯誤型別。於錯誤協調訊息190中可識別的錯誤應答動作實施例可包括錯誤資訊收集及復置中之至少一者。舉例言之,於錯誤協調訊息190中識別的錯誤應答動作可包括錯誤資訊收集、錯誤資訊收集接著復置、或復置接著錯誤資訊收集。
當執行管理韌體121之指令122時,服務處理器150可從邏輯處理器132被動地或主動地獲取(亦即接收、取回等)訊息190。又,訊息190可直接地或間接地獲得。舉例言之,如圖2例示,指令122可透過刀鋒式裝置130之一服務記憶體152間接地獲取訊息190,邏輯處理器132及服務處理器150兩者可存取該服務記憶體152。於此等實施例中,指 令122可透過利用以在邏輯處理器132與服務處理器150間傳送訊息的服務記憶體152中之一緩衝器而從邏輯處理器132獲得錯誤協調訊息190。
指令124當藉服務處理器150執行時可透過刀鋒式裝置140之服務處理器170讓錯誤協調訊息190變成為刀鋒式裝置140之邏輯處理器142為可資利用。舉例言之,如圖2例示,指令124可透過針對分區108的一分區管理器110而提供訊息190給服務處理器170。於此等實施例中,指令124當藉服務處理器150執行時可提供訊息190給分區管理器110,其可提供訊息190給服務處理器170。
於此處描述的實施例中,針對分區的一分區管理器可為與該分區之個別刀鋒式裝置的管理韌體案例合作而負責該分區之協調管理的一實體。分區管理器之功能可以電子電路形式、以編碼於機器可讀取儲存媒體上的可執行指令形式、或其組合具現。舉例言之,一分區管理器可藉可由該分區的至少一個服務處理器可執行的該分區的一主宰CEC韌體案例具現。
再度參考圖1,於其它實施例中,執行指令124的服務處理器150可直接地提供錯誤協調訊息190給服務處理器170(亦即未經由分區管理器110發送訊息190給服務處理器170)。於此等實施例中,指令124當藉服務處理器150執行時可決定分區108的多個SFW域。舉例言之,指令124可基於由分區108之分區管理器(例如圖2之分區管理器110)提供給服務處理器150的分區資訊而決定多個SFW域。於若 干實施例中,例如分區資訊可識別啟動後於分區108的SFW域為作用態。舉例言之,指令可決定邏輯處理器132及142的SFW域160及162於分區108分別為作用態。
於此等實施例中,應答於錯誤協調訊息190的獲取,指令124可識別從其中接收訊息190的邏輯處理器132之SFW域160以外的所決定之SFW域中之至少一者。舉例言之,指令124可識別SFW域162,其係與邏輯處理器132之SFW域160不同。
於此等實施例中,指令124可提供錯誤協調訊息190給分區108之各個刀鋒式裝置的個別服務處理器,含於所識別的SFW域中之任一者操作的邏輯處理器。舉例言之,指令124可提供訊息190給刀鋒式裝置140之服務處理器170,其包括經組配以於所識別的SFW域162中操作。藉此方式,指令124可提供訊息190給刀鋒式裝置,該刀鋒式裝置具有邏輯處理器其係於偵知錯誤的該SFW域以外的不同SFW域中操作。
服務處理器170可讓所接收的錯誤協調訊息190可供邏輯處理器142利用,故應答於訊息190可採取適當動作。舉例言之,當執行與SFW域162相聯結的第二SFW案例之指令時,邏輯處理器142可執行於訊息190中識別的錯誤應答動作。其中於訊息190中識別的錯誤應答動作包括錯誤資訊之收集之實施例中,邏輯處理器142可執行第二SFW案例之指令以從與邏輯處理器142相聯結的暫存器收集錯誤資訊。
舉例言之,邏輯處理器142可從包含(或組成)邏輯處理器142的一CPU IC的機器狀態暫存器(MSR)收集錯誤資訊(例如錯誤日誌等)。於此等實施例中,邏輯處理器142可進一步提供所收集的錯誤資訊給刀鋒式系統100之一偵錯管理基礎架構(FMI)。於若干實施例中,於訊息190中識別的錯誤應答動作也指出在錯誤資訊之收集之前或之後執行復置。於此等實施例中,邏輯處理器142執行第二SFW案例之指令可造成至少邏輯處理器142復置。於若干實施例中,可應答於隨後同步化通訊執行復置以協調橫過分區108的該等復置。
如前記,服務處理器170可使得所接收的錯誤協調訊息190為邏輯處理器142所可資利用。舉例言之,如圖2中之例示,於接收錯誤協調訊息190之後,服務處理器170可將訊息190儲存於服務處理器170及邏輯處理器142可存取的刀鋒式裝置140之一服務記憶體172內。於此等實施例中,服務記憶體172可用以在服務處理器170與邏輯處理器142間發送訊息。於其中刀鋒式裝置140為運算刀鋒式裝置之實施例中,邏輯處理器142可執行OS 115。於此等實施例中,訊息190儲存於服務記憶體172之後,服務處理器170可提供一系統管理中斷(SMI)給邏輯處理器142以使得邏輯處理器進入系統管理模式(SMM)及存取服務記憶體172中的訊息190。
於其它實施例中,刀鋒式裝置140可為一擴充刀鋒式裝置。於若干實施例中,除了無法由OS 115所利用之 外,一擴充刀鋒式裝置的各個邏輯處理器可處於SFW執行模式,其中當OS 115係藉一運算刀鋒式裝置的至少一個邏輯處理器執行時,該邏輯處理器係將執行一SFW案例之指令。於該SFW執行模式中,邏輯處理器可維持可用以執行SFW案例的其它SFW碼,諸如SMI處理器、錯誤處理器等。於其中刀鋒式裝置140作為擴充刀鋒式裝置之實施例中,於藉分區108執行OS期間,邏輯處理器142可於SFW執行模式。於此等實施例中,當於SFW執行模式中執行SFW案例之指令時,邏輯處理器142可輪詢服務記憶體172的錯誤協調訊息。於此等實施例中,在訊息190已經藉服務處理器170儲存於服務記憶體172之後,邏輯處理器142可存取服務記憶體172中的訊息190。
於若干實施例中,SFW執行模式可為系統管理模式(SMM)。於此處描述的實施例中,SMM可為一種模式,其中邏輯處理器執行該邏輯處理器係經組配以操作的該SFW域之SFW碼。於SMM中,邏輯處理器可存取其SFW域的系統管理記憶體區域(例如SMRAM)且可執行儲存於該區域(例如區域110)的SFW碼。又,於SMM中,邏輯處理器保持可利用以執行其SFW域的SFW案例之指令,諸如SMI處理器、錯誤處理器等之指令。於其它實施例中,SFW執行模式可為任何合宜狀態,其中一分區之一邏輯處理器係執行SFW案例之碼(例如碼具現一回路),使得其維持可資利用以執行其它SFW碼,而該分區之其它邏輯處理器係正在執行OS。
於若干實施例中,當執行第二SFW案例之指令時,如前文關聯邏輯處理器132所述,邏輯處理器142可應答於偵測專一錯誤而生成一錯誤協調訊息192。例如圖2中之例示,邏輯處理器142可偵測於分區108之刀鋒式裝置140的錯誤,及提供訊息192給服務處理器170。於若干實施例中,藉將錯誤協調訊息192儲存於服務記憶體172,邏輯處理器142可提供訊息192給服務處理器170。
錯誤協調訊息192可識別一型檢測錯誤及錯誤應答動作中之至少一者。服務處理器170可獲得訊息192(例如存取服務記憶體172中之訊息192)及提供訊息給刀鋒式裝置130之服務處理器150。舉例言之,服務處理器170可透過分區管理器110提供訊息192給服務處理器150,如圖2中之例示,或如前文關聯訊息190之描述直接提供訊息(例如不經由分區管理器110)。
於此等實施例中,當執行指令122時,服務處理器150可主動地或被動地獲取錯誤協調訊息192指示從服務處理器170偵知分區108中的錯誤。執行指令122的服務處理器150然後可將錯誤協調訊息192儲存於邏輯處理器132可存取的服務記憶體152內。其中刀鋒式裝置130為運算刀鋒式裝置之實施例中,指令122可進一步提供SMI給邏輯處理器132(由OS 115所使用),以使得邏輯處理器132存取訊息192,及如前文描述,執行邏輯處理器132所識別的錯誤應答動作(例如藉執行第一SFW案例之指令)。其中刀鋒式裝置130為擴充刀鋒式裝置及邏輯處理器132係於SFW執行模式 之實施例中,如前文描述,藉輪詢服務記憶體152有關錯誤協調訊息作為SFW執行模式的一部分,邏輯處理器132可偵知於服務記憶體152中的訊息192。
於前文描述的實施例中,刀鋒式裝置可橫跨不同SFW域交換錯誤協調訊息以協調錯誤處理。舉例言之,其中刀鋒式裝置130為運算刀鋒式裝置及刀鋒式裝置140為擴充刀鋒式裝置之實施例中,由OS 115所可資使用的邏輯處理器132可偵測當利用刀鋒式裝置140之記憶體144時的記憶體錯誤。包括(或組成)邏輯處理器142之CPU IC的MSR可包括錯誤管理有用的資訊。但此等MSR可由CPU IC上的邏輯處理器(例如CPU或核心)所排它地存取,而例如不由邏輯處理器132存取。於此處描述的實施例中,刀鋒式裝置130可提供一錯誤協調訊息190給刀鋒式裝置140,及應答之,SFW域162之邏輯處理器142可收集得自MSR的錯誤資訊及提供給一FMI用以管理由邏輯處理器132偵知的錯誤。於其它實施例中,一錯誤協調訊息可用以使得一運算刀鋒式裝置之一邏輯處理器組配成於第一SFW域操作,應答於藉一擴充刀鋒式裝置之一邏輯處理器偵知一錯誤而收集錯誤資訊,及經組配以於第二SFW域操作。於若干實施例中,關聯圖1-2於此處描述的功能可組合關聯圖3-5中之任一者於此處描述的功能提供。
圖3為系統300應答於接收一錯誤協調訊息而使用邏輯處理器收集錯誤資訊之一實施例之方塊圖。於圖3之實施例中,系統300(例如刀鋒式系統300)包含一刀鋒式包圍 體305、及安裝於刀鋒式包圍體305內之刀鋒式裝置330及340。於其它實施例中,系統300可包括安裝於刀鋒式包圍體305中之更多或更少的刀鋒式裝置。
刀鋒式裝置330包含一邏輯處理器332、與邏輯處理器332相聯結的記憶體334、及管理記憶體334之一記憶體控制器331。記憶體控制器331及邏輯處理器332可整合成單一CPU IC。舉例言之,記憶體控制器331可整合於包含或組成邏輯處理器332的一CPU IC。於若干實施例中,包括邏輯處理器332及記憶體控制器331的該CPU IC也可包括額外記憶體控制器以管理刀鋒式裝置330之其它記憶體。於若干實施例中,刀鋒式裝置330可包括多個邏輯處理器,其中部分或全部具有相聯結的記憶體。刀鋒式裝置330可進一步包含儲藏(或否則編碼)包括指令372及374的一SFW案例371之一韌體記憶體370,及由SFW案例371之指令具現的一錯誤處理器376。在復置之後,SFW案例371之指令可組配邏輯處理器332以操作為一SFW域360的部分,如前文描述。SFW案例371之指令也可由邏輯處理器332執行以從事後述功能。
刀鋒式裝置340包含一邏輯處理器342、與邏輯處理器342相聯結的記憶體344、及管理記憶體344之一記憶體控制器341。記憶體控制器341及邏輯處理器342可整合成單一CPU IC。舉例言之,記憶體控制器341可整合於包含或組成邏輯處理器342的一CPU IC。於若干實施例中,包括邏輯處理器342及記憶體控制器341的該CPU IC也可包括額外記 憶體控制器以管理刀鋒式裝置340之其它記憶體。於若干實施例中,刀鋒式裝置340可包括多個邏輯處理器,其中部分或全部具有相聯結的記憶體。記憶體控制器331及341各自之功能可以電子電路形式、編碼於機器可讀取儲存媒體上的可執行指令形式、或其組合具現。
刀鋒式裝置340可進一步包含儲存(或否則編碼)包括指令382及384的一SFW案例381之一韌體記憶體380,及由SFW案例381之指令具現的一錯誤處理器386。在復置之後,SFW案例381之指令可組配邏輯處理器342以操作為與SFW域360相異的一SFW域362的部分,如前文描述。SFW案例381之指令也可由邏輯處理器342執行以從事後述功能。
刀鋒式裝置330可進一步包括一服務處理器350及儲存(或否則編碼)包括指令322及324的一管理韌體321之一韌體記憶體320。管理韌體321可為刀鋒式裝置330之CEC韌體之一案例。管理韌體321之指令可藉服務處理器350執行以從事關係管理韌體321之指令之後述功能。刀鋒式裝置330可進一步包括可存取服務處理器350及邏輯處理器332的服務記憶體352。
此外,刀鋒式裝置340可進一步包括一服務處理器370及可存取服務處理器370及邏輯處理器342的服務記憶體372。於若干實施例中,刀鋒式裝置340也可包括儲存管理韌體之一韌體記憶體(例如刀鋒式裝置340之一CEC韌體之一案例)。於此等實施例中,服務處理器370可執行管 理韌體之指令(亦即刀鋒式裝置340上之案例)以從事後文關聯服務處理器370描述之功能。
如前文關係圖1描述,刀鋒式系統300可使用刀鋒式裝置330及340各自之資源而跑OS 115。舉例言之,OS 115可藉刀鋒式系統300之包括至少刀鋒式裝置330及340的一分區308跑。於其它實施例中,分區308可包括架設於刀鋒式包圍體305的額外刀鋒式裝置。分區308可包括比安裝於刀鋒式包圍體305的全部刀鋒式裝置更少的刀鋒式裝置。於圖3之實施例中,如前文關聯圖1-2之描述,OS 115可利用刀鋒式裝置330及340各自之記憶體。舉例言之,OS 115可利用記憶體334之至少一部分及記憶體344之至少一部分。
如前文描述,於此等實施例中,分區308之一主宰處理器可使用記憶體334及記憶體344之個別部分為OS 115可資利用。於若干實施例中,刀鋒式裝置330及340中之一者可為運算邏輯處理器,而另一者為擴充邏輯處理器。於此等實施例中,主宰邏輯處理器也可讓運算刀鋒式裝置之邏輯處理器可由OS 115利用而非擴充刀鋒式裝置之邏輯處理器。
如前文描述,利用識別給OS 115的資源(例如於ACPI表),OS 115可於分區308上執行。舉例言之,若刀鋒式裝置330指定為擴充刀鋒式裝置及刀鋒式裝置340指定為運算刀鋒式裝置,則OS 115可利用刀鋒式裝置330及340之經識別為可用的記憶體及至少邏輯處理器342而執行應用程式與跑應用程式,邏輯處理器332乃OS 115或由OS 115所 跑的任何應用程式所不可利用。於其它實施例中,若刀鋒式裝置330及340係分別地指定為運算及擴充刀鋒式裝置,則OS 115可利用經識別為可用的刀鋒式裝置330及340之記憶體及至少邏輯處理器332執行與跑應用程式,而邏輯處理器342係為OS 115或由OS 115所跑的任何應用程式所無法利用。
OS 115如前文描述開始跑之後,由邏輯處理器342執行的指令382可以任一種適當方式檢測分區308內的錯誤。舉例言之,若刀鋒式裝置340為運算刀鋒式裝置,則應答於SMI,邏輯處理器342可偵測錯誤。其中刀鋒式裝置340為擴充刀鋒式裝置及刀鋒式裝置330為運算刀鋒式裝置之實施例中,於啟動處理期間,邏輯處理器342可執行SFW案例381之指令384以將邏輯處理器342置於SFW執行模式。如前文描述,邏輯處理器342可以SFW執行模式執行SFW案例381之指令,而OS 115係藉至少邏輯處理器332執行。於該SFW執行模式中,邏輯處理器342可執行指令382以輪詢錯誤指示、中斷指示或兩者。於此等實施例中,指令382可在輪詢之同時應答於一錯誤指示或中斷指示而檢測錯誤的出現。於若干實施例中,邏輯處理器可輪詢錯誤來源(例如暫存器等)之錯誤指示,及可輪詢中斷來源(例如中斷擱置暫存器等)之中斷指示。
應答於檢測得錯誤的出現,指令382可透過刀鋒式裝置340之服務處理器370,提供錯誤協調訊息392給刀鋒式裝置330之服務處理器350。舉例言之,指令382可將錯誤 協調訊息392儲存於服務記憶體372,服務處理器370從其中可獲得訊息392。於此等實施例中,如前文描述,服務處理器370可直接地或間接地(例如透過分區308之一分區管理器)提供錯誤協調訊息392給服務處理器350。
又應答於檢測得錯誤的出現,邏輯處理器342可執行SFW案例381之錯誤處理器386之指令以收集儲存於刀鋒式裝置340上之錯誤資訊且提供所收集的錯誤資訊394給刀鋒式系統300之一偵錯管理基礎架構(FMI)365。於若干實施例中,邏輯處理器342可收集來自包含(或組成)邏輯處理器342的CPU IC之MSR之錯誤資訊(例如錯誤日誌等)。FMI 365之功能可以電子電路形式、以編碼於機器可讀取儲存媒體上的可執行指令形式、或其組合具現。
於圖3之實施例中,刀鋒式裝置330之服務處理器350當執行管理韌體321之指令322時,可主動地或被動地獲取(亦即接收、取回等)由刀鋒式裝置340(亦即服務處理器370)所提供的錯誤協調訊息392。訊息392可描述由邏輯處理器342所檢測的錯誤。於此等實施例中,當執行指令324時,服務處理器350可儲存錯誤協調訊息392於邏輯處理器332可存取的服務記憶體352內。
當執行SFW案例371之指令372時,邏輯處理器332可檢測於服務記憶體352中之錯誤協調訊息392。其中刀鋒式裝置330為運算刀鋒式裝置之實施例中,於儲存訊息錯誤協調訊息392於服務記憶體352之後,服務處理器350可提供一SMI給邏輯處理器332,及應答於該SMI,邏輯處理器 332可檢測服務記憶體352中之訊息392。
其中刀鋒式裝置330為一擴充刀鋒式裝置之實施例中,於輪詢服務記憶體352之時,邏輯處理器332執行指令372可偵測錯誤協調訊息392。舉例言之,若刀鋒式裝置330為一擴充刀鋒式裝置及刀鋒式裝置340為一運算刀鋒式裝置,於啟動處理期間,邏輯處理器332可執行SFW案例371之指令374以將邏輯處理器332置於SFW執行模式。如前文描述,邏輯處理器332可以SFW執行模式執行SFW案例371之指令,同時OS 115係藉至少邏輯處理器342執行。於該SFW執行模式中,邏輯處理器332可執行指令372以輪詢服務記憶體352有關錯誤協調訊息,及藉此偵測服務記憶體352中之錯誤協調訊息392。
於若干實施例中,應答於訊息392之偵測,邏輯處理器332可基於訊息392之內容,執行錯誤處理器376之指令,及提供所收集的錯誤資訊396給刀鋒式系統300之FMI 365。於若干實施例中,邏輯處理器332可從包含(或組成)邏輯處理器332之CPU IC的MSR收集錯誤資訊(例如錯誤日誌等)。
於若干實施例中,錯誤協調訊息392可包括由邏輯處理器342偵知的錯誤型別之辨識。於此等實施例中,邏輯處理器332執行錯誤處理器376之指令可基於所識別的偵知錯誤型別而決定一錯誤應答動作。舉例言之,刀鋒式裝置330可存取一策略表,該策略表指示針對各型錯誤採行何種動作。於此等實施例中,邏輯處理器332可基於錯誤協調 訊息392中識別的錯誤型別而決定採取的錯誤應答動作。舉例言之,執行錯誤處理器376之指令的邏輯處理器332可決定對所識別的錯誤型別之適當回應係收集儲存在刀鋒式裝置330上之錯誤資訊。應答之,執行錯誤處理器376之指令的邏輯處理器332可如前文描述收集儲存在刀鋒式裝置330上之錯誤資訊(例如從包含或組成邏輯處理器332之一CPU IC的MSR)。
於其它實施例中,如前文描述,除了所偵測之錯誤型別之外,訊息392可識別欲執行的錯誤應答動作。於此等實施例中,執行錯誤處理器376之指令的邏輯處理器332可從事所識別的錯誤應答動作,諸如收集儲存在刀鋒式裝置330上之錯誤資訊,然後提供給FMI 365。於若干實施例中,關係圖3於此處描述之功能可組合此處關係圖1-2及4-5中之任一者描述的功能提供。
圖4為用以透過服務處理器提供一錯誤協調訊息給於另一系統韌體(SFW)域中具有另一邏輯處理器的另一刀鋒式裝置之方法400實施例之流程圖。雖然方法400之執行係如下參考圖3之刀鋒式系統300描述,但可利用其它用以執行方法400之合宜系統(例如刀鋒式系統100或200)。此外,方法400之具現並不限於此等實施例。
於方法400之405,分區308含刀鋒式裝置330及340利用與邏輯處理器332相聯結的刀鋒式裝置330之記憶體334之至少一部分及與邏輯處理器342相聯結的刀鋒式裝置340之記憶體344之至少一部分而跑OS 115。於此等實施 例中,邏輯處理器332可經組配以於SFW域360操作,及邏輯處理器342可經組配以於SFW域362操作。
於410,邏輯處理器342執行指令382可偵測於分區308中之一錯誤。於415,邏輯處理器342執行指令382可給服務處理器370提供一錯誤協調訊息392識別一型偵測錯誤及至少一個錯誤應答動作。於若干實施例中,邏輯處理器342可透過服務處理器370存取的一服務記憶體372而提供訊息392給服務處理器370。於此等實施例中,服務處理器370及邏輯處理器342可運用服務記憶體372之至少一部分作為訊息通過的緩衝器。
於420,如前文描述,刀鋒式裝置340之服務處理器370可直接地或間接地提供錯誤協調訊息392給刀鋒式裝置330之服務處理器350。於425,邏輯處理器332執行SFW案例371之指令372可偵測提供給服務處理器350的錯誤協調訊息392。舉例言之,如前文描述,於獲得訊息392之後,服務處理器350可將訊息392儲存於服務記憶體352,於該處可藉邏輯處理器332檢測。於430,邏輯處理器332執行錯誤處理器376之指令,可執行於錯誤協調訊息392中識別的錯誤應答動作。舉例言之,如前文描述,若錯誤資訊收集乃經識別的錯誤應答動作中之一者則邏輯處理器332可收集錯誤資訊。
雖然圖4之流程圖顯示某些功能執行之特定順序,但方法400並不限於該順序。例如,流程圖中接續顯示的功能可以不同順序執行,可併同執行或部分併同執行, 或其組合。於若干實施例中,關係圖4於此處描述之功能可組合關聯圖1-3及圖5中之任一者於此處描述之功能提供。
圖5為使用個別錯誤處理器收集於不同SFW域中操作的邏輯處理器之錯誤資訊之方法500實施例之流程圖。雖然方法500係參考圖3之刀鋒式系統300描述如下,但可利用其它合宜系統以執行方法500(例如刀鋒式系統100或200)。此外,方法500之具現並不限於此等實施例。
於方法500之505,在至少分區308之復置之後,SFW案例371之指令當藉邏輯處理器332執行時,可組配邏輯處理器332以操作為與SFW案例371相聯結的SFW域360之部分。又於505,於復置之後,SFW案例381之指令當藉邏輯處理器342執行時,可組配邏輯處理器342以操作為與SFW案例381相聯結的SFW域362之部分。於此等實施例中,在OS 115開始在分區308上跑之前,邏輯處理器332及342可經組配以分別地在SFW域360及362操作。
於510,邏輯處理器332及334中之一給定者可置於SFW執行模式,其中當OS 115係藉第一及第二邏輯處理器中之至少另一者執行時,給定邏輯處理器係執行SFW案例中之一者的指令。舉例言之,當藉邏輯處理器332執行時,指令374可決定刀鋒式裝置330為一擴充刀鋒式裝置,及應答之,可將邏輯處理器332置於SFW執行模式以執行SFW案例371之指令,同時OS 115係藉至少邏輯處理器342執行。於其它實施例中,當藉邏輯處理器342執行時,指令384可決定刀鋒式裝置340為一擴充刀鋒式裝置,及應答 之,可將邏輯處理器342置於SFW執行模式以執行SFW案例381之指令,同時OS 115係藉至少邏輯處理器332執行。
於515,分區308可利用與邏輯處理器332相聯結的刀鋒式裝置330之記憶體334之至少一部分及與邏輯處理器342相聯結的刀鋒式裝置340之記憶體344之至少一部分而跑OS 115。於若干實施例中,OS 115也可利用分區308之運算刀鋒式裝置之邏輯處理器。
於520,如前文描述,執行指令382之邏輯處理器342可偵測分區308中之一錯誤。於525,執行指令382之邏輯處理器342可給服務處理器370提供識別一型所偵測錯誤及至少一個錯誤應答動作的一錯誤協調訊息392。於若干實施例中,邏輯處理器342可透過服務處理器370存取的一服務記憶體372而提供訊息392給服務處理器370。
於530,如前文描述,刀鋒式裝置340之服務處理器370可提供錯誤協調訊息392給刀鋒式裝置330之服務處理器350。於535,執行SFW案例371之指令372的邏輯處理器332可偵測提供給服務處理器350的錯誤協調訊息392。舉例言之,於獲得訊息392之後,服務處理器350可儲存訊息392於服務記憶體352,如前文描述,於該處其可藉邏輯處理器332檢測。
於540,執行SFW案例381之錯誤處理器386之指令的邏輯處理器342可收集儲存於刀鋒式裝置340上的錯誤資訊394。於545,如前文描述,執行SFW案例371之錯誤處理器376之指令的邏輯處理器332可收集儲存於刀鋒式裝置 330上的錯誤資訊396。於此等實施例中,邏輯處理器332可基於錯誤協調訊息392之內容而收集錯誤資訊(例如所識別的錯誤應答動作之錯誤型別)。
於550,執行錯誤處理器386之指令的邏輯處理器342可應答於來自服務處理器370的一復置同步通訊而造成於刀鋒式裝置340的一復置。舉例言之,邏輯處理器342可應答於該復置同步通訊而復置其本身。也於550,執行錯誤處理器376之指令的邏輯處理器332可應答於來自服務處理器350的一復置同步通訊而造成於刀鋒式裝置330的一復置。舉例言之,邏輯處理器332可應答於該復置同步通訊而復置其本身。服務處理器350及370可應答於來自分區308之一分區管理器的復置同步通訊而提供復置同步通訊。於此等實施例中,於錯誤協調訊息392中識別的錯誤應答動作可包括一復置動作,及分區管理器可提供復置同步通訊給分區308之刀鋒式裝置以同步化分區308之各個刀鋒式裝置的復置。
雖然圖5之流程圖顯示某些功能執行之特定順序,但方法500並不限於該順序。例如,流程圖中接續顯示的功能可以不同順序執行,可併同執行或部分併同執行,或其組合。於若干實施例中,關係圖5於此處描述之功能可組合關聯圖1-4中之任一者於此處描述之功能提供。
100‧‧‧刀鋒式系統
108‧‧‧分區
115‧‧‧作業系統(OS)
120‧‧‧機器可讀取儲存媒體
121‧‧‧管理韌體
122、124‧‧‧指令
130、140‧‧‧刀鋒式裝置
132、142‧‧‧邏輯處理器
134、144‧‧‧記憶體
150、170‧‧‧服務處理器
160、162‧‧‧
190‧‧‧錯誤協調訊息

Claims (15)

  1. 一種以包含指令之管理韌體編碼之非過渡機器可讀取儲存媒體,該等指令可藉一第一刀鋒式裝置之一第一服務處理器執行以:從該第一刀鋒式裝置之一第一邏輯處理器獲得一錯誤協調訊息,指示於一刀鋒式系統之一分區中偵測得一錯誤:及透過一第二刀鋒式裝置之一第二服務處理器使得該錯誤協調訊息為該第二刀鋒式裝置之一第二邏輯處理器所可利用,其中該等第一及第二邏輯處理器係將於不同系統韌體(SFW)域操作,及該分區係跑一作業系統(OS)以利用與該第一邏輯處理器相聯結的該第一刀鋒式裝置之記憶體及與該第二邏輯處理器相聯結的該第二刀鋒式裝置之記憶體。
  2. 如請求項1之儲存媒體,其中該錯誤協調訊息識別於該分區中偵測得的該錯誤中之一型及至少一個錯誤應答動作。
  3. 如請求項2之儲存媒體,其中:該經識別的至少一個錯誤應答動作包含錯誤資訊收集及一刀鋒式裝置復置。
  4. 如請求項1之儲存媒體,其中使得可資利用的該等指令包含可由該第一服務處理器執行的指令以提供該錯誤協調訊息給該分區之一分區管理器,該分區管理器係提 供該錯誤協調訊息給該第二服務處理器。
  5. 如請求項1之儲存媒體,其中使得可資利用的該等指令包含可由該第一服務處理器執行的指令以:決定該分區之多個SFW域,包括該等第一及第二刀鋒式裝置之該等第一及第二邏輯處理器之該等個別SFW域;及應答於該錯誤協調訊息之獲取,識別該等SFW域中除了該第一邏輯處理器之該SFW域以外的至少一者;其中使得可資利用的該等指令包含可由該第一服務處理器執行的指令以提供該錯誤協調訊息給該分區之各個刀鋒式裝置之一個別服務處理器,包括於該至少一個經識別的SFW域中之任一者操作的一邏輯處理器。
  6. 如請求項1之儲存媒體,其中獲取指令進一步包含可藉該服務處理器執行的指令以:從該第二刀鋒式裝置之該第二服務處理器,獲取另一錯誤協調訊息指示於該分區中之另一錯誤之偵測;及將該另一錯誤協調訊息儲存於該第一刀鋒式裝置之可存取該第一邏輯處理器的一服務記憶體。
  7. 一種系統,其包含:第一韌體記憶體儲存一系統韌體(SFW)案例;一分區之一第一刀鋒式裝置之一第一邏輯處理器,該分區跑一作業系統(OS)以運用與該第一邏輯處理器相聯結的該第一刀鋒式裝置之記憶體及與一第二邏輯處理器相聯結的一第二刀鋒式裝置之記憶體,其中該 等第一及第二邏輯處理器係分別地於第一及第二SFW域操作;第二韌體記憶體儲存管理韌體;及該第一刀鋒式裝置之一服務處理器,其中該管理韌體包含可由該服務處理器執行的指令以:獲取由第二刀鋒式裝置提供的一錯誤協調訊息,描述藉該第二邏輯處理器可偵測之一錯誤;及儲存該錯誤協調訊息於該第一刀鋒式裝置之一服務記憶體;其中該SFW案例包含可由該第一邏輯處理器執行的指令以:偵測於該服務記憶體中之該錯誤協調訊息;及應答於該錯誤協調訊息之該偵測,收集儲存於該第一刀鋒式裝置之錯誤資訊。
  8. 如請求項7之系統,其中該錯誤協調訊息包括該偵測得之錯誤之型別的一識別,及該等收集錯誤資訊之指令包含可由該第一邏輯處理器執行之指令以:基於該偵測得之錯誤之經識別的型別,決定一錯誤應答動作;及應答於該錯誤應答動作包括錯誤資訊之收集的一決定,收集儲存於該第一刀鋒式裝置之第一錯誤資訊。
  9. 如請求項8之系統,其進一步包含:第三韌體記憶體儲存另一SFW案例;其中該另一SFW案例包含可由該第二邏輯處理器 執行之指令以:偵測該錯誤之發生;及應答於該錯誤之該發生的該偵測,透過該第二刀鋒式裝置之一服務處理器,提供該錯誤協調訊息給該第一刀鋒式裝置之該服務處理器。
  10. 如請求項9之系統,其中:該SFW案例進一步包含一第一錯誤處理器包含收集該第一錯誤資訊之該等指令,及可由該第一邏輯處理器執行的指令以提供該第一錯誤資訊給一偵錯管理基礎架構(FMI);及該另一SFW案例進一步包含一第二錯誤處理器包含可由該第二邏輯處理器執行的指令以:應答於該錯誤之該發生的該偵測,收集儲存於該第二刀鋒式裝置上之第二錯誤資訊;及提供該第二錯誤資訊給該FMI。
  11. 如請求項10之系統,其中該另一SFW案例進一步包含可由該第二邏輯處理器執行的指令以:將該第二邏輯處理器置於一SFW執行模式,其中當該OS係藉至少該第一邏輯處理器執行時,該第二邏輯處理器係將執行該另一SFW案例之指令;及其中欲偵測該錯誤之該發生的該等指令包含輪詢錯誤指示及中斷指示中之至少一者的指令。
  12. 如請求項7之系統,其中該SFW案例進一步包含可由該第一邏輯處理器執行的指令以: 將該第一邏輯處理器置於一SFW執行模式,其中當該OS係藉至少該第二邏輯處理器執行時,該第一邏輯處理器係將執行該SFW案例之指令;及針對任何錯誤協調訊息輪詢該服務記憶體。
  13. 一種可藉一刀鋒式系統之一分區執行的方法,該刀鋒式系統包含第一及第二刀鋒式裝置分別地包括第一及第二邏輯處理器,該方法包含:運用與該第一邏輯處理器相聯結的該第一刀鋒式裝置之記憶體及與該第二邏輯處理器相聯結的該第二刀鋒式裝置之記憶體跑一作業系統(OS),其中該等第一及第二邏輯處理器係分別地於第一及第二系統韌體(SFW)域操作;以該第一邏輯處理器偵測於該分區中之一錯誤;提供識別一型該所偵測的錯誤及至少一個錯誤應答動作之一錯誤協調訊息給該第一刀鋒式裝置之一第一服務處理器;提供來自該第一服務處理器之該錯誤協調訊息給該第二刀鋒式裝置之一第二服務處理器;以該第二邏輯處理器偵測提供給該第二服務處理器之該錯誤協調訊息;及以該第二邏輯處理器執行於該錯誤協調訊息中識別的該至少一個錯誤應答動作。
  14. 如請求項13之方法,其進一步包含:組配該第一邏輯處理器以藉執行一第一SFW案例 之指令且在該OS之運作之前操作為該第一SFW域之部分;組配該第二邏輯處理器以藉執行一第二SFW案例之指令且在該OS之執行之前操作為該第二SFW域之部分,該第二SFW案例係啟動該分區以跑該OS;及將該等第一及第二邏輯處理器中之給定者置於一SFW執行模式,同時該OS係藉該等第一及第二邏輯處理器中之另一者執行。
  15. 如請求項14之方法,其進一步包含:以該第一邏輯處理器執行一第一SFW案例之一第一錯誤處理器,收集儲存於該第一刀鋒式裝置上的第一錯誤資訊;及應答於來自該第一服務處理器之一復置同步通訊,造成於該第一刀鋒式裝置之一復置;其中執行該所指示的至少一個錯誤應答動作包含:以該第二邏輯處理器執行與該第二SFW域相聯結的一第二SFW案例之一第二錯誤處理器,收集儲存於該第二刀鋒式裝置上的第二錯誤資訊;及應答於來自該第二服務處理器之一復置同步通訊,造成於該第二刀鋒式裝置之一復置。
TW103110499A 2013-03-28 2014-03-20 Error coordination message for a blade device having a logical processor in another system firmware domain TWI560557B (en)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/US2013/034277 WO2014158161A1 (en) 2013-03-28 2013-03-28 Error coordination message for a blade device having a logical processor in another system firmware domain

Publications (2)

Publication Number Publication Date
TW201502806A true TW201502806A (zh) 2015-01-16
TWI560557B TWI560557B (en) 2016-12-01

Family

ID=51624943

Family Applications (1)

Application Number Title Priority Date Filing Date
TW103110499A TWI560557B (en) 2013-03-28 2014-03-20 Error coordination message for a blade device having a logical processor in another system firmware domain

Country Status (3)

Country Link
US (1) US10289467B2 (zh)
TW (1) TWI560557B (zh)
WO (1) WO2014158161A1 (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6123487B2 (ja) * 2013-05-28 2017-05-10 富士通株式会社 制御装置、制御方法及び制御プログラム
US11307921B2 (en) * 2017-12-08 2022-04-19 Apple Inc. Coordinated panic flow
US10936488B1 (en) * 2018-08-31 2021-03-02 Splunk Inc. Incident response in an information technology environment using cached data from external services
US20250027996A1 (en) * 2023-07-20 2025-01-23 Qualcomm Incorporated Monitor circuit to determine integrated circuit condition based on diagnostic code sequence

Family Cites Families (113)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5435001A (en) 1993-07-06 1995-07-18 Tandem Computers Incorporated Method of state determination in lock-stepped processors
US7064376B2 (en) 1996-05-24 2006-06-20 Jeng-Jye Shau High performance embedded semiconductor memory devices with multiple dimension first-level bit-lines
US6542926B2 (en) 1998-06-10 2003-04-01 Compaq Information Technologies Group, L.P. Software partitioned multi-processor system with flexible resource sharing levels
US6094699A (en) 1998-02-13 2000-07-25 Mylex Corporation Apparatus and method for coupling devices to a PCI-to-PCI bridge in an intelligent I/O controller
US6631448B2 (en) 1998-03-12 2003-10-07 Fujitsu Limited Cache coherence unit for interconnecting multiprocessor nodes having pipelined snoopy protocol
US6199107B1 (en) 1998-07-22 2001-03-06 Microsoft Corporation Partial file caching and read range resume system and method
US8165155B2 (en) * 2004-07-01 2012-04-24 Broadcom Corporation Method and system for a thin client and blade architecture
US6418525B1 (en) 1999-01-29 2002-07-09 International Business Machines Corporation Method and apparatus for reducing latency in set-associative caches using set prediction
US6279085B1 (en) 1999-02-26 2001-08-21 International Business Machines Corporation Method and system for avoiding livelocks due to colliding writebacks within a non-uniform memory access system
US6453344B1 (en) 1999-03-31 2002-09-17 Amdahl Corporation Multiprocessor servers with controlled numbered of CPUs
US20020099886A1 (en) 1999-05-17 2002-07-25 Emerson Theodore F. System and method for controlling remote console functionality assist logic
US6725317B1 (en) * 2000-04-29 2004-04-20 Hewlett-Packard Development Company, L.P. System and method for managing a computer system having a plurality of partitions
US6684343B1 (en) 2000-04-29 2004-01-27 Hewlett-Packard Development Company, Lp. Managing operations of a computer system having a plurality of partitions
US7096469B1 (en) 2000-10-02 2006-08-22 International Business Machines Corporation Method and apparatus for enforcing capacity limitations in a logically partitioned system
US7596139B2 (en) * 2000-11-17 2009-09-29 Foundry Networks, Inc. Backplane interface adapter with error control and redundant fabric
US7603516B2 (en) 2000-12-15 2009-10-13 Stmicroelectronics Nv Disk controller providing for the auto-transfer of host-requested-data from a cache memory within a disk memory system
US7403952B2 (en) * 2000-12-28 2008-07-22 International Business Machines Corporation Numa system resource descriptors including performance characteristics
US6988169B2 (en) 2001-04-19 2006-01-17 Snowshore Networks, Inc. Cache for large-object real-time latency elimination
JP4755371B2 (ja) * 2001-09-25 2011-08-24 株式会社日立製作所 計算機システム
TWI231424B (en) 2002-06-28 2005-04-21 Quanta Comp Inc Management and preparation system of blade server
US7055071B2 (en) 2003-01-09 2006-05-30 International Business Machines Corporation Method and apparatus for reporting error logs in a logical environment
US7155370B2 (en) 2003-03-20 2006-12-26 Intel Corporation Reusable, built-in self-test methodology for computer systems
US7222339B2 (en) 2003-06-13 2007-05-22 Intel Corporation Method for distributed update of firmware across a clustered platform infrastructure
US20050015430A1 (en) 2003-06-25 2005-01-20 Rothman Michael A. OS agnostic resource sharing across multiple computing platforms
US7200800B2 (en) * 2003-07-16 2007-04-03 Hewlett-Packard Development Company, L.P. Platform independent file manipulation
US7363392B2 (en) 2003-07-30 2008-04-22 Hewlett-Packard Development Company, L.P. Automatic maintenance of configuration information in a replaceable electronic module
US7363484B2 (en) 2003-09-15 2008-04-22 Hewlett-Packard Development Company, L.P. Apparatus and method for selectively mapping proper boot image to processors of heterogeneous computer systems
US7162560B2 (en) * 2003-12-31 2007-01-09 Intel Corporation Partitionable multiprocessor system having programmable interrupt controllers
US7251746B2 (en) 2004-01-21 2007-07-31 International Business Machines Corporation Autonomous fail-over to hot-spare processor using SMI
US7383461B2 (en) 2004-02-12 2008-06-03 International Business Machines Corporation Method and system to recover a failed flash of a blade service processor in a server chassis
US7512830B2 (en) * 2004-05-14 2009-03-31 International Business Machines Corporation Management module failover across multiple blade center chassis
US7873776B2 (en) 2004-06-30 2011-01-18 Oracle America, Inc. Multiple-core processor with support for multiple virtual processors
US7409594B2 (en) 2004-07-06 2008-08-05 Intel Corporation System and method to detect errors and predict potential failures
US7426657B2 (en) 2004-07-09 2008-09-16 International Business Machines Corporation System and method for predictive processor failure recovery
US7404105B2 (en) 2004-08-16 2008-07-22 International Business Machines Corporation High availability multi-processor system
US7353375B2 (en) 2004-10-07 2008-04-01 Hewlett-Packard Development Company, L.P. Method and apparatus for managing processor availability using a microcode patch
US7418525B2 (en) * 2004-10-29 2008-08-26 International Business Machines Corporation Shared simultaneously-connected removable drives and servers each housing an I/O controller which maintains an uninterrupted protocol connection
US7694298B2 (en) 2004-12-10 2010-04-06 Intel Corporation Method and apparatus for providing virtual server blades
JP4523639B2 (ja) * 2005-03-24 2010-08-11 富士通株式会社 ファームウェアによるメモリエラーアドレス管理
KR100699473B1 (ko) 2005-05-19 2007-03-26 삼성전자주식회사 화상형성장치 및 화상형성장치와 연결된 외부 메모리부의파티션 인식방법
US7480747B2 (en) 2005-06-08 2009-01-20 Intel Corporation Method and apparatus to reduce latency and improve throughput of input/output data in a processor
US8484213B2 (en) 2005-08-31 2013-07-09 International Business Machines Corporation Heterogenous high availability cluster manager
US20070067614A1 (en) 2005-09-20 2007-03-22 Berry Robert W Jr Booting multiple processors with a single flash ROM
JP4394624B2 (ja) 2005-09-21 2010-01-06 株式会社日立製作所 計算機システム及びi/oブリッジ
US20070083723A1 (en) * 2005-09-23 2007-04-12 Dey Jayanta K Highly-available blade-based distributed computing system
US7474623B2 (en) * 2005-10-27 2009-01-06 International Business Machines Corporation Method of routing I/O adapter error messages in a multi-host environment
US7814366B2 (en) 2005-11-15 2010-10-12 Intel Corporation On-demand CPU licensing activation
US20070150713A1 (en) 2005-12-22 2007-06-28 International Business Machines Corporation Methods and arrangements to dynamically modify the number of active processors in a multi-node system
US7484116B2 (en) * 2006-01-03 2009-01-27 International Business Machines Corporation Apparatus, system, and method for accessing redundant data
US7552283B2 (en) 2006-01-20 2009-06-23 Qualcomm Incorporated Efficient memory hierarchy management
US7797756B2 (en) 2006-04-18 2010-09-14 Hewlett-Packard Development Company, L.P. System and methods for managing software licenses in a variable entitlement computer system
US7827387B1 (en) 2006-09-08 2010-11-02 Marvell International Ltd. Communication bus with hidden pre-fetch registers
KR100868762B1 (ko) * 2006-12-01 2008-11-17 삼성전자주식회사 임베디드용 소프트웨어의 오류 검출 방법
US20080140930A1 (en) * 2006-12-08 2008-06-12 Emulex Design & Manufacturing Corporation Virtual drive mapping
US20080183626A1 (en) 2007-01-31 2008-07-31 Francisco Romero Software license agreement management based on temporary usage
US20080229049A1 (en) 2007-03-16 2008-09-18 Ashwini Kumar Nanda Processor card for blade server and process.
US7734859B2 (en) 2007-04-20 2010-06-08 Nuon, Inc Virtualization of a host computer's native I/O system architecture via the internet and LANs
US8788750B2 (en) 2007-04-27 2014-07-22 Hewlett-Packard Development Company, L.P. Managing resources in cluster storage systems
US20080281475A1 (en) * 2007-05-09 2008-11-13 Tyan Computer Corporation Fan control scheme
US8813080B2 (en) 2007-06-28 2014-08-19 Intel Corporation System and method to optimize OS scheduling decisions for power savings based on temporal characteristics of the scheduled entity and system workload
US8230145B2 (en) 2007-07-31 2012-07-24 Hewlett-Packard Development Company, L.P. Memory expansion blade for multiple architectures
US20090119748A1 (en) 2007-08-30 2009-05-07 Jiewen Yao System management mode isolation in firmware
US7865762B2 (en) * 2007-12-04 2011-01-04 Intel Corporation Methods and apparatus for handling errors involving virtual machines
US8069359B2 (en) 2007-12-28 2011-11-29 Intel Corporation System and method to establish and dynamically control energy consumption in large-scale datacenters or IT infrastructures
US20090172232A1 (en) * 2007-12-28 2009-07-02 Zimmer Vincent J Method and system for handling a management interrupt event
US7802042B2 (en) 2007-12-28 2010-09-21 Intel Corporation Method and system for handling a management interrupt event in a multi-processor computing device
US7441135B1 (en) 2008-01-14 2008-10-21 International Business Machines Corporation Adaptive dynamic buffering system for power management in server clusters
US7921179B1 (en) 2008-01-15 2011-04-05 Net App, Inc. Reducing latency of access requests in distributed storage systems having a shared data set
WO2009140631A2 (en) 2008-05-15 2009-11-19 Smooth-Stone, Inc. Distributed computing system with universal address system and method
US8244918B2 (en) 2008-06-11 2012-08-14 International Business Machines Corporation Resource sharing expansion card
EP2304582A4 (en) * 2008-06-19 2013-02-13 Hewlett Packard Development Co MORE BLADE CONNECTOR
US8390148B2 (en) * 2008-08-13 2013-03-05 Dell Products L.P. Systems and methods for power supply wear leveling in a blade server chassis
US8347070B1 (en) 2008-10-30 2013-01-01 Hewlett-Packard Development Company, L.P. System and methods for sharing platform data with an ACPI module of a computer system
JP5074351B2 (ja) * 2008-10-30 2012-11-14 株式会社日立製作所 システム構築方法及び管理サーバ
US20100146592A1 (en) * 2008-12-04 2010-06-10 Dell Products L. P. Systems and methods for providing session continuity across a chassis management controller failover
US8144582B2 (en) * 2008-12-30 2012-03-27 International Business Machines Corporation Differentiating blade destination and traffic types in a multi-root PCIe environment
US8352710B2 (en) 2009-01-19 2013-01-08 International Business Machines Corporation Off-loading of processing from a processor blade to storage blades
WO2010097925A1 (ja) * 2009-02-26 2010-09-02 株式会社日立製作所 情報処理装置
US8140871B2 (en) 2009-03-27 2012-03-20 International Business Machines Corporation Wake on Lan for blade server
US8151027B2 (en) 2009-04-08 2012-04-03 Intel Corporation System management mode inter-processor interrupt redirection
EP2449470A4 (en) 2009-06-29 2013-05-29 Hewlett Packard Development Co MEMORY AGENT FOR ACCESS TO A MEMORY BLADE WITHIN A CACHE COHERENCE DOMAIN
CN101989212B (zh) 2009-07-31 2015-01-07 国际商业机器公司 提供用于启动刀片服务器的虚拟机管理程序的方法和装置
US8880682B2 (en) 2009-10-06 2014-11-04 Emc Corporation Integrated forensics platform for analyzing IT resources consumed to derive operational and architectural recommendations
US9767070B2 (en) * 2009-11-06 2017-09-19 Hewlett Packard Enterprise Development Lp Storage system with a memory blade that generates a computational result for a storage device
US8713350B2 (en) 2009-12-08 2014-04-29 Hewlett-Packard Development Company, L.P. Handling errors in a data processing system
US8601128B2 (en) 2009-12-10 2013-12-03 Hewlett-Packard Development Company, L.P. Managing hardware resources for soft partitioning
US8793481B2 (en) * 2009-12-10 2014-07-29 Hewlett-Packard Development Company, L.P. Managing hardware resources for soft partitioning
US8108724B2 (en) * 2009-12-17 2012-01-31 Hewlett-Packard Development Company, L.P. Field replaceable unit failure determination
US8151147B2 (en) 2009-12-17 2012-04-03 Hewlett-Packard Development Company, L.P. Synchronize error handling for a plurality of partitions
TWI437445B (zh) * 2010-02-09 2014-05-11 Quanta Comp Inc 刀鋒型伺服器之電腦管理方法
JP5299559B2 (ja) 2010-03-19 2013-09-25 富士通株式会社 情報処理装置及び情報処理装置のデバイス情報収集処理方法
US9009384B2 (en) 2010-08-17 2015-04-14 Microsoft Technology Licensing, Llc Virtual machine memory management in systems with asymmetric memory
US9081613B2 (en) * 2010-11-02 2015-07-14 International Business Machines Corporation Unified resource manager providing a single point of control
US8966020B2 (en) 2010-11-02 2015-02-24 International Business Machines Corporation Integration of heterogeneous computing systems into a hybrid computing system
US8793427B2 (en) 2011-02-10 2014-07-29 Hewlett-Packard Development Company, L.P. Remote memory for virtual machines
US8880795B2 (en) 2011-04-29 2014-11-04 Comcast Cable Communications, LLC. Intelligent partitioning of external memory devices
US8782658B2 (en) * 2011-05-20 2014-07-15 Lsi Corporation System and apparatus for managing a storage array utilizing a plurality of virtual machines
US8836536B2 (en) * 2011-07-29 2014-09-16 Hewlett-Packard Development Company, L. P. Device characterization system and methods
US20130073811A1 (en) 2011-09-16 2013-03-21 Advanced Micro Devices, Inc. Region privatization in directory-based cache coherence
JP5903173B2 (ja) 2012-02-22 2016-04-13 ヒューレット−パッカード デベロップメント カンパニー エル.ピー.Hewlett‐Packard Development Company, L.P. コンピュータ上のオペレーティングシステムからの論理プロセッサの隠蔽
US8954698B2 (en) * 2012-04-13 2015-02-10 International Business Machines Corporation Switching optically connected memory
WO2013160983A1 (ja) * 2012-04-23 2013-10-31 株式会社日立製作所 情報取得方法、計算機システム及び管理計算機
US20150052293A1 (en) 2012-04-30 2015-02-19 Blaine D. Gaither Hidden core to fetch data
US8892805B2 (en) * 2013-03-07 2014-11-18 Silicon Graphics International Corp. High performance system that includes reconfigurable protocol tables within an ASIC wherein a first protocol block implements an inter-ASIC communications protocol and a second block implements an intra-ASIC function
EP2979171A4 (en) * 2013-03-28 2016-11-23 Hewlett Packard Entpr Dev Lp MEMORY IDENTIFICATION OF A BLADE ELEMENT FOR USE BY A OPERATING SYSTEM OF A PARTITION WITH THIS BLADE ELEMENT
WO2014158152A1 (en) * 2013-03-28 2014-10-02 Hewlett-Packard Development Company, L.P. Making memory of compute and expansion blade devices available for use by an operating system
US9268684B2 (en) * 2013-03-29 2016-02-23 Silicon Graphics International Corp. Populating localized fast bulk storage in a multi-node computer system
US9229825B2 (en) * 2013-06-28 2016-01-05 International Business Machines Corporation Quick failover of blade server
WO2015023192A1 (en) * 2013-08-14 2015-02-19 Intel Corporation Manageability redundancy for micro server and clustered system-on-a-chip deployments
US10353744B2 (en) * 2013-12-02 2019-07-16 Hewlett Packard Enterprise Development Lp System wide manageability
US9232678B2 (en) * 2013-12-30 2016-01-05 Dell Products L.P. Modular, scalable, expandable, rack-based information handling system
US10429909B2 (en) * 2015-06-01 2019-10-01 Hewlett Packard Enterprise Development Lp Managing power in a high performance computing system for resiliency and cooling
US10055377B2 (en) * 2016-02-24 2018-08-21 Western Digital Technologies, Inc. Using a proprietary framework on a standards-based embedded device

Also Published As

Publication number Publication date
US10289467B2 (en) 2019-05-14
TWI560557B (en) 2016-12-01
WO2014158161A1 (en) 2014-10-02
US20160188394A1 (en) 2016-06-30

Similar Documents

Publication Publication Date Title
US10747640B2 (en) Techniques for managing a distributed computing environment using event digests
CN103458036B (zh) 一种集群文件系统的访问装置和方法
JP6530774B2 (ja) ハードウェア障害回復システム
TWI528172B (zh) 機器檢查摘要暫存器
US20170286679A1 (en) System, Apparatus And Method For Performing Secure Memory Training And Management In A Trusted Environment
US10430267B2 (en) Determine when an error log was created
EP1933234A2 (en) Frozen ring cache
TW201502806A (zh) 針對另一系統韌體域中具有邏輯處理器之刀鋒式裝置的錯誤協調訊息技術
US12229144B2 (en) Platform and service disruption avoidance using deployment metadata
TWI526845B (zh) 使運算及擴充刀鋒式裝置之記憶體可供作業系統用之技術
US20140164851A1 (en) Fault Processing in a System
US20240248633A1 (en) Apparatuses, Devices, Methods and Computer Programs for Providing and Processing Information Characterizing a Non-Uniform Memory Architecture
CN107168815B (zh) 一种收集硬件错误信息的方法
TWI497318B (zh) 辨識刀鋒式裝置之記憶體供包括此刀鋒式裝置之分區的作業系統用之技術
US8880858B2 (en) Estimation of boot-time memory requirement
US20220171446A1 (en) Configuring power level of central processing units at boot time
US12499005B2 (en) Hybrid firmware-first/operating-system-first error handling system
US20250138928A1 (en) Operating-system-first error handling system
US12254322B2 (en) Virtual pseudo PCIe (VVP) device nodes for fast reliable OS and virtual memory (VM) boot
EP4184315A1 (en) Generation of service-level objective specifications using java annotation
Lee et al. NCU-HA: A lightweight HA system for kernel-based virtual machine
Ping et al. Design of Server Fault Diagnosis and Prediction Based on BMC
KR20250044077A (ko) 데이터 저장 장치 및 이의 동작 방법
CN117370084A (zh) 一种稳定性检测方法、装置、设备及机器可读存储介质
CN121210226A (zh) 一种bios的测试方法、装置、介质和电子设备

Legal Events

Date Code Title Description
MM4A Annulment or lapse of patent due to non-payment of fees