TWI241525B - Handling multiple operating system capabilities in a logical partition data processing system - Google Patents
Handling multiple operating system capabilities in a logical partition data processing system Download PDFInfo
- Publication number
- TWI241525B TWI241525B TW092109267A TW92109267A TWI241525B TW I241525 B TWI241525 B TW I241525B TW 092109267 A TW092109267 A TW 092109267A TW 92109267 A TW92109267 A TW 92109267A TW I241525 B TWI241525 B TW I241525B
- Authority
- TW
- Taiwan
- Prior art keywords
- operating system
- data processing
- event
- patent application
- item
- Prior art date
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/0703—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
- G06F11/0793—Remedial or corrective actions
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/0703—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
- G06F11/0706—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
- G06F11/0712—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a virtual computing platform, e.g. logically partitioned systems
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/0703—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
- G06F11/0766—Error or fault reporting or storing
- G06F11/0781—Error filtering or prioritizing based on a policy defined by the user or on a policy defined by a hardware/software module, e.g. according to a severity level
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Quality & Reliability (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Debugging And Monitoring (AREA)
- Hardware Redundancy (AREA)
Description
1241525 玖、發明說明: 【發明所屬之技術領域】 本發明大致是關於在一邏輯分割資料處理系統中管理 多重作業系統分割區,特定言之,是關於錯誤和其他事件 (events)之管理。 【先前技術】 資料處理系統(平台)中的邏輯分割(LPAR )可讓 多個同種的作業系統(0 S )或多種異質性作業系統在單 一資料處理系統平台上同時執行。一分割區會分配到該平 台非重疊的子資源,而一作業系統的影像檔就在該分割内 執行。這些可由平台配置的資源包含一或多個不同架構的 處理器與其中斷管理區域、系統記憶體區,以及輸入/輸 出(I/O )介面卡匯流排插槽。該分割區的資源經由平台 的韌體(firmware)分配至該作業系統影像樓。 在丰台内執行之每個不同的作業系統或一作業系統的 影像檔彼此均不會互相干擾,因此一邏輯分割上的軟,體錯 誤不會影響其他分割區的正常運作。由於每個作業系統影 像檔均直接管理其所分配到的資源,因此平台需有配置各 個分散資源的機制,藉由這個機制,可確保該不同的影像 檔不會控制任何尚未配置給它的資源。此外,在控制一作 業系統所配置到的資源時,所發生的軟體錯誤並不會影響 到其他影像檔的資源。因此,在該平台中,每一作業系統 3 1241525 (或每一不同的作業系統)之影像檔直接控制多種不同 可配置資源。 一 LPAR系統中的硬體資源是由各個不同的獨立分 區所分享,這些分割區互不影響,每一個看起來就好像 獨立的電腦。這些資源可能包含輸入/輸出(I/O)介面卡 記憶體模組、非揮發性的隨機存取記憶體(NVRAM ) 以及硬碟機。該LPAR系統内的每一分割可以重複的啟 和關閉,而無須讓整個系統重新關機再開機。 實際上,一些被多個獨立分割區所分享的I/O裝置 其本身是由常見的硬體所控制,例如:主周邊零件連接 面(PCI )橋接器,橋接器上可能有許多受支配的I/O 面卡或連接在橋接器之下。該橋接器可視為是被所有分 到其插槽的分割區所分享。因此,如果該橋接器故障的話 就會影響所有分享橋接器下裝置的分割區。而如果任何 割區想更進一步使用該橋接器,則整個LPAR系統將會 掉,因此這個問題的確是相當的嚴重。換句話說,一旦 當機的情況發生,則全部的LPAR系統都會失敗。一般 言,標準的作業程序是終止正在執行並分享該.橋接器的 割區,這樣才不會因為此錯誤而讓系統當掉。 一般最常發生的狀況是因I/O介面卡錯誤導致該橋 器呈現無法使用(錯誤)的狀態。當I/O錯誤的狀況 生時,會引發一機器檢驗中斷(M C I )處理常式,接著 報該錯誤訊息,然後終止正常的分割區。這樣的程序是「 的 割 是 動 介 介 配 分 當 有 而 分 接 發 回 標 4 1241525 準」處理步驟,可防止整個 LPAR 系統因為此問題而 掉。 然而,有些錯誤可經由在一分割區内執行的特殊作 系統恢復,有些錯誤則無法。如果一錯誤可被一特殊的 業系統恢復,則最佳的作業程序是將該錯誤的發生告知 作業系統,好讓其採取適當的措施(〇 p e r a t i ο η)。然而, 果一作業系統沒有恢復該錯誤的能力,則將該錯誤的發 告知該作業系統並無效果,該作業系統並無法理解該錯 通知,只能繼續正常的處理工作直到發生當機。 那時所需要的是一種方法:當錯誤發生時,可以通 有能力處理特定錯誤的作業系統,並終止無法處理特定 誤的作業系統。 【發明内容】 本發明提供一方法、電腦程式產品和資料處理系統 以遠成在一邏輯分割(LPAR )資料處理系統中管理錯 或其他事件。當一作業系統在一邏輯分割中初始化後, 作業系統會向管理軟體註冊其管理特定錯誤或其他事件 能力。當一影響該邏輯分割的錯誤或其他事件發生時, 管理軟體會檢查該作業系統是否有能力管理該特定錯誤 事件。如果是的話,會告知該作業系統。否則,該管理 體會指示該作業系統採取其他適當的處理方法,例如: 止該作業系統和/或分割區。 當 業 作 該 如 生 誤 知 錯 誤 該 之 該 或 軟 終 5 1241525 【實施方式】 系統方 (SMP ) 101、 是IBM 紐約州 一單處 排 106 &。I/O I/O匯 I/O匯 統。因 (或單 些多重 其中執 的PCI 148和 在此例 ,而硬 分割= 參考第1圖,該圖為可實施本發明的資料處理 塊圖。資料處理系統1 0 0可以是一對稱式多處理器 系統,其包含多個與系統匯流排1 0 6連接之處理器 102、103和 1 04。例如:資料處理系統 1 00可以 RS/6000 (國際商業機器公司之產品,該公司位於 Armonk ),作為網路中的伺服器。或者也可使用 理器系統。記憶體控制器/快取 1 0 8也和系統匯流 相連接,其為多個區域記憶體 1 6.0-1 63之連接介ί 匯流排橋接器1 1 0與系統匯流排1 0 6相連接,並為 流排1 1 2之連接介面。記憶體控制器/快取1 Ο 8和 流排橋接器1 1 〇可整合在一起,如圖所示。 資料處理系統1 00為一邏輯分割資料處理系 此,資料處理系統1 00可以讓多種異質性作業系統 作業系統的多重實體(i n s t a n c e s ))同時執行。這 作業系統的每一個都可以有任何數目的軟體程式在 行。資料處理系統1 〇 〇係利用邏輯分割,因此不同 I/O介面卡120-121、128-129和136、繪圖介面卡 硬碟介面卡1 4 9可以被分配到不同的邏輯分割區。 中,繪圖介面卡148與一顯示裝置(未顯示)相連 碟介面卡149與硬碟~ 150栢連並控制該硬碟。 因此,如果資料處理系統1 00被分成三個邏輯 ?卜卩2和?3。每一?(:11/〇介面卡120-12卜128-129、136、 1241525 繪圖介面卡148、硬碟介面卡149,每一主處理器1〇1_1〇4, 和每一區域記憶體丨60_163會被分配到該三個分割的其 中之一。例如,處理器101、區域記憶體16〇和pCl 1/〇 介面卡120、128和129可以被分配到邏輯分割pl ;處理 器1 02- 1 03、區域記憶體161和PCI 1/〇介面卡121和136 可以被分配到邏輯分割P2 ;而處理器1 04、區域記憶體 1 62-1 63、繪圖介面卡148和硬碟介面卡149可以被分配 到邏輯分割P3。 在資料處理系統1 〇〇執行的每一個作業系統會被分配 到一不同的邏輯分割。因此,在資料處理系統丨〇〇執行的 每一個作業系統只可存取那些在其邏輯分割内的“ο單 元。例如,高階交談式執行(AIX )作業系統的一實體可 以在分割P1内執行,AIX作業系統的第二個實體(影像 稽)可以在分割P2内執行,而一 Linux作業系統可以在 邏輯分割P3内操作。 , 周邊零件連接介面(PCI)主橋接器1M與1/()匯流排 112相連接,並且為1>(:1區域匯流排115之連接介面。許 多pci輸入/輸出介面卡120-121可經由pci對pc丨橋接 器116、pci匯流排n8、PCI匯流排119、ι/〇插槽丨 和I/O插槽171連接至pci匯流排115。%對π橋接 器116為PCI匯流排118和pci匯流排119之連接介面。 pci i/o介面卡m和121分別放在1/〇插槽和⑺ 内。典型的PCI匯流排可支援四到八個1/〇介面卡(即 1241525 利用增加插槽的方式增加連接介面)。每一 pCI丨/0介面 卡1 2 0 - 1 2 1都疋賣料處理系統i 〇 〇與輸入/輸出裝置(例 如:資料處理系統1 00的客戶端網路電腦)間的連接介面。 另一 PCI主橋接器122為PCI匯流排123之連接介 面。PCI匯流排123與多個PCI 1/〇介面卡1 2 8 1 29相連 接。PCI I/O介面卡1 28- 1 29可經由PC!對PCI橋接器124、 PCI匯流排126、PCI匯流排127、1/〇插槽π和1/〇插 槽I73連接至pci匯流排丨23。PCI對PCI橋接器·丨24為 PCI匯流排126和PCI匯流排127之連接介面。pC丨1/0 介面卡128和129分別放在I/O插槽172和173内。藉由 這種方法’其他的I/O裝置,例如:數據機或網路介面卡 可以經由PCI I/O介面卡丨28-丨29連接。如此一來,資料 處理系統1 0 0可連接多個網路電腦。 一具有記憶體的繪圖介面卡148插在I/O插槽1 74 中,可經由PCI匯流排144、PCI對PCI橋接器丨42、PC j 匯流排1 41和主橋接器140連接到I/O匯流排1丨2。硬碟 介面卡149被放在1/0插槽丨75内,並與pci匯流排145 相連接。接著,此匯流排會連接到PC I對pc I橋接器142, 該橋接器再藉由PCI匯流排-141連接到pci主橋接器14〇。
PCI主橋接器13〇為PCI匯流排13 1連接到1/〇匯流 排1 12之介面。PC丨1/0介面卡丨36連接到I/O插槽W6, 該插槽藉由PCI匯流排133連接到PCI對PCI橋接器丨32。 PCI對PCI橋搔器132也與PCI匯流排! 3〗相連接。該pcI 1241525 匯流排將P CI主橋接器1 3 0連接至服務處理器信件匣介 面與ISA匯流排存取傳遞邏輯194以及PCI對pci橋接 器1 3 2。服務處理器信件匣介面與丨S A匯流排存取傳遞邏 輯194將PCI存取的資料轉送至PC Ι/ISA橋接器193。非 揮發性記憶體(NVRAM ) 1 92連接至ISA匯流排1 96。服 務處理益135猎由其區域PCI匯流排195轉合至服務處 理器信件匣介面與ISA匯流排存取傳遞邏輯194。服務處 理器1 35也藉由多個JTAG/I2C匯流排1 34與處理器1 01 -104相連接。JTAG/I2C匯流排134是JTAG/掃描匯流排(參 考IEEE 1149.1 )和飛利浦I2C匯流排的結合體。然而, JTAG/I2C匯流排134可被飛利浦I2C匯流排或JTAG/掃 描匯流排所取代。所有主處理器1 〇 1、1 〇 2、1 〇 3和丨〇4 的SP-ATTN信號均與該服務處理器的中斷輸入信號相連 接。該服務處理器1 3 5有自己的區域記憶體1 9 1,並且可 存取硬體作業控制台190。 當資料處理系統1 00開機後,服務處理器1 3 5利用該 JTAG/掃描I2C匯流排134輸入信號到該系統(主)處理 器1 0 1 -1 04、記憶體控制器/快取1 〇 8和1/ 〇橋接器1 1 〇。 在完成此步驟後,服務處理器1 3 5即能對資料處理系統1 〇 〇 的資源與網路實·體架構有一了解。服務處理器1 β 5也會對 輸入信號到該主處理器1 0 1 -1 04、記憶體控制器/快取1 〇8 和I/O橋接器1 10時所發現的元件,執行内建自我測試 (BISTs )、基本確·定測試(BATs )和記憶.體測試。在BISTs、 1241525 BATs和記憶體測試所發現的任何錯誤訊息會由服務處理 器1 3 5蒐集並記錄。 如果經過 B I S T s、B A T s和記憶體測試後,將有缺點 的元件移去,仍然有有意義/有效的系統資源組態,則資 料處理系統 10 0會下載可執行碼到區域(.主)記憶體 1 6 0- 1 63中。接著服務處理器135會利用該主處理器101-1 04執行放在主記憶體1 60- 1 63中的程式碼。當該主處理 器1 0 1 -1 04處理該資料處理系統1 0 0中各作業系統的執行 碼時,服務處理器1 3 5會進入監視與回報錯誤的模式。服 務處理器1 3 5所監視的項目包f冷卻風扇的速度與運作、 溫度感應器、電源供應調節器,以及由處理器101-104、 區域記憶體1 60- 1 63和I/O橋接器1 10所回報之可回復和 不可回復的錯誤。服務處理器1 3 5負責儲存和回報資料處 理系統1 0 0内所有監視項目的錯誤訊息。服務處理器1 3 5 也會根據錯誤的種類和預先設定的門檻來採取行動。例 如,服務處理器1 3 5可監測處理器的快取記憶體上過多的 可回復錯誤,並且決定是否為硬體錯誤的前兆。根據此判 斷,服務處理器1 3 5可在目前執行時和未來的初始程式載 入(IP L s )期間,將此資源解組態(d e c ο n f i g u r a t i ο η )。1 P L s 有時也被稱為「啟動」(boot)或「啟動載入器」(bootstrap)。 資料處理系統1 〇 〇可利用各種商用電腦系統實施。例 如,資料處理系統1 〇〇可利用由國際商業機器公司開發的 10 1241525 IB M e S e r V e r i S e r i e S模型系統實施。該系統採用國際商業 機器公司開發的OS/400作業系統,支援邏輯分割。 一般習知技藝人士皆明瞭第1圖中的硬體可能會視情 況而有所變更。例如光碟機等其他的周邊裝置,也可加入 或代替所描述之硬體裝置。該描述的實施例並非表示本發 明在架構上的限制。 參考第2圖,該圖為一可實施本發明的模範邏輯分割 平台方塊圖。邏輯分割平台200内之硬體可以如第1圖之 資料處理系統100般實施。邏輯分割平台200包含分割硬 體2 3 0、作業系統202、204、206、208,以及分割管理韌 體(management firmwareX hypervisor)210。作業系統 202、 204、206和 208可以讓多個同種的作業系統或多種異質 性作業系統同時在平台200上執行。邊些作業系統可在 〇S/400内執行,並且會與分割管理韌體協調。作業系統 202、204、206 和 208 位於分割區 203、205、207 和 209。 此外,這些分割區也包含韌體載入器21卜213、215和217。 當分割區203、205、207和209被實體化後,一複製的開 放韌體就會由該分割管理韌體的分割管理員載入每一分割 區。然後,該分割區的記憶體會分配到該分割區的指定處 理器以執行該分割區的.韌體。 分割硬體2 3 0包含多個處理器2 3 2 - 2 3 8、多個系統記 憶體單元240-246、多個輸入/輸出(I/O)介面卡248-262 以及儲存單元270。分割硬體230也包含服務處理器290, 1241525 其可提供多種服務,例如:處理分割區中的錯誤。 理器23 2-23 8、記憶體單元240-246、非揮發性記憶 以及I/O介面卡248-262會被分配到邏輯分割平台 多重分割區中的其中一個分割區,上述之每一硬體 會對應至作業系統202、204、206和208其中之一 分割管理拿刃體(hypervisor)210會為分割區203 2 0 7和2 0 9執行多種功能和服務,以建立並實施邏 平台200的分割功能。分割管理韌體2 1 0係一實施 下硬體相同的虛擬機器之韌體。分割管理韌體的軟 國際商業機器公司取得。韌體係一儲存在記憶體晶 「軟體」,其無須電力即可保有儲存之内·容,例如 記憶體(ROM )、可程式化唯讀記憶體(PROM ) 寫式程式化唯讀記憶體(EPROM )、電子可抹寫 化唯讀記憶體(EEP ROM )以及非揮發性隨機存取 (non-volatile RAM)。因此,分割管理拿刃體210 虛擬化邏輯分割平台200的所有硬體資源,來同時 個獨立的作業系統影像檔2 0 2、2 0 4、2 0 6和2 0 8。 本發明係提供一方法、電腦程式產品以及資料 統,以管理在一邏輯分割資料處理系統的不同邏輯 内,執行不同的作業系統時所產生之事件或錯誤。 明的較佳實施例中,當一邏輯分割區内的作業系統 行時,該作業系統或載入該作業系統的適當載入程 向管理軟體(或分割管理韌體)註冊該作業系統管 每一處 體298 200 .内 資源也 〇 ' 205、 輯分割 與其底 體可自 片中的 :唯讀 、可抹 式程式 記憶體 可藉由 執行多 處理系 分割區 在本發 開始執 式,會 理特定 12 1241525 錯誤或事件的能力。然後,該管理軟體會利用那些資訊以 決定當該作業系統發生錯誤或事件時,該作哪些處置。 第3圖說明根據本發明較佳實施例,一作業系統向管 理軟體註冊其管理特定錯誤或事件能力之程序。作業系統 3 0 0已經過初始化並且在邏輯分割3 0 2内執行。作業系統 3 00向管理軟體 3 06傳輸資訊(304 )以註冊其有能力管 理的錯誤和/或事件。這些訊息是零或其他項目的組合。 本例中,訊息中的項目代表作業系統3 0 0有能力管理的錯 誤或事件之識別。這些錯誤和事件包含(但不限於)匯流 排錯誤、磁區旁視緩衝區錯誤(sector look aside buffer errors )、轉換旁視緩衝區錯誤(translation look aside buffer errors)、輸入/輸出錯誤、使用者輸入、新的可用 訊息或通信等等。在圖示中,這些錯誤和事件由大寫字母 表示。 管理軟體 3 06將資訊(3 0 8 )儲存在記憶體内的資料 結構3 1 0。資料結構3 1 0讓管理軟體3 0 6可以識別哪些事 件或錯誤是該資料處理系統一邏輯分割内執行的作業系統 有能力管理的。 第 4圖說明當該作業系統有能力管理該錯誤或事件 時,本發明一較佳實施例中管理一事件或錯誤之程序。硬 體原件 400發生了一個事件或錯誤(402 ),該事件或錯 誤被管理軟體3 06偵測到.。當管理軟體3 06認為該事件402 可'能.影響在分割區202内執行的作業系統200時,就會查 13 1241525 詢(404 )資料結構3 1 0以判斷是否作業系統200有能力 管理該錯誤或事件。本例中,作業系統2 0 0有能力管理該 錯誤或事件,所以查詢 4 0 4後得到正面的結果(4 0 6 )。 管理軟體3 0 6根據這個正面的結果,向作業系統d 0 0通知 ( 408 )該錯誤或事件。然後,作業系統2 0 0可根據其程 式,對該錯誤或事件採取適當的措施。 第5圖說明當該作業系統沒有能力管理一錯誤或事件 時,本發明一較佳實施例中管理該事件或錯誤之程序。硬 體原件4 0 0發生了一個事件或錯誤5 0 0,該事件或錯誤被 管理軟體3 0 6偵測到。管理軟體3 0 6查詢(5 0 2 )資料結 構3 1 0以判斷是否作業系統3 0 0有能力管理該事件或錯 誤。此時,由於作業系統200沒有能力管理該已發生之特 定錯誤或事件,因此回以一負面的結果 504。此時管理軟 體3 06必須負責管理該錯誤或事件,其方法為指揮作業系 統3 0 0採取一適當的措施。例如,本例中之錯誤管理軟體 3 06可能會告知作業系統300有一嚴重錯誤,並命令其終 止(506 )。換句話說,管理軟體 3 06可能會命令作業系 統300安全的關機。如果作業系統3 00無法順利完成管 理軟體3 0 6的指示,管理軟體3 0 6可能會被迫終止分割區 302以避免更進一步的錯誤。 第6圖為一流程圖,說明根據本發明一較佳實施例, 從一作業·系統接收管理能力的程序。首先,管理軟體接收 一作業系統管理特定錯誤或事件的能力(步驟 600 )。然 14 1241525 後,管理軟體將這些能力寫進記憶體中的資料結構(步驟 602 )。接著,管理軟體等待事件或錯誤的發生(步驟604 )。 第7圖為一流程圖,說明根據本發明一較佳實施例, 在一邏輯分割中執行的一作業系統之管理事件的程序。首 先,管理軟體發現可能為一錯誤之事件(步驟 7 0 0 )。接 下來,管理軟體判斷在一特定分割區内的作業系統是否支 援該事件(步驟 702 )。換句話說,管理軟體判斷該作業 系統是否有能力管理該事件。如果是的話,管理軟體會向 該作業系統通知有該事件,而該作業系統會管理該事件(步 驟7 04 ),該程序結束。如果該作業系統並不支援該事件, 則管理軟體會指揮該作業系統採取適當的措施,如:安全 的關機(步驟 706 )。下一步,管理軟體判斷該作業系統 是否完成其所指揮的工作(步驟 70 8 )。如果是的話,該 程序結束。若否,則管理軟體最後將終止該作業系統的執 行和/或其所在執行的分割區(步驟7 1 0 )。 雖然本發明已經由完整功能的資料處理系統予以描 述,一般習知技藝的人士皆明瞭本發明的程序可使用在存 有指令的電腦可讀媒體上或其他功能性描述素材和其他各 種形式媒體,而無論實際上使用的訊號負載媒體形式為 何,均無礙本發明的實施。電腦可讀媒體包含可記錄式媒 體,例如:軟碟、硬碟、RAM、CD-ROM、DV D-ROM ; 以及傳輸形式媒體,例如:數位和類比的通信連結、有線 或無線通信連結,其利用的傳輸形式例如:射頻和光波傳 15 1241525 輸。該電腦可讀媒體可接受加密格式的檔案,並且在特定 資料處理系統中解密使用。功能性描述素材為將功能傳遞 到機器上的資訊。功能性描述素材包含(但不限於)電腦 程式、指令、規則、事實、可計算函數的定義、物件和資 料結構。 雖然以上經由較佳實施例對本發明作了詳細的描述, 但習知技藝的人士皆明暸,可於在不逾越本發明下述申請 專利範圍之範疇下,對本發明進行修改。 【圖式簡單說明】 本發明所獨有的新功能將於下述申請專利範圍中說 明。而本發明及其較佳的實施方式、更進一步的目標和優 點,可藉由參考以下一實施例的詳細描述及其圖示,達到 最佳的瞭解,其中圖示的部分為: 第1圖為一可實施本發明的資料處理系統方塊圖; 第 2圖為一可實施本發明的模範邏輯分割平台方塊 圖, 第3圖說明根據本發明較佳實施例,一作業系統向管 理軟體註冊其管理特定錯誤或事件能力之程序; 第 4圖說明當該作業系統有能力管理該錯誤或事件 時,本發明一較佳實施例中管理一事件或錯誤之程序; 第5圖說明當該作業系統沒有能力管理該錯誤或事件 時,本發明一較佳實施例中管理一事件或錯誤之程序; 16 1241525 第6圖為一流程圖,說明根據本發明一較佳實施例, 從一作業系統接收管理能力的程序;以及 第7圖為一流程圖,說明根據本發明一較佳實施例, 在一邏輯分割中執行的一作業系統之管理事件的程序u 【元件代表符號簡單說明】 100資料處理系統 101、 102、 103、 104、 232、 234、 236、 238 處理器 1 0 6系統匯流排 1 0 8記憶體控制器/快取 1 10 I/O匯流排橋接器 1 12 I/O匯流排 114周邊零件連接介面(PCI)主橋接器 116、124、132、1 42 PCI 對 PCI 橋接器 115、 118、 119、 123、 126、 127、 131 、 133、 141 、 144、 145 > 195 PCI 匯流排 1 34 JTAG/I2C 匯流排 120、121、128、129、136 PCI I/O 介面卡 122、130、140 PCI 主橋接器 1 3 5服務處理器 1 4 8繪圖介面卡 、1 4 9硬碟介面卡 17 1241525 1 50硬碟 160、162、163區域記憶體 170、171、175 I/O 插槽 190硬體作業控制台 191 、 240 、 242 、 244 、 246 記憶體 192非揮發性記憶體(NVRAM) 193 PCI/ISA 橋接器 1 94服務處理器信件匣介面與I S A匯流排存取傳遞邏輯 196 ISA匯流排 200邏輯分割平台 、 202 、 204 、 206 、 208 、 300 作業系統 203、 205、 207、 209、 302 分割區 210分割管理韌體(hypervisor) 211、213、215、217韌體載入器 230分割硬體 248、 250、 252、 254、 256、 258、 260、 262 輸入/輸出介 面卡 270儲存單元 . 290服務處理器 298非揮發性記憶體 304 、 308 資訊 3 0 6管理軟體 3 1 0資料結構 18 1241525 4 Ο 0硬體原件 402、500事件或錯言 4 0 4、5 0 2 查詢 406正面的結果 4 0 8通知 5 04負面的結果 5 0 6終止 600接收作業系統的 602將這些能力寫進 604等待事件或錯誤 700發現事件 702作業系統是否支 704向該作業系統通 706指揮作業系統採 708作業系統是否完 7 1 0終止作業系統和 能力 記憶體中 援該事件? 知有該事件 取適當的措施 成指令? /或分割區 19
Claims (1)
1241525 拾、申請專利範面: 1. 一種方法,其至少包含: 從一作業系統接收識別一系列該作業系統有能力 管理的事件之資訊: 當一事件發生時,判斷該事件是否包含在該系列 事件之t ; 若該事件包含在該系列事件之中,則將該事件通 知該作業系統;以及 若該事件不包含在該系列事件之中,則指揮該作 業系統採取一措施。 2. 如申請專利範圍第1項所述之方法,其中之事件為一 錯誤。 3. 如申請專利範圍第 2項所述之方法,其中之錯誤發生 在一硬體元件内。 4. 如申請專利範圍第1項所述之方法,其中之措施為終 止該作業系統的執行。 5. 如申請專利範圍第4項所述之方法,其中之作業系統 係正在一資料處理系統的邏輯分割内執行,而其中終 止該作業系統的執行包含終止該邏輯分割。 20 1241525 6. 如申請專利範圍第1項所述之方法,其中之措施為處 理一嚴重錯誤。 7. 如申請專利範圍第1項所述之方法,更包含: 在指揮該作業系統採取一措施後,判斷該作業系 統是否已執行該措施;以及 若該作業系統無法執行該措施,則終止該作業系 統的執行。 8 ·如申請專利範圍第7項所述之方法,其中之作業系統 係正在一資料處理系統的邏輯分割内執行,而其中終 止該作業系統的執行包含終止該邏輯分割。 9. 一種方法,其至少包含: 將一資料處理系統邏輯分割内的作業系統初始 4匕;以及 向該資料處理系統内的管理軟體註冊該作業系統 有能力管理之一系列·錯誤狀態。. 1 0.如申請專利範圍第9項所述之方法,其中之管理軟體 至少包含該資料處理系統之韌體(firm ware)。 21 1241525 1 1 .如申請專利範圍第 9項所述之方法,其中之管理軟體 係在該邏輯分割外的環境下執行。 1 2. —種位於一電腦可讀取媒體上之電腦程式產品,其至 少包含功能性描述素材,當其由一電腦執行時,可讓 該電腦達成一些功能,該電腦程式產品包含: 從一作業系統接收識別一系列該作業系統有能力 管理的事件之資訊: 當一事件發生時,判斷該事件是否包含在該系列 事件之中; 若該事件包含在該系列事件之中,則將該事件通 知該作業系統;以及 若該事件不包含在該系列事件之中,則指揮該作 業系統採取一措施。 1 3 .如申請專利範圍第12項所述之電腦程式產品,其中之 事件為一錯誤。 1 4 ·如申請專利範圍第1 3項所述之電腦程式產品,其中之 錯誤發生在一硬體元件内。 1 5.如申請專利範圍第12項所述之電腦程式產品,其中之 措施為終止該作業系統的執行。 22 1241525 1 6 ·如申請專利範圍第1 5項所述之電腦程式產品,其中之 作業系統係正在一資料處理系統的邏輯分割内執行, 而其中終止該作業系統的執行包含終止該邏輯分割。 1 7.如申請專利範圍第12項所述之電腦程式產品,其中之 措施為處理一嚴重錯誤。 1 8..如申請專利範圍第12項所述之電腦程式產品,其至少 包含其他功能性描述素材,當其由該電腦執行時,可 讓該電腦達成其他的功能,該電腦程式產品包含: 在指揮該作業系統採取一措施後,判斷該作業系 統是否已執行該措施;以及 若該作業系統無法執行該措施,則終止該作業系 統的執行。 1 9.如申請專利範圍第1 8項所述之電腦程式產品,其中之 作業系統係正在一資料處理系統的邏輯分割内執行, 而其中終止該作業系統的執行包含終止該邏輯分割。 2 0. —種電腦可讀取媒體之電腦程式產品,其包含功能性 描述素材,當其由電腦執行時,可讓該電腦達成一 些功能,該電腦程式產品包含: 23 1241525 將一資料處理系統邏輯分割内的作業系統初始 化;以及 向該資料處理系統内的管理軟體註冊該作業系統 有能力管理之一系列錯誤狀態。 2 1 .如申請專利範圍第2 0項所述之電腦程式產品,其中之 功能性描述素材為該作業系統之一部分。 2 2.如申請專利範圍第20項所述之電腦程式產品,其至少 包含其他功能性描述素材,當其由該電腦執行時.,可 讓該電腦執行其他的功能,該電腦程式產品包含: 從一儲存裝置載入該作業系統。 2 3. —種資料處理系統,其至少包含: 一處理單元,其至少包含一處理器; 與該處理單元通信之記憶體;以及 儲存在該記憶體内之韌體; 其中之處理單元執行該韌體以達成一些功能,其 包含: 從一作業系統接收識別一系列該作業系統有能力 管理的事件之資訊: 當一事件發生時,判斷該事件是否包含在該系列 事件之中; 24 1241525 若該事件包含在該系列事件之中,則將該事件通 知該作業系統;以及 若該事件不包含在該系列事件之中,則指揮該作 業系統採取一措施。 24. 申請專利範圍第23項所述之資料處理系統,其中之事 件為一錯誤。 25. 如申請專利範圍第24項所述之資料處理系統,其中之 錯誤發生在一硬體元件内。 2 6.如申請專利範圍第23項所述之資料處理系統,其中之 措施為終止該作業系統的執行。 27. 如申請專利範圍第26項所述之資料處理系統,其中之 作業系統係正在一資料處理系統的邏輯分割内執行, 而其中終止該作業系統的執行包含終止該邏輯分割。 28. 如申請專利範圍第23項所述之資料處理-系統,其中之 措施為處理一嚴重錯誤。 ‘29.如申請專利範圍第23項所述之資料處理系統,其中.之 處理單元執行該韌體以達成下述之其他功能: 25 1241525 在指揮該作業系統採取一措施後,判斷該作業系 統是否已執行該措施;以及 若該作業系統無法執行該措施,則終止該作業系 統的執行。 3 0.如申請專利範圍第2 9項所述之資料處理系統,其中之 作業系統係正在一資料處理系統的邏輯分割内執行, 而其中終止該作業系統的執行包含終止該邏輯分割。 3 1 . —種資料處理系統,其至少包含: ♦ 從一作業系統接收識別一系列該作業系統有能力 管理的事件之資訊的方法: 當一事件發生時,判斷該事件是否包含在該系列 事件之中的方法; 若該事件包含在該系列事件之中,則將該事件通 知該作業系統的方法;以及 若該事件不包含在該系列事件之中,則指揮該作 業系統採取一措施的方法。 3 2. —種資料處理系統,其至少包含: 將一資料處理系統邏輯分割内的作業系統初始化 之方法;以及 26 1241525 向該資料處理系統内的管理軟體註冊該作業系統 有能力管理之一系列錯誤狀態之方法。 27
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| US10/132,136 US6920587B2 (en) | 2002-04-25 | 2002-04-25 | Handling multiple operating system capabilities in a logical partition data processing system |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| TW200400468A TW200400468A (en) | 2004-01-01 |
| TWI241525B true TWI241525B (en) | 2005-10-11 |
Family
ID=29248695
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| TW092109267A TWI241525B (en) | 2002-04-25 | 2003-04-21 | Handling multiple operating system capabilities in a logical partition data processing system |
Country Status (3)
| Country | Link |
|---|---|
| US (1) | US6920587B2 (zh) |
| JP (1) | JP3910554B2 (zh) |
| TW (1) | TWI241525B (zh) |
Cited By (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| TWI463407B (zh) * | 2008-06-27 | 2014-12-01 | Ibm | 包含動態合併實體分割之資訊處置系統 |
| CN107203451A (zh) * | 2016-03-18 | 2017-09-26 | 伊姆西公司 | 用于在存储系统中处理故障的方法及设备 |
Families Citing this family (36)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2002251326A (ja) * | 2001-02-22 | 2002-09-06 | Hitachi Ltd | 耐タンパ計算機システム |
| US8612992B2 (en) * | 2003-04-09 | 2013-12-17 | Jaluna Sa | Operating systems |
| EP1467282B1 (en) * | 2003-04-09 | 2008-10-01 | Jaluna SA | Operating systems |
| US7117385B2 (en) * | 2003-04-21 | 2006-10-03 | International Business Machines Corporation | Method and apparatus for recovery of partitions in a logical partitioned data processing system |
| EP1503286B1 (en) * | 2003-07-30 | 2014-09-03 | Jaluna SA | Multiple operating system networking |
| CN1922576A (zh) * | 2003-09-30 | 2007-02-28 | 扎鲁纳股份有限公司 | 操作系统 |
| US20050182701A1 (en) * | 2004-02-12 | 2005-08-18 | International Business Machines Corporation | Method, system, and service for tracking and billing for technology usage |
| US7260752B2 (en) * | 2004-02-19 | 2007-08-21 | International Business Machines Corporation | Method and apparatus for responding to critical abstracted platform events in a data processing system |
| US7383555B2 (en) | 2004-03-11 | 2008-06-03 | International Business Machines Corporation | Apparatus and method for sharing a network I/O adapter between logical partitions |
| US7509538B2 (en) * | 2004-04-21 | 2009-03-24 | Microsoft Corporation | Systems and methods for automated classification and analysis of large volumes of test result data |
| US8028189B2 (en) * | 2004-11-17 | 2011-09-27 | International Business Machines Corporation | Recoverable machine check handling |
| US7325163B2 (en) * | 2005-01-04 | 2008-01-29 | International Business Machines Corporation | Error monitoring of partitions in a computer system using supervisor partitions |
| US7543305B2 (en) * | 2005-03-24 | 2009-06-02 | International Business Machines Corporation | Selective event registration |
| JP2007226413A (ja) * | 2006-02-22 | 2007-09-06 | Hitachi Ltd | メモリダンプ方法、メモリダンププログラム、及び、計算機システム |
| US8327008B2 (en) | 2006-06-20 | 2012-12-04 | Lenovo (Singapore) Pte. Ltd. | Methods and apparatus for maintaining network addresses |
| US8209668B2 (en) | 2006-08-30 | 2012-06-26 | International Business Machines Corporation | Method and system for measuring the performance of a computer system on a per logical partition basis |
| US7979749B2 (en) * | 2006-11-15 | 2011-07-12 | International Business Machines Corporation | Method and infrastructure for detecting and/or servicing a failing/failed operating system instance |
| US7783867B2 (en) * | 2007-02-01 | 2010-08-24 | International Business Machines Corporation | Controlling instruction execution in a processing environment |
| US8352960B2 (en) * | 2007-08-13 | 2013-01-08 | International Business Machines Corporation | Limiting receipt of unsolicited events by a logical partition in a data storage system |
| US20090049456A1 (en) * | 2007-08-13 | 2009-02-19 | Ibm Corporation | Limiting receipt of unsolicited events by a logical partition in a data storage system |
| US8655868B2 (en) * | 2007-09-12 | 2014-02-18 | Ebay Inc. | Inference of query relationships based on retrieved attributes |
| US7779305B2 (en) * | 2007-12-28 | 2010-08-17 | Intel Corporation | Method and system for recovery from an error in a computing device by transferring control from a virtual machine monitor to separate firmware instructions |
| US8201029B2 (en) * | 2008-01-31 | 2012-06-12 | International Business Machines Corporation | Method and apparatus for operating system event notification mechanism using file system interface |
| US8195981B2 (en) * | 2008-06-03 | 2012-06-05 | International Business Machines Corporation | Memory metadata used to handle memory errors without process termination |
| US7953914B2 (en) * | 2008-06-03 | 2011-05-31 | International Business Machines Corporation | Clearing interrupts raised while performing operating system critical tasks |
| JP5251385B2 (ja) * | 2008-09-16 | 2013-07-31 | 富士通株式会社 | イベント検出システム、イベント検出方法、およびプログラム |
| JP4888742B2 (ja) | 2009-02-25 | 2012-02-29 | ソニー株式会社 | 情報処理装置および方法、並びにプログラム |
| US8132057B2 (en) * | 2009-08-07 | 2012-03-06 | International Business Machines Corporation | Automated transition to a recovery kernel via firmware-assisted-dump flows providing automated operating system diagnosis and repair |
| US8510599B2 (en) * | 2010-06-23 | 2013-08-13 | International Business Machines Corporation | Managing processing associated with hardware events |
| US8793686B2 (en) * | 2011-06-08 | 2014-07-29 | Microsoft Corporation | Operating system decoupled heterogeneous computing |
| US8713378B2 (en) * | 2011-07-07 | 2014-04-29 | Microsoft Corporation | Health monitoring of applications in a guest partition |
| WO2013095573A1 (en) | 2011-12-22 | 2013-06-27 | Intel Corporation | Activation and monetization of features built into storage subsystems using a trusted connect service back end infrastructure |
| US9026865B2 (en) * | 2012-06-11 | 2015-05-05 | Unisys Corporation | Software handling of hardware error handling in hypervisor-based systems |
| JP5933356B2 (ja) * | 2012-06-12 | 2016-06-08 | ルネサスエレクトロニクス株式会社 | コンピュータシステム |
| CN105051698B (zh) * | 2013-03-28 | 2018-11-16 | 瑞典爱立信有限公司 | 用于基础设施即服务云中故障管理的方法和布置 |
| US12423211B2 (en) * | 2022-12-22 | 2025-09-23 | Lenovo Enterprise Solutions (Singapore) Pte Ltd. | Generating partition-dependent log output |
Family Cites Families (21)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US4371930A (en) * | 1980-06-03 | 1983-02-01 | Burroughs Corporation | Apparatus for detecting, correcting and logging single bit memory read errors |
| JPS5755454A (en) | 1980-09-19 | 1982-04-02 | Hitachi Ltd | Failure recovery system |
| US4535455A (en) * | 1983-03-11 | 1985-08-13 | At&T Bell Laboratories | Correction and monitoring of transient errors in a memory system |
| US4604751A (en) * | 1984-06-29 | 1986-08-05 | International Business Machines Corporation | Error logging memory system for avoiding miscorrection of triple errors |
| US5072450A (en) * | 1989-07-27 | 1991-12-10 | Zenith Data Systems Corporation | Method and apparatus for error detection and localization |
| US5245615A (en) * | 1991-06-06 | 1993-09-14 | International Business Machines Corporation | Diagnostic system and interface for a personal computer |
| US5263032A (en) * | 1991-06-27 | 1993-11-16 | Digital Equipment Corporation | Computer system operation with corrected read data function |
| JP2888401B2 (ja) * | 1992-08-03 | 1999-05-10 | インターナショナル・ビジネス・マシーンズ・コーポレイション | 冗長ディスクドライブアレイに対する同期方法 |
| US5504859A (en) * | 1993-11-09 | 1996-04-02 | International Business Machines Corporation | Data processor with enhanced error recovery |
| US5729767A (en) * | 1994-10-07 | 1998-03-17 | Dell Usa, L.P. | System and method for accessing peripheral devices on a non-functional controller |
| JPH08137764A (ja) | 1994-11-10 | 1996-05-31 | Fujitsu Ltd | 記憶装置のソフトエラー回復方法と固定障害検出方法 |
| US5889933A (en) * | 1997-01-30 | 1999-03-30 | Aiwa Co., Ltd. | Adaptive power failure recovery |
| DE69827949T2 (de) * | 1997-07-28 | 2005-10-27 | Intergraph Hardware Technologies Co., Las Vegas | Gerät und verfahren um speicherfehler zu erkennen und zu berichten |
| US6269409B1 (en) * | 1997-09-02 | 2001-07-31 | Lsi Logic Corporation | Method and apparatus for concurrent execution of operating systems |
| US6061788A (en) * | 1997-10-02 | 2000-05-09 | Siemens Information And Communication Networks, Inc. | System and method for intelligent and reliable booting |
| US6658486B2 (en) * | 1998-02-25 | 2003-12-02 | Hewlett-Packard Development Company, L.P. | System and method for efficiently blocking event signals associated with an operating system |
| US6317848B1 (en) * | 1998-09-24 | 2001-11-13 | Xerox Corporation | System for tracking and automatically communicating printer failures and usage profile aspects |
| US6594774B1 (en) * | 1999-09-07 | 2003-07-15 | Microsoft Corporation | Method and apparatus for monitoring computer system objects to improve system reliability |
| US6601188B1 (en) * | 1999-10-28 | 2003-07-29 | International Business Machines Corporation | Method and apparatus for external crash analysis in a multitasking operating system |
| US6636991B1 (en) * | 1999-12-23 | 2003-10-21 | Intel Corporation | Flexible method for satisfying complex system error handling requirements via error promotion/demotion |
| US6792564B2 (en) * | 2001-03-01 | 2004-09-14 | International Business Machines Corporation | Standardized format for reporting error events occurring within logically partitioned multiprocessing systems |
-
2002
- 2002-04-25 US US10/132,136 patent/US6920587B2/en not_active Expired - Lifetime
-
2003
- 2003-04-03 JP JP2003100322A patent/JP3910554B2/ja not_active Expired - Lifetime
- 2003-04-21 TW TW092109267A patent/TWI241525B/zh not_active IP Right Cessation
Cited By (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| TWI463407B (zh) * | 2008-06-27 | 2014-12-01 | Ibm | 包含動態合併實體分割之資訊處置系統 |
| CN107203451A (zh) * | 2016-03-18 | 2017-09-26 | 伊姆西公司 | 用于在存储系统中处理故障的方法及设备 |
| CN107203451B (zh) * | 2016-03-18 | 2020-09-18 | 伊姆西Ip控股有限责任公司 | 用于在存储系统中处理故障的方法及设备 |
Also Published As
| Publication number | Publication date |
|---|---|
| TW200400468A (en) | 2004-01-01 |
| US20030204780A1 (en) | 2003-10-30 |
| JP2003323306A (ja) | 2003-11-14 |
| JP3910554B2 (ja) | 2007-04-25 |
| US6920587B2 (en) | 2005-07-19 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| TWI241525B (en) | Handling multiple operating system capabilities in a logical partition data processing system | |
| JP3954088B2 (ja) | 論理分割された(lpar)計算機でシステム・ファームウェア更新を安全に実行する機構 | |
| US7480911B2 (en) | Method and apparatus for dynamically allocating and deallocating processors in a logical partitioned data processing system | |
| US6865688B2 (en) | Logical partition management apparatus and method for handling system reset interrupts | |
| TWI329264B (en) | Method and apparatus for reducing power consumption in a logically partitioned data processing system | |
| JP3962393B2 (ja) | グローバル・エラーを報告するための論理分割データ処理システム | |
| JP5579354B2 (ja) | 関連アプリケーションに対するトラック・データ・クロスリファレンスを保存する方法及び装置 | |
| JP3943538B2 (ja) | 論理区画化データ処理システムにおいてエラーログを管理する方法 | |
| US7107495B2 (en) | Method, system, and product for improving isolation of input/output errors in logically partitioned data processing systems | |
| US7120823B2 (en) | Method and apparatus for recovering logical partition configuration data | |
| JP3943998B2 (ja) | ロジカル・パーティショニングの実施をテストする方法、その方法をコンピュータに実行させるためのプログラムを記録したコンピューター可読記録媒体及びロジカル・パーティショニング・テスト・システム | |
| JP2002304364A (ja) | Pci入出力スロットの論理分割を実施する方法および装置 | |
| US7877643B2 (en) | Method, system, and product for providing extended error handling capability in host bridges | |
| JP2004318880A (ja) | ロジカル・パーティション・データ処理システムにおいてパーティション・ファームウェアを同時更新及び活動化するための方法及び装置 | |
| TWI337305B (en) | Method and apapratus for preventing loading and execution of rogue operating systems in a logical partitioned data processing system | |
| JP2007299400A (ja) | ランタイム・メモリー実行可能分離のための方法、コンピュータ・プログラム、及びデータ処理システム(ランタイム・メモリー実行可能分離のための方法及び装置) | |
| US20060010277A1 (en) | Isolation of input/output adapter interrupt domains | |
| JP4366336B2 (ja) | 論理パーティション・データ処理システムにおいてトレース・データを管理するための方法、トレース・データを管理するための論理パーティション・データ処理システム、コンピュータにトレース・データを管理させるためのコンピュータ・プログラム、論理パーティション・データ処理システム | |
| US7260752B2 (en) | Method and apparatus for responding to critical abstracted platform events in a data processing system | |
| US7302690B2 (en) | Method and apparatus for transparently sharing an exception vector between firmware and an operating system |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| MK4A | Expiration of patent term of an invention patent |