TWI310495B

TWI310495B - Method, processor, and machine readable medium for recording the relative instructions, of handling software errors

Info

Publication number: TWI310495B
Application number: TW094144135A
Authority: TW
Inventors: Tryggve Fossum; Yaron Shragai; Shubhendu Mukherjee
Original assignee: Intel Corp
Priority date: 2004-12-14
Filing date: 2005-12-13
Publication date: 2009-06-01
Also published as: US7370231B2; CN101076786A; JP4866366B2; TW200634505A; JP2008523513A; US20060156153A1; CN100501686C; DE112005002975T5; WO2006065687A1

Description

1310495 (1) 九、發明說明【發明所屬之技術領域】本發明係關於處理器的錯誤操控常式，以及操控錯誤之方法。【先前技術】在封裝半導體裝置時，來自宇宙射線的諸如中子等有力的次原子粒子和來自放射性軌跡組件的α粒子在通過此種裝置時會產生電洞對。裝置中的電晶體源極和汲極收集這些電荷’最後足夠的電荷累積會使倂入此種電晶體的邏輯裝置產生相反狀態或倒裝，將邏輯錯誤引進電路操作內。因爲他們不是裝置的永久故障，所以這些錯誤是瞬時的，因此稱作軟性或瞬時錯誤。軟性錯誤的共同形式是形成諸如快取記憶格或暫存器記憶格等記憶格的部份，使此種記憶格所表示的位元從其預期値倒裝之電晶體中的錯誤。影響處理器或其他半導體裝置的軟性錯誤之可能性視晶片上電晶體的數目而定。尤其是在處理器的例子中，晶片上電晶體的數目已快速成長，因此由於軟性錯誤所導致的錯誤率也成比例成長。因此，減少處理器操作上的軟性錯誤之影響的重要性增加。圖1圖解諸如暫存器或快取記憶體等處理器記憶單元中的軟性錯誤之分類，爲了清楚而描畫成流程圖。當軟性錯誤發生時，1 1 0，若尙未讀取受影響位元，則錯誤被視作良性的，1 2 0及1 4 0。若位元被讀取，但是諸如快取記 -5- (2) 1310495 憶體線路或暫存器組合等受影響單元已內建錯誤保護， 1 3 0，則該錯誤可以被恢復或至少可被偵測。此種錯誤校正眾所皆知’例如包括同位或E C C設計。在位元未具有錯誤保護的情況中’並且位元影響處理器中在進行中的任何數値計算之正確性’則宣稱已發生沈默的資料訛誤1 8 0 •。這是處理器設計人最不想要的狀態，並且試圖最小化其 , 可能性。 φ 若錯誤被偵測並且能夠被校正，1 5 0，則位元被設定或重新設定到其原有値及正常地繼續處理器操作，190。若已偵測到錯誤，但是錯誤無法被校正，則處理器將採取其他動作，因爲此種錯誤被視作無法恢復的，1 7 0。此錯誤類型被稱作被偵測到不可恢復的錯誤或DUE。通常，DUE導致試圖讀取錯誤位元之至少執行處理的錯誤產生終止，有時產生機器暫停或重新啓動之處理器上操作的整座作業系統之錯誤產生終止。當然，相對於整座 • 系統終止其中一處理以最小化DUE的總影響較佳。在諸如必定使用的伺服器等高度可靠系統中，設計人試圖確保 ' 系統終止DUE之間的平均時間非常高，如25年。當偵測到DUE時，處理器通常進入軟體錯誤操控常式。使用暫存器錯誤日誌，常式決定DUE是否批准處理或系統終止並且如何繼續做。在其中一方案中，在針對第一 DUE執行錯誤操控常式期間發生第二DUE。儘管此種發生極不可能，但是高度可靠性處理器的設計人必須設想到此方案。 -6- (3) 1310495 【發明內容】及【實施方式】圖2描畫在一實施例中以處理器爲主的系統。此種系統包括處理器2 1 0 ;儲存子系統，包括讀寫隨機存取記憶體（RAM記憶體）270及唯讀記憶體（ROM記憶體）290 • 以儲存處理器可執行的資料和程式；及非揮發性儲存單元諸如碟系統2 8 0等，由匯流排系統2 6 0互聯，並且經由 φ 系統輸入/輸出（10 )裝置和周邊設備250與外來網路或使用者連繫。處理器包括一組通用暫存器220，用於處理器上所執行的處理以儲存經常使用的資料；表示處理器操作的各方面的狀態之一組狀態旗標或位元240 ;及能夠在 ' 狀態旗標之間互動的信號邏輯2 3 0。諸如快取記憶體、邏 ' 輯單元、管線等許多其他組件也可當作處理器的組件，同樣的其他組件可用於以處理器爲主的系統，但是爲了清楚起見，不在此處描述。 φ 當諸如圖2所描畫的處理器等處理器偵測可偵測的不 • 可恢復的錯誤或DUE時，典型上藉由諸如同位檢查或 - ECC等錯誤偵測機制的操作，通常中斷目前執行的處理並且開始執行軟體錯誤操控常式。在一實施例中，錯誤操控常式被設計成最小化本身受到在執行錯誤操控常式期間發生的第二或隨後DUE之影響。例如，可藉由關掉快取記億體執行常式，以便使本身不接觸到快取記憶體中可能的錯誤。可儲存常式在受到DUE的影響比快取記憶體或系統記憶體中的RAM記億格小之ROM 290中。即使常式不 -7- (4) 1310495 需要使用諸如快取記憶體或暫存器中的RAM記憶格等 RAM記憶格，在修正常式之前，常式仍可清除用於儲存體的區域之內容。然而，通常，對錯誤操控常式而言，在未讀取受DUE影響的某些記憶格，無論是暫存器、快取記憶體、或系統記憶體等而執行是非常困難的，因此，在常 . 式寫到記憶格時和從記憶格讀取常式時之間的常式執行期 .間，影響常式的正確之DUE可能發生，這種可能性雖然 φ 很小，但是仍是存在的。尤其是，在常式執行的某些時候 ’錯誤操控器將必須寫入然後讀取至少某些處理器的通用暫存器（通用暫存器220 )以便執行常式工作，所以此時非常可能。若在操控第一DUE之前偵測到第二DUE，則在錯誤 • 操控器作動之後第二DUE可能發生或不會發生，因爲與錯誤操控無關的許多記憶讀取發生在報告第一 DUE時和實際作動錯誤操控時之間。決定DUE是否在作動常式之 φ 前或之後發生是有用的’以便限制產生若在常式作動之後 ‘ DUE事實上已發生所必要之系統終止的需要，因爲此暗示 • 著常式本身可能的訛誤。圖3描畫與此議題有關的系統之可能狀態。當錯誤操控器開始時，當錯誤操控器一開始執行時，錯誤操控器或其希望的機制典型上就清除錯誤狀態旗標。而且，在某些實施例中，旗標可被設定成表示錯誤操控器作動。清除錯誤狀態旗標及上升操控器作動旗標的此狀態被圖示在3 i 〇。從此狀態，處理器可移動到有關錯誤操控作動狀態和錯 -8- (5) 1310495 誤狀態之兩可能狀態的其中之一。在一選擇中’錯誤操控器終止卻沒有另一 DUE發生（錯誤狀態旗標仍被清除，及操控器作動旗標也被清除，330)及處理終止可被用於操控第一 DUE。在另一選擇中’在320中發生錯誤操控器作動且上升表示第二due的錯誤狀態旗標之狀態。此狀態表示在執行DUE中的錯誤’且沒有更多的資訊’當偵測到此狀態時用以操控錯誤的謹慎途徑係產生系統終止。在一實施例中，上文參考圖2所討論的信號邏輯230 被用於偵測圖3所示的狀態3 20。例如’在Intel®Itanium 處理器中，藉由信號邏輯可偵測到表示在上升PSR.mc旗標的同時，同時發生上升硬體通用暫存器錯誤日誌的旗標和’’機器檢查"（me )錯誤處理常式的作動之PSR.mc位元的情況以表示可能危及機器檢查常式的正確之狀態。儘管可實施上述的解決方案，但是其涵蓋過多，連第二DUE不影響錯誤操控器而只中斷處理的情況也包括。在一實施例中，在使用錯誤操控常式之前，錯誤操控常式至少儲存一些通用暫存器到暫時記憶體區。若報告due 在執行常式期間影響通用暫存器，則決定在常式開始使用通用暫存器之前或之後所發生的DUE是否有用，以便限制對只在常式開始使用暫存器之後影響通用暫存器的情況產生系統終止之需要。圖4描畫被設計成偵測目前所操控的D U E錯誤之後發生的第二DUE之錯誤操控常式內的處理，並且更進一步決定錯誤是否可能影響常式的執行。在圖式中，在利用 -9- (6) 1310495 儲存第一DUE可能使用的任何通用暫存器（GR )之 410回應第一 DUE引起之後開始常式405。然後常式通用暫存器硬體錯誤日誌，415，以檢查是否有任何被接在第一 DUE之後的硬體上升旗標。若硬體表示被上升旗標，420，則這是影響中斷處理的DUE。常稍後的操控儲存通用暫存器DUE資訊425，清除GR 日誌43 0，然後，清除且使用通用暫存器，445。在使用暫存器並且完成操控第一 DUE之後，常式再次檢用暫存器錯誤日誌，450。若在此狀態發現錯誤，455 非常可能已發生危及錯誤操控常式的正確性之錯誤而開始實施系統終止處理，43 5。否則，處理器可正常止 44 0。儘管已在附圖中圖示並且說明特定範例性實施例是應明白就本發明的各種實施例之廣義而言，此種實僅作爲圖解用而非限制，並且這些實施例並不侷限於明和圖示的特定限制及配置，所以可以有各種其他修可以在硬體、可程式化裝置、韌體、軟體、或其組合施這些實施例或他們特徵中的某些特徵。根據申請專利範圍的主題，這些實施例可被提供電腦程式產品，可包括已儲存由機器所存取時可讓機夠執行處理之資料在其上的機器可讀媒體。機器可讀可包括軟式磁片、光碟、DVD-ROM碟、DVD-RAM DVD-RW 碟、DVDRW 碟、CD-R 碟、CD-RW 碟，及碟、ROMs、RAM、EPROM、EEPROM、磁卡或光學步驟檢查 DUE DUE 式爲錯誤用通查通，則可以地終，但施例所說正。中實當作器能媒體碟、磁光卡片 -10- (7) 1310495 、快閃記憶體、或適用於儲存電子指令之其他類型的媒體 /機器可讀媒體，但是並不侷限於此。而且’也可下載實施例當作電腦程式產品，其中透過通訊鏈結（如、數據機或網路連接等）經由包含在載波或其他傳播媒體之資料信號從遠端電腦移轉程式到請求電腦。以最基本形式說明方法中的大部分，但是在不違背申請專利範圍的主題基本範圍之下，可從任一方法中添加或刪除步驟，並且可從任一說明的訊息中添加或去除資訊。精於本技藝之人士應明白可進行許多更進一步的修正和調整。特定的實施例並不用於限制本發明而只是作爲圖解說明用。並不是由上述的特定例子而是由下面的申請專利範圍決定申請專利範圍的主題範疇。【圖式簡單說明】圖1爲根據流程圖一般的偵測、影響、及減輕的軟性錯誤和各種結果之影響圖（習知技術）。圖2爲在一實施例中以處理器爲主的系統圖。圖3爲回應一實施例中的第一 DUE採用錯誤操控常式之作動的可能狀態之狀態圖。圖4爲減輕在錯誤操控一實施例中的第一 DUE期間所發生之第二DUE的影響之軟體爲主的解決方法之流程圖。【主要元件符號說明】 -11 - (8) 1310495 2 1 0 :處理器 220 :通用暫存器 2 3 0 :信號邏輯 2 4 0 :旗標 25 0 :輸入/輸出裝置和周邊設備 2 6 0 :匯流排系統 2 70 :隨機存取記憶體 2 8 0 :碟系統 2 9 0 :唯讀記憶體 -12 -

Claims

1310495 「_____________, #年1月VMi修正.本j 十、申請專利範圍附件4 A ·· 第9 4 1 4 4 1 3 5號專利申請案中文申請專利範圍替換本：民國9 8年1月22日修正 1· 一種操控軟體錯誤之方法，包含：

在處理器的錯誤操控常式中，執行以回應該處理器的第一偵測到不可恢復的錯誤（DUE )，且藉由評估第二 DUE對錯誤操控常式的正確性的一或多個影響而回應已發生第二DUE之指示；該錯誤操控常式儲存該處理器的一組通用暫存器之內容到暫時儲存體；以及在儲存該組通用暫存器的內容之後，該錯誤操控常式清除通用暫存器錯誤日誌，該通用暫存器錯誤日誌記錄在該處理器的該通用暫存器中的DUE。 2 .根據申請專利範圍第1項之操控錯誤的方法，另外包含決定該第二DUE是否發生在該錯誤操控常式所使用的資源中；及是否在終止該錯誤操控常式之前做出已發生該第二DUE的該指示。 3 .根據申請專利範圍第2項之操控錯誤的方法’其中表示該第二DUE已發生在該錯誤操控常式所使用的資源中之指示包含該處理器的宣告錯誤狀態旗標。 4.根據申請專利範圍第3項之操控錯誤的方法’另外包含偵測該處理器的該錯誤狀態旗標和表示該錯誤操控常 1310495 式作動的旗標都宣告之狀態。 5.根據申請專利範圍第4項之操控錯誤的方法，其中該錯誤操控常式所使用的該資源包含該處理器的通用暫存器。 6 .根據申請專利範圍第1項之操控錯誤的方法，另外包含：若評估決定該第二DUE已對錯誤操控常式的正確性有影響，則宣告系統終止異常，否則宣告處理終止異常

7.根據申請專利範圍第4項之操控錯誤的方法，另外包含：若偵測到其中該處理器的該錯誤狀態旗標和表示該錯誤操控常式的作動的旗標都宣告的情形時，則宣告系統終止異常，否則宣告處理終止異常。 8 .根據申請專利範圍第1項之操控錯誤的方法，另外包含：若在錯誤操控常式的剩下操作期間宣告通用暫存器錯誤旗標，則宣告系統終止異常，否則宣告處理終止異常。 9 . 一種操控軟體錯誤之處理器，包含：一錯誤偵測系統，用以偵測該處理器的資源中之第一偵測到不可恢復的錯誤（DUE ):及邏輯，用以執行錯誤操控常式以回應第一 DUE，和回應來自錯誤偵測系統之藉由評估第二DUE對錯誤操控常式的正確性的影響而已發生第二DUE之指示；其中，該錯誤操控常式另外儲存該處理器的一組通用 -2- 1310495 暫存器之內容到暫時儲存體；及在儲存該組通用暫存器的內容之後，該錯誤操控常式另外清除通用暫存器錯誤日誌，該通用暫存器錯誤日誌用以記錄在該處理器的該通用暫存器中的DUE。 1 〇 .根據申請專利範圍第9項之處理器，其中該錯誤操控常式另外決定該第二DUE是否發生在該錯誤操控常式所使用的處理器資源中；及

是否在該錯誤操控常式的終止之前做出已發生該第二 DUE的該指示。 1 1 .根據申請專利範圍第1 〇項之處理器，其中表示該第二DUE已發生在該錯誤操控常式所使用的資源中之指示包含該處理器的被宣告錯誤狀態旗標。 1 2 .根據申請專利範圍第1 1項之處理器，另外包含：邏輯，用以偵測其中該處理器的該錯誤狀態旗標和表示該錯誤操控常式的作動的旗標都宣告之狀態。 1 3 .根據申請專利範圍第1 2項之處理器，其中該錯誤操控常式所使用的資源包含該處理器的通用暫存器。 14.根據申請專利範圍第9項之處理器，其中該錯誤操控常式另外用以若評估決定該第二DUE已對該錯誤操控常式的正確性有影響，則宣告系統終止異常，否則宣告處理終止異常。 1 5 .根據申請專利範圍第1 2項之處理器，其中該錯誤操控常式另外用以若偵測到其中該處理器的該錯誤狀態旗標和表示該錯誤操控常式的作動的旗標都宣告時，則宣告 -3- 1310495 系統終止異常，否則宣告處理終止異常。 1 6 .根據申請專利範圍第9項之處理器，另外包含邏輯，用以若在該錯誤操控常式的剩下操作期間該通用暫存器錯誤旗標被宣告，則宣告系統終止異常，否則宣告處理終止異常。

1 7. —種記錄操控軟體錯誤之指令的機器可讀媒體，具有儲存在其上之由機器存取時使機器能夠執行方法之資料，該方法包含：執行處理器的錯誤操控常式以回應該處理器的第一偵測到不可恢復的錯誤（DUE )，和回應已發生第二DUE之指示，藉由評估該第二DUE對該錯誤操控常式的正確性之影響；該錯誤操控常式儲存該處理器的一組通用暫存器之內容到暫時儲存體；以及在儲存該組通用暫存器的內容之後，該錯誤操控常式清除通用暫存器錯誤日誌，該通用暫存器錯誤日誌用以記錄在該處理器的該通用暫存器中的DUE。 18.根據申請專利範圍第17項之機器可讀媒體，其中該方法另外包含：若在該錯誤操控常式的剩下操作期間宣告該通用暫存器錯誤日誌，則宣告系統終止異常，否則宣告處理終止異常。 1 9. 一種操控軟體錯誤之處理器的系統，包含處理器，該處理器包含： -4 - 1310495 一錯誤偵測系統，用以偵測該處理器的資源中之第一偵測到不可恢復的錯誤（due );及邏輯，用以執行錯誤操控常式以回應該第一 DUE，和回應來自錯誤偵測系統之已發生第二due之指示，藉由評估該第二DUE對該錯誤操控常式的正確性的影響；其中’該錯誤操控常式另外儲存該處理器的一組通用暫存器之內容到暫時儲存體；及

在儲存該組通用暫存器的內容之後，該錯誤操控常式另外清除通用暫存器錯誤日誌，該通用暫存器錯誤日誌用以記錄在該處理器的該通用暫存器中的DUE。 20.根據申請專利範圍第1 9項之系統，其中錯誤操控常式另外決定該第二DUE是否發生在該錯誤操控常式所使用的處理器資源中；及是否在終止該錯誤操控常式之前做出已發生該第二 DUE的該指示。 2 1 ·根據申請專利範圍第2 0項之系統，其中表示該第二DUE已發生在該錯誤操控常式所使用的資源中之指示包含該處理器的被宣告錯誤狀態旗標。 22 ·根據申請專利範圍第2 1項之系統，其中處理器另外包含邏輯，用以偵測其中該處理器的該錯誤狀態旗標和表示該錯誤操控常式的作動的旗標都宣告之狀態。 23.根據申請專利範圍第22項之系統，其中該錯誤操控常式所使用的該資源是該處理器的通用暫存器。 2 4 .根據申請專利範圍第2 2項之系統，其中該錯誤操 1310495 控常式另外用以若偵測到其中該處理器的該錯誤狀態旗標和表示該錯誤操控常式的作動的旗標都宣告的狀態時，則宣告系統終止異常，否則宣告處理終止異常。 -6-