JP2018120413A - Maintenance determining device, maintenance determining method, and program - Google Patents
Maintenance determining device, maintenance determining method, and program Download PDFInfo
- Publication number
- JP2018120413A JP2018120413A JP2017011221A JP2017011221A JP2018120413A JP 2018120413 A JP2018120413 A JP 2018120413A JP 2017011221 A JP2017011221 A JP 2017011221A JP 2017011221 A JP2017011221 A JP 2017011221A JP 2018120413 A JP2018120413 A JP 2018120413A
- Authority
- JP
- Japan
- Prior art keywords
- status
- storage register
- occurred
- memory
- status storage
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012423 maintenance Methods 0.000 title claims abstract description 75
- 238000000034 method Methods 0.000 title claims description 26
- 238000012544 monitoring process Methods 0.000 claims description 40
- 230000010365 information processing Effects 0.000 abstract description 8
- 238000012937 correction Methods 0.000 description 11
- 238000001514 detection method Methods 0.000 description 9
- 238000012545 processing Methods 0.000 description 9
- 230000000694 effects Effects 0.000 description 6
- 238000005259 measurement Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 2
- 208000011580 syndromic disease Diseases 0.000 description 2
- 230000005856 abnormality Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Landscapes
- Detection And Correction Of Errors (AREA)
- Techniques For Improving Reliability Of Storages (AREA)
- Debugging And Monitoring (AREA)
- For Increasing The Reliability Of Semiconductor Memories (AREA)
Abstract
Description
本発明は、保守判断装置、保守判断方法及びプログラムに関する。 The present invention relates to a maintenance determination device, a maintenance determination method, and a program.
さまざまな電気機器においてメモリが使用されている。メモリではデータにエラーが発生する場合がある。そのエラーとしては、ハードウェア的な故障によって生じるすなわち物理的な破損によって生じるハードエラーと、記憶素子のデータ化けによって生じるソフトエラーとが存在する。ハードエラーが発生した場合、物理的に破損した部品を交換する必要がある。しかしながら、ソフトエラーが発生した場合、ハードウェア的な故障は発生していないため、データ化けしているデータのアドレスに新たなデータが書き込まれればソフトエラーは解消される。
特許文献1には、関連する技術として、ハードエラーが発生したか否かを判定する技術が記載されている。
特許文献2には、関連する技術として、メモリでデータにエラーが発生した場合に、そのエラーがハードエラーであるか、ソフトエラーであるかを区別する技術が記載されている。
Memory is used in various electrical devices. An error may occur in data in the memory. The error includes a hard error caused by a hardware failure, that is, caused by physical damage, and a soft error caused by data corruption of the storage element. If a hard error occurs, physically damaged parts need to be replaced. However, when a soft error occurs, no hardware failure has occurred. Therefore, if new data is written at the address of data that is garbled, the soft error is eliminated.
Japanese Patent Application Laid-Open No. 2004-228561 describes a related technique that distinguishes whether an error is a hard error or a soft error when an error occurs in data in a memory.
ところで、特許文献1に記載されている技術は、キャッシュにエラーが発生した場合、メインメモリの内容をエラーが発生した箇所のキャッシュに再び書き込み、その後、一定時間内に再度エラーが発生したらハードエラーが発生したと判定するものである。ここで、キャッシュにエラーが発生した場合に、メインメモリの内容をエラーした箇所のキャッシュに再び書き込むことは、情報処理装置における通常の処理を停止させて、発生したエラーを修正する処理を意味する。つまり、特許文献1に記載されている技術を用いた場合、ハードエラーが発生したか否かを判定するために、情報処理装置における通常の処理を停止させる必要のある技術である。
また、特許文献2に記載されている技術は、1ビットエラーが発生したアドレスにその後書き込みが行われたか否かを示すフラグを設けて、このフラグの内容と1ビットエラー発生状況の時系列情報とからハードエラーが発生したかソフトエラーが発生したかを区別する技術である。ここで、1ビットエラーが発生したアドレスにその後書き込みが行われたか否かを判定する装置は、図8に示す装置である。この図8に示す装置は、1つのアドレス読み出し単位(あるデータ長を有するメモリ領域、例えば、ワード)に対応している。そのため、例えば、メモリアレイの読み出しワード数が256である場合には、図8に示す装置が256個必要になり、特許文献2に記載されている技術を用いた場合、情報処理装置の規模が大きくなってしまう。
そのため、装置の規模を小さく抑え、かつ、通常の情報処理を停止させずに、ハードエラーが発生したかソフトエラーが発生したかを区別することのできる技術が求められていた。
By the way, in the technique described in
The technique described in
Therefore, there has been a demand for a technique capable of distinguishing whether a hard error has occurred or a soft error has occurred without reducing the scale of the apparatus and stopping normal information processing.
そこで、この発明は、上記の課題を解決することのできる保守判断装置、保守判断方法及びプログラムを提供することを目的としている。 Therefore, an object of the present invention is to provide a maintenance determination device, a maintenance determination method, and a program that can solve the above-described problems.
上記目的を達成するために、本発明の一態様は、メモリからデータを読み出す時にあるデータ長を有するメモリ領域に訂正可能な障害が発生している場合に、前記メモリ領域に対する訂正可能な障害が発生したことを示す情報を第1状況記憶用レジスタに保持させる第1決定論理部と、前記メモリにデータを書き込む時に前記メモリ領域についてすでに訂正可能な障害が発生している場合に、前記メモリ領域に対する訂正可能な障害が発生していることを示す情報を第2状況記憶用レジスタに保持させる第2決定論理部と、を備える保守判断装置である。 In order to achieve the above object, according to one aspect of the present invention, when a correctable failure occurs in a memory area having a certain data length when data is read from the memory, the correctable failure occurs in the memory area. A first decision logic unit that holds information indicating that the error occurred in a first status storage register; and the memory area when a correctable fault has already occurred in the memory area when data is written to the memory. A second determination logic unit that stores information indicating that a correctable failure has occurred in a second status storage register.
また、本発明の別の態様は、メモリからデータを読み出す時にあるメモリ領域に訂正可能な障害が発生している場合に、前記メモリ領域に対する訂正可能な障害が発生したことを示す情報を第1状況記憶用レジスタに保持させることと、前記メモリにデータを書き込む時に前記メモリ領域についてすでに訂正可能な障害が発生している場合に、前記メモリ領域に対する訂正可能な障害が発生していることを示す情報を第2状況記憶用レジスタに保持させることと、を含む保守判断方法である。 According to another aspect of the present invention, when a correctable failure occurs in a memory area when data is read from the memory, information indicating that a correctable failure has occurred in the memory area is first Indicates that a correctable failure has occurred in the memory area when it has been stored in the status storage register and a correctable failure has already occurred in the memory area when data is written to the memory Holding the information in a second status storage register.
また、本発明の別の態様は、コンピュータに、メモリからデータを読み出す時にあるメモリ領域に訂正可能な障害が発生している場合に、前記メモリ領域に対する訂正可能な障害が発生したことを示す情報を第1状況記憶用レジスタに保持させることと、前記メモリにデータを書き込む時に前記メモリ領域についてすでに訂正可能な障害が発生している場合に、前記メモリ領域に対する訂正可能な障害が発生していることを示す情報を第2状況記憶用レジスタに保持させることと、を実行させるプログラムである。 According to another aspect of the present invention, there is provided information indicating that a correctable fault has occurred in the memory area when a correctable fault has occurred in a memory area when data is read from the memory. Is stored in the first status storage register, and a correctable fault has occurred in the memory area when a correctable fault has already occurred in the memory area when data is written to the memory. Is stored in the second status storage register.
本発明によれば、装置の規模を小さく抑え、かつ、通常の情報処理を停止させずに、ハードエラーが発生したかソフトエラーが発生したかを区別することができる。 According to the present invention, it is possible to distinguish whether a hard error has occurred or a soft error has occurred without reducing the scale of the apparatus and stopping normal information processing.
<実施形態>
次に、本発明の一実施形態による保守判断装置40を含む保守判断システム1の構成について説明する。
本発明の一実施形態による保守判断システム1は、メモリの同じアドレスから訂正可能な障害が出力され続ける場合に、その原因がハードウェアの故障によるハードウェアの交換を必要とする固定故障であるか、障害発生以降1度もメモリが書き込みされてないために一時的に生じる障害でありハードウェアの交換を必要としない故障であるかを判定することのできるシステムである。保守判断システム1は、図1に示すように、メモリ10と、レジスタ20a、20b、20c、20d、20e、20f、20g、20h、20i及び20jと、誤り検出/誤り訂正回路30と、保守判断装置40と、を備える。
なお、レジスタ20a、20b、20c、20d、20e、20f、20g、20h、20i及び20jを総称して、レジスタ20と呼ぶ。
<Embodiment>
Next, the configuration of the
In the
The
メモリ10は、本発明の一実施形態において、1サイクル当たりのメモリオペレーションが読み出し、書き込み、または、どちらでもない(読み出し・書き込み以外、一般的にはパワーセーブ)のいずれか1つしか動作しないone read writeタイプである。なお、one read writeタイプは、メモリ10のメモリタイプの一例である。本発明の一実施形態の保守判断装置40により得られる効果は、メモリ10のメモリタイプに依存するものではない。そのため、メモリ10は、どのようなメモリタイプのメモリであってもよい。
In one embodiment of the present invention, the
保守判断システム1には、READ/WRITE・ADDRESS信号001、WRITE・ENABLE信号002、CHIP・ENABLE信号003、WRITE・DATA信号004、TIME信号010、RESET信号011のそれぞれが入力される。
誤り検出/誤り訂正回路30は、Syndrome信号007、Corrected・DATA008、SBE(Single Bit Error)信号009のそれぞれを出力する。
メモリ10からは、READ・DATA信号005が読み出される。
READ/WRITE・ADDRESS信号001、WRITE・ENABLE信号002、CHIP・ENABLE信号003のそれぞれは、メモリ10の制御信号であり、一般的なアドレス信号及びイネーブル信号と同様である。すなわち、READ/WRITE・ADDRESS信号001は、メモリ10にアクセスする際のアドレスを指定する信号である。また、WRITE・ENABLE信号002は、書き込みを許可する信号である。また、CHIP・ENABLE信号003は、メモリ10の動作を許可する信号である。
また、WRITE・DATA信号004、READ・DATA信号005のそれぞれは、メモリ10の入出力DATA信号であり、一般的なメモリの入出力データ信号の書き込みデータ信号及び読み出しデータ信号と同様である。すなわち、WRITE・DATA信号004は、メモリ10に書き込まれるデータを示す信号である。また、READ・DATA信号005は、メモリ10から読み出されるデータを示す信号である。
The
The error detection /
A READ /
Each of the READ / WRITE /
Each of the WRITE /
レジスタ20のそれぞれは、1クロック分のデータを保持するレジスタである。
誤り検出/誤り訂正回路30は、ECC(Error Correction Code)により、メモリ10から読み出された誤り訂正符号が付加されたREAD・DATA信号005から誤りを検出し、検出した誤りを訂正する回路である。誤り検出/誤り訂正回路30の動作は、一般的な誤り検出回路及び誤り訂正回路の動作と同様である。
Each of the registers 20 is a register that holds data for one clock.
The error detection /
Syndrome信号007は、誤り検出/誤り訂正回路30が検出した誤りbitの情報を示す信号である。また、Corrected・DATA008は、誤り訂正済みDATA信号である。SBE(Single Bit Error)信号009は、訂正可能な障害を検出したことを通知する信号である。
なお、本発明の一実施形態の保守判断装置40により得られる効果は、誤り検出/誤り訂正回路30に依存するものではない。
The
Note that the effect obtained by the
保守判断装置40は、図1に示すように、STATUS_R[n]決定論理部401と、STATUS_W[n]決定論理部402と、時間監視部403と、STATUS_R[n]状況記憶用レジスタ404と、STATUS_W[n]状況記憶用レジスタ405と、報知部406と、を備える。
As shown in FIG. 1, the
図2は、STATUS_R[n]決定論理部401の動作を示す真理値表である。図2に示す真理値表は、ワードWD[n]のメモリオペレーションが読み出しであり、メモリの状態が訂正可能な障害が発生している場合に、STATUS_R[n]状況記憶用レジスタ404の値を1とすることを示す。また、図2に示す真理値表は、ワードWD[n]のメモリオペレーションが読み出しであり、メモリの状態が訂正可能な障害が発生していない場合に、STATUS_R[n]状況記憶用レジスタ404の値を変更しないことを示す。また、図2に示す真理値表は、ワードWD[n]のメモリオペレーションが書き込みである場合、メモリの状態にかかわらず、STATUS_R[n]状況記憶用レジスタ404の値を変更しないことを示す。また、図2に示す真理値表は、ワードWD[n]のメモリオペレーションが読み出し・書き込み以外である場合、メモリの状態にかかわらず、STATUS_R[n]状況記憶用レジスタ404の値を変更しないことを示す。また、図2に示す真理値表は、予め設定した監視時間が経過した場合、または、RESET信号011が入力された場合、STATUS_R[n]状況記憶用レジスタ404の値を0にすることを示す。
なお、[n]は、メモリ構成単位を示す。例えば、メモリ10がXワード構成であった場合、[n]は、[0]、[1]、[2]、・・・、[X−1]となる。なお、ワードは、あるデータ長を有するメモリ領域の一例である。
STATUS_R[n]決定論理部401は、READ/WRITE・ADDRESS信号001が示すリードアドレスに基づいて、図2に示す真理値表のように動作することによりSTATUS_R[n]を選択する。
具体的には、STATUS_R[n]決定論理部401に入力されるREAD/WRITE・ADDRESS信号001は、STATUS_R[n]決定論理部401が自身のワードWD[n]に対するアクセスであるかを判定するための入力信号である。
STATUS_R[n]決定論理部401に入力されるWRITE・ENABLE信号002及びCHIP・ENABLE信号003は、メモリオペレーションが読み出しか、書き込みか、または、どちらでもないかをSTATUS_R[n]決定論理部401が判定するための入力信号である。
STATUS_R[n]決定論理部401に入力されるSBE(Single Bit Error)信号009は、メモリオペレーションで訂正可能な障害を検出したか否かをSTATUS_R[n]決定論理部401が判定するための入力信号である。
STATUS_R[n]決定論理部401は、ワードWD[n]のメモリオペレーションが読み出しであり、かつ、メモリ10の状況がワードWD[n]に訂正可能な障害が発生している場合、STATUS_R[n]状況記憶用レジスタ404を訂正可能な障害が発生していることを示す値である1にするよう指示する。
FIG. 2 is a truth table showing the operation of the STATUS_R [n]
[N] indicates a memory configuration unit. For example, when the
The STATUS_R [n]
Specifically, the READ / WRITE • ADDRESS signal 001 input to the STATUS_R [n]
The
An SBE (Single Bit Error) signal 009 input to the STATUS_R [n]
The STATUS_R [n]
図3は、STATUS_W[n]決定論理部402の動作を示す真理値表である。図3に示す真理値表は、ワードWD[n]のメモリオペレーションが読み出しであり、メモリの状態が訂正可能な障害が発生している場合、STATUS_R[n]状況記憶用レジスタ404の値にかかわらず、STATUS_W[n]状況記憶用レジスタ405の値を変更しないことを示す。また、図3に示す真理値表は、ワードWD[n]のメモリオペレーションが読み出しであり、メモリの状態が訂正可能な障害が発生していない場合、STATUS_R[n]状況記憶用レジスタ404の値にかかわらず、STATUS_W[n]状況記憶用レジスタ405の値を変更しないことを示す。また、図3に示す真理値表は、ワードWD[n]のメモリオペレーションが書き込みであり、STATUS_R[n]状況記憶用レジスタ404の値が0である場合、メモリの状態にかかわらず、STATUS_W[n]状況記憶用レジスタ405の値を変更しないことを示す。また、図3に示す真理値表は、ワードWD[n]のメモリオペレーションが書き込みであり、STATUS_R[n]状況記憶用レジスタ404の値が1である場合、メモリの状態にかかわらず、STATUS_W[n]状況記憶用レジスタ405の値を1にすることを示す。また、図3に示す真理値表は、ワードWD[n]のメモリオペレーションが読み出し・書き込み以外である場合、メモリの状態及びSTATUS_R[n]状況記憶用レジスタ404の値にかかわらず、STATUS_W[n]状況記憶用レジスタ405の値を変更しないことを示す。また、図3に示す真理値表は、予め設定した監視時間が経過した場合、または、RESET信号011が入力された場合、STATUS_W[n]状況記憶用レジスタ405の値を0にすることを示す。
STATUS_W[n]決定論理部402は、READ/WRITE・ADDRESS信号001が示すライトアドレスに基づいて、図3に示す真理値表のように動作することによりSTATUS_W[n]を選択する。
具体的には、STATUS_W[n]決定論理部402に入力されるREAD/WRITE・ADDRESS信号001は、STATUS_W[n]決定論理部402が自身のワードWD[n]に対するアクセスであるかを判定するための入力信号である。
STATUS_W[n]決定論理部402に入力されるWRITE・ENABLE信号002及びCHIP・ENABLE信号003は、メモリオペレーションが読み出しか、書き込みか、または、どちらでもないかをSTATUS_W[n]決定論理部402が判定するための入力信号である。
STATUS_W[n]決定論理部402に入力されるSTATUS_R[n]状況記憶用レジスタ404から取得する信号は、ワードWD[n]で以前に訂正可能な障害が発生したか否かをSTATUS_W[n]決定論理部402が判定するための入力信号である。
STATUS_W[n]決定論理部402は、メモリオペレーションがワードWD[n]に対する書き込みであり、かつ、STATUS_R[n]状況記憶用レジスタ404の値が1である場合、STATUS_W[n]状況記憶用レジスタ405の値を1にするよう指示する。
FIG. 3 is a truth table showing the operation of the STATUS_W [n]
The STATUS_W [n]
Specifically, the READ / WRITE • ADDRESS signal 001 input to the STATUS_W [n]
The
The signal acquired from the STATUS_R [n]
The STATUS_W [n]
なお、STATUS_R[n]決定論理部401は、メモリ10の読み出しや書き込み動作に必要な信号であってレジスタ20で1クロックのタイミングで保持した信号を用いて状況を判定し、次の1クロックのタイミングでSTATUS_R[n]状況記憶用レジスタ404にその判定結果を格納する。また、STATUS_W[n]決定論理部402は、メモリ10の読み出しや書き込み動作に必要な信号であってレジスタ20で1クロックのタイミングで保持した信号を用いて状況を判定し、次の1クロックのタイミングでSTATUS_W[n]状況記憶用レジスタ405にその判定結果を格納する。
したがって、STATUS_R[n]決定論理部401及びSTATUS_W[n]決定論理部402による状況の判定結果は、読み出しや書き込みより1クロック遅れたタイミングで更新される。そのため、訂正可能な障害が発生したタイミングでSTATUS_R[n]状況記憶用レジスタ404またはSTATUS_W[n]状況記憶用レジスタ405を読み出した場合、その訂正可能な障害による影響が反映される前の状況が読み出されることになる。
Note that the STATUS_R [n]
Therefore, the determination result of the situation by the STATUS_R [n]
時間監視部403は、例えば、カウンタであり、ワードWD[n]の訂正可能な障害が発生した後の一定時間を計測する。
具体的には、時間監視部403におけるSTATUS_R[n]決定論理部401からの信号は、ワードWD[n]に訂正可能な障害が発生したことを判定するための入力信号である。
時間監視部403におけるTIME信号010は、例えば、実時間TOD(Time Of Day)や1マイクロ秒振幅信号などのタイマ信号である。TIME信号010は、時間を計測するための信号であり、時間を知ることができる信号であれば種類を限定するものではない。
時間監視部403におけるRESET信号011は、保守判断システム1全体の初期化、または、局所的なRESET指示信号である。
時間監視部403は、STATUS_R[n]決定論理部401からの信号が1(=ワードWD[n]で訂正可能な障害が発生)であった場合、0から時間の計測を開始する。
ここで、時間監視部403が時間を計測している間を監視中と呼ぶ。
時間監視部403は、監視中に再びSTATUS_R[n]決定論理部401からワードWD[n]で訂正可能な障害が発生したことを示す値が1の信号を受信すると、時間を0に戻して時間の計測を再開する。
時間監視部403は、監視中に、予め設定された一定時間を経過した場合、または、RESET信号011を受信した場合、ワードWD[n]のSTATUS_R[n]状況記憶用レジスタ404とSTATUS_W[n]状況記憶用レジスタ405とにリセットを指示する。
The
Specifically, the signal from the STATUS_R [n]
The
A RESET signal 011 in the
If the signal from the STATUS_R [n]
Here, the
When the
The
STATUS_R[n]状況記憶用レジスタ404は、ワードWD[n]に対する訂正可能な障害の発生の有無を記憶するレジスタである。
The STATUS_R [n]
STATUS_W[n]状況記憶用レジスタ405は、ワードWD[n]に対する訂正可能な障害の発生後に同ワードの書き込みの有無を記憶するレジスタである。
The STATUS_W [n]
STATUS_R[n]状況記憶用レジスタ404とSTATUS_W[n]状況記憶用レジスタ405は、訂正可能な障害があった場合、該当するアドレスの訂正可能な障害が発生して以降の書き込み履歴を、メモリ10のワード単位に1対1で対応した、STATUS_R[n]状況記憶用レジスタ404の1ビットとSTATUS_W[n]状況記憶用レジスタ405の1ビットとの組み合わせとして記憶する。
なお、図1では、任意のワードWD[n]について示されている。STATUS_R[n]状況記憶用レジスタ404及びSTATUS_W[n]状況記憶用レジスタ405において、[n]は、メモリ構成単位におけるワードWD[n]に対する状況記憶用レジスタであることを示す。例えば、メモリ10がXワード構成であった場合、[n]は、[0]、[1]、[2]、・・・、[X−1]となる。
また、STATUS_R[n]決定論理部401、STATUS_W[n]決定論理部402、時間監視部403、STATUS_R[n]状況記憶用レジスタ404、STATUS_W[n]状況記憶用レジスタ405のそれぞれは、各ワードに対応したX個ずつ存在する。
When there is a correctable failure, the STATUS_R [n]
In FIG. 1, an arbitrary word WD [n] is shown. In the STATUS_R [n]
Further, each of the STATUS_R [n]
報知部406は、STATUS_R[n]状況記憶用レジスタ404の値及びSTATUS_W[n]状況記憶用レジスタ405の値に基づく保守判断結果を報知する。
The
次に、本発明の一実施形態による保守判断システム1の処理について説明する。
ここでは、図4に示す保守判断システム1の処理フローについて説明する。
なお、ここでは、説明を簡単にするために任意の1つのワードWD[n]についての処理を例に保守判断システム1の処理を説明する。
Next, processing of the
Here, a processing flow of the
Here, in order to simplify the description, the process of the
保守判断システム1が立ち上がるとき、STATUS_R[n]状況記憶用レジスタ404及びSTATUS_W[n]状況記憶用レジスタ405のそれぞれは、レジスタの保持する値を0に初期化する(ステップS1)。
初期化直後、または、予め設定された一定時間、訂正可能な障害が発生していない状態では、STATUS_R[n]状況記憶用レジスタ404及びSTATUS_W[n]状況記憶用レジスタ405のそれぞれは、共に値が0である。
When the
Each of the STATUS_R [n]
保守判断システム1が立ち上がると、メモリ10、レジスタ20、誤り検出/誤り訂正回路30、保守判断装置40のそれぞれが動作を開始する。
When the
STATUS_R[n]決定論理部401は、ワードWD[n]で読み出しが有るか否かを判定し、読み出しが有ると判定した場合には、そのワードWD[n]に訂正可能な障害が発生しているか否かを判定する(ステップS2)。
The STATUS_R [n]
STATUS_R[n]決定論理部401は、ワードWD[n]に訂正可能な障害が発生したと判定した場合(ステップS2においてYES)、STATUS_R[n]状況記憶用レジスタ404に1を格納する(ステップS3)。
If the STATUS_R [n]
時間監視部403は、STATUS_R[n]決定論理部401からの信号が1(=ワードWD[n]で訂正可能な障害が発生)となり、0から時間の計測を開始する(ステップS4)。
そして、時間監視部403は、監視中であるか否かを判定する(ステップS5)。
The
Then, the
また、STATUS_R[n]決定論理部401がワードWD[n]に訂正可能な障害が発生していないと判定した場合(ステップS2においてNO)、STATUS_W[n]決定論理部402は、ワードWD[n]に書き込みが有るか否かを判定する(ステップS6)。
If the STATUS_R [n]
STATUS_W[n]決定論理部402がワードWD[n]に書き込みが有ると判定した場合(ステップS6においてYES)、STATUS_R[n]決定論理部401は、STATUS_R[n]状況記憶用レジスタ404が0であるか否かを判定する(ステップS7)。
If the STATUS_W [n]
STATUS_R[n]決定論理部401がSTATUS_R[n]状況記憶用レジスタ404が0ではないと判定した場合(ステップS7においてNO)、STATUS_W[n]決定論理部402は、STATUS_W[n]状況記憶用レジスタ405に1を格納する(ステップS8)。
そして、STATUS_W[n]決定論理部402は、ステップS5の処理に進める。
When the STATUS_R [n]
Then, the STATUS_W [n]
また、STATUS_W[n]決定論理部402は、ワードWD[n]に書き込みが無いと判定した場合(ステップS6においてNO)、ステップS5の処理に進める。
If the STATUS_W [n]
また、STATUS_R[n]決定論理部401は、STATUS_R[n]状況記憶用レジスタ404が0であると判定した場合(ステップS7においてYES)、ステップS5の処理に進める。
時間監視部403は、ワードWD[n]について監視中であると判定した場合(ステップS5においてYES)、ワードWD[n]について予め設定された一定時間の監視時間を経過したか否かを判定する(ステップS9)。
If the STATUS_R [n]
When
時間監視部403がワードWD[n]について予め設定された一定時間の監視時間を経過したと判定した場合(ステップS9についてYES)、STATUS_R[n]決定論理部401は、STATUS_R[n]状況記憶用レジスタ404にリセットを指示し、STATUS_W[n]決定論理部402は、STATUS_W[n]状況記憶用レジスタ405にリセットを指示し、時間監視部403は、監視、すなわち、時間の計測を終了する(ステップS10)。
そして、時間監視部403は、ステップS2の処理に戻す。
When the
Then, the
また、時間監視部403は、ワードWD[n]について予め設定された一定時間の監視時間を経過していないと判定した場合(ステップS9についてNO)、監視時間、すなわち、計測時間を加算する(ステップS11)。
そして、時間監視部403は、ステップS2の処理に戻す。
If the
Then, the
なお、保守判断システム1は、上記のステップS2〜ステップS11の処理において、一筆書きでループする処理フローの1ループをメモリオペレーションの1サイクル毎に繰り返す。
また、保守判断システム1は、ステップS11の処理において計測時間を加算した状態でワードWD[n]について再び訂正可能な障害の発生を検出すると、監視時間を0に戻し、監視を継続する。
また、保守判断システム1は、初期化以外でリセットの指示があった場合は、非同期にSTATUS_R[n]状況記憶用レジスタ404及びSTATUS_W[n]状況記憶用レジスタ405の値を0にする。
Note that the
In addition, when the
In addition, when there is a reset instruction other than initialization, the
報知部406は、STATUS_R[n]状況記憶用レジスタ404の値及びSTATUS_W[n]状況記憶用レジスタ405の値に基づく保守判断結果を報知する。また、報知部406は、保守判断結果としてSTATUS_R[n]状況記憶用レジスタ404の値及びSTATUS_W[n]状況記憶用レジスタ405の値そのものを報知してもよい。
報知部406は、保守判断システム1が起動中、保守判断結果の報知を常時行うものであってよい。
The
The
次に、図5及び図6を用いて訂正可能な障害が発生した時の該当部品に対する保守判断(交換判断)の効果について説明する。
なお、図5及び図6のうち、該当するケースが、STATUS_R[n]状況記憶用レジスタ404の値及びSTATUS_W[n]状況記憶用レジスタ405の値に基づく保守判断結果を報知部406が報知する例である。
Next, the effect of the maintenance judgment (replacement judgment) for the corresponding part when a correctable failure occurs will be described with reference to FIGS.
5 and 6, the
本発明の一実施形態によるSTATUS_R[n]状況記憶用レジスタ404及びSTATUS_W[n]状況記憶用レジスタ405の値は、訂正可能な障害が発生した時に、保守判断装置40から抜き出され、外部にログとして登録、参照することにより、保守員等がこの値を用いて保守判断(交換判断)する。
The values of the STATUS_R [n]
なお、STATUS_R[n]状況記憶用レジスタ404及びSTATUS_W[n]状況記憶用レジスタ405の値が抜き出されるタイミングは、訂正可能な障害が発生した時であり、これらのレジスタの値は、今回発生した訂正可能な障害の影響が反映される前の状況であることに注意する必要がある。
Note that the timing at which the values of the STATUS_R [n]
図5は、STATUS_R[n]状況記憶用レジスタ404及びSTATUS_W[n]状況記憶用レジスタ405の値と、メモリ10のワードWD[n]の訂正可能な障害が発生した時の状況の関係の一例を示す図である。
FIG. 5 shows an example of the relationship between the values of the STATUS_R [n]
STATUS_R[n]状況記憶用レジスタ404の値が0で、STATUS_W[n]状況記憶用レジスタ405の値が0である場合、一定期間内に訂正可能な障害が発生した履歴が無いことを示す。
したがって、「今回の障害は一定時間経過後初めて同障害が起きた」と判断することができる。このケースを(A)とする。
When the value of the STATUS_R [n]
Therefore, it can be determined that “this failure occurs for the first time after a lapse of a certain time”. This case is defined as (A).
STATUS_R[n]状況記憶用レジスタ404の値が0で、STATUS_W[n]状況記憶用レジスタ405の値が1である組み合わせは、論理上無い。このケースを(B)とする。
There is logically no combination in which the value of the STATUS_R [n]
STATUS_R[n]状況記憶用レジスタ404の値が1で、STATUS_W[n]状況記憶用レジスタ405の値が0である場合、STATUS_R[n]状況記憶用レジスタ404の値が1であることから、一定期間内に訂正可能障害が発生した履歴が有るが、STATUS_W[n]状況記憶用レジスタ405の値が0であることから、訂正可能な障害が発生してから同ワードWD[n]に書き込みはされていない。
したがって、「今回の障害は訂正可能障害が複数回目で、ケース(A)からその後、ワードWD[n]は未更新である」と判断することができる。このケースを(C)とする。
When the value of the STATUS_R [n]
Therefore, it can be determined that “the present failure is a correctable failure a plurality of times, and the word WD [n] is not updated after the case (A)”. This case is defined as (C).
STATUS_R[n]状況記憶用レジスタ404の値が1で、STATUS_W[n]状況記憶用レジスタ405の値が1である場合、STATUS_R[n]状況記憶用レジスタ404の値が1であることから、一定期間内に訂正可能な障害が発生した履歴が有り、STATUS_W[n]状況記憶用レジスタ405の値が1であることから、訂正可能な障害が発生してから同ワードWD[n]に書き込みがある。
したがって、「今回の障害は訂正可能障害が複数回目で、ケース(A)からその後、ワードWD[n]は更新有りである」と判断することができる。このケースを(D)とする。
When the value of the STATUS_R [n]
Therefore, it can be determined that “the present failure is a correctable failure a plurality of times and the word WD [n] is updated after the case (A)”. This case is defined as (D).
図5で示したケース(A)〜(D)の保守判断を図6にまとめる。
ケース(A)は、一定時間経過後の初回障害であり、保守交換基準に達しないことから交換しない。なお、保守交換基準とは、一般的に訂正可能な障害が発生した部品を交換する基準であり、一定時間あたりの障害発生数で決まる。例えば、交換単位部品において、過去8時間の期間中に8回以上訂正可能な障害が発生したら交換するなどの基準である。
ケース(B)は、論理上発生しない。
ケース(C)は、訂正可能な障害が複数回発生しているが、同ワードWD[n]にはそれ以降書き込みが無い。この場合、ソフトエラーである可能性がある。保守判断システム1の運用中に保守交換基準に達してもソフトエラーの可能性が有ることから、保守交換を保留し、被疑箇所の試験診断プログラムを実行し異常が無かったら、ソフトエラーと判断し保守交換を行わない。
ケース(D)は、訂正可能な障害が複数回発生しているが、同ワードWD[n]にはそれ以降書き込みが有り、値を書き直してもエラーが出ていることから、ハードウェア故障と断定することができる。したがって、保守交換基準に達していたら部品を交換する。
このようにケース(A)〜(D)の保守判断により、保守交換基準に達しても、ソフトエラーの可能性として次の判断を加えることにより、故障でない部品を交換することを防ぐことができる。
FIG. 6 summarizes the maintenance judgment of cases (A) to (D) shown in FIG.
Case (A) is the first failure after a lapse of a certain time, and is not replaced because the maintenance replacement standard is not reached. The maintenance replacement standard is a standard for replacing parts in which a correctable fault has occurred, and is determined by the number of faults per fixed time. For example, the replacement unit part may be replaced when a failure that can be corrected eight times or more has occurred during the past 8 hours.
Case (B) does not logically occur.
In case (C), a correctable failure has occurred a plurality of times, but no further writing has occurred in the word WD [n]. In this case, there may be a soft error. Since there is a possibility of a soft error even if the maintenance replacement standard is reached during operation of the
In case (D), a correctable failure has occurred a plurality of times, but since the word WD [n] has been written thereafter and an error has occurred even if the value is rewritten, Can be determined. Therefore, if the maintenance replacement standard is reached, the part is replaced.
Thus, even if the maintenance replacement standard is reached by the maintenance determination of cases (A) to (D), it is possible to prevent replacement of non-failed parts by adding the following determination as the possibility of a soft error. .
以上、本発明の一実施形態による保守判断システム1について説明した。
上述の本発明の一実施形態による保守判断システム1における保守判断装置40は、メモリ10からデータを読み出す時にある1つのワードに訂正可能な障害が発生している場合に、1つのワードに対する訂正可能な障害が発生したことを示す情報をSTATUS_R[n]状況記憶用レジスタ404(第1状況記憶用レジスタ)に保持させるSTATUS_R[n]決定論理部401(第1決定論理部)を備える。保守判断装置40は、メモリ10にデータを書き込む時に1つのワードについてすでに訂正可能な障害が発生している場合に、1つのワードに対する訂正可能な障害が発生していることを示す情報をSTATUS_W[n]状況記憶用レジスタ405(第2状況記憶用レジスタ)に保持させるSTATUS_W[n]決定論理部402(第2決定論理部)を備える。保守判断装置40は、STATUS_R[n]決定論理部401がSTATUS_R[n]状況記憶用レジスタ404に保持させた情報と、STATUS_W[n]決定論理部402がSTATUS_W[n]状況記憶用レジスタ405に保持させた情報とに基づく保守判断結果を報知する報知部406を備える。
このようにすれば、保守判断装置40は、装置の規模を小さく抑え、かつ、通常の情報処理を停止させずに、ハードエラーが発生したかソフトエラーが発生したかを区別することができる。
The
The
In this way, the
また、時間監視部403がワードWD[n]について予め設定された一定時間の監視時間を経過したと判定した場合、STATUS_R[n]決定論理部401は、STATUS_R[n]状況記憶用レジスタ404にリセットを指示し、STATUS_W[n]決定論理部402は、STATUS_W[n]状況記憶用レジスタ405にリセットを指示し、時間監視部403は、監視、すなわち、時間の計測を終了する。
このようにすれば、保守判断装置40は、ハードウェア故障であるか否かの断定をより正確に行うことができる。
When the
In this way, the
次に、本発明の実施形態による最小構成の保守判断装置40について説明する。
本発明の実施形態による最小構成の保守判断装置40は、図7に示すように、STATUS_R[n]決定論理部401(第1決定論理部)と、STATUS_W[n]決定論理部402(第2決定論理部)と、を備える。
Next, the minimum configuration
As shown in FIG. 7, the
STATUS_R[n]決定論理部401(第1決定論理部)は、メモリ10からデータを読み出す時にある1つのワードに訂正可能な障害が発生している場合に、1つのワードに対する訂正可能な障害が発生したことを示す情報をSTATUS_R[n]状況記憶用レジスタ404(第1状況記憶用レジスタ)に保持させる。
The STATUS_R [n] decision logic unit 401 (first decision logic unit) has a correctable failure for one word when a correctable failure occurs in one word when data is read from the
STATUS_W[n]決定論理部402(第2決定論理部)は、保守判断装置40は、メモリ10にデータを書き込む時に1つのワードについてすでに訂正可能な障害が発生している場合に、1つのワードに対する訂正可能な障害が発生していることを示す情報をSTATUS_W[n]状況記憶用レジスタ405(第2状況記憶用レジスタ)に保持させる。
The STATUS_W [n] decision logic unit 402 (second decision logic unit) allows the
このようにすれば、保守判断装置40は、装置の規模を小さく抑え、かつ、通常の情報処理を停止させずに、ハードエラーが発生したかソフトエラーが発生したかを区別することができる。
In this way, the
なお、本発明における記憶部や記憶装置(レジスタを含む)は、適切な情報の送受信が行われる範囲においてどこに備えられていてもよい。また、記憶部や記憶装置は、適切な情報の送受信が行われる範囲において複数存在しデータを分散して記憶していてもよい。 Note that the storage unit and the storage device (including the register) in the present invention may be provided anywhere within a range where appropriate information is transmitted and received. A plurality of storage units and storage devices may exist within a range where appropriate information is transmitted and received, and data may be distributed and stored.
なお、本発明の実施形態における処理フローは、適切な処理が行われる範囲において、処理の順番が入れ替わってもよい。 In the processing flow in the embodiment of the present invention, the order of processing may be changed within a range where appropriate processing is performed.
なお、本発明の実施形態について説明したが、上述の保守判定システム1、保守判断装置40は内部に、コンピュータシステムを有している。そして、上述した処理の過程は、プログラムの形式でコンピュータ読み取り可能な記録媒体に記憶されており、このプログラムをコンピュータが読み出して実行することによって、上記処理が行われる。ここでコンピュータ読み取り可能な記録媒体とは、磁気ディスク、光磁気ディスク、CD−ROM、DVD−ROM、半導体メモリ等をいう。また、このコンピュータプログラムを通信回線によってコンピュータに配信し、この配信を受けたコンピュータが当該プログラムを実行するようにしてもよい。
In addition, although embodiment of this invention was described, the above-mentioned
また、上記プログラムは、前述した機能の一部を実現するためのものであってもよい。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル(差分プログラム)であってもよい。 The program may be for realizing a part of the functions described above. Furthermore, what can implement | achieve the function mentioned above in combination with the program already recorded on the computer system, what is called a difference file (difference program) may be sufficient.
本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定するものではない。また、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができるものである。 Although several embodiments of the present invention have been described, these embodiments are presented by way of example and are not intended to limit the scope of the invention. Various omissions, replacements, and changes can be made without departing from the scope of the invention.
10・・・メモリ
20、20a、20b、20c、20d、20e、20f、20g、20h、20i、20j・・・レジスタ
30・・・誤り検出/誤り訂正回路
40・・・保守判断装置
401・・・STATUS_R[n]決定論理部
402・・・STATUS_W[n]決定論理部
403・・・時間監視部
404・・・STATUS_R[n]状況記憶用レジスタ
405・・・STATUS_W[n]状況記憶用レジスタ
DESCRIPTION OF
Claims (7)
前記メモリにデータを書き込む時に前記メモリ領域についてすでに訂正可能な障害が発生している場合に、前記メモリ領域に対する訂正可能な障害が発生していることを示す情報を第2状況記憶用レジスタに保持させる第2決定論理部と、
を備える保守判断装置。 When a correctable fault has occurred in a memory area having a certain data length when data is read from the memory, information indicating that a correctable fault has occurred in the memory area is held in the first status storage register A first decision logic unit to cause
If a correctable fault has already occurred in the memory area when data is written to the memory, information indicating that a correctable fault has occurred in the memory area is held in the second status storage register A second decision logic unit to cause
A maintenance judgment device comprising:
を備える請求項1に記載の保守判断装置。 Notification for informing a maintenance determination result based on the information held in the first status storage register by the first decision logic unit and the information held in the second status storage register by the second decision logic unit Part,
The maintenance judgment device according to claim 1 provided with.
を備える請求項1または請求項2に記載の保守判断装置。 The first status storage register;
The maintenance judgment device according to claim 1 or 2 provided with.
を備える請求項1から請求項3の何れか一項に記載の保守判断装置。 The second status storage register;
The maintenance determination apparatus according to any one of claims 1 to 3, further comprising:
を備える請求項1から請求項4の何れか一項に記載の保守判断装置。 A time monitoring unit that instructs the first status storage register and the second status storage register to reset when a predetermined time has elapsed;
The maintenance judgment device according to any one of claims 1 to 4, further comprising:
前記メモリにデータを書き込む時に前記メモリ領域についてすでに訂正可能な障害が発生している場合に、前記メモリ領域に対する訂正可能な障害が発生していることを示す情報を第2状況記憶用レジスタに保持させることと、
を含む保守判断方法。 Holding a first status storage register with information indicating that a correctable fault has occurred in the memory area when a correctable fault has occurred in a memory area when reading data from the memory;
If a correctable fault has already occurred in the memory area when data is written to the memory, information indicating that a correctable fault has occurred in the memory area is held in the second status storage register And letting
Maintenance judgment method including.
メモリからデータを読み出す時にあるメモリ領域に訂正可能な障害が発生している場合に、前記メモリ領域に対する訂正可能な障害が発生したことを示す情報を第1状況記憶用レジスタに保持させることと、
前記メモリにデータを書き込む時に前記メモリ領域についてすでに訂正可能な障害が発生している場合に、前記メモリ領域に対する訂正可能な障害が発生していることを示す情報を第2状況記憶用レジスタに保持させることと、
を実行させるプログラム。 On the computer,
Holding a first status storage register with information indicating that a correctable fault has occurred in the memory area when a correctable fault has occurred in a memory area when reading data from the memory;
If a correctable fault has already occurred in the memory area when data is written to the memory, information indicating that a correctable fault has occurred in the memory area is held in the second status storage register And letting
A program that executes
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2017011221A JP2018120413A (en) | 2017-01-25 | 2017-01-25 | Maintenance determining device, maintenance determining method, and program |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2017011221A JP2018120413A (en) | 2017-01-25 | 2017-01-25 | Maintenance determining device, maintenance determining method, and program |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JP2018120413A true JP2018120413A (en) | 2018-08-02 |
Family
ID=63043806
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2017011221A Pending JP2018120413A (en) | 2017-01-25 | 2017-01-25 | Maintenance determining device, maintenance determining method, and program |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP2018120413A (en) |
Citations (6)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPS5183429A (en) * | 1975-01-20 | 1976-07-22 | Tokyo Shibaura Electric Co | |
| JPS6436352A (en) * | 1987-07-31 | 1989-02-07 | Nec Corp | Memory error processing system |
| JP2012103826A (en) * | 2010-11-09 | 2012-05-31 | Fujitsu Ltd | Cache memory system |
| JP2013037473A (en) * | 2011-08-05 | 2013-02-21 | Fujitsu Ltd | Plug-in card housing apparatus |
| JP2013206105A (en) * | 2012-03-28 | 2013-10-07 | Nec Computertechno Ltd | Information processing system, maintenance method and program |
| JP2014137806A (en) * | 2013-01-18 | 2014-07-28 | Fujitsu Ltd | Failure notification device, failure notification method and failure notification program |
-
2017
- 2017-01-25 JP JP2017011221A patent/JP2018120413A/en active Pending
Patent Citations (6)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPS5183429A (en) * | 1975-01-20 | 1976-07-22 | Tokyo Shibaura Electric Co | |
| JPS6436352A (en) * | 1987-07-31 | 1989-02-07 | Nec Corp | Memory error processing system |
| JP2012103826A (en) * | 2010-11-09 | 2012-05-31 | Fujitsu Ltd | Cache memory system |
| JP2013037473A (en) * | 2011-08-05 | 2013-02-21 | Fujitsu Ltd | Plug-in card housing apparatus |
| JP2013206105A (en) * | 2012-03-28 | 2013-10-07 | Nec Computertechno Ltd | Information processing system, maintenance method and program |
| JP2014137806A (en) * | 2013-01-18 | 2014-07-28 | Fujitsu Ltd | Failure notification device, failure notification method and failure notification program |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US7971112B2 (en) | Memory diagnosis method | |
| US8589763B2 (en) | Cache memory system | |
| TWI528172B (en) | Machine check summary register | |
| EP3660681B1 (en) | Memory fault detection method and device, and server | |
| US8418005B2 (en) | Methods, apparatus and articles of manufacture to diagnose temperature-induced memory errors | |
| US9563548B2 (en) | Error injection and error counting during memory scrubbing operations | |
| WO2016022156A1 (en) | Error counters on a memory device | |
| CN102135925B (en) | Method and device for detecting error check and correcting memory | |
| CN114461436A (en) | Memory fault processing method and device and computer readable storage medium | |
| US7596738B2 (en) | Method and apparatus for classifying memory errors | |
| US7350007B2 (en) | Time-interval-based system and method to determine if a device error rate equals or exceeds a threshold error rate | |
| US10613953B2 (en) | Start test method, system, and recording medium | |
| US20160110246A1 (en) | Disk data management | |
| US20130191685A1 (en) | Per-rank channel marking in a memory system | |
| CN104781790B (en) | Signaling software recoverable errors | |
| US20130339809A1 (en) | Bitline deletion | |
| CN114860487A (en) | Memory fault identification method and memory fault isolation method | |
| US9230687B2 (en) | Implementing ECC redundancy using reconfigurable logic blocks | |
| US9921906B2 (en) | Performing a repair operation in arrays | |
| CN105022706A (en) | Controller circuits, data interface blocks, and methods for transferring data | |
| JP2018120413A (en) | Maintenance determining device, maintenance determining method, and program | |
| US11914703B2 (en) | Method and data processing system for detecting a malicious component on an integrated circuit | |
| CN118503005B (en) | A memory error correction method, system, and device | |
| US9043663B2 (en) | Apparatus and method for testing a memory | |
| CN108874579B (en) | Method for policing and initializing ports |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20191204 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20200819 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20200929 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20201130 |
|
| A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20210420 |