[go: up one dir, main page]

JP2018120413A - Maintenance determining device, maintenance determining method, and program - Google Patents

Maintenance determining device, maintenance determining method, and program Download PDF

Info

Publication number
JP2018120413A
JP2018120413A JP2017011221A JP2017011221A JP2018120413A JP 2018120413 A JP2018120413 A JP 2018120413A JP 2017011221 A JP2017011221 A JP 2017011221A JP 2017011221 A JP2017011221 A JP 2017011221A JP 2018120413 A JP2018120413 A JP 2018120413A
Authority
JP
Japan
Prior art keywords
status
storage register
occurred
memory
status storage
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2017011221A
Other languages
Japanese (ja)
Inventor
誠造 進藤
Seizo Shindo
誠造 進藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Platforms Ltd
Original Assignee
NEC Platforms Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Platforms Ltd filed Critical NEC Platforms Ltd
Priority to JP2017011221A priority Critical patent/JP2018120413A/en
Publication of JP2018120413A publication Critical patent/JP2018120413A/en
Pending legal-status Critical Current

Links

Images

Landscapes

  • Detection And Correction Of Errors (AREA)
  • Techniques For Improving Reliability Of Storages (AREA)
  • Debugging And Monitoring (AREA)
  • For Increasing The Reliability Of Semiconductor Memories (AREA)

Abstract

PROBLEM TO BE SOLVED: To provide a maintenance determining device that can distinguish whether a hardware error has occurred or a software error has occurred, while limiting the size of the device smaller, and at the same time, without causing the regular information processing to stop.SOLUTION: A maintenance determining device comprises: a first deciding logical unit for, when a correctable failure occurs in a certain memory area when reading data from a memory, causing a first status storage register to retain the information indicating the correctable failure to the memory area has occurred; and a second deciding logical unit for, when the correctable failure has already occurred in the memory area when writing the data into the memory, causing a second status storage register to retain the information indicating the correctable failure to the memory area has occurred.SELECTED DRAWING: Figure 1

Description

本発明は、保守判断装置、保守判断方法及びプログラムに関する。   The present invention relates to a maintenance determination device, a maintenance determination method, and a program.

さまざまな電気機器においてメモリが使用されている。メモリではデータにエラーが発生する場合がある。そのエラーとしては、ハードウェア的な故障によって生じるすなわち物理的な破損によって生じるハードエラーと、記憶素子のデータ化けによって生じるソフトエラーとが存在する。ハードエラーが発生した場合、物理的に破損した部品を交換する必要がある。しかしながら、ソフトエラーが発生した場合、ハードウェア的な故障は発生していないため、データ化けしているデータのアドレスに新たなデータが書き込まれればソフトエラーは解消される。
特許文献1には、関連する技術として、ハードエラーが発生したか否かを判定する技術が記載されている。
特許文献2には、関連する技術として、メモリでデータにエラーが発生した場合に、そのエラーがハードエラーであるか、ソフトエラーであるかを区別する技術が記載されている。
Memory is used in various electrical devices. An error may occur in data in the memory. The error includes a hard error caused by a hardware failure, that is, caused by physical damage, and a soft error caused by data corruption of the storage element. If a hard error occurs, physically damaged parts need to be replaced. However, when a soft error occurs, no hardware failure has occurred. Therefore, if new data is written at the address of data that is garbled, the soft error is eliminated.
Patent Document 1 describes a technique for determining whether a hard error has occurred as a related technique.
Japanese Patent Application Laid-Open No. 2004-228561 describes a related technique that distinguishes whether an error is a hard error or a soft error when an error occurs in data in a memory.

特開2012−103826号公報JP2012-103826A 特開昭64−036352号公報Japanese Patent Application Laid-Open No. 64-036352

ところで、特許文献1に記載されている技術は、キャッシュにエラーが発生した場合、メインメモリの内容をエラーが発生した箇所のキャッシュに再び書き込み、その後、一定時間内に再度エラーが発生したらハードエラーが発生したと判定するものである。ここで、キャッシュにエラーが発生した場合に、メインメモリの内容をエラーした箇所のキャッシュに再び書き込むことは、情報処理装置における通常の処理を停止させて、発生したエラーを修正する処理を意味する。つまり、特許文献1に記載されている技術を用いた場合、ハードエラーが発生したか否かを判定するために、情報処理装置における通常の処理を停止させる必要のある技術である。
また、特許文献2に記載されている技術は、1ビットエラーが発生したアドレスにその後書き込みが行われたか否かを示すフラグを設けて、このフラグの内容と1ビットエラー発生状況の時系列情報とからハードエラーが発生したかソフトエラーが発生したかを区別する技術である。ここで、1ビットエラーが発生したアドレスにその後書き込みが行われたか否かを判定する装置は、図8に示す装置である。この図8に示す装置は、1つのアドレス読み出し単位(あるデータ長を有するメモリ領域、例えば、ワード)に対応している。そのため、例えば、メモリアレイの読み出しワード数が256である場合には、図8に示す装置が256個必要になり、特許文献2に記載されている技術を用いた場合、情報処理装置の規模が大きくなってしまう。
そのため、装置の規模を小さく抑え、かつ、通常の情報処理を停止させずに、ハードエラーが発生したかソフトエラーが発生したかを区別することのできる技術が求められていた。
By the way, in the technique described in Patent Document 1, when an error occurs in the cache, the contents of the main memory are written again into the cache where the error has occurred, and if an error occurs again within a certain time, a hard error occurs. Is determined to have occurred. Here, when an error occurs in the cache, writing the contents of the main memory again into the cache at the location where the error has occurred means stopping the normal processing in the information processing apparatus and correcting the generated error. . In other words, when the technique described in Patent Document 1 is used, it is necessary to stop normal processing in the information processing apparatus in order to determine whether or not a hard error has occurred.
The technique described in Patent Document 2 provides a flag indicating whether or not writing has been performed on an address where a 1-bit error has occurred, and the contents of this flag and the time-series information of the 1-bit error occurrence status Is a technique for distinguishing whether a hard error or a soft error has occurred. Here, an apparatus for determining whether or not writing has been performed to an address where a 1-bit error has occurred is the apparatus shown in FIG. The apparatus shown in FIG. 8 corresponds to one address reading unit (a memory area having a certain data length, for example, a word). Therefore, for example, when the number of read words in the memory array is 256, 256 devices shown in FIG. 8 are required. When the technique described in Patent Document 2 is used, the scale of the information processing device is large. It gets bigger.
Therefore, there has been a demand for a technique capable of distinguishing whether a hard error has occurred or a soft error has occurred without reducing the scale of the apparatus and stopping normal information processing.

そこで、この発明は、上記の課題を解決することのできる保守判断装置、保守判断方法及びプログラムを提供することを目的としている。   Therefore, an object of the present invention is to provide a maintenance determination device, a maintenance determination method, and a program that can solve the above-described problems.

上記目的を達成するために、本発明の一態様は、メモリからデータを読み出す時にあるデータ長を有するメモリ領域に訂正可能な障害が発生している場合に、前記メモリ領域に対する訂正可能な障害が発生したことを示す情報を第1状況記憶用レジスタに保持させる第1決定論理部と、前記メモリにデータを書き込む時に前記メモリ領域についてすでに訂正可能な障害が発生している場合に、前記メモリ領域に対する訂正可能な障害が発生していることを示す情報を第2状況記憶用レジスタに保持させる第2決定論理部と、を備える保守判断装置である。   In order to achieve the above object, according to one aspect of the present invention, when a correctable failure occurs in a memory area having a certain data length when data is read from the memory, the correctable failure occurs in the memory area. A first decision logic unit that holds information indicating that the error occurred in a first status storage register; and the memory area when a correctable fault has already occurred in the memory area when data is written to the memory. A second determination logic unit that stores information indicating that a correctable failure has occurred in a second status storage register.

また、本発明の別の態様は、メモリからデータを読み出す時にあるメモリ領域に訂正可能な障害が発生している場合に、前記メモリ領域に対する訂正可能な障害が発生したことを示す情報を第1状況記憶用レジスタに保持させることと、前記メモリにデータを書き込む時に前記メモリ領域についてすでに訂正可能な障害が発生している場合に、前記メモリ領域に対する訂正可能な障害が発生していることを示す情報を第2状況記憶用レジスタに保持させることと、を含む保守判断方法である。   According to another aspect of the present invention, when a correctable failure occurs in a memory area when data is read from the memory, information indicating that a correctable failure has occurred in the memory area is first Indicates that a correctable failure has occurred in the memory area when it has been stored in the status storage register and a correctable failure has already occurred in the memory area when data is written to the memory Holding the information in a second status storage register.

また、本発明の別の態様は、コンピュータに、メモリからデータを読み出す時にあるメモリ領域に訂正可能な障害が発生している場合に、前記メモリ領域に対する訂正可能な障害が発生したことを示す情報を第1状況記憶用レジスタに保持させることと、前記メモリにデータを書き込む時に前記メモリ領域についてすでに訂正可能な障害が発生している場合に、前記メモリ領域に対する訂正可能な障害が発生していることを示す情報を第2状況記憶用レジスタに保持させることと、を実行させるプログラムである。   According to another aspect of the present invention, there is provided information indicating that a correctable fault has occurred in the memory area when a correctable fault has occurred in a memory area when data is read from the memory. Is stored in the first status storage register, and a correctable fault has occurred in the memory area when a correctable fault has already occurred in the memory area when data is written to the memory. Is stored in the second status storage register.

本発明によれば、装置の規模を小さく抑え、かつ、通常の情報処理を停止させずに、ハードエラーが発生したかソフトエラーが発生したかを区別することができる。   According to the present invention, it is possible to distinguish whether a hard error has occurred or a soft error has occurred without reducing the scale of the apparatus and stopping normal information processing.

本発明の一実施形態による保守判断システムの構成を示す図である。It is a figure which shows the structure of the maintenance judgment system by one Embodiment of this invention. 本発明の一実施形態によるSTATUS_R[n]決定論理部の真理値表を示す図である。It is a figure which shows the truth table of the STATUS_R [n] decision logic part by one Embodiment of this invention. 本発明の一実施形態によるSTATUS_W[n]決定論理部の真理値表を示す図である。It is a figure which shows the truth table of the STATUS_W [n] decision logic part by one Embodiment of this invention. 本発明の一実施形態による保守判断システムの処理フローを示す図である。It is a figure which shows the processing flow of the maintenance judgment system by one Embodiment of this invention. 本発明の一実施形態による保守判断装置の効果を説明するための第1の図である。It is a 1st figure for demonstrating the effect of the maintenance judgment apparatus by one Embodiment of this invention. 本発明の一実施形態による保守判断装置の効果を説明するための第2の図である。It is a 2nd figure for demonstrating the effect of the maintenance judgment apparatus by one Embodiment of this invention. 本発明の実施形態による保守判断装置の最小構成を示す図である。It is a figure which shows the minimum structure of the maintenance judgment apparatus by embodiment of this invention. 特許文献2に記載の技術を用いた装置の構成を示す図である。It is a figure which shows the structure of the apparatus using the technique of patent document 2. FIG.

<実施形態>
次に、本発明の一実施形態による保守判断装置40を含む保守判断システム1の構成について説明する。
本発明の一実施形態による保守判断システム1は、メモリの同じアドレスから訂正可能な障害が出力され続ける場合に、その原因がハードウェアの故障によるハードウェアの交換を必要とする固定故障であるか、障害発生以降1度もメモリが書き込みされてないために一時的に生じる障害でありハードウェアの交換を必要としない故障であるかを判定することのできるシステムである。保守判断システム1は、図1に示すように、メモリ10と、レジスタ20a、20b、20c、20d、20e、20f、20g、20h、20i及び20jと、誤り検出/誤り訂正回路30と、保守判断装置40と、を備える。
なお、レジスタ20a、20b、20c、20d、20e、20f、20g、20h、20i及び20jを総称して、レジスタ20と呼ぶ。
<Embodiment>
Next, the configuration of the maintenance determination system 1 including the maintenance determination device 40 according to one embodiment of the present invention will be described.
In the maintenance determination system 1 according to an embodiment of the present invention, when a correctable failure continues to be output from the same address in the memory, whether the cause is a fixed failure that requires hardware replacement due to a hardware failure This is a system that can determine whether the failure has occurred temporarily because the memory has not been written even after the failure, and does not require hardware replacement. As shown in FIG. 1, the maintenance determination system 1 includes a memory 10, registers 20a, 20b, 20c, 20d, 20e, 20f, 20g, 20h, 20i, and 20j, an error detection / error correction circuit 30, and a maintenance determination. Device 40.
The registers 20a, 20b, 20c, 20d, 20e, 20f, 20g, 20h, 20i, and 20j are collectively referred to as a register 20.

メモリ10は、本発明の一実施形態において、1サイクル当たりのメモリオペレーションが読み出し、書き込み、または、どちらでもない(読み出し・書き込み以外、一般的にはパワーセーブ)のいずれか1つしか動作しないone read writeタイプである。なお、one read writeタイプは、メモリ10のメモリタイプの一例である。本発明の一実施形態の保守判断装置40により得られる効果は、メモリ10のメモリタイプに依存するものではない。そのため、メモリ10は、どのようなメモリタイプのメモリであってもよい。   In one embodiment of the present invention, the memory 10 operates only one of the memory operations per cycle, that is, read, write, or neither (one other than read / write, generally power save). It is a read write type. The one read write type is an example of the memory type of the memory 10. The effect obtained by the maintenance determination device 40 according to the embodiment of the present invention does not depend on the memory type of the memory 10. Therefore, the memory 10 may be any memory type memory.

保守判断システム1には、READ/WRITE・ADDRESS信号001、WRITE・ENABLE信号002、CHIP・ENABLE信号003、WRITE・DATA信号004、TIME信号010、RESET信号011のそれぞれが入力される。
誤り検出/誤り訂正回路30は、Syndrome信号007、Corrected・DATA008、SBE(Single Bit Error)信号009のそれぞれを出力する。
メモリ10からは、READ・DATA信号005が読み出される。
READ/WRITE・ADDRESS信号001、WRITE・ENABLE信号002、CHIP・ENABLE信号003のそれぞれは、メモリ10の制御信号であり、一般的なアドレス信号及びイネーブル信号と同様である。すなわち、READ/WRITE・ADDRESS信号001は、メモリ10にアクセスする際のアドレスを指定する信号である。また、WRITE・ENABLE信号002は、書き込みを許可する信号である。また、CHIP・ENABLE信号003は、メモリ10の動作を許可する信号である。
また、WRITE・DATA信号004、READ・DATA信号005のそれぞれは、メモリ10の入出力DATA信号であり、一般的なメモリの入出力データ信号の書き込みデータ信号及び読み出しデータ信号と同様である。すなわち、WRITE・DATA信号004は、メモリ10に書き込まれるデータを示す信号である。また、READ・DATA信号005は、メモリ10から読み出されるデータを示す信号である。
The maintenance determination system 1 receives a READ / WRITE / ADDRESS signal 001, a WRITE / ENABLE signal 002, a CHIP / ENABLE signal 003, a WRITE / DATA signal 004, a TIME signal 010, and a RESET signal 011.
The error detection / error correction circuit 30 outputs a Syndrome signal 007, a Corrected DATA 008, and an SBE (Single Bit Error) signal 009.
A READ / DATA signal 005 is read from the memory 10.
Each of the READ / WRITE / ADDRESS signal 001, the WRITE / ENABLE signal 002, and the CHIP / ENABLE signal 003 is a control signal of the memory 10, and is similar to a general address signal and an enable signal. That is, the READ / WRITE / ADDRESS signal 001 is a signal for designating an address when the memory 10 is accessed. The WRITE / ENABLE signal 002 is a signal that permits writing. The CHIP / ENABLE signal 003 is a signal that permits the operation of the memory 10.
Each of the WRITE / DATA signal 004 and the READ / DATA signal 005 is an input / output DATA signal of the memory 10 and is the same as a write data signal and a read data signal of an input / output data signal of a general memory. That is, the WRITE / DATA signal 004 is a signal indicating data to be written in the memory 10. The READ / DATA signal 005 is a signal indicating data read from the memory 10.

レジスタ20のそれぞれは、1クロック分のデータを保持するレジスタである。
誤り検出/誤り訂正回路30は、ECC(Error Correction Code)により、メモリ10から読み出された誤り訂正符号が付加されたREAD・DATA信号005から誤りを検出し、検出した誤りを訂正する回路である。誤り検出/誤り訂正回路30の動作は、一般的な誤り検出回路及び誤り訂正回路の動作と同様である。
Each of the registers 20 is a register that holds data for one clock.
The error detection / error correction circuit 30 is a circuit that detects an error from a READ / DATA signal 005 to which an error correction code read from the memory 10 is added by ECC (Error Correction Code) and corrects the detected error. is there. The operation of the error detection / error correction circuit 30 is the same as that of a general error detection circuit and error correction circuit.

Syndrome信号007は、誤り検出/誤り訂正回路30が検出した誤りbitの情報を示す信号である。また、Corrected・DATA008は、誤り訂正済みDATA信号である。SBE(Single Bit Error)信号009は、訂正可能な障害を検出したことを通知する信号である。
なお、本発明の一実施形態の保守判断装置40により得られる効果は、誤り検出/誤り訂正回路30に依存するものではない。
The Syndrome signal 007 is a signal indicating information on an error bit detected by the error detection / error correction circuit 30. Corrected DATA 008 is an error-corrected DATA signal. An SBE (Single Bit Error) signal 009 is a signal notifying that a correctable failure has been detected.
Note that the effect obtained by the maintenance determination device 40 according to the embodiment of the present invention does not depend on the error detection / error correction circuit 30.

保守判断装置40は、図1に示すように、STATUS_R[n]決定論理部401と、STATUS_W[n]決定論理部402と、時間監視部403と、STATUS_R[n]状況記憶用レジスタ404と、STATUS_W[n]状況記憶用レジスタ405と、報知部406と、を備える。   As shown in FIG. 1, the maintenance determination device 40 includes a STATUS_R [n] decision logic unit 401, a STATUS_W [n] decision logic unit 402, a time monitoring unit 403, a STATUS_R [n] status storage register 404, A STATUS_W [n] status storage register 405 and a notification unit 406 are provided.

図2は、STATUS_R[n]決定論理部401の動作を示す真理値表である。図2に示す真理値表は、ワードWD[n]のメモリオペレーションが読み出しであり、メモリの状態が訂正可能な障害が発生している場合に、STATUS_R[n]状況記憶用レジスタ404の値を1とすることを示す。また、図2に示す真理値表は、ワードWD[n]のメモリオペレーションが読み出しであり、メモリの状態が訂正可能な障害が発生していない場合に、STATUS_R[n]状況記憶用レジスタ404の値を変更しないことを示す。また、図2に示す真理値表は、ワードWD[n]のメモリオペレーションが書き込みである場合、メモリの状態にかかわらず、STATUS_R[n]状況記憶用レジスタ404の値を変更しないことを示す。また、図2に示す真理値表は、ワードWD[n]のメモリオペレーションが読み出し・書き込み以外である場合、メモリの状態にかかわらず、STATUS_R[n]状況記憶用レジスタ404の値を変更しないことを示す。また、図2に示す真理値表は、予め設定した監視時間が経過した場合、または、RESET信号011が入力された場合、STATUS_R[n]状況記憶用レジスタ404の値を0にすることを示す。
なお、[n]は、メモリ構成単位を示す。例えば、メモリ10がXワード構成であった場合、[n]は、[0]、[1]、[2]、・・・、[X−1]となる。なお、ワードは、あるデータ長を有するメモリ領域の一例である。
STATUS_R[n]決定論理部401は、READ/WRITE・ADDRESS信号001が示すリードアドレスに基づいて、図2に示す真理値表のように動作することによりSTATUS_R[n]を選択する。
具体的には、STATUS_R[n]決定論理部401に入力されるREAD/WRITE・ADDRESS信号001は、STATUS_R[n]決定論理部401が自身のワードWD[n]に対するアクセスであるかを判定するための入力信号である。
STATUS_R[n]決定論理部401に入力されるWRITE・ENABLE信号002及びCHIP・ENABLE信号003は、メモリオペレーションが読み出しか、書き込みか、または、どちらでもないかをSTATUS_R[n]決定論理部401が判定するための入力信号である。
STATUS_R[n]決定論理部401に入力されるSBE(Single Bit Error)信号009は、メモリオペレーションで訂正可能な障害を検出したか否かをSTATUS_R[n]決定論理部401が判定するための入力信号である。
STATUS_R[n]決定論理部401は、ワードWD[n]のメモリオペレーションが読み出しであり、かつ、メモリ10の状況がワードWD[n]に訂正可能な障害が発生している場合、STATUS_R[n]状況記憶用レジスタ404を訂正可能な障害が発生していることを示す値である1にするよう指示する。
FIG. 2 is a truth table showing the operation of the STATUS_R [n] decision logic unit 401. The truth table shown in FIG. 2 shows the value of the STATUS_R [n] status storage register 404 when the memory operation of the word WD [n] is read and a failure in which the state of the memory can be corrected has occurred. 1 is shown. Further, the truth table shown in FIG. 2 shows that when the memory operation of the word WD [n] is read and there is no failure that can correct the state of the memory, the STATUS_R [n] status storage register 404 Indicates that the value does not change. The truth table shown in FIG. 2 indicates that when the memory operation of the word WD [n] is a write, the value of the STATUS_R [n] status storage register 404 is not changed regardless of the state of the memory. In the truth table shown in FIG. 2, when the memory operation of the word WD [n] is other than read / write, the value of the STATUS_R [n] status storage register 404 is not changed regardless of the state of the memory. Indicates. Also, the truth table shown in FIG. 2 indicates that the value of the STATUS_R [n] status storage register 404 is set to 0 when a preset monitoring time has elapsed or when the RESET signal 011 is input. .
[N] indicates a memory configuration unit. For example, when the memory 10 has an X word configuration, [n] is [0], [1], [2],. Note that a word is an example of a memory area having a certain data length.
The STATUS_R [n] decision logic unit 401 selects STATUS_R [n] by operating like the truth table shown in FIG. 2 based on the read address indicated by the READ / WRITE / ADDRESS signal 001.
Specifically, the READ / WRITE • ADDRESS signal 001 input to the STATUS_R [n] decision logic unit 401 determines whether the STATUS_R [n] decision logic unit 401 is an access to its own word WD [n]. Is an input signal.
The WRITE_ENABLE signal 002 and the CHIP / ENABLE signal 003 input to the STATUS_R [n] determination logic unit 401 indicate whether the memory operation is a read operation, a write operation, or neither. This is an input signal for determination.
An SBE (Single Bit Error) signal 009 input to the STATUS_R [n] decision logic unit 401 is an input for the STATUS_R [n] decision logic unit 401 to determine whether a fault that can be corrected by the memory operation is detected. Signal.
The STATUS_R [n] decision logic unit 401, if the memory operation of the word WD [n] is a read operation and the failure of the status of the memory 10 is correctable in the word WD [n], the STATUS_R [n] Instructs the status storage register 404 to be 1, which is a value indicating that a correctable fault has occurred.

図3は、STATUS_W[n]決定論理部402の動作を示す真理値表である。図3に示す真理値表は、ワードWD[n]のメモリオペレーションが読み出しであり、メモリの状態が訂正可能な障害が発生している場合、STATUS_R[n]状況記憶用レジスタ404の値にかかわらず、STATUS_W[n]状況記憶用レジスタ405の値を変更しないことを示す。また、図3に示す真理値表は、ワードWD[n]のメモリオペレーションが読み出しであり、メモリの状態が訂正可能な障害が発生していない場合、STATUS_R[n]状況記憶用レジスタ404の値にかかわらず、STATUS_W[n]状況記憶用レジスタ405の値を変更しないことを示す。また、図3に示す真理値表は、ワードWD[n]のメモリオペレーションが書き込みであり、STATUS_R[n]状況記憶用レジスタ404の値が0である場合、メモリの状態にかかわらず、STATUS_W[n]状況記憶用レジスタ405の値を変更しないことを示す。また、図3に示す真理値表は、ワードWD[n]のメモリオペレーションが書き込みであり、STATUS_R[n]状況記憶用レジスタ404の値が1である場合、メモリの状態にかかわらず、STATUS_W[n]状況記憶用レジスタ405の値を1にすることを示す。また、図3に示す真理値表は、ワードWD[n]のメモリオペレーションが読み出し・書き込み以外である場合、メモリの状態及びSTATUS_R[n]状況記憶用レジスタ404の値にかかわらず、STATUS_W[n]状況記憶用レジスタ405の値を変更しないことを示す。また、図3に示す真理値表は、予め設定した監視時間が経過した場合、または、RESET信号011が入力された場合、STATUS_W[n]状況記憶用レジスタ405の値を0にすることを示す。
STATUS_W[n]決定論理部402は、READ/WRITE・ADDRESS信号001が示すライトアドレスに基づいて、図3に示す真理値表のように動作することによりSTATUS_W[n]を選択する。
具体的には、STATUS_W[n]決定論理部402に入力されるREAD/WRITE・ADDRESS信号001は、STATUS_W[n]決定論理部402が自身のワードWD[n]に対するアクセスであるかを判定するための入力信号である。
STATUS_W[n]決定論理部402に入力されるWRITE・ENABLE信号002及びCHIP・ENABLE信号003は、メモリオペレーションが読み出しか、書き込みか、または、どちらでもないかをSTATUS_W[n]決定論理部402が判定するための入力信号である。
STATUS_W[n]決定論理部402に入力されるSTATUS_R[n]状況記憶用レジスタ404から取得する信号は、ワードWD[n]で以前に訂正可能な障害が発生したか否かをSTATUS_W[n]決定論理部402が判定するための入力信号である。
STATUS_W[n]決定論理部402は、メモリオペレーションがワードWD[n]に対する書き込みであり、かつ、STATUS_R[n]状況記憶用レジスタ404の値が1である場合、STATUS_W[n]状況記憶用レジスタ405の値を1にするよう指示する。
FIG. 3 is a truth table showing the operation of the STATUS_W [n] decision logic unit 402. The truth table shown in FIG. 3 relates to the value of the STATUS_R [n] status storage register 404 when the memory operation of the word WD [n] is a read operation and a failure in which the memory state can be corrected has occurred. STATUS_W [n] indicates that the value of the status storage register 405 is not changed. Also, the truth table shown in FIG. 3 shows the value of the STATUS_R [n] status storage register 404 when the memory operation of the word WD [n] is read and there is no failure in which the memory state can be corrected. Regardless of whether or not the value of the STATUS_W [n] status storage register 405 is not changed. In the truth table shown in FIG. 3, when the memory operation of the word WD [n] is a write and the value of the STATUS_R [n] status storage register 404 is 0, the STATUS_W [ n] Indicates that the value of the status storage register 405 is not changed. In the truth table shown in FIG. 3, when the memory operation of the word WD [n] is a write and the value of the STATUS_R [n] status storage register 404 is 1, the STATUS_W [ n] Indicates that the value of the status storage register 405 is set to 1. Further, the truth table shown in FIG. 3 shows that when the memory operation of the word WD [n] is other than reading / writing, the STATUS_W [n] is independent of the state of the memory and the value of the STATUS_R [n] status storage register 404. ] Indicates that the value of the status storage register 405 is not changed. Also, the truth table shown in FIG. 3 indicates that the value of the STATUS_W [n] status storage register 405 is set to 0 when a preset monitoring time has elapsed or when the RESET signal 011 is input. .
The STATUS_W [n] decision logic unit 402 selects STATUS_W [n] by operating like the truth table shown in FIG. 3 based on the write address indicated by the READ / WRITE / ADDRESS signal 001.
Specifically, the READ / WRITE • ADDRESS signal 001 input to the STATUS_W [n] decision logic unit 402 determines whether the STATUS_W [n] decision logic unit 402 is an access to its own word WD [n]. Is an input signal.
The WRITE_ENABLE signal 002 and the CHIP / ENABLE signal 003 input to the STATUS_W [n] decision logic unit 402 indicate whether the memory operation is a read operation, a write operation, or neither. This is an input signal for determination.
The signal acquired from the STATUS_R [n] status storage register 404 input to the STATUS_W [n] decision logic unit 402 indicates whether or not a previously correctable failure has occurred in the word WD [n]. This is an input signal for determination by the decision logic unit 402.
The STATUS_W [n] determination logic unit 402, when the memory operation is a write to the word WD [n] and the value of the STATUS_R [n] status storage register 404 is 1, the STATUS_W [n] status storage register. Instructs the value of 405 to be 1.

なお、STATUS_R[n]決定論理部401は、メモリ10の読み出しや書き込み動作に必要な信号であってレジスタ20で1クロックのタイミングで保持した信号を用いて状況を判定し、次の1クロックのタイミングでSTATUS_R[n]状況記憶用レジスタ404にその判定結果を格納する。また、STATUS_W[n]決定論理部402は、メモリ10の読み出しや書き込み動作に必要な信号であってレジスタ20で1クロックのタイミングで保持した信号を用いて状況を判定し、次の1クロックのタイミングでSTATUS_W[n]状況記憶用レジスタ405にその判定結果を格納する。
したがって、STATUS_R[n]決定論理部401及びSTATUS_W[n]決定論理部402による状況の判定結果は、読み出しや書き込みより1クロック遅れたタイミングで更新される。そのため、訂正可能な障害が発生したタイミングでSTATUS_R[n]状況記憶用レジスタ404またはSTATUS_W[n]状況記憶用レジスタ405を読み出した場合、その訂正可能な障害による影響が反映される前の状況が読み出されることになる。
Note that the STATUS_R [n] determination logic unit 401 determines a situation using a signal necessary for a read or write operation of the memory 10 and held in the register 20 at the timing of one clock, and then determines the next one clock. The determination result is stored in the STATUS_R [n] status storage register 404 at the timing. Further, the STATUS_W [n] determination logic unit 402 determines a situation using a signal necessary for a read or write operation of the memory 10 and held in the register 20 at the timing of one clock, and then determines the next one clock. The determination result is stored in the STATUS_W [n] status storage register 405 at the timing.
Therefore, the determination result of the situation by the STATUS_R [n] decision logic unit 401 and the STATUS_W [n] decision logic unit 402 is updated at a timing delayed by one clock from reading and writing. Therefore, when the STATUS_R [n] status storage register 404 or the STATUS_W [n] status storage register 405 is read at the timing when a correctable failure occurs, the situation before the influence of the correctable failure is reflected. Will be read.

時間監視部403は、例えば、カウンタであり、ワードWD[n]の訂正可能な障害が発生した後の一定時間を計測する。
具体的には、時間監視部403におけるSTATUS_R[n]決定論理部401からの信号は、ワードWD[n]に訂正可能な障害が発生したことを判定するための入力信号である。
時間監視部403におけるTIME信号010は、例えば、実時間TOD(Time Of Day)や1マイクロ秒振幅信号などのタイマ信号である。TIME信号010は、時間を計測するための信号であり、時間を知ることができる信号であれば種類を限定するものではない。
時間監視部403におけるRESET信号011は、保守判断システム1全体の初期化、または、局所的なRESET指示信号である。
時間監視部403は、STATUS_R[n]決定論理部401からの信号が1(=ワードWD[n]で訂正可能な障害が発生)であった場合、0から時間の計測を開始する。
ここで、時間監視部403が時間を計測している間を監視中と呼ぶ。
時間監視部403は、監視中に再びSTATUS_R[n]決定論理部401からワードWD[n]で訂正可能な障害が発生したことを示す値が1の信号を受信すると、時間を0に戻して時間の計測を再開する。
時間監視部403は、監視中に、予め設定された一定時間を経過した場合、または、RESET信号011を受信した場合、ワードWD[n]のSTATUS_R[n]状況記憶用レジスタ404とSTATUS_W[n]状況記憶用レジスタ405とにリセットを指示する。
The time monitoring unit 403 is, for example, a counter and measures a certain time after a correctable failure of the word WD [n] occurs.
Specifically, the signal from the STATUS_R [n] determination logic unit 401 in the time monitoring unit 403 is an input signal for determining that a correctable failure has occurred in the word WD [n].
The TIME signal 010 in the time monitoring unit 403 is a timer signal such as a real time TOD (Time Of Day) or a 1 microsecond amplitude signal. The TIME signal 010 is a signal for measuring time, and the type is not limited as long as the signal can know the time.
A RESET signal 011 in the time monitoring unit 403 is an initialization of the entire maintenance determination system 1 or a local RESET instruction signal.
If the signal from the STATUS_R [n] decision logic unit 401 is 1 (= a failure that can be corrected by the word WD [n] occurs), the time monitoring unit 403 starts measuring time from 0.
Here, the time monitoring unit 403 is measuring time is referred to as monitoring.
When the time monitoring unit 403 receives a signal with a value of 1 indicating that a correctable failure has occurred in the word WD [n] from the STATUS_R [n] decision logic unit 401 again during monitoring, the time monitoring unit 403 resets the time to 0. Resume time measurement.
The time monitoring unit 403 receives the STATUS_R [n] status storage register 404 of the word WD [n] and the STATUS_W [n when a predetermined time has elapsed during monitoring or when the RESET signal 011 is received. Instructs the status storage register 405 to reset.

STATUS_R[n]状況記憶用レジスタ404は、ワードWD[n]に対する訂正可能な障害の発生の有無を記憶するレジスタである。   The STATUS_R [n] status storage register 404 is a register that stores the presence or absence of occurrence of a correctable failure for the word WD [n].

STATUS_W[n]状況記憶用レジスタ405は、ワードWD[n]に対する訂正可能な障害の発生後に同ワードの書き込みの有無を記憶するレジスタである。   The STATUS_W [n] status storage register 405 is a register that stores the presence / absence of writing of the word after occurrence of a correctable failure with respect to the word WD [n].

STATUS_R[n]状況記憶用レジスタ404とSTATUS_W[n]状況記憶用レジスタ405は、訂正可能な障害があった場合、該当するアドレスの訂正可能な障害が発生して以降の書き込み履歴を、メモリ10のワード単位に1対1で対応した、STATUS_R[n]状況記憶用レジスタ404の1ビットとSTATUS_W[n]状況記憶用レジスタ405の1ビットとの組み合わせとして記憶する。
なお、図1では、任意のワードWD[n]について示されている。STATUS_R[n]状況記憶用レジスタ404及びSTATUS_W[n]状況記憶用レジスタ405において、[n]は、メモリ構成単位におけるワードWD[n]に対する状況記憶用レジスタであることを示す。例えば、メモリ10がXワード構成であった場合、[n]は、[0]、[1]、[2]、・・・、[X−1]となる。
また、STATUS_R[n]決定論理部401、STATUS_W[n]決定論理部402、時間監視部403、STATUS_R[n]状況記憶用レジスタ404、STATUS_W[n]状況記憶用レジスタ405のそれぞれは、各ワードに対応したX個ずつ存在する。
When there is a correctable failure, the STATUS_R [n] status storage register 404 and the STATUS_W [n] status storage register 405 store the write history after the occurrence of the correctable failure at the corresponding address. Are stored as a combination of 1 bit of the STATUS_R [n] status storage register 404 and 1 bit of the STATUS_W [n] status storage register 405 corresponding to each word unit.
In FIG. 1, an arbitrary word WD [n] is shown. In the STATUS_R [n] status storage register 404 and the STATUS_W [n] status storage register 405, [n] indicates a status storage register for the word WD [n] in the memory configuration unit. For example, when the memory 10 has an X word configuration, [n] is [0], [1], [2],.
Further, each of the STATUS_R [n] decision logic unit 401, the STATUS_W [n] decision logic unit 402, the time monitoring unit 403, the STATUS_R [n] status storage register 404, and the STATUS_W [n] status storage register 405 includes each word. There are X corresponding to each.

報知部406は、STATUS_R[n]状況記憶用レジスタ404の値及びSTATUS_W[n]状況記憶用レジスタ405の値に基づく保守判断結果を報知する。   The notification unit 406 notifies a maintenance determination result based on the value of the STATUS_R [n] status storage register 404 and the value of the STATUS_W [n] status storage register 405.

次に、本発明の一実施形態による保守判断システム1の処理について説明する。
ここでは、図4に示す保守判断システム1の処理フローについて説明する。
なお、ここでは、説明を簡単にするために任意の1つのワードWD[n]についての処理を例に保守判断システム1の処理を説明する。
Next, processing of the maintenance determination system 1 according to an embodiment of the present invention will be described.
Here, a processing flow of the maintenance determination system 1 shown in FIG. 4 will be described.
Here, in order to simplify the description, the process of the maintenance determination system 1 will be described by taking the process for an arbitrary word WD [n] as an example.

保守判断システム1が立ち上がるとき、STATUS_R[n]状況記憶用レジスタ404及びSTATUS_W[n]状況記憶用レジスタ405のそれぞれは、レジスタの保持する値を0に初期化する(ステップS1)。
初期化直後、または、予め設定された一定時間、訂正可能な障害が発生していない状態では、STATUS_R[n]状況記憶用レジスタ404及びSTATUS_W[n]状況記憶用レジスタ405のそれぞれは、共に値が0である。
When the maintenance determination system 1 starts up, each of the STATUS_R [n] status storage register 404 and the STATUS_W [n] status storage register 405 initializes the value held in the register to 0 (step S1).
Each of the STATUS_R [n] status storage register 404 and the STATUS_W [n] status storage register 405 is a value immediately after initialization or in a state where no correctable fault has occurred for a preset fixed time. Is 0.

保守判断システム1が立ち上がると、メモリ10、レジスタ20、誤り検出/誤り訂正回路30、保守判断装置40のそれぞれが動作を開始する。   When the maintenance determination system 1 starts up, each of the memory 10, the register 20, the error detection / error correction circuit 30, and the maintenance determination device 40 starts operation.

STATUS_R[n]決定論理部401は、ワードWD[n]で読み出しが有るか否かを判定し、読み出しが有ると判定した場合には、そのワードWD[n]に訂正可能な障害が発生しているか否かを判定する(ステップS2)。   The STATUS_R [n] decision logic unit 401 determines whether or not there is a read in the word WD [n]. If it is determined that there is a read, a correctable failure occurs in the word WD [n]. It is determined whether or not (step S2).

STATUS_R[n]決定論理部401は、ワードWD[n]に訂正可能な障害が発生したと判定した場合(ステップS2においてYES)、STATUS_R[n]状況記憶用レジスタ404に1を格納する(ステップS3)。   If the STATUS_R [n] decision logic unit 401 determines that a correctable failure has occurred in the word WD [n] (YES in step S2), the STATUS_R [n] determination unit 401 stores 1 in the STATUS_R [n] status storage register 404 (step S2). S3).

時間監視部403は、STATUS_R[n]決定論理部401からの信号が1(=ワードWD[n]で訂正可能な障害が発生)となり、0から時間の計測を開始する(ステップS4)。
そして、時間監視部403は、監視中であるか否かを判定する(ステップS5)。
The time monitoring unit 403 starts the time measurement from 0 when the signal from the STATUS_R [n] decision logic unit 401 becomes 1 (= a failure that can be corrected by the word WD [n] occurs) (step S4).
Then, the time monitoring unit 403 determines whether monitoring is in progress (step S5).

また、STATUS_R[n]決定論理部401がワードWD[n]に訂正可能な障害が発生していないと判定した場合(ステップS2においてNO)、STATUS_W[n]決定論理部402は、ワードWD[n]に書き込みが有るか否かを判定する(ステップS6)。   If the STATUS_R [n] decision logic unit 401 determines that no correctable failure has occurred in the word WD [n] (NO in step S2), the STATUS_W [n] decision logic unit 402 selects the word WD [n]. n] is determined (step S6).

STATUS_W[n]決定論理部402がワードWD[n]に書き込みが有ると判定した場合(ステップS6においてYES)、STATUS_R[n]決定論理部401は、STATUS_R[n]状況記憶用レジスタ404が0であるか否かを判定する(ステップS7)。   If the STATUS_W [n] decision logic unit 402 determines that there is a write to the word WD [n] (YES in step S6), the STATUS_R [n] decision logic unit 401 sets the STATUS_R [n] status storage register 404 to 0. It is determined whether or not (step S7).

STATUS_R[n]決定論理部401がSTATUS_R[n]状況記憶用レジスタ404が0ではないと判定した場合(ステップS7においてNO)、STATUS_W[n]決定論理部402は、STATUS_W[n]状況記憶用レジスタ405に1を格納する(ステップS8)。
そして、STATUS_W[n]決定論理部402は、ステップS5の処理に進める。
When the STATUS_R [n] decision logic unit 401 determines that the STATUS_R [n] status storage register 404 is not 0 (NO in step S7), the STATUS_W [n] decision logic unit 402 is for STATUS_W [n] status storage. 1 is stored in the register 405 (step S8).
Then, the STATUS_W [n] determination logic unit 402 proceeds to the process of step S5.

また、STATUS_W[n]決定論理部402は、ワードWD[n]に書き込みが無いと判定した場合(ステップS6においてNO)、ステップS5の処理に進める。   If the STATUS_W [n] decision logic unit 402 determines that the word WD [n] is not written (NO in step S6), the STATUS_W [n] determination logic unit 402 proceeds to the process of step S5.

また、STATUS_R[n]決定論理部401は、STATUS_R[n]状況記憶用レジスタ404が0であると判定した場合(ステップS7においてYES)、ステップS5の処理に進める。
時間監視部403は、ワードWD[n]について監視中であると判定した場合(ステップS5においてYES)、ワードWD[n]について予め設定された一定時間の監視時間を経過したか否かを判定する(ステップS9)。
If the STATUS_R [n] determination logic unit 401 determines that the STATUS_R [n] status storage register 404 is 0 (YES in step S7), the process proceeds to step S5.
When time monitoring unit 403 determines that word WD [n] is being monitored (YES in step S5), time monitoring unit 403 determines whether or not a predetermined monitoring time has elapsed for word WD [n]. (Step S9).

時間監視部403がワードWD[n]について予め設定された一定時間の監視時間を経過したと判定した場合(ステップS9についてYES)、STATUS_R[n]決定論理部401は、STATUS_R[n]状況記憶用レジスタ404にリセットを指示し、STATUS_W[n]決定論理部402は、STATUS_W[n]状況記憶用レジスタ405にリセットを指示し、時間監視部403は、監視、すなわち、時間の計測を終了する(ステップS10)。
そして、時間監視部403は、ステップS2の処理に戻す。
When the time monitoring unit 403 determines that a predetermined monitoring time set for the word WD [n] has elapsed (YES in step S9), the STATUS_R [n] decision logic unit 401 stores the STATUS_R [n] status storage. The STATUS_W [n] decision logic unit 402 instructs the STATUS_W [n] status storage register 405 to reset, and the time monitoring unit 403 ends the monitoring, that is, the time measurement. (Step S10).
Then, the time monitoring unit 403 returns to the process of step S2.

また、時間監視部403は、ワードWD[n]について予め設定された一定時間の監視時間を経過していないと判定した場合(ステップS9についてNO)、監視時間、すなわち、計測時間を加算する(ステップS11)。
そして、時間監視部403は、ステップS2の処理に戻す。
If the time monitoring unit 403 determines that the preset monitoring time for the word WD [n] has not elapsed (NO in step S9), the time monitoring unit 403 adds the monitoring time, that is, the measurement time ( Step S11).
Then, the time monitoring unit 403 returns to the process of step S2.

なお、保守判断システム1は、上記のステップS2〜ステップS11の処理において、一筆書きでループする処理フローの1ループをメモリオペレーションの1サイクル毎に繰り返す。
また、保守判断システム1は、ステップS11の処理において計測時間を加算した状態でワードWD[n]について再び訂正可能な障害の発生を検出すると、監視時間を0に戻し、監視を継続する。
また、保守判断システム1は、初期化以外でリセットの指示があった場合は、非同期にSTATUS_R[n]状況記憶用レジスタ404及びSTATUS_W[n]状況記憶用レジスタ405の値を0にする。
Note that the maintenance determination system 1 repeats one loop of a processing flow that loops with one stroke in each process of the above-described steps S2 to S11 for each cycle of the memory operation.
In addition, when the maintenance determination system 1 detects the occurrence of a correctable failure for the word WD [n] in the state where the measurement time is added in the process of step S11, the maintenance determination system 1 returns the monitoring time to 0 and continues monitoring.
In addition, when there is a reset instruction other than initialization, the maintenance determination system 1 asynchronously sets the values of the STATUS_R [n] status storage register 404 and the STATUS_W [n] status storage register 405 to zero.

報知部406は、STATUS_R[n]状況記憶用レジスタ404の値及びSTATUS_W[n]状況記憶用レジスタ405の値に基づく保守判断結果を報知する。また、報知部406は、保守判断結果としてSTATUS_R[n]状況記憶用レジスタ404の値及びSTATUS_W[n]状況記憶用レジスタ405の値そのものを報知してもよい。
報知部406は、保守判断システム1が起動中、保守判断結果の報知を常時行うものであってよい。
The notification unit 406 notifies a maintenance determination result based on the value of the STATUS_R [n] status storage register 404 and the value of the STATUS_W [n] status storage register 405. Further, the notification unit 406 may notify the value of the STATUS_R [n] status storage register 404 and the value of the STATUS_W [n] status storage register 405 as the maintenance determination result.
The notification unit 406 may constantly notify the maintenance determination result while the maintenance determination system 1 is activated.

次に、図5及び図6を用いて訂正可能な障害が発生した時の該当部品に対する保守判断(交換判断)の効果について説明する。
なお、図5及び図6のうち、該当するケースが、STATUS_R[n]状況記憶用レジスタ404の値及びSTATUS_W[n]状況記憶用レジスタ405の値に基づく保守判断結果を報知部406が報知する例である。
Next, the effect of the maintenance judgment (replacement judgment) for the corresponding part when a correctable failure occurs will be described with reference to FIGS.
5 and 6, the notification unit 406 reports the maintenance determination result based on the value of the STATUS_R [n] status storage register 404 and the value of the STATUS_W [n] status storage register 405 in the corresponding case. It is an example.

本発明の一実施形態によるSTATUS_R[n]状況記憶用レジスタ404及びSTATUS_W[n]状況記憶用レジスタ405の値は、訂正可能な障害が発生した時に、保守判断装置40から抜き出され、外部にログとして登録、参照することにより、保守員等がこの値を用いて保守判断(交換判断)する。   The values of the STATUS_R [n] status storage register 404 and the STATUS_W [n] status storage register 405 according to an embodiment of the present invention are extracted from the maintenance determination device 40 when a correctable failure occurs and By registering and referring to the log, maintenance personnel and the like use this value to make a maintenance decision (replacement decision).

なお、STATUS_R[n]状況記憶用レジスタ404及びSTATUS_W[n]状況記憶用レジスタ405の値が抜き出されるタイミングは、訂正可能な障害が発生した時であり、これらのレジスタの値は、今回発生した訂正可能な障害の影響が反映される前の状況であることに注意する必要がある。   Note that the timing at which the values of the STATUS_R [n] status storage register 404 and the STATUS_W [n] status storage register 405 are extracted is when a correctable failure occurs, and the values of these registers are generated this time. It should be noted that this is the situation before the effects of the correctable failure were reflected.

図5は、STATUS_R[n]状況記憶用レジスタ404及びSTATUS_W[n]状況記憶用レジスタ405の値と、メモリ10のワードWD[n]の訂正可能な障害が発生した時の状況の関係の一例を示す図である。   FIG. 5 shows an example of the relationship between the values of the STATUS_R [n] status storage register 404 and the STATUS_W [n] status storage register 405 and the situation when a correctable failure of the word WD [n] in the memory 10 occurs. FIG.

STATUS_R[n]状況記憶用レジスタ404の値が0で、STATUS_W[n]状況記憶用レジスタ405の値が0である場合、一定期間内に訂正可能な障害が発生した履歴が無いことを示す。
したがって、「今回の障害は一定時間経過後初めて同障害が起きた」と判断することができる。このケースを(A)とする。
When the value of the STATUS_R [n] status storage register 404 is 0 and the value of the STATUS_W [n] status storage register 405 is 0, this indicates that there is no history of occurrence of a correctable failure within a certain period.
Therefore, it can be determined that “this failure occurs for the first time after a lapse of a certain time”. This case is defined as (A).

STATUS_R[n]状況記憶用レジスタ404の値が0で、STATUS_W[n]状況記憶用レジスタ405の値が1である組み合わせは、論理上無い。このケースを(B)とする。   There is logically no combination in which the value of the STATUS_R [n] status storage register 404 is 0 and the value of the STATUS_W [n] status storage register 405 is 1. This case is defined as (B).

STATUS_R[n]状況記憶用レジスタ404の値が1で、STATUS_W[n]状況記憶用レジスタ405の値が0である場合、STATUS_R[n]状況記憶用レジスタ404の値が1であることから、一定期間内に訂正可能障害が発生した履歴が有るが、STATUS_W[n]状況記憶用レジスタ405の値が0であることから、訂正可能な障害が発生してから同ワードWD[n]に書き込みはされていない。
したがって、「今回の障害は訂正可能障害が複数回目で、ケース(A)からその後、ワードWD[n]は未更新である」と判断することができる。このケースを(C)とする。
When the value of the STATUS_R [n] status storage register 404 is 1 and the value of the STATUS_W [n] status storage register 405 is 0, the value of the STATUS_R [n] status storage register 404 is 1. There is a history of occurrence of a correctable failure within a certain period, but since the value of the STATUS_W [n] status storage register 405 is 0, writing to the same word WD [n] after a correctable failure occurs Has not been.
Therefore, it can be determined that “the present failure is a correctable failure a plurality of times, and the word WD [n] is not updated after the case (A)”. This case is defined as (C).

STATUS_R[n]状況記憶用レジスタ404の値が1で、STATUS_W[n]状況記憶用レジスタ405の値が1である場合、STATUS_R[n]状況記憶用レジスタ404の値が1であることから、一定期間内に訂正可能な障害が発生した履歴が有り、STATUS_W[n]状況記憶用レジスタ405の値が1であることから、訂正可能な障害が発生してから同ワードWD[n]に書き込みがある。
したがって、「今回の障害は訂正可能障害が複数回目で、ケース(A)からその後、ワードWD[n]は更新有りである」と判断することができる。このケースを(D)とする。
When the value of the STATUS_R [n] status storage register 404 is 1 and the value of the STATUS_W [n] status storage register 405 is 1, the value of the STATUS_R [n] status storage register 404 is 1. Since there is a history of occurrence of a correctable failure within a certain period and the value of the STATUS_W [n] status storage register 405 is 1, writing to the same word WD [n] after a correctable failure occurs There is.
Therefore, it can be determined that “the present failure is a correctable failure a plurality of times and the word WD [n] is updated after the case (A)”. This case is defined as (D).

図5で示したケース(A)〜(D)の保守判断を図6にまとめる。
ケース(A)は、一定時間経過後の初回障害であり、保守交換基準に達しないことから交換しない。なお、保守交換基準とは、一般的に訂正可能な障害が発生した部品を交換する基準であり、一定時間あたりの障害発生数で決まる。例えば、交換単位部品において、過去8時間の期間中に8回以上訂正可能な障害が発生したら交換するなどの基準である。
ケース(B)は、論理上発生しない。
ケース(C)は、訂正可能な障害が複数回発生しているが、同ワードWD[n]にはそれ以降書き込みが無い。この場合、ソフトエラーである可能性がある。保守判断システム1の運用中に保守交換基準に達してもソフトエラーの可能性が有ることから、保守交換を保留し、被疑箇所の試験診断プログラムを実行し異常が無かったら、ソフトエラーと判断し保守交換を行わない。
ケース(D)は、訂正可能な障害が複数回発生しているが、同ワードWD[n]にはそれ以降書き込みが有り、値を書き直してもエラーが出ていることから、ハードウェア故障と断定することができる。したがって、保守交換基準に達していたら部品を交換する。
このようにケース(A)〜(D)の保守判断により、保守交換基準に達しても、ソフトエラーの可能性として次の判断を加えることにより、故障でない部品を交換することを防ぐことができる。
FIG. 6 summarizes the maintenance judgment of cases (A) to (D) shown in FIG.
Case (A) is the first failure after a lapse of a certain time, and is not replaced because the maintenance replacement standard is not reached. The maintenance replacement standard is a standard for replacing parts in which a correctable fault has occurred, and is determined by the number of faults per fixed time. For example, the replacement unit part may be replaced when a failure that can be corrected eight times or more has occurred during the past 8 hours.
Case (B) does not logically occur.
In case (C), a correctable failure has occurred a plurality of times, but no further writing has occurred in the word WD [n]. In this case, there may be a soft error. Since there is a possibility of a soft error even if the maintenance replacement standard is reached during operation of the maintenance judgment system 1, if the maintenance replacement is suspended and the test diagnosis program for the suspected part is executed and there is no abnormality, it is determined as a soft error. Do not perform maintenance replacement.
In case (D), a correctable failure has occurred a plurality of times, but since the word WD [n] has been written thereafter and an error has occurred even if the value is rewritten, Can be determined. Therefore, if the maintenance replacement standard is reached, the part is replaced.
Thus, even if the maintenance replacement standard is reached by the maintenance determination of cases (A) to (D), it is possible to prevent replacement of non-failed parts by adding the following determination as the possibility of a soft error. .

以上、本発明の一実施形態による保守判断システム1について説明した。
上述の本発明の一実施形態による保守判断システム1における保守判断装置40は、メモリ10からデータを読み出す時にある1つのワードに訂正可能な障害が発生している場合に、1つのワードに対する訂正可能な障害が発生したことを示す情報をSTATUS_R[n]状況記憶用レジスタ404(第1状況記憶用レジスタ)に保持させるSTATUS_R[n]決定論理部401(第1決定論理部)を備える。保守判断装置40は、メモリ10にデータを書き込む時に1つのワードについてすでに訂正可能な障害が発生している場合に、1つのワードに対する訂正可能な障害が発生していることを示す情報をSTATUS_W[n]状況記憶用レジスタ405(第2状況記憶用レジスタ)に保持させるSTATUS_W[n]決定論理部402(第2決定論理部)を備える。保守判断装置40は、STATUS_R[n]決定論理部401がSTATUS_R[n]状況記憶用レジスタ404に保持させた情報と、STATUS_W[n]決定論理部402がSTATUS_W[n]状況記憶用レジスタ405に保持させた情報とに基づく保守判断結果を報知する報知部406を備える。
このようにすれば、保守判断装置40は、装置の規模を小さく抑え、かつ、通常の情報処理を停止させずに、ハードエラーが発生したかソフトエラーが発生したかを区別することができる。
The maintenance determination system 1 according to the embodiment of the present invention has been described above.
The maintenance determination apparatus 40 in the maintenance determination system 1 according to the embodiment of the present invention described above can correct one word when a correctable failure occurs in one word when data is read from the memory 10. A STATUS_R [n] decision logic unit 401 (first decision logic unit) that holds information indicating that a failure has occurred in the STATUS_R [n] status storage register 404 (first status storage register). The maintenance determination device 40, when writing a data in the memory 10, if a correctable failure has already occurred for one word, information indicating that a correctable failure has occurred for one word is stored in STATUS_W [ n] A STATUS_W [n] decision logic unit 402 (second decision logic unit) to be held in the status storage register 405 (second status storage register). In the maintenance determination device 40, the STATUS_R [n] determination logic unit 401 stores the information stored in the STATUS_R [n] status storage register 404, and the STATUS_W [n] determination logic unit 402 stores the information in the STATUS_W [n] status storage register 405. An informing unit 406 is provided for informing a maintenance determination result based on the held information.
In this way, the maintenance determination device 40 can distinguish whether a hard error has occurred or a soft error has occurred without stopping the normal information processing without reducing the scale of the device.

また、時間監視部403がワードWD[n]について予め設定された一定時間の監視時間を経過したと判定した場合、STATUS_R[n]決定論理部401は、STATUS_R[n]状況記憶用レジスタ404にリセットを指示し、STATUS_W[n]決定論理部402は、STATUS_W[n]状況記憶用レジスタ405にリセットを指示し、時間監視部403は、監視、すなわち、時間の計測を終了する。
このようにすれば、保守判断装置40は、ハードウェア故障であるか否かの断定をより正確に行うことができる。
When the time monitoring unit 403 determines that a predetermined monitoring time set for the word WD [n] has elapsed, the STATUS_R [n] determination logic unit 401 stores the STATUS_R [n] status storage register 404. Instructing resetting, the STATUS_W [n] decision logic unit 402 instructs the STATUS_W [n] status storage register 405 to reset, and the time monitoring unit 403 ends monitoring, that is, time measurement.
In this way, the maintenance determination device 40 can more accurately determine whether or not a hardware failure has occurred.

次に、本発明の実施形態による最小構成の保守判断装置40について説明する。
本発明の実施形態による最小構成の保守判断装置40は、図7に示すように、STATUS_R[n]決定論理部401(第1決定論理部)と、STATUS_W[n]決定論理部402(第2決定論理部)と、を備える。
Next, the minimum configuration maintenance determination apparatus 40 according to the embodiment of the present invention will be described.
As shown in FIG. 7, the maintenance determination device 40 having the minimum configuration according to the embodiment of the present invention includes a STATUS_R [n] determination logic unit 401 (first determination logic unit) and a STATUS_W [n] determination logic unit 402 (second determination unit). A decision logic unit).

STATUS_R[n]決定論理部401(第1決定論理部)は、メモリ10からデータを読み出す時にある1つのワードに訂正可能な障害が発生している場合に、1つのワードに対する訂正可能な障害が発生したことを示す情報をSTATUS_R[n]状況記憶用レジスタ404(第1状況記憶用レジスタ)に保持させる。   The STATUS_R [n] decision logic unit 401 (first decision logic unit) has a correctable failure for one word when a correctable failure occurs in one word when data is read from the memory 10. Information indicating the occurrence is stored in the STATUS_R [n] status storage register 404 (first status storage register).

STATUS_W[n]決定論理部402(第2決定論理部)は、保守判断装置40は、メモリ10にデータを書き込む時に1つのワードについてすでに訂正可能な障害が発生している場合に、1つのワードに対する訂正可能な障害が発生していることを示す情報をSTATUS_W[n]状況記憶用レジスタ405(第2状況記憶用レジスタ)に保持させる。   The STATUS_W [n] decision logic unit 402 (second decision logic unit) allows the maintenance determination device 40 to process one word when a correctable failure has already occurred for one word when data is written to the memory 10. Is stored in the STATUS_W [n] status storage register 405 (second status storage register).

このようにすれば、保守判断装置40は、装置の規模を小さく抑え、かつ、通常の情報処理を停止させずに、ハードエラーが発生したかソフトエラーが発生したかを区別することができる。   In this way, the maintenance determination device 40 can distinguish whether a hard error has occurred or a soft error has occurred without stopping the normal information processing without reducing the scale of the device.

なお、本発明における記憶部や記憶装置(レジスタを含む)は、適切な情報の送受信が行われる範囲においてどこに備えられていてもよい。また、記憶部や記憶装置は、適切な情報の送受信が行われる範囲において複数存在しデータを分散して記憶していてもよい。   Note that the storage unit and the storage device (including the register) in the present invention may be provided anywhere within a range where appropriate information is transmitted and received. A plurality of storage units and storage devices may exist within a range where appropriate information is transmitted and received, and data may be distributed and stored.

なお、本発明の実施形態における処理フローは、適切な処理が行われる範囲において、処理の順番が入れ替わってもよい。   In the processing flow in the embodiment of the present invention, the order of processing may be changed within a range where appropriate processing is performed.

なお、本発明の実施形態について説明したが、上述の保守判定システム1、保守判断装置40は内部に、コンピュータシステムを有している。そして、上述した処理の過程は、プログラムの形式でコンピュータ読み取り可能な記録媒体に記憶されており、このプログラムをコンピュータが読み出して実行することによって、上記処理が行われる。ここでコンピュータ読み取り可能な記録媒体とは、磁気ディスク、光磁気ディスク、CD−ROM、DVD−ROM、半導体メモリ等をいう。また、このコンピュータプログラムを通信回線によってコンピュータに配信し、この配信を受けたコンピュータが当該プログラムを実行するようにしてもよい。   In addition, although embodiment of this invention was described, the above-mentioned maintenance determination system 1 and the maintenance determination apparatus 40 have a computer system inside. The process described above is stored in a computer-readable recording medium in the form of a program, and the above process is performed by the computer reading and executing this program. Here, the computer-readable recording medium means a magnetic disk, a magneto-optical disk, a CD-ROM, a DVD-ROM, a semiconductor memory, or the like. Alternatively, the computer program may be distributed to the computer via a communication line, and the computer that has received the distribution may execute the program.

また、上記プログラムは、前述した機能の一部を実現するためのものであってもよい。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル(差分プログラム)であってもよい。   The program may be for realizing a part of the functions described above. Furthermore, what can implement | achieve the function mentioned above in combination with the program already recorded on the computer system, what is called a difference file (difference program) may be sufficient.

本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定するものではない。また、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができるものである。   Although several embodiments of the present invention have been described, these embodiments are presented by way of example and are not intended to limit the scope of the invention. Various omissions, replacements, and changes can be made without departing from the scope of the invention.

10・・・メモリ
20、20a、20b、20c、20d、20e、20f、20g、20h、20i、20j・・・レジスタ
30・・・誤り検出/誤り訂正回路
40・・・保守判断装置
401・・・STATUS_R[n]決定論理部
402・・・STATUS_W[n]決定論理部
403・・・時間監視部
404・・・STATUS_R[n]状況記憶用レジスタ
405・・・STATUS_W[n]状況記憶用レジスタ
DESCRIPTION OF SYMBOLS 10 ... Memory 20, 20a, 20b, 20c, 20d, 20e, 20f, 20g, 20h, 20i, 20j ... Register 30 ... Error detection / error correction circuit 40 ... Maintenance judgment device 401 ... STATUS_R [n] decision logic unit 402... STATUS_W [n] decision logic unit 403... Time monitoring unit 404... STATUS_R [n] status storage register 405.

Claims (7)

メモリからデータを読み出す時にあるデータ長を有するメモリ領域に訂正可能な障害が発生している場合に、前記メモリ領域に対する訂正可能な障害が発生したことを示す情報を第1状況記憶用レジスタに保持させる第1決定論理部と、
前記メモリにデータを書き込む時に前記メモリ領域についてすでに訂正可能な障害が発生している場合に、前記メモリ領域に対する訂正可能な障害が発生していることを示す情報を第2状況記憶用レジスタに保持させる第2決定論理部と、
を備える保守判断装置。
When a correctable fault has occurred in a memory area having a certain data length when data is read from the memory, information indicating that a correctable fault has occurred in the memory area is held in the first status storage register A first decision logic unit to cause
If a correctable fault has already occurred in the memory area when data is written to the memory, information indicating that a correctable fault has occurred in the memory area is held in the second status storage register A second decision logic unit to cause
A maintenance judgment device comprising:
前記第1決定論理部が前記第1状況記憶用レジスタに保持させた情報と、前記第2決定論理部が前記第2状況記憶用レジスタに保持させた情報とに基づく保守判断結果を報知する報知部、
を備える請求項1に記載の保守判断装置。
Notification for informing a maintenance determination result based on the information held in the first status storage register by the first decision logic unit and the information held in the second status storage register by the second decision logic unit Part,
The maintenance judgment device according to claim 1 provided with.
前記第1状況記憶用レジスタ、
を備える請求項1または請求項2に記載の保守判断装置。
The first status storage register;
The maintenance judgment device according to claim 1 or 2 provided with.
前記第2状況記憶用レジスタ、
を備える請求項1から請求項3の何れか一項に記載の保守判断装置。
The second status storage register;
The maintenance determination apparatus according to any one of claims 1 to 3, further comprising:
予め設定された一定時間を経過した場合、前記第1状況記憶用レジスタと前記第2状況記憶用レジスタとにリセットを指示する時間監視部、
を備える請求項1から請求項4の何れか一項に記載の保守判断装置。
A time monitoring unit that instructs the first status storage register and the second status storage register to reset when a predetermined time has elapsed;
The maintenance judgment device according to any one of claims 1 to 4, further comprising:
メモリからデータを読み出す時にあるメモリ領域に訂正可能な障害が発生している場合に、前記メモリ領域に対する訂正可能な障害が発生したことを示す情報を第1状況記憶用レジスタに保持させることと、
前記メモリにデータを書き込む時に前記メモリ領域についてすでに訂正可能な障害が発生している場合に、前記メモリ領域に対する訂正可能な障害が発生していることを示す情報を第2状況記憶用レジスタに保持させることと、
を含む保守判断方法。
Holding a first status storage register with information indicating that a correctable fault has occurred in the memory area when a correctable fault has occurred in a memory area when reading data from the memory;
If a correctable fault has already occurred in the memory area when data is written to the memory, information indicating that a correctable fault has occurred in the memory area is held in the second status storage register And letting
Maintenance judgment method including.
コンピュータに、
メモリからデータを読み出す時にあるメモリ領域に訂正可能な障害が発生している場合に、前記メモリ領域に対する訂正可能な障害が発生したことを示す情報を第1状況記憶用レジスタに保持させることと、
前記メモリにデータを書き込む時に前記メモリ領域についてすでに訂正可能な障害が発生している場合に、前記メモリ領域に対する訂正可能な障害が発生していることを示す情報を第2状況記憶用レジスタに保持させることと、
を実行させるプログラム。
On the computer,
Holding a first status storage register with information indicating that a correctable fault has occurred in the memory area when a correctable fault has occurred in a memory area when reading data from the memory;
If a correctable fault has already occurred in the memory area when data is written to the memory, information indicating that a correctable fault has occurred in the memory area is held in the second status storage register And letting
A program that executes
JP2017011221A 2017-01-25 2017-01-25 Maintenance determining device, maintenance determining method, and program Pending JP2018120413A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017011221A JP2018120413A (en) 2017-01-25 2017-01-25 Maintenance determining device, maintenance determining method, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017011221A JP2018120413A (en) 2017-01-25 2017-01-25 Maintenance determining device, maintenance determining method, and program

Publications (1)

Publication Number Publication Date
JP2018120413A true JP2018120413A (en) 2018-08-02

Family

ID=63043806

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017011221A Pending JP2018120413A (en) 2017-01-25 2017-01-25 Maintenance determining device, maintenance determining method, and program

Country Status (1)

Country Link
JP (1) JP2018120413A (en)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5183429A (en) * 1975-01-20 1976-07-22 Tokyo Shibaura Electric Co
JPS6436352A (en) * 1987-07-31 1989-02-07 Nec Corp Memory error processing system
JP2012103826A (en) * 2010-11-09 2012-05-31 Fujitsu Ltd Cache memory system
JP2013037473A (en) * 2011-08-05 2013-02-21 Fujitsu Ltd Plug-in card housing apparatus
JP2013206105A (en) * 2012-03-28 2013-10-07 Nec Computertechno Ltd Information processing system, maintenance method and program
JP2014137806A (en) * 2013-01-18 2014-07-28 Fujitsu Ltd Failure notification device, failure notification method and failure notification program

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5183429A (en) * 1975-01-20 1976-07-22 Tokyo Shibaura Electric Co
JPS6436352A (en) * 1987-07-31 1989-02-07 Nec Corp Memory error processing system
JP2012103826A (en) * 2010-11-09 2012-05-31 Fujitsu Ltd Cache memory system
JP2013037473A (en) * 2011-08-05 2013-02-21 Fujitsu Ltd Plug-in card housing apparatus
JP2013206105A (en) * 2012-03-28 2013-10-07 Nec Computertechno Ltd Information processing system, maintenance method and program
JP2014137806A (en) * 2013-01-18 2014-07-28 Fujitsu Ltd Failure notification device, failure notification method and failure notification program

Similar Documents

Publication Publication Date Title
US7971112B2 (en) Memory diagnosis method
US8589763B2 (en) Cache memory system
TWI528172B (en) Machine check summary register
EP3660681B1 (en) Memory fault detection method and device, and server
US8418005B2 (en) Methods, apparatus and articles of manufacture to diagnose temperature-induced memory errors
US9563548B2 (en) Error injection and error counting during memory scrubbing operations
WO2016022156A1 (en) Error counters on a memory device
CN102135925B (en) Method and device for detecting error check and correcting memory
CN114461436A (en) Memory fault processing method and device and computer readable storage medium
US7596738B2 (en) Method and apparatus for classifying memory errors
US7350007B2 (en) Time-interval-based system and method to determine if a device error rate equals or exceeds a threshold error rate
US10613953B2 (en) Start test method, system, and recording medium
US20160110246A1 (en) Disk data management
US20130191685A1 (en) Per-rank channel marking in a memory system
CN104781790B (en) Signaling software recoverable errors
US20130339809A1 (en) Bitline deletion
CN114860487A (en) Memory fault identification method and memory fault isolation method
US9230687B2 (en) Implementing ECC redundancy using reconfigurable logic blocks
US9921906B2 (en) Performing a repair operation in arrays
CN105022706A (en) Controller circuits, data interface blocks, and methods for transferring data
JP2018120413A (en) Maintenance determining device, maintenance determining method, and program
US11914703B2 (en) Method and data processing system for detecting a malicious component on an integrated circuit
CN118503005B (en) A memory error correction method, system, and device
US9043663B2 (en) Apparatus and method for testing a memory
CN108874579B (en) Method for policing and initializing ports

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20191204

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200819

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200929

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20201130

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20210420