[go: up one dir, main page]

JP2012038362A - Hard disk failure sign detection method - Google Patents

Hard disk failure sign detection method Download PDF

Info

Publication number
JP2012038362A
JP2012038362A JP2010174506A JP2010174506A JP2012038362A JP 2012038362 A JP2012038362 A JP 2012038362A JP 2010174506 A JP2010174506 A JP 2010174506A JP 2010174506 A JP2010174506 A JP 2010174506A JP 2012038362 A JP2012038362 A JP 2012038362A
Authority
JP
Japan
Prior art keywords
information processing
execution time
hard disk
processing apparatus
time length
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2010174506A
Other languages
Japanese (ja)
Inventor
Satoshi Sunaga
聡 須永
Ryoichi Nakamura
亮一 中村
Toshiyuki Moriya
俊之 森谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Inc
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2010174506A priority Critical patent/JP2012038362A/en
Publication of JP2012038362A publication Critical patent/JP2012038362A/en
Pending legal-status Critical Current

Links

Images

Landscapes

  • Signal Processing For Digital Recording And Reproducing (AREA)

Abstract

【課題】2重化されたシステム構成の情報処理装置において、ハードディスクにエラーが発生する以前にハードディスク故障の予兆を検出する。
【解決手段】実行時間長記録領域211に記録されたハードディスク11へのデータ書き込みの実行時間長の履歴を参照し、最近の複数個分(例えば10個分)を読み出す(S31)。次に、読み出した複数個の実行時間長の平均値を計算する(S32)。次に、計算した最近のデータ書き込みの実行時間長の平均値が許容値以下であるか判定する(S33)。平均値が許容値を超える場合は、故障の予兆が検出されたとして、警報通知送信を指示する(S34)。例えば、求めた最近の実行時間長の平均値が12秒であった場合、警報通知送信が指示される。
【選択図】図4
In an information processing apparatus with a duplex system configuration, a hard disk failure sign is detected before an error occurs in the hard disk.
By referring to a history of execution time lengths of data writing to a hard disk 11 recorded in an execution time length recording area 211, a plurality of recent (for example, 10) are read (S31). Next, an average value of a plurality of read execution time lengths is calculated (S32). Next, it is determined whether or not the average value of the calculated execution time lengths of recent data is equal to or less than an allowable value (S33). If the average value exceeds the permissible value, an alarm notification transmission is instructed on the assumption that a failure sign has been detected (S34). For example, when the average value of the obtained recent execution time length is 12 seconds, an alarm notification transmission is instructed.
[Selection] Figure 4

Description

本発明は、ハードディスク故障予兆検出方法に関するものである。   The present invention relates to a hard disk failure sign detection method.

近年においては、情報処理装置に搭載されるハードディスクドライブ(以降、HDDまたはハードディスクと表記する)の大容量化の進展はめざましいものがある。それにより、大量のデータをHDDに蓄積できることは歓迎すべき状況であるが、一方でまれに経験するHDDの故障に起因する記憶データの消失が懸念される。特に、HDDの大容量化の進展は失うデータもまた大容量であることを意味する。   In recent years, there has been a remarkable progress in increasing the capacity of hard disk drives (hereinafter referred to as HDDs or hard disks) mounted on information processing apparatuses. As a result, it is a welcome situation that a large amount of data can be stored in the HDD, but on the other hand, there is a concern that the stored data may be lost due to the failure of the HDD that is rarely experienced. In particular, the progress of increasing the capacity of HDDs means that lost data also has a large capacity.

よって、データが破壊する前にHDDを交換する処置が必要であり、そのためには、蓄積データが消失する前に何らかの警報により保守者に知らせる必要がある。   Therefore, it is necessary to replace the HDD before the data is destroyed. For this purpose, it is necessary to notify the maintenance person by some kind of alarm before the stored data is lost.

警報という点では、従来のHDDにもSelf Monitoring Analysis and Reporting Technology (SMART)と呼ばれる機能が付加されているものがある。SMART機能とは、HDDの運用履歴、発生エラー履歴等をHDD内に蓄積し、それらのデータを基準値と比較することにより、HDD交換等の警告をパーソナルコンピューターやサーバ等の上位システムに自動的に報告するものである。このSMART機能については、周知であるので、これ以上の説明を割愛する。   In terms of alarming, some conventional HDDs also have a function called Self Monitoring Analysis and Reporting Technology (SMART). The SMART function stores HDD operation history, occurrence error history, etc. in the HDD, and compares these data with reference values to automatically issue warnings such as HDD replacement to higher systems such as personal computers and servers. To report. Since this SMART function is well known, further explanation will be omitted.

また、従来技術に関しては、特許文献1「磁気ディスク装置診断方式」において開示されている技術がある。   Further, regarding the prior art, there is a technique disclosed in Patent Document 1 “Magnetic Disk Device Diagnosis Method”.

この特許文献1によれば、磁気ディスク媒体の予防保守を目的としたディスク装置診断方式であり、ディスク媒体の診断実行中に一時的故障の発生回数をカウントして一定の閾値を越えた場合に自動通報する磁気ディスク装置診断方式が提案されている。   According to this Patent Document 1, a disk device diagnosis method for the purpose of preventive maintenance of a magnetic disk medium, and when the number of occurrences of temporary failures is counted and a certain threshold value is exceeded during execution of disk medium diagnosis. A magnetic disk device diagnosis method for automatically reporting has been proposed.

しかし、このような従来技術においても、ハードディスクに一時的故障が発生するようになってからでないと、ハードディスクの故障を予見することができず、ハードディスクに些細な異常でもない限り、ハードディスク故障の予兆を知ることができないという問題があった。   However, even in such a conventional technique, a hard disk failure cannot be foreseen until a temporary failure occurs in the hard disk, and unless there is a minor abnormality in the hard disk, there is no sign of a hard disk failure. There was a problem that I could not know.

特開平05−265663号公報JP 05-265663 A

上述の従来のHDD故障検出方法では、HDDにエラーが発生するようになって初めてHDDの故障を予見することが可能となるため、軽微なエラーを含めてエラーが発生しない段階での、HDDの異常や故障が起こる予兆を前もって知ることができないという問題が起こる。   In the conventional HDD failure detection method described above, an HDD failure can be foreseen only when an error occurs in the HDD. Therefore, in the stage where no error including a minor error occurs, There is a problem that it is impossible to know in advance the signs that an abnormality or failure will occur.

この問題は、HDDにエラーが発生する段階になってからでないと、警報が通知されないので、エラーが発生する以前にHDD交換の処置を行えないということである。特に、HDDにエラーが発生してそれを検知してから、HDD交換に要する時間よりも短時間のうちにHDDが故障すれば、HDDに記憶したデータを消失することとなり、情報処理装置を運用する上で問題である。   This problem is that an alarm is not notified until an error occurs in the HDD, so that the HDD replacement procedure cannot be performed before the error occurs. In particular, if an HDD failure occurs within a shorter time than the time required for HDD replacement after an error has occurred in the HDD, the data stored in the HDD will be lost, and the information processing apparatus will operate. Is a problem.

本発明の目的は、2重化されたシステム構成の情報処理装置において、ハードディスクにエラーが発生する以前にハードディスク故障の予兆を検出できるハードディスク故障予兆検出方法を提供することにある。   An object of the present invention is to provide a hard disk failure sign detection method capable of detecting a hard disk failure sign before an error occurs in the hard disk in an information processing apparatus having a duplex system configuration.

上記の課題を解決するために、本発明のハードディスク故障予兆検出方法は、情報処理装置と該情報処理装置の故障時に該情報処理装置に代わって情報処理を行う情報処理装置の一方が、該一方の情報処理装置または他方の情報処理装置のハードディスクへのデータの書き込みまたは読み込みの実行時間長を計測するステップと、前記一方の情報処理装置が、前記実行時間長を記憶するステップと、前記一方の情報処理装置が、前記記憶された実行時間長を読み出し、前記ハードディスクの故障の予兆があるか否かの判定として、当該実行時間長が予め定められた許容値を超えているか否かを判定するステップとを含むことを特徴とする。   In order to solve the above problems, a hard disk failure sign detection method according to the present invention includes an information processing apparatus and one of the information processing apparatuses that performs information processing on behalf of the information processing apparatus when the information processing apparatus fails. Measuring the execution time length of writing or reading data to or from the hard disk of the other information processing device, the one information processing device storing the execution time length, The information processing apparatus reads the stored execution time length, and determines whether the execution time length exceeds a predetermined allowable value as a determination as to whether or not there is a sign of failure of the hard disk And a step.

例えば、前記一方の情報処理装置は、他方の情報処理装置の故障時に情報処理を行う情報処理装置であり、前記実行時間長を当該故障時に情報処理を行う情報処理装置に記憶する。   For example, the one information processing apparatus is an information processing apparatus that performs information processing when the other information processing apparatus fails, and stores the execution time length in the information processing apparatus that performs information processing when the failure occurs.

本発明によれば、ハードディスクへのデータの書き込みまたは読み込みの実行時間長を計測して記憶し、実行時間長を読み出し、ハードディスクの故障の予兆があるか否かの判定として、当該実行時間長が予め定められた許容値を超えているか否かを判定するので、2重化されたシステム構成の情報処理装置において、ハードディスクにエラーが発生する以前にハードディスク故障の予兆を検出することができる。   According to the present invention, the execution time length of writing or reading data to the hard disk is measured and stored, the execution time length is read, and the determination as to whether or not there is a sign of a hard disk failure is the execution time length. Since it is determined whether or not a predetermined allowable value is exceeded, an information processing apparatus having a duplex system configuration can detect a sign of a hard disk failure before an error occurs in the hard disk.

また、故障時に情報処理を行う情報処理装置に実行時間長を記憶することで、他方の情報処理装置に故障が発生し、当該情報処理装置についての実行時間長を参照する必要が生じた場合であっても、故障時に情報処理を行う情報処理装置に記憶された当該実行時間長を参照することができる。   In addition, when the execution time length is stored in the information processing apparatus that performs information processing at the time of the failure, when the other information processing apparatus fails and it is necessary to refer to the execution time length of the information processing apparatus Even if it exists, the said execution time length memorize | stored in the information processing apparatus which processes information at the time of failure can be referred.

本実施の形態に係るハードディスク故障予兆検出方法を実行する情報処理システムの構成図である。It is a block diagram of the information processing system which performs the hard disk failure sign detection method which concerns on this Embodiment. 待機系装置が、稼働系装置におけるハードディスクへのデータの書き込みの実行時間長を測定する処理のフローチャートである。10 is a flowchart of processing in which a standby system apparatus measures an execution time length of data writing to a hard disk in an active system apparatus. データ書き込みの実行時間長の許容値を算出する処理のフローチャートである。It is a flowchart of the process which calculates the allowable value of execution time length of data writing. 図4(a)は、データ書き込みの実行時間長が許容値を超えているか否かを判定する処理のフローチャートであり、図4(b)は、実行時間長が許容値を超えた場合に警報通知を送信する処理のフローチャートである。FIG. 4A is a flowchart of processing for determining whether or not the execution time length of data writing exceeds the allowable value. FIG. 4B shows an alarm when the execution time length exceeds the allowable value. It is a flowchart of the process which transmits notification.

以下、本発明の実施の形態について図面を参照して説明する。   Hereinafter, embodiments of the present invention will be described with reference to the drawings.

図1は、本実施の形態に係るハードディスク故障予兆検出方法を実行する情報処理システムの構成図である。   FIG. 1 is a configuration diagram of an information processing system that executes a hard disk failure sign detection method according to the present embodiment.

本実施形態の情報処理システムは、2台の情報処理装置1、2からなり、互いに通信ケーブル3で接続されている。冗長構成をとるこれら2台の情報処理装置は、一方は稼働系装置となり、もう一方が待機系装置となり、運転を行っている。つまり、待機系装置は、稼働系装置の故障時に稼働系装置に代わって情報処理を行うのである。   The information processing system according to this embodiment includes two information processing apparatuses 1 and 2 that are connected to each other by a communication cable 3. Of these two information processing apparatuses having a redundant configuration, one is an active system apparatus and the other is a standby system apparatus and is operating. That is, the standby device performs information processing instead of the active device when the active device fails.

情報処理装置1は、データを記録するハードディスク11と、情報処理装置2のハードディスク21へのデータの書き込みまたは読み込みの実行時間長を測定する実行時間長測定部12と、ハードディスク21の故障の予兆があるか否かの判定として、当該実行時間長が予め定められた許容値を超えているか否かを判定するハードディスク故障予知検出部13と、実行時間長が許容値を超えている場合において警報通知を送信する警報通知送信部14とを備えている。ハードディスク11には、実行時間長を記録するための実行時間長記録領域111が設けられている。   The information processing apparatus 1 includes a hard disk 11 that records data, an execution time length measurement unit 12 that measures an execution time length of data writing or reading to the hard disk 21 of the information processing apparatus 2, and an indication of a failure of the hard disk 21. Whether or not there is a hard disk failure prediction detection unit 13 that determines whether or not the execution time length exceeds a predetermined allowable value, and an alarm notification when the execution time length exceeds the allowable value The alarm notification transmission part 14 which transmits. The hard disk 11 is provided with an execution time length recording area 111 for recording the execution time length.

情報処理装置2もまた情報処理装置1と同様の構成をとっており、データを記録するハードディスク21と、情報処理装置1のハードディスク11へのデータの書き込みまたは読み込みの実行時間長を測定する実行時間長測定部22と、ハードディスク11の故障の予兆があるか否かの判定として、当該実行時間長が予め定められた許容値を超えているか否かを判定するハードディスク故障予知検出部23と、実行時間長が許容値を超えている場合において警報通知を送信する警報通知送信部24とを備えている。ハードディスク21には、実行時間長を記録するための実行時間長記録領域211が設けられている。   The information processing apparatus 2 also has the same configuration as the information processing apparatus 1, and an execution time for measuring the execution time length of data writing or reading to the hard disk 11 of the information processing apparatus 1 and the hard disk 11 of the information processing apparatus 1 A length measurement unit 22, a hard disk failure prediction detection unit 23 that determines whether or not the execution time length exceeds a predetermined allowable value as a determination as to whether or not there is a failure indication of the hard disk 11, and execution And an alarm notification transmission unit 24 that transmits an alarm notification when the time length exceeds the allowable value. The hard disk 21 is provided with an execution time length recording area 211 for recording the execution time length.

情報処理装置1と情報処理装置2とは、上述の通り同様な構成を有し、互いを入れ替えた場合も同じ動作を行う構成となっている。ただし、ここでは説明を簡単にするために、情報処理装置1が稼働系装置であり、情報処理装置2が待機系装置である運転時の処理についてのみを以降説明する。   The information processing apparatus 1 and the information processing apparatus 2 have the same configuration as described above, and are configured to perform the same operation when they are interchanged. However, in order to simplify the description, only processing during operation in which the information processing device 1 is an active device and the information processing device 2 is a standby device will be described below.

ここでは、情報処理装置2が、情報処理装置1のハードディスク11へのデータの書き込みの実行時間長を測定し、その測定した実行時間長からハードディスク21の故障の予兆を検出した場合に、その警報通知を送信する方法と処理動作について、図2、図3、図4のフローチャートを参照して順次に説明する。   Here, when the information processing device 2 measures the execution time length of data writing to the hard disk 11 of the information processing device 1 and detects a failure sign of the hard disk 21 from the measured execution time length, the alarm is issued. The method for transmitting the notification and the processing operation will be described sequentially with reference to the flowcharts of FIGS.

まず、図2を用いて、待機系装置が、稼働系装置におけるハードディスクへのデータの書き込みの実行時間長を測定する処理の動作について説明する。   First, the operation of a process in which the standby apparatus measures the execution time length of data writing to the hard disk in the active apparatus will be described with reference to FIG.

待機系装置となっている情報処理装置2の実行時間長測定部21は、稼働系装置となっている情報処理装置1に対し、データ書き込み命令信号とデータ書き込みなし信号とを同時に送信する(S11)。データ書き込み命令は、数十メガバイト程度(例えば50MBytes)の小さいデータ書き込みを実行する命令である。   The execution time length measurement unit 21 of the information processing apparatus 2 that is a standby system apparatus transmits a data write command signal and a data no-write signal simultaneously to the information processing apparatus 1 that is an active system apparatus (S11). ). The data write command is a command for executing a small data write of about several tens of megabytes (for example, 50 MBytes).

それら2つの信号を受信した情報処理装置1は、データ書き込み命令信号によっては、ハードディスク11にデータを書き込んでから、一方、データ書き込みなし信号によっては何もせずに、応答を情報処理装置2に送信する。   The information processing apparatus 1 that has received these two signals writes data to the hard disk 11 depending on the data write command signal, and sends a response to the information processing apparatus 2 without doing anything depending on the no data write signal. To do.

このとき、情報処理装置1では、ハードディスクにデータを書き込んでから行う応答の時刻が、何もせずに行う応答の時刻よりも後になる。なぜなら、ハードディスクにデータを書き込む時間分だけ、その応答の送信が遅れるからである。また、この時間差は、ハードディスクにデータを書き込むことに要した時間つまり書き込みの実行時間長である。   At this time, in the information processing apparatus 1, the response time after the data is written to the hard disk is later than the response time performed without doing anything. This is because the response transmission is delayed by the time for writing data to the hard disk. This time difference is the time required to write data to the hard disk, that is, the execution time length of writing.

このようにして、情報処理装置1から送信された、2つの応答、すなわち、データ書き込みなし信号の応答とデータ書き込み命令信号の応答は、それぞれ、情報処理装置2が前述の時間差をもって受信する(S12、S13)。   In this way, the two responses transmitted from the information processing device 1, that is, the response of the no-data-write signal and the response of the data-write command signal are received by the information-processing device 2 with the above-described time difference (S12). , S13).

例えば、50MByteのデータ書き込みに5秒を要したとすると、それらの応答を受信した時間差は5秒となる。   For example, if it takes 5 seconds to write 50 MBytes of data, the time difference between receiving the responses is 5 seconds.

2つの応答を順次受信した情報処理装置2では、実行時間長測定部22が、その応答を受信した時間差つまり、ハードディスク11へのデータ書き込みの実行時間長(この例では5秒)を算出し(S14)、実行時間長記録領域211に記録する(S15)。   In the information processing apparatus 2 that sequentially receives the two responses, the execution time length measurement unit 22 calculates the time difference when the responses are received, that is, the execution time length of data writing to the hard disk 11 (in this example, 5 seconds) ( S14), recording in the execution time length recording area 211 (S15).

このようなデータ書き込みの実行時間長の測定を定期的(例えば30秒毎に)に行って、ハードディスクへのデータ書き込みの実行時間長を記録して履歴を保持する。   Measurement of the execution time length of such data writing is performed periodically (for example, every 30 seconds), the execution time length of data writing to the hard disk is recorded, and the history is retained.

以上のように、ここでは、待機系装置から稼働系装置におけるハードディスクのデータ書き込みの実行時間長の測定についての一方のみを述べたが、稼働系装置から自系装置における(稼働系装置における)ハードディスクへの書き込みの実行時間長を測定する形態もある。その形態では、データの書き込みの実行時間長の測定は、データ書き込み開始時刻とデータ書き込み完了時刻との差によって算出する。それ以降のステップについては、先に述べた、待機系装置から稼働系装置におけるハードディスクのデータの書き込みの実行時間長の測定のステップと同様である。   As described above, here, only one of the measurement of the execution time length of data writing of the hard disk from the standby system device to the active system device has been described, but the hard disk from the active system device to the own system device (in the active system device) There is also a form in which the execution time length of writing to is measured. In this mode, the measurement of the execution time length of data writing is calculated by the difference between the data writing start time and the data writing completion time. Subsequent steps are the same as the steps for measuring the execution time length of the hard disk data write from the standby system device to the active system device described above.

次に、図3を用いて、データ書き込みの実行時間長の許容値を算出する処理の動作について説明する。   Next, the operation of the processing for calculating the allowable value of the data writing execution time length will be described with reference to FIG.

良好な状態であるハードディスクに比べて、劣化しているハードディスクは、データの書き込みや読み込みに長時間を要する。データの書き込みに要する時間が増すにつれ、ハードディスクの劣化が進行しているものとし、データの書き込みの実行時間長に対する許容値を次のようにして算出する。   A hard disk that is degraded takes a long time to write and read data, compared to a hard disk that is in good condition. As the time required for data writing increases, it is assumed that deterioration of the hard disk has progressed, and an allowable value for the execution time length of data writing is calculated as follows.

ハードディスク故障予知検出部23が、実行時間長記録領域211に記録されたハードディスク11へのデータ書き込みの実行時間長の履歴を参照し、最初から複数個分(例えば10個分)を読み出す(S21)。次に、読み出した複数個の実行時間長の平均値を計算する(S22)。平均値を計算するのは、実行時間長を測定した際の諸条件によるバラツキを抑えるためである。次に、求めた平均値に安全係数(例えば2)を掛けた値をデータ書き込み時間の許容値とする(S23)。これは、良好な状態であるハードディスクを使い始めた、例えば、最初の10回におけるデータ書き込みの実行時間長の平均値に対して、その平均値の2倍までを許容することとし、これを許容値として算出するのである。例えば、求めた平均値が5秒であり、安全係数を2とすれば、許容値は10(=5×2)秒である。   The hard disk failure prediction detection unit 23 refers to the history of the execution time length of data writing to the hard disk 11 recorded in the execution time length recording area 211, and reads a plurality (for example, 10 pieces) from the beginning (S21). . Next, an average value of the read execution time lengths is calculated (S22). The average value is calculated in order to suppress variation due to various conditions when the execution time length is measured. Next, a value obtained by multiplying the calculated average value by a safety factor (for example, 2) is set as an allowable value for data writing time (S23). This means that the average value of the execution time length of data writing in the first 10 times is allowed up to twice the average value when the hard disk in good condition is used, for example. It is calculated as a value. For example, if the obtained average value is 5 seconds and the safety factor is 2, the allowable value is 10 (= 5 × 2) seconds.

このようにして計算した許容値、つまりハードディスク11へのデータ書き込みの実行時間長の許容値をハードディスク21に記録する(S24)。   The permissible value calculated in this way, that is, the permissible value of the execution time length of data writing to the hard disk 11 is recorded in the hard disk 21 (S24).

次に、図4を用いて、(a)データ書き込みの実行時間長が許容値を超えているか否かを判定する処理と、(b)実行時間長が許容値を超えた場合に警報通知を送信する処理の動作について説明する。   Next, referring to FIG. 4, (a) a process for determining whether or not the execution time length of data writing exceeds an allowable value, and (b) an alarm notification when the execution time length exceeds the allowable value. The operation of the transmission process will be described.

前述の通り、待機系装置となっている情報処理装置2が、稼働系装置となっている情報処理装置1のハードディスク11へのデータ書き込みの実行時間長を定期的に測定しており、その記録を履歴として実行時間長記録領域211に保持している。   As described above, the information processing apparatus 2 serving as the standby system apparatus regularly measures the execution time length of data writing to the hard disk 11 of the information processing apparatus 1 serving as the active system apparatus, and the recording is performed. Is stored in the execution time length recording area 211 as a history.

図4(a)に示すように、ハードディスク故障予知検出部23が、実行時間長記録領域211に記録されたハードディスク11へのデータ書き込みの実行時間長の履歴を参照し、最近の複数個分(例えば10個分)を読み出す(S31)。次に、読み出した複数個の実行時間長の平均値を計算する(S32)。平均値を計算するのは、データ書き込みの実行時間長を測定した際の諸条件によるバラツキを抑えるためである。   As shown in FIG. 4A, the hard disk failure prediction detection unit 23 refers to the history of the execution time length of data writing to the hard disk 11 recorded in the execution time length recording area 211, and records a plurality of recent ( For example, 10 pieces are read out (S31). Next, an average value of a plurality of read execution time lengths is calculated (S32). The average value is calculated in order to suppress variations due to various conditions when measuring the execution time length of data writing.

実行時間長測定部22は、計算した最近のデータ書き込みの実行時間長の平均値が、前述の通りにして算出していた許容値以下であるか判定する(S33)。ここで、許容値以下であれば、ハードディスクの劣化度合は許容されるものとして処理を終了する。例えば、許容値が10秒の時、求めた最近の実行時間長の平均値が10秒以下の値であれば、処理を終了する。   The execution time length measurement unit 22 determines whether or not the calculated average value of the execution time lengths of recent data writing is equal to or less than the allowable value calculated as described above (S33). Here, if it is equal to or less than the allowable value, the process is terminated assuming that the degree of deterioration of the hard disk is allowable. For example, when the allowable value is 10 seconds and the average value of the obtained recent execution time lengths is a value of 10 seconds or less, the process is terminated.

しかし、平均値が許容値を超える場合は、ハードディスクの劣化度合は許容されず、つまり、故障の予兆が検出されたとして、警報通知送信を警報通知送信部24へ指示する(S34)。例えば、求めた最近の実行時間長の平均値が12秒であった場合、警報通知送信が指示されることとなる。   However, if the average value exceeds the allowable value, the degree of deterioration of the hard disk is not allowed, that is, the warning notification transmission unit 24 is instructed to transmit the alarm notification on the assumption that a failure sign has been detected (S34). For example, when the average value of the recent execution time lengths obtained is 12 seconds, an alarm notification transmission is instructed.

図4(b)に示すように、実行時間長測定部22からの警報通知送信指示を受信した(S41)警報通知送信部24は、警報通知を送信し(S42)、保守者にハードディスク11の劣化を通知する。   As shown in FIG. 4B, the alarm notification transmission unit 24 that has received the alarm notification transmission instruction from the execution time length measuring unit 22 (S41) transmits the alarm notification (S42), Notify deterioration.

以上説明したように、本実施の形態によれば、ハードディスクへのデータの書き込みまたは読み込みの実行時間長を計測して記憶し、実行時間長を読み出し、ハードディスクの故障の予兆があるか否かの判定として、当該実行時間長が予め定められた許容値を超えているか否かを判定するので、2重化されたシステム構成の情報処理装置において、ハードディスクにエラーが発生する以前にハードディスク故障の予兆を検出でき、それを保守者に知らしめることができる。   As described above, according to the present embodiment, the execution time length of data writing or reading to the hard disk is measured and stored, the execution time length is read, and whether or not there is a sign of a hard disk failure. As the determination, it is determined whether or not the execution time length exceeds a predetermined allowable value. Therefore, in the information processing apparatus having the duplex system configuration, a hard disk failure sign before an error occurs in the hard disk. Can be detected and the maintenance person can be informed.

また、待機系装置に実行時間長を記憶することで、稼働系装置に故障が発生し、当該稼働系装置についての実行時間長を参照する必要が生じた場合であっても、待機系装置に記憶された当該実行時間長を参照することができる。   In addition, by storing the execution time length in the standby system device, even if a failure occurs in the active system device and it is necessary to refer to the execution time length for the active system device, the standby system device The stored execution time length can be referred to.

なお、本発明は、本実施の形態に限定されるものではなく、その主旨を逸脱しない範囲において種々の変形、変更が可能である。例えば、待機系装置のハードディスクについて、前述の故障予兆検出方法を稼働系装置が行ってもよい。また、データの書き込みの代わりにデータの読み込みを行ってもよい。   The present invention is not limited to the present embodiment, and various modifications and changes can be made without departing from the spirit of the present invention. For example, the operation system apparatus may perform the failure sign detection method described above for the hard disk of the standby system apparatus. Further, data reading may be performed instead of data writing.

また、本発明は専用のハードウェアにより実現されるもの以外に、その機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータに読み込ませ、実行するものであってもよい。コンピュータ読み取り可能な記録媒体とは、フロッピー(登録商標)ディスク、光磁気ディスク、CD−ROM等の記録媒体、コンピュータシステムに内蔵されるハードディスク装置等の記憶装置をいう。さらに、コンピュータ読み取り可能な記録媒体は、インターネットを介してプログラムを送信する場合のように、短時間の間、動的にプログラムを保持するもの(伝送媒体もしくは伝送波)、その場合のサーバとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含む。   The present invention records a program for realizing its function on a computer-readable recording medium in addition to that realized by dedicated hardware, and causes the computer to read the program recorded on this recording medium. , May be executed. The computer-readable recording medium refers to a recording medium such as a floppy (registered trademark) disk, a magneto-optical disk, and a CD-ROM, and a storage device such as a hard disk device built in the computer system. Furthermore, a computer-readable recording medium is a server that dynamically holds a program (transmission medium or transmission wave) for a short period of time, as in the case of transmitting a program via the Internet, and a server in that case. Some of them hold programs for a certain period of time, such as volatile memory inside computer systems.

1、2 … 情報処理装置
11、21 … ハードディスク
111、211 … 実行時間長記録領域
12、22 … 実行時間長測定部
13、23 … ハードディスク故障予知検出部
14、24 … 警報通知送信部
3 … 通信ケーブル
1, 2 ... Information processing apparatus 11, 21 ... Hard disk 111, 211 ... Execution time length recording area 12, 22 ... Execution time length measurement unit 13, 23 ... Hard disk failure prediction detection unit 14, 24 ... Alarm notification transmission unit 3 ... Communication cable

Claims (5)

情報処理装置と該情報処理装置の故障時に該情報処理装置に代わって情報処理を行う情報処理装置の一方が、該一方の情報処理装置または他方の情報処理装置のハードディスクへのデータの書き込みまたは読み込みの実行時間長を計測するステップと、
前記一方の情報処理装置が、前記実行時間長を記憶するステップと、
前記一方の情報処理装置が、前記記憶された実行時間長を読み出し、前記ハードディスクの故障の予兆があるか否かの判定として、当該実行時間長が予め定められた許容値を超えているか否かを判定するステップと
を含むことを特徴とするハードディスク故障予兆検出方法。
One of the information processing apparatus and the information processing apparatus that performs information processing on behalf of the information processing apparatus in the event of a failure of the information processing apparatus writes or reads data to or from the hard disk of the one information processing apparatus or the other information processing apparatus Measuring the execution time length of
The one information processing apparatus storing the execution time length;
Whether the one information processing apparatus reads the stored execution time length and whether the execution time length exceeds a predetermined allowable value as a determination as to whether or not there is a sign of failure of the hard disk A hard disk failure sign detection method comprising the steps of:
前記一方の情報処理装置は、他方の情報処理装置の故障時に情報処理を行う情報処理装置であり、前記実行時間長を当該故障時に情報処理を行う情報処理装置に記憶することを特徴とする請求項1記載のハードディスク故障予兆検出方法。   The one information processing apparatus is an information processing apparatus that performs information processing when the other information processing apparatus fails, and stores the execution time length in an information processing apparatus that performs information processing at the time of the failure. Item 5. A hard disk failure sign detection method according to Item 1. 前記一方の情報処理装置が、前記実行時間長が前記許容値を超えている場合において警報を発することを特徴とする請求項1または2に記載のハードディスク故障予兆検出方法。   3. The hard disk failure sign detection method according to claim 1, wherein the one information processing apparatus issues an alarm when the execution time length exceeds the allowable value. 請求項1ないし3のいずれかに記載のハードディスク故障予兆検出方法をコンピュータに実行させるためのコンピュータプログラム。   A computer program for causing a computer to execute the hard disk failure sign detection method according to any one of claims 1 to 3. 請求項4記載のコンピュータプログラムを記録したコンピュータ読み取り可能な記録媒体。   A computer-readable recording medium on which the computer program according to claim 4 is recorded.
JP2010174506A 2010-08-03 2010-08-03 Hard disk failure sign detection method Pending JP2012038362A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010174506A JP2012038362A (en) 2010-08-03 2010-08-03 Hard disk failure sign detection method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010174506A JP2012038362A (en) 2010-08-03 2010-08-03 Hard disk failure sign detection method

Publications (1)

Publication Number Publication Date
JP2012038362A true JP2012038362A (en) 2012-02-23

Family

ID=45850208

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010174506A Pending JP2012038362A (en) 2010-08-03 2010-08-03 Hard disk failure sign detection method

Country Status (1)

Country Link
JP (1) JP2012038362A (en)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012178017A (en) * 2011-02-25 2012-09-13 Nec Corp Recording medium control system, recording medium control method and recording medium control program
JP2016532152A (en) * 2013-07-30 2016-10-13 オスラム オプト セミコンダクターズ ゲゼルシャフト ミット ベシュレンクテル ハフツングOsram Opto Semiconductors GmbH Cover element manufacturing method, optoelectronic component manufacturing method, optoelectronic component cover element and optoelectronic component
JP2016207237A (en) * 2015-04-17 2016-12-08 日本電気株式会社 Hard disk management device, hard disk device, hard disk management method and hard disk management program
WO2018168606A1 (en) * 2017-03-13 2018-09-20 日本電気株式会社 Information processing device, information processing method, and program recording medium

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012178017A (en) * 2011-02-25 2012-09-13 Nec Corp Recording medium control system, recording medium control method and recording medium control program
JP2016532152A (en) * 2013-07-30 2016-10-13 オスラム オプト セミコンダクターズ ゲゼルシャフト ミット ベシュレンクテル ハフツングOsram Opto Semiconductors GmbH Cover element manufacturing method, optoelectronic component manufacturing method, optoelectronic component cover element and optoelectronic component
US9947843B2 (en) 2013-07-30 2018-04-17 Osram Opto Semiconductors Gmbh Method of producing a cover element and an optoelectronic component, cover element and optoelectronic component
JP2016207237A (en) * 2015-04-17 2016-12-08 日本電気株式会社 Hard disk management device, hard disk device, hard disk management method and hard disk management program
WO2018168606A1 (en) * 2017-03-13 2018-09-20 日本電気株式会社 Information processing device, information processing method, and program recording medium

Similar Documents

Publication Publication Date Title
EP1924994B1 (en) Method and apparatus for detecting the onset of hard disk failures
US8824261B1 (en) Peer to peer vibration mitigation
US8185784B2 (en) Drive health monitoring with provisions for drive probation state and drive copy rebuild
CN102147708B (en) Method and device for detecting discs
US20090161243A1 (en) Monitoring Disk Drives To Predict Failure
US10990469B2 (en) Maintenance methods of digital signage and troubleshooting and warning methods, digital signage playing systems and players thereof
US11449376B2 (en) Method of determining potential anomaly of memory device
CN107179968B (en) Information storage device, failure prediction device and failure prediction method
JP2005322399A (en) Method for maintaining track data integrity in a magnetic disk storage device
JP2012038362A (en) Hard disk failure sign detection method
US20200264946A1 (en) Failure sign detection device, failure sign detection method, and recording medium in which failure sign detection program is stored
JP2006092070A (en) Disk array device, its control method and control program
Tsai et al. A study of soft error consequences in hard disk drives
CA2307212A1 (en) Automatic backup based on disk drive condition
CN108899059B (en) Method and device for detecting solid state hard disk
JP4627327B2 (en) Abnormality judgment device
JP2004118397A (en) Failure occurrence prediction system for magnetic disk device
JP2010066801A (en) Log recording system, module monitoring means, trace log managing means, recording method, program, and storage medium
JP2880701B2 (en) Disk subsystem
CN114706720B (en) Method, system, equipment and storage medium for judging slow disk of distributed storage system
JP7694341B2 (en) Determination program, determination method, and information processing device
JP4775843B2 (en) Storage system and storage control method
US20170308469A1 (en) Resource Processing Method and Device for Multi-controller System
JP2019164817A (en) Failure prediction device, failure prediction method, and failure prediction program
CN120973638A (en) A method, apparatus, device, storage medium, and product for monitoring the status of a hard disk.