[go: up one dir, main page]

JP2012038362A - ハードディスク故障予兆検出方法 - Google Patents

ハードディスク故障予兆検出方法 Download PDF

Info

Publication number
JP2012038362A
JP2012038362A JP2010174506A JP2010174506A JP2012038362A JP 2012038362 A JP2012038362 A JP 2012038362A JP 2010174506 A JP2010174506 A JP 2010174506A JP 2010174506 A JP2010174506 A JP 2010174506A JP 2012038362 A JP2012038362 A JP 2012038362A
Authority
JP
Japan
Prior art keywords
information processing
execution time
hard disk
processing apparatus
time length
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2010174506A
Other languages
English (en)
Inventor
Satoshi Sunaga
聡 須永
Ryoichi Nakamura
亮一 中村
Toshiyuki Moriya
俊之 森谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Inc
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2010174506A priority Critical patent/JP2012038362A/ja
Publication of JP2012038362A publication Critical patent/JP2012038362A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Signal Processing For Digital Recording And Reproducing (AREA)

Abstract

【課題】2重化されたシステム構成の情報処理装置において、ハードディスクにエラーが発生する以前にハードディスク故障の予兆を検出する。
【解決手段】実行時間長記録領域211に記録されたハードディスク11へのデータ書き込みの実行時間長の履歴を参照し、最近の複数個分(例えば10個分)を読み出す(S31)。次に、読み出した複数個の実行時間長の平均値を計算する(S32)。次に、計算した最近のデータ書き込みの実行時間長の平均値が許容値以下であるか判定する(S33)。平均値が許容値を超える場合は、故障の予兆が検出されたとして、警報通知送信を指示する(S34)。例えば、求めた最近の実行時間長の平均値が12秒であった場合、警報通知送信が指示される。
【選択図】図4

Description

本発明は、ハードディスク故障予兆検出方法に関するものである。
近年においては、情報処理装置に搭載されるハードディスクドライブ(以降、HDDまたはハードディスクと表記する)の大容量化の進展はめざましいものがある。それにより、大量のデータをHDDに蓄積できることは歓迎すべき状況であるが、一方でまれに経験するHDDの故障に起因する記憶データの消失が懸念される。特に、HDDの大容量化の進展は失うデータもまた大容量であることを意味する。
よって、データが破壊する前にHDDを交換する処置が必要であり、そのためには、蓄積データが消失する前に何らかの警報により保守者に知らせる必要がある。
警報という点では、従来のHDDにもSelf Monitoring Analysis and Reporting Technology (SMART)と呼ばれる機能が付加されているものがある。SMART機能とは、HDDの運用履歴、発生エラー履歴等をHDD内に蓄積し、それらのデータを基準値と比較することにより、HDD交換等の警告をパーソナルコンピューターやサーバ等の上位システムに自動的に報告するものである。このSMART機能については、周知であるので、これ以上の説明を割愛する。
また、従来技術に関しては、特許文献1「磁気ディスク装置診断方式」において開示されている技術がある。
この特許文献1によれば、磁気ディスク媒体の予防保守を目的としたディスク装置診断方式であり、ディスク媒体の診断実行中に一時的故障の発生回数をカウントして一定の閾値を越えた場合に自動通報する磁気ディスク装置診断方式が提案されている。
しかし、このような従来技術においても、ハードディスクに一時的故障が発生するようになってからでないと、ハードディスクの故障を予見することができず、ハードディスクに些細な異常でもない限り、ハードディスク故障の予兆を知ることができないという問題があった。
特開平05−265663号公報
上述の従来のHDD故障検出方法では、HDDにエラーが発生するようになって初めてHDDの故障を予見することが可能となるため、軽微なエラーを含めてエラーが発生しない段階での、HDDの異常や故障が起こる予兆を前もって知ることができないという問題が起こる。
この問題は、HDDにエラーが発生する段階になってからでないと、警報が通知されないので、エラーが発生する以前にHDD交換の処置を行えないということである。特に、HDDにエラーが発生してそれを検知してから、HDD交換に要する時間よりも短時間のうちにHDDが故障すれば、HDDに記憶したデータを消失することとなり、情報処理装置を運用する上で問題である。
本発明の目的は、2重化されたシステム構成の情報処理装置において、ハードディスクにエラーが発生する以前にハードディスク故障の予兆を検出できるハードディスク故障予兆検出方法を提供することにある。
上記の課題を解決するために、本発明のハードディスク故障予兆検出方法は、情報処理装置と該情報処理装置の故障時に該情報処理装置に代わって情報処理を行う情報処理装置の一方が、該一方の情報処理装置または他方の情報処理装置のハードディスクへのデータの書き込みまたは読み込みの実行時間長を計測するステップと、前記一方の情報処理装置が、前記実行時間長を記憶するステップと、前記一方の情報処理装置が、前記記憶された実行時間長を読み出し、前記ハードディスクの故障の予兆があるか否かの判定として、当該実行時間長が予め定められた許容値を超えているか否かを判定するステップとを含むことを特徴とする。
例えば、前記一方の情報処理装置は、他方の情報処理装置の故障時に情報処理を行う情報処理装置であり、前記実行時間長を当該故障時に情報処理を行う情報処理装置に記憶する。
本発明によれば、ハードディスクへのデータの書き込みまたは読み込みの実行時間長を計測して記憶し、実行時間長を読み出し、ハードディスクの故障の予兆があるか否かの判定として、当該実行時間長が予め定められた許容値を超えているか否かを判定するので、2重化されたシステム構成の情報処理装置において、ハードディスクにエラーが発生する以前にハードディスク故障の予兆を検出することができる。
また、故障時に情報処理を行う情報処理装置に実行時間長を記憶することで、他方の情報処理装置に故障が発生し、当該情報処理装置についての実行時間長を参照する必要が生じた場合であっても、故障時に情報処理を行う情報処理装置に記憶された当該実行時間長を参照することができる。
本実施の形態に係るハードディスク故障予兆検出方法を実行する情報処理システムの構成図である。 待機系装置が、稼働系装置におけるハードディスクへのデータの書き込みの実行時間長を測定する処理のフローチャートである。 データ書き込みの実行時間長の許容値を算出する処理のフローチャートである。 図4(a)は、データ書き込みの実行時間長が許容値を超えているか否かを判定する処理のフローチャートであり、図4(b)は、実行時間長が許容値を超えた場合に警報通知を送信する処理のフローチャートである。
以下、本発明の実施の形態について図面を参照して説明する。
図1は、本実施の形態に係るハードディスク故障予兆検出方法を実行する情報処理システムの構成図である。
本実施形態の情報処理システムは、2台の情報処理装置1、2からなり、互いに通信ケーブル3で接続されている。冗長構成をとるこれら2台の情報処理装置は、一方は稼働系装置となり、もう一方が待機系装置となり、運転を行っている。つまり、待機系装置は、稼働系装置の故障時に稼働系装置に代わって情報処理を行うのである。
情報処理装置1は、データを記録するハードディスク11と、情報処理装置2のハードディスク21へのデータの書き込みまたは読み込みの実行時間長を測定する実行時間長測定部12と、ハードディスク21の故障の予兆があるか否かの判定として、当該実行時間長が予め定められた許容値を超えているか否かを判定するハードディスク故障予知検出部13と、実行時間長が許容値を超えている場合において警報通知を送信する警報通知送信部14とを備えている。ハードディスク11には、実行時間長を記録するための実行時間長記録領域111が設けられている。
情報処理装置2もまた情報処理装置1と同様の構成をとっており、データを記録するハードディスク21と、情報処理装置1のハードディスク11へのデータの書き込みまたは読み込みの実行時間長を測定する実行時間長測定部22と、ハードディスク11の故障の予兆があるか否かの判定として、当該実行時間長が予め定められた許容値を超えているか否かを判定するハードディスク故障予知検出部23と、実行時間長が許容値を超えている場合において警報通知を送信する警報通知送信部24とを備えている。ハードディスク21には、実行時間長を記録するための実行時間長記録領域211が設けられている。
情報処理装置1と情報処理装置2とは、上述の通り同様な構成を有し、互いを入れ替えた場合も同じ動作を行う構成となっている。ただし、ここでは説明を簡単にするために、情報処理装置1が稼働系装置であり、情報処理装置2が待機系装置である運転時の処理についてのみを以降説明する。
ここでは、情報処理装置2が、情報処理装置1のハードディスク11へのデータの書き込みの実行時間長を測定し、その測定した実行時間長からハードディスク21の故障の予兆を検出した場合に、その警報通知を送信する方法と処理動作について、図2、図3、図4のフローチャートを参照して順次に説明する。
まず、図2を用いて、待機系装置が、稼働系装置におけるハードディスクへのデータの書き込みの実行時間長を測定する処理の動作について説明する。
待機系装置となっている情報処理装置2の実行時間長測定部21は、稼働系装置となっている情報処理装置1に対し、データ書き込み命令信号とデータ書き込みなし信号とを同時に送信する(S11)。データ書き込み命令は、数十メガバイト程度(例えば50MBytes)の小さいデータ書き込みを実行する命令である。
それら2つの信号を受信した情報処理装置1は、データ書き込み命令信号によっては、ハードディスク11にデータを書き込んでから、一方、データ書き込みなし信号によっては何もせずに、応答を情報処理装置2に送信する。
このとき、情報処理装置1では、ハードディスクにデータを書き込んでから行う応答の時刻が、何もせずに行う応答の時刻よりも後になる。なぜなら、ハードディスクにデータを書き込む時間分だけ、その応答の送信が遅れるからである。また、この時間差は、ハードディスクにデータを書き込むことに要した時間つまり書き込みの実行時間長である。
このようにして、情報処理装置1から送信された、2つの応答、すなわち、データ書き込みなし信号の応答とデータ書き込み命令信号の応答は、それぞれ、情報処理装置2が前述の時間差をもって受信する(S12、S13)。
例えば、50MByteのデータ書き込みに5秒を要したとすると、それらの応答を受信した時間差は5秒となる。
2つの応答を順次受信した情報処理装置2では、実行時間長測定部22が、その応答を受信した時間差つまり、ハードディスク11へのデータ書き込みの実行時間長(この例では5秒)を算出し(S14)、実行時間長記録領域211に記録する(S15)。
このようなデータ書き込みの実行時間長の測定を定期的(例えば30秒毎に)に行って、ハードディスクへのデータ書き込みの実行時間長を記録して履歴を保持する。
以上のように、ここでは、待機系装置から稼働系装置におけるハードディスクのデータ書き込みの実行時間長の測定についての一方のみを述べたが、稼働系装置から自系装置における(稼働系装置における)ハードディスクへの書き込みの実行時間長を測定する形態もある。その形態では、データの書き込みの実行時間長の測定は、データ書き込み開始時刻とデータ書き込み完了時刻との差によって算出する。それ以降のステップについては、先に述べた、待機系装置から稼働系装置におけるハードディスクのデータの書き込みの実行時間長の測定のステップと同様である。
次に、図3を用いて、データ書き込みの実行時間長の許容値を算出する処理の動作について説明する。
良好な状態であるハードディスクに比べて、劣化しているハードディスクは、データの書き込みや読み込みに長時間を要する。データの書き込みに要する時間が増すにつれ、ハードディスクの劣化が進行しているものとし、データの書き込みの実行時間長に対する許容値を次のようにして算出する。
ハードディスク故障予知検出部23が、実行時間長記録領域211に記録されたハードディスク11へのデータ書き込みの実行時間長の履歴を参照し、最初から複数個分(例えば10個分)を読み出す(S21)。次に、読み出した複数個の実行時間長の平均値を計算する(S22)。平均値を計算するのは、実行時間長を測定した際の諸条件によるバラツキを抑えるためである。次に、求めた平均値に安全係数(例えば2)を掛けた値をデータ書き込み時間の許容値とする(S23)。これは、良好な状態であるハードディスクを使い始めた、例えば、最初の10回におけるデータ書き込みの実行時間長の平均値に対して、その平均値の2倍までを許容することとし、これを許容値として算出するのである。例えば、求めた平均値が5秒であり、安全係数を2とすれば、許容値は10(=5×2)秒である。
このようにして計算した許容値、つまりハードディスク11へのデータ書き込みの実行時間長の許容値をハードディスク21に記録する(S24)。
次に、図4を用いて、(a)データ書き込みの実行時間長が許容値を超えているか否かを判定する処理と、(b)実行時間長が許容値を超えた場合に警報通知を送信する処理の動作について説明する。
前述の通り、待機系装置となっている情報処理装置2が、稼働系装置となっている情報処理装置1のハードディスク11へのデータ書き込みの実行時間長を定期的に測定しており、その記録を履歴として実行時間長記録領域211に保持している。
図4(a)に示すように、ハードディスク故障予知検出部23が、実行時間長記録領域211に記録されたハードディスク11へのデータ書き込みの実行時間長の履歴を参照し、最近の複数個分(例えば10個分)を読み出す(S31)。次に、読み出した複数個の実行時間長の平均値を計算する(S32)。平均値を計算するのは、データ書き込みの実行時間長を測定した際の諸条件によるバラツキを抑えるためである。
実行時間長測定部22は、計算した最近のデータ書き込みの実行時間長の平均値が、前述の通りにして算出していた許容値以下であるか判定する(S33)。ここで、許容値以下であれば、ハードディスクの劣化度合は許容されるものとして処理を終了する。例えば、許容値が10秒の時、求めた最近の実行時間長の平均値が10秒以下の値であれば、処理を終了する。
しかし、平均値が許容値を超える場合は、ハードディスクの劣化度合は許容されず、つまり、故障の予兆が検出されたとして、警報通知送信を警報通知送信部24へ指示する(S34)。例えば、求めた最近の実行時間長の平均値が12秒であった場合、警報通知送信が指示されることとなる。
図4(b)に示すように、実行時間長測定部22からの警報通知送信指示を受信した(S41)警報通知送信部24は、警報通知を送信し(S42)、保守者にハードディスク11の劣化を通知する。
以上説明したように、本実施の形態によれば、ハードディスクへのデータの書き込みまたは読み込みの実行時間長を計測して記憶し、実行時間長を読み出し、ハードディスクの故障の予兆があるか否かの判定として、当該実行時間長が予め定められた許容値を超えているか否かを判定するので、2重化されたシステム構成の情報処理装置において、ハードディスクにエラーが発生する以前にハードディスク故障の予兆を検出でき、それを保守者に知らしめることができる。
また、待機系装置に実行時間長を記憶することで、稼働系装置に故障が発生し、当該稼働系装置についての実行時間長を参照する必要が生じた場合であっても、待機系装置に記憶された当該実行時間長を参照することができる。
なお、本発明は、本実施の形態に限定されるものではなく、その主旨を逸脱しない範囲において種々の変形、変更が可能である。例えば、待機系装置のハードディスクについて、前述の故障予兆検出方法を稼働系装置が行ってもよい。また、データの書き込みの代わりにデータの読み込みを行ってもよい。
また、本発明は専用のハードウェアにより実現されるもの以外に、その機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータに読み込ませ、実行するものであってもよい。コンピュータ読み取り可能な記録媒体とは、フロッピー(登録商標)ディスク、光磁気ディスク、CD−ROM等の記録媒体、コンピュータシステムに内蔵されるハードディスク装置等の記憶装置をいう。さらに、コンピュータ読み取り可能な記録媒体は、インターネットを介してプログラムを送信する場合のように、短時間の間、動的にプログラムを保持するもの(伝送媒体もしくは伝送波)、その場合のサーバとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含む。
1、2 … 情報処理装置
11、21 … ハードディスク
111、211 … 実行時間長記録領域
12、22 … 実行時間長測定部
13、23 … ハードディスク故障予知検出部
14、24 … 警報通知送信部
3 … 通信ケーブル

Claims (5)

  1. 情報処理装置と該情報処理装置の故障時に該情報処理装置に代わって情報処理を行う情報処理装置の一方が、該一方の情報処理装置または他方の情報処理装置のハードディスクへのデータの書き込みまたは読み込みの実行時間長を計測するステップと、
    前記一方の情報処理装置が、前記実行時間長を記憶するステップと、
    前記一方の情報処理装置が、前記記憶された実行時間長を読み出し、前記ハードディスクの故障の予兆があるか否かの判定として、当該実行時間長が予め定められた許容値を超えているか否かを判定するステップと
    を含むことを特徴とするハードディスク故障予兆検出方法。
  2. 前記一方の情報処理装置は、他方の情報処理装置の故障時に情報処理を行う情報処理装置であり、前記実行時間長を当該故障時に情報処理を行う情報処理装置に記憶することを特徴とする請求項1記載のハードディスク故障予兆検出方法。
  3. 前記一方の情報処理装置が、前記実行時間長が前記許容値を超えている場合において警報を発することを特徴とする請求項1または2に記載のハードディスク故障予兆検出方法。
  4. 請求項1ないし3のいずれかに記載のハードディスク故障予兆検出方法をコンピュータに実行させるためのコンピュータプログラム。
  5. 請求項4記載のコンピュータプログラムを記録したコンピュータ読み取り可能な記録媒体。
JP2010174506A 2010-08-03 2010-08-03 ハードディスク故障予兆検出方法 Pending JP2012038362A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010174506A JP2012038362A (ja) 2010-08-03 2010-08-03 ハードディスク故障予兆検出方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010174506A JP2012038362A (ja) 2010-08-03 2010-08-03 ハードディスク故障予兆検出方法

Publications (1)

Publication Number Publication Date
JP2012038362A true JP2012038362A (ja) 2012-02-23

Family

ID=45850208

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010174506A Pending JP2012038362A (ja) 2010-08-03 2010-08-03 ハードディスク故障予兆検出方法

Country Status (1)

Country Link
JP (1) JP2012038362A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012178017A (ja) * 2011-02-25 2012-09-13 Nec Corp 記録媒体制御システム、記録媒体制御方法、記録媒体制御プログラム
JP2016532152A (ja) * 2013-07-30 2016-10-13 オスラム オプト セミコンダクターズ ゲゼルシャフト ミット ベシュレンクテル ハフツングOsram Opto Semiconductors GmbH カバー要素の製造方法、オプトエレクトロニクス部品の製造方法、オプトエレクトロニクス部品のカバー要素およびオプトエレクトロニクス部品
JP2016207237A (ja) * 2015-04-17 2016-12-08 日本電気株式会社 ハードディスク管理装置、ハードディスク装置、ハードディスク管理方法およびハードディスク管理用プログラム
WO2018168606A1 (ja) * 2017-03-13 2018-09-20 日本電気株式会社 情報処理装置、情報処理方法およびプログラム記録媒体

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012178017A (ja) * 2011-02-25 2012-09-13 Nec Corp 記録媒体制御システム、記録媒体制御方法、記録媒体制御プログラム
JP2016532152A (ja) * 2013-07-30 2016-10-13 オスラム オプト セミコンダクターズ ゲゼルシャフト ミット ベシュレンクテル ハフツングOsram Opto Semiconductors GmbH カバー要素の製造方法、オプトエレクトロニクス部品の製造方法、オプトエレクトロニクス部品のカバー要素およびオプトエレクトロニクス部品
US9947843B2 (en) 2013-07-30 2018-04-17 Osram Opto Semiconductors Gmbh Method of producing a cover element and an optoelectronic component, cover element and optoelectronic component
JP2016207237A (ja) * 2015-04-17 2016-12-08 日本電気株式会社 ハードディスク管理装置、ハードディスク装置、ハードディスク管理方法およびハードディスク管理用プログラム
WO2018168606A1 (ja) * 2017-03-13 2018-09-20 日本電気株式会社 情報処理装置、情報処理方法およびプログラム記録媒体

Similar Documents

Publication Publication Date Title
EP1924994B1 (en) Method and apparatus for detecting the onset of hard disk failures
US8824261B1 (en) Peer to peer vibration mitigation
US8185784B2 (en) Drive health monitoring with provisions for drive probation state and drive copy rebuild
CN102147708B (zh) 一种磁盘检测方法及装置
US20090161243A1 (en) Monitoring Disk Drives To Predict Failure
US10990469B2 (en) Maintenance methods of digital signage and troubleshooting and warning methods, digital signage playing systems and players thereof
US11449376B2 (en) Method of determining potential anomaly of memory device
CN107179968B (zh) 信息存储装置、故障预测装置及故障预测方法
JP2005322399A (ja) 磁気ディスク記憶装置におけるトラック・データ完全性の維持方法
JP2012038362A (ja) ハードディスク故障予兆検出方法
US20200264946A1 (en) Failure sign detection device, failure sign detection method, and recording medium in which failure sign detection program is stored
JP2006092070A (ja) ディスクアレイ装置及びその制御方法並びに制御プログラム
Tsai et al. A study of soft error consequences in hard disk drives
CA2307212A1 (en) Automatic backup based on disk drive condition
CN108899059B (zh) 一种固态硬盘的检测方法和设备
JP4627327B2 (ja) 異常判定装置
JP2004118397A (ja) 磁気ディスク装置の障害発生予測システム
JP2010066801A (ja) ログ記録システム、モジュール監視手段、トレースログ管理手段、記録方法、プログラム、及び記憶媒体
JP2880701B2 (ja) ディスクサブシステム
CN114706720B (zh) 分布式存储系统慢盘判断方法、系统、设备及存储介质
JP7694341B2 (ja) 判定プログラム、判定方法、及び、情報処理装置
JP4775843B2 (ja) ストレージシステム及び記憶制御方法
US20170308469A1 (en) Resource Processing Method and Device for Multi-controller System
JP2019164817A (ja) 故障予測装置、故障予測方法及び故障予測プログラム
CN120973638A (zh) 一种硬盘状态监测方法、装置、设备、存储介质及产品