JP2012178014A - 故障予測・対策方法及びクライアントサーバシステム - Google Patents
故障予測・対策方法及びクライアントサーバシステム Download PDFInfo
- Publication number
- JP2012178014A JP2012178014A JP2011040109A JP2011040109A JP2012178014A JP 2012178014 A JP2012178014 A JP 2012178014A JP 2011040109 A JP2011040109 A JP 2011040109A JP 2011040109 A JP2011040109 A JP 2011040109A JP 2012178014 A JP2012178014 A JP 2012178014A
- Authority
- JP
- Japan
- Prior art keywords
- failure
- information
- maintained
- countermeasure
- maintenance target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Debugging And Monitoring (AREA)
Abstract
【解決手段】保守対象とする装置200にネットワーク500を介して接続された管理サーバ100を有し、管理サーバ100は、前記保守対象とする装置から一定の周期で当該装置の情報を取得して当該装置を管理する管理手段70を有する。管理手段70は、取得した保守対象とする装置の情報に基づいて、保守対象とする装置の劣化進行度を算出し、算出した劣化進行度が予め定めた進行度となった場合、あるいは、保守対象とする装置から取得した情報が予め定めた事象を示している場合、前記保守対象とする装置に対する故障対策を実施する。故障対策は、予備の装置210とのミラーリング、予備の装置210への運用切り替えである。
【選択図】図2
Description
S.M.A.R.T.情報に含まれる5.代替処理済不良セクタ数、値Vs5、閾値Ts5、
S.M.A.R.T.情報に含まれる7.磁気ヘッドシークエラー率、値Vs7、閾値Ts7、
S.M.A.R.T.情報に含まれる12.電源ON/OFF回数、値Vs12、閾値Ts12、
S.M.A.R.T.情報に含まれる193.ロード/アンロード回数、値Vs193、閾値Ts193、
S.M.A.R.T.情報に含まれる196.セクタ代替処理発生回数、値Vs196、閾値Ts196、
S.M.A.R.T.情報に含まれる197.代替処理待ちセクタ数、値Vs197、閾値Ts197、
S.M.A.R.T.情報に含まれる198.回復不可能なセクタ数、値Vs198、閾値Ts198、
強制電源OFF・強制リセットの累計実行回数、値Vp 、閾値Tp 、
1ビットECCエラーログの個数、値Ve1、閾値Te1、
基板の電圧、値Vv 、閾値TvL(最低電圧閾値)、TvH(最大電圧閾値)、
基板の温度、値Vt 、閾値Tt 、
累計起動時間、値Va 、閾値Ta
がある。
Fv 、Ft 、Fa であり、これらは管理サーバ100のManager 70により値0または1に決定される。
(3)管理サーバ100のManager 70は、シーケンスA6の判定で、劣化進行度Eが1次劣化判定値TE1を超えておらず、1次故障対策を行わないと判定した場合、シーケンスA3からの処理に戻り、監視対象ブレードモジュール200からの情報を要求する処理からの動作を繰り返し、劣化進行度Eが前記1次劣化判定値TE1を超えて1次劣化判定条件を満たしたとき、1次故障対策を行うために待機状態に遷移する(シーケンスA8)。
1.ECCエラーの情報が、2ビットECCエラーの検出時、
2.S.M.A.R.T.情報に含まれる1.読み込みエラー率の情報が、既定の閾値を超過している時(S.M.A.R.T.エラーログの発生時)、
3.S.M.A.R.T.情報に含まれる2.ハードディスクの処理能力の情報が、既定の閾値を超過している時(S.M.A.R.T.エラーログの発生時)、
4.S.M.A.R.T.情報に含まれる3.スピンアップタイムの情報が、既定の閾値を超過している時(S.M.A.R.T.エラーログの発生時)、
5.S.M.A.R.T.情報に含まれる5.代替処理済不良セクタ数の情報が、過去数回の情報取得に渡る値の増加時、
6.S.M.A.R.T.情報に含まれる196.セクタ代替処理発生回数の情報が、過去数回の情報取得に渡る値の増加時、
7.S.M.A.R.T.情報に含まれる198.回復不可能セクタ数の情報が、過去数回の情報取得に渡る値の増加時
である。
20、21 OS
30、31 HDD(SSD)
40、41 ECC付きRAM
45、46 モジュール本体部
50、51 BMC
60〜62 NIC
70 Manager
75 制御部
100 管理サーバ
200、210 ブレードモジュール
300 サーバ
400 クライアント端末
500 ネットワーク
600 管理者用端末
Claims (8)
- 保守対象とする装置の故障を事前に予測し、故障に対する対策を実施する装置の故障予測・対策方法において、
前記保守対象とする装置にネットワークを介して接続された管理サーバを有し、
前記管理サーバは、前記保守対象とする装置から一定の周期で当該装置の情報を取得して当該装置を管理する管理手段を有し、
前記管理手段は、前記取得した前記保守対象とする装置の情報に基づいて、前記保守対象とする装置の劣化進行度を算出し、算出した劣化進行度が予め定めた進行度となった場合、あるいは、前記保守対象とする装置から取得した情報が予め定めた事象を示している場合、前記保守対象とする装置に対する故障対策を実施することを特徴とする故障予測・対策方法。 - 前記保守対象とする装置に対する故障対策は、前記保守対象とする装置を、保守対象とする装置とは別の予備の装置へ切り替えて運用する対策であることを特徴とする請求項1記載の故障予測・対策方法。
- 前記管理手段が前記保守対象とする装置から収集する情報は、装置のS.M.A.R.T.情報、ハードウェアモニターログ、ECC付きRAMのECCエラーログ、基板の電圧値・温度値、ブレードモジュールに対して行った強制電源OFF・強制リセットの累計回数を含む情報であることを特徴とする請求項1または2記載の故障予測・対策方法。
- 保守対象とする装置の故障を事前に予測し、故障に対する対策を実施する装置の故障予測・対策方法において、
前記保守対象とする装置にネットワークを介して接続された管理サーバを有し、
前記管理サーバは、前記保守対象とする装置から一定の周期で当該装置の情報を取得して当該装置を管理する管理手段を有し、
前記管理手段は、前記取得した前記保守対象とする装置の情報に基づいて、前記保守対象とする装置の劣化進行度を算出し、算出した劣化進行度が予め定めた第1の進行度となった場合、あるいは、前記保守対象とする装置から取得した情報が予め定めた事象を示している場合、前記保守対象とする装置に対する第1の故障対策を実施し、その後、算出した劣化進行度が予め定めた第2の進行度となった場合、前記保守対象とする装置に対する第2の故障対策を実施することを特徴とする故障予測・対策方法。 - 前記保守対象とする装置に対する第1の故障対策は、前記保守対象とする装置と保守対象とする装置とは別の予備の装置とをミラーリングして運用する対策であり、前記保守対象とする装置に対する第2の故障対策は、前記保守対象とする装置を、保守対象とする装置とは別の予備の装置へ切り替えて運用する対策であることを特徴とする請求項4記載の故障予測・対策方法。
- 前記管理手段が前記保守対象とする装置から収集する情報は、装置のS.M.A.R.T.情報、ハードウェアモニターログ、ECC付きRAMのECCエラーログ、基板の電圧値・温度値、ブレードモジュールに対して行った強制電源OFF・強制リセットの累計回数を含む情報であることを特徴とする請求項4または5記載の故障予測・対策方法。
- 保守対象とする装置の故障を事前に予測し、故障に対する対策を実施することが可能なクライアントサーバシステムにおいて、
前記保守対象とする装置にネットワークを介して接続された管理サーバを有し、
前記管理サーバは、前記保守対象とする装置から一定の周期で当該装置の情報を取得して当該装置を管理する管理手段を有し、
前記管理手段は、前記取得した前記保守対象とする装置の情報に基づいて、前記保守対象とする装置の劣化進行度を算出する手段と、算出した劣化進行度が予め定めた進行度となった場合、あるいは、前記保守対象とする装置から取得した情報が予め定めた事象を示している場合、前記保守対象とする装置に対する故障対策を実施する手段とを備えることを特徴とするクライアントサーバシステム。 - 保守対象とする装置の故障を事前に予測し、故障に対する対策を実施することが可能なクライアントサーバシステムにおいて、
前記保守対象とする装置にネットワークを介して接続された管理サーバを有し、
前記管理サーバは、前記保守対象とする装置から一定の周期で当該装置の情報を取得して当該装置を管理する管理手段を有し、
前記管理手段は、前記取得した前記保守対象とする装置の情報に基づいて、前記保守対象とする装置の劣化進行度を算出する手段と、算出した劣化進行度が予め定めた第1の進行度となった場合、あるいは、前記保守対象とする装置から取得した情報が予め定めた事象を示している場合、前記保守対象とする装置に対する第1の故障対策を実施する手段と、その後、算出した劣化進行度が予め定めた第2の進行度となった場合、前記保守対象とする装置に対する第2の故障対策を実施する手段とを備えることを特徴とするクライアントサーバシステム。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2011040109A JP5583052B2 (ja) | 2011-02-25 | 2011-02-25 | 故障予測・対策方法及びクライアントサーバシステム |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2011040109A JP5583052B2 (ja) | 2011-02-25 | 2011-02-25 | 故障予測・対策方法及びクライアントサーバシステム |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2012178014A true JP2012178014A (ja) | 2012-09-13 |
| JP5583052B2 JP5583052B2 (ja) | 2014-09-03 |
Family
ID=46979826
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2011040109A Expired - Fee Related JP5583052B2 (ja) | 2011-02-25 | 2011-02-25 | 故障予測・対策方法及びクライアントサーバシステム |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP5583052B2 (ja) |
Cited By (9)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN105074680A (zh) * | 2013-04-03 | 2015-11-18 | 惠普发展公司,有限责任合伙企业 | 在基板的盒体上的微控制器 |
| DE102016001621A1 (de) | 2015-02-19 | 2016-08-25 | Fanuc Corporation | Ausfallvorhersagesystem für eine Steuerung |
| DE102016001980A1 (de) | 2015-02-26 | 2016-09-01 | Fanuc Corporation | Steuervorrichtung, die mittels einer Fehlerkorrekturfunktion eine Lebensdauervorhersage durchführt |
| JP2016197298A (ja) * | 2015-04-02 | 2016-11-24 | 東芝テック株式会社 | 制御装置、情報処理装置、電子回路基板、制御基板及びプログラム |
| JP2018005907A (ja) * | 2016-06-30 | 2018-01-11 | 廣達電腦股▲ふん▼有限公司 | ライザーカード |
| KR20190048456A (ko) * | 2017-10-31 | 2019-05-09 | 에스케이하이닉스 주식회사 | 컴퓨팅 디바이스 및 그것의 동작방법 |
| JP2020027615A (ja) * | 2018-08-13 | 2020-02-20 | 廣達電腦股▲ふん▼有限公司Quanta Computer Inc. | サーバハードウェア障害の分析及びリカバリ |
| US11636014B2 (en) | 2017-10-31 | 2023-04-25 | SK Hynix Inc. | Memory system and data processing system including the same |
| US12050508B2 (en) | 2018-01-12 | 2024-07-30 | SK Hynix Inc. | Data processing system and operating method thereof |
Citations (7)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2001034495A (ja) * | 1999-07-27 | 2001-02-09 | Nec Corp | 二重化システム |
| JP2004030363A (ja) * | 2002-06-27 | 2004-01-29 | Hitachi Ltd | 論理計算機システム、論理計算機システムの構成制御方法および論理計算機システムの構成制御プログラム |
| JP2004030360A (ja) * | 2002-06-27 | 2004-01-29 | Japan Telecom Co Ltd | Webサービスの提供システムおよび提供支援システム |
| JP2008152594A (ja) * | 2006-12-19 | 2008-07-03 | Hitachi Ltd | マルチコアプロセッサ計算機の高信頼化方法 |
| JP2008198152A (ja) * | 2007-02-16 | 2008-08-28 | Nomura Research Institute Ltd | 冗長構成を有するコンピュータシステム及びコンピュータシステムの系切り換え方法 |
| JP2009217770A (ja) * | 2008-03-13 | 2009-09-24 | Nec Corp | 故障予測通知システム、故障予測通知方法、故障予測通知プログラムおよびプログラム記録媒体 |
| JP2012128573A (ja) * | 2010-12-14 | 2012-07-05 | Mitsubishi Electric Corp | 二重化システムおよびそのシステムを用いたビル管理システム |
-
2011
- 2011-02-25 JP JP2011040109A patent/JP5583052B2/ja not_active Expired - Fee Related
Patent Citations (7)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2001034495A (ja) * | 1999-07-27 | 2001-02-09 | Nec Corp | 二重化システム |
| JP2004030363A (ja) * | 2002-06-27 | 2004-01-29 | Hitachi Ltd | 論理計算機システム、論理計算機システムの構成制御方法および論理計算機システムの構成制御プログラム |
| JP2004030360A (ja) * | 2002-06-27 | 2004-01-29 | Japan Telecom Co Ltd | Webサービスの提供システムおよび提供支援システム |
| JP2008152594A (ja) * | 2006-12-19 | 2008-07-03 | Hitachi Ltd | マルチコアプロセッサ計算機の高信頼化方法 |
| JP2008198152A (ja) * | 2007-02-16 | 2008-08-28 | Nomura Research Institute Ltd | 冗長構成を有するコンピュータシステム及びコンピュータシステムの系切り換え方法 |
| JP2009217770A (ja) * | 2008-03-13 | 2009-09-24 | Nec Corp | 故障予測通知システム、故障予測通知方法、故障予測通知プログラムおよびプログラム記録媒体 |
| JP2012128573A (ja) * | 2010-12-14 | 2012-07-05 | Mitsubishi Electric Corp | 二重化システムおよびそのシステムを用いたビル管理システム |
Cited By (17)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2016515738A (ja) * | 2013-04-03 | 2016-05-30 | ヒューレット−パッカード デベロップメント カンパニー エル.ピー.Hewlett‐Packard Development Company, L.P. | シャーシのカートリッジにおけるマイクロコントローラ |
| CN105074680A (zh) * | 2013-04-03 | 2015-11-18 | 惠普发展公司,有限责任合伙企业 | 在基板的盒体上的微控制器 |
| CN105074680B (zh) * | 2013-04-03 | 2018-08-21 | 慧与发展有限责任合伙企业 | 在基板的盒体上的微控制器 |
| EP2981898A4 (en) * | 2013-04-03 | 2017-03-29 | Hewlett-Packard Enterprise Development LP | Microcontroller at a cartridge of a chassis |
| US9891975B2 (en) | 2015-02-19 | 2018-02-13 | Fanuc Corporation | Failure prediction system of controller |
| DE102016001621A1 (de) | 2015-02-19 | 2016-08-25 | Fanuc Corporation | Ausfallvorhersagesystem für eine Steuerung |
| DE102016001980B4 (de) | 2015-02-26 | 2019-08-14 | Fanuc Corporation | Steuervorrichtung, die mittels einer Fehlerkorrekturfunktion eine Lebensdauervorhersage durchführt |
| US9906242B2 (en) | 2015-02-26 | 2018-02-27 | Fanuc Corporation | Control device performing lifetime prediction by error correction function |
| DE102016001980A1 (de) | 2015-02-26 | 2016-09-01 | Fanuc Corporation | Steuervorrichtung, die mittels einer Fehlerkorrekturfunktion eine Lebensdauervorhersage durchführt |
| JP2016197298A (ja) * | 2015-04-02 | 2016-11-24 | 東芝テック株式会社 | 制御装置、情報処理装置、電子回路基板、制御基板及びプログラム |
| JP2018005907A (ja) * | 2016-06-30 | 2018-01-11 | 廣達電腦股▲ふん▼有限公司 | ライザーカード |
| US10289588B2 (en) | 2016-06-30 | 2019-05-14 | Quanta Computer Inc. | Riser card |
| KR20190048456A (ko) * | 2017-10-31 | 2019-05-09 | 에스케이하이닉스 주식회사 | 컴퓨팅 디바이스 및 그것의 동작방법 |
| KR102387181B1 (ko) | 2017-10-31 | 2022-04-19 | 에스케이하이닉스 주식회사 | 컴퓨팅 디바이스 및 그것의 동작방법 |
| US11636014B2 (en) | 2017-10-31 | 2023-04-25 | SK Hynix Inc. | Memory system and data processing system including the same |
| US12050508B2 (en) | 2018-01-12 | 2024-07-30 | SK Hynix Inc. | Data processing system and operating method thereof |
| JP2020027615A (ja) * | 2018-08-13 | 2020-02-20 | 廣達電腦股▲ふん▼有限公司Quanta Computer Inc. | サーバハードウェア障害の分析及びリカバリ |
Also Published As
| Publication number | Publication date |
|---|---|
| JP5583052B2 (ja) | 2014-09-03 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP5583052B2 (ja) | 故障予測・対策方法及びクライアントサーバシステム | |
| JP5089380B2 (ja) | 仮想マシン・コンピュータ・プログラムの動的マイグレーション | |
| US9317350B2 (en) | Method and apparatus for faulty memory utilization | |
| JP5851503B2 (ja) | 高可用性仮想機械環境におけるアプリケーションの高可用性の提供 | |
| Tang et al. | Assessment of the effect of memory page retirement on system RAS against hardware faults | |
| US12045661B2 (en) | System and method for usage based system management | |
| JP5834939B2 (ja) | プログラム、仮想マシン制御方法、情報処理装置および情報処理システム | |
| JP5305040B2 (ja) | サーバ計算機の切替方法、管理計算機及びプログラム | |
| CN105718355B (zh) | 基于在线学习的超级计算机结点故障主动容错方法 | |
| US10846079B2 (en) | System and method for the dynamic expansion of a cluster with co nodes before upgrade | |
| CN113391944B (zh) | 计算系统中延期的服务器恢复方法和设备 | |
| US20150234713A1 (en) | Information processing apparatus and virtual machine migration method | |
| JP5910444B2 (ja) | 情報処理装置、起動プログラム、および起動方法 | |
| Gokhroo et al. | Detecting and mitigating faults in cloud computing environment | |
| KR20030034411A (ko) | 클러스터 컴퓨터 시스템의 소프트웨어 가용도 개선 방법및 그 장치 | |
| US11113163B2 (en) | Storage array drive recovery | |
| US11210150B1 (en) | Cloud infrastructure backup system | |
| EP2761458A1 (en) | Hardware consumption architecture | |
| Vargas et al. | High availability fundamentals | |
| EP3617887B1 (en) | Method and system for providing service redundancy between a master server and a slave server | |
| US20190332476A1 (en) | Method, apparatus and computer program product for failure recovery of storage system | |
| JP4973703B2 (ja) | 故障検出方法及び監視装置 | |
| JP2008532170A (ja) | コンピュータqcモジュールテストモニタ | |
| JP2019053486A (ja) | 故障予兆検出装置、故障予兆検出方法、及び、故障予兆検出プログラム | |
| CN101154170A (zh) | 信息处理设备及其控制设备、控制方法和控制程序 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20130628 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20140221 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20140304 |
|
| A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20140422 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140624 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140715 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 5583052 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
| LAPS | Cancellation because of no payment of annual fees |