JP2021108174A - メモリ故障処理の方法、装置、電子機器及び記憶媒体 - Google Patents
メモリ故障処理の方法、装置、電子機器及び記憶媒体 Download PDFInfo
- Publication number
- JP2021108174A JP2021108174A JP2021064522A JP2021064522A JP2021108174A JP 2021108174 A JP2021108174 A JP 2021108174A JP 2021064522 A JP2021064522 A JP 2021064522A JP 2021064522 A JP2021064522 A JP 2021064522A JP 2021108174 A JP2021108174 A JP 2021108174A
- Authority
- JP
- Japan
- Prior art keywords
- memory
- host computer
- failure
- target
- code
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/004—Error avoidance
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/008—Reliability or availability analysis
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/0703—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
- G06F11/0706—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
- G06F11/073—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a memory management context, e.g. virtual memory or cache management
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/0703—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
- G06F11/0766—Error or fault reporting or storing
- G06F11/0778—Dumping, i.e. gathering error/state information after a fault for later diagnosis
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/14—Error detection or correction of the data by redundancy in operation
- G06F11/1479—Generic software techniques for error detection or fault masking
- G06F11/1482—Generic software techniques for error detection or fault masking by means of middleware or OS functionality
- G06F11/1484—Generic software techniques for error detection or fault masking by means of middleware or OS functionality involving virtual machines
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/44—Arrangements for executing specific programs
- G06F9/455—Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
- G06F9/45533—Hypervisors; Virtual machine monitors
- G06F9/45545—Guest-host, i.e. hypervisor is an application program itself, e.g. VirtualBox
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/44—Arrangements for executing specific programs
- G06F9/455—Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
- G06F9/45533—Hypervisors; Virtual machine monitors
- G06F9/45558—Hypervisor-specific management and integration aspects
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/01—Probabilistic graphical models, e.g. probabilistic networks
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/16—Error detection or correction of the data by redundancy in hardware
- G06F11/20—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
- G06F11/202—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
- G06F11/2023—Failover techniques
- G06F11/203—Failover techniques using migration
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/44—Arrangements for executing specific programs
- G06F9/455—Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
- G06F9/45533—Hypervisors; Virtual machine monitors
- G06F9/45558—Hypervisor-specific management and integration aspects
- G06F2009/4557—Distribution of virtual machine instances; Migration and load balancing
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/44—Arrangements for executing specific programs
- G06F9/455—Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
- G06F9/45533—Hypervisors; Virtual machine monitors
- G06F9/45558—Hypervisor-specific management and integration aspects
- G06F2009/45583—Memory management, e.g. access or allocation
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2201/00—Indexing scheme relating to error detection, to error correction, and to monitoring
- G06F2201/81—Threshold
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Quality & Reliability (AREA)
- Algebra (AREA)
- Evolutionary Computation (AREA)
- Probability & Statistics with Applications (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Computational Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Computing Systems (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Biomedical Technology (AREA)
- Health & Medical Sciences (AREA)
- Debugging And Monitoring (AREA)
- Hardware Redundancy (AREA)
- Techniques For Improving Reliability Of Storages (AREA)
Abstract
Description
ホストコンピュータのメモリに故障が発生したことを検出すると、故障メモリの故障パラメータを取得するステップと、
前記故障パラメータに基づいて前記ホストコンピュータのクラッシュ確率を決定するステップと、
前記クラッシュ確率が予め設定された第1の閾値以上である場合、前記ホストコンピュータ上のすべての仮想マシンをターゲットホストコンピュータにマイグレートするステップであって、前記ターゲットホストコンピュータのクラッシュ確率が、予め設定された第2の閾値より小さく、前記第2の閾値が前記第1の閾値より小さいステップと、を含む。
ホストコンピュータのメモリに故障が発生したことを検出すると、故障メモリの故障パラメータを取得するための第1の取得モジュールと、
前記故障パラメータに基づいて前記ホストコンピュータのクラッシュ確率を決定するための決定モジュールと、
前記クラッシュ確率が予め設定された第1の閾値以上である場合、前記ホストコンピュータ上のすべての仮想マシンをターゲットホストコンピュータにマイグレートするための処理モジュールであって、前記ターゲットホストコンピュータのクラッシュ確率が、予め設定された第2の閾値より小さく、第2の閾値が第1の閾値より小さい処理モジュールと、を含む。
少なくとも1つのプロセッサと、
前記少なくとも1つのプロセッサに通信可能に接続されるメモリと、を含み、ここで、
前記メモリには、前記少なくとも1つのプロセッサによって実行可能な命令が記憶され、前記命令は、前記少なくとも1つのプロセッサが第1の態様の実施例に記載のメモリ故障処理方法を実行できるように、が前記少なくとも1つのプロセッサによって実行される。
(付記1)
メモリ故障処理方法であって、
ホストコンピュータのメモリに故障が発生したことを検出すると、故障メモリの故障パラメータを取得するステップと、
前記故障パラメータに基づいて前記ホストコンピュータのクラッシュ確率を決定するステップと、
前記クラッシュ確率が予め設定された第1の閾値以上である場合、前記ホストコンピュータ上のすべての仮想マシンをターゲットホストコンピュータにマイグレートするステップであって、前記ターゲットホストコンピュータの前記クラッシュ確率が、予め設定された第2の閾値より小さく、前記第2の閾値が前記第1の閾値より小さいステップと、を含む、
メモリ故障処理方法。
前記故障メモリの前記故障パラメータを取得するステップの前に、
前記故障メモリで仮想マシンのプロセスが実行されている場合、前記仮想マシンのプロセスを終了するステップをさらに含む、
ことを特徴とする付記1に記載のメモリ故障処理方法。
カーネルシステムによって送信された第1の制御命令を取得するステップと、
前記第1の制御命令に基づいて、前記ホストコンピュータのターゲットメモリページのターゲット位置に情報を書き込むステップと、
書き込まれた情報に基づいて、前記ターゲットメモリページの前記ターゲット位置に対応する第1のコードを生成するステップと
前記カーネルシステムによって送信された第2の制御命令を取得するステップと、
前記第2の制御命令に基づいて、前記ターゲットメモリページの前記ターゲット位置から情報を読み取るステップと、
読み取った情報に基づいて、前記ターゲットメモリページの前記ターゲット位置に対応する第2のコードを生成するステップと、
前記第1のコードと前記第2のコードとが異なる場合、前記ターゲットメモリページに故障が発生したと決定するステップと、をさらに含む、
ことを特徴とする付記1に記載のメモリ故障処理方法。
前記故障メモリの前記故障パラメータを取得するステップは、
予め設定されたアルゴリズムに基づいて前記第1のコードと前記第2のコードとを解析し、解析された前記第1のコードと前記第2のコードとの差分コードを取得するステップと、
前記差分コードに基づいて、前記ターゲットメモリページの前記ターゲット位置に対応するエラービットを決定するステップと、
前記エラービットに基づいてエラーの総数及び前記エラービット同士の間の位置特徴を取得するステップと、を含む、
ことを特徴とする付記3に記載のメモリ故障処理方法。
前記故障パラメータに基づいて前記ホストコンピュータの前記クラッシュ確率を決定するステップは、
予め訓練された確率分析モデルを取得するステップと、
前記故障パラメータを前記確率分析モデルに入力して処理し、前記ホストコンピュータの前記クラッシュ確率を取得するステップと、を含む、
ことを特徴とする付記1に記載のメモリ故障処理方法。
前記故障パラメータに基づいて前記ホストコンピュータの前記クラッシュ確率を決定するステップの後、
前記クラッシュ確率が前記第1の閾値より小さく、かつ、前記第2の閾値以上である場合、前記故障メモリをマーキングするステップと、
前記クラッシュ確率及び前記ホストコンピュータ上の前記すべての仮想マシンの数に基づいて、ターゲット仮想マシンを決定し、前記ターゲット仮想マシンをマイグレートするステップであって、前記ターゲット仮想マシンの数が前記すべての仮想マシン数より少ないステップと、をさらに含む、
ことを特徴とする付記1に記載のメモリ故障処理方法。
前記故障パラメータに基づいて前記ホストコンピュータの前記クラッシュ確率を決定するステップの後、
前記クラッシュ確率が前記第2の閾値より小さい場合、前記故障メモリをマーキングするステップをさらに含む、
ことを特徴とする付記1に記載のメモリ故障処理方法。
メモリ故障処理装置であって、
ホストコンピュータのメモリに故障が発生したことを検出すると、故障メモリの故障パラメータを取得するための第1の取得モジュールと、
前記故障パラメータに基づいて前記ホストコンピュータのクラッシュ確率を決定するための決定モジュールと、
前記クラッシュ確率が予め設定された第1の閾値以上である場合、前記ホストコンピュータ上のすべての仮想マシンをターゲットホストコンピュータにマイグレートするための処理モジュールであって、前記ターゲットホストコンピュータの前記クラッシュ確率が、予め設定された第2の閾値より小さく、前記第2の閾値が前記第1の閾値より小さい処理モジュールと、を含む、
メモリ故障処理装置。
前記故障メモリで仮想マシンのプロセスが実行されている場合、前記仮想マシンのプロセスを終了するための終了モジュールをさらに含む、
ことを特徴とする付記8に記載のメモリ故障処理装置。
カーネルシステムによって送信された第1の制御命令を取得するための第2の取得モジュールと、
前記第1の制御命令に基づいて、前記ホストコンピュータのターゲットメモリページのターゲット位置に情報を書き込むための書き込みモジュールと、
書き込まれた情報に基づいて、前記ターゲットメモリページの前記ターゲット位置に対応する第1のコードを生成するための第1の生成モジュールと、
前記カーネルシステムによって送信された第2の制御命令を取得するための第3の取得モジュールと、
前記第2の制御命令に基づいて、前記ターゲットメモリページの前記ターゲット位置から情報を読み取るための読み取りモジュールと、
読み取った情報に基づいて、前記ターゲットメモリページの前記ターゲット位置に対応する第2のコードを生成するための第2の生成モジュールと、
前記第1のコードと前記第2のコードとが異なる場合、前記ターゲットメモリページに故障が発生したと決定するための比較決定モジュールと、をさらに含む、
ことを特徴とする付記8に記載のメモリ故障処理装置。
前記第1の取得モジュールは、具体的には、
予め設定されたアルゴリズムに基づいて前記第1のコードと前記第2のコードとを解析し、解析された前記第1のコードと前記第2のコードとの差分コードを取得し、
前記差分コードに基づいて、前記ターゲットメモリページの前記ターゲット位置に対応するエラービットを決定し、
前記エラービットに基づいてエラーの総数及び前記エラービット同士の間の位置特徴を取得するために用いられる、
ことを特徴とする付記10に記載のメモリ故障処理装置。
前記決定モジュールは、具体的には、
予め訓練された確率分析モデルを取得し、
前記故障パラメータを前記確率分析モデルに入力して処理し、前記ホストコンピュータの前記クラッシュ確率を取得するために用いられる、
ことを特徴とする付記8に記載のメモリ故障処理装置。
前記クラッシュ確率が前記第1の閾値より小さく、かつ、前記第2の閾値以上である場合、前記故障メモリをマーキングするための第1のマーキングモジュールと、
前記クラッシュ確率及び前記ホストコンピュータ上の前記すべての仮想マシンの数に基づいて、ターゲット仮想マシンを決定し、前記ターゲット仮想マシンをマイグレートするためのマイグレート決定モジュールであって、前記ターゲット仮想マシンの数が前記すべての仮想マシン数より少ないマイグレート決定モジュールと、をさらに含む、
ことを特徴とする付記8に記載のメモリ故障処理装置。
前記クラッシュ確率が前記第2の閾値より小さい場合、前記故障メモリをマーキングするための第2のマーキングモジュールをさらに含む、
ことを特徴とする付記8に記載のメモリ故障処理装置。
電子機器であって、
少なくとも1つのプロセッサと、
前記少なくとも1つのプロセッサに通信可能に接続されるメモリと、を含み、
前記メモリには、前記少なくとも1つのプロセッサによって実行可能な命令が記憶され、前記命令は、前記少なくとも1つのプロセッサによって実行される場合、前記少なくとも1つのプロセッサが付記1〜7のいずれか一つに記載のメモリ故障処理方法を実行できる、
ことを特徴とする電子機器。
コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体であって、前記コンピュータ命令は、前記コンピュータに付記1〜7のいずれか一つに記載のメモリ故障処理方法を実行させるために用いられる、
ことを特徴とする非一時的なコンピュータ読み取り可能な記憶媒体。
コンピュータ上で動作しているときに、付記1〜7のいずれか一つに記載のメモリ故障処理方法を前記コンピュータに実行させる、
ことを特徴とするコンピュータプログラム。
Claims (17)
- メモリ故障処理方法であって、
ホストコンピュータのメモリに故障が発生したことを検出すると、故障メモリの故障パラメータを取得するステップと、
前記故障パラメータに基づいて前記ホストコンピュータのクラッシュ確率を決定するステップと、
前記クラッシュ確率が予め設定された第1の閾値以上である場合、前記ホストコンピュータ上のすべての仮想マシンをターゲットホストコンピュータにマイグレートするステップであって、前記ターゲットホストコンピュータの前記クラッシュ確率が、予め設定された第2の閾値より小さく、前記第2の閾値が前記第1の閾値より小さいステップと、を含む、
メモリ故障処理方法。 - 前記故障メモリの前記故障パラメータを取得するステップの前に、
前記故障メモリで仮想マシンのプロセスが実行されている場合、前記仮想マシンのプロセスを終了するステップをさらに含む、
ことを特徴とする請求項1に記載のメモリ故障処理方法。 - カーネルシステムによって送信された第1の制御命令を取得するステップと、
前記第1の制御命令に基づいて、前記ホストコンピュータのターゲットメモリページのターゲット位置に情報を書き込むステップと、
書き込まれた情報に基づいて、前記ターゲットメモリページの前記ターゲット位置に対応する第1のコードを生成するステップと
前記カーネルシステムによって送信された第2の制御命令を取得するステップと、
前記第2の制御命令に基づいて、前記ターゲットメモリページの前記ターゲット位置から情報を読み取るステップと、
読み取った情報に基づいて、前記ターゲットメモリページの前記ターゲット位置に対応する第2のコードを生成するステップと、
前記第1のコードと前記第2のコードとが異なる場合、前記ターゲットメモリページに故障が発生したと決定するステップと、をさらに含む、
ことを特徴とする請求項1に記載のメモリ故障処理方法。 - 前記故障メモリの前記故障パラメータを取得するステップは、
予め設定されたアルゴリズムに基づいて前記第1のコードと前記第2のコードとを解析し、解析された前記第1のコードと前記第2のコードとの差分コードを取得するステップと、
前記差分コードに基づいて、前記ターゲットメモリページの前記ターゲット位置に対応するエラービットを決定するステップと、
前記エラービットに基づいてエラーの総数及び前記エラービット同士の間の位置特徴を取得するステップと、を含む、
ことを特徴とする請求項3に記載のメモリ故障処理方法。 - 前記故障パラメータに基づいて前記ホストコンピュータの前記クラッシュ確率を決定するステップは、
予め訓練された確率分析モデルを取得するステップと、
前記故障パラメータを前記確率分析モデルに入力して処理し、前記ホストコンピュータの前記クラッシュ確率を取得するステップと、を含む、
ことを特徴とする請求項1に記載のメモリ故障処理方法。 - 前記故障パラメータに基づいて前記ホストコンピュータの前記クラッシュ確率を決定するステップの後、
前記クラッシュ確率が前記第1の閾値より小さく、かつ、前記第2の閾値以上である場合、前記故障メモリをマーキングするステップと、
前記クラッシュ確率及び前記ホストコンピュータ上の前記すべての仮想マシンの数に基づいて、ターゲット仮想マシンを決定し、前記ターゲット仮想マシンをマイグレートするステップであって、前記ターゲット仮想マシンの数が前記すべての仮想マシン数より少ないステップと、をさらに含む、
ことを特徴とする請求項1に記載のメモリ故障処理方法。 - 前記故障パラメータに基づいて前記ホストコンピュータの前記クラッシュ確率を決定するステップの後、
前記クラッシュ確率が前記第2の閾値より小さい場合、前記故障メモリをマーキングするステップをさらに含む、
ことを特徴とする請求項1に記載のメモリ故障処理方法。 - メモリ故障処理装置であって、
ホストコンピュータのメモリに故障が発生したことを検出すると、故障メモリの故障パラメータを取得するための第1の取得モジュールと、
前記故障パラメータに基づいて前記ホストコンピュータのクラッシュ確率を決定するための決定モジュールと、
前記クラッシュ確率が予め設定された第1の閾値以上である場合、前記ホストコンピュータ上のすべての仮想マシンをターゲットホストコンピュータにマイグレートするための処理モジュールであって、前記ターゲットホストコンピュータの前記クラッシュ確率が、予め設定された第2の閾値より小さく、前記第2の閾値が前記第1の閾値より小さい処理モジュールと、を含む、
メモリ故障処理装置。 - 前記故障メモリで仮想マシンのプロセスが実行されている場合、前記仮想マシンのプロセスを終了するための終了モジュールをさらに含む、
ことを特徴とする請求項8に記載のメモリ故障処理装置。 - カーネルシステムによって送信された第1の制御命令を取得するための第2の取得モジュールと、
前記第1の制御命令に基づいて、前記ホストコンピュータのターゲットメモリページのターゲット位置に情報を書き込むための書き込みモジュールと、
書き込まれた情報に基づいて、前記ターゲットメモリページの前記ターゲット位置に対応する第1のコードを生成するための第1の生成モジュールと、
前記カーネルシステムによって送信された第2の制御命令を取得するための第3の取得モジュールと、
前記第2の制御命令に基づいて、前記ターゲットメモリページの前記ターゲット位置から情報を読み取るための読み取りモジュールと、
読み取った情報に基づいて、前記ターゲットメモリページの前記ターゲット位置に対応する第2のコードを生成するための第2の生成モジュールと、
前記第1のコードと前記第2のコードとが異なる場合、前記ターゲットメモリページに故障が発生したと決定するための比較決定モジュールと、をさらに含む、
ことを特徴とする請求項8に記載のメモリ故障処理装置。 - 前記第1の取得モジュールは、具体的には、
予め設定されたアルゴリズムに基づいて前記第1のコードと前記第2のコードとを解析し、解析された前記第1のコードと前記第2のコードとの差分コードを取得し、
前記差分コードに基づいて、前記ターゲットメモリページの前記ターゲット位置に対応するエラービットを決定し、
前記エラービットに基づいてエラーの総数及び前記エラービット同士の間の位置特徴を取得するために用いられる、
ことを特徴とする請求項10に記載のメモリ故障処理装置。 - 前記決定モジュールは、具体的には、
予め訓練された確率分析モデルを取得し、
前記故障パラメータを前記確率分析モデルに入力して処理し、前記ホストコンピュータの前記クラッシュ確率を取得するために用いられる、
ことを特徴とする請求項8に記載のメモリ故障処理装置。 - 前記クラッシュ確率が前記第1の閾値より小さく、かつ、前記第2の閾値以上である場合、前記故障メモリをマーキングするための第1のマーキングモジュールと、
前記クラッシュ確率及び前記ホストコンピュータ上の前記すべての仮想マシンの数に基づいて、ターゲット仮想マシンを決定し、前記ターゲット仮想マシンをマイグレートするためのマイグレート決定モジュールであって、前記ターゲット仮想マシンの数が前記すべての仮想マシン数より少ないマイグレート決定モジュールと、をさらに含む、
ことを特徴とする請求項8に記載のメモリ故障処理装置。 - 前記クラッシュ確率が前記第2の閾値より小さい場合、前記故障メモリをマーキングするための第2のマーキングモジュールをさらに含む、
ことを特徴とする請求項8に記載のメモリ故障処理装置。 - 電子機器であって、
少なくとも1つのプロセッサと、
前記少なくとも1つのプロセッサに通信可能に接続されるメモリと、を含み、
前記メモリには、前記少なくとも1つのプロセッサによって実行可能な命令が記憶され、前記命令は、前記少なくとも1つのプロセッサによって実行される場合、前記少なくとも1つのプロセッサが請求項1〜7のいずれか1項に記載のメモリ故障処理方法を実行できる、
ことを特徴とする電子機器。 - コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体であって、前記コンピュータ命令は、前記コンピュータに請求項1〜7のいずれか1項に記載のメモリ故障処理方法を実行させるために用いられる、
ことを特徴とする非一時的なコンピュータ読み取り可能な記憶媒体。 - コンピュータ上で動作しているときに、請求項1〜7のいずれか1項に記載のメモリ故障処理方法を前記コンピュータに実行させる、
ことを特徴とするコンピュータプログラム。
Applications Claiming Priority (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN202010477094.7 | 2020-05-29 | ||
| CN202010477094.7A CN111708653B (zh) | 2020-05-29 | 2020-05-29 | 内存故障处理方法、装置、电子设备和存储介质 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2021108174A true JP2021108174A (ja) | 2021-07-29 |
| JP7168833B2 JP7168833B2 (ja) | 2022-11-10 |
Family
ID=72538390
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2021064522A Active JP7168833B2 (ja) | 2020-05-29 | 2021-04-06 | メモリ故障処理の方法、装置、電子機器及び記憶媒体 |
Country Status (5)
| Country | Link |
|---|---|
| US (1) | US12093712B2 (ja) |
| EP (1) | EP3859528A3 (ja) |
| JP (1) | JP7168833B2 (ja) |
| KR (1) | KR102488882B1 (ja) |
| CN (1) | CN111708653B (ja) |
Families Citing this family (10)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN113076175B (zh) * | 2021-03-26 | 2022-09-30 | 北京汇钧科技有限公司 | 用于虚拟机的内存共享方法及装置 |
| CN114780270A (zh) * | 2022-03-18 | 2022-07-22 | 阿里巴巴(中国)有限公司 | 内存故障处理方法和装置、电子设备及计算机可读存储介质 |
| US12117895B2 (en) * | 2022-03-31 | 2024-10-15 | Google Llc | Memory error recovery using write instruction signaling |
| CN114860432B (zh) * | 2022-04-19 | 2025-03-18 | 阿里巴巴(中国)有限公司 | 一种内存故障的信息确定方法及装置 |
| CN115394344B (zh) * | 2022-07-22 | 2025-12-16 | 超聚变数字技术有限公司 | 一种确定内存故障修复方式的方法、装置及存储介质 |
| CN115168173B (zh) * | 2022-07-25 | 2025-10-03 | 阿里巴巴(中国)有限公司 | 故障预测模型训练方法、设备故障确定方法、装置及设备 |
| CN115617411B (zh) * | 2022-12-20 | 2023-03-14 | 苏州浪潮智能科技有限公司 | 电子设备数据处理方法、装置、电子设备和存储介质 |
| CN116225755A (zh) * | 2022-12-29 | 2023-06-06 | 天翼云科技有限公司 | 云计算环境的容器处理方法、装置、电子设备及可读介质 |
| US12386711B2 (en) * | 2024-01-11 | 2025-08-12 | International Business Machines Corporation | Preserving changes when reverting back to a snapshot |
| CN118132350B (zh) * | 2024-04-29 | 2024-08-06 | 苏州元脑智能科技有限公司 | Cxl内存容错方法、服务器系统、存储介质和电子设备 |
Citations (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US20070074067A1 (en) * | 2005-09-29 | 2007-03-29 | Rothman Michael A | Maintaining memory reliability |
| JP2012118841A (ja) * | 2010-12-02 | 2012-06-21 | Hitachi Ltd | 仮想マシン管理装置、移行先決定方法および移行先決定プログラム |
| WO2014024279A1 (ja) * | 2012-08-08 | 2014-02-13 | 富士通株式会社 | メモリ障害リカバリ装置、方法、及びプログラム |
Family Cites Families (18)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US7321990B2 (en) | 2003-12-30 | 2008-01-22 | Intel Corporation | System software to self-migrate from a faulty memory location to a safe memory location |
| US8112758B2 (en) * | 2008-01-08 | 2012-02-07 | International Business Machines Corporation | Methods and apparatus for resource allocation in partial fault tolerant applications |
| US9069730B2 (en) * | 2009-06-29 | 2015-06-30 | Hewlett-Packard Development Company, L. P. | Coordinated reliability management of virtual machines in a virtualized system |
| US8601310B2 (en) * | 2010-08-26 | 2013-12-03 | Cisco Technology, Inc. | Partial memory mirroring and error containment |
| US9535738B2 (en) * | 2015-04-03 | 2017-01-03 | International Business Machines Corporation | Migrating virtual machines based on relative priority of virtual machine in the context of a target hypervisor environment |
| JP2017049772A (ja) * | 2015-09-01 | 2017-03-09 | 富士通株式会社 | 移動制御プログラム、移動制御装置及び移動制御方法 |
| CN106547607B (zh) * | 2015-09-17 | 2020-02-11 | 中国移动通信集团公司 | 一种虚拟机动态迁移方法和装置 |
| KR101867487B1 (ko) | 2016-12-23 | 2018-07-18 | 경희대학교 산학협력단 | 클라우드 환경에서 퍼지기반의 마이그레이션 시스템 및 방법 |
| CN106681797B (zh) * | 2016-12-28 | 2019-11-29 | 深圳先进技术研究院 | 一种虚拟机应用迁移方法、装置及一种服务器 |
| US20180329646A1 (en) * | 2017-05-12 | 2018-11-15 | International Business Machines Corporation | Distributed storage system virtual and storage data migration |
| US10375169B1 (en) * | 2017-05-24 | 2019-08-06 | United States Of America As Represented By The Secretary Of The Navy | System and method for automatically triggering the live migration of cloud services and automatically performing the triggered migration |
| US10860367B2 (en) * | 2018-03-14 | 2020-12-08 | Microsoft Technology Licensing, Llc | Opportunistic virtual machine migration |
| US10769007B2 (en) * | 2018-06-08 | 2020-09-08 | Microsoft Technology Licensing, Llc | Computing node failure and health prediction for cloud-based data center |
| US10656990B2 (en) * | 2018-06-13 | 2020-05-19 | Nutanix, Inc. | Dynamically adjusting reserve portion and allocation portions of disaster recovery site in a virtual computing system |
| US12216552B2 (en) * | 2018-06-29 | 2025-02-04 | Microsoft Technology Licensing, Llc | Multi-phase cloud service node error prediction based on minimization function with cost ratio and false positive detection |
| US10776225B2 (en) * | 2018-06-29 | 2020-09-15 | Hewlett Packard Enterprise Development Lp | Proactive cluster compute node migration at next checkpoint of cluster cluster upon predicted node failure |
| CN110399253A (zh) * | 2019-07-25 | 2019-11-01 | 北京百度网讯科技有限公司 | 宕机处理方法和装置 |
| US11093358B2 (en) * | 2019-10-14 | 2021-08-17 | International Business Machines Corporation | Methods and systems for proactive management of node failure in distributed computing systems |
-
2020
- 2020-05-29 CN CN202010477094.7A patent/CN111708653B/zh active Active
-
2021
- 2021-03-18 EP EP21163399.5A patent/EP3859528A3/en active Pending
- 2021-03-24 US US17/211,272 patent/US12093712B2/en active Active
- 2021-04-01 KR KR1020210042579A patent/KR102488882B1/ko active Active
- 2021-04-06 JP JP2021064522A patent/JP7168833B2/ja active Active
Patent Citations (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US20070074067A1 (en) * | 2005-09-29 | 2007-03-29 | Rothman Michael A | Maintaining memory reliability |
| JP2012118841A (ja) * | 2010-12-02 | 2012-06-21 | Hitachi Ltd | 仮想マシン管理装置、移行先決定方法および移行先決定プログラム |
| WO2014024279A1 (ja) * | 2012-08-08 | 2014-02-13 | 富士通株式会社 | メモリ障害リカバリ装置、方法、及びプログラム |
Also Published As
| Publication number | Publication date |
|---|---|
| CN111708653A (zh) | 2020-09-25 |
| EP3859528A3 (en) | 2022-01-19 |
| US20210208923A1 (en) | 2021-07-08 |
| JP7168833B2 (ja) | 2022-11-10 |
| CN111708653B (zh) | 2023-08-08 |
| KR102488882B1 (ko) | 2023-01-17 |
| US12093712B2 (en) | 2024-09-17 |
| KR20210044194A (ko) | 2021-04-22 |
| EP3859528A2 (en) | 2021-08-04 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP2021108174A (ja) | メモリ故障処理の方法、装置、電子機器及び記憶媒体 | |
| JP7209034B2 (ja) | エッジコンピューティングテスト方法、装置、機器及び読み取り可能な記憶媒体 | |
| US10409712B2 (en) | Device based visual test automation | |
| EP3916560A1 (en) | Fault injection method and apparatus, electronic device and storage medium to test microservices in the cloud | |
| US9189308B2 (en) | Predicting, diagnosing, and recovering from application failures based on resource access patterns | |
| US10089169B2 (en) | Identifying solutions to application execution problems in distributed computing environments | |
| CN111984476A (zh) | 测试方法和装置 | |
| WO2016206113A1 (en) | Technologies for device independent automated application testing | |
| CN111459816A (zh) | 故障注入测试方法、装置、系统及存储介质 | |
| CN112214416B (zh) | 调试小程序的方法、装置、电子设备和存储介质 | |
| CN110737560B (zh) | 一种服务状态检测方法、装置、电子设备和介质 | |
| CN112540914A (zh) | 单元测试的执行方法、执行装置、服务器和存储介质 | |
| JP7485267B2 (ja) | 異常スタック処理方法、システム、電子機器、記憶媒体、及びコンピュータプログラム | |
| CN116933865A (zh) | 自然语言训练模型训练方法、装置、计算机设备及介质 | |
| CN115185675A (zh) | 服务器集群的部署方法、系统、计算设备及可读存储介质 | |
| JP2021144674A (ja) | 音声処理チップの処理方法、装置、電子機器、コンピュータ可読記憶媒体及びコンピュータプログラム | |
| CN111340976A (zh) | 调试车辆模块的方法、装置、电子设备以及计算机可读存储介质 | |
| US12174705B2 (en) | Intelligent restart or failover of a container | |
| US11892920B2 (en) | Method, electronic device, and program product for failure handling | |
| KR102868539B1 (ko) | 샘플링 대상 결정 방법, 장치, 전자 설비 및 컴퓨터 판독 가능 저장 매체 | |
| US20230025081A1 (en) | Model training method, failure determining method, electronic device, and program product | |
| CN113641929A (zh) | 页面渲染的方法、装置、电子设备和计算机可读存储介质 | |
| CN116339642B (zh) | 板载raid的创建方法、装置、计算机设备及存储介质 | |
| CN111695199B (zh) | 自动驾驶测试方法、装置、设备及存储介质 | |
| CN119105923A (zh) | 注错测试方法、装置、设备及介质 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210406 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20210408 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20220328 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220419 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220719 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220927 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220930 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 7168833 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |