JPH10214198A - Information processing system - Google Patents
Information processing systemInfo
- Publication number
- JPH10214198A JPH10214198A JP9015034A JP1503497A JPH10214198A JP H10214198 A JPH10214198 A JP H10214198A JP 9015034 A JP9015034 A JP 9015034A JP 1503497 A JP1503497 A JP 1503497A JP H10214198 A JPH10214198 A JP H10214198A
- Authority
- JP
- Japan
- Prior art keywords
- processing
- critical
- frequency
- executions
- execution
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Retry When Errors Occur (AREA)
Abstract
(57)【要約】
【課題】過渡フォールト発生時に処理を再度実行して
も、デッドラインを守れる情報処理システムの提供。
【解決手段】データを格納するメモリと、与えられたデ
ータに基づいて処理を行う処理装置とを有する情報処理
システムでの処理を、予め定められた期間内に処理を終
了し、上記処理の結果を出力しなければならないクリテ
ィカ処理と、期間内に処理の終了を必要としないノンク
リティカル処理とを分け、さらに期間内の前半でクリテ
ィカル処理を実行し、後半でノンクリティカル処理を実
行する。
(57) [Problem] To provide an information processing system capable of protecting a deadline even if a process is executed again when a transient fault occurs. The processing in an information processing system having a memory for storing data and a processing device for performing processing based on given data is completed within a predetermined period, and a result of the processing is provided. Is separated from the non-critical processing that does not require the termination of the processing within the period, the critical processing is executed in the first half of the period, and the non-critical processing is executed in the second half.
Description
【0001】[0001]
【発明の属する技術分野】本発明は高信頼な情報処理シ
ステムに関し、特に障害発生時のシステムの可用性の向
上,リアルタイム性の向上に関するものである。[0001] 1. Field of the Invention [0002] The present invention relates to a highly reliable information processing system, and more particularly to an improvement in system availability and an improvement in real-time performance when a failure occurs.
【0002】[0002]
【従来の技術】コンピュータシステムが社会インフラス
トラクチャの重要な役割を果たすようになってくるよう
になるにつれて、コンピュータシステムの障害が社会ま
たは人命に重大な影響を与えないように特別な配慮が必
要となってきている。このような背景の中で、コンピュ
ータシステムを冗長化して信頼性を高めるフォールトト
レラントコンピュータ技術が広く採用されている。BACKGROUND OF THE INVENTION As computer systems begin to play an important role in social infrastructure, special considerations are needed to ensure that computer system failures do not seriously affect society or human life. It has become to. Against this background, fault-tolerant computer technology has been widely adopted to increase the reliability by making the computer system redundant.
【0003】コンピュータシステムの誤動作を引き起こ
す原因となるフォールトには部品の故障などにより発生
する固定フォールト,電気的雑音や、宇宙線,半導体素
子を構成する材料中の放射線同位元素からのα線などに
より一時的に発生する過渡フォールトなどに分類され
る。電子部品の生産技術の向上により最近では固定フォ
ールトは減少する傾向にあり、相対的に過渡フォールト
の比率が高まる傾向にある。Faults that cause malfunctions of computer systems include fixed faults caused by component failures, electrical noise, cosmic rays, α rays from radiation isotopes in materials constituting semiconductor devices, and the like. It is classified as a transient fault that occurs temporarily. Recently, fixed faults have tended to decrease due to improvements in electronic component production techniques, and the ratio of transient faults has tended to increase relatively.
【0004】過渡フォールトは文字通り過渡的、即ち一
時的に発生するので、一旦フォールトが発生しても異な
る時間に同一の処理を再度実行すれば、多くの場合には
フォールトが発生することなく無事処理を完了させるこ
とができる。このような方法を時間冗長(当麻喜弘編
著:フォールトトレラントシステム論,電子情報通信学
会,p.149)と呼んでいる。Transient faults are literally transient, that is, occur temporarily. Therefore, even if a fault occurs, if the same process is executed again at a different time, the fault can often be safely processed without causing a fault. Can be completed. Such a method is called time redundancy (edited by Yoshihiro Toma: Fault Tolerant System Theory, IEICE, p. 149).
【0005】[0005]
【発明が解決しようとする課題】上記従来技術はハード
ウェアを新たに付加することなく過渡フォールトを検出
あるいはマスクすることができる優れた方法である。し
かし所要の時間(デッドライン)内に処理結果を出力し
なければならないハードリアルタイムシステムへの適用
に際しては、再度実行により余分に時間を要した場合で
もデッドラインを守るように考慮しなければならない。
そこで本発明では過渡フォールト発生時に処理を再度実
行しても、デッドラインを守れるシステムを提供するこ
とを第1の目的とする。The above prior art is an excellent method for detecting or masking a transient fault without adding new hardware. However, when applying to a hard real-time system in which a processing result must be output within a required time (deadline), consideration must be given to protecting the deadline even when extra time is required by re-execution.
Therefore, a first object of the present invention is to provide a system that can protect the deadline even if the process is executed again when a transient fault occurs.
【0006】またさらに、上記従来技術はシステムの安
全な動作のためには再実行により回復可能なフォールト
と回復不可能なフォールトとを区別できるようにさらな
る考慮が必要である。固定フォールトは回復不可能なフ
ォールトであり、過渡フォールトはそれによって再実行
のために必要な情報が失われた場合には回復不可能なフ
ォールトとなり、再実行のために必要な情報が失われな
かった場合には回復可能なフォールトとなる。回復可能
なフォールトと回復不可能なフォールトとを区別する手
段がなければ、回復不可能なフォールトが発生した場合
でも回復可能なフォールト発生時と同じように処理の再
度実行を繰り返すことになる。このことにより第1のフ
ォールト発生による処理の再度実行の繰り返しの間に第
2のフォールトが発生する畏れがある。フォールトトレ
ラントコンピュータの多くは単一フォールトのみに対処
できるように設計されているため、このように2つのフ
ォールトが発生した場合の動作は設計者の意図の外で、
正常な動作は保証されないだけでなく、時には危険な動
作をすることが考えられる。そこで本発明では回復可能
なフォールトと回復不可能なフォールトとを区別できる
システムを提供することを第2の目的とする。Furthermore, the above prior art requires further consideration so that a fault that can be recovered by re-execution can be distinguished from a non-recoverable fault for safe operation of the system. Fixed faults are non-recoverable faults, and transient faults are non-recoverable faults if the information needed for re-run is lost, and the information needed for re-run is not lost If it does, a recoverable fault results. If there is no means for distinguishing between a recoverable fault and an unrecoverable fault, even if an unrecoverable fault occurs, the processing is repeated again in the same manner as when a recoverable fault occurs. As a result, there is a fear that the second fault may occur during the re-execution of the processing due to the first fault. Since many fault-tolerant computers are designed to handle only a single fault, the behavior when two faults occur in this way is outside the intention of the designer.
Not only normal operation is not guaranteed, but also dangerous operation is sometimes considered. Accordingly, a second object of the present invention is to provide a system that can distinguish between recoverable faults and unrecoverable faults.
【0007】[0007]
【課題を解決するための手段】上記目的は、本発明によ
ればデータを格納するメモリと、与えられたデータに基
づいて処理を行う処理装置とを有する情報処理システム
であって、上記処理は、予め定められた期間内に処理を
終了し、上記処理の結果を出力しなければならない第1
の処理と、上記期間内に処理の終了を必要としない第2
の処理からなり、かつ上記期間内に上記第1の処理と上
記第2の処理とを実行できるものであって、上記処理装
置は、上記期間内に上記第2の処理を実行する前に上記
第1の処理を実行することを特徴とすることにより達成
することができる。According to the present invention, there is provided an information processing system having a memory for storing data and a processing device for performing processing based on given data. , The processing must be completed within a predetermined period and the result of the processing must be output.
Processing and the second processing that does not require the termination of the processing within the above period.
And the first processing and the second processing can be performed within the period, and the processing device performs the processing before performing the second processing within the period. This can be achieved by performing the first processing.
【0008】[0008]
【発明の実施の形態】図1は本発明のクリティカル処理
1とノンクリティカル処理2の制御フレーム内における
処理時間と順序を示したものである。ここで、クリティ
カル処理1とは、所定時間内で処理結果を終了させる処
理のことである。具体的には制御系における、制御対象
からデータを取得し、このデータに基づいてアクチュエ
ータに対する制御指令を生成し出力する処理であり、所
定時間内に制御指令をアクチュエータに与えなければ、
制御を行うことができない。また、ノンクリティカル処
理2とは、所定時間内で必ずしも処理を終了させる必要
のない処理である。具体的には、単に上位の計算機にデ
ータを送るような処理である。FIG. 1 shows the processing time and order in a control frame of a critical processing 1 and a non-critical processing 2 of the present invention. Here, the critical process 1 is a process for terminating the processing result within a predetermined time. Specifically, in a control system, data is acquired from a control target, and a process of generating and outputting a control command to the actuator based on the data is performed.If the control command is not given to the actuator within a predetermined time,
Control cannot be performed. The non-critical processing 2 is processing that does not necessarily need to be completed within a predetermined time. Specifically, it is a process of simply sending data to a host computer.
【0009】先ずコンピュータシステムが実行する処理
を、制御フレームの間に処理結果を出力しなければなら
ない処理であるクリティカル処理1とそれ以外の処理で
あるノンクリティカル処理2とに分類する。続いてクリ
ティカル処理1の処理時間が制御フレームの半分未満の
時間で済むようにする。このためにプロセッサの処理性
能が足りない場合には、プロセッサの動作周波数を高め
たり、さらに処理性能の高いプロセッサを用いたり、プ
ロセッサを複数台用意して処理を分散させるなどの方法
をとればよい。次に制御フレームの前半でクリティカル
処理1を実行し、後半でノンクリティカル処理2を実行
する。First, processes executed by the computer system are classified into a critical process 1 which is a process for outputting a process result during a control frame and a non-critical process 2 which is another process. Subsequently, the processing time of the critical processing 1 is set to be less than half of the control frame. For this reason, when the processing performance of the processor is insufficient, a method of increasing the operating frequency of the processor, using a processor with higher processing performance, preparing a plurality of processors, and distributing the processing may be adopted. . Next, critical processing 1 is executed in the first half of the control frame, and non-critical processing 2 is executed in the second half.
【0010】図2は図1でクリティカル処理1の実行中
に障害が発生した場合の動作である。クリティカル処理
1の実行中に障害が発生した場合には、その制御フレー
ム内で再度クリティカル処理を実行し、その結果を出力
する。FIG. 2 shows the operation when a failure occurs during the execution of the critical processing 1 in FIG. If a failure occurs during the execution of the critical process 1, the critical process is executed again in the control frame, and the result is output.
【0011】図3は図1でノンクリティカル処理2の実
行中に障害が発生した場合の動作である。ノンクリティ
カル処理2の実行中に障害が発生した場合には、次の制
御フレームでノンクリティカル処理を再度実行してその
結果を出力する。FIG. 3 shows the operation when a failure occurs during execution of the non-critical processing 2 in FIG. If a failure occurs during the execution of the non-critical processing 2, the non-critical processing is executed again in the next control frame, and the result is output.
【0012】以上述べた方法によればクリティカル処理
1の実行中に障害が発生しても、制御フレームの半分以
上の残り時間を用いてクリティカル処理を再度実行でき
るので、デッドラインまでに処理結果を出力することが
できる。According to the above-described method, even if a failure occurs during the execution of the critical processing 1, the critical processing can be executed again using the remaining time of at least half of the control frame. Can be output.
【0013】図4は本発明が対象とするシステムのハー
ドウェアの構成を示したものである。モジュール11,
12はそれぞれMPU(Microprocessor)110,12
0,出力インタフェース21,22から構成される。モ
ジュール11,12の内部のアドレスバス111,12
1のアドレス、データバス112,122のデータはそ
れぞれアドレス同志、データ同志で比較器15で比較さ
れる。この比較器15によるアドレスバス111,12
1のアドレス、データバス112,122のデータの比
較により、モジュール11,12の動作の不一致、即ち
障害の発生を検出して割込み信号16としてMPU11
0,120に通知する。なお、比較器はアドレスバス1
11,121のアドレス、データバス112,122の
データだけではなく、比較器15′のようにモジュール
11,12の出力信号41,42を比較しても障害の発
生を検出できる。またさらにモジュール11,12が互
いの出力をパス41′,42′を経由してフィードバッ
クして自分自身の出そうとした出力と比較することによ
っても障害の発生を検出できる。尚、この場合はソフト
ウエアで比較する方法と、インタフェース21,22に
比較器を備えて行う方法がある。また、比較器15,1
5′は特開平7−234801 号に記載されているように本発
明者らの発明によれば、比較器自体の障害も検出できる
ためさらに信頼性を高めることが可能である。FIG. 4 shows a hardware configuration of a system to which the present invention is applied. Module 11,
12 are MPUs (Microprocessors) 110 and 12
0, output interfaces 21 and 22. Address buses 111 and 12 inside modules 11 and 12
The address 1 and the data on the data buses 112 and 122 are compared by the comparator 15 between the address and the data. The address buses 111 and 12 by the comparator 15
By comparing the address 1 and the data on the data buses 112 and 122, a mismatch between the operations of the modules 11 and 12, that is, the occurrence of a failure is detected, and the MPU 11
Notify 0,120. The comparator is the address bus 1
The occurrence of a fault can be detected not only by comparing the addresses of the data buses 11 and 121 and the data of the data buses 112 and 122 but also by comparing the output signals 41 and 42 of the modules 11 and 12 like a comparator 15 '. Further, the occurrence of a fault can also be detected by the modules 11 and 12 feeding back each other's output via the paths 41 'and 42' and comparing the outputs with the outputs they are trying to output. In this case, there are a method of comparing by software and a method of providing a comparator in the interfaces 21 and 22. Further, the comparators 15 and 1
As described in Japanese Patent Application Laid-Open No. Hei 7-234801, 5 'can further detect the failure of the comparator itself according to the invention of the present inventors, so that the reliability can be further improved.
【0014】図示していないがモジュール11,12は
それぞれ内部にメモリを有している。Although not shown, each of the modules 11 and 12 has a memory therein.
【0015】以上、本発明が対象とするシステムのハー
ド構成の一例を示したが、この例に限らず種々のハード
構成のシステムに本発明が適用できることは言うまでも
ない。Although an example of the hardware configuration of the system to which the present invention is applied has been described above, it is needless to say that the present invention is not limited to this example but can be applied to systems having various hardware configurations.
【0016】図4に示すハード構成のシステムでは障害
発生時には図5,図6に示すように通常処理70から割
込処理80に一旦移り、状況に応じて次の処理を開始す
る。図7は通常処理70及び割込処理80の処理フロー
の実施例である。通常処理70の中では、システム立ち
上げ後にスタート71して、制御フレームの前半にクリ
ティカル処理1を実行し、続いてノンクリティカル処理
2を実行する。ノンクリティカル処理2完了後には制御
フレーム終了まで時間待ち(処理76)をする。In the system having the hardware configuration shown in FIG. 4, when a failure occurs, the process temporarily shifts from the normal process 70 to the interrupt process 80 as shown in FIGS. 5 and 6, and the next process is started according to the situation. FIG. 7 shows an example of the processing flow of the normal processing 70 and the interrupt processing 80. In the normal processing 70, the processing is started 71 after the system is started, and the critical processing 1 is executed in the first half of the control frame, and then the non-critical processing 2 is executed. After the completion of the non-critical process 2, the process waits until the control frame ends (process 76).
【0017】障害が発生した場合にクリティカル処理1
を実行中かどうかをわかるようにするために、クリティ
カル処理1の前にクリティカル処理中フラグをONし
(処理72)、クリティカル処理1終了後にクリティカ
ル処理中フラグをOFFする(処理73)。なお、クリテ
ィカル処理中フラグのON,OFFの情報は冗長符号な
どの冗長な情報で表わすことによりクリティカル処理中
フラグをON,OFFさせる処理中の障害を検出するこ
とができる。Critical processing 1 when a failure occurs
In order to determine whether or not the process is being executed, the critical process flag is turned on before the critical process 1 (process 72), and the critical process flag is turned off after the critical process 1 is completed (process 73). The ON / OFF information of the critical processing flag is represented by redundant information such as a redundant code, so that a failure during the processing of turning the critical processing flag ON / OFF can be detected.
【0018】一方、割込処理80では障害割込み81の
後にクリティカル処理中フラグがONかどうかをチェッ
クし、クリティカル処理中フラグがONの場合にはクリ
ティカル処理1を再実行し、OFFの場合には制御フレ
ーム終了まで時間待ち(処理76)をする。クリティカ
ル処理1が再実行かどうかを示すために再実行前には再
実行フラグをONする(処理83)。特に、クリティカル
処理中フラグOFFを特定の冗長な情報(符号語)で表
わし、それ以外はクリティカル処理中フラグをONとす
れば、クリティカル処理1の最中だけでなくクリティカ
ル処理中フラグをON,OFFさせる処理の最中に障害
が発生した場合には、クリティカル処理中フラグは特定
の冗長な情報(符号語)以外の情報(非符号語)となる
ので、クリティカル処理中フラグがONと認識されて、
クリティカル処理1が再度実行される。On the other hand, in the interrupt processing 80, after the failure interrupt 81, it is checked whether the critical processing flag is ON. If the critical processing flag is ON, the critical processing 1 is re-executed. The control waits for the end of the control frame (process 76). Before re-execution, the re-execution flag is turned ON to indicate whether or not the critical process 1 is re-executed (process 83). In particular, when the critical processing flag OFF is represented by specific redundant information (code word) and the other critical processing flag is turned ON, the critical processing flag is turned ON and OFF not only during the critical processing 1 If a failure occurs during the process to be performed, the critical processing flag becomes information (non-codeword) other than the specific redundant information (codeword), so that the critical processing flag is recognized as ON. ,
The critical process 1 is executed again.
【0019】通常処理70では再実行フラグがONかど
うか判定し(処理74)、OFFのときのみ、クリティ
カル処理1に続いてノンクリティカル処理2を実行し、
ONのときにはノンクリティカル処理2を実行せずに、
再実行フラグをOFFとする(処理75)だけである。In the normal processing 70, it is determined whether or not the re-execution flag is ON (processing 74). Only when the re-execution flag is OFF, the non-critical processing 2 is executed following the critical processing 1,
When ON, the non-critical processing 2 is not executed,
Only the re-execution flag is turned off (process 75).
【0020】以上述べた方法によれば、クリティカル処
理実行中に障害が発生しても、フレームの半分以上の残
り時間を用いて再度実行できるので、デッドラインまで
に処理結果を出力することができる。According to the above-described method, even if a failure occurs during the execution of the critical processing, the processing can be executed again using the remaining time of at least half of the frame, so that the processing result can be output before the deadline. .
【0021】図8は障害割込み時にクリティカル処理1
を再実行するかどうかの判断(処理84)を付加した実
施例である。判断結果85が処理続行である場合には、
図7に示す実施例と同様にクリティカル処理1を再実行
する。判断結果85が処理停止である場合には、処理を
停止する(処理86)。処理を停止する際にはシステム
の動作の安全性を保証するために、システムの出力は安
全側出力とする。安全側出力はシステムの適用分野に異
なるが、例えば列車制御の分野では列車を停止させる指
令が安全側出力である。FIG. 8 shows a critical process 1 at the time of a fault interrupt.
This is an embodiment in which a determination (process 84) as to whether or not to re-execute is added. If the determination result 85 indicates that processing is to be continued,
The critical process 1 is executed again as in the embodiment shown in FIG. If the determination result 85 indicates that the processing has been stopped, the processing is stopped (step 86). When the processing is stopped, the output of the system is set to a safe side output in order to guarantee the safety of the operation of the system. The safety output differs depending on the application field of the system. For example, in the field of train control, a command to stop the train is the safety output.
【0022】図8による障害発生時のシステムの動作を
図9に示す。障害が発生した後に割込処理80を実行
し、そのあと処理停止86となる。FIG. 9 shows the operation of the system when a failure occurs according to FIG. After the failure occurs, the interrupt processing 80 is executed, and then the processing is stopped 86.
【0023】図10〜図21は判断結果85の生成方法
を示したものである。FIGS. 10 to 21 show a method of generating the judgment result 85. FIG.
【0024】図10では、環境条件観測部900によっ
て観測された環境条件の情報から再実行許容回数/頻度
テーブル91により再実行許容回数/頻度を得る。一方
モジュール11,12は再実行回数を計数する機能92
を有し、再実行回数/頻度を得る。再実行回数/頻度と
再実行許容回数/頻度とを比較し、実行回数/頻度が再
実行回数許容回数/頻度よりも小さい場合には判断結果
85を処理続行とし、大きい場合には処理停止とする。In FIG. 10, the permissible re-execution frequency / frequency is obtained from the permissible re-execution frequency / frequency table 91 from the information on the environmental conditions observed by the environmental condition observing section 900. On the other hand, the modules 11 and 12 have a function 92 for counting the number of re-executions.
And the number of re-executions / frequency is obtained. The number of re-executions / frequency is compared with the number of permitted re-executions / frequency. If the number of executions / frequency is smaller than the allowed number of re-executions / frequency, the determination result 85 is determined to be the processing continuation. I do.
【0025】ここでは、電子機器の障害が環境条件に密
接に関連している点に着目したもので、電子機器の障害
に密接に関連する環境条件としては、雷,電気雑音,宇
宙線などが挙げられる。従って環境条件観測部900
は、これらの環境条件を観測する様々なセンサーが挙げ
られる。Here, attention is paid to the point that the failure of the electronic device is closely related to the environmental conditions. The environmental conditions closely related to the failure of the electronic device include lightning, electric noise, cosmic rays, and the like. No. Therefore, the environmental condition observation unit 900
Includes various sensors that observe these environmental conditions.
【0026】以下、環境条件観測部900の具体例につ
いて説明する。Hereinafter, a specific example of the environmental condition observing section 900 will be described.
【0027】図11は、環境条件観測部900にカレン
ダーと時計機能を有するRTC(Real Time Clock)90
を使用した場合を示したものである。RTC90から得
た月日時刻の情報から再実行許容回数/頻度テーブル9
1により再実行許容回数/頻度を得る。一方モジュール
11,12は再実行回数を計数する機能92を有し、再
実行回数/頻度を得る。再実行回数/頻度と再実行許容
回数/頻度とを比較し、再実行回数/頻度が再実行回数
許容回数/頻度よりも小さい場合には判断結果85を処
理続行とし、大きい場合には処理停止とする。このよう
に、RTC(Real Time Clock)90を用いれば、例えば
月日時刻に大きく依存する雷等による障害を回避するこ
とができ、野外に設置するシステムの障害の回避に利用
できる。FIG. 11 shows an RTC (Real Time Clock) 90 having a calendar and a clock function in the environmental condition observation unit 900.
It shows the case where is used. From the date and time information obtained from the RTC 90, the permissible number of re-executions / frequency table 9
The number of permissible re-executions / frequency is obtained by 1. On the other hand, the modules 11 and 12 have a function 92 for counting the number of re-executions, and obtain the number of re-executions / frequency. The number of re-executions / frequency is compared with the permissible number of re-executions / frequency. If the number of re-executions / frequency is smaller than the permissible number of re-executions / frequency, the determination result 85 is regarded as continuation. And As described above, if the RTC (Real Time Clock) 90 is used, it is possible to avoid, for example, a failure due to lightning that largely depends on the date and time, and it can be used to avoid a failure in a system installed outdoors.
【0028】図12は図11の再実行許容回数/頻度テ
ーブル91を示したものである。ここでは月別、時刻は
6時間ごとに分けて再実行許容頻度を示している。雷発
生の多い7月から8月の午後の許容頻度は3(回/時
間)と他の時期よりも再実行許容頻度は大きく設定して
いる。FIG. 12 shows the allowable re-execution number / frequency table 91 of FIG. Here, the time per month and the time are shown every six hours to indicate the permissible re-execution frequency. The allowable frequency in the afternoon from July to August, when lightning occurs frequently, is 3 (times / hour), and the allowable re-execution frequency is set higher than in other periods.
【0029】図13は環境条件観測部900に、電源回
路94に備えた瞬停/サージ検出回路95を使用した場
合を示したものである。瞬停/サージ検出回路85から
再実行許容回数/頻度テーブル91により再実行許容回
数/頻度を得る。そして図10で説明したのと同様に再
実行回数/頻度と再実行許容回数/頻度とを比較し、実
行回数/頻度が再実行回数許容回数/頻度よりも小さい
場合には判断結果85を処理続行とし、大きい場合には
処理停止とする。FIG. 13 shows a case where an instantaneous interruption / surge detection circuit 95 provided in the power supply circuit 94 is used for the environmental condition observation section 900. The permissible number of re-executions / frequency is obtained from the instantaneous interruption / surge detection circuit 85 from the permissible number of re-executions / frequency table 91. Then, the number of re-executions / frequency is compared with the permissible number of re-executions / frequency as described with reference to FIG. 10, and if the number of executions / frequency is smaller than the permissible number of re-executions / frequency, the determination result 85 is processed. The processing is continued, and if it is larger, the processing is stopped.
【0030】図14は図13の再実行許容回数/頻度テ
ーブル91を示したものである。ここでは、瞬停/サー
ジ検出頻度よりも1(回/時間)多い頻度を再実行回数
許容頻度としている。FIG. 14 shows the permitted number of re-executions / frequency table 91 of FIG. Here, the frequency that is one (times / hour) greater than the instantaneous power failure / surge detection frequency is set as the re-execution frequency allowable frequency.
【0031】図15は、環境条件観測部900が、アン
テナ96,空電受信機97、受信した空電の回数/頻度
を測定する測定器を備えたものを示したものである。こ
の場合も図10と同様に再実行回数/頻度と再実行許容
回数/頻度テーブル91からの再実行許容回数/頻度と
を比較し、実行回数/頻度が再実行回数許容回数/頻度
よりも小さい場合には判断結果85を処理続行とし、大
きい場合には処理停止とする。FIG. 15 shows a configuration in which the environmental condition observation unit 900 includes an antenna 96, a static receiver 97, and a measuring device for measuring the number / frequency of received static. Also in this case, as in FIG. 10, the number of re-executions / frequency is compared with the number of permitted re-executions / frequency from the allowable number of re-executions / frequency table 91, and the number of executions / frequency is smaller than the allowed number of re-executions / frequency. In this case, the processing is continued with the judgment result 85, and when it is larger, the processing is stopped.
【0032】図16は障害発生時にアクセスしていたア
ドレスにより処理続行か処理停止かを決定する例を示し
たものである。ここでは障害発生時にアクセスしていた
アドレスがバックアップ領域であった場合には判断結果
85を処理停止とし、そうでない場合には処理続行とす
る。FIG. 16 shows an example in which whether to continue or stop processing is determined based on the address accessed at the time of occurrence of the failure. Here, if the address accessed at the time of occurrence of the failure is the backup area, the determination result 85 is stopped, and if not, the processing is continued.
【0033】以上説明したように環境条件観測部900
には、環境に応じて様々な態様をとるが、上述のように
1つのものではなく、複数のものを組み合わせてもよ
い。As described above, the environmental condition observation unit 900
Takes various modes depending on the environment, but may be a combination of a plurality of components instead of one as described above.
【0034】障害が発生した場合に、処理再実行に必要
な情報が障害によって失われないようにバックアップを
取る必要がある。処理再実行に必要な情報には例えば過
去の処理結果や、システムの動作モードなどの情報があ
る。これらの情報のバックアップの方法には例えば図1
7,図18に示す方法と、図19,図20に示す方法な
どがある。When a failure occurs, it is necessary to make a backup so that information necessary for re-executing the process is not lost due to the failure. Information necessary for re-execution of the process includes, for example, information on a past process result and an operation mode of the system. For example, FIG.
7, the method shown in FIG. 18, and the method shown in FIGS.
【0035】図17,図18に示す方法は、正常動作時
には図17に示すようにクリティカル処理1終了後に処
理再実行に必要な情報をメモリの通常領域94からバッ
クアップ領域95にコピー即ちバックアップする。障害
発生時には図18に示すようにバックアップ領域95に
ある情報を通常領域94にコピーすることにより回復し
て再実行する。In the method shown in FIGS. 17 and 18, during the normal operation, information necessary for re-executing the processing after the completion of the critical processing 1 is copied from the normal area 94 of the memory to the backup area 95 as shown in FIG. When a failure occurs, the information in the backup area 95 is copied to the normal area 94 as shown in FIG.
【0036】図19,図20に示す方法は、正常動作時
には図19に示すように2つの領域を交互に通常領域9
4,バックアップ領域95として用い、制御フレームi
では通常領域94として使用していた領域を制御フレー
ムi+1ではバックアップ領域95として用いる。従っ
て制御フレームiで書き込まれた領域に制御フレームi
+1では書き込みを行わないため、障害により制御フレ
ームi+1で誤った情報をメモリに書き込んでも制御フ
レームiで書き込まれた情報は破壊されない。従って障
害発生時には図20に示すように領域95にある情報を
用いて再実行することができる。The method shown in FIGS. 19 and 20 alternates the two regions in the normal region 9 during normal operation as shown in FIG.
4, used as the backup area 95, and
Then, the area used as the normal area 94 is used as the backup area 95 in the control frame i + 1. Therefore, the control frame i is stored in the area written in the control frame i.
Since writing is not performed at +1, even if erroneous information is written to the memory at the control frame i + 1 due to a failure, the information written at the control frame i is not destroyed. Therefore, when a failure occurs, re-execution can be performed using information in the area 95 as shown in FIG.
【0037】以上述べたようにバックアップ領域には再
実行に必要な情報が格納されているため、この領域への
アクセス中に障害検出されたということは、再実行に必
要な情報が破壊された可能性が高いということになる。
従ってこのような場合には再実行せずに処理を停止す
る。As described above, since information necessary for re-execution is stored in the backup area, the fact that a failure is detected during access to this area means that the information necessary for re-execution has been destroyed. It is likely.
Therefore, in such a case, the processing is stopped without re-execution.
【0038】図21は図16の実現に必要な障害発生時
にアクセスしていたアドレスを得るための構成である。
比較器15からの割込信号16によりアドレス記憶装置
151,152がモジュール11,12内のアドレスバス1
11,121の内容を記憶する。続いて割込処理80で
このアドレス記憶装置151,152の内容をみて、障
害が発生したのはバックアップ領域アクセス中であった
かどうかを判断できる。FIG. 21 shows a configuration for obtaining an address accessed at the time of occurrence of a failure necessary for realizing FIG.
Address storage device according to interrupt signal 16 from comparator 15
151 and 152 are the address bus 1 in the modules 11 and 12
11 and 121 are stored. Subsequently, by looking at the contents of the address storage devices 151 and 152 in the interrupt processing 80, it can be determined whether or not a failure has occurred during access to the backup area.
【0039】以上述べたように図8〜図21に示す実施
例によれば様々な情報により再実行回数許容回数/頻度
を木目細かく決定することにより、再実行により回復可
能なフォールトと回復不可能なフォールトとをより厳密
に区別できる。従って回復不可能なフォールト発生時に
は速やかにシステムの動作を安全側に停止して、フォー
ルトによるシステムの危険な動作を防止できる。As described above, according to the embodiment shown in FIG. 8 to FIG. 21, the allowable number of re-execution times / frequency is determined finely based on various information, so that a fault that can be recovered by re-execution and an unrecoverable fault can be recovered. Faults can be more strictly distinguished. Therefore, when an unrecoverable fault occurs, the operation of the system is immediately stopped on the safe side, and dangerous operation of the system due to the fault can be prevented.
【0040】[0040]
【発明の効果】本発明によれば障害が発生してもデッド
ラインまでに処理結果を出力するシステムを提供するこ
とができる。さらに、フォールトによるシステムの危険
な動作を防止できる。According to the present invention, it is possible to provide a system for outputting a processing result by a deadline even if a failure occurs. Further, dangerous operation of the system due to a fault can be prevented.
【図1】本発明の基本的な動作。FIG. 1 shows the basic operation of the present invention.
【図2】クリティカル処理中の障害発生時の動作。FIG. 2 shows an operation when a failure occurs during critical processing.
【図3】ノンクリティカル処理中の障害発生時の動作。FIG. 3 shows an operation when a failure occurs during non-critical processing.
【図4】本発明が対象とするシステムのハード構成。FIG. 4 is a hardware configuration of a system to which the present invention is applied.
【図5】図4の構成でのクリティカル処理中の障害発生
時の動作。FIG. 5 is an operation when a failure occurs during critical processing in the configuration of FIG. 4;
【図6】図4の構成でのノンクリティカル処理中の障害
発生時の動作。FIG. 6 is an operation when a failure occurs during non-critical processing in the configuration of FIG. 4;
【図7】本発明の処理フロー。FIG. 7 is a processing flow of the present invention.
【図8】処理停止の判断を付加した処理フローの実施
例。FIG. 8 is an embodiment of a processing flow to which a determination of a processing stop is added.
【図9】図8のフローの動作。FIG. 9 shows the operation of the flow in FIG.
【図10】環境条件観測による処理停止の判断を説明す
るための図。FIG. 10 is a diagram for explaining determination of processing stop based on environmental condition observation.
【図11】月日時刻による処理停止の判断の具体例。FIG. 11 is a specific example of a process stop determination based on a date and time.
【図12】図10の実施例のための再実行許容頻度テー
ブルの具体例。FIG. 12 is a specific example of a re-execution permissible frequency table for the embodiment in FIG. 10;
【図13】瞬停/サージ検出回数/頻度による処理停止
の判断の具体例。FIG. 13 is a specific example of determination of processing stop based on instantaneous power failure / surge detection frequency / frequency.
【図14】図12の実施例のための再実行許容頻度テー
ブルの具体例。FIG. 14 is a specific example of a re-execution allowable frequency table for the embodiment of FIG. 12;
【図15】空電受信回数/頻度による処理停止の判断の
具体例。FIG. 15 is a specific example of a determination to stop processing based on the number / frequency of receiving static electricity.
【図16】障害発生アドレスによる処理停止の判断の具
体例。FIG. 16 is a specific example of a process stop determination based on a failure occurrence address.
【図17】バックアップの方法1。FIG. 17 shows backup method 1.
【図18】バックアップの方法1(障害発生時)。FIG. 18 shows a backup method 1 (when a failure occurs).
【図19】バックアップの方法2。FIG. 19 shows backup method 2.
【図20】バックアップの方法2(障害発生時)。FIG. 20 shows backup method 2 (when a failure occurs).
【図21】図14の実施例のための障害アドレス検出機
能の構成。FIG. 21 shows a configuration of a failure address detection function for the embodiment of FIG. 14;
1…クリティカル処理、2…ノンクリティカル処理、1
1,12…モジュール、15,15′…比較器、16…
割込信号、70…通常処理、80…割込処理。1: critical processing, 2: non-critical processing, 1
1,12 ... module, 15,15 '... comparator, 16 ...
Interrupt signal, 70: normal processing, 80: interrupt processing.
───────────────────────────────────────────────────── フロントページの続き (72)発明者 宮崎 直人 茨城県日立市大みか町七丁目1番1号 株 式会社日立製作所日立研究所内 ──────────────────────────────────────────────────続 き Continuing on the front page (72) Inventor Naoto Miyazaki 7-1-1, Omika-cho, Hitachi City, Ibaraki Prefecture Within Hitachi Research Laboratory, Hitachi, Ltd.
Claims (5)
記処理の結果を出力しなければならない第1の処理と、
上記期間内に処理の終了を必要としない第2の処理から
なり、かつ上記期間内に上記第1の処理と上記第2の処
理とを実行できるものであって、 上記処理装置は、上記期間内に上記第2の処理を実行す
る前に上記第1の処理を実行することを特徴とする情報
処理システム。An information processing system comprising: a memory for storing data; and a processing device for performing processing based on given data, wherein the processing is completed within a predetermined period. A first process for outputting the result of the above process,
A second process that does not require the end of the process within the period, and that can execute the first process and the second process within the period; An information processing system, wherein the first processing is executed before the second processing is executed.
て、 上記処理装置は、上記第1の処理実行中に障害が発生し
た場合には、再度上記第1の処理を実行することを特徴
とする情報処理システム。2. The information processing system according to claim 1, wherein the processing device executes the first process again when a failure occurs during the execution of the first process. Information processing system.
た場合には、少なくとも次の上記期間内で上記第2の処
理を再度実行してその結果を出力することを特徴とする
情報処理システム。3. The high-reliability system according to claim 1, wherein said processing device, when a failure occurs during execution of said second processing, at least within said next period. And outputting the result again.
て、 上記処理装置は、上記処理の再実行回数/頻度と予め定
められた再実行回数許容回数/頻度とを比較し、上記比
較結果に基づいて上記第1の処理または上記第2の処理
を再度実行する処理か、上記第1の処理または上記第2
の処理を停止することを特徴とする情報処理システム。4. The information processing system according to claim 1, wherein the processing device compares the number of re-executions / frequency of the processing with a predetermined allowable number of re-executions / frequency. Processing to execute the first processing or the second processing again based on the first processing or the second processing.
An information processing system characterized by stopping the processing of (1).
て、 上記処理装置は、上記メモリのバックアップ領域のアド
レスへアクセス中に障害が発生した場合には処理を停止
することを特徴とする情報処理システム。5. The information processing system according to claim 1, wherein said processing device stops processing when a failure occurs while accessing an address of a backup area of said memory. Processing system.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP9015034A JPH10214198A (en) | 1997-01-29 | 1997-01-29 | Information processing system |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP9015034A JPH10214198A (en) | 1997-01-29 | 1997-01-29 | Information processing system |
Publications (1)
Publication Number | Publication Date |
---|---|
JPH10214198A true JPH10214198A (en) | 1998-08-11 |
Family
ID=11877560
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP9015034A Pending JPH10214198A (en) | 1997-01-29 | 1997-01-29 | Information processing system |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPH10214198A (en) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7191359B2 (en) | 2003-10-10 | 2007-03-13 | Hitachi, Ltd. | Fail-safe controller |
WO2007142070A1 (en) * | 2006-06-07 | 2007-12-13 | Sharp Kabushiki Kaisha | Recording device |
JP2009181497A (en) * | 2008-01-31 | 2009-08-13 | Nomura Research Institute Ltd | Job processing system and job processing method |
US7788533B2 (en) | 2004-10-25 | 2010-08-31 | Robert Bosch Gmbh | Restarting an errored object of a first class |
-
1997
- 1997-01-29 JP JP9015034A patent/JPH10214198A/en active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7191359B2 (en) | 2003-10-10 | 2007-03-13 | Hitachi, Ltd. | Fail-safe controller |
US7788533B2 (en) | 2004-10-25 | 2010-08-31 | Robert Bosch Gmbh | Restarting an errored object of a first class |
WO2007142070A1 (en) * | 2006-06-07 | 2007-12-13 | Sharp Kabushiki Kaisha | Recording device |
JP2007328125A (en) * | 2006-06-07 | 2007-12-20 | Sharp Corp | Sound recording apparatus |
JP2009181497A (en) * | 2008-01-31 | 2009-08-13 | Nomura Research Institute Ltd | Job processing system and job processing method |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109872150B (en) | Data processing system with clock synchronization operation | |
US6938183B2 (en) | Fault tolerant processing architecture | |
EP0363863B1 (en) | Method and apparatus for fault recovery in a digital computing system | |
US6622260B1 (en) | System abstraction layer, processor abstraction layer, and operating system error handling | |
EP3770765B1 (en) | Error recovery method and apparatus | |
US7085959B2 (en) | Method and apparatus for recovery from loss of lock step | |
KR100304319B1 (en) | Apparatus and method for implementing time-lag duplexing techniques | |
US20110043323A1 (en) | Fault monitoring circuit, semiconductor integrated circuit, and faulty part locating method | |
JPH07134678A (en) | Ram protective device | |
CN103309760A (en) | Method and system for fault containment | |
US11861181B1 (en) | Triple modular redundancy (TMR) radiation hardened memory system | |
US7107398B2 (en) | Changing a mode of a storage subsystem in a system | |
JPH05225067A (en) | Important-memory-information protecting device | |
US20090259899A1 (en) | Method and apparatus for automatic scan completion in the event of a system checkstop | |
JPH10214198A (en) | Information processing system | |
US7290128B2 (en) | Fault resilient boot method for multi-rail processors in a computer system by disabling processor with the failed voltage regulator to control rebooting of the processors | |
WO2008004330A1 (en) | Multiple processor system | |
US6973594B2 (en) | Method and apparatus for disabling a computer system bus upon detection of a power fault | |
US7353433B2 (en) | Poisoned error signaling for proactive OS recovery | |
Schneider et al. | Basic single-microcontroller monitoring concept for safety critical systems | |
El Salloum et al. | Recovery mechanisms for dual core architectures | |
JP2008146188A (en) | Integrated circuit | |
AU669410B2 (en) | Error recovery mechanism for software visible registers in computer systems | |
JP3340284B2 (en) | Redundant system | |
Goode | Design considerations for a single-chip fault tolerant VLSI microprocessor |