WO2025062549A1 - Interval calculation device and interval calculation method - Google Patents
Interval calculation device and interval calculation method Download PDFInfo
- Publication number
- WO2025062549A1 WO2025062549A1 PCT/JP2023/034191 JP2023034191W WO2025062549A1 WO 2025062549 A1 WO2025062549 A1 WO 2025062549A1 JP 2023034191 W JP2023034191 W JP 2023034191W WO 2025062549 A1 WO2025062549 A1 WO 2025062549A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- interval
- standby
- survival
- interval calculation
- standby device
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L43/00—Arrangements for monitoring or testing data switching networks
- H04L43/10—Active monitoring, e.g. heartbeat, ping or trace-route
Definitions
- the present invention relates to a distance calculation device and a distance calculation method.
- Non-Patent Document 1 a Non-Patent Document 1
- a network system that supports system redundancy comprises an acting device that operates normally, and a standby device that takes over processing in the event of a failure of the acting device.
- Technology for detecting failures is implemented in the acting device, and when a system failure is detected, the network service is continued using the standby device. For this reason, settings for taking over the processing of the acting device are preregistered in the standby device.
- Non-Patent Documents 2 and 3 are known as heartbeats, hellos, and keep-alives.
- the system monitoring function creates liveness confirmation messages and sends them to the standby device.
- the standby device is considered to be alive and will take over processing in the event of a failure of the active device.
- the transmission interval of the keep-alive message must be set to an appropriate interval, neither too wide nor too narrow.
- the keep-alive message transmission interval is evaluated based on the following two indices.
- Index 1 The "accuracy" of the standby device's survival confirmation improves as the number of survival confirmation messages sent increases. In other words, by increasing the number of messages and increasing the frequency of survival confirmation, the status of the standby device can be known sooner. This makes it possible to quickly perform recovery work when an error occurs in the standby device, and to quickly select and switch to a standby device other than the one being monitored.
- Indicator 2 The "load” on the system monitoring function is reduced as the number of alive-confirmation messages sent is reduced.
- the system monitoring function uses a processor to process alive-confirmation messages and response messages, it is important not to make the processor load too high. Because the processor load is proportional to the increase in the number of messages, an overloaded state will cause delays in message transmission and response processing, as well as errors. In order to achieve a good balance between these two indicators, it is necessary to reduce the number of transmissions of liveness confirmation messages within a range that ensures the accuracy of liveness confirmation.
- FIG. 10 is an explanatory diagram showing the transmission intervals of the keep-alive messages.
- Statuses 210, 220, and 230 respectively show time series lines (time progresses toward the right in the figure) of an acting device (illustrated as "Act") and a standby device (illustrated as "Sby"). Events occurring on each time series line are illustrated as follows: - Successful response to a survival confirmation message (successful response 216, etc., white triangle mark) -Failed response to a survival confirmation message (black triangle mark such as response failure 218).
- the time indicated by the black triangle mark is the time when an equipment failure was detected due to a failure to respond to a survival confirmation message, and also the time when the equipment failure was instantly restored (at the same time as it was detected) by system switching or the like.
- a situation 210 shows an excessive number of survival confirmation messages.
- a failure 211 in an acting device is detected by a response failure 212, and at the time of detection a switchover signal to a standby device is transmitted (indicated by a dashed vertical line in the figure).
- the standby device due to the high frequency of survival checks, the occurrence of a failure 217 is immediately detected by a response failure 218.
- the failure recovery in the standby device is completed immediately, and the system switching is successful when a switching signal is subsequently received.
- a high load state continues even during normal times. In other words, although the situation 210 satisfies the "accuracy" of (index 1), the "load” of (index 2) is rated low (high load).
- a situation 220 shows a situation where there are too few survival confirmation messages.
- An occurrence of a failure 221 in the acting device is detected by a response failure 222, and at the time of detection a switchover signal to the standby device is transmitted (indicated by a dashed vertical line in the figure).
- a switchover signal to the standby device is transmitted (indicated by a dashed vertical line in the figure).
- in the standby device due to infrequent survival checks (such as success response 226), there is an interval (detection delay) between failure occurrence 227 and response failure 228.
- the switching signal arrives before the failure is restored in the standby device, causing system switching to fail.
- the load on the standby device remains low during normal operation. In other words, although the situation 220 does not satisfy the "accuracy" of (index 1), the "load” of (index 2) is rated high (low load).
- a state 230 shows a state in which the number of survival confirmation messages is appropriate.
- a failure 231 in the acting device is detected by a response failure 232, and at the time of detection a switchover signal to the standby device is transmitted (indicated by a dashed vertical line in the drawing).
- a failure occurrence 237 is detected by a response failure 238 due to a medium frequency survival check 236.
- the system switching is successful by receiving a switching signal after the standby device has completed failure recovery.
- the load on the standby device is not high even during normal operation due to the medium frequency survival check.
- the situation 230 satisfies the "accuracy" of (index 1), while the "load” of (index 2) is also rated as good (medium load).
- Non-Patent Documents 2 and 3 transmit liveness confirmation packets at a fixed transmission interval specified by the system operator without considering the durability of the system or the load on the system monitoring function. As a result, excessive liveness confirmation messages, as in situation 210, and insufficient liveness confirmation messages, as in situation 220, are transmitted.
- the main objective of the present invention is to calculate a transmission interval that ensures the accuracy of the survival confirmation message while reducing the message transmission load.
- the interval calculation device of the present invention has the following features.
- the present invention provides an interval calculation device used in a redundancy system that performs a switching process from an acting device to a standby device when an acting device fails, comprising: the interval calculation device has an interval calculation unit that calculates a transmission interval, which is an interval at which a survival confirmation message is transmitted to the standby device; The interval calculation unit, The transmission interval is calculated using as input data a switching success rate, which is a required value for the probability that the switching process from the acting device to the standby device will be successful because the standby device is in a survival state, and the mean time between failures of the standby device.
- FIG. 1 is a configuration diagram of a monitoring system according to an embodiment of the present invention.
- FIG. 2 is an explanatory diagram of system switching executed by the monitoring system according to the present embodiment.
- 4 is a table showing an example of an interval database according to the present embodiment.
- FIG. 2 is a hardware configuration diagram of each device constituting the monitoring system according to the embodiment.
- 10 is a flowchart showing a monitoring process according to a request from one business operator according to the present embodiment.
- 11 is a graph for explaining a process for calculating a transmission interval of a keep-alive message according to the present embodiment; 1 is a time series graph of the fault detection probability according to the present embodiment.
- 10 is a flowchart showing a monitoring process according to requests from a plurality of businesses according to the present embodiment.
- 13 is a flowchart showing a monitoring process when a cancellation occurs at some of the multiple businesses according to the present embodiment.
- FIG. 11 is an explanatory diagram showing a transmission interval of a keep-a
- FIG. 1 is a diagram showing the configuration of a monitoring system 100.
- the monitoring system 100 is configured by connecting a business operator terminal 10, an interval calculation device 20, a monitoring device 30, an acting device 40, and a standby device 50 via a network.
- the combination of the acting device 40 and the standby device 50 is an example of a redundant system.
- the acting device 40 is normal, the acting device 40 is in charge of various processes.
- the acting device 40 fails, a switching process is executed so that the standby device 50 takes over the various processes that were in charge of the acting device 40.
- the redundant system monitored by the monitoring system 100 is applied to a network system in which the acting device 40 and the standby device 50 are connected via a network.
- the redundant system of the embodiment can be applied to a wider range of systems such as servers and computing systems.
- the monitoring device 30 detects a failure of the acting device 40 and also confirms the survival of the standby device 50 by sending a survival confirmation message.
- the interval calculation device 20 is used in a redundant system that performs switching processing from the acting device 40 to the standby device 50 in the event of a failure of the acting device 40.
- the interval calculation device 20 includes an interval calculation unit 21 that calculates a transmission interval Isb, which is the interval at which the monitoring device 30 transmits a survival confirmation message to the standby device 50 .
- the operator terminal 10 notifies the interval calculation device 20 of a request from the operator, which is a parameter used to calculate the transmission interval Isb.
- the monitoring device 30 manages the transmission interval Isb notified from the interval calculation device 20 in an interval database 31, and transmits a survival confirmation message to the standby device 50 from a transmission unit 32 in accordance with the transmission interval Isb.
- the interval calculation device 20 and the monitoring device 30 may be configured as separate devices, or may be configured as separate functional modules within the same device.
- the switching success rate Preq is the survival probability of the standby device 50 at the time of switching processing from the acting device 40 to the standby device 50.
- FIG. 2 is an explanatory diagram of system switching executed by the monitoring system 100.
- a state 101 shows a state before switching from the acting device 40 to the standby device 50.
- the monitoring device 30 monitors the acting device 40 by any method such as transmitting a survival confirmation message to the acting device 40 (S101).
- the monitoring device 30 transmits a survival confirmation message to the standby device 50 at a transmission interval Isb (S102).
- a status 102 shows a status at the time of switching from an acting device 40 to a standby device 50.
- the monitoring device 30 detects that a failure has occurred in the acting device 40 being monitored (S111). Then, the monitoring device 30 instructs the standby device 50 to take over processing from the failed acting device 40 (S112).
- FIG. 3 is a table showing an example of the interval database 31. As shown in FIG. Here, a table that can accommodate not only the case where one business entity uses one standby device 50, but also the case where a plurality of business entities share one standby device 50 will be described.
- the interval database 31 associates, for each operator ID assigned to each operator (for each operator terminal 10), the operator-specific transmission interval Isb required by that operator with the transmission interval (set interval) when transmitting a survival confirmation message to one standby device 50 by integrating the operator-specific transmission interval Isb. Note that the operator ID for each operator in the interval database 31 may be replaced with an ID for each virtual network or an ID for each service.
- the transmission interval Isb 5 [msec] for the operator (SP2) is deleted from the interval database 31B for the operator-specific transmission interval Isb.
- FIG. 4 is a diagram showing the hardware configuration of each device constituting the monitoring system 100.
- Each device of the monitoring system 100 (operator terminal 10, interval calculation device 20, monitoring device 30, acting device 40, standby device 50) is configured as a computer 900 having a CPU 901, RAM 902, ROM 903, HDD 904, communication I/F 905, input/output I/F 906, and media I/F 907.
- the communication I/F 905 is connected to an external communication device 915.
- the input/output I/F 906 is connected to an input/output device 916.
- the media I/F 907 reads and writes data from a recording medium 917.
- the CPU 901 controls each unit by executing a program (interval calculation program) loaded into the RAM 902.
- This program also called an application, or an app for short
- FIG. 5 is a flow chart showing a monitoring process according to a request from one business operator.
- the interval calculation device 20 receives the switching success rate Preq and the mean time between failures Derr of the standby device 50 specified by the operator terminal 10 as input data (S11).
- the switching success rate Preq is the probability that switching to the standby device 50 will be successful when the acting device 40 fails, and is specified as a value such as "99.999%.”
- the mean time between failures Derr is the mean time between failures of the standby device 50, and for example, a value such as "once a week" is specified by a network administrator, etc.
- the interval calculation unit 20 calculates the transmission interval Isb from the input data in S11, and sets the calculation result in the monitoring device 30 (S12). In other words, the interval calculation unit 21 calculates the transmission interval Isb using the switching success rate Preq, which is the required value for the probability that the switching process from the acting device 40 to the standby device 50 will be successful because the standby device 50 is in a survival state, and the mean time between failures Derr of the standby device 50 as input data.
- the switching success rate Preq is the required value for the probability that the switching process from the acting device 40 to the standby device 50 will be successful because the standby device 50 is in a survival state, and the mean time between failures Derr of the standby device 50 as input data.
- the monitoring system 100 executes monitoring processing and system switching processing.
- the monitoring device 30 transmits a survival confirmation message to the standby device 50 at the set transmission interval Isb (S13).
- the monitoring device 30 switches to the standby device 50 upon detecting a failure in the acting device 40 (S14).
- the monitoring device 30 responds to the detection of a failure in the standby device 50 detected from the survival confirmation message (S15).
- FIG. 6 is a graph for explaining the process (S12) for calculating the transmission interval Isb of the keep-alive message.
- the various symbols in this graph can be read in the same way as explained in FIG.
- a failure occurrence 301 in an acting device is detected by a response failure 302, and a switchover signal is transmitted to the standby device 50 at the detection time ta (act detection time).
- a failure 312 occurs in the standby device 50 at occurrence time ts2 (standby occurrence time) that is a period t (survival period) that is a failure occurrence interval from detection time ts1 (standby detection time) of a success response 311 in the latest survival confirmation message before the detection time ta.
- the survival probability Pok standby survival probability of the standby device 50 at the detection time ta is the probability that period t is greater than period T.
- the occurrence of a failure 301 in the acting device 40 is independent of the detection time ta (the detection time ta and the detection time ts1 are uncorrelated), and is memoryless, so it follows a Poisson process (a discretized Markov process).
- the period T follows a uniform distribution, and the probability of the period T is (1 ⁇ transmission interval Isb).
- the occurrence of the failure 312 of the standby device 50 is independent of the subsequent detection time (not shown in FIG. 6) and is memoryless, so it is assumed to follow a Poisson process.
- the period t is assumed to follow an exponential distribution and can be calculated from the Poisson process.
- the interval calculation unit 21 calculates the transmission interval Isb based on the following (Equation 1).
- Transmission interval Isb ⁇ 2 ⁇ (1 – switching success rate Preq) ⁇ mean time between failures Derr ... (Equation 1)
- the transmission interval Isb is calculated to be approximately 12 seconds.
- (60 x 24 x 7) represents one week (converted into minutes).
- Transmission interval Isb ⁇ 2 x (1-0.99999) x (60 x 24 x 7) 0.2016 (minutes) ⁇ 12 seconds
- the survival probability Pok can be calculated from the period T and the mean time between failures Derr.
- the probability that the period t is a predetermined value can also be calculated from the mean time between failures Derr. If the period t is greater than the period T, the standby device 50 is alive at the detection time ta, and the switchover is successful. Therefore, the switching success rate Preq for which period t>period T may be calculated from the probability model. Note that the maximum value of period T is the transmission interval Isb.
- the period t is approximated by an exponential distribution.
- the survival probability Pok at the detection time ta can be calculated as the conditional probability shown in (Formula 3).
- the survival probability Pok can be calculated as the conditional probability shown in (Formula 4). In this way, since the constant g is a random variable, the possible values of the constant g and their probabilities are taken into consideration.
- the interval calculation unit 21 calculates the transmission interval Isb from the input data in the following procedure. (Step 1) Based on the average number of failures ⁇ , which is the inverse of the mean time between failures Derr, the period t is calculated from the detection time ts1 at which the standby device 50 detected the latest survival confirmation message prior to the detection time ta of the failure of the acting device 40, to the occurrence time ts2 of the failure of the standby device 50.
- Step 2 The probability that the obtained period t will be longer than the period T from detection time ts1 to detection time ta is set as the survival probability Pok of the standby device 50 at the detection time ta, and the transmission interval Isb is calculated so that the survival probability Pok is equal to or greater than the switching success rate Preq.
- FIG. 7 is a time series graph of the fault detection probability.
- a graph 410 illustrates that the shape of the graph curve calculated from the mean time to failure Derr changes depending on the difference in the mean time to failure Derr.
- the interval calculation unit 21 calculates each of the curves 411 and 412 from the input mean time to failure Derr according to the Poisson process (or Markov process).
- the curve 412 has a steeper rise than the curve 411. This is because the curve 412 has a shorter mean time between failures Derr (more failures) than the curve 411.
- the interval calculation unit 21 specifies the transmission interval Isb such that the calculation results match the range 422 of the fault detection probability and the range 423 of the survival probability Pok in the graph 420. This allows the interval calculation unit 21 to calculate the transmission interval Isb instead of (Equation 1).
- FIG. 8 is a flow chart showing a monitoring process according to requests from a plurality of businesses.
- the latter half of FIG. 8 (S13 to S15) is the monitoring process and system switching process by the monitoring system 100 as described in FIG. 5, and therefore a description thereof will be omitted here.
- the interval calculation device 20 receives as input data the switching success rate Preq specified by the multiple operator terminals 10 and the mean time between failures of the standby device 50 (S11B). That is, in S11 of Fig. 5, one switching success rate Preq was input from one operator, but in S11B, multiple switching success rates Preq are input.
- the interval calculation device 20 calculates the transmission interval Isb for each operator from the input data using (Equation 1) as described in the interval database 31B of Fig. 3, and sets the minimum value of the calculation result (the strictest transmission interval) in the monitoring device 30 (S12B).
- the interval calculation unit 21 accepts individual switching success rates Preq as input data from multiple operator terminals, and sets the minimum value of the transmission intervals Isb calculated individually corresponding to the individual switching success rates Preq as the interval for transmitting a survival confirmation message to the standby device 50.
- FIG. 9 is a flowchart showing the monitoring process when a cancellation occurs at some of the multiple businesses.
- the latter half of FIG. 9 (S13 to S15) is the monitoring process and system switching process by the monitoring system 100 as described in FIG. 5, and therefore a description thereof will be omitted here.
- the interval calculation device 20 receives a monitoring cancellation request from a predetermined business operator (SP2) from the business operator terminal 10 to cancel the use of the standby device 50 (S11C).
- SP2 predetermined business operator
- the reason for the cancellation is, for example, a switch to a lower-cost standby device 50 with the same performance, or insufficient performance of the current standby device 50 due to a switch to a more highly functional acting device 40.
- the interval calculation device 20 sets the minimum value obtained by subtracting the transmission interval Isb of a specific operator terminal 10 from the calculated transmission interval Isb for each operator in the monitoring device 30 (S12C).
- the present invention provides an interval calculation device 20 used in a redundant system that performs switching processing from an acting device 40 to a standby device 50 in response to a failure of the acting device 40,
- the interval calculation device 20 has an interval calculation unit 21 that calculates a transmission interval Isb, which is an interval for transmitting a survival confirmation message to the standby device 50,
- the interval calculation unit 21 A feature of this method is that the transmission interval Isb is calculated using as input data a switching success rate Preq, which is a required value for the probability that the switching process from the acting device 40 to the standby device 50 will be successful because the standby device 50 is in a survival state, and the mean interval between failures Derr of the standby device 50.
- the interval calculation unit 21 calculates the transmission interval Isb from input data as follows: Based on the average number of failures ⁇ , which is the reciprocal of the mean failure interval Derr, a period t is calculated from a detection time ts1 at which the standby device 50 detects the latest survival confirmation message before the detection time ta of the failure of the acting device 40 to a time ts2 at which the failure of the standby device 50 occurs; The probability that the obtained period t will be longer than the period T from the detection time ts1 to the detection time ta is set as the survival probability Pok of the standby device 50 at the detection time ta, and the transmission interval Isb is calculated so that the survival probability Pok is equal to or greater than the switching success rate Preq.
- an interval calculation unit 21 receives individual switching success rates Preq from a plurality of carrier terminals as input data, The minimum value of the transmission intervals Isb calculated individually corresponding to the individual switching success rates Preq is set as the interval for transmitting a survival confirmation message to the standby device 50.
- REFERENCE SIGNS LIST 10 business operator terminal 20: interval calculation device 21: interval calculation unit 30: monitoring device 31: interval database 32: transmission unit 40: acting device 50: standby device 100: monitoring system
Landscapes
- Health & Medical Sciences (AREA)
- Cardiology (AREA)
- General Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Hardware Redundancy (AREA)
Abstract
Description
本発明は、間隔計算装置、および、間隔計算方法に関する。 The present invention relates to a distance calculation device and a distance calculation method.
ネットワークを利用したサービスが増加するにつれ、ネットワークシステムに対する信頼性向上に対する要望は、年々高まっている。ただし、システムは様々な装置で構成されており、装置故障を完全に回避することは困難である。このため、システムの信頼性を向上させて装置故障の発生時もサービスを継続して提供するため、システムを冗長化する手法が広く採用されている(非特許文献1など)。 As the number of services that use networks increases, the demand for improved reliability of network systems is growing year by year. However, systems are made up of a variety of devices, and it is difficult to completely avoid equipment failures. For this reason, methods of making systems redundant are widely adopted to improve system reliability and continue to provide services even when equipment failures occur (e.g., Non-Patent Document 1).
システムの冗長化に対応したネットワークシステムは、通常稼働するアクト装置と、アクト装置の故障時に処理を引き継ぐスタンバイ装置とを備える。アクト装置に対し故障検知を行うための技術を実装し、システムの故障を検知するとスタンバイ装置を用いてネットワークサービスを継続する。このため、スタンバイ装置には、アクト装置の処理を代行するための設定が事前に登録されている。 A network system that supports system redundancy comprises an acting device that operates normally, and a standby device that takes over processing in the event of a failure of the acting device. Technology for detecting failures is implemented in the acting device, and when a system failure is detected, the network service is continued using the standby device. For this reason, settings for taking over the processing of the acting device are preregistered in the standby device.
ここで、サービス断要因として、スタンバイ装置に処理を切り替えたときにスタンバイ装置も故障している状況が発生しうる。そこで、定期的に生存確認を行う技術(非特許文献2,3など)を、スタンバイ装置に対して動作させることが有効である。
定期的に送信される生存確認メッセージは、ハートビート、ハロー、ならびにキープアライブという名で知られる。システム監視機能は生存確認メッセージを作成し、スタンバイ装置に対し生存確認メッセージを送信する。スタンバイ装置から生存確認メッセージに対する応答メッセージを受信するとスタンバイ装置は生存しているとみなし、アクト装置故障時にスタンバイ装置に処理を代行させる。
In this case, a cause of service interruption may occur when the standby device is also broken when processing is switched to the standby device. Therefore, it is effective to apply a technique (such as Non-Patent Documents 2 and 3) to the standby device to periodically check whether it is alive or not.
The periodic liveness confirmation messages are known as heartbeats, hellos, and keep-alives. The system monitoring function creates liveness confirmation messages and sends them to the standby device. When a response message to the liveness confirmation message is received from the standby device, the standby device is considered to be alive and will take over processing in the event of a failure of the active device.
生存確認メッセージの送信間隔は、広すぎず、狭すぎず、適切な間隔を設定する必要がある。以下の2つの指標で、生存確認メッセージの送信間隔を評価する。
(指標1)スタンバイ装置の生存確認の「正確性」は、生存確認メッセージの送信数が多いほど向上する。つまり、メッセージ数の増加により生存確認の頻度を上げることで、スタンバイ装置の状態をいち早く知ることができる。よって、スタンバイ装置にエラーが発生した時の復旧作業や、監視対象とは別のスタンバイ装置の選択切り替えを速やかに行うことが可能になる。
(指標2)システム監視機能の「負荷」は、生存確認メッセージの送信数が少ないほど軽減される。システム監視機能はプロセッサを用いて、生存確認メッセージおよび応答メッセージの処理を行うため、プロセッサ負荷を高くしすぎないことが重要である。プロセッサ負荷はメッセージ数の増加に比例するため、過負荷状態になるとメッセージ送信や応答処理の遅延ならびにエラーが生じるようになる。
この2つの指標をバランス良く満足させるために、生存確認の正確性を担保する範囲内で、生存確認メッセージの送信数を削減することが求められる。
The transmission interval of the keep-alive message must be set to an appropriate interval, neither too wide nor too narrow. The keep-alive message transmission interval is evaluated based on the following two indices.
(Index 1) The "accuracy" of the standby device's survival confirmation improves as the number of survival confirmation messages sent increases. In other words, by increasing the number of messages and increasing the frequency of survival confirmation, the status of the standby device can be known sooner. This makes it possible to quickly perform recovery work when an error occurs in the standby device, and to quickly select and switch to a standby device other than the one being monitored.
(Indicator 2) The "load" on the system monitoring function is reduced as the number of alive-confirmation messages sent is reduced. Because the system monitoring function uses a processor to process alive-confirmation messages and response messages, it is important not to make the processor load too high. Because the processor load is proportional to the increase in the number of messages, an overloaded state will cause delays in message transmission and response processing, as well as errors.
In order to achieve a good balance between these two indicators, it is necessary to reduce the number of transmissions of liveness confirmation messages within a range that ensures the accuracy of liveness confirmation.
図10は、生存確認メッセージの送信間隔を示す説明図である。
状況210,220,230は、それぞれアクト装置(図示では「Act」)およびスタンバイ装置(図示では「Sby」)それぞれの時系列線(図の右に行くほど時間が経過)を示す。各時系列線で発生するイベントは、以下のように図示される。
・生存確認メッセージでの成功応答(成功応答216など白三角形マーク)
・生存確認メッセージでの応答失敗(応答失敗218など黒三角形マーク)。
・系故障の発生(故障発生211などの爆発マーク)
なお、以下の説明では、黒三角形マークで示す時刻は生存確認メッセージでの応答失敗により装置故障を検知した時刻であり、かつ、その装置故障を系切替などにより瞬時に(検知と同時刻に)復旧した時刻を併せるものとする。
FIG. 10 is an explanatory diagram showing the transmission intervals of the keep-alive messages.
- Successful response to a survival confirmation message (
-Failed response to a survival confirmation message (black triangle mark such as response failure 218).
・Occurrence of a system failure (explosion mark such as failure occurrence 211)
In the following explanation, the time indicated by the black triangle mark is the time when an equipment failure was detected due to a failure to respond to a survival confirmation message, and also the time when the equipment failure was instantly restored (at the same time as it was detected) by system switching or the like.
状況210は、生存確認メッセージが過剰な状況を示す。アクト装置での故障発生211が、応答失敗212により検知され、その検知時点でスタンバイ装置への切替信号が送信される(図示での破線縦線)。
一方、スタンバイ装置では高頻度の生存確認により、故障発生217が応答失敗218によりすぐに検知される。その結果、スタンバイ装置での故障復旧がすぐに完了し、その後に切替信号を受信することで、系切替に成功する。しかし、スタンバイ装置では高頻度の生存確認により、正常時でも負荷が高い状態が続く。
つまり、状況210は、(指標1)の「正確性」を満たすものの、(指標2)の「負荷」は低評価(高負荷)となる。
A
On the other hand, in the standby device, due to the high frequency of survival checks, the occurrence of a
In other words, although the
状況220は、生存確認メッセージが過少な状況を示す。アクト装置での故障発生221が、応答失敗222により検知され、その検知時点でスタンバイ装置への切替信号が送信される(図示での破線縦線)。
一方、スタンバイ装置では低頻度の生存確認(成功応答226など)により、故障発生227から応答失敗228までの間隔(検知遅れ)が空いてしまう。その結果、スタンバイ装置での故障復旧よりも先に切替信号が到着してしまうことで、系切替に失敗する。しかし、スタンバイ装置では低頻度の生存確認により、正常時には負荷が低い状態が続く。
つまり、状況220は、(指標1)の「正確性」を満たさないものの、(指標2)の「負荷」は高評価(低負荷)となる。
A
On the other hand, in the standby device, due to infrequent survival checks (such as success response 226), there is an interval (detection delay) between
In other words, although the
状況230は、生存確認メッセージが適量な状況を示す。アクト装置での故障発生231が、応答失敗232により検知され、その検知時点でスタンバイ装置への切替信号が送信される(図示での破線縦線)。
一方、スタンバイ装置では中頻度の生存確認236などにより、故障発生237が応答失敗238により検知される。その結果、スタンバイ装置での故障復旧が完了した後に切替信号を受信することで、系切替に成功する。さらに、スタンバイ装置では中頻度の生存確認により、正常時でも負荷が高くはならない。
つまり、状況230は、(指標1)の「正確性」を満たしつつ、(指標2)の「負荷」も良評価(中負荷)となる。
A
On the other hand, in the standby device, a
In other words, the
一方、非特許文献2,3に記載の従来方式はシステムの耐久性やシステム監視機能の負荷を考慮せず、システム運用者が指定した一定の送信間隔で生存確認パケットを送信していた。このため、状況210のような過剰な生存確認メッセージや、状況220のような過少な生存確認メッセージが送信されていた。
On the other hand, the conventional methods described in Non-Patent Documents 2 and 3 transmit liveness confirmation packets at a fixed transmission interval specified by the system operator without considering the durability of the system or the load on the system monitoring function. As a result, excessive liveness confirmation messages, as in
そこで、本発明は、生存確認メッセージの正確性を担保しつつ、メッセージの送信負荷が低い送信間隔を計算することを主な課題とする。 The main objective of the present invention is to calculate a transmission interval that ensures the accuracy of the survival confirmation message while reducing the message transmission load.
前記課題を解決するために、本発明の間隔計算装置は、以下の特徴を有する。
本発明は、アクト装置の故障に伴い、前記アクト装置からスタンバイ装置へ切替処理を行う冗長化システムに用いられる間隔計算装置であって、
前記間隔計算装置が、前記スタンバイ装置に対して生存確認メッセージを送信する間隔である送信間隔を計算する間隔計算部を有しており、
前記間隔計算部が、
前記スタンバイ装置が生存状態であることで前記アクト装置から前記スタンバイ装置へ切替処理が成功する確率の要求値である切り替え成功率と、前記スタンバイ装置の平均故障間隔とを入力データとして、前記送信間隔を計算することを特徴とする。
In order to solve the above problems, the interval calculation device of the present invention has the following features.
The present invention provides an interval calculation device used in a redundancy system that performs a switching process from an acting device to a standby device when an acting device fails, comprising:
the interval calculation device has an interval calculation unit that calculates a transmission interval, which is an interval at which a survival confirmation message is transmitted to the standby device;
The interval calculation unit,
The transmission interval is calculated using as input data a switching success rate, which is a required value for the probability that the switching process from the acting device to the standby device will be successful because the standby device is in a survival state, and the mean time between failures of the standby device.
本発明によれば、生存確認メッセージの正確性を担保しつつ、メッセージの送信負荷が低い送信間隔を計算することができる。 According to the present invention, it is possible to calculate a transmission interval that ensures the accuracy of the survival confirmation message while reducing the message transmission load.
以下、本発明の一実施形態について、図面を参照して詳細に説明する。 Below, one embodiment of the present invention will be described in detail with reference to the drawings.
図1は、監視システム100の構成図である。
監視システム100は、事業者端末10、間隔計算装置20、監視装置30、アクト装置40、および、スタンバイ装置50が、ネットワークで接続されて構成される。
アクト装置40およびスタンバイ装置50の組み合わせは、冗長化システムを構成する一例である。アクト装置40の正常時にはアクト装置40が各種処理を担当する。アクト装置40の故障時にはアクト装置40が担当していた各種処理をスタンバイ装置50が引き継ぐように切替処理が実行される。
なお、以下の本実施形態では、監視システム100が監視対象とする冗長化システムを、アクト装置40およびスタンバイ装置50をネットワークで接続するネットワークシステムに適用する一例を説明する。一方、本実施形態の冗長化システムとして、サーバやコンピューティングシステムなどにも適用範囲を広げることができる。
FIG. 1 is a diagram showing the configuration of a
The
The combination of the acting
In the following embodiment, an example will be described in which the redundant system monitored by the
監視装置30は、アクト装置40の故障検知を行うとともに、スタンバイ装置50に生存確認メッセージによる生存確認を行う。
間隔計算装置20は、アクト装置40の故障に伴い、アクト装置40からスタンバイ装置50へ切替処理を行う冗長化システムに用いられる。
間隔計算装置20は、監視装置30がスタンバイ装置50に対して生存確認メッセージを送信する間隔である送信間隔Isbを計算する間隔計算部21を有する。
事業者端末10は、送信間隔Isbの計算に使用されるパラメータである事業者からの要求を、間隔計算装置20に通知する。
監視装置30は、間隔計算装置20から通知された送信間隔Isbを間隔データベース31にて管理し、その送信間隔Isbに従って、スタンバイ装置50に生存確認メッセージを送信部32から送信する。なお、間隔計算装置20と、監視装置30とは、別々の装置として構成してもよいし、同一装置内で別々の機能モジュールとして構成してもよい。
The
The
The
The
The
ここで、切り替え成功率Preqは、アクト装置40からスタンバイ装置50への切替処理時点でのスタンバイ装置50の生存確率とする。間隔計算部21は、事業者端末10から要求された切り替え成功率Preqの要求値を満たしつつ、負荷を軽減するために最低頻度となる送信間隔Isbを計算する。例えば、切り替え成功率Preq=99.999%が要求された場合、間隔計算部21は、送信間隔Isb=12秒とすることで、要求を満たす(計算式などの詳細は後記)。
Here, the switching success rate Preq is the survival probability of the
図2は、監視システム100が実行する系切替の説明図である。
状況101は、アクト装置40からスタンバイ装置50への切替前の状況を示す。監視装置30は、アクト装置40に対して生存確認メッセージを送信するなどの任意の方法で、アクト装置40を監視する(S101)。また、監視装置30は、送信間隔Isbでスタンバイ装置50に生存確認メッセージを送信する(S102)。
状況102は、アクト装置40からスタンバイ装置50への切替時の状況を示す。監視装置30は、監視中のアクト装置40に故障が発生したことを検知する(S111)。そして、監視装置30は、スタンバイ装置50に対して、故障したアクト装置40から処理を引き継ぐように指示する(S112)。
FIG. 2 is an explanatory diagram of system switching executed by the
A
A
図3は、間隔データベース31の一例を示すテーブルである。
ここでは、1つの事業者が1台のスタンバイ装置50を使用する場合だけでなく、複数の事業者が1台のスタンバイ装置50を共用する場合にも対応するテーブルを説明する。
間隔データベース31は、事業者別に(事業者端末10別に)割り当てられる事業者IDごとに、その事業者別に要求される事業者別の送信間隔Isbと、各事業者別の送信間隔Isbを統合して、1台のスタンバイ装置50に生存確認メッセージを送信するときの送信間隔(設定間隔)とを対応付ける。なお、間隔データベース31内の事業者ごとの事業者IDの代わりに、仮想網ごとのIDや、サービスごとのIDなどに置き換えてもよい。
FIG. 3 is a table showing an example of the
Here, a table that can accommodate not only the case where one business entity uses one
The
まず、あるスタンバイ装置50が未使用の状態から開始する。間隔データベース31Aは、1つ目の事業者(SP1)がスタンバイ装置50の使用を申し込んだ場合に、事業者(SP1)用に間隔計算部21が計算した送信間隔Isb=10[msec]が、そのまま設定間隔=10[msec]として採用される旨を示す。
First, a
次に、間隔データベース31Aの状態から、さらに2つの事業者(SP2,SP3)が同じスタンバイ装置50を共用する旨の申し込みが発生したとする。このとき、間隔データベース31Bは、事業者別の送信間隔Isbに対して、事業者(SP2)用の送信間隔Isb=5[msec]と、事業者(SP3)用の送信間隔Isb=20[msec]とが追加される。そして、監視装置30は、間隔データベース31Bでの合計3つの事業者別の送信間隔Isbのうちの最も厳しい条件(最小値)となる送信間隔Isb=5[msec]を、設定間隔=5[msec]として採用する。
Next, let us assume that two more operators (SP2, SP3) apply to share the
そして、間隔データベース31Bの状態から、1つの事業者(SP2)がスタンバイ装置50の使用をキャンセルする旨が発生したとする。このとき、間隔データベース31Bは、事業者別の送信間隔Isbに対して、事業者(SP2)用の送信間隔Isb=5[msec]を削除される。そして、監視装置30は、間隔データベース31Bでの合計2つの事業者別の送信間隔Isbのうちの最も厳しい条件(最小値)となる送信間隔Isb=10[msec]を、設定間隔=10[msec]として採用する。
Then, let us assume that, based on the state of the
図4は、監視システム100を構成する各装置のハードウェア構成図である。
監視システム100の各装置(事業者端末10、間隔計算装置20、監視装置30、アクト装置40、スタンバイ装置50)は、それぞれCPU901と、RAM902と、ROM903と、HDD904と、通信I/F905と、入出力I/F906と、メディアI/F907とを有するコンピュータ900として構成される。
通信I/F905は、外部の通信装置915と接続される。入出力I/F906は、入出力装置916と接続される。メディアI/F907は、記録媒体917からデータを読み書きする。さらに、CPU901は、RAM902に読み込んだプログラム(間隔計算プログラム)を実行することにより、各部を制御する。そして、このプログラム(アプリケーション、その略のアプリとも呼ばれる)は、通信回線を介して配布したり、CD-ROM等の記録媒体917に記録して配布したりすることも可能である。
FIG. 4 is a diagram showing the hardware configuration of each device constituting the
Each device of the monitoring system 100 (
The communication I/
図5は、1つの事業者からの要求に沿った監視処理を示すフローチャートである。
間隔計算装置20は、事業者端末10から指定された切り替え成功率Preqと、スタンバイ装置50の平均故障間隔Derrとを入力データとして受け付ける(S11)。
・切り替え成功率Preqは、アクト装置40の故障時にスタンバイ装置50への切替が成功する確率であり、例えば、「99.999%」などの値が指定される。
・平均故障間隔Derrは、スタンバイ装置50の平均故障間隔であり、例えば、「1週間に1回」などの値がネットワーク管理者などから指定される。また、平均故障間隔Derrの逆数(=1÷平均故障間隔Derr)を、平均故障回数λ(単位時間当たりの平均故障発生回数)とする。
FIG. 5 is a flow chart showing a monitoring process according to a request from one business operator.
The
The switching success rate Preq is the probability that switching to the
The mean time between failures Derr is the mean time between failures of the
間隔計算装置20は、S11の入力データから送信間隔Isbを計算し、その計算結果を監視装置30に設定する(S12)。つまり、間隔計算部21は、スタンバイ装置50が生存状態であることでアクト装置40からスタンバイ装置50へ切替処理が成功する確率の要求値である切り替え成功率Preqと、スタンバイ装置50の平均故障間隔Derrとを入力データとして、送信間隔Isbを計算する。
The
以下、S13~S15にて、監視システム100による監視処理および系切替処理が実行される。
監視装置30は、設定された送信間隔Isbでスタンバイ装置50に生存確認メッセージを送信する(S13)。監視装置30は、アクト装置40の故障検出によりスタンバイ装置50に切り替える(S14)。
監視装置30は、生存確認メッセージから検出したスタンバイ装置50の故障検出に対応する(S15)。
Thereafter, in steps S13 to S15, the
The
The
図6は、生存確認メッセージの送信間隔Isbを計算する処理(S12)を説明するためのグラフである。このグラフ内の各種記号の読み方は、図10で説明した通りである。
アクト系装置での故障発生301が、応答失敗302により検知され、その検知時刻ta(アクト検知時刻)でスタンバイ装置50への切替信号が送信される。
一方、スタンバイ装置50では、検知時刻taより前の最新の生存確認メッセージでの成功応答311の検知時刻ts1(スタンバイ検知時刻)から、故障発生間隔である期間t(生存期間)を経過した発生時刻ts2(スタンバイ発生時刻)において、故障312が発生する場合を考える。ここで、検知時刻ts1から検知時刻taまでを期間T(切替期間)と定義すると、検知時刻ta時点でのスタンバイ装置50の生存確率Pok(スタンバイ生存確率)は、期間t>期間Tとなる確率である。
6 is a graph for explaining the process (S12) for calculating the transmission interval Isb of the keep-alive message. The various symbols in this graph can be read in the same way as explained in FIG.
A
On the other hand, consider a case where a
なお、アクト装置40の故障発生301は、検知時刻taと独立であり(検知時刻taと検知時刻ts1とは無相関)、かつ、無記憶性があることからポアソン過程(離散化したマルコフ過程)に従うものとする。また、期間Tは一様分布に従うものとし、期間Tである確率は(1÷送信間隔Isb)になる。
一方、スタンバイ装置50の故障312の発生は、その後の検知時刻(図6では図示省略)と独立であり、かつ、無記憶性があることからポアソン過程に従うものとする。また、期間tは指数分布に従うものとし、ポアソン過程から計算可能である。
ここで、ポアソン過程は、期間tが指数分布で決まる確率事象の発生過程である。ポアソン過程に期間tと平均故障回数λとを与えると、期間tの確率密度p(t)は、「p(t)=λ×exp(-λt)」で求められる。よって、故障発生間隔が期間Tである確率P[t<T]は、「P[t<T]=1-exp(-λT)」で求められる。なお、exp(n)は、自然対数の底eのn乗を計算する関数である。
The occurrence of a
On the other hand, the occurrence of the
Here, the Poisson process is a process in which a random event occurs with a period t determined by an exponential distribution. If the period t and the average number of failures λ are given to the Poisson process, the probability density p(t) for period t can be calculated as "p(t) = λ × exp(-λt)". Therefore, the probability P[t<T] that the failure occurrence interval is period T can be calculated as "P[t<T] = 1-exp(-λT)". Note that exp(n) is a function that calculates the nth power of the base of the natural logarithm, e.
図5のS12では、間隔計算部21は、以下の(式1)をもとに、送信間隔Isbを計算する。
送信間隔Isb≒2×(1-切り替え成功率Preq)×平均故障間隔Derr …(式1)
例えば、図5のS11で示した例では、(式1)に各数値を代入することで、送信間隔Isb≒12秒が計算結果となる。なお、(60×24×7)は一週間(分換算)を示す。
送信間隔Isb≒2×(1-0.99999)×(60×24×7)=0.2016(分)≒12秒
In S12 of FIG. 5, the
Transmission interval Isb ≒ 2 × (1 – switching success rate Preq) × mean time between failures Derr … (Equation 1)
For example, in the example shown in S11 of Fig. 5, by substituting each value into (Equation 1), the transmission interval Isb is calculated to be approximately 12 seconds. Note that (60 x 24 x 7) represents one week (converted into minutes).
Transmission interval Isb ≒ 2 x (1-0.99999) x (60 x 24 x 7) = 0.2016 (minutes) ≒ 12 seconds
以下、この(式1)がどのように求められたのかについて、補足説明する。
まず、生存確率Pokの計算式を導出する過程について、説明する。
生存確率Pokは、期間Tと平均故障間隔Derrとから計算できる。平均故障間隔Derrから、期間tが所定値である確率も計算できる。期間t>期間Tとなる場合、検知時刻taではスタンバイ装置50は生存しているので、切り替え成功となる。
よって、期間t>期間Tとなる切り替え成功率Preqを確率モデルから計算すればよい。なお、期間Tの最大値は送信間隔Isbである。
Below, a supplementary explanation will be given on how this (Equation 1) was obtained.
First, the process of deriving the formula for the survival probability Pok will be explained.
The survival probability Pok can be calculated from the period T and the mean time between failures Derr. The probability that the period t is a predetermined value can also be calculated from the mean time between failures Derr. If the period t is greater than the period T, the
Therefore, the switching success rate Preq for which period t>period T may be calculated from the probability model. Note that the maximum value of period T is the transmission interval Isb.
ここで、検知時刻taの直後(Δt秒後)に、スタンバイ装置50の検知時刻ts1により、生存またはダウンが分かる場合に、期間Tは最大値となる。よって、期間Tの最大値は送信間隔Isbであり、期間T=定数g(g<T)である確率は、P[T=g]=1/送信間隔Isbとなる。その結果、期間T=定数gであるという前提があるときの生存確率Pokは、(式2)で示す条件付確率として計算できる。また、期間tを指数分布で近似したとする。
さらに、期間T=定数gである場合に、検知時刻taでの生存確率Pokは、(式3)で示す条件付確率として計算できる。また、期間Tが一様分布に従う場合の生存確率Pokは、(式4)で示す条件付確率として計算できる。このように、定数gは確率変数なので、定数gの取りうる値とその確率とを考慮した。
Here, the period T reaches its maximum value when the
Furthermore, when the period T = constant g, the survival probability Pok at the detection time ta can be calculated as the conditional probability shown in (Formula 3). Also, when the period T follows a uniform distribution, the survival probability Pok can be calculated as the conditional probability shown in (Formula 4). In this way, since the constant g is a random variable, the possible values of the constant g and their probabilities are taken into consideration.
次に、生存確率Pokから送信間隔Isbの計算式を導出する過程について、説明する。
まず、(式4)の逆関数をとることで、送信間隔Isb=関数h(切り替え成功率Preq,平均故障回数λ)の形に変形し、生存確率Pokを設定した時の送信間隔Isbの計算式を導出する。具体的には、生存確率Pok=関数f(送信間隔Isb, 平均故障間隔Derr=1/平均故障回数λ)となる(式5)に、(式4)を変形する。次に、(式5)から(式6)に変形する。
そして、送信間隔Isb=関数h(生存確率Pok,平均故障間隔Derr)の形に(式5)を変形した結果が(式1)の送信間隔Isbの計算式となる。
Next, the process of deriving the calculation formula for the transmission interval Isb from the survival probability Pok will be described.
First, by taking the inverse function of (Equation 4), it is transformed into a form of transmission interval Isb = function h (switching success rate Preq, mean number of failures λ), and a calculation formula for the transmission interval Isb when the survival probability Pok is set is derived. Specifically, (Equation 4) is transformed into (Equation 5) where survival probability Pok = function f (transmission interval Isb, mean time between failures Derr = 1/mean number of failures λ). Next, (Equation 5) is transformed into (Equation 6).
Then, the result of transforming (Equation 5) into the form of transmission interval Isb = function h (survival probability Pok, mean time between failures Derr) becomes the calculation formula for the transmission interval Isb in (Equation 1).
以上、図6で説明したように、間隔計算部21は、以下の手順で入力データから送信間隔Isbを計算する。
(手順1)平均故障間隔Derrの逆数である平均故障回数λをもとに、アクト装置40の故障の検知時刻taより前の最新の生存確認メッセージをスタンバイ装置50が検知した検知時刻ts1から、スタンバイ装置50の故障の発生時刻ts2までの期間tを求める。
(手順2)その求めた期間tが、検知時刻ts1から検知時刻taまでの期間Tよりも長くなる確率を、検知時刻ta時点でのスタンバイ装置50の生存確率Pokとし、その生存確率Pokが切り替え成功率Preqと同じ、または、それ以上になるように、送信間隔Isbを計算する。
As described above with reference to FIG. 6, the
(Step 1) Based on the average number of failures λ, which is the inverse of the mean time between failures Derr, the period t is calculated from the detection time ts1 at which the
(Step 2) The probability that the obtained period t will be longer than the period T from detection time ts1 to detection time ta is set as the survival probability Pok of the
図7は、故障発見確率の時系列グラフである。
グラフ410は、平均故障間隔Derrの違いにより、平均故障間隔Derrから計算されるグラフ曲線の形状が変化することを説明するものである。間隔計算部21は、入力される平均故障間隔Derrから、ポアソン過程(またはマルコフ過程)に従って、各曲線411,412を計算する。
ここで、曲線411よりも曲線412のほうが、グラフの立ち上がりが急である。これは、曲線411よりも曲線412のほうが、平均故障間隔Derrが短い(故障が多い)からである。
グラフ420は、グラフ410における曲線411を、t=0付近で拡大した曲線421である。曲線421では期間が経過するほど(グラフの右側ほど)右上がりになる。
ここで、間隔計算部21は、送信間隔Isb=期間Tの時の故障発見確率=1-exp(-λt)を計算し、生存確率Pok=1-故障発見確率=exp(-λt)を計算する。間隔計算部21は、それらの計算結果が、グラフ420内の故障発見確率の幅422と、生存確率Pokの幅423に適合するような送信間隔Isbを特定する。これにより、間隔計算部21は、(式1)の代わりに、送信間隔Isbを計算できる。
FIG. 7 is a time series graph of the fault detection probability.
A
Here, the
Here, the
図8は、複数の事業者からの要求に沿った監視処理を示すフローチャートである。
図8の後半部(S13~S15)は、図5で説明した通り、監視システム100による監視処理および系切替処理であるため、ここでは説明を省略する。
FIG. 8 is a flow chart showing a monitoring process according to requests from a plurality of businesses.
The latter half of FIG. 8 (S13 to S15) is the monitoring process and system switching process by the
一方、図5の前半部(S11,S12)は、図8の前半部(S11B,S12B)に置き換わる。
まず、間隔計算装置20は、複数の事業者端末10から指定された切り替え成功率Preqと、スタンバイ装置50の平均故障間隔とを入力データとして受け付ける(S11B)。つまり、図5のS11では、1つの事業者から1つの切り替え成功率Preqが入力されていたが、S11Bでは、複数の切り替え成功率Preqが入力される。
次に、間隔計算装置20は、図3の間隔データベース31Bで説明したように、入力データから(式1)により事業者別の送信間隔Isbを計算し、その計算結果の最小値(最も厳しい送信間隔)を監視装置30に設定する(S12B)。これにより、複数の事業者の要求をすべて満たすように送信間隔を調整した生存確認メッセージの送信制御を実現できる。
このように、間隔計算部21は、複数の事業者端末から個別の切り替え成功率Preqを入力データとして受け付け、個別の切り替え成功率Preqに対応して個別に計算した送信間隔Isbのうちの最小値を、スタンバイ装置50に対して生存確認メッセージを送信する間隔として設定する。
On the other hand, the first half of FIG. 5 (S11, S12) is replaced with the first half of FIG. 8 (S11B, S12B).
First, the
Next, the
In this way, the
図9は、複数の事業者の一部でキャンセルが発生した場合の監視処理を示すフローチャートである。
図9の後半部(S13~S15)は、図5で説明した通り、監視システム100による監視処理および系切替処理であるため、ここでは説明を省略する。
FIG. 9 is a flowchart showing the monitoring process when a cancellation occurs at some of the multiple businesses.
The latter half of FIG. 9 (S13 to S15) is the monitoring process and system switching process by the
一方、図9の前半部(S11C,S12C)は、図8の前半部(S11B,S12B)を実行した後に実行される。
まず、間隔計算装置20は、所定の事業者(SP2)が事業者端末10からスタンバイ装置50の使用をキャンセルする旨の監視キャンセル要求を受け付ける(S11C)。キャンセル理由は、例えば、より低コストかつ同性能なスタンバイ装置50への乗り換えや、より高機能なアクト装置40への乗り換えに伴う現在のスタンバイ装置50の性能不足などである。
そして、間隔計算装置20は、図3の間隔データベース31Cで説明したように、計算済みの事業者別の送信間隔Isbから所定の事業者端末10の送信間隔Isbを除外した結果の最小値を監視装置30に設定する(S12C)。
On the other hand, the first half of FIG. 9 (S11C, S12C) is executed after the first half of FIG. 8 (S11B, S12B) is executed.
First, the
Then, as explained in the
[効果]
本発明は、アクト装置40の故障に伴い、アクト装置40からスタンバイ装置50へ切替処理を行う冗長化システムに用いられる間隔計算装置20であって、
間隔計算装置20が、スタンバイ装置50に対して生存確認メッセージを送信する間隔である送信間隔Isbを計算する間隔計算部21を有しており、
間隔計算部21が、
スタンバイ装置50が生存状態であることでアクト装置40からスタンバイ装置50へ切替処理が成功する確率の要求値である切り替え成功率Preqと、スタンバイ装置50の平均故障間隔Derrとを入力データとして、送信間隔Isbを計算することを特徴とする。
[effect]
The present invention provides an
The
The
A feature of this method is that the transmission interval Isb is calculated using as input data a switching success rate Preq, which is a required value for the probability that the switching process from the acting
これにより、切り替え成功率Preqの要求値を満たしつつ平均故障間隔Derrに応じた頻度で生存確認メッセージの送信を行うことが可能となる。よって、冗長化システムの処理負荷を低減しつつ、要求条件を満たす頻度で、スタンバイ装置50の故障を検出できる。
This makes it possible to send survival confirmation messages at a frequency according to the mean time between failures Derr while satisfying the required value of the switching success rate Preq. Therefore, it is possible to detect failures in the
本発明の間隔計算装置20は、間隔計算部21が、入力データから送信間隔Isbを計算する処理として、
平均故障間隔Derrの逆数である平均故障回数λをもとに、アクト装置40の故障の検知時刻taより前の最新の生存確認メッセージをスタンバイ装置50が検知した検知時刻ts1から、スタンバイ装置50の故障の発生時刻ts2までの期間tを求め、
その求めた期間tが、検知時刻ts1から検知時刻taまでの期間Tよりも長くなる確率を、検知時刻ta時点でのスタンバイ装置50の生存確率Pokとし、その生存確率Pokが切り替え成功率Preq以上になるように、送信間隔Isbを計算することを特徴とする。
In the
Based on the average number of failures λ, which is the reciprocal of the mean failure interval Derr, a period t is calculated from a detection time ts1 at which the
The probability that the obtained period t will be longer than the period T from the detection time ts1 to the detection time ta is set as the survival probability Pok of the
これにより、スタンバイ装置50が生存状態である期間tに応じて、過剰な生存確認メッセージの送信を抑止する送信間隔Isbを計算することで、監視機能のプロセッサ負荷を低減できる。
This allows the processor load of the monitoring function to be reduced by calculating the transmission interval Isb that prevents excessive transmission of survival confirmation messages according to the period t during which the
本発明の間隔計算装置20は、間隔計算部21が、複数の事業者端末から個別の切り替え成功率Preqを入力データとして受け付け、
個別の切り替え成功率Preqに対応して個別に計算した送信間隔Isbのうちの最小値を、スタンバイ装置50に対して生存確認メッセージを送信する間隔として設定することを特徴とする。
In the
The minimum value of the transmission intervals Isb calculated individually corresponding to the individual switching success rates Preq is set as the interval for transmitting a survival confirmation message to the
これにより、複数の事業者から個別の要求を受け、どの事業者からの要求にも満足する送信間隔Isbを計算できる。 This makes it possible to receive individual requests from multiple operators and calculate a transmission interval Isb that satisfies the requests from all of the operators.
10 事業者端末
20 間隔計算装置
21 間隔計算部
30 監視装置
31 間隔データベース
32 送信部
40 アクト装置
50 スタンバイ装置
100 監視システム
REFERENCE SIGNS LIST 10: business operator terminal 20: interval calculation device 21: interval calculation unit 30: monitoring device 31: interval database 32: transmission unit 40: acting device 50: standby device 100: monitoring system
Claims (4)
前記間隔計算装置は、前記スタンバイ装置に対して生存確認メッセージを送信する間隔である送信間隔を計算する間隔計算部を有しており、
前記間隔計算部は、
前記スタンバイ装置が生存状態であることで前記アクト装置から前記スタンバイ装置へ切替処理が成功する確率の要求値である切り替え成功率と、前記スタンバイ装置の平均故障間隔とを入力データとして、前記送信間隔を計算することを特徴とする
間隔計算装置。 An interval calculation device used in a redundancy system that performs a switching process from an acting device to a standby device when an acting device fails, comprising:
the interval calculation device has an interval calculation unit that calculates a transmission interval, which is an interval for transmitting a survival confirmation message to the standby device;
The interval calculation unit is
An interval calculation device, characterized in that the transmission interval is calculated using as input data a switching success rate, which is a required value for the probability that the switching process from the acting device to the standby device will be successful because the standby device is in a survival state, and a mean time between failures of the standby device.
前記平均故障間隔の逆数である平均故障回数をもとに、前記アクト装置の故障検知時刻であるアクト検知時刻より前の最新の前記生存確認メッセージを前記スタンバイ装置が検知したスタンバイ検知時刻から、前記スタンバイ装置の故障発生時刻までの生存期間を求め、
その求めた前記生存期間が、前記スタンバイ検知時刻から前記アクト検知時刻までの切替期間よりも長くなる確率を、前記アクト検知時刻の時点での前記スタンバイ装置のスタンバイ生存確率とし、そのスタンバイ生存確率が前記切り替え成功率以上になるように、前記送信間隔を計算することを特徴とする
請求項1に記載の間隔計算装置。 The interval calculation unit calculates the transmission interval from the input data by
calculating a survival time from a standby detection time at which the standby device detected the latest survival confirmation message prior to an act detection time, which is a failure detection time of the acting device, to a failure occurrence time of the standby device, based on an average failure frequency which is the reciprocal of the mean failure interval;
The interval calculation device according to claim 1, characterized in that the probability that the calculated survival period will be longer than the switching period from the standby detection time to the act detection time is set as the standby survival probability of the standby device at the act detection time, and the transmission interval is calculated so that the standby survival probability is greater than or equal to the switching success rate.
個別の前記切り替え成功率に対応して個別に計算した前記送信間隔のうちの最小値を、前記スタンバイ装置に対して前記生存確認メッセージを送信する間隔として設定することを特徴とする
請求項1に記載の間隔計算装置。 The interval calculation unit receives the switching success rates from a plurality of carrier terminals as the input data,
The interval calculation device according to claim 1 , further comprising: setting a minimum value of the transmission intervals calculated individually corresponding to the individual switching success rates as the interval for transmitting the survival confirmation message to the standby device.
前記間隔計算装置は、前記スタンバイ装置に対して生存確認メッセージを送信する間隔である送信間隔を計算する間隔計算部を有しており、
前記間隔計算部は、
前記スタンバイ装置が生存状態であることで前記アクト装置から前記スタンバイ装置へ切替処理が成功する確率の要求値である切り替え成功率と、前記スタンバイ装置の平均故障間隔とを入力データとして、前記送信間隔を計算することを特徴とする
間隔計算方法。 An interval calculation method executed by an interval calculation device used in a redundant system that performs a switching process from an acting device to a standby device when an acting device fails, comprising:
the interval calculation device has an interval calculation unit that calculates a transmission interval, which is an interval for transmitting a survival confirmation message to the standby device;
The interval calculation unit is
An interval calculation method, comprising: calculating the transmission interval using as input data a switching success rate, which is a required value for the probability that a switching process from the acting device to the standby device will be successful because the standby device is in a survival state, and a mean time between failures of the standby device.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| PCT/JP2023/034191 WO2025062549A1 (en) | 2023-09-21 | 2023-09-21 | Interval calculation device and interval calculation method |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| PCT/JP2023/034191 WO2025062549A1 (en) | 2023-09-21 | 2023-09-21 | Interval calculation device and interval calculation method |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| WO2025062549A1 true WO2025062549A1 (en) | 2025-03-27 |
Family
ID=95072441
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| PCT/JP2023/034191 Pending WO2025062549A1 (en) | 2023-09-21 | 2023-09-21 | Interval calculation device and interval calculation method |
Country Status (1)
| Country | Link |
|---|---|
| WO (1) | WO2025062549A1 (en) |
Citations (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2006164252A (en) * | 2004-12-08 | 2006-06-22 | Microsoft Corp | Validate and maintain connection survivability within reliable messaging for web services environments |
| JP2011239343A (en) * | 2010-05-13 | 2011-11-24 | Ntt Communications Corp | Client device and program |
-
2023
- 2023-09-21 WO PCT/JP2023/034191 patent/WO2025062549A1/en active Pending
Patent Citations (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2006164252A (en) * | 2004-12-08 | 2006-06-22 | Microsoft Corp | Validate and maintain connection survivability within reliable messaging for web services environments |
| JP2011239343A (en) * | 2010-05-13 | 2011-11-24 | Ntt Communications Corp | Client device and program |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP5418250B2 (en) | Abnormality detection apparatus, program, and abnormality detection method | |
| US6986076B1 (en) | Proactive method for ensuring availability in a clustered system | |
| US8010840B2 (en) | Generation of problem tickets for a computer system | |
| US7581003B2 (en) | System and method for automatic recovery from fault conditions in networked computer services | |
| US20050005271A1 (en) | Methods, systems and computer program products for early warning of potential service level agreement violations | |
| US20090234908A1 (en) | Data transmission queuing using fault prediction | |
| TW201403480A (en) | Method and apparatus for automatic migration of application service | |
| US20190245735A1 (en) | Server apparatus, cluster system, cluster control method and program | |
| CN113055203B (en) | Method and device for recovering exception of SDN control plane | |
| JP6220625B2 (en) | Delay monitoring system and delay monitoring method | |
| JP2004206634A (en) | Monitoring method, operation monitoring device, monitoring system, and computer program | |
| US11487623B2 (en) | Information processing system | |
| WO2025062549A1 (en) | Interval calculation device and interval calculation method | |
| CN113127505B (en) | Monitoring method and device of Structured Query Language (SQL) system and electronic equipment | |
| CN120653626A (en) | Non-perception data dynamic migration method | |
| JP2009187230A (en) | Server monitoring device | |
| JP2004350198A (en) | Network control system | |
| CN115333983B (en) | Heartbeat management methods and nodes | |
| JP2007249829A (en) | Communication system between internal networks, information processor and repeating information processor, communication control program, communication control method between internal networks, remote fault management system, managed device, and management device | |
| US11178256B2 (en) | Business service providing system, business service recovery method, and business service recovery program | |
| JP3692571B2 (en) | Communication server load balancing method | |
| CN113765705A (en) | Traffic switching method and traffic management server for cross-public-cloud dual-active structure | |
| JP2009151388A (en) | Monitoring processing program, method and apparatus | |
| CN113824595A (en) | Link switching control method and device and gateway equipment | |
| CN120045434B (en) | Log management method, electronic device, storage medium and product |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| 121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 23953036 Country of ref document: EP Kind code of ref document: A1 |