[go: up one dir, main page]

JP5207082B2 - Computer system and computer system monitoring method - Google Patents

Computer system and computer system monitoring method Download PDF

Info

Publication number
JP5207082B2
JP5207082B2 JP2010006918A JP2010006918A JP5207082B2 JP 5207082 B2 JP5207082 B2 JP 5207082B2 JP 2010006918 A JP2010006918 A JP 2010006918A JP 2010006918 A JP2010006918 A JP 2010006918A JP 5207082 B2 JP5207082 B2 JP 5207082B2
Authority
JP
Japan
Prior art keywords
flow entry
statistical information
computer system
flow
switch
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2010006918A
Other languages
Japanese (ja)
Other versions
JP2011146982A (en
Inventor
雅也 川本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2010006918A priority Critical patent/JP5207082B2/en
Publication of JP2011146982A publication Critical patent/JP2011146982A/en
Application granted granted Critical
Publication of JP5207082B2 publication Critical patent/JP5207082B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Data Exchanges In Wide-Area Networks (AREA)

Description

本発明は、コンピュータシステム、及びコンピュータシステムの監視方法に関し、特に、障害発生箇所を特定可能なコンピュータシステムの監視する方法に関する。   The present invention relates to a computer system and a computer system monitoring method, and more particularly, to a computer system monitoring method capable of specifying a fault occurrence location.

ネットワークを利用した情報システムの普及により、IP網などのネットワークは大規模かつ複雑になり、加えて高品質が求められている。このため、通信障害や品質劣化の原因箇所の特定はより困難になっているにもかかわらず、迅速な復旧が要求されている。   With the spread of information systems using networks, networks such as IP networks have become large and complex, and in addition, high quality is required. For this reason, although it is more difficult to identify the cause of communication failure and quality deterioration, quick recovery is required.

このような要求を実現するため、特開2006−238052では、フロー品質情報に基づいて品質劣化箇所を推定する技術が開示されている(特許文献1参照)。特許文献1では、現在通信中のフローが経由している全てのリンクについて、現在の通信品質劣化を起こし得る、あらゆる品質劣化したリンクの組み合わせのうち、最小のリンク数からなる組み合わせを品質劣化箇所として推定する。あるいは、過去の各リンクが品質劣化原因となった確率に基づいて、最も高い確率となる組み合わせを品質劣化箇所として推定する。   In order to realize such a request, Japanese Patent Application Laid-Open No. 2006-238052 discloses a technique for estimating a quality degradation point based on flow quality information (see Patent Document 1). In Patent Document 1, a combination of the minimum number of links is selected from all combinations of links with degraded quality that can cause degradation of the current communication quality for all links through which a flow currently being communicated. Estimate as Alternatively, based on the probability that each link in the past caused quality degradation, the combination having the highest probability is estimated as the quality degradation location.

特許文献1では、フロー品質情報を得るためにネットワーク上に多数のパケット収集装置を設置する必要があるため、膨大なコストが必要となる。又、提供される結果は確率的な推定であり、状況によっては正しい原因箇所を得ることはできない。   In Patent Document 1, it is necessary to install a large number of packet collection devices on a network in order to obtain flow quality information, which requires enormous costs. In addition, the provided result is a probabilistic estimate, and the correct cause cannot be obtained depending on the situation.

一方、特開2002−152266には、計測装置によってフロー毎にカウントされた受信パケット数を収集し、複数の計測装置間のカウント値の比較結果に基づいて区間毎のパケットロスを検出するシステムが記載されている(特許文献2参照)。   On the other hand, Japanese Patent Laid-Open No. 2002-152266 collects the number of received packets counted for each flow by a measuring device and detects a packet loss for each section based on a comparison result of count values between a plurality of measuring devices. (See Patent Document 2).

又、本発明の関連技術として、OpenFlow Consortiumが提案しているOpenFlowがある(非特許文献1参照)。この技術に対応したネットワークスイッチ(以下、オープンフロースイッチ(OFS)と称す)は、プロトコル種別やポート番号等の詳細な情報をフローテーブルに保持し、フローの制御と統計情報の採取を行うことができる。   Further, as a related technique of the present invention, there is OpenFlow proposed by OpenFlow Consortium (see Non-Patent Document 1). A network switch compatible with this technology (hereinafter referred to as OpenFlow Switch (OFS)) holds detailed information such as protocol type and port number in a flow table, and can control the flow and collect statistical information. it can.

特開2006−238052JP 2006-238052 A 特開2002−152266JP 2002-152266 A

OpenFlow Switch Specification Version 0.9.0 (Wire Protocol 0x98) July 20, 2009OpenFlow Switch Specification Version 0.9.0 (Wire Protocol 0x98) July 20, 2009

特許文献2の技術では、区間毎のパケット数を取得することで、計測区間におけるパケットロスを検出することが可能となる。しかし、区間毎のパケットロスを検出できても、通信障害や品質劣化の原因箇所を特定することはできなかった。   With the technique of Patent Document 2, it is possible to detect a packet loss in a measurement section by acquiring the number of packets for each section. However, even if the packet loss for each section can be detected, the cause of communication failure or quality deterioration cannot be identified.

上記の課題を解決するために、本発明は、以下に述べられる手段を採用する。その手段を構成する技術的事項の記述には、[特許請求の範囲]の記載と[発明を実施するための形態]の記載との対応関係を明らかにするために、[発明を実施するための形態]で使用される番号・符号が付加されている。ただし、付加された番号・符号は、[特許請求の範囲]に記載されている発明の技術的範囲を限定的に解釈するために用いてはならない。   In order to solve the above problems, the present invention employs the means described below. In the description of technical matters constituting the means, in order to clarify the correspondence between the description of [Claims] and the description of [Mode for Carrying Out the Invention] The number / symbol used in [Form] is added. However, the added numbers and symbols should not be used to limit the technical scope of the invention described in [Claims].

本発明によるコンピュータシステムは、コントローラ(2)と、コントローラ(2)によってフローエントリが設定されたフローテーブル(11)を保持し、フローエントリに適合する受信パケットに対し、フローエントリで規定された中継動作を行うスイッチ(1)と、スイッチ(1)を介して通信を行う複数のコンピュータ(6)と、データ処理装置(20)とを具備する。データ処理装置(20)は、異常のある通信に対応するフローエントリが設定された複数のスイッチ(1)から当該通信に対する統計情報を収集し、当該統計情報に応じて、異常のある通信の原因箇所を特定する。   The computer system according to the present invention holds a controller (2) and a flow table (11) in which a flow entry is set by the controller (2), and relays specified by the flow entry for received packets that match the flow entry. A switch (1) that operates, a plurality of computers (6) that communicate via the switch (1), and a data processing device (20) are provided. The data processing device (20) collects statistical information for the communication from the plurality of switches (1) in which flow entries corresponding to the abnormal communication are set, and causes the abnormal communication according to the statistical information. Identify the location.

本発明によるコンピュータシステムの監視方法は、コントローラ(2)と、コントローラ(2)によってフローエントリが設定されたフローテーブル(11)を保持し、フローエントリに適合する受信パケットに対し、フローエントリで規定された中継動作を行うスイッチ(1)と、スイッチ(1)を介して通信を行う複数のコンピュータ(6)を具備するコンピュータシステムを監視する方法である。本発明による監視方法は、異常のある通信に対応するフローエントリが設定された複数の前記スイッチから、当該通信に対する統計情報を収集するステップと、当該統計情報を用いて異常のある通信の原因箇所を特定するステップとを具備する。   The computer system monitoring method according to the present invention includes a controller (2) and a flow table (11) in which a flow entry is set by the controller (2). The received packet that matches the flow entry is defined by the flow entry. This is a method of monitoring a computer system comprising a switch (1) that performs the relay operation and a plurality of computers (6) that communicate via the switch (1). The monitoring method according to the present invention includes a step of collecting statistical information for the communication from a plurality of the switches in which flow entries corresponding to the abnormal communication are set, and a cause location of the abnormal communication using the statistical information And a step of specifying.

本発明によれば、コンピュータシステムにおける通信障害や通信品質の劣化の原因を精度良く特定することができる。   According to the present invention, it is possible to accurately identify the cause of communication failure and communication quality deterioration in a computer system.

又、コンピュータシステムにおける各スイッチ間の通信障害や通信品質の劣化を把握できる。   Further, it is possible to grasp a communication failure between switches in a computer system and deterioration of communication quality.

更に、スイッチ間の通信障害や通信品質の劣化の原因を特定するためのコストを削減できる。   Furthermore, it is possible to reduce the cost for specifying the cause of communication failure between switches and the deterioration of communication quality.

図1は、本発明によるコンピュータシステムの実施の形態における構成を示す図である。FIG. 1 is a diagram showing the configuration of an embodiment of a computer system according to the present invention. 図2は、本発明によるデータ処理装置、記憶装置、オープンフロースイッチの実施の形態における構成を示す図である。FIG. 2 is a diagram showing a configuration in the embodiment of the data processing device, the storage device, and the OpenFlow switch according to the present invention. 図3は、本発明による異常箇所特定処理の動作の一例を示すフロー図である。FIG. 3 is a flowchart showing an example of the operation of the abnormal location specifying process according to the present invention. 図4は、本発明によって異常箇所が特定される通信経路の一例を示す図である。FIG. 4 is a diagram illustrating an example of a communication path in which an abnormal location is specified by the present invention. 図5は、本発明によるデータ処理装置によって収集される統計情報の一例を示す図である。FIG. 5 is a diagram showing an example of statistical information collected by the data processing apparatus according to the present invention. 図6は、本発明による異常箇所特定処理の動作の他の一例を示すフロー図である。FIG. 6 is a flowchart showing another example of the operation of the abnormal location specifying process according to the present invention. 図7は、本発明に係るオープンフロー制御を説明するための図である。FIG. 7 is a diagram for explaining the open flow control according to the present invention.

以下、添付図面を参照しながら本発明の実施の形態を説明する。図面において同一、又は類似の参照符号は、同一、類似、又は等価な構成要素を示す。   Hereinafter, embodiments of the present invention will be described with reference to the accompanying drawings. In the drawings, the same or similar reference numerals indicate the same, similar, or equivalent components.

(コンピュータシステムの構成)
図1及び図2を参照して、本発明によるコンピュータシステムの構成を説明する。図1は、本発明によるコンピュータシステムの構成を示す図である。本発明によるコンピュータシステムは、通信ネットワークを介して接続される、複数のオープンフロースイッチ1−1〜1−n(以下、OFS1−1〜1−nと称す。nは自然数)、オープンフローコントローラ2(以下、OFC2と称す)、障害検知装置4、及びホストコンピュータ6−1〜6−m(以下、HOST6−1〜6−mと称す。mは2以上の整数)を具備する。尚、OFS1−1〜1−nを区分せずに説明する場合、OFS1と称す。又、HOST6−1〜6−mを区分せずに説明する場合、HOST6と称す。
(Computer system configuration)
The configuration of the computer system according to the present invention will be described with reference to FIGS. FIG. 1 is a diagram showing the configuration of a computer system according to the present invention. The computer system according to the present invention includes a plurality of open flow switches 1-1 to 1-n (hereinafter referred to as OFS 1-1 to 1-n, n is a natural number) and an open flow controller 2 connected via a communication network. (Hereinafter referred to as OFC2), failure detection device 4, and host computers 6-1 to 6-m (hereinafter referred to as HOSTs 6-1 to 6-m, where m is an integer of 2 or more). When the OFS 1-1 to 1-n are described without being divided, they are referred to as OFS1. Further, when the HOSTs 6-1 to 6-m are described without being divided, they are referred to as HOST6.

HOST6は、図示しないCPU、主記憶装置、及び外部記憶装置を備えるコンピュータ装置であり、外部記憶装置に格納されたプログラムを実行することで、他のHOST6との間で通信を行う。HOST6間の通信は、OFS1を介して行われる。HOST6は、実行するプログラムに応じて、Webサーバ、ファイルサーバ、アプリケーションサーバ、あるいはクライアント端末等に例示される機能を実現する。例えば、HOST6がWebサーバとして機能する場合、図示しないクライアント端末の要求に従い、記憶装置(図示なし)内のHTML文書や画像データを他のHOST6(例示:クライアント端末)に転送する。   The HOST 6 is a computer device including a CPU, a main storage device, and an external storage device (not shown), and communicates with other HOSTs 6 by executing a program stored in the external storage device. Communication between HOST6 is performed via OFS1. The HOST 6 realizes a function exemplified by a Web server, a file server, an application server, a client terminal, or the like according to a program to be executed. For example, when the HOST 6 functions as a Web server, an HTML document or image data in a storage device (not shown) is transferred to another HOST 6 (example: client terminal) in accordance with a request from a client terminal (not shown).

OFC2は、オープンフロー技術により、システム内の通信を制御するフロー制御部10を備える。オープンフロー技術とは、コントローラ(ここではOFC2)が、ルーティングポリシー(フローエントリ:フロー+アクション)に従い、マルチレイヤ及びフロー単位の経路情報をOFS1に設定し、経路制御やノード制御を行う技術を示す。これにより、経路制御機能がルータやスイッチから分離され、コントローラによる集中制御によって最適なルーティング、トラフィック管理が可能となる。オープンフロー技術が適用されるOFS1は、従来のルータやスイッチのようにパケットやフレームの単位ではなく、END2ENDのフローとして通信を取り扱う。   The OFC 2 includes a flow control unit 10 that controls communication in the system using the open flow technology. The OpenFlow technology refers to a technology in which a controller (here OFC2) performs path control and node control by setting multi-layer and flow unit path information in OFS1 according to a routing policy (flow entry: flow + action). . As a result, the route control function is separated from the routers and switches, and optimal routing and traffic management are possible through centralized control by the controller. OFS1, to which the OpenFlow technology is applied, handles communication as a flow of END2END, not as a unit of packet or frame like a conventional router or switch.

OFC2は、図示しないCPU及び記憶装置を備えるコンピュータによって実現される。フロー制御部10は、記憶装置に格納されたプロラムを実行することで実現され、OFS1毎にフローエントリ(フロー+アクション)を設定することで当該OFS1の動作(例えばパケットデータの中継動作)を制御する。   The OFC 2 is realized by a computer including a CPU and a storage device (not shown). The flow control unit 10 is realized by executing a program stored in a storage device, and controls the operation of the OFS 1 (for example, packet data relay operation) by setting a flow entry (flow + action) for each OFS 1. To do.

詳細には、フロー制御部10は、OFC2が保持するフローテーブル31に従ってOFS1に対するフローエントリ(フロー+アクション)の設定又は削除を行う。これにより、各OFS1が保持するフローテーブル11に対し、フローエントリ(フロー+アクション)が設定又は削除される。   Specifically, the flow control unit 10 sets or deletes a flow entry (flow + action) for the OFS 1 according to the flow table 31 held by the OFC 2. As a result, a flow entry (flow + action) is set or deleted from the flow table 11 held by each OFS 1.

フローエントリをOFS1に設定する場合、フロー制御部10は、フローエントリを設定したOFS1の識別子を、当該フローに対応づけてフローテーブル31に記録する。又、フローエントリをOFS1から削除する場合、当該フローエントリに対応付けられていたOFS1の識別子をフローテーブル31から削除する。   When setting the flow entry in OFS1, the flow control unit 10 records the identifier of OFS1 in which the flow entry is set in the flow table 31 in association with the flow. When deleting a flow entry from the OFS 1, the identifier of the OFS 1 associated with the flow entry is deleted from the flow table 31.

OFS1は、自身が保持するフローテーブル11を参照し、受信パケットのヘッダ情報に応じたフローエントリで規定されたアクション(例えばパケットデータの中継や破棄)を実行する。詳細には、OFS1は、受信パケットのヘッダ情報が、自身のフローテーブルに設定されたフローエントリで規定されたフローに適合(一致)する場合、当該フローエントリで規定されたアクションを実行する。一方、OFS1は、受信パケットのヘッダ情報が、フローテーブルに設定されたフローエントリで規定されたフローに適合(一致)しない場合、受信パケットをファーストパケットと認識し、当該ファーストパケットを受信したことをOFC2に通知するとともに、当該ヘッダ情報をOFC2に送信する。この際、OFC2は、通知されたヘッダ情報に対応するフローエントリ(フロー+アクション)をフローテーブル31から選択し、通知元のOFS1に設定する。   The OFS 1 refers to the flow table 11 held by itself and executes an action (for example, relay or discard of packet data) defined by the flow entry according to the header information of the received packet. Specifically, when the header information of the received packet matches (matches) the flow specified by the flow entry set in its own flow table, the OFS 1 executes the action specified by the flow entry. On the other hand, when the header information of the received packet does not match (match) the flow specified by the flow entry set in the flow table, OFS1 recognizes the received packet as a first packet and confirms that the first packet has been received. Notifying OFC2 and sending the header information to OFC2. At this time, the OFC 2 selects a flow entry (flow + action) corresponding to the notified header information from the flow table 31 and sets it in the OFS 1 that is the notification source.

フローエントリには、フロー(パケットデータ)を特定するための情報(以下、フロー情報と称す)として、例えば、TCP/IPのパケットデータにおけるヘッダ情報に含まれる、OSI(Open Systems Interconnection)参照モデルのレイヤ1からレイヤ4のアドレスや識別子の組み合わせが規定される。例えば、図7に示すレイヤ1の物理ポート、レイヤ2のMACアドレス、レイヤ3のIPアドレス、レイヤ4のポート番号、VLANタグのそれぞれの組み合わせがフロー情報としてフローエントリに設定される。ここで、フローエントリに設定されるポート番号等の識別子やアドレス等は、所定の範囲が設定されても構わない。又、フロー情報として、宛先や送信元のアドレス等を区別してフローエントリに設定されることが好ましい。例えば、MAC宛先アドレスの範囲や、接続先のアプリケーションを特定する宛先ポート番号の範囲、接続元のアプリケーションを特定する送信元ポート番号の範囲がフロー情報としてフローエントリに設定される。更に、データ転送プロトコルを特定する識別子をフロー情報としてフローエントリに設定してもよい。   In the flow entry, as information (hereinafter referred to as flow information) for specifying a flow (packet data), for example, an OSI (Open Systems Interconnection) reference model included in header information in TCP / IP packet data. A combination of layer 1 to layer 4 addresses and identifiers is defined. For example, a combination of each of the layer 1 physical port, the layer 2 MAC address, the layer 3 IP address, the layer 4 port number, and the VLAN tag shown in FIG. 7 is set in the flow entry as flow information. Here, a predetermined range may be set for an identifier or an address such as a port number set in the flow entry. Further, it is preferable that the flow information is set in the flow entry while distinguishing the destination and the address of the transmission source. For example, the range of the MAC destination address, the range of the destination port number that identifies the connection destination application, and the range of the transmission source port number that identifies the connection source application are set in the flow entry as flow information. Furthermore, an identifier for specifying the data transfer protocol may be set in the flow entry as flow information.

フローエントリで規定されるアクションは、例えばTCP/ IPのパケットデータを処理する方法が規定される。例えば、受信パケットデータを中継するか否かを示す情報や、中継する場合はその送信先が設定される。又、アクションは、パケットデータの複製や、破棄することを指示する情報が設定されてもよい。   As an action defined by the flow entry, for example, a method for processing TCP / IP packet data is defined. For example, information indicating whether or not the received packet data is to be relayed and the transmission destination in the case of relaying are set. The action may be set with information instructing to copy or discard the packet data.

具体例として、フロー情報:MAC送信元アドレス(L2)が“A1〜A3”、IP宛先アドレス(L3)が“B1〜B3”、プロトコルが“http”、宛先ポート番号(L4)が“C1〜C3”と、アクション:“HIST6−1に中継”とが対応付けられているフローエントリが設定されたOFS1−1の動作を説明する。MAC送信元アドレス(L2)が“A1”、IP宛先アドレス(L3)が“B2”、プロトコルが“http”、宛先ポート番号(L4)が“C3”であるパケットデータを受信した場合、OFS1は、ヘッダ情報が当該フローエントリに適合(一致)していると判断し、受信したパケットデータをHOST6−1に転送する。一方、MAC送信元アドレス(L2)が“A5”、IP宛先アドレス(L3)が“B2”、プロトコルが“http”、宛先ポート番号(L4)が“C4”であるパケットデータを受信した場合、OFS1−1は、ヘッダ情報が当該フローエントリに適合しないと判断し、ファーストパケット受信の旨をOFC2に通知するとともに当該ヘッダ情報をOFC2に送信する。OFC2は、自身が保持するフローテーブルから、受信したヘッダ情報に対応するフローエントリを抽出し、OFS1−1に送信する。尚、OFC2は、フローテーブルに適切なフローがない場合は、新たにフローエントリを作成してもよい。OFS1−1は送信されたフローエントリを自身のフローテーブルに設定し、これに従った、受信パケットの中継処理を実行する。   As a specific example, flow information: MAC source address (L2) is “A1 to A3”, IP destination address (L3) is “B1 to B3”, protocol is “http”, and destination port number (L4) is “C1 to C1”. The operation of the OFS 1-1 in which the flow entry in which “C3” and the action: “Relay to HIST 6-1” are associated will be described. If the MAC source address (L2) is “A1”, the IP destination address (L3) is “B2”, the protocol is “http”, and the destination port number (L4) is “C3”, the OFS1 The header information is determined to match (match) the flow entry, and the received packet data is transferred to the HOST 6-1. On the other hand, when packet data having a MAC source address (L2) of “A5”, an IP destination address (L3) of “B2”, a protocol of “http”, and a destination port number (L4) of “C4” is received, The OFS 1-1 determines that the header information does not match the flow entry, notifies the OFC 2 that the first packet has been received, and transmits the header information to the OFC 2. The OFC 2 extracts a flow entry corresponding to the received header information from the flow table held by the OFC 2 and transmits it to the OFS 1-1. The OFC 2 may create a new flow entry when there is no appropriate flow in the flow table. The OFS 1-1 sets the transmitted flow entry in its own flow table, and executes the received packet relay process according to this.

本発明によるコンピュータシステムでは、上述のようなオープンフロー技術によってフロー制御が行われている。このため、フローエントリよってHOST間の通信を特定できるとともに、フローエントリを指定することで特定の通信に対するフロー制御や品質監視を行うことが可能となる。   In the computer system according to the present invention, flow control is performed by the open flow technique as described above. For this reason, the communication between the HOSTs can be specified by the flow entry, and the flow control and the quality monitoring for the specific communication can be performed by designating the flow entry.

本発明によるOFC2は、上述のOFCの機能の他に各OFS1から統計情報を収集する機能、及び統計情報を利用して通信障害や品質劣化(以下、異常と称す)の原因箇所(以下、異常箇所と称す)を特定する機能を備える。詳細には、OFC2は、OFS1から統計情報を収集し、これを用いて異常箇所を特定するデータ処理装置20、OFS1から収集した統計情報を格納する記憶装置30、収集した統計情報や、特定された異常箇所を視認可能に表示する出力装置40(例えば、モニタ装置)を備える。ただし、これらの機能(データ処理装置20、記憶装置30、及び出力装置40)は、OFC2とは別の装置として、システム内に設けられても良い。   The OFC 2 according to the present invention has a function of collecting statistical information from each OFS 1 in addition to the above-described OFC function, and a cause (hereinafter referred to as abnormal) of a communication failure or quality degradation (hereinafter referred to as abnormal) using the statistical information. It is equipped with a function to specify the location). Specifically, the OFC 2 collects statistical information from the OFS 1 and uses this to identify the data processing device 20 that identifies the abnormal location, the storage device 30 that stores the statistical information collected from the OFS 1, the collected statistical information, The output device 40 (for example, monitor device) which displays the abnormal location so that visual recognition is possible is provided. However, these functions (the data processing device 20, the storage device 30, and the output device 40) may be provided in the system as devices different from the OFC 2.

図2は、本発明によるデータ処理装置20、記憶装置30、OFS1の実施の形態における構成を示す図である。データ処理装置20は、図示しないCPU及び記憶装置を備え、記憶装置に格納されたプログラムをCPUによって実行することで統計情報収集部21、フロー経路計算部22、異常箇所計算部23の各機能を実現する。データ処理装置20は、フロー制御部10と共通のCPU及び記憶装置によって実現されても良い。   FIG. 2 is a diagram showing a configuration in the embodiment of the data processing device 20, the storage device 30, and the OFS 1 according to the present invention. The data processing device 20 includes a CPU and a storage device (not shown), and the CPU stores the functions of the statistical information collection unit 21, the flow path calculation unit 22, and the abnormal part calculation unit 23 by executing a program stored in the storage device. Realize. The data processing device 20 may be realized by a CPU and a storage device that are common to the flow control unit 10.

統計情報収集部21は、異常のあった通信フローに対応するフローエントリが設定されたOFS1を統計情報の収集対象スイッチとして指定し、当該フローエントリに適合するフロー(パケットデータ)の統計情報を収集する。この際、統計情報収集部21は、当該フローの統計情報を収集するためのフローエントリを生成し、指定した収集対象スイッチに設定する。尚、統計情報を収集するためのフローエントリは、予め用意されたフローテーブルから抽出しても良い。記憶装置30は、統計情報を格納する領域として統計情報記憶部31を有する。統計情報収集部21によって収集された統計情報は、収集元のOFS1と対応付けられて統計情報記憶部31に記録される。   The statistical information collection unit 21 designates OFS1 in which a flow entry corresponding to an abnormal communication flow is set as a statistical information collection target switch, and collects statistical information of a flow (packet data) that matches the flow entry. To do. At this time, the statistical information collection unit 21 generates a flow entry for collecting the statistical information of the flow and sets the flow entry in the designated collection target switch. A flow entry for collecting statistical information may be extracted from a flow table prepared in advance. The storage device 30 includes a statistical information storage unit 31 as an area for storing statistical information. The statistical information collected by the statistical information collection unit 21 is recorded in the statistical information storage unit 31 in association with the collection source OFS 1.

収集対象スイッチとして指定されたOFS1は、設定された統計情報収集用のフローエントリに適合するパケットの処理回数(例えば転送回数)を、統計情報としてデータ処理装置20に送信する。統計情報収集部21は、統計情報を収集する期間をOFS1に指定することが好ましい。この場合、OFS1は、指定された期間内における統計情報を取得し、データ処理装置20に送信する。   The OFS 1 designated as the collection target switch transmits the packet processing count (for example, the transfer count) that matches the set statistical information collection flow entry to the data processing device 20 as statistical information. It is preferable that the statistical information collection unit 21 designates a period for collecting statistical information in the OFS 1. In this case, the OFS 1 acquires statistical information within the designated period and transmits it to the data processing device 20.

例えば、sFlowでは、所定のサンプリング周期で取得されたパケットを解析することで、フロー毎の統計情報を求めている。この場合、データ転送のタイミングによっては、実際のトラフィック状況と異なる結果となる場合がある。一方、本発明によるOFS1は、フローに応じた処理毎に、パケットの統計情報を収集している。このため、監視対象のフローに対する実際のトラフィック状況に応じた統計情報を得ることができる。又、OFS1は、フローテーブル11に適合するフローのみを統計情報の収集対象とするため、sFlowのようにサンプリング処理を行うことなく処理負荷が低減される。   For example, in sFlow, statistical information for each flow is obtained by analyzing a packet acquired at a predetermined sampling period. In this case, depending on the timing of data transfer, the result may differ from the actual traffic situation. On the other hand, the OFS 1 according to the present invention collects packet statistical information for each process corresponding to a flow. For this reason, it is possible to obtain statistical information according to the actual traffic situation for the flow to be monitored. Further, since the OFS 1 sets only the flow that conforms to the flow table 11 as a statistical information collection target, the processing load is reduced without performing the sampling processing as in the case of sFlow.

フロー経路計算部22は、記憶装置30におけるトポロジ情報記憶部33から取得した各OFSの物理的な接続関係(トポロジ情報)を用いて、障害が発生している通信フローが通過するOFS1の経路を算出する。算出された経路は経路情報として異常箇所計算部23に出力される。   The flow path calculation unit 22 uses the physical connection relationship (topology information) of each OFS acquired from the topology information storage unit 33 in the storage device 30 to determine the path of the OFS 1 through which the communication flow in which the failure has occurred passes. calculate. The calculated route is output to the abnormal point calculation unit 23 as route information.

トポロジ情報は、OFS1やノード(例えば、HOST6)、外部ネットワーク(例えばインターネット)等の接続状況に関する情報を含む。具体的には、トポロジ情報として、スイッチやノードを特定する装置識別子に、当該装置のポート数やポート接続先情報が対応付けられて記憶装置に記録される。ポート接続先情報は、接続相手を特定する接続種別(スイッチ/ノード/外部ネットワーク)や接続先を特定する情報(スイッチの場合はスイッチID、ノードの場合はMACアドレス、外部ネットワークの場合は外部ネットワークID)が含まれる。   The topology information includes information related to the connection status of the OFS 1, node (for example, HOST 6), external network (for example, the Internet), and the like. Specifically, as the topology information, the device identifier that identifies the switch or node is associated with the number of ports of the device and port connection destination information and recorded in the storage device. The port connection destination information includes the connection type (switch / node / external network) that identifies the connection partner and the information that identifies the connection destination (switch ID for a switch, MAC address for a node, external network for an external network) ID).

通信経路情報は、通信経路を特定するための情報である。詳細には、通信経路情報として、ノード(例えばHOST6)、あるいは、外部ネットワークインタフェースを端点として指定する端点情報と、通過するOFS1とポートの対群を指定する通過スイッチ情報とが対応付けられる。例えば、2つのHOST6を接続する経路である場合、2つのHOST6のそれぞれのMACアドレスが端点情報として記録される。通過スイッチ情報は、端点情報で示される端点間の通信経路上に設けられるOFS1の識別子を含む。   The communication path information is information for specifying a communication path. Specifically, as communication path information, end point information that designates a node (for example, HOST 6) or an external network interface as an end point, and passing switch information that designates a pair group of OFS 1 and a port to pass through are associated with each other. For example, in the case of a path connecting two HOSTs 6, the MAC addresses of the two HOSTs 6 are recorded as end point information. The passing switch information includes the identifier of the OFS 1 provided on the communication path between the end points indicated by the end point information.

異常箇所計算部23は、障害が発生、又は品質が低下している通信フローの経路上の統計情報を分析し、パケットロスが発生している箇所を特定する。異常箇所計算部23は、異常のある通信経路において、隣接する2つのスイッチから収集された統計情報の比較結果に応じて当該スイッチ間におけるパケットロスを算出する。又、通信経路内の各区間におけるパケットロスが大きく変化する区間を、異常箇所として特定する。異常箇所や通信経路上における各区間のパケットロスは、出力装置40によって視認可能に出力される。   The abnormal part calculation unit 23 analyzes statistical information on the path of the communication flow in which a failure has occurred or the quality has deteriorated, and identifies a part where a packet loss has occurred. The abnormal part calculation unit 23 calculates a packet loss between the switches according to the comparison result of the statistical information collected from two adjacent switches in the communication path with the abnormality. In addition, a section where the packet loss in each section in the communication path changes greatly is specified as an abnormal part. The packet loss of each section on the abnormal part or the communication path is output by the output device 40 so as to be visible.

本発明では、フローを指定することで、当該フローに対応するフローエントリが設定されたOFS1及び通信経路を一意に特定することができる。このため、障害が発生したフローを特定することで、異常のある通信経路、及び異常通信経路上のOFSを特定することができる。又、特定したOFSに対して統計情報を収集するためのフローエントリを設定することで、異常通信経路上のフローに対する統計情報のみを選択して収集することができる。更に、通信経路上のOFS1から収集した統計情報を比較することで、パケットロスの大きさを区間毎に確認することができる。更に、パケットロスの変化が大きい箇所を特定できるため、当該箇所を通信障害や品質低下の原因箇所として特定することができる。   In the present invention, by specifying a flow, the OFS 1 and the communication path in which the flow entry corresponding to the flow is set can be uniquely specified. For this reason, by identifying the flow in which a failure has occurred, it is possible to identify an abnormal communication path and an OFS on the abnormal communication path. Also, by setting a flow entry for collecting statistical information for the specified OFS, only statistical information for flows on the abnormal communication path can be selected and collected. Further, by comparing the statistical information collected from OFS1 on the communication path, the magnitude of the packet loss can be confirmed for each section. Furthermore, since the location where the packet loss change is large can be identified, the location can be identified as a location causing communication failure or quality degradation.

データ処理装置20に対する通信の異常通知は、異常検知装置4によって行われる。異常検知装置4は、一般的に用いられるネットワーク監視機器と同様に、ネットワーク内の品質低下や、障害発生を検出する。あるいは、異常検知装置4は、HOST6のユーザからの苦情(例えば、所定のコンピュータからのFTPが遅いや、ストリーミングが乱れる等)を通信異常として検知してもよい。又、本発明による異常検知装置4は、異常通知とともに、異常のある通信で転送されるパケットデータのヘッダ情報をデータ処理装置20に通知する。通知されるヘッダ情報は、例えば、送信元IPアドレス、宛先IPアドレス、プロトコル番号、送信元ポート番号、宛先ポート番号を含む。   Communication abnormality notification to the data processing device 20 is performed by the abnormality detection device 4. The abnormality detection device 4 detects a deterioration in quality in the network and the occurrence of a failure in the same manner as a commonly used network monitoring device. Alternatively, the abnormality detection device 4 may detect a complaint from the user of the HOST 6 (for example, slow FTP from a predetermined computer or disordered streaming) as a communication abnormality. In addition, the abnormality detection device 4 according to the present invention notifies the data processing device 20 of the header information of the packet data transferred by the abnormal communication together with the abnormality notification. The notified header information includes, for example, a transmission source IP address, a destination IP address, a protocol number, a transmission source port number, and a destination port number.

(コンピュータシステムにおける異常箇所特定動作)
次に、図3から図6を参照して、本発明による異常箇所特定処理の動作の詳細を説明する。図3は、本発明による異常箇所特定処理の動作の一例を示すフロー図である。
(Abnormal part identification operation in computer system)
Next, with reference to FIG. 3 to FIG. 6, the details of the operation of the abnormal part specifying process according to the present invention will be described. FIG. 3 is a flowchart showing an example of the operation of the abnormal location specifying process according to the present invention.

障害検知装置4は、障害が発生したフローのヘッダ情報(送信元IPアドレス、宛先IPアドレス、プロトコル番号、送信元ポート番号、宛先ポート番号)を障害箇所計算部23に通知する(ステップS11)。異常箇所計算部23は、通知されたヘッダ情報に基づき、統計情報収集用のフローエントリを計算する(ステップS12)。   The failure detection device 4 notifies the failure location calculation unit 23 of the header information (source IP address, destination IP address, protocol number, source port number, destination port number) of the flow in which the failure has occurred (step S11). The abnormal part calculation unit 23 calculates a flow entry for collecting statistical information based on the notified header information (step S12).

ステップS12では、障害箇所計算部23は、障害が発生したフローのヘッダ情報に一致するフロー情報と、所定の統計情報(例えば受信パケット数)を収集するためのアクションとが対応付けられたフローエントリをフロー情報統計情報収集用のフローエントリとして生成する。例えば、統計情報収集用のフローエントリには、フロー情報として、送信元IPアドレス:HOST6−1、宛先IPアドレス:HOST6−2、プロトコル番号:6、送信元ポート番号:*、宛先ポート番号:80が設定され、アクションとして受信パケット数の収集する処理が設定される。   In step S12, the failure location calculation unit 23 associates the flow information that matches the header information of the flow in which the failure has occurred with an action for collecting predetermined statistical information (for example, the number of received packets). Is generated as a flow entry for collecting flow information statistical information. For example, in a flow entry for collecting statistical information, as flow information, a source IP address: HOST6-1, a destination IP address: HOST6-2, a protocol number: 6, a source port number: *, a destination port number: 80 Is set, and processing for collecting the number of received packets is set as an action.

次に、異常箇所計算部23は、フローテーブル31を参照して、障害が発生したフローに対応するフローエントリが設定されているOFS1を特定し、これを統計情報収集対象スイッチとして設定する(ステップS13)。この際、フロー経路計算部22は、障害が発生したフローに対応するOFS1(統計情報収集対象スイッチ)を始点から終点まで順に辿ることで異常のある通信経路を特定することができる。 Next, the abnormal point calculation unit 23 refers to the flow table 31 to identify the OFS 1 in which the flow entry corresponding to the flow in which the failure has occurred is set, and sets this as the statistical information collection target switch (step S13). At this time, the flow path calculation unit 22 can identify an abnormal communication path by tracing the OFS 1 (statistical information collection target switch) corresponding to the flow in which a failure has occurred in order from the start point to the end point.

統計情報収集対象スイッチが特定されると、統計情報の収集が行われる(ステップS14)。ステップS14において、統計情報収集部21は、異常箇所計算部23から通知された統計情報収集用のフローエントリを、統計情報収集対象スイッチに設定(指定)されたOFS1に指定する。ここでは、OFS1−1〜1−5が統計情報収集対象スイッチに設定(指定)される。OFS1−1〜1−5は、統計情報収集部12から指定された期間中、設定された統計情報収集用のフローエントリに適合する受信パケット数を計数し、統計情報として統計情報収集部21に送信する。ここで、各OFS1における統計情報の取得期間は、同一時刻を開始時刻とする同じ期間が設定されることが好ましい。統計情報収集部21は、OFS1−1〜1−5から送信された統計情報をそれぞれの識別子に対応付けて統計情報記憶部32に記録する。   When the statistical information collection target switch is specified, statistical information is collected (step S14). In step S <b> 14, the statistical information collection unit 21 designates the statistical information collection flow entry notified from the abnormal point calculation unit 23 in the OFS 1 set (designated) in the statistical information collection target switch. Here, OFS 1-1 to 1-5 are set (designated) in the statistics information collection target switch. The OFS 1-1 to 1-5 count the number of received packets that match the set statistical information collection flow entry during the period specified by the statistical information collection unit 12, and send the statistical information to the statistical information collection unit 21 as statistical information. Send. Here, the statistical information acquisition period in each OFS 1 is preferably set to the same period starting from the same time. The statistical information collection unit 21 records the statistical information transmitted from the OFS 1-1 to 1-5 in the statistical information storage unit 32 in association with each identifier.

図5は、本発明によるデータ処理装置20によって収集される統計情報の一例を示す図である。図5に示す一例では、統計情報として、受信パケット数が収集される。ここで収集される統計情報は、送信元IPアドレスがHOST6−1であるフローエントリに対応するため、HOST6−1側から送信されたパケットの受信数が収集される。図5を参照して、OFS1−1〜1−3における受信パケット数は、“9999”であり、OFS1−3〜1−5における受信パケット数は“555”である。   FIG. 5 is a diagram showing an example of statistical information collected by the data processing device 20 according to the present invention. In the example shown in FIG. 5, the number of received packets is collected as statistical information. Since the statistical information collected here corresponds to the flow entry whose source IP address is HOST6-1, the number of received packets transmitted from the HOST6-1 side is collected. Referring to FIG. 5, the number of received packets in OFS 1-1 to 1-3 is “9999”, and the number of received packets in OFS 1-3 to 1-5 is “555”.

一方、ステップS13において、フロー経路計算部22は、トポロジ情報記憶部33から各OFSの物理的な接続関係を解析しフローの経路(異常通信経路)を算出している。詳細には、フロー経路計算部22は、異常検知装置4からのヘッダ情報に基づいて端点を特定し、統計情報収集対象スイッチを、端点間の経路上のスイッチとして通信経路(異常通信経路)を特定する。この結果、例えば、図4に示すような通信経路が算出される。ここでは、HOST6−1、6−2を端点とし、OFS1−1〜1−5を通過する経路が算出される。   On the other hand, in step S13, the flow path calculation unit 22 analyzes the physical connection relationship of each OFS from the topology information storage unit 33 and calculates a flow path (abnormal communication path). Specifically, the flow path calculation unit 22 identifies an end point based on the header information from the anomaly detection device 4, and sets a statistical information collection target switch as a switch on the path between the end points as a communication path (abnormal communication path). Identify. As a result, for example, a communication path as shown in FIG. 4 is calculated. Here, a route passing through OFS 1-1 to 1-5 with HOSTs 6-1 and 6-2 as end points is calculated.

統計情報の収集と異常通信経路の計算が終了すると、異常箇所計算部23は、異常通信経路上において隣接する2つのスイッチ間の統計情報を比較し、異常箇所を特定する(ステップS16)。図4及び図5に示す一例では、HOST6−1側からの受信パケット数が、OFS1−2とOFS1−3との間で大きく変化している。この場合、OFS1−2とOFS1−3との間で大きなパケットロスが生じていると判定され、当該区間が通信異常の原因箇所と特定される。   When the collection of the statistical information and the calculation of the abnormal communication path are completed, the abnormal part calculation unit 23 compares the statistical information between two adjacent switches on the abnormal communication path and identifies the abnormal part (step S16). In the example shown in FIGS. 4 and 5, the number of received packets from the HOST 6-1 side varies greatly between OFS 1-2 and OFS 1-3. In this case, it is determined that a large packet loss has occurred between OFS1-2 and OFS1-3, and the section is identified as a cause of communication abnormality.

図5に示す統計情報の一例では、隣接するスイッチ間における統計情報に差が生じる箇所が1区間のみであるが、これに限らず、複数の箇所で差が生じる場合がある。この場合、それぞれの差は、それぞれのOFS間におけるパケットロスとして表示することができる。又、このパケットロスが最大の区間を異常箇所として特定してもよいし、パケットロスが所定の閾値異常の区間を異常箇所として特定してもよい。ここで、異常箇所を判定するための閾値は、予め設定された値でも、収集した統計情報に基づいて設定された値(例えば偏差値等)でも良い。   In the example of the statistical information illustrated in FIG. 5, only one section has a difference in statistical information between adjacent switches. However, the present invention is not limited to this, and a difference may occur in a plurality of locations. In this case, each difference can be displayed as a packet loss between each OFS. Further, a section with the maximum packet loss may be specified as an abnormal part, or a section with a predetermined packet error in a predetermined threshold value may be specified as an abnormal part. Here, the threshold value for determining the abnormal part may be a preset value or a value (for example, a deviation value) set based on the collected statistical information.

図3に示す一例では、異常のある通信経路上における各OFS間におけるパケットロスを精度よく計算し、表示することができる。一方、図6に示すフローのように、通信経路における送信元の端点から順に、OFS1間のパケットロスを計算することで、早期に異常箇所のみを検出することが可能となる。   In the example shown in FIG. 3, the packet loss between each OFS on an abnormal communication path can be accurately calculated and displayed. On the other hand, as in the flow shown in FIG. 6, by calculating the packet loss between the OFSs 1 in order from the transmission source end point in the communication path, it is possible to detect only the abnormal part at an early stage.

図6は、本発明による異常箇所特定処理の動作の他の一例を示すフロー図である。ステップS11〜S14までは、上述(図3)と同様な動作が行われる。   FIG. 6 is a flowchart showing another example of the operation of the abnormal location specifying process according to the present invention. From step S11 to S14, the same operation as described above (FIG. 3) is performed.

統計情報の収集と通信経路の計算が終了すると、異常箇所計算部23は、通信経路上において隣接するスイッチ間の統計情報を通信経路の開始点から順に比較し、スイッチ間のパケットロスを計算する。(ステップS21)。詳細には、異常箇所計算部23は、特定した異常通信経路の開始点からから最も近いOFS1−1とOFS1−2の受信パケット数の差を当該区間におけるパケットロスとして算出する。   When the collection of the statistical information and the calculation of the communication path are completed, the abnormal point calculation unit 23 calculates the packet loss between the switches by sequentially comparing the statistical information between the adjacent switches on the communication path from the start point of the communication path. . (Step S21). Specifically, the abnormal point calculation unit 23 calculates a difference in the number of received packets of OFS 1-1 and OFS 1-2 closest to the specified abnormal communication path start point as a packet loss in the section.

次に、異常箇所計算部23は、パケットロスが所定の閾値以上となるかを判定する(ステップS22)。例えば、OFS1−1とOFS1−2の間のパケットロスは“0”である。ここで、異常判定のための閾値が、“2000”である場合、この区間は、正常区間と判定され、ステップS21に移行する。   Next, the abnormal point calculation unit 23 determines whether the packet loss is equal to or greater than a predetermined threshold (step S22). For example, the packet loss between OFS 1-1 and OFS 1-2 is “0”. Here, when the threshold value for abnormality determination is “2000”, this section is determined as a normal section, and the process proceeds to step S21.

ステップS21、S22の処理は、OFS間のパケットロスが閾値を越えるまで続けられる。ここで、OFS1−2とOFS1−2との間のパケットロスは、“9944”となり閾値“2000”より大きいため、この区間が異常箇所として特定される(ステップS23)。   The processes in steps S21 and S22 are continued until the packet loss between OFS exceeds a threshold value. Here, since the packet loss between OFS 1-2 and OFS 1-2 is “9944” and larger than the threshold value “2000”, this section is specified as an abnormal location (step S23).

以上のように、図6に示す方法では、異常箇所が特定されるまで統計情報の比較判定が行われ、特定後の比較判定処理が省略されるため、データ処理装置20における処理負荷が軽減されるとともに、障害検出速度が向上する。   As described above, in the method shown in FIG. 6, the statistical information is compared and determined until an abnormal part is specified, and the comparison and determination processing after specification is omitted. Therefore, the processing load on the data processing device 20 is reduced. In addition, the failure detection speed is improved.

従来技術によれば、数千台規模のコンピュータ装置を有するネットワークにおいて障害が発生した場合、原因となっている機器とポートを特定することは通常困難である。一方、本発明では、障害が発生したフローに対応するフローエントリを特定することで統計情報の収集対象となる通信経路(スイッチ)及びフロー(パケットデータ)を特定できる。このため、障害発生箇所を特定するために収集するデータ量や計算量は大幅に減少する。又、指定したフロー対する全ての統計情報を収集するため、従来のサンプリングによる統計情報の収集比べて精確なパケットロス等の検証及び異常箇所の特定を行うことができる。   According to the prior art, when a failure occurs in a network having thousands of computer devices, it is usually difficult to identify the cause device and port. On the other hand, in the present invention, it is possible to specify a communication path (switch) and a flow (packet data) to be collected statistics information by specifying a flow entry corresponding to a flow in which a failure has occurred. For this reason, the amount of data and the amount of calculation to be collected in order to identify the location where the failure has occurred are greatly reduced. In addition, since all the statistical information for the specified flow is collected, it is possible to perform more accurate verification of packet loss and the like and to identify an abnormal portion than the collection of statistical information by conventional sampling.

又、本発明によれば、TRAP、SYSLOG等のアラート監視や死活監視では検知できないサイレント障害であっても、その原因箇所を特定することができる。その理由は、TRAPやICMP(Internet Control Message Protocol)ではなくパケットロスを確認することで原因箇所を特定しているためである。   In addition, according to the present invention, the cause of a silent failure that cannot be detected by alert monitoring such as TRAP or SYSLOG or life / death monitoring can be identified. The reason is that the cause is identified by checking the packet loss, not by TRAP or ICMP (Internet Control Message Protocol).

以上、本発明の実施の形態を詳述してきたが、具体的な構成は上記実施の形態に限られるものではなく、本発明の要旨を逸脱しない範囲の変更があっても本発明に含まれる。   The embodiment of the present invention has been described in detail above, but the specific configuration is not limited to the above-described embodiment, and changes within a scope not departing from the gist of the present invention are included in the present invention. .

1、1−1〜1−n:オープンフロースイッチ(OFS)
2:オープンフローコントローラ(OFC)
4:異常検知装置
6、6−1〜6−m:ホストコンピュータ(HOST)
10:フロー制御部
11、31:フローテーブル
20:データ処理装置
21:統計情報収集部
22:フロー経路計算部
23:異常箇所計算部
30:記憶装置
32:統計情報記憶部
33:トポロジ情報記憶部
40:出力装置
1, 1-1 to 1-n: Open flow switch (OFS)
2: Open flow controller (OFC)
4: Abnormality detection device 6, 6-1 to 6-m: Host computer (HOST)
10: Flow control unit 11, 31: Flow table 20: Data processing device 21: Statistical information collection unit 22: Flow path calculation unit 23: Abnormal point calculation unit 30: Storage device 32: Statistical information storage unit 33: Topology information storage unit 40: Output device

Claims (10)

コントローラと、
前記コントローラによってフローエントリが設定されたフローテーブルを保持し、前記フローエントリに適合する受信パケットに対し、前記フローエントリにおいてアクションとして規定された中継動作を行うスイッチと、
前記スイッチは、異常のある通信に対応するフローエントリにおいてアクションとして規定された統計情報の収集を実行し、
前記スイッチを介して通信を行う複数のコンピュータと、
前記異常のある通信に対応するフローエントリが設定された複数の前記スイッチから、前記異常のある通信に対する統計情報を収集し、前記統計情報に応じて前記異常のある通信の原因箇所を特定するデータ処理装置と
を具備する
コンピュータシステム。
A controller,
A switch that holds a flow table in which a flow entry is set by the controller and performs a relay operation defined as an action in the flow entry for a received packet that matches the flow entry;
The switch performs collection of statistical information defined as an action in a flow entry corresponding to abnormal communication,
A plurality of computers that communicate via the switch;
A plurality of said switches flow entry is set corresponding to the communication with the abnormality, the gathers statistics for a communication error, to identify the cause location of the communication with the abnormality in accordance with the statistical data A computer system comprising a processing device.
請求項1に記載のコンピュータシステムにおいて、
前記データ処理装置は、
前記異常のある通信に対応するフローエントリと、前記複数のコンピュータと前記スイッチとの接続関係を示すトポロジ情報とを用いて、前記異常のある通信の経路を計算する通信経路計算部と、
前記通信経路において、隣接する2つのスイッチのそれぞれから収集された統計情報の差が所定の閾値以上の箇所を、前記原因箇所として特定する異常箇所計算部と
を備える
コンピュータシステム。
The computer system of claim 1,
The data processing device includes:
A communication path calculation unit that calculates a path of the abnormal communication using a flow entry corresponding to the abnormal communication and topology information indicating a connection relationship between the plurality of computers and the switch;
A computer system comprising: an abnormality location calculator that identifies, as the cause location, a location where a difference in statistical information collected from each of two adjacent switches in the communication path is equal to or greater than a predetermined threshold.
請求項1又は2に記載のコンピュータシステムにおいて、
前記データ処理装置は、前記異常のある通信に対応するフローエントリが設定されたスイッチに対し、統計情報収集用のフローエントリを設定する統計情報収集部を備え、
前記統計情報収集用のフローエントリが設定されたスイッチは、前記統計情報収集用のフローエントリに適合するパケットの、所定の期間内における統計情報を前記データ処理装置に送信する
コンピュータシステム。
The computer system according to claim 1 or 2,
The data processing device includes a statistical information collection unit that sets a flow entry for collecting statistical information for a switch in which a flow entry corresponding to the abnormal communication is set,
The switch in which the statistical information collection flow entry is set transmits the statistical information within a predetermined period of a packet matching the statistical information collection flow entry to the data processing apparatus.
請求項1から3のいずれか1項に記載のコンピュータシステムにおいて、
異常のある通信を検知し、前記異常のある通信において転送されるデータのヘッダ情報を前記データ処理装置に通知する異常検知装置を更に具備し、
前記データ処理装置は、前記ヘッダ情報に適合するフローエントリを前記異常のある通信に対応するフローエントリとして特定する
コンピュータシステム。
The computer system according to any one of claims 1 to 3,
Further comprising an abnormality detection device that detects abnormal communication and notifies the data processing device of header information of data transferred in the abnormal communication;
The data processing device identifies a flow entry that matches the header information as a flow entry corresponding to the abnormal communication.
請求項1から4のいずれか1項に記載のコンピュータシステムにおいて、
前記統計情報は、前記スイッチにおいて、前記データ処理装置によって指定されたフローに適合する受信パケット数である
コンピュータシステム。
The computer system according to any one of claims 1 to 4,
The statistical information is the number of received packets that match a flow specified by the data processing device in the switch.
コントローラと、
前記コントローラによってフローエントリが設定されたフローテーブルを保持し、前記フローエントリに適合する受信パケットに対し、前記フローエントリにおいてアクションとして規定された中継動作を行うスイッチと、
前記スイッチは、異常のある通信に対応するフローエントリにおいてアクションとして規定された統計情報の収集を実行し、
前記スイッチを介して通信を行う複数のコンピュータと、
を具備するコンピュータシステムの監視方法において、
前記異常のある通信に対応するフローエントリが設定された複数の前記スイッチから、前記異常のある通信に対する統計情報を収集するステップと、
前記統計情報を用いて前記異常のある通信の原因箇所を特定するステップと
を具備する
コンピュータシステムの監視方法。
A controller,
A switch that holds a flow table in which a flow entry is set by the controller and performs a relay operation defined as an action in the flow entry for a received packet that matches the flow entry;
The switch performs collection of statistical information defined as an action in a flow entry corresponding to abnormal communication,
A plurality of computers that communicate via the switch;
In a monitoring method for a computer system comprising:
A plurality of said switches flow entry is set corresponding to the communication with the abnormality, the step of collecting statistics for communications with the abnormality,
The computer system monitoring method comprising: using the statistical information to identify a cause of the abnormal communication.
請求項6に記載のコンピュータシステムの監視方法において、
前記特定するステップは、
前記異常のある通信に対応するフローエントリと、前記複数のコンピュータと前記スイッチとの接続関係を示すトポロジ情報とを用いて、前記異常のある通信の経路を計算するステップと、
前記通信経路において、隣接する2つのスイッチのそれぞれから収集された統計情報の差を計算するステップと、
前記差が所定の閾値以上の箇所を、前記原因箇所として特定するステップと
を備える
コンピュータシステムの監視方法。
The computer system monitoring method according to claim 6, wherein:
The identifying step includes:
Calculating a path of the abnormal communication using a flow entry corresponding to the abnormal communication and topology information indicating a connection relationship between the plurality of computers and the switch;
Calculating a difference of statistical information collected from each of two adjacent switches in the communication path;
A computer system monitoring method comprising: identifying a location where the difference is equal to or greater than a predetermined threshold as the cause location.
請求項6又は7に記載のコンピュータシステムの監視方法において、
前記収集するステップは、
前記異常のある通信に対応するフローエントリが設定されたスイッチに対し、統計情報収集用のフローエントリを設定するステップと、
前記統計情報収集用のフローエントリが設定されたスイッチが、前記統計情報収集用のフローエントリに適合するパケットの、所定の期間内における統計情報を前記データ処理装置に送信するステップと
を備える
コンピュータシステムの監視方法。
In the monitoring method of the computer system of Claim 6 or 7,
The collecting step includes
Setting a flow entry for collecting statistical information for a switch in which a flow entry corresponding to the abnormal communication is set;
A switch in which a flow entry for collecting statistical information is set, and transmitting statistical information within a predetermined period of a packet that matches the flow entry for collecting statistical information to the data processing device. Monitoring method.
請求項6から8のいずれか1項に記載のコンピュータシステムの監視方法において、
異常のある通信を検知するステップと、
前記異常のある通信において転送されるデータのヘッダ情報を前記データ処理装置に通知するステップと
を更に具備し、
前記特定するステップは、前記ヘッダ情報に適合するフローエントリを前記異常のある通信に対応するフローエントリとして特定するステップを備える
コンピュータシステムの監視方法。
In the monitoring method of the computer system of any one of Claim 6 to 8,
Detecting abnormal communication; and
Further comprising the step of notifying the data processing device of header information of data transferred in the abnormal communication,
The computer system monitoring method includes the step of specifying the flow entry matching the header information as a flow entry corresponding to the abnormal communication.
請求項6から9のいずれか1項に記載のコンピュータシステムの監視方法において、
前記統計情報は、前記スイッチにおいて、前記異常のある通信に対応するフローエントリに適合する受信パケット数である
コンピュータシステムの監視方法。
In the monitoring method of the computer system of any one of Claim 6 to 9,
The computer system monitoring method, wherein the statistical information is a number of received packets that match a flow entry corresponding to the abnormal communication in the switch.
JP2010006918A 2010-01-15 2010-01-15 Computer system and computer system monitoring method Expired - Fee Related JP5207082B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010006918A JP5207082B2 (en) 2010-01-15 2010-01-15 Computer system and computer system monitoring method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010006918A JP5207082B2 (en) 2010-01-15 2010-01-15 Computer system and computer system monitoring method

Publications (2)

Publication Number Publication Date
JP2011146982A JP2011146982A (en) 2011-07-28
JP5207082B2 true JP5207082B2 (en) 2013-06-12

Family

ID=44461433

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010006918A Expired - Fee Related JP5207082B2 (en) 2010-01-15 2010-01-15 Computer system and computer system monitoring method

Country Status (1)

Country Link
JP (1) JP5207082B2 (en)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5994851B2 (en) * 2011-10-21 2016-09-21 日本電気株式会社 Transfer device control device, transfer device control method, communication system, and program
JP5637971B2 (en) * 2011-11-16 2014-12-10 エヌ・ティ・ティ・コムウェア株式会社 Monitoring device, monitoring method and program
JP5684748B2 (en) * 2012-02-28 2015-03-18 日本電信電話株式会社 Network quality monitoring apparatus and network quality monitoring method
US9036638B2 (en) 2012-08-09 2015-05-19 International Business Machines Corporation Avoiding unknown unicast floods resulting from MAC address table overflows
JP2015531552A (en) * 2012-09-06 2015-11-02 日本電気株式会社 Flow information collection system, method and program
KR101742894B1 (en) 2012-12-19 2017-06-01 닛본 덴끼 가부시끼가이샤 Communication node, control device, communication system, packet processing method, communication node control method, and program
JP2014171088A (en) * 2013-03-04 2014-09-18 Ntt Comware Corp Network monitoring device, service provision system, network monitoring method, and network monitoring program
US9253096B2 (en) 2013-03-15 2016-02-02 International Business Machines Corporation Bypassing congestion points in a converged enhanced ethernet fabric
US9954781B2 (en) 2013-03-15 2018-04-24 International Business Machines Corporation Adaptive setting of the quantized congestion notification equilibrium setpoint in converged enhanced Ethernet networks
US9219689B2 (en) 2013-03-15 2015-12-22 International Business Machines Corporation Source-driven switch probing with feedback request
US9401857B2 (en) 2013-03-15 2016-07-26 International Business Machines Corporation Coherent load monitoring of physical and virtual networks with synchronous status acquisition
JP5894963B2 (en) * 2013-04-30 2016-03-30 株式会社日立製作所 Analysis server and analysis method
JP6089940B2 (en) * 2013-05-08 2017-03-08 富士通株式会社 Failure determination program, apparatus, system, and method
JP6287518B2 (en) 2014-04-14 2018-03-07 富士通株式会社 OpenFlow switch and OpenFlow network failure recovery method
WO2021240663A1 (en) * 2020-05-26 2021-12-02 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ Communication log aggregation device and communication log aggregation method
WO2021241454A1 (en) * 2020-05-27 2021-12-02 日本電気株式会社 Error detection system, error recovery system, error detection method, and non-temporary computer readable medium
JP7706260B2 (en) * 2021-05-06 2025-07-11 三菱重工業株式会社 NETWORK DIAGNOSIS SYSTEM, NETWORK DIAGNOSIS METHOD, AND NETWORK DIAGNOSIS PROGRAM

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10150445A (en) * 1996-11-19 1998-06-02 Fujitsu Ltd Cell loss detection method
JP2001077814A (en) * 1999-09-08 2001-03-23 Mitsubishi Electric Corp Network failure analysis support device, network failure analysis method, and recording medium recording failure analysis program
JP3994614B2 (en) * 2000-03-13 2007-10-24 株式会社日立製作所 Packet switch, network monitoring system, and network monitoring method
JP4409394B2 (en) * 2004-09-17 2010-02-03 富士通株式会社 Communication system management device
JP4244356B2 (en) * 2006-08-31 2009-03-25 日本電信電話株式会社 Traffic analysis and control system

Also Published As

Publication number Publication date
JP2011146982A (en) 2011-07-28

Similar Documents

Publication Publication Date Title
JP5207082B2 (en) Computer system and computer system monitoring method
JP4774357B2 (en) Statistical information collection system and statistical information collection device
JP5300076B2 (en) Computer system and computer system monitoring method
JP4547340B2 (en) Traffic control method, apparatus and system
JP5120784B2 (en) Method for estimating quality degradation points on a network in a communication network system
WO2011155510A1 (en) Communication system, control apparatus, packet capture method and program
EP2081321A2 (en) Sampling apparatus distinguishing a failure in a network even by using a single sampling and a method therefor
JP4764810B2 (en) Abnormal traffic monitoring device, entry management device, and network system
EP2557731B1 (en) Method and system for independently implementing fault location by intermediate node
US9019817B2 (en) Autonomic network management system
CN110224883B (en) A Grey Fault Diagnosis Method Applied in Telecom Bearer Network
EP2608461A1 (en) Communication device, communication system, communication method, and recording medium
CN112311580B (en) Method, device and system for determining message transmission path, and computer storage medium
JP2010088031A (en) Fault detection method of underlay network, and network system
JP4412031B2 (en) Network monitoring system and method, and program
WO2011118575A1 (en) Communication system, control device and traffic monitoring method
CN102195832A (en) Loopback testing method, device and system
JP2007189615A (en) Network monitoring support apparatus, network monitoring support method, and network monitoring support program
CN114465897A (en) Method, device and system for monitoring data packets in service flow
CN106059850A (en) Link abnormity detection method, system, apparatus, and chip in IS-IS network
JP2013223191A (en) Communication system, control device, packet collection method and program
US7898955B1 (en) System and method for real-time diagnosis of routing problems
US11018935B1 (en) Network traffic quality-based dynamic path change
JP3953999B2 (en) Congestion detection apparatus, congestion detection method and program for TCP traffic
WO2011157108A2 (en) Method, apparatus and system for analyzing network transmission characteristics

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20111207

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20121108

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20121115

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20121227

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130124

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130206

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20160301

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 5207082

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees