[go: up one dir, main page]

JP2018116344A - 並列処理装置およびバーストエラー再現方法 - Google Patents

並列処理装置およびバーストエラー再現方法 Download PDF

Info

Publication number
JP2018116344A
JP2018116344A JP2017005046A JP2017005046A JP2018116344A JP 2018116344 A JP2018116344 A JP 2018116344A JP 2017005046 A JP2017005046 A JP 2017005046A JP 2017005046 A JP2017005046 A JP 2017005046A JP 2018116344 A JP2018116344 A JP 2018116344A
Authority
JP
Japan
Prior art keywords
information
unit
burst error
packet
control unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2017005046A
Other languages
English (en)
Other versions
JP6988092B2 (ja
Inventor
誠裕 前田
Masahiro Maeda
誠裕 前田
淳司 三木
Junji Miki
淳司 三木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2017005046A priority Critical patent/JP6988092B2/ja
Priority to US15/868,579 priority patent/US10581555B2/en
Publication of JP2018116344A publication Critical patent/JP2018116344A/ja
Application granted granted Critical
Publication of JP6988092B2 publication Critical patent/JP6988092B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L1/00Arrangements for detecting or preventing errors in the information received
    • H04L1/004Arrangements for detecting or preventing errors in the information received by using forward error control
    • H04L1/0045Arrangements at the receiver end
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F13/00Interconnection of, or transfer of information or other signals between, memories, input/output devices or central processing units
    • G06F13/38Information transfer, e.g. on bus
    • G06F13/42Bus transfer protocol, e.g. handshake; Synchronisation
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0602Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
    • G06F3/0614Improving the reliability of storage systems
    • G06F3/0619Improving the reliability of storage systems in relation to data integrity, e.g. data losses, bit errors
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0628Interfaces specially adapted for storage systems making use of a particular technique
    • G06F3/0655Vertical data movement, i.e. input-output transfer; data movement between one or more hosts and one or more storage devices
    • G06F3/0659Command handling arrangements, e.g. command buffers, queues, command scheduling
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0668Interfaces specially adapted for storage systems adopting a particular infrastructure
    • G06F3/0671In-line storage system
    • G06F3/0683Plurality of storage devices
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L1/00Arrangements for detecting or preventing errors in the information received
    • H04L1/0001Systems modifying transmission characteristics according to link quality, e.g. power backoff
    • H04L1/0036Systems modifying transmission characteristics according to link quality, e.g. power backoff arrangements specific to the receiver
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L1/00Arrangements for detecting or preventing errors in the information received
    • H04L1/004Arrangements for detecting or preventing errors in the information received by using forward error control
    • H04L1/0045Arrangements at the receiver end
    • H04L1/0052Realisations of complexity reduction techniques, e.g. pipelining or use of look-up tables
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L1/00Arrangements for detecting or preventing errors in the information received
    • H04L1/12Arrangements for detecting or preventing errors in the information received by using return channel
    • H04L1/16Arrangements for detecting or preventing errors in the information received by using return channel in which the return channel carries supervisory signals, e.g. repetition request signals
    • H04L1/18Automatic repetition systems, e.g. Van Duuren systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Human Computer Interaction (AREA)
  • Computer Security & Cryptography (AREA)
  • Quality & Reliability (AREA)
  • Detection And Prevention Of Errors In Transmission (AREA)
  • Debugging And Monitoring (AREA)
  • Information Transfer Systems (AREA)

Abstract

【課題】 伝送路等で発生するバーストエラーを再現する。【解決手段】 並列処理装置は、情報を相互に通信する複数の情報処理装置を有する。複数の情報処理装置の各々は、他の情報処理装置からの情報を受信する受信部と受信部で受信した情報を処理する情報処理部とを有する。受信部は、バーストエラー検出部と記憶部と書き込み制御部と伝送制御部を有する。バーストエラー検出部は、受信した情報にバーストエラーが発生したかを検出する。記憶部は、受信した情報を記憶する。書き込み制御部は、受信した情報を記憶部に逐次書き込み、バーストエラー検出部によるバーストエラーの検出に基づいて、記憶部への情報の書き込みを停止する。伝送制御部は、再現指示に基づいて、他の情報処理装置から受信する情報の伝送を遮断し、記憶部から読み出した情報を伝送する。【選択図】 図1

Description

本発明は、並列処理装置およびバーストエラー再現方法に関する。
例えば、データを送受信する回路では、受信側の回路の不具合に起因して、受信データが特定のパターンの場合にのみ誤動作が発生する場合がある。そこで、誤動作の原因を見つけやすくするために、誤動作を発生させた特定パターンを再現する再現装置が提案されている。この種の再現装置は、回路間で伝送されるデータを第1メモリに格納し、データがトリガ条件を含む場合、第1メモリへのデータの格納を停止し、第1メモリに記憶されたデータを第2メモリに格納する。そして、再現装置は、データを再現する指示に基づいて、第2メモリに記憶されたデータを第1メモリに展開し、展開されたデータを使用してトリガ条件が発生したときのデータパターンを受信側の回路に供給する(例えば、特許文献1参照)。
一方、プラントを監視する監視システムは、プラントからのプロセスデータを第1保存手段に格納し、異常の検出時に、第1保存手段に保存された異常の検出前のプロセスデータを第2保存手段に転送する。さらに、異常の検出後のプラントからのプロセスデータを第2保存手段に格納することで、プラントを監視し続ける場合にも、異常の検出の前後のプロセスデータは、消去されることなく第2保存手段に保存される。このため、第2保存手段に保存されたプロセス情報を使用して、異常時の状態をディスプレイに表示することが可能になる(例えば、特許文献2参照)。
特開2006−171882号公報 特開平6−68369号公報
ところで、伝送路を介して装置間でパケット等を伝送する場合、伝送路の品質等に依存してビットエラーが発生する。ビットエラーは、パケットを受信する装置により訂正される。例えば、伝送路の伝送品質を計る指標として、ビットエラーレート(BER)がある。ビットエラーレートは、”10”を基数とする指数で表される。ビットエラーレートが定常的にある範囲に収まっているエラー状態は、ランダムエラーと称され、ビットエラーレートが一時的にある範囲を超えるエラー状態は、バーストエラーと称される。
バーストエラーが発生したパケットを受信した装置は、バーストエラーの発生に対応して、例えば、パケットの再送要求等のエラー処理を実行する。バーストエラーのレベルが、パケットが認識されない程度まで悪化した場合、パケットを受信した装置は、パケットに対応する応答または再送要求をパケットの送信元に発行できず、装置間の通信は遮断される(リンクダウン)。
ここで、バーストエラーが再現できれば、パケットを受信する装置内でのバーストエラーの発生時の挙動を調べることができ、リンクダウンの原因を明らかにすることが可能になる。しかしながら、バーストエラーは、伝送路に発生するノイズ、伝送路に送信する信号を生成する回路の電圧変動または回路の周囲温度の変動等、制御が困難な外的要因により発生する。このため、リンクダウンの原因となったバーストエラーを再現することは困難である。
1つの側面では、本発明は、伝送路等で発生したバーストエラーを再現することを目的とする。
一つの実施態様では、情報を相互に通信する複数の情報処理装置を有し、複数の情報処理装置の各々が、他の情報処理装置からの情報を受信する受信部と受信部で受信した情報を処理する情報処理部とを有する並列処理装置において、受信部は、受信した情報にバーストエラーが発生したかを検出するバーストエラー検出部と、受信した情報を記憶する記憶部と、受信した情報を記憶部に逐次書き込み、バーストエラー検出部によるバーストエラーの検出に基づいて、記憶部への情報の書き込みを停止する書き込み制御部と、再現指示に基づいて、他の情報処理装置から受信する情報の伝送を遮断し、記憶部から読み出した情報を伝送する伝送制御部を有する。
1つの側面では、本発明は、伝送路等で発生したバーストエラーを再現することができる。
並列処理装置の一実施形態を示す図である。 図1に示す受信部の動作の一例を示す図である。 並列処理装置の別の実施形態を示す図である。 図3に示す受信部の一例を示す図である。 図3に示す情報処理装置の一例を示す図である。 図4に示すバーストエラー検出部によりバーストエラーを検出する方法の一例を示す図である。 ファームウェア等によりバーストエラーを検出する方法の一例を示す図である。 図3に示す再現コントローラの動作の一例を示す図である。 図4に示す受信部の動作の一例を示す図である。
以下、図面を用いて実施形態を説明する。信号が伝達される信号線には、信号名と同じ符号を使用する。
図1は、並列処理装置の一実施形態を示す。図1に示す並列処理装置100は、パケット等に含まれる情報を、伝送路110を介して相互に通信する複数の情報処理装置200を有する。図1では、2つの情報処理装置200が伝送路110を介して相互に接続されるが、各情報処理装置200は、伝送路110を介して2以上の情報処理装置200に接続されてもよい。並列処理装置100は、複数の情報処理装置200を使用して、計算処理またはデータ処理等の情報処理を並列に処理する。以下では、情報処理装置200を相互に接続する伝送路110を含む経路は、リンクとも称される。また、情報処理装置200間で相互に通信される情報は、パケットとして伝送路110に伝送される。
各情報処理装置200は、他の情報処理装置200からのパケットを受信する受信部1と、受信部1で受信したパケットを処理する情報処理部2と、情報処理部2が生成する情報をパケットとして他の情報処理装置200に送信する送信部3とを有する。
受信部1は、バーストエラー検出部4、書き込み制御部5、記憶部6、伝送制御部7および受信制御部8を有する。バーストエラー検出部4は、伝送制御部7の出力に接続された内部伝送路9を介して他の情報処理装置200からのパケットを受信し、受信したパケットにバーストエラーが発生したことを検出した場合、書き込み制御部5に停止指示を出力する。
書き込み制御部5は、停止指示を受ける前、内部伝送路9を介して他の情報処理装置200から受信したパケットを記憶部6に逐次書き込み、停止指示の受信に基づいて、パケットの記憶部6への書き込みを停止する。すなわち、書き込み制御部5は、バーストエラーが発生するまで、記憶部6にパケットを逐次書き込み、バーストエラーが発生した場合、記憶部6へのパケットの書き込みを停止する。なお、バーストエラーを検出する例は、図6で説明される。
記憶部6は、書き込み制御部5から供給されるパケットを記憶する複数の記憶領域を有する。記憶部6は、例えば、リングバッファとして動作し、パケットが全ての記憶領域に書き込まれた後、書き込み制御部5から供給される新たなパケットは、古いパケットが記憶された記憶領域に順に上書きされる。ここで、記憶部6に書き込まれるパケットは、バーストエラーが発生したときのエラーを含む。
伝送制御部7は、再現指示に基づいて、他の情報処理装置200からパケットを受信する伝送路110と内部伝送路9との接続を解除し、記憶部6からパケットが読み出される経路を内部伝送路9に接続する。すなわち、伝送制御部7は、再現指示に基づいて、他の情報処理装置200から受信するパケットの内部伝送路9への伝送を遮断し、記憶部6から読み出されるパケットを内部伝送路9に伝送する。例えば、再現指示は、並列処理装置100を管理する管理装置からの指示に基づいて、情報処理装置200に搭載される制御チップ等により生成される。なお、再現指示は、情報処理部2により生成されてもよい。
受信制御部8は、内部伝送路9を介して伝送制御部7から受信したパケットをチェックし、パケットがエラーを含まない場合、受信したパケットを情報処理部2に出力する。例えば、パケットにエラーが含まれる場合、情報処理装置200は、パケットを再送させる再送要求を送信部3からパケットの発行元の情報処理装置200に送信する。
さらに、ビットエラーレートが、受信制御部8によるパケットの識別が困難になる程度まで高くなった場合(バーストエラー)、再送要求等は発行されず、リンクがダウンする。例えば、パケットを発行した情報処理装置200は、発行したパケットに対応する応答(再送要求を含む)を1秒以上受信しない場合、パケットを送信したリンクをダウンさせる処理を実行する(リンクダウン)。
上述したように、バーストエラーの発生後、伝送制御部7は、再現指示に基づいて、他の情報処理装置200から受信制御部8への経路を遮断し、記憶部6からの経路を受信制御部8に接続する切り替えを実行する。この後、バーストエラーが発生したときのエラーを含むパケットが、伝送制御部7を介して記憶部6から受信制御部8に出力される。記憶部6に記憶されたパケットは、伝送路110等で発生したエラーを含んでいる。また、記憶部6には、パケットに含まれるデータだけではなく、ヘッダ部等を含むパケット全体が記憶される。
これにより、他の情報処理装置200からパケットを再度送信させることなく、受信部1は、バーストエラーが発生したときのエラーを含むパケットを忠実に再現することができる。そして、再現されたパケットに基づいて、例えば、受信制御部8または図示しない通信制御部等の動作が検証され、例えば、リンクダウンを発生させた原因が明らかにされる。バーストエラーが発生したときのエラーを含むパケットは、バーストエラー検出部4が出力する停止指示により、書き込み制御部5により上書きされることなく、記憶部6に記憶されている。このため、記憶部6からパケットを読み出すことで、バーストエラーが発生したときのエラーを含むパケットを何回でも再現することができ、受信制御部8または図示しない通信制御部の動作の検証を繰り返し実行することができる。
図2は、図1に示す受信部1の動作の一例を示す。すなわち、図2は、バーストエラーを再現させるバーストエラー再現方法の一例を示す。図2に示すフローは、所定の周期で実行される。
まず、ステップS10において、受信部1は、他の情報処理装置200からパケットを受信した場合、処理をステップS12に移行し、他の情報処理装置200からパケットを受信しない場合、処理を終了する。なお、初期状態において、伝送制御部7は、他の情報処理装置200からのパケットを内部伝送路9に出力する経路に切り替わっている。ステップS12において、伝送制御部7は、受信したパケットを受信制御部8に出力する。
次に、ステップS14において、書き込み制御部5は、内部伝送路9を介して受信したパケットを記憶部6に書き込む。なお、ステップS12、S14の処理は、逆順で実行されてもよく、並列に実行されてもよい。次に、ステップS16において、バーストエラー検出部4は、バーストエラーが発生したか否かを検出する。バーストエラーが発生していない場合、処理は終了し、バーストエラーが発生した場合、処理はステップS18に移行される。
ステップS18において、バーストエラー検出部4は、バーストエラーの検出に基づいて、記憶部6へのパケットの書き込みを停止する停止指示を書き込み制御部5に出力する。書き込み制御部5は、停止指示に基づいて、記憶部6へのパケットの書き込みを停止する。パケットの書き込みが停止されることにより、記憶部6は、バーストエラーが発生した情報を含むパケットを、上書き等により失うことなく保持することができる。
次に、ステップS20において、伝送制御部7は、再現指示の受信を待ち、再現指示を受信した場合、処理をステップS22に移行する。ステップS22において、伝送制御部7は、再現指示に基づいて、他の情報処理装置200から受信するパケットを内部伝送路9に出力する経路を遮断し、記憶部6から読み出されるパケットの経路を内部伝送路9に接続する。次に、ステップS24において、伝送制御部7は、記憶部6パケットを読み出し、読み出したパケットを内部伝送路9に出力し、処理を終了する。
以上、図1および図2に示す実施形態では、受信部1は、伝送路110等でバーストエラーが発生したときのエラーを含むパケットを、他の情報処理装置200からパケットを再送信させることなく再現することができる。そして、再現されたパケットに基づいて受信制御部8等の内部回路の動作を検証することができる。これにより、バーストエラーにより発生したリンクダウン等の不具合の原因を明らかにすることができる。
バーストエラーが発生したときのエラーを含むパケットは、書き込み制御部5により上書きされることなく、記憶部6に記憶されているため、他の情報処理装置200から受信したパケットを何回でも再現することができる。さらに、記憶部6には、パケットに含まれるデータだけではなく、ヘッダ部等を含むパケット全体が記憶されるため、バーストエラーが発生したときのエラーを含むパケットを忠実に再現することができる。
図3は、並列処理装置の別の実施形態を示す。図3に示す並列処理装置102は、パケット等に含まれる情報を、伝送路112を介して相互に通信する複数の情報処理装置202を有する。図3では、2つの情報処理装置202が伝送路112を介して相互に接続されるが、各情報処理装置202は、伝送路112を介して複数の情報処理装置202に接続されてもよい。以下では、情報処理装置202を相互に接続する伝送路112を含む経路は、リンクとも称される。並列処理装置102は、複数の情報処理装置202を使用して、計算処理またはデータ処理等の情報処理を並列に処理する。
各情報処理装置202は、CPU(Central Processing Unit)チップCHIPとメインメモリ44とを有する。以下では、CPUチップCHIPは、CHIPとも称される。なお、各情報処理装置202は、図示しないHDD(Hard Disk Drive)またはSSD(Solid State Drive)等の記憶装置と電源装置とを有する。メインメモリ44は、HMC(Hybrid Memory Cube)またはDIMM(Dual Inline Memory Module)等のメモリモジュールを含む。
CHIPは、CPUコア10、フレーム転送部20、インタフェース部30、再現コントローラ40およびメモリアクセスコントローラ42を有する。なお、CHIPは、複数のCPUコア10を有してもよい。CPUコア10は、他の情報処理装置202から受信する情報に基づいて処理を実行し、処理の実行結果を他の情報処理装置202に送信する。あるいは、CPUコア10は、他の情報処理装置202に処理させる情報を生成して他の情報処理装置202に送信し、処理の実行結果を他の情報処理装置202から受信する。CPUコア10は、情報処理部の一例である。
フレーム転送部20は、送信部50および受信部60を有する。送信部50は、CPUコア10から出力される情報を含むパケットをインタフェース部30および伝送路112を介して他の情報処理装置202に送信する。受信部60は、他の情報処理装置202からのパケットを、伝送路112およびインタフェース部30を介して受信し、受信したパケットをCPUコア10に向けて出力する。また、受信部60は、再現コントローラ40からの指示に基づいて、バーストエラーを再現させる動作を実行する。受信部60の例は、図4に示される。なお、フレーム転送部20は、送信部50が送信するパケットのフレームを生成するフレーム生成部、受信部60で受信してエラーが訂正されたパケットを保持する受信バッファ、リンクを制御するリンク制御部等を有する。
インタフェース部30は、DES(DESerializer)およびSER(SERializer)を有する。DESは、伝送路112を介して受信するシリアル信号をパラレル信号に変換し、変換したパラレル信号をフレーム転送部20に出力する。SERは、フレーム転送部20から受信するパラレル信号をシリアル信号に変換し、変換したシリアル信号を伝送路112に送信する。例えば、伝送路112は、シリアル信号をそれぞれ伝送する複数のレーンを、受信側と送信側とに有する。
再現コントローラ40は、後述するように、外部からの要求に基づいて、受信部60にバーストエラーを再現させる制御を実行する。例えば、並列処理装置102を管理するシステム管理者が、並列処理装置102を管理する図示しない管理装置を操作することにより、管理装置が外部からの要求を発行する。なお、外部からの要求は、CPUコア10を経由して再現コントローラ40に供給されてもよい。あるいは、再現コントローラ40の機能は、CPUコア10が実行する制御プログラムにより実現されてもよい。
メモリアクセスコントローラ42は、CPUコア10が出力するメモリアクセス要求(リード要求またはライト要求)に基づいて、メインメモリ44にアクセスする。
図4は、図3に示す受信部60の一例を示す。図4において、二重線の矢印は、パケットPCKTの伝送経路を示し、実線の矢印は、受信部が生成する制御信号を示し、破線の矢印は、再現コントローラ40が生成する制御信号を示す。
受信部60は、切り替え部62、パケットチェック部64、エラーカウンタ66、バーストエラー検出部68、書き込み制御部70、ポインタレジスタ72、パケットバッファ74および読み出し制御部76を有する。パケットチェック部64の入力および書き込み制御部70の入力は、内部伝送路63を介して切り替え部62の出力に接続される。切り替え部62および読み出し制御部76は、伝送制御部の一例である。パケットバッファ74は、記憶部の一例である。
切り替え部62は、切り替え指示を示す制御信号SWを再現コントローラ40から受信した場合、他の情報処理装置202からのパケットPCKTの伝送経路と内部伝送路63との接続を遮断する。そして、切り替え部62は、読み出し制御部76から出力されるパケットPCKTの伝送経路を内部伝送路63に接続する。切り替え信号SWは、第2の再現指示の一例である。
一方、切り替え部62は、復帰指示を示す制御信号SWを再現コントローラ40から受信した場合、読み出し制御部76から出力されるパケットPCKTの伝送経路と内部伝送路63との接続を遮断する。そして、切り替え部62は、他の情報処理装置202からのパケットPCKTの伝送経路を内部伝送路63に接続する。以下では、切り替え指示を示す制御信号SWは、切り替え信号SWと称され、復帰指示を示す制御信号SWは、復帰信号SWと称される。
パケットチェック部64は、内部伝送路63を介して切り替え部62から受信するパケットPCKTに含まれるデータ等の情報をチェックし、エラーを検出する毎にエラー検出信号EDETを出力する。エラー検出信号EDETは、エラー検出情報の一例である。パケットチェック部64は、パケットPCKTがエラーを含まない場合、パケットPCKTをフレーム転送部20内に設けられるバッファ部等を介してCPUコア10に出力する。パケットチェック部64は、チェック部の一例であり、エラー検出信号EDETは、エラー検出情報の一例である。なお、図5で説明されるように、パケットPCKTが情報処理装置202を経由して他の情報処理装置202に転送される場合、パケットPCKTは、CPUコア10に出力されることなく、他の情報処理装置202に転送される。
エラーカウンタ66は、パケットチェック部64から出力されるエラー検出信号EDETの数をカウントし、カウントにより得たカウンタ値COUNTを出力する。すなわち、カウンタ値COUNTは、パケットチェック部64で検出されたエラーの総数を示す。エラーカウンタ66は、カウンタ部の一例である。
バーストエラー検出部68は、時間間隔TPと閾値VTを書き替え可能に保持するレジスタ69を有する。レジスタ69に保持される時間間隔TPと閾値VTは、再現コントローラ40により書き替えられる。レジスタは、保持部の一例である。時間間隔TPと閾値VTを書き替え可能にすることで、並列処理装置102が設置される環境に応じて、バーストエラーの検出感度を最適に設定することができる。
バーストエラー検出部68は、レジスタ69に保持された時間間隔TPと閾値VTとに基づいてバーストエラーを検出した場合、バーストエラー検出信号BEDETを書き込み制御部70に出力する。また、バーストエラー検出部68は、バーストエラーを検出した場合、バーストエラーの発生を通知するためのバーストエラー信号BERRを、フレーム転送部20内に設けられるエラー処理部等に出力する。バーストエラー信号BERRは、CPUコア10に出力されてもよい。バーストエラーの検出方法の例は、図6で説明される。
書き込み制御部70は、解除指示を示す解除信号WRを受信した後、バーストエラー検出信号BEDETを受信するまで、内部伝送路63を介して受信したパケットPCKTをパケットバッファ74に逐次書き込む。すなわち、書き込み制御部70は、他の情報処理装置202から受信したパケットPCKTをパケットバッファ74に書き込む。また、書き込み制御部70は、バーストエラー検出信号BEDETの受信に基づいて、書き込み制御信号WCNTの生成を停止することで、パケットPCKTのパケットバッファ74への書き込みを停止する。バーストエラーの検出に基づいてパケットバッファ74へのパケットPCKTの書き込みを停止することで、バーストエラーの検出の前後に受信したパケットPCKTを書き込む場合に比べて、パケットバッファ74の回路規模を小さくすることができる。
例えば、書き込み制御部70は、パケットPCKTを書き込むパケットバッファ74内の記憶領域の位置をアドレス信号ADにより指定し、ライトイネーブル信号WEに同期してパケットPCKTをパケットバッファ74に書き込む。パケットPCKTのサイズが、パケットバッファ74の1つのアドレスADに割り当てられる記憶領域より大きい場合、書き込み制御部70は、パケットPCKTを複数回に分けてパケットバッファ74に書き込む。
パケットバッファ74は、アドレスADが割り当てられた複数の記憶領域を有し、情報を循環的に記憶するリングバッファとして動作する。パケットバッファ74は、レジスタ69に設定可能な最大の時間間隔TP内に受信するパケットPCKTを記憶可能な記憶容量を有する。このため、パケットバッファ74をリングバッファとして動作させる場合にも、バーストエラーが検出された時間間隔TPに受信したパケットPCKTを失うことなくパケットバッファ74に保持させることができる。パケットバッファ74には、パケットPCKTに含まれるデータだけではなく、ヘッダ部等を含むパケットPCKTの全体が記憶される。これにより、図1に示す受信部1と同様に、受信部60は、他の情報処理装置202からパケットPCKTを再度送信させることなく、バーストエラーが発生したときのエラーを含むパケットPCKTを忠実に再現することができる。
書き込み制御部70は、例えば、パケットPCKTをアドレスADが小さい側から順にパケットバッファ74の記憶領域に書き込む。書き込み制御部70は、パケットPCKTを最初に書き込んだアドレスAD(例えば、1番目のアドレスAD)をポインタ値としてポインタレジスタ72に書き込む。書き込み制御部70は、パケットバッファ74の全ての記憶領域にパケットPCKTを書き込んだ後、パケットPCKTを既に書き込んだ記憶領域に、アドレスADが小さい側から順に新たに受信したパケットPCKTを上書きする。この場合、書き込み制御部70は、上書きした記憶領域よりアドレスADが大きい側の記憶領域であって、最古のパケットPCKTを記憶する記憶領域の先頭アドレスADをポインタ値としてポインタレジスタ72に書き込む。
これにより、ポインタレジスタ72に保持されるポインタ値(アドレスAD)は、パケットバッファ74に記憶された最古のパケットPCKTの先頭を示す。すなわち、ポインタ値は、パケットバッファ74に記憶されたパケットPCKTのうち、受信部60が最も早く受信したパケットPCKTを示す。ポインタレジスタ72は、位置情報保持部の一例であり、ポインタレジスタ72に書き込まれるアドレスADは、位置情報の一例である。
さらに、書き込み制御部70は、再現コントローラ40から解除指示を示す解除信号WRを受信したことに基づいて、パケットバッファ74へのパケットPCKTの書き込みの停止状態を解除する。書き込み制御部70は、停止状態を解除した後、バーストエラー検出信号BEDETを受信するまで、内部伝送路63を介して受信したパケットPCKTをパケットバッファ74に逐次書き込む。この際、書き込み制御部70は、例えば、パケットバッファ74の先頭アドレスADから順に受信したパケットPCKTを書き込む。
ポインタレジスタ72は、書き込み制御部70によりアドレスADが書き込まれ、読み出し制御部76により、保持しているアドレスADが読み出される。読み出し制御部76は、再現コントローラ40から読み出し指示を示す読み出し信号RDを受信したことに基づいて、ポインタレジスタ72に保持されたアドレスADを読み出す。読み出し信号RDは、第1の再現指示の一例である。
読み出し制御部76は、ポインタレジスタ72から読み出したアドレスADを順に更新しながら、アドレスADとリードイネーブル信号REとをパケットバッファ74に出力する動作を繰り返す。そして、読み出し制御部76は、パケットバッファ74に記憶されたパケットPCKTを古い順に読み出し、読み出したパケットPCKTを、切り替え部62を介して内部伝送路63に出力する。
書き込み制御部70によりポインタレジスタ72に書き込まれたアドレスADは、読み出し対象のパケットPCKTのうち最古のパケットPCKTの格納位置を示す。このため、読み出し制御部76は、ポインタレジスタ72から読み出したアドレスADに基づいてパケットバッファ74にアクセスすることで、他の情報処理装置202が送信したパケットPCKTと同じ順序でパケットPCKTを読み出して出力することができる。すなわち、他の情報処理装置202が送信したパケットPCKTを再現することができる。
例えば、読み出し制御部76から切り替え部62に出力されるパケットPCKTの伝送レートは、切り替え部62で受信する他の情報処理装置202からのパケットPCKTの伝送レートに等しい。これにより、パケットバッファ74に記憶されたパケットPCKTを、他の情報処理装置202から受信するパケットPCKTと同じタイミングでパケットチェック部64に伝送することができる。すなわち、他の情報処理装置202からパケットPCKTを送信させることなく、バーストエラーが発生したときのエラーを含むパケットPCKTを再現することができる。
なお、パケットバッファ74から読み出されるパケットPCKTの伝送速度が、他の情報処理装置202から受信するパケットPCKTの伝送速度と異なる場合がある。この場合、読み出し制御部76内にパケットPCKTを一時的に保持するテンポラリバッファを設け、テンポラリバッファから読み出されるパケットPCKTの伝送速度を、他の情報処理装置202から受信するパケットPCKTの伝送速度に一致させてもよい。また、パケットバッファ74は、ライトポインタとリードポインタとを使用して、パケットPCKTの書き込みと読み出しとが制御されてもよい。
図5は、図3に示す情報処理装置202の一例を示す。図3と同様の構成については、詳細な説明は省略する。図5では、情報処理装置202は、X軸(X+、X−)とY軸(Y+、Y−)とZ軸(Z+、Z−)とA軸とB軸(B+、B−)とC軸とを有する6次元メッシュ/トーラス・ネットワークに接続するためのインタコネクト部80を有する。このため、インタコネクト部80は、10個の接続ポートPTに対応する10個のインタフェース部30と10個のフレーム転送部20とを有する。また、インタコネクト部80は、10個の接続ポートPTを相互に接続するクロスバースイッチ82と、クロスバースイッチ82に接続される4つのパケット制御部84とを有する。CPUコア10は、キャッシュメモリ12(例えば、二次キャッシュ)を介して、パケット制御部84およびメモリアクセスコントローラ42に接続される。情報処理装置202は、ノードとも称される。
各パケット制御部84は、CPUコア10から出力されるデータ等の情報を受け、受けた情報を含むパケットPCKTを生成する。そして、各パケット制御部84は、生成したパケットPCKTをクロスバースイッチ82、フレーム転送部20およびインタフェース部30を介して、他の情報処理装置202に送信する。また、各パケット制御部84は、インタフェース部30、フレーム転送部20およびクロスバースイッチ82を介して他の情報処理装置202から受信するパケットPCKTからデータ等の情報を取り出し、取り出した情報をCPUコア10に出力する。なお、情報処理装置202がパケットPCKTの中継ノードとして機能する場合、接続ポートPTで受信したパケットPCKTは、パケット制御部84に入力されない、この場合、パケットPCKTは、クロスバースイッチ82を経由して、パケットPCKTの送信先のノードに対応する接続ポートPTから送信される。
図6は、図4に示すバーストエラー検出部68によりバーストエラーを検出する方法の一例を示す。バーストエラー検出部68は、レジスタ69に保持された時間間隔TPでエラーカウンタ66からカウンタ値COUNT(エラー数)を読み出す。図6に示す例では、時刻の経過とともにカウンタ値COUNTは増加する傾向にある。時間間隔TPは、第1の時間間隔の一例である。
カウンタ値COUNTの時間間隔TP毎の増加率は、時刻t1、t2間でΔ1であり、時刻t2、t3間でΔ2であり、時刻t3、t4間でΔ3である。バーストエラー検出部68は、カウンタ値COUNTの変化量を時間で除することでエラー数の増加率を算出する。例えば、増加率Δ1は、”(E2−E1)/(t2−t1)”により求められる。実際には、時間間隔TPは、バーストエラーの検出動作中に変更されないため、エラー数の増加率は、カウンタ値COUNTの差分として算出される。このため、増加率を除算により算出する場合に比べて、バーストエラー検出部68の回路規模を小さくすることができる。
バーストエラー検出部68は、連続する3つの時間間隔TPにおいて、中央の増加率(図6では、Δ2)のみが閾値VTを超えた場合、バーストエラーを検出し、図4に示すバーストエラー検出信号BEDETを出力する。閾値VTは、第1の閾値の一例である。なお、バーストエラー検出部68は、時間間隔TPのいずれかにおいて、カウンタ値COUNTの増加率が閾値VTを超えた場合に、バーストエラーを検出してもよい。図6の下側のグラフでは、各増加率は、各時間間隔TPの中央付近で算出されるように見えるが、カウンタ値COUNTを読み出した直後に算出される。
図7は、ファームウェア等によりバーストエラーを検出する方法の一例を示す。すなわち、図7は、情報処理装置202が、図4に示すエラーカウンタ66およびバーストエラー検出部68を持たない場合のバーストエラーの検出方法の一例を示す。なお、ファームウェア等のソフトウェアは、CPUコア10により実行される。図6と同じ要素については、詳細な説明は省略する。
ソフトウェアは、カウンタ値COUNTに対応するエラーの発生数を記憶するレジスタを読み出すことでバーストエラーを検出する。ソフトウェアでレジスタを読み出す場合、レジスタに対するアクセス遅延によって、エラーの発生数は、正確な時間間隔TPでは読み出されない。例えば、カウンタ値COUNTを読み出す時刻t2、t3が、それぞれ時刻t2’、t3’にずれた場合、エラーの発生数の増加率Δ4は、図7の中央に示す時間間隔TPの実際の増加率Δ2より低くなる。増加率Δ4が図6に示す閾値VTより低い場合、バーストエラーが発生しているにも拘わらず、ソフトウェアは、バーストエラーの発生を見逃してしまう。
例えば、ソフトウェアが、正確な時刻t1−t4でエラーの発生数をレジスタから読み出すことができ、増加率Δ2に基づいてバーストエラーを検出したとする。しかしながら、この場合、バーストエラーの発生時刻t2に合うように、他の情報処理装置202から対象のパケットPCKTを送信することは困難であり、パケットPCKTの再送信によりバーストエラーを再現することは困難である。これは、図5に示すように、複数の情報処理装置202が6次元メッシュ/トーラス・ネットワーク等に接続される場合、パケットPCKTが伝送される経路は、ネットワークの状態により変化するためである。
さらに、バーストエラーは、伝送路に発生するノイズ、伝送路に送信する信号を生成する回路の電圧変動または回路の周囲温度の変動等、制御が困難な外的要因により発生する。このため、リンクダウンの原因となったバーストエラーを、パケットPCKTの再送信により再現することは困難である。例えば、図3に示すDESに接続される図示しないDFE(Decision Feedback Equalizer)またはクロックデータ再生回路等の一時的な電圧変動等により、DESが受信部に出力するパラレル信号に多数のビットエラーが含まれる場合がある。一時的な電圧変動または温度変動等によるビットエラーでバーストエラーが発生した場合、同じビットエラーを含むバーストエラーを再現することは困難である。
また、リンクダウンの原因となったバーストエラーの再現するためにパケットPCKTを繰り返し再送信し、バーストエラーが発生した場合にも、リンクダウンの原因となったバーストエラーのビットパターン(エラーパターン)と同じであるかは保証されない。このため、リンクダウンの原因を明らかにすることは困難である。
これに対して、図4に示す受信部60を有する情報処理装置202および並列処理装置102では、バーストエラーが発生したときのエラーを含むパケットPCKTをパケットバッファ74に保存することができる。このため、パケットPCKTを他の情報処理装置202から再送信させることなく、受信部60でバーストエラーが発生したときのエラーを含むパケットPCKTを再現することができる。さらに、受信部60は、並列処理装置102の各情報処理装置202に搭載されるため、情報処理装置202間で相互にパケットPCKTを送受信する場合に、情報処理装置202のいずれで発生したバーストエラーも再現することができる。
図8は、図3に示す再現コントローラ40の動作の一例を示す。まず、ステップS30において、再現コントローラ40は、管理装置等からの指示に基づいて、バーストエラー検出部68のレジスタ69に時間間隔TPと閾値VTとを書き込む。時間間隔TPと閾値VTとがレジスタ69に既に書き込まれている場合、ステップS30は、省略される。
次に、ステップS32において、再現コントローラ40は、バーストエラーを再現させる指示を、管理装置等から受信するまで待ち、指示を受信した場合、処理をステップS34に移行する。ステップS34において、再現コントローラ40は、再現指示の1つである切り替え信号SWを切り替え部62に出力し、読み出し制御部76から出力されるパケットPCKTの伝送経路を内部伝送路63に接続させる。
次に、ステップS36において、再現コントローラ40は、再現指示の別の1つである読み出し信号RDを読み出し制御部76に出力し、バーストエラーが発生したときのエラーを含むパケットPCKTを読み出し制御部76に読み出させる。ステップS36の後、図4に示すパケットバッファ74から読み出されるパケットPCKTによりバーストエラーが再現され、リンクダウン等の不具合を発生させた原因が解析される。
次に、ステップS38において、再現コントローラ40は、バーストエラーの再現が完了したことを示す完了通知を、管理装置等から受信するまで待ち、完了通知を受信した場合、処理をステップS40に移行する。ステップS40において、再現コントローラ40は、他の情報処理装置202からのパケットPCKTの内部伝送路63への伝送を再開させる復帰信号SWを切り替え部62に出力する。また、再現コントローラ40は、パケットPCKTの書き込みの停止状態を解除する解除信号WRを書き込み制御部70に出力し、書き込み制御部70にパケットPCKTのパケットバッファ74への書き込みを再開させ、処理を終了する。復帰信号SWと解除信号WRは、どちらが先に出力されてもよく、並列に出力されてもよい。この後、再現コントローラ40は、管理装置等からの指示に基づいて、ステップS30またはステップS32から処理を開始する。
再現コントローラ40が、復帰信号SWを切り替え部62に出力し、解除信号WRを書き込み制御部70に出力することで、他の情報処理装置202から受信するパケットPCKTのパケットバッファ74への書き込みを再開することができる。これにより、受信部60に新たなバーストエラーを検出させることができ、新たなバーストエラーが発生したパケットPCKTをパケットバッファ74に保持させることができる。換言すれば、再現コントローラ40が出力する切り替え信号SW、読み出し信号RD、復帰信号SWおよび解除信号WRにより、受信部60にバーストエラーを繰り返し検出させることができる。
図9は、図4に示す受信部60の動作の一例を示す。すなわち、図9は、バーストエラーを再現させるバーストエラー再現方法の一例を示す。図9に示すフローは、所定の周期で実行される。
まず、ステップS50において、受信部60は、他の情報処理装置202からパケットPCKTを受信した場合、処理をステップS52に移行し、他の情報処理装置202からパケットPCKTを受信していない場合、処理をステップS56に移行する。ステップS52において、書き込み制御部70は、切り替え部62を介して他の情報処理装置202から受信したパケットPCKTをパケットバッファ74に書き込む。
次に、ステップS54において、パケットチェック部64は、切り替え部62を介して他の情報処理装置202から受信したパケットPCKTに含まれるエラーを検出し、エラーを検出する毎にエラー検出信号EDETを出力する。エラーカウンタ66は、エラー検出信号EDETを受信する毎にカウンタ値COUNTを更新する。
ステップS56において、バーストエラー検出部68は、時間間隔TPが経過した場合、処理をステップS58に移行し、時間間隔TPが経過していない場合、処理を終了する。ステップS58において、バーストエラー検出部68は、エラーカウンタ66から読み出した現在のカウンタ値COUNTと前回読み出したカウンタ値COUNTとに基づいて、エラー数(カウンタ値)の増加率を算出する。次に、ステップS60において、バーストエラー検出部68は、エラー数の増加率に基づいて、バーストエラーを検出した場合、バーストエラー検出信号BEDETを出力する。バーストエラーが検出された場合、処理はステップS62に移行され、バーストエラーが検出されない場合、処理は終了する。なお、ステップS56、S58、S60の処理は、ステップS52、S54の処理と並列に実行されてもよい。
ステップS62において、書き込み制御部70は、バーストエラー検出信号BEDETに基づいて、パケットバッファ74へのパケットPCKTの書き込みを停止する。次に、ステップS64において、切り替え部62は、再現コントローラ40からの再現指示(切り替え信号SWおよび読み出し信号RD)の受信を待ち、再現指示を受信した場合、処理をステップS66に移行する。ステップS66において、切り替え部62は、切り替え信号SWに基づいて、他の情報処理装置202から受信するパケットPCKTを内部伝送路63に出力する経路を遮断する。そして、切り替え部62は、パケットバッファ74から読み出されるパケットPCKTの経路を内部伝送路63に接続する。次に、ステップS68において、読み出し制御部76は、再現コントローラ40からの読み出し信号RDに基づいて、パケットバッファ74からパケットPCKTを読み出し、読み出したパケットPCKTを、切り替え部62を介して内部伝送路63に出力する。
次に、ステップS70において、受信部60は、パケットバッファ74へのパケットPCKTの書き込みの停止を解除する解除指示(復帰信号SWおよび書き込み信号WR)を待ち、再開指示に基づいて、処理をステップS72に移行する。ステップS72において、切り替え部62は、復帰信号SWに基づいて、パケットバッファ74から読み出されるパケットPCKTの経路を内部伝送路63に出力する経路を遮断する。そして、切り替え部62は、他の情報処理装置202から受信するパケットPCKTの経路を内部伝送路63に接続する。次に、ステップS74において、書き込み制御部70は、解除信号WRに基づいて、パケットPCKTのパケットバッファ74への書き込みを再開し、処理を終了する。なお、ステップS72、S74の処理は、逆順で実行されてもよく、並列に実行されてもよい。
復帰信号SWおよび解除信号WRにより、新たなバーストエラーを検出することができ、新たなバーストエラーが発生したパケットPCKTをパケットバッファ74に記憶することができる。これにより、バーストエラーに起因してリンクダウン等の着目する不具合が発生しなかった場合にも、着目する不具合が発生するまでバーストエラーを繰り返し検出することができる。この結果、不具合を発生させたパケットPCKTをパケットバッファ74に保持することができ、他の情報処理装置202からパケットPCKTを送信させることなく、不具合の原因であるバーストエラーが発生したパケットPCKTを再現することができる。
以上、図3から図9に示す実施形態においても、図1に示す実施形態と同様の効果を得ることができる。例えば、バーストエラーが発生したときのエラーを含むパケットPCKTを、他の情報処理装置202からパケットPCKTを再送信させることなく忠実に再現することができる。バーストエラーが発生したときのエラーを含むパケットPCKTがパケットバッファ74に記憶されているため、エラーを含むパケットPCKTを何回でも再現することができる。
さらに、図3から図9に示す実施形態では、以下に示す効果を得ることができる。例えば、読み出し制御部76は、パケットバッファ74に記憶された読み出し対象のパケットPCKTのうち最古のパケットPCKTの格納位置を示すアドレスADをポインタレジスタ72に書き込む。読み出し制御部76は、ポインタレジスタ72に書き込まれたアドレスADに基づいてパケットバッファ74にアクセスする。これにより、読み出し制御部76は、他の情報処理装置202が送信したパケットPCKTと同じ順序で、パケットバッファ74からパケットPCKTを読み出すことができ、他の情報処理装置202が送信したパケットPCKTを再現することができる。
パケットバッファ74から読み出したパケットPCKTを読み出し制御部76から出力することで、読み出したパケットPCKTを、他の情報処理装置202から受信するパケットPCKTと同じタイミングでパケットチェック部64に伝送することができる。復帰信号SWおよび解除信号WRにより、バーストエラーに起因してリンクダウン等の着目する不具合が発生しなかった場合にも、着目する不具合が発生するまでバーストエラーを繰り返し検出することができる。再現コントローラ40が出力する切り替え信号SW、読み出し信号RD、復帰信号SWおよび解除信号WRにより、受信部60にバーストエラーを繰り返し検出させることができる。
エラー数の増加率をカウンタ値COUNTの差分として算出することで、増加率を除算により算出する場合に比べて、バーストエラー検出部68の回路規模を小さくすることができる。また、バーストエラーの検出後のパケットバッファ74への書き込みを停止することで、バーストエラーの検出の前後に受信したパケットPCKTを書き込む場合に比べて、パケットバッファ74の回路規模を小さくすることができる。バーストエラー検出部68とパケットバッファ74との回路規模を小さくすることで、受信部60の回路規模を削減することができる。
以上の詳細な説明により、実施形態の特徴点および利点は明らかになるであろう。これは、特許請求の範囲がその精神および権利範囲を逸脱しない範囲で前述のような実施形態の特徴点および利点にまで及ぶことを意図するものである。また、当該技術分野において通常の知識を有する者であれば、あらゆる改良および変更に容易に想到できるはずである。したがって、発明性を有する実施形態の範囲を前述したものに限定する意図はなく、実施形態に開示された範囲に含まれる適当な改良物および均等物に拠ることも可能である。
1…受信部;2…情報処理部;3…送信部;4…バーストエラー検出部;5…書き込み制御部;6…記憶部;7…伝送制御部;8…受信制御部;9…内部伝送路;10…CPUコア;12…キャッシュメモリ;20…フレーム転送部;30…インタフェース部;40…再現コントローラ;42…メモリアクセスコントローラ;44…メインメモリ;50…送信部;60…受信部;62…切り替え部;63…内部伝送路;64…パケットチェック部;66…エラーカウンタ;68…バーストエラー検出部;69…レジスタ;70…書き込み制御部;72…ポインタレジスタ;74…パケットバッファ;76…読み出し制御部;80…インタコネクト部;82…クロスバースイッチ;84…パケット制御部;100、102…並列処理装置;110、112…伝送路;200、202…情報処理装置;AD…アドレス信号;BEDET…バーストエラー検出信号;BERR…バーストエラー信号;COUNT…カウンタ値;CHIP…CPUチップ;EDET…エラー検出信号;PCKT…パケット;RD…読み出し信号;RE…リードイネーブル信号;SW…切り替え信号、復帰信号;TP…時間間隔;VT…閾値;WE…ライトイネーブル信号;WR…解除信号

Claims (10)

  1. 情報を相互に通信する複数の情報処理装置を有し、前記複数の情報処理装置の各々が、他の情報処理装置からの情報を受信する受信部と前記受信部で受信した情報を処理する情報処理部とを有する並列処理装置において、
    前記受信部は、
    受信した情報にバーストエラーが発生したかを検出するバーストエラー検出部と、
    受信した情報を記憶する記憶部と、
    受信した情報を前記記憶部に逐次書き込み、前記バーストエラー検出部によるバーストエラーの検出に基づいて、前記記憶部への情報の書き込みを停止する書き込み制御部と、
    再現指示に基づいて、前記他の情報処理装置から受信する情報の伝送を遮断し、前記記憶部から読み出した情報を伝送する伝送制御部を有することを特徴とする並列処理装置。
  2. 前記受信部は、前記バーストエラー検出部、前記書き込み制御部および前記伝送制御部に接続される内部伝送路を有し、
    前記伝送制御部は、
    前記再現指示のうち第1の再現指示に基づいて、前記記憶部に記憶されたバーストエラーを含む情報を読み出し、読み出した情報を出力する読み出し制御部と、
    前記再現指示のうち第2の再現指示に基づいて、前記他の情報処理装置から情報を受信する経路と前記内部伝送路との接続を遮断し、前記読み出し制御部の出力を前記内部伝送路に接続する切り替え部を有することを特徴とする請求項1記載の並列処理装置。
  3. 前記受信部は、前記記憶部において最古の情報が記憶された記憶領域の位置を示す位置情報を記憶する位置情報保持部を有し、
    前記書き込み制御部は、前記位置情報を前記位置情報保持部に書き込み、
    前記読み出し制御部は、前記位置情報保持部に記憶された前記位置情報が示す記憶領域から順に前記記憶部に記憶された情報を読み出すことを特徴とする請求項2記載の並列処理装置。
  4. 前記読み出し制御部が前記切り替え部に出力する情報の伝送レートは、前記切り替え部で受信する前記他の情報処理装置からの情報の伝送レートに等しいことを特徴とする請求項2または請求項3記載の並列処理装置。
  5. 前記切り替え部は、復帰指示に基づいて、前記読み出し制御部の出力と前記内部伝送路との接続を遮断し、前記他の情報処理装置から情報を受信する経路を前記内部伝送路に接続し、
    前記書き込み制御部は、解除指示に基づいて、前記記憶部への情報の書き込みの停止状態を解除することを特徴とする請求項2ないし請求項4のいずれか1項記載の並列処理装置。
  6. 前記複数の情報処理装置の各々は、外部からの要求に基づいて、前記第1の再現指示、前記第2の再現指示、復帰指示または解除指示を生成する再現コントローラを有することを特徴とする請求項5記載の並列処理装置。
  7. 前記受信部は、
    前記切り替え部を介して伝送される情報をチェックし、エラーを検出する毎にエラー検出情報を出力するチェック部と、
    前記チェック部が出力した前記エラー検出情報の数をカウントするカウンタ部を有し、
    前記バーストエラー検出部は、前記カウンタ部のカウンタ値を第1の時間間隔で読み出し、カウンタ値の増加率を算出し、算出した増加率が第1の閾値を超えた場合にバーストエラーの発生を検出することを特徴とする請求項1ないし請求項6のいずれか1項記載の並列処理装置。
  8. 前記バーストエラー検出部は、前記第1の時間間隔および前記第1の閾値を書き替え可能に保持する保持部を有し、前記保持部に保持された前記第1の時間間隔および前記第1の閾値に基づいて、バーストエラーの発生を検出し、
    前記記憶部は、前記保持部に設定可能な最大の前記第1の時間間隔内に前記他の情報処理装置から受信する情報を記憶可能な記憶容量を有することを特徴とする請求項7記載の並列処理装置。
  9. 前記受信部は、前記他の情報処理装置からの情報をパケットとして受信し、
    前記書き込み制御部は、受信したパケットを前記記憶部に逐次書き込むことを特徴とする請求項1ないし請求項8のいずれか1項記載の並列処理装置。
  10. 情報を相互に通信する複数の情報処理装置を有し、前記複数の情報処理装置の各々が、他の情報処理装置からの情報を受信する受信部と前記受信部で受信した情報を処理する情報処理部とを有する並列処理装置で発生するバーストエラーを再現させるバーストエラー再現方法において、
    前記受信部が、
    受信した情報にバーストエラーが発生したかを検出し、
    受信した情報を記憶部に逐次書き込み、バーストエラーの検出に基づいて、前記記憶部への情報の書き込みを停止し、
    再現指示に基づいて、前記他の情報処理装置から受信する情報の伝送を遮断し、前記記憶部から読み出した情報を伝送することを特徴とするバーストエラー再現方法。
JP2017005046A 2017-01-16 2017-01-16 並列処理装置およびバーストエラー再現方法 Active JP6988092B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2017005046A JP6988092B2 (ja) 2017-01-16 2017-01-16 並列処理装置およびバーストエラー再現方法
US15/868,579 US10581555B2 (en) 2017-01-16 2018-01-11 Information processing device and burst error reproducing method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017005046A JP6988092B2 (ja) 2017-01-16 2017-01-16 並列処理装置およびバーストエラー再現方法

Publications (2)

Publication Number Publication Date
JP2018116344A true JP2018116344A (ja) 2018-07-26
JP6988092B2 JP6988092B2 (ja) 2022-01-05

Family

ID=62838758

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017005046A Active JP6988092B2 (ja) 2017-01-16 2017-01-16 並列処理装置およびバーストエラー再現方法

Country Status (2)

Country Link
US (1) US10581555B2 (ja)
JP (1) JP6988092B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11848700B2 (en) 2020-03-27 2023-12-19 Nec Corporation Communication device, communication controlling method, and non-transitory computer-readable media

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220329351A1 (en) * 2019-10-10 2022-10-13 Siemens Industry Software Inc. Rollback for communication link error recovery in emulation
KR20230012274A (ko) * 2021-07-15 2023-01-26 삼성전자주식회사 메모리 장치 동작 방법, 메모리 컨트롤러의 동작 방법 및 메모리 시스템

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06180676A (ja) * 1992-12-11 1994-06-28 Toshiba Corp 計算機システム
JP2001333073A (ja) * 2000-05-19 2001-11-30 Fujitsu Ltd シリアルバスインターフェース装置
JP2006171882A (ja) * 2004-12-13 2006-06-29 Fujitsu Ltd 信号再現装置
JP2009110284A (ja) * 2007-10-30 2009-05-21 Fujitsu Ltd 信号処理装置、カード型デバイス及び障害再現方法
JP2016122879A (ja) * 2014-12-24 2016-07-07 株式会社日立産機システム 誤り検出方法、通信システム、及び、通信装置

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0668369A (ja) 1992-08-21 1994-03-11 Toshiba Corp 系統監視異常経過再現装置
US6868519B2 (en) * 2001-04-23 2005-03-15 Lucent Technologies Inc. Reducing scintillation effects for optical free-space transmission
US20050002474A1 (en) * 2003-01-27 2005-01-06 Limberg Allen Leroy PAM radio signal receiver with phase-tracker succeeding adaptive FIR filtering and preceding adaptive IIR filtering
US7334059B2 (en) * 2004-03-03 2008-02-19 Freescale Semiconductor, Inc. Multiple burst protocol device controller
KR20060101700A (ko) * 2005-03-21 2006-09-26 삼성전자주식회사 정보 저장 매체, 기록/재생 장치 및 그 기록/재생 방법
WO2008079910A2 (en) * 2006-12-20 2008-07-03 Rambus Inc. Strobe acquisition and tracking
JP5867160B2 (ja) * 2012-02-28 2016-02-24 富士通株式会社 通信制御装置、通信制御方法および通信制御プログラム

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06180676A (ja) * 1992-12-11 1994-06-28 Toshiba Corp 計算機システム
JP2001333073A (ja) * 2000-05-19 2001-11-30 Fujitsu Ltd シリアルバスインターフェース装置
JP2006171882A (ja) * 2004-12-13 2006-06-29 Fujitsu Ltd 信号再現装置
JP2009110284A (ja) * 2007-10-30 2009-05-21 Fujitsu Ltd 信号処理装置、カード型デバイス及び障害再現方法
JP2016122879A (ja) * 2014-12-24 2016-07-07 株式会社日立産機システム 誤り検出方法、通信システム、及び、通信装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11848700B2 (en) 2020-03-27 2023-12-19 Nec Corporation Communication device, communication controlling method, and non-transitory computer-readable media
US12191907B2 (en) 2020-03-27 2025-01-07 Nec Corporation Communication device, communication controlling method, and non-transitory computer-readable media

Also Published As

Publication number Publication date
US10581555B2 (en) 2020-03-03
JP6988092B2 (ja) 2022-01-05
US20180205495A1 (en) 2018-07-19

Similar Documents

Publication Publication Date Title
US7526676B2 (en) Slave device having independent error recovery
JP6582503B2 (ja) 情報処理装置
US10579469B2 (en) Interconnection network for integrated circuit
JPH0685866A (ja) データ・フレームの伝送方法及び伝送システム
CN110574019B (zh) 数据中心之间鲁棒的数据复制
JP6988092B2 (ja) 並列処理装置およびバーストエラー再現方法
US7924737B2 (en) Signal degrade detecting method, signal restoration detecting method, devices for those methods, and traffic transmission system
EP3742674A1 (en) Coherent capturing of shared-buffer status
JP5191934B2 (ja) 状態監視システムおよび状態監視方法
JP2013034133A (ja) 送信装置、送受信システムおよび制御方法
CN102946335B (zh) 一种网络状况检测方法及系统
JP2019176263A (ja) 送受信システム、データ受信装置、およびデータ受信方法
JP2009253464A (ja) ゲートウェイ装置及びゲートウェイ方法
CN112838892B (zh) 以太网mac数据通信光模块的测试装置和方法
JPWO2012131924A1 (ja) 複数のノードを含むネットワーク中のノード
JP4834722B2 (ja) 演算処理装置及び演算処理装置の制御方法
JP4894854B2 (ja) データ送信装置、データ送受信システム及びデータ送受信システムの制御方法
US10048998B2 (en) Transmission apparatus and failure detection method
US9489408B2 (en) Data processing device and method for controlling the same
US7647420B2 (en) Apparatus and method for controlling storage device
WO2015090081A1 (zh) 一种路由信息的老化方法、装置及计算机存储介质
JP7020991B2 (ja) 信号制御回路
JP2013206078A (ja) チェック装置、コマンドチェック機能付きメモリシステム、及び、方法
JP4894494B2 (ja) リング型ネットワークおよびリング型ネットワークのフェアネス実行プログラム
CN119583251B (zh) 一种基于时间敏感网络的环网

Legal Events

Date Code Title Description
RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7426

Effective date: 20170803

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20170803

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20170804

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20180214

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20180219

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20180219

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20191008

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200915

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20201006

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20201125

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210427

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210609

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20211102

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20211115

R150 Certificate of patent or registration of utility model

Ref document number: 6988092

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150