CN112346878A - 信息处理系统、中继装置及程序 - Google Patents
信息处理系统、中继装置及程序 Download PDFInfo
- Publication number
- CN112346878A CN112346878A CN202010503611.3A CN202010503611A CN112346878A CN 112346878 A CN112346878 A CN 112346878A CN 202010503611 A CN202010503611 A CN 202010503611A CN 112346878 A CN112346878 A CN 112346878A
- Authority
- CN
- China
- Prior art keywords
- information processing
- data
- reset signal
- unit
- platform
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F13/00—Interconnection of, or transfer of information or other signals between, memories, input/output devices or central processing units
- G06F13/38—Information transfer, e.g. on bus
- G06F13/382—Information transfer, e.g. on bus using universal interface adapter
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/44—Arrangements for executing specific programs
- G06F9/4401—Bootstrapping
- G06F9/4403—Processor initialisation
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/52—Program synchronisation; Mutual exclusion, e.g. by means of semaphores
- G06F9/524—Deadlock detection or avoidance
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F13/00—Interconnection of, or transfer of information or other signals between, memories, input/output devices or central processing units
- G06F13/38—Information transfer, e.g. on bus
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F13/00—Interconnection of, or transfer of information or other signals between, memories, input/output devices or central processing units
- G06F13/14—Handling requests for interconnection or transfer
- G06F13/20—Handling requests for interconnection or transfer for access to input/output bus
- G06F13/28—Handling requests for interconnection or transfer for access to input/output bus using burst mode transfer, e.g. direct memory access DMA, cycle steal
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F13/00—Interconnection of, or transfer of information or other signals between, memories, input/output devices or central processing units
- G06F13/14—Handling requests for interconnection or transfer
- G06F13/36—Handling requests for interconnection or transfer for access to common bus or bus system
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F13/00—Interconnection of, or transfer of information or other signals between, memories, input/output devices or central processing units
- G06F13/38—Information transfer, e.g. on bus
- G06F13/42—Bus transfer protocol, e.g. handshake; Synchronisation
- G06F13/4282—Bus transfer protocol, e.g. handshake; Synchronisation on a serial bus, e.g. I2C bus, SPI bus
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2213/00—Indexing scheme relating to interconnection of, or transfer of information or other signals between, memories, input/output devices or central processing units
- G06F2213/0026—PCI express
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Computer Security & Cryptography (AREA)
- Information Transfer Systems (AREA)
- Retry When Errors Occur (AREA)
- Bus Control (AREA)
Abstract
提供信息处理系统、中继装置及程序,防止伴随重新启动而发生的死锁。信息处理系统包括多个信息处理装置和将多个信息处理装置可通信地连接的中继装置。信息处理装置具备第1通信部,其执行表示已进行了初始化的复位信号的发送和数据的收发。中继装置具备:多个第2通信部,针对每个信息处理装置而设置,执行复位信号的接收和数据的收发;连接部,在多个第2通信部间以能够传送数据的方式连接;输入部,不经由第2通信部而从各个信息处理装置接收复位信号的输入;和控制部,在输入部接收了复位信号的情况下,以发送了复位信号的信息处理装置经由连接部接收到数据为条件,执行对与该数据的发送源的信息处理装置对应的第2通信部初始化的初始化处理。
Description
技术领域
本发明涉及信息处理系统、中继装置以及程序。
背景技术
以往,公知有使用多个信息处理装置进行并行计算的方法。例如,提出了通过使用以太网(注册商标)线路等的中继装置在信息处理装置之间进行数据通信的信息处理系统。
在这样的信息处理系统中,在信息处理装置之间的通信中,有时由于某种原因,发送目的地的信息处理装置重新启动。当发送目的地的信息处理装置重新启动时,发送源的信息处理装置可能由于没有发送目的地而引起死锁(dead lock)。
信息处理系统定期地轮询(Polling)寄存器,在检测到伴随信息处理装置的重新启动而被初始化的情况下,通过重新启动而从死锁中恢复。
现有技术文献
专利文献
专利文献1:日本特开2005-275818号公报
专利文献2:日本特开2015-215722号公报
发明内容
[发明要解决的问题]
但是,如果为了确认是否死锁而定期地轮询寄存器,则会给信息处理系统带来负荷。优选原本就不发生死锁。
本发明是鉴于上述问题而完成的,其目的在于防止伴随重新启动而发生的死锁。
[用于解决问题的手段]
根据本发明第一方面的信息处理系统包括多个信息处理装置和将多个信息处理装置可通信地连接的中继装置。上述信息处理装置具备第1通信部,该第1通信部执行表示已进行了初始化的复位信号的发送和数据的收发。所述中继装置具备多个第2通信部、连接部、输入部和控制部。上述第2通信部针对每个所述信息处理装置而设置,执行所述复位信号的接收和所述数据的收发。所述连接部在所述多个第2通信部间以能够传送所述数据的方式进行连接。所述输入部不经由所述第2通信部而从各个所述信息处理装置接收所述复位信号的输入。所述控制部在所述输入部接收了所述复位信号的情况下,以发送了所述复位信号的所述信息处理装置经由所述连接部接收到所述数据为条件,执行初始化处理,其中在该初始化处理中,对与该数据的发送源的所述信息处理装置对应的所述第2通信部进行初始化。
本发明的第2方式的中继装置将多个信息处理装置可通信地连接,所述中继装置具备多个第2通信部、连接部、输入部和控制部。上述第2通信部针对每个所述信息处理装置而设置,执行表示所述信息处理装置已进行了初始化的复位信号的接收和数据的收发。所述连接部在所述多个第2通信部间以能够传送所述数据的方式进行连接。所述输入部不经由所述第2通信部而从各个所述信息处理装置接收所述复位信号的输入。所述控制部在所述输入部接收了所述复位信号的情况下,以发送了所述复位信号的所述信息处理装置经由所述连接部接收到所述数据为条件,执行初始化处理,其中在该初始化处理中,对与该数据的发送源的所述信息处理装置对应的所述第2通信部进行初始化。
本发明的第3方式的程序使中继装置作为控制部发挥功能,所述中继装置具有具备多个第2通信部、连接部和输入部。上述第2通信部针对多个信息处理装置中的每个信息处理装置而设置,执行表示所述信息处理装置已进行了初始化的复位信号的接收和数据的收发。所述连接部在所述多个第2通信部间以能够传送所述数据的方式进行连接。所述输入部不经由所述第2通信部而从各个所述信息处理装置接收所述复位信号的输入。所述控制部在所述输入部接收了所述复位信号的情况下,以发送了所述复位信号的所述信息处理装置经由所述连接部接收到所述数据为条件,执行初始化处理,其中在该初始化处理中,对与该数据的发送源的所述信息处理装置对应的所述第2通信部进行初始化。
[发明效果]
本发明的信息处理系统、中继装置以及程序能够防止伴随重新启动而发生的死锁。
附图说明
图1是表示本实施例的分布式计算机的整体结构的一例的图。
图2是用于说明本实施例的分布式计算机中的平台间的通信处理的一例的图。
图3是说明本实施例的分布式计算机的硬件结构的图。
图4是表示本实施例的恢复处理的一例的时序图。
标号说明
1 分布式计算机
10 平台
11 处理器
111 初始化控制部
13 根复合体
351 发信源信息
30 中继装置
31 处理器
311 外部中断控制部
312 PCIe中断控制部
313 PCIe状态控制部
33 内部总线
34 PCIe总线
35 端点
36 GPIO
具体实施方式
以下基于附图详细说明本发明的信息处理系统、中继装置及程序的实施例。另外,不用该实施例来限定本发明。
【实施例1】
图1是表示本实施例的分布式计算机1的整体结构的一例的图。分布式计算机1是具备多个平台A10-1~平台H10-8、将多个平台A10-1~平台H10-8连接成可通信的中继装置30的信息处理系统。如图1所示,实施例的分布式计算机1具备平台A10-1~平台H10-8、和中继装置30。
平台A10-1~平台H10-8经由中继装置30连接成可通信。平台A10-1~平台H10-8例如插入到设置有中继装置30的板(board)上的槽(slot)中。另外,多个槽中的任意的槽也可以是未插入有平台10的空闲状态。在以下说明中,不需要区分各平台A10-1~平台H10-8,在表示任意的平台A10-1~平台H10-8的情况下,记载为平台10。
平台A10-1是管理平台B10-2~平台H10-8并使平台B10-2~平台H10-8执行各种处理的主(main)信息处理装置。
平台B10-2~平台H10-8是根据平台A10-1请求执行例如AI(ArtificialIntelligence)推理处理或图像处理等的子(sub)信息处理装置。
另外,平台A10-1~平台H10-8具备处理器11-1~11-8。另外,各处理器11-1~11-8各自的体系结构(architecture)也可以不同。另外,各处理器11-1~11-8可以分别由不同的制造商提供,也可以由同一制造商提供。在以下说明中,不需要区分处理器11-1~11-8,在表示任意的处理器11-1~11-8的情况下,记载为处理器11。
处理器11控制平台10整体。处理器11可以是多处理器。另外,处理器11例如由CPU(中央处理单元,Central Processing Unit)、MPU(微处理单元,Micro Processing Unit)、GPU(图形处理单元,Graphics Processing Unit)、DSP(数字信号处理器,Digital SignalProcessor)、ASIC(专用集成电路,Application Specific Integrated Circuit)、PLD(可编程逻辑器件,Programmable Logic Device)、FPGA(现场可编程门阵列,FieldProgrammable Gate Array)中的任意一个。另外,处理器11也可以是CPU、MPU、GPU、DSP、ASIC、PLD、FPGA中的2种以上的要素的组合。
平台10具有作为能够作为主机侧进行工作的根复合体(RC:Root Complex)的功能。
中继装置30具有多个端点(EP:End Point)。另外,中继装置30对多个平台10之间的经由总线的通信进行中继,该多个平台10具有与端点连接的根复合体。另外,中继装置30具有作为多个端点的功能,所述多个端点包括与平台10连接的ATU(地址翻译单元,AddressTranslation Unit)以及槽等在内。根复合体和端点可以是例如PCIe(周边装置互联高速,Peripheral Component Interconnect Express)的根复合体和端点。由此,在平台10和中继装置30之间进行数据传送。
接着,对与中继装置30连接的平台A10-1和平台B10-2之间的通信处理的一例进行说明。图2是用于说明本实施例的分布式计算机1中的平台10间的通信处理的一例的图。在此,对平台A10-1与平台B10-2间的通信处理的一例进行了说明,其他平台10间也同样地进行通信。
如图2所示,分布式计算机1具有例如在PCIe标准中规定的层结构。而且,分布式计算机1经由各层执行平台10间的通信。
发送源的平台A10-1将软件所指定的数据经由事务层(transaction layer)、数据链路层以及物理层(PHY)传送到中继装置30的物理层(PHY)。
中继装置30将从发送源的平台A10-1传送来的数据经由物理层(PHY)以及数据链路层传递给事务层。中继装置30在事务层中,通过隧道(Tunneling)将数据传送到与发送目地的平台B10-2对应的端点。中继装置30经由事务层、数据链路层及物理层(PHY)向发送目地的平台B10-2的物理层(PHY)传送。这样,中继装置30通过在端点间使数据隧道传输,从发送源的平台A10-1向发送目的地的平台B10-2传送数据。
在发送目的地的平台B10-2中,数据经由物理层(PHY)、数据链路层和事务层被传递给软件。
另外,在数据的传送没有集中于与中继装置30连接的多个平台10中的一个平台10的情况下,能够在不同的任意组合的平台10之间并行地传送数据。
例如,在平台B10-2及平台C10-3与平台A10-1进行通信的情况下,中继装置30通过串行处理来执行与平台B10-2及平台C10-3的通信。另一方面,在不同的平台10之间进行通信、通信没有集中于特定的平台10的情况下,中继装置30通过并行处理来执行平台10之间的通信。
接着,对分布式计算机1的结构进行说明。图3是说明本实施例的分布式计算机1的硬件结构的图。
首先,对平台10进行说明。在此,以平台A10-1为例进行说明。平台B10-2~平台H10-8也具有与平台A10-1同样的硬件和信息。
平台A10-1包括处理器11-1、存储器12-1和根复合体13-1。在以下说明中,在不需要区分各存储器12-1~存储器12-8、表示任意的存储器12-1~存储器12-8的情况下,记载为存储器12。另外,在不需要区分各根复合体13-1~根复合体13-8、表示任意的根复合体13-1~根复合体13-8的情况下,记载为根复合体13。
存储器12是包括ROM(只读存储器)和RAM(随机存取存储器)在内的存储器。在ROM中写入有各种软件程序和该程序用的数据类。存储在存储器12-1中的程序121-1被读取到处理器11-1中并被执行。此外,RAM被用作工作存储器。在以下的说明中,在不需要区分各程序121-1~程序121-8、表示任意的程序121-1~程序121-8的情况下,记载为程序121。
另外,处理器11-1通过执行存储在存储器12-1中的程序121-1来实现图3所示的功能。具体而言,作为功能部,具备初始化控制部111-1。在以下说明中,在不需要区分各初始化控制部111-1~初始化控制部111-8、表示任意的初始化控制部111-1~初始化控制部111-8的情况下,记载为初始化控制部111。
初始化控制单元111控制平台10的初始化。例如,初始化控制部111伴随平台10的重新启动而对平台10进行初始化。
根复合体13是第1通信部的示例。根复合体13控制平台10的通信。例如,根复合体13执行表示已进行了初始化的PCIe复位信号的发送和数据的发送接收。更详细地说,根复合体13在被处理器11指示了发送数据的情况下,将指定的数据发送给中继装置30。由此,平台10向与自身装置不同的平台10发送数据。另外,根复合体13在从中继装置30接收到数据的情况下,将接收到的数据通知给处理器11。由此,平台10从与自身装置不同的平台10接收数据。
另外,在初始化控制部111对平台10进行了初始化的情况下,根复合体13向中继装置30发送表示平台10进行硬件级别的初始化的PCIe复位信号。
接着,对中继装置30进行说明。中继装置30具备处理器31、存储器32、内部总线33、PCIe总线34、按每个平台10设置的端点35-1~端点35-8、GPIO(通用输入输出,GeneralPurpose Input Output)36。在以下说明中,在不需要区分各端点35-1~端点35-8、表示任意的端点35-1~端点35-8的情况下,记载为端点35。
处理器31控制中继装置30整体。处理器31可以是多处理器。另外,处理器31可以是例如CPU、MPU、GPU、DSP、ASIC、PLD、FPGA中的任意一个。另外,处理器31也可以是CPU、MPU、GPU、DSP、ASIC、PLD、FPGA中的2种以上的要素的组合。
存储器32是包括ROM和RAM在内的存储装置。在ROM中写入有各种软件程序和该程序用的数据类。存储在存储器32中的程序321由处理器31读取并执行。此外,RAM被用作工作存储器。
内部总线33将处理器31、存储器32和PCIe总线34连接成可通信。
PCIe总线34是连接部的一例。PCIe总线34将多个端点35和内部总线33连接成可通信。即,PCIe总线34连接成能够在多个端点35间传送数据。另外,PCIe总线34例如是符合PCIe标准的总线。
端点35是第2通信部的一例。端点35针对每个平台10设置,执行PCIe复位信号的接收和数据的发送接收。例如,当端点35从所连接的平台10接收了数据时,端点35通过PCIe总线34将所接收的数据发送到与发送目的地的平台10连接的端点35。例如,中继装置30通过DMA(直接存储器存取,Direct Memory Access)传送向其他平台10发送数据。另外,端点35在经由PCIe总线34从与数据的发送源的平台10连接的端点35接收了数据的情况下,向所连接的平台10发送接收到的数据。
另外,端点35-1存储发送源信息351-1。另外,在不需要区分各发送源信息351-1~发送源信息351-8、表示任意的发送源信息351-1~发送源信息351-8的情况下,记载为发送源信息351。更详细地说,端点35在端点35间的DMA传送中的DMA寄存器中存储表示数据的发送源的发送源信息351。
另外,端点35-1从所连接的平台10-1接收PCIe复位信号。在此,端点35-1具有设定标记(flag)352-1和复位标记353-1。在以下说明中,在不需要区分各设定标记352-1~设定标记352-8、表示任意的设定标记352-1~设定标记352-8的情况下,记载为设定标记352。另外,在不需要区分各复位标记353-1~复位标记353-8、表示任意的复位标记353-1~复位标记353-8的情况下,记载为复位标记353。
设定标记352是在接收到PCIe复位信号的情况下,设定是否使复位标记353有效的标记。在本实施例中,设定标记352被固定为使复位标记353有效的设定。
复位标记353是在接收到PCIe复位信号的情况下,基于设定标记352而变为有效的标记。在本实施例中,设定标记352被固定为在接收到PCIe复位信号的情况下使复位标记353为有效的设定。因此,端点35在接收到PCIe复位信号的情况下,使复位标记353有效。
GPIO 36是输入部的一例。GPIO 36接收从各个平台10的不经由端点35的PCIe复位信号的输入。然后GPIO 36向处理器31通知平台10已经初始化。更详细地说,GPIO 36在接收到PCIe复位信号的情况下,将外部中断信号输出到处理器31。另外,GPIO 36在输出了外部中断信号后,输出PCIe中断信号。以这种方式,处理器31可以通过GPIO 36检测平台10的初始化。因此,处理器31不需要通过经由内部总线33和PCIe总线34的轮询来监视平台10是否被初始化。
另外,处理器31通过执行存储在存储器32中的程序321来实现图3所示的功能。具体而言,处理器31具备外部中断控制部311、PCIe中断控制部312及PCIe状态控制部313作为功能部。处理器31是控制部的一例。
外部中断控制部311随着外部中断信号的输入而执行外部中断处理。更详细地说,外部中断控制部311在GPIO 36接收到PCIe复位信号的情况下,抑制外部中断处理。在此,由于PCIe复位信号不稳定,所以有可能产生必要以上的外部中断处理。因此,外部中断控制部311抑制外部中断处理。另外,外部中断控制部311在抑制外部中断后经过规定期间后,清除外部中断处理。
PCIe中断控制部312随着PCIe中断信号的产生而执行处理。更详细地说,PCIe中断控制部312发出重新开始信号。也就是说,PCIe中断控制部312请求与已进行了初始化的平台10连接的端点35的物理层(PHY)的重新初始化。在此,对于PCIe中断信号,在外部中断控制部311抑制了外部中断之后,产生PCIe中断信号。另外,至于PCIe中断信号的产生,只要是在外部中断控制部311抑制了外部中断之后即可,既可以是在外部中断控制部311清除外部中断信号之后,也可以是在外部中断控制部311清除外部中断之前。
另外,在与已进行了初始化的平台10连接的端点35的物理层(PHY)的重新初始化中,PCIe中断控制部312例如基于PCIe中断信号中包含的识别信息,确定已进行了初始化的平台10。另外,PCIe中断控制部312在接受了PCIe中断信号的输入的情况下,可以从GPIO 36取得用于确定已进行了初始化的平台10的识别信息,也可以从端点35取得,也可以从平台10取得,还可以从其他模块取得。
另外,PCIe中断控制部312从端点35取得发送源信息351。更详细地说,PCIe中断控制部312在伴随PCIe复位信号而产生了PCIe中断信号的情况下,从各端点35取得发送源信息351。然后,PCIe中断控制部312基于从各端点35取得的发送源信息351,确定通过DMA传送向进行了初始化的平台10发送来数据的端点35。另外,在存储有表示与已进行了初始化的平台10连接的端点35对自身传送来数据的发送源的发送源信息351的情况下,PCIe中断控制部312也可以从与已进行了初始化的平台10连接的端点35取得发送源信息351。
PCIe状态控制部313监视及管理各端点35。在GPIO 36接收到PCIe复位信号的情况下,PCIe状态控制部313以发送了PCIe复位信号的平台10经由PCIe总线34接收到数据为条件,执行对与数据的发送源的平台10对应的端点35初始化的初始化处理。
更详细地说,在初始化处理中,PCIe状态控制部313在平台10和端点35的线程状态为connected状态、即连接状态下,在从GPIO 36接收到PCIe中断信号的情况下,判定是否正在向发送目的地的平台10发送数据中。在正在发送数据中的情况下,PCIe状态控制部313执行与数据的发送源的平台10对应的端点35的再次初始化。
另外,PCIe状态控制部313执行初始化处理,该初始化处理包括停止由发送源的平台10进行的数据发送的处理。即,PCIe状态控制部313停止发送源的平台10和与发送源的平台10连接的端点35之间的通信。例如,PCIe状态控制部313停止发送源的平台10和与发送源的平台10连接的端点35之间的DMA传送。这样,PCIe状态控制部313通过在发送源的平台10变为死锁之前停止通信,来防止发送源的平台10变为死锁。进而,防止端点35出乎预料地接收数据、使端点35成为意外的状态。
另外,PCIe状态控制部313将平台10和端点35的线程(thread)状态设为notconnected状态、即非连接状态。另外,端点35的初始化和数据传送的停止的顺序也可以相反。然后,端点35在成为非连接(not connected)状态后,通过通常的流程返回连接(connected)状态。
接着,对基于分布式计算机1的恢复处理进行说明。图4是示出根据本实施例的恢复处理的一例的时序图。恢复处理是在平台10间的数据通信中,在数据的发送目的地的平台10随着重新启动而被初始化的情况下,在数据的发送源的平台10中不发生死锁而再次恢复到能进行数据通信的状态的处理。
PCIe中断控制部312将端点35的线程状态设为连接(connected)状态、即连接中(步骤S1)。
GPIO 36接收从平台10输出的PCIe复位信号(步骤S2)。
GPIO 36将外部中断信号输出到外部中断控制部311(步骤S3)。
外部中断控制部311抑制外部中断处理(步骤S4)。
外部中断控制部311清除外部中断处理(步骤S5)。
GPIO 36将PCIe中断信号输出到PCIe中断控制部312(步骤S6)。另外,PCIe中断信号只要在步骤S3所示的外部中断信号的抑制以后输出即可。即,PCIe中断信号也可以在外部中断的清除之前输出。另外,外部中断控制部311也可以输出PCIe中断信号。
PCIe中断控制部312发行重新开始信号(步骤S7)。更具体地,PCIe中断控制器312重新初始化与已进行了初始化的平台10连接的端点35。另外,PCIe中断控制部312从各端点35取得发送源信息351。PCIe中断控制部312确定表示发送源的平台10的发送源信息351。
PCIe中断控制部312将表示对已进行了初始化的平台10发送了数据的发送源的平台10的发送源信息351输出到PCIe状态控制部313(步骤S8)。
PCIe状态控制部313判定与通过发送源信息351确定的平台10连接的端点35是否处于数据通信中(步骤S9)。在此,在本时序图中,假定处于数据通信中的情况。
PCIe状态控制部313对与通过发送源信息351确定的平台10对应的端点35进行重新初始化(步骤S10)。
PCIe状态控制部313停止从通过发送源信息351确定的平台10的数据传送(步骤S11)。即,PCIe状态控制部313在发送源的平台10发生死锁之前停止来自平台10的DMA传送。
PCIe状态控制部313将端点35的线程状态设为not connected状态,即非连接状态(步骤S12)。之后,端点35的线程状态通过通常的处理转移到connected状态、即连接中。
由此,分布式计算机1结束初始化处理。
如上所述,本实施例的分布式计算机1具备多个平台10和可通信地连接多个平台10的中继装置30。中继装置30具备端点35、经由内部总线33及PCIe总线34与端点35连接的处理器31、及接受表示平台10进行硬件级别的初始化的PCIe复位信号的GPIO 36。在这样的结构中,处理器31在多个平台10之间的通信中,在发送目的地的平台10被初始化的情况下,经由GPIO 36接受PCIe复位信号。然后,处理器31对与发送源的平台10连接的端点35初始化,该发送源平台10向已进行了初始化的平台10发送了数据。此时,处理器31在平台10中发生死锁之前,对发送源的端点35初始化,停止DMA传送。因此,分布式计算机1可以防止伴随重新启动而产生的发送源的平台10的死锁。
在上述实施方式中,作为各部的总线(例如,扩展总线)或I/O接口,以PCIe为例进行了说明,但总线或I/O接口不限于PCIe。例如,各部总线或I/O接口只要是能够通过数据传送总线在设备(周边控制控制器)与处理器间进行数据传送的技术即可。数据传送总线可以是能够在设置于一个壳体等的本地环境(例如,一个系统或一个装置)中高速传送数据的通用总线。I/O接口可以是并行接口和串行接口中的任意一个。
I/O接口在串行传送的情况下,可以是能够点对点连接、能够以分组为基础传送数据的结构。另外,在串行传送的情况下,I/O接口可以具有多个通道。I/O接口的层结构包括:进行分组的生成及解码的事务层;进行错误检测等的数据链路层;以及对串行和并行进行转换的物理层。另外,I/O接口还可以包括:作为层级的最上位且具有一个或多个端口的根复合体、作为I/O设备的端点、用于增加端口的交换机、以及用于转换协议的桥接器等。I/O接口可以通过多路复用器对要发送的数据和时钟信号进行复用并发送。在这种情况下,接收侧也可以通过解复用器来分离数据和时钟信号。
Claims (5)
1.一种信息处理系统,其具备多个信息处理装置和将多个信息处理装置可通信地连接的中继装置,其中,
所述信息处理系统具有第1通信部,该第1通信部执行表示已进行了初始化的复位信号的发送和数据的收发,
所述中继装置具有:
多个第2通信部,其针对每个所述信息处理装置而设置,执行所述复位信号的接收和所述数据的收发;
连接部,其在所述多个第2通信部间以能够传送所述数据的方式进行连接;
输入部,其不经由所述第2通信部而从各个所述信息处理装置接收所述复位信号的输入;以及
控制部,在所述输入部接收了所述复位信号的情况下,以发送了所述复位信号的所述信息处理装置经由所述连接部接收到所述数据为条件,执行初始化处理,其中在该初始化处理中,对与该数据的发送源的所述信息处理装置对应的所述第2通信部进行初始化。
2.根据权利要求1所述的信息处理系统,其中,
所述控制部执行初始化处理,所述初始化处理包括停止由发送源的所述信息处理装置进行的所述数据的发送的处理。
3.根据权利要求1或2所述的信息处理系统,其中,
所述控制部在所述输入部接收到所述复位信号的情况下,抑制外部中断。
4.一种中继装置,其将多个信息处理装置可通信地连接,其中,
所述中继装置具有:
多个第2通信部,其针对每个所述信息处理装置而设置,执行表示所述信息处理装置已进行了初始化的复位信号的接收和数据的收发;
连接部,其在所述多个第2通信部间以能够传送所述数据的方式进行连接;
输入部,其不经由所述第2通信部而从各个所述信息处理装置接收所述复位信号的输入;以及
控制部,在所述输入部接收了所述复位信号的情况下,以发送了所述复位信号的所述信息处理装置经由所述连接部接收到所述数据为条件,执行初始化处理,其中在该初始化处理中,对与该数据的发送源的所述信息处理装置对应的所述第2通信部进行初始化。
5.一种程序,其中,该程序使中继装置作为控制部发挥作用,所述中继装置具有:
多个第2通信部,其针对多个信息处理装置中的每个信息处理装置而设置,执行表示所述信息处理装置已进行了初始化的复位信号的接收和数据的收发;
连接部,其在所述多个第2通信部间以能够传送所述数据的方式进行连接;以及
输入部,其不经由所述第2通信部而从各个所述信息处理装置接收所述复位信号的输入,
所述控制部在所述输入部接收了所述复位信号的情况下,以发送了所述复位信号的所述信息处理装置经由所述连接部接收到所述数据为条件,执行初始化处理,其中在该初始化处理中,对与该数据的发送源的所述信息处理装置对应的所述第2通信部进行初始化。
Applications Claiming Priority (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2019147437A JP6659989B1 (ja) | 2019-08-09 | 2019-08-09 | 情報処理システム、中継装置、及びプログラム |
| JP2019-147437 | 2019-08-09 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| CN112346878A true CN112346878A (zh) | 2021-02-09 |
Family
ID=69998010
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| CN202010503611.3A Withdrawn CN112346878A (zh) | 2019-08-09 | 2020-06-05 | 信息处理系统、中继装置及程序 |
Country Status (4)
| Country | Link |
|---|---|
| US (1) | US20210042128A1 (zh) |
| JP (1) | JP6659989B1 (zh) |
| CN (1) | CN112346878A (zh) |
| GB (1) | GB2589656A (zh) |
Families Citing this family (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US11606316B2 (en) * | 2020-11-20 | 2023-03-14 | Qualcomm Incorporated | System and method for modem stabilization when waiting for AP-driven link recovery |
| CN116505664B (zh) * | 2023-06-29 | 2023-08-22 | 中国科学院上海高等研究院 | 用于波荡器运动控制系统的远程断电重启系统及方法 |
| CN116932274B (zh) * | 2023-09-19 | 2024-01-09 | 苏州元脑智能科技有限公司 | 异构计算系统和服务器系统 |
Family Cites Families (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US5859987A (en) * | 1995-09-29 | 1999-01-12 | Intel Corporation | Method and apparatus for providing multiple configuration reset modes for an intelligent bridge |
| JP2009265979A (ja) * | 2008-04-25 | 2009-11-12 | Canon Inc | スブリッジ回路におけるリセット制御手段 |
| JP5281942B2 (ja) * | 2009-03-26 | 2013-09-04 | 株式会社日立製作所 | 計算機およびその障害処理方法 |
-
2019
- 2019-08-09 JP JP2019147437A patent/JP6659989B1/ja active Active
-
2020
- 2020-05-19 GB GB2007402.7A patent/GB2589656A/en not_active Withdrawn
- 2020-06-04 US US16/893,085 patent/US20210042128A1/en not_active Abandoned
- 2020-06-05 CN CN202010503611.3A patent/CN112346878A/zh not_active Withdrawn
Also Published As
| Publication number | Publication date |
|---|---|
| JP6659989B1 (ja) | 2020-03-04 |
| GB2589656A (en) | 2021-06-09 |
| US20210042128A1 (en) | 2021-02-11 |
| JP2021028757A (ja) | 2021-02-25 |
| GB202007402D0 (en) | 2020-07-01 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US8238255B2 (en) | Recovering from failures without impact on data traffic in a shared bus architecture | |
| US20120072633A1 (en) | Hot Plug Process in a Distributed Interconnect Bus | |
| CN112346878A (zh) | 信息处理系统、中继装置及程序 | |
| CN108234267B (zh) | 一种基于m-lvds实时多主高速总线的通信系统 | |
| KR102767055B1 (ko) | 반도체 집적 회로 및 그것의 동작 방법 | |
| CN100456267C (zh) | 监控控制器和PCI Express设备间信道数量的方法和装置 | |
| US20250103431A1 (en) | Peripheral component interconnect express interface device and system including the same | |
| US20090177807A1 (en) | Reset method for application specific integrated circuits (asic) | |
| EP4124966A1 (en) | A peripheral device having an implied reset signal | |
| US20200334044A1 (en) | Information processing system and power supply control method | |
| US20080310297A1 (en) | Error control apparatus | |
| CN107659413B (zh) | 小型通信设备 | |
| CN117033276B (zh) | 总线通信方法、系统、电子设备及存储介质 | |
| US12386723B2 (en) | High-speed offloading of trace data from an integrated circuit | |
| CN112445736A (zh) | 信息处理系统 | |
| CN217718676U (zh) | Gpio通信电路及板卡、电子设备 | |
| JP6826300B1 (ja) | 情報処理システム | |
| JP4915113B2 (ja) | バスシステム、リセットイニシャライズ回路、及びバスシステムにおける障害復旧方法 | |
| US20200209932A1 (en) | System and device | |
| JP3236275B2 (ja) | キーボードおよびマウスのホットプラグ装置 | |
| CN117708035A (zh) | Ad芯片的通信系统和方法 | |
| KR100856259B1 (ko) | 인터럽트를 수행하는 프로그래머블 로직 다바이스와 이를이용한 프로세서 보드 이중화 장치 및 방법 | |
| JP2001274803A (ja) | インタフェース装置及びインタフェースシステム | |
| Müller | Design and Use of a PPMC Processor as Shared-Memory SCI Node | |
| Altmann et al. | Design and use of a PPMC processor as shared-memory SCI node |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| PB01 | Publication | ||
| PB01 | Publication | ||
| SE01 | Entry into force of request for substantive examination | ||
| SE01 | Entry into force of request for substantive examination | ||
| WW01 | Invention patent application withdrawn after publication | ||
| WW01 | Invention patent application withdrawn after publication |
Application publication date: 20210209 |