[go: up one dir, main page]

CN100511162C - 一种隔离总线故障的方法、装置与一种单板 - Google Patents

一种隔离总线故障的方法、装置与一种单板 Download PDF

Info

Publication number
CN100511162C
CN100511162C CNB2006100629540A CN200610062954A CN100511162C CN 100511162 C CN100511162 C CN 100511162C CN B2006100629540 A CNB2006100629540 A CN B2006100629540A CN 200610062954 A CN200610062954 A CN 200610062954A CN 100511162 C CN100511162 C CN 100511162C
Authority
CN
China
Prior art keywords
single board
address
target single
board
retry
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CNB2006100629540A
Other languages
English (en)
Other versions
CN1932772A (zh
Inventor
李延松
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Priority to CNB2006100629540A priority Critical patent/CN100511162C/zh
Publication of CN1932772A publication Critical patent/CN1932772A/zh
Priority to EP07114776A priority patent/EP1909180A3/en
Priority to US11/843,452 priority patent/US7543191B2/en
Application granted granted Critical
Publication of CN100511162C publication Critical patent/CN100511162C/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/22Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing
    • G06F11/2205Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing using arrangements specific to the hardware being tested
    • G06F11/221Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing using arrangements specific to the hardware being tested to test buses, lines or interfaces, e.g. stuck-at or open line faults

Landscapes

  • Engineering & Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明公开了一种隔离总线故障的方法,从Compact PCI总线上获取当前访问目标单板的地址;判断当前访问是否在Compact PCI总线上产生了重试响应,如果是,则与目标单板地址对应的重试计数器增加一个计数单位;判断重试计数器的计数值是否超过重试次数门限值,如果是,则向目标单板发送复位信号。同时,还向处理器发送中断信号,由处理器根据目标单板的地址对外发出故障通知,以便外部人员及时维护。本发明还公开了一种隔离总线故障的装置和一种单板。利用本发明,系统中出现故障的设备可得到及时恢复,避免总线挂死现象,同时便于外部维护。

Description

一种隔离总线故障的方法、装置与一种单板
技术领域
本发明涉及数据传输技术领域,具体地说涉及一种隔离总线故障的方法与系统。
背景技术
PCI(Peripheral Component Interconnect,外部设备互连)总线是由Intel公司在1992年发布的,其顺应了多媒体计算机对总线带宽日益增长的需求,具有即插即用、与处理器无关、可扩展性好等优点,并能够根据应用的需要扩展总线宽度或工作频率,保持软件的兼容性,因此得到了普遍的推广应用。
随着PCI总线在个人计算机领域的推广,它也逐渐被应用到其他领域,例如服务器、笔记本电脑、嵌入式系统等,1994年PICMG(PCI Industrial ComputerManufacturers Group,PCI工业计算机制造商协会)发布了Compact PCI(CompactPeripheral Component Interconnect,紧凑的外部设备互连)规范,将PCI总线扩展至对可靠性要求很高的电信、工业控制等领域。Compact PCI规范定义了一种新的板卡和系统结构,它采用欧式卡的机械尺寸,电气特性和数据传输协议与PCI总线相同;支持热插拔,可以在线更换单板;可扩展性较好,能根据应用的需要配置单板的数量;支持主备倒换,提高了系统的可靠性;可以采用个人计算机领域大量生产的芯片,降低成本。
如图1所示是一种典型的8槽位Compact PCI系统,Compact PCI系统为前后插板结构,前插板用于提供通用的处理能力,后插板通常用于提供对外接口,前插板分为系统板和接口板两种,系统板主要完成系统管理和控制功能,接口板主要完成业务处理功能。Compact PCI系统为总线型拓扑结构,系统板与接口板之间、接口板与接口板之间都可以利用总线进行相互访问,但是当某块单板发生故障时,难以隔离该故障并容易将故障扩散到其他单板,造成整个系统故障。
以同一条Compact PCI总线连接的两块接口板之间相互通信的过程为例,如图2所示,为接口板1对接口板2发起访问的过程示意图,接口板1的CPU向接口板2的共享内存发起访问,经过本板的主桥、P2P(PCI to PCI bridge,PCI-PCI桥接芯片)桥传递到Compact PCI总线上,访问信息经由Compact PCI总线传递至接口板2的P2P桥。图3为接口板2对接口板1发出响应的过程示意图,接口板2的P2P桥响应上述访问,并传递到板内的PCI总线,主桥作为目标设备响应P2P桥的访问,将数据接收下来进行写操作保存在内存中或者从内存中进行读操作读取数据传递给P2P桥,P2P桥再将响应信息传递到Compact PCI总线上,响应信息经由Compact PCI总线传递回接口板1。但是,如果接口板2发生了故障,例如主桥工作异常,则无法正常响应P2P桥发起的访问,此时,接口板2的P2P桥将对单板1的P2P桥产生重试响应,而单板1的P2P桥又会对单板1的主桥产生重试响应。对于某些主桥来说,如果它发起的某次访问得到的是重试响应,那么它将一直尝试访问上次没有成功的目标单板,直到成功为止。在这种情况下,单板2的故障扩散到单板1,其他需要单板1的主桥完成的功能例如板间通信将无法实现,另外,单板的这种非正常运行可能导致单板不能发出清零信号给看门狗电路,造成单板的异常复位;如果单板上没有看门狗复位电路恢复系统的正常运行,那么单板将一直挂死。
这样,如何解决单板故障引起的Compact PCI总线挂死成为一个关键的问题,由于总线上某块单板的故障被扩散到其他单板是由主桥芯片的特性引起的,因此现有的解决该问题的一种方法是在单板中使用某些具有重试计数的功能的主桥芯片,通过软件预先设置一个门限值,当重试次数超过这个门限值之后主桥就会丢弃这个不成功的操作,而继续执行下一个操作,从而避免了反复重试造成总线挂死的问题。另外一种解决方案是在在单板上采用类似于上述主桥芯片功能的电路进行重试的检测,如果超出了一定的次数就通过某种方式让主桥放弃这次访问,也可达到同样的效果。
现有技术三,一种系统总线监测方法与装置,该技术预先设定好欲监测的存取模块、对应的监测期间、逾期事件模块及逾期事件对应的操作,对于系统总线上互相交换信息的模块的工作进行监测,当模块开始交互信息时,对应的监测期间开始倒数计时,若模块间信息交互在倒数至零前完成,则判断该存取模块可正常运作;若否,则对该可能存在运作上问题的模块执行预先设定的逾时事件,做出适当的响应。
上述第一种方法采用主桥芯片计数来恢复单板正常依赖于主桥芯片的选型,不是所有的主桥芯片都有这种功能;第二种采用电路替代主桥芯片的方法的适应性虽然好一些,但与直接使用芯片比较却并不节约成本;第三种方法采用一定的功能模块实现预先设定的监测期间与逾时操作的执行,达到了实时反映模块异常情况的效果,但是其逾时操作是预先设定的,仅包括响应、通报、记录故障的功能,仅起到监测作用,并不能反映出故障并排除故障,仍然具有一定的局限性。上述方法共同的局限性在于只能解决故障引起的单板挂死问题,使得被扩散的单板恢复正常的操作,而无法定位出发生故障的单板,也无法使它恢复正常,这样故障单板仍然可能扩散至其它与它发生信息交互的单板。
发明内容
本发明的目的在于解决现有技术不能定位出故障单板并使它恢复正常,造成故障仍然会扩散至其它单板的缺陷,提供一种有效隔离总线故障的方法和系统。
为了实现上述目的,本发明提供如下的技术方案:
一种隔离总线故障的方法,包括步骤:
A、从Compact PCI总线上获取当前访问的目标单板的地址;
B、判断当前访问是否在Compact PCI总线上产生了重试响应,如果是,则与目标单板地址对应的重试计数器增加一个计数单位;
C、判断所述重试计数器的计数值是否超过重试次数门限值,如果是,则向目标单板发送复位信号。
进一步地,步骤B包括:
如果当前访问未在Compact PCI总线上产生重试响应,将所述目标单板地址对应的重试计数器清零。
进一步地,步骤C之后还包括:将所述目标单板地址对应的重试计数器清零。
另外,步骤A还执行:保存所述目标单板的地址。
相应地,步骤C还执行:当重试计数器的计数值超过重试次数门限值时,还向处理器发送中断信号。
相应地,步骤C后进一步包括步骤D:
D、处理器获取所述中断信号后,读取保存的所述目标单板的地址,根据所述目标单板的地址确定故障单板的位置信息,并发出包含所述故障单板位置信息的故障通知。
本发明还提供一种隔离总线故障的装置,包括:
PCI接口逻辑模块,用以从Compact PCI总线上获取当前访问的目标单板的地址,判断所述当前访问是否在Compact PCI总线上产生重试响应;
重试计数模块,所述重试计数模块与所述PCI接口逻辑模块相连,所述重试计数模块包括至少一个重试计数器,所述Compact PCI总线上连接的任意一块单板至少对应于一个重试计数器,所述重试计数器用以对其对应的单板产生重试响应次数进行计数或者当其对应的单板重试响应解除时进行清零;
译码逻辑模块,所述译码逻辑模块与所述重试计数模块连接,用以判断所述目标单板对应的重试计数器的计数值是否超过重试次数门限值,对于超过重试次数门限值的目标单板产生复位信号。
其中,所述装置还包括:
门限寄存器,所述门限寄存器与所述译码逻辑模块连接,用以保存所述重试次数门限值。
地址寄存器,所述地址寄存器用以保存所述PCI接口逻辑模块传送的所述目标单板的地址。
处理器接口逻辑模块,所述处理器接口逻辑模块与所述地址寄存器、门限寄存器连接,用于为处理器从所述地址寄存器读取所述目标单板的地址和/或向所述门限寄存器写入所述重试次数门限值提供接口。
同时,所述译码逻辑模块还包括:
中断信号产生模块,所述中断信号产生模块用以在所述译码逻辑模块判断出所述目标单板对应的重试计数器的计数值超过重试次数门限值时,产生中断信号,并向处理器发送所述中断信号。
本发明还提供一种单板,包括CPU、内存、主桥芯片与外部设备互联桥接芯片P2P桥,所述P2P桥与Compact PCI总线连接,还包括与Compact PCI总线连接的监控单元,所述监控单元用以从Compact PCI总线上获取当前访问的目标单板的地址,判断所述当前访问是否在Compact PCI总线上产生重试响应,判断重试响应次数是否超过重试次数门限值,对于超过重试次数门限值的目标单板产生复位信号。
其中,所述监控单元包括:
PCI接口逻辑模块,用以从Compact PCI总线上获取当前访问的目标单板的地址,判断所述当前访问是否在Compact PCI总线上产生重试响应;
重试计数模块,所述重试计数模块与所述PCI接口逻辑模块相连,所述重试计数模块包括至少一个重试计数器,所述Compact PCI总线上连接的任意一块单板至少对应于一个重试计数器,所述重试计数器用以对其对应的单板产生重试响应次数进行计数或者当其对应的单板重试响应解除时进行清零;
译码逻辑模块,所述译码逻辑模块与所述重试计数模块连接,用以判断所述目标单板对应的重试计数器的计数值是否超过重试次数门限值,对于超过重试次数门限值的目标单板产生复位信号。
其中,所述监控单元还包括:中断信号产生模块,所述中断信号产生模块用以在所述译码逻辑模块判断出所述目标单板对应的重试计数器的计数值超过重试次数门限值时,产生中断信号,并向第一处理器传送所述中断信号;
所述单板还包括:第一处理器,所述第一处理器用以接收所述中断信号产生模块上报的中断信号,读取保存的目标单板的地址,根据所述目标单板的地址确定故障单板的位置信息,并发出包含所述故障单板位置信息的故障通知。
由于采用了上述方案,本发明的有益效果如下:
1、监控单元判断出目标单板地址对应的重试计数次数超过预先设定的重试次数门限值时,即针对该目标单板发出复位信号,将该目标单板复位,使得该单板恢复正常的工作。
2、故障单板恢复正常工作后,避免了故障继续扩散至其它与它发生信息交互的单板,保证与之通信的其他设备不会产生挂死现象。
3、监控单元还发出中断信号,中断处理程序中从地址寄存器中获取故障单板的地址,可定位出Compact PCI总线上故障单板所在的位置信息,对外发送包含故障单板位置信息的故障通知,便于系统的管理和维护。
附图说明
图1为8槽位Compact PCI系统结构示意图;
图2为接口板1对接口板2发起访问的过程示意图;
图3为接口板2对接口板1发出响应的过程示意图;
图4为本发明提供的隔离总线故障的系统实施例的组成示意图;
图5为图4中监控单元实施例的组成示意图;
图6为图5所示监控单元工作实施例的流程示意图。
具体实施方式
根据Compact PCI总线协议,某次数据传输开始时主设备需要同时发送目标单板的地址,利用该特点,为了实现本发明定位出故障单板并使故障单板恢复正常的目的,本发明的关键在于在系统中增加一个功能模块,由该功能模块实现对总线上的操作的实时监控,该模块获取并存储目标单板的地址,当该地址对应的单板的重试次数超过预先设定的上限时,该功能模块产生复位信号给故障单板,使得故障单板恢复正常。
下面参照附图对本发明进行详细说明。
参见图4,为本发明所提供的隔离总线故障的系统一个实施例的组成图,本实施例中采用可编程逻辑器件设计一个监控单元,并将该监控单元连接在系统中。该系统包括:2块接口板、1个监控单元、1条Compact PCI总线及1个处理器;Compact PCI总线负责接口板与接口板、各接口板与监控单元的连接;接口板内包括互相连接的CPU、内存、主桥与P2P桥,主桥与P2P间由PCI总线连接,各接口板的P2P桥与Compact PCI总线连接,负责发起访问及发送目标单板的地址;监控单元一端连接在Compact PCI总线上,另一端通过处理器接口与处理器连接,监控单元负责对总线上的操作进行实时监控,获取并保存当前访问目标单板的地址,对当前访问的重试次数进行计数,当重试计数次数达到门限值后针对目标单板发出复位信号与中断信号,排除目标单板的故障;处理器与监控单元连接,负责为在监控单元中保存目标单板的地址以及预设重试次数门限值提供读写操作,以及根据监控单元发出的中断信号读取目标单板的地址,从而定位出故障单板的位置信息并发出故障通知。
需要说明的是,本实施例仅体现了由一条Compact PCI总线连接两块接口板以及监控单元作为一个独立的模块通过Compact PCI总线与各接口板连接的情况,在实际工作中,本发明所提供的隔离系统总线故障的系统可由任意槽位数的单板构成,监控单元并不限于作为独立于各单板的模块,也可以构造在任意一块单板上。
下面对上述系统中使用的监控单元进行详细的说明。
参见图5,为图4中监控单元的结构组成图,该监控单元由PCI接口逻辑模块、重试计数模块、译码逻辑模块、地址寄存器、门限寄存器、处理器接口逻辑模块组成;
PCI接口逻辑模块一端对外与Compact PCI总线连接,对内与地址寄存器、重试计数器连接,实现监控单元与Compact PCI总线的接入口,用以从CompactPCI总线上获取目标单板地址,将该地址写入地址寄存器,判断Compact PCI总线上当前访问是否产生重试响应,并将判断结果发送给重试计数模块;
重试计数模块与PCI接口逻辑模块连接,重试计数模块包括至少一个重试计数器,Compact PCI总线上连接的任意一块单板至少对应于一个重试计数器,重试计数器用以对其对应的单板产生重试响应次数进行计数或者当其对应的单板重试响应解除时进行清零;
译码逻辑模块与重试计数模块连接,用以比较重试次数门限值与当前访问的重试次数,判断重试次数是否超过门限值,根据判断结果产生复位信号和中断信号;
门限寄存器与译码逻辑模块连接,负责保存预先设定的重试次数的门限值;
地址寄存器与PCI接口逻辑模块连接,负责保存当前被访问的目标单板的地址;
处理器接口逻辑模块与地址寄存器、门限寄存器连接,负责为处理器从监控单元中读取目标单板地址或读写门限值的操作提供读写接口。
上述监控单元可以作成独立的模块设置在系统中,该模块对系统具有独立性,并对Compact PCI总线系统的故障隔离与监控具有通用性,因此,本发明还提供一种隔离总线故障的装置,上述系统中的监控单元即可视为本发明提供的隔离总线故障的装置在系统中应用时的一种实施例。
上述监控单元还可设置在系统中的任意一块单板上,设置有监控单元的单板在系统中也可实现隔离系统总线故障的发明目的,因此,本发明还提供一种单板,该单板上设置有可对外连接于Compact PCI总线的上述监控单元,通过设置监控单元,单板可实现对系统总线上产生的故障进行确定与复位故障单板,同时还可在单板上设置一处理器,用以对监控单元产生的中断信号进行处理,对外产生故障通知,该处理器也可以不设置在单板上,外置于单板并与监控单元保持连接即可。
利用上述系统及装置,实现本发明的基本方法如下:
步骤A:当系统中某一单板发起对另一单板的访问时,从Compact PCI总线上获取该访问目标单板的地址;
步骤B:监控单元中的PCI接口逻辑模块将目标单板的地址保存在地址寄存器中,当目标单板异常造成发起访问的单板对该次访问产生重试响应时,与目标单板对应的重试计数器增加一个计数单位,当重试计数器中的计数值达到门限值之后译码逻辑模块产生复位信号将故障单板复位,同时产生中断信号给处理器,处理器从地址寄存器中读取地址,定位出故障单板位置信息,发出故障通知给维护人员以便及时更换单板。
根据上述基本方法,参见图6所示的监控单元的操作流程图,本发明所提供的方法的具体实施方式包括以下步骤:
步骤601:PCI接口逻辑模块判断Compact PCI总线上是否有新的访问,是则获取总线上传输的目标单板的地址;
步骤602:PCI接口逻辑模块将目标单板地址写入地址寄存器保存;
步骤603:PCI接口逻辑模块判断当前访问是否产生了重试响应,是则进入步骤605,否则进入步骤604;
步骤604:与目标单板的地址对应的重试计数器接收PCI接口逻辑模块发送的清零信号,该槽位重试计数器清零,返回步骤601;
步骤605:与目标单板的地址对应的重试计数器接收PCI接口逻辑模块发送的增值信号,该重试计数器增加一个计数单位,同时将该重试计数次数发送给译码逻辑模块;
步骤606:译码逻辑模块从门限寄存器中获取重试次数门限值,判断步骤605中接收到的重试计数次数是否超过门限值,是则进入下一步,否则返回步骤601;
步骤607:译码逻辑模块产生复位信号将目标单板复位,同时对外产生一个中断信号,重试计数器清零。
利用上述方法,当译码逻辑模块产生复位信号将故障单板复位后,故障单板将恢复正常,对故障单板发起访问的其它单板也可以从重试响应中恢复过来,于是Compact PCI总线上不再发生重试引起的挂死现象。另外,译码逻辑模块同时还产生一个中断信号,该信号由处理器获得,处理器获得中断信号后启动中断处理程序,从地址寄存器中读取当前访问目标单板的地址,查询出故障单板的地址,从而判断出是哪块单板发生了故障,由此对外发出故障通知,以便及时通知维护人员及时更换单板。
为了更清楚体现本发明,下面例举一个应用本发明所提供方法实施例的一个具体应用实施例,假设系统中单板1至4的内存地址分别为A、B、C、D,重试次数最大门限值为2次,所有单板中仅单板2为故障单板,其步骤如下:
单板1发起对单板2的访问,监控单元中的PCI接口逻辑模块将单板2的地址B存入地址寄存器,判断出单板1产生了重试,于是,单板2对应的重试计数器计数由零增至1,译码逻辑模块取得重试次数门限值2和计数次数1,比较得出计数未超出门限,进行下一轮访问;
第二轮访问为单板3访问单板4,此时,地址寄存器内容更新为单板4的地址D,PCI接口逻辑模块判断出访问未产生重试,于是,单板4对应的重试计数器清零,进行下一轮访问;
第三轮访问为单板1访问单板2,地址寄存器内容由单板4的地址D更新为单板2地址B,PCI接口逻辑模块判断出访问产生重试,单板2对应的重试计数器计数由1增至2,译码逻辑模块取得重试次数门限值2和计数次数2,比较得出计数未超出门限,进行下一轮访问;
第四轮访问仍为单板1访问单板2,地址寄存器内容保持单板2地址B不变,PCI接口逻辑模块判断出访问产生重试,单板2对应的重试计数器计数由2增至3,译码逻辑模块取得重试次数门限值2和计数次数3,比较得出计数超出门限,译码逻辑模块产生复位信号将故障单板复位,同时,译码逻辑模块还产生一个中断信号,将该中断信号上报给处理器,处理器收到信号后从地址寄存器中读取到地址B,判断出发生故障的单板为单板2,之后向外发出一个单板2发生故障的通知,维修人员根据该故障通知即可及时更换单板2。
应用本发明各实施例提供的系统和方法,可以及时解决系统中出现的故障,使得故障设备及时恢复正常,而不至于将其故障继续扩散至其它设备,并且,本发明的各实施例同时还可定位出故障设备,发出通知使外部维护人员及时更换故障设备,有效隔离了系统的故障。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的权利要求范围之内。

Claims (13)

1、一种隔离总线故障的方法,其特征在于,包括:
A、从Compact PCI总线上获取当前访问的目标单板的地址;
B、判断当前访问是否在Compact PCI总线上产生了重试响应,如果是,则与目标单板地址对应的重试计数器增加一个计数单位;
C、判断所述重试计数器的计数值是否超过重试次数门限值,如果是,则向目标单板发送复位信号。
2、根据权利要求1所述的方法,其特征在于,步骤B进一步包括:
如果当前访问未在Compact PCI总线上产生重试响应,将所述目标单板地址对应的重试计数器清零。
3、根据权利要求1所述的方法,其特征在于,步骤C之后还包括:将所述目标单板地址对应的重试计数器清零。
4、根据权利要求1所述的方法,其特征在于,步骤A进一步包括:保存所述目标单板的地址。
5、根据权利要求4所述的方法,其特征在于,步骤C进一步包括:当重试计数器的计数值超过重试次数门限值时,还向处理器发送中断信号。
6、根据权利要求5所述的方法,其特征在于,步骤C后进一步包括步骤D:
D、处理器获取所述中断信号后,读取保存的所述目标单板的地址,根据所述目标单板的地址确定故障单板的位置信息,并发出包含所述故障单板位置信息的故障通知。
7、一种隔离总线故障的装置,其特征在于,包括:
PCI接口逻辑模块,用以从Compact PCI总线上获取当前访问的目标单板的地址,判断所述当前访问是否在Compact PCI总线上产生重试响应;
重试计数模块,所述重试计数模块与所述PCI接口逻辑模块相连,所述重试计数模块包括至少一个重试计数器,所述Compact PCI总线上连接的任意一块单板至少对应于一个重试计数器,所述重试计数器用以对其对应的单板产生重试响应次数进行计数或者当其对应的单板重试响应解除时进行清零;
译码逻辑模块,所述译码逻辑模块与所述重试计数模块连接,用以判断所述目标单板对应的重试计数器的计数值是否超过重试次数门限值,对于超过重试次数门限值的目标单板产生复位信号。
8、根据权利要求7所述的装置,其特征在于,所述装置还包括:
门限寄存器,所述门限寄存器与所述译码逻辑模块连接,用以保存所述重试次数门限值。
9、根据权利要求8所述的装置,其特征在于,所述装置还包括:
地址寄存器,所述地址寄存器用以保存所述PCI接口逻辑模块传送的所述目标单板的地址。
10、根据权利要求9所述的装置,其特征在于,所述装置还包括:
处理器接口逻辑模块,所述处理器接口逻辑模块与所述地址寄存器、门限寄存器连接,用于为处理器从所述地址寄存器读取所述目标单板的地址和/或向所述门限寄存器写入所述重试次数门限值提供接口;其中,所述处理器通过处理器接口与所述装置相连。
11、根据权利要求7所述的装置,其特征在于,所述译码逻辑模块还包括:
中断信号产生模块,所述中断信号产生模块用以在所述译码逻辑模块判断出所述目标单板对应的重试计数器的计数值超过重试次数门限值时,产生中断信号,并向处理器发送所述中断信号;其中,所述处理器通过处理器接口与所述装置相连。
12、一种单板,包括CPU、内存、主桥芯片与外部设备互联桥接芯片P2P桥,所述P2P桥与Compact PCI总线连接,其特征在于,还包括与Compact PCI总线连接的监控单元;
所述监控单元包括:
PCI接口逻辑模块,用以从Compact PCI总线上获取当前访问的目标单板的地址,判断所述当前访问是否在Compact PCI总线上产生重试响应;
重试计数模块,所述重试计数模块与所述PCI接口逻辑模块相连,所述重试计数模块包括至少一个重试计数器,所述Compact PCI总线上连接的任意一块单板至少对应于一个重试计数器,所述重试计数器用以对其对应的单板产生重试响应次数进行计数或者当其对应的单板重试响应解除时进行清零;
译码逻辑模块,所述译码逻辑模块与所述重试计数模块连接,用以判断所述目标单板对应的重试计数器的计数值是否超过重试次数门限值,对于超过重试次数门限值的目标单板产生复位信号。
13、根据权利要求12所述的单板,其特征在于,所述译码逻辑模块还包括:中断信号产生模块,所述中断信号产生模块用以在所述译码逻辑模块判断出所述目标单板对应的重试计数器的计数值超过重试次数门限值时,产生中断信号,并向第一处理器传送所述中断信号;
所述单板还包括:第一处理器,所述第一处理器用以接收所述中断信号产生模块上报的中断信号,读取保存的目标单板的地址,根据所述目标单板的地址确定故障单板的位置信息,并发出包含所述故障单板位置信息的故障通知。
CNB2006100629540A 2006-09-29 2006-09-29 一种隔离总线故障的方法、装置与一种单板 Expired - Fee Related CN100511162C (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CNB2006100629540A CN100511162C (zh) 2006-09-29 2006-09-29 一种隔离总线故障的方法、装置与一种单板
EP07114776A EP1909180A3 (en) 2006-09-29 2007-08-22 Method and apparatus for isolating bus failure
US11/843,452 US7543191B2 (en) 2006-09-29 2007-08-22 Method and apparatus for isolating bus failure

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNB2006100629540A CN100511162C (zh) 2006-09-29 2006-09-29 一种隔离总线故障的方法、装置与一种单板

Publications (2)

Publication Number Publication Date
CN1932772A CN1932772A (zh) 2007-03-21
CN100511162C true CN100511162C (zh) 2009-07-08

Family

ID=37878617

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB2006100629540A Expired - Fee Related CN100511162C (zh) 2006-09-29 2006-09-29 一种隔离总线故障的方法、装置与一种单板

Country Status (3)

Country Link
US (1) US7543191B2 (zh)
EP (1) EP1909180A3 (zh)
CN (1) CN100511162C (zh)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4630766B2 (ja) * 2005-08-26 2011-02-09 キヤノン株式会社 プライマリシステムとセカンダリシステムを有するシステム
JP4705886B2 (ja) * 2006-06-20 2011-06-22 株式会社日立製作所 回路基板の診断方法、回路基板およびcpuユニット
US7711869B1 (en) * 2007-12-20 2010-05-04 Emc Corporation Method for communicating plural signals generated at a source to a remote destination through a single wire
CN101247615B (zh) * 2008-03-07 2011-02-02 上海华为技术有限公司 提高通信设备可靠性的方法及装置
CN101645057B (zh) * 2008-08-06 2012-07-18 中兴通讯股份有限公司 一种防止cpu局域总线挂死的方法及装置
JP6056225B2 (ja) * 2012-03-22 2017-01-11 株式会社リコー 制御基板、制御システムおよびコピー処理方法
EP2829986B1 (en) * 2013-05-20 2017-07-12 Huawei Technologies Co., Ltd. Computer system, access method and apparatus for peripheral component interconnect express endpoint devices
US9338057B2 (en) * 2013-10-30 2016-05-10 Netapp, Inc. Techniques for searching data associated with devices in a heterogeneous data center
CN104714909B (zh) * 2013-12-13 2019-01-25 锐迪科(重庆)微电子科技有限公司 处理总线挂死的装置、方法、总线结构及系统
CN104699418B (zh) * 2014-04-02 2018-02-16 杭州海康威视数字技术股份有限公司 对安全数码卡进行异常恢复的方法及设备
CN104391755A (zh) * 2014-10-21 2015-03-04 北京星网锐捷网络技术有限公司 嵌入式多媒体卡eMMC芯片异常的处理方法和装置
US9934187B2 (en) * 2014-12-17 2018-04-03 Quanta Computer Inc. Hot-pluggable computing system
US10225802B2 (en) * 2016-11-29 2019-03-05 At&T Mobility Ii Llc Managing negotiation of power saving mode parameters between a user equipment and a core network device
CN108121632A (zh) * 2016-11-30 2018-06-05 中兴通讯股份有限公司 一种单板电源的保护方法及装置
CN109981370B (zh) * 2019-03-29 2022-01-11 烽火通信科技股份有限公司 不同总线和协议的单元盘的业务管理方法、装置及系统
US11086804B2 (en) * 2019-12-09 2021-08-10 Western Digital Technologies, Inc. Storage system and method for reducing read-retry duration
US11748220B2 (en) 2020-11-20 2023-09-05 Micron Technology, Inc. Transmission link testing

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4825438A (en) * 1982-03-08 1989-04-25 Unisys Corporation Bus error detection employing parity verification
US5682551A (en) * 1993-03-02 1997-10-28 Digital Equipment Corporation System for checking the acceptance of I/O request to an interface using software visible instruction which provides a status signal and performs operations in response thereto
US5838899A (en) * 1994-09-20 1998-11-17 Stratus Computer Digital data processing methods and apparatus for fault isolation
US5822512A (en) * 1995-05-19 1998-10-13 Compaq Computer Corporartion Switching control in a fault tolerant system
US5764924A (en) * 1995-08-24 1998-06-09 Ncr Corporation Method and apparatus for extending a local PCI bus to a remote I/O backplane
JP4034844B2 (ja) * 1995-11-28 2008-01-16 富士通株式会社 バス延長対応型制御システム
US5819027A (en) * 1996-02-28 1998-10-06 Intel Corporation Bus patcher
US5819053A (en) * 1996-06-05 1998-10-06 Compaq Computer Corporation Computer system bus performance monitoring
JP4144986B2 (ja) * 1999-12-13 2008-09-03 富士通株式会社 情報処理装置、及び、トランザクション処理方法、プロセッサ、並びに、リトライ方法
US6996750B2 (en) * 2001-05-31 2006-02-07 Stratus Technologies Bermuda Ltd. Methods and apparatus for computer bus error termination
US7069477B2 (en) * 2002-10-30 2006-06-27 International Business Machines Corporation Methods and arrangements to enhance a bus
JP2004164072A (ja) * 2002-11-11 2004-06-10 Hitachi Ltd ディスク制御装置およびディスク制御装置の制御方法
US20040117689A1 (en) * 2002-12-12 2004-06-17 International Business Machines Corporation Method and system for diagnostic approach for fault isolation at device level on peripheral component interconnect (PCI) bus
US20070240019A1 (en) * 2005-12-29 2007-10-11 International Business Machines Corporation Systems and methods for correcting errors in I2C bus communications

Also Published As

Publication number Publication date
US7543191B2 (en) 2009-06-02
EP1909180A3 (en) 2008-05-21
CN1932772A (zh) 2007-03-21
US20080082866A1 (en) 2008-04-03
EP1909180A2 (en) 2008-04-09

Similar Documents

Publication Publication Date Title
CN100511162C (zh) 一种隔离总线故障的方法、装置与一种单板
CN117992270B (zh) 一种内存资源管理系统、方法、装置、设备及存储介质
CN114003445B (zh) Bmc的i2c监控功能测试方法、系统、终端及存储介质
CN113342263B (zh) 全快闪存储器阵列伺服器的节点信息交换管理方法与设备
CN114826962A (zh) 一种链路故障检测方法、装置、设备及机器可读存储介质
CN108512753B (zh) 一种集群文件系统中消息传输的方法及装置
CN114003416B (zh) 内存错误动态处理方法、系统、终端及存储介质
CN105549696A (zh) 具有机箱管理功能的机架式服务器系统
TWI773152B (zh) 伺服器與應用於伺服器的控制方法
CN105487609A (zh) 一种服务器
CN103984390B (zh) 一种刀片及刀片服务器
CN116974809A (zh) 故障信息获取方法、装置、基板管理控制器、系统及介质
CN120196519B (zh) PCIe设备的故障告警方法、系统、设备、介质和产品
CN120429158B (zh) 系统管理器、错误数据的处理方法、设备及程序产品
CN105471652B (zh) 大数据一体机及其冗余管理单元
CN115686896A (zh) 扩展内存错误处理方法、系统、电子设备及存储介质
CN113342593B (zh) 用以进行全快闪存储器阵列伺服器的高可用性管理的方法与设备
CN100498723C (zh) 一种避免总线故障的方法、通信设备及总线监控装置
CN119718757A (zh) 一种内存系统、内存管理方法、设备及介质
CN201196776Y (zh) 具有时钟备份的单板及系统
CN105763366A (zh) 一种基于聚合链路实现的数据通信方法及装置
CN116257126A (zh) 一种清理psu错误的方法、系统、存储介质及设备
US7925728B2 (en) Facilitating detection of hardware service actions
CN117092902A (zh) 多数据通道背板、多数据通道管理方法及系统
CN209821817U (zh) 电子设备及集群服务器系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20090708

Termination date: 20170929

CF01 Termination of patent right due to non-payment of annual fee