[go: up one dir, main page]

CN104407952A - 一种通过多cpu节点控制器芯片进行调试的方法和系统 - Google Patents

一种通过多cpu节点控制器芯片进行调试的方法和系统 Download PDF

Info

Publication number
CN104407952A
CN104407952A CN201410645684.0A CN201410645684A CN104407952A CN 104407952 A CN104407952 A CN 104407952A CN 201410645684 A CN201410645684 A CN 201410645684A CN 104407952 A CN104407952 A CN 104407952A
Authority
CN
China
Prior art keywords
mistake
error
errors
system event
node controller
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410645684.0A
Other languages
English (en)
Inventor
王振江
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Beijing Electronic Information Industry Co Ltd
Original Assignee
Inspur Beijing Electronic Information Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Beijing Electronic Information Industry Co Ltd filed Critical Inspur Beijing Electronic Information Industry Co Ltd
Priority to CN201410645684.0A priority Critical patent/CN104407952A/zh
Publication of CN104407952A publication Critical patent/CN104407952A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Debugging And Monitoring (AREA)

Abstract

本发明提供了一种通过多CPU节点控制器芯片进行调试的方法和系统,其中,所述方法包括:收集多CPU节点控制器芯片中各个模块发生的错误;将收集的错误映射成系统事件;根据所述系统事件产生相应的中断信号向CPU节点发送。上述技术方案减少多CPU节点控制器芯片调试时间。

Description

一种通过多CPU节点控制器芯片进行调试的方法和系统
技术领域
本发明涉及控制器芯片调试领域,尤其涉及一种通过多CPU节点控制器芯片进行调试的方法和系统。
背景技术
高端服务器是一种在网络环境下为客户机提供共享资源(包括查询、存储和计算)的设备,其具有高可靠性、高性能、高吞吐能力和大内存容量等特点,并且具备强大的网络功能和友好的人机界面,是以网络为中心的现代计算环境的关键设备。
随着需求的增加,对高端服务器的要求越来越高,高端服务器中CPU的数量也随之增加,用于协调多CPU的节点控制器芯片在高端服务器中的作用越发凸显。由于涉及多个CPU,所述节点控制器芯片对多CPU节点的调试时间相对现有技术对单CPU节点的调试时间有了显著增加,而过多的调试时间无疑会增加高端服务器的研制成本,不利于高端服务器的普及应用。
发明内容
本发明提供了一种通过多CPU节点控制器芯片进行调试的方法和系统,以解决如何减少多CPU节点控制器芯片调试时间的技术问题。
为解决上述技术问题,本发明提供了一种通过多中央处理器(CPU)节点控制器芯片进行调试的方法,所述方法包括:
收集多CPU节点控制器芯片中各个模块发生的错误;
将收集的错误映射成系统事件;
根据所述系统事件产生相应的中断信号向CPU节点发送。
可选地,所述方法还包括:
收集多CPU节点控制器芯片中各个模块发生的错误后,将多CPU节点控制器芯片中各个模块发生的错误映射为相应的错误等级,错误等级包括:可纠正错误(Correctable Errors)、可恢复错误(Recoverable Errors)和不可纠正错误(Fatal Errors);
将所述相应的错误等级映射为与该错误等级对应的显示标识并显示。
可选地,所述将收集的错误映射成系统事件,包括:
在收集的错误中选择需屏蔽的错误;
将收集的未被屏蔽的错误映射为系统事件。
可选地,所述将收集的未被屏蔽的错误映射为系统事件,包括:
设置错误状态寄存器存储收集的错误,其中每个错误对应错误状态寄存器的一位,当要屏蔽错误时,将错误状态寄存器中与被屏蔽错误对应的位置1;
未被屏蔽的错误输出至设置的系统事件状态寄存器,系统事件状态寄存器的每一位对应一个未被屏蔽的错误;当事件状态寄存器的位接收到错误时,将该位置位,触发一个或多个系统事件。
为解决上述技术问题,本发明还提供了一种通过多中央处理器(CPU)节点控制器芯片进行调试的系统,所述系统置于所述多CPU节点控制器芯片内,所述系统包括设置在多CPU节点控制器芯片中各个模块的本地错误获取模块、全局错误处理模块以及中断产生模块,其中
本地错误获取模块,用于获取其所在模块发生的错误,并将获取的错误发送至全局错误处理模块;
所述全局错误处理模块,用于收集各个本地错误获取模块获取的错误,并将收集的错误映射成系统事件,将所述系统事件发送至所述中断产生模块;
所述中断产生模块,用于根据系统事件产生相应的中断信号向CPU节点发送。
可选地,
所述本地错误获取模块,还用于在收集多CPU节点控制器芯片中各个模块发生的错误后,将多CPU节点控制器芯片中各个模块发生的错误映射为相应的错误等级;将所述相应的错误等级映射为与该错误等级对应的显示标识并显示;
所述错误等级包括:可纠正错误(Correctable Errors)、可恢复错误(Recoverable Errors)和不可纠正错误(Fatal Errors)。
可选地,所述全局错误处理模块,用于将收集的错误映射成系统事件,包括:
在收集的错误中选择需屏蔽的错误,将收集的未被屏蔽的错误映射为系统事件。
可选地,所述全局错误处理模块,用于将收集的未被屏蔽的错误映射为系统事件,包括:
设置错误状态寄存器存储收集的错误,其中每个错误对应错误状态寄存器的一位,当要屏蔽错误时,将错误状态寄存器中与被屏蔽错误对应的位置1;未被屏蔽的错误输出至设置的系统事件状态寄存器,系统事件状态寄存器的每一位对应一个未被屏蔽的错误;当事件状态寄存器的位接收到错误时,将该位置位,触发一个或多个系统事件。
上述技术方案的节点控制器芯片能够快速获取定位错误,减少了多CPU节点控制器芯片的调试时间。
附图说明
图1为本实施例的通过多CPU节点控制器芯片进行调试的方法流程图;
图2为本实施例的通过多CPU节点控制器芯片进行调试的系统组成图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下文中将结合附图对本发明的实施例进行详细说明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互任意组合。
图1为本实施例的通过多CPU节点控制器芯片进行调试的方法流程图。
S101收集多CPU节点控制器芯片中各个模块发生的错误;
其中,多CPU节点控制器芯片中各个模块包括:存储控制器(MemoryController,MC)模块、链路层接口(Socket Interface,SI)模块和本地代理(Local Proxy,LP)模块;
可选地,
在收集多CPU节点控制器芯片中各个模块发生的错误后,将所述各个模块发生的错误映射为相应的错误等级,错误等级包括:可纠正错误(Correctable Errors)、可恢复错误(Recoverable Errors)和不可纠正错误(Fatal Errors);
可以根据各个模块的功能为该模块出现的错误定义映射的错误等级;
其中,可纠正错误(Correctable Errors),是指硬件可纠正的错误,发生该错误后,出现错误的系统可恢复,且恢复后无信息丢失;如链路CRC错误,可以通过数据链路层的重试来纠正;
不可纠正错误(Fatal Errors),是指产生一个硬件不可靠性的错误,需要系统复位来使该硬件恢复到可靠状态;如Cache的不可纠正的tagerror、永久的PCI-E链路失败或者QPI失败;相对于可纠正错误,不可纠正错误由于对系统复位,致使错误出现之前的数据和操作会在复位后全部丢失,需要复位后的系统重新进行相应的操作;
可恢复错误(Recoverable Errors),除可纠正错误和不可纠正错误之外的错误,该错误发生后导致相应的数据检错事务不可靠,但系统硬件功能仍可继续运行;如ECC错误,其只影响数据检错事务的数据部分;
将所述相应的错误等级映射为与该错误等级对应的显示标识并显示,如所述显示标识为带颜色的提示灯,不同的错误等级对应为不同颜色的提示灯,当模块出现错误时,通过提示灯的颜色区分错误等级,可方便开发调试人员及时准确的定位错误;
S102将收集的错误映射成系统事件;
可选地,步骤S102包括:
在收集的错误中选择需屏蔽的错误,将收集的未被屏蔽的错误映射为系统事件;其中,非致命错误可被屏蔽,如Fatal Errors;
可选地,可通过设置单独的错误状态寄存器存储收集的错误,其中每个错误对应错误状态寄存器的一位,对错误状态寄存器相应位置1,可实现对与该位对应的错误进行屏蔽;
未被屏蔽的错误输出至设置的系统事件状态寄存器,系统事件状态寄存器的每一位对应一个未被屏蔽的错误;当事件状态寄存器的位接收到错误,即该位被置位(从0到1),则触发一个或多个系统事件;
S103根据所述系统事件产生相应的中断信号向CPU节点发送;
可选地,将根据所述系统事件产生的中断信号发送至所述控制器芯片的中断产生模块(IPU),再通过包含IPU的一般代理模块(General Proxy,GP)将IPU产生的中断信号向CPU节点发送;
可选地,将根据所述系统事件产生的中断信号发送至所述控制器芯片的中断产生模块(IPU)的方式包括:
通过以电平触发的硬连接方式将中断信号发送至IPU;
可选地,为将IPU产生的中断信号向CPU节点发送,所述GP内设置一个状态寄存器,状态寄存器的初始值为0,当IPU的中断管脚为高电平时,GP将IPU产生的中断信号向CPU节点发送,同时将状态寄存器的值置1。待CPU的中断处理程序对该中断信号进行处理完毕后,再将状态寄存器的值清0。
图2为本实施例的通过多CPU节点控制器芯片进行调试的系统组成图。
所述系统置于所述多CPU节点控制器芯片内,所述系统包括设置在多CPU节点控制器芯片中各个模块的本地错误获取模块、全局错误处理模块以及中断产生模块,其中:
本地错误获取模块,用于获取其所在模块发生的错误,并将获取的错误发送至全局错误处理模块;
可选地,所述本地错误获取模块,还用于在收集多CPU节点控制器芯片中各个模块发生的错误后,将多CPU节点控制器芯片中各个模块发生的错误映射为相应的错误等级;将所述相应的错误等级映射为与该错误等级对应的显示标识并显示;所述错误等级包括:可纠正错误(Correctable Errors)、可恢复错误(Recoverable Errors)和不可纠正错误(Fatal Errors)
所述全局错误处理模块,用于收集各个本地错误获取模块获取的错误,并将收集的错误映射成系统事件,将所述系统事件发送至所述中断产生模块;
可选地,所述全局错误处理模块,用于在收集的错误中选择需屏蔽的错误,将收集的未被屏蔽的错误映射为系统事件,包括:
设置错误状态寄存器存储收集的错误,其中每个错误对应错误状态寄存器的一位,当要屏蔽错误时,将错误状态寄存器中与被屏蔽错误对应的位置1;未被屏蔽的错误输出至设置的系统事件状态寄存器,系统事件状态寄存器的每一位对应一个未被屏蔽的错误;当事件状态寄存器的位接收到错误时,将该位置位,触发一个或多个系统事件;
所述中断产生模块,用于根据系统事件产生相应的中断信号向CPU节点发送;
可选地,所述中断产生模块,用于将根据所述系统事件产生的中断信号发送至所述控制器芯片的中断产生模块(IPU),再通过包含IPU的一般代理模块(General Proxy,GP)将IPU产生的中断信号向CPU节点发送。
本领域普通技术人员可以理解上述方法中的全部或部分步骤可通过程序来指令相关硬件完成,所述程序可以存储于计算机可读存储介质中,如只读存储器、磁盘或光盘等。可选地,上述实施例的全部或部分步骤也可以使用一个或多个集成电路来实现,相应地,上述实施例中的各模块/单元可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。本发明不限制于任何特定形式的硬件和软件的结合。
需要说明的是,本发明还可有其他多种实施例,在不背离本发明精神及其实质的情况下,熟悉本领域的技术人员可根据本发明作出各种相应的改变和变形,但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。

Claims (8)

1.一种通过多中央处理器(CPU)节点控制器芯片进行调试的方法,其特征在于,所述方法包括:
收集多CPU节点控制器芯片中各个模块发生的错误;
将收集的错误映射成系统事件;
根据所述系统事件产生相应的中断信号向CPU节点发送。
2.如权利要求1所述的方法,其特征在于,所述方法还包括:
收集多CPU节点控制器芯片中各个模块发生的错误后,将多CPU节点控制器芯片中各个模块发生的错误映射为相应的错误等级,错误等级包括:可纠正错误(Correctable Errors)、可恢复错误(Recoverable Errors)和不可纠正错误(Fatal Errors);
将所述相应的错误等级映射为与该错误等级对应的显示标识并显示。
3.如权利要求1所述的方法,其特征在于,所述将收集的错误映射成系统事件,包括:
在收集的错误中选择需屏蔽的错误;
将收集的未被屏蔽的错误映射为系统事件。
4.如权利要求3所述的方法,其特征在于,所述将收集的未被屏蔽的错误映射为系统事件,包括:
设置错误状态寄存器存储收集的错误,其中每个错误对应错误状态寄存器的一位,当要屏蔽错误时,将错误状态寄存器中与被屏蔽错误对应的位置1;
未被屏蔽的错误输出至设置的系统事件状态寄存器,系统事件状态寄存器的每一位对应一个未被屏蔽的错误;当事件状态寄存器的位接收到错误时,将该位置位,触发一个或多个系统事件。
5.一种通过多中央处理器(CPU)节点控制器芯片进行调试的系统,其特征在于,所述系统置于所述多CPU节点控制器芯片内,所述系统包括设置在多CPU节点控制器芯片中各个模块的本地错误获取模块、全局错误处理模块以及中断产生模块,其中
本地错误获取模块,用于获取其所在模块发生的错误,并将获取的错误发送至全局错误处理模块;
所述全局错误处理模块,用于收集各个本地错误获取模块获取的错误,并将收集的错误映射成系统事件,将所述系统事件发送至所述中断产生模块;
所述中断产生模块,用于根据系统事件产生相应的中断信号向CPU节点发送。
6.如权利要求5所述的系统,其特征在于,
所述本地错误获取模块,还用于在收集多CPU节点控制器芯片中各个模块发生的错误后,将多CPU节点控制器芯片中各个模块发生的错误映射为相应的错误等级;将所述相应的错误等级映射为与该错误等级对应的显示标识并显示;
所述错误等级包括:可纠正错误(Correctable Errors)、可恢复错误(Recoverable Errors)和不可纠正错误(Fatal Errors)。
7.如权利要求5所述的系统,其特征在于,所述全局错误处理模块,用于将收集的错误映射成系统事件,包括:
在收集的错误中选择需屏蔽的错误,将收集的未被屏蔽的错误映射为系统事件。
8.如权利要求7所述的系统,其特征在于,所述全局错误处理模块,用于将收集的未被屏蔽的错误映射为系统事件,包括:
设置错误状态寄存器存储收集的错误,其中每个错误对应错误状态寄存器的一位,当要屏蔽错误时,将错误状态寄存器中与被屏蔽错误对应的位置1;未被屏蔽的错误输出至设置的系统事件状态寄存器,系统事件状态寄存器的每一位对应一个未被屏蔽的错误;当事件状态寄存器的位接收到错误时,将该位置位,触发一个或多个系统事件。
CN201410645684.0A 2014-11-12 2014-11-12 一种通过多cpu节点控制器芯片进行调试的方法和系统 Pending CN104407952A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410645684.0A CN104407952A (zh) 2014-11-12 2014-11-12 一种通过多cpu节点控制器芯片进行调试的方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410645684.0A CN104407952A (zh) 2014-11-12 2014-11-12 一种通过多cpu节点控制器芯片进行调试的方法和系统

Publications (1)

Publication Number Publication Date
CN104407952A true CN104407952A (zh) 2015-03-11

Family

ID=52645585

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410645684.0A Pending CN104407952A (zh) 2014-11-12 2014-11-12 一种通过多cpu节点控制器芯片进行调试的方法和系统

Country Status (1)

Country Link
CN (1) CN104407952A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107168815A (zh) * 2017-05-19 2017-09-15 郑州云海信息技术有限公司 一种收集硬件错误信息的方法
CN108920314A (zh) * 2018-06-26 2018-11-30 郑州云海信息技术有限公司 一种故障硬件定位方法、装置、系统及可读存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060150009A1 (en) * 2004-12-21 2006-07-06 Nec Corporation Computer system and method for dealing with errors
CN101599812A (zh) * 2008-06-04 2009-12-09 富士通株式会社 数据传输设备
CN102681930A (zh) * 2012-05-15 2012-09-19 浪潮电子信息产业股份有限公司 一种芯片级错误记录方法
CN102750194A (zh) * 2012-06-25 2012-10-24 浪潮电子信息产业股份有限公司 一种大规模集成电路层级错误记录与响应方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060150009A1 (en) * 2004-12-21 2006-07-06 Nec Corporation Computer system and method for dealing with errors
CN101599812A (zh) * 2008-06-04 2009-12-09 富士通株式会社 数据传输设备
CN102681930A (zh) * 2012-05-15 2012-09-19 浪潮电子信息产业股份有限公司 一种芯片级错误记录方法
CN102750194A (zh) * 2012-06-25 2012-10-24 浪潮电子信息产业股份有限公司 一种大规模集成电路层级错误记录与响应方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107168815A (zh) * 2017-05-19 2017-09-15 郑州云海信息技术有限公司 一种收集硬件错误信息的方法
CN108920314A (zh) * 2018-06-26 2018-11-30 郑州云海信息技术有限公司 一种故障硬件定位方法、装置、系统及可读存储介质

Similar Documents

Publication Publication Date Title
US7661006B2 (en) Method and apparatus for self-healing symmetric multi-processor system interconnects
US8656228B2 (en) Memory error isolation and recovery in a multiprocessor computer system
US9823983B2 (en) Electronic fault detection unit
US9495233B2 (en) Error framework for a microprocesor and system
US11953976B2 (en) Detecting and recovering from fatal storage errors
US11294749B2 (en) Techniques to collect crash data for a computing system
US9098439B2 (en) Providing a fault tolerant system in a loosely-coupled cluster environment using application checkpoints and logs
US9146705B2 (en) Split brain protection in computer clusters
US12135612B2 (en) Snapshotting hardware security modules and disk metadata stores
CN101364193A (zh) 自动恢复bios的方法以及使用该方法的电脑与系统
JP2017517060A (ja) 障害処理方法、関連装置、およびコンピュータ
CN103984768B (zh) 一种数据库集群管理数据的方法、节点及系统
US11422896B2 (en) Technology to enable secure and resilient recovery of firmware data
JP2022534418A (ja) エラーリカバリ方法及び装置
CN102681930B (zh) 一种芯片级错误记录方法
US9436539B2 (en) Synchronized debug information generation
CN119744385A (zh) 边缘计算设备上的实时事件数据报告
CN106686095A (zh) 一种基于纠删码技术的数据存储方法及装置
CN104657239B (zh) 基于分离式日志的多核处理器瞬时故障恢复系统及其瞬时故障恢复方法
KR20170031004A (ko) 데이터의 사일런트 커럽션을 감지하는 시스템들 및 그것의 동작 방법들
EP3696658A1 (en) Log management method, server and database system
CN104407952A (zh) 一种通过多cpu节点控制器芯片进行调试的方法和系统
CN109933449B (zh) 在系统中的错误处置设备中记录错误
US20200174680A1 (en) Checking of data difference for writes performed via a bus interface to a dual-server storage controller
CN105373449A (zh) 分布式存储元数据的修复方法、装置及系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20150311