[go: up one dir, main page]

CN107038104A - 一种远程监控异构加速卡的方法 - Google Patents

一种远程监控异构加速卡的方法 Download PDF

Info

Publication number
CN107038104A
CN107038104A CN201710287084.5A CN201710287084A CN107038104A CN 107038104 A CN107038104 A CN 107038104A CN 201710287084 A CN201710287084 A CN 201710287084A CN 107038104 A CN107038104 A CN 107038104A
Authority
CN
China
Prior art keywords
heterogeneous
heterogeneous accelerator
accelerator card
operating parameters
fpga
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710287084.5A
Other languages
English (en)
Inventor
赵贺辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhengzhou Yunhai Information Technology Co Ltd
Original Assignee
Zhengzhou Yunhai Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhengzhou Yunhai Information Technology Co Ltd filed Critical Zhengzhou Yunhai Information Technology Co Ltd
Priority to CN201710287084.5A priority Critical patent/CN107038104A/zh
Publication of CN107038104A publication Critical patent/CN107038104A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3031Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a motherboard or an expansion card
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3058Monitoring arrangements for monitoring environmental properties or parameters of the computing system or of the computing system component, e.g. monitoring of power, currents, temperature, humidity, position, vibrations
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/32Monitoring with visual or acoustical indication of the functioning of the machine
    • G06F11/324Display of status information
    • G06F11/327Alarm or error message display

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Quality & Reliability (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Combined Controls Of Internal Combustion Engines (AREA)

Abstract

本申请公开了一种远程监控异构加速卡的方法,包括利用BMC模块与FPGA进行通信,读取异构加速卡的运行参数;保存所述运行参数;将所述运行参数与预设阈值进行比较,当超出预设阈值时进行报警,其中的预设阈值可以根据每一个异构加速卡的情况进行对应的设置,当超过某个值时,就可能会造成异构加速卡的潜在损伤,因此需要进行报警,提醒工作人员提前处理,防患于未然,从而减少异构加速卡的故障的发生。上述远程监控异构加速卡的方法能够对FPGA的异构加速卡进行有效管理,减少故障的发生。

Description

一种远程监控异构加速卡的方法
技术领域
本发明属于服务器监控技术领域,特别是涉及一种远程监控异构加速卡的方法。
背景技术
在服务器领域,在服务器上部署了越来越多异构加速卡,而对异构加速卡的检测、维护和故障排除需要耗费大量人力物力。目前服务器BMC通过ipmi协议可以远程检测和管理服务器,比如服务器CPU的温度、电压和风扇转速等参数,但对FPGA异构加速卡并没有支持。
发明内容
为解决上述问题,本发明提供了一种远程监控异构加速卡的方法,能够对FPGA的异构加速卡进行有效管理,减少故障的发生。
本发明提供的一种远程监控异构加速卡的方法,包括:
利用BMC模块与FPGA进行通信,读取异构加速卡的运行参数;
保存所述运行参数;
将所述运行参数与预设阈值进行比较,当超出预设阈值时进行报警。
优选的,在上述远程监控异构加速卡的方法中,
所述读取异构加速卡的运行参数包括:
读取所述异构加速卡的温度参数、电压参数和电流参数。
优选的,在上述远程监控异构加速卡的方法中,
所述利用BMC模块与FPGA进行通信,读取异构加速卡的运行参数之前,还包括:
利用GPIO接口将所述异构加速卡连接至温度传感器、电压传感器和电流传感器。
优选的,在上述远程监控异构加速卡的方法中,
所述利用GPIO接口将所述异构加速卡连接至温度传感器、电压传感器和电流传感器之后,还包括:
编写读取所述异构加速卡的运行参数的逻辑代码;
将所述逻辑代码封装并固化到与CPLD连接的闪存中;
将服务器上电,进行BIOS初始化,通过所述CPLD将所述闪存中的逻辑代码烧写到所述FPGA中。
优选的,在上述远程监控异构加速卡的方法中,
所述利用BMC模块与FPGA进行通信为:
利用所述BMC模块通过I2c总线与所述FPGA进行通信。
优选的,在上述远程监控异构加速卡的方法中,
所述保存所述运行参数之后,还包括:
将所述运行参数显示在所述BMC的界面上。
通过上述描述可知,本发明提供的上述远程监控异构加速卡的方法,由于包括利用BMC模块与FPGA进行通信,读取异构加速卡的运行参数;保存所述运行参数;将所述运行参数与预设阈值进行比较,当超出预设阈值时进行报警,因此能够对FPGA的异构加速卡进行有效管理,减少故障的发生。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请实施例提供的第一种远程监控异构加速卡的方法的示意图。
具体实施方式
本发明的核心思想在于提供一种远程监控异构加速卡的方法,能够对FPGA的异构加速卡进行有效管理,减少故障的发生。
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本申请实施例提供的第一种远程监控异构加速卡的方法如图1所示,图1为本申请实施例提供的第一种远程监控异构加速卡的方法的示意图,该方法包括如下步骤:
S1:利用BMC模块与FPGA进行通信,读取异构加速卡的运行参数;
其中,BMC模块即Baseboard Management Controller,也就是基板管理控制器,这是现有的一个基本的管理模块,利用其与FPGA进行通信,就能够读取运行参数,以此作为后续流程的依据。
S2:保存所述运行参数;
需要说明的是,可以但不限于将这些运行参数保存在SDR模块(传感器数据模块)中。
S3:将所述运行参数与预设阈值进行比较,当超出预设阈值时进行报警。
需要说明的是,这里提到的预设阈值可以根据每一个异构加速卡的情况进行对应的设置,当超过某个值时,就可能会造成异构加速卡的潜在损伤,因此需要进行报警,提醒工作人员提前处理,防患于未然,从而减少异构加速卡的故障的发生。
通过上述描述可知,本申请实施例提供的第一种远程监控异构加速卡的方法,由于包括利用BMC模块与FPGA进行通信,读取异构加速卡的运行参数;保存所述运行参数;将所述运行参数与预设阈值进行比较,当超出预设阈值时进行报警,因此能够对FPGA的异构加速卡进行有效管理,减少故障的发生。
本申请实施例提供的第二种远程监控异构加速卡的方法,是在上述第一种远程监控异构加速卡的方法的基础上,还包括如下技术特征:
所述读取异构加速卡的运行参数包括:
读取所述异构加速卡的温度参数、电压参数和电流参数。
需要说明的是,可以实时读取异构加速卡的这些种类的参数,了解其实时运行状态,而且可以根据具体情况选择读取的参数,例如还可以读取风扇转速参数,此处并不限制。
本申请实施例提供的第三种远程监控异构加速卡的方法,是在上述第二种远程监控异构加速卡的方法的基础上,还包括如下技术特征:
所述利用BMC模块与FPGA进行通信,读取异构加速卡的运行参数之前,还包括:
利用GPIO接口将所述异构加速卡连接至温度传感器、电压传感器和电流传感器。
需要说明的是,这里所述的GPIO也就是General Purpose Input Output(通用输入/输出),这种接口有较强的适应性,适用于多种参数的采集,能够便于管理。
本申请实施例提供的第四种远程监控异构加速卡的方法,是在上述第三种远程监控异构加速卡的方法的基础上,还包括如下技术特征:
所述利用GPIO接口将所述异构加速卡连接至温度传感器、电压传感器和电流传感器之后,还包括:
编写读取所述异构加速卡的运行参数的逻辑代码;
将所述逻辑代码封装并固化到与CPLD连接的闪存中;
将服务器上电,进行BIOS初始化,通过所述CPLD将所述闪存中的逻辑代码烧写到所述FPGA中。
具体的,可以通过FPGA编写FPGA逻辑代码来读取传感器的值,封装一个I2c IP,将i2c IP和相关逻辑代码固化到与CPLD连接的FLASH中,服务器上电在BIOS初始化的时候,通过CPLD将Flash中的相关逻辑代码烧写到FPGA中。
本申请实施例提供的第五种远程监控异构加速卡的方法,是在上述第四种远程监控异构加速卡的方法的基础上,还包括如下技术特征:
所述利用BMC模块与FPGA进行通信为:
利用所述BMC模块通过I2c总线与所述FPGA进行通信。
需要说明的是,其中的I2c总线即Inter-Integrated Circuit,除此之外,还可以采用IPMB总线(Intelligent Platform Management BUS,智能平台管理总线)进行通信,此处并不限制。
本申请实施例提供的第六种远程监控异构加速卡的方法,是在上述第一种至第五种远程监控异构加速卡的方法中任一种的基础上,还包括如下技术特征:
所述保存所述运行参数之后,还包括:
将所述运行参数显示在所述BMC的界面上,这样就便于工作人员实时的查询异构加速卡的运行状态,当观察到异常现象时,可以及时处理,避免问题更加严重。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (6)

1.一种远程监控异构加速卡的方法,其特征在于,包括:
利用BMC模块与FPGA进行通信,读取异构加速卡的运行参数;
保存所述运行参数;
将所述运行参数与预设阈值进行比较,当超出预设阈值时进行报警。
2.根据权利要求1所述的远程监控异构加速卡的方法,其特征在于,
所述读取异构加速卡的运行参数包括:
读取所述异构加速卡的温度参数、电压参数和电流参数。
3.根据权利要求2所述的远程监控异构加速卡的方法,其特征在于,
所述利用BMC模块与FPGA进行通信,读取异构加速卡的运行参数之前,还包括:
利用GPIO接口将所述异构加速卡连接至温度传感器、电压传感器和电流传感器。
4.根据权利要求3所述的远程监控异构加速卡的方法,其特征在于,
所述利用GPIO接口将所述异构加速卡连接至温度传感器、电压传感器和电流传感器之后,还包括:
编写读取所述异构加速卡的运行参数的逻辑代码;
将所述逻辑代码封装并固化到与CPLD连接的闪存中;
将服务器上电,进行BIOS初始化,通过所述CPLD将所述闪存中的逻辑代码烧写到所述FPGA中。
5.根据权利要求4所述的远程监控异构加速卡的方法,其特征在于,
所述利用BMC模块与FPGA进行通信为:
利用所述BMC模块通过I2c总线与所述FPGA进行通信。
6.根据权利要求1-5任一项所述的远程监控异构加速卡的方法,其特征在于,
所述保存所述运行参数之后,还包括:
将所述运行参数显示在所述BMC的界面上。
CN201710287084.5A 2017-04-27 2017-04-27 一种远程监控异构加速卡的方法 Pending CN107038104A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710287084.5A CN107038104A (zh) 2017-04-27 2017-04-27 一种远程监控异构加速卡的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710287084.5A CN107038104A (zh) 2017-04-27 2017-04-27 一种远程监控异构加速卡的方法

Publications (1)

Publication Number Publication Date
CN107038104A true CN107038104A (zh) 2017-08-11

Family

ID=59535752

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710287084.5A Pending CN107038104A (zh) 2017-04-27 2017-04-27 一种远程监控异构加速卡的方法

Country Status (1)

Country Link
CN (1) CN107038104A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107506279A (zh) * 2017-08-18 2017-12-22 江苏微锐超算科技有限公司 Fpga器件的性能控制方法及装置
CN108920334A (zh) * 2018-07-25 2018-11-30 郑州云海信息技术有限公司 一种fpga异构加速卡的监控装置
CN109240966A (zh) * 2018-08-20 2019-01-18 郑州云海信息技术有限公司 一种基于cpld的加速卡、数据采集方法及装置
CN109614293A (zh) * 2018-12-13 2019-04-12 广东浪潮大数据研究有限公司 一种fpga异构加速卡的管理系统及方法
CN110399220A (zh) * 2019-07-19 2019-11-01 苏州浪潮智能科技有限公司 一种fpga加速卡的管理方法及相关装置
CN110515437A (zh) * 2019-08-16 2019-11-29 苏州浪潮智能科技有限公司 一种fpga加速卡的高温保护方法及装置
CN112272122A (zh) * 2020-10-14 2021-01-26 北京中科网威信息技术有限公司 Fpga加速卡检测方法、装置及可读存储介质
CN119906687A (zh) * 2025-03-31 2025-04-29 浪潮电子信息产业股份有限公司 一种服务器及其设备监控系统、方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103793310A (zh) * 2014-02-20 2014-05-14 山东超越数控电子有限公司 一种服务器主板实时监控的方法
CN104063300A (zh) * 2014-01-18 2014-09-24 浪潮电子信息产业股份有限公司 一种基于fpga的高端多路服务器监控信息采集装置
CN106126398A (zh) * 2016-06-22 2016-11-16 北京信安世纪科技有限公司 硬件设备的监控方法和装置
CN106598814A (zh) * 2016-12-26 2017-04-26 郑州云海信息技术有限公司 一种实现服务器系统过热保护的设计方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104063300A (zh) * 2014-01-18 2014-09-24 浪潮电子信息产业股份有限公司 一种基于fpga的高端多路服务器监控信息采集装置
CN103793310A (zh) * 2014-02-20 2014-05-14 山东超越数控电子有限公司 一种服务器主板实时监控的方法
CN106126398A (zh) * 2016-06-22 2016-11-16 北京信安世纪科技有限公司 硬件设备的监控方法和装置
CN106598814A (zh) * 2016-12-26 2017-04-26 郑州云海信息技术有限公司 一种实现服务器系统过热保护的设计方法

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107506279A (zh) * 2017-08-18 2017-12-22 江苏微锐超算科技有限公司 Fpga器件的性能控制方法及装置
CN108920334A (zh) * 2018-07-25 2018-11-30 郑州云海信息技术有限公司 一种fpga异构加速卡的监控装置
CN109240966A (zh) * 2018-08-20 2019-01-18 郑州云海信息技术有限公司 一种基于cpld的加速卡、数据采集方法及装置
CN109614293A (zh) * 2018-12-13 2019-04-12 广东浪潮大数据研究有限公司 一种fpga异构加速卡的管理系统及方法
CN110399220A (zh) * 2019-07-19 2019-11-01 苏州浪潮智能科技有限公司 一种fpga加速卡的管理方法及相关装置
CN110515437A (zh) * 2019-08-16 2019-11-29 苏州浪潮智能科技有限公司 一种fpga加速卡的高温保护方法及装置
CN112272122A (zh) * 2020-10-14 2021-01-26 北京中科网威信息技术有限公司 Fpga加速卡检测方法、装置及可读存储介质
CN119906687A (zh) * 2025-03-31 2025-04-29 浪潮电子信息产业股份有限公司 一种服务器及其设备监控系统、方法

Similar Documents

Publication Publication Date Title
CN107038104A (zh) 一种远程监控异构加速卡的方法
US20150127814A1 (en) Monitoring Server Method
US9954727B2 (en) Automatic debug information collection
CN114978883B (zh) 网络唤醒的管理方法、装置、电子设备及存储介质
US11294749B2 (en) Techniques to collect crash data for a computing system
CN102546224A (zh) 服务器的远程管理系统及方法
US20130073876A1 (en) Network wake up system with protection function
CN105791028A (zh) 一种服务器集群的监控方法、服务器及系统
WO2022134352A1 (zh) 服务器硬件状态监控方法、装置、电子设备及介质
CN104346264A (zh) 系统事件日志处理系统及方法
WO2014169869A1 (zh) 一种告警处理的方法及告警系统
CN112511379A (zh) 一种网络准入配置检查方法和装置
CN115543746A (zh) 图形处理器监测方法、系统、装置及电子设备
CN113672306B (zh) 服务器组件自检异常恢复方法、装置、系统及介质
US20120154158A1 (en) Computing device and alarm method of the computing device
CN112596568A (zh) 一种读取电压调节器报错信息的方法、系统、设备及介质
CN108829448A (zh) N级pcie扩展箱的控制方法、系统及可读存储介质
CN103019905A (zh) 一种基板管理控制器及其数据处理方法
CN106506248B (zh) 一种服务器智能监控系统
CN100555260C (zh) 主控底层管理平面的集成装置及方法
CN114924998B (zh) 内存信息读取装置及方法、计算设备主板、设备和介质
CN107273272A (zh) 一种热插拔设备的监控方法及装置
CN107506281A (zh) 一种多路电源监控系统及方法
CN106897431A (zh) 一种日志导出方法及系统
CN107479492A (zh) 变电站数据采集装置及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20170811

RJ01 Rejection of invention patent application after publication