CN116719400A

CN116719400A - 计算设备及计算设备的供电方法

Info

Publication number: CN116719400A
Application number: CN202310474430.6A
Authority: CN
Inventors: 胡红军; 汪大林
Original assignee: XFusion Digital Technologies Co Ltd
Current assignee: XFusion Digital Technologies Co Ltd
Priority date: 2023-04-27
Filing date: 2023-04-27
Publication date: 2023-09-08

Abstract

本申请提供了一种计算设备及计算设备的供电方法。在实施例中，所述计算设备包括多个电源，用于为所述计算设备进行非冗余的供电；负载，包括处理器，存储器；所述处理器包括图形处理器；控制单元，连接所述多个电源和所述负载，用于检测所述多个电源中的每个电源是否正常工作，确定检测结果；在所述检测结果为所述多个电源中的部分电源工作异常后，至少控制所述图形处理器降低运行功率。采用非冗余供电从而在有限空间内确保设备的性能，另外，在非冗余供电的场景下，若部分电源出现故障，控制计算设备中的图形处理器降低运行功率，确保计算设备正常工作。

Description

计算设备及计算设备的供电方法

技术领域

本申请涉及计算设备技术领域，尤其涉及一种计算设备及计算设备的供电方法。

背景技术

GPU(graphics processing unit，图形处理器)服务器(可以认为是包含GPU的服务器)的应用越来越多，功耗也越来越大。由于GPU的功耗相对较大，对GPU服务器的供电设计带来挑战。

目前，GPU服务器的供电方案主要采用N+1或N+N的供电方式，也就是N+1个电源或者N+N个电源为GPU服务器内的电子器件供电，其中，N+1和N+N中+号前的N个电源满足服务器的瞬态最大功耗，+号后面的1或N个电源实现电源冗余，保证在某个电源失效时服务器能正常工作。

但是，在有限的空间内，较多的电源占用的空间较大，导致服务器中其他器件占用的空间较小，无法在有限空间内确保服务器的性能。

公开于该背景技术部分的信息仅仅旨在增加对本申请的总体背景的理解，而不应当被视为承认或以任何形式暗示该信息构成已为本领域一般技术人员所公知的现有技术。

发明内容

本申请实施例提供了一种计算设备及计算设备的供电方法，采用非冗余供电从而在有限空间内确保设备性能，另外，在非冗余供电的场景下，若部分电源出现故障，计算设备或者供电方法可以控制图形处理器降低运行功率，确保计算设备正常工作。

第一方面，本申请实施例提供了一种计算设备，包括：

多个电源，用于为计算设备进行非冗余的供电；

负载，包括处理器，存储器；处理器包括图形处理器；

控制单元，连接多个电源和负载，用于检测多个电源中的每个电源是否正常工作，确定检测结果；在检测结果为多个电源中的部分电源工作异常后，至少控制图形处理器降低运行功率。

本方案中，采用非冗余供电从而在有限空间内确保设备性能，另外，在非冗余供电的场景下，若部分电源出现故障，控制计算设备中的图形处理器降低运行功率，确保计算设备正常工作；另外，采用非冗余供电的方式较小的占用了计算设备的空间，使得计算设备可以容纳更多电子器件，提高计算设备的性能。

在一种可能的实现方式中，计算设备还包括储能电路，储能电路的第一端电连接多个电源，第二端电连接至少一个图形处理器，储能电路用于补偿图形处理器的运行功率。

本方案中，通过设置储能电路，从而在采用非冗余供电的场景下，确保GPU的正常工作。

在一种可能的实现方式中，储能电路包括至少一个电容，电容的第一端电连接多个电源，第二端电连接至少一个图形处理器。

在一种可能的实现方式中，计算设备为服务器。

在一种可能的实现方式中，计算设备为整机柜服务器，负载为服务器，整机柜服务器还包括背板，控制单元设置与背板上。

在一种可能的实现方式中，控制单元，用于在检测结果为多个电源中的部分电源工作异常后，控制至少部分的服务器中的图形处理器降低运行功率。

本方案中，可以控制部分的服务器降低运行功率，另一部分服务器正常工作，从而确保整机柜服务器的工作性能。

在一种可能的实现方式中，处理器还包括中央处理器，控制单元，还用于在检测结果为多个电源中的部分电源工作异常后，控制中央处理器降低运行功率。

在一种可能的实现方式中，控制单元包括可编程逻辑器件或单片机；

可编程逻辑器件或单片机电连接负载中的图形处理器，用于向图形处理器下发硬件信号，以使图形处理器基于硬件信号降低运行功率。

本方案中，通过硬件信号降低GPU的运行功率，GPU可以快速响应硬件信号降低运行功率，提高降低运行功率的及时性。

在一种可能的实现方式中，控制单元包括基板管理控制器，基板管理控制器电连接负载中的图形处理器，用于向图形处理器下发降功率指令，以使图形处理器基于降功率指令降低运行功率。

本方案中，通过降功率指令降低GPU的运行功率，无需受限于GPU自身的硬件限制，能够灵活控制GPU降低运行功率的方式方法。

在一种可能的实现方式中，控制单元包括可编程逻辑器件和基板管理控制器，可编程逻辑器件连接多个电源，基板管理控制器连接可编程逻辑器件和负载。

本方案中，通过可编程逻辑器件扩展基板管理控制器的接口，从而使得基板管理控制器可以实现更多的管理功能。

在该方式的一个例子中，可编程逻辑器件用于检测多个电源中的每个电源是否正常工作，确定检测结果；基板管理控制器用于在检测结果为多个电源中的部分电源工作异常后，至少控制图形处理器降低运行功率。

在该方式的一个例子中，可编程逻辑器件至少电连接负载中的图形处理器，处理器包括中央处理器；

可编程逻辑器件用于检测多个电源中的每个电源是否正常工作，确定检测结果；在检测结果为多个电源中的部分电源工作异常后，至少控制图形处理器降低运行功率；

基板管理控制器用于在检测结果为多个电源中的部分电源工作异常后，至少控制中央处理器降低运行功率。

在一种可能的实现方式中，控制单元还用于在检测结果为多个电源中的部分电源工作异常后进行告警。

第二方面，本申请实施例提供了一种计算设备的供电方法，计算设备包括多个电源，用于为计算设备进行非冗余的供电；负载，包括处理器，存储器；处理器包括图形处理器，方法包括：

检测多个电源中的每个电源是否正常工作，确定检测结果；

在检测结果为多个电源中的部分电源工作异常后，至少控制图形处理器降低运行功率。

本方案中，采用非冗余供电从而在有限空间内确保设备性能，另外，在非冗余供电的场景下，若部分电源出现故障，控制计算设备中的图形处理器降低运行功率，确保计算设备正常工作。

在一种可能的实现方式中，方法还包括：在检测结果为多个电源中的部分电源工作异常后进行告警。

在一种可能的实现方式中，处理器包括中央处理器，方法还包括：在检测结果为多个电源中的部分电源工作异常后，控制中央处理器降低运行功率。

在一种可能的实现方式中，至少控制图形处理器降低运行功率，包括：

向图形处理器下发硬件信号，以使图形处理器基于硬件信号降低运行功率。

向图形处理器下发降功率指令，以使图形处理器基于降功率指令降低运行功率。

第三方面，本申请实施例提供了一种控制装置，包括：至少一个存储器，用于存储程序；至少一个处理器，用于执行存储器存储的程序，当存储器存储的程序被执行时，处理器用于执行第二方面中提供的方法。

第四方面，本申请实施例提供了一种控制装置，其特征在于，装置运行计算机程序指令，以执行第二方面中提供的方法。示例性的，该装置可以为芯片，或处理器。

在一个例子中，该装置可以包括处理器，该处理器可以与存储器耦合，读取存储器中的指令并根据该指令执行第二方面中所提供的方法。其中，该存储器可以集成在芯片或处理器中，也可以独立于芯片或处理器之外。

第五方面，本申请实施例提供了一种计算机存储介质，计算机存储介质中存储有指令，当指令在计算机上运行时，使得计算机执行第二方面中提供的方法。

第六方面，本申请实施例提供了一种包含指令的计算机程序产品，当指令在计算机上运行时，使得计算机执行第二方面中提供的方法。

附图说明

图1是相关技术中的服务器供电设计的示例图；

图2a是本申请实施例提供的计算设备的结构示意图一；

图2b是本申请实施例提供的计算设备的结构示意图二；

图3a是本申请实施例提供的供电逻辑的示意图一；

图3b是本申请实施例提供的供电逻辑的示意图二；

图3c是本申请实施例提供的供电逻辑的示意图三；

图3d是本申请实施例提供的供电逻辑的示意图四；

图3e是本申请实施例提供的供电逻辑的示意图五；

图4a是图3a的供电逻辑下的供电方案的示例图；

图4b是图3b的供电逻辑下的供电方案的示例图；

图4c是图3c的供电逻辑下的供电方案的示例图；

图4d是图3d的供电逻辑下的供电方案的示例图；

图4e是图3e的供电逻辑下的供电方案的示例图；

图5a是本申请实施例提供的计算设备的结构示意图三；

图5b是本申请实施例提供的计算设备的结构示意图四；

图6a是图5a的供电逻辑下的供电方案的示例图；

图6b是图5b的供电逻辑下的供电方案的示例图；

图7是本申请实施例提供的供电方法的示意图；

其中，图中各附图标记：

100-计算设备；110-主板；111-CPU；112-内存；113-放电电路；1131-放电单元；A-可控开关；B-放电器件；C-接地器件；113-GPU；114-可编程逻辑器件；115-BMC；116-PCIe插槽；117-储能电路；120-机箱；121-电源；122-网卡；123-硬盘；124-风扇；125-GPU扩展卡；126-管理背板；1261-BMC；1262-可编程逻辑器件；130-计算节点；140-控制单元；150-负载；160-机柜；161-背板；1611-BMC；1612-可编程逻辑器件；162-电源。

具体实施方式

为了使本申请实施例的目的、技术方案和优点更加清楚，下面将结合附图，对本申请实施例中的技术方案进行描述。

在本申请实施例的描述中，“示例性的”、“例如”或者“举例来说”等词用于表示作例子、例证或说明。本申请实施例中被描述为“示例性的”、“例如”或者“举例来说”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言，使用“示例性的”、“例如”或者“举例来说”等词旨在以具体方式呈现相关概念。

在本申请实施例的描述中，术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，单独存在B，同时存在A和B这三种情况。另外，除非另有说明，术语“多个”的含义是指两个或两个以上。例如，多个系统是指两个或两个以上的系统，多个终端是指两个或两个以上的终端。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”，除非是以其他方式另外特别强调。

GPU服务器在HPC(High Performance Computing，网络高性能计算)、AI(Artificial Intelligence，人工智能)技术的驱动下应用越来越多，随着人工智能技术的发展，对服务器的性能提出了更高的要求。服务器高性能的体现之一即为超高算力。在服务器中最常见的算力提供方式是采用大规模的GPU集群，随着服务器整体算力的提升，导致GPU的功率在不断提升，进而导致整个服务器的功率不断提升，同时由于GPU Turbo(软硬协同的图形加速技术，在系统底层对传统的图形处理框架进行了重构，实现了软硬件协同，使得GPU图形处理整体效率得到大幅提升)特性，GPU的EDPp功耗一般是EDPc功耗的2倍+，因此，对于GPU服务器供电设计挑战非常大。其中，EDPp表示EDP(Energy-Delay Product，能量延时积)的峰值，EDPc表示EDP在一段时间内的稳定值。

为保证服务器的可靠性，目前GPU服务器的供电方案通常需要保证电源的可靠性，一般采用N+1或者N+N个电源的供电方式，即N路供电满足服务器EDPp瞬态最大功耗，多余的1路或N路实现电源冗余，从而保证在部分电源供应器(Power supply unit，PSU)失效时服务器能正常工作，电源供应器下文简称PSU。如图1所示，GPU服务器采用3+1的供电方式，包括备用PSU1、主PSU1、主PSU2、主PSU3；正常情况下，3个主PSU(主PSU1、主PSU2、主PSU3)能满足GPU服务器的最大峰值功耗，预留1个PSU(备用PSU1)做备份，当3个主PSU供电过程中出现其中一个PSU异常时，启用备用PSU1，从而确保GPU服务器仍然能正常工作。

但是，采用电源冗余设计，增加了额外的电源，导致服务器成本增加。另外，在有限的空间内，电源占服务器的空间大，导致服务器中其他器件占用的空间减少，无法在有限空间内确保服务器的性能。

基于此，为了解决服务器的供电成本和电源占用空间的问题，本申请实施例提供了一种计算设备，该计算设备采用非冗余供电的方式，具体地，计算设备包括多个PSU和至少一个GPU，多个PSU同时为计算设备进行非冗余供电。其中，非冗余供电代表计算设备中所有PSU需要同时供电，不存在备用PSU，可以理解为多个PSU满足(可以理解为等于或微大于)计算设备的瞬时最大功耗。PSU用于将外部输入的电压，转化成计算设备可用的电压。示例性地，PSU可以为单输入电源，也可以为多输入电源，本申请实施例对此不做具体限定，具体可结合实际需求确定。

对应的，本申请实施例提出了计算设备的供电方法。该方法应用于非冗余供电的计算设备。在相关技术中，如果非冗余供电的计算设备的部分PSU故障(PSU不能正常供电)时，计算设备无法正常工作，出现下电的情况。而在本申请实施例中，通过降低计算设备中的至少部分的电子器件比如GPU的运行功率，确保计算设备不会下电，保持正常工作。换言之，计算设备采用非冗余供电的场景下，在部分PSU故障时，通过降低计算设备运行功率，从而使得计算设备能够继续工作。另外，采用非冗余供电的方式较小的占用了计算设备的空间，使得计算设备可以容纳更多电子器件，提高计算设备的性能。

本申请实施例提供了一种计算设备。该计算设备例如为服务器，比如可以为机架服务器。

示例性地，如图2a所示，计算设备100可以包括机箱120，机箱内设置有N(大于等于2)个电源121和主板110，电源121电连接主板110，用于为主板110上的电子器件供电，或者为与主板110连接的电子器件供电。

示例性地，主板110上可以设有CPU(Central Processing Unit，中央处理器)111、内存插槽、GPU113、可编程逻辑器件(programmable logic device，PLD)114、BMC(Baseboard Management Controller，基板管理控制器)115、PCIe(peripheral componentinterconnect express，高速串行计算机扩展总线标准)插槽116、储能电路117；另外，主板110还可以电连接网卡122、硬盘123、风扇124。

其中，计算设备还可以包括内存112，内存插设于内存插槽内，内存为存储器，具体的，内存为易失性存储器，其用作外部高速缓存。示例性地，内存112可以为随机存取存储器(random access memory,RAM)。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器(static RAM,SRAM)、动态随机存取存储器(DRAM)、同步动态随机存取存储器(synchronous DRAM,SDRAM)、双倍数据速率同步动态随机存取存储器(double datadate SDRAM,DDR SDRAM)、增强型同步动态随机存取存储器(enhanced SDRAM,ESDRAM)、同步连接动态随机存取存储器(synchlink DRAM,SLDRAM)和直接内存总线随机存取存储器(direct rambus RAM,DR RAM)。

其中，PCIE插槽116适于拓展GPU卡、网卡、视频采集卡、HBA(Host Bus Adapter，主机总线适配器)卡、RAID(Redundant Arrays of Independent Disks，磁盘阵列)卡、SSD(Solid State Disk或Solid State Drive，固态硬盘)中的至少一种，还可以支持拓展各类转接卡等。

其中，可编程逻辑器件114可以为CPLD(Complex Programmable Logic Device，复杂的逻辑元件，是一种用户根据各自需要而自行构造逻辑功能的数字集成电路)，也可以为FPGA(Field Programmable Gate Array，现场可编程门阵列)。这里，可编程逻辑器件114还可以替换为单片机(Single-Chip Microcomputer，一种集成电路芯片，相当于一个微型的计算机)。

其中，硬盘123有机械硬盘(Hard Disk Drive，HDD)和固态硬盘(Solid StateDisk或Solid State Drive，SSD)之分，示例性地，固态硬盘可以为PCIe通道的固态硬盘，比如NVME(Non Volatile Memory Host Controller Interface Specification，逻辑设备接口规范，用于访问通过PCIe总线附加的非易失性存储器介质)的固态硬盘。应当理解的是，硬盘123仅仅作为非易失性存储器的示例，并不构成具体限定，在实际应用中可以结合实际情况选择非易失性存储器。

其中，储能电路117通过主板110电连接GPU113，用于补偿GPU113的运行功率。需要说明的是，考虑到GPU113工作时功率波动较快，而PSU121可能无法及时供电，此时，可以通过储能电路117进行GPU113的运行功率的补偿。需要说明的是，储能电路117可以在不同的情况下对GPU113的运行功率进行补偿，比如在某个PSU121供电异常时，再比如，在GPU113的瞬时的运行功率突然提升时。

在可选地一个实现方式中，储能电路117的第一端电连接PSU121，第二端电连接GPU113。在该实现方式中的一个示例，储能电路117包括若干个电容，在电容有多个时，多个电容并联，对于每个电容，电容的第一端电连接N个PSU121,第二端电连接GPU113。需要说明的是，储能电路117的容值需要满足对GPU113的运行功率的补偿，具体来说，储能电路117的容值选择可以根据需要提供的额外放电能量及放电时长计算得到，计算公式可以为W＝1/2C*ΔU²*Δt，其中，C表示电容容值，W表示额外放电能量，U表示PSU121的电压，Δt表示放电时长。

其中，N个PSU121，用于为计算设备100进行非冗余的供电，也就是说，N个PSU121为计算设备100的主板110上的电子器件和主板110电连接的电子器件供电，N个PSU121的总供电功率等于或微大于主板110上的电子器件和主板110电连接的电子器件满载运行时的总运行功率。

示例性地，如图2b所示，计算设备100可以包括机箱120、电源121和主板110，电源121电连接主板110，用于为主板110上的电子器件供电。

示例性地，主板110上可以设有CPU111、内存插槽、可编程逻辑器件114、BMC115、PCIe插槽116、储能电路117，进一步地，主板110电连接硬盘123、风扇124和GPU扩展卡125。其中，GPU扩展卡125用于电连接若干个GPU113，比如，可以为Riser卡。内存插槽、可编程逻辑器件114、PCIe插槽116、储能电路117、硬盘123的详细内容参见上文，不再赘述。

需要说明的是，图2a和图2b仅仅作为计算设备100的示例，并不构成具体限定。为了简化，图2a和图2b仅示出了该计算设备100中与本申请有关的组件中的一些，省略了诸如总线、输入/输出接口等等的组件；在实际应用中，可以包括比图2a和图2b更多或更少的器件，比如还可以包括数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

对于图2a至图2b，计算设备100中的电子器件可以包括控制单元和负载。本申请实施例中，控制单元电连接N个PSU121和负载，用于检测N个PSU121中的每个电源是否正常工作，确定检测结果；在检测结果为N个PSU中的部分电源工作异常(也就PSU无法供电)后，至少控制GPU113降低运行功率。本方案中，采用非冗余供电从而在有限空间内确保设备性能，另外，在非冗余供电的场景下，若部分PSU121出现故障，控制计算设备100中的GPU降低运行功率，确保计算设备100正常工作。

其中，控制单元可以为BMC115和/或可编程逻辑器件114，在一个例子中，控制单元可以由BMC115和可编程逻辑器件114比如CPLD组成。在另一个例子中，控制单元可以为可编程逻辑器件114比如CPLD。在再一个例子中，控制单元可以为单片机。

其中，负载可以理解为接收PSU121的电能的电子器件。示例性地，负载可以为主板110上的电子器件，或者，主板110连接的电子器件。示例性地，负载可以包括CPU111，内存112，GPU113，网卡122，硬盘123，风扇124等需要供电的电子器件。

在一种可行的实现方式中，N个PSU121具有故障信号输出引脚(用于输出故障指示信号，图中未示意)，N个PSU121的故障信息输出引脚电连接控制单元。这里，故障信息输出引脚可以为PG引脚，对应的故障指示信息为PG信号。PG信号用于系统开机且PSU121输出均正常的情况下将PSU121已准备妥当的信息告知主板110上的供电系统，主板110上的供电系统在接收到PG信号时方可正常启动其上设置的以及电连接的电子器件，所以PG信号需在PSU121的输出达到正常值的95％后延时100～500mS再实现输出，且其通常是一个+5V的高电平。在关机时，PG信号需在PSU121的输出电压下降到正常值(5V)的95％之前的至少1mS的时间转为低电平以提前将PSU121失效信息告知主板110上的供电系统，这样能够便于系统提前做好关机准备以避免损坏系统硬件。需要说明的是，上述PG信号仅仅作为故障指示信号的示例，并不构成具体限定，在实际应用中，故障指示引脚还可以包括其他的表示PSU存在问题的信号的引脚，比如表示PSU过热的引脚等。

对应地，在具体实现时，控制单元可以基于每个PSU121输出的故障指示信息，检测PSU是否正常工作，确定检测结果。示例性地，故障指示信息可以为PG信号，在PSU121的PG信号为高电平时，说明PSU121工作正常，在PG信号为低电平时，说明PSU121工作异常。对应的，检测结果可以为PG信号的电平的高低，在检测结果中存在1个低电平时，说明1个PSU121异常。

在一种可行的实现方式中，控制单元按照GPU113支持的降功率触发方式，控制GPU113降低运行功率。

其中，降功率触发方式为硬件方式或指令方式。需要说明的是，本申请实施例中，可以基于实际需求灵活设计降功率触发方式，确保能够及时降低GPU113的运行功率。

在GPU113支持硬件方式的场景下，控制单元可以通过硬件信号控制GPU113降低运行功率，GPU113基于硬件信号降低运行功率。示例性地，对于负载150中的GPU113，对应的硬件信号为Power Braker信号(用于让GPU降低功率)。在具体实现时，控制单元向GPU113下发Power Braker信号，以使GPU113基于Power Braker信号降低运行功率。本方案中，通过硬件信号降低GPU113的运行功率，GPU113可以快速响应硬件信号降低运行功率，提高降低运行功率的及时性。

在一个例子中，GPU113可以基于硬件信号，将GPU113的运行功率降低到最低。

在一个例子中，控制单元140可以基于故障电源数目，控制GPU113降低运行功率。

可选地一个实现方式中，控制单元140存储有功率调整策略(为了便于描述和区别，称为第一功率调整策略)，第一功率调整策略用于说明不同故障电源数目下如何调整运行功率，从而在计算设备100中的电源没有全部故障时，确保计算设备100能够正常工作。在具体实现时，故障电源数目越多，计算设备100整体的运行功率越低。

示例性地，第一功率调整策略用于说明故障电源数目和功率调整方案的对应关系。这里，功率调整方案可以结合实际需求灵活设计，本申请实施例对此不做具体限定。假设故障电源数目为n1,n2,n3，电子器件的功率调整方案为s1，s2，s3，其中，控制单元140对电子器件采用s1，s2，s3分别进行功率调整后，功率依次减小，则n1,n2,n3分别对应的电子器件的功率调整方案为s1，s2，s3。

在该示例下，控制单元140可以确定故障电源数目对应的GPU113的功率调整方案，将该功率调整方案发送到GPU113，GPU113按照该功率调整方案降低自身的运行功率。

示例性地，第一功率调整策略用于说明故障电源数目和GPU113降低后的运行功率(为了便于描述和区别，可以称为目标运行功率)的对应关系。假设故障电源数目为n1,n2,n3，GPU113降低后的目标运行功率为P1，P2，P3,假设n1,n2,n3依次增大，则P1，P2，P3依次减小。

在该示例下，控制单元140可以确定故障电源数目对应的目标运行功率，并通知GPU113，GPU113降低运行功率至目标运行功率。

在GPU113支持指令方式的场景下，控制单元可以通过降功率指令控制GPU113降低运行功率。在具体实现时，控制单元向GPU113下发降功率指令，以使GPU113基于降功率指令降低运行功率。本方案中，通过降功率指令降低GPU113的运行功率，无需受限于GPU113自身的硬件限制，能够灵活控制GPU113降低运行功率的方式方法。

其中，GPU113基于降功率指令降低运行功率的方案有多种。详细内容参见基于硬件信号降低运行功率的方式，区别在于将硬件信号替换为降功率指令。

另外，若GPU113既支持硬件方式，也支持指令方式的场景下，控制单元可以选择一个作为GPU113的降功率触发方式。

示例的，控制单元还可以控制降低CPU111的运行功率。在具体实现时，CPU111支持的降功率触发方式可以为硬件方式，也可以为指令方式。

在CPU111支持硬件方式的场景下，控制单元可以通过硬件信号控制CPU111降低运行功率，CPU111基于硬件信号降低运行功率。这里，CPU111基于硬件信号降低运行功率的详细内容可以参见GPU113基于硬件信号降低运行功率，区别在于硬件信号不同。示例性地，CPU111对应的硬件信号为Prochot信号(用于告诉CPU过热以使CPU降低运行功率)。

在CPU111支持指令方式的场景下，控制单元可以通过降功率指令控制CPU111降低运行功率，CPU111基于降功率指令降低运行功率。这里，CPU111基于降功率指令降低运行功率的详细内容可以参见GPU113基于降功率指令降低运行功率的描述，不再赘述。

另外，若CPU113既支持硬件方式，也支持指令方式的场景下，控制单元可以选择一个作为CPU111的降功率触发方式。

示例的，控制单元还可以控制降低内存112的运行功率。在具体实现时，内存112支持的降功率触发方式可以为硬件方式，也可以为指令方式。

在内存112支持硬件方式的场景下，控制单元可以通过硬件信号控制内存112降低运行功率，内存112基于硬件信号降低运行功率。这里，内存112基于硬件信号降低运行功率的详细内容可以参见GPU113基于硬件信号降低运行功率，区别在于硬件信号不同。示例性地，内存112为DIMM，DIMM对应的硬件信号为memhot信号(用于告诉内存比如DIMM过热以使内存比如DIMM降低运行功率)。

在内存112支持指令方式的场景下，控制单元可以通过降功率指令控制内存112降低运行功率，内存112基于降功率指令降低运行功率。这里，内存112基于降功率指令降低运行功率的详细内容可以参见GPU113基于降功率指令降低运行功率的描述，不再赘述。

另外，若内存112既支持硬件方式，也支持指令方式的场景下，控制单元可以选择一个作为CPU111的降功率触发方式。

需要说明的是，为了确保计算设备100的正常工作，需要保证计算设备100能够从硬盘123正常读出写入数据以及通过网卡122向计算设备100之外的设备发送信息，因此，硬盘123和网卡122需要正常工作，不能降低运行功率，从而确保计算设备100能够正常运行。对于CPU111、GPU113和内存112，在降低运行功率后，仅仅降低了处理性能，即处理数据的速度会降低，但是不会影响计算设备100的正常工作，因此，可以降低CPU111、GPU113和内存中的至少部分的运行功率；另外，考虑到GPU113的运行功率较高，一般为上千瓦，CPU111的运行功率次之，一般为几百瓦，内存112的运行功率最低，一般为几十瓦，为了尽可能减低计算设备100的功耗，可以优先降低运行功率较高的GPU113的运行功率，在故障的PSU121的数目增加时，进一步地降低CPU111和内存112的运行功率。

值得注意的是，在控制单元控制CPU111、GPU113降低运行功率，GPU113、内存112降低运行功率，或者，CPU111、GPU113和内存112降低运行功率时，CPU111、GPU113和内存112支持的降功率触发方式可以相同，也可以不同。示例性地，CPU111、GPU113和内存112均支持硬件方式；示例性地，CPU111、GPU113和内存112均指令方式。示例性地，GPU113支持指令方式，CPU111和内存112支持硬件方式。

在一种可行的实现方式中，控制单元可以基于故障电源数目，选择降低功率的负载150中的电子器件，对选择的电子器件降低运行功率；其中，选择的电子器件包括GPU113，进一步地还可以包括CPU111，更进一步地，还可以包括内存112。示例性地，假设故障电源为1时，可以降低GPU113的运行功率，在故障电源为2时，在降低GPU113的基础上，可以进一步地降低CPU111和内存112的运行功率。

进一步地，控制单元还可以基于故障电源数目，确定选择的降低功率的负载150中的电子器件降低功率的程度。

示例性地，假设故障电源为1时，可以降低GPU113的运行功率，GPU113的运行功率降低到A1；在故障电源为2时，GPU113的运行功率降低到A2(小于A1)。

进一步地，在故障电源数目增加时，控制单元140可以有如下多种处理方式。

方式1：控制单元可以控制已经降低功率的器件继续降低运行功率。

示例性地，假设故障电源数目为1时，可以降低GPU113的运行功率，GPU113的运行功率降低到A1；在故障电源数目为2时，GPU113的运行功率从A1降低到A2。

方式2：控制单元可以增加降低功率的器件。

示例性地，假设故障电源数目为1时，可以降低GPU113的运行功率，GPU113的运行功率降低到A1；在故障电源数目为2时，GPU113的运行功率维持在A1，降低CPU111和内存112的运行功率。

方式3：控制单元可以控制已经降低功率的器件继续降低运行功率，增加降低功率的器件。

示例性地，假设故障电源数目为1时，可以降低GPU113的运行功率，GPU113的运行功率降低到A1，在故障电源数目为2时，GPU113的运行功率从A1降低到A2，并且降低CPU111和内存的运行功率。

进一步地，控制单元在检测结果为多个电源中的部分电源工作异常后进行告警；从而后续便于运维人员进行维护。

进一步地，控制单元在故障电源数目大于等于预设阈值时，控制计算设备100停止工作。需要说明的是，在故障电源数目较多时，可以认为计算设备故障，计算设备下电，不再工作。示例性地，假设计算设备有5个电源，预设阈值为3，则在故障电池的数目大于等于3个时，计算设备停止工作。

这里仅仅是对供电方案的概述，下面结合具体的供电场景对本申请实施例提供的供电方案进行详细描述。

在图2a至图2b的基础上，本申请实施例提供了一种供电场景的示意图。

如图3a所示，本申请实施例提供了第一种供电场景，计算设备100包括N个PSU121、负载150、控制单元140。

其中，N个PSU121具有故障信号输出引脚，N个PSU121的故障信息输出引脚电连接控制单元140。这里，故障信息输出引脚可以为PG引脚，对应的故障指示信息为PG信号。

对应地，在具体实现时，控制单元140可以基于每个PSU121输出的故障指示信息，检测PSU是否正常工作，确定检测结果。

另外，N个PSU121的输出端连接电源总线，电源总线连接负载150。

示例性地，负载150可以包括风扇124，风扇124和电源总线之间设置有缓启动电路。其中，缓启动电路用于在开机时延迟上电，防止直接上电产生过大电流影响负载150工作的稳定性。

示例性地，负载150可以包括CPU111，CPU111和电源总线之间设置有功率转换电路，示例的，还可以设置缓启动单元。其中，功率转换器用于将电源总线的电压转换成负载150可用的电压，这里，转换成CPU111可用的电压。

示例性地，负载150可以包括内存121，内存121和电源总线之间设置有功率转换电路，示例的，还可以设置缓启动单元。如图3a所示，内存121可以为DIMM121。

示例性地，负载150包括硬盘123，硬盘123和电源总线之间设置有功率转换电路，示例的，还可以设置缓启动单元。示例性地，硬盘123可以为HDD/SSD。

示例性地，负载150可以包括GPU113，GPU113和电源总线之间设置有缓启动单元，示例的，还可以设置储能电路117。需要说明的是，储能电路117电连接电源总线以电连接N个PSU121。

示例性地，控制单元140为可编程逻辑器件114,可编程逻辑器件114和电源总线之间设置有功率转换电路。示例的，电源总线与功率转换电路还可以设置熔断器，其中，熔断器用于保护电流，可以在电流超过一定数值时，断开电流，达到保护的效果。如图3a所示，可编程逻辑器件114可以为CPLD114。需要说明的是，可编程逻辑器件114在检测到N个PSU121中的部分PSU121出现异常时，可以通过硬件信息控制负载150中的至少部分电子器件降低运行功率。

对于图3a所示的第一种供电场景，本申请实施例提供的供电方案如下：

CPLD114基于N个PSU121输出的故障指示信号，判断每个PSU121是否正常工作，确定检测结果。CPLD114在检测结果为N个PSU121中的部分PSU121工作异常后，控制负载150中的GPU113降低运行功率。在具体实现时，CPLD可以生成硬件信号并发送至GPU113，以使GPU113基于硬件信号降低运行功率。示例性地，CPLD向GPU113发送的硬件信号为PowerBraker信号。对应地，GPU113可以基于硬件信号降低运行功率。

示例的，CPLD114还可以降低CPU111和/或内存112的运行功率。在具体实现时，CPLD114可以生成CPU111和/或内存的硬件信号并发送至CPU111和/或内存112，以使CPU111和/或内存112基于硬件信号降低运行功率。示例性地，CPLD114向CPU111发送的硬件信号为Prochot信号；CPLD114向内存112发送的硬件信号为memhot信号。

在采用图3a所示的供电场景时，计算设备100中配置的GPU113、CPU111、内存112比如DIMM支持硬件触发，示例性地，控制单元140通过Power Braker信号、Prochot信号、memhot信号分别触发DGPU113、CPU111、内存112比如DIMM降低运行功率，PSU121支持输出故障指示信号：PG信号，控制单元140为可编程逻辑器件114，比如，CPLD。

如图4a所示，在实际应用中，供电的过程为：在计算设备100正常运行时，CPLD114实时接收PSU121发送的PG信号，通过对PG信号可以判断PSU121是否正常工作，在PG信号异常时，向GPU113发送Power Braker信号，向CPU111发送Prochot信号，向内存112比如DIMM发送memhot信号，GPU113基于Power Braker信号进入低功耗模式，CPU111基于Prochot信号进入低功耗模式，内存112比如DIMM基于memhot信号进入低功耗模式，以使计算设备100进行低功耗模式。

这里，本方案采用降低GPU113、CPU111、内存112的运行功率，保持硬盘和网卡的运行功率，确保计算设备正常运行。

如图3b所示，本申请实施例提供了第二种供电场景，其和图3a的区别在于控制单元140。

如图3b所示，控制单元140由BMC115和可编程逻辑器件114比如CPLD114组成。

其中，可编程逻辑器件114电连接GPU113、CPU111、内存112。在具体实现时，CPLD和图3a的CPLD实现的供电方案相同。

其中，GPU113、CPU111、内存112和BMC115之间可以通过SMBus((SystemManagement Bus,系统管理总线，用于控制主板上的设备并收集相应的信息)电连接。在具体实现时，BMC115通过SMBus和GPU113、CPU111、内存112通信。

进一步地，BMC115和可编程逻辑器件114之间设置有读写总线和中断线，其中，中断线用于传输中断信号，读写总线用于进行信息交互。需要说明的是，可编程逻辑器件114电连接BMC115，可以作为BMC115的扩展器件，BMC115可以控制可编程逻辑器件114实现更多的管理功能。

示例性地，在可编程逻辑器件114检测到PSU121故障后，降低GPU113、CPU111和内存112的运行功率，并立刻产生中断信号给BMC115，BMC115再通过读写总线读取可编程逻辑器件114获取的故障指示信号比如PG信号，进行PSU121的异常检测，在检测到异常后，进入低功耗模式的告警。

如图4b所示，在实际应用中，供电的过程相对于图3a的区别在于：BMC115通过读写总线可以读取CPLD114获取到的PG信号，在PG信号异常时，进行告警，告警内容为：PSU异常，服务器进行低功耗模式。

如图3c所示，本申请实施例提供了第三种供电场景，其和图3a的区别在于控制单元140。

如图3c所示，控制单元140为BMC115。其中，BMC115通过SMBus电连接GPU113、CPU111、内存112，并且电连接N个电源121。

对应的，供电方案和图3a的供电场景下的供电方案的差异在于：BMC115可以通过降功率指令控制负载150中的至少部分电子器件降低运行功率。

示例性地，如图4c所示，在实际应用中，供电的过程为：BMC115实时接收PSU121发送的PG信号，通过PG信号判断PSU121是否正常工作，在PG信号异常时，可以基于SMBus向GPU、CPU、DIMM发送降功率指令，以使GPU、CPU、DIMM基于该指令降低运行功率。进一步的，在PG信号异常时，进行告警，告警内容为：PSU异常，服务器进行低功耗模式。

如图3d所示，本申请实施例提供了第四种供电场景，其和图3a的区别在于控制单元140。

如图3d所示，控制单元140由BMC115和可编程逻辑器件114比如CPLD组成。

其中，BMC115通过SMBus电连接GPU113、CPU111、内存112。

进一步地，BMC115和可编程逻辑器件114之间设置有读写总线和中断线，其中，中断线用于传输中断信号，读写总线用于进行信息交互。

对应的，供电方案的具体过程可以为：CPLD114可以获取N个PSU121的故障指示信号比如PG信号；BMC115可以与CPLD114交互，得到N个PSU121的故障指示信号比如PG信号，从而检测N个PSU121中的每个PSU121是否正常工作，确定检测结果，在检测结果为N个PSU121中的部分PSU121工作异常时，通过降功率指令控制负载150中的至少部分电子器件降低运行功率。需要说明的是，CPLD114也可以直接将检测结果发送到BMC115，BMC115在检测结果为N个PSU121中的部分PSU121工作异常时，通过降功率指令控制负载150中的至少部分电子器件降低运行功率。

示例性地，如图4d所示，在实际应用中，供电的过程相对于图3c的区别在于：BMC115通过读写总线读取CPLD114获取到的PSU的PG信号，从而判断PSU121是否正常工作。

如图3e所示，本申请实施例提供了第五种供电场景，其和图3a的区别在于控制单元140。

如图3e所示，控制单元140由BMC115和可编程逻辑器件114比如CPLD组成。

其中，BMC115通过SMBus电连接GPU113。

其中，可编程逻辑器件114比如CPLD电连接CPU111、内存112。

进一步地，BMC115和可编程逻辑器件114之间设置有读写总线和中段线，其中，中断线用于传输中断信号，读写总线用于进行信息交互。

对应的，供电方案的具体过程可以为：CPLD114可以基于N个PSU121的故障指示信号比如PG信号，检测N个PSU121中的每个PSU121是否正常工作，确定检测结果，在检测结果为N个PSU121中的部分PSU121工作异常时，通过硬件信息控制负载150中的GPU113之外的电子器件比如CPU111和/或内存112降低运行功率；BMC115可以与CPLD114交互，得到N个PSU121的故障指示信号，从而检测N个PSU121中的每个PSU121是否正常工作，确定检测结果，在检测结果为N个PSU121中的部分PSU121工作异常时，通过降功率指令控制负载150中的GPU113降低运行功率。需要说明的是，CPLD114也可以直接将检测结果发送到BMC115，BMC115在检测结果为N个PSU121中的部分PSU121工作异常时，通过降功率指令控制负载150中的GPU113降低运行功率。

示例性地，如图4e所示，在实际应用中，供电的过程相对于图3b的区别在于：CPLD114在PG信号异常时，向CPU111输出Prochot信号，向内存112比如DIMM输出memhot信号，CPU111基于Prochot信号进入低功耗模式，内存112比如DIMM基于memhot信号进入低功耗模式；BMC115基于SMBus向GPU113发送降功率指令，GPU113基于该指令降低运行功率。

需要说明的是，在控制单元140由BMC115和可编程逻辑器件114比如CPLD组成的场景下，BMC115可以通过降功率指令控制CPU111、内存112、GPU113中的任1个或2个，CPLD114可以通过硬件信号控制CPU111、内存112、GPU113中的其他。

示例性地，BMC115通过SMBus电连接CPU111、内存112。可编程逻辑器件114比如CPLD电连接GPU113。对应的，供电方案为：CPLD114可以基于N个PSU121的故障指示信号比如PG信号，检测N个PSU121中的每个PSU121是否正常工作，确定检测结果，在检测结果为N个PSU121中的部分PSU121工作异常时，通过硬件信息控制负载150中的GPU113降低运行功率；BMC115可以与CPLD114交互，得到N个PSU121的故障指示信号，从而检测N个PSU121中的每个PSU121是否正常工作，确定检测结果，在检测结果为N个PSU121中的部分PSU121工作异常时，通过降功率指令控制负载150中的CPU111和/或内存112降低运行功率。需要说明的是，CPLD114也可以直接将检测结果发送到BMC115，BMC115在检测结果为N个PSU121中的部分PSU121工作异常时，通过降功率指令控制负载150中的CPU111和/或内存112降低运行功率。

在图2a和图2b的场景下，对计算设备100的供电方案的具体设计进行示例。

1、根据实际计算设备100的配置(也即配置计算设备100中的器件)，计算最大负载功率(满足GPU EDPp功耗)。

2、根据选择的PSU121功率及最大负载功率计算需要的PSU数量，满足整个计算设备100最大的负载要求。

3、GPU113和PSU121之间设计储能电路140比如预留储能电容，补偿GPU113的EDPp的瞬态功耗需求，保持PSU的电压稳定。

4、PSU121支持输出故障指示信号比如PG信号，CPLD114或BMC115可以基于故障指示信号实时检测各个PSU的工作状态。

5、BMC115通过读写总线访问CPLD114，比如从CPLD114中获取PSU121的故障指示信号，同时CPLD114可以提供一个中断信号给BMC115，当CPLD114检测到任意一个PSU121工作异常时，通过中断信号通知BMC115，BMC115从CPLD114获取PSU121的故障指示信号后进行检测，确定PSU121异常后进行告警。

6、CPLD114或BMC115在检测到PSU121工作异常后，BMC114或CPLD115立刻控制负载150进入低功耗模式，降低功耗，尽可能使得部分的PSU121异常时计算设备100不宕机。

具体地，CPLD、BMC的控制流程如下：

1、计算设备100上电启动后，CPLD114实时检测各个PSU121的PG信号。

2、BMC115根据计算设备100的具体配置，也即负载150连接BMC115还是CPLD114，确定负载150中的电子器件的降功率触发方式。

1)降功率触发方式1：硬件方式(通过硬件信号)触发。

2)降功率触发方式2：指令方式(通过BMC通过管理通道(比如，SMBus)下发降功率指令)触发。

示例性地，GPU113、CPU111、内存112支持硬件方式触发。

示例性地，GPU113、CPU111、内存112支持指令方式触发。

示例性地，GPU113支持硬件方式触发，CPU111、内存112支持指令方式触发

需要说明的，在采用硬件信号触发的情况下，BMC115可以通过读写总线向CPLD114下发硬件信号的类型和硬件信号对应的电子器件；另外，在采用管理通道(比如，SMBus)下发降功率指令的情况下，BMC115可以记录采用指令方式的电子器件。

3、CPLD114如果检测到PSU121正常，计算设备100正常运行。

4、CPLD114如果检测到其中一个PSU121异常，CPLD114/BMC115控制GPU113、CPU111、内存121比如DIMM降低运行功率，计算设备100进入低功耗模式，降低计算设备100整体功率，BMC115同时做告警处理。

基于上述提供的计算设备及计算设备的供电方法，对计算设备100的设计进行示例。

假设计算设备100，支持2个CPU111，32个DIMM112和4个GPU113,GPU113的EDPc为300W而EDPp超600W，服务器整体的EDPc功耗达到2800W,EDPp峰值功耗达到4000W左右，GPU113、CPU111、DIMM112支持硬件信号触发低功耗模式，控制单元140由CPLD114和BMC115组成，则计算设备100的供电方案如下：

1、设计选择2个3000W的PSU121供电，正常情况下双PSU121满足节点EDPp峰值功耗，单PSU121故障时，让GPU113、CPU111、DIMM112进入节能模式，单个GPU113的EDPp功耗节省150W,CPU111、DIMM112根据实际配置可降低一半以上功耗，计算设备100的总功耗小于2200W,单PSU121满足服务器节能模式下功耗需求。

2、由于GPU的EDPc功耗和EDPp相差太大，为保证GPU供电支路PSU稳定，在靠近GPU的供电支路上增加储能电路117。

3、PSU121的故障指示信号比如PG信号输入到CPLD114做实时检测。

4、降功率触发方式采用硬件方式，GPU113的Power Brake信号，CPU111的Prochot信号，DIMM112的memhot信号介入到CPLD114中，当CPLD114检测到部分PSU121故障上，立刻输入相应信号，控制GPU113、CPU111、DIMM112进入低功耗模式。

5、CPLD114与BMC115之间增加中断信号，当CPLD114检测到PSU121故障后，立刻产生中断信号给BMC115，BMC115再通过读取CPLD114获取的故障指示信号比如PG信号，进行PSU121异常检测，在检测到异常后进入低功耗模式的告警。

综上，基于CPLD/BMC以及辅助电路(比如CPLD和N个PSU之间的连接关系)、软件控制设计，实时对PSU状态的检测，并根据检测结果，快速对GPU、CPU等负载120实现功率控制进入低功耗模式，确保部分PSU故障时，GPU服务器不下电。

本申请实施例提供了另一种计算设备。计算设备100可以为高密服务器或刀片服务器。

示例性地，如图5a所示，计算设备100包括机箱120、电源121、管理模块126、若干个服务器节点130。

其中，服务器节点130具有完整的服务器的功能，在一些可能的情况，可以称为计算节点，服务器，服务器模块或服务器单元等。服务器节点130包括主板110，主板110上可以设有多个电子器件，如图5a所示，主板110上可以设置CPU111、内存插槽插入的内存112、可编程逻辑器件114、BMC115、GPU113，电连接网卡122、硬盘123等，电子器件的详细介绍参见对图2a的描述，不再赘述。另外，主板110上的电子器件和连接的电子器件仅仅作为示例，在实际应用中，可以包括比图5a示出的更多或更少的器件。

其中，电源121电连接服务器节点130的主板110，用于为服务器节点130中的主板110上的电子器件供电；风扇124电连接服务器节点130的主板110，用于为服务器节点130中的主板110上的器件供电散热。需要说明的是，计算设备100中的服务器节点130共享电源121和风扇124。

其中，管理模块126上设置有BMC1261和可编程逻辑器件1262。

对于图5a所示的计算设备100，如图6a所示，进一步地，管理模块126上的电子器件可以包括控制单元140，计算设备100中管理模块126之外的电子器件可以包括负载150。

其中，控制单元140可以由管理模块126上的部分电子器件形成，比如，控制单元140可以为可编程逻辑器件1262，也可以为BMC1261，还可以为可编程逻辑器件1262和BMC1261。

其中，负载150可以为计算节点130。示例性地，在图5a所示的场景下，负载150可以理解为计算节点130中接收PSU121的电能的电子器件；比如，负载可以为计算节点130中主板110上的电子器件，或者，主板110电连接的电子器件，则负载可以包括CPU111，内存112，GPU113，网卡122，硬盘123，风扇124等。

如图6a所示，控制单元140连接N个PSU121和负载150，用于检测N个PSU121中的每个PSU121是否正常工作，确定检测结果；在检测结果为N个PSU121中的部分电源工作异常后，至少控制计算节点130中的GPU113降低运行功率。

这里，图6a示出的控制单元140相对于图2a和图2b场景中的控制单元140的区别在于：

控制单元140可以控制降低功率的计算节点130的数目。

在一种可行的实现方式，控制单元140可以基于故障电源数目，确定降低功率的计算节点130的节点数目；基于节点数目，选择适配节点数目的计算节点130中的GPU113降低运行功率。示例性地，可以针对不同的故障电源数目，确定不同的节点数目。比如，控制单元140可以具有功率调整策略(为了便于描述和区别，称为第二功率调整策略)，第二功率调整策略用于设置故障电源数目和降低功率的计算节点130的节点数目的对应关系。示例性地，假设故障电源数目为n1,n2,n3；其中，n1<n2<n3；降低功率的计算节点130的节点数目为rp1，rp2，rp3，其中，rp1<rp2<rp3，则n1,n2,n3分别对应的节点数目为rp1，rp2，rp3。

进一步地，在故障电源数目增加时，控制单元140可以有如下多种控制手段。

控制手段1：控制单元140可以保持降低运行功率的计算节点130的数目不变，增加计算节点130中降低运行功率的电子器件。示例性地，假设故障电源数目为1时，可以降低3个计算节点130中的GPU113的运行功率，GPU113的运行功率降低到A1；在故障电源数目为2时，3个计算节点130中的GPU113的运行功率维持在A1，进一步地降低CPU111和内存112的运行功率。

控制手段2：控制单元140可以保持降低运行功率的计算节点130的数目不变，让已经降低运行功率的GPU113继续降低运行功率。示例性地，假设故障电源数目为1时，可以降低3个计算节点130中的GPU113的运行功率，GPU113的运行功率降低到A1；在故障电源数目为2时，3个计算节点130中的GPU113的运行功率从A1降低到A2。

控制手段3：控制单元140可以保持降低运行功率的计算节点130的数目不变，增加计算节点130中降低运行功率的器件，并且让已经降低运行功率的GPU113继续降低运行功率。示例性地，假设故障电源数目为1时，可以降低3个计算节点130中的GPU113的运行功率，GPU113的运行功率降低到A1；在故障电源数目为2时，3个计算节点130中的GPU113的运行功率从A1降低到A2，进一步地降低CPU111和内存112的运行功率。

控制手段4：控制单元140可以增加降低运行功率的计算节点130的数目。示例性地，假设故障电源数目为1时，可以降低3个计算节点130中的GPU113的运行功率；在故障电源数目为2时，降低6个计算节点130中的GPU113的运行功率。

这里，控制单元140控制GPU113、CPU111和内存112降低运行功率的方式参见对图4a至图4e的描述。

本申请实施例提供了再一种计算设备。

如图5b所示，计算设备110可以为整机柜服务器。其中，整机柜服务器为将原有机架与机器分离的架构进行融合，打包成为一个独立的产品。

如图5b所示，计算设备110包括机柜160，机柜160中设置服务器节点130、电源162、背板161。具体地，服务器节点130包括电源121和主板110，主板110上可以设有多个电子器件，电连接若干个器件，主板110上设置的和电连接的电子器件可以参见图2a，可以包括比图2a示出的更多或更少的器件。

背板161设置有BMC1611和可编程逻辑器件1612，电连接电源162；电源162电连接服务器节点130的电源121，用于为服务器节点130中的电源121供电；示例性地，电源163用于将电网的交流电压转化成直流电压，比如48V，电源121用于将电源162输出的电压转换成主板110上的器件可用的电压，比如12V。

对于图5b所示的计算设备100，如图6b所示，进一步地，计算设备100中的电子器件可以包括控制单元140和负载150。

其中，控制单元140可以由背板161上的部分电子器件形成，比如，控制单元140可以为可编程逻辑器件1612，也可以为BMC1611，还可以为可编程逻辑器件1612和BMC1611。

其中，负载150可以为计算节点130。示例性地，在图5b所示的场景下，负载150可以理解为计算节点130中接收PSU162的电能的电子器件；比如，负载可以为计算节点130中主板110上的电子器件，或者，主板110电连接的电子器件，则负载可以包括CPU111，内存112，GPU113，网卡122，硬盘123，风扇124等。

如图6b所示，控制单元140连接N个PSU121和负载150，用于检测N个PSU121中的每个PSU121是否正常工作，确定检测结果；在检测结果为N个PSU121中的部分电源工作异常后，至少控制计算节点130中的GPU113降低运行功率。

这里，图6b示出的控制单元140相对于图2a和图2b场景中的控制单元140的区别在于：

控制单元140可以控制降低功率的计算节点130的数目。详细内容参见上文对图6a中控制单元140的描述，不再赘述。

基于上文描述的计算设备100的结构和供电逻辑，对本申请实施例提供的供电方法进行详细描述。图7是本申请实施例提供的计算设备的供电方法的流程示意图。如图7所示，本申请实施例提供的供电方法至少包括如下701～702：

701、检测计算设备中的多个电源中的每个电源是否正常工作，确定检测结果；多个电源用于为计算设备进行非冗余的供电。

根据一种可行的实现方式，电源支持输出故障指示信号。对应地，控制单元140接收多个电源输出的故障指示信号，基于故障检测信号检测多个电源中的每个电源的工作状态。这里，控制单元140具体对电源是否正常工作的检测逻辑可以结合故障指示信号灵活设计，本申请实施例对此不做具体限定。

702、在检测结果为多个电源中的部分电源工作异常后，控制负载中的图形处理器降低运行功率。

在一种可行的实现方式，多个电源为N个电源121,控制单元140在检测结果为N个电源121中的部分PSU121工作异常后，至少降低GPU113的运行功率。需要说明的是，GPU113的运行功率较大，因此优选降低GPU113的运行功率，确保计算设备140能够正常工作。

在该实现方式的一种可能的情况，计算设备110为图2a或图2b所示的机架服务器，负载150中的至少部分电子器件可以为GPU113，CPU111，内存112。控制单元140可以存储功率调整策略(为了便于描述和区别，称为第一功率调整策略)。第一功率调整策略用于说明不同故障电源数目下如何调整运行功率，从而在计算设备100中的电源没有全部故障时，确保计算设备100能够正常工作。在具体实现时，故障电源数目越多，计算设备100整体的运行功率越低。

示例性地，第一功率调整策略用于说明故障电源数目和功率调整方案的对应关系。这里，功率调整方案可以结合实际需求灵活设计，本申请实施例对此不做具体限定。假设故障电源数目为n1,n2,n3，电子器件的功率调整方案为s1，s2，s3，其中，电子器件采用s1，s2，s3分别进行功率调整后，功率依次减小，则n1,n2,n3分别对应的功率调整方案为s1，s2，s3。在该示例下，控制单元140可以确定故障电源数目对应的GPU113的功率调整方案，将该功率调整方案发送到GPU113，GPU113按照该功率调整方案降低自身的运行功率。

示例性地，第一功率调整策略用于说明故障电源数目和GPU113降低后的运行功率(为了便于描述和区别，可以称为目标运行功率)的对应关系。假设故障电源数目为n1,n2,n3，GPU113降低后的目标运行功率为P1，P2，P3,假设n1,n2,n3依次增大，则P1，P2，P3依次减小。在该示例下，控制单元140可以确定故障电源数目对应的目标运行功率，并通知GPU113，GPU113降低运行功率至目标运行功率。

示例性地，在一种可能的情况，控制单元140还可以控制降低CPU111和/或内存112的运行功率。

在该情况下，控制单元140可以基于故障电源数目，选择降低功率的负载150中的器件，并确定降低功率的程度。

示例性地，假设故障电源为1时，可以降低GPU113的运行功率，GPU113的运行功率降低到A1，在故障电源为2时，GPU113的运行功率从A1降低到A2，并且可以进一步地降低CPU111和内存112的运行功率。

在该实现方式的一种可能的情况，计算设备110为图5a所示的高密服务器或图5b所示的整机柜服务器，负载150为计算节点130，可以有1个也可以有多个。

在该情况的一个例子中，控制单元140可以基于故障电源数目，确定降低功率的计算节点130的节点数目；基于该节点数目，选择适配该节点数目的计算节点130中的GPU113降低运行功率。

进一步地，在故障电源数目增加时，控制单元140可以有如下多种控制手段。详细内容参见对图5a和图6a描述中涉及到的控制手段1至控制手段4，不再赘述。

需要说明的是，上述描述的控制单元140降低电子器件的运行功率的方式仅仅作为示例，并不构成具体限定，可以结合实际需求灵活设计降低运行功率的方式。

本方案中，该方法通过检测计算设备中每个PSU是否正常工作，确定检测结果；在检测结果为多个PSU中的部分PSU比如1个工作异常后，控制计算设备中的负载中的至少部分器件降低运行功率，使得计算设备进入低功耗模式，确保计算设备正常工作，解决了供电成本和电源占用空间的问题，降低了供电成本，减小了电源的占用空间。另外，采用非冗余供电的方式较小的占用了计算设备的空间，使得计算设备可以容纳更多电子器件，提高计算设备的性能。

根据一种可行的实现方式，控制单元140可以基于硬件信号控制GPU113降低运行功率。

在该实现方式中，控制单元140可以包括可编程逻辑器件比如CPLD。示例性地，如图2a所示，控制单元140可以包括可编程逻辑器件114；示例性地，如图5a所示，控制单元140可以包括可编程逻辑器件1252；示例性地，如图5b所示，控制单元140可以包括可编程逻辑器件1612。

其中，可编程逻辑器件电连接GPU113，从而可以向GPU113发送硬件信号，对应的，GPU113基于硬件信号降低运行功率。

GPU113基于硬件信号降低运行功率的方案有多种。

在一个例子中，控制单元140可以基于故障电源数目，控制GPU113降低运行功率。在具体实现时，可选地，控制单元140基于自身存储的故障电源数目和运行功率的对应关系，将故障电源数目对应的运行功率作为目标运行功率发送到GPU113，使得GPU113按照该目标运行功率调整自身的运行功率。

根据一种可行的实现方式，控制单元140可以基于降功率指令控制GPU113降低运行功率。

在该实现方式中，控制单元140可以包括BMC。示例性地，如图2a所示，控制单元140可以包括BMC115；示例性地，如图5a所示，控制单元140可以包括BMC1251；示例性地，如图5b所示，控制单元140可以包括BMC1611。

其中，BMC通过总线比如SMBus电连接GPU113，从而可以向GPU113发送降功率指令，对应的，GPU113基于降功率指令降低运行功率。

GPU113基于降功率指令降低运行功率的方案有多种。

在一个例子中，GPU113可以基于降功率指令，将GPU113的运行功率降低到最低。

在一个例子中，降功率指令包括GPU113需要降低至的目标运行功率，则GPU113基于降功率指令降低运行功率至目标运行功率。示例性地，控制单元140可以基于故障电源数目，确定降功率指令。在具体实现时，BMC可以获取故障电源数目，基于自身存储的故障电源数目和目标运行功率的对应关系，确定故障电源数目对应的目标运行功率，以确定降功率指令。示例性地，BMC获取故障电源数目的方式可以有多种。在一个场景中，BMC连接N个电源121，则BMC可以根据N个电源121向其发送的PG信号，确定故障电源数目；在一个场景中，BMC连接可编程逻辑器件，可编程逻辑器件连接N个电源，则BMC可以和可编程逻辑器件交互，获取N个电源121向可编程逻辑器件发送的PG信号，确定故障电源数目。

另外，若控制单元140需要降低CPU111和内存112的运行功率，详细内容参见GPU113降低运行功率的方式即可，不再赘述。

需要说明的是，对于GPU113、CPU111和内存112来说，降功率触发方式采用硬件信号还是降功率指令，取决于电连接的电子器件，比如，电子器件电连接BMC，则采用降功率指令的方式，电子器件电连接可编程逻辑器件，则采用硬件触发的方式。

值得注意的是，在实际应用中，对于GPU113、CPU111和内存112，如图3a和图3b所示，可以全部电连接可编程逻辑器件；如图3c和图3d所示，可以全部电连接BMC。如图3e所示，可以部分电连接可编程逻辑器件，另一部分电连接BMC。

以控制单元140降低GPU113、CPU111和内存112的运行功率为例对降低电子器件运行功率进行示例。

示例性地，如图3a和图3b所示，负载150包括GPU113、CPU113、DIMM112，对应的硬件信号为Power Braker信号、Prochot信号、memhot信号，GPU113、CPU113、DIMM112电连接可编辑逻辑器件CPLD。在具体实现时，可编辑逻辑器件CPLD分别向GPU113、CPU111、DIMM112下发Power Braker信号、Prochot信号、memhot信号，以使GPU113基于Power Braker信号降低运行功率，CPU111基于Prochot信号降低运行功率，DIMM112基于memhot信号降低运行功率。

示例性地，如图3c至图3d所示，负载150包括GPU113、CPU113、DIMM112，GPU113、CPU113、DIMM112之间通过SMBus电连接BMC115。在具体实现时，BMC115通过SMBus向GPU113、CPU113、DIMM112下发降功率指令，以使GPU113、CPU111、DIMM112降低运行功率。

示例性地，如图3e所示，负载150包括GPU113、CPU113、DIMM112，，GPU113通过SMBus电连接BMC115,CPU113、DIMM112电连接可编辑逻辑器件CPLD，CPU111、DIMM112对应的硬件信号为Prochot信号和memhot信号。在具体实现时，BMC115通过SMBus向GPU113下发降功率指令，从而使得GPU113降低运行功率。可编辑逻辑器件CPLD输出Prochot信号、memhot信号到CPU111、DIMM112，CPU111基于Prochot信号降低运行功率，DIMM112基于memhot信号降低运行功率。

在上述图7所示实施例的基础上，本申请实施例中，进一步地，具体可以包括如下内容：

在检测结果为多个电源中的部分电源工作异常后进行告警；从而后续便于运维人员进行维护。

在一种可能的场景，如图3c所示，控制单元140为BMC115，则BMC115在检测结果为多个电源中的部分电源工作异常后进行告警。

在一种可能的场景，如图3b，3d和3e所示，控制单元140包括BMC115和CPLD，CPLD连接N个PSU121，则BMC115从CPLD中读取N个PSU121的PG信息，基于PG信号确定检测结果，在检测结果为多个电源中的部分电源工作异常后进行告警。

在上述图2所示实施例的基础上，本申请实施例中，进一步地，具体可以包括如下内容：

在故障电源数目大于等于预设阈值时，控制计算设备停止工作。

需要说明的是，在故障电源数目较多时，可以认为计算设备的电源故障，计算设备下电，不再工作。示例性地，假设计算设备有5个电源，预设阈值为3，则在故障电池的数目大于等于3个时，计算设备停止工作。

在一种可能的场景，控制单元140在故障电源数目大于等于预设阈值时，控制计算设备停止工作。

基于与本申请方法实施例相同的构思，本申请实施例还提供了一种计算设备的供电装置。供电装置包括若干个模块，各个模块用于执行本申请实施例提供的供电方法中的各个步骤，关于模块的划分在此不做限制。所属领域的技术人员可以清楚地了解到，实际应用中，可以根据需要而将本申请实施例提供的供电方法中的各个步骤分配由不同的模块完成，即将装置的内部结构划分成不同的模块，以完成以上描述的全部或者部分功能。实施例中的各模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上模块集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。上述装置中模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

示例地，计算设备的供电装置用于执行本申请实施例提供的供电方法，具体地，本申请实施例提供的供电装置，包括：

检测模块，用于检测所述多个电源中的每个电源是否正常工作，确定检测结果；

调控模块，用于在所述检测结果为所述多个电源中的部分电源工作异常后，控制所述计算设备中的图形处理器降低运行功率。

在一种可能的实现方式中，所述供电装置还包括：

告警模块，用于在所述检测结果为所述多个电源中的部分电源工作异常后进行告警；或者，在故障电源数目大于等于预设阈值时，控制计算设备停止工作。

在一种可能的实现方式中，所述调控模块，用于向所述图形处理器下发降功率指令，以使所述图形处理器基于所述降功率指令降低运行功率。

在一种可能的实现方式中，所述调控模块，用于向所述图形处理器下发硬件信号，以使所述图形处理器基于所述硬件信号降低运行功率。

在一种可能的实现方式中，所述处理器包括中央处理器，所述调控模块，用于在所述检测结果为所述多个电源中的部分电源工作异常后，控制所述中央处理器降低运行功率。

在一种可能的实现方式中，所述计算设备为服务器。

在一种可能的实现方式中，所述计算设备为机柜，所述负载为服务器；所述调控模块，用于在所述检测结果为所述多个电源中的部分电源工作异常后，控制至少部分的服务器中的图形处理器降低运行功率。

详细内容参见上文描述，不再赘述。

除了上述方法、装置和计算设备以外，本申请实施例还可以提供了一种计算机程序产品，其包括计算机程序指令，所述计算机程序指令在被处理器运行时,使得所述处理器执行本说明书上述“方法”部分中描述的本申请各种实施例的供电方法中的步骤。其中，所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本申请实施例操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言，诸如Java、C++等，还包括常规的过程式程序设计语言，诸如“C”语言或类似的程序设计语言。其中，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。

此外，本申请实施例还可以提供了一种计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“方法”部分中描述的根据本公开各种实施例的供电方法中的步骤。所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

以上结合具体实施例描述了本申请的基本原理，但是，需要指出的是，在本申请中提及的优点、优势、效果等仅是示例而非限制，不能认为这些优点、优势、效果等是本公开的各个实施例必须具备的。另外，上述公开的具体细节仅是为了示例的作用和便于理解的作用，而非限制，上述细节并不限制本公开为必须采用上述具体的细节来实现。

本公开中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的，可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇，指“包括但不限于”，且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”，且可与其互换使用，除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”，且可与其互换使用。

还需要指出的是，在本公开的装置、设备和方法中，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本公开的等效方案。

为了例示和描述的目的已经给出了以上描述。此外，此描述不意图将本公开的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例，但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

可以理解的是，在本申请的实施例中涉及的各种数字编号仅为描述方便进行的区分，并不用来限制本申请的实施例的范围。

Claims

1.一种计算设备，其特征在于，包括：

多个电源，用于为所述计算设备进行非冗余的供电；

负载，包括处理器，存储器；所述处理器包括图形处理器；

控制单元，连接所述多个电源和所述负载，用于检测所述多个电源中的每个电源是否正常工作，确定检测结果；在所述检测结果为所述多个电源中的部分电源工作异常后，至少控制所述图形处理器降低运行功率。

2.根据权利要求1所述的计算设备，其特征在于，所述计算设备还包括储能电路，所述储能电路的第一端电连接所述多个电源，第二端电连接所述至少一个图形处理器，所述储能电路用于补偿所述图形处理器的运行功率。

3.根据权利要求2所述的计算设备，其特征在于，所述储能电路包括至少一个电容，所述电容的第一端电连接所述多个电源，第二端电连接所述至少一个图形处理器。

4.根据权利要求1所述的计算设备，其特征在于，所述计算设备为服务器。

5.根据权利要求1所述的计算设备，其特征在于，所述计算设备为整机柜服务器，所述负载为服务器，所述整机柜服务器还包括背板，所述控制单元设置与所述背板上。

6.根据权利要求1所述的计算设备，其特征在于，所述处理器还包括中央处理器，所述控制单元，还用于在所述检测结果为所述多个电源中的部分电源工作异常后，控制所述中央处理器降低运行功率。

7.根据权利要求1所述的计算设备，其特征在于，所述控制单元包括可编程逻辑器件或单片机；

所述可编程逻辑器件或单片机电连接所述负载中的图形处理器，用于向所述图形处理器下发硬件信号，以使所述图形处理器基于所述硬件信号降低运行功率。

8.根据权利要求1所述的计算设备，其特征在于，所述控制单元包括基板管理控制器，所述基板管理控制器电连接所述负载中的图形处理器，用于向所述图形处理器下发降功率指令，以使所述图形处理器基于所述降功率指令降低运行功率。

9.根据权利要求1所述的计算设备，其特征在于，所述控制单元包括可编程逻辑器件和基板管理控制器，所述可编程逻辑器件连接所述多个电源，所述基板管理控制器电连接所述可编程逻辑器件和所述负载，所述可编程逻辑器件至少电连接所述负载中的图形处理器；

所述可编程逻辑器件用于检测所述多个电源中的每个电源是否正常工作，确定检测结果；

所述基板管理控制器用于在所述检测结果为所述多个电源中的部分电源工作异常后，至少控制所述图形处理器降低运行功率。

10.一种计算设备的供电方法，其特征在于，所述计算设备包括多个电源，用于为所述计算设备进行非冗余的供电；负载，包括处理器，存储器；所述处理器包括图形处理器，所述方法包括：

检测所述多个电源中的每个电源是否正常工作，确定检测结果；

在所述检测结果为所述多个电源中的部分电源工作异常后，至少控制所述图形处理器降低运行功率。