CN111858058A

CN111858058A - 基于并行计算的sgd负载均衡方法、装置及存储介质

Info

Publication number: CN111858058A
Application number: CN202010723846.3A
Authority: CN
Inventors: 王彪; 王亚强; 刘魁
Original assignee: Chengdu Cheng Xin High Tech Information Technology Co ltd; Chengdu University of Information Technology
Current assignee: Chengdu Cheng Xin High Tech Information Technology Co ltd; Chengdu University of Information Technology
Priority date: 2020-07-24
Filing date: 2020-07-24
Publication date: 2020-10-30

Abstract

本发明公开了基于并行计算的SGD负载均衡方法，该方法包括：基于模型并行和数据并行相结合的设计模式实现分布式并行gpu计算；采用信号量机制实现主节点对子节点间同步通信，并在子容器中优化器采用随机梯度下降算法更新权重。主节点依据子节点控制表中的误差为权重构建最小生成树，发现图节点中的关键节点，并按次序消除无关节点，重新分配其硬件资源。实现多个模型副本同时处理训练样本的不同子集，周期性的对模型副本进行交互合并，对分布式算法进行优化。本发明提出了一种新的架构思路来实现负载均衡计算的策略，提高了模型开发效率并降低了开发成本，该算法对数据规模有较好的适应性，同时实现了动态管理子容器间的异步通信。

Description

基于并行计算的SGD负载均衡方法、装置及存储介质

技术领域

本发明涉及机器学习领域，尤其涉及基于并行计算的SGD负载均衡方法、装置及存储介质。

背景技术

目前，人们已经领略到人工智能在多个领域的巨大优势。机器学习是人工智能中重要的一环，通过对海量的数据进行建模、训练，帮助人们进行决策。

然而随着大数据的兴起，数据规模越来越庞大，单机模式下的存储及计算能力已经无法满足海量数据的要求。分布式机器学习应运而生，采用分布式机器学习来加快模型收敛的速度已经成为业界主流的方式，目前分布式机器学习较为通用的做法有两种：模型并行和数据并行。

然而当前的并行计算受限于木桶效应，往往要等到最慢的节点计算完才能进行下一步计算。实现对多个模型副本同时处理训练样本的不同子集，周期性的对各模型副本结果进行交互合并，提供大规模数据下的计算效率，技术难度要求较高。

发明内容

本发明的目的在于克服现有技术的不足，提供基于并行计算的SGD负载均衡方法、装置及存储介质，采用基于模型并行模式和数据并行模式相结合的方式。与现有技术相比，本发明有效的实现了多个模型副本同时处理训练样本的不同子集，周期性的对各模型副本的结果进行交互合并，对分布式算法进行优化。

本发明的目的是通过以下技术方案来实现的：

基于并行计算的SGD负载均衡方法，包括以下步骤：

步骤1：搭建并行gpu计算架构，采用基于模型并行模式和数据并行模式相结合的方式，构建单向联通图，在图节点之间周期性的进行模型流通，使模型覆盖数据集，并为图节点择优分配硬件设备；

步骤2：动态管理节点硬件资源，采用信号量机制实现主节点对子节点间同步通信，并在子容器中优化器采用随机梯度下降算法更新权重。

具体的，所述步骤1中搭建并行gpu计算架构具体包括以下子步骤：

S101，配置一个管理节点Manager，在创建N个容器部署在不同的机器上，记为节点Node，在子节点上创建节点控制表，记录节点ID、节点数据集和当前批次误差；

S102，在子节点间建立连接，形成单向连通图，在子节点中搭建神经网络，设置一个周期的时间片T；

S103，将数据样本平均分为N份，按顺序送入节点中，使用SGD算法在不同的节点上训练，每份数据样本经过前向传播和反向传播得到一个局部的梯度值，并更新梯度；

S104，在每个训练周期中按照图的层次进行遍历，记录该模型误差的无偏估计量，将误差值记录在节点控制表中。

具体的，所述子步骤S104中图的遍历过程具体包括：将上层节点输出的权值和偏置等参数封装成一个NN对象进行传输；在当前节点收到上层节点传来的NN对象后，将NN对象作为隐含层进行训练；若当前节点有多个上层节点，则对上层节点传来的NN对象进行合并，求出NN对象的均值作为隐含层进行训练。

具体的，所述步骤2中动态管理节点硬件资源过程具体包括以下子步骤：

S201，在每个周期中，通过主节点查询节点控制表，以节点控制表中的误差作为权值构建最小生成树，对最小生成树中的权值进行排序；

S202，当训练模型将要收敛时，主节点根据节点控制表中的每个周期的最小生成树，按照权值对节点进行排序，对关键节点发送同步信号；

S203，主节点按次序回收单向联通图中未收到同步信号的节点的任务，并将该节点的硬件资源分配给相邻的关键节点，加快相邻关键节点的计算速度，直至完成所有节点完成训练任务。

一种计算装置，包括存储器，存储器中存储有计算机可执行指令；处理器，用于执行所述计算机程序时实现上述负载均衡方法的步骤。

一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现上述负载均衡方法的步骤。

本发明的有益效果：本发明提出了一种新的架构思路来实现负载均衡计算的策略，提高了模型开发效率和减少了开发成本，使该算法对数据规模有较好的适应性，同时实现了动态管理子容器间的异步通信。

附图说明

图1是本发明的方法流程图。

图2是本发明的并行计算架构示意图。

图3是本发明采用信号量机制实现动态管理节点硬件资源的示意图。

具体实施方式

为了对本发明的技术特征、目的和效果有更加清楚的理解，现对照附图说明本发明的具体实施方式。

本实施例中，如图1所示，基于并行计算的SGD负载均衡方法，主要包括以下步骤：

本实施例中，如图2所示，本发明提供了基于并行计算SGD负载均衡方法的结构示意图，其具体实现过程包括：首先配置一个管理节点Manager，在创建N个容器部署在不同的机器上，记为节点Node，在子节点上创建节点控制表，用来记录节点ID、节点数据集、当前批次误差。在子节点间建立连接，形成单向连通图（图节点为GPU硬件设备），在子节点中搭建神经网络，设置一个周期的时间片T。将数据样本平均分为N份，按顺序送入节点中，使用SGD算法在不同的节点上训练，每份数据样本经过前向传播和反向传播得到一个局部的梯度值，并更新梯度。在每个训练周期中按照图的层次遍历记录该模型误差的无偏估计量，将误差值记录在节点控制表中。其中，在图的遍历过程中相邻节点之间需要传输节点之间的权值和偏置，由于神经网络复杂、参数众多，所以将参数封装成一个NN对象进行传输，在节点收到上层节点传来的NN对象后，将NN对象作为隐含层进行训练。若节点有多个上层节点，则对上层节点传来的NN对象进行合并，求出NN对象的均值作为隐含层进行训练。周期性的进行模型流通，使模型在所有数据上运行。

基于步骤1所述的架构，在训练一段时间后，部分节点的误差会下降的非常缓慢，需要非常长的训练时间才能达到收敛，非常影响训练效率，同时也会产生大量的无效计算，造成硬件资源的浪费。因此本发明引进信号量机制实现主节点与子节点的同步通信，管理对节点硬件资源进行动态管理。

本实施例中，图3是本发明采用信号量机制实现动态管理节点硬件资源的示意图，其具体的实现过程包括：在每个周期中，主节点查询节点控制表，以节点控制表中的误差作为权值构建最小生成树，对最小生成树中的权值进行排序。训练一定周期后（模型将要收敛时），主节点根据节点控制表中的每个周期的最小生成树，按照权值对节点进行排序，对关键节点发送同步信号。随后主节点按次序回收未收到同步信号的节点的任务，并将该节点的硬件资源分配给相邻的关键节点，用来加快相邻节点的计算速度，以提升整个模型的效率。

本发明所采用的架构思路能有效的降低Loss值，提供模型的开发效率，减少开发成本，且对数据规模有较好的适应性。

此外，本发明还提供一种计算装置和一种计算机可读存储介质。其中，一种计算装置包括存储器，存储器中存储有计算机可执行指令；处理器，用于执行所述计算机程序时实现实施例中负载均衡方法的所有实现过程和步骤。一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时实现上述负载均衡方法的所有方法和步骤。

以上显示和描述了本发明的基本原理和主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护的范围由所附的权利要求书及其等效物界定。

Claims

1.基于并行计算的SGD负载均衡方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于并行计算的SGD负载均衡方法，其特征在于，所述步骤1中搭建并行gpu计算架构具体包括以下子步骤：

S103，将数据样本平均分为N份，按顺序送入节点中，使用SGD算法在不同的节点上训练，每份数据样本经过前向传播和反向传播得到一个局部的梯度值，并更新梯度； S104，在每个训练周期中按照图的层次进行遍历，记录该模型误差的无偏估计量，将误差值记录在节点控制表中。

3.根据权利要求2所述的基于并行计算的SGD负载均衡方法，其特征在于，所述子步骤S104中图的遍历过程具体包括：将上层节点输出的权值和偏置等参数封装成一个NN对象进行传输；在当前节点收到上层节点传来的NN对象后，将NN对象作为隐含层进行训练；若当前节点有多个上层节点，则对上层节点传来的NN对象进行合并，求出NN对象的均值作为隐含层进行训练。

4.根据权利要求1所述的基于并行计算的SGD负载均衡方法，其特征在于，所述步骤2中动态管理节点硬件资源过程具体包括以下子步骤：

5.一种计算装置，其特征在于，包括

存储器，存储器中存储有计算机可执行指令；

处理器，用于执行所述计算机程序时实现如权利要求1至4任一项所述的负载均衡方法的步骤。

6.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至4任一项所述的负载均衡方法的步骤。