CN115543603A

CN115543603A - 一种模型预测方法、装置、电子设备及存储介质

Info

Publication number: CN115543603A
Application number: CN202210995772.8A
Authority: CN
Inventors: 林建明; 徐磊; 宋文甫
Original assignee: Shenzhen Samoye Digital Technology Co ltd
Current assignee: Shenzhen Samoye Digital Technology Co ltd
Priority date: 2022-08-18
Filing date: 2022-08-18
Publication date: 2022-12-30

Abstract

本申请提供了一种模型预测方法、装置、电子设备及存储介质，包括：获取模型预测任务和所述模型预测任务对应的输入数据，所述输入数据分布在至少一个分布式节点中，每个所述分布式节点中存储有所述输入数据中的部分数据；基于每个所述分布式节点中存储的所述部分数据，将所述模型预测任务拆分为至少一个子任务，每个所述部分数据对应一个子任务；针对每个所述子任务，在所述子任务对应的所述分布式节点上配置对应的容器，以及，在所述容器中载入预测模型；针对每个所述子任务，基于所述子任务对应的所述容器执行所述所述子任务，所述子任务用于指示将所述子任务对应的部分数据输入至所述预测模型中进行预测得到预测结果。

Description

一种模型预测方法、装置、电子设备及存储介质

技术领域

本申请涉及计算机技术领域，尤其涉及一种模型预测方法、装置、电子设备及存储介质。

背景技术

建模，就是建立模型，是为了理解事物而对事物做出的一种抽象，是对事物的一种无歧义的书面描述。建立系统模型的过程，又称模型化。实际应用中，在模型建好之后，一般会在正式的生产环境中进行批量预测(俗称跑批)。

目前，批量预测的流程大多为：首先，从数据库中取出待预测数据，并从模型库中取出用于进行预测的模型至批量预测服务器上；然后，在批量预测服务器上进行模型批量预测，得到预测结果。

然而，由于用于批量预测的待预测数据的数据量一般比较大，将待预测数据从数据库提取至批量预测服务器时，会浪费大量数据传输资源及传输时间，导致批量预测的成本较高，且，效率较低。

发明内容

本申请实施例的目的在于提供一种模型预测方法、装置、电子设备及存储介质，以解决目前进行批量预测时成本较高，且，效率较低的问题。具体技术方案如下：

第一方面，提供了一种模型预测方法，所述方法包括：

获取模型预测任务和所述模型预测任务对应的输入数据，其中，所述输入数据分布在至少一个分布式节点中，每个所述分布式节点中存储有所述输入数据中的部分数据；

基于每个所述分布式节点中存储的所述部分数据，将所述模型预测任务拆分为至少一个子任务；

针对每个所述子任务，在所述子任务对应的所述分布式节点上配置对应的容器，以及，在所述容器中载入预测模型；

针对每个所述子任务，基于所述子任务对应的所述容器执行所述所述子任务，其中，所述子任务用于指示将所述子任务对应的部分数据输入至所述预测模型中进行预测得到预测结果。

在一个可能的实施方式中，所述在所述容器中载入预测模型，包括：

确定存储所述预测模型的服务器，并控制所述服务器将所述预测模型传输至每个所述分布式节点；

针对每个所述分布式节点，控制所述分布式节点将所述预测模型载入所述分布式节点对应的所述容器中。

在一个可能的实施方式中，所述控制所述服务器将所述预测模型传输至每个所述分布式节点，包括：

基于至少一个所述分布式节点创建共享存储空间；

控制所述服务器将所述预测模型传输至所述共享存储空间中，以使每个所述分布式节点从所述共享存储空间中获取所述预测模型。

针对每个所述分布式节点，将预先存储在所述分布式节点上的所述预测模型载入所述分布式节点上的所述容器中。

在一个可能的实施方式中，所述基于所述部分数据对应的所述容器执行所述部分数据对应的所述子任务之后，还包括：

确定所述预测结果对应的存储规则，并按照所述存储规则存储所述预测结果。

在一个可能的实施方式中，所述按照所述存储规则存储所述预测结果，包括：

针对每个所述部分数据，确定所述部分数据对应的第一存储位置；

将所述部分数据对应的所述预测结果存储至所述第一存储位置。

确定第二存储位置，以及，将每个所述部分数据对应的所述预测结果存储至所述第二存储位置。

第二方面，提供了一种模型预测装置，所述装置包括：

获取模块，用于获取模型预测任务和所述模型预测任务对应的输入数据，其中，所述输入数据分布在至少一个分布式节点中，每个所述分布式节点中存储有所述输入数据中的部分数据；

拆分模块，用于基于每个所述分布式节点中存储的所述部分数据，将所述模型预测任务拆分为至少一个子任务；

配置模块，用于针对每个所述子任务，在所述子任务对应的所述分布式节点上配置对应的容器，以及，在所述容器中载入预测模型；

执行模块，用于针对每个所述子任务，基于所述子任务对应的所述容器执行所述所述子任务，其中，所述子任务用于指示将所述子任务对应的部分数据输入至所述预测模型中进行预测得到预测结果。

在一个可能的实施方式中，所述配置模块，具体用于：

在一个可能的实施方式中，所述配置模块，还用于：

基于至少一个所述分布式节点创建共享存储空间；

在一个可能的实施方式中，所述配置模块，还用于：

在一个可能的实施方式中，所述装置还包括：

存储模块，用于确定所述预测结果对应的存储规则，并按照所述存储规则存储所述预测结果。

在一个可能的实施方式中，所述存储模块，具体用于：

在一个可能的实施方式中，所述存储模块，还用于：

第三方面，提供了一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现第一方面任一所述的方法步骤。

第四方面，提供了一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现第一方面任一所述的方法步骤。

第五方面，提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述任一所述的模型预测方法。

本申请实施例有益效果：

本申请实施例提供了一种模型预测方法、装置、电子设备及存储介质，本申请通过，首先，获取模型预测任务和所述模型预测任务对应的输入数据，其中，所述输入数据分布在至少一个分布式节点中，每个所述分布式节点中存储有所述输入数据中的部分数据；然后，基于每个所述分布式节点中存储的所述部分数据，将所述模型预测任务拆分为至少一个子任务；并针对每个所述子任务，在所述子任务对应的所述分布式节点上配置对应的容器，以及，在所述容器中载入预测模型；最后，针对每个所述子任务，基于所述子任务对应的所述容器执行所述所述子任务，其中，所述子任务用于指示将所述子任务对应的部分数据输入至所述预测模型中进行预测得到预测结果。由此，实现了在存储输入数据的分布式节点上直接进行模型预测，无需将输入数据从其所在分布式节点上提取至其他服务器进行模型预测，从而减少数据传输量，节省了传输资源，并且，提高了模型预测效率。

当然，实施本申请的任一产品或方法并不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种模型预测方法的流程图；

图2为本申请实施例提供的另一种模型预测方法的流程图；

图3为本申请实施例提供的一种模型预测装置的结构示意图；

图4为本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

由于目前，批量预测的流程大多为：首先，从数据库中取出待预测数据，并从模型库中取出用于进行预测的模型至批量预测服务器上；然后，在批量预测服务器上进行模型批量预测，得到预测结果。然而，由于用于批量测试的待预测数据的数据量一般比较大，将待预测数据从数据库提取至批量预测服务器时，会浪费大量数据传输资源及传输时间，导致批量预测的成本较高，且，效率较低。为此，本申请实施例提供了一种模型预测方法。

下面将结合具体实施方式，对本申请实施例提供的一种模型预测方法进行详细的说明，如图1所示，具体步骤如下：

S101，获取模型预测任务和所述模型预测任务对应的输入数据，其中，所述输入数据分布在至少一个分布式节点中，每个所述分布式节点中存储有所述输入数据中的部分数据。

本申请实施例提供的一种模型预测方法可以用于对存储在分布式数据库(如Hive、sparksql、impala及presto等分布式数据仓库)中的数据进行批量预测。该分布式数据库包括多个分布式节点，即服务器节点，每个分布式节点用于执行数据存储、大数据计算及数据分析等功能。

输入数据，为预先存储在该分布式数据库中的数据，其中，输入数据分布在该分布式数据库的至少一个分布式节点中，每个分布式节点中存储有该输入数据中的部分数据。

模型预测任务，为用户下达的、用于指示利用预测模型预测输入数据得到输入结果的任务。

S102，基于每个所述分布式节点中存储的所述部分数据，将所述模型预测任务拆分为至少一个子任务。

在本申请实施例中，可以基于每个存储分布式节点中存储的部分数据对模型预测任务进行拆分，得到每个部分数据对应的子任务。

在实际应用中，每个分布式节点中可以包含分布式数据库中一个数据分区的数据，也可以包含分布式数据库中多个数据分区的数据，即，分布式节点上的部分数据可以为一个数据分区的数据，也可以为多个数据分区的数据。在部分数据为多个数据分区的数据的情况下，针对每个数据分区的数据拆分一个子任务。

例如，输入数据x包括存储在分布式节点1上的部分数据x1，其中，x1包括数据分区11中的数据和数据分区12中的数据；存储在分布式节点2上的部分数据x2，其中，x2仅包括数据分区21中的数据。则针对数据分区11中的数据拆分第一子任务；针对数据分区12中的数据拆分第二子任务；针对数据分区21中的数据拆分第三子任务。则，第一子任务用于指示将数据分区11中的数据输入预测模型进行预测；第二子任务用于指示将数据分区12中的数据输入预测模型进行预测；第三子任务用于指示将数据分区21中的数据输入预测模型进行预测。

S103，针对每个所述子任务，在所述子任务对应的所述分布式节点上配置对应的容器，以及，在所述容器中载入预测模型。

容器，指docker容器，可以使用kubernetes(容器编排器，k8s)进行管理和调度。

在本申请实施例中，针对每个子任务，可以在该子任务对应的数据所在的分布式节点上配置对应的容器，并在该容器中载入用于进行批量预测的预测模型。

例如，针对上述示例中第一子任务，在分布式节点1上配置第一容器；针对上述示例中第二子任务，在分布式节点1上配置第二容器；针对上述示例中第三子任务，在分布式节点2上配置第三容器。

S104，针对每个所述子任务，基于所述子任务对应的所述容器执行所述所述子任务，其中，所述子任务用于指示将所述子任务对应的部分数据输入至所述预测模型中进行预测得到预测结果。

在本申请实施例中，针对每个子任务，可以利用与其对应的容器执行该子任务，如此，实现在部分数据所在的分布式节点上对该部分数据进行预测，得到对应预测结果。

例如，利用第一容器执行上述第一子任务；利用第二容器执行上述第二子任务；利用第三容器执行上述第三子任务。

本申请通过，首先，获取模型预测任务和所述模型预测任务对应的输入数据，其中，所述输入数据分布在至少一个分布式节点中，每个所述分布式节点中存储有所述输入数据中的部分数据；然后，基于每个所述分布式节点中存储的所述部分数据，将所述模型预测任务拆分为至少一个子任务；并针对每个所述子任务，在所述子任务对应的所述分布式节点上配置对应的容器，以及，在所述容器中载入预测模型；最后，针对每个所述子任务，基于所述子任务对应的所述容器执行所述所述子任务，其中，所述子任务用于指示将所述子任务对应的部分数据输入至所述预测模型中进行预测得到预测结果。由此，实现了在存储输入数据的分布式节点上直接进行模型预测，无需将输入数据从其所在分布式节点上提取至其他服务器进行模型预测，从而减少数据传输量，节省了传输资源，并且，提高了模型预测效率。

在本申请又一实施例中，所述S103，可以包括以下步骤：

S201，确定存储所述预测模型的服务器，并控制所述服务器将所述预测模型传输至每个所述分布式节点。

S202，针对每个所述分布式节点，控制所述分布式节点将所述预测模型载入所述分布式节点对应的所述容器中。

以下对S201和S202进行统一说明：

在本申请实施例中，预测模型被存储在一个预设的服务器中，可以控制该服务器将预测模型传输至每个存储了输入数据的分布式节点，每个分布式节点接收到该预测模型后，将预测模型设置在该分布式节点上的容器中。

在一可实现的实施方式中，控制所述服务器将所述预测模型传输至每个所述分布式节点的具体实现可以包括：基于至少一个所述分布式节点创建共享存储空间；控制所述服务器将所述预测模型传输至所述共享存储空间中，以使每个所述分布式节点从所述共享存储空间中获取所述预测模型。在实际应用中，可以通过跨语言的向量内存模型(Arrow)实现共享存储空间的创建。

通过该实施方式提供的方案，服务器只需要将预测模型传输至共享存储空间即可，每个分布式节点均可在共享存储空间获取预测模型，由此，可以提高预测模型的传输效率。

进一步的，该共享存储空间可以为缓存空间。由于基于缓存实现模型初始化的效率最高，如此，可以提高后续分布式节点初始化预测模型的效率。

通过本申请实施例提供的方案，确定存储所述预测模型的服务器，并控制所述服务器将所述预测模型传输至每个所述分布式节点，针对每个所述分布式节点，控制所述分布式节点将所述预测模型载入所述分布式节点对应的所述容器中，实现了将存储至服务器上的预测模型传输至各个存储了输入数据的分布式节点，由于模型一般较小，传输模型相对于传输输入数据，传输量大大减少，如此，可以减少数据传输量，节省传输资源，并且，提高模型预测效率。

在本申请又一实施例中，所述S103，还可以包括以下步骤：

在本申请实施例中，预先将预测模型存储在各个分布式节点上，在每个分布式节点上创建容器后，即可直接将该分布式节点上存储的预测模型载入在该容器中。如此，可以实现对容器的快速配置，从而提高模型预测效率。

在本申请又一实施例中，所述方法还可以包括以下步骤：

在本申请实施例中，模型预测任务中携带有对预测结果的存储规则，即，存储规则由用户通过模型预测任务进行指定，如存储在输入数据所在存储位置(如输入数据所在的数据表)，或，存储在一个新建的存储位置(如新建一个数据表)。

在一实施例中，在存储规则为将预测结果存储在输入数据所在存储位置的情况下，按照所述存储规则存储所述预测结果的具体实现可包括：针对每个所述部分数据，确定所述部分数据对应的第一存储位置；将所述部分数据对应的所述预测结果存储至所述第一存储位置。如此，实现了将预测结果存储在其对应的部分数据所在的存储位置，方便用户同步查看预测结果和其对应的部分数据。

在另一实施例中，在存储规则为将预测结果存储在一个新建的存储位置的情况下，按照所述存储规则存储所述预测结果的具体实现可包括：确定第二存储位置，以及，将每个所述部分数据对应的所述预测结果存储至所述第二存储位置。如此，实现了将所有预测结果统一存储至一个新的存储位置，方便用户查看所有预测结果。

本申请实施例提供的方案，确定所述预测结果对应的存储规则，并按照所述存储规则存储所述预测结果，可以按照用户指定的方式对预测结果进行存储，从而提高用户体验。

在本申请又一实施例中，所述方法还可以包括以下步骤：在基于所述部分数据对应的所述容器执行所述部分数据对应的所述子任务之前，对所述部分数据进行预处理，其中，预处理例如缺失值填充、编码转化、特征筛选及数据分箱等。如此，可以提高模型预测的效果。

在本申请又一实施例中，可以基于spark(大数据处理框架)实现模型预测，具体为：预先编写一个基于结构化查询语言(Structured Query Language，SQL)调用模型预测的用户自定义函数(User-Defined-Function，UDF)的脚本，利用该脚本实现查找输入数据、查找预测模型、模型预测和预测结果的保存。如此，可以直接在分布式数据库系统内部，用一条sql脚本实现查找数据、模型预测及结果保存的全流程，操作简单。

基于相同的技术构思，本申请实施例还提供了一种模型预测装置，如图3所示，该装置包括：

获取模块301，用于获取模型预测任务和所述模型预测任务对应的输入数据，其中，所述输入数据分布在至少一个分布式节点中，每个所述分布式节点中存储有所述输入数据中的部分数据；

拆分模块302，用于基于每个所述分布式节点中存储的所述部分数据，将所述模型预测任务拆分为至少一个子任务；

配置模块303，用于针对每个所述子任务，在所述子任务对应的所述分布式节点上配置对应的容器，以及，在所述容器中载入预测模型；

执行模块304，用于针对每个所述子任务，基于所述子任务对应的所述容器执行所述所述子任务，其中，所述子任务用于指示将所述子任务对应的部分数据输入至所述预测模型中进行预测得到预测结果。

在一个可能的实施方式中，所述配置模块，具体用于：

在一个可能的实施方式中，所述配置模块，还用于：

基于至少一个所述分布式节点创建共享存储空间；

在一个可能的实施方式中，所述配置模块，还用于：

在一个可能的实施方式中，所述装置还包括：

在一个可能的实施方式中，所述存储模块，具体用于：

在一个可能的实施方式中，所述存储模块，还用于：

基于相同的技术构思，本申请实施例还提供了一种电子设备，如图4所示，包括处理器111、通信接口112、存储器113和通信总线114，其中，处理器111，通信接口112，存储器113通过通信总线114完成相互间的通信，

存储器113，用于存放计算机程序；

处理器111，用于执行存储器113上所存放的程序时，实现如下步骤：

上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect，PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述电子设备与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，RAM)，也可以包括非易失性存储器(Non-Volatile Memory，NVM)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(Network Processor，NP)等；还可以是数字信号处理器(Digital SignalProcessing，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在本申请提供的又一实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述任一模型预测方法的步骤。

在本申请提供的又一实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述实施例中任一模型预测方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或至少一个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或至少一个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

需要说明的是，在本文中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅是本申请的具体实施方式，使本领域技术人员能够理解或实现本申请。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。

Claims

1.一种模型预测方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述在所述容器中载入预测模型，包括：

3.根据权利要求2所述的方法，其特征在于，所述控制所述服务器将所述预测模型传输至每个所述分布式节点，包括：

基于至少一个所述分布式节点创建共享存储空间；

4.根据权利要求1所述的方法，其特征在于，所述在所述容器中载入预测模型，包括：

5.根据权利要求1所述的方法，其特征在于，所述基于所述部分数据对应的所述容器执行所述部分数据对应的所述子任务之后，还包括：

6.根据权利要求5所述的方法，其特征在于，所述按照所述存储规则存储所述预测结果，包括：

7.根据权利要求5所述的方法，其特征在于，所述按照所述存储规则存储所述预测结果，包括：

8.一种模型预测装置，其特征在于，所述装置包括：

9.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现权利要求1-7任一所述的方法步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-7任一所述的方法步骤。