CN111506575B - 一种网点业务量预测模型的训练方法、装置及系统 - Google Patents
一种网点业务量预测模型的训练方法、装置及系统 Download PDFInfo
- Publication number
- CN111506575B CN111506575B CN202010225143.8A CN202010225143A CN111506575B CN 111506575 B CN111506575 B CN 111506575B CN 202010225143 A CN202010225143 A CN 202010225143A CN 111506575 B CN111506575 B CN 111506575B
- Authority
- CN
- China
- Prior art keywords
- machine learning
- feature
- sample set
- data
- prediction model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2282—Tablespace storage structures; Management thereof
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2462—Approximate or statistical queries
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Mathematical Physics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Human Resources & Organizations (AREA)
- Economics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Probability & Statistics with Applications (AREA)
- Databases & Information Systems (AREA)
- Strategic Management (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- General Business, Economics & Management (AREA)
- Development Economics (AREA)
- General Health & Medical Sciences (AREA)
- Entrepreneurship & Innovation (AREA)
- Marketing (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- Game Theory and Decision Science (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Fuzzy Systems (AREA)
- Biophysics (AREA)
- Medical Informatics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供了一种网点业务量预测模型的训练方法、装置及系统,该方法包括:获取网点的历史业务数据;根据历史业务数据构建第一样本集;其中,第一样本集中的每一条第一样本包括预设的初始特征的特征值,初始特征至少包括网点业务量;获取预设的至少一组配置信息和选定的初始特征;根据配置信息对对应的选定的初始特征进行配置,得到对应的合成特征;基于预设的机器学习算法和合成特征,根据第一样本集进行机器学习训练,得到网点业务量预测模型。
Description
技术领域
本发明涉及模型训练技术领域,更具体地,涉及一种网点业务量预测模型的训练方法、一种网点业务量预测模型的训练装置、一种包括至少一个计算装置和至少一个存储装置的系统、及一种计算机可读存储介质。
背景技术
机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。
在现有技术中,通常会基于机器学习模型,根据网点的历史业务量来预测网点的未来业务量,以供网点根据预测的未来业务量进行人员配置。
但是,现有的机器学习模型在训练过程中所使用的特征的特征值,通常是业务数据中所能够直接使用的值,且特征较为单一,数量较少,导致用于预测网点业务量的机器学习模型的预测结果不够精确。
发明内容
本发明的一个目的是提供一种训练网点业务量预测模型的新技术方案。
根据本发明的第一方面,提供了一种网点业务量预测模型的训练方法,包括:
获取网点的历史业务数据;
根据所述历史业务数据构建第一样本集;其中,所述第一样本集中的每一条第一样本包括预设的初始特征的特征值,所述初始特征至少包括网点业务量;
获取预设的至少一组配置信息和选定的初始特征;
根据所述配置信息对对应的选定的初始特征进行配置,得到对应的合成特征;
基于预设的机器学习算法和所述合成特征,根据所述第一样本集进行机器学习训练,得到网点业务量预测模型。
可选的,所述根据所述历史业务数据构建第一样本集包括:
根据所述历史业务数据,生成关于预设对象的拼接数据表;
根据所述拼接数据表,构建所述第一样本集。
可选的,所述历史业务数据包括多个数据表,
所述方法还包括:
对每一所述数据表的统计周期进行统一处理。
可选的,所述历史业务数据为多个数据表,
所述根据所述历史业务数据,生成关于预设对象的拼接数据表包括:
以所述预设对象作为主键,将所述多个数据表进行拼接处理,得到所述拼接数据表。
可选的,还包括:
提供用于输入所述配置信息的第一输入框;
通过所述第一输入框获取所述配置信息。
可选的,还包括:
响应于指定操作,提供所述初始特征,供用户选择;
将用户选中的初始特征作为所述选定的初始特征;
或者,
提供用于输入所述选定的初始特征的第二输入框;
通过所述第二输入框获取所述选定的初始特征。
可选的,所述配置信息包括以下至少一项:归并维度、归并方式、滑窗大小和数据回流时间。
可选的,所述基于预设的机器学习算法和所述合成特征,根据所述第一样本集进行机器学习训练,得到网点业务量预测模型包括:
根据所述第一样本集和所述合成特征,构建第二样本集;其中,所述第二样本集中的每条第二样本包括所述合成特征的特征值和对应的标签;
基于所述机器学习算法,根据所述第二样本集进行机器学习训练,得到所述网点业务量预测模型。
可选的,所述合成特征为多组,
所述根据所述第一样本集和所述合成特征,构建第二样本集包括:
根据所述第一样本集和每组合成特征,构建对应每组合成特征的第二样本集;
所述基于所述机器学习算法,根据所述第二样本集进行机器学习训练,得到所述网点业务量预测模型包括:
根据预设的拆分规则,分别将对应每组合成特征的第二样本集拆分为对应的训练集和验证集;
基于所述机器学习算法,分别根据每一所述训练集进行机器学习训练,得到对应的机器学习模型;
分别根据每一所述验证集对对应的机器学习模型进行验证,得到对应所述机器学习模型的验证得分;
根据所述验证得分从所述机器学习模型中选取所述网点业务量预测模型。
可选的,还包括:
获取新的业务数据;
根据所述新的业务数据和所述历史业务数据,构建对应每组合成特征的新的训练集和新的验证集;
分别根据每一所述新的训练集修正对应的机器学习模型,得到新的机器学习模型;
分别根据每一所述新的验证集对对应的新的机器学习模型进行验证,得到对应的新的机器学习模型的新的验证得分;
根据所述新的验证得分,从所述新的机器学习模型中重新选取所述网点业务量预测模型。
可选的,所述机器学习算法为梯度提升回归树算法或深度神经网络算法。
可选的,还包括:
基于所述合成特征,根据所述历史业务数据得到预测样本;其中,所述预测样本中包括与目标统计时段内的网点业务量对应的所述合成特征的特征值;
利用所述网点业务量预测模型对预测样本进行处理,得到所述网点业务量在所述目标统计时段内的预测结果。
可选的,还包括:
提供用于设置网点业务量预测模型的应用场景的设置入口;
获取通过所述设置入口输入的应用场景;
所述获取历史业务数据包括:
根据所述输入的应用场景,确定所述获取历史业务数据。
可选的,所述得到所述网点业务量预测模型之后,所述方法还包括:
获取所述网点业务量预测模型所适用的应用场景;
查找与所述应用场景相匹配的应用项目;
将所述网点业务量预测模型输入至所述应用项目。
根据本发明的第二方面,提供了一种网点业务量预测模型的训练装置,包括:
数据获取模块,用于获取网点的历史业务数据;
样本构建模块,用于根据所述历史业务数据构建第一样本集;其中,所述第一样本集中的每一条第一样本包括预设的初始特征的特征值,所述初始特征至少包括网点业务量;
信息获取模块,用于获取预设的至少一组配置信息和选定的初始特征;
特征合成模块,用于根据所述配置信息对对应的选定的初始特征进行配置,得到对应的合成特征;
模型训练模块,用于基于预设的机器学习算法和所述合成特征,根据所述第一样本集进行机器学习训练,得到网点业务量预测模型。
可选的,所述样本构建模块用于:
根据所述历史业务数据,生成关于预设对象的拼接数据表;
根据所述拼接数据表,构建所述第一样本集。
可选的,所述历史业务数据包括多个数据表,
所述装置还包括:
用于对每一所述数据表的统计周期进行统一处理的模块。
可选的,所述历史业务数据为多个数据表,
所述根据所述历史业务数据,生成关于预设对象的拼接数据表包括:
以所述预设对象作为主键,将所述多个数据表进行拼接处理,得到所述拼接数据表。
可选的,还包括:
用于提供用于输入所述配置信息的第一输入框的模块;
用于通过所述第一输入框获取所述配置信息的模块。
可选的,还包括:
用于响应于指定操作,提供所述初始特征,供用户选择的模块;
用于将用户选中的初始特征作为所述选定的初始特征的模块;
或者,
用于提供用于输入所述选定的初始特征的第二输入框的模块;
用于通过所述第二输入框获取所述选定的初始特征的模块。
可选的,所述配置信息包括以下至少一项:归并维度、归并方式、滑窗大小和数据回流时间。
可选的,所述模型训练模块还用于:
根据所述第一样本集和所述合成特征,构建第二样本集;其中,所述第二样本集中的每条第二样本包括所述合成特征的特征值和对应的标签;
基于所述机器学习算法,根据所述第二样本集进行机器学习训练,得到所述网点业务量预测模型。
可选的,所述合成特征为多组,
所述根据所述第一样本集和所述合成特征,构建第二样本集包括:
根据所述第一样本集和每组合成特征,构建对应每组合成特征的第二样本集;
所述基于所述机器学习算法,根据所述第二样本集进行机器学习训练,得到所述网点业务量预测模型包括:
根据预设的拆分规则,分别将对应每组合成特征的第二样本集拆分为对应的训练集和验证集;
基于所述机器学习算法,分别根据每一所述训练集进行机器学习训练,得到对应的机器学习模型;
分别根据每一所述验证集对对应的机器学习模型进行验证,得到对应所述机器学习模型的验证得分;
根据所述验证得分从所述机器学习模型中选取所述网点业务量预测模型。
可选的,还包括:
用于获取新的业务数据的模块;
用于根据所述新的业务数据和所述历史业务数据,构建对应每组合成特征的新的训练集和新的验证集的模块;
用于分别根据每一所述新的训练集修正对应的机器学习模型,得到新的机器学习模型的模块;
用于分别根据每一所述新的验证集对对应的新的机器学习模型进行验证,得到对应的新的机器学习模型的新的验证得分的模块;
用于根据所述新的验证得分,从所述新的机器学习模型中重新选取所述网点业务量预测模型的模块。
可选的,所述机器学习算法为梯度提升回归树算法或深度神经网络算法。
可选的,还包括:
用于基于所述合成特征,根据所述历史业务数据得到预测样本的模块;其中,所述预测样本中包括与目标统计时段内的网点业务量对应的所述合成特征的特征值;
用于利用所述网点业务量预测模型对预测样本进行处理,得到所述网点业务量在所述目标统计时段内的预测结果的模块。
可选的,还包括:
用于提供用于设置网点业务量预测模型的应用场景的设置入口的模块;
用于获取通过所述设置入口输入的应用场景的模块;
所述数据获取模块还用于:
根据所述输入的应用场景,确定所述获取历史业务数据。
可选的,所述得到所述网点业务量预测模型之后,所述装置还包括:
用于获取所述网点业务量预测模型所适用的应用场景的模块;
用于查找与所述应用场景相匹配的应用项目的模块;
用于将所述网点业务量预测模型输入至所述应用项目的模块。
根据本发明的第三方面,提供了一种包括至少一个计算装置和至少一个存储装置的系统,其中,所述至少一个存储装置用于存储指令,所述指令用于控制所述至少一个计算装置执行根据本发明第一方面所述的方法。
根据本发明的第四方面,提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序在被处理器执行时实现如本发明第一方面所述的方法。
在本发明的实施例中,根据用户输入的配置信息和选定的初始特征生成合成特征,并基于合成特征进行机器学习训练得到的网点业务量预测模型,可以使得得到的网点业务量预测模型的预测结果更加准确。
通过以下参照附图对本发明的示例性实施例的详细描述,本发明的其它特征及其优点将会变得清楚。
附图说明
被结合在说明书中并构成说明书的一部分的附图示出了本发明的实施例,并且连同其说明一起用于解释本发明的原理。
图1是可用于实现本发明的实施例的电子设备的硬件配置的一个例子的框图。
图2是根据本发明第一个实施例的网点业务量预测模型的训练方法的流程示意图;
图3是根据本发明第二个实施例的网点业务量预测模型的训练方法的流程示意图;
图4是根据本发明第三个实施例的网点业务量预测模型的训练方法的流程示意图;
图5是根据本发明实施例的网点业务量预测模型的训练装置的一个例子的方框原理图;
图6是根据本发明实施例的系统的方框原理图。
具体实施方式
现在将参照附图来详细描述本发明的各种示例性实施例。应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。
以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本发明及其应用或使用的任何限制。
对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为说明书的一部分。
在这里示出和讨论的所有例子中,任何具体值应被解释为仅仅是示例性的,而不是作为限制。因此,示例性实施例的其它例子可以具有不同的值。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
下面,参照附图描述根据本发明实施例的各个实施例和例子。
<硬件配置>
图1是示出可以实现本发明的实施例的电子设备1000的硬件配置的框图。
电子设备1000可以是便携式电脑、台式计算机、手机、平板电脑等。如图1所示,电子设备1000可以包括处理器1100、存储器1200、接口装置1300、通信装置1400、显示装置1500、输入装置1600、扬声器1700、麦克风1800等等。其中,处理器1100可以是中央处理器CPU、微处理器MCU等。存储器1200例如包括ROM(只读存储器)、RAM(随机存取存储器)、诸如硬盘的非易失性存储器等。接口装置1300例如包括USB接口、耳机接口等。通信装置1400例如能够进行有线或无线通信,具体地可以包括Wifi通信、蓝牙通信、2G/3G/4G/5G通信等。显示装置1500例如是液晶显示屏、触摸显示屏等。输入装置1600例如可以包括触摸屏、键盘、体感输入等。用户可以通过扬声器1700和麦克风1800输入/输出语音信息。
图1所示的电子设备仅仅是说明性的并且决不意味着对本发明、其应用或使用的任何限制。应用于本发明的实施例中,电子设备1000的所述存储器1200用于存储指令,所述指令用于控制所述处理器1100进行操作以执行本发明实施例提供的任意一项网点业务量预测模型的训练方法。本领域技术人员应当理解,尽管在图1中对电子设备1000示出了多个装置,但是,本发明可以仅涉及其中的部分装置,例如,电子设备1000只涉及处理器1100和存储装置1200。技术人员可以根据本发明所公开方案设计指令。指令如何控制处理器进行操作,这是本领域公知,故在此不再详细描述。
<方法实施例>
<实施例一>
在本实施例中,提供一种网点业务量预测模型的训练方法。该网点业务量预测模型的训练方法可以是由电子设备实施。该电子设备可以是如图1所示的电子设备1000。
根据图2所示,本实施例的网点业务量预测模型的训练方法可以包括如下步骤S2100~S2500:
步骤S2100,获取网点的历史业务数据。
本发明实施例中的网点,可以是银行、超市、快递网点等连锁机构。还可以是火车站、汽车站、公交站、地铁站、机场、码头等交通枢纽。
历史业务数据至少可以包括多个网点在多个统计周期内受理至少一种类型业务的业务量。其中,统计周期可以是预先根据应用场景或具体需求设定,例如,一个统计周期可以是一天。
网点业务例如可以是存款业务,理财业务,注册业务,物流中转业务,商品购买业务,或者是乘车业务。对应的,业务量可以是对应网点中受理对应业务的数量。
在本发明的一个实施例中,该历史业务数据可以包括对应每个网点的数据表。例如,该数据表中的每条数据,可以为对应网点在每个统计周期内受理至少一种类型业务的业务量,可以为对应网点在每个统计周期内的客流量,可以为对应网点在每个统计周期内的客户注册数量,可以为对应网点在每个统计周期内排队的客户数量,可以为对应网点在每个统计周期内营业状态。
在本发明的一个实施例中,该历史业务数据还可以包括对应每个统计周期的数据表。例如,该数据表中的每条数据,可以为每个统计周期是否为节假日。
步骤S2200,根据该历史业务数据构建第一样本集。
其中,第一样本集中的每条第一样本包括预设的初始特征的特征值。该初始特征至少包括网点业务量。
在本发明的一个实施例中,初始特征可以是预先根据应用场景或具体需求所设定的。例如,该初始特征可以包括网点ID,统计周期ID,业务类型和网点业务量。其中,在一个统计周期为一天的情况下,统计周期ID可以是对应的日期。
在本发明的一个实施例中,根据历史业务数据构建第一样本集可以包括如下所示的步骤S2210~S2220:
步骤S2210,根据历史业务数据,生成关于预设对象的拼接数据表。
在本发明的一个实施例中,可以是拼接数据表中每行或每列的数据对应于一个预设对象。其中,预设对象可以是预先根据应用场景或具体需求所设定的,每个数据表中每行或者每列共同对应的特征,例如,该预设对象可以是网点ID。
在历史业务数据为对应每个网点的数据表的实施例中,可以是以预设对象作为主键,将每个网点的数据表进行拼接,得到拼接数据表。
在本发明的一个实施例中,历史业务数据包括多个数据表,多个数据表中的统计周期可能不同,例如,其中一个数据表的统计周期为一天,另一个数据表的统计周期为一个月,那么,在生成关于预设对象的拼接数据表之前,该方法还可以包括对每一数据表的统计周期进行统一处理,例如可以是将每个数据表的统计周期均统一为一天。
步骤S2220,根据该拼接数据表,构建第一样本集。
在本发明的一个实施例中,可以是提取拼接数据表的每条数据中对应所有初始特征的值,构建第一样本。
步骤S2300,获取预设的至少一组配置信息和选定的初始特征。
其中,配置信息可以是用户预先根据应用场景或具体需求设定好的。该配置信息可以包括以下至少一项:归并维度,归并方式,滑窗大小和数据回流时间。
归并维度具体可以是对数据进行归并的维度,该归并维度可以是时间,例如可以是一周内的第几天,一个月内的第几天或第几周,一个月内的上旬、中旬或下旬,周末或者是工作日,一天内的几时至几时。该归并维度还可以是网点属性,例如可以是所属方位、所属经济层次、营业面积大小、资金规模、所在省市、是否靠近商圈等。该归并维度还可以是业务类型,例如可以是对公或者对私,是否属于信贷,是否属于理财等。
归并方式例如可以是最大值,最小值,平均值,总和,方差,标准差,中位数,最近值等中的至少一种。
滑窗大小可以是时间长度,对统计时间在滑窗内的数据进行归并。
数据回流时间可以表示数据产生至获取的时间,用于表示选定的初始特征和标签之间的时间跨度。
在本发明的一个实施例中,该方法还可以包括:提供用于输入配置信息的第一输入框;通过第一输入框获取用户输入的配置信息。
在本发明的实施例中,用户可以通过第一输入框来输入配置信息。在一个例子中,用户可以是每次通过第一输入框输入一组配置信息,并在一组配置信息输入完成后,执行预设的第一操作,触发电子设备获取这一组配置信息。在另一个例子中,还可以是用户每次通过第一输入框获取一条配置信息,并由用户根据应用场景或具体需求,将所有配置信息进行分组。
在本发明的一个实施例中,该方法还可以包括:响应于指定操作,提供初始特征,供用户选择;将用户选中的初始特征作为选定的初始特征。其中,该指定操作可以是预先根据应用场景或具体需求所指定的操作。
在本发明的另一个实施例中,该方法还可以包括:提供用于输入选定的初始特征的第二输入框;通过第二输入框获取用户输入的选定的初始特征。
步骤S2400,根据配置信息对对应的选定的初始特征进行配置,得到对应的合成特征。
在本发明的一个实施例中,该选定的初始特征例如可以是网点业务量。
例如,归并维度为一周内的第二天,归并方式为平均值,滑窗大小为120天,数据回流时间为90天,那么,合成特征可以是90天前的120天内所有周内第二天对应的选定的初始特征的平均值。
再例如,归并维度为2号业务,归并方式为最大值,滑窗大小为60天,数据回流时间为30天,合成特征可以是30天前的60天内2号业务对应的选定的初始特征的最大值。
再例如,归并维度为12号网点,归并方式为总和,滑窗大小为60天,数据回流时间为30天,合成特征可以是30天前的60天内12号网点对应的选定的初始特征的总和。
步骤S2500,基于预设的机器学习算法和合成特征,根据第一样本集进行机器学习训练,得到网点业务量预测模型。
在本发明的一个实施例中,基于预设的机器学习算法和合成特征,根据第一样本集进行机器学习训练,得到网点业务量预测模型可以包括如下所示的步骤S2510~S2520:
步骤S2510,根据第一样本集和合成特征,构建第二样本集。
其中,第二样本集中的每条第二样本包括合成特征的特征值和对应的标签。
例如,合成特征为2个月前的6个月内所有周内第二天对应的选定的初始特征的平均值,选定的初始特征为网点业务量,那么,如果第二样本中的标签可以是网点1在12月1日的网点业务量,对应的,该第二样本中合成特征的特征值可以是网点1在5月1日至10月31日内所有周内第二天的业务量的平均值。如果第二样本中的标签可以是网点1在12月2日的网点业务量,对应的,该第二样本中合成特征的特征值可以是网点1在5月2日至11月1日内所有周内第二天的业务量的平均值。如果第二样本中的标签可以是网点2在8月31日的网点业务量,对应的,该第二样本中合成特征的特征值可以是网点2在1月29日至6月29日内所有周内第二天的业务量的平均值。
在本发明的一个实施例中,第二样本中还可以包括部分初始特征的特征值,例如可以是网点ID,统计周期ID,和/或业务类型。
步骤S2520,基于机器学习算法,根据第二样本集进行机器学习训练,得到网点业务量预测模型。
在本发明的一个实施例中,该机器学习算法可以是梯度提升回归树算法或深度神经网络算法。
通过该网点业务量预测模型,就可以用于预测网点在目标统计周期内的业务量。
在本发明的实施例中,根据用户输入的配置信息和选定的初始特征生成合成特征,并基于合成特征进行机器学习训练得到的网点业务量预测模型,可以使得得到的网点业务量预测模型的预测结果更加准确。
在本发明的一个实施例中,该方法还可以包括:
基于合成特征,根据历史业务数据得到预测样本;利用该网点业务量预测模型对预测样本进行处理,得到网点业务量在目标统计时段内的预测结果。
其中,预测样本中可以包括与目标统计时段内的网点业务量对应的合成特征的特征值。
在本发明的实施例中,网点可以根据自身的网点业务量在目标统计时段内的预测结果,确定网点在目标统计时段内的人员安排,在不浪费人力的情况下避免客户等待,提升网点的客户体验。
在本发明的一个实施例中,该方法还可以包括:
提供用于设置网点业务量预测模型的应用场景的设置入口;获取通过该设置入口所输入的应用场景;那么,获取历史业务数据可以包括:根据输入的应用场景,确定历史业务数据。
在本发明的一个实施例中,在得到网点业务量预测模型之后,该方法还可以包括:
获取网络业务量模型所适用的应用场景;查找与该应用场景相匹配的应用项目;将网点业务量预测模型输入至所述应用项目,以在与网络业务量模型所适用的应用场景相匹配的应用项目中,应用该网点业务量预测模型。
<实施例二>
在上述实施例一的基础上,根据多组配置信息和选定的初始特征,可以得到对应每组配置信息的合成特征。
在本实施例中,基于预设的机器学习算法和合成特征,根据第一样本集进行机器学习训练,得到网点业务量预测模型可以包括:
根据第一样本集和每组合成特征,构建对应每组合成特征的第二样本集。
进一步地,基于机器学习算法,根据第二样本集进行机器学习训练,得到网点业务量预测模型可以包括如图3所示的步骤S3100~S3400:
步骤S3100,根据预设的拆分规则,分别将对应每组合成特征的第二样本集拆分为对应的训练集和验证集。
将对应每组合成特征第二样本集进行拆分的方式可以相同,以下仅以其中一个样本集的拆分方式进行说明。
在本发明的一个实施例中,该拆分规则可以是用户根据应用场景或具体需求所设定的。例如,该拆分规则可以是时间拆分比例,还可以是数量拆分比例。
在该拆分规则是时间拆分比例的实施例中,可以是根据所有第二样本的产生时间确定目标时间窗;根据时间拆分比例将目标时间窗拆分为用于选取训练集的前部分时间窗、和用于选取验证集的后部分时间窗;选取产生时间与前部分时间窗对应的第二样本作为训练集,选取产生时间与后部分时间窗对应的第二样本作为验证集。其中,本实施例中的产生时间可以标签所对应的产生时间。前部分时间窗位于后部分时间窗之前。
具体的,可以是确定第二样本集中样本的最早产生时间和最晚产生时间,以该最早产生时间作为目标时间窗的起点,以该最晚产生时间作为目标时间窗的终点,该目标时间窗的时间长度可以为最早产生时间至最晚产生时间的时长。
在本发明的一个实施例中,可以是根据时间拆分比例和设定时间长度,确定前部分时间窗的时间长度与后部分时间窗的时间长度。前部分时间窗的时间长度与后部分时间窗的时间长度的比值,符合该时间拆分比例。
例如,时间拆分比例为6:1,目标时间窗的时间长度为7个月,可以是将目标时间窗前6个月的部分作为前部分时间窗,将目标时间窗的最后一个部分作为后部分时间窗。那么,可以是将产生时间为1至6月的第二样本作为训练集,将产生时间为7月的第二样本作为验证集。
在该拆分规则是数量拆分比例的实施例中,可以是根据数量拆分比例和第二样本集中第二样本的数量,得到用于确定训练集的第一数量和用于确定验证集的第二数量;从第二样本集中选取第一数量条第二样本,得到训练集;选取第二数量条第二样本,得到验证集。其中,第一数量和第二数量的比值,可以是符合数据拆分比例。
在本发明的实施例中,可以是将样本集拆分为包含第一数量条第二样本的训练集和包含第二数量条第二样本的验证集,验证集和训练集中所包含的第二样本之间没有重叠,即验证集和训练集中不包含相同的第二样本。
在一个例子中,选取验证集或者训练集中所包含的第二样本的方式,可以是随机选取,也可以是按照产生时间来选取。
例如,在第二样本集中第二样本的数量为1000的情况下,如果数量拆分比例为9:1,那么,第一数量可以为900,第二数量可以分别为100。对应的,可以是将1000条样本拆分为900条和100条,分别作为训练集、和验证集。
在本发明的一个实施例中,该方法还可以包括:
提供用于输入拆分规则的入口;通过该入口获取拆分规则。
在本实施例中,用户可以通过该入口输入拆分规则。
步骤S3200,基于机器学习算法,分别根据每一所述训练集进行机器学习训练,得到对应的机器学习模型。
步骤S3300,分别根据每一验证集对对应的机器学习模型进行验证,得到对应机器学习模型的验证得分。
例如,将第一组合成特征所对应的第二样本集拆分为训练集1和验证集1,将第二组合成特征所对应的第二样本集拆分为训练集2和验证集2,那么,可以是基于机器学习算法,根据训练集1进行机器学习训练,得到对应第一组合成特征的机器学习模型1;基于机器学习算法,根据训练集2进行机器学习训练,得到对应第二组合成特征的机器学习模型2。
再根据验证集1对机器学习模型1进行验证,得到机器学习模型1的验证得分;根据验证集2对机器学习模型2进行验证,得到机器学习模型2的验证得分。
步骤S3400,根据验证得分从机器学习模型中选取网点业务量预测模型。
在本发明的一个实施例中,可以是选取验证得分最高的一组合成特征所对应的机器学习模型,作为网点业务量预测模型。
通过本发明的实施例,从每组合成特征所对应的机器学习模型中,筛选出预测效果更好的一个作为网点业务量预测模型,可以进一步使得得到的网点业务量预测模型的预测结果更加准确。
<实施例三>
在上述实施例二的基础上,该方法还可以包括如图4所示的步骤S4100~S4500:
步骤S4100,获取新的业务数据。
在本发明的一个实施例中,该新的业务数据可以是在历史业务数据之后产生的业务数据。
步骤S4200,根据新的业务数据和历史业务数据,构建对应每组合成特征的新的训练集和新的验证集。
在本发明的一个实施例中,根据新的业务数据和历史业务数据构建对应每组合成特征的新的训练集和新的验证集的方式可以参照前述实施例的步骤S2200和步骤S3100,在此不再赘述。
步骤S4300,分别根据每一新的训练集修正对应的机器学习模型,得到新的机器学习模型。
步骤S4400,分别根据每一新的验证集对对应的新的机器学习模型进行验证,得到对应的新的机器学习模型的新的验证得分。
例如,通过步骤S4200,可以得到对应第一组合成特征的新的训练集1和新的验证集1,和对应第二组合成特征的新的训练集2和新的验证集2,那么,步骤S4300可以是根据新的训练集1重新训练机器学习模型1,得到新的机器学习模型1,根据新的训练集2重新训练机器学习模型2,得到新的机器学习模型2。
步骤S4400具体可以为,根据新的验证集1对新的机器学习模型1进行验证,得到新的机器学习模型1的新的验证得分;根据新的验证集2对新的机器学习模型2进行验证,得到新的机器学习模型2的新的验证得分。
步骤S4500,根据新的验证得分,从新的机器学习模型中重新选取网点业务量预测模型。
在本发明的一个实施例中,可以是选取新的验证得分最高的一组合成特征所对应的新的机器学习模型,重新作为网点业务量预测模型。
在本发明的实施例中,通过自学习来提高每组合成特征所对应的新的机器学习模型的预测效果,具有良好的抗衰减能力。在每次自学习后重新选取网点业务量预测模型,可以使得网点业务量预测模型始终维持较高的预测能力。
<装置实施例>
在本实施例中,提供一种网点业务量预测模型的训练装置5000,如图5所示,包括数据获取模块5100、样本构建模块5200、信息获取模块5300、特征合成模块5400和模型训练模块5500。该数据获取模块5100用于获取网点的历史业务数据;该样本构建模块5200用于根据历史业务数据构建第一样本集;其中,第一样本集中的每一条第一样本包括预设的初始特征的特征值,初始特征至少包括网点业务量;该信息获取模块5300用于获取预设的至少一组配置信息和选定的初始特征;该特征合成模块5400用于根据配置信息对对应的选定的初始特征进行配置,得到对应的合成特征;该模型训练模块5500用于基于预设的机器学习算法和合成特征,根据第一样本集进行机器学习训练,得到网点业务量预测模型。
在本发明的一个实施例中,样本构建模块5200还可以用于:
根据历史业务数据,生成关于预设对象的拼接数据表;
根据拼接数据表,构建第一样本集。
在本发明的一个实施例中,历史业务数据包括多个数据表,
装置该网点业务量预测模型的训练装置5000还可以包括:
用于对每一数据表的统计周期进行统一处理的模块。
在本发明的一个实施例中,历史业务数据为多个数据表,
根据历史业务数据,生成关于预设对象的拼接数据表包括:
以预设对象作为主键,将多个数据表进行拼接处理,得到拼接数据表。
在本发明的一个实施例中,该网点业务量预测模型的训练装置5000还可以包括:
用于提供用于输入配置信息的第一输入框的模块;
用于通过第一输入框获取配置信息的模块。
在本发明的一个实施例中,该网点业务量预测模型的训练装置5000还可以包括:
用于响应于指定操作,提供初始特征,供用户选择的模块;
用于将用户选中的初始特征作为选定的初始特征的模块;
或者,
用于提供用于输入选定的初始特征的第二输入框的模块;
用于通过第二输入框获取选定的初始特征的模块。
在本发明的一个实施例中,配置信息包括以下至少一项:归并维度、归并方式、滑窗大小和数据回流时间。
在本发明的一个实施例中,模型训练模块5500还可以用于:
根据第一样本集和合成特征,构建第二样本集;其中,第二样本集中的每条第二样本包括合成特征的特征值和对应的标签;
基于机器学习算法,根据第二样本集进行机器学习训练,得到网点业务量预测模型。
在本发明的一个实施例中,合成特征为多组,
根据第一样本集和合成特征,构建第二样本集包括:
根据第一样本集和每组合成特征,构建对应每组合成特征的第二样本集;
基于机器学习算法,根据第二样本集进行机器学习训练,得到网点业务量预测模型包括:
根据预设的拆分规则,分别将对应每组合成特征的第二样本集拆分为对应的训练集和验证集;
基于机器学习算法,分别根据每一训练集进行机器学习训练,得到对应的机器学习模型;
分别根据每一验证集对对应的机器学习模型进行验证,得到对应机器学习模型的验证得分;
根据验证得分从机器学习模型中选取网点业务量预测模型。
在本发明的一个实施例中,该网点业务量预测模型的训练装置5000还可以包括:
用于获取新的业务数据的模块;
用于根据新的业务数据和历史业务数据,构建对应每组合成特征的新的训练集和新的验证集的模块;
用于分别根据每一新的训练集修正对应的机器学习模型,得到新的机器学习模型的模块;
用于分别根据每一新的验证集对对应的新的机器学习模型进行验证,得到对应的新的机器学习模型的新的验证得分的模块;
用于根据新的验证得分,从新的机器学习模型中重新选取网点业务量预测模型的模块。
在本发明的一个实施例中,所述机器学习算法为梯度提升回归树算法或深度神经网络算法。
在本发明的一个实施例中,该网点业务量预测模型的训练装置5000还可以包括:
用于基于合成特征,根据历史业务数据得到预测样本的模块;其中,预测样本中包括与目标统计时段内的网点业务量对应的合成特征的特征值;
用于利用网点业务量预测模型对预测样本进行处理,得到网点业务量在目标统计时段内的预测结果的模块。
在本发明的一个实施例中,该网点业务量预测模型的训练装置5000还可以包括:
用于提供用于设置网点业务量预测模型的应用场景的设置入口的模块;
用于获取通过设置入口输入的应用场景的模块;
数据获取模块还用于:
根据输入的应用场景,确定获取历史业务数据。
在本发明的一个实施例中,得到网点业务量预测模型之后,装置该网点业务量预测模型的训练装置5000还可以包括:
用于获取网点业务量预测模型所适用的应用场景的模块;
用于查找与应用场景相匹配的应用项目的模块;
用于将网点业务量预测模型输入至应用项目的模块。
本领域技术人员应当明白,可以通过各种方式来实现网点业务量预测模型的训练装置5000。例如,可以通过指令配置处理器来实现网点业务量预测模型的训练装置5000。例如,可以将指令存储在ROM中,并且当启动设备时,将指令从ROM读取到可编程器件中来实现网点业务量预测模型的训练装置5000。例如,可以将网点业务量预测模型的训练装置5000固化到专用器件(例如ASIC)中。可以将网点业务量预测模型的训练装置5000分成相互独立的单元,或者可以将它们合并在一起实现。网点业务量预测模型的训练装置5000可以通过上述各种实现方式中的一种来实现,或者可以通过上述各种实现方式中的两种或更多种方式的组合来实现。
在本实施例中,网点业务量预测模型的训练装置5000可以具有多种实现形式,例如,网点业务量预测模型的训练装置5000可以是任何的提供模型训练服务的软件产品或者应用程序中运行的功能模块,或者是这些软件产品或者应用程序的外设嵌入件、插件、补丁件等,还可以是这些软件产品或者应用程序本身。
<系统实施例>
在本实施例中,如图6所示,还提供一种至少一个计算装置6100和至少一个存储装置6200的系统6000。该至少一个存储装置6200用于存储可执行的指令;该指令用于控制至少一个计算装置6100执行根据本发明任意实施例的网点业务量预测模型的训练方法。
在本实施例中,该系统6000可以是手机、平板电脑、掌上电脑、台式机、笔记本电脑、工作站、游戏机等设备,也可以是由多个设备构成的分布式系统。
<计算机可读存储介质>
在本实施例中,还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序在被处理器执行时实现如本发明任意实施例的网点业务量预测模型的训练方法。
本发明可以是设备、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质,其上载有用于使处理器实现本发明的各个方面的计算机可读程序指令。
计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身,诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如,通过光纤电缆的光脉冲)、或者通过电线传输的电信号。
这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备,或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令,并转发该计算机可读程序指令,以供存储在各个计算/处理设备中的计算机可读存储介质中。
用于执行本发明操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码,所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等,以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中,通过利用计算机可读程序指令的状态信息来个性化定制电子电路,例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA),该电子电路可以执行计算机可读程序指令,从而实现本发明的各个方面。
这里参照根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本发明的各个方面。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机可读程序指令实现。
这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器,从而生产出一种机器,使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时,产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中,这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作,从而,存储有指令的计算机可读介质则包括一个制造品,其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。
也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上,使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。
附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分,所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。对于本领域技术人员来说公知的是,通过硬件方式实现、通过软件方式实现以及通过软件和硬件结合的方式实现都是等价的。
以上已经描述了本发明的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。本发明的范围由所附权利要求来限定。
Claims (26)
1.一种网点业务量预测模型的训练方法,包括:
获取网点的历史业务数据;
根据所述历史业务数据构建第一样本集;其中,所述第一样本集中的每一条第一样本包括预设的初始特征的特征值,所述初始特征至少包括网点业务量;
获取预设的至少一组配置信息和选定的初始特征;所述配置信息包括以下至少一项:归并维度、归并方式、滑窗大小和数据回流时间,其中,所述归并维度是对数据进行归并的维度,所述归并方式是最大值、最小值、平均值、总和、方差、标准差、中位数、最近值中的至少一种,所述滑窗大小是时间长度,所述数据回流时间表示数据产生至获取的时间;
根据所述配置信息对对应的选定的初始特征进行配置,得到对应的合成特征;
基于预设的机器学习算法和所述合成特征,根据所述第一样本集进行机器学习训练,得到网点业务量预测模型,
所述基于预设的机器学习算法和所述合成特征,根据所述第一样本集进行机器学习训练,得到网点业务量预测模型包括:
根据所述第一样本集和所述合成特征,构建第二样本集;其中,所述第二样本集中的每条第二样本包括所述合成特征的特征值和对应的标签;
基于所述机器学习算法,根据所述第二样本集进行机器学习训练,得到所述网点业务量预测模型,
其中,所述合成特征为多组,
所述根据所述第一样本集和所述合成特征,构建第二样本集包括:
根据所述第一样本集和每组合成特征,构建对应每组合成特征的第二样本集。
2.根据权利要求1所述的方法,所述根据所述历史业务数据构建第一样本集包括:
根据所述历史业务数据,生成关于预设对象的拼接数据表;
根据所述拼接数据表,构建所述第一样本集。
3.根据权利要求2所述的方法,所述历史业务数据包括多个数据表,
所述方法还包括:
对每一所述数据表的统计周期进行统一处理。
4.根据权利要求2所述的方法,所述历史业务数据为多个数据表,
所述根据所述历史业务数据,生成关于预设对象的拼接数据表包括:
以所述预设对象作为主键,将所述多个数据表进行拼接处理,得到所述拼接数据表。
5.根据权利要求1所述的方法,还包括:
提供用于输入所述配置信息的第一输入框;
通过所述第一输入框获取所述配置信息。
6.根据权利要求1所述的方法,还包括:
响应于指定操作,提供所述初始特征,供用户选择;
将用户选中的初始特征作为所述选定的初始特征;
或者,
提供用于输入所述选定的初始特征的第二输入框;
通过所述第二输入框获取所述选定的初始特征。
7.根据权利要求1所述的方法,所述基于所述机器学习算法,根据所述第二样本集进行机器学习训练,得到所述网点业务量预测模型包括:
根据预设的拆分规则,分别将对应每组合成特征的第二样本集拆分为对应的训练集和验证集;
基于所述机器学习算法,分别根据每一所述训练集进行机器学习训练,得到对应的机器学习模型;
分别根据每一所述验证集对对应的机器学习模型进行验证,得到对应所述机器学习模型的验证得分;
根据所述验证得分从所述机器学习模型中选取所述网点业务量预测模型。
8.根据权利要求7所述的方法,还包括:
获取新的业务数据;
根据所述新的业务数据和所述历史业务数据,构建对应每组合成特征的新的训练集和新的验证集;
分别根据每一所述新的训练集修正对应的机器学习模型,得到新的机器学习模型;
分别根据每一所述新的验证集对对应的新的机器学习模型进行验证,得到对应的新的机器学习模型的新的验证得分;
根据所述新的验证得分,从所述新的机器学习模型中重新选取所述网点业务量预测模型。
9.根据权利要求1所述的方法,所述机器学习算法为梯度提升回归树算法或深度神经网络算法。
10.根据权利要求1至9中任一项所述的方法,还包括:
基于所述合成特征,根据所述历史业务数据得到预测样本;其中,所述预测样本中包括与目标统计时段内的网点业务量对应的所述合成特征的特征值;
利用所述网点业务量预测模型对预测样本进行处理,得到所述网点业务量在所述目标统计时段内的预测结果。
11.根据权利要求1至9中任一项所述的方法,还包括:
提供用于设置网点业务量预测模型的应用场景的设置入口;
获取通过所述设置入口输入的应用场景;
所述获取历史业务数据包括:
根据所述输入的应用场景,确定所述获取历史业务数据。
12.根据权利要求1至9中任一项所述的方法,所述得到所述网点业务量预测模型之后,所述方法还包括:
获取所述网点业务量预测模型所适用的应用场景;
查找与所述应用场景相匹配的应用项目;
将所述网点业务量预测模型输入至所述应用项目。
13.一种网点业务量预测模型的训练装置,包括:
数据获取模块,用于获取网点的历史业务数据;
样本构建模块,用于根据所述历史业务数据构建第一样本集;其中,所述第一样本集中的每一条第一样本包括预设的初始特征的特征值,所述初始特征至少包括网点业务量;
信息获取模块,用于获取预设的至少一组配置信息和选定的初始特征;所述配置信息包括以下至少一项:归并维度、归并方式、滑窗大小和数据回流时间,其中,所述归并维度是对数据进行归并的维度,所述归并方式是最大值、最小值、平均值、总和、方差、标准差、中位数、最近值中的至少一种,所述滑窗大小是时间长度,所述数据回流时间表示数据产生至获取的时间;
特征合成模块,用于根据所述配置信息对对应的选定的初始特征进行配置,得到对应的合成特征;
模型训练模块,用于基于预设的机器学习算法和所述合成特征,根据所述第一样本集进行机器学习训练,得到网点业务量预测模型,
其中,所述模型训练模块还用于:
根据所述第一样本集和所述合成特征,构建第二样本集;其中,所述第二样本集中的每条第二样本包括所述合成特征的特征值和对应的标签;
基于所述机器学习算法,根据所述第二样本集进行机器学习训练,得到所述网点业务量预测模型,
所述合成特征为多组,
所述根据所述第一样本集和所述合成特征,构建第二样本集包括:
根据所述第一样本集和每组合成特征,构建对应每组合成特征的第二样本集。
14.根据权利要求13所述的装置,所述样本构建模块用于:
根据所述历史业务数据,生成关于预设对象的拼接数据表;
根据所述拼接数据表,构建所述第一样本集。
15.根据权利要求14所述的装置,所述历史业务数据包括多个数据表,
所述装置还包括:
用于对每一所述数据表的统计周期进行统一处理的模块。
16.根据权利要求14所述的装置,所述历史业务数据为多个数据表,
所述根据所述历史业务数据,生成关于预设对象的拼接数据表包括:
以所述预设对象作为主键,将所述多个数据表进行拼接处理,得到所述拼接数据表。
17.根据权利要求13所述的装置,还包括:
用于提供用于输入所述配置信息的第一输入框的模块;
用于通过所述第一输入框获取所述配置信息的模块。
18.根据权利要求13所述的装置,还包括:
用于响应于指定操作,提供所述初始特征,供用户选择的模块;
用于将用户选中的初始特征作为所述选定的初始特征的模块;
或者,
用于提供用于输入所述选定的初始特征的第二输入框的模块;
用于通过所述第二输入框获取所述选定的初始特征的模块。
19.根据权利要求13所述的装置,所述基于所述机器学习算法,根据所述第二样本集进行机器学习训练,得到所述网点业务量预测模型包括:
根据预设的拆分规则,分别将对应每组合成特征的第二样本集拆分为对应的训练集和验证集;
基于所述机器学习算法,分别根据每一所述训练集进行机器学习训练,得到对应的机器学习模型;
分别根据每一所述验证集对对应的机器学习模型进行验证,得到对应所述机器学习模型的验证得分;
根据所述验证得分从所述机器学习模型中选取所述网点业务量预测模型。
20.根据权利要求19所述的装置,还包括:
用于获取新的业务数据的模块;
用于根据所述新的业务数据和所述历史业务数据,构建对应每组合成特征的新的训练集和新的验证集的模块;
用于分别根据每一所述新的训练集修正对应的机器学习模型,得到新的机器学习模型的模块;
用于分别根据每一所述新的验证集对对应的新的机器学习模型进行验证,得到对应的新的机器学习模型的新的验证得分的模块;
用于根据所述新的验证得分,从所述新的机器学习模型中重新选取所述网点业务量预测模型的模块。
21.根据权利要求13所述的装置,所述机器学习算法为梯度提升回归树算法或深度神经网络算法。
22.根据权利要求13至21中任一项所述的装置,还包括:
用于基于所述合成特征,根据所述历史业务数据得到预测样本的模块;其中,所述预测样本中包括与目标统计时段内的网点业务量对应的所述合成特征的特征值;
用于利用所述网点业务量预测模型对预测样本进行处理,得到所述网点业务量在所述目标统计时段内的预测结果的模块。
23.根据权利要求13至21中任一项所述的装置,还包括:
用于提供用于设置网点业务量预测模型的应用场景的设置入口的模块;
用于获取通过所述设置入口输入的应用场景的模块;
所述数据获取模块还用于:
根据所述输入的应用场景,确定所述获取历史业务数据。
24.根据权利要求13至21中任一项所述的装置,所述得到所述网点业务量预测模型之后,所述装置还包括:
用于获取所述网点业务量预测模型所适用的应用场景的模块;
用于查找与所述应用场景相匹配的应用项目的模块;
用于将所述网点业务量预测模型输入至所述应用项目的模块。
25.一种包括至少一个计算装置和至少一个存储装置的系统,其中,所述至少一个存储装置用于存储指令,所述指令用于控制所述至少一个计算装置执行根据权利要求1至12中任一项所述的方法。
26.一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序在被处理器执行时实现如权利要求1至12中任一项所述的方法。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN202010225143.8A CN111506575B (zh) | 2020-03-26 | 2020-03-26 | 一种网点业务量预测模型的训练方法、装置及系统 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN202010225143.8A CN111506575B (zh) | 2020-03-26 | 2020-03-26 | 一种网点业务量预测模型的训练方法、装置及系统 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| CN111506575A CN111506575A (zh) | 2020-08-07 |
| CN111506575B true CN111506575B (zh) | 2023-10-24 |
Family
ID=71878050
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| CN202010225143.8A Active CN111506575B (zh) | 2020-03-26 | 2020-03-26 | 一种网点业务量预测模型的训练方法、装置及系统 |
Country Status (1)
| Country | Link |
|---|---|
| CN (1) | CN111506575B (zh) |
Families Citing this family (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN112529624B (zh) * | 2020-12-15 | 2024-01-09 | 北京百度网讯科技有限公司 | 生成业务预测模型的方法、装置、设备以及存储介质 |
| CN112862597B (zh) * | 2021-02-19 | 2024-05-10 | 招商银行股份有限公司 | 网点分时分类型放号方法、装置、设备及存储介质 |
| CN112862197B (zh) * | 2021-02-19 | 2023-04-18 | 招商银行股份有限公司 | 网点智能放号方法、装置、设备及存储介质 |
| CN113537614A (zh) * | 2021-07-28 | 2021-10-22 | 广东电网有限责任公司 | 电网工程造价预测模型的构建方法、系统、设备及介质 |
Citations (10)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN104239351A (zh) * | 2013-06-20 | 2014-12-24 | 阿里巴巴集团控股有限公司 | 一种用户行为的机器学习模型的训练方法及装置 |
| WO2015085967A1 (zh) * | 2013-12-10 | 2015-06-18 | 腾讯科技(深圳)有限公司 | 一种用户行为数据的分析方法和装置 |
| CN105574538A (zh) * | 2015-12-10 | 2016-05-11 | 小米科技有限责任公司 | 分类模型训练方法及装置 |
| CN108475393A (zh) * | 2016-01-27 | 2018-08-31 | 华为技术有限公司 | 通过合成特征和梯度提升决策树进行预测的系统和方法 |
| CN108734304A (zh) * | 2018-05-31 | 2018-11-02 | 阿里巴巴集团控股有限公司 | 一种数据模型的训练方法、装置、及计算机设备 |
| WO2019015631A1 (zh) * | 2017-07-20 | 2019-01-24 | 第四范式(北京)技术有限公司 | 生成机器学习样本的组合特征的方法及系统 |
| CN109360629A (zh) * | 2018-09-30 | 2019-02-19 | 深圳个人数据管理服务有限公司 | 基于机器学习的情绪预测方法、装置、设备和存储介质 |
| CN109815991A (zh) * | 2018-12-29 | 2019-05-28 | 北京城市网邻信息技术有限公司 | 机器学习模型的训练方法、装置、电子设备及存储介质 |
| CN110569904A (zh) * | 2019-09-10 | 2019-12-13 | 福建榕基软件股份有限公司 | 机器学习模型的构建方法及计算机可读存储介质 |
| CN110766164A (zh) * | 2018-07-10 | 2020-02-07 | 第四范式(北京)技术有限公司 | 用于执行机器学习过程的方法和系统 |
Family Cites Families (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN107221320A (zh) * | 2017-05-19 | 2017-09-29 | 百度在线网络技术(北京)有限公司 | 训练声学特征提取模型的方法、装置、设备和计算机存储介质 |
| US10969773B2 (en) * | 2018-03-13 | 2021-04-06 | Applied Materials, Inc. | Machine learning systems for monitoring of semiconductor processing |
-
2020
- 2020-03-26 CN CN202010225143.8A patent/CN111506575B/zh active Active
Patent Citations (10)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN104239351A (zh) * | 2013-06-20 | 2014-12-24 | 阿里巴巴集团控股有限公司 | 一种用户行为的机器学习模型的训练方法及装置 |
| WO2015085967A1 (zh) * | 2013-12-10 | 2015-06-18 | 腾讯科技(深圳)有限公司 | 一种用户行为数据的分析方法和装置 |
| CN105574538A (zh) * | 2015-12-10 | 2016-05-11 | 小米科技有限责任公司 | 分类模型训练方法及装置 |
| CN108475393A (zh) * | 2016-01-27 | 2018-08-31 | 华为技术有限公司 | 通过合成特征和梯度提升决策树进行预测的系统和方法 |
| WO2019015631A1 (zh) * | 2017-07-20 | 2019-01-24 | 第四范式(北京)技术有限公司 | 生成机器学习样本的组合特征的方法及系统 |
| CN108734304A (zh) * | 2018-05-31 | 2018-11-02 | 阿里巴巴集团控股有限公司 | 一种数据模型的训练方法、装置、及计算机设备 |
| CN110766164A (zh) * | 2018-07-10 | 2020-02-07 | 第四范式(北京)技术有限公司 | 用于执行机器学习过程的方法和系统 |
| CN109360629A (zh) * | 2018-09-30 | 2019-02-19 | 深圳个人数据管理服务有限公司 | 基于机器学习的情绪预测方法、装置、设备和存储介质 |
| CN109815991A (zh) * | 2018-12-29 | 2019-05-28 | 北京城市网邻信息技术有限公司 | 机器学习模型的训练方法、装置、电子设备及存储介质 |
| CN110569904A (zh) * | 2019-09-10 | 2019-12-13 | 福建榕基软件股份有限公司 | 机器学习模型的构建方法及计算机可读存储介质 |
Non-Patent Citations (3)
| Title |
|---|
| Yinghao Chen ; Tianhong Pan ; Shan Chen.Development of co-training support vector machine model for semi-supervised classification.《2017 36th Chinese Control Conference (CCC)》.2017,全文. * |
| 基于BP神经网络建立烤烟感官质量的预测模型;邵惠芳;许自成;李东亮;焦桂珍;;中国烟草学报(第01期);全文 * |
| 谭治学 ; 钟诗胜 ; 林琳.多源数据融合的民航发动机修后性能预测.《北京航空航天大学学报》.2019,全文. * |
Also Published As
| Publication number | Publication date |
|---|---|
| CN111506575A (zh) | 2020-08-07 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CN111506575B (zh) | 一种网点业务量预测模型的训练方法、装置及系统 | |
| US11694687B2 (en) | Recommending a dialog act using model-based textual analysis | |
| US9501778B2 (en) | Delivering personalized recommendations that relate to transactions on display | |
| US11057435B2 (en) | Picture/gesture password protection | |
| US10304451B2 (en) | Determining an impact of a proposed dialog act using model-based textual analysis | |
| JP2021121922A (ja) | 特徴抽出に基くマルチモデルトレーニング方法及び装置、電子機器と媒体 | |
| CN111368180B (zh) | 页面展示方法、装置及电子设备 | |
| US10878514B2 (en) | Expense validator | |
| US11055330B2 (en) | Utilizing external knowledge and memory networks in a question-answering system | |
| CN107103036B (zh) | 应用下载概率的获取方法、设备及可编程设备 | |
| CN107526751A (zh) | 网页的加载方法、客户端、网页服务器及可编程设备 | |
| US10748102B2 (en) | Just in time learning driven by point of sale or other data and metrics | |
| CN111179031A (zh) | 一种商品推荐模型的训练方法、装置及系统 | |
| US11061982B2 (en) | Social media tag suggestion based on product recognition | |
| US20200118376A1 (en) | Server-recommended digital ticket checking mechanisms | |
| US20190163735A1 (en) | Context-based personality determination | |
| CN106447295A (zh) | 一种签核文件模板生成方法及装置 | |
| US10262266B2 (en) | Identifying and analyzing impact of an event on relationships | |
| CN113705827B (zh) | 一种模型评估方法、装置及电子设备 | |
| US20240095676A1 (en) | Pay statement setup | |
| CN116720489B (zh) | 页面填充方法及装置、电子设备和计算机可读存储介质 | |
| CN110008318A (zh) | 问题派发方法及装置 | |
| US11720533B2 (en) | Automated classification of data types for databases | |
| CN113596066A (zh) | 云服务的试用方法和服务器 | |
| US20180089009A1 (en) | System, method and computer program product for adaptive application log analysis |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| PB01 | Publication | ||
| PB01 | Publication | ||
| SE01 | Entry into force of request for substantive examination | ||
| SE01 | Entry into force of request for substantive examination | ||
| GR01 | Patent grant | ||
| GR01 | Patent grant |