CN114037137A

CN114037137A - 对象预测方法、系统及介质

Info

Publication number: CN114037137A
Application number: CN202111295887.8A
Authority: CN
Inventors: 张长虹; 董耀辉; 胡强; 高阁
Original assignee: Shanghai Dazhihui Information Technology Co ltd
Current assignee: Shanghai Dazhihui Information Technology Co ltd
Priority date: 2021-11-03
Filing date: 2021-11-03
Publication date: 2022-02-11

Abstract

本发明提供一种对象预测方法、系统及介质，该方法包括：步骤S1：收集对象的多维度数据；步骤S2：将多维度数据分成多个维度；步骤S3：将多个维度的数据分别进行降维；步骤S4：生成多个初始的决策树，得到多个决策树模型；步骤S5：将步骤S4中剩下的数据选择部分作为测试集；步骤S6：将步骤S5中剩下数据作为验证集，得到最终的决策树模型F1；步骤S7：将多个决策树生成一个随机森林；取部分数据集进行训练，得到新的随机森林；步骤S8：将步骤S7中剩余数据集取一半作测试集，进行测试；步骤S9：将步骤S8中剩余数据集用作验证集，得到最终的随机森林的模型F2。本发明能够帮助用户筛选符合条件的优质股票，具有更高的预测精确度。

Description

对象预测方法、系统及介质

技术领域

本发明涉及股票诊断技术领域，尤其涉及一种随机森林算法在股票诊断方向的应用，具体地，涉及一种对象诊断方法、系统及介质。

背景技术

在股票市场中，对于投资者来说，股票价格走势的预测一直是热门问题。准确判断和把握整个股票市场的变化趋势，不仅可以减少股票市场中盲目投资的现象，对于提高股市中投资者的理性程度具有较高的现实意义。

公开号为CN110059852A的发明专利，公开了一种基于改进随机森林算法的股票收益率预测方法，针对股票收益率分类预测时，随机森林存在的参数选择困难以及分类性能问题，RF算法本身无法识别并选择更高效的特征的缺点，结合粒子群算法优化特征选择机制，在趋势变化初期不明显的情况下，筛选出最优特征，且作为属性输入RF算法，提出PSO-GRID-RF股票趋势预测的混合方法。

随机森林算法(Random Forest)作为一种分类技术已经在金融领域中得到了应用，相较于支持向量机(Support Vector Machine)和人工神经网络(ArtificialNeuralNetworks)，RF在股票趋势预测中得到更好的结果。随机森林算法是一种模型组合，应用到不同的领域上均获得不俗的成果。基于随机森林算法具有训练速度快、模型泛化能力强等优点，将该算法运用到股票涨跌预测中，能够避免上述预测模型的不足。随机森林法预测主要是先对建立的初始指标体系进行筛选，将筛选后的指标数据作为影响变量代入到随机森林中，涨跌情况作为响应变量输出。但现有方法对随机森林本身的模型优化有所欠缺，不能进一步提升预测精确度。

发明内容

针对现有技术中的缺陷，本发明提供一种对象预测方法、系统及介质。

根据本发明提供的一种对象预测方法、系统及介质，所述方案如下：

第一方面，提供了一种对象预测方法，所述方法包括：

步骤S1：收集股票的行情数据、财务数据以及舆情在内的N维度数据；

步骤S2：将收集到的所述N维度数据分成N个维度，包括技术、资金、题材、基本面以及舆情；

步骤S3：通过PCA算法将步骤S2中的N个维度的数据分别进行降维；

步骤S4：对于步骤S3中降维后的数据分别生成N个初始的决策树，利用某年段的整体样本数据随机选取80％的样本数据进行训练，得到N个决策树模型，以使盈亏比和胜率达到设定的预期阈值，此N个决策树为一个多因子方程；

步骤S5：将步骤S4中剩下的20％样本数据随机选择其中的50％作为测试集，进行测试，并且进行调参优化；

步骤S6：将步骤S5中剩下的另外50％的样本数据作为验证集，设定验证标准，验证通过后得到最终的决策树模型F1；

步骤S7：将N个决策树生成一个初始值系数均为0.2的随机森林，Y＝0.2*A+0.2*B+0.2*C+0.2*D+0.2*E；其中，Y表示随机森林中的最终输出值；A、B、C、D、E分别表示为技术决策树、资金决策树、题材决策树、基本面决策树、舆情决策树输出的值；

从步骤S3中的数据集取部分进行训练，得到一个新的随机森林多因子方程；

步骤S8：将步骤S7中剩余部分的数据集取一半用作测试集，进行测试，并且进行调参优化；

步骤S9：将步骤S8中剩下的另一半数据集用作验证集，设定验证标准，验证通过后得到随机森林的模型F2。

优选的，所述步骤S3中生成N个初始的决策树评价标准为：个股信号出现日之后的1，5，10，20，60日的股价走势，计算期间盈亏比和胜率。

优选的，所述步骤S7中，从步骤S3中的数据集取部分进行训练具体包括：对于步骤S3中所使用的数据集平均分成10份，随机取其中8份进行训练。

优选的，所述步骤S8具体包括：将步骤S7中剩下的2份数据集任取1份用作测试集，进行测试，并且进行调参优化。

优选的，所述步骤S9具体包括：将步骤S8中剩下的1份数据集用作实验集，设定验证标准，验证通过后得到随机森林的模型F2。

第二方面，提供了一种对象预测系统，所述系统包括：

模块M1：收集股票的行情数据、财务数据以及舆情在内的N维度数据；

模块M2：将收集到的所述N维度数据分成N个维度，包括技术、资金、题材、基本面以及舆情；

模块M3：通过PCA算法将模块2中的N个维度的数据分别进行降维；

模块M4：对于模块M3中降维后的数据分别生成N个初始的决策树，利用某年段的整体样本数据随机选取80％的样本数据进行训练，得到N个决策树模型，以使盈亏比和胜率达到设定的预期阈值，此N个决策树为一个多因子方程；

模块M5：将模块M4中剩下的20％样本数据随机选择其中的50％作为测试集，进行测试，并且进行调参优化；

模块M6：将模块M5中剩下的另外50％的样本数据作为验证集，设定验证标准，验证通过后得到最终的决策树模型F1；

模块M7：将N个决策树生成一个初始值系数均为0.2的随机森林，Y＝0.2*A+0.2*B+0.2*C+0.2*D+0.2*E；其中，Y表示随机森林中的最终输出值；A、B、C、D、E分别表示为技术决策树、资金决策树、题材决策树、基本面决策树、舆情决策树输出的值；

从模块M3中的数据集取部分进行训练，得到一个新的随机森林多因子方程；

模块M8：将模块M7中剩余部分的数据集取一半用作测试集，进行测试，并且进行调参优化；

模块M9：将模块M8中剩下的另一半数据集用作验证集，设定验证标准，验证通过后得到随机森林的模型F2。

优选的，所述模块M3中生成N个初始的决策树评价标准为：个股信号出现日之后的1，5，10，20，60日的股价走势，计算期间盈亏比和胜率。

优选的，所述模块M7中，从模块M3中的数据集取部分进行训练具体包括：对于模块M3中所使用的数据集平均分成10份，随机取其中8份进行训练。

优选的，所述模块M8具体包括：将模块M7中剩下的2份数据集任取1份用作测试集，进行测试，并且进行调参优化。

优选的，所述模块M9具体包括：将模块M8中剩下的1份数据集用作实验集，设定验证标准，验证通过后得到随机森林的模型F2。

与现有技术相比，本发明具有如下的有益效果：

1、通过采用随机森林算法，得到可以让符合条件的股票达到盈亏比和胜率符合本发明中设定的阈值的多因子方程，达到更高的预测精确度；

2、本发明通过使用该模型从而帮助用户筛选符合条件的优质股票。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为本发明整体结构框图。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变化和改进。这些都属于本发明的保护范围。

本发明实施例提供了一种对象预测方法，参照图1所示，该方法具体包括：

步骤S1：收集一只股票的多维度数据，包括行情数据，财务数据以及舆情等。收集资料时，主要通过自有的数据库获取数据，然后重新定义数据结构作为机器学习训练的元数据，具体地，通过已有的较为全面的金融数据库，通过公司现有的金融数据库，获取需要的股票行情类数据，财务类数据以及公司舆情类数据重新构建一个用于诊断个股的新的database。重新设计了一套新的数据结构，包括技术，资金，题材，基本面和舆情这5方面。将原有的数据根据这5项进行分类，重新整合成5张新的table,用作学习的元数据。

步骤S2：将收集到的数据人工分成技术，资金，题材，基本面和舆情这5个维度。

步骤S3：通过PCA算法将步骤S2中的5个维度的数据分别进行降维；生成5个初始的决策树，评价标准为个股信号出现日之后的1，5，10，20，60日的股价走势(计算期间盈亏比和胜率)。其中，本实施例中的PCA(principal components analysis)即主成分分析技术，又称主分量分析。主成分分析也称主分量分析，旨在利用降维的思想，把多指标转化为少数几个综合指标。

在统计学中，主成分分析PCA是一种简化数据集的技术。它是一个线性变换。这个变换把数据变换到一个新的坐标系统中，使得任何数据投影的第一大方差在第一个坐标(称为第一主成分)上，第二大方差在第二个坐标(第二主成分)上，依次类推。主成分分析经常用于减少数据集的维数，同时保持数据集的对方差贡献最大的特征。这是通过保留低阶主成分，忽略高阶主成分做到的。这样低阶成分往往能够保留住数据的最重要方面。

步骤S4：对于步骤S3中降维后的数据分别生成5个初始的决策树，利用2010年1月到2020年12月的整体样本数据随机选取80％的样本数据进行训练，得到5个决策树模型，以使盈亏比和胜率达到设定的预期阈值，此5个决策树为一个多因子方程。

步骤S5：将步骤S4中剩下的20％样本数据随机选择其中的50％作为测试集，进行测试，并且进行调参优化。具体通过评价函数，也就是个股信号出现日之后的1，5，10，20，60日的股价走势(计算期间盈亏比和胜率)，来找到一个均衡的值，让这5个周期的盈亏比和胜率都达到相对优异的值，通过不同周期优异的值(阈值)进行调整来达到调参效果。

步骤S6：将步骤S5中剩下的另外50％的样本数据作为验证集，设定验证标准，验证通过后得到最终的决策树模型F1。

步骤S7：将5个决策树生成一个初始值系数均为0.2的随机森林，Y＝0.2*A+0.2*B+0.2*C+0.2*D+0.2*E；其中，Y表示随机森林中的最终输出值；A、B、C、D、E分别表示为技术决策树、资金决策树、题材决策树、基本面决策树、舆情决策树输出的值；

对于步骤S3中所使用的数据集平均分成10份，随机取其中8份进行训练，评判标准为个股信号出现日之后的1，5，10，20，60日的股价走势(计算期间盈亏比和胜率)，得到一个新的随机森林多因子方程。具体同决策树的调参模式，均为一个多因子方程，因子都是相同的，但因子前的参数是不同的，例如：根据评价函数的选择，各项系数可能由初始的(0.2，0.2，0.2，0.2，0.2)变为(0.1，0.2，0.25，0.17，0.22)，此时的多音字方程变为Y＝0.1A+0.2B+0.25C+0.17D+0.22E这样，前面的初始0.2的系数是会根据评价标准改变得。

步骤S8：将步骤S7中剩下的2份数据集任取1份用作测试集，进行测试，并且进行调参优化。测试是通过训练集相同的评价函数去进行测试，看与训练集的差别。

步骤S9：将步骤S8中剩下的1份数据集用作验证集，设定验证标准，验证通过后得到随机森林的模型F2。

本发明还提供了一种对象预测系统，该系统包括：

模块M1：收集股票的行情数据、财务数据以及舆情在内的多维度数据；

模块M2：将收集到的数据人工分成技术，资金，题材，基本面和舆情这5个维度；

模块M3：通过PCA算法将模块M2中的5个维度的数据分别进行降维；

模块M4：对于模块M3中降维后的数据分别生成5个初始的决策树，利用2010年到2021年的整体样本数据随机选取80％的样本数据进行训练，得到5个决策树模型，以使盈亏比和胜率达到设定的预期阈值，此5个决策树为一个多因子方程；

模块M7：将5个决策树生成一个初始值系数均为0.2的随机森林，Y＝0.2*A+0.2*B+0.2*C+0.2*D+0.2*E；其中，Y表示随机森林中的最终输出值；A、B、C、D、E分别表示为技术决策树、资金决策树、题材决策树、基本面决策树、舆情决策树输出的值；

具体地，模块M3中生成5个初始的决策树评价标准为：个股信号出现日之后的1，5，10，20，60日的股价走势，(计算期间盈亏比和胜率)。

在模块M7中，从模块M3中的数据集取部分进行训练具体包括：对于模块M3中所使用的数据集平均分成10份，随机取其中8份进行训练，评判标准为个股信号出现日之后的1，5，10，20，60日的股价走势(计算期间盈亏比和胜率)。

在模块M8中，将模块M7中剩下的2份数据集任取1份用作测试集，进行测试，并且进行调参优化。

在模块M9中，将模块M8中剩下的1份数据集用作实验集，设定验证标准，验证通过后得到随机森林的模型F2。

本发明实施例提供了一种股票诊断方法、系统及介质，通过对一只股票的多维度数据进行采样，分类成5个维度，然后通过PCA算法，找到这5个维度中对于股票涨跌影响最大的因子，然后从这5个维度通过处理后的权重因子构建决策树从而组合成随机森林，然后通过过去10年的沪深A股样本的部分数据训练这5个决策树，并使用测试集去测试，生成随机森林的参数，然后使用验证集去评估算法效果。通过使用该模型从而帮助用户筛选符合条件的优质股票。

本领域技术人员知道，除了以纯计算机可读程序代码方式实现本发明提供的系统及其各个装置、模块、单元以外，完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统及其各个装置、模块、单元以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同功能。所以，本发明提供的系统及其各项装置、模块、单元可以被认为是一种硬件部件，而对其内包括的用于实现各种功能的装置、模块、单元也可以视为硬件部件内的结构；也可以将用于实现各种功能的装置、模块、单元视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变化或修改，这并不影响本发明的实质内容。在不冲突的情况下，本申请的实施例和实施例中的特征可以任意相互组合。

Claims

1.一种对象预测方法，其特征在于，包括：

步骤S1：收集对象的多维度数据，并存储于数据库中；

步骤S2：将收集到的所述多维度数据根据预设的需求分成多个维度；

步骤S3：通过PCA算法将步骤S2中的多个维度的数据分别进行降维；

步骤S4：对于步骤S3中降维后的数据分别生成多个初始的决策树，利用某年段的整体样本数据中的一部分样本数据进行训练，得到多个决策树模型，以使所需参数达到设定的预期阈值，此多个决策树为一个多因子方程；

步骤S5：将步骤S4中剩余部分数据的第一部分样本数据作为测试集，进行测试，并且进行调参优化；

步骤S6：将步骤S5中剩余的第二部分的样本数据作为验证集，设定验证标准，验证通过后得到最终的决策树模型F1；

步骤S7：将多个决策树生成一个初始值系数均为0.2的随机森林，Y＝0.2*A+0.2*B+0.2*C+0.2*D+0.2*E；其中，Y表示随机森林中的最终输出值；A、B、C、D、E分别表示为不同决策树输出的值；

2.根据权利要求1所述的对象预测方法，其特征在于，所述降维后的数据分别生成多个初始的决策树的方式具体包括：利用某年段的整体样本数据随机选取80％的样本数据进行训练，得到多个决策树模型，以使所需参数达到设定的预期阈值，此多个决策树为一个多因子方程；

将步骤剩下的20％样本数据随机选择其中的50％作为测试集，进行测试，并且进行调参优化；

将上一步中剩下的另外50％的样本数据作为验证集，设定验证标准，验证通过后得到最终的决策树模型F1。

3.根据权利要求1所述的对象预测方法，其特征在于，所述步骤S7中，从步骤S3中的数据集取部分进行训练具体包括：对于步骤S3中所使用的数据集平均分成10份，随机取其中8份进行训练。

4.根据权利要求3所述的对象预测方法，其特征在于，所述步骤S8具体包括：将步骤S7中剩下的2份数据集任取1份用作测试集，进行测试，并且进行调参优化。

5.根据权利要求4所述的对象预测方法，其特征在于，所述步骤S9具体包括：将步骤S8中剩下的1份数据集用作实验集，设定验证标准，验证通过后得到随机森林的模型F2。

6.一种对象预测系统，其特征在于，包括：

模块M1：收集对象的多维度数据，并存储于数据库中；

模块M2：将收集到的所述多维度数据根据预设的需求分成多个维度；

模块M3：通过PCA算法将模块M2中的多个维度的数据分别进行降维；

模块M4：对于模块M3中降维后的数据分别生成多个初始的决策树，利用某年段的整体样本数据中的一部分样本数据进行训练，得到多个决策树模型，以使所需参数达到设定的预期阈值，此多个决策树为一个多因子方程；

模块M5：将模块M4中剩余部分数据的第一部分样本数据作为测试集，进行测试，并且进行调参优化；

模块M6：将模块M5中剩余的第二部分的样本数据作为验证集，设定验证标准，验证通过后得到最终的决策树模型F1；

模块M7：将多个决策树生成一个初始值系数均为0.2的随机森林，Y＝0.2*A+0.2*B+0.2*C+0.2*D+0.2*E；其中，Y表示随机森林中的最终输出值；A、B、C、D、E分别表示为不同决策树输出的值；

7.根据权利要求6所述的对象预测系统，其特征在于，所述降维后的数据分别生成多个初始的决策树的方式具体包括：利用某年段的整体样本数据随机选取80％的样本数据进行训练，得到多个决策树模型，以使所需参数达到设定的预期阈值，此多个决策树为一个多因子方程；

8.根据权利要求6所述的对象预测系统，其特征在于，所述模块M7中，从模块M3中的数据集取部分进行训练具体包括：对于模块M3中所使用的数据集平均分成10份，随机取其中8份进行训练。

9.根据权利要求8所述的对象预测系统，其特征在于，所述模块M8具体包括：将模块M7中剩下的2份数据集任取1份用作测试集，进行测试，并且进行调参优化。

10.根据权利要求9所述的对象预测系统，其特征在于，所述模块M9具体包括：将模块M8中剩下的1份数据集用作实验集，设定验证标准，验证通过后得到随机森林的模型F2。