CN117235479A - 目标因子筛选方法及装置 - Google Patents
目标因子筛选方法及装置 Download PDFInfo
- Publication number
- CN117235479A CN117235479A CN202311085056.7A CN202311085056A CN117235479A CN 117235479 A CN117235479 A CN 117235479A CN 202311085056 A CN202311085056 A CN 202311085056A CN 117235479 A CN117235479 A CN 117235479A
- Authority
- CN
- China
- Prior art keywords
- factor
- screening
- factor screening
- target
- screening method
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请涉及一种目标因子筛选方法及装置,方法包括:依据任务类型生成相应的数据集,并获取数据集中各因子类型对应的标签信息;基于第一筛选标准和标签信息对获取到的多种因子筛选方法进行检验,构建合格因子筛选方法集,并对合格因子筛选方法集中各因子筛选方法进行功能分类,得到不同功能因子筛选方法集;基于第二筛选标准对不同功能因子筛选方法集中相应的因子筛选方法集进行组合,生成多个因子筛选流程,对多个因子筛选流程进行评分,根据评分结果确定出目标因子筛选流程;采用本方法能够对各因子筛选流程进行校验和评价,保证了因子筛选方法流程的合理性,选取出最佳的目标因子筛选流程,提高了筛选的可靠性。
Description
技术领域
本申请涉及数据处理技术领域,特别是涉及一种目标因子筛选方法及装置。
背景技术
随着因子构建方法的发展,比如利用遗传规划等算法,各种时序特征提取的自动化工程项目,使得高频因子的维度急速增加,这种巨大的规模可能会给许多机器学习算法和深度学习算法带来可扩展性和学习性能方面的严重问题;在面对高维数据的机器学习或深度学习任务中,特征(因子)筛选变得非常必要。
然而,现有的因子筛选算法在针对大量观测数据和因子数据进行筛选时存在可靠性低的问题。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高筛选的可靠性的目标因子筛选方法及装置。
第一方面,本申请提供了一种目标因子筛选方法,方法包括:
依据任务类型,生成相应的数据集,获取数据集中各因子类型对应的标签信息;
基于第一筛选标准和标签信息,对各备选因子筛选方法进行检验,构建合格因子筛选方法集;对合格因子筛选方法集中各因子筛选方法进行功能分类,得到不同功能因子筛选方法集;
基于第二筛选标准对不同功能因子筛选方法集中相应的因子筛选方法进行组合,生成多个因子筛选流程;
对多个因子筛选流程进行评分,根据评分结果确定出目标因子筛选流程。
在其中一个实施例中,目标因子包括高频因子和高维因子中的至少一种;因子类型包括信息因子、冗余因子、相关因子和无关因子;
生成相应的数据集,包括:
根据信息因子、冗余因子、相关因子和无关因子,随机生成相应数量的样本;
将样本、信息因子、冗余因子、相关因子和无关因子进行合成,得到数据集。
在其中一个实施例中,第一筛选标准包括合格因子筛选方法集中的因子筛选方法包含信息因子;
信息因子用于合成目标变量;冗余因子用于合成信息因子;相关因子为部分数据由目标变量合成的因子;无关因子为与目标变量无关的因子。
在其中一个实施例中,第二筛选标准包括处理顺序;处理顺序包括依次进行的删除操作和选择操作;
基于第二筛选标准对不同功能因子筛选方法集中相应的因子筛选方法集进行组合,生成多个因子筛选流程,包括:
通过依次进行的删除操作和选择操作,对不同功能因子筛选方法集进行处理,得到第一方法集;
采用模型调整器对第一方法集进行调整,得到调整后的模型选择最佳子集;
通过选择最佳因子子集方法集对调整后的模型选择最佳子集进行处理后进行模型评估,得到多个因子筛选流程。
在其中一个实施例中,对多个因子筛选流程进行评分,根据评分结果确定出目标因子筛选流程,包括:
基于因子筛选流程对测试数据集进行筛选,得到筛选结果;
对筛选结果进行评分,将评分最高对应的因子筛选流程确认为目标因子筛选流程。
在其中一个实施例中,对筛选结果进行评分包括:将任一因子类型对应的因子出现在筛选结果中的次数作为评分标准。
第二方面,本申请还提供了一种目标因子筛选装置,装置包括:
数据集生成模块,用于依据任务类型,生成相应的数据集,获取数据集中各因子类型对应的标签信息;
方法集生成模块,用于基于第一筛选标准和标签信息,对各备选因子筛选方法进行检验,构建合格因子筛选方法集;对合格因子筛选方法集中各因子筛选方法进行功能分类,得到不同功能因子筛选方法集;
组合模块,用于基于第二筛选标准对不同功能因子筛选方法集中相应的因子筛选方法进行组合,生成多个因子筛选流程;
确定模块,用于对多个因子筛选流程进行评分,根据评分结果确定出目标因子筛选流程。
第三方面,本申请还提供了一种计算机设备,包括存储器和处理器,存储器存储有计算机程序,处理器执行计算机程序时实现上述的目标因子筛选方法的步骤。
第四方面,本申请还提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述的目标因子筛选方法的步骤。
第五方面,本申请还提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述的目标因子筛选方法的步骤。
上述目标因子筛选方法及装置,通过依据任务类型生成相应的数据集,并获取数据集中各因子类型对应的标签信息;基于第一筛选标准和标签信息对获取到的多种因子筛选方法进行检验,构建合格因子筛选方法集,并对合格因子筛选方法集中各因子筛选方法进行功能分类,得到不同功能因子筛选方法集;基于第二筛选标准对不同功能因子筛选方法集中相应的因子筛选方法集进行组合,生成多个因子筛选流程,对多个因子筛选流程进行评分,根据评分结果确定出目标因子筛选流程;本申请通过采用生成的数据集对各因子筛选流程进行校验和评价,保证了因子筛选方法流程的合理性,选取出最佳的目标因子筛选流程,提高了筛选的可靠性。
附图说明
图1为一个实施例中目标因子筛选方法的流程示意图;
图2为一个实施例中生成不同功能因子筛选方法集步骤的流程示意图;
图3为一个实施例中生成多个因子筛选流程步骤的流程示意图;
图4为另一个实施例中生成多个因子筛选流程步骤的流程示意图;
图5a为一个实施例中第一筛选流程的流程示意图;
图5b为一个实施例中第二筛选流程的流程示意图;
图5c为一个实施例中第三筛选流程的流程示意图;
图6为另一个实施例中第三筛选流程的流程示意图;
图7为一个实施例中目标因子筛选装置的结构框图;
图8为一个实施例中计算机设备的内部结构图;
图9为另一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的,不是旨在限制本申请。
可以理解的是,本申请中诸如“第一”、“第二”等术语仅用于区分类似的对象,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。本申请实施例中出现的“连接”是指直接连接或者间接连接等各种连接方式,以实现设备间的通信,本申请实施例对此不做任何限定。
可以理解,“至少一个”是指一个或多个,“多个”是指两个或两个以上。
在此使用时,单数形式的“一”、“一个”和“/该”也可以包括复数形式,除非上下文清楚指出另外的方式。还应当理解的是,术语“包括/包含”或“具有”等指定所陈述的特征、整体、步骤、操作、组件、部分或它们的组合的存在,但是不排除存在或添加一个或更多个其他特征、整体、步骤、操作、组件、部分或它们的组合的可能性。同时,在本说明书中使用的术语“和/或”包括相关所列项目的任何及所有组合。
特征筛选是从原始特征中选择一个子集,使得特征空间按照一定的评价标准进行最优缩减的过程。自上世纪70年代以来,特征筛选一直是研究和开发的一个活跃领域,并被证明可以有效地去除不相关和冗余的特征,提高模型学习任务的效率,提高预测准确性等性能,并增强学习结果的可理解性。
近年来,随着因子构建方法的发展,比如利用遗传规划等算法,各种时序特征提取的自动化工程项目,使得高频因子的维度急速增加,这种巨大的规模可能会给许多机器学习算法和深度学习算法带来可扩展性和学习性能方面的严重问题。例如,高维数据(即具有数百或数千甚至数亿个特征的数据集)可能包含高度不相关和冗余的信息,这可能会大大降低学习算法的性能。因此,在当今面对高维数据的机器学习或深度学习任务中,特征筛选变得非常必要。然而,这种在大小和维度上的巨大趋势也对因子筛选算法以及流程提出了严峻的挑战。
具体包括但不限于下述挑战:(1)因子维度挑战;(2)因子交互性挑战;(3)过拟合的挑战;(4)因子筛选方法评价的挑战;(5)因子筛选流程评价的挑战;(6)当特征数量很多但样本数量很少时,机器学习变得特别困难,因为搜索空间将稀疏分布,模型将无法正确区分相关数据和噪声;综上,已有主要的高维因子筛选流程,在适用范围、计算量、可解释性、稳定性,以及可靠性等方面或多或少地存在缺点和不足。
进一步地,现有的因子筛选算法包括但不限于下述问题:(1)基于遗传算法或基于时序特征挖掘的高频因子数量非常多,这样构成的高频因子数据维度高,如果不能进行有效的因子筛选,在进行高频因子预测的时候,将影响预测的准确性;(2)已经有非常多的因子筛选方法,它们的适用范围很评价体系都不一样,需要一个较为统一的评价体系去评价各种因子筛选方法,并结合各个因子筛选方法的优缺点进行组合;(3)缺乏较为有效的因子筛选流程的评价方法。
本申请实施例提供的目标因子筛选方法,可以应用于终端或服务器,以服务器为例进行说明,服务器可以利用合成的数据集对各种因子筛选方法进行检验以及有效的评分,对于每种因子筛选流程的功能和有效性进行了评分,最终形成一套有效的目标因子筛选流程(高维高频因子的筛选流程),其中,对该流程进行打分,有助于新的因子筛选方法的研究和评估,进而不断改性因子筛选流程。需要说明的是,终端可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备,物联网设备可为智能音箱、智能电视、智能空调、智能车载设备等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一个实施例中,如图1所示,提供了一种目标因子筛选方法,方法包括:
S102,依据任务类型,生成相应的数据集,获取数据集中各因子类型对应的标签信息。
其中,任务类型可以指分类任务和回归任务中的任意一种类型。
具体而言,可以依据任务类型合成相应的数据集,并对各数据集中的因子进行分类以及打标签,获取标签信息。
在其中一个实施例中,目标因子包括高频因子和高维因子中的至少一种;因子类型包括信息因子、冗余因子、相关因子和无关因子;
生成相应的数据集,包括:
根据信息因子、冗余因子、相关因子和无关因子,随机生成相应数量的样本;
将样本、信息因子、冗余因子、相关因子和无关因子进行合成,得到数据集。
其中,无关因子可以根据伯努利过程随机生成得到。
其中,样本的数量可以根据实际情况进行设定,在本申请实施例中不做限定。
具体地,可以根据获取到的信息因子、冗余因子、相关因子和无关因子随机生成相应数量的样本,并将获取到的样本与信息因子、冗余因子、相关因子和无关因子进行组合,生成数据集。
示例性地,数据集可以包括下表1中示出的数据集:
需要说明的是,表1中的相关特征可以指信息因子,也可以指非线性相关因子;表1中的冗余特征可以指冗余因子;表1中的关联特征可以指相关因子;表1中的无用特征可以指无关因子;进一步地,表1中的ORAND(或与)、ANDOR(与或)、ADDER(加法器)、LED16(二极管16)以及PRC(并联电阻)数据集可以根据合成的数据进行特征选择。
可选地,合成数据集的合成逻辑可以如下所示,需要说明的是,不相关特征可以指无用特征。
ORAND数据集:
ORAND数据集可以包含3个相关特征X1,X2和X3,目标变量Y可以通过以下公式(1)计算得到:
Y=X1∧(X2∨X3) (1)
除了3个相关变量(相关特征)外,还添加了3个冗余变量(冗余特征),分别对应X1、X2和X3。我们还添加了2个特征(关联特征),它们可以在70%的实例中随机匹配目标变量。此外,ORAND数据集还可以包括92个不相关的特征(无用特征),它们可以根据伯努利过程随机生成。可以获得一个由3个相关特征、3个冗余特征、2个关联特征和92个不相关特征组成的合成数据集,总共有2100种可能的特征值组合,可以选择50个样本。与高维数据常见的情况一样,特征数量相对于观测数量较高,虽然默认样本数量为50,但可以根据实际需要进行更改。进一步地,观测数量和不相关特征的数量都可以变化,以分析特征选择算法在不同条件下的性能;此外,可以通过生成默认设置下(样本数量为50)的建议数据集,以此获得基准参考结果。
ANDOR数据集:
ANDOR数据集可以包含四个相关特征X1、X2、X3和X4。目标变量Y可以通过以下公式(2)计算得到:
Y=(X1∧X2)∨(X3∧X4) (2)
公式(2)中的表达式可以看作是乘积之和;除了四个相关变量(相关特征)外,还添加了四个冗余(相关)变量(冗余特征),分别对应X1、X2、X3和X4,还添加了2个特征(关联特征),关联特征70%的时间随机与目标变量Y匹配。最后,ANDOR数据集还可以包括90个不相关的特征(无用特征),它们可以根据伯努利过程随机生成。可以使用这些特征随机生成n=50个样本。获得一个由4个相关特征、4个冗余特征、2个关联特征和90个不相关特征以及50个样本组成的合成ANDOR数据集。与ORAND数据集相同,不相关特征数量和样本数量可以更改,以在不同场景下评估特征选择算法。
ADDER数据集:
ADDER数据集基于同名加法器电路,可以为一个多类目标数据集。全加器接收三个输入X1、X2和X3(相关特征),并产生两个输出Y1和Y2,输出Y1和Y2可以根据以下公式(3)和(4)计算得到:
Y1=(X1⊕X2⊕X3) (3)
Y2=(X1∧X2)∨(X3∧(X1⊕X2)) (4)
通过将Y1和Y2的值组合成一个目标变量Y=(Y1,Y2),可以得到一个4类目标变量:Y={(0,0),(0,1),(1,0),(1,1)}。添加冗余特征,分别对应X1、X2和X3,以及2个关联特征和92个不相关特征。可以根据完整的特征集随机生成n=50个样本。最终数据集由3个相关特征、3个冗余特征、2个关联特征和92个不相关特征以及50个观测值(样本)组成。
LED-16数据集:
LED-16数据集可以由16个相关特征、16个冗余特征、2个关联特征和66个不相关特征以及180个观测值(样本)组成。LED-16数据集可以为一个多类数据集,具有36类目标变量。
PRC数据集:
PRC数据集可以基于并联电阻电路,给定一组并联连接的电阻器{R1,R2,…,RN},总电阻RT由以下公式(5)给出:
可以使用5个并联连接的电阻器(相关特征)。相关特征Xi根据均值μi=10和标准差σi=i,i=1,2,…,5的高斯分布生成。目标变量Y=RT可以根据公式(5)计算得到。由于并联电阻器以及总电阻都是连续值变量,PRC数据集可以指回归任务。通过生成5个冗余特征、2个关联特征和88个不相关特征包含在PRC数据集中。
本申请实施例中,通过依据任务类型,将获取到的样本、信息因子、冗余因子、相关因子和无关因子组成相应的数据集,提高了筛选的可靠性。
在其中一个实施例中,第一筛选标准包括合格因子筛选方法集中的因子筛选方法包含信息因子;
信息因子用于合成目标变量;冗余因子用于合成信息因子;相关因子为部分数据由目标变量合成的因子;无关因子为与目标变量无关的因子。
其中,第一筛选标准可以根据实际情况进行设定,本申请实施例中以经过该因子筛选方法筛选后包含所有信息因子作为第一筛选标准为例进行说明。
具体地,可以分别对各数据集中所有特征(因子)进行打标签,其中,信息因子(informative factor)可以指用于合成目标变量的因子,可以按顺序打标签为informative1,2,3...N;冗余因子(redundant factor)可以指用于合成信息因子的因子,可以按顺序打标签为redundant1,2,3...N;相关因子(correlative factor)可以为部分数据由目标变量合成的因子,可以按顺序打标签为correlative1,2,3...N;无关因子(useless factor)可以为与目标变量无关的因子,可以按顺序打标签为useless1,2,3...N。
可选地,分别对各数据集中所有特征(因子)进行打标签,后期做筛选的时候,分类任务可以选择一个或多个的合成数据集。
本申请实施例中,通过获取各因子类型对应的标签信息,便于后续筛选操作的进行,提高了筛选的可靠性。
S104,基于第一筛选标准和标签信息,对各备选因子筛选方法进行检验,构建合格因子筛选方法集;对合格因子筛选方法集中各因子筛选方法进行功能分类,得到不同功能因子筛选方法集。
其中,不同功能因子筛选方法集可以包括但不限于:去除不用因子方法集、去除重复因子方法集、去除多重共线性方法集、选择重要因子方法集、选择相关因子方法集、选择相交因子方法集和综合性选择因子方法集。
具体而言,可以获取多种因子筛选方法,并基于第一筛选标准和数据库中的标签信息对各因子筛选方法进行检验,构建合格因子筛选方法集,并将合格因子筛选方法集按照功能,即,因子筛选方法的原理及实际效果进行分类,构成多个功能的因子筛选方法集(不同功能因子筛选方法集)。
可选地,通过对所有的因子筛选方法进行统一的检验,对于不能保留有效因子的筛选方法将无法进入到后续的因子筛选流程中,这样可以提高因子筛选的鲁棒性,保证在真实数据集中进行因子筛选时,可以保留更多有效的因子。
示例性地,多种因子筛选方法可以如下表2所示:
表2
可选地,图2展示了对备选因子筛选方法(多种因子筛选方法)进行检验,得到一系列不同功能的合格因子筛选方法集(不同功能因子筛选方法集)对应的具体流程图,其中,因子筛选方法检验可以指基于第一筛选标准和标签信息对各因子筛选方法进行检验。
S106,基于第二筛选标准对不同功能因子筛选方法集中相应的因子筛选方法进行组合,生成多个因子筛选流程。
其中,第二筛选标准可以根据实际情况进行设定,在本申请实施例中不做限定。
具体而言,可以基于第二筛选标准对不同功能因子筛选方法集中相应的因子筛选方法集进行组合,以生成多个因子筛选流程,从而通过检验的因子筛选方法中,根据它们的功能不同,将它们进一步分解为不同功能的因子筛选方法集(不同功能因子筛选方法集),然后,可以将不同功能串联或者并联在一起,以最大程度发挥各个功能集的特性,从而提高因子筛选流程的效果。
示例性地,在因子筛选过程中,可以先确定基本筛选步骤(第二筛选标准),例如先删除,后选择的方式,之后需要考虑因子筛选方法的组合问题,例如选择相关因子的时候,可以把剩余的因子作为可能的相交因子集,及剩余因子之间相交之后才与目标变量相关,剩余因子本身与目标变量的关系不大,则可以采用相交因子方法集选择这一部分因子,或者可以直接选择具有综合功能的因子选择方法集等,此处没有规定具体的顺序。
在其中一个实施例中,如图3所示,第二筛选标准包括处理顺序;处理顺序包括依次进行的删除操作和选择操作;
基于第二筛选标准对不同功能因子筛选方法集中相应的因子筛选方法集进行组合,生成多个因子筛选流程,包括:
S302,通过依次进行的删除操作和选择操作,对不同功能因子筛选方法集进行处理,得到第一方法集。
具体地,第二筛选标准可以根据实际情况进行设定,本申请实施例中以第二筛选标准中包括相应的处理顺序为例进行说明。通过依次进行的删除操作和选择操作,进而获取第一方法集。
S304,采用模型调整器对第一方法集进行调整,得到调整后的模型选择最佳子集。
其中,模型调整器可以指防止过拟合模型调整估计器,用于防止过拟合。
具体地,为防止完成组合的因子筛选方法集过拟合,可以采用模型调整器对第一方法集进行调整,得到调整后的模型选择最佳子集。
S306,通过选择最佳因子子集方法集对调整后的模型选择最佳子集进行处理后进行模型评估,得到多个因子筛选流程。
具体地,可以选取选择最佳因子子集方法集中不同的选择最佳因子子集方法对完成调整的因子筛选方法集进行处理,进而获取多个因子筛选流程。
示例性地,在经过先删除、后选择(第二筛选标准)的步骤之后,可能会有部分的因子经过各功能的因子筛选方法后还存在于特征集中,如图4所示,此时则可以采用选择最佳因子子集方法集的方法对特征集进一步筛选,由于此时需要采用特定的模型,为了防止过拟合,可以采用防止过拟合模型调整估计器,在选择最佳因子子集方法集中选择一种方法对模型选择最佳子集,得到最终的特征集。在不同的方法集中选择不同的方法,则构成不同的因子筛选流程,进而形成因子筛选流程集(多个因子筛选流程)。
可选地,如图4所示,可以采用去除无用因子方法集中的方法进行删除具有大量常数值特征,可以采用去除重复因子方法集中的方法进行删除高度相关的特征,可以采用去除多重共线性方法集中的方法进行删除多重共线性的特征。
本申请实施例中,通过模型调整器和选取选择最佳因子子集方法集中相应的选择最佳因子子集方法对完成组合的因子筛选方法集进行处理,得到多个因子筛选流程,保证了因子筛选流程的合理性,提升了筛选的可靠性和准确性。
S108,对多个因子筛选流程进行评分,根据评分结果确定出目标因子筛选流程。
具体而言,在得到多个因子筛选流程后,需要对各因子筛选流程进行评分以此筛选出最佳的因子筛选方法(目标因子筛选方法),从而实现一套高维高频因子的筛选流程的框架,提升了筛选的可靠性及稳定性。
在其中一个实施例中,对多个因子筛选流程进行评分,根据评分结果确定出目标因子筛选流程,包括:
基于因子筛选流程对测试数据集进行筛选,得到筛选结果;
对筛选结果进行评分,将评分最高对应的因子筛选流程确认为目标因子筛选流程。
其中,测试数据集的合成方法与上述数据集方法类似,在本申请实施例中不做赘述。
具体地,可以采用获取到的多个因子筛选流程分别对测试数据集进行筛选,并对筛选结果进行评分,将评分最高对应的因子筛选流程确认为目标因子筛选方法。
示例性地,用于合成测试数据集的参数可以为,通过选择10个随机数种子,10个不同级别的噪音,对应每个任务,生成100个数据集(测试数据集),将每个因子筛选流程对这100个数据集分别执行对应的因子筛选得到100个因子集,并对100个因子集进行评分,以确认出目标因子筛选方法。
本申请实施例中,利用测试数据集对各因子筛选流程进行检验以及有效的评分,对于各因子筛选流程的功能和有效性进行了评估,提高了筛选的可靠性和准确性。
在其中一个实施例中,对筛选结果进行评分包括:将任一因子类型对应的因子出现在筛选结果中的次数作为评分标准。
具体地,可以将任一因子类型对应的因子出现在筛选结果中的次数作为评分标准,通过此评分标准对筛选结果进行评分,以确定出目标因子筛选流程。
示例性地,可以将信息因子出现在筛选结果中的次数作为评分标准,选中记1分,未选中记0分(因子筛选流程打分),得到一个总分数,这样对得到的各因子筛选进行总得分排序,得到最高分的因子筛选流程即为所需要的最终因子筛选流程(根据得分筛选出最优因子筛选流程);需要说明的是,最终因子筛选流程和最优因子筛选流程均可以指目标因子筛选方法。
为了便于本领域技术人员的理解,下面结合一个具体示例对筛选结果进行评分予以说明:
在任务类型为分类任务的情况下,测试数据集可以为ANDOR(二分类)数据集或LED-16(多分类)数据集,可以选取10个不同的随机数种子,根据噪声的级别分为10级,根据X1、X2、X3、X4(信息因子)被选出来的次数进行打分,运行10次,对于所有的打分进行加和,得到总分数210分,示意图如下表3所示:
表3
| 次数 | X1 | X2 | X3 | X4 |
| 1 | 5 | 3 | 10 | 3 |
| 2 | 5 | 3 | 10 | 3 |
| 3 | 5 | 3 | 10 | 3 |
| 4 | 5 | 3 | 10 | 3 |
| 5 | 5 | 3 | 10 | 3 |
| 6 | 5 | 3 | 10 | 3 |
| 7 | 5 | 3 | 10 | 3 |
| 8 | 5 | 3 | 10 | 3 |
| 9 | 5 | 3 | 10 | 3 |
| 10 | 5 | 3 | 10 | 3 |
| 综合 | 50 | 30 | 100 | 30 |
在任务类型为回归任务的情况下,测试数据集可以为PRC数据集,可以选取不同的随机数种子,根据X1、X2、X3、X4、X5被选出来的次数进行打分,运行10次,对于所有的打分进行加和,得到总分数310分,示意图如下表4所示:
表4
| 次数 | X1 | X2 | X3 | X4 | X5 |
| 1 | 5 | 3 | 10 | 3 | 10 |
| 2 | 5 | 3 | 10 | 3 | 10 |
| 3 | 5 | 3 | 10 | 3 | 10 |
| 4 | 5 | 3 | 10 | 3 | 10 |
| 5 | 5 | 3 | 10 | 3 | 10 |
| 6 | 5 | 3 | 10 | 3 | 10 |
| 7 | 5 | 3 | 10 | 3 | 10 |
| 8 | 5 | 3 | 10 | 3 | 10 |
| 9 | 5 | 3 | 10 | 3 | 10 |
| 10 | 5 | 3 | 10 | 3 | 10 |
| 综合 | 50 | 30 | 100 | 30 | 100 |
本申请实施例中,利用合成的测试数据集对各因子筛选流程进行检验以及有效的评估,对于各因子筛选流程的功能和有效性进行了评估,最终形成一套有效的高维高频因子的筛选流程(目标因子筛选方法),并对该流程进行打分,有助于新的因子筛选方法的研究和评估,进而不断改进因子筛选流程。
上述目标因子筛选方法中,通过依据任务类型生成相应的数据集,并获取数据集中各因子类型对应的标签信息;基于第一筛选标准和标签信息对获取到的多种因子筛选方法进行检验,构建合格因子筛选方法集,并对合格因子筛选方法集中各因子筛选方法进行功能分类,得到不同功能因子筛选方法集;基于第二筛选标准对不同功能因子筛选方法集中相应的因子筛选方法集进行组合,生成多个因子筛选流程,对多个因子筛选流程进行评分,根据评分结果确定出目标因子筛选流程,通过采用生成的数据集对各因子筛选流程进行校验和评价,保证了因子筛选方法流程的合理性,选取出最佳的目标因子筛选流程,提高了筛选的可靠性和准确性;进一步地,本申请可以应用于高维时间序列特征工程。
为了便于本领域技术人员的理解,下面结合一个具体实例对目标因子筛选方法予以说明:
选取如下表5所示的备选因子筛选方法集、经过因子筛选方法检验后,得到如下表5所示的合格因子筛选方法集、进一步划分为不同功能因子筛选方法集(不同功能因子筛选方法集)、进一步得到因子筛选流程,最后得到每个流程的得分,并确定出目标因子筛选流程。
表5
因子筛选流程可以包括第一筛选流程、第二筛选流程和第三筛选流程,第一筛选流程可以如图5a所示,第二筛选流程可以如图5b所示,第三筛选流程可以如图5c所示,其中,第一筛选流程的评分为350,第二筛选流程的评分为330。
假设将第三筛选流程确认为目标因子筛选方法,参照图5c所示的FRESH,将FRESH进行拆解,可以得到如下更具体的流程,前向和后向子集筛选也进行更加详细的拆解,得到下面的流程图,如图6所示。
应该理解的是,虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
基于同样的发明构思,本申请实施例还提供了一种用于实现上述所涉及的目标因子筛选方法的目标因子筛选装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个目标因子筛选装置实施例中的具体限定可以参见上文中对于目标因子筛选方法的限定,在此不再赘述。
在一个实施例中,如图7所示,提供了一种目标因子筛选装置700,装置包括:
数据集生成模块701,用于依据任务类型,生成相应的数据集,获取数据集中各因子类型对应的标签信息;
方法集生成模块702,用于基于第一筛选标准和标签信息,对各备选因子筛选方法进行检验,构建合格因子筛选方法集;对合格因子筛选方法集中各因子筛选方法进行功能分类,得到不同功能因子筛选方法集;
组合模块703,用于基于第二筛选标准对不同功能因子筛选方法集中相应的因子筛选方法进行组合,生成多个因子筛选流程;
确定模块704,用于对多个因子筛选流程进行评分,根据评分结果确定出目标因子筛选流程。
在其中一个实施例中,目标因子包括高频因子和高维因子中的至少一种;因子类型包括信息因子、冗余因子、相关因子和无关因子;
数据集生成模块701,还用于根据信息因子、冗余因子、相关因子和无关因子,随机生成相应数量的样本;
将样本、信息因子、冗余因子、相关因子和无关因子进行合成,得到数据集。
在其中一个实施例中,第一筛选标准包括合格因子筛选方法集中的因子筛选方法包含信息因子;
信息因子用于合成目标变量;冗余因子用于合成信息因子;相关因子为部分数据由目标变量合成的因子;无关因子为与目标变量无关的因子。
在其中一个实施例中,不同功能因子筛选方法集包括选择最佳因子子集方法集;
第二筛选标准包括处理顺序;处理顺序包括依次进行的删除操作和选择操作;
组合模块703,还用于通过依次进行的删除操作和选择操作,对不同功能因子筛选方法集进行处理,得到第一方法集;
采用模型调整器对第一方法集进行调整,得到调整后的模型选择最佳子集;
通过选择最佳因子子集方法集对调整后的模型选择最佳子集进行处理后进行模型评估,得到多个因子筛选流程。
在其中一个实施例中,确定模块704,还用于基于因子筛选流程对测试数据集进行筛选,得到筛选结果;
对筛选结果进行评分,将评分最高对应的因子筛选流程确认为目标因子筛选流程。
在其中一个实施例中,确定模块704,还用于将任一因子类型对应的因子出现在筛选结果中的次数作为评分标准。
上述目标因子筛选装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图8所示。该计算机设备包括处理器、存储器、输入/输出接口(Input/Output,简称I/O)和通信接口。其中,处理器、存储器和输入/输出接口通过系统总线连接,通信接口通过输入/输出接口连接到系统总线。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储数据集和方法集。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种目标因子筛选方法。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图9所示。该计算机设备包括处理器、存储器、输入/输出接口、通信接口、显示单元和输入装置。其中,处理器、存储器和输入/输出接口通过系统总线连接,通信接口、显示单元和输入装置通过输入/输出接口连接到系统总线。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过WIFI、移动蜂窝网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种目标因子筛选方法。
本领域技术人员可以理解,图8和图9中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述的目标因子筛选方法的步骤。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述的目标因子筛选方法的步骤。
在一个实施例中,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述的目标因子筛选方法的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory,ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory,MRAM)、铁电存储器(Ferroelectric Random Access Memory,FRAM)、相变存储器(Phase Change Memory,PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器等。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory,DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。
Claims (10)
1.一种目标因子筛选方法,其特征在于,所述方法包括:
依据任务类型,生成相应的数据集,获取所述数据集中各因子类型对应的标签信息;
基于第一筛选标准和所述标签信息,对各备选因子筛选方法进行检验,构建合格因子筛选方法集;对所述合格因子筛选方法集中各因子筛选方法进行功能分类,得到不同功能因子筛选方法集;
基于第二筛选标准对所述不同功能因子筛选方法集中相应的因子筛选方法进行组合,生成多个因子筛选流程;
对所述多个所述因子筛选流程进行评分,根据评分结果确定出目标因子筛选流程。
2.根据权利要求1所述的目标因子筛选方法,其特征在于,所述目标因子包括高频因子和高维因子中的至少一种;所述因子类型包括信息因子、冗余因子、相关因子和无关因子;
所述生成相应的数据集,包括:
根据所述信息因子、所述冗余因子、所述相关因子和所述无关因子,随机生成相应数量的样本;
将所述样本、所述信息因子、所述冗余因子、所述相关因子和所述无关因子进行合成,得到所述数据集。
3.根据权利要求2所述的目标因子筛选方法,其特征在于,所述第一筛选标准包括所述合格因子筛选方法集中的因子筛选方法包含所述信息因子;
所述信息因子用于合成目标变量;所述冗余因子用于合成所述信息因子;所述相关因子为部分数据由所述目标变量合成的因子;所述无关因子为与所述目标变量无关的因子。
4.根据权利要求1所述的目标因子筛选方法,其特征在于,所述第二筛选标准包括处理顺序;所述处理顺序包括依次进行的删除操作和选择操作;
所述基于第二筛选标准对所述不同功能因子筛选方法集中相应的因子筛选方法集进行组合,生成多个因子筛选流程,包括:
通过所述依次进行的删除操作和选择操作,对所述不同功能因子筛选方法集进行处理,得到第一方法集;
采用模型调整器对所述第一方法集进行调整,得到调整后的模型选择最佳子集;
通过选择最佳因子子集方法集对所述调整后的模型选择最佳子集进行处理后进行模型评估,得到所述多个因子筛选流程。
5.根据权利要求1所述的目标因子筛选方法,其特征在于,所述对所述多个所述因子筛选流程进行评分,根据评分结果确定出目标因子筛选流程,包括:
基于所述因子筛选流程对测试数据集进行筛选,得到筛选结果;
对所述筛选结果进行评分,将评分最高对应的所述因子筛选流程确认为所述目标因子筛选流程。
6.根据权利要求5所述的目标因子筛选方法,其特征在于,所述对所述筛选结果进行评分包括:将任一所述因子类型对应的因子出现在所述筛选结果中的次数作为评分标准。
7.一种目标因子筛选装置,其特征在于,所述装置包括:
数据集生成模块,用于依据任务类型,生成相应的数据集,获取所述数据集中各因子类型对应的标签信息;
方法集生成模块,用于基于第一筛选标准和所述标签信息,对各备选因子筛选方法进行检验,构建合格因子筛选方法集;对所述合格因子筛选方法集中各因子筛选方法进行功能分类,得到不同功能因子筛选方法集;
组合模块,用于基于第二筛选标准对所述不同功能因子筛选方法集中相应的因子筛选方法进行组合,生成多个因子筛选流程;
确定模块,用于对所述多个所述因子筛选流程进行评分,根据评分结果确定出目标因子筛选流程。
8.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述的目标因子筛选方法的步骤。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的目标因子筛选方法的步骤。
10.一种计算机程序产品,包括计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至6中任一项所述的目标因子筛选方法的步骤。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN202311085056.7A CN117235479A (zh) | 2023-08-25 | 2023-08-25 | 目标因子筛选方法及装置 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN202311085056.7A CN117235479A (zh) | 2023-08-25 | 2023-08-25 | 目标因子筛选方法及装置 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| CN117235479A true CN117235479A (zh) | 2023-12-15 |
Family
ID=89083486
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| CN202311085056.7A Pending CN117235479A (zh) | 2023-08-25 | 2023-08-25 | 目标因子筛选方法及装置 |
Country Status (1)
| Country | Link |
|---|---|
| CN (1) | CN117235479A (zh) |
Citations (7)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US20150169774A1 (en) * | 2013-08-19 | 2015-06-18 | Monster Worldwide, Inc. | Sourcing Abound Candidates Apparatuses, Methods and Systems |
| CN107318267A (zh) * | 2013-08-12 | 2017-11-03 | 豪夫迈·罗氏有限公司 | 用于治疗补体相关的病症的组合物和方法 |
| CN111615629A (zh) * | 2017-11-27 | 2020-09-01 | 豪夫迈·罗氏有限公司 | 纳米孔sbs信号的标准化和基线移位移除 |
| US20210040442A1 (en) * | 2017-04-12 | 2021-02-11 | The Broad Institute, Inc. | Modulation of epithelial cell differentiation, maintenance and/or function through t cell action, and markers and methods of use thereof |
| US20220284071A1 (en) * | 2020-03-04 | 2022-09-08 | Karl Louis Denninghoff | Transitory salient attention capture to draw attention to digital document parts |
| US11443390B1 (en) * | 2015-11-06 | 2022-09-13 | Addepar, Inc. | Systems and user interfaces for dynamic and interactive table generation and editing based on automatic traversal of complex data structures and incorporation of metadata mapped to the complex data structures |
| CN115907035A (zh) * | 2022-12-09 | 2023-04-04 | 长三角集成电路工业应用技术创新中心 | 嵌入式人工智能声振检测系统和模型构建方法 |
-
2023
- 2023-08-25 CN CN202311085056.7A patent/CN117235479A/zh active Pending
Patent Citations (7)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN107318267A (zh) * | 2013-08-12 | 2017-11-03 | 豪夫迈·罗氏有限公司 | 用于治疗补体相关的病症的组合物和方法 |
| US20150169774A1 (en) * | 2013-08-19 | 2015-06-18 | Monster Worldwide, Inc. | Sourcing Abound Candidates Apparatuses, Methods and Systems |
| US11443390B1 (en) * | 2015-11-06 | 2022-09-13 | Addepar, Inc. | Systems and user interfaces for dynamic and interactive table generation and editing based on automatic traversal of complex data structures and incorporation of metadata mapped to the complex data structures |
| US20210040442A1 (en) * | 2017-04-12 | 2021-02-11 | The Broad Institute, Inc. | Modulation of epithelial cell differentiation, maintenance and/or function through t cell action, and markers and methods of use thereof |
| CN111615629A (zh) * | 2017-11-27 | 2020-09-01 | 豪夫迈·罗氏有限公司 | 纳米孔sbs信号的标准化和基线移位移除 |
| US20220284071A1 (en) * | 2020-03-04 | 2022-09-08 | Karl Louis Denninghoff | Transitory salient attention capture to draw attention to digital document parts |
| CN115907035A (zh) * | 2022-12-09 | 2023-04-04 | 长三角集成电路工业应用技术创新中心 | 嵌入式人工智能声振检测系统和模型构建方法 |
Non-Patent Citations (1)
| Title |
|---|
| 王美超;林丽;万露;高芸坤;: "基于感性语意模糊因子评价的图案设计源码特征集筛选", 图学学报, no. 06, 15 December 2019 (2019-12-15) * |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US10089421B2 (en) | Information processing apparatus and information processing method | |
| Mallick et al. | Bayesian methods for high dimensional linear models | |
| Golay et al. | Unsupervised feature selection based on the Morisita estimator of intrinsic dimension | |
| CN114218397A (zh) | 交易关系图谱处理方法、装置、计算机设备及存储介质 | |
| Silva et al. | An instance selection method for large datasets based on markov geometric diffusion | |
| CN116030312B (zh) | 模型评估方法、装置、计算机设备和存储介质 | |
| CN114881158B (zh) | 基于随机森林的缺失值填充方法、装置和计算机设备 | |
| CN114626747B (zh) | 资源获取影响因素的权重分析方法、装置、设备和介质 | |
| CN117235479A (zh) | 目标因子筛选方法及装置 | |
| Sharma et al. | Optimising feature selection: a comparative study of mRMR-Boruta/RFE hybrid approach | |
| CN119758958A (zh) | Pid回路相关性分析方法、装置、计算机设备和存储介质 | |
| Nadeem et al. | Stable variable ranking and selection in regularized logistic regression for severely imbalanced big binary data | |
| CN116910115A (zh) | 客群查询方法、装置、计算机设备和存储介质 | |
| CN118740662A (zh) | 异常请求检测方法、装置、计算机设备和存储介质 | |
| CN116776966A (zh) | 图像分类网络的训练方法、装置、计算机设备和存储介质 | |
| US20220382741A1 (en) | Graph embeddings via node-property-aware fast random projection | |
| CN117882137A (zh) | 使用隐藏变量亲和力的抗体竞争模型 | |
| CN117609210B (zh) | 数据表处理方法、装置、计算机设备和存储介质 | |
| CN113255933A (zh) | 特征工程和图网络生成方法和装置、分布式系统 | |
| CN118964394B (zh) | 一种潜在客户分析挖掘方法及系统 | |
| CN117235584B (zh) | 图数据分类方法、装置、电子装置和存储介质 | |
| CN118171953A (zh) | 目标企业筛选方法、装置、计算机设备和存储介质 | |
| CN116781373A (zh) | 风险评估方法、装置、设备、存储介质和程序产品 | |
| CN117435910A (zh) | 一种异常数据的检测方法、装置、计算机设备 | |
| CN121350083A (zh) | 数据集处理方法、装置、计算机设备、可读存储介质和程序产品 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| PB01 | Publication | ||
| PB01 | Publication | ||
| SE01 | Entry into force of request for substantive examination | ||
| SE01 | Entry into force of request for substantive examination |