[go: up one dir, main page]

CN111797078A - 数据清洗方法、模型训练方法、装置、存储介质及设备 - Google Patents

数据清洗方法、模型训练方法、装置、存储介质及设备 Download PDF

Info

Publication number
CN111797078A
CN111797078A CN201910282171.0A CN201910282171A CN111797078A CN 111797078 A CN111797078 A CN 111797078A CN 201910282171 A CN201910282171 A CN 201910282171A CN 111797078 A CN111797078 A CN 111797078A
Authority
CN
China
Prior art keywords
cleaning
data
cleaned
rule
cleaning rule
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910282171.0A
Other languages
English (en)
Inventor
陈仲铭
何明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Oppo Mobile Telecommunications Corp Ltd
Original Assignee
Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Oppo Mobile Telecommunications Corp Ltd filed Critical Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority to CN201910282171.0A priority Critical patent/CN111797078A/zh
Publication of CN111797078A publication Critical patent/CN111797078A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Quality & Reliability (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本申请实施例公开了一种数据清洗方法、模型训练方法、装置、存储介质及设备,其中,可以首先获取需要进行数据清洗的待清洗数据,以及获取待清洗数据的清洗需求,然后根据获取到的待清洗数据、清洗需求以及预先训练的清洗规则分类模型,确定出用于对待清洗数据进行数据清洗的目标清洗规则,最后根据确定出的目标清洗规则对待清洗数据进行数据清洗,使得对待清洗数据的清洗效果满足清洗需求。由此,只要预先训练得到清洗规则分类模型,后续即可利用该清洗规则分类模型实现对数据的自动清洗,而无需过多的人工参与,不仅降低了数据清洗的人力成本,更提高了数据清洗的效率。

Description

数据清洗方法、模型训练方法、装置、存储介质及设备
技术领域
本申请涉及数据处理技术领域,具体涉及一种数据清洗方法、模型训练方法、装置、存储介质及设备。
背景技术
目前,如何对海量的数据进行处理已经成为电子设备不得不面对的考验,而对数据进行处理的首要工作就是数据清洗,通俗的说,即识别并滤除“脏数据”、保留“干净数据”。然而,相关技术中在进行数据清洗时,往往依赖于人工的领域知识、经验等,导致了大量的人力资源消耗,使得数据清洗的人力成本较高。
发明内容
本申请实施例提供了一种数据清洗方法、模型训练方法、装置、存储介质及设备,能够降低数据清洗的人力成本。
第一方面,本申请实施例提供了一种数据清洗方法,应用于电子设备,该数据清洗方法包括:
获取需要进行数据清洗的待清洗数据;
获取所述待清洗数据的清洗需求;
根据所述待清洗数据、所述清洗需求以及预训练的清洗规则分类模型,确定用于对所述待清洗数据进行数据清洗的目标清洗规则;
根据所述目标清洗规则对所述待清洗数据进行数据清洗,使得对所述待清洗数据的清洗效果满足所述清洗需求;
其中,所述清洗规则分类模型利用表征清洗规则的清洗规则特征作为目标输出、表征所述清洗规则对应的待清洗样本数据及其清洗效果的联合特征作为训练输入,进行模型训练得到。
第二方面,本申请实施例提供了一种模型训练方法,应用于电子设备,该模型训练方法包括:
获取多个清洗规则,以及获取对应各所述清洗规则的待清洗样本数据;
获取各所述清洗规则对其对应的待清洗样本数据进行数据清洗的清洗效果;
获取各所述待清洗样本数据及其对应的清洗效果的联合特征,以及获取各所述清洗规则的清洗规则特征;
将各所述联合特征作为训练输入、将各所述联合特征对应的清洗规则特征作为目标输出进行模型训练,得到清洗规则分类模型。
第三方面,本申请实施例提供了一种数据清洗装置,应用于电子设备,该数据清洗装置包括:
数据获取模块,用于获取需要进行数据清洗的待清洗数据;
需求获取模块,用于获取所述待清洗数据的清洗需求;
规则确定模块,用于根据所述待清洗数据、所述清洗需求以及预训练的清洗规则分类模型,确定用于对所述待清洗数据进行数据清洗的目标清洗规则;
数据清洗模块,用于根据所述目标清洗规则对所述待清洗数据进行数据清洗,使得对所述待清洗数据的清洗效果满足所述清洗需求;
其中,所述清洗规则分类模型利用表征清洗规则的清洗规则特征作为目标输出、表征所述清洗规则对应的待清洗样本数据及其清洗效果的联合特征作为训练输入,进行模型训练得到。
第四方面,本申请实施例提供了一种模型训练装置,应用于电子设备,该模型训练装置包括:
第一获取模块,用于获取多个清洗规则,以及获取对应各所述清洗规则的待清洗样本数据;
第二获取模块,用于获取各所述清洗规则对其对应的待清洗样本数据进行数据清洗的清洗效果;
第三获取模块,用于获取各所述待清洗样本数据及其对应的清洗效果的联合特征,以及获取各所述清洗规则的清洗规则特征;
模型训练模块,用于将各所述联合特征作为训练输入、将各所述联合特征对应的清洗规则特征作为目标输出进行模型训练,得到清洗规则分类模型。
第五方面,本申请实施例提供了一种存储介质,其上存储有计算机程序,当所述计算机程序在计算机上运行时,使得所述计算机执行如本申请实施例提供的数据清洗方法中的步骤,或者使得所述计算机执行如本申请实施例提供的模型训练方法中的步骤。
第六方面,本申请实施例提供了一种电子设备,包括处理器和存储器,所述存储器有计算机程序,所述处理器通过调用所述计算机程序,用于执行如本申请实施例提供的数据清洗方法中的步骤,或者执行本申请实施例提供的模型训练方法中的步骤。
本申请实施例中,电子设备可以首先获取需要进行数据清洗的待清洗数据,以及获取待清洗数据的清洗需求,然后根据获取到的待清洗数据、清洗需求以及预先训练的清洗规则分类模型,确定出用于对待清洗数据进行数据清洗的目标清洗规则,最后根据确定出的目标清洗规则对待清洗数据进行数据清洗,使得对待清洗数据的清洗效果满足清洗需求。由此,只要预先训练得到清洗规则分类模型,后续即可利用该清洗规则分类模型实现对数据的自动清洗,而无需过多的人工参与,不仅降低了数据清洗的人力成本,更提高了数据清洗的效率。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的全景感知架构的结构示意图。
图2是本申请实施例提供的数据清洗方法的一流程示意图。
图3是本申请实施例提供的数据清洗方法的另一流程示意图。
图4是本申请实施例中电子设备根据清洗规则分类模型得到目标清洗规则的示意图。
图5是本申请实施例提供的模型训练方法的一流程示意图。
图6是本申请实施例提供的模型训练方法的另一流程示意图。
图7是本申请实施例中进行模型训练的应用场景示意图。
图8是本申请实施例提供的数据清洗装置的一结构示意图。
图9是本申请实施例提供的模型训练装置的一结构示意图。
图10是本申请实施例提供的电子设备的一结构示意图。
图11是本申请实施例提供的电子设备的另一结构示意图。
具体实施方式
请参照图式,其中相同的组件符号代表相同的组件,本申请的原理是以实施在一适当的运算环境中来举例说明。以下的说明是基于所例示的本申请具体实施例,其不应被视为限制本申请未在此详述的其它具体实施例。
随着传感器的小型化、智能化,如手机、平板电脑等电子设备集成了越来越多的传感器,比如光线传感器、距离传感器、位置传感器、加速度传感器以及重力传感器,等等。电子设备能够通过其配置的传感器以更小的功耗采集到更多的数据。同时,电子设备在运行过程中还会采集到自身状态相关的数据以及用户状态相关的数据,等等。笼统的说,电子设备能够获取到外部环境相关的数据(比如温度、光照、地点、声音、天气等)、用户状态相关的数据(比如姿势、速度、使用习惯、个人基本信息等)以及电子设备状态相关的数据(比如耗电量、资源使用状况、网络状况等)。本申请实施例中,将电子设备能够获取到的这些数据记为全景数据。
本申请实施例中,为了能够对电子设备获取到的这些数据进行处理,提出了一种全景感知架构。请参照图1,图1为本申请实施例提供的全景感知架构的结构示意图,应用于电子设备,其包括由下至上的信息感知层、数据处理层、特征抽取层、情景建模层以及智能服务层。
作为全景感知架构的最底层,信息感知层用于获取能够描述用户的各类型情景的原始数据,即全景数据。其中,信息感知层由多个用于数据采集的传感器组成,包括但不限于图示的用于检测电子设备与外部物体之间的距离的距离传感器、用于检测电子设备所处环境的磁场信息的磁场传感器、用于检测电子设备所处环境的光线信息的光线传感器、用于检测电子设备的加速度数据的加速度传感器、用于采集用户的指纹信息的指纹传感器、用于感应磁场信息的霍尔传感器、用于检测电子设备当前所处的地理位置的位置传感器、用于检测电子设备在各个方向上的角速度的陀螺仪、用于检测电子设备的运动数据惯性传感器、用于感应电子设备的姿态信息的姿态感应器、用于检测电子设备所处环境的气压的气压计以及用于检测用户的心率信息的心率传感器等。
作为全景感知架构的次底层,数据处理层用于对信息感知层获取到的原始数据进行处理,消除原始数据存在的噪声、不一致等问题。其中,数据处理层可以对信息感知层获取到的数据进行数据清理、数据集成、数据变换、数据归约等处理。
作为全景感知架构的中间层,特征抽取层用于对数据处理层处理后的数据进行特征抽取,以提取所述数据中包括的特征。其中,特征抽取层可以通过过滤法、包装法、集成法等方法来提取特征或者对提取到的特征进行处理。
过滤法是指对提取到的特征进行过滤,以删除冗余的特征数据。包装法用于对提取到的特征进行筛选。集成法是指将多种特征提取方法集成到一起,以构建一种更加高效、更加准确的特征提取方法,用于提取特征。
作为全景感知架构的次高层,情景建模层用于根据特征抽取层提取到的特征来构建模型,所得到的模型可以用于表示电子设备的状态或者用户状态或者环境状态等。例如,情景建模层可以根据特征抽取层提取到的特征来构建关键值模型、模式标识模型、图模型、实体联系模型、面向对象模型等。
作为全景感知架构的最高层,智能服务层用于根据情景建模层所构建的模型提供智能化服务。比如,智能服务层可以为用户提供基础应用服务,可以为电子设备进行系统智能优化服务,还可以为用户提供个性化智能服务等。
此外,全景感知架构中还包括算法库,算法库中包括但不限于图示的马尔科夫算法、隐含狄里克雷分布算法、贝叶斯分类算法、支持向量机、K均值聚类算法、K近邻算法、条件随机场、残差网络、长短期记忆网络、卷积神经网络以及循环神经网络等算法。
本申请实施例首先提供一种数据清洗方法,该数据清洗方法的执行主体可以是本申请实施例提供的数据清洗装置,或者集成了该数据清洗装置的电子设备,其中该数据清洗装置可以采用硬件或者软件的方式实现。其中,电子设备可以是智能手机、平板电脑、掌上电脑、笔记本电脑、或者台式电脑等配置有处理器而具有处理能力的设备。
基于本申请实施例所提供的数据清洗方法,信息感知层中将采集到的全景数据提供给数据处理层;数据处理层将来自于信息感知层的全景数据作为需要进行数据清洗的待清洗数据,并对其进行数据清洗,将清洗后的数据提供给特征抽取层;特征抽取层对来自于数据处理层的数据进行特征抽取,得到能够表征数据的特征,将抽取到的特征提供给情景建模层;情景建模层基于来自于特征抽取层的特征进行建模,利用建模得到的模型来表征电子设备的状态或者用户状态或者环境状态等;最后,智能服务层根据情景建模层所构建的模型提供对应的智能化服务,比如基础应用服务、系统优化服务、个性化服务等。
请参照图2,图2为本申请实施例提供的数据清洗方法的流程示意图,该数据清洗方法方法实现于全景感知架构的数据处理层,如图2所示,本申请实施例提供的数据清洗方法的流程可以如下:
在101中,获取需要进行数据清洗的待清洗数据。
比如,电子设备可以从本地获取需要进行数据清洗的待清洗数据,也可以从其它电子设备处获取需要进行数据清洗的待清洗数据,还可以从网络获取需要进行数据清洗的待清洗数据,等等。
在102中,获取待清洗数据的清洗需求。
本领域普通技术人员可以理解的是,现实世界的数据往往是多维度的、不完整的、有噪声的以及不一致的,数据清洗的目的就在于填充缺失的值、光滑噪声并识别离群点、纠正数据中的不一致等。
本申请实施例中,电子设备在获取到需要进行数据清洗的待清洗数据之后,进一步获取到待清洗数据的清洗需求。通俗的说,清洗需求描述了对待清洗数据进行数据清洗想要达到的清洗效果,比如,原始的待清洗数据含有多个维度的数据,而这些维度之间往往不是独立的,也就是说也许其中之间若干的维度之间存在关联,也许有他就可以没有我,这样,待执行数据的清洗需求可以是将待清洗数据降维到指定维度。
本领域普通技术人员可以理解的是,清洗需求取决于电子设备进行数据处理的实际所需,本申请实施例对此不做具体限制。
在103中,根据待清洗数据、清洗需求以及预训练的清洗规则分类模型,确定用于对待清洗数据进行数据清洗的目标清洗规则。
应当说明的是,本申请实施例中,在电子设备配置有用于选取何种清洗规则对待清洗数据进行数据清洗的清洗规则分类模型,该清洗规则分类模型利用表征清洗规则的清洗规则特征作为目标输出、表征清洗规则对应的待清洗样本数据及其清洗效果的联合特征作为训练输入,进行模型训练得到。
比如,可以预先整合所有可能的清洗规则,同时收集每个清洗规则对应的待清洗样本数据及其清洗效果;然后,获取能够表征清洗规则的清洗规则特征,以及获取能够表征待清洗样本数据及其清洗效果的联合特征;然后,将各联合特征作为训练输入、将各联合特征对应的清洗规则特征作为目标输出,按照预先设定的训练算法来进行模型训练,以训练得到用于选取何种清洗规则对待清洗数据进行数据清洗的清洗规则分类模型。
由此,电子设备在获取到需要进行数据清洗的待清洗数据,以及获取到待清洗数据的清洗需求之后,即可将待清洗数据和清洗需求输入到清洗规则分类模型,使得清洗规则分类模型输出能够对待清洗数据进行数据清洗且清洗效果满足清洗需求的清洗规则,将该清洗规则作为对待清洗数据进行数据清洗的目标清洗规则。
在104中,根据目标清洗规则对待清洗数据进行数据清洗,使得对待清洗数据的清洗效果满足前述清洗需求。
本申请实施例中,电子设备在确定用于对待清洗数据进行数据清洗的目标清洗规则之后,即可根据该目标清洗规则对待清洗数据进行数据清洗,使得对待清洗数据的清洗效果满足前述清洗需求,最终得到所需的数据。
由上可知,本申请实施例中,电子设备可以首先获取需要进行数据清洗的待清洗数据,以及获取待清洗数据的清洗需求,然后根据获取到的待清洗数据、清洗需求以及预先训练的清洗规则分类模型,确定出用于对待清洗数据进行数据清洗的目标清洗规则,最后根据确定出的目标清洗规则对待清洗数据进行数据清洗,使得对待清洗数据的清洗效果满足清洗需求。由此,只要预先训练得到清洗规则分类模型,后续即可利用该清洗规则分类模型实现对数据的自动清洗,而无需过多的人工参与,不仅降低了数据清洗的人力成本,更提高了数据清洗的效率。
请参照图3,图3为本申请实施例提供的数据清洗方法的另一种流程示意图。该数据清洗方法可以应用于电子设备,该数据清洗方法的流程可以包括:
在201中,获取传感器采集的传感器数据,将获取到的传感器数据作为待清洗数据。
应当说明的是,电子设备通常配置有多种传感器,通过这些传感器可以感知自身所处的环境、自身的运动等等。其中,电子设备配置的传感器包括但不限于重力传感器、加速度传感器、定位传感器(如卫星定位传感器、基站定位传感器等)、声音传感器以及光线传感器等。
然而,这些传感器采集的到的传感器数据并不都是是电子设备所需的,这就需要对电子设备对这些传感器数据进行清洗,从中清洗出实际所需的数据。
因此,本申请实施例中,电子设备可以获取自身配置的传感器所采集到的传感器数据,并将获取到的这些传感器数据作为待清洗数据。
在202中,获取待清洗数据的清洗需求。
本领域普通技术人员可以理解的是,现实世界的数据往往是多维度的、不完整的、有噪声的以及不一致的,数据清洗的目的就在于填充缺失的值、光滑噪声并识别离群点、纠正数据中的不一致等。
本申请实施例中,电子设备在获取到需要进行数据清洗的待清洗数据之后,进一步获取到待清洗数据的清洗需求。通俗的说,清洗需求描述了对待清洗数据进行数据清洗想要达到的清洗效果,比如,原始的待清洗数据含有多个维度的数据,而这些维度之间往往不是独立的,也就是说也许其中之间若干的维度之间存在关联,也许有他就可以没有我,这样,待执行数据的清洗需求可以是将待清洗数据降维到指定维度。
应当说明的是,本领域普通技术人员可以理解的是,清洗需求取决于电子设备进行数据处理的实际所需,本申请实施例对此不做具体限制。
在203中,获取待清洗数据以及清洗需求的联合特征。
在204中,将获取到的联合特征输入清洗规则分类模型,得到清洗规则分类模型输出的清洗规则特征。
在205中,确定与清洗规则分类模型输出的清洗规则特征所匹配的清洗规则,作为对待清洗数据进行数据清洗的目标清洗规则。
应当说明的是,本申请实施例中,在电子设备配置有用于选取何种清洗规则对待清洗数据进行数据清洗的清洗规则分类模型,该清洗规则分类模型利用表征清洗规则的清洗规则特征作为目标输出、表征清洗规则对应的待清洗样本数据及其清洗效果的联合特征作为训练输入,进行模型训练得到。
比如,可以预先整合所有可能的清洗规则,同时收集每个清洗规则对应的待清洗样本数据及其清洗效果;然后,获取能够表征清洗规则的清洗规则特征,以及获取能够表征待清洗样本数据及其清洗效果的联合特征;然后,将各联合特征作为训练输入、将各联合特征对应的清洗规则特征作为目标输出,按照预先设定的训练算法来进行模型训练,以训练得到用于选取何种清洗规则对待清洗数据进行数据清洗的清洗规则分类模型。
由此,电子设备在获取到需要进行数据清洗的待清洗数据,以及获取到待清洗数据的清洗需求之后,即可将待清洗数据和清洗需求输入到清洗规则分类模型,使得清洗规则分类模型输出能够对待清洗数据进行数据清洗且清洗效果满足清洗需求的清洗规则,将该清洗规则作为对待清洗数据进行数据清洗的目标清洗规则。
应当说明的是,本申请实施例中,将待清洗数据和清洗需求输入到清洗规则分类模型,并不是将待清洗数据和清洗需求本身输入到清洗规则分类模型,而是将能够表征待清洗数据和清洗需求的特征输入到清洗规则分类模型。
因此,在本申请实施例中,电子设备在获取到待清洗数据以及获取到待清洗数据的清洗需求之后,进一步获取待清洗数据以及清洗需求的联合特征,利用该联合特征来对待清洗数据及其清洗需求进行联合深度表征。
而在获取到的待清洗数据及其清洗需求的联合特征之后,电子设备将该联合特征输入到预训练的清洗规则分类模型中进行处理。另一方面,清洗规则分类模型对输入的联合特征进行处理,输出对应的清洗规则特征,该清洗规则特征表征能够对待清洗数据进行数据清洗且清洗效果达到清洗需求的清洗规则。
在电子设备得到清洗规则分类模型所输出的清洗规则特征之后,进一步确定与该清洗规则特征所匹配的清洗规则,将该清洗规则作为对待清洗数据进行数据清洗的目标清洗规则。
比如,请参照图4,电子设备获取到待清洗数据及其清洗需求的联合特征A,将该联合特征A输入到的清洗规则分类模型进行处理,得到清洗规则分类模型输出的清洗规则特征A,匹配出清洗规则A作为目标清洗规则。
在206中,根据目标清洗规则对待清洗数据进行数据清洗,使得对待清洗数据的清洗效果满足清洗需求。
本申请实施例中,电子设备在确定用于对待清洗数据进行数据清洗的目标清洗规则之后,即可根据该目标清洗规则对待清洗数据进行数据清洗,得到对待清洗数据的清洗效果满足其对应的清洗需求。
在一实施方式中,“获取待清洗数据以及清洗需求的联合特征”可以包括:
根据生成对抗网络获取待清洗数据以及清洗需求的联合特征。
在本申请实施例中,考虑到生成对抗网络能够基于已有数据生成更多的样本数据,并且具有较强的特征学习能力,电子设备可以根据生成对抗网络获取待清洗数据以及清洗需求的联合特征。
其中,电子设备在获取待清洗数据以及清洗需求的联合特征时,将待清洗数据和清洗需求组成数据对,表示为<待清洗数据,清洗需求>,然后根据生成对抗网络构建<待清洗数据,清洗需求>的联合特征。
应当说明的是,在其它实施方式中,可由本领域普通技术人员根据实际需求选取合适的特征构建方式来待清洗数据以及清洗需求的联合特征。
在一实施方式中,“确定与清洗规则分类模型输出的清洗规则特征所匹配的清洗规则”包括:
(1)获取清洗规则分类模型输出的清洗规则特征与预存的多个清洗规则的清洗规则特征之间的相似度;
(2)将相似度达到预设相似度的清洗规则作为与清洗规则分类模型输出的清洗规则特征所匹配的清洗规则。
应当说明的是,在本申请实施例中,与清洗规则分类模型输出的清洗规则特征所匹配的清洗规则,是指该清洗规则的清洗规则特征与清洗规则分类模型输出的清洗规则特征之间的相似度达到预设相似度。
因此,电子设备在确定与清洗规则分类模型输出的清洗规则特征所匹配的清洗规则时,可以首先获取清洗规则分类模型输出的清洗规则特征与预存的多个清洗规则的清洗规则特征之间的相似度,然后将相似度达到预设相似度的清洗规则作为与清洗规则分类模型输出的清洗规则特征所匹配的清洗规则,也即是后续用于对待清洗数据进行数据清洗的目标清洗规则。
比如,假设电子设备预存有清洗规则A的清洗规则特征A、清洗规则B的清洗规则特征B、清洗规则C的清洗规则特征C,且预设相似度被配置为85%。若电子设备获取到清洗规则A的清洗规则特征A与清洗规则分类模型输出的清洗规则特征的相似度为40%、清洗规则B的清洗规则特征B与清洗规则分类模型输出的清洗规则特征的相似度为45%、清洗规则C的清洗规则特征C与清洗规则分类模型输出的清洗规则特征的相似度为86%,可以看出,清洗规则C的清洗规则特征C与清洗规则分类模型输出的清洗规则特征的相似度达到预设相似度(85%),此时,电子设备将清洗规则C确定与清洗规则分类模型输出的清洗规则特征所匹配的清洗规则。
其中,在计算两个清洗规则特征之间的的相似度时,电子设备可以使用两个清洗规则特征之间的特征距离来衡量两个清洗规则特征之间的相似度,也即是计算两个清洗规则特征之间的特征距离(可由本领域普通技术人员根据实际需要选取任意一种特征距离,比如欧氏距离、曼哈顿距离、切比雪夫距离以及余弦距离等),作为两个清洗规则特征之间的相似度。可由本领域普通技术人员根据实际需要选取任意一种特征距离。
在一实施方式中,“根据目标清洗规则对待清洗数据进行数据清洗”包括:
调用目标清洗规则对应的一个或多个清洗函数,对待清洗数据进行数据清洗。
应当说明的是,在本申请实施例中,每一清洗规则均由一个或多个清洗函数构成,清洗函数用于实际实现清洗操作,包括但不限于缺失值处理、标准化处理、噪声消除处理等等。其中,清洗函数本身可由相关技术人员采用计算机程序语言(比如C语言、Java语言以及Python语言等)编写得到,比如正则表达式、过滤函数、SQL表达式等。
因此,电子设备在根据目标清洗规则对待清洗数据进行数据清洗时,可以调用目标清洗规则对应的一个或多个清洗函数,对待清洗数据进行数据清洗,使得对待清洗数据的清洗效果满足前述清洗需求,最终得到所需的数据。
请参照图5,图5为本申请实施例提供的模型训练方法,该模型训练方法用于训练出本申请实施例提供的数据清洗方法中所需的清洗规则分类模型,该模型训练方法的执行主体可以是本申请实施例提供的模型训练装置,或者集成了该模型训练装置的电子设备,其中该模型训练装置可以采用硬件或者软件的方式实现。如图5所示,本申请实施例提供的模型训练方法的流程可以如下:
在301中,获取多个清洗规则,以及获取对应各清洗规则的待清洗样本数据。
本申请实施例中,可以预先在电子设备创建面向清洗规则的数据库,其中,该面向清洗规则的数据库包括清洗规则子数据库、待清洗样本数据子数据库以及清洗效果子数据库。
在进行模型训练时,电子设备可以整合所有可能的清洗规则,并将这些清洗规则存储在清洗规则子数据库中。比如,电子设备将获取到的多个清洗规则以字符串的形式储存在清洗规则子数据库中。
此外,对于获取到的、并存储在清洗规则子数据库中的这些清洗规则,电子设备还进一步获取各清洗规则所对应的待清洗样本数据,并将这些待清洗样本数据存储到待清洗样本数据子数据库中,比如,将待清洗样本数据本身存储到待清洗样本子数据库中,如数字类型的待清洗样本数据仍然以数字类型存储到待清洗样本子数据库中。
应当说明的是,电子设备可以从本地获取待清洗样本数据,也可以从其它电子设备处获取待清洗样本数据,还可以从互联网获取待清洗样本数据。
在302中,获取各清洗规则对其对应的待清洗样本数据进行数据清洗的清洗效果。
本申请实施例中,电子设备在获取到多个清洗规则及各清洗规则对应的待清洗样本数据之后,进一步获取各清洗规则对其对应的待清洗样本数据进行数据清洗的清洗效果,并将这些清洗效果存储到清洗效果子数据库中。比如,可以将清洗效果以表格的形式存储到的清洗效果子数据库中。
在303中,获取各待清洗样本数据及其对应的清洗效果的联合特征,以及获取各清洗规则的清洗规则特征。
本申请实施例中,对于获取到的各待清洗样本数据及其对应的清洗效果,电子设备还获取各待清洗样本数据及其对应的清洗效果的联合特征,使用联合特征来对待清洗样本数据及其对应的清洗效果进行联合深度表征。
此外,电子设备还获取各清洗规则的清洗规则特征,使用清洗规则特征来对清洗规则进行表征。比如,电子设备可以获取各清洗规则对应的一个或多个清洗函数的词汇特征,作为各清洗规则的清洗规则特征。
在304中,将各联合特征作为训练输入、将各联合特征对应的清洗规则特征作为目标输出进行模型训练,得到清洗规则分类模型。
本申请实施例中,在获取到的各待清洗样本数据及其对应的清洗效果的联合特征,以及获取到各清洗规则的清洗规则特征之后,电子设备即可将各联合特征作为训练输入、将各联合特征对应的清洗规则特征作为目标输出,按照预先设定的训练算法来进行模型训练,以训练得到用于进行自动选取清洗规则的清洗规则分类模型。
其中,训练算法为机器学习算法,机器学习算法可以通过不断的特征学习来实现各种功能,比如,可以给定一待清洗数据及其对应的清洗需求,自动选取能够将对该待清洗数据进行数据清洗且清洗效果达到清洗需求的清洗规则。机器学习算法可以包括:决策树模型、逻辑回归模型、贝叶斯模型、神经网络模型、聚类模型等等。
此外,机器学习算法的算法类型可以根据各种情况划分,比如,可以基于学习方式可以将机器学习算法划分成:监督式学习算法、非监控式学习算法、半监督式学习算法、强化学习算法等等。
在监督式学习下,输入数据被称为“训练数据”,每组训练数据有一个明确的标识或结果,如对防垃圾邮件系统中“垃圾邮件”“非垃圾邮件”,对手写数字识别中的“1“,”2“,”3“,”4“等。在建立识别模型的时候,监督式学习建立一个学习过程,将场景类型信息与“训练数据”的实际结果进行比较,不断的调整识别模型,直到模型的场景类型信息达到一个预期的准确率。监督式学习的常见应用场景如分类问题和回归问题。常见算法有逻辑回归(Logistic Regression)和反向传递神经网络(Back Propagation Neural Network)。
在非监督式学习中,数据并不被特别标识,识别模型是为了推断出数据的一些内在结构。常见的应用场景包括关联规则的学习以及聚类等。常见算法包括Apriori算法以及k-Means算法等。
半监督式学习算法,在此学习方式下,输入数据被部分标识,这种学习模型可以用来进行类型识别,但是模型首先需要学习数据的内在结构以便合理的组织数据来进行预测。应用场景包括分类和回归,算法包括一些对常用监督式学习算法的延伸,这些算法首先试图对未标识数据进行建模,在此基础上再对标识的数据进行预测。如图论推理算法(Graph Inference)或者拉普拉斯支持向量机(Laplacian SVM)等。
强化学习算法,在这种学习模式下,输入数据作为对模型的反馈,不像监督模型那样,输入数据仅仅是作为一个检查模型对错的方式,在强化学习下,输入数据直接反馈到模型,模型必须对此立刻作出调整。常见的应用场景包括动态系统以及机器人控制等。常见算法包括Q-Learning以及时间差学习(Temporal difference learning)。
此外,还可以基于根据算法的功能和形式的类似性将机器学习算法划分成:
回归算法,常见的回归算法包括:最小二乘法(Ordinary Least Square),逻辑回归(Logistic Regression),逐步式回归(Stepwise Regression),多元自适应回归样条(Multivariate Adaptive Regression Splines)以及本地散点平滑估计(LocallyEstimated Scatterplot Smoothing)。
基于实例的算法,包括k-Nearest Neighbor(KNN),学习矢量量化(LearningVector Quantization,LVQ),以及自组织映射算法(Self-Organizing Map,SOM)。
正则化方法,常见的算法包括:Ridge Regression,Least Absolute Shrinkageand Selection Operator(LASSO),以及弹性网络(Elastic Net)。
决策树算法,常见的算法包括:分类及回归树(Classification And RegressionTree,CART),ID3(Iterative Dichotomiser 3),C4.5,Chi-squared AutomaticInteraction Detection(CHAID),Decision Stump,随机森林(Random Forest),多元自适应回归样条(MARS)以及梯度推进机(Gradient Boosting Machine,GBM)。
贝叶斯方法算法,包括:朴素贝叶斯算法,平均单依赖估计(Averaged One-Dependence Estimators,AODE),以及Bayesian Belief Network(BBN)。
请参照图6,图6为本申请实施例提供的模型训练方法的另一种流程示意图。该模型训练方法可以应用于电子设备,该模型训练方法的流程可以包括:
在401中,获取多个清洗规则,以及对应各清洗规则的待清洗样本数据。
本申请实施例中,可以预先在电子设备创建面向清洗规则的数据库,其中,该面向清洗规则的数据库包括清洗规则子数据库、待清洗样本数据子数据库以及清洗效果子数据库。
在进行模型训练时,电子设备可以整合所有可能的清洗规则,并将这些清洗规则存储在清洗规则子数据库中。比如,电子设备将获取到的多个清洗规则以字符串的形式储存在清洗规则子数据库中。
此外,对于获取到的、并存储在清洗规则子数据库中的这些清洗规则,电子设备还进一步获取各清洗规则所对应的待清洗样本数据,并将这些待清洗样本数据存储到待清洗样本数据子数据库中,比如,将待清洗样本数据本身存储到待清洗样本子数据库中,如数字类型的待清洗样本数据仍然以数字类型存储到待清洗样本子数据库中。
应当说明的是,电子设备可以从本地获取待清洗样本数据,也可以从其它电子设备处获取待清洗样本数据,还可以从互联网获取待清洗样本数据。
在402中,获取各清洗规则对其对应的待清洗样本数据进行数据清洗的清洗效果。
本申请实施例中,电子设备在获取到多个清洗规则及各清洗规则对应的待清洗样本数据之后,进一步获取各清洗规则对其对应的待清洗样本数据进行数据清洗的清洗效果,并将这些清洗效果存储到清洗效果子数据库中。比如,可以将清洗效果以表格的形式存储到的清洗效果子数据库中。
在403中,根据生成对抗网络获取各待清洗样本数据及其对应的清洗效果的联合特征。
本申请实施例中,对于获取到的各待清洗样本数据及其对应的清洗效果,电子设备还获取各待清洗样本数据及其对应的清洗效果的联合特征,使用联合特征来对待清洗样本数据及其对应的清洗效果进行联合深度表征。
考虑到生成对抗网络能够基于已有数据生成更多的样本数据,并且具有较强的特征学习能力,电子设备可以根据生成对抗网络获取待清洗样本数据以及清洗效果的联合特征。
其中,电子设备在获取待清洗样本数据及其对应的清洗效果的联合特征时,将待清洗样本数据及其对应的清洗效果组成数据对,表示为<待清洗样本数据,清洗效果>,然后根据生成对抗网络构建<待清洗样本数据,清洗效果>的联合特征。
在404中,根据编码器神经网络获取各清洗规则对应的一个或多个清洗函数的词汇特征,作为各清洗规则的清洗规则特征。
本申请实施例中,电子设备还获取各清洗规则的清洗规则特征,使用清洗规则特征来对清洗规则进行表征。
应当说明的是,在本申请实施例中,每一清洗规则均由一个或多个清洗函数构成,清洗函数用于实际实现清洗操作,包括但不限于缺失值处理、标准化处理、噪声消除处理等等。其中,清洗函数本身可由相关技术人员采用计算机程序语言(比如C语言、Java语言以及Python语言等)编写得到,比如正则表达式、过滤函数、SQL表达式等。
电子设备在获取各清洗规则的清洗规则特征时,对于任一清洗规则,电子设备将该清洗规则对应的一个或多个清洗函数进行分词操作,得到该清洗规则的词汇序列,然后将词序列输入到编码器神经网络进行编码处理,得到具有表征能力的词汇特征向量,作为前述清洗规则的清洗规则特征。
比如,对于一清洗规则,电子设备对其进行分词操作后得到词汇序列C=(c1,c2,……,cn),将该词汇序列C输入到的编码器神经网络进行编码后得到词汇特征向量V=(v1,v2,……vn),将词汇特征向量V作为该清洗规则的清洗规则特征。
应当说明的是,本申请实施例并不限定编码器神经网络的具体模型和拓扑结构,可以采用单层的递归神经网络进行训练得到编码器神经网络,也可以采用多层的递归神经网络进行训练得到编码器神经网络还可以采用卷积神经网络、或者其变种、或者其他网络结构的神经网络进行训练,得到编码器神经网络。比如,本申请实施例中可以采用循环神经网络来构建编码器神经网络。
在405中、将各联合特征作为训练输入、将各联合特征对应的清洗规则特征作为目标输出,利用条件循环神经网络进行模型训练,得到清洗规则分类模型。
本申请实施例中,在获取到的各待清洗样本数据及其对应的清洗效果的联合特征,以及获取到各清洗规则的清洗规则特征之后,电子设备即可将各联合特征作为训练输入、将各联合特征对应的清洗规则特征作为目标输出,利用条件循环神经网络进行进行模型训练,以训练得到用于进行自动选取清洗规则的清洗规则分类模型。
为了更清楚的理解本申请实施例,请参照图7,图7为本申请实施例中进行模型训练的应用场景示意图。
首先,构建面向清洗规则的数据库,包括三个子数据库,分别为清洗规则子数据库、待清洗样本数据子数据库和清洗效果子数据库。整合所有可能清洗规则,同时收集每个清洗规则对应的待清洗样本数据及其清洗效果,将清洗规则以字符串的形式存储至清洗规则子数据库中,将待清洗样本数据本身存储至待清洗样本数据子数据库中,将清洗效果以表格的形式存储至清洗效果子数据库中。
其次,使用循环神经网络构建的编码器神经网络对所有清洗规则进行编码,得到对应的词汇特征向量,作为各清洗规则的清洗规则特征。同时,将每一清洗规则对应的待清洗样本数据及其清洗效果构建数据对,表示为<待清洗样本数据,清洗效果>,利用生成对抗网络对每一清洗规则的<待清洗样本数据,清洗效果>对进行学习获取到<待清洗样本数据,清洗效果>联合特征。
最后,将每一清洗规则对应的<待清洗样本数据,清洗效果>联合特征作为训练输入,将其词汇特征向量作为目标输出,利用条件循环神经网络进行模型训练,得到清洗规则分类模型。
由此,只要将需要进行数据清洗的待清洗数据和清洗需求输入到的训练好的清洗规则分类模型,即可获得清洗规则分类模型输出的清洗规则,利用该清洗规则对待清洗数据进行数据清洗的清洗效果即可满足清洗需求。
本申请实施例还提供一种数据清洗装置。请参照图8,图8为本申请实施例提供的数据清洗装置的结构示意图。其中该数据清洗装置应用于电子设备,该数据清洗装置包括数据获取模块501、需求获取模块502、规则确定模块503以及数据清洗模块504,如下:
数据获取模块501,用于获取需要进行数据清洗的待清洗数据;
需求获取模块502,用于获取待清洗数据的清洗需求;
规则确定模块503,用于根据待清洗数据、清洗需求以及预训练的清洗规则分类模型,确定用于对待清洗数据进行数据清洗的目标清洗规则;
数据清洗模块504,用于根据目标清洗规则对待清洗数据进行数据清洗,使得对待清洗数据的清洗效果满足前述清洗需求;
其中,清洗规则分类模型利用表征清洗规则的清洗规则特征作为目标输出、表征清洗规则对应的待清洗样本数据及其清洗效果的联合特征作为训练输入,进行模型训练得到。
在一实施方式中,在根据待清洗数据、清洗需求以及预训练的清洗规则分类模型,确定用于对待清洗数据进行数据清洗的目标清洗规则时,规则确定模块503可以用于:
获取待清洗数据以及清洗需求的联合特征;
将获取到的联合特征输入清洗规则分类模型,得到清洗规则分类模型输出的清洗规则特征;
确定与清洗规则分类模型输出的清洗规则特征所匹配的清洗规则,作为对待清洗数据进行数据清洗的目标清洗规则。
在一实施方式中,在确定与清洗规则分类模型输出的清洗规则特征所匹配的清洗规则时,规则确定模块503可以用于:
获取清洗规则分类模型输出的清洗规则特征与预存的多个清洗规则的清洗规则特征之间的相似度;
将相似度达到预设相似度的清洗规则作为与清洗规则分类模型输出的清洗规则特征所匹配的清洗规则。
在一实施方式中,在根据目标清洗规则对待清洗数据进行数据清洗时,数据清洗模块504可以用于:
调用目标清洗规则对应的一个或多个清洗函数,对待清洗数据进行数据清洗。
在一实施方式中,在获取需要进行数据清洗的待清洗数据时,数据获取模块501可以用于:
获取传感器采集的传感器数据,将获取到的传感器数据作为待清洗数据。
本申请实施例还提供一种模型训练装置。请参照图9,图9为本申请实施例提供的模型训练装置的结构示意图。其中该模型训练装置应用于电子设备,该数据清洗装置包括第一获取模块601、第二获取模块602、第三获取模块603和模型训练模块604,如下:
第一获取模块601,用于获取多个清洗规则,以及获取对应各清洗规则的待清洗样本数据;
第二获取模块602,用于获取各清洗规则对其对应的待清洗样本数据进行数据清洗的清洗效果;
第三获取模块603,用于获取各待清洗样本数据及其对应的清洗效果的联合特征,以及获取各清洗规则的清洗规则特征;
模型训练模块604,用于将各联合特征作为训练输入、将各联合特征对应的清洗规则特征作为目标输出进行模型训练,得到清洗规则分类模型。
在一实施方式中,在获取各清洗规则的清洗规则特征时,第三获取模块603可以用于:
获取各清洗规则对应的一个或多个清洗函数的词汇特征,作为各清洗规则的清洗规则特征。
在一实施方式中,在获取各清洗规则对应的一个或多个清洗函数的词汇特征时,第三获取模块603可以用于:
根据编码器神经网络获取各清洗规则对应的一个或多个清洗函数的词汇特征。
在一实施方式中,在获取各待清洗样本数据及其对应的清洗效果的联合特征时,第三获取模块603可以用于:
根据生成对抗网络获取各待清洗样本数据及其对应的清洗效果的联合特征。
在一实施方式中,在将各联合特征作为训练输入、将各联合特征对应的清洗规则特征作为目标输出进行模型训练,得到清洗规则分类模型时,模型训练模块604可以用于:
将各联合特征作为训练输入、将各联合特征对应的清洗规则特征作为目标输出,利用条件循环神经网络进行模型训练,得到清洗规则分类模型。
本申请实施例提供一种计算机可读的存储介质,其上存储有计算机程序,当其存储的计算机程序在计算机上执行时,使得计算机执行如本实施例提供的数据清洗方法中的步骤,或者使得计算机执行如本实施例提供的模型训练方法中的步骤。其中,存储介质可以是磁碟、光盘、只读存储器(Read Only Memory,ROM,)或者随机存取器(Random AccessMemory,RAM)等。
本申请实施例还提供一种电子设备,包括存储器,处理器,处理器通过调用存储器中存储的计算机程序,执行本实施例提供的数据清洗方法中的步骤,或者执行如本实施例提供的模型训练方法中的步骤。
在一实施例中,还提供一种电子设备。请参照图10,电子设备包括处理器701以及存储器702。其中,处理器701与存储器702电性连接。
处理器701是电子设备的控制中心,利用各种接口和线路连接整个电子设备的各个部分,通过运行或加载存储在存储器702内的计算机程序,以及调用存储在存储器702内的数据,执行电子设备的各种功能并处理数据。
存储器702可用于存储软件程序以及模块,处理器701通过运行存储在存储器702的计算机程序以及模块,从而执行各种功能应用以及数据处理。存储器702可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的计算机程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据电子设备的使用所创建的数据等。此外,存储器702可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器702还可以包括存储器控制器,以提供处理器701对存储器702的访问。
在本申请实施例中,电子设备中的处理器701会按照如下的步骤,将一个或一个以上的计算机程序的进程对应的指令加载到存储器702中,并由处理器701运行存储在存储器702中的计算机程序,从而实现各种功能,如下:
获取需要进行数据清洗的待清洗数据;
获取待清洗数据的清洗需求;
根据待清洗数据、清洗需求以及预训练的清洗规则分类模型,确定用于对待清洗数据进行数据清洗的目标清洗规则;
根据目标清洗规则对待清洗数据进行数据清洗,使得对待清洗数据的清洗效果满足前述清洗需求;
其中,清洗规则分类模型利用表征清洗规则的清洗规则特征作为目标输出、表征清洗规则对应的待清洗样本数据及其清洗效果的联合特征作为训练输入,进行模型训练得到。
或者,电子设备中的处理器701会按照如下的步骤,将一个或一个以上的计算机程序的进程对应的指令加载到存储器702中,并由处理器701运行存储在存储器702中的计算机程序,从而实现各种功能,如下:
获取多个清洗规则,以及获取对应各清洗规则的待清洗样本数据;
获取各清洗规则对其对应的待清洗样本数据进行数据清洗的清洗效果;
获取各待清洗样本数据及其对应的清洗效果的联合特征,以及获取各清洗规则的清洗规则特征;
将各联合特征作为训练输入、将各联合特征对应的清洗规则特征作为目标输出进行模型训练,得到清洗规则分类模型。
请参照图11,图11为本申请实施例提供的电子设备的另一结构示意图,与图10所示电子设备的区别在于,电子设备还包括输入单元703和输出单元704等组件。
其中,输入单元703可用于接收输入的数字、字符信息或用户特征信息(比如指纹),以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入等。
输出单元704可用于显示由用户输入的信息或提供给用户的信息,如屏幕。
在本申请实施例中,电子设备中的处理器701会按照如下的步骤,将一个或一个以上的计算机程序的进程对应的指令加载到存储器702中,并由处理器701运行存储在存储器702中的计算机程序,从而实现各种功能,如下:
获取需要进行数据清洗的待清洗数据;
获取待清洗数据的清洗需求;
根据待清洗数据、清洗需求以及预训练的清洗规则分类模型,确定用于对待清洗数据进行数据清洗的目标清洗规则;
根据目标清洗规则对待清洗数据进行数据清洗,使得对待清洗数据的清洗效果满足前述清洗需求。
在一实施方式中,在根据待清洗数据、清洗需求以及预训练的清洗规则分类模型,确定用于对待清洗数据进行数据清洗的目标清洗规则时,处理器701可以执行:
获取待清洗数据以及清洗需求的联合特征;
将获取到的联合特征输入清洗规则分类模型,得到清洗规则分类模型输出的清洗规则特征;
确定与清洗规则分类模型输出的清洗规则特征所匹配的清洗规则,作为对待清洗数据进行数据清洗的目标清洗规则。
在一实施方式中,在确定与清洗规则分类模型输出的清洗规则特征所匹配的清洗规则时,处理器701可以执行:
获取清洗规则分类模型输出的清洗规则特征与预存的多个清洗规则的清洗规则特征之间的相似度;
将相似度达到预设相似度的清洗规则作为与清洗规则分类模型输出的清洗规则特征所匹配的清洗规则。
在一实施方式中,在根据目标清洗规则对待清洗数据进行数据清洗时,处理器701可以执行:
调用目标清洗规则对应的一个或多个清洗函数,对待清洗数据进行数据清洗。
在一实施方式中,在获取需要进行数据清洗的待清洗数据时,处理器701可以执行:
获取传感器采集的传感器数据,将获取到的传感器数据作为待清洗数据。
或者,电子设备中的处理器701会按照如下的步骤,将一个或一个以上的计算机程序的进程对应的指令加载到存储器702中,并由处理器701运行存储在存储器702中的计算机程序,从而实现各种功能,如下:
获取多个清洗规则,以及获取对应各清洗规则的待清洗样本数据;
获取各清洗规则对其对应的待清洗样本数据进行数据清洗的清洗效果;
获取各待清洗样本数据及其对应的清洗效果的联合特征,以及获取各清洗规则的清洗规则特征;
将各联合特征作为训练输入、将各联合特征对应的清洗规则特征作为目标输出进行模型训练,得到清洗规则分类模型。
在一实施方式中,在获取各清洗规则的清洗规则特征时,处理器701可以执行:
获取各清洗规则对应的一个或多个清洗函数的词汇特征,作为各清洗规则的清洗规则特征。
在一实施方式中,在获取各清洗规则对应的一个或多个清洗函数的词汇特征时,处理器701可以执行:
根据编码器神经网络获取各清洗规则对应的一个或多个清洗函数的词汇特征。
在一实施方式中,在获取各待清洗样本数据及其对应的清洗效果的联合特征时,处理器701可以执行:
根据生成对抗网络获取各待清洗样本数据及其对应的清洗效果的联合特征。
在一实施方式中,在将各联合特征作为训练输入、将各联合特征对应的清洗规则特征作为目标输出进行模型训练,得到清洗规则分类模型时,处理器701可以执行:
将各联合特征作为训练输入、将各联合特征对应的清洗规则特征作为目标输出,利用条件循环神经网络进行模型训练,得到清洗规则分类模型。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
需要说明的是,对本申请实施例的数据清洗方法/模型训练方法而言,本领域普通测试人员可以理解实现本申请实施例的数据清洗方法/模型训练方法的全部或部分流程,是可以通过计算机程序来控制相关的硬件来完成,所述计算机程序可存储于一计算机可读取存储介质中,如存储在电子设备的存储器中,并被该电子设备内的至少一个处理器执行,在执行过程中可包括如数据清洗方法/模型训练方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储器、随机存取记忆体等。
对本申请实施例的数据清洗装置/模型训练装置而言,其各功能模块可以集成在一个处理芯片中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中,所述存储介质譬如为只读存储器,磁盘或光盘等。
以上对本申请实施例所提供的一种数据清洗方法、模型训练方法、装置、存储介质及设备进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (15)

1.一种数据清洗方法,应用于电子设备,其特征在于,包括:
获取需要进行数据清洗的待清洗数据;
获取所述待清洗数据的清洗需求;
根据所述待清洗数据、所述清洗需求以及预训练的清洗规则分类模型,确定用于对所述待清洗数据进行数据清洗的目标清洗规则;
根据所述目标清洗规则对所述待清洗数据进行数据清洗,使得对所述待清洗数据的清洗效果满足所述清洗需求;
其中,所述清洗规则分类模型利用表征清洗规则的清洗规则特征作为目标输出、表征所述清洗规则对应的待清洗样本数据及其清洗效果的联合特征作为训练输入,进行模型训练得到。
2.如权利要求1所述的数据清洗方法,其特征在于,所述根据所述待清洗数据、所述清洗需求以及预训练的清洗规则分类模型,确定用于对所述待清洗数据进行数据清洗的目标清洗规则,包括:
获取所述待清洗数据以及所述清洗需求的联合特征;
将所述联合特征输入所述清洗规则分类模型,得到所述清洗规则分类模型输出的清洗规则特征;
确定与所述清洗规则特征所匹配的清洗规则,作为所述目标清洗规则。
3.如权利要求2所述的数据清洗方法,其特征在于,所述确定与所述清洗规则特征所匹配的清洗规则,包括:
获取所述清洗规则特征与预存的多个清洗规则的清洗规则特征之间的相似度;
将相似度达到预设相似度的清洗规则确定为与所述清洗规则特征所匹配的清洗规则。
4.如权利要求1所述的数据清洗方法,其特征在于,所述根据所述目标清洗规则对所述待清洗数据进行数据清洗,包括:
调用所述目标清洗规则对应的一个或多个清洗函数,对所述待清洗数据进行数据清洗。
5.如权利要求1所述的数据清洗方法,其特征在于,获取需要进行数据清洗的待清洗数据,包括:
获取传感器采集的传感器数据,将所述传感器数据作为待清洗数据。
6.一种模型训练方法,应用于电子设备,其特征在于,包括:
获取多个清洗规则,以及获取对应各所述清洗规则的待清洗样本数据;
获取各所述清洗规则对其对应的待清洗样本数据进行数据清洗的清洗效果;
获取各所述待清洗样本数据及其对应的清洗效果的联合特征,以及获取各所述清洗规则的清洗规则特征;
将各所述联合特征作为训练输入、将各所述联合特征对应的清洗规则特征作为目标输出进行模型训练,得到清洗规则分类模型。
7.如权利要求6所述的数据清洗方法,其特征在于,所述获取各所述清洗规则的清洗规则特征,包括:
获取各所述清洗规则对应的一个或多个清洗函数的词汇特征,作为各所述清洗规则的清洗规则特征。
8.如权利要求7所述的数据清洗方法,其特征在于,所述获取各所述清洗规则对应的一个或多个清洗函数的词汇特征,包括:
根据编码器神经网络获取各所述清洗规则对应的一个或多个清洗函数的词汇特征。
9.如权利要求8所述的数据清洗方法,其特征在于,所述获取各所述待清洗样本数据及其对应的清洗效果的联合特征,包括:
根据生成对抗网络获取各所述待清洗样本数据及其对应的清洗效果的联合特征。
10.如权利要求6所述的数据清洗方法,其特征在于,所述将各所述联合特征作为训练输入、将各所述联合特征对应的清洗规则特征作为目标输出进行模型训练,得到清洗规则分类模型,包括:
将各所述联合特征作为训练输入,将各所述联合特征对应的清洗规则特征作为目标输出,利用条件循环神经网络进行模型训练,得到所述清洗规则分类模型。
11.一种数据清洗装置,应用于电子设备,其特征在于,包括:
数据获取模块,用于获取需要进行数据清洗的待清洗数据;
需求获取模块,用于获取所述待清洗数据的清洗需求;
规则确定模块,用于根据所述待清洗数据、所述清洗需求以及预训练的清洗规则分类模型,确定用于对所述待清洗数据进行数据清洗的目标清洗规则;
数据清洗模块,用于根据所述目标清洗规则对所述待清洗数据进行数据清洗,使得对所述待清洗数据的清洗效果满足所述清洗需求;
其中,所述清洗规则分类模型利用表征清洗规则的清洗规则特征作为目标输出、表征所述清洗规则对应的待清洗样本数据及其清洗效果的联合特征作为训练输入,进行模型训练得到。
12.一种模型训练装置,应用于电子设备,其特征在于,包括:
第一获取模块,用于获取多个清洗规则,以及获取对应各所述清洗规则的待清洗样本数据;
第二获取模块,用于获取各所述清洗规则对其对应的待清洗样本数据进行数据清洗的清洗效果;
第三获取模块,用于获取各所述待清洗样本数据及其对应的清洗效果的联合特征,以及获取各所述清洗规则的清洗规则特征;
模型训练模块,用于将各所述联合特征作为训练输入、将各所述联合特征对应的清洗规则特征作为目标输出进行模型训练,得到清洗规则分类模型。
13.一种存储介质,其上存储有计算机程序,其特征在于,当所述计算机程序在计算机上运行时,使得所述计算机执行如权利要求1至5任一项所述的数据清洗方法,或者使得所述计算机执行如权利要求6至10任一项所述的模型训练方法。
14.一种电子设备,包括处理器和存储器,所述存储器储存有计算机程序,其特征在于,所述处理器通过调用所述计算机程序,用于执行如权利要求1至5任一项所述的数据清洗方法。
15.一种电子设备,包括处理器和存储器,所述存储器储存有计算机程序,其特征在于,所述处理器通过调用所述计算机程序,用于执行如权利要求6至10任一项所述的模型训练方法。
CN201910282171.0A 2019-04-09 2019-04-09 数据清洗方法、模型训练方法、装置、存储介质及设备 Pending CN111797078A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910282171.0A CN111797078A (zh) 2019-04-09 2019-04-09 数据清洗方法、模型训练方法、装置、存储介质及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910282171.0A CN111797078A (zh) 2019-04-09 2019-04-09 数据清洗方法、模型训练方法、装置、存储介质及设备

Publications (1)

Publication Number Publication Date
CN111797078A true CN111797078A (zh) 2020-10-20

Family

ID=72805340

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910282171.0A Pending CN111797078A (zh) 2019-04-09 2019-04-09 数据清洗方法、模型训练方法、装置、存储介质及设备

Country Status (1)

Country Link
CN (1) CN111797078A (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112632051A (zh) * 2020-12-25 2021-04-09 中国工商银行股份有限公司 基于神经网络的数据库清理方法及系统
CN112860676A (zh) * 2021-02-06 2021-05-28 高云 应用于大数据挖掘和业务分析的数据清洗方法及云服务器
CN113190542A (zh) * 2021-05-19 2021-07-30 西安图迹信息科技有限公司 一种电网用大数据清洗去噪方法、系统和计算机存储介质
CN113420623A (zh) * 2021-06-09 2021-09-21 山东师范大学 基于自组织映射神经网络的5g基站检测方法及系统
WO2021189960A1 (zh) * 2020-10-22 2021-09-30 平安科技(深圳)有限公司 对抗网络训练、医疗数据补充方法、装置、设备及介质
CN115144025A (zh) * 2022-06-22 2022-10-04 大庆恒驰电气有限公司 一种砂况检测系统
CN115423115A (zh) * 2022-07-28 2022-12-02 名日之梦(北京)科技有限公司 一种数据处理方法、计算机可读存储介质及电子设备
CN115438183A (zh) * 2022-08-31 2022-12-06 广州宝立科技有限公司 基于自然语言处理的业务网站监测系统
CN116061189A (zh) * 2023-03-08 2023-05-05 国网瑞嘉(天津)智能机器人有限公司 一种机器人作业数据处理系统、方法、装置、设备及介质
CN116775639A (zh) * 2023-08-08 2023-09-19 阿里巴巴(中国)有限公司 数据处理方法、存储介质及电子设备
CN116842317A (zh) * 2023-06-28 2023-10-03 中国平安财产保险股份有限公司 数据清洗方法、装置、设备及计算机可读存储介质
CN118520229A (zh) * 2024-07-23 2024-08-20 北京海天瑞声科技股份有限公司 一种基于大语言模型的数据清洗方法、装置、产品及介质
CN120994653A (zh) * 2025-10-15 2025-11-21 杭州微风企科技有限公司 数据智能清洗方法、装置、计算机设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016165378A1 (zh) * 2015-04-16 2016-10-20 国网新源张家口风光储示范电站有限公司 一种储能电站海量数据清洗方法及系统
CN108734330A (zh) * 2017-04-24 2018-11-02 北京京东尚科信息技术有限公司 数据处理方法和装置
CN108764372A (zh) * 2018-06-08 2018-11-06 Oppo广东移动通信有限公司 数据集的构建方法和装置、移动终端、可读存储介质
CN108875821A (zh) * 2018-06-08 2018-11-23 Oppo广东移动通信有限公司 分类模型的训练方法和装置、移动终端、可读存储介质
CN109299233A (zh) * 2018-09-19 2019-02-01 平安科技(深圳)有限公司 文本数据处理方法、装置、计算机设备及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016165378A1 (zh) * 2015-04-16 2016-10-20 国网新源张家口风光储示范电站有限公司 一种储能电站海量数据清洗方法及系统
CN108734330A (zh) * 2017-04-24 2018-11-02 北京京东尚科信息技术有限公司 数据处理方法和装置
CN108764372A (zh) * 2018-06-08 2018-11-06 Oppo广东移动通信有限公司 数据集的构建方法和装置、移动终端、可读存储介质
CN108875821A (zh) * 2018-06-08 2018-11-23 Oppo广东移动通信有限公司 分类模型的训练方法和装置、移动终端、可读存储介质
CN109299233A (zh) * 2018-09-19 2019-02-01 平安科技(深圳)有限公司 文本数据处理方法、装置、计算机设备及存储介质

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021189960A1 (zh) * 2020-10-22 2021-09-30 平安科技(深圳)有限公司 对抗网络训练、医疗数据补充方法、装置、设备及介质
CN112632051B (zh) * 2020-12-25 2024-06-14 中国工商银行股份有限公司 基于神经网络的数据库清理方法及系统
CN112632051A (zh) * 2020-12-25 2021-04-09 中国工商银行股份有限公司 基于神经网络的数据库清理方法及系统
CN112860676A (zh) * 2021-02-06 2021-05-28 高云 应用于大数据挖掘和业务分析的数据清洗方法及云服务器
CN113190542B (zh) * 2021-05-19 2023-02-24 西安图迹信息科技有限公司 一种电网用大数据清洗去噪方法、系统和计算机存储介质
CN113190542A (zh) * 2021-05-19 2021-07-30 西安图迹信息科技有限公司 一种电网用大数据清洗去噪方法、系统和计算机存储介质
CN113420623A (zh) * 2021-06-09 2021-09-21 山东师范大学 基于自组织映射神经网络的5g基站检测方法及系统
CN115144025A (zh) * 2022-06-22 2022-10-04 大庆恒驰电气有限公司 一种砂况检测系统
CN115423115A (zh) * 2022-07-28 2022-12-02 名日之梦(北京)科技有限公司 一种数据处理方法、计算机可读存储介质及电子设备
CN115438183A (zh) * 2022-08-31 2022-12-06 广州宝立科技有限公司 基于自然语言处理的业务网站监测系统
CN115438183B (zh) * 2022-08-31 2023-07-04 广州宝立科技有限公司 基于自然语言处理的业务网站监测系统
CN116061189A (zh) * 2023-03-08 2023-05-05 国网瑞嘉(天津)智能机器人有限公司 一种机器人作业数据处理系统、方法、装置、设备及介质
CN116842317A (zh) * 2023-06-28 2023-10-03 中国平安财产保险股份有限公司 数据清洗方法、装置、设备及计算机可读存储介质
CN116775639A (zh) * 2023-08-08 2023-09-19 阿里巴巴(中国)有限公司 数据处理方法、存储介质及电子设备
CN118520229A (zh) * 2024-07-23 2024-08-20 北京海天瑞声科技股份有限公司 一种基于大语言模型的数据清洗方法、装置、产品及介质
CN120994653A (zh) * 2025-10-15 2025-11-21 杭州微风企科技有限公司 数据智能清洗方法、装置、计算机设备及存储介质

Similar Documents

Publication Publication Date Title
CN111797078A (zh) 数据清洗方法、模型训练方法、装置、存储介质及设备
Berahmand et al. Autoencoders and their applications in machine learning: a survey
CN110827129B (zh) 一种商品推荐方法及装置
Nandedkar et al. A fuzzy min-max neural network classifier with compensatory neuron architecture
US20170344884A1 (en) Semantic class localization in images
CN110414550B (zh) 人脸识别模型的训练方法、装置、系统和计算机可读介质
CN111191136A (zh) 一种信息推荐方法以及相关设备
CN105549885A (zh) 滑屏操控中用户情绪的识别方法和装置
CN115879508A (zh) 一种数据处理方法及相关装置
CN112529149A (zh) 一种数据处理方法及相关装置
WO2020168451A1 (zh) 睡眠预测方法、装置、存储介质及电子设备
Steyer et al. Elastic analysis of irregularly or sparsely sampled curves
CN112418256A (zh) 分类、模型训练、信息搜索方法、系统及设备
CN114139630A (zh) 姿态识别方法、装置、存储介质和电子设备
WO2025039385A1 (zh) 一种预测模型的训练方法、装置、存储介质及电子设备
CN111797849B (zh) 用户活动识别方法、装置、存储介质及电子设备
CN111816211A (zh) 情绪识别方法、装置、存储介质及电子设备
CN113164056A (zh) 睡眠预测方法、装置、存储介质及电子设备
CN111797862A (zh) 任务处理方法、装置、存储介质和电子设备
US12314305B1 (en) System and method for generating an updated terminal node projection
Kasaei et al. An adaptive object perception system based on environment exploration and Bayesian learning
CN111797874A (zh) 行为预测方法、装置、存储介质及电子设备
CN114757263A (zh) 增加训练数据的方法、相关设备及可读存储介质
US20250225378A1 (en) Systems and methods for machine learning model generation
CN111797080A (zh) 模型训练方法、数据回收方法、装置、存储介质及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
AD01 Patent right deemed abandoned

Effective date of abandoning: 20241227

AD01 Patent right deemed abandoned