WO2019200782A1

WO2019200782A1 - 样本数据分类方法、模型训练方法、电子设备及存储介质

Info

Publication number: WO2019200782A1
Application number: PCT/CN2018/100157
Authority: WO
Inventors: 王晨羽; 王健宗; 肖京
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2018-04-18
Filing date: 2018-08-13
Publication date: 2019-10-24
Anticipated expiration: 2020-10-18
Also published as: CN108595585A; CN108595585B

Abstract

本申请提供一种样本数据分类方法，所述方法包括：计算样本数据中每个样本的特征；根据每个样本的特征，计算每个样本的距离集，所述每个样本的距离集包括每个样本与每个样本对应的剩余样本中每个样本间的距离；根据每个样本的距离集，计算每个样本的密度值及计算每个样本的密度距离值；根据每个样本的密度值及每个样本的密度距离值，确定至少一个聚类中心；基于所述至少一个聚类中心及每个样本的特征，将所述样本数据聚类成多个子集。本申请还提供一种利用所述样本数据分类方法的模型训练方法及电子设备。本申请按照任务的难易度，从易到难依次进行训练，以避免难训练样本被剔除，从而提高模型参数的适应力。

Description

样本数据分类方法、模型训练方法、电子设备及存储介质

本申请要求于2018年04月18日提交中国专利局，申请号为201810350730.2发明名称为“样本数据分类方法、模型训练方法、电子设备及存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及数据处理领域，尤其涉及一种样本数据分类方法、模型训练方法、电子设备及存储介质。

背景技术

在大规模数据收集的过程中，难免会有噪声样本(例如不相关、错误的样本数据)出现。处理含有大量错误标签的算法一般是，设计对噪声鲁棒的算法，让模型自动检测出相关度高的样本和有噪声的样本，然后丢弃错误标签，再进行训练。但这种方法的缺陷是：很难区分难训练样本和错误样本，导致难训练样本被剔除，而难训练样本对提升模型性能是非常重要的。

发明内容

鉴于以上内容，有必要提供一种样本数据分类方法、模型训练方法、电子设备及存储介质，能从易到难依次进行训练车辆部位识别模型，以避免难训练样本被剔除，从而让所述模型从易到难学习各个部位的样本图片的特征，从而提高模型参数的适应力。

一种样本数据分类方法，所述方法包括：

计算样本数据中每个样本的特征；

根据每个样本的特征，计算每个样本的距离集，所述每个样本的距离集包括每个样本与每个样本对应的剩余样本中每个样本间的距离；

根据每个样本的距离集，计算每个样本的密度值及计算每个样本的密度距离值；

根据每个样本的密度值及每个样本的密度距离值，确定至少一个聚类中心；

基于所述至少一个聚类中心及每个样本的特征，将所述样本数据聚类成多个子集。

一种模型训练方法，所述方法包括：

获取每个类别的样本数据；

利用任意实施例中所述的样本数据分类方法对每个类别的样本数据进行分类，得到每个类别的多个子集；

计算每个类别的多个子集中每个子集与每个子集所在类别的相关度；

根据每个类别的多个子集中每个子集与类别的相关度，从高到低，对每个类别的多个子集进行排序，得到每个类别的多个排序后的子集；

依次从每个类别的多个排序后的子集中，读取排序位置相同的子集作为模型的训练样本，对所述模型进行训练。

一种电子设备，所述电子设备包括存储器及处理器，所述存储器用于存储至少一个指令，所述处理器用于执行所述至少一个指令以实现如任意实施例中所述样本数据分类方法，及/或任意实施例中任一项所述模型训练方法。

一种非易失性可读存储介质，所述非易失性可读存储介质存储有至少一个指令，所述至少一个指令被处理器执行时实现如任意实施例中所述样本数据分类方法，及/或如任意实施例中所述模型训练方法。

由以上技术方案可知，本申请计算样本数据中每个样本的特征；根据每个样本的特征，计算每个样本的距离集，所述每个样本的距离集包括每个样本与每个样本对应的剩余样本中每个样本间的距离；根据每个样本的距离集，计算每个样本的密度值及计算每个样本的密度距离值；根据每个样本的密度值及每个样本的密度距离值，确定至少一个聚类中心；基于所述至少一个聚类中心及每个样本的特征，将所述样本数据聚类成多个子集。本申请按照任务的难易度，从易到难依次进行训练，以避免难训练样本被剔除，从而提高模型参数的适应力。

附图说明

图1是本申请样本数据分类方法的第一较佳实施例的流程图。

图2是本申请模型训练方法的第一较佳实施例的流程图。

图3是本申请样本数据分类装置的第一较佳实施例的程序模块图。

图4是本申请模型训练装置的第一较佳实施例的程序模块图。

图5是本申请至少一个实例中电子设备的较佳实施例的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

为使本申请的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本申请作进一步详细的说明。

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”和“第三”等是用于区别不同对象，而非用于描述特定顺序。此外，术语“包括”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

如图1所示，是本申请样本数据分类方法的第一较佳实施例的流程图。根据不同的需求，该流程图中步骤的顺序可以改变，某些步骤可以省略。

S10、电子设备计算样本数据每个样本的特征。

在可选实施例中，所述样本数据包括，但不限于：预先采集的数据，从网络上爬取的数据。因此，在大规模的样本数据收集的过程中，会有与所述样本数据表示的类别相关度不高，或者错误的数据出现。为了后续提高模型训练的准确度，需要对样本数据进行分类，自动检测出在模型训练过程中容易被学习特征的简单样本，及在模型训练过程中不容易被学习特征的难样本，从而实现对样本数据的分类。

优选地，利用特征提取模型提取每个样本的特征。进一步地，所述特征提取模型包括，但不限于：深度卷积神经网络模型。通过深度卷积神经网络对样本数据提取特征，比如任何网络(VGG-16，ResNet-50等)在Soft-max分类层之前的一层都可以看做是特征提取器，把这一层的输出作为提取到的特征。

在本实施例中，所述深度卷积神经网络模型由1个输入层、20个卷积层、6个池化层、3个隐含层、1个分类层构成。所述深度卷积神经网络模型的模型架构如图3所示，其中，Conv a-b(例如，Conv 3-64)表示该层卷积核的维度为a×a，该层卷积核的个数为b；Maxpool2表示所述池化层的池化核的维度为2×2；FC-c(例如，FC-6)表示该隐含层(即：完全连接层)有c个输出节点；Soft-max表示该分类层使用Soft-max分类器对输入图像进行分类。

在本实施例中，利用训练样本进行训练学习得到训练后的深度卷积神经网络模型。将所述样本数据输入到所述训练后的深度卷积神经网络模型中就能准确自动地提取所述样本数据中每个样本的特征。一般情况下，训练样本的规模越大，所述训练后的深度卷积神经网络模型的提取的特征就越准确。当然所述深度卷积神经网络模型也可以其他表现形式，本申请不做任何限制。

S11、所述电子设备根据每个样本的特征，计算每个样本的距离集。

优选地，所述每个样本的距离集包括每个样本与每个样本对应的剩余样本中每个样本间的距离，其中每个样本对应的剩余样本包括所述样本数据中除去每个样本之外的其他样本。例如，若所述样本数据中有3个样本，样本A、样本B及样本C，对于样本A，分别计算样本A与样本B、样本C的距离。对于样本B，分别计算样本B与样本A、样本C的距离。对于样本C，分别计算样本C与样本A及样本B的距离。这样距离矩阵为一个3*2或者2*3的矩阵。

进一步地，所述距离包括，不限于：欧式距离、余弦距离等等。所述距离矩阵中的每个距离值都大于0，例如，当计算的余弦距离小于0时，则取计算的余弦距离的绝对值。

S12、所述电子设备根据每个样本的距离集，计算每个样本的密度值及计算每个样本的密度距离值。

优选地，将每个样本的距离集每个距离与距离阈值进行对比，确定大于所述距离阈值的距离数，并将每个样本对应的距离数作为每个样本的密度值。这样样本的密度值越大，表示与样本相似的样本越多。

具体地，对于任意一个样本，所述任意一个样本的密度值的计算方式如下：

其中ρ _i表示所述样本数据中第i个样本的密度值，D _ij表示第i个样本与所述样本数据中第j个样本的距离，d _c表示距离阈值。

优选地，所述计算每个样本的密度距离值包括：

(1)对于密度值最大的样本，从所述密度值最大的样本的距离集中，筛选最大距离作为所述密度值最大的样本的密度距离值。

(2)对于第二样本集中任意一个样本，确定密度值大于所述任意一个样本的密度值的样本；根据所述任意一个样本的距离集，从密度值大于所述任意一个样本的密度值的样本中确定与所述任意一个样本最近的距离，将与所述任意一个样本最近的距离确定为所述任意一个样本的密度距离值。其中所述第二样本集包括所述样本数据中除去密度值最大的样本的其他样本。

具体地，每个样本的密度距离值的计算公式如下：

其中δ _i表示第i个样本的密度距离值，ρ _i表示第i个样本的密度值，ρ _j表示第j个样本的密度值，D _ij第i个样本与第j个样本的距离。

S13、所述电子设备根据每个样本的密度值及每个样本的密度距离值，确定至少一个聚类中心。

优选地，所述根据每个样本的密度值及每个样本的密度距离值，确定至少一个聚类中心包括：

A、根据每个样本的密度值及每个样本的密度距离值，计算每个样本的聚类度量值。

进一步地，每个样本的聚类度量值等于每个样本的密度值与每个样本的密度距离值的乘积。

B、根据每个样本的聚类度量值，确定至少一个聚类中心。

进一步地，所述根据每个样本的聚类度量值，确定至少一个聚类中心包括：

(1)、根据每个样本的聚类度量值，从大到小进行排序，从排序后的聚类度量值中，筛选聚类度量值排序前预设位数(例如，前三个)的样本作为聚类中心点。

(2)、根据每个样本的聚类度量值，筛选聚类度量值大于阈值的样本作为聚类中心点。

进一步地，根据每个样本的聚类度量值配置所述阈值，例如根据每个样本的聚类度量值计算均值，将均值作为所述阈值。

S14、所述电子设备基于所述至少一个聚类中心及每个样本的特征，将所述样本数据聚类成多个子集。

优选地，根据所述至少一个聚类中心中每个聚类中心对应的样本的距离集，利用聚类算法，将所述样本数据聚类成多个子集。

进一步地，所述聚类算法包括，但不限于：k-means聚类算法、层次聚类算法等等。

进一步地，将与所述至少一个聚类中心每个聚类中心的距离超过距离阈值的样本确定为错误样本。这样可以有效排除错误样本。

在上述实施例中，样本的密度值越大，表示与该样本相似的样本越多。样本的密度距离值越大，表示该样本点所在的子集与其他子集的距离就越远。因此按照上述实施例进行聚类后，能使同一个子集中的样本之间距离变短，且不同子集中的样本之间距离变大。这样某一子集的样本越密集，代表图片的特征越相似，则代表该子集中的数据与样本数据表示的类别越相似，属于简单样本，模型很容易学习到简单样本的特征。反之，若一个子集的样本越稀疏，代表图片越多样化，则认为该子集的数据较复杂，属于难样本。而且通过上述实施例选取的聚类中心，对样本数据进行聚类，还可以有效排除错误的样本，从而提高后续训练模型参数的准确度。

如图2所示，是本申请模型训练方法的第二较佳实施例的流程图。根据不同的需求，该流程图中步骤的顺序可以改变，某些步骤可以省略。

S20、电子设备获取每个类别的样本数据。

在本实施例中，训练的模型用于识别待检测图片属于的类别，例如，所述模型为车辆部位识别模型，所述车辆部位识别模型用于识别待待测图片中的部位属于车辆的哪个部位。这样就需要获取车辆各个部位的样本数据，一个部位的样本数据属于一个类别。

S21、所述电子设备对每个类别的样本数据进行分类，得到每个类别的多个子集。其中采用第一较优实施例中对每个类别的样本数据进行分类。

在本实施例中，该步骤S21的处理过程与第一较优实施例中数据分类方法相同，在此不再详述。

S22、所述电子设备计算每个类别的多个子集中每个子集与每个子集所在类别的相关度。

按照上述实施例进行聚类后，对于每个类别而言，能使同一个子集中的样本之间距离变短，且不同子集中的样本之间距离变大。这样某一子集的样本越密集，代表图片的特征越相似，则表示该子集中的数据与该子集所在的类别越相关，相似度越高，属于简单样本。反之，若一个子集的样本越稀疏，代表图片越多样化，属于难样本。

优选地，对于每个类别，将每个子集包含的样本数作为每个子集与每个子集所在类别的相关度。例如对于一个类别，聚类后得到三个子集：第一子集、第二子集、第三子集。若第一子集的样本数为40个，第二子集的样本数位100个，第三子集的样本数位10个，则用数值40表示第一子集与第一子集所在类别的相似度。

S23、所述电子设备根据每个类别的多个子集中每个子集与类别的相关度，从高到低，对每个类别的多个子集进行排序，得到每个类别的多个排序后的子集。

例如对于一个类别，聚类后得到三个子集：第一子集、第二子集、第三子集。若第一子集的样本数为40个，第二子集的样本数为100个，第三子集的样本数为10个，则所述一个类别的多个排序后的子集为：第二子集、第一子集、第三子集。

S24、所述电子设备依次从每个类别的多个排序后的子集中，读取排序位置相同的子集作为模型的训练样本，对所述模型进行训练。

优选地，从每个类别的多个排序后的子集中，读取每个类别的第一个子集作为模型的训练样本，对所述模型进行训练，达到第一终止条件后，读取每个类别的第二子集，将每个类别的第二子集加入模型的训练样本中，继续对所述模型进行训练，直至每个类别的所有子集都作为训练样本。由于根据每个类别的多个子集中每个子集与类别的相关度对每个类别的多个子集,从高到低,进行排序后,这样简单样本就会排在前面,在训练模型时,简单样本比较容易训练,难样本排在后面,比较难训练,这样将对所述模型的训练分成多个子任务，按照任务的难易度，从易到难依次进行训练，以避免难训练样本被剔除，从而让所述模型从易到难学习每个类别的特征，从而提高模型参数的适应力。

进一步地，在所述多个排序后的子集中，排序位置越靠前，子集对应的权重越大。这样相似度越高的样本，权重越大，在训练模型的时候，就能学习更多的特征，从而提高模型参数的准确率。因此，可以依赖置信度高的子集来提升模型识别的准确率。

例如，有两个类别，类别A及类别B，类别A中排序后的子集为：子集A1、子集A2，子集A1对应的权重为1、子集A2对应的权重为0.5。类别B中排序后的子集为子集B1、子集B2，子集B1对应的权重为1、子集B2对应的权重为0.5。先读取子集A1及子集B1对模型进行训练，达到第一终止条件后，再读取子集A2及子集B2，将子集A2及子集B2加入模型的训练样本中，这样子集A1、子集B1、子集A2及子集B2都作为训练样本，再对模型进行训练，直至训练结束。

利用上述方法，训练车辆部位识别模型应用场景举例如下：

首先获取车辆的各个部位的样本图片，一个部位的样本是一个类别的图片，对任意一个部位的样本采用第一较优实施例中的样本数据分类方法进行处理，得到每个部位的多个子集，并利用第二较优实施例中的方法对每个部位的多个子集进行排序，并基于每个部位的多个排序后的子集，对所述车辆部位识别模型进行训练。这样将对所述车辆部位识别模型的训练分成多个子任务，按照任务的难易度，从易到难依次进行训练车辆部位识别模型，以避免难训练样本被剔除，从而让所述模型从易到难学习各个部位的样本图片的特征，从而提高模型参数的适应力。

由以上实施例可知，本申请将将每个类别的训练样本数据按照难易程度分类多个子集，能使同一个子集中的样本之间距离变短，且不同子集中的样本之间距离变大。这样某一子集的样本越密集，代表图片的特征越相似，则代表该子集中的数据与样本数据表示的类别越相似，属于简单样本，模型很容易学习到简单样本的特征。反之，若一个子集的样本越稀疏，代表图片越多样化，则认为该子集的数据较复杂，属于难样本。再对训练样本数据的多个子集，从易到难进行排序，从而实现将对所述模型的训练分成多个子任务，按照任务的难易度，从易到难依次进行训练，以避免难训练样本被剔除，从而让所述模型从易到难学习每个类别的特征，从而提高模型参数的适应力。

如图3所示，本申请样本数据分类装置的第一较佳实施例的程序模块图。所述样本数据分类装置3包括，但不限于以下一个或者多个模块：计算模块30、确定模块31及聚类模块32。本申请所称的单元是指一种能够被样本数据分类装置3的处理器所执行并且能够完成固定功能的一系列计算机可读指令段，其存储在存储器中。关于各单元的功能将在后续的实施例中详述。

所述计算模块30计算样本数据每个样本的特征。

优选地，所述计算模块30利用特征提取模型提取每个样本的特征。进一步地，所述特征提取模型包括，但不限于：深度卷积神经网络模型。通过深度卷积神经网络对样本数据提取特征，比如任何网络(VGG-16，ResNet-50等)在Soft-max分类层之前的一层都可以看做是特征提取器，把这一层的输出作为提取到的特征。

所述计算模块30根据每个样本的特征，计算每个样本的距离集。

所述计算模块30根据每个样本的距离集，计算每个样本的密度值及计算每个样本的密度距离值。

优选地，所述计算模块30将每个样本的距离集每个距离与距离阈值进行对比，确定大于所述距离阈值的距离数，并将每个样本对应的距离数作为每个样本的密度值。这样样本的密度值越大，表示与样本相似的样本越多。

优选地，所述计算模块30计算每个样本的密度距离值包括：

具体地，每个样本的密度距离值的计算公式如下：

所述确定模块31根据每个样本的密度值及每个样本的密度距离值，确定至少一个聚类中心。

优选地，所述确定模块31根据每个样本的密度值及每个样本的密度距离值，确定至少一个聚类中心包括：

B、根据每个样本的聚类度量值，确定至少一个聚类中心。

进一步地，所述确定模块31根据每个样本的聚类度量值，确定至少一个聚类中心包括：

所述聚类模块32基于所述至少一个聚类中心及每个样本的特征，将所述样本数据聚类成多个子集。

优选地，所述聚类模块32根据所述至少一个聚类中心中每个聚类中心对应的样本的距离集，利用聚类算法，将所述样本数据聚类成多个子集。

进一步地，所述确定模块31将与所述至少一个聚类中心每个聚类中心的距离超过距离阈值的样本确定为错误样本。这样可以有效排除错误样本。

如图4所示，本申请模型训练装置的第一较佳实施例的程序模块图。所述模型训练装置4包括，但不限于以下一个或者多个模块：数据获取模块40、数据聚类模块41、相关度计算模块42、排序模块43及训练模块44。本申请所称的单元是指一种能够被模型训练装置4的处理器所执行并且能够完成固定功能的一系列计算机可读指令段，其存储在存储器中。关于各单元的功能将在后续的实施例中详述。

所述数据获取模块40获取每个类别的样本数据。

所述数据聚类模块41对每个类别的样本数据进行分类，得到每个类别的多个子集。其中采用第一较优实施例中对每个类别的样本数据进行分类。

在本实施例中，所述数据聚类模块41用于实现第一较优实施例中样本数据分类方法，在此不再详述。

所述相关度计算模块42计算每个类别的多个子集中每个子集与每个子集所在类别的相关度。

所述排序模块43根据每个类别的多个子集中每个子集与类别的相关度，从高到低，对每个类别的多个子集进行排序，得到每个类别的多个排序后的子集。

所述训练模块44依次从每个类别的多个排序后的子集中，读取排序位置相同的子集作为模型的训练样本，对所述模型进行训练。

优选地，所述训练模块44从每个类别的多个排序后的子集中，读取每个类别的第一个子集作为模型的训练样本，对所述模型进行训练，达到第一终止条件后，读取每个类别的第二子集，将每个类别的第二子集加入模型的训练样本中，继续对所述模型进行训练，直至每个类别的所有子集都作为训练样本。这样将对所述模型的训练分成多个子任务，按照任务的难易度，从易到难依次进行训练，以避免难训练样本被剔除，从而让所述模型从易到难学习每个类别的特征，从而提高模型参数的适应力。

训练车辆部位识别模型应用场景举例如下：

上述以软件程序模块的形式实现的集成的单元，可以存储在一个非易失性可读取存储介质中。上述软件程序模块存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本申请每个实施例所述方法的部分步骤。

如图5所示，所述电子设备5包括至少一个发送装置51、至少一个存储器52、至少一个处理器53、至少一个接收装置54以及至少一个通信总线。其中，所述通信总线用于实现这些组件之间的连接通信。

所述电子设备5是一种能够按照事先设定或存储的指令，自动进行数值计算和/或信息处理的设备，其硬件包括但不限于微处理器、专用集成电路(Application Specific Integrated Circuit，ASIC)、可编程门阵列(Field－Programmable Gate Array，FPGA)、数字处理器(Digital Signal Processor，DSP)、嵌入式设备等。所述电子设备5还可包括网络设备和/或用户设备。其中，所述网络设备包括但不限于单个网络服务器、多个网络服务器组成的服务器组或基于云计算(Cloud Computing)的由大量主机或网络服务器构成的云，其中，云计算是分布式计算的一种，由一群松散耦合的计算机集组成的一个超级虚拟计算机。

所述电子设备5可以是，但不限于任何一种可与用户通过键盘、触摸板或声控设备等方式进行人机交互的电子产品，例如，平板电脑、智能手机、个人数字助理(Personal Digital Assistant，PDA)、智能式穿戴式设备、摄像设备、监控设备等终端。

所述电子设备5所处的网络包括，但不限于互联网、广域网、城域网、局域网、虚拟专用网络(Virtual Private Network，VPN)等。

其中，所述接收装置54和所述发送装置51可以是有线发送端口，也可以为无线设备，例如包括天线装置，用于与其他设备进行数据通信。

所述存储器52用于存储程序代码。所述存储器52可以是集成电路中没有实物形式的具有存储功能的电路，如RAM(Random-Access Memory，随机存取存储器)、FIFO(First In First Out，)等。或者，所述存储器52也可以是具有实物形式的存储器，如内存条、TF卡(Trans-flash Card)、智能媒体卡(smart media card)、安全数字卡(secure digital card)、快闪存储器卡(flash card)等储存设备等等。

所述处理器53可以包括一个或者多个微处理器、数字处理器。所述处理器53可调用存储器52中存储的程序代码以执行相关的功能。例如，图3中所述的各个模块是存储在所述存储器52中的程序代码，并由所述处理器53所执行，以实现一种样本数据分类方法；及/或图4中所述的各个模块是存储在所述存储器52中的程序代码，并由所述处理器53所执行，以实现一种模型训练方法。所述处理器53又称中央处理器(CPU，Central Processing Unit)，是一块超大规模的集成电路，是运算核心(Core)和控制核心(Control Unit)。

本申请实施例还提供一种非易失性可读存储介质，其上存储有计算机指令，所述指令当被包括一个或多个处理器的电子设备执行时，使电子设备执行如上文方法实施例所述的样本数据分类方法及/或模型训练方法。

结合图1所示，所述电子设备5中的所述存储器52存储多个指令以实现一种样本数据分类方法，所述处理器53可执行所述多个指令从而实现：

计算样本数据中每个样本的特征；根据每个样本的特征，计算每个样本的距离集，所述每个样本的距离集包括每个样本与每个样本对应的剩余样本中每个样本间的距离；根据每个样本的距离集，计算每个样本的密度值及计算每个样本的密度距离值；根据每个样本的密度值及每个样本的密度距离值，确定至少一个聚类中心；基于所述至少一个聚类中心及每个样本的特征，将所述样本数据聚类成多个子集。

根据本申请优选实施例，在计算每个样本的密度值时，所述处理器可执行所述多个指令还包括：

将每个样本的距离集每个距离与距离阈值进行对比，确定大于所述距离阈值的距离数，并将每个样本对应的距离数作为每个样本的密度值。

根据本申请优选实施例，所述计算每个样本的密度距离值包括：

对于密度值最大的样本，从所述密度值最大的样本的距离集中，筛选最大距离作为所述密度值最大的样本的密度距离值；

对于第二样本集中任意一个样本，确定密度值大于所述任意一个样本的密度值的样本；根据所述任意一个样本的距离集，从密度值大于所述任意一个样本的密度值的样本中确定与所述任意一个样本最近的距离，将与所述任意一个样本最近的距离确定为所述任意一个样本的密度距离值，所述第二样本集包括所述样本数据中除去密度值最大的样本的其他样本。

根据本申请优选实施例，在根据每个样本的密度值及每个样本的密度距离值，确定至少一个聚类中心时，所述处理器可执行所述多个指令还包括：

根据每个样本的密度值及每个样本的密度距离值，计算每个样本的聚类度量值；

根据每个样本的聚类度量值，确定至少一个聚类中心。

根据本申请优选实施例，所述每个样本的聚类度量值等于每个样本的密度值与每个样本的密度距离值的乘积。

根据本申请优选实施例，在根据每个样本的聚类度量值，确定至少一个聚类中心时，所述处理器可执行所述多个指令还包括：

根据每个样本的聚类度量值，从大到小进行排序，从排序后的聚类度量值中，筛选聚类度量值排序前预设位数的样本作为聚类中心点；

根据每个样本的聚类度量值，筛选聚类度量值大于阈值的样本作为聚类中心点。

根据本申请优选实施例，所述处理器可执行所述多个指令还包括：

将与所述至少一个聚类中心每个聚类中心的距离超过距离阈值的样本确定为错误样本。

在任意实施例中所述样本数据分类方法对应的多个指令存储在所述存储器52，并通过所述处理器53来执行，在此不再详述。

结合图2所示，所述电子设备5中的所述存储器52存储多个指令以实现一种模型训练方法，所述处理器53可执行所述多个指令从而实现：

获取每个类别的样本数据；对每个类别的样本数据进行分类，得到每个类别的多个子集；计算每个类别的多个子集中每个子集与每个子集所在类别的相关度；根据每个类别的多个子集中每个子集与类别的相关度，从高到低，对每个类别的多个子集进行排序，得到每个类别的多个排序后的子集；依次从每个类别的多个排序后的子集中，读取排序位置相同的子集作为模型的训练样本，对所述模型进行训练。

根据本申请优选实施例，在所述多个排序后的子集中，排序位置越靠前的子集对应的权重越大。

以上说明的本申请的特征性的手段可以通过集成电路来实现，并控制实现上述任意实施例中所述样本数据分类方法的功能。即，本申请的集成电路安装于所述电子设备中，使所述电子设备发挥如下功能：计算样本数据中每个样本的特征；根据每个样本的特征，计算每个样本的距离集，所述每个样本的距离集包括每个样本与每个样本对应的剩余样本中每个样本间的距离；根据每个样本的距离集，计算每个样本的密度值及计算每个样本的密度距离值；根据每个样本的密度值及每个样本的密度距离值，确定至少一个聚类中心；基于所述至少一个聚类中心及每个样本的特征，将所述样本数据聚类成多个子集。

在任意实施例中所述样本数据分类方法所能实现的功能都能通过本申请的集成电路安装于所述电子设备中，使所述电子设备发挥任意实施例中所述样本数据分类方法所能实现的功能，在此不再详述。

以上说明的本申请的特征性的手段可以通过集成电路来实现，并控制实现上述任意实施例中所述样本数据分类方法的功能。即，本申请的集成电路安装于所述电子设备中，使所述电子设备发挥如下功能：获取每个类别的样本数据；对每个类别的样本数据进行分类，得到每个类别的多个子集；计算每个类别的多个子集中每个子集与每个子集所在类别的相关度；根据每个类别的多个子集中每个子集与类别的相关度，从高到低，对每个类别的多个子集进行排序，得到每个类别的多个排序后的子集；依次从每个类别的多个排序后的子集中，读取排序位置相同的子集作为模型的训练样本，对所述模型进行训练。

在任意实施例中所述模型训练方法所能实现的功能都能通过本申请的集成电路安装于所述电子设备中，使所述电子设备发挥任意实施例中所述模型训练方法所能实现的功能，在此不再详述。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本申请所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置，可通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请的各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个非易失性可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

Claims

一种样本数据分类方法，其特征在于，所述方法包括：

计算样本数据中每个样本的特征；

根据每个样本的特征，计算每个样本的距离集，所述每个样本的距离集包括每个样本与每个样本对应的剩余样本中每个样本间的距离；

根据每个样本的距离集，计算每个样本的密度值及计算每个样本的密度距离值；

根据每个样本的密度值及每个样本的密度距离值，确定至少一个聚类中心；

基于所述至少一个聚类中心及每个样本的特征，将所述样本数据聚类成多个子集。
如权利要求1所述的样本数据分类方法，其特征在于，所述计算每个样本的密度值包括：

将每个样本的距离集中每个距离与距离阈值进行对比，确定大于所述距离阈值的距离数，并将每个样本对应的距离数作为每个样本的密度值。
如权利要求1所述的样本数据分类方法，其特征在于，所述计算每个样本的密度距离值包括：

对于密度值最大的样本，从所述密度值最大的样本的距离集中，筛选最大距离作为所述密度值最大的样本的密度距离值；

对于第二样本集中任意一个样本，确定密度值大于所述任意一个样本的密度值的样本；根据所述任意一个样本的距离集，从密度值大于所述任意一个样本的密度值的样本中确定与所述任意一个样本最近的距离，将与所述任意一个样本最近的距离确定为所述任意一个样本的密度距离值，所述第二样本集包括所述样本数据中除去密度值最大的样本的其他样本。
如权利要求1所述的样本数据分类方法，其特征在于，所述根据每个样本的密度值及每个样本的密度距离值，确定至少一个聚类中心包括：

根据每个样本的密度值及每个样本的密度距离值，计算每个样本的聚类度量值；

根据每个样本的聚类度量值，确定至少一个聚类中心，所述每个样本的聚类度量值等于每个样本的密度值与每个样本的密度距离值的乘积。
如权利要求4所述的样本数据分类方法，其特征在于，所述根据每个样本的聚类度量值，确定至少一个聚类中心包括：

根据每个样本的聚类度量值，从大到小进行排序，从排序后的聚类度量值中，筛选聚类度量值排序前预设位数的样本作为聚类中心点；

根据每个样本的聚类度量值，筛选聚类度量值大于阈值的样本作为聚类中心点。
如权利要求1所述的样本数据分类方法，其特征在于，所述方法还包括：

将与所述至少一个聚类中心每个聚类中心的距离超过距离阈值的样本确定为错误样本。
一种模型训练方法，其特征在于，所述方法包括：

获取每个类别的样本数据；

利用如权利要求1至6中任一项所述的样本数据分类方法对每个类别的样本数据进行分类，得到每个类别的多个子集；

计算每个类别的多个子集中每个子集与每个子集所在类别的相关度；

根据每个类别的多个子集中每个子集与类别的相关度，从高到低，对每个类别的多个子集进行排序，得到每个类别的多个排序后的子集；

依次从每个类别的多个排序后的子集中，读取排序位置相同的子集作为模型的训练样本，对所述模型进行训练。
如权利要求7所述的模型训练方法，其特征在于，在所述多个排序后的子集中，排序位置越靠前的子集对应的权重越大。
一种电子设备，其特征在于，所述电子设备包括存储器及处理器，所述存储器用于存储至少一个指令，所述处理器用于执行所述至少一个指令以实现以下步骤：

计算样本数据中每个样本的特征；

根据每个样本的特征，计算每个样本的距离集，所述每个样本的距离集包括每个样本与每个样本对应的剩余样本中每个样本间的距离；

根据每个样本的距离集，计算每个样本的密度值及计算每个样本的密度距离值；

根据每个样本的密度值及每个样本的密度距离值，确定至少一个聚类中心；

基于所述至少一个聚类中心及每个样本的特征，将所述样本数据聚类成多个子集。
如权利要求9所述的电子设备，其特征在于，所述计算每个样本的密度值包括：

将每个样本的距离集中每个距离与距离阈值进行对比，确定大于所述距离阈值的距离数，并将每个样本对应的距离数作为每个样本的密度值。
如权利要求9所述的电子设备，其特征在于，所述计算每个样本的密度距离值包括：

对于密度值最大的样本，从所述密度值最大的样本的距离集中，筛选最大距离作为所述密度值最大的样本的密度距离值；

对于第二样本集中任意一个样本，确定密度值大于所述任意一个样本的密度值的样本；根据所述任意一个样本的距离集，从密度值大于所述任意一个样本的密度值的样本中确定与所述任意一个样本最近的距离，将与所述任意一个样本最近的距离确定为所述任意一个样本的密度距离值，所述第二样本集包括所述样本数据中除去密度值最大的样本的其他样本。
如权利要求9所述的电子设备，其特征在于，所述根据每个样本的密度值及每个样本的密度距离值，确定至少一个聚类中心包括：

根据每个样本的密度值及每个样本的密度距离值，计算每个样本的聚类度量值；

根据每个样本的聚类度量值，确定至少一个聚类中心，所述每个样本的聚类度量值等于每个样本的密度值与每个样本的密度距离值的乘积。
如权利要求12所述的电子设备，其特征在于，所述根据每个样本的聚类度量值，确定至少一个聚类中心包括：

根据每个样本的聚类度量值，从大到小进行排序，从排序后的聚类度量值中，筛选聚类度量值排序前预设位数的样本作为聚类中心点；

根据每个样本的聚类度量值，筛选聚类度量值大于阈值的样本作为聚类中心点。
如权利要求9所述的电子设备，其特征在于，所述处理器还用于执行所述至少一个指令以实现以下步骤：

将与所述至少一个聚类中心每个聚类中心的距离超过距离阈值的样本确定为错误样本。
一种非易失性可读存储介质，其特征在于，所述非易失性可读存储介质存储有至少一个指令，所述至少一个指令被处理器执行时实现以下步骤：

计算样本数据中每个样本的特征；

根据每个样本的特征，计算每个样本的距离集，所述每个样本的距离集包括每个样本与每个样本对应的剩余样本中每个样本间的距离；

根据每个样本的距离集，计算每个样本的密度值及计算每个样本的密度距离值；

根据每个样本的密度值及每个样本的密度距离值，确定至少一个聚类中心；

基于所述至少一个聚类中心及每个样本的特征，将所述样本数据聚类成多个子集。
如权利要求15所述的存储介质，其特征在于，所述计算每个样本的密度值包括：

将每个样本的距离集中每个距离与距离阈值进行对比，确定大于所述距离阈值的距离数，并将每个样本对应的距离数作为每个样本的密度值。
如权利要求15所述的存储介质，其特征在于，所述计算每个样本的密度距离值包括：

对于密度值最大的样本，从所述密度值最大的样本的距离集中，筛选最大距离作为所述密度值最大的样本的密度距离值；

对于第二样本集中任意一个样本，确定密度值大于所述任意一个样本的密度值的样本；根据所述任意一个样本的距离集，从密度值大于所述任意一个样本的密度值的样本中确定与所述任意一个样本最近的距离，将与所述任意一个样本最近的距离确定为所述任意一个样本的密度距离值，所述第二样本集包括所述样本数据中除去密度值最大的样本的其他样本。
如权利要求1所述的存储介质，其特征在于，所述根据每个样本的密度值及每个样本的密度距离值，确定至少一个聚类中心包括：

根据每个样本的密度值及每个样本的密度距离值，计算每个样本的聚类度量值；

根据每个样本的聚类度量值，确定至少一个聚类中心，所述每个样本的聚类度量值等于每个样本的密度值与每个样本的密度距离值的乘积。
如权利要求18所述的存储介质，其特征在于，所述根据每个样本的聚类度量值，确定至少一个聚类中心包括：

根据每个样本的聚类度量值，从大到小进行排序，从排序后的聚类度量值中，筛选聚类度量值排序前预设位数的样本作为聚类中心点；

根据每个样本的聚类度量值，筛选聚类度量值大于阈值的样本作为聚类中心点。
如权利要求15所述的存储介质，其特征在于，所述至少一个指令被处理器执行时还实现以下步骤：

将与所述至少一个聚类中心每个聚类中心的距离超过距离阈值的样本确定为错误样本。