CN115938406B

CN115938406B - 一种处理极端不平衡数据的磁盘故障预测方法及装置

Info

Publication number: CN115938406B
Application number: CN202211720060.1A
Authority: CN
Inventors: 张涛; 程咏阳; 江峰
Original assignee: China Telecom Cloud Technology Co Ltd
Current assignee: China Telecom Cloud Technology Co Ltd
Priority date: 2022-12-30
Filing date: 2022-12-30
Publication date: 2024-11-26
Anticipated expiration: 2042-12-30
Also published as: CN115938406A

Abstract

本申请公开了一种处理极端不平衡数据的磁盘故障预测方法及装置，方法包括获取磁盘的日志数据，并对磁盘的日志数据进行预处理；基于预设时间间隔对经过预处理后的磁盘的日志数据进行划分处理，并从经过划分处理后的磁盘的日志数据中提取出第一特征集合；基于密度聚类算法对第一特征集合进行聚类处理，并对经过聚类处理后的第一特征集合进行欠采样处理，得到第二特征集合；根据第二特征集合预测出磁盘在下一时刻的特征集合，并基于磁盘在下一时刻的特征集合确定出磁盘的故障信息。通过在极端不平衡数据下学习磁盘发生故障的规律，并在真实生产环境中较为精确地对磁盘故障进行预测，从而提高运维工作的计划性。

Description

一种处理极端不平衡数据的磁盘故障预测方法及装置

技术领域

本申请属于软件开发技术领域，特别的涉及一种处理极端不平衡数据的磁盘故障预测方法及装置。

背景技术

随着大数据时代的到来，数字数据的价值愈发提升，世界上大部分数据都存储在磁盘上，这种海量的数据存储方式使得磁盘的稳定性面临着巨大的挑战。一旦磁盘出现故障，存储的数据就可能永远丢失，基于此如何准确的预测磁盘故障，对提高数据中心的可靠性具有重要意义。

按照1%的年故障率，在一年的数据集下故障磁盘与正常磁盘的比例约为1:100，并且故障磁盘只在故障发生当天的记录为异常，在故障之前的记录均为正常记录，这大大加剧了数据的不平衡程度。在Backblaze公开数据集中，故障记录数与正常记录数的比例约为1:30000，存在极端不平衡问题。

现阶段的磁盘故障预测方法在处理这种数据极端不平衡问题时，通常采用欠采样与过采样的方法，然而，简单过采样只是单纯的重复了正例，有放大噪声的风险，并且会增加过拟合的程度。对于SMOTE等过采样方法容易产生分布边缘化问题，从而模糊了正负样本间的边界，加大了分类的难度。对于简单欠采样算法抛弃了大部分反例（多例），导致模型偏差较大。对于一些改进的欠采样算法，把多例分成不重叠的N份，分别与少例组合、训练N个模型并组合，该算法虽然不会造成信息损失，但训练多个模型开销大，同时也存在过拟合的风险。

发明内容

本申请为解决上述提到的现阶段的磁盘故障预测方法中，欠采样与过采样的方法有放大噪声的风险，并且会增加过拟合的程度、模糊了正负样本间的边界，加大了分类的难度以及存在过拟合的风险等技术缺陷，提出一种处理极端不平衡数据的磁盘故障预测方法及装置，其技术方案如下：

第一方面，本申请实施例提供了一种处理极端不平衡数据的磁盘故障预测方法，包括：

获取磁盘的日志数据，并对磁盘的日志数据进行预处理；

基于预设时间间隔对经过预处理后的磁盘的日志数据进行划分处理，并从经过划分处理后的磁盘的日志数据中提取出第一特征集合；

基于密度聚类算法对第一特征集合进行聚类处理，并对经过聚类处理后的第一特征集合进行欠采样处理，得到第二特征集合；

根据第二特征集合预测出磁盘在下一时刻的特征集合，并基于磁盘在下一时刻的特征集合确定出磁盘的故障信息。

在第一方面的一种可选方案中，对磁盘的日志数据进行预处理，包括：

判断磁盘的日志数据是否存在缺失的数据；

当确定磁盘的日志数据中存在缺失的数据时，对缺失的数据进行均值插补处理，；

对经过均值插补处理后的磁盘的日志数据进行归一化处理。

在第一方面的又一种可选方案中，从经过划分处理后的磁盘的日志数据中提取出第一特征集合，包括：

从与每个时间间隔对应的磁盘的日志数据中确定出属于相同属性的特征值，并按照预设权重以及每个属于相同属性的特征值，计算出每个属性的权重特征值；

从任意两个连续时间间隔所对应的磁盘的日志数据中分别确定出属于相同属性的特征值，并对两个属于相同属性的特征值进行差值计算，计算出每个属性的差值特征值；

将每个属性的权重特征值以及每个属性的差值特征值作为第一特征集合。

在第一方面的又一种可选方案中，在将每个属性的权重特征值以及每个属性的差值特征值作为第一特征集合之前，还包括：

从每个属于相同属性的特征值中确定出每个属性的最大特征值以及每个属性的最小特征值；

对每个属于相同属性的特征值进行均值计算，得到每个属性的均值特征值；

对每个属于相同属性的特征值进行方差计算，得到每个属性的方差特征值；

将每个属性的权重特征值以及每个属性的差值特征值作为第一特征集合，包括：

将每个属性的权重特征值、每个属性的差值特征值、每个属性的最大特征值、每个属性的最小特征值、每个属性的均值特征值以及每个属性的方差特征值作为第一特征集合。

在第一方面的又一种可选方案中，在将每个属性的权重特征值、每个属性的差值特征值、每个属性的最大特征值、每个属性的最小特征值、每个属性的均值特征值以及每个属性的方差特征值作为第一特征集合之前，还包括：

从任意两个连续时间间隔所对应的磁盘的日志数据中分别确定出属于相同属性的特征值，并根据两个属于相同属性的特征值所对应的坐标进行斜率计算，得到每个属性的斜率特征值；

在每个属于相同属性的特征值中确定出数值处于连续增长的特征值个数，并将特征值个数作为每个属性的连续增长特征值；

将每个属性的权重特征值、每个属性的差值特征值、每个属性的最大特征值、每个属性的最小特征值、每个属性的均值特征值以及每个属性的方差特征值作为第一特征集合，包括：

将每个属性的权重特征值、每个属性的差值特征值、每个属性的最大特征值、每个属性的最小特征值、每个属性的均值特征值、每个属性的方差特征值、每个属性的斜率特征值以及每个属性的连续增长特征值作为第一特征集合。

在第一方面的又一种可选方案中，在将每个属性的权重特征值、每个属性的差值特征值、每个属性的最大特征值、每个属性的最小特征值、每个属性的均值特征值、每个属性的方差特征值、每个属性的斜率特征值以及每个属性的连续增长特征值作为第一特征集合之前，还包括：

在与每个时间间隔对应的磁盘的日志数据中确定出第一属性的特征值以及第二属性的特征值；

按照预设组合方式对第一属性的特征值以及第二属性的特征值进行组合计算，得到组合特征值；

将每个属性的权重特征值、每个属性的差值特征值、每个属性的最大特征值、每个属性的最小特征值、每个属性的均值特征值、每个属性的方差特征值、每个属性的斜率特征值以及每个属性的连续增长特征值作为第一特征集合，包括：

将每个属性的权重特征值、每个属性的差值特征值、每个属性的最大特征值、每个属性的最小特征值、每个属性的均值特征值、每个属性的方差特征值、每个属性的斜率特征值、每个属性的连续增长特征值以及组合特征值作为第一特征集合。

在第一方面的又一种可选方案中，基于密度聚类算法对第一特征集合进行聚类处理，并对经过聚类处理后的第一特征集合进行欠采样处理，得到第二特征集合，包括：

基于密度聚类算法对第一特征集合进行聚类处理，得到至少两个类簇；其中，每个类簇包括至少两个特征值；

对第一特征集合中至少两个类簇所包括的所有特征值进行剔除处理，得到第三特征集合；

按照预设比例对至少两个类簇以及第三特征集合进行合并处理，得到第二特征集合。

在第一方面的又一种可选方案中，根据第二特征集合预测出磁盘在下一时刻的特征集合，包括：

将第二特征集合输入至训练后的第一神经网络中，预测出故障磁盘所对应的特征集合；

确定出与故障磁盘所对应的特征集合的数量一致的样本特征集合，并按照预设时刻间隔对故障磁盘所对应的特征集合以及样本特征集合进行划分处理；

将经过划分处理后的故障磁盘所对应的特征集合以及样本特征集合进行编码处理，并将经过编码处理后的故障磁盘所对应的特征集合以及样本特征集合输入至训练后的第二神经网络中，预测出磁盘在下一时刻的特征集合。

第二方面，本申请实施例提供了一种处理极端不平衡数据的磁盘故障预测装置，包括：

日志处理模块，用于获取磁盘的日志数据，并对磁盘的日志数据进行预处理；

特征提取模块，用于基于预设时间间隔对经过预处理后的磁盘的日志数据进行划分处理，并从经过划分处理后的磁盘的日志数据中提取出第一特征集合；

特征处理模块，用于基于密度聚类算法对第一特征集合进行聚类处理，并对经过聚类处理后的第一特征集合进行欠采样处理，得到第二特征集合；

模型预测模块，用于根据第二特征集合预测出磁盘在下一时刻的特征集合，并基于磁盘在下一时刻的特征集合确定出磁盘的故障信息。

在第二方面的一种可选方案中，日志处理模块包括：

判断磁盘的日志数据是否存在缺失的数据；

对经过均值插补处理后的磁盘的日志数据进行归一化处理。

在第二方面的又一种可选方案中，特征提取模块包括：

在第二方面的又一种可选方案中，特征提取模块还包括：

在第二方面的又一种可选方案中，特征处理模块包括：

在第二方面的又一种可选方案中，模型预测模块包括：

第二特征集合输入至训练后的第一神经网络中，预测出故障磁盘所对应的特征集合；

第三方面，本申请实施例还提供了一种处理极端不平衡数据的磁盘故障预测装置，包括处理器以及存储器；

处理器与存储器连接；

存储器，用于存储可执行程序代码；

处理器通过读取存储器中存储的可执行程序代码来运行与可执行程序代码对应的程序，以用于实现本申请实施例第一方面或第一方面的任意一种实现方式提供的处理极端不平衡数据的磁盘故障预测方法。

第四方面，本申请实施例提供了一种计算机存储介质，计算机存储介质存储有计算机程序，计算机程序包括程序指令，程序指令当被处理器执行时，可实现本申请实施例第一方面或第一方面的任意一种实现方式提供的处理极端不平衡数据的磁盘故障预测方法。

在本申请实施例中，可在对磁盘进行故障检测时，获取磁盘的日志数据，并对磁盘的日志数据进行预处理；基于预设时间间隔对经过预处理后的磁盘的日志数据进行划分处理，并从经过划分处理后的磁盘的日志数据中提取出第一特征集合；基于密度聚类算法对第一特征集合进行聚类处理，并对经过聚类处理后的第一特征集合进行欠采样处理，得到第二特征集合；根据第二特征集合预测出磁盘在下一时刻的特征集合，并基于磁盘在下一时刻的特征集合确定出磁盘的故障信息。通过在极端不平衡数据下学习磁盘发生故障的规律，并在真实生产环境中较为精确地对磁盘故障进行预测，从而提高运维工作的计划性。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例中所需使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种处理极端不平衡数据的磁盘故障预测方法的整体流程图；

图2为本申请实施例提供的一种得到第二特征集合的效果示意图；

图3为本申请实施例提供的一种第一神经网络的训练效果示意图；

图4为本申请实施例提供的一种第二神经网络的训练效果示意图；

图5为本申请实施例提供的一种处理极端不平衡数据的磁盘故障预测装置的结构示意图；

图6为本申请实施例提供的又一种处理极端不平衡数据的磁盘故障预测装置的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。

在下述介绍中，术语“第一”、“第二”仅为用于描述的目的，而不能理解为指示或暗示相对重要性。下述介绍提供了本申请的多个实施例，不同实施例之间可以替换或者合并组合，因此本申请也可认为包含所记载的相同和/或不同实施例的所有可能组合。因而，如果一个实施例包含特征A、B、C，另一个实施例包含特征B、D，那么本申请也应视为包括含有A、B、C、D的一个或多个所有其他可能的组合的实施例，尽管该实施例可能并未在以下内容中有明确的文字记载。

下面的描述提供了示例，并且不对权利要求书中阐述的范围、适用性或示例进行限制。可以在不脱离本申请内容的范围的情况下，对描述的元素的功能和布置做出改变。各个示例可以适当省略、替代或添加各种过程或组件。例如所描述的方法可以以所描述的顺序不同的顺序来执行，并且可以添加、省略或组合各种步骤。此外，可以将关于一些示例描述的特征组合到其他示例中。

请参阅图1，图1示出了本申请实施例提供的一种处理极端不平衡数据的磁盘故障预测方法的整体流程图。

如图1所示，该处理极端不平衡数据的磁盘故障预测方法至少可以包括以下步骤：

步骤102、获取磁盘的日志数据，并对磁盘的日志数据进行预处理。

具体地，可在对磁盘进行故障检测时，获取磁盘在一定时间内的日志数据，该获取磁盘的日志数据的方式可以但不局限于为基于特定的软件来读取出磁盘的SMART属性信息，并根据该SMART属性信息确定出日志数据，其中，特定的软件可包括DiskGenius、CrystalDiskInfo、Hard Disk Sentine等软件，其使用过程在此不过多赘述。可以理解的是，获取磁盘的SMART属性信息的这种技术是当前磁盘普遍采用的自监测、分析、报告技术，该技术可在磁盘工作时，检测并记录下磁盘的温度、电路、磁盘、磁头等状态，该每个状态可对应为磁盘的不同属性。

需要注意的是，磁盘的日志数据具有一定的时序性，例如当上述提到的一定时间为一星期时，该磁盘的日志数据可包括一星期内每天所对应的日志数据，或是可包括一星期内每小时所对应的日志数据，其所划分的时间间隔不限定于此。

进一步的，在获取到磁盘的日志数据之后，可对该磁盘的日志数据进行预处理，以增加该磁盘的日志数据的可用性以及有效性。

作为本申请实施例的一种可选，对磁盘的日志数据进行预处理，包括：

判断磁盘的日志数据是否存在缺失的数据；

当确定磁盘的日志数据中存在缺失的数据时，对缺失的数据进行均值插补处理；

对经过均值插补处理后的磁盘的日志数据进行归一化处理。

具体地，在对磁盘的日志数据进行预处理的过程中，可先判断该磁盘的日志数据中是否存在缺失的数据，例如当在该磁盘的日志数据中检测到某个属性的数据在某一天或者某个时刻不存在时，确定该磁盘的日志数据中存在缺失的数据，且缺失的数据即为该某一天或某个时刻所不存在的某个属性的数据。

进一步的，当确定磁盘的日志数据中存在缺失的数据时，可对该缺失的数据进行均值插补处理，其中，均值插补处理的方式可理解为获取该缺失的数据所对应的属性在其他时间段内的数据，并对该属性在其他时间段内的所有数据进行均值计算，以将计算的结果作为该缺失的数据。例如该缺失的数据为某属性在一个星期内第三天的数据，则均值插补处理的方式可为获取该属性在一个星期内第一天、第二天、第四天直至第七天的数据，并对该六天的数据进行均值计算，将计算结果作为第三天的数据并补充在磁盘的日志数据中所缺失的地方。

进一步的，在对磁盘的日志数据中的缺失数据进行均值插补处理之后，由于不同属性数据之间取值范围差距较大，可以但不局限于对该经过均值插补处理后的磁盘的日志数据进行归一化处理或是标准化处理，以对该经过均值插补处理后的磁盘的日志数据进行特征缩放，进而增加日志数据的可用性以及有效性。可以理解的是，归一化处理或是标准化处理的方式为本领域进行数据处理的常规技术手段，此处不过多赘述。

步骤104、基于预设时间间隔对经过预处理后的磁盘的日志数据进行划分处理，并从经过划分处理后的磁盘的日志数据中提取出第一特征集合。

具体地，在对磁盘的日志数据进行预处理之后，可基于预设时间间隔，将该经过预处理后的磁盘的日志数据进行划分处理，其中，预设时间间隔可以但不局限于按照24小时的时间间隔，也即按照天数对经过预处理后的磁盘的日志数据进行划分处理，以得到每天对应的经过预处理后的磁盘的日志数据。

进一步的，在对经过预处理后的磁盘的日志数据进行划分处理之后，可从与每个时间间隔对应的磁盘的日志数据中确定属于相同属性的特征值，该属性的特征值也可理解为该属性在每个时间间隔对应的磁盘的日志数据中的具体数值，并按照预设权重以及每个属于相同属性的特征值，计算出每个属性的权重特征值。例如以属性A在每个时间间隔对应的磁盘的日志数据中的特征值可分别表示为a1、a2、a3以及a4为例，预设权重可分别对应为0.1、0.2、0.3以及0.4，则属性A的权重特征值可以但不局限于通过下式表示：

a1*0.1+ a2*0.2+ a3*0.3+ a4*0.4

可以理解的是，在本申请实施例中每个属性所对应的预设权重保持一致，且此处可不限定于此，

进一步的，还可从任意两个连续时间间隔所对应的磁盘的日志数据中分别确定出属于相同属性的特征值，并对该两个属于相同属性的特征值进行差值计算，以得到每个属性的差值特征值。例如以属性A在每个时间间隔对应的磁盘的日志数据中的特征值可分别表示为a1、a2、a3以及a4为例，其中，a1与a2为两个连续时间间隔所对应的磁盘的日志数据中所确定出的两个特征值，a2与a3为两个连续时间间隔所对应的磁盘的日志数据中所确定出的两个特征值，a3与a4为两个连续时间间隔所对应的磁盘的日志数据中所确定出的两个特征值。接着，可分别计算出a1与a2的差值、a2与a3的差值以及a3与a4的差值，并将该所有差值作为属性A的差值特征值。

进一步的，可将上述计算出的每个属性的权重特征值以及差值特征值的集合作为第一特征集合，其中，该每个属性的权重特征值以及差值特征值可理解为磁盘的日志数据中的窗口特征，以避免日志数据中所存在的噪声大、有价值信息少等问题。

作为本申请实施例的又一种可选，在将每个属性的权重特征值以及每个属性的差值特征值作为第一特征集合之前，还包括：

具体地，在将每个属性的权重特征值以及每个属性的差值特征值作为第一特征集合之前，还可从每个属于相同属性的特征值中确定出每个属性的最大特征值以及最小特征值，例如以属性A在每个时间间隔对应的磁盘的日志数据中的特征值可分别表示为a1、a2、a3以及a4为例，其中a1小于a2，a2小于a3，a3小于a4，则该属性A的最大特征值为a4，该属性A的最小特征值为a1。

进一步的，还可对每个属于相同属性的特征值进行均值计算，以得到每个属性的均值特征值，以及还可对每个属于相同属性的特征值进行方差计算，以得到每个属性的方差特征值，其中，均值计算的方式以及方差计算的方式为常规的统计学技术手段，此处不过多赘述。

在得到每个属性的最大特征值、每个属性的最小特征值、每个属性的均值特征值以及每个属性的方差特征值之后，可结合上述提到的每个属性的权重特征值以及每个属性的差值特征值，将每个属性的权重特征值、每个属性的差值特征值、每个属性的最大特征值、每个属性的最小特征值、每个属性的均值特征值以及每个属性的方差特征值作为第一特征集合。其中，该每个属性的最大特征值、每个属性的最小特征值、每个属性的均值特征值以及每个属性的方差特征值可理解为磁盘的日志数据中的统计特征，以进一步避免日志数据中所存在的噪声大、有价值信息少等问题。

作为本申请实施例的又一种可选，在将每个属性的权重特征值、每个属性的差值特征值、每个属性的最大特征值、每个属性的最小特征值、每个属性的均值特征值以及每个属性的方差特征值作为第一特征集合之前，还包括：

具体地，在将每个属性的权重特征值、每个属性的差值特征值、每个属性的最大特征值、每个属性的最小特征值、每个属性的均值特征值以及每个属性的方差特征值作为第一特征集合之前，还可在每个属于相同属性的特征值中确定出处于连续增长的特征值个数，并将该处于连续增长的特征值个数作为每个属性的连续增长特征值。例如以属性A在每个时间间隔对应的磁盘的日志数据中的特征值可分别表示为a1、a2、a3以及a4为例，其中a1小于a2，a2小于a3，a3大于a4，则可确定出a1、a2以及a3为三个连续增长的特征值，进而该属性A的连续增长特征值为3。可以理解的是，在本申请实施例中还可结合每个属于相同属性的特征值，确定出处于连续下降的特征值个数以及处于持平的特征值个数，此处不限定于此。

进一步的，还可在任意两个连续时间间隔所对应的日志数据中分别确定出属于相同属性的特征值，并将该两个特征值表示为坐标的形式，其中，该坐标中横坐标可以但不局限于为该两个特征值所各自对应的时间间隔，该坐标的纵坐标可以但不局限于为该两个特征值所各自对应的数值。接着，可通过斜率计算公式，计算出该两个特征值的斜率，以将该斜率作为每个属性的斜率特征值。

进一步的，在得到每个属性的连续增长特征值以及斜率特征值之后，可结合上述提到的每个属性的权重特征值、每个属性的差值特征值、每个属性的最大特征值、每个属性的最小特征值、每个属性的均值特征值以及每个属性的方差特征值，将每个属性的权重特征值、每个属性的差值特征值、每个属性的最大特征值、每个属性的最小特征值、每个属性的均值特征值、每个属性的方差特征值、每个属性的斜率特征值以及每个属性的连续增长特征值作为第一特征集合。其中，每个属性的连续增长特征值以及斜率特征值可理解为磁盘的日志数据中的趋势特征，以进一步避免日志数据中所存在的噪声大、有价值信息少等问题。

作为本申请实施例的又一种可选，在将每个属性的权重特征值、每个属性的差值特征值、每个属性的最大特征值、每个属性的最小特征值、每个属性的均值特征值、每个属性的方差特征值、每个属性的斜率特征值以及每个属性的连续增长特征值作为第一特征集合之前，还包括：

具体地，在将每个属性的权重特征值、每个属性的差值特征值、每个属性的最大特征值、每个属性的最小特征值、每个属性的均值特征值、每个属性的方差特征值、每个属性的斜率特征值以及每个属性的连续增长特征值作为第一特征集合之前，还可在与每个时间间隔对应的磁盘的日志数据中确定出第一属性的特征值以及第二属性的特征值，其中，第一属性可理解为日志数据中第一重要的属性，第二属性可理解为日志数据中第二重要的属性，该属性的重要性可为预先设定，在本申请实施例中仅可按照重要性依次确定出第一重要的属性的特征值以及第二重要的属性的特征值。接着，可按照预设组合方式对第一属性的特征值以及第二属性的特征值进行组合计算，得到组合特征值。

可以理解的是，考虑组合特征值的方式可同时考虑到多个特征，以提高特征之间的稳定性，且在本申请实施例中可不限定该属于重要的属性个数。

进一步的，在得到每个时间间隔对应的磁盘的日志数据中的组合特征值之后，可将每个属性的权重特征值、每个属性的差值特征值、每个属性的最大特征值、每个属性的最小特征值、每个属性的均值特征值、每个属性的方差特征值、每个属性的斜率特征值、每个属性的连续增长特征值以及组合特征值作为第一特征集合。其中，每个时间间隔对应的磁盘的日志数据中的组合特征值可理解为磁盘的日志数据中的组合特征，以进一步避免日志数据中所存在的噪声大、有价值信息少等问题。

还需要说明的是，确定出的第一特征集合可能会引入线性相关的特征和一些无用的特征，有可能对磁盘故障预测模型带来负面影响，基于此在本申请实施例中可基于后向搜索和Wrapper特征评价，对第一特征集合进行特征选择。具体步骤如下：给定特征集合{a1,a2,a3...ad}，在初始的选定集中去掉一个特征，构成包含（d-1）个特征的候选子集，在（d-1）个（d-1）维的候选特征子集中，根据训练模型的预测性能指标，选取最优的特征子集，做为下一轮的选定特征集合，直到本轮的最优候选特征子集差于上一轮次，此时时间复杂度从遍历全部特征子集合的0()降低到了0()。

步骤106、基于密度聚类算法对第一特征集合进行聚类处理，并对经过聚类处理后的第一特征集合进行欠采样处理，得到第二特征集合。

由于大部分磁盘在大多数情况下都处在正常工作状态，磁盘故障日志记录的数量远小于正常日志记录，磁盘日志数据存在样本极端不平衡的问题。处理样本不均衡问题的经典解决方案之一为欠采样，其主要思路是从多数类样本中随机抽取部分样本，将其与少数类样本合并，从而组成一个相对均衡的集合。由于传统方式在抽取多数类样本时采用随机的方式，有可能导致某一类样本被大量删除，而另外一类样本全部保留，无法覆盖所有具有代表性的样本，造成重要信息的损失，基于此本申请提出了一种基于密度聚类的欠采样方法。

具体地，在得到第一特征集合之后，可基于密度聚类算法对该第一特征集合中正常磁盘所对应的特征值进行聚类处理，以得到至少两个类簇，该每个类簇可包括至少两个正常磁盘所对应的特征值，且每个类簇中的特征值特征相近。

进一步的，可从该第一特征集合中，将至少两个类簇所包括的所有特征值进行剔除处理，并把剩余的所有特征值的集合作为第三特征值集合，该第三特征值集合中的特征值可为损坏磁盘所对应的特征值。

进一步的，可按照预设比例，对至少两个类簇以及第三特征值集合进行合并处理，以使每个类簇中的特征值与组合的第三特征值集合中的特征值之间的比例为该预设比例，进而保障经过组合处理所得到的第二特征集合能够最大程度的保留原始价值信息。

此处可参阅图2示出的本申请实施例提供的一种得到第二特征集合的效果示意图。如图2所示，可对磁盘特征数据集（也即第一特征集合）进行聚类处理，得到n个类簇，每个类簇可分别表示为C1、C2、C3…Cn。接着按照预设比例80%，从每个类簇中选取出八个特征值，分别与第三特征值集合中任意两个特征值进行组合，以使新的磁盘特征数据集中每个类簇包括八个原始特征值以及两个新的特征值。

步骤108、根据第二特征集合预测出磁盘在下一时刻的特征集合，并基于磁盘在下一时刻的特征集合确定出磁盘的故障信息。

基于密度聚类的欠采样方法可以在一定程度上缓解磁盘样本数据的不平衡问题，但并没有从根本上解决该问题。为了能够使磁盘故障预测模型应用于真实的生产环境，在正负样本极端不平衡的情况下仍能较为准确地预测磁盘故障，在本申请实施例中结合预测模型，通过预测磁盘在下一时刻的特征集合的方式来有效准确的确定出磁盘的故障信息。

具体地，在得到第二特征集合之后，可将该第二特征集合输入至训练后的第一神经网络中，以预测出故障磁盘所对应的特征集合。此处可参阅图3所示的本申请实施例提供的一种第一神经网络的训练效果示意图。如图3所示，该第一神经网络可理解为一种轻量级集成学习模型，其在训练过程中将训练集分为多个子集，每个子集单独训练与验证，以训练出多个分类器：C1、C2…Cn。接着可对多个分类器按权重进行投票，并根据确定出的权重得出初步预测结果，其中在验证集上效果越好的分类器的投票权重越大。

进一步的，在根据第一神经网络预测出故障磁盘所对应的特征集合之后，可从样本集中随机筛选出与该故障磁盘所对应的特征集合的数量一致的样本特征集合，该样本集可理解为正常磁盘所对应的特征集合，并按照预设时刻间隔对该故障磁盘所对应的特征集合以及样本特征集合进行划分处理，例如可分别得到t0时刻故障磁盘所对应的特征集合以及样本特征集合、t1时刻故障磁盘所对应的特征集合以及样本特征集合、t2时刻故障磁盘所对应的特征集合以及样本特征集合…直至tn时刻故障磁盘所对应的特征集合以及样本特征集合。

进一步的，可对每个时刻故障磁盘所对应的特征集合以及样本特征集合进行编码处理，以删除冗余信息，并将经过编码处理后的每个时刻故障磁盘所对应的特征集合以及样本特征集合输入至第二神经网络中，以预测出磁盘在下一时刻的特征集合。此处可参阅图4示出的本申请实施例提供的一种第二神经网络的训练效果示意图。如图4所示，可先将第一神经网络所预测的故障磁盘所对应的特征集合与样本特征集合进行组合处理，并基于时间窗口将该故障磁盘所对应的特征集合以及样本特征集合划分为不同时刻故障磁盘所对应的特征集合以及样本特征集合，接着可对该不同时刻故障磁盘所对应的特征集合以及样本特征集合进行编码处理，并将经过编码处理后的不同时刻故障磁盘所对应的特征集合以及样本特征集合输入至第二神经网络中，通过该第二神经网络的时序神经单元预测出磁盘在下一时刻的特征集合。

进一步的，在预测出磁盘在下一时刻的特征集合之后，可根据该磁盘在下一时刻的特征集合确定出磁盘的故障信息，其中，磁盘的故障信息可以但不局限于包括有外部的异常振动、磁盘周围的异常温度和湿度以及读写错误率的增加等，并可在确定出磁盘的故障信息之后，及时通知工作人员进行处理，以避免不必要的损失。

结合上述提到的一个或多个实施例，一方面，解决了磁盘日志数据噪声大、有价值信息少的问题，设计了面向磁盘数据时序性的特征构建方法，主要包括窗口特征、统计特征、趋势特征以及组合特征,进而从磁盘日志数据中抽取有价值的时序特征；

另一方面，解决了传统欠采样方法容易造成重要信息损失的问题。提出了基于密度聚类的磁盘数据欠采样方法，在欠采样之前对正常磁盘特征数据聚类，对每个类簇进行欠采样，从而保证新的数据集能够覆盖更多类型的磁盘、最大程度保留有价值信息；

另一方面，还解决了极端类别不平衡下磁盘故障预测模型难以应用的问题。提出了两阶段磁盘故障预测模型，对于不平衡的磁盘特征数据，先使用轻量级集成学习模型初步预测故障磁盘，并与等量的正常磁盘组合为新的数据集，再基于特征编码与时序学习训练磁盘故障预测模型，从而尽可能地提高预测精确率，充分利用磁盘空间。

请参阅图5，图5示出了本申请实施例提供的一种处理极端不平衡数据的磁盘故障预测装置的结构示意图。

如图5所示，该处理极端不平衡数据的磁盘故障预测装置至少可以包括日志处理模块501、特征提取模块502、特征处理模块503以及模型预测模块504，其中：

日志处理模块501，用于获取磁盘的日志数据，并对磁盘的日志数据进行预处理；

特征提取模块502，用于基于预设时间间隔对经过预处理后的磁盘的日志数据进行划分处理，并从经过划分处理后的磁盘的日志数据中提取出第一特征集合；

特征处理模块503，用于基于密度聚类算法对第一特征集合进行聚类处理，并对经过聚类处理后的第一特征集合进行欠采样处理，得到第二特征集合；

模型预测模块504，用于根据第二特征集合预测出磁盘在下一时刻的特征集合，并基于磁盘在下一时刻的特征集合确定出磁盘的故障信息。

在一些可能的实施例中，日志处理模块包括：

判断磁盘的日志数据是否存在缺失的数据；

对经过均值插补处理后的磁盘的日志数据进行归一化处理。

在一些可能的实施例中，特征提取模块包括：

在一些可能的实施例中，特征提取模块还包括：

在一些可能的实施例中，特征处理模块包括：

在一些可能的实施例中，模型预测模块包括：

请参阅图6，图6示出了本申请实施例提供的又一种处理极端不平衡数据的磁盘故障预测装置的结构示意图。

如图6所示，该处理极端不平衡数据的磁盘故障预测装置600可以包括至少一个处理器601、至少一个网络接口604、用户接口603、存储器605以及至少一个通信总线602。

其中，通信总线602可用于实现上述各个组件的连接通信。

其中，用户接口603可以包括按键，可选用户接口还可以包括标准的有线接口、无线接口。

其中，网络接口604可以但不局限于包括蓝牙模块、NFC模块、Wi-Fi模块等。

其中，处理器601可以包括一个或者多个处理核心。处理器601利用各种接口和线路连接处理极端不平衡数据的磁盘故障预测装置600内的各个部分，通过运行或执行存储在存储器605内的指令、程序、代码集或指令集，以及调用存储在存储器605内的数据，执行路由处理极端不平衡数据的磁盘故障预测装置600的各种功能和处理数据。可选的，处理器601可以采用DSP、FPGA、PLA中的至少一种硬件形式来实现。处理器601可集成CPU、GPU和调制解调器等中的一种或几种的组合。其中，CPU主要处理操作系统、用户界面和应用程序等；GPU用于负责显示屏所需要显示的内容的渲染和绘制；调制解调器用于处理无线通信。可以理解的是，上述调制解调器也可以不集成到处理器601中，单独通过一块芯片进行实现。

其中，存储器605可以包括RAM，也可以包括ROM。可选的，该存储器605包括非瞬时性计算机可读介质。存储器605可用于存储指令、程序、代码、代码集或指令集。存储器605可包括存储程序区和存储数据区，其中，存储程序区可存储用于实现操作系统的指令、用于至少一个功能的指令（比如触控功能、声音播放功能、图像播放功能等）、用于实现上述各个方法实施例的指令等；存储数据区可存储上面各个方法实施例中涉及到的数据等。存储器605可选的还可以是至少一个位于远离前述处理器601的存储装置。如图4所示，作为一种计算机存储介质的存储器605中可以包括操作系统、网络通信模块、用户接口模块以及处理极端不平衡数据的磁盘故障预测应用程序。

具体地，处理器601可以用于调用存储器605中存储的处理极端不平衡数据的磁盘故障预测应用程序，并具体执行以下操作：

获取磁盘的日志数据，并对磁盘的日志数据进行预处理；

在一些可能的实施例中，对磁盘的日志数据进行预处理，包括：

判断磁盘的日志数据是否存在缺失的数据；

对经过均值插补处理后的磁盘的日志数据进行归一化处理。

在一些可能的实施例中，从经过划分处理后的磁盘的日志数据中提取出第一特征集合，包括：

在一些可能的实施例中，在将每个属性的权重特征值以及每个属性的差值特征值作为第一特征集合之前，还包括：

在一些可能的实施例中，在将每个属性的权重特征值、每个属性的差值特征值、每个属性的最大特征值、每个属性的最小特征值、每个属性的均值特征值以及每个属性的方差特征值作为第一特征集合之前，还包括：

在一些可能的实施例中，在将每个属性的权重特征值、每个属性的差值特征值、每个属性的最大特征值、每个属性的最小特征值、每个属性的均值特征值、每个属性的方差特征值、每个属性的斜率特征值以及每个属性的连续增长特征值作为第一特征集合之前，还包括：

在一些可能的实施例中，基于密度聚类算法对第一特征集合进行聚类处理，并对经过聚类处理后的第一特征集合进行欠采样处理，得到第二特征集合，包括：

在一些可能的实施例中，根据第二特征集合预测出磁盘在下一时刻的特征集合，包括：

本申请还提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述方法的步骤。其中，计算机可读存储介质可以包括但不限于任何类型的盘，包括软盘、光盘、DVD、CD-ROM、微型驱动器以及磁光盘、ROM、RAM、EPROM、EEPROM、DRAM、VRAM、闪速存储器设备、磁卡或光卡、纳米系统（包括分子存储器IC），或适合于存储指令和/或数据的任何类型的媒介或设备。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本申请所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置，可通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些服务接口，装置或单元的间接耦合或通信连接，可以是电性或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储器中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储器中，包括若干指令用以使得一台计算机设备（可为个人计算机、服务器或者网络设备等）执行本申请各个实施例方法的全部或部分步骤。而前述的存储器包括：U盘、只读存储器（Read-Only Memory， ROM）、随机存取存储器（RandomAccess Memory，RAM）、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通进程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储器中，存储器可以包括：闪存盘、只读存储器（Read-Only Memory， ROM）、随机存取器（Random AccessMemory，RAM）、磁盘或光盘等。

以上者，仅为本公开的示例性实施例，不能以此限定本公开的范围。即但凡依本公开教导所作的等效变化与修饰，皆仍属本公开涵盖的范围内。本领域技术人员在考虑说明书及实践这里的公开后，将容易想到本公开的其实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未记载的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的范围和精神由权利要求限定。

Claims

1.一种处理极端不平衡数据的磁盘故障预测方法，其特征在于，包括：

获取磁盘的日志数据，并对所述磁盘的日志数据进行预处理；

基于预设时间间隔对经过预处理后的所述磁盘的日志数据进行划分处理，并从经过划分处理后的所述磁盘的日志数据中提取出第一特征集合；

基于密度聚类算法对所述第一特征集合进行聚类处理，并对经过聚类处理后的所述第一特征集合进行欠采样处理，得到第二特征集合；

根据所述第二特征集合预测出磁盘在下一时刻的特征集合，并基于所述磁盘在下一时刻的特征集合确定出磁盘的故障信息；

其中，所述从经过划分处理后的所述磁盘的日志数据中提取出第一特征集合，包括：

从与每个时间间隔对应的所述磁盘的日志数据中确定出属于相同属性的特征值，并按照预设权重以及每个所述属于相同属性的特征值，计算出每个属性的权重特征值；

从任意两个连续时间间隔所对应的所述磁盘的日志数据中分别确定出属于相同属性的特征值，并对两个所述属于相同属性的特征值进行差值计算，计算出每个属性的差值特征值；

将所述每个属性的权重特征值以及所述每个属性的差值特征值作为第一特征集合；

其中，所述基于密度聚类算法对所述第一特征集合进行聚类处理，并对经过聚类处理后的所述第一特征集合进行欠采样处理，得到第二特征集合，包括：

基于密度聚类算法对所述第一特征集合进行聚类处理，得到至少两个类簇；其中，每个所述类簇包括至少两个特征值；

对所述第一特征集合中所述至少两个类簇所包括的所有特征值进行剔除处理，得到第三特征集合；

按照预设比例对所述至少两个类簇以及所述第三特征集合进行合并处理，得到第二特征集合；

其中，所述根据所述第二特征集合预测出磁盘在下一时刻的特征集合，包括：

将所述第二特征集合输入至训练后的第一神经网络中，预测出故障磁盘所对应的特征集合；确定出与所述故障磁盘所对应的特征集合的数量一致的样本特征集合，并按照预设时刻间隔对所述故障磁盘所对应的特征集合以及所述样本特征集合进行划分处理；

将经过划分处理后的所述故障磁盘所对应的特征集合以及所述样本特征集合进行编码处理，并将经过编码处理后的所述故障磁盘所对应的特征集合以及所述样本特征集合输入至训练后的第二神经网络中，预测出磁盘在下一时刻的特征集合。

2.根据权利要求1所述的方法，其特征在于，所述对所述磁盘的日志数据进行预处理，包括：

判断所述磁盘的日志数据是否存在缺失的数据；

当确定所述磁盘的日志数据中存在缺失的数据时，对所述缺失的数据进行均值插补处理；

对经过均值插补处理后的所述磁盘的日志数据进行归一化处理。

3.根据权利要求1所述的方法，其特征在于，在所述将所述每个属性的权重特征值以及所述每个属性的差值特征值作为第一特征集合之前，还包括：

从每个所述属于相同属性的特征值中确定出每个属性的最大特征值以及每个属性的最小特征值；

对每个所述属于相同属性的特征值进行均值计算，得到每个属性的均值特征值；

对每个所述属于相同属性的特征值进行方差计算，得到每个属性的方差特征值；

所述将所述每个属性的权重特征值以及所述每个属性的差值特征值作为第一特征集合，包括：

将所述每个属性的权重特征值、所述每个属性的差值特征值、所述每个属性的最大特征值、所述每个属性的最小特征值、所述每个属性的均值特征值以及所述每个属性的方差特征值作为第一特征集合。

4.根据权利要求3所述的方法，其特征在于，在所述将所述每个属性的权重特征值、所述每个属性的差值特征值、所述每个属性的最大特征值、所述每个属性的最小特征值、所述每个属性的均值特征值以及所述每个属性的方差特征值作为第一特征集合之前，还包括：

从任意两个连续时间间隔所对应的所述磁盘的日志数据中分别确定出属于相同属性的特征值，并根据两个所述属于相同属性的特征值所对应的坐标进行斜率计算，得到每个属性的斜率特征值；

在每个所述属于相同属性的特征值中确定出数值处于连续增长的特征值个数，并将所述特征值个数作为每个属性的连续增长特征值；

所述将所述每个属性的权重特征值、所述每个属性的差值特征值、所述每个属性的最大特征值、所述每个属性的最小特征值、所述每个属性的均值特征值以及所述每个属性的方差特征值作为第一特征集合，包括：

将所述每个属性的权重特征值、所述每个属性的差值特征值、所述每个属性的最大特征值、所述每个属性的最小特征值、所述每个属性的均值特征值、所述每个属性的方差特征值、所述每个属性的斜率特征值以及所述每个属性的连续增长特征值作为第一特征集合。

5.根据权利要求4所述的方法，其特征在于，在所述将所述每个属性的权重特征值、所述每个属性的差值特征值、所述每个属性的最大特征值、所述每个属性的最小特征值、所述每个属性的均值特征值、所述每个属性的方差特征值、所述每个属性的斜率特征值以及所述每个属性的连续增长特征值作为第一特征集合之前，还包括：

在与每个时间间隔对应的所述磁盘的日志数据中确定出第一属性的特征值以及第二属性的特征值；

按照预设组合方式对所述第一属性的特征值以及所述第二属性的特征值进行组合计算，得到组合特征值；

所述将所述每个属性的权重特征值、所述每个属性的差值特征值、所述每个属性的最大特征值、所述每个属性的最小特征值、所述每个属性的均值特征值、所述每个属性的方差特征值、所述每个属性的斜率特征值以及所述每个属性的连续增长特征值作为第一特征集合，包括：

将所述每个属性的权重特征值、所述每个属性的差值特征值、所述每个属性的最大特征值、所述每个属性的最小特征值、所述每个属性的均值特征值、所述每个属性的方差特征值、所述每个属性的斜率特征值、所述每个属性的连续增长特征值以及所述组合特征值作为第一特征集合。

6.一种处理极端不平衡数据的磁盘故障预测装置，其特征在于，包括：

日志处理模块，用于获取磁盘的日志数据，并对所述磁盘的日志数据进行预处理；

特征提取模块，用于基于预设时间间隔对经过预处理后的所述磁盘的日志数据进行划分处理，并从经过划分处理后的所述磁盘的日志数据中提取出第一特征集合；

特征处理模块，用于基于密度聚类算法对所述第一特征集合进行聚类处理，并对经过聚类处理后的所述第一特征集合进行欠采样处理，得到第二特征集合；

模型预测模块，用于根据所述第二特征集合预测出磁盘在下一时刻的特征集合，并基于所述磁盘在下一时刻的特征集合确定出磁盘的故障信息；

7.一种处理极端不平衡数据的磁盘故障预测装置，其特征在于，包括处理器以及存储器；

所述处理器与所述存储器连接；

所述存储器，用于存储可执行程序代码；

所述处理器通过读取所述存储器中存储的可执行程序代码来运行与所述可执行程序代码对应的程序，以用于执行如权利要求1-5任一项所述方法的步骤。

8.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机可读存储介质中存储有指令，当所述指令在计算机或处理器上运行时，使得所述计算机或处理器执行如权利要求1-5任一项所述方法的步骤。