CN114048200A

CN114048200A - 一种计及缺失数据补齐的用户用电行为分析方法

Info

Publication number: CN114048200A
Application number: CN202111324959.7A
Authority: CN
Inventors: 关艳; 田浩杰; 陈洪禹; 孙殿家; 张冶; 吴彤; 高曦莹; 陆心怡; 王一苗; 王馨璐; 郭丹; 宋轩宇; 王玥; 于跃; 杨佳璇; 田贵阳; 李哲; 闫奕名; 王铭玉
Original assignee: Marketing Service Center of State Grid Liaoning Electric Power Co Ltd; State Grid Corp of China SGCC
Current assignee: Marketing Service Center of State Grid Liaoning Electric Power Co Ltd; State Grid Corp of China SGCC
Priority date: 2021-11-10
Filing date: 2021-11-10
Publication date: 2022-02-15

Abstract

本发明公开了一种计及缺失数据补齐的用户用电行为分析方法，包括如下步骤：采集用户的档案数据、表计电量数据和环境温湿度数据；对采集到的数据进行预处理(第一次数据恢复)，之后，对预处理后的数据进行分类和用电特征提取，并根据不同用户类型进行分割存储；对预处理后的完整数据进行聚合再分类，并获取缺失数据用户所在的聚心及聚心上对应缺失数据时刻的第二次数据恢复值；计算两次数据恢复值的平均值，作为最终数据恢复值并进行二次数据恢复；利用恢复后的完整数据对用户用电行为进行分析。该计及缺失数据补齐的用户用电行为分析方法，通过采取两次对丢失数据的补全，可避免误差过大，可使得电力系统的计量数据更加完整准确。

Description

一种计及缺失数据补齐的用户用电行为分析方法

技术领域

本发明属于，特别提供了一种计及缺失数据补齐的用户用电行为分析方法。

背景技术

随着电力系统智能化水平的发展，电力营销业务系统每天收集数据量不断增长，积累了大量数据，数据的智能化分析和精益化应用需求越来越强烈。在开展营销数据的分析与挖掘之际，发现用户的用电情况越加复杂，从而导致了传统简单的按电价、行业等用户分类方法已经不能充分挖掘与分析出对能源互联网建设有价值的隐藏规律。

完整准确的计量数据是供电公司为进行用户用电行为分析和需求侧响应的基础。然而，在实际的生产环境中，会因一些不可控因素造成数据缺失，此时，合理有效地补齐恢复丢失数据方能不影响数据分析的准确性。

早期对于用电数据丢失多采用现场排查的方法。这种处理方法对人力、物力等资源造成巨大浪费，为改变这种情况，近年许多专家学者研究用信息化手段来恢复丢失数据，也都各自提出了相对应的恢复缺失值方法。如杨涛等提出了通过马氏距离来寻找到最邻近基因并进行基因表达中的缺失数据恢复；钱淑雯等提出了通过临近点中位数法和线性插值法来应用于褪黑色素时间序列研究过程中的缺失数据恢复；李建强等则是在电站数据库中采用改进的模糊聚类算法来进行缺失数据的恢复。

当数据存在缺失时，在采集数据的基础上加以适当补充完善，从而得到相对完整准确的数据后，就可以利用这些数据挖掘技术来研究探索出其中的潜在规律，从而充分了解用户用电习惯，准确分析到电力市场上的供需变化，有利于优化运行控制和调度计划。数据挖掘技术中的聚类分析可以应用在用电数据的分类处理上。该种方法是在用电数据中提取特征，并通过聚类方法对样本对象开展相似度比较活动，使得类内的样本有相似的特性，而与类外的样本特性差距较大，从而实现精细化用电行为分类。聚类算法K-Means以其原理简单、易于实现且效率高的优势被广为应用。但是K-Means算法不适合密度不均，数据分布广的数据集。

因此，提出一种计及缺失数据补齐的用户用电行为分析方法，使其可以在数据准确完整的基础上精细化分类用户群体，达到对用户的用电特性和用电模式的辨识与预测，进而为供电公司开展电价制定与需求侧响应提供基础条件，成为人们亟待解决的问题。

发明内容

鉴于此，本发明的目的在于提供一种计及缺失数据补齐的用户用电行为分析方法，以解决现有方法存在的问题。

本发明提供了一种计及缺失数据补齐的用户用电行为分析方法，包括如下步骤：

采集用户的档案数据、表计电量数据和环境温湿度数据；

对采集到的数据进行预处理，获得缺失数据用户在缺失数据时刻的第一次数据恢复值V₁，并利用所述第一次数据恢复值V₁进行第一次数据恢复；

对完成第一次数据恢复后的完整数据进行分类和用电特征提取，并根据不同用户类型进行分割存储；

对包含缺失数据用户的用户类型内的用户进行聚合再分类，并获取缺失数据用户所在的聚心及聚心上对应缺失数据时刻的数值，作为第二次数据恢复值V₂；

提取第一次数据恢复值V₁和与其对应的第二次数据恢复值V₂并计算平均值，作为缺失数据用户在缺失数据时刻的最终数据恢复值V，并利用所述最终数据恢复值V进行二次数据恢复；

利用完成二次数据恢复后的完整数据对用户用电行为进行分析。

优选，所述档案数据包括用户分类、用电类别；所述表计电量数据包括实时电压、电流、历史日电量。

进一步优选，对采集到的数据进行预处理，获得缺失数据用户在缺失数据时刻的第一次数据恢复值V₁具体包括如下步骤：

对缺失数据前后多个数据进行排序并找到中位数；

计算所述中位数与所述缺失数据向前向后移动数据的平均值，作为第一次数据恢复值V₁。

进一步优选，所述缺失数据向前向后移动数据的个数为5～10。

进一步优选，所述预处理还包括对负荷数据进行归一化处理的步骤。

进一步优选，所述用户类型包括工业用户、商业用户、居民客户和其他客户。

进一步优选，对包含缺失数据用户的用户类型内的用户进行聚合再分类包括如下步骤：

从缺失数据用户的用户类型内的用户数据中随机选取K个用户数据作为初始聚类中心；

计算样本到所述初始聚类中心距离的算数平方根

并将样本数据分配到距离最近的聚类中，进行样本的分类；

分配完成所有样本数据后，重新计算K个聚类的中心Z_i；

再次计算每个样本到各个新的聚类中心的距离，并将样本分类到距离最近的聚类中，此时的距离为加权距离

所述

为权重，S表示类内的加权标准差；

分配完成所有样本数据后，再次重新计算K个聚类的中心并分配样本，直至聚类中心不再发生变化。

进一步优选，对用户用电行为进行分析包括：

分别计算各个类型用户的负荷特性指标：

①平均日负荷率：

式中，β_ki为第K种用户中第i个用户的平均日负荷率，N_k为第K种用户的总数，K＝1,2,3,4；

②平均日最小负荷率：

式中，γ_ki为第K种用户中第i个用户的平均日最小负荷率；

③平均日峰谷差率：

式中，θ_ki为第K种用户中第i个用户的平均日峰谷差率。

进一步优选，对用户用电行为进行分析还包括：

分别计算各个类型用户的负荷曲线

①负荷曲线计算公式为：

式中，

为第K种用户第g1月的负荷，N_k为第K种用户的总数，K＝1,2,3,4，g1＝1,2,…，12，

为第K种用户中第i个用户第g1月的负荷；

②持续负荷曲线计算公式为

式中，

为第K种用户第g2小时的负荷，g2＝1，2，…，8760或g2＝1，2，…，8784，

为第K种用户中第i个用户第g2小时的负荷；

③日负荷曲线计算公式为

式中：

为第K种用户第g3时刻的负荷，g3＝1，2，…，24；

为第K种用户第i个用户第g3时刻的负荷；D_ki为第K种用户第i个用户年最大负荷。

本发明提供的计及缺失数据补齐的用户用电行为分析方法，通过采取两次对丢失数据的补全，避免了误差过大的可能，低偏差精确化补全丢失数据可使得电力系统的计量数据更加完整准确，为后续用户用电行为分析奠定夯实基础。

具体实施方式

下面将结合具体的实施方案对本发明专利进行进一步的解释，但不局限本发明专利。

采集用户的档案数据、表计电量数据和环境温湿度数据；

该计及缺失数据补齐的用户用电行为分析方法，通过采取两次对丢失数据的补全，避免了误差过大的可能，低偏差精确化补全丢失数据可使得电力系统的计量数据更加完整准确，可为后续用户用电行为分析奠定夯实基础。

其中，所述档案数据包括用户分类、用电类别；所述表计电量数据包括实时电压、电流、历史日电量。

作为技术方案的改进，对采集到的数据进行预处理，获得缺失数据用户在缺失数据时刻的第一次数据恢复值V₁具体包括如下步骤：

对缺失数据前后多个数据进行排序并找到中位数；

作为技术方案的改进，所述缺失数据向前向后移动数据的个数为5～10。

作为技术方案的改进，所述预处理还包括对负荷数据进行归一化处理的步骤。

作为技术方案的改进，所述用户类型包括工业用户、商业用户、居民客户和其他客户。

作为技术方案的改进，对包含缺失数据用户的用户类型内的用户进行聚合再分类包括如下步骤：

计算样本到所述初始聚类中心距离的算数平方根

并将样本数据分配到距离最近的聚类中，进行样本的分类；

分配完成所有样本数据后，重新计算K个聚类的中心Z_i；

所述

为权重，S表示类内的加权标准差；

本申请采用改进的K-Means算法，更精细化地对用户用电行为进行聚类，使得类间距离越大，类中越紧凑，从而可挖据出更多潜在的用户用电行为，达到对用户的用电特性和用电模式的辨识与预测，供电公司也能够针对性地制定不同的策略，更好的开展需求侧响应工作。

作为技术方案的改进，对用户用电行为进行分析包括：

分别计算各个类型用户的负荷特性指标：

②平均日负荷率：

②平均日最小负荷率：

式中，γ_ki为第K种用户中第i个用户的平均日最小负荷率；

③平均日峰谷差率：

式中，θ_ki为第K种用户中第i个用户的平均日峰谷差率。

作为技术方案的改进，对用户用电行为进行分析还包括：

分别计算各个类型用户的负荷曲线

①负荷曲线计算公式为：

式中，

为第K种用户中第i个用户第g1月的负荷；

②持续负荷曲线计算公式为

式中，

为第K种用户中第i个用户第g2小时的负荷；

③日负荷曲线计算公式为

式中：

为第K种用户第g3时刻的负荷，g3＝1，2，…，24；

实施例

计及缺失数据补齐的用户用电行为分析方法，包括如下步骤：

步骤一：数据采集

用户的用电数据包含档案数据(用户分类、用电类别、历史月电量等)和表计电量数据(实时电压、电流、历史日电量等)两大类。档案数据在营销业务系统中，表计电量数据是在用电信息采集系统里的，影响用电数据变化的外在因素的温度和湿度等可通过社会数据管理系统采集。

对数据来源进行分类，以便数据丢失或者被恶意篡改能及时追溯到具体位置。把档案数据中的用户身份信息M提取出来，用A来表示档案数据中的剩余部分，B、C则分别表示表计量数据和外界因素数据(温度、湿度)，采样用户个数为p个，数据格式为：

A＝(a₁,a₂,a₃,…,a_p) (1)

B＝(b₁,b₂,b₃,…,b_p) (2)

C＝(c₁,c₂,c₃,…,c_p) (3)

其中，A、B、C中同一编号的数据是在同一天的同一时刻进行采集的，保障各个种类数据的一一对应。采集q个时刻，各点的采样时间记录T如下：

T＝(t₁,t₂,t₃,…,t_q) (4)

故而，构成单个用户的数据集合如下：

F_i＝(M,T,A,B,C) (5)

步骤二：数据预处理

(1)数据清洗

进行分析的用户数据来自生产生活的实际数据，在现实世界中，由于各种内部或外部影响，数据会出现缺漏或者存在异常数据。为了提高最终结果的可信性和可解释性，在进行分析之前对这些坏数据进行剔除和修复。

用电情况是形态各异的，供电线路高功率的运行会产生负荷极大值，但一旦遇上停电或者偶发的检修电路，负荷量变成了极小值，取平均值的方法会产生较大误差。而中位数不会因为某些数据的变动而产生较大变动。所以本发明采用中位数和平均值结合的方法缩小误差。具体方法是：先对丢失数据前后几个数据排序找到中位数，再用求得的中位数和向前向后移动的数据取平均值来恢复丢失数据。

假设X_i某一天负荷曲线的第i个数据点的丢失数据，L为数据X_i前后共2h+1个数据的中位数(满足小于h个数的要求)。恢复后的数据X_i’为

式中，X_i-h和X_i+h分别代表X_i向前后各h个数据；一般来说，h的取值为5～10。

其中，用计算机获取中位数L的流程如下：

步骤0、开始，获取到丢失数据X_i；

步骤1、输入丢失数据的前数据X_i-h-1；

步骤2、判断所输入数据X_i-h-1是否小于或者大于X_i-h-1～X_i+h数据范围中的h个；若是，执行步骤6，否则，转向步骤3；

步骤3、对h的数值进行递减运算h＝h-1；

步骤4、判断进行递减运算之后的h数值是否大于1；若是，执行步骤1，否则转向步骤5；

步骤5、输入丢失数据的后数据X_i+h并转为步骤2；

步骤6、输出中位数L；

步骤7、结束。

(2)数据标准化

由于用电情况在时刻运作变化，同一天不同时刻的负荷数据都可能有着巨大差异，为了提高算法的执行速度来缩短聚类过程的时间以及更加清晰明了的展现出用户用电行为的动态变化，就需要把数据的具体数值限制到一定范围内，减小数据内部的量级差距，即归一化处理，将用户负荷特性数据的结果最终落在在区间[0,1]中。归一化公式如式(7)：

式中，X_i为第i个采样时刻实际的用电负荷，X_W表示采用极值归一化后的第i点数据和标准化之后的用电负荷，X_{i max}和X_{i min}分别表示样本数据序列的负荷最小值和最大值。

步骤三：提取用电特征

将预处理后的数据整合到一起并进行分类，将采集的p个用户的信息整合，构建的数据矩阵F如下(以T1时刻为例)：

由于区分用户类别的关键指标为用电量和电费，而不同类型的用户在这两个指标上的数量级差异很大，直接对用电数据集中处理会偏移现实情况较远，故先对用户进行分类：工业用户U1(用户个数为N1)、商业用户U2(用户个数为N2)、居民客户U3(用户个数为N3)、其他客户U4(用户个数为N4)。因此采集的p(P＝N₁+N₂+N₃+N₄)个用户的数据集可表示为：

F＝(U₁，U₂，U₃，U₄) (9)

步骤四：用电行为分析

(1)负荷特性指标

负荷分析的第一步是得到负荷特性指标(平均日负荷率、平均日最小负荷率、平均日峰谷差率等)，负荷特性指标能简单快捷地反映出负荷随时间变化的规律和特性。不同类型的用户的用电数据差异也较大，故分别计算各个类型用户的负荷特性指标。

①平均日负荷率：

式中，β_ki为第K种用户中第i个用户的平均日负荷率。N_k为第K种用户类型总数，K＝1,2,3,4。

②平均日最小负荷率：

式中，γ_ki为第K种用户中第i个用户的平均日最小负荷率。

③平均日峰谷差率：

式中，θ_ki为第K种用户第i个用户的平均日峰谷差率。

(2)负荷曲线

负荷特性指标能够得到各个大类型用户的用电特点，但对于用户用电的实时状态以及全年的用电趋势无法分析，这就需要能够形象化表达的负荷曲线，包括年最大负荷曲线(负荷全年逐月的变化)、年持续负荷曲线(全年负荷的利用小时数)和日负荷曲线。由于日负荷的个别波动会对日负荷曲线带来较大影响，因此宜采用加权平均法进行整合，权重为全年最大负荷的开方。

①负荷曲线计算公式为：

式中，

为第K种用户第g1月的负荷，N_k为第K种用户类型中用户的总数，K＝1,2,3,4，g1＝1,2,…，12，

为第K种用户第i个用户第g1月的负荷。

②持续负荷曲线计算公式为

式中，

为第K种用户第g2小时的负荷，g2＝1，2，…，8760(平年)或g2＝1，2，…，8784(闰年)，

为第K种用户第i个用户第g2小时的负荷。

③日负荷曲线计算公式为

式中，

为第K种用户第g3时刻的负荷，g3＝1，2，…，24；

为第K种用户中第i个用户第g3时刻的负荷；D_ki为第K种用户中第i个用户年最大负荷。

各个类型用户年负荷曲线呈现较均衡的趋势，差异在负荷量大小上；持续负荷曲线多是随着时间的增长而下降，只不过下降的速度有所不同；日负荷曲线有多个趋势：单峰、双峰、三峰、全天较均衡和夜间高、白天低。双峰或三峰趋势的工业用户，午间较多为峰间低谷。

(2)对于用户的丢失数据在预处理阶段进行补齐后，可以在用户粗略分类的基础上对用户的日负荷曲线进行聚合再分类，从而可以进行低偏差精确补齐丢失数据，进而更准确分析用户用电行为。

原理简单，效率较高的聚类算法K-Means就可以被采用，K-Mean算法是通过聚类准则函数，找到样本数据距离最近的中心，并进行迭代，使得不同类型之间的间隔越大，而同类型的间隔越小。K-Means算法是在最小化误差函数的基础上将数据划分为预定的类数K，采用距离作为相似性的评价指标，即认为两个对象的距离越近，其相似度就越大。本申请提取五个用户用电数据特征：日负荷峰值谷值时刻、日负荷率、日最小负荷率和日峰谷差率。

①传统的K-Means算法

运算过程中采取的聚类准则函数是

式中：n_i是第i个类的样本个数，x_ij是第i个类中的第j个样本，z_i是第i个类的聚类中心；

K个聚类的中心Z_i的计算：

传统K-Means算法的聚类准则函数以各个类内误差平方之和最小为最优质结果，所以其更加适用于分布均匀的数据。但在用户比较笼统的分类情况下，数据大多分布散乱，传统的算法会使聚类结果的准确性大打折扣。所以可通过对K-Means聚类算法进行改进，通过改变聚类准则函数，调整距离的算法，使得样本数据偏离距离中心的程度越小，同时使得类间距离越大，类中越紧凑。本申请采取各个类内的加权标准差作为聚类准则，权重为类中数据对象的个数，以防止准确率降低。

方差：

标准差：

改进的聚类准则函数(以用户类型工业用户U1为例)：

式中：N₁为工业用户数据集样本总个数，n_i代表第i个类样本个数，S_i为第i个类的标准差。

本申请采用的改进的K-Means方法的计算机执行过程如下：

步骤0、从U₁用户数据中随机选取K个用户数据作为初始聚类中心；

步骤1、计算样本到初始聚心距离的算数平方根

步骤2、将样本数据分配到距离最近的聚类中，进行样本的分类；

步骤3、分配完成所有样本数据后，重新计算K个聚类的中心Z_i；

步骤4、再次计算每个样本到各个新的聚类中心的距离，此时的距离为加权距离

(权重为

)；

步骤5、同样也是把样本分类到距离最近的聚心类别中；

步骤6、再次重新计算K个聚类的中心；

步骤7、判断聚类中心是否发生变化；若是，执行步骤4，否则，执行步骤8；

步骤8、停止迭代，输出最终分类结果。

供电公司根据用户聚类的结果，更好的掌握各类用户的用电负荷的情况，从而制定更合理的供电策略，在满足所有用户需求的同时杜绝浪费，以备不时之需。

③利用改进的K-Means算法计算丢失的数据

用改进的K-Means算法进行用户用电行为精细化分类，从而获取到与聚心中对应时刻t_i的更精确的数据V₂。填补恢复缺失数据的最终值是两个部分取值的平均值，没有单一的考虑一个方面，避免了误差过大的可能性，有利于后续基于数据的用电行为分析。

其中，聚心中对应时刻t_i的数据V₂的运算过程如下：

步骤0、标记经过预处理后补齐数据的用户M_i以及数据所在时刻t_i；

步骤1、获取用户M_i所在的粗略分类(工业、商业、居民或者其他)；

步骤2、计算并获得用户所在粗略分类下的K个聚类中心；

步骤3、获取用户M_i所在分类的聚心K_mi；

步骤4、获取聚心K_mi上对应时刻t_i的数值，即为V₂。

③补全缺失数据值后可进行进一步的用电分析(以居民用户U3为例)

居民用户的用电行为与其工作习惯有关，往往会呈现出一定的周期性，工作日、节假日以及不同季节都会有各自的负荷特性曲线。供电公司根据负荷曲线不同从而制定不同的策略，更好的开展需求侧响应工作。

工作日往往有三种类型，第一类是波动较大的日负荷曲线，谷区为夜晚休息的时间，这说明居民很可能在居家工作，从而负荷曲线中极大值多出现在白天时间内，这类用户的用电量是三种类型中最大的，是供电公司客户的基础部分。针对这种类型，供电公司的营销策略是要保持其用电积极性；第二类是双峰型的日负荷曲线，峰区时间段为中午和晚上，而谷区阶段为其余时间，这类用户便是常规外出工作的可能性比较大，针对这类峰谷时间段比较明确分界的，供电公司可以为其提供更加合理的供电策略和制定更精确的电价，从而节约资源给其他供不应求的用户；第三类为波动较为平稳的日负荷曲线，峰谷分割界限不明显但晚上的用电量不足于白天，这类用户的总用电量是三类中最低的，所以由于种种表现，退休老人的概率是偏大的，供电公司可以针对这类用户做一些可以提高用电积极性的电价活动或电量套餐。

节假日有两种可能，一种情况是居家聚会，一种是外出游玩或用餐。第一种情况的日负荷曲线有着界限分明的用电峰区和谷区，并且用电高峰为中午和晚上的吃饭时间段；第二种情况的日负荷曲线基本为0，用户基本未在家中使用电器。供电公司可以根据用户选择居家或者外出的频率判断出用户的偏好，并结合节假日的时间长短，为用户制定更合理的节假日营销策略。

以地区(以北方地区为例)的不同季节的气候特征为基础，分析用电负荷与季节之间的关系。采用传统的季节划分(三月为一季)：春夏秋季分别为每年的3-5月，6-8月，9-11月，而12月和下一年的1-2月为冬季。但是不管是四季中的那一个季节，24:00之后负荷量逐渐减小，在凌晨4:00达到日负荷的最低值，之后从6：00负荷上升速度逐渐加快，并在8:00达到极大值，在13:00出现一个极小值，接着在18:00之后负荷开始上升，并在22:00达到日负荷曲线的最大值。日负荷曲线的趋势大体如此，其中北方地区的春秋大多天气凉爽，气候适宜，降温或者保暖的电器大都不会使用，故两季的日负荷曲线的负荷取值大体一致且小于夏冬两季的；夏季气温较高并在中午气温达到最高，故在日负荷曲线的两次上升中间会出现一个在中午阶段的用电负荷值增加；冬季气温较低且昼短夜长，居民下班时间提前，因此日负荷曲线中的第二次上升会比春秋的提前。若某一天气温出现不同于以往的急剧变化(骤然降温或者升温)，日负荷曲线的峰区取值也会骤然增加。但每个用户在面对夏季的高温和冬季的低温时应用电器的开始时间不同，日负荷曲线的峰值由低变高和由高变低的时间点也不同，供电公司可以根据用户的峰值变化点制定更加细化的电价政策。