[go: up one dir, main page]

CN114048200A - 一种计及缺失数据补齐的用户用电行为分析方法 - Google Patents

一种计及缺失数据补齐的用户用电行为分析方法 Download PDF

Info

Publication number
CN114048200A
CN114048200A CN202111324959.7A CN202111324959A CN114048200A CN 114048200 A CN114048200 A CN 114048200A CN 202111324959 A CN202111324959 A CN 202111324959A CN 114048200 A CN114048200 A CN 114048200A
Authority
CN
China
Prior art keywords
data
user
load
users
missing data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111324959.7A
Other languages
English (en)
Inventor
关艳
田浩杰
陈洪禹
孙殿家
张冶
吴彤
高曦莹
陆心怡
王一苗
王馨璐
郭丹
宋轩宇
王玥
于跃
杨佳璇
田贵阳
李哲
闫奕名
王铭玉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Marketing Service Center of State Grid Liaoning Electric Power Co Ltd
State Grid Corp of China SGCC
Original Assignee
Marketing Service Center of State Grid Liaoning Electric Power Co Ltd
State Grid Corp of China SGCC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Marketing Service Center of State Grid Liaoning Electric Power Co Ltd, State Grid Corp of China SGCC filed Critical Marketing Service Center of State Grid Liaoning Electric Power Co Ltd
Priority to CN202111324959.7A priority Critical patent/CN114048200A/zh
Publication of CN114048200A publication Critical patent/CN114048200A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • Finance (AREA)
  • Development Economics (AREA)
  • Accounting & Taxation (AREA)
  • Marketing (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Health & Medical Sciences (AREA)
  • General Business, Economics & Management (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Game Theory and Decision Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Quality & Reliability (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Public Health (AREA)
  • Water Supply & Treatment (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Primary Health Care (AREA)
  • Tourism & Hospitality (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种计及缺失数据补齐的用户用电行为分析方法,包括如下步骤:采集用户的档案数据、表计电量数据和环境温湿度数据;对采集到的数据进行预处理(第一次数据恢复),之后,对预处理后的数据进行分类和用电特征提取,并根据不同用户类型进行分割存储;对预处理后的完整数据进行聚合再分类,并获取缺失数据用户所在的聚心及聚心上对应缺失数据时刻的第二次数据恢复值;计算两次数据恢复值的平均值,作为最终数据恢复值并进行二次数据恢复;利用恢复后的完整数据对用户用电行为进行分析。该计及缺失数据补齐的用户用电行为分析方法,通过采取两次对丢失数据的补全,可避免误差过大,可使得电力系统的计量数据更加完整准确。

Description

一种计及缺失数据补齐的用户用电行为分析方法
技术领域
本发明属于,特别提供了一种计及缺失数据补齐的用户用电行为分析方法。
背景技术
随着电力系统智能化水平的发展,电力营销业务系统每天收集数据量不断增长,积累了大量数据,数据的智能化分析和精益化应用需求越来越强烈。在开展营销数据的分析与挖掘之际,发现用户的用电情况越加复杂,从而导致了传统简单的按电价、行业等用户分类方法已经不能充分挖掘与分析出对能源互联网建设有价值的隐藏规律。
完整准确的计量数据是供电公司为进行用户用电行为分析和需求侧响应的基础。然而,在实际的生产环境中,会因一些不可控因素造成数据缺失,此时,合理有效地补齐恢复丢失数据方能不影响数据分析的准确性。
早期对于用电数据丢失多采用现场排查的方法。这种处理方法对人力、物力等资源造成巨大浪费,为改变这种情况,近年许多专家学者研究用信息化手段来恢复丢失数据,也都各自提出了相对应的恢复缺失值方法。如杨涛等提出了通过马氏距离来寻找到最邻近基因并进行基因表达中的缺失数据恢复;钱淑雯等提出了通过临近点中位数法和线性插值法来应用于褪黑色素时间序列研究过程中的缺失数据恢复;李建强等则是在电站数据库中采用改进的模糊聚类算法来进行缺失数据的恢复。
当数据存在缺失时,在采集数据的基础上加以适当补充完善,从而得到相对完整准确的数据后,就可以利用这些数据挖掘技术来研究探索出其中的潜在规律,从而充分了解用户用电习惯,准确分析到电力市场上的供需变化,有利于优化运行控制和调度计划。数据挖掘技术中的聚类分析可以应用在用电数据的分类处理上。该种方法是在用电数据中提取特征,并通过聚类方法对样本对象开展相似度比较活动,使得类内的样本有相似的特性,而与类外的样本特性差距较大,从而实现精细化用电行为分类。聚类算法K-Means以其原理简单、易于实现且效率高的优势被广为应用。但是K-Means算法不适合密度不均,数据分布广的数据集。
因此,提出一种计及缺失数据补齐的用户用电行为分析方法,使其可以在数据准确完整的基础上精细化分类用户群体,达到对用户的用电特性和用电模式的辨识与预测,进而为供电公司开展电价制定与需求侧响应提供基础条件,成为人们亟待解决的问题。
发明内容
鉴于此,本发明的目的在于提供一种计及缺失数据补齐的用户用电行为分析方法,以解决现有方法存在的问题。
本发明提供了一种计及缺失数据补齐的用户用电行为分析方法,包括如下步骤:
采集用户的档案数据、表计电量数据和环境温湿度数据;
对采集到的数据进行预处理,获得缺失数据用户在缺失数据时刻的第一次数据恢复值V1,并利用所述第一次数据恢复值V1进行第一次数据恢复;
对完成第一次数据恢复后的完整数据进行分类和用电特征提取,并根据不同用户类型进行分割存储;
对包含缺失数据用户的用户类型内的用户进行聚合再分类,并获取缺失数据用户所在的聚心及聚心上对应缺失数据时刻的数值,作为第二次数据恢复值V2
提取第一次数据恢复值V1和与其对应的第二次数据恢复值V2并计算平均值,作为缺失数据用户在缺失数据时刻的最终数据恢复值V,并利用所述最终数据恢复值V进行二次数据恢复;
利用完成二次数据恢复后的完整数据对用户用电行为进行分析。
优选,所述档案数据包括用户分类、用电类别;所述表计电量数据包括实时电压、电流、历史日电量。
进一步优选,对采集到的数据进行预处理,获得缺失数据用户在缺失数据时刻的第一次数据恢复值V1具体包括如下步骤:
对缺失数据前后多个数据进行排序并找到中位数;
计算所述中位数与所述缺失数据向前向后移动数据的平均值,作为第一次数据恢复值V1
进一步优选,所述缺失数据向前向后移动数据的个数为5~10。
进一步优选,所述预处理还包括对负荷数据进行归一化处理的步骤。
进一步优选,所述用户类型包括工业用户、商业用户、居民客户和其他客户。
进一步优选,对包含缺失数据用户的用户类型内的用户进行聚合再分类包括如下步骤:
从缺失数据用户的用户类型内的用户数据中随机选取K个用户数据作为初始聚类中心;
计算样本到所述初始聚类中心距离的算数平方根
Figure BDA0003346715560000031
并将样本数据分配到距离最近的聚类中,进行样本的分类;
分配完成所有样本数据后,重新计算K个聚类的中心Zi
再次计算每个样本到各个新的聚类中心的距离,并将样本分类到距离最近的聚类中,此时的距离为加权距离
Figure BDA0003346715560000041
所述
Figure BDA0003346715560000042
为权重,S表示类内的加权标准差;
分配完成所有样本数据后,再次重新计算K个聚类的中心并分配样本,直至聚类中心不再发生变化。
进一步优选,对用户用电行为进行分析包括:
分别计算各个类型用户的负荷特性指标:
①平均日负荷率:
Figure BDA0003346715560000043
式中,βki为第K种用户中第i个用户的平均日负荷率,Nk为第K种用户的总数,K=1,2,3,4;
②平均日最小负荷率:
Figure BDA0003346715560000044
式中,γki为第K种用户中第i个用户的平均日最小负荷率;
③平均日峰谷差率:
Figure BDA0003346715560000045
式中,θki为第K种用户中第i个用户的平均日峰谷差率。
进一步优选,对用户用电行为进行分析还包括:
分别计算各个类型用户的负荷曲线
①负荷曲线计算公式为:
Figure BDA0003346715560000051
式中,
Figure BDA0003346715560000052
为第K种用户第g1月的负荷,Nk为第K种用户的总数,K=1,2,3,4,g1=1,2,…,12,
Figure BDA0003346715560000053
为第K种用户中第i个用户第g1月的负荷;
②持续负荷曲线计算公式为
Figure BDA0003346715560000054
式中,
Figure BDA0003346715560000055
为第K种用户第g2小时的负荷,g2=1,2,…,8760或g2=1,2,…,8784,
Figure BDA0003346715560000056
为第K种用户中第i个用户第g2小时的负荷;
③日负荷曲线计算公式为
Figure BDA0003346715560000057
式中:
Figure BDA0003346715560000058
为第K种用户第g3时刻的负荷,g3=1,2,…,24;
Figure BDA0003346715560000059
为第K种用户第i个用户第g3时刻的负荷;Dki为第K种用户第i个用户年最大负荷。
本发明提供的计及缺失数据补齐的用户用电行为分析方法,通过采取两次对丢失数据的补全,避免了误差过大的可能,低偏差精确化补全丢失数据可使得电力系统的计量数据更加完整准确,为后续用户用电行为分析奠定夯实基础。
具体实施方式
下面将结合具体的实施方案对本发明专利进行进一步的解释,但不局限本发明专利。
本发明提供了一种计及缺失数据补齐的用户用电行为分析方法,包括如下步骤:
采集用户的档案数据、表计电量数据和环境温湿度数据;
对采集到的数据进行预处理,获得缺失数据用户在缺失数据时刻的第一次数据恢复值V1,并利用所述第一次数据恢复值V1进行第一次数据恢复;
对完成第一次数据恢复后的完整数据进行分类和用电特征提取,并根据不同用户类型进行分割存储;
对包含缺失数据用户的用户类型内的用户进行聚合再分类,并获取缺失数据用户所在的聚心及聚心上对应缺失数据时刻的数值,作为第二次数据恢复值V2
提取第一次数据恢复值V1和与其对应的第二次数据恢复值V2并计算平均值,作为缺失数据用户在缺失数据时刻的最终数据恢复值V,并利用所述最终数据恢复值V进行二次数据恢复;
利用完成二次数据恢复后的完整数据对用户用电行为进行分析。
该计及缺失数据补齐的用户用电行为分析方法,通过采取两次对丢失数据的补全,避免了误差过大的可能,低偏差精确化补全丢失数据可使得电力系统的计量数据更加完整准确,可为后续用户用电行为分析奠定夯实基础。
其中,所述档案数据包括用户分类、用电类别;所述表计电量数据包括实时电压、电流、历史日电量。
作为技术方案的改进,对采集到的数据进行预处理,获得缺失数据用户在缺失数据时刻的第一次数据恢复值V1具体包括如下步骤:
对缺失数据前后多个数据进行排序并找到中位数;
计算所述中位数与所述缺失数据向前向后移动数据的平均值,作为第一次数据恢复值V1
作为技术方案的改进,所述缺失数据向前向后移动数据的个数为5~10。
作为技术方案的改进,所述预处理还包括对负荷数据进行归一化处理的步骤。
作为技术方案的改进,所述用户类型包括工业用户、商业用户、居民客户和其他客户。
作为技术方案的改进,对包含缺失数据用户的用户类型内的用户进行聚合再分类包括如下步骤:
从缺失数据用户的用户类型内的用户数据中随机选取K个用户数据作为初始聚类中心;
计算样本到所述初始聚类中心距离的算数平方根
Figure BDA0003346715560000071
并将样本数据分配到距离最近的聚类中,进行样本的分类;
分配完成所有样本数据后,重新计算K个聚类的中心Zi
再次计算每个样本到各个新的聚类中心的距离,并将样本分类到距离最近的聚类中,此时的距离为加权距离
Figure BDA0003346715560000072
所述
Figure BDA0003346715560000073
为权重,S表示类内的加权标准差;
分配完成所有样本数据后,再次重新计算K个聚类的中心并分配样本,直至聚类中心不再发生变化。
本申请采用改进的K-Means算法,更精细化地对用户用电行为进行聚类,使得类间距离越大,类中越紧凑,从而可挖据出更多潜在的用户用电行为,达到对用户的用电特性和用电模式的辨识与预测,供电公司也能够针对性地制定不同的策略,更好的开展需求侧响应工作。
作为技术方案的改进,对用户用电行为进行分析包括:
分别计算各个类型用户的负荷特性指标:
②平均日负荷率:
Figure BDA0003346715560000081
式中,βki为第K种用户中第i个用户的平均日负荷率,Nk为第K种用户的总数,K=1,2,3,4;
②平均日最小负荷率:
Figure BDA0003346715560000082
式中,γki为第K种用户中第i个用户的平均日最小负荷率;
③平均日峰谷差率:
Figure BDA0003346715560000083
式中,θki为第K种用户中第i个用户的平均日峰谷差率。
作为技术方案的改进,对用户用电行为进行分析还包括:
分别计算各个类型用户的负荷曲线
①负荷曲线计算公式为:
Figure BDA0003346715560000084
式中,
Figure BDA0003346715560000085
为第K种用户第g1月的负荷,Nk为第K种用户的总数,K=1,2,3,4,g1=1,2,…,12,
Figure BDA0003346715560000086
为第K种用户中第i个用户第g1月的负荷;
②持续负荷曲线计算公式为
Figure BDA0003346715560000091
式中,
Figure BDA0003346715560000092
为第K种用户第g2小时的负荷,g2=1,2,…,8760或g2=1,2,…,8784,
Figure BDA0003346715560000093
为第K种用户中第i个用户第g2小时的负荷;
③日负荷曲线计算公式为
Figure BDA0003346715560000094
式中:
Figure BDA0003346715560000095
为第K种用户第g3时刻的负荷,g3=1,2,…,24;
Figure BDA0003346715560000096
为第K种用户第i个用户第g3时刻的负荷;Dki为第K种用户第i个用户年最大负荷。
实施例
计及缺失数据补齐的用户用电行为分析方法,包括如下步骤:
步骤一:数据采集
用户的用电数据包含档案数据(用户分类、用电类别、历史月电量等)和表计电量数据(实时电压、电流、历史日电量等)两大类。档案数据在营销业务系统中,表计电量数据是在用电信息采集系统里的,影响用电数据变化的外在因素的温度和湿度等可通过社会数据管理系统采集。
对数据来源进行分类,以便数据丢失或者被恶意篡改能及时追溯到具体位置。把档案数据中的用户身份信息M提取出来,用A来表示档案数据中的剩余部分,B、C则分别表示表计量数据和外界因素数据(温度、湿度),采样用户个数为p个,数据格式为:
A=(a1,a2,a3,…,ap) (1)
B=(b1,b2,b3,…,bp) (2)
C=(c1,c2,c3,…,cp) (3)
其中,A、B、C中同一编号的数据是在同一天的同一时刻进行采集的,保障各个种类数据的一一对应。采集q个时刻,各点的采样时间记录T如下:
T=(t1,t2,t3,…,tq) (4)
故而,构成单个用户的数据集合如下:
Fi=(M,T,A,B,C) (5)
步骤二:数据预处理
(1)数据清洗
进行分析的用户数据来自生产生活的实际数据,在现实世界中,由于各种内部或外部影响,数据会出现缺漏或者存在异常数据。为了提高最终结果的可信性和可解释性,在进行分析之前对这些坏数据进行剔除和修复。
用电情况是形态各异的,供电线路高功率的运行会产生负荷极大值,但一旦遇上停电或者偶发的检修电路,负荷量变成了极小值,取平均值的方法会产生较大误差。而中位数不会因为某些数据的变动而产生较大变动。所以本发明采用中位数和平均值结合的方法缩小误差。具体方法是:先对丢失数据前后几个数据排序找到中位数,再用求得的中位数和向前向后移动的数据取平均值来恢复丢失数据。
假设Xi某一天负荷曲线的第i个数据点的丢失数据,L为数据Xi前后共2h+1个数据的中位数(满足小于h个数的要求)。恢复后的数据Xi’为
Figure BDA0003346715560000111
式中,Xi-h和Xi+h分别代表Xi向前后各h个数据;一般来说,h的取值为5~10。
其中,用计算机获取中位数L的流程如下:
步骤0、开始,获取到丢失数据Xi
步骤1、输入丢失数据的前数据Xi-h-1
步骤2、判断所输入数据Xi-h-1是否小于或者大于Xi-h-1~Xi+h数据范围中的h个;若是,执行步骤6,否则,转向步骤3;
步骤3、对h的数值进行递减运算h=h-1;
步骤4、判断进行递减运算之后的h数值是否大于1;若是,执行步骤1,否则转向步骤5;
步骤5、输入丢失数据的后数据Xi+h并转为步骤2;
步骤6、输出中位数L;
步骤7、结束。
(2)数据标准化
由于用电情况在时刻运作变化,同一天不同时刻的负荷数据都可能有着巨大差异,为了提高算法的执行速度来缩短聚类过程的时间以及更加清晰明了的展现出用户用电行为的动态变化,就需要把数据的具体数值限制到一定范围内,减小数据内部的量级差距,即归一化处理,将用户负荷特性数据的结果最终落在在区间[0,1]中。归一化公式如式(7):
Figure BDA0003346715560000112
式中,Xi为第i个采样时刻实际的用电负荷,XW表示采用极值归一化后的第i点数据和标准化之后的用电负荷,Xi max和Xi min分别表示样本数据序列的负荷最小值和最大值。
步骤三:提取用电特征
将预处理后的数据整合到一起并进行分类,将采集的p个用户的信息整合,构建的数据矩阵F如下(以T1时刻为例):
Figure BDA0003346715560000121
由于区分用户类别的关键指标为用电量和电费,而不同类型的用户在这两个指标上的数量级差异很大,直接对用电数据集中处理会偏移现实情况较远,故先对用户进行分类:工业用户U1(用户个数为N1)、商业用户U2(用户个数为N2)、居民客户U3(用户个数为N3)、其他客户U4(用户个数为N4)。因此采集的p(P=N1+N2+N3+N4)个用户的数据集可表示为:
F=(U1,U2,U3,U4) (9)
步骤四:用电行为分析
(1)负荷特性指标
负荷分析的第一步是得到负荷特性指标(平均日负荷率、平均日最小负荷率、平均日峰谷差率等),负荷特性指标能简单快捷地反映出负荷随时间变化的规律和特性。不同类型的用户的用电数据差异也较大,故分别计算各个类型用户的负荷特性指标。
①平均日负荷率:
Figure BDA0003346715560000131
式中,βki为第K种用户中第i个用户的平均日负荷率。Nk为第K种用户类型总数,K=1,2,3,4。
②平均日最小负荷率:
Figure BDA0003346715560000132
式中,γki为第K种用户中第i个用户的平均日最小负荷率。
③平均日峰谷差率:
Figure BDA0003346715560000133
式中,θki为第K种用户第i个用户的平均日峰谷差率。
(2)负荷曲线
负荷特性指标能够得到各个大类型用户的用电特点,但对于用户用电的实时状态以及全年的用电趋势无法分析,这就需要能够形象化表达的负荷曲线,包括年最大负荷曲线(负荷全年逐月的变化)、年持续负荷曲线(全年负荷的利用小时数)和日负荷曲线。由于日负荷的个别波动会对日负荷曲线带来较大影响,因此宜采用加权平均法进行整合,权重为全年最大负荷的开方。
①负荷曲线计算公式为:
Figure BDA0003346715560000134
式中,
Figure BDA0003346715560000135
为第K种用户第g1月的负荷,Nk为第K种用户类型中用户的总数,K=1,2,3,4,g1=1,2,…,12,
Figure BDA0003346715560000141
为第K种用户第i个用户第g1月的负荷。
②持续负荷曲线计算公式为
Figure BDA0003346715560000142
式中,
Figure BDA0003346715560000143
为第K种用户第g2小时的负荷,g2=1,2,…,8760(平年)或g2=1,2,…,8784(闰年),
Figure BDA0003346715560000144
为第K种用户第i个用户第g2小时的负荷。
③日负荷曲线计算公式为
Figure BDA0003346715560000145
式中,
Figure BDA0003346715560000146
为第K种用户第g3时刻的负荷,g3=1,2,…,24;
Figure BDA0003346715560000147
为第K种用户中第i个用户第g3时刻的负荷;Dki为第K种用户中第i个用户年最大负荷。
各个类型用户年负荷曲线呈现较均衡的趋势,差异在负荷量大小上;持续负荷曲线多是随着时间的增长而下降,只不过下降的速度有所不同;日负荷曲线有多个趋势:单峰、双峰、三峰、全天较均衡和夜间高、白天低。双峰或三峰趋势的工业用户,午间较多为峰间低谷。
(2)对于用户的丢失数据在预处理阶段进行补齐后,可以在用户粗略分类的基础上对用户的日负荷曲线进行聚合再分类,从而可以进行低偏差精确补齐丢失数据,进而更准确分析用户用电行为。
原理简单,效率较高的聚类算法K-Means就可以被采用,K-Mean算法是通过聚类准则函数,找到样本数据距离最近的中心,并进行迭代,使得不同类型之间的间隔越大,而同类型的间隔越小。K-Means算法是在最小化误差函数的基础上将数据划分为预定的类数K,采用距离作为相似性的评价指标,即认为两个对象的距离越近,其相似度就越大。本申请提取五个用户用电数据特征:日负荷峰值谷值时刻、日负荷率、日最小负荷率和日峰谷差率。
①传统的K-Means算法
运算过程中采取的聚类准则函数是
Figure BDA0003346715560000151
式中:ni是第i个类的样本个数,xij是第i个类中的第j个样本,zi是第i个类的聚类中心;
K个聚类的中心Zi的计算:
Figure BDA0003346715560000152
传统K-Means算法的聚类准则函数以各个类内误差平方之和最小为最优质结果,所以其更加适用于分布均匀的数据。但在用户比较笼统的分类情况下,数据大多分布散乱,传统的算法会使聚类结果的准确性大打折扣。所以可通过对K-Means聚类算法进行改进,通过改变聚类准则函数,调整距离的算法,使得样本数据偏离距离中心的程度越小,同时使得类间距离越大,类中越紧凑。本申请采取各个类内的加权标准差作为聚类准则,权重为类中数据对象的个数,以防止准确率降低。
方差:
Figure BDA0003346715560000153
标准差:
Figure BDA0003346715560000161
式中:ni是第i个类的样本个数,xij是第i个类中的第j个样本,Zi是第i个类的聚类中心;
改进的聚类准则函数(以用户类型工业用户U1为例):
Figure BDA0003346715560000162
式中:N1为工业用户数据集样本总个数,ni代表第i个类样本个数,Si为第i个类的标准差。
本申请采用的改进的K-Means方法的计算机执行过程如下:
步骤0、从U1用户数据中随机选取K个用户数据作为初始聚类中心;
步骤1、计算样本到初始聚心距离的算数平方根
Figure BDA0003346715560000163
步骤2、将样本数据分配到距离最近的聚类中,进行样本的分类;
步骤3、分配完成所有样本数据后,重新计算K个聚类的中心Zi
步骤4、再次计算每个样本到各个新的聚类中心的距离,此时的距离为加权距离
Figure BDA0003346715560000164
(权重为
Figure BDA0003346715560000165
);
步骤5、同样也是把样本分类到距离最近的聚心类别中;
步骤6、再次重新计算K个聚类的中心;
步骤7、判断聚类中心是否发生变化;若是,执行步骤4,否则,执行步骤8;
步骤8、停止迭代,输出最终分类结果。
供电公司根据用户聚类的结果,更好的掌握各类用户的用电负荷的情况,从而制定更合理的供电策略,在满足所有用户需求的同时杜绝浪费,以备不时之需。
③利用改进的K-Means算法计算丢失的数据
用改进的K-Means算法进行用户用电行为精细化分类,从而获取到与聚心中对应时刻ti的更精确的数据V2。填补恢复缺失数据的最终值是两个部分取值的平均值,没有单一的考虑一个方面,避免了误差过大的可能性,有利于后续基于数据的用电行为分析。
其中,聚心中对应时刻ti的数据V2的运算过程如下:
步骤0、标记经过预处理后补齐数据的用户Mi以及数据所在时刻ti
步骤1、获取用户Mi所在的粗略分类(工业、商业、居民或者其他);
步骤2、计算并获得用户所在粗略分类下的K个聚类中心;
步骤3、获取用户Mi所在分类的聚心Kmi
步骤4、获取聚心Kmi上对应时刻ti的数值,即为V2
③补全缺失数据值后可进行进一步的用电分析(以居民用户U3为例)
居民用户的用电行为与其工作习惯有关,往往会呈现出一定的周期性,工作日、节假日以及不同季节都会有各自的负荷特性曲线。供电公司根据负荷曲线不同从而制定不同的策略,更好的开展需求侧响应工作。
工作日往往有三种类型,第一类是波动较大的日负荷曲线,谷区为夜晚休息的时间,这说明居民很可能在居家工作,从而负荷曲线中极大值多出现在白天时间内,这类用户的用电量是三种类型中最大的,是供电公司客户的基础部分。针对这种类型,供电公司的营销策略是要保持其用电积极性;第二类是双峰型的日负荷曲线,峰区时间段为中午和晚上,而谷区阶段为其余时间,这类用户便是常规外出工作的可能性比较大,针对这类峰谷时间段比较明确分界的,供电公司可以为其提供更加合理的供电策略和制定更精确的电价,从而节约资源给其他供不应求的用户;第三类为波动较为平稳的日负荷曲线,峰谷分割界限不明显但晚上的用电量不足于白天,这类用户的总用电量是三类中最低的,所以由于种种表现,退休老人的概率是偏大的,供电公司可以针对这类用户做一些可以提高用电积极性的电价活动或电量套餐。
节假日有两种可能,一种情况是居家聚会,一种是外出游玩或用餐。第一种情况的日负荷曲线有着界限分明的用电峰区和谷区,并且用电高峰为中午和晚上的吃饭时间段;第二种情况的日负荷曲线基本为0,用户基本未在家中使用电器。供电公司可以根据用户选择居家或者外出的频率判断出用户的偏好,并结合节假日的时间长短,为用户制定更合理的节假日营销策略。
以地区(以北方地区为例)的不同季节的气候特征为基础,分析用电负荷与季节之间的关系。采用传统的季节划分(三月为一季):春夏秋季分别为每年的3-5月,6-8月,9-11月,而12月和下一年的1-2月为冬季。但是不管是四季中的那一个季节,24:00之后负荷量逐渐减小,在凌晨4:00达到日负荷的最低值,之后从6:00负荷上升速度逐渐加快,并在8:00达到极大值,在13:00出现一个极小值,接着在18:00之后负荷开始上升,并在22:00达到日负荷曲线的最大值。日负荷曲线的趋势大体如此,其中北方地区的春秋大多天气凉爽,气候适宜,降温或者保暖的电器大都不会使用,故两季的日负荷曲线的负荷取值大体一致且小于夏冬两季的;夏季气温较高并在中午气温达到最高,故在日负荷曲线的两次上升中间会出现一个在中午阶段的用电负荷值增加;冬季气温较低且昼短夜长,居民下班时间提前,因此日负荷曲线中的第二次上升会比春秋的提前。若某一天气温出现不同于以往的急剧变化(骤然降温或者升温),日负荷曲线的峰区取值也会骤然增加。但每个用户在面对夏季的高温和冬季的低温时应用电器的开始时间不同,日负荷曲线的峰值由低变高和由高变低的时间点也不同,供电公司可以根据用户的峰值变化点制定更加细化的电价政策。

Claims (9)

1.一种计及缺失数据补齐的用户用电行为分析方法,其特征在于,包括如下步骤:
采集用户的档案数据、表计电量数据和环境温湿度数据;
对采集到的数据进行预处理,获得缺失数据用户在缺失数据时刻的第一次数据恢复值V1,并利用所述第一次数据恢复值V1进行第一次数据恢复;
对完成第一次数据恢复后的完整数据进行分类和用电特征提取,并根据不同用户类型进行分割存储;
对包含缺失数据用户的用户类型内的用户进行聚合再分类,并获取缺失数据用户所在的聚心及聚心上对应缺失数据时刻的数值,作为第二次数据恢复值V2
提取第一次数据恢复值V1和与其对应的第二次数据恢复值V2并计算平均值,作为缺失数据用户在缺失数据时刻的最终数据恢复值V,并利用所述最终数据恢复值V进行二次数据恢复;
利用完成二次数据恢复后的完整数据对用户用电行为进行分析。
2.按照权利要求1所述的计及缺失数据补齐的用户用电行为分析方法,其特征在于:所述档案数据包括用户分类、用电类别;所述表计电量数据包括实时电压、电流、历史日电量。
3.按照权利要求1所述的计及缺失数据补齐的用户用电行为分析方法,其特征在于:对采集到的数据进行预处理,获得缺失数据用户在缺失数据时刻的第一次数据恢复值V1具体包括如下步骤:
对缺失数据前后多个数据进行排序并找到中位数;
计算所述中位数与所述缺失数据向前向后移动数据的平均值,作为第一次数据恢复值V1
4.按照权利要求3所述的计及缺失数据补齐的用户用电行为分析方法,其特征在于:所述缺失数据向前向后移动数据的个数为5~10。
5.按照权利要求1所述的计及缺失数据补齐的用户用电行为分析方法,其特征在于:所述预处理还包括对负荷数据进行归一化处理的步骤。
6.按照权利要求1所述的计及缺失数据补齐的用户用电行为分析方法,其特征在于:所述用户类型包括工业用户、商业用户、居民客户和其他客户。
7.按照权利要求1所述的计及缺失数据补齐的用户用电行为分析方法,其特征在于:对包含缺失数据用户的用户类型内的用户进行聚合再分类包括如下步骤:
从缺失数据用户的用户类型内的用户数据中随机选取K个用户数据作为初始聚类中心;
计算样本到所述初始聚类中心距离的算数平方根
Figure FDA0003346715550000021
并将样本数据分配到距离最近的聚类中,进行样本的分类;
分配完成所有样本数据后,重新计算K个聚类的中心Zi
再次计算每个样本到各个新的聚类中心的距离,并将样本分类到距离最近的聚类中,此时的距离为加权距离
Figure FDA0003346715550000022
所述
Figure FDA0003346715550000023
为权重,S表示类内的加权标准差;
分配完成所有样本数据后,再次重新计算K个聚类的中心并分配样本,直至聚类中心不再发生变化。
8.按照权利要求1所述的计及缺失数据补齐的用户用电行为分析方法,其特征在于:对用户用电行为进行分析包括:
分别计算各个类型用户的负荷特性指标:
①平均日负荷率:
Figure FDA0003346715550000031
式中,βki为第K种用户中第i个用户的平均日负荷率,Nk为第K种用户的总数,K=1,2,3,4;
②平均日最小负荷率:
Figure FDA0003346715550000032
式中,γki为第K种用户中第i个用户的平均日最小负荷率;
③平均日峰谷差率:
Figure FDA0003346715550000033
式中,θki为第K种用户中第i个用户的平均日峰谷差率。
9.按照权利要求1所述的计及缺失数据补齐的用户用电行为分析方法,其特征在于:对用户用电行为进行分析还包括:
分别计算各个类型用户的负荷曲线
①负荷曲线计算公式为:
Figure FDA0003346715550000034
式中,Ekg1为第K种用户第g1月的负荷,Nk为第K种用户的总数,K=1,2,3,4,g1=1,2,…,12,Ekig1为第K种用户中第i个用户第g1月的负荷;
②持续负荷曲线计算公式为
Figure FDA0003346715550000041
式中,Ekg2为第K种用户第g2小时的负荷,g2=1,2,…,8760或g2=1,2,…,8784,Ekig2为第K种用户中第i个用户第g2小时的负荷;
③日负荷曲线计算公式为
Figure FDA0003346715550000042
式中:Ekg3为第K种用户第g3时刻的负荷,g3=1,2,…,24;Ekig3为第K种用户第i个用户第g3时刻的负荷;Dki为第K种用户第i个用户年最大负荷。
CN202111324959.7A 2021-11-10 2021-11-10 一种计及缺失数据补齐的用户用电行为分析方法 Pending CN114048200A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111324959.7A CN114048200A (zh) 2021-11-10 2021-11-10 一种计及缺失数据补齐的用户用电行为分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111324959.7A CN114048200A (zh) 2021-11-10 2021-11-10 一种计及缺失数据补齐的用户用电行为分析方法

Publications (1)

Publication Number Publication Date
CN114048200A true CN114048200A (zh) 2022-02-15

Family

ID=80207908

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111324959.7A Pending CN114048200A (zh) 2021-11-10 2021-11-10 一种计及缺失数据补齐的用户用电行为分析方法

Country Status (1)

Country Link
CN (1) CN114048200A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115758184A (zh) * 2022-11-17 2023-03-07 广东电力交易中心有限责任公司 应用于电力用户的聚类分析方法及装置
CN115809237A (zh) * 2023-02-07 2023-03-17 河北建投水务投资有限公司 用户水表缺失数据补齐方法及系统
CN119782290A (zh) * 2024-11-06 2025-04-08 天津大学 一种适用于多类型海量电力用户数据补全方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104680261A (zh) * 2015-03-16 2015-06-03 朗新科技股份有限公司 基于重点大客户负荷曲线聚类的电力负荷运行控制方法
CN109816017A (zh) * 2019-01-24 2019-05-28 电子科技大学 基于模糊聚类和拉格朗日插值的电网缺失数据填补方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104680261A (zh) * 2015-03-16 2015-06-03 朗新科技股份有限公司 基于重点大客户负荷曲线聚类的电力负荷运行控制方法
CN109816017A (zh) * 2019-01-24 2019-05-28 电子科技大学 基于模糊聚类和拉格朗日插值的电网缺失数据填补方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115758184A (zh) * 2022-11-17 2023-03-07 广东电力交易中心有限责任公司 应用于电力用户的聚类分析方法及装置
CN115809237A (zh) * 2023-02-07 2023-03-17 河北建投水务投资有限公司 用户水表缺失数据补齐方法及系统
CN119782290A (zh) * 2024-11-06 2025-04-08 天津大学 一种适用于多类型海量电力用户数据补全方法

Similar Documents

Publication Publication Date Title
CN116646933A (zh) 一种基于大数据的电力负荷调度方法及系统
CN110571793A (zh) 一种柔性负荷需求响应效果多维识别的方法
CN111967723B (zh) 一种基于数据挖掘的用户调峰潜力分析方法
CN111461761A (zh) 一种基于多维细粒度行为数据的居民用户画像方法
CN111832861A (zh) 基于大数据平台的居民负荷变尺度画像方法和系统
CN110276393A (zh) 一种绿色建筑能耗复合预测方法
CN110097220B (zh) 一种风力发电月度电量预测方法
CN114048200A (zh) 一种计及缺失数据补齐的用户用电行为分析方法
CN108492134A (zh) 基于多周期回归树集成的大数据用户用电行为分析系统
CN115907822A (zh) 一种考虑区域及经济影响的负荷特征指标关联性挖掘方法
CN111428745A (zh) 一种基于聚类分析的低压用户用电特征提取方法
CN111612228A (zh) 一种基于用电信息的用户用电行为分析方法
CN117272850B (zh) 配电网安全运行调度弹性空间分析方法
CN114626429A (zh) 一种新能源大数据分类与可疑数据处理方法
CN113269360A (zh) 一种基于电力用户用电行为画像的数据采集方法
CN113935399B (zh) 一种基于两阶段集成聚类的区域能源负荷用电模式挖掘算法
CN114611738A (zh) 一种基于用户用电行为分析的负荷预测方法
CN119622383A (zh) 一种基于优化K-means聚类的工业园区负荷分析方法与系统
CN114692672A (zh) 一种基于用电特征和Mean Shift算法的用户类型分类方法
CN120810609B (zh) 一种考虑可再生能源的虚拟电厂优化调度方法
CN116862137A (zh) 基于数据融合的充电桩负荷柔性调度方法及装置
CN117407758A (zh) 一种云边协同的负荷库自学习方法
CN120579782A (zh) 一种面向电网调节的需求侧可调节资源池价值评估方法及系统
CN114820036A (zh) 面向大数据和回归分析预测算法的充电市场分析系统
CN109149644B (zh) 一种基于大数据分析的光储一体在线策略匹配和协同优化方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination