CN107229819A - 一种催化裂化装置数据中离群数据识别方法及系统 - Google Patents
一种催化裂化装置数据中离群数据识别方法及系统 Download PDFInfo
- Publication number
- CN107229819A CN107229819A CN201710305202.0A CN201710305202A CN107229819A CN 107229819 A CN107229819 A CN 107229819A CN 201710305202 A CN201710305202 A CN 201710305202A CN 107229819 A CN107229819 A CN 107229819A
- Authority
- CN
- China
- Prior art keywords
- data
- subsequence
- outlier
- catalytic cracking
- weighted
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004523 catalytic cracking Methods 0.000 title claims abstract description 90
- 238000000034 method Methods 0.000 title claims abstract description 55
- 239000013598 vector Substances 0.000 claims abstract description 54
- 230000003993 interaction Effects 0.000 claims abstract description 51
- 238000004519 manufacturing process Methods 0.000 claims abstract description 28
- 238000005070 sampling Methods 0.000 claims abstract description 26
- OKTJSMMVPCPJKN-UHFFFAOYSA-N Carbon Chemical group [C] OKTJSMMVPCPJKN-UHFFFAOYSA-N 0.000 claims description 9
- 238000003860 storage Methods 0.000 claims description 9
- 238000004458 analytical method Methods 0.000 claims description 5
- 229910052799 carbon Inorganic materials 0.000 claims description 2
- 238000010586 diagram Methods 0.000 description 12
- 238000007418 data mining Methods 0.000 description 5
- 238000004422 calculation algorithm Methods 0.000 description 4
- 230000002452 interceptive effect Effects 0.000 description 4
- 239000003921 oil Substances 0.000 description 4
- 238000005259 measurement Methods 0.000 description 3
- 230000000737 periodic effect Effects 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 239000002994 raw material Substances 0.000 description 2
- 238000007670 refining Methods 0.000 description 2
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 description 1
- 206010049040 Weight fluctuation Diseases 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000032683 aging Effects 0.000 description 1
- 239000003054 catalyst Substances 0.000 description 1
- 238000012824 chemical production Methods 0.000 description 1
- 238000005336 cracking Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000013499 data model Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005265 energy consumption Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 239000000295 fuel oil Substances 0.000 description 1
- 238000009776 industrial production Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000013450 outlier detection Methods 0.000 description 1
- 239000012492 regenerant Substances 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000000523 sample Substances 0.000 description 1
- 229930195734 saturated hydrocarbon Natural products 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/10—Analysis or design of chemical reactions, syntheses or processes
Landscapes
- Chemical & Material Sciences (AREA)
- Analytical Chemistry (AREA)
- Chemical Kinetics & Catalysis (AREA)
- Crystallography & Structural Chemistry (AREA)
- Life Sciences & Earth Sciences (AREA)
- Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computing Systems (AREA)
- Theoretical Computer Science (AREA)
- Production Of Liquid Hydrocarbon Mixture For Refining Petroleum (AREA)
Abstract
本发明实施例提供了一种催化裂化装置数据中离群数据识别方法及系统,所述方法包括:按照预设采样时间获取催化裂化的生产数据的原始属性值,获得原始属性值的时间序列集合;使用滑动时间窗对时间序列集合进行重构,获得原始属性值的子序列集合,子序列集合中包括多个子序列;获取子序列集合的交互权值向量,根据交互权值向量和子序列集合,构建加权序列集合,加权序列集合中包括多个加权子序列;获取加权序列集合中各个加权子序列的局部离群因子,根据局部离群因子识别出催化裂化装置数据中的离群数据。该系统用于执行上述方法。本发明实施例中提高了催化裂化装置数据中离群数据识别的准确性和催化裂化装置数据的可靠性。
Description
技术领域
本发明实施例涉及石油化工技术领域,具体涉及一种催化裂化装置数据中离群数据识别方法及系统。
背景技术
重油催化裂化在我国炼油工业占有重要地位,对于要求降低生产能耗、物耗,减少非正常停车的炼油厂来说,能通过生产操作优化来保障装置“安稳长满优”运行是最为经济与便捷的选择。在炼化生产操作优化方面,除了机理建模之外,数据建模也是一种重要手段。利用日常操作的数据,或者安排一定的测试,获得过程的测试数据,然后利用统计方法或机器学习方法建立模型,即为数据建模,数据模型对原始数据的质量有着较高的要求。
然而在催化裂化装置实际生产运行过程中,由于采样失真、测量误差、设备故障、探头老化及其他可能存在的影响因素,采集到的催化裂化装置数据往往存在着不遵循数据波动变化规律的采样值。催化裂化装置数据主要是指工业生产中与催化裂化相关的数据,这些数据并非由于正常的工艺调整所致,对工程师与科研工作者有效利用装置数据进行建模分析造成了极大的困扰。为了提高采集到的数据的准确性和可靠性,十分有必要对离群数据加以辨识并进行相应的处理。催化裂化装置数据中离群数据的识别属于时间序列离群点检测的研究领域,其难点在于:采样数据本身具有波动性,正常的波动不能当做离群点来处理,需要关注的是这些正常波动之外的异常数据。目前工程领域中,主要使用基于统计学的方法来识别离群数据,该方法计算简便,但需要事先知晓或推断数据的分布情况,然而现实中的数据往往离理想状态的数学分布相差较远,并且这类方法对维度较高、具有周期性的时序数据难以辨识。现有技术中,普遍采用时间序列离群数据识别方法,部分方法直接将非时序数据挖掘的方法应用到时序数据中,忽视了周期性和波动性,误判率较高。
因此,如何提出一种方案,能够提高催化裂化装置离群数据识别的准确性,成为亟待解决的问题。
发明内容
针对现有技术中的缺陷,本发明实施例提供了及一种催化裂化装置数据中离群数据识别方法及系统。
一方面,本发明实施例提供了一种催化裂化装置数据中离群数据识别方法,包括:
按照预设采样时间获取催化裂化的生产数据的原始属性值,获得所述原始属性值的时间序列集合,所述原始属性值包括:所述生产数据的温度、压力、流量和残炭值;
使用滑动时间窗对所述时间序列集合进行重构,获得所述原始属性值的子序列集合,所述子序列集合中包括多个子序列;
获取所述子序列集合的交互权值向量,根据所述交互权值向量和所述子序列集合,构建加权序列集合,所述加权序列集合中包括多个加权子序列;
获取所述加权序列集合中各个所述加权子序列的局部离群因子,根据所述局部离群因子识别出催化裂化装置数据中的离群数据。
进一步地,所述获取所述子序列集合的交互权值向量包括:
获取所述子序列集合中各个子序列对应的信息熵,根据所述信息熵获取所述交互权值向量。
进一步地,所述根据所述交互权值向量和所述子序列集合,构建多个加权序列集合,包括,将所述交互权值向量中的每个元素和所述子序列集合中的对应的元素相乘,构建所述加权序列集合。
进一步地,所述根据所述局部离群因子识别出催化裂化装置数据中的离群数据,包括:
根据所述局部离群因子设置预设阈值;
将所述局部离群因子大于所述预设阈值的加权子序列作为离群子序列,将所述离群子序列中数值最大的数据作为所述离群数据。
进一步地,所述根据所述局部离群因子设置预设阈值包括:
获取所述局部离群因子的第一四分位数和第三四分位数,利用公式F=Q3+3(Q3-Q1)设置所述预设阈值,式中:F表示所述预设阈值,Q3表示所述局部离群因子的第三四分位数,Q1表示所述局部离群因子的第一四分位数。
进一步地,所述按照预设采样时间获取催化裂化的生产数据的原始属性值,包括:按照预设采样时间通过催化裂化装置采集的在线实时数据获取或按照预设采样时间通过实验分析获取。
另一方面,本发明实施例提供一种催化裂化装置数据中离群数据识别系统,包括:
时间序列生成单元,用于按照预设采样时间获取催化裂化的生产数据的原始属性值,获得所述原始属性值的时间序列集合,所述原始属性值包括:所述生产数据的温度、压力、流量和残炭值;
时间序列重构单元,用于使用滑动时间窗对所述时间序列集合进行重构,获得所述原始属性值的子序列集合,所述子序列集合中包括多个子序列;
加权序列生成单元,用于获取所述子序列集合的交互权值向量,根据所述交互权值向量和所述子序列集合,构建加权序列集合,所述加权序列集合中包括多个加权子序列;
离群数据识别单元,用于获取所述加权序列集合中各个所述加权子序列的局部离群因子,根据所述局部离群因子识别出催化裂化装置数据中的离群数据。
进一步地,所述加权序列生成单元具体用于:
获取所述子序列集合中各个子序列对应的信息熵,根据所述信息熵获取所述交互权值向量。
再一方面,本发明实施例提供一种用于催化裂化装置数据中离群数据识别的电子设备,包括:
至少一个处理器;以及
与所述处理器通信连接的至少一个存储器,其中:
所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行上述的方法。
又一方面,本发明实施例提供一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行上述方法。
本发明实施例提供的催化裂化离群数据识别方法及系统,根据催化裂化装置离线数据的波动性和周期性特征,提出了基于滑动时间窗和交互权向量加权的离群数据挖掘算法,对催化裂化装置离线数据中的离群数据加以有效识别,提高了催化裂化装置数据中离群数据识别的准确性,进一步提高了催化裂化装置数据的可靠性,为软测量等后续应用提供高质量的原始数据。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例中催化裂化装置数据中离群数据识别方法的流程示意图;
图2为本发明实施例中又一催化裂化装置数据中离群数据识别方法的流程示意图;
图3为本发明实施例中一催化裂化的温度点数据示意图;
图4为本发明实施例中信息熵赋权值的滑动时间窗离群因子示意图;
图5为本发明实施例中无滑动时间窗计算所得离群因子;
图6为本发明实施例中有滑动时间窗的离群因子;
图7为本发明实施例中离群子序列和离群数据的识别结果示意图;
图8为本发明实施例中催化裂化装置数据中离群数据识别系统的结构示意图;
图9为本发明实施例中用于催化裂化装置数据中离群数据识别的电子设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明实施例中催化裂化装置数据中离群数据识别方法的流程示意图,如图1所示,本发明实施例提供的催化裂化离群数据识别方法包括:
S1、按照预设采样时间获取催化裂化的生产数据的原始属性值,获得所述原始属性值的时间序列集合,所述原始属性值包括:所述生产数据的温度、压力、流量和残炭值;
具体地,从催化裂化生产现场或数据采集系统中提取出催化裂化的生产数据的原始属性值,如温度、压力、流量等,原始属性值的采样时间间隔可以为一小时一次,采集到的原始属性值构成时间序列集合,如构成长度为n的时间序列集合X={xi|i=1,2,...,n},i表示采样时间,xi表示第i个小时获取到的数据。其中生产数据即为催化裂化装置数据,其具体包括但不限于:原料性质:原料油密度、饱和烃含量、残炭等;催化剂性质:再生剂活性等;操作变量:原料油流量、蜡油进料量、预提升蒸汽流控、反应压力、提升管中部温度等。此外,采样时间也可以根据需要进行设置,不限于本发明实施例中的一小时一次。可以看出,本发明实施例中将采集到的催化裂化的生产数据的原始属性值按照时间的顺序,组合成时间序列集合。
其中,生产数据的原始属性值的获取方法可以是:按照预设采样时间通过催化裂化装置采集的在线实时数据获取或按照预设采样时间通过实验分析获取。即催化裂化装置数据的原始属性值既可以通过催化裂化装置采集在线数据获取,也可以通过炼厂实验室分析化验数据获取,当然根据需要,也可以通过其他方式获取,本发明实施例不作具体限定。
S2、使用滑动时间窗对所述时间序列集合进行重构,获得所述原始属性值的子序列集合,所述子序列集合中包括多个子序列;
具体地,获取到催化裂化装置数据的原始属性值后,使用滑动时间窗对由原始属性值构建的时间序列集合进行重构,获取原始属性值的子序列结合。具体可以设定窗宽,对时间序列集合进行重新组合构建,例如:使用滑动时间窗对上述实施例中的时间序列集合X进行重构,设定窗宽为w,则可以得到l(l=n-w+1)个长度为w的子序列,多个子序列构建出子序列集合为W(s)={si|i=1,...,n-w+1}。
S3、获取所述子序列集合的交互权值向量,根据所述交互权值向量和所述子序列集合,构建加权序列集合,所述加权序列集合中包括多个加权子序列;
具体地,获取原始属性值的子序列集合的交互权值向量,根据该交互权值向量和重构后的子序列集合,构建出加权序列集合。
S4、获取所述加权序列集合中各个所述加权子序列的局部离群因子,根据所述局部离群因子识别出催化裂化中的离群数据。
具体地,获取加权序列集合中各个加权子序列的局部离群因子LOF(LocalOutlier Factor),根据获取到的LOF值识别出催化裂化装置数据中的离群数据。
其中,所述根据所述局部离群因子识别出催化裂化装置数据中的离群数据,包括:
根据所述局部离群因子设置预设阈值;
将所述局部离群因子大于所述预设阈值的加权子序列作为离群子序列,将所述离群子序列中数值最大的数据作为所述离群数据。
具体地,可以根据获取到的加权序列集合中各个加权子序列的局部离群因子LOF值设置预设阈值,将各个加权子序列的局部离群因子LOF值与预设阈值进行比较。将其中局部离群因子LOF值大于预设阈值的加权子序列作为离群子序列,将识别出的离群子序列中数值最大的数据作为离群数据。
其中,设置预设阈值的方法可以是:获取所述局部离群因子的第一四分位数和第三四分位数,利用公式F=Q3+3(Q3-Q1)设置所述预设阈值,式中:F表示所述预设阈值,Q3表示所述局部离群因子的第三四分位数,Q1表示所述局部离群因子的第一四分位数。
具体提,先获取各个加权子序列对应的局部离群因子LOF值中的第一四分位数和第三四分位数,即将各个加权子序列对应的所有局部离群因子LOF值由小到大排列后,获取其中排在第25%的数据作为局部离群因子的第一四分位数,获取其中排在第75%的数据作为局部离群因子的第三四分位数。再利用如下公式(1),获得预设阈值F:
F=Q3+3(Q3-Q1) (1)
式中:F——表示预设阈值,Q3——表示局部离群因子的第三四分位数,Q1——表示局部离群因子的第一四分位数。
本发明实施例提供的催化裂化离群数据识别方法,根据催化裂化装置离线数据的波动性和周期性特征,提出了基于滑动时间窗和交互权向量加权的离群数据挖掘算法,对催化裂化装置离线数据中的离群数据加以有效识别,提高了催化裂化装置数据中离群数据识别的准确性,进一步提高了催化裂化装置数据的可靠性,为软测量等后续应用提供高质量的原始数据。
在上述实施例的基础上,所述获取所述子序列集合的交互权值向量包括:
获取所述子序列集合中各个子序列对应的信息熵,根据所述信息熵获取所述交互权值向量。
具体地,获取利用滑动时间窗重构获得的子序列集合中各个子序列对应的信息熵,根据该信息熵获取子序列集合的交互权向量,其中通过子序列集合中各个子序列对应的信息熵获得子序列集合的交互权向量的方法如下:
首先计算子序列集合中每个子序列的信息熵,假设子序列集合W共有l个w维的子序列,每一个子序列可看做w维空间点,对每一个子序列s的信息熵可以采用如下公式(2)获得,
式中:IE(s)——表示子序列s的信息熵;
——表示子序列s中第一个元素的信息熵,相应的分别表示子序列s中第2个、第w个元素的信息熵。
此外,子序列中各个元素的信息熵的具体计算方法如下:
将各个子序列看做数据集,子序列中的每个元素看做一个数据点,则对于数据集,数据点的k-距离邻域包含到数据点p的距离不大于distk(p)的数据点的集合,记作Nk(p),有如下公式(3):
Nk(p)={q|q∈W\p,dist(p,q)≤distk(p)} (3)
则数据点p的信息熵可以表示为如下公式(4):
其中:dmin和dmax的计算方法如下公式(5)和(6)所示:
dmin=min{dist(p,q)|q∈Nk(p)} (5)
dmax=max{dist(p,q)|q∈Nk(p)} (6)
获得子序列中每个元素的信息熵后,利用上述公式(2)即可获得子序列的信息熵,进步获得子序列集合的信息熵。获得子序列集合中每个子序列的信息熵后,使用如下公式(7)和(8)获得交互权重向量:
式中:B(s)——表示子序列s的交互权重向量;
——表示子序列s中第i个元素的信息熵。
将各个子序列的交互权重向量组合成一个集合,即可获得子序列集合的交互权值向量。
获得子序列集合的交互权向量后,将子序列集合的交互权值向量中的每个元素和子序列集合中的对应的元素相乘,构建所述加权序列集合。实际应用时,子序列集合的交互权值向量和子序列集合是相同维度的矩阵,将两个矩阵作乘法,即可获得加权序列集合。
获取到加权序列集合后,利用上述实施例的方法获取各个加权子序列的局部离群因子,进一步根据该局部离群因子识别出催化裂化装置数据中的离群数据。
图2为本发明实施例中又一催化裂化装置数据中离群数据识别方法的流程示意图,如图2所示,下面结合某炼厂催化裂化装置提升管反应器一个月内的温度数据,具体介绍本发明实施例的具体方案:
T1、采集催化裂化的生产数据。图3为本发明实施例中一催化裂化的温度点数据示意图,如图3所示,该图的横坐标为采样数,纵坐标为对应温度。从催化裂化生产现场采集到提升管反应器一个月内的温度数据,构成长度为744的时间序列集合X={xi|i=1,2,...,744}。
T2、使用滑动时间窗构建子序列集合。使用滑动时间窗对时间序列集合X进行重构,设定窗宽为24,则可以得到721个长度为24的子序列,子序列集合为W(s)={si|i=1,..,721}。
T3、获取每个子序列的信息熵。子序列集合W共有721个24维的子序列,每一个子序列可看做24维空间点,获取子序列集合中每个子序列的信息熵,具体获取方法同上述实施例一致,此处不再赘述。
T4、获取子序列集合的交互权向量。利用子序列集合中每个子序列的信息熵,获取每个子序列的交互权向量,进一步获得子序列集合的交互权向量,具体获取子序列和子序列集合的交互权向量的方法同上述实施例一致,此处不再赘述。
T5、构建加权序列集合。将子序列集合的交互权值向量B中每个元素与子序列集合W中对应的元素相乘,构成加权序列集合WB。
T6、获取各个加权子序列的局部离群因子。对加权后的加权序列集合WB使用离群因子进行计算,得到对应的局部离群因子LOF值。其中各个加权子序列的局部离群因子的具体可以采用如下方法进行计算:
给定一个自然数k,计算每个加权数据p即加权子序列的k-距离,其大小按照定义为WB中加权数据p和离其最近的第k个数据点xk之间的距离,基于此,加权后加权数据p的k邻域为如下公式(9):
NWk(p)={q|q∈W\p,dist(p,q)≤distwk(p)} (9)
加权数据p相对于xk的可达距离为如下公式(10)所示:
reachDistk(p,xk)=max{distwk(xk),dist(p,xk)} (10)
加权数据p的k-局部可达密度定义为数据点p与其加权后k-距离邻域的平均可达距离的倒数,具体如下公式(11)所示:
则数据点p即加权子序列的局部离群因子LOFk(p)为如下公式(12):
图4为本发明实施例中信息熵赋权值的滑动时间窗离群因子示意图,如图4所示,为本发明实施例采用上述方法获得的加权序列集合的局部离群因子示意图,该图中横坐标为采样数,纵坐标为离群因子,从图4可以识别出第297个加权子序列为离群子序列,其中存在离群点。图5为本发明实施例中无滑动时间窗计算所得离群因子,图6为本发明实施例中有滑动时间窗的离群因子。对比图4、图5和图6,可以看出本发明实施例采用信息熵赋权值结合滑动时间窗的方法获取离群因子,既考虑到局部波动因素,又兼顾数据整体的波动性,提高了离群因子获取的准确性,进一步提高了催化裂化装置数据中离群数据获得的准确性。
T7、获取离群子序列。计算得到的加权序列集合中各个加权子序列的局部离群因子LOF值后,根据各个加权子序列的局部离群因子的第一四分位数和第三四分位数,利用上述公式(1)设置局部离群因子的预设阈值。当然根据需要,还可以根据其他方法设置离群因子的预设阈值,把各个加权子序列的局部离群因子LOF值与预设阈值对比,局部离群因子LOF值越大,说明该数据是离群数据的可能性越大,将局部离群因子大于该预设阈值的加权子序列作为离群子序列。
T8、识别离群数据。各个离群子序列中的最值即为时间序列集合X的离群点。图7为本发明实施例中离群子序列和离群数据的识别结果示意图,如图7所示,图中横坐标为采样点范围是1~24,纵坐标为温度。图4中识别出第297个子序列为离群子序列,其中存在离群点;图7表示第297个加权子序列的具体内容,其中的第7个点为原始数据中的第303个点(结合图3可以获得温度为541.3的点为第303个点),即时间序列集合X第303个数据点为离群数据。
本发明实施例提供的催化裂化离群数据识别方法,根据催化裂化装置离线数据的波动性和周期性特征,提出了基于滑动时间窗和交互权向量加权的离群数据挖掘算法,既考虑到局部波动因素,又兼顾数据整体的波动性,对催化裂化装置离线数据中的离群数据加以有效识别,提高了催化裂化装置数据中离群数据识别的准确性,进一步提高了催化裂化装置数据的可靠性,为软测量等后续应用提供高质量的原始数据。
图8为本发明实施例中催化裂化装置数据中离群数据识别系统的结构示意图,如图8所示,本发明实施例提供的催化裂化装置数据中离群数据识别系统包括:时间序列生成单元81、时间序列重构单元82、加权序列生成单元83和离群数据识别单元84,其中:
时间序列生成单元81用于按照预设采样时间获取催化裂化的生产数据的原始属性值,获得所述原始属性值的时间序列集合,所述原始属性值包括:所述生产数据的温度、压力、流量和残炭值;时间序列重构单元82用于使用滑动时间窗对所述时间序列集合进行重构,获得所述原始属性值的子序列集合,所述子序列集合中包括多个子序列;加权序列生成单元83用于获取所述子序列集合的交互权值向量,根据所述交互权值向量和所述子序列集合,构建加权序列集合,所述加权序列集合中包括多个加权子序列;离群数据识别单元84用于获取所述加权序列集合中各个所述加权子序列的局部离群因子,根据所述局部离群因子识别出催化裂化装置数据中的离群数据。
具体地,时间序列生成单元81从催化裂化生产现场或数据采集系统中提取出催化裂化的生产数据的原始属性值,如温度、压力、流量等,原始属性值的采样时间间隔可以为一小时一次,采集到的原始属性值构成时间序列集合。获取到催化裂化装置数据的原始属性值后,时间序列重构单元82使用滑动时间窗对由原始属性值构建的时间序列集合进行重构,获取原始属性值的子序列结合。具体可以设定窗宽,对时间序列集合进行重新组合构建,获得多个子序列构,建出子序列集合。加权序列生成单元83获取原始属性值的子序列集合的交互权值向量,根据该交互权值向量和重构后的子序列集合,构建出加权序列集合。离群数据识别单元84获取加权序列集合中各个加权子序列的局部离群因子LOF(LocalOutlier Factor),根据获取到的LOF值识别出催化裂化装置数据中的离群数据。
在上述实施例的基础上,所述加权序列生成单元具体用于:
获取所述子序列集合中各个子序列对应的信息熵,根据所述信息熵获取所述交互权值向量。
具体地,加权序列生成单元获取利用滑动时间窗重构获得的子序列集合中各个子序列对应的信息熵,根据该信息熵获取子序列集合的交互权向量,其中通过子序列集合中各个子序列对应的信息熵获得子序列集合的交互权向量的方法同上述实施例一致,此处不再赘述。
其中,离群数据识别单元具体用于:
根据所述局部离群因子设置预设阈值;
将所述局部离群因子大于所述预设阈值的加权子序列作为离群子序列,将所述离群子序列中数值最大的数据作为所述离群数据。
具体地,离群数据识别单元可以根据获取到的加权序列集合中各个加权子序列的局部离群因子LOF值设置预设阈值,将各个加权子序列的局部离群因子LOF值与预设阈值进行比较。将其中局部离群因子LOF值大于预设阈值的加权子序列作为离群子序列,将识别出的离群子序列中数值最大的数据作为离群数据。
其中,离群数据识别单元设置预设阈值的方法可以是:获取所述局部离群因子的第一四分位数和第三四分位数,利用公式F=Q3+3(Q3-Q1)设置所述预设阈值,式中:F表示所述预设阈值,Q3表示所述局部离群因子的第三四分位数,Q1表示所述局部离群因子的第一四分位数。
本发明实施例提供的催化裂化装置数据中离群数据识别系统用于执行上述方法,其具体实施方式同上述实施例一致,此处不再赘述。
本发明实施例提供的催化裂化离群数据识别方法及系统,根据催化裂化装置离线数据的波动性和周期性特征,提出了基于滑动时间窗和交互权向量加权的离群数据挖掘算法,既考虑到局部波动因素,又兼顾数据整体的波动性,对催化裂化装置离线数据中的离群数据加以有效识别,提高了催化裂化装置数据中离群数据识别的准确性,进一步提高了催化裂化装置数据的可靠性,为软测量等后续应用提供高质量的原始数据。
图9为本发明实施例中用于催化裂化装置数据中离群数据识别的电子设备的结构示意图,如图9所示,所述装置可以包括:处理器(processor)901、存储器(memory)902和通信总线903,其中,处理器901,存储器902通过通信总线903完成相互间的通信。处理器901可以调用存储器902中的逻辑指令,以执行如下方法:按照预设采样时间获取催化裂化的生产数据的原始属性值,获得所述原始属性值的时间序列集合,所述原始属性值包括:所述生产数据的温度、压力、流量和残炭值;使用滑动时间窗对所述时间序列集合进行重构,获得所述原始属性值的子序列集合,所述子序列集合中包括多个子序列;获取所述子序列集合的交互权值向量,根据所述交互权值向量和所述子序列集合,构建加权序列集合,所述加权序列集合中包括多个加权子序列;获取所述加权序列集合中各个所述加权子序列的局部离群因子,根据所述局部离群因子识别出催化裂化装置数据中的离群数据。
此外,上述的存储器902中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本发明实施例提供一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行上述各方法实施例所提供的方法,例如包括:按照预设采样时间获取催化裂化的生产数据的原始属性值,获得所述原始属性值的时间序列集合,所述原始属性值包括:所述生产数据的温度、压力、流量和残炭值;使用滑动时间窗对所述时间序列集合进行重构,获得所述原始属性值的子序列集合,所述子序列集合中包括多个子序列;获取所述子序列集合的交互权值向量,根据所述交互权值向量和所述子序列集合,构建加权序列集合,所述加权序列集合中包括多个加权子序列;获取所述加权序列集合中各个所述加权子序列的局部离群因子,根据所述局部离群因子识别出催化裂化装置数据中的离群数据。
以上实施例仅用于说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种催化裂化装置数据中离群数据识别方法,其特征在于,包括:
按照预设采样时间获取催化裂化的生产数据的原始属性值,获得所述原始属性值的时间序列集合,所述原始属性值包括:所述生产数据的温度、压力、流量和残炭值;
使用滑动时间窗对所述时间序列集合进行重构,获得所述原始属性值的子序列集合,所述子序列集合中包括多个子序列;
获取所述子序列集合的交互权值向量,根据所述交互权值向量和所述子序列集合,构建加权序列集合,所述加权序列集合中包括多个加权子序列;
获取所述加权序列集合中各个所述加权子序列的局部离群因子,根据所述局部离群因子识别出催化裂化装置数据中的离群数据。
2.根据权利要求1所述的方法,其特征在于,所述获取所述子序列集合的交互权值向量包括:
获取所述子序列集合中各个子序列对应的信息熵,根据所述信息熵获取所述交互权值向量。
3.根据权利要求1所述的方法,其特征在于,所述根据所述交互权值向量和所述子序列集合,构建多个加权序列集合,包括,将所述交互权值向量中的每个元素和所述子序列集合中的对应的元素相乘,构建所述加权序列集合。
4.根据权利要求1所述的方法,其特征在于,所述根据所述局部离群因子识别出催化裂化装置数据中的离群数据,包括:
根据所述局部离群因子设置预设阈值;
将所述局部离群因子大于所述预设阈值的加权子序列作为离群子序列,将所述离群子序列中数值最大的数据作为所述离群数据。
5.根据权利要求4所述的方法,其特征在于,所述根据所述局部离群因子设置预设阈值包括:
获取所述局部离群因子的第一四分位数和第三四分位数,利用公式F=Q3+3(Q3-Q1)设置所述预设阈值,式中:F表示所述预设阈值,Q3表示所述局部离群因子的第三四分位数,Q1表示所述局部离群因子的第一四分位数。
6.根据权利要求1-5任一项所述的方法,其特征在于,所述按照预设采样时间获取催化裂化的生产数据的原始属性值,包括:按照预设采样时间通过催化裂化装置采集的在线实时数据获取或按照预设采样时间通过实验分析获取。
7.一种催化裂化装置数据中离群数据识别系统,其特征在于,包括:
时间序列生成单元,用于按照预设采样时间获取催化裂化的生产数据的原始属性值,获得所述原始属性值的时间序列集合,所述原始属性值包括:所述生产数据的温度、压力、流量和残炭值;
时间序列重构单元,用于使用滑动时间窗对所述时间序列集合进行重构,获得所述原始属性值的子序列集合,所述子序列集合中包括多个子序列;
加权序列生成单元,用于获取所述子序列集合的交互权值向量,根据所述交互权值向量和所述子序列集合,构建加权序列集合,所述加权序列集合中包括多个加权子序列;
离群数据识别单元,用于获取所述加权序列集合中各个所述加权子序列的局部离群因子,根据所述局部离群因子识别出催化裂化装置数据中的离群数据。
8.根据权利要求6所述的系统,其特征在于,所述加权序列生成单元具体用于:
获取所述子序列集合中各个子序列对应的信息熵,根据所述信息熵获取所述交互权值向量。
9.一种用于催化裂化装置数据中离群数据识别的电子设备,其特征在于,包括:
至少一个处理器;以及
与所述处理器通信连接的至少一个存储器,其中:
所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行如权利要求1至6任一项所述的方法。
10.一种非暂态计算机可读存储介质,其特征在于,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行如权利要求1至6任一项所述的方法。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN201710305202.0A CN107229819A (zh) | 2017-05-03 | 2017-05-03 | 一种催化裂化装置数据中离群数据识别方法及系统 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN201710305202.0A CN107229819A (zh) | 2017-05-03 | 2017-05-03 | 一种催化裂化装置数据中离群数据识别方法及系统 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| CN107229819A true CN107229819A (zh) | 2017-10-03 |
Family
ID=59933167
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| CN201710305202.0A Pending CN107229819A (zh) | 2017-05-03 | 2017-05-03 | 一种催化裂化装置数据中离群数据识别方法及系统 |
Country Status (1)
| Country | Link |
|---|---|
| CN (1) | CN107229819A (zh) |
Cited By (9)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN107941537A (zh) * | 2017-10-25 | 2018-04-20 | 南京航空航天大学 | 一种机械设备健康状态评估方法 |
| CN108038044A (zh) * | 2017-12-26 | 2018-05-15 | 北京航空航天大学 | 一种面向连续被监测对象的异常检测方法 |
| CN110648741A (zh) * | 2018-06-27 | 2020-01-03 | 清华大学 | 基于局部离群因子的识别开药异常的医生的方法及装置 |
| CN113158871A (zh) * | 2021-04-15 | 2021-07-23 | 重庆大学 | 一种基于密度核心的无线信号强度异常检测方法 |
| CN113836240A (zh) * | 2021-09-07 | 2021-12-24 | 招商银行股份有限公司 | 时序数据分类方法、装置、终端设备及存储介质 |
| CN118606848A (zh) * | 2024-04-17 | 2024-09-06 | 大连理工大学 | 一种基于局部异常因子与多重验证的大坝监测数据异常识别方法 |
| US12099003B2 (en) | 2018-01-26 | 2024-09-24 | Viavi Solutions Inc. | Reduced false positive identification for spectroscopic classification |
| CN118866170A (zh) * | 2024-06-27 | 2024-10-29 | 威尔芬(北京)科技发展有限公司 | 一种甜橙花精油脱色保香方法 |
| US12481726B2 (en) | 2018-01-26 | 2025-11-25 | Viavi Solutions Inc. | Reduced false positive identification for spectroscopic quantification |
Citations (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN102867421A (zh) * | 2012-09-24 | 2013-01-09 | 东南大学 | 一种识别有效停车泊位占有率中离群数据的方法 |
| CN103812700A (zh) * | 2014-02-18 | 2014-05-21 | 西南大学 | 一种基于规则信息熵的报文分类方法 |
| CA2842975A1 (en) * | 2013-02-14 | 2014-08-14 | TeamUp Technologies, Inc. | Collaborative, multi-user system for viewing, rendering, and editing 3d assets |
-
2017
- 2017-05-03 CN CN201710305202.0A patent/CN107229819A/zh active Pending
Patent Citations (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN102867421A (zh) * | 2012-09-24 | 2013-01-09 | 东南大学 | 一种识别有效停车泊位占有率中离群数据的方法 |
| CA2842975A1 (en) * | 2013-02-14 | 2014-08-14 | TeamUp Technologies, Inc. | Collaborative, multi-user system for viewing, rendering, and editing 3d assets |
| CN103812700A (zh) * | 2014-02-18 | 2014-05-21 | 西南大学 | 一种基于规则信息熵的报文分类方法 |
Cited By (14)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN107941537A (zh) * | 2017-10-25 | 2018-04-20 | 南京航空航天大学 | 一种机械设备健康状态评估方法 |
| CN108038044B (zh) * | 2017-12-26 | 2021-01-08 | 北京航空航天大学 | 一种面向连续被监测对象的异常检测方法 |
| CN108038044A (zh) * | 2017-12-26 | 2018-05-15 | 北京航空航天大学 | 一种面向连续被监测对象的异常检测方法 |
| US12099003B2 (en) | 2018-01-26 | 2024-09-24 | Viavi Solutions Inc. | Reduced false positive identification for spectroscopic classification |
| TWI875062B (zh) * | 2018-01-26 | 2025-03-01 | 美商菲爾薇解析公司 | 用於減少光譜分類的誤報識別之方法和設備以及相關的非暫時性電腦可讀取媒體 |
| US12481726B2 (en) | 2018-01-26 | 2025-11-25 | Viavi Solutions Inc. | Reduced false positive identification for spectroscopic quantification |
| CN110648741A (zh) * | 2018-06-27 | 2020-01-03 | 清华大学 | 基于局部离群因子的识别开药异常的医生的方法及装置 |
| CN113158871A (zh) * | 2021-04-15 | 2021-07-23 | 重庆大学 | 一种基于密度核心的无线信号强度异常检测方法 |
| CN113158871B (zh) * | 2021-04-15 | 2022-08-02 | 重庆大学 | 一种基于密度核心的无线信号强度异常检测方法 |
| CN113836240A (zh) * | 2021-09-07 | 2021-12-24 | 招商银行股份有限公司 | 时序数据分类方法、装置、终端设备及存储介质 |
| CN113836240B (zh) * | 2021-09-07 | 2024-02-20 | 招商银行股份有限公司 | 时序数据分类方法、装置、终端设备及存储介质 |
| CN118606848A (zh) * | 2024-04-17 | 2024-09-06 | 大连理工大学 | 一种基于局部异常因子与多重验证的大坝监测数据异常识别方法 |
| CN118866170A (zh) * | 2024-06-27 | 2024-10-29 | 威尔芬(北京)科技发展有限公司 | 一种甜橙花精油脱色保香方法 |
| CN118866170B (zh) * | 2024-06-27 | 2025-01-28 | 威尔芬(北京)科技发展有限公司 | 一种甜橙花精油脱色保香方法 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CN107229819A (zh) | 一种催化裂化装置数据中离群数据识别方法及系统 | |
| CN110674604B (zh) | 基于多维时序帧卷积lstm的变压器dga数据预测方法 | |
| CN104537415B (zh) | 一种基于压缩感知和dros‑elm的非线性过程工业故障预测及识别方法 | |
| CN105550700A (zh) | 一种基于关联分析和主成分分析的时间序列数据清洗方法 | |
| CN110826803A (zh) | 一种电力现货市场的电价预测方法及装置 | |
| CN117439800B (zh) | 一种网络安全态势预测方法、系统及设备 | |
| CN116933125A (zh) | 时间序列数据预测方法、装置、设备及存储介质 | |
| CN107301264A (zh) | 一种催化裂化反应动力学参数的估算方法及系统 | |
| CN115348485A (zh) | 设备监测数据的处理方法、装置、计算机设备和程序产品 | |
| Zhou et al. | Unisolver: PDE-conditional transformers are universal PDE solvers | |
| CN113392214A (zh) | 基于k选择策略稀疏自注意力的文本分类方法及系统 | |
| CN113268403A (zh) | 时间序列的分析预测方法、装置、设备及存储介质 | |
| CN107664690A (zh) | 一种预测变压器油中溶解气体浓度的方法 | |
| Chen et al. | Soft sensor enhancement for multimodal industrial process data: Meta regression Gaussian mixture variational autoencoder | |
| Dubey et al. | Change point detection for random objects using distance profiles | |
| CN113052302A (zh) | 基于循环神经网络的机器健康监控方法、装置及终端设备 | |
| CN118336052A (zh) | 燃料电池剩余使用寿命的预测方法、系统、设备和介质 | |
| CN118094139A (zh) | 一种基于时序深度解析的电流负荷分解方法 | |
| Ren et al. | An aigc-driven score-based diffusion approach for industrial time series | |
| CN109887253B (zh) | 石油化工装置报警的关联分析方法 | |
| Li et al. | S 4 FD: Self-Supervision-Enhanced Semisupervised Fault Diagnosis for Complex Industrial Processes | |
| CN120048947A (zh) | 基于空间动态非平稳重构注意力的pemfc退化预测方法及系统 | |
| CN110347579B (zh) | 基于神经元输出行为模式的深度学习测试用例的选择方法 | |
| CN117932939A (zh) | 基于GraphSAGE-IMATCN的脱丁烷塔中丁烷含量的软测量方法、装置及设备 | |
| Kang et al. | A functional data‐driven method for modeling degradation of waxy lubrication layer |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| PB01 | Publication | ||
| PB01 | Publication | ||
| SE01 | Entry into force of request for substantive examination | ||
| SE01 | Entry into force of request for substantive examination | ||
| RJ01 | Rejection of invention patent application after publication |
Application publication date: 20171003 |
|
| RJ01 | Rejection of invention patent application after publication |