[go: up one dir, main page]

CN109065168B - 一种基于时空聚类统计进行疾病风险评估的方法 - Google Patents

一种基于时空聚类统计进行疾病风险评估的方法 Download PDF

Info

Publication number
CN109065168B
CN109065168B CN201810995255.4A CN201810995255A CN109065168B CN 109065168 B CN109065168 B CN 109065168B CN 201810995255 A CN201810995255 A CN 201810995255A CN 109065168 B CN109065168 B CN 109065168B
Authority
CN
China
Prior art keywords
clustering
spatio
temporal
data
disease
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201810995255.4A
Other languages
English (en)
Other versions
CN109065168A (zh
Inventor
龙华
杨威
杜庆治
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yunnan Yunchuang Data Technology Co ltd
Yunnan Yunchuang Digital Ecological Technology Co ltd
Original Assignee
Kunming University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kunming University of Science and Technology filed Critical Kunming University of Science and Technology
Priority to CN201810995255.4A priority Critical patent/CN109065168B/zh
Publication of CN109065168A publication Critical patent/CN109065168A/zh
Application granted granted Critical
Publication of CN109065168B publication Critical patent/CN109065168B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/30ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment

Landscapes

  • Medical Informatics (AREA)
  • Engineering & Computer Science (AREA)
  • Public Health (AREA)
  • Health & Medical Sciences (AREA)
  • Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Epidemiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本发明公开了一种基于时空聚类统计进行疾病风险评估的方法,属于时空事件聚类分析方法领域。本发明首先收集疾病数据生成疾病数据库;然后根据数据库中数据,给数据库中每个区域和时间周期内的数据添加辅助数据;再通过时空凝聚式聚类算法和混合泊松对数线性模型进行处理;最后通过决策规则判断风险。本发明与现有技术相比,本发明使用时空凝聚式聚类算法和混合泊松对数线性模型对数据进行处理,并通过决策规则对处理结果进行判断,减少了疾病风险图的过度平滑对估计结果的影响,提高了估计结果的准确性。

Description

一种基于时空聚类统计进行疾病风险评估的方法
技术领域
本发明涉及一种基于时空聚类统计进行疾病风险评估的方法,属于时空事件聚类分析方法领域。
背景技术
在当今社会,各类疾病的检查及其预防中,时空聚类统计方法通常被用作各类疾病爆发的早期风险评估中,许多研究人员通过该方法在海量的数据中挖掘隐藏在数据背后的关联性,通过对于这些数据之间关联性的解读,得到区域单位数据的疾病风险图,该风险图通常是通过具有局部空间平滑的泊松混合模型来估计的,然而,该模型存在的缺陷是,局部不连续点通常不被模拟,热或冷点区域聚类被屏蔽,导致疾病风险图的过度平滑,造成预警准确性的下降。
发明内容
为了克服现有技术的不足,本发明的目的在于一种基于时空聚类统计进行疾病风险评估的方法。本发明是在提升疾病预警时空统计聚类的结果准确率上,主要为提高时空统计聚类结果的准确性,使用时空凝聚式聚类算法以及混合的泊松对数线性模型对疾病数据进行处理从而提升疾病风险评估的准确性。
本发明采用的技术方案是:一种基于时空聚类统计进行疾病风险评估的方法,包括如下步骤:
Step1:收集疾病数据生成疾病数据库;
Step2:获取数据库中数据,并给数据库中每个区域和时间周期内的数据添加辅助数据;
Step3:对Step2中经过处理的数据,使用时空凝聚式聚类算法进行处理;
Step4:对Step3中处理过的数据,利用混合泊松对数线性模型进行分析;
Step5:对Step4中的分析结果利用决策规则判断风险;
Step6:根据Step5中的判别结果对疾病风险进行估计。
进一步地,所述步骤Step2中,添加的辅助数据是来自具有类似时空风险模式的疾病。
进一步地,所述步骤Step3中,时空凝聚式聚类算法的具体实施步骤是:
S1:构造一个初始聚类配置,Ch={Ch(1),...,Ch(nT)},其中h=nT,每个区域时间段Ait是一种单独的时空聚类。
S2:计算h×h矩阵中聚类之间的距离,聚类中至少包含元素Ait和Ajs中的一副元素,Ait和Ajs是空间邻近地区在同一时间(i~j and t=s),或同一地区相邻时间点(i~jand|t-s|=1)的元素;
S3:将两个具有最小距离聚类的时空单元合并,形成一个新的聚类结构Ch-1
S4:重复进行S2与S3步骤;
S5:当所有的时空单元被合并在一个新的时空聚类中时,算法结束;
进一步地,所述步骤Step4中,混合泊松对数线性模型既有固定聚类效应,也有随机聚类效应,根据给定的时空聚类配置Ck={Ck(1),...,Ck(k)},基于模型选择标准选择最好的聚类结构。
进一步地,所述固定聚类效应为:
Oit|rit~Poisson(Eitrit)for i=1,...,n;t=1,...,T,
Figure GDA0003157417820000021
其中ξi和γt是空间和时间结构随机效应、β1,...,βk是与每个时空聚类相关的固定效应。
进一步地,所述随机聚类效应为:
lograndom(rit)=α+ξitj(it)
其中,子索引j(it)表示聚类Ck(j)区域-时间单位Ait所属的区域。
进一步地,所述步骤Step5中,决策规则为:如果后验概率大于0.95(P(δj(it)>0|O)>0.95),时空聚类被认为是一个高风险聚类;如果后验概率小于0.05(P(δj(it)>0|O)<0.05),那么该时空聚类就被认为是一个低风险聚类。
本发明的有益效果是:本发明提出一种基于时空聚类统计进行疾病风险评估的方法。使用时空凝聚式聚类算法以及混合的泊松对数线性模型对疾病数据进行处理从而提升疾病风险评估的准确性。
附图说明
图1是本发明流程示意图。
具体实施方式
下面结合附图和具体实施方式,对本发明作进一步的说明
实施例1:如图1所示,一种基于时空聚类统计进行疾病风险评估的方法,包括如下步骤:
Step1:收集疾病数据生成疾病数据库;
Step2:获取数据库中数据,并给数据库中每个区域和时间周期内的数据添加辅助数据;
Step3:对Step2中经过处理的数据,使用时空凝聚式聚类算法进行处理;
Step4:对Step3中处理过的数据,利用混合泊松对数线性模型进行分析;
Step5:对Step4中的分析结果利用决策规则判断风险;
Step6:根据Step5中的判别结果对疾病风险进行估计。
进一步地,所述步骤Step2中,添加的辅助数据是来自具有类似时空风险模式的疾病。
进一步地,所述步骤Step3中,时空凝聚式聚类算法的具体实施步骤是:
S1:构造一个初始聚类配置,Ch={Ch(1),...,Ch(nT)},其中h=nT,每个区域时间段Ait是一种单独的时空聚类;
S2:计算h×h矩阵中聚类之间的距离,聚类中至少包含元素Ait和Ajs中的一副元素,Ait和Ajs是空间邻近地区在同一时间(i~j and t=s),或同一地区相邻时间点(i~jand|t-s|=1)的元素;
S3:将两个具有最小距离聚类的时空单元合并,形成一个新的聚类结构Ch-1
S4:重复进行S2与S3步骤;
S5:当所有的时空单元被合并在一个新的时空聚类中时,算法结束。
进一步地,所述步骤Step4中,混合泊松对数线性模型既有固定聚类效应,也有随机聚类效应,根据给定的时空聚类配置Ck={Ck(1),...,Ck(k)),基于模型选择标准选择最好的聚类结构。
进一步地,所述固定聚类效应为:
0it|rit~Poisson(Eitrit)for i=1,...,n;t=1,...,T,
Figure GDA0003157417820000041
其中ξi和γt是空间和时间结构随机效应、β1,...,βk是与每个时空聚类相关的固定效应。
进一步地,所述随机聚类效应为:
lograndom(rit)=α+ξitj(it)
其中,子索引j(it)表示聚类Ck(j)区域-时间单位Ait所属的区域。
进一步地,所述步骤Step5中,决策规则为:如果后验概率大于0.95(P(δj(it)>0|O)>0.95),时空聚类被认为是一个高风险聚类;如果后验概率小于0.05(P(δj(it)>0|O)<0.05),那么该时空聚类就被认为是一个低风险聚类
以上结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims (6)

1.一种基于时空聚类统计进行疾病风险评估的方法,其特征在于:包括如下步骤:
Step1:收集疾病数据生成疾病数据库;
Step2:获取数据库中数据,并给数据库中每个区域和时间周期内的数据添加辅助数据;
Step3:对Step2中经过处理的数据,使用时空凝聚式聚类算法进行处理;
Step4:对Step3中处理过的数据,利用混合泊松对数线性模型进行分析;
Step5:对Step4中的分析结果利用决策规则判断风险;
Step6:根据Step5中的判别结果对疾病风险进行估计;
所述步骤Step3中,时空凝聚式聚类算法的具体实施步骤是:
S1:构造一个初始聚类配置,Ch={Ch(1),...,Ch(nT)},其中h=nT,每个区域时间段Ait是一种单独的时空聚类;
S2:计算h×h矩阵中聚类之间的距离,聚类中至少包含元素Ait和Ajs中的一副元素,Ait和Ajs是空间邻近地区在同一时间(i~j and t=s),或同一地区相邻时间点(i~j and|t-s|=1)的元素;
S3:将两个具有最小距离聚类的时空单元合并,形成一个新的聚类结构Ch-1
S4:重复进行S2与S3步骤;
S5:当所有的时空单元被合并在一个新的时空聚类中时,算法结束。
2.根据权利要求1中所述的一种基于时空聚类统计进行疾病风险评估的方法,其特征在于:所述步骤Step2中,添加的辅助数据是来自具有类似时空风险模式的疾病。
3.根据权利要求1中所述的一种基于时空聚类统计进行疾病风险评估的方法,其特征在于:所述步骤Step4中,混合泊松对数线性模型既有固定聚类效应,也有随机聚类效应,根据给定的时空聚类配置Ck={Ck(1),...,Ck(k)},基于模型选择标准选择最好的聚类结构。
4.根据权利要求3中所述的一种基于时空聚类统计进行疾病风险评估的方法,其特征在于:所述固定聚类效应为:
Oit|rit~Poisson(Eitrit)for i=1,...,n;t=1,...,T,
Figure FDA0003176402280000021
其中ξi和γt是空间和时间结构随机效应、β1,...,βk是与每个时空聚类相关的固定效应。
5.根据权利要求3中所述的一种基于时空聚类统计进行疾病风险评估的方法,其特征在于:所述随机聚类效应为:
lograndom(rit)=α+ξitj(it)
其中,子索引j(it)表示聚类Ck(j)区域-时间单位Ait所属的区域。
6.根据权利要求1中所述的根据权利要求4中所述的一种基于时空聚类统计进行疾病风险评估的方法,其特征在于:所述步骤Step5中,决策规则为:如果后验概率大于0.95(P(δj(it)>0|O)>0.95),时空聚类被认为是一个高风险聚类;如果后验概率小于0.05(P(δj(it)>0|O)<0.05),那么该时空聚类就被认为是一个低风险聚类。
CN201810995255.4A 2018-08-29 2018-08-29 一种基于时空聚类统计进行疾病风险评估的方法 Expired - Fee Related CN109065168B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810995255.4A CN109065168B (zh) 2018-08-29 2018-08-29 一种基于时空聚类统计进行疾病风险评估的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810995255.4A CN109065168B (zh) 2018-08-29 2018-08-29 一种基于时空聚类统计进行疾病风险评估的方法

Publications (2)

Publication Number Publication Date
CN109065168A CN109065168A (zh) 2018-12-21
CN109065168B true CN109065168B (zh) 2021-09-14

Family

ID=64757642

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810995255.4A Expired - Fee Related CN109065168B (zh) 2018-08-29 2018-08-29 一种基于时空聚类统计进行疾病风险评估的方法

Country Status (1)

Country Link
CN (1) CN109065168B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112331342A (zh) * 2020-10-27 2021-02-05 昆明理工大学 一种基于网格化协变量因素的患病风险等级评估方法
CN113626670B (zh) * 2021-07-13 2023-01-24 北京格灵深瞳信息技术股份有限公司 基于时空关系的对象聚类方法、装置和电子设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102930163A (zh) * 2012-11-01 2013-02-13 北京理工大学 一种2型糖尿病风险状态判定方法
CN107767960A (zh) * 2017-09-13 2018-03-06 温州悦康信息技术有限公司 临床检测项目的数据处理方法、装置及电子设备
CN108064263A (zh) * 2014-09-30 2018-05-22 深圳华大基因研究院 用于类风湿性关节炎的生物标记物及其用途
CN108095685A (zh) * 2016-11-23 2018-06-01 中国科学院昆明动物研究所 人体微生物互作网络中正负作用比值在评估人体健康和疾病诊断中的应用

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10687898B2 (en) * 2014-11-14 2020-06-23 The Johns Hopkins University Systems and methods for atrial fibrillation treatment and risk assessment

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102930163A (zh) * 2012-11-01 2013-02-13 北京理工大学 一种2型糖尿病风险状态判定方法
CN108064263A (zh) * 2014-09-30 2018-05-22 深圳华大基因研究院 用于类风湿性关节炎的生物标记物及其用途
CN108095685A (zh) * 2016-11-23 2018-06-01 中国科学院昆明动物研究所 人体微生物互作网络中正负作用比值在评估人体健康和疾病诊断中的应用
CN107767960A (zh) * 2017-09-13 2018-03-06 温州悦康信息技术有限公司 临床检测项目的数据处理方法、装置及电子设备

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
analysis or population trends for farmland birds using generalized additive models;Rachel M.Fewster et al.;《Ecological Society of America》;20000701;第81卷(第7期);第1970-1984页 *
APC泊松对数线性模型及其在肿瘤流行病研究中的应用;刁玉涛 等;《现代预防医学》;20081231;第35卷(第20期);第3907-3910页 *

Also Published As

Publication number Publication date
CN109065168A (zh) 2018-12-21

Similar Documents

Publication Publication Date Title
CN111199016A (zh) 一种基于DTW的改进K-means的日负荷曲线聚类方法
CN115713270B (zh) 一种同行互评异常评分检测及修正方法和装置
CN107918830B (zh) 一种基于大数据技术的配电网运行状态评估方法
CN105471659A (zh) 一种故障根因分析方法和分析设备
CN110648721B (zh) 针对外显子捕获技术检测拷贝数变异的方法及装置
CN114580572B (zh) 一种异常值的识别方法、装置、电子设备及存储介质
CN112633595B (zh) 一种基于雷达降雨数据挖掘的雨量站观测网络设计方法
CN114563771B (zh) 基于聚类分析的双阈值激光雷达云层检测算法
CN107273234B (zh) 一种基于eemd的时间序列数据异常值检测和校正方法
CN109065168B (zh) 一种基于时空聚类统计进行疾病风险评估的方法
CN110991527A (zh) 一种考虑电压曲线平均波动率的相似度阈值确定方法
CN104536996B (zh) 一种同构环境下计算节点异常检测方法
CN118606865A (zh) 一种基于issa-cnn的岩爆烈度等级预测方法
CN106651631A (zh) 一种基于激励惩罚机制的电网指标综合评价方法
CN114372616B (zh) 基于组合识别和空间相关性的新能源出力异常校正方法
CN113379326B (zh) 一种基于深度神经网络的电网灾情应急演练管理系统
CN114120018B (zh) 一种基于人群聚类轨迹熵的空间活力量化方法
CN107480441B (zh) 一种儿童脓毒性休克预后预测的建模方法及系统
CN110866689B (zh) 一种空间扫描统计量中选择最大扫描窗口的方法
Goovaerts et al. Impact of age, race and socio-economic status on temporal trends in late-stage prostate cancer diagnosis in Florida
CN110991915A (zh) 基于数据包络分析电网核心指标综合效益方法
CN113435713A (zh) 基于gis技术和两模型融合的风险地图编制方法及系统
CN112712024A (zh) 一种基于三维结构的干旱对净初级生产力影响的评估方法
CN116776611B (zh) 一种基于结构方程模型的植被变化预估方法
CN112884167A (zh) 一种基于机器学习的多指标异常检测方法及其应用系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20231226

Address after: 22nd Floor, Building A, Yuntong Compaar Building, Kegao Road, High-tech Zone, Kunming City, Yunnan Province, 650000

Patentee after: Yunnan Yunchuang Digital Ecological Technology Co.,Ltd.

Patentee after: Yunnan Yunchuang Data Technology Co.,Ltd.

Address before: 650093 No. 253, Xuefu Road, Wuhua District, Yunnan, Kunming

Patentee before: Kunming University of Science and Technology

CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20210914