CN118800465B - 一种前列腺神经内分泌癌预测模型的构建方法及系统 - Google Patents
一种前列腺神经内分泌癌预测模型的构建方法及系统 Download PDFInfo
- Publication number
- CN118800465B CN118800465B CN202411288068.4A CN202411288068A CN118800465B CN 118800465 B CN118800465 B CN 118800465B CN 202411288068 A CN202411288068 A CN 202411288068A CN 118800465 B CN118800465 B CN 118800465B
- Authority
- CN
- China
- Prior art keywords
- data
- neuroendocrine carcinoma
- immune
- prostate
- related data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/50—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for simulation or modelling of medical disorders
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H10/00—ICT specially adapted for the handling or processing of patient-related medical or healthcare data
- G16H10/60—ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
Landscapes
- Engineering & Computer Science (AREA)
- Medical Informatics (AREA)
- Health & Medical Sciences (AREA)
- Public Health (AREA)
- Data Mining & Analysis (AREA)
- Primary Health Care (AREA)
- General Health & Medical Sciences (AREA)
- Epidemiology (AREA)
- Databases & Information Systems (AREA)
- Biomedical Technology (AREA)
- Software Systems (AREA)
- Pathology (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明公开了一种前列腺神经内分泌癌预测模型的构建方法及系统,具体涉及医疗信息处理技术领域;通过系统地收集并汇总前列腺神经内分泌癌相关的临床特征、基因表达和影像学数据,采用时间段划分对数据进行预处理,并提取关键的罕见基因突变频率波动特征和免疫丰度分布异常变化特征,通过这些特征对数据进行权重赋值和加权平均,计算出综合漂移系数,并将其与梯度标准阈值进行对比分析,进而划分数据漂移等级,根据不同的漂移等级,制定相应的模型构建和调整策略,有效地识别和应对数据漂移问题,确保模型在不同时期数据上的预测准确性,提升了模型的鲁棒性和临床应用价值。
Description
技术领域
本发明涉及医疗信息处理技术领域,具体涉及一种前列腺神经内分泌癌预测模型的构建方法及系统。
背景技术
前列腺神经内分泌癌预测模型是一种用于评估患者患前列腺神经内分泌癌(NEPC)风险的工具或算法。NEPC是一种罕见且高度恶性的前列腺癌亚型,通常在去势抵抗性前列腺癌(CRPC)患者中发生。该预测模型可能会结合多种因素,包括患者的临床数据、基因表达特征、影像学结果等,通过计算或分析来预测某患者发展为NEPC的可能性。这种模型旨在帮助医生进行早期诊断和个性化治疗决策,以改善患者的预后。
现有技术中,前列腺神经内分泌癌(NEPC)预测模型通常通过收集和分析大量的患者数据构建。这些数据可能包括基因表达谱、蛋白质标志物、临床特征(如年龄、病史、治疗反应)以及影像学数据。研究人员运用机器学习或统计分析方法,从中提取与NEPC发生相关的关键特征,并结合这些特征来训练预测模型。最终模型经过验证和优化后,可用于预测新患者发展为NEPC的风险,从而辅助临床决策。
现有技术中存在的不足之处:
由于NEPC的发展时间较长,样本数据可能跨越多个年代。随着时间的推移,前列腺癌的诊断技术和治疗方案不断进步,这可能导致早期数据和近期数据之间存在显著差异,即所谓的数据漂移。且如果模型训练时未能及时识别和纠正这些差异,模型可能会基于发生漂移的数据进行预测,从而降低其在当前和未来患者群体中的准确性。
发明内容
本发明的目的是提供一种前列腺神经内分泌癌预测模型的构建方法及系统,以解决背景技术中不足。
为了实现上述目的,本发明提供如下技术方案:一种前列腺神经内分泌癌预测模型的构建方法,包括:
收集并汇总用于构建预测模型的前列腺神经内分泌癌相关数据,所述相关数据包括临床特征、基因表达和影像学数据;
将收集到的前列腺神经内分泌癌相关数据划分为若干个时间段,对各个时间段内的前列腺神经内分泌癌相关数据分别进行预处理;
对预处理后的前列腺神经内分泌癌相关数据进行特征提取,分别提取出前列腺神经内分泌癌相关数据的罕见基因突变频率波动特征和免疫丰度分布异常变化特征;
根据提取出的罕见基因突变频率波动特征和免疫丰度分布异常变化特征,确定各个时间段内的前列腺神经内分泌癌相关数据的权重赋值,对其进行加权平均计算后得到前列腺神经内分泌癌相关数据的综合漂移系数;
将计算得到的前列腺神经内分泌癌相关数据的综合漂移系数与梯度标准阈值进行对比分析,根据分析结果将前列腺神经内分泌癌相关数据划分为不同的数据漂移等级,并制定相应的模型构建调整策略。
优选的,所述将收集到的前列腺神经内分泌癌相关数据划分为若干个时间段,包括:
将前列腺神经内分泌癌相关数据按照时间顺序整理,形成时间序列数据集X={x1,x2,…,xN},其中,xi是第i个时间点的数据,N是数据点的总数,计算时间序列的均值和标准差,将其作为时间序列分段的基础;
将时间序列X划分为K个区间,每个区间Sj表示一个子序列Xj={xsj,…,xej},其中,sj和ej分别为第j个区间的起始和结束位置,通过损失函数C(Sj)来度量区间Sj的内部变化,损失函数为:;其中,是区间内数据的均值,目标为通过动态规划最小化整个时间序列的总损失函数,计算表达式为:;动态规划的任务是找到使得总损失最小的变化点;创建一个数组DP用于存储前i个数据点的最小损失值,初始化为DP[0]=0,其余为无穷大∞,定义一个数组P用于存储每个分段的最佳分割点位置,对于每个时间点i,计算在各个可能的前一段时间点j之间的分割成本,表达式为:;存储对应的最佳分割点j:P[i]=j;通过回溯P数组来找到最优的分割点序列,初始化tK=N,然后进行回溯:;继续回溯,直到找到所有个分割点,最终得到的分割点序列 ,即为数据特征发生显著变化的节点位置,根据识别出的变化节点,将数据集划分为多个时间段,并为每个数据点添加相应的时间段标签。
优选的,所述分别提取出前列腺神经内分泌癌相关数据的罕见基因突变频率波动特征和免疫丰度分布异常变化特征之后,所述方法还包括根据提取出前列腺神经内分泌癌相关数据的罕见基因突变频率波动特征生成突变频率波动指数,则突变频率波动指数的获取方法为:
将前列腺神经内分泌癌相关的基因突变频率数据按照时间顺序整理,形成一个时间序列x(t),其中,t是时间,x(t)是t时刻的突变频率,对数据进行标准化,将标准化后的数据记为,表达式为:;其中,是突变频率数据的均值,是其标准差,使用快速傅里叶变换将标准化后的时间序列从时间域转换到频率域,得到频谱,表达式为:;其中,N是时间序列的长度,f是频率,为傅里叶变换的核函数,计算基因突变频率数据的频谱幅值,频谱幅值代表信号在各个频率分量上的强度,计算表达式为: ;其中,是X(f)的实部,是X(f)的虚部,根据的幅值分布,获取幅值的主频率,计算频谱中的总能量E,表达式为:;根据计算得到的频谱中的总能量E计算突变频率波动指数,表达式为:;式中,为突变频率波动指数,表示选定的主频率成分的能量总和。
优选的,所述分别提取出前列腺神经内分泌癌相关数据的罕见基因突变频率波动特征和免疫丰度分布异常变化特征之后,所述方法还包括根据提取出的前列腺神经内分泌癌相关数据的免疫丰度分布异常变化特征生成免疫丰度分布异常指数,则免疫丰度分布异常指数的获取方法为:
收集前列腺神经内分泌癌患者的免疫相关数据,包括不同免疫细胞类型的丰度;对免疫丰度数据进行标准化处理,计算每个免疫细胞类型在患者样本中的丰度分布均值和标准差;对每个样本中的免疫丰度值进行检测,判断其是否偏离正常分布,确定异常免疫丰度值,表达式为:或;其中,k是常数;统计每个样本中异常免疫丰度值的数量,以及异常值的偏离程度,表达式为:;s为免疫细胞类别的标号,计算免疫丰度分布异常指数,表达式为:;式中,M是免疫细胞类型的总数,是第i类免疫细胞的异常免疫丰度值的数量,是第i类免疫细胞的样本总数,是第i类免疫细胞异常免疫丰度值的偏离程度总和,是第i类免疫细胞的总偏离程度,为免疫丰度分布异常指数。
优选的,所述根据提取出的罕见基因突变频率波动特征和免疫丰度分布异常变化特征,确定各个时间段内的前列腺神经内分泌癌相关数据的权重赋值,对其进行加权平均计算后得到前列腺神经内分泌癌相关数据的综合漂移系数,包括:
将突变频率波动指数和免疫丰度分布异常指数转换为第一特征向量,将第一特征向量作为机器学习模型的输入,机器学习模型以每组第一特征向量预测各个时间段内的前列腺神经内分泌癌相关数据的权重赋值标签为预测目标,以最小化对所有时间段内的前列腺神经内分泌癌相关数据的权重赋值标签的预测误差之和作为训练目标,对机器学习模型进行训练,直至预测误差之和达到收敛时停止模型训练,根据模型输出结果确定各个时间段内的前列腺神经内分泌癌相关数据的权重赋值,其中,机器学习模型为多项式回归模型,对各个时间段内的前列腺神经内分泌癌相关数据的权重赋值进行加权平均计算后得到前列腺神经内分泌癌相关数据的综合漂移系数。
优选的,所述将计算得到的前列腺神经内分泌癌相关数据的综合漂移系数与梯度标准阈值进行对比分析,根据分析结果将前列腺神经内分泌癌相关数据划分为不同的数据漂移等级,并制定相应的模型构建调整策略,包括:
将计算得到的前列腺神经内分泌癌相关数据的综合漂移系数与梯度标准阈值进行比较,梯度标准阈值包括第一标准阈值和第二标准阈值,且第一标准阈值小于第二标准阈值,将综合漂移系数分别与第一标准阈值和第二标准阈值进行对比;
若综合漂移系数大于第二标准阈值,将前列腺神经内分泌癌相关数据划分为数据高漂移等级,并生成数据异常信号;需要对数据进行重新分析和建模;
若综合漂移系数大于等于第一标准阈值且小于等于第二标准阈值,将前列腺神经内分泌癌相关数据划分为数据中漂移等级,并生成数据疑似异常信号;对现有模型进行参数调整;
若综合漂移系数小于第一标准阈值,将前列腺神经内分泌癌相关数据划分为数据低漂移等级,并生成数据正常信号,保持现有模型不变,继续进行预测。
本发明还提供了一种前列腺神经内分泌癌预测模型的构建系统,包括数据获取模块、数据划分模块、特征提取模块,综合漂移系数计算模块以及模型调整模块;
数据获取模块:收集并汇总用于构建预测模型的前列腺神经内分泌癌相关数据,所述相关数据包括临床特征、基因表达和影像学数据;
数据划分模块:将收集到的前列腺神经内分泌癌相关数据划分为若干个时间段,对各个时间段内的前列腺神经内分泌癌相关数据分别进行预处理;
特征提取模块:对预处理后的前列腺神经内分泌癌相关数据进行特征提取,分别提取出前列腺神经内分泌癌相关数据的罕见基因突变频率波动特征和免疫丰度分布异常变化特征;
综合漂移系数计算模块:根据提取出的罕见基因突变频率波动特征和免疫丰度分布异常变化特征,确定各个时间段内的前列腺神经内分泌癌相关数据的权重赋值,对其进行加权平均计算后得到前列腺神经内分泌癌相关数据的综合漂移系数;
模型调整模块:将计算得到的前列腺神经内分泌癌相关数据的综合漂移系数与梯度标准阈值进行对比分析,根据分析结果将前列腺神经内分泌癌相关数据划分为不同的数据漂移等级,并制定相应的模型构建调整策略。
在上述技术方案中,本发明提供的技术效果和优点:
本发明通过系统化的步骤和算法,有效解决了前列腺神经内分泌癌预测模型在数据跨越多个年代时可能面临的数据漂移问题。通过对数据进行时间段划分、特征提取和综合漂移系数计算,并结合梯度标准阈值进行分析,能够精准识别数据的漂移程度,并针对不同的漂移等级制定相应的模型调整策略。这一流程确保了模型在不断变化的临床数据环境中保持高水平的预测准确性和稳定性。
本发明通过灵活的模型调整策略,根据数据漂移的不同等级,采取相应的模型重建、微调或保持策略,从而在模型性能和临床实用性之间实现平衡。整体而言,这种方法能够显著提升NEPC预测模型的鲁棒性,确保模型在不断变化的临床数据环境中,依然能够提供可靠的预测结果,最终为临床决策和个性化治疗方案的制定提供强有力的支持。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1为本发明的方法流程图。
图2为本发明的系统模块图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1,请参阅图1所示,本实施例所述一种前列腺神经内分泌癌预测模型的构建方法,包括以下步骤:
S1:收集并汇总用于构建预测模型的前列腺神经内分泌癌相关数据,所述相关数据包括临床特征、基因表达和影像学数据;
S2:将收集到的前列腺神经内分泌癌相关数据划分为若干个时间段,对各个时间段内的前列腺神经内分泌癌相关数据分别进行预处理;
S3:对预处理后的前列腺神经内分泌癌相关数据进行特征提取,分别提取出前列腺神经内分泌癌相关数据的罕见基因突变频率波动特征和免疫丰度分布异常变化特征;
S4:根据提取出的罕见基因突变频率波动特征和免疫丰度分布异常变化特征,确定各个时间段内的前列腺神经内分泌癌相关数据的权重赋值,对其进行加权平均计算后得到前列腺神经内分泌癌相关数据的综合漂移系数;
S5:将计算得到的前列腺神经内分泌癌相关数据的综合漂移系数与梯度标准阈值进行对比分析,根据分析结果将前列腺神经内分泌癌相关数据划分为不同的数据漂移等级,并制定相应的模型构建调整策略。
其中,在S1中,收集并汇总用于构建预测模型的前列腺神经内分泌癌相关数据,所述相关数据包括临床特征、基因表达和影像学数据,具体为:
确定研究目标:明确模型预测所需的特定数据类型(如NEPC的早期诊断、进展预测等)。
定义数据类型:列出需要收集的具体数据类型,包括临床特征、基因表达数据、影像学数据等。
数据来源识别与确认:与参与研究的医院和诊所合作,获取患者的临床数据和诊断记录。访问公共或专有的基因组数据库(如TCGA、GEO),获取NEPC患者的基因表达谱数据。从医学影像数据库(如PACS系统、研究型影像库)中获取MRI、CT、PET等影像学数据。从已发表的研究文献和临床试验数据中提取相关信息。
临床特征数据收集:收集患者的基本信息,如年龄、性别、种族等。收集诊断信息,包括前列腺癌类型、分期、分级等。收集治疗信息,如手术记录、放疗和化疗方案、药物治疗细节等。收集随访数据,包括复发时间、转移情况、生存率等。
基因表达数据收集:提取患者的肿瘤样本,进行基因组测序或表达谱分析。下载或访问公共基因数据库中的NEPC基因表达数据,并将其与患者临床信息关联。确保数据的标准化处理,如表达水平的归一化和批次效应的校正。
影像学数据收集:获取患者的影像学检查记录,包括MRI、CT、PET等影像数据。确保影像数据的DICOM格式完整,并获取相关的元数据,如扫描时间、设备类型、影像分辨率等。将影像数据与患者的临床记录和基因数据进行匹配,以便进行多模态分析。
对所有收集的数据进行去重处理,确保每个患者的记录唯一。处理缺失数据,应用适当的填补策略(如均值填补、插值或通过相似样本估算)。标准化数据格式,确保所有数据类型具有一致的编码方式(如ICD编码、基因名称标准等)。对基因表达数据进行标准化处理,如log2转换或Z-score归一化,以消除不同实验间的系统偏差。对临床特征进行分类编码或归一化,以便与其他类型的数据整合。
将临床特征、基因表达、影像学数据整合成一个统一的数据集。确保每个患者在所有数据类型中都有对应记录。创建唯一的患者ID,以确保所有数据类型之间的一致性和可追溯性。
S2:将收集到的前列腺神经内分泌癌相关数据划分为若干个时间段,对各个时间段内的前列腺神经内分泌癌相关数据分别进行预处理。
将前列腺神经内分泌癌相关数据按照时间顺序整理,形成时间序列数据集X={x1,x2,…,xN},其中,xi是第i个时间点的数据,N是数据点的总数。计算时间序列的均值和标准差,将其作为时间序列分段的基础。将时间序列X划分为K个区间,每个区间Sj表示一个子序列Xj={xsj,…,xej},其中,sj和ej分别为第j个区间的起始和结束位置,为了衡量每个区间内数据的稳定性,定义一个损失函数C(Sj)来度量区间Sj的内部变化(如均值或方差的变化),损失函数为:;其中,是区间内数据的均值,目标为通过动态规划最小化整个时间序列的总损失函数,计算表达式为:;动态规划的任务是找到使得总损失最小的变化点;创建一个数组DP用于存储前i个数据点的最小损失值,初始化为DP[0]=0,其余为无穷大∞,定义一个数组P用于存储每个分段的最佳分割点位置,对于每个时间点i(从1到N),计算在各个可能的前一段时间点j之间的分割成本,表达式为:;存储对应的最佳分割点j:P[i]=j;通过回溯P数组来找到最优的分割点序列,初始化tK=N,然后进行回溯:;继续回溯,直到找到所有个分割点,最终得到的分割点序列 ,即为数据特征发生显著变化的节点位置,根据识别出的变化节点,将数据集划分为多个时间段,并为每个数据点添加相应的时间段标签。
检查各个时间段内的缺失数据,使用适当的方法(如均值填补、插值法或最近邻填补)处理缺失值。
异常值检测与处理:在每个时间段内,使用统计分析或机器学习算法(如孤立森林、Z-score)检测并处理异常值,确保数据的真实性和一致性。
数据标准化:对不同时间段内的数值型数据(如基因表达值、影像学测量值)进行标准化处理,以消除各时间段之间的尺度差异。常用方法包括Z-score标准化或min-max归一化。
特征尺度调整:针对可能随时间变化的特征(如影像分辨率的提升、检测方法的改进),对其进行归一化调整,使不同时间段内的数据具有可比性。
校正批次效应:由于不同时间段的技术和实验条件可能存在差异,使用批次效应校正方法(如Combat、SVA)对基因表达数据进行调整,以消除因实验批次差异导致的数据偏差。
同质化处理:将不同时间段的数据进行同质化处理,确保在不同的时间段之间,数据的来源和处理方法具有一致性。
S3:对预处理后的前列腺神经内分泌癌相关数据进行特征提取,分别提取出前列腺神经内分泌癌相关数据的罕见基因突变频率波动特征和免疫丰度分布异常变化特征。
对数据进行分类,将数据划分为临床特征数据、基因表达数据和影像学数据;
临床特征数据:如患者年龄、性别、肿瘤分期、病理分级、PSA(前列腺特异性抗原)水平等。
基因表达数据:包括RNA测序数据、DNA突变信息、基因甲基化状态等。
影像学数据:如MRI、CT、PET影像特征,肿瘤体积、形态、信号强度等。
提取基础临床特征,如年龄、肿瘤分期、分级、PSA水平等。结合多个临床特征,创建新的合成特征。例如,将PSA水平和肿瘤分期结合,创建一个新的肿瘤负荷指数。
基因表达数据特征提取:使用统计方法(如t检验、ANOVA)筛选NEPC患者和非NEPC患者之间表达差异显著的基因。统计NEPC相关基因的突变频率,提取出罕见但具有高预测价值的突变基因。
基因通路分析:通过KEGG、GO等数据库进行通路富集分析,提取与NEPC相关的基因通路特征。
形态学特征提取:提取肿瘤在影像中的形态特征,如肿瘤体积、边缘清晰度、形状不规则性等。
纹理分析:使用纹理分析算法(如GLCM,灰度共生矩阵)提取影像中的纹理特征,以评估肿瘤的内部异质性。
动态对比增强特征:在DCE-MRI等动态对比增强影像中提取肿瘤的增强模式,如增强速率、增强后残留强度等。
根据提取出前列腺神经内分泌癌相关数据的罕见基因突变频率波动特征生成突变频率波动指数,则突变频率波动指数的获取方法为:
将前列腺神经内分泌癌相关的基因突变频率数据按照时间顺序整理,形成一个时间序列x(t),其中,t是时间,x(t)是t时刻的突变频率,对数据进行标准化,将标准化后的数据记为从时间域转换到频率域,得到频谱,表达式为:;其中,N是时间序列的长度,f是频率,为傅里叶变换的核函数,计算基因突变频率数据的频谱幅值,频谱幅值代表信号在各个频率分量上的强度,计算表达式为: ;其中,是X(f)的实部,是X(f)的虚部,根据的幅值分布,获取幅值的主频率,其对应的波动成分反映了基因突变频率的周期性或振荡特征,计算频谱中的总能量E,用于评估整个时间序列的波动性,表达式为:;E反映了整个时间序列的波动强度,根据计算得到的频谱中的总能量E计算突变频率波动指数,表达式为:;式中,为突变频率波动指数,表示选定的主频率成分的能量总和。MF值越高,说明基因突变频率在特定频率上的波动越剧烈,可能反映了突变的周期性变化或某些外部因素的影响。
突变频率波动指数越大,说明前列腺神经内分泌癌相关数据发生漂移的可能性越高。这意味着基因突变频率在不同时间段内表现出显著的波动或不稳定性,可能反映出因诊断技术进步、治疗方式变化或患者群体差异等因素导致的数据特征发生了变化。这种漂移可能会影响模型在当前或未来数据上的预测准确性,因此需要及时检测和调整模型,以应对数据漂移带来的影响。
根据提取出的前列腺神经内分泌癌相关数据的免疫丰度分布异常变化特征生成免疫丰度分布异常指数,则免疫丰度分布异常指数的获取方法为:
收集前列腺神经内分泌癌患者的免疫相关数据,包括不同免疫细胞类型(如T细胞、B细胞、巨噬细胞等)的丰度;对免疫丰度数据进行标准化处理,计算每个免疫细胞类型在患者样本中的丰度分布均值和标准差;对每个样本中的免疫丰度值进行检测,判断其是否偏离正常分布,确定异常免疫丰度值,表达式为:或;其中,k是常数;常取值为2或3,以确定异常值的判定标准;统计每个样本中异常免疫丰度值的数量,以及异常值的偏离程度(即偏离均值的标准差倍数),表达式为:;s为免疫细胞类别的标号,计算免疫丰度分布异常指数,表达式为:;式中,M是免疫细胞类型的总数,是第i类免疫细胞的异常免疫丰度值的数量,是第i类免疫细胞的样本总数,是第i类免疫细胞异常免疫丰度值的偏离程度总和,是第i类免疫细胞的总偏离程度,为免疫丰度分布异常指数,免疫丰度分布异常指数越高,说明样本中免疫细胞丰度或标志物表达的异常变化越显著,可能提示前列腺神经内分泌癌的进展或其他免疫相关异常。
免疫丰度分布异常指数越大,说明前列腺神经内分泌癌相关数据发生漂移的可能性越高。这表明免疫系统相关特征在不同时间段或样本之间表现出显著的异常变化,可能由于诊断技术、治疗方式或患者群体差异的影响,导致免疫丰度分布发生了明显的偏移。这种数据漂移可能影响预测模型的稳定性和准确性,因此需要及时识别和调整,以确保模型对当前数据的有效性。
S4:根据提取出的罕见基因突变频率波动特征和免疫丰度分布异常变化特征,确定各个时间段内的前列腺神经内分泌癌相关数据的权重赋值,对其进行加权平均计算后得到前列腺神经内分泌癌相关数据的综合漂移系数。
将突变频率波动指数和免疫丰度分布异常指数转换为第一特征向量,将第一特征向量作为机器学习模型的输入,机器学习模型以每组第一特征向量预测各个时间段内的前列腺神经内分泌癌相关数据的权重赋值标签为预测目标,以最小化对所有时间段内的前列腺神经内分泌癌相关数据的权重赋值标签的预测误差之和作为训练目标,对机器学习模型进行训练,直至预测误差之和达到收敛时停止模型训练,根据模型输出结果确定各个时间段内的前列腺神经内分泌癌相关数据的权重赋值,其中,机器学习模型为多项式回归模型,对各个时间段内的前列腺神经内分泌癌相关数据的权重赋值进行加权平均计算后得到前列腺神经内分泌癌相关数据的综合漂移系数。
各个时间段内的前列腺神经内分泌癌相关数据的权重赋值的获取方法为:从训练完成的机器学习模型的第一特征向量训练数据中,获得对应的函数表达式:;式中,是模型的输出函数,为突变频率波动指数,为免疫丰度分布异常指数,为各个时间段内的前列腺神经内分泌癌相关数据的权重赋值。
S5:将计算得到的前列腺神经内分泌癌相关数据的综合漂移系数与梯度标准阈值进行对比分析,根据分析结果将前列腺神经内分泌癌相关数据划分为不同的数据漂移等级,并制定相应的模型构建调整策略。
将计算得到的前列腺神经内分泌癌相关数据的综合漂移系数与梯度标准阈值进行比较,梯度标准阈值包括第一标准阈值和第二标准阈值,且第一标准阈值小于第二标准阈值,将综合漂移系数分别与第一标准阈值和第二标准阈值进行对比;
若综合漂移系数大于第二标准阈值,将前列腺神经内分泌癌相关数据划分为数据高漂移等级,并生成数据异常信号;需要对数据进行重新分析和建模,考虑采用新的特征工程和模型架构,确保模型能够适应新数据特性。如果数据量允许,尝试增加新的数据集,或结合最近的临床数据,增强模型的泛化能力。
若综合漂移系数大于等于第一标准阈值且小于等于第二标准阈值,将前列腺神经内分泌癌相关数据划分为数据中漂移等级,并生成数据疑似异常信号;对现有模型进行参数调整(如学习率、正则化系数),使其更好地适应数据的中度漂移。重新评估和更新特征,尤其是那些对漂移敏感的特征,确保它们能够反映最新的数据特性。
若综合漂移系数小于第一标准阈值,将前列腺神经内分泌癌相关数据划分为数据低漂移等级,并生成数据正常信号。如果数据仅表现出低漂移,可以保持现有模型不变,继续进行预测。虽然当前漂移较小,但仍应定期检查数据和模型表现,确保在漂移进一步扩大前及时作出调整。根据漂移趋势,进行小范围的模型参数调整,确保模型继续稳定运行。
在本实施例中,通过系统性地收集、处理和分析前列腺神经内分泌癌相关数据,特别是针对不同时间段内数据的罕见基因突变频率和免疫丰度分布异常变化特征,生成综合漂移系数并与梯度标准阈值进行对比分析。通过这一系列步骤,可以精准识别数据的漂移程度,及时调整模型构建策略,从而提高预测模型在不同时间段内的适应性和准确性。这种方法不仅能够增强模型的鲁棒性,还能确保其在面对不断变化的数据环境时保持较高的预测性能,进而更有效地支持临床决策。
实施例2,请参阅图2所示,本实施例所述一种前列腺神经内分泌癌预测模型的构建系统,包括数据获取模块、数据划分模块、特征提取模块,综合漂移系数计算模块以及模型调整模块;
数据获取模块:收集并汇总用于构建预测模型的前列腺神经内分泌癌相关数据,所述相关数据包括临床特征、基因表达和影像学数据;
数据划分模块:将收集到的前列腺神经内分泌癌相关数据划分为若干个时间段,对各个时间段内的前列腺神经内分泌癌相关数据分别进行预处理;
特征提取模块:对预处理后的前列腺神经内分泌癌相关数据进行特征提取,分别提取出前列腺神经内分泌癌相关数据的罕见基因突变频率波动特征和免疫丰度分布异常变化特征;
综合漂移系数计算模块:根据提取出的罕见基因突变频率波动特征和免疫丰度分布异常变化特征,确定各个时间段内的前列腺神经内分泌癌相关数据的权重赋值,对其进行加权平均计算后得到前列腺神经内分泌癌相关数据的综合漂移系数;
模型调整模块:将计算得到的前列腺神经内分泌癌相关数据的综合漂移系数与梯度标准阈值进行对比分析,根据分析结果将前列腺神经内分泌癌相关数据划分为不同的数据漂移等级,并制定相应的模型构建调整策略。
上述公式均是去量纲取其数值计算,公式是由采集大量数据进行软件模拟得到最近真实情况的一个公式,公式中的预设参数由本领域的技术人员根据实际情况进行设置。
上述实施例,可以全部或部分地通过软件、硬件、固件或其他任意组合来实现。当使用软件实现时,上述实施例可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令或计算机程序。在计算机上加载或执行所述计算机指令或计算机程序时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以为通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集合的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质。半导体介质可以是固态硬盘。
应理解,本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况,其中A,B可以是单数或者复数。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系,但也可能表示的是一种“和/或”的关系,具体可参考前后文进行理解。
应理解,在本申请的各种实施例中,上述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。
Claims (7)
1.一种前列腺神经内分泌癌预测模型的构建方法,其特征在于,包括:
收集并汇总用于构建预测模型的前列腺神经内分泌癌相关数据,所述相关数据包括临床特征、基因表达和影像学数据;
将收集到的前列腺神经内分泌癌相关数据划分为若干个时间段,对各个时间段内的前列腺神经内分泌癌相关数据分别进行预处理;
对预处理后的前列腺神经内分泌癌相关数据进行特征提取,分别提取出前列腺神经内分泌癌相关数据的罕见基因突变频率波动特征和免疫丰度分布异常变化特征;
根据提取出的罕见基因突变频率波动特征和免疫丰度分布异常变化特征,确定各个时间段内的前列腺神经内分泌癌相关数据的权重赋值,对其进行加权平均计算后得到前列腺神经内分泌癌相关数据的综合漂移系数;
将计算得到的前列腺神经内分泌癌相关数据的综合漂移系数与梯度标准阈值进行对比分析,根据分析结果将前列腺神经内分泌癌相关数据划分为不同的数据漂移等级,并制定相应的模型构建调整策略。
2.根据权利要求1所述的前列腺神经内分泌癌预测模型的构建方法,其特征在于,所述将收集到的前列腺神经内分泌癌相关数据划分为若干个时间段,包括:
将前列腺神经内分泌癌相关数据按照时间顺序整理,形成时间序列数据集X={x1,x2,…,xN},其中,xi是第i个时间点的数据,N是数据点的总数,计算时间序列的均值和标准差,将其作为时间序列分段的基础;
将时间序列X划分为K个区间,每个区间Sj表示一个子序列Xj={xsj,…,xej},其中,sj和ej分别为第j个区间的起始和结束位置,通过损失函数C(Sj)来度量区间Sj的内部变化,损失函数为:;其中,是区间内数据的均值,目标为通过动态规划最小化整个时间序列的总损失函数,计算表达式为:;动态规划的任务是找到使得总损失最小的变化点;创建一个数组DP用于存储前i个数据点的最小损失值,初始化为DP[0]=0,其余为无穷大∞,定义一个数组P用于存储每个分段的最佳分割点位置,对于每个时间点i,计算在各个可能的前一段时间点j之间的分割成本,表达式为:;存储对应的最佳分割点j:P[i]=j;通过回溯P数组来找到最优的分割点序列,初始化tK=N,然后进行回溯:;继续回溯,直到找到所有个分割点,最终得到的分割点序列 ,即为数据特征发生显著变化的节点位置,根据识别出的变化节点,将数据集划分为多个时间段,并为每个数据点添加相应的时间段标签。
3.根据权利要求1所述的前列腺神经内分泌癌预测模型的构建方法,其特征在于,所述分别提取出前列腺神经内分泌癌相关数据的罕见基因突变频率波动特征和免疫丰度分布异常变化特征之后,所述方法还包括根据提取出前列腺神经内分泌癌相关数据的罕见基因突变频率波动特征生成突变频率波动指数,则突变频率波动指数的获取方法为:
将前列腺神经内分泌癌相关的基因突变频率数据按照时间顺序整理,形成一个时间序列x(t),其中,t是时间,x(t)是t时刻的突变频率,对数据进行标准化,将标准化后的数据记为,表达式为:;其中,是突变频率数据的均值,是其标准差,使用快速傅里叶变换将标准化后的时间序列从时间域转换到频率域,得到频谱,表达式为:;其中,N是时间序列的长度,f是频率,为傅里叶变换的核函数,计算基因突变频率数据的频谱幅值,频谱幅值代表信号在各个频率分量上的强度,计算表达式为: ;其中,是X(f)的实部,是X(f)的虚部,根据的幅值分布,获取幅值的主频率,计算频谱中的总能量E,表达式为:;根据计算得到的频谱中的总能量E计算突变频率波动指数,表达式为:;式中,为突变频率波动指数,表示选定的主频率成分的能量总和。
4.根据权利要求3所述的前列腺神经内分泌癌预测模型的构建方法,其特征在于,所述分别提取出前列腺神经内分泌癌相关数据的罕见基因突变频率波动特征和免疫丰度分布异常变化特征之后,所述方法还包括根据提取出的前列腺神经内分泌癌相关数据的免疫丰度分布异常变化特征生成免疫丰度分布异常指数,则免疫丰度分布异常指数的获取方法为:
收集前列腺神经内分泌癌患者的免疫相关数据,包括不同免疫细胞类型的丰度;对免疫丰度数据进行标准化处理,计算每个免疫细胞类型在患者样本中的丰度分布均值和标准差;对每个样本中的免疫丰度值进行检测,判断其是否偏离正常分布,确定异常免疫丰度值,表达式为:或;其中,k是常数;统计每个样本中异常免疫丰度值的数量,以及异常值的偏离程度,表达式为:;s为免疫细胞类别的标号,计算免疫丰度分布异常指数,表达式为:;式中,M是免疫细胞类型的总数,是第i类免疫细胞的异常免疫丰度值的数量,是第i类免疫细胞的样本总数,是第i类免疫细胞异常免疫丰度值的偏离程度总和,是第i类免疫细胞的总偏离程度,为免疫丰度分布异常指数。
5.根据权利要求4所述的前列腺神经内分泌癌预测模型的构建方法,其特征在于,所述根据提取出的罕见基因突变频率波动特征和免疫丰度分布异常变化特征,确定各个时间段内的前列腺神经内分泌癌相关数据的权重赋值,对其进行加权平均计算后得到前列腺神经内分泌癌相关数据的综合漂移系数,包括:
将突变频率波动指数和免疫丰度分布异常指数转换为第一特征向量,将第一特征向量作为机器学习模型的输入,机器学习模型以每组第一特征向量预测各个时间段内的前列腺神经内分泌癌相关数据的权重赋值标签为预测目标,以最小化对所有时间段内的前列腺神经内分泌癌相关数据的权重赋值标签的预测误差之和作为训练目标,对机器学习模型进行训练,直至预测误差之和达到收敛时停止模型训练,根据模型输出结果确定各个时间段内的前列腺神经内分泌癌相关数据的权重赋值,其中,机器学习模型为多项式回归模型,对各个时间段内的前列腺神经内分泌癌相关数据的权重赋值进行加权平均计算后得到前列腺神经内分泌癌相关数据的综合漂移系数。
6.根据权利要求5所述的前列腺神经内分泌癌预测模型的构建方法,其特征在于,所述将计算得到的前列腺神经内分泌癌相关数据的综合漂移系数与梯度标准阈值进行对比分析,根据分析结果将前列腺神经内分泌癌相关数据划分为不同的数据漂移等级,并制定相应的模型构建调整策略,包括:
将计算得到的前列腺神经内分泌癌相关数据的综合漂移系数与梯度标准阈值进行比较,梯度标准阈值包括第一标准阈值和第二标准阈值,且第一标准阈值小于第二标准阈值,将综合漂移系数分别与第一标准阈值和第二标准阈值进行对比;
若综合漂移系数大于第二标准阈值,将前列腺神经内分泌癌相关数据划分为数据高漂移等级,并生成数据异常信号;需要对数据进行重新分析和建模;
若综合漂移系数大于等于第一标准阈值且小于等于第二标准阈值,将前列腺神经内分泌癌相关数据划分为数据中漂移等级,并生成数据疑似异常信号;对现有模型进行参数调整;
若综合漂移系数小于第一标准阈值,将前列腺神经内分泌癌相关数据划分为数据低漂移等级,并生成数据正常信号,保持现有模型不变,继续进行预测。
7.一种前列腺神经内分泌癌预测模型的构建系统,用于实现权利要求1-6任一项所述的前列腺神经内分泌癌预测模型的构建方法,其特征在于,包括数据获取模块、数据划分模块、特征提取模块,综合漂移系数计算模块以及模型调整模块;
数据获取模块:收集并汇总用于构建预测模型的前列腺神经内分泌癌相关数据,所述相关数据包括临床特征、基因表达和影像学数据;
数据划分模块:将收集到的前列腺神经内分泌癌相关数据划分为若干个时间段,对各个时间段内的前列腺神经内分泌癌相关数据分别进行预处理;
特征提取模块:对预处理后的前列腺神经内分泌癌相关数据进行特征提取,分别提取出前列腺神经内分泌癌相关数据的罕见基因突变频率波动特征和免疫丰度分布异常变化特征;
综合漂移系数计算模块:根据提取出的罕见基因突变频率波动特征和免疫丰度分布异常变化特征,确定各个时间段内的前列腺神经内分泌癌相关数据的权重赋值,对其进行加权平均计算后得到前列腺神经内分泌癌相关数据的综合漂移系数;
模型调整模块:将计算得到的前列腺神经内分泌癌相关数据的综合漂移系数与梯度标准阈值进行对比分析,根据分析结果将前列腺神经内分泌癌相关数据划分为不同的数据漂移等级,并制定相应的模型构建调整策略。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN202411288068.4A CN118800465B (zh) | 2024-09-14 | 2024-09-14 | 一种前列腺神经内分泌癌预测模型的构建方法及系统 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN202411288068.4A CN118800465B (zh) | 2024-09-14 | 2024-09-14 | 一种前列腺神经内分泌癌预测模型的构建方法及系统 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| CN118800465A CN118800465A (zh) | 2024-10-18 |
| CN118800465B true CN118800465B (zh) | 2024-11-15 |
Family
ID=93020090
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| CN202411288068.4A Active CN118800465B (zh) | 2024-09-14 | 2024-09-14 | 一种前列腺神经内分泌癌预测模型的构建方法及系统 |
Country Status (1)
| Country | Link |
|---|---|
| CN (1) | CN118800465B (zh) |
Citations (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN109716346A (zh) * | 2016-07-18 | 2019-05-03 | 河谷生物组学有限责任公司 | 分布式机器学习系统、装置和方法 |
| CN117409855A (zh) * | 2023-10-25 | 2024-01-16 | 苏州卫生职业技术学院 | 一种肝细胞癌患者错配修复相关预后模型及其构建、验证方法和应用 |
Family Cites Families (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US11596482B2 (en) * | 2019-05-23 | 2023-03-07 | Surgical Safety Technologies Inc. | System and method for surgical performance tracking and measurement |
| WO2022140583A1 (en) * | 2020-12-22 | 2022-06-30 | Cornell University | Classifying biomedical acoustics based on image representation |
-
2024
- 2024-09-14 CN CN202411288068.4A patent/CN118800465B/zh active Active
Patent Citations (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN109716346A (zh) * | 2016-07-18 | 2019-05-03 | 河谷生物组学有限责任公司 | 分布式机器学习系统、装置和方法 |
| CN117409855A (zh) * | 2023-10-25 | 2024-01-16 | 苏州卫生职业技术学院 | 一种肝细胞癌患者错配修复相关预后模型及其构建、验证方法和应用 |
Also Published As
| Publication number | Publication date |
|---|---|
| CN118800465A (zh) | 2024-10-18 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CN110021364B (zh) | 基于病人临床症状数据和全外显子组测序数据筛选单基因遗传病致病基因的分析检测系统 | |
| US20040242972A1 (en) | Method, system and computer product for prognosis of a medical disorder | |
| US20230112591A1 (en) | Machine learning based medical data checker | |
| JP5450556B2 (ja) | 診療情報処理装置および方法並びにプログラム | |
| CN118800459B (zh) | 一种慢病人群健康评估方法及评估装置 | |
| CN118098637B (zh) | 一种用药不良反应预测方法和系统 | |
| CN117976185A (zh) | 一种联合深度学习的乳腺癌风险评估方法与系统 | |
| CN119361081A (zh) | 一种基于颅脑肿瘤微创手术风险评估模型的构建方法 | |
| CN119541870A (zh) | 膀胱癌术后复发风险预测系统 | |
| CN119006966A (zh) | 基于背景指导注意力机制的病理切片特征融合方法及系统 | |
| CN118475919B (zh) | 基于子模型性能的模型验证 | |
| CN119920425B (zh) | 智能导诊方法、系统及智能导诊机器人 | |
| CN118800465B (zh) | 一种前列腺神经内分泌癌预测模型的构建方法及系统 | |
| CN115719328A (zh) | 用于量化医学图像评估的不确定性的方法、系统和装置 | |
| CN119339964A (zh) | 脑肿瘤多维数据分析方法及系统 | |
| CN119153116A (zh) | 血吸虫性肝纤维化患者早期诊断数据管理系统 | |
| CN117936006A (zh) | 一种基于大数据的医疗信息处理方法及系统 | |
| Ojetunmibi et al. | Pneumonia disease detection and classification system using naive Bayesian technique | |
| CN116030890A (zh) | 单基因遗传病表型-基因关联匹配方法、装置和存储介质 | |
| CN117747096B (zh) | 一种基于病理组学知识库的辅助诊疗系统及构建方法 | |
| CN117235487B (zh) | 一种用于预测哮喘患者住院事件的特征提取方法和系统 | |
| CN119851962B (zh) | 用于核医学影像放射报告的分析方法、系统、设备及介质 | |
| CN120853802B (zh) | 人工智能驱动的胃窦癌新辅助治疗方案优化方法及系统 | |
| CN117079821B (zh) | 一种患者住院事件预测方法 | |
| CN120708910A (zh) | 一种血管外科用患者信息数据管理平台及方法 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| PB01 | Publication | ||
| PB01 | Publication | ||
| SE01 | Entry into force of request for substantive examination | ||
| SE01 | Entry into force of request for substantive examination | ||
| GR01 | Patent grant | ||
| GR01 | Patent grant |