CN119601086B - 一种基于协同共表达网络的癌症预后生存分析方法 - Google Patents
一种基于协同共表达网络的癌症预后生存分析方法Info
- Publication number
- CN119601086B CN119601086B CN202510034865.8A CN202510034865A CN119601086B CN 119601086 B CN119601086 B CN 119601086B CN 202510034865 A CN202510034865 A CN 202510034865A CN 119601086 B CN119601086 B CN 119601086B
- Authority
- CN
- China
- Prior art keywords
- feature
- prognosis
- survival
- data
- network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B25/00—ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
- G16B25/20—Polymerase chain reaction [PCR]; Primer or probe design; Probe optimisation
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/27—Regression, e.g. linear or logistic regression
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
- G16B40/20—Supervised data analysis
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
- G16B40/30—Unsupervised data analysis
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/30—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Medical Informatics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Public Health (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Biophysics (AREA)
- Biotechnology (AREA)
- Databases & Information Systems (AREA)
- Epidemiology (AREA)
- Software Systems (AREA)
- Bioethics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Primary Health Care (AREA)
- Biomedical Technology (AREA)
- Pathology (AREA)
- Chemical & Material Sciences (AREA)
- Chemical Kinetics & Catalysis (AREA)
- Genetics & Genomics (AREA)
- Molecular Biology (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Investigating Or Analysing Biological Materials (AREA)
Abstract
本发明是一种基于协同共表达网络的癌症预后生存分析方法。本发明涉及癌症肿瘤预后分析技术领域,本发明基于公开数据库,收集癌症的多组学数据,并对数据进行预处理;基于处理后的数据,构建面向癌症多组学数据的协同共表达网络;基于协同共表达网络,提取预后生物标志物;根据提取预后生物标志物,进行生存分析的样本聚类,并进行预后生存分析。本发明实现对癌症患者所属预后类别的精确预测,为生物学家揭示导致癌症预后生存差异的分子机制、辅助临床医生最终实现针对预后生物标志物的靶向精准化治疗提供统计支持。
Description
技术领域
本发明涉及癌症肿瘤预后分析技术领域,是一种基于协同共表达网络的癌症预后生存分析方法。
背景技术
恶性肿瘤(俗称癌症,以下均以此称之)因其具有复发率高、生长速度快以及治愈率低等特点,严重危害人类生存健康。外科手术辅以术后的放化疗是目前治疗癌症的主要方法。然而,癌细胞的浸润(invasion)和转移(metastasis)特性限制了手术祛除病灶对癌症的一次治愈能力,放化疗又因其副作用给癌症病人带来痛苦。预后生存分析可以确定患者术后复发、转移乃至死亡的风险,为癌症患者术后的个体化治疗提供必要的依据,最大限度地延长患者的生存时间。预后生存分析是指:在现有病例的显型或分子指标及其生存时间之间构建关联模型,依据该模型测量新患者的显型或分子指标用于预测其生存时间。事实上,癌症复发、转移、病患死亡均有其对应的时间节点,本发明将从术后到上述事件发生的时间段统称为生存时间。
研究发现,癌症患者的显型指标(如:个人信息、临床指标等)与其生存时间并无明显的关联关系。因此,依据多组学(如:基因组学、转录组学、蛋白质组学等)数据分别构建二维矩阵(行代表不同的特征,列对应不同的样本),从中提取与生存时间密切相关的特征(即生物标志物,如:DNA、RNA、蛋白等),是解决癌症预后生存分析的关键一步。上述过程在模式识别与机器学习领域被称为特征选择。首先,所构建的二维矩阵具有的高维小样本特性导致模式识别领域经典的特征选择方法失效。受病例收集数量和采集数据所需费用两方面的限制,样本(亦称:患者、被试)个数较之特征(亦称:变量)个数往往相差至少两个数量级,传统的特征选择方法不可避免地面临过拟合问题。此外,将癌症患者的某一组学矩阵作为输入,将其预后生存时间作为输出,进一步增加了特征选择的难度。依据随访情况,患者的生存时间分别对应于从术后到事件发生(如:复发、转移、死亡等)或者最后一次随访的时间。如果到实验结束时患者失访、或者仍然存活,那么所记录的只是该患者的随访时间(right-censored time)而非真实的生存时间。
为了从代表不同组学的矩阵中提取与癌症患者预后生存时间密切相关的特征,现有的研究集中体现在以下两个方面:①筛选关联特征的思路。通过计算每个特征与预后生存时间的相关性来衡量是否选中该特征,或者采用约束条件滤除含噪声的特征,仅保留与预后生存密切相关的特征。②组合特征簇的思路。将密切相关的特征组合成特征簇,以此代表预后生物标志物。上述两种思路均存在问题:前者强调了特征与生存时间的关联性,却忽视了特征之间的关系;后者关注了特征之间的相关性,罔顾了特征与生存时间之间的联系。
对于癌症预后生存分析而言,存在两个亟待解决的问题:预后生物标志物提取和预后类别发现。前者旨在选择与预后生存密切相关的关键特征,用于后续的生存指标构建;后者旨在根据不同的预后生存情况发现特定癌症或泛癌中可能存在的预后亚型,用于预测患者的生存风险类别并为个体化临床治疗提供帮助。二者互为因果:预后生物标志物提取可去除二维矩阵的冗余特征,而在低维特征空间的二维矩阵上开展样本聚类有助于提高所发现预后类别的稳定性和可靠性;预后类别发现则依据预后生存时间将样本分成两类或多类,并尝试在两类或多类之间提取存在显著差异的生物标志物作为预后生存的关键特征。有关预后类别发现的研究主要集中在:单变量样本分类策略和单变量样本聚类策略上。有关预后生物标志物提取的研究则集中体现在:多变量特征选择策略、单变量特征组合策略、相关特征聚类策略三个方面。
如何选取与癌症预后生存密切关联的关键生物标志物并发现特定癌症可能存在的预后生存亚型,这两个问题至今为止仍没有得到很好地解决,严重限制了有关癌症预后生存分析研究的临床应用。为解决这两个问题,现有的研究关注特征与生存时间或者特征之间的关系,分别围绕上述五种策略展开。急需一种将上述两个关注点、五类策略有机结合的有效方法。先提取预后生物标志物,再在其对应的特征子空间矩阵或回归模型的输出结果上对样本进行聚类,进而预测新样本的生存风险乃至生存时间,这符合认知的逻辑顺序。考虑到生存时间具有连续性,样本聚类策略优于样本分类策略。较之单变量亦或是多变量,更为重要的是:能否在选取与预后生存时间密切相关的预后生物标志物的同时,关注预后生物标志物之间的关联性。二者的关系如何,成为现有研究的“盲区”。此外,目前尚未发现有关以癌症多组学数据为研究对象、并涉及预后生存分析生物标志物之间因果关系推断的研究工作。
发明内容
针对以上问题,本发明提出了一种基于协同共表达网络的癌症预后生存分析方法。拟将所提方法应用到恶性脑胶质瘤、乳腺癌、原发性肝癌、胃腺癌和食管鳞癌等多类恶性肿瘤的多组学数据预后生存分析上,选取出与预后生存密切相关的生物标志物,构建预后生存指标,并以此发现、比较样本的不同预后类别,推断预后生物标志物的因果关系,实现对癌症患者所属预后类别的精确预测,为生物学家揭示导致癌症预后生存差异的分子机制、辅助临床医生最终实现针对预后生物标志物的靶向精准化治疗提供统计支持。
本发明提供了以下技术方案:
一种基于协同共表达网络的癌症预后生存分析方法,包括以下步骤:
步骤1:基于公开数据库,收集癌症的多组学数据,并对数据进行预处理;
步骤2:基于处理后的数据,构建面向癌症多组学数据的协同共表达网络;
步骤3:基于协同共表达网络,提取预后生物标志物;
步骤4:根据提取预后生物标志物,进行生存分析的样本聚类,并进行预后生存分析。
优选地,所述步骤1具体为:
步骤1.1:针对目标肿瘤,收集TCGA公开数据库的FPKM表达类型的高质量RNA-seq数据,并将表达值转换为log2 TPM+1,进行归一化处理,保证数据整体的表达量符合正态化分布;
步骤1.2:在TCGA数据库中收集目标肿瘤样本的DNA甲基化数据,优先选择高通量甲基化测序数据,使用Minfi、ChAMPR包进行背景校正、归一化、探针过滤和批次效应校正;
步骤1.3:针对目标肿瘤,通过Genomic Data Commons收集TCGA公开数据库Segment Mean类型的高质量CNV数据,将数据转换为GISTIC2格式;对CNV数据进行包括去除异常值、修正错误、去除冗余信息数据清洗方法,随后对CNV数据进行标准化处理,以消除实验批次效应、样本处理差异带来的影响,采用Z-score标准化对CNV数据进行标准化;
步骤1.3:在TCGA数据库中收集目标肿瘤样本的染色质免疫沉淀测序ChIP-Seq的FASTQ格式数据,使用FastQC对原始测序数据进行质量控制以识别并处理低质量读段、污染或其他潜在的问题,采用Trimmomatic或Cutadapt工具去除接头序列和低质量读段;使用比对工具将清洗后的读段比对到参考基因组上,采用SAMtools过滤掉比对质量低、多点比对以及非特异性比对的读段,采用Picard Tools或SAMtools工具去除PCR重复,以保证数据的准确性。
优选地,所述步骤2具体为:
采用基于两两特征联合枚举的Cox回归来实现对预后生存时间的拟合,采用基于两两特征联合枚举的Pearson相关来衡量特征间的相关程度,统一上述两种度量,用于标注全连通网络中任意两结点边的权值;对其采用基于密度降序的簇心自动搜索聚类算法删除网络中权值较低的边,以此实现网络构建与特征团挖掘基于密度降序的簇心自动搜索算法用于对网络中所有边的权值进行密度降序聚类,将权值密度较低的边从网络中删除,直到出现不连通的特征团为止;
步骤2.1:基于Cox回归的两两特征联合枚举,采用Cox比例风险回归模型,通过枚举两两特征实现对生存时间的拟合,以此揭示任意一对特征与预后生存的显著关系,通过对风险函数的对数偏似然函数进行极大似然估计,求得任意两两特征对应的回归系数β=(βi,βj)T,当假设特征互不相关,则回归系数的任意分量均服从高斯分布,采用Wald检验判定回归系数分量是否显著地偏离零;
通过对样本及其对应的生存结果进行重排序进一步地扩大样本量,可在每个特征上生成与Wald统计量对应的重排序p值,枚举所有两两特征得到成对的p值,用于从所有的两两特征组合中选出与生存密切相关的显著特征对,为应对过拟合,在风险函数对应的对数偏似然函数上加判罚约束;考虑到风险比可能随生存时间变化,则用加权的Cox回归模型替代;
步骤2.2:基于Pearson相关的两两特征联合枚举,为衡量两两特征之间的相关性,采用Pearson相关系数r计算任意两个特征的相关性,并以此构建n个样本的t统计量,统计量表示为:采用样本重排序的方法,打乱任意两两特征中一个特征的样本取值的顺序,重复计算上述t统计量,对应的重排序p值表述为:
其中,t(i,j)为特征i和j的相关系数r对应的统计量,tb(i,j)代表对任意一个特征的值进行一次样本随机重排序生成的统计量,B为随机重排序的次数;
步骤2.3:网络结点的关联关系判定,协同共表达网络以单个特征为网络结点,以两两特征之间的关系为边,通过综合特征与生存时间的显著关系以及特征之间的相关关系计算结点间边的权值;构建如下度量方式用于衡量结点间边的权值:
其中,p2(i)和p2(j)分别代表联合两两特征i和j所得的二元Cox回归重排序p值,p1(i)和p1(j)分别代表单个特征i和j所得的一元Cox回归重排序p值,代表向上取整;m(i,j)的第一项为衡量特征i和j对生存回归贡献的“协同”部分,第二项源于基于Pearson相关的两两特征联合枚举所得的重排序p值,对应于“共表达”部分;m(i,j)用于衡量结点i和j之间的关联关系:其值越大,越表明结点i和结点j可能源于相同的特征团,反之亦然,当m(i,j)的值小于零时,将其值置为网络中权值的最大值,以此将所建的加权无向图称为协同-共表达网络;
步骤2.4:基于协同-共表达网络的特征团挖掘,针对协同共表达网络边的权值这一结点关联关系度量,引入基于密度降序的簇心自动搜索聚类算法,通过对类别数以及聚类边界的最优自动估计来限定网络中边的度量阈值,用以确定网络中任意两个结点是否存在关联边,以此将网络由加权无向图退化为无向图。
优选地,所述步骤3具体为:
步骤3.1:自底向上的“跨团枚举”生物标志物选择,根据“跨团假设”,在每个特征团内部枚举单变量,将源于c个不同特征团的单变量组合成多变量,计算其对Cox生存风险比例函数的回归系数;
步骤3.2:自顶向下的“跨团随机”生物标志物选择,引入样本重采样投票策略,在每个特征团内部随机地选择一个单变量,将源于c个不同特征团的单变量组合成多变量,计算其对Cox生存风险比例函数的回归系数;假设特征互不相关,类比基于Cox回归的两两特征联合枚举方法,则每一组“跨团”的多变量均能得到对应的c个重排序p值,每轮对重排序p值均显著的多变量计票;经l轮投票之后,从每个特征团中选出得票最高的特征组成显著预后特征集;
步骤3.3:联合多变量的无监督特征选择;需从不同的特征团中抽取单个变量组成用于回归分析的联合多变量,对于自底向上的“跨团枚举”生物标志物选择而言,记录每一个枚举的多变量对应的c个重排序p值;对于自顶向下的“跨团随机”生物标志物选择而言,通过设定阈值可记录多次随机抽取的多变量对应的多组c维p值向量,在c维特征空间中,对所有枚举或满足阈值限定的重排序p值向量做基于密度降序的簇心自动搜索聚类,选取离原点最近的类簇组成c维特征集,计算其中的散点到原点的Mahalanobis距离,当采用自底向上的“跨团枚举”生物标志物选择,则选取到原点距离最近的多维变量作为显著预后特征集;如果采用自顶向下的“跨团随机”生物标志物选择,则仍需判定到原点距离最近的多维变量是否与累计得票最高的特征组合相对应;
步骤3.4:预后生存分析指标构建,以Cox比例风险回归模型为例,由于基准风险函数或者基准生存函数估计困难,采用风险分数的线性部分构建预后生存的指标,样本的风险分数为预后特征相应样本取值的线性组合,组合系数为回归系数。
优选地,所述步骤4具体为:
步骤4.1:针对预后生存分析的样本聚类,为发现预后生存的类别,将源于不同组学的关键生物标志物或不同组学数据所建的预后生存分析指标合并后作为卷积神经网络的输入,将其输出视为新的特征子空间,对样本进行基于密度降序的簇心自动搜索聚类,以此实现对样本所属预后类别的发现;
步骤4.2:在不同类别的样本之间,分别绘制Kaplan-Meier生存分析曲线观察类内生存时间的变化、类间生存时间的差异,并用log-rank检验衡量不同类别间的生存时间是否定量地存在显著差异,绘制risk score生存分析图,观察不同类别样本间生存时间的变化;
步骤4.3:类间预后显著差异分析,采用基于样本分布差异的统计量实现类比较,对不同类别的风险分数是否存在显著差异进行评价;在此基础上,尝试用训练样本构建不同类型的分类器,用测试样本的预后生存结果验证分类结果的精准性和有效性。
优选地,跨团假设具体为:
与预后生存时间密切相关的显著特征集不全由与预后生存时间相关的单个显著变量组成,显著特征集内各个变量之间无明显的相关性。
一种基于协同共表达网络的癌症预后生存分析系统,所述系统包括:
数据采集模块,所述数据采集模块基于公开数据库,收集癌症的多组学数据,并对数据进行预处理;
网络构建模块,所述网络构建模块基于处理后的数据,构建面向癌症多组学数据的协同共表达网络;
提取模块,所述提取模块基于协同共表达网络,提取预后生物标志物;
聚类模块,所述聚类模块根据提取预后生物标志物,进行生存分析的样本聚类;
分析模块,所述分析模块根据样本聚类的结果,进行预后生存分析。
一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行,以用于实现一种基于协同共表达网络的癌症预后生存分析方法。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现一种基于协同共表达网络的癌症预后生存分析方法。
本发明具有以下有益效果:
本发明与现有技术相比:
本发明应用到癌症的预后生存分析上。在实现预后生物标志物选择、生存指标建立、预后类别发现、比较、所属类别预测的基础上,为揭示导致癌症预后生存差异的分子机制并最终实现针对关键生物标志物的靶向精准化治疗提供统计支持。本发明的创新性主要体现在以下两方面:
(1)提出协同-共表达的观点,联合基于生存回归模型和基于共表达网络的相关度量,引入基于密度降序的簇心自动搜索聚类技术,构建协同-共表达网络;
(2)依据显著生物标志物跨团这一假设,分别设计自底向上的生物标志物枚举方法和自顶向下的生物标志物随机选取方法用以实现联合多变量的无监督生物标志物选择;
本发明使用Cox回归、Pearson相关、无监督聚类、有监督分类、差异表达分析、贝叶斯网络等成熟理论,为本发明的执行提供强有力的理论支撑。技术路线布局合理,各部分逻辑关系紧密,逐层推进。首先,构建基于Cox回归和Pearson相关的度量用于衡量结点间边的权值,采用聚类算法将协同-共表达网络由加权无向图退化为无向图;而后,针对自底向上或自顶向下的特征选择结果,引入聚类算法实现联合多变量的无监督特征选择,构建预后生存分析指标;进而,对所建预后特征的生存分析指标进行聚类,完成预后类别发现和类比较;最终,采用贝叶斯网络实现预后特征的因果关系推断,并对新样本所属生存风险类别进行预测。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为基于协同-共表达网络的癌症多组学预后生存分析研究内容框图;
图2为本发明方法技术路线程图;
图3为面向癌症多组学数据的协同-共表达网络构建示意图;
图4为预后生物标志物提取示意图;
图5为面向癌症多组学数据的预后类别发现示意图;
图6为在所有两两显著的miRNA表达量上层次聚类的结果;
图7为在所有两两显著的miRNA相关系数上层次聚类的结果。
具体实施方式
下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
此外,下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。
以下结合具体实施例,对本发明进行了详细说明。
具体实施例一:
根据图1-图7所示,本发明为解决上述技术问题采取的具体优化技术方案是:本发明涉及一种基于协同共表达网络的癌症预后生存分析方法。
一种基于协同共表达网络的癌症预后生存分析方法,包括以下步骤:
步骤1:基于公开数据库,收集癌症的多组学数据,并对数据进行预处理;
步骤2:基于处理后的数据,构建面向癌症多组学数据的协同共表达网络;
步骤3:基于协同共表达网络,提取预后生物标志物;
步骤4:根据提取预后生物标志物,进行生存分析的样本聚类,进行预后生存分析。
具体实施例二:
本发明实施例二与实施例一的区别仅在于:
所述步骤1具体为:
步骤1.1:针对目标肿瘤,收集TCGA公开数据库的FPKM表达类型的高质量RNA-seq数据,并将表达值转换为log2 TPM+1,进行归一化处理,保证数据整体的表达量符合正态化分布;
步骤1.2:在TCGA数据库中收集目标肿瘤样本的DNA甲基化数据,优先选择高通量甲基化测序数据,使用Minfi、ChAMPR包进行背景校正、归一化、探针过滤和批次效应校正;
步骤1.3:针对目标肿瘤,通过Genomic Data Commons收集TCGA公开数据库Segment Mean类型的高质量CNV数据,将数据转换为GISTIC2格式;对CNV数据进行包括去除异常值、修正错误、去除冗余信息数据清洗方法,随后对CNV数据进行标准化处理,以消除实验批次效应、样本处理差异带来的影响,采用Z-score标准化对CNV数据进行标准化;
步骤1.3:在TCGA数据库中收集目标肿瘤样本的染色质免疫沉淀测序ChIP-Seq的FASTQ格式数据,使用FastQC对原始测序数据进行质量控制以识别并处理低质量读段、污染或其他潜在的问题,采用Trimmomatic或Cutadapt工具去除接头序列和低质量读段;使用比对工具将清洗后的读段比对到参考基因组上,采用SAMtools过滤掉比对质量低、多点比对以及非特异性比对的读段,采用Picard Tools或SAMtools工具去除PCR重复,以保证数据的准确性。
具体实施例三:
本发明实施例三与实施例二的区别仅在于:
所述步骤2具体为:
采用基于两两特征联合枚举的Cox回归来实现对预后生存时间的拟合,采用基于两两特征联合枚举的Pearson相关来衡量特征间的相关程度,统一上述两种度量,用于标注全连通网络中任意两结点边的权值;对其采用基于密度降序的簇心自动搜索聚类算法删除网络中权值较低的边,以此实现网络构建与特征团挖掘基于密度降序的簇心自动搜索算法用于对网络中所有边的权值进行密度降序聚类,将权值密度较低的边从网络中删除,直到出现不连通的特征团为止;
步骤2.1:基于Cox回归的两两特征联合枚举,采用Cox比例风险回归模型,通过枚举两两特征实现对生存时间的拟合,以此揭示任意一对特征与预后生存的显著关系,通过对风险函数的对数偏似然函数进行极大似然估计,求得任意两两特征对应的回归系数β=(βi,βj)T,当假设特征互不相关,则回归系数的任意分量均服从高斯分布,采用Wald检验判定回归系数分量是否显著地偏离零;
通过对样本及其对应的生存结果进行重排序进一步地扩大样本量,可在每个特征上生成与Wald统计量对应的重排序p值,枚举所有两两特征得到成对的p值,用于从所有的两两特征组合中选出与生存密切相关的显著特征对,为应对过拟合,在风险函数对应的对数偏似然函数上加判罚约束;考虑到风险比可能随生存时间变化,则用加权的Cox回归模型替代;
步骤2.2:基于Pearson相关的两两特征联合枚举,为衡量两两特征之间的相关性,采用Pearson相关系数r计算任意两个特征的相关性,并以此构建n个样本的t统计量,统计量表示为:采用样本重排序的方法,打乱任意两两特征中一个特征的样本取值的顺序,重复计算上述t统计量,对应的重排序p值表述为:
其中,t(i,j)为特征i和j的相关系数r对应的统计量,tb(i,j)代表对任意一个特征的值进行一次样本随机重排序生成的统计量,B为随机重排序的次数;
步骤2.3:网络结点的关联关系判定,协同共表达网络以单个特征为网络结点,以两两特征之间的关系为边,通过综合特征与生存时间的显著关系以及特征之间的相关关系计算结点间边的权值;构建如下度量方式用于衡量结点间边的权值:
其中,p2(i)和p2(j)分别代表联合两两特征i和j所得的二元Cox回归重排序p值,p1(i)和p1(j)分别代表单个特征i和j所得的一元Cox回归重排序p值,代表向上取整;m(i,j)的第一项为衡量特征i和j对生存回归贡献的“协同”部分,第二项源于基于Pearson相关的两两特征联合枚举所得的重排序p值,对应于“共表达”部分;m(i,j)用于衡量结点i和j之间的关联关系:其值越大,越表明结点i和结点j可能源于相同的特征团,反之亦然,当m(i,j)的值小于零时,将其值置为网络中权值的最大值,以此将所建的加权无向图称为协同-共表达网络;
步骤2.4:基于协同-共表达网络的特征团挖掘,针对协同共表达网络边的权值这一结点关联关系度量,引入基于密度降序的簇心自动搜索聚类算法,通过对类别数以及聚类边界的最优自动估计来限定网络中边的度量阈值,用以确定网络中任意两个结点是否存在关联边,以此将网络由加权无向图退化为无向图。
具体实施例四:
本发明实施例四与实施例三的区别仅在于:
所述步骤3具体为:
步骤3.1:自底向上的“跨团枚举”生物标志物选择,根据“跨团假设”,在每个特征团内部枚举单变量,将源于c个不同特征团的单变量组合成多变量,计算其对Cox生存风险比例函数的回归系数;
步骤3.2:自顶向下的“跨团随机”生物标志物选择,引入样本重采样投票策略,在每个特征团内部随机地选择一个单变量,将源于c个不同特征团的单变量组合成多变量,计算其对Cox生存风险比例函数的回归系数;假设特征互不相关,类比基于Cox回归的两两特征联合枚举方法,则每一组“跨团”的多变量均能得到对应的c个重排序p值,每轮对重排序p值均显著的多变量计票;经l轮投票之后,从每个特征团中选出得票最高的特征组成显著预后特征集;
步骤3.3:联合多变量的无监督特征选择;需从不同的特征团中抽取单个变量组成用于回归分析的联合多变量,对于自底向上的“跨团枚举”生物标志物选择而言,记录每一个枚举的多变量对应的c个重排序p值;对于自顶向下的“跨团随机”生物标志物选择而言,通过设定阈值可记录多次随机抽取的多变量对应的多组c维p值向量,在c维特征空间中,对所有枚举或满足阈值限定的重排序p值向量做基于密度降序的簇心自动搜索聚类,选取离原点最近的类簇组成c维特征集,计算其中的散点到原点的Mahalanobis距离,当采用自底向上的“跨团枚举”生物标志物选择,则选取到原点距离最近的多维变量作为显著预后特征集;如果采用自顶向下的“跨团随机”生物标志物选择,则仍需判定到原点距离最近的多维变量是否与累计得票最高的特征组合相对应;
步骤3.4:预后生存分析指标构建,以Cox比例风险回归模型为例,由于基准风险函数或者基准生存函数估计困难,采用风险分数的线性部分构建预后生存的指标,样本的风险分数为预后特征相应样本取值的线性组合,组合系数为回归系数。
具体实施例五:
本发明实施例五与实施例四的区别仅在于:
所述步骤4具体为:
步骤4.1:针对预后生存分析的样本聚类,为发现预后生存的类别,将源于不同组学的关键生物标志物或不同组学数据所建的预后生存分析指标合并后作为卷积神经网络的输入,将其输出视为新的特征子空间,对样本进行基于密度降序的簇心自动搜索聚类,以此实现对样本所属预后类别的发现;
步骤4.2:在不同类别的样本之间,分别绘制Kaplan-Meier生存分析曲线观察类内生存时间的变化、类间生存时间的差异,并用log-rank检验衡量不同类别间的生存时间是否定量地存在显著差异,绘制risk score生存分析图,观察不同类别样本间生存时间的变化;
步骤4.3:类间预后显著差异分析,采用基于样本分布差异的统计量实现类比较,对不同类别的风险分数是否存在显著差异进行评价;在此基础上,尝试用训练样本构建不同类型的分类器,用测试样本的预后生存结果验证分类结果的精准性和有效性。
具体实施例六:
本发明实施例六与实施例五的区别仅在于:
协同代表两个生物标志物构成的特征对与预后生存时间的相关关系;共表达则代表两个生物标志物间的相关关系。
具体实施例七:
本发明实施例七与实施例六的区别仅在于:
跨团假设具体为:
与预后生存时间密切相关的显著特征集不全由与预后生存时间相关的单个显著变量组成,显著特征集内各个变量之间无明显的相关性。
具体实施例八:
本发明实施例八与实施例七的区别仅在于:
本发明提供一种基于协同共表达网络的癌症预后生存分析系统,所述系统包括:
数据采集模块,所述数据采集模块基于公开数据库,收集癌症的多组学数据,并对数据进行预处理;
网络构建模块,所述网络构建模块基于处理后的数据,构建面向癌症多组学数据的协同共表达网络;
提取模块,所述提取模块基于协同共表达网络,提取预后生物标志物;
聚类模块,所述聚类模块根据提取预后生物标志物,进行生存分析的样本聚类并,进行预后生存分析。
具体实施例九:
本发明实施例九与实施例八的区别仅在于:
本发明提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行,以用于实现如一种基于协同共表达网络的癌症预后生存分析方法。
具体实施例十:
本发明实施例十与实施例九的区别仅在于:
本发明提供一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其所述处理器执行所述计算机程序时实现一种基于协同共表达网络的癌症预后生存分析方法。
具体实施例十一:
本发明实施例十一与实施例十的区别仅在于:
下面结合附图与具体实施方式对本发明作进一步详细描述。
本发明的前期研究工作发现:与预后生存时间密切相关的显著特征集不全由与预后生存时间相关的单个显著变量组成;亦即,显著特征集内各个变量之间无明显的相关性。(事实上,这一假设源于此前提出的与肿瘤预后生存相关的协变量选择方法等一系列研究工作)。将这一现象称为。这表明:显著特征集中的各个特征源于共表达网络模型中的不同特征簇,而非单个显著特征所在的同一特征簇。这与从共表达网络模型中选取单个显著变量所在的簇,以实现特征选择的做法完全相悖。以构成显著特征对(亦即二元组)的两个特征为例:其中有且仅有一个特征与预后生存时间密切相关;当另一个特征加入时,所构成的特征二元组对预后生存时间的拟合性能得到进一步增强。事实上,现有的共表达网络模型是一个树形结构,而关注一对特征与预后生存时间的相关性恰恰是特征集图化(亦即网络化)的关键。
基于上述考量,将跨团假设视为对预后显著特征二元组的协同表述,拟提出一种基于协同-共表达网络的预后生存分析方法,用于实现对现有研究所属五类策略的整合(如图1所示)。其中,代表两个生物标志物构成的特征对与预后生存时间的相关关系;则代表两个生物标志物间的相关关系。
针对RNA-seq数据、Chip-seq数据、DNA甲基化数据以及拷贝数变异数据等多组学数据,分别构建协同-共表达网络并从中选择预后生物标志物;组合不同组学的预后生物标志物,生成预后生存分析指标,构建贝叶斯网络以实现不同预后生物标志物的因果关系推断。具体拟从如下三个方面开展研究。
(1)面向癌症多组学数据的协同-共表达网络构建方法研究
将多组学数据对应的二维矩阵分别作为输入,构建相应的协同-共表达网络。该网络如图1中的红色方框所示,分为“协同”和“共表达”两部分。一方面,关注生物标志物与生存时间之间的联系:采用自底向上的特征组合策略,设计两两生物标志物与生存时间的关联度量,作为所建网络的“协同”部分;与单变量特征组合策略不同,所建网络的“协同”部分只关注两两特征的联合枚举。另一方面,探讨生物标志物之间的相关关系:采用相关特征聚类策略,遍历两两生物标志物之间的相关性,作为所建网络的“共表达”部分;与相关特征聚类策略不同,所建网络的“共表达”部分关注两两特征之间的相关性,而非特征的相关性聚类。协同-共表达网络将特征视为网络结点,以两两特征之间的关联为边,构建上述网络的关键在于:判定任意两个结点之间是否存在关联的边。本发明尝试将两两特征的“协同”和“共表达”信息统一于连接任意两个结点的边的权值,采用基于密度降序的簇心自动搜索聚类算法筛除权值较小的边,以此获得面向癌症多组学数据的协同-共表达网络。
(2)联合多变量的预后生物标志物选择方法研究
联合多变量的预后生物标志物选择如图1中的绿色方框所示,分为“跨团枚举”和“跨团随机”两部分。上述两种预后生物标志物选择方法均基于跨团假设,即与生存时间相关的显著特征分别来自不同的特征团(或称为特征簇,为方便网络化的表示,以下均称之为特征团)。针对所建的协同-共表达网络,本发明将依据“跨团”这一思路分别尝试自底向上的“跨团枚举”和自顶向下的“跨团随机”两种特征选择方法,以获得与生存时间密切相关的关键生物标志物集合。需要进一步说明的是:构建协同-共表达网络时只需关注两两特征;此处的“跨团枚举”和“跨团随机”均在网络中不同的特征团之间展开,设若所建的协同-共表达网络有c个特征团,则每轮枚举或随机选择特征的维度均为c。
(3)面向癌症多组学数据的预后类别发现方法研究
预后生存类别发现如图1中的蓝色方框所示,针对不同组学数据所选的预后生物标志物集合,本发明拟依序开展如下研究:通过组合不同组学的预后生物标志物,构建预后生存分析指标;在所建预后生存分析指标上采用自底向上的样本聚类策略来发现样本的预后生存类别;为验证所选生物标志物及样本类别的可靠性,采用自底向上的样本分类策略判断样本预后类别的多元统计假设检验结果和分类结果;实现对新样本所属类别的预测。
研究目标
在癌症多组学分析中,通过兼顾特征之间以及特征与预后生存时间的相关性,选取与预后生存密切关联的关键生物标志物,并发现特定癌症可能存在的预后生存亚型,成为两个亟待解决的问题。本发明将面向带有生存时间和生存事件发生状态(如死亡与否)的癌症多组学数据,依据跨团假设构建协同-共表达网络;对其分为采用“跨团枚举”和“跨团随机”特征选择方法实现联合多变量的预后生物标志物选择;针对所选预后生物标志物对应的子矩阵及其预后生存分析指标,采用无监督聚类方法发现样本预后生存的不同风险类别;本发明实现对癌症患者所属预后类别的精确预测。以此为生物学家利用癌症多组学数据研究预后生存分析提供更加准确的统计模型和计算工具。
拟解决的关键问题
为实现上述研究目标,本发明拟重点解决如下三个问题。
(1)协同-共表达网络中结点的关联关系判定
协同-共表达网络是一种联合两两特征的小世界网络(small-world network)。“跨团假设”指出,与生存时间显著相关的一对特征源于不同的特征团;而相关的两两特征出自同一个特征团。如何将“协同”和“共表达”的度量统一于协同-共表达网络的关联边上,计算其权重并自动去除权重较低的边,以获得彼此之间非连通的特征团,这是一个亟待解决的关键问题。
(2)联合多变量的无监督特征选择
建立好协同-共表达网络之后,需要从该网络中选取出预后生物标志物集合,用于后续的一系列应用(诸如:设计预后生存分析指标等)。依据“跨团假设”,可分别采用自底向上的“跨团枚举”和自顶向下的“跨团随机”两种特征选择方法。无论哪种方法,都需从不同的特征团中选取关键特征组成用于Cox回归分析的联合多变量。如何无监督地实现预后特征的最优选取,这是一个亟待解决的关键问题。
本发明坚持采用“无监督特征选择”的表述方法,其观点如下:构建协同-共表达网络的过程中,在计算两结点边的权值时确实用到了生存信息;但在实现联合多变量的特征选择这一步骤中,只是采用所提的无监督聚类算法对跨团枚举或跨团随机选取的特征得分或者p值进行无监督聚类,整个聚类的过程完全没有涉及预后生存时间或生存状态,详细的表述见下文“拟采取的研究方案”部分。
(3)面向癌症多组学数据的预后类别发现
在过去的十数年中,到底应开展单变量样本分类还是单变量样本聚类,这一问题存在各种争论。矛盾焦点在于:如何将样本分成不同的生存类别。针对不同组学数据选出的、与预后生存时间密切相关的关键生物标志物,如何构建跨组学的预后生存模型并将样本聚类策略和样本分类策略衔接,是一个亟待解决的关键问题。
研究方案
针对上述研究内容和研究目标,本发明以带有预后生存信息的癌症多组学公共数据(TCGA)为研究对象,将涵盖转录组学(RNA-seq)、基因组学(DNA甲基化、CNV)、蛋白质组学(Chip-seq)数据的收集与分析。针对某一癌症的多组学数据,具体的数据预处理方案如下:
①针对目标肿瘤,拟收集TCGA公开数据库的FPKM表达类型的高质量RNA-seq数据,并将表达值转换为log2(TPM+1),以进行归一化处理,旨在保证数据整体的表达量符合正态化分布,保证实验的准确性。
②在TCGA数据库中收集目标肿瘤样本的DNA甲基化数据,优先选择高通量甲基化测序(如Illumina 450K或EPIC BeadChip)数据。使用Minfi、ChAMP等R包进行背景校正、归一化、探针过滤和批次效应校正。
③针对目标肿瘤,通过Genomic Data Commons(GDC)收集TCGA公开数据库SegmentMean类型的高质量CNV数据。为了进行进一步分析,将数据转换为GISTIC2格式;为确保数据质量,首先对CNV数据进行包括去除异常值、修正错误、去除冗余信息等数据清洗方法,随后对CNV数据进行标准化处理,以消除实验批次效应、样本处理差异等带来的影响。拟采用Z-score标准化对CNV数据进行标准化。
④在TCGA数据库中收集目标肿瘤样本的染色质免疫沉淀测序(ChIP-Seq)的FASTQ格式数据,拟使用FastQC对原始测序数据进行质量控制以识别并处理低质量读段、污染或其他潜在的问题,拟采用Trimmomatic或Cutadapt等工具去除接头序列和低质量读段。使用比对工具(如BWA、Bowtie2或STAR)将清洗后的读段比对到参考基因组上,拟采用SAMtools过滤掉比对质量低、多点比对以及非特异性比对的读段,进一步实验拟采用Picard Tools或SAMtools等工具去除PCR重复,以保证数据的准确性。
在获得上述数据的基础上,本发明拟分为四个部分开展预后生存分析研究工作。整体的技术路线图如图2所示。实线箭头指明了研究方案的顺序。针对某一癌症的多组学数据,处理方案如下:对不同组学的数据进行预处理后,分别实现协同-共表达网络构建、预后显著生物标志物提取;将源于不同组学的预后显著生物标志物合并作为卷积神经网络的输入,将其输出用于预后类别发现;在此基础上,对源于不同组学的预后生物标志物集进行因果关系推断。
(1)面向癌症多组学数据的协同-共表达网络构建
此部分作为整个课题开展的基础,具体的研究工作包括:如何组合两两特征来实现对预后生存的拟合;如何计算两两特征之间的相关性;在此基础上,考虑如何将拟合结果和相关性度量统一于网络结点间边的权值度量以及删除权值较低的边这一关键问题。
如图3所示,针对癌症某一组学数据,拟采用基于两两特征联合枚举的Cox回归来实现对预后生存时间的拟合。采用基于两两特征联合枚举的Pearson相关来衡量特征间的相关程度。统一上述两种度量,用于标注全连通网络中任意两结点边的权值;对其采用所提基于密度降序的簇心自动搜索聚类算法删除网络中权值较低的边,以此实现网络构建与特征团挖掘。此处,所提基于密度降序的簇心自动搜索算法用于对网络中所有边的权值进行密度降序聚类,将权值密度较低的边(对应于权值所在的几个密度较低的高斯分布)从网络中删除,直到出现不连通的特征团为止。所提聚类算法的具体内容详见下文“研究基础”部分及其对应的参考文献。
基于Cox回归的两两特征联合枚举。有关生存分析的研究涉及到多种模型,Cox比例风险回归模型因其易于理解和实现,已集成到各种应用统计软件中,得到了广泛地应用。本发明采用Cox比例风险回归模型,通过枚举两两特征实现对生存时间的拟合,以此揭示任意一对特征与预后生存的显著关系。通过对风险函数的对数偏似然函数进行极大似然估计,可以求得任意两两特征对应的回归系数β=(βi,βj)T。若假设特征互不相关,则回归系数的任意分量均服从高斯分布。采用Wald检验可以判定回归系数分量是否显著地偏离零。通过对样本及其对应的生存结果进行重排序进一步地扩大样本量,可在每个特征上生成与Wald统计量对应的重排序p值。枚举所有两两特征得到成对的p值,可用于从所有的两两特征组合中选出与生存密切相关的显著特征对。为应对过拟合,可考虑在风险函数对应的对数偏似然函数上加判罚约束;考虑到风险比可能随生存时间变化,则可用加权的Cox回归模型替代。
基于Pearson相关的两两特征联合枚举。为衡量两两特征之间的相关性,拟采用Pearson相关系数r计算任意两个特征的相关性,并以此构建n个样本的t统计量。该统计量可表示为:仍采用样本重排序的方法,打乱任意两两特征中一个特征的样本取值的顺序,重复计算上述t统计量。对应的重排序p值可表述为:
其中,t(i,j)为特征i和j的相关系数r对应的统计量,tb(i,j)代表对任意一个特征的值进行一次样本随机重排序生成的统计量,B为随机重排序的次数。
网络结点的关联关系判定。协同-共表达网络以单个特征为网络结点,以两两特征之间的关系为边。通过综合特征与生存时间的显著关系以及特征之间的相关关系计算结点间边的权值。一方面,基于两两特征联合枚举的Cox回归模型标识了成对的网络结点与生存时间的关联关系,任意一对特征结点对应的重排序p值越小,表明这两个结点对生存风险比例函数回归的贡献越大。另一方面,基于两两特征联合枚举的Pearson相关系数标识了两两结点的相关关系,任意一对特征结点对应的重排序p值越小,表明这两个结点越相关。根据“跨团假设”,与生存时间存在显著相关的两个特征来自于不同的特征团;而越相关的两个特征越有可能源自同一个特征团。因此,本发明拟构建如下度量方式用于衡量结点间边的权值:
其中,p2(i)和p2(j)分别代表联合两两特征i和j所得的二元Cox回归重排序p值,p1(i)和p1(j)分别代表单个特征i和j所得的一元Cox回归重排序p值,代表向上取整。m(i,j)的第一项为衡量特征i和j对生存回归贡献的“协同”部分,第二项源于基于Pearson相关的两两特征联合枚举所得的重排序p值,对应于“共表达”部分。m(i,j)用于衡量结点i和j之间的关联关系:其值越大,越表明结点i和结点j可能源于相同的特征团,反之亦然。此外,当m(i,j)的值小于零时,将其值置为网络中权值的最大值。以此将所建的加权无向图称为。
基于协同-共表达网络的特征团挖掘。针对协同-共表达网络边的权值这一结点关联关系度量,引入所提的基于密度降序的簇心自动搜索聚类算法,通过对类别数以及聚类边界的最优自动估计来限定网络中边的度量阈值,用以确定网络中任意两个结点是否存在关联边,以此将网络由加权无向图退化为无向图。其中,无连通的结点被视为源自不同的特征团,协同-共表达网络退化为若干无交叠的特征团。
(2)预后生物标志物提取
此部分基于“跨团假设”,以提取与预后生存密切相关的显著生物标志物集合(即预后特征集)为目标,具体的研究工作包括:如何自底向上地枚举所有跨团的特征组合以选出预后生物标志物集合;如何自顶向下地随机抽取跨团的特征组合以选出预后生物标志物集合;针对上述任意一种特征选择方案,考虑如何从大量的多维特征中自动地选取出预后特征集合这一关键问题,亦即联合多变量的无监督特征选择问题;如何根据选出的预后特征集合构建用于生存分析的临床指标。
如图4所示,所获得的协同-共表达网络可以清晰地标注不同的特征团。根据“跨团假设”,分别在某一组学矩阵上采用自底向上的“跨团”特征枚举和自顶向下的随机“跨团”特征选取。忽略显著特征的相关关系,可基于密度降序的簇心自动搜索聚类算法设计一种度量多变量的无监督特征选择方案。在此基础上,用选出的预后特征计算基于Cox比例风险模型的风险分数,用以实现预后生存分析指标的构建。
自底向上的“跨团枚举”生物标志物选择。根据“跨团假设”,在每个特征团内部枚举单变量,将源于c个不同特征团的单变量组合成多变量,计算其对Cox生存风险比例函数的回归系数。该方法实质上是基于Cox回归的多变量联合枚举。假设特征互不相关,类比基于Cox回归的两两特征联合枚举方法,则每一组“跨团”的多变量均能得到对应的c个重排序p值,这可用于从所有的c维多变量中选出与生存最密切相关的一组显著预后特征集。同样的,可考虑在风险函数对应的对数似然函数上加判罚约束或是采用加权的Cox回归模型用于实现对现有模型的改进。
自顶向下的“跨团随机”生物标志物选择。如果特征团的个数过多,则考虑采用自顶向下的“跨团随机”特征选择方法。引入样本重采样投票策略,在每个特征团内部随机地选择一个单变量,将源于c个不同特征团的单变量组合成多变量,计算其对Cox生存风险比例函数的回归系数;假设特征互不相关,类比基于Cox回归的两两特征联合枚举方法,则每一组“跨团”的多变量均能得到对应的c个重排序p值,每轮对重排序p值均显著的多变量计票;经l轮投票之后,从每个特征团中选出得票最高的特征组成显著预后特征集。
联合多变量的无监督特征选择。无论上述哪种方法,都需从不同的特征团中抽取单个变量组成用于回归分析的联合多变量。对于自底向上的“跨团枚举”生物标志物选择而言,记录每一个枚举的多变量对应的c个重排序p值;对于自顶向下的“跨团随机”生物标志物选择而言,通过设定阈值可记录多次随机抽取的多变量对应的多组c维p值向量。在c维特征空间中,对所有枚举或满足阈值限定的重排序p值向量做基于密度降序的簇心自动搜索聚类,选取离原点最近的类簇组成c维特征集,计算其中的散点到原点的Mahalanobis距离。如果采用自底向上的“跨团枚举”生物标志物选择,则选取到原点距离最近的多维变量作为显著预后特征集;如果采用自顶向下的“跨团随机”生物标志物选择,则仍需判定到原点距离最近的多维变量是否与累计得票最高的特征组合相对应。
预后生存分析指标构建。以Cox比例风险回归模型为例,由于基准风险函数或者基准生存函数估计困难,往往采用风险分数(risk score)-这一风险函数的线性部分构建预后生存的指标。样本的风险分数为预后特征相应样本取值的线性组合,组合系数为回归系数。若采用其它模型,则可考虑直接用预后特征集合对应的子矩阵元素值作为样本预后生存分析的指标。
(3)面向癌症多组学数据的预后类别发现
此部分以发现预后样本的不同类别为目标,具体的研究工作包括:针对所建的预后生存分析指标,如何实现对样本的聚类;如何根据样本的分布差异验证预后类别的可靠性。拟采用基于密度降序的簇心自动搜索聚类算法实现对预后生存分析指标的样本聚类,拟采用假设检验技术分析类间的表达量差异程度。预后类别发现的示意图如图5所示。
针对预后生存分析的样本聚类。为发现预后生存的类别,将源于不同组学的关键生物标志物或不同组学数据所建的预后生存分析指标合并后作为卷积神经网络的输入,将其输出视为新的特征子空间,对样本进行基于密度降序的簇心自动搜索聚类,以此实现对样本所属预后类别的发现。在不同类别的样本之间,分别绘制Kaplan-Meier生存分析曲线观察类内生存时间的变化、类间生存时间的差异,并用log-rank检验衡量不同类别间的生存时间是否定量地存在显著差异。进一步地,绘制risk score生存分析图,观察不同类别样本间生存时间的变化。
类间预后显著差异分析。为验证所发现预后类别的可靠性,拟采用一系列基于样本分布差异的统计量(如Welch双样本t检验、单因素方差分析、Hotelling双样本t2检验等)实现类比较,对不同类别的风险分数是否存在显著差异进行评价;在此基础上,尝试用训练样本构建不同类型的分类器,用测试样本的预后生存结果验证分类结果的精准性和有效性。
本发明发现了与生存时间显著相关的两两microRNA来自不同特征团这一现象。这可作为“跨团假设”最直接的实验验证。此外,申请人还自主研发出5款实用的原创性差异表达和预后生存分析工具(包括:JSDSA、JCD-DEA、ECFS-DEA、AFS-DEA和IOFS-SA)。先期已开展的、以及正在开展的研究工作的具体内容详见研究基础部分。
研究基础;
申请人自2012年12月起,长期从事有关癌症多组学数据的差异表达分析和预后生存分析的研究工作。申请人近几年针对本课题做了大量前期研究工作,主要内容包括:(1)与癌症预后生存相关的协变量选择方法研究;(2)基于密度降序的簇心自动搜索聚类方法研究;(3)预后生存类别发现的再聚类方法研究;(4)相关的差异表达分析和预后生存分析工具开发。以上研究为本课题工作的开展奠定了基础。
与癌症预后生存相关的协变量方法研究
该研究工作通过自底向上的多变量联合枚举发现了导致恶性脑胶质瘤预后存在显著差异的一对microRNA,进一步的实验结果验证了“跨团假设”。申请人与相关的医学团队一起在TCGA公共数据集的microRNA表达谱上开展了统计实验和通路验证,设计了一种基于协变量选择的路线图,发现了导致恶性脑胶质瘤预后生存差异的一对关键microRNA。该研究工作在验证自底向上的多变量联合枚举这一思路的同时,发现了与生存时间显著相关的两两microRNA可能来自不同基因团这一现象。图6揭示了所选的两两显著microRNA(miR-222和miR-10b)来自不同的基因团。图7中的实黑框为基因团的表述,虚黑框为两两显著基因的表述。这表明:基因团内部的基因存在显著的正相关,两两显著基因跨团。上述结果可作为“跨团假设”最直接的实验验证。
申请人还自主研发出5款实用的原创性差异表达和预后生存分析工具,包括:JSDSA、JCD-DEA、ECFS-DEA、AFS-DEA和IOFS-SA。JSDSA是一种基于Cox回归的自底向上预后生存分析工具,该工具的开发为实现基于Cox回归的两两特征联合枚举以及自底向上的“跨团枚举”特征选择提供坚定的技术支持。JCD-DEA是一款联合样本分布和分类差异的自底向上差异表达分析工具,ECFS-DEA是一种基于集成分类的自顶向下差异表达分析工具,AFS-DEA是其网络版,上述工具的开发可为实现类间预后显著差异分析提供有力的技术支撑。IOFS-SA是一款用于预后生存分析指标构建和预后类别发现的专用工具,针对所建的预后生存分析指标实现对样本的交互式再聚类。
以上所述仅是一种基于协同共表达网络的癌症预后生存分析方法的优选实施方式,一种基于协同共表达网络的癌症预后生存分析方法的保护范围并不仅局限于上述实施例,凡属于该思路下的技术方案均属于本发明的保护范围。应当指出,对于本领域的技术人员来说,在不脱离本发明原理前提下的若干改进和变化,这些改进和变化也应视为本发明的保护范围。
Claims (10)
1.一种基于协同共表达网络的癌症预后生存分析方法,其特征是:包括以下步骤:
步骤1:基于公开数据库,收集癌症的多组学数据,并对数据进行预处理;
步骤2:基于处理后的数据,构建面向癌症多组学数据的协同共表达网络;
采用基于两两特征联合枚举的Cox回归来实现对预后生存时间的拟合,采用基于两两特征联合枚举的Pearson相关来衡量特征间的相关程度,统一基于两两特征联合枚举的Cox回归和基于两两特征联合枚举的Pearson相关两种度量,用于标注全连通网络中任意两结点边的权值;对其采用基于密度降序的簇心自动搜索聚类算法删除网络中权值较低的边,以此实现网络构建与特征团挖掘,基于密度降序的簇心自动搜索算法用于对网络中所有边的权值进行密度降序聚类,将权值密度较低的边从网络中删除,直到出现不连通的特征团为止;
协同共表达网络以单个特征为网络结点,以两两特征之间的关系为边,通过综合特征与生存时间的显著关系以及特征之间的相关关系计算结点间边的权值;构建如下度量方式用于衡量结点间边的权值:
其中,和分别代表联合两两特征和所得的二元Cox回归重排序p值,和分别代表单个特征和所得的一元Cox回归重排序p值,代表向上取整;的第一项为衡量特征和对生存回归贡献的“协同”部分,第二项源于基于Pearson相关的两两特征联合枚举所得的重排序p值,对应于“共表达”部分;用于衡量结点和之间的关联关系:其值越大,越表明结点和结点可能源于相同的特征团,反之亦然,当的值小于零时,将其值置为网络中权值的最大值,以此将所建的加权无向图称为协同-共表达网络;
步骤3:基于协同共表达网络,提取预后生物标志物;
步骤4:根据提取的预后生物标志物,进行生存分析的样本聚类,并进行预后生存分析。
2.根据权利要求1所述的一种基于协同共表达网络的癌症预后生存分析方法,其特征是:所述步骤1具体为:
步骤1.1:针对目标肿瘤,收集TCGA公开数据库的FPKM表达类型的高质量RNA-seq数据,并将表达值转换为log2 TPM+1,进行归一化处理,保证数据整体的表达量符合正态化分布;
步骤1.2:在TCGA数据库中收集目标肿瘤样本的DNA甲基化数据,优先选择高通量甲基化测序数据,使用Minfi、ChAMPR包进行背景校正、归一化、探针过滤和批次效应校正;
步骤1.3:针对目标肿瘤,通过Genomic Data Commons收集TCGA公开数据库SegmentMean类型的高质量CNV数据,将数据转换为GISTIC2格式;对CNV数据进行包括去除异常值、修正错误、去除冗余信息和数据清洗,随后对CNV数据进行标准化处理,以消除实验批次效应、样本处理差异带来的影响,采用Z-score标准化对CNV数据进行标准化;
步骤1.3:在TCGA 数据库中收集目标肿瘤样本的染色质免疫沉淀测序ChIP-Seq的FASTQ格式数据,使用FastQC对原始测序数据进行质量控制以识别并处理低质量读段、污染,采用Trimmomatic或Cutadapt工具去除接头序列和低质量读段;使用比对工具将清洗后的读段比对到参考基因组上,采用SAMtools过滤掉比对质量低、多点比对以及非特异性比对的读段,采用Picard Tools或SAMtools工具去除PCR重复,以保证数据的准确性。
3.根据权利要求2所述的一种基于协同共表达网络的癌症预后生存分析方法,其特征是:所述步骤2具体为:
步骤2.1:基于Cox回归的两两特征联合枚举,采用Cox比例风险回归模型,通过枚举两两特征实现对生存时间的拟合,以此揭示任意一对特征与预后生存的显著关系,通过对风险函数的对数偏似然函数进行极大似然估计,求得任意两两特征对应的回归系数,当假设特征互不相关,则回归系数的任意分量均服从高斯分布,采用Wald检验判定回归系数分量是否显著地偏离零;
通过对样本及其对应的生存结果进行重排序进一步地扩大样本量,可在每个特征上生成与Wald统计量对应的重排序p值,枚举所有两两特征得到成对的p值,用于从所有的两两特征组合中选出与生存密切相关的显著特征对,为应对过拟合,在风险函数对应的对数偏似然函数上加判罚约束;考虑到风险比可能随生存时间变化,则用加权的Cox回归模型替代;
步骤2.2:基于Pearson相关的两两特征联合枚举,为衡量两两特征之间的相关性,采用Pearson相关系数计算任意两个特征的相关性,并以此构建个样本的统计量,统计量表示为:,采用样本重排序的方法,打乱任意两两特征中一个特征的样本取值的顺序,重复计算上述统计量,对应的重排序p值表述为:
其中,为特征和的相关系数对应的统计量,代表对任意一个特征的值进行一次样本随机重排序生成的统计量,为随机重排序的次数;
步骤2.3:网络结点的关联关系判定;
步骤2.4:基于协同-共表达网络的特征团挖掘,针对协同共表达网络边的权值这一结点关联关系度量,引入基于密度降序的簇心自动搜索聚类算法,通过对类别数以及聚类边界的最优自动估计来限定网络中边的度量阈值,用以确定网络中任意两个结点是否存在关联边,以此将网络由加权无向图退化为无向图。
4.根据权利要求3所述的一种基于协同共表达网络的癌症预后生存分析方法,其特征是:所述步骤3具体为:
步骤3.1:自底向上的“跨团枚举”生物标志物选择,根据“跨团假设”,在每个特征团内部枚举单变量,将源于个不同特征团的单变量组合成多变量,计算其对Cox生存风险比例函数的回归系数;
步骤3.2:自顶向下的“跨团随机”生物标志物选择,引入样本重采样投票策略,在每个特征团内部随机地选择一个单变量,将源于个不同特征团的单变量组合成多变量,计算其对Cox生存风险比例函数的回归系数;假设特征互不相关,类比基于Cox回归的两两特征联合枚举方法,则每一组“跨团”的多变量均能得到对应的个重排序p值,每轮对重排序p值均显著的多变量计票;经轮投票之后,从每个特征团中选出得票最高的特征组成显著预后特征集;
步骤3.3:联合多变量的无监督特征选择;需从不同的特征团中抽取单个变量组成用于回归分析的联合多变量,对于自底向上的“跨团枚举”生物标志物选择而言,记录每一个枚举的多变量对应的个重排序p值;对于自顶向下的“跨团随机”生物标志物选择而言,通过设定阈值可记录多次随机抽取的多变量对应的多组维p值向量,在维特征空间中,对所有枚举或满足阈值限定的重排序p值向量做基于密度降序的簇心自动搜索聚类,选取离原点最近的类簇组成维特征集,计算其中的散点到原点的Mahalanobis距离,当采用自底向上的“跨团枚举”生物标志物选择,则选取到原点距离最近的多维变量作为显著预后特征集;如果采用自顶向下的“跨团随机”生物标志物选择,则仍需判定到原点距离最近的多维变量是否与累计得票最高的特征组合相对应;
步骤3.4:预后生存分析指标构建,以Cox比例风险回归模型,由于基准风险函数或者基准生存函数估计困难,采用风险分数的线性部分构建预后生存的指标,样本的风险分数为预后特征相应样本取值的线性组合,组合系数为回归系数。
5.根据权利要求4所述的一种基于协同共表达网络的癌症预后生存分析方法,其特征是:所述步骤4具体为:
步骤4.1:针对预后生存分析的样本聚类,为发现预后生存的类别,将源于不同组学的关键生物标志物或不同组学数据所建的预后生存分析指标合并后作为卷积神经网络的输入,将其输出视为新的特征子空间,对样本进行基于密度降序的簇心自动搜索聚类,以此实现对样本所属预后类别的发现;
步骤4.2:在不同类别的样本之间,分别绘制Kaplan-Meier生存分析曲线观察类内生存时间的变化、类间生存时间的差异,并用log-rank检验衡量不同类别间的生存时间是否定量地存在显著差异,绘制risk score生存分析图,观察不同类别样本间生存时间的变化;
步骤4.3:类间预后显著差异分析,采用基于样本分布差异的统计量实现类比较,对不同类别的风险分数是否存在显著差异进行评价;在此基础上,用训练样本构建不同类型的分类器,用测试样本的预后生存结果验证分类结果的精准性和有效性。
6.根据权利要求5所述的一种基于协同共表达网络的癌症预后生存分析方法,其特征是:
协同代表两个生物标志物构成的特征对与预后生存时间的相关关系;共表达则代表两个生物标志物间的相关关系。
7.根据权利要求4所述的一种基于协同共表达网络的癌症预后生存分析方法,其特征是:跨团假设具体为:
与预后生存时间密切相关的显著特征集不全由与预后生存时间相关的单个显著变量组成,显著特征集内各个变量之间无明显的相关性。
8.一种基于协同共表达网络的癌症预后生存分析系统,其特征是:所述系统包括:
数据采集模块,所述数据采集模块基于公开数据库,收集癌症的多组学数据,并对数据进行预处理;
网络构建模块,所述网络构建模块基于处理后的数据,构建面向癌症多组学数据的协同共表达网络;
采用基于两两特征联合枚举的Cox回归来实现对预后生存时间的拟合,采用基于两两特征联合枚举的Pearson相关来衡量特征间的相关程度,统一基于两两特征联合枚举的Cox回归和基于两两特征联合枚举的Pearson相关两种度量,用于标注全连通网络中任意两结点边的权值;对其采用基于密度降序的簇心自动搜索聚类算法删除网络中权值较低的边,以此实现网络构建与特征团挖掘,基于密度降序的簇心自动搜索算法用于对网络中所有边的权值进行密度降序聚类,将权值密度较低的边从网络中删除,直到出现不连通的特征团为止;
协同共表达网络以单个特征为网络结点,以两两特征之间的关系为边,通过综合特征与生存时间的显著关系以及特征之间的相关关系计算结点间边的权值;构建如下度量方式用于衡量结点间边的权值:
其中,和分别代表联合两两特征和所得的二元Cox回归重排序p值,和分别代表单个特征和所得的一元Cox回归重排序p值,代表向上取整;的第一项为衡量特征和对生存回归贡献的“协同”部分,第二项源于基于Pearson相关的两两特征联合枚举所得的重排序p值,对应于“共表达”部分;用于衡量结点和之间的关联关系:其值越大,越表明结点和结点可能源于相同的特征团,反之亦然,当的值小于零时,将其值置为网络中权值的最大值,以此将所建的加权无向图称为协同-共表达网络;
提取模块,所述提取模块基于协同共表达网络,提取预后生物标志物;
聚类模块,所述聚类模块根据提取预后生物标志物,进行生存分析的样本聚类,并进行预后生存分析。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行,以用于实现如权利要求1-7任意一项的一种基于协同共表达网络的癌症预后生存分析方法。
10.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征是:所述处理器执行所述计算机程序时实现权利要求1-7任意一项的一种基于协同共表达网络的癌症预后生存分析方法。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN202510034865.8A CN119601086B (zh) | 2025-01-09 | 2025-01-09 | 一种基于协同共表达网络的癌症预后生存分析方法 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN202510034865.8A CN119601086B (zh) | 2025-01-09 | 2025-01-09 | 一种基于协同共表达网络的癌症预后生存分析方法 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| CN119601086A CN119601086A (zh) | 2025-03-11 |
| CN119601086B true CN119601086B (zh) | 2025-08-12 |
Family
ID=94831014
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| CN202510034865.8A Active CN119601086B (zh) | 2025-01-09 | 2025-01-09 | 一种基于协同共表达网络的癌症预后生存分析方法 |
Country Status (1)
| Country | Link |
|---|---|
| CN (1) | CN119601086B (zh) |
Citations (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN109872776A (zh) * | 2019-02-14 | 2019-06-11 | 辽宁省肿瘤医院 | 一种基于加权基因共表达网络分析对胃癌潜在生物标志物的筛选方法及其应用 |
| CN112837744A (zh) * | 2021-02-07 | 2021-05-25 | 南京邮电大学 | 一种前列腺癌预后显著相关ceRNA调控网络的构建方法 |
Family Cites Families (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| KR101940657B1 (ko) * | 2017-04-24 | 2019-01-21 | (주) 노보믹스 | 위암의 생물학적 특성에 기반한 군 구분 및 예후 예측 시스템 |
-
2025
- 2025-01-09 CN CN202510034865.8A patent/CN119601086B/zh active Active
Patent Citations (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN109872776A (zh) * | 2019-02-14 | 2019-06-11 | 辽宁省肿瘤医院 | 一种基于加权基因共表达网络分析对胃癌潜在生物标志物的筛选方法及其应用 |
| CN112837744A (zh) * | 2021-02-07 | 2021-05-25 | 南京邮电大学 | 一种前列腺癌预后显著相关ceRNA调控网络的构建方法 |
Also Published As
| Publication number | Publication date |
|---|---|
| CN119601086A (zh) | 2025-03-11 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US12242943B2 (en) | Generating machine learning models using genetic data | |
| Lähnemann et al. | Eleven grand challenges in single-cell data science | |
| Koo et al. | A Review for Detecting Gene‐Gene Interactions Using Machine Learning Methods in Genetic Epidemiology | |
| Urbanowicz et al. | An analysis pipeline with statistical and visualization-guided knowledge discovery for michigan-style learning classifier systems | |
| CN106021984A (zh) | 一种全外显子组测序数据分析系统 | |
| US20190108311A1 (en) | Site-specific noise model for targeted sequencing | |
| CN116631496A (zh) | 一种基于多层异构图的miRNA靶标预测方法及系统和应用 | |
| James et al. | Whole-genome phenotype prediction with machine learning: open problems in bacterial genomics | |
| Dong et al. | Deep learning in gene regulatory network inference: a survey | |
| CN117059165B (zh) | 基于集成学习的差异甲基化区域选择及筛选方法、系统、终端及介质 | |
| Dautle et al. | Single‐Cell Hi‐C Technologies and Computational Data Analysis | |
| CN119601086B (zh) | 一种基于协同共表达网络的癌症预后生存分析方法 | |
| Zhang et al. | Leveraging Multi-Modal Attention Mechanisms for Interpretable Biomarker Discovery and Early Disease Prediction | |
| Sagar et al. | GCRS: a hybrid graph convolutional network for risk stratification in multiple myeloma cancer patients | |
| CN118800340A (zh) | 混合式筛选食管癌关键基因集及构建其预后模型的方法 | |
| CN116206680B (zh) | 一种检测串联重复区域的方法、装置、设备及存储介质 | |
| CN115240765A (zh) | 基于异质生物分子网络的snp交互作用检测系统 | |
| CN120354224B (zh) | 一种癌症亚型分类方法、系统、设备和介质 | |
| Rukan et al. | Computational Biology and Its Role in Life Science Research | |
| Dlamini et al. | Informatics in Medicine Unlocked | |
| Duan et al. | Similarity network fusion based on local scaling affinity construction | |
| CN120108500A (zh) | 一种基于生物复杂网络拆解的生物标志物挖掘方法 | |
| Chen | Statistical criteria and procedures for controlling false positives with applications to biological and biomedical data analysis | |
| West et al. | Analysis of incrementally generated clusters in biological networks using graph-theoretic filters and ontology enrichment | |
| CN119763654A (zh) | 一种阿尔茨海默病的智能筛查系统 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| PB01 | Publication | ||
| PB01 | Publication | ||
| SE01 | Entry into force of request for substantive examination | ||
| SE01 | Entry into force of request for substantive examination | ||
| GR01 | Patent grant | ||
| GR01 | Patent grant |