CN116312800A - 一种基于血浆中循环rna全转录组测序的肺癌特征识别方法、装置和存储介质 - Google Patents
一种基于血浆中循环rna全转录组测序的肺癌特征识别方法、装置和存储介质 Download PDFInfo
- Publication number
- CN116312800A CN116312800A CN202310248153.7A CN202310248153A CN116312800A CN 116312800 A CN116312800 A CN 116312800A CN 202310248153 A CN202310248153 A CN 202310248153A CN 116312800 A CN116312800 A CN 116312800A
- Authority
- CN
- China
- Prior art keywords
- cfrna
- lung cancer
- sequencing
- data
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
- G16B30/10—Sequence alignment; Homology search
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
- G16B40/10—Signal processing, e.g. from mass spectrometry [MS] or from PCR
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B50/00—ICT programming tools or database systems specially adapted for bioinformatics
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Physics & Mathematics (AREA)
- Medical Informatics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- Public Health (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Bioethics (AREA)
- Epidemiology (AREA)
- Artificial Intelligence (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Signal Processing (AREA)
- Molecular Biology (AREA)
- Chemical & Material Sciences (AREA)
- Evolutionary Computation (AREA)
- Analytical Chemistry (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Pathology (AREA)
- Primary Health Care (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明公开了一种基于血浆中循环RNA全转录组测序的肺癌特征识别方法、装置和存储介质,包括获取与非小细胞肺癌相关的cfRNA标志物信息,从cfRNA标志物信息中选择出顶级特征信息,根据顶级特征信息构建和训练预测模型,使用训练好的预测模型进行非小细胞肺癌特征识别等步骤。本发明可以辅助医生实现对非小细胞肺癌的精确诊断;对于在实体肿瘤中转录量大的基因,释放到外周血中的拷贝数会很多,有助于在肿瘤较小的早期癌症患者血液中识别出变异信息,提高诊断的敏感性;本发明基于cfRNA全转录组测序实现,相对于cfDNA及其甲基化测序等现有技术,成本更低,对早筛早诊的普及更有利。本发明广泛应用于生物医药技术领域。
Description
技术领域
本发明涉及生物医药技术领域,尤其是一种基于血浆中循环RNA全转录组测序的肺癌特征识别方法、装置和存储介质。
背景技术
肺癌(lung cancer)是危害人类健康和生命的恶性肿瘤之一,也是美国癌症死亡的主要原因,每天约有350人死亡。肺癌主要分为两大类,即小细胞肺癌(SCLC)和非小细胞肺癌(NSCLC),绝大多数肺癌是非小细胞肺癌(约占80-85%)。随着分子靶向治疗和免疫治疗在NSCLC治疗中的广泛应用,患者的生存率显著提高。但是由于大多数肺癌患者早期无明显症状,发现时已是晚期,导致治疗效果不好,五年生存率仅为17%。NSCLC的早期诊断能达到最好的预后效果,5年生存率能够提高到80%。如果肺癌能够早期进行手术切除,其治疗效果和预后会显著提高,因此肺癌的早期诊断极为重要。
目前肺癌的诊断通常是根据体格检查、胸片、血液检查的提示疑似肺癌,然后经胸部CT、PET-CT、组织取样检查(如痰细胞学检查、胸腔穿刺、肺活检)进行确诊。目前的肺癌早期检出率很低(2-5%),对于特异性较差的特定风险人群,低剂量螺旋CT(LDCT)是唯一推荐的肺癌筛查试验,然而,由于其高灵敏度,也检测到许多非肿瘤性肺结节,假阳性结节的大量检出是LDCT筛查亟需解决的重要问题,需要其他筛查手段加以补充。
术语解释:
cell-free RNA(cfRNA):称为外周血中细胞游离的RNA,包含来源于身体的各个器官的转录本。
全转录组测序(transcriptome sequencing):全转录组即特定细胞或组织在某一功能状态下所有转录产物(mRNA、lncRNA、circRNA以及microRNA)的合集。全转录组测序可对同一个样品同时进行mRNA、lncRNA、circRNA和microRNA的单独分析,还可进行多种RNA联合分析以及内源竞争性RNA整合分析,分子标记筛选等,探究其潜在的调控网络机制,全面的揭示转录调控问题。主要应用于免疫机制、疾病领域、发育进化、致病机理和药物靶标等方面的研究。
偏最小二乘判别分析(PLS-DA):是一种用于判别分析的多变量统计分析方法。判别分析是一种根据观察或测量到的若干变量值,来判断研究对象如何分类的常用统计分析方法。其原理是对不同处理样本(如观测样本、对照样本)的特性分别进行训练,产生训练集,并检验训练集的可信度。
机器学习:机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机如何模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。它是人工智能核心,是使计算机具有智能的根本途径。传统机器学习的研究方向主要包括决策树、随机森林、人工神经网络、贝叶斯学习等方面的研究。大数据环境下的机器学习算法,依据一定的性能标准,对学习结果的重要程度可以予以忽视。采用分布式和并行计算的方式进行分治策略的实施,可以规避掉噪音数据和冗余带来的干扰,降低存储耗费,同时提高学习算法的运行效率。
随机森林:在机器学习中,随机森林是一个包含多个决策树的分类器,并且其输出的类别是由个别树输出的类别的众数而定。
逻辑回归:logistic regression(LR)是一种广义的线性回归分析模型,属于机器学习中的监督学习。其推导过程与计算方式类似于回归的过程,但实际上主要是用来解决二分类问题(也可以解决多分类问题)。通过给定的n组数据(训练集)来训练模型,并在训练结束后对给定的一组或多组数据(测试集)进行分类。
高通量测序技术:高通量测序技术又称“下一代”测序技术,以能一次并行对几十万到几百万条DNA分子进行序列测定和一般读长较短等为标志。根据发展历史、影响力、测序原理和技术不同等,主要有以下几种:大规模平行签名测序(Massively ParallelSignature Sequencing,MPSS)、聚合酶克隆(Polony Sequencing)、454焦磷酸测序(454pyrosequencing)、Illumina(Solexa)sequencing、ABI SOLiD sequencing、离子半导体测序(Ion semiconductor sequencing)、DNA纳米球测序(DNAnanoball sequencing)等。高通量测序技术是对传统测序一次革命性的改变,一次对几十万到几百万条DNA分子进行序列测定,因此在有些文献中称其为下一代测序技术(next generation sequencing)足见其划时代的改变,同时高通量测序使得对一个物种的转录组和基因组进行细致全貌的分析成为可能,所以又被称为深度测序(deep sequencing)。
发明内容
针对早期筛查肺癌难度大、影像学检查难以发现小的病变,以及PET-CT等有效辅助手段价格昂贵、普遍性和可及性差等技术问题,本发明的目的在于提供一种基于血浆中循环RNA全转录组测序的肺癌特征识别方法、装置和存储介质。
一方面,本发明实施例包括一种基于血浆中循环RNA全转录组测序的肺癌特征识别方法,包括:
获取与非小细胞肺癌相关的cfRNA标志物信息;所述cfRNA标志物信息通过基于血浆中循环RNA全转录组测序得到;
从所述cfRNA标志物信息中选择出顶级特征信息;
根据所述顶级特征信息构建和训练预测模型;
使用训练好的所述预测模型进行非小细胞肺癌特征识别。
进一步地,所述获取与非小细胞肺癌相关的cfRNA标志物信息,包括:
从高通量测序数据库中获取cfRNA原始测序数据;所述cfRNA原始测序数据来自非小细胞肺癌患者和对照样本;
对所述cfRNA原始测序数据进行数据清理和数据比对,获得所述cfRNA标志物信息。
进一步地,所述数据清理,包括:
去除所述cfRNA原始测序数据中的reads 3’端的低质量碱基序列;所述低质量碱基序列包括满足Quality Phred score cutoff≤20的碱基序列;
在所述cfRNA原始测序数据中的reads的3’端查找并去除人为添加物;所述人为添加物包括序列中加入的引物和接头。
进一步地,所述数据比对,包括:
将经过数据清理后的所述cfRNA原始测序数据与人类参考基因组进行比对;
对所述cfRNA原始测序数据去除PCR重复;
量化所述cfRNA原始测序数据的RNA的丰度。
进一步地,所述从所述cfRNA标志物信息中选择出顶级特征信息,包括:
使用偏最小二乘判别分析算法对所述cfRNA标志物信息进行选择,获得预测中的变量重要性;
选择出对应的所述变量重要性大于临界值的所述cfRNA标志物信息,作为所述顶级特征信息。
进一步地,所述根据所述顶级特征信息构建和训练预测模型,包括:
对所述顶级特征信息组成的数据集进行多次划分,每次划分分别产生相应的训练集和测试集;同一次划分所得的所述训练集和测试集之间不重叠;
建立多个预测模型;各所述预测模型与各所述训练集之间一一对应;
分别使用每个所述训练集训练相应的一个所述预测模型;
分别使用每个所述测试集测试相应的一个所述预测模型;
对测试完的各所述预测模型进行性能评估;
保存性能评估指标符合要求的所述预测模型。
进一步地,所述预测模型为逻辑回归模型或者随机森林模型。
进一步地,所述根据所述顶级特征信息构建和训练预测模型,还包括:
对所述顶级特征信息组成的数据集进行重划分,获得独立验证集;
使用所述独立验证集对所述预测模型进行验证,确定各所述顶级特征信息的重要性;
根据对应的重要性,对各所述顶级特征信息进行排序;
记录排在最前的若干个所述顶级特征信息的类型。
另一方面,本发明实施例还包括一种计算机装置,包括存储器和处理器,所述存储器用于存储至少一个程序,所述处理器用于加载所述至少一个程序以执行实施例中的基于血浆中循环RNA全转录组测序的肺癌特征识别方法。
另一方面,本发明实施例还包括一种存储介质,其中存储有处理器可执行的程序,所述处理器可执行的程序在由处理器执行时用于执行实施例中的基于血浆中循环RNA全转录组测序的肺癌特征识别方法。
本发明的有益效果是:实施例中的基于血浆中循环RNA全转录组测序的肺癌特征识别方法,使用基于机器学习模型的预测模型对cfRNA标志物信息进行处理,cfRNA标志物信息中包含通过全转录组测序所获得的mRNA、lncRNA、microRNA等所有转录物信息中的几百个生物标志物,可以辅助医生实现对非小细胞肺癌的精确诊断;对于在实体肿瘤中转录量大的基因,释放到外周血中的拷贝数会很多,有助于在肿瘤较小的早期癌症患者血液中识别出变异信息,提高诊断的敏感性;实施例中的肺癌特征识别方法基于cfRNA全转录组测序实现,相对于cfDNA及其甲基化测序等现有技术,成本更低,对早筛早诊的普及更有利。
附图说明
图1为实施例中可以应用基于血浆中循环RNA全转录组测序的肺癌特征识别方法的流程图;
图2a为实施例中逻辑回归模型的肺癌特征识别效果示意图;
图2b为实施例中随机森林模型的肺癌特征识别效果示意图。
具体实施方式
在对非小细胞肺癌的传统病理检查无法满足诊断的需求时,基于生物标记物的液体活检为肺癌的早期诊断提供了新的方向。
液体活检技术是一种分子诊断技术,通常被看作体外诊断的一种延伸,与普通癌症检测相比,将样本由相关组织延伸至血液、尿液、脑脊液等。液体活检能检测从肿瘤脱落释放到血液的循环肿瘤细胞或者来源于肿瘤的细胞游离核酸片段,对于筛选检测早期肿瘤、评价药物疗效具有十分重要的意义。液体活检具有创伤性较小、取样方便等特点,是癌症检测和辅助治疗的突破性技术。液体活检的标志物包括了循环肿瘤细胞(CTC)、细胞游离DNA(cfDNA)、细胞游离RNA(cfRNA)、外泌体蛋白等。与CTC、cfDNA相比,cfRNA作为癌症标志物至少有三个优势:首先是具有敏感性和功能性,RNA可以通过细胞外排机制进入细胞之外的环境中,因此,基于cfRNA的生物标志物不仅在癌症早期就有很多信号出现在病人血浆中,而且可以提供更多的功能学信息;其次RNA(包括人源和微生物源)的表达是有组织特异性的,因此,不同肿瘤中特异RNA表达谱的改变可以反映在血浆中;重要的是,针对识别癌症信号的cfRNA全转录组测序相对于cfDNA及其甲基化测序成本更低,对早筛早诊的普及更有利。
机器学习是人工智能的一个重要分支,它指的是数据分析以及有效模型的建立,这项技术在过去几年迅速发展,已经在一些生物医学领域得到了很好的应用,尤其是在疾病的诊断方面展现了良好的表现,因此也被视作未来医学发展的重要方向和辅助手段。目前cfRNA检测依赖于下一代测序得到大量的数据,由于测序技术的灵敏度高,数据特征多且庞大,因此将cfRNA测序与机器学习方法结合,可以更快、精准地找到诊断标志物和建立预测模型。
基于上述原理,本实施例中,设计出一种基于血浆中循环RNA全转录组测序的肺癌特征识别方法。参照图1,基于血浆中循环RNA全转录组测序的肺癌特征识别方法包括以下步骤:
S1.获取与非小细胞肺癌相关的cfRNA标志物信息;
S2.从cfRNA标志物信息中选择出顶级特征信息;
S3.根据顶级特征信息构建和训练预测模型;
S4.使用训练好的预测模型进行非小细胞肺癌特征识别。
在执行步骤S1时,可以从高通量测序数据库中获取多个cfRNA原始测序数据以及样本的临床信息表。这些cfRNA原始测序数据中,一些来自非小细胞肺癌患者,一些来自对照样本(未患有非小细胞肺癌的人),即分别对非小细胞肺癌患者和对照样本通过基于血浆中循环RNA全转录组测序得到。具体地,cfRNA原始测序数据中包括mRNA,lncRNA,microRNA等所有转录物的表达值。
本实施例中,cfRNA原始测序数据的格式可以表示为Di=(xi,yi),其中xi是描述cfRNA测序特征的文本向量,yi是分类标记,例如yi为1表示cfRNA原始测序数据来自非小细胞肺癌患者,yi为0表示cfRNA原始测序数据来自对照样本。
在执行步骤S1时,在获取到cfRNA原始测序数据之后,可以对cfRNA原始测序数据进行数据清理和数据比对,从而获得cfRNA标志物信息。
具体地,在对cfRNA原始测序数据进行数据清理和数据比对时,执行以下步骤:
S101.去除cfRNA原始测序数据中的reads 3’端的低质量碱基序列;
S102.在cfRNA原始测序数据中的reads的3’端查找并去除人为添加物;
S103.将经过数据清理后的cfRNA原始测序数据与人类参考基因组进行比对;
S104.对cfRNA原始测序数据去除PCR重复;
S105.量化cfRNA原始测序数据的RNA的丰度。
步骤S101中,首先,使用fasterq-dump(v.2.10)将SRA文件转换为FASTQ文件,并使用FastQC(v.0.11.9)检查数据质量。Illumina平台的测序数据,通常3‘端质量较差,然后使用TrimGalore(v.0.6.7)调用Cutadapt(v.4.0)去除reads 3’端的低质量碱基,过滤掉低质量的碱基之后。
步骤S102中,TrimGalore会调用Cutadapt在reads的3’端查找人为添加物并去除。
步骤S101-S102中,低质量碱基序列是指满足Quality Phred score cutoff≤20的碱基序列,人为添加物包括序列中加入的引物、接头等人工序列。
步骤S103中,使用STAR(v.2.7.10a)将clean reads(经过数据清理后的cfRNA原始测序数据)与人类参考基因组(GRCh38)进行比对,由于cfRNA文库构建的RNA起始量较低,建库过程中需要经过PCR扩增,但是PCR具有偏好性,这样会导致有的序列扩增的多,有的序列扩增的少。在总扩增倍数相同的基础上,就会导致一定的假阳性,因此步骤S104中,使用Samtools(v.1.15.1)去除PCR重复。最后在步骤S105中,通过HTSeq-count(v.2.0)量化RNA的丰度。
本实施例中,步骤S2是特征选择步骤。在执行步骤S2,也就是从cfRNA标志物信息中选择出顶级特征信息这一步骤时,具体可以执行以下步骤:
S201.使用偏最小二乘判别分析算法对cfRNA标志物信息进行选择,获得预测中的变量重要性;
S202.选择出对应的变量重要性大于临界值的cfRNA标志物信息,作为顶级特征信息。
步骤S201中,使用偏最小二乘判别分析(PLS-DA)对cfRNA标志物信息等特征进行选择,得到预测中的变量重要性(VIP)。步骤S202中,选择VIP得分大于临界值的cfRNA标志物信息作为顶级特征信息。
本实施例中,在执行步骤S3,也就是根据顶级特征信息构建和训练预测模型这一步骤时,具体可以执行以下步骤:
S301.对顶级特征信息组成的数据集进行多次划分,每次划分分别产生相应的训练集和测试集;
S302.建立多个预测模型;
S303.分别使用每个训练集训练相应的一个预测模型;
S304.分别使用每个测试集测试相应的一个预测模型;
S305.对测试完的各预测模型进行性能评估;
S306.保存性能评估指标符合要求的预测模型。
步骤S301中,在构建预测模型前,将顶级特征信息组成的数据集进行了100次随机划分,各次随机划分之间可以是相互独立的。在每次随机划分中,按照2:1随机划分为训练集和测试集,且训练集和测试集没有样本是重叠的,这样可以获得100组训练集和测试集。在每次随机划分中都记录相应的随机种子,以便后续可以重复该数据。为了避免因正负样本数量不平衡而产生偏倚,可以采用一种集成的方法进行划分,即通过下采样使得在逻辑回归/随机森林模型中的每一棵树的正负样本一致。
步骤S301中,在每次随机划分中采用PLS-DA基于训练集进行特征选择,然后在训练集上建立分类模型。为了使后续模型性能评估更接近真实情况。
步骤S302中,所建立以及训练的预测模型可以是逻辑回归模型(Logisticsregression)或者随机森林模型(Random forest)。由于本实施例中进行了100次随机划分,因此可以建立100个预测模型,100个预测模型可以全部为逻辑回归模型、全部为随机森林模型,或者部分为逻辑回归模型、部分为随机森林模型。每个预测模型都有相对应的一个训练集以及一个在同一次随机划分中所得到的测试集。在这100个预测模型中,每个模型的超参数都保持相同(例如任一随机森林模型的决策树的个数均为1000)。
步骤S303中,分别使用每个训练集训练相应的一个预测模型。具体地,可以以cfRNA标志物信息所包含的信息Di=(xi,yi)中的文本向量xi作为预测模型的输入,以分类标记yi作为预测模型的期望输出,根据预测模型的实际输出与期望输出之间的损失值,对预测模型的网络参数进行调整,从而对预测模型进行训练。
步骤S304中,对于任一个预测模型,使用训练预测模型所用的训练集对应的那一个测试集(通过同一次划分得到的测试集)对这个预测模型进行测试验证。若预测模型的实际输出与期望输出相同,则对预测模型的测试通过。
步骤S305中,对通过测试的各预测模型进行性能评估。具体地,根据各预测模型的输出结果生成该预测模型的ROC曲线。其中,以100次平均的ROC曲线下面积、特异性、灵敏度和准确性作为预测模型性能的评估指标。
步骤S306中,将性能评估指标符合要求的预测模型保存下来。根据每个特征对模型误差的平均减少程度,得到了每个模型特征对于该模型的重要性。之后可以在运行过程中实时的采集新的数据以不断修正模型结果。
本实施例中,在执行步骤S3,也就是根据顶级特征信息构建和训练预测模型这一步骤时,还可以执行以下步骤:
S307.对顶级特征信息组成的数据集进行重划分,获得独立验证集;
S308.使用独立验证集对预测模型进行验证,确定各顶级特征信息的重要性;
S309.根据对应的重要性,对各顶级特征信息进行排序;
S310.记录排在最前的若干个顶级特征信息的类型。
步骤S307中,可以在执行步骤S301的基础上,再次对顶级特征信息组成的数据集进行划分,从而产生一个不同于训练集和测试集的数据集,作为独立验证集。
步骤S308中,通过使用独立验证集对预测模型进行验证,从而确定各顶级特征信息的重要性。顶级特征信息的重要性可以定量地表示顶级特征信息对预测模型性能的贡献。
步骤S309中,根据对应的重要性,对各顶级特征信息进行排序。具体地,可以按照重要性从大到小的顺序对各顶级特征信息进行排序。
步骤S310中,记录排在最前的若干个顶级特征信息的类型,从而获得对预测模型性能的贡献最大的若干个顶级特征信息的类型。
通过执行步骤S307-S310,能够确定对预测模型性能的贡献最大的若干个顶级特征信息的类型。
本实施例中,经过步骤S1-S3训练的预测模型具有对cfRNA标志物信息进行识别处理,判断cfRNA标志物信息中是否包含能够确诊非小细胞肺癌的信息的性能。在执行步骤S4,也就是使用训练好的预测模型进行非小细胞肺癌特征识别时,可以获取疑似患者的cfRNA标志物信息,将cfRNA标志物信息输入至一个训练好的预测模型中进行处理,获取该预测模型输出的分类结果。预测模型输出的分类结果可以供医生查看并辅助判断,使得医生能够有更大的把握诊断非小细胞肺癌。
本实施例中,执行步骤S4时,可以将疑似患者的全部类型的cfRNA标志物信息都输入至一个训练好的预测模型中进行处理;在执行步骤S307-S310,确定了对预测模型性能的贡献最大的若干个顶级特征信息的类型的基础上,执行步骤S4时,也可以将疑似患者的与步骤S307-S310所确定的类型相同的若干个顶级特征信息输入至预测模型中进行处理。由于通过步骤S307-S310所确定的顶级特征信息的类型,都是对预测模型性能的贡献最大的顶级特征信息的类型,因此能够减少输入至预测模型中的数据量,而对预测模型的预测效果影响则小于输入至预测模型中的数据量的减小比例,从而达到减小数据处理量、提高识别速度等效果。
以下通过一个实例,对步骤S1-S4进行说明。
实例:基于非小细胞肺癌患者及健康人群的cfRNA测序结果构建肺癌的预测模型
1)从公共数据库NCBI Sequence Read Archive下载非小细胞肺癌患者外周血cfRNA的测序数据并进行样本清理和数据清理。下载的数据集有两个(PRJNA729258和PRJNA589238),分别包括35个NSCLC样本和46个正常对照,6个NSCLC样本和6个正常样本。
2)通过对第一个数据集(35个NSCLC样本和46个正常对照)按照2:1随机分组,三分之二是训练集(22个肺癌和27个正常样本)进行训练,其余用作测试集进行验证。对于每一次随机划分,采用PLS-DA方法分别选择VIP>1.5、1.5、1.7、1.7、1.8、1.9、2.0、2.1和2.2的训练集上的重要特征,然后生成平衡子抽样的逻辑回归/随机森林,重复进行该步骤100次。
3)根据计算得到的100个逻辑回归/随机森林的模型的结果(如表1所示),随着VIP截断量的增加,所选特征变少,导致分类性能下降。当VIP>1.9时,平均选择276个基因作为顶级特征信息。基于基因表达特征的逻辑回归模型,肺癌特征识别表现令人满意(图2中的a部分),平均AUC为0.882,敏感性为0.86,特异性为0.84。基于基因表达特征的随机森林模型,肺癌特征识别表现同样优秀(图2中的b部分),平均AUC为0.905,敏感性为0.87,特异性为0.88。参照图2,在交叉验证场景中,使用VIP>1.9进行特征选择的逻辑回归分类器(图2中的a部分)和随机森林分类器(图2中的b部分)的平均AUC曲线。图2中的b部分中的曲线下面积为AUC,横坐标为1-特异性,纵坐标为敏感性。随着特异性减小,敏感性逐渐增大。
4)最后,用第二个数据集作为独立验证集(6个肺癌和6个正常样本),基于第一个数据集进行特征选择和构建逻辑回归模型和随机森林分类模型,独立验证的结果见表1。当使用VIP>1.9时,从整个数据集PRJNA729258中选择的特征数为276个(包括219个mRNA,50个lncRNA,7个miRNA),逻辑回归模型的平均AUC为1,随机森林模型的平均AUC为0.861,逻辑回归模型的结果要比随机森林模型更优,因此可以优先选用逻辑回归模型作为预测模型。
最后,以随机森林模型为例,最终计算得到276种类型的顶级特征信息的重要性,并根据每个特征对随机森林模型性能的贡献从大到小进行排序(如表2所示)。
表1:逻辑回归(LR)/随机森林(RF)模型在交叉验证和独立检验中的性能
表2:276个顶级特征信息在随机森林模型中的重要性
注:Gene Symbol中“NA”指的是没有匹配到Ensembl_id。
本实施例实现的预测模型中,通过外周血循环RNA全转录组数据得到mRNA、lncRNA和microRNA等所有转录物的表达值,使用PLS-DA方法进行特征选择,最后采用逻辑回归算法或者随机森林算法建立分类模型,进而实现对非小细胞肺癌的早期预测。与现有技术相比,本实施例实现的预测模型的原理和优点在于:
由于癌症个体的异质性,某一种肿瘤变异事件只在群体中的一部分个体发生,因此关注几个或者多个生物标记物的方法不利于提高癌症的检出率。通过全转录组测序获得的cfRNA标志物信息中包含mRNA、lncRNA、microRNA等所有转录物信息,通过特征选择方法找出几百个生物标志物,并结合机器学习模型,可以辅助医生实现对非小细胞肺癌的精确诊断。对于在实体肿瘤中转录量大的基因,释放到外周血中的拷贝数会很多,有助于在肿瘤较小的早期癌症患者血液中识别出变异信息,提高诊断的敏感性。cfRNA全转录组测序相对于cfDNA及其甲基化测序成本更低,对早筛早诊的普及更有利。本实施例实现的预测模型具备自学习能力,所使用的逻辑回归模型或者随机森林模型会不断从新数据中学习,对模型进行修正,使得模型随着时间推进以及测序数据的质量提高,准确率越来越高。
可以通过编写执行本实施例中的基于血浆中循环RNA全转录组测序的肺癌特征识别方法的计算机程序,将该计算机程序写入至存储介质或者计算机装置中,当计算机程序被读取出来运行时,执行本实施例中的基于血浆中循环RNA全转录组测序的肺癌特征识别方法,从而实现与实施例中的基于血浆中循环RNA全转录组测序的肺癌特征识别方法相同的技术效果。
需要说明的是,如无特殊说明,当某一特征被称为“固定”、“连接”在另一个特征,它可以直接固定、连接在另一个特征上,也可以间接地固定、连接在另一个特征上。此外,本公开中所使用的上、下、左、右等描述仅仅是相对于附图中本公开各组成部分的相互位置关系来说的。在本公开中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。此外,除非另有定义,本实施例所使用的所有的技术和科学术语与本技术领域的技术人员通常理解的含义相同。本实施例说明书中所使用的术语只是为了描述具体的实施例,而不是为了限制本发明。本实施例所使用的术语“和/或”包括一个或多个相关的所列项目的任意的组合。
应当理解,尽管在本公开可能采用术语第一、第二、第三等来描述各种元件,但这些元件不应限于这些术语。这些术语仅用来将同一类型的元件彼此区分开。例如,在不脱离本公开范围的情况下,第一元件也可以被称为第二元件,类似地,第二元件也可以被称为第一元件。本实施例所提供的任何以及所有实例或示例性语言(“例如”、“如”等)的使用仅意图更好地说明本发明的实施例,并且除非另外要求,否则不会对本发明的范围施加限制。
应当认识到,本发明的实施例可以由计算机硬件、硬件和软件的组合、或者通过存储在非暂时性计算机可读存储器中的计算机指令来实现或实施。所述方法可以使用标准编程技术-包括配置有计算机程序的非暂时性计算机可读存储介质在计算机程序中实现,其中如此配置的存储介质使得计算机以特定和预定义的方式操作——根据在具体实施例中描述的方法和附图。每个程序可以以高级过程或面向对象的编程语言来实现以与计算机系统通信。然而,若需要,该程序可以以汇编或机器语言实现。在任何情况下,该语言可以是编译或解释的语言。此外,为此目的该程序能够在编程的专用集成电路上运行。
此外,可按任何合适的顺序来执行本实施例描述的过程的操作,除非本实施例另外指示或以其他方式明显地与上下文矛盾。本实施例描述的过程(或变型和/或其组合)可在配置有可执行指令的一个或多个计算机系统的控制下执行,并且可作为共同地在一个或多个处理器上执行的代码(例如,可执行指令、一个或多个计算机程序或一个或多个应用)、由硬件或其组合来实现。所述计算机程序包括可由一个或多个处理器执行的多个指令。
进一步,所述方法可以在可操作地连接至合适的任何类型的计算平台中实现,包括但不限于个人电脑、迷你计算机、主框架、工作站、网络或分布式计算环境、单独的或集成的计算机平台、或者与带电粒子工具或其它成像装置通信等等。本发明的各方面可以以存储在非暂时性存储介质或设备上的机器可读代码来实现,无论是可移动的还是集成至计算平台,如硬盘、光学读取和/或写入存储介质、RAM、ROM等,使得其可由可编程计算机读取,当存储介质或设备由计算机读取时可用于配置和操作计算机以执行在此所描述的过程。此外,机器可读代码,或其部分可以通过有线或无线网络传输。当此类媒体包括结合微处理器或其他数据处理器实现上文所述步骤的指令或程序时,本实施例所述的发明包括这些和其他不同类型的非暂时性计算机可读存储介质。当根据本发明所述的方法和技术编程时,本发明还包括计算机本身。
计算机程序能够应用于输入数据以执行本实施例所述的功能,从而转换输入数据以生成存储至非易失性存储器的输出数据。输出信息还可以应用于一个或多个输出设备如显示器。在本发明优选的实施例中,转换的数据表示物理和有形的对象,包括显示器上产生的物理和有形对象的特定视觉描绘。
以上所述,只是本发明的较佳实施例而已,本发明并不局限于上述实施方式,只要其以相同的手段达到本发明的技术效果,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。在本发明的保护范围内其技术方案和/或实施方式可以有各种不同的修改和变化。
Claims (10)
1.一种基于血浆中循环RNA全转录组测序的肺癌特征识别方法,其特征在于,所述基于血浆中循环RNA全转录组测序的肺癌特征识别方法包括:
获取与非小细胞肺癌相关的cfRNA标志物信息;所述cfRNA标志物信息通过基于血浆中循环RNA全转录组测序得到;
从所述cfRNA标志物信息中选择出顶级特征信息;
根据所述顶级特征信息构建和训练预测模型;
使用训练好的所述预测模型进行非小细胞肺癌特征识别。
2.根据权利要求1所述的基于血浆中循环RNA全转录组测序的肺癌特征识别方法,其特征在于,所述获取与非小细胞肺癌相关的cfRNA标志物信息,包括:
从高通量测序数据库中获取cfRNA原始测序数据;所述cfRNA原始测序数据来自非小细胞肺癌患者和对照样本;
对所述cfRNA原始测序数据进行数据清理和数据比对,获得所述cfRNA标志物信息。
3.根据权利要求2所述的基于血浆中循环RNA全转录组测序的肺癌特征识别方法,其特征在于,所述数据清理,包括:
去除所述cfRNA原始测序数据中的reads 3’端的低质量碱基序列;所述低质量碱基序列包括满足Quality Phred score cutoff≤20的碱基序列;
在所述cfRNA原始测序数据中的reads的3’端查找并去除人为添加物;所述人为添加物包括序列中加入的引物和接头。
4.根据权利要求2所述的基于血浆中循环RNA全转录组测序的肺癌特征识别方法,其特征在于,所述数据比对,包括:
将经过数据清理后的所述cfRNA原始测序数据与人类参考基因组进行比对;
对所述cfRNA原始测序数据去除PCR重复;
量化所述cfRNA原始测序数据的RNA的丰度。
5.根据权利要求1所述的基于血浆中循环RNA全转录组测序的肺癌特征识别方法,其特征在于,所述从所述cfRNA标志物信息中选择出顶级特征信息,包括:
使用偏最小二乘判别分析算法对所述cfRNA标志物信息进行选择,获得预测中的变量重要性;
选择出对应的所述变量重要性大于临界值的所述cfRNA标志物信息,作为所述顶级特征信息。
6.根据权利要求1-5任一项所述的基于血浆中循环RNA全转录组测序的肺癌特征识别方法,其特征在于,所述根据所述顶级特征信息构建和训练预测模型,包括:
对所述顶级特征信息组成的数据集进行多次划分,每次划分分别产生相应的训练集和测试集;同一次划分所得的所述训练集和测试集之间不重叠;
建立多个预测模型;各所述预测模型与各所述训练集之间一一对应;
分别使用每个所述训练集训练相应的一个所述预测模型;
分别使用每个所述测试集测试相应的一个所述预测模型;
对测试完的各所述预测模型进行性能评估;
保存性能评估指标符合要求的所述预测模型。
7.根据权利要求6所述的基于血浆中循环RNA全转录组测序的肺癌特征识别方法,其特征在于,所述预测模型为逻辑回归模型或者随机森林模型。
8.根据权利要求7所述的基于血浆中循环RNA全转录组测序的肺癌特征识别方法,其特征在于,所述根据所述顶级特征信息构建和训练预测模型,还包括:
对所述顶级特征信息组成的数据集进行重划分,获得独立验证集;
使用所述独立验证集对所述预测模型进行验证,确定各所述顶级特征信息的重要性;
根据对应的重要性,对各所述顶级特征信息进行排序;
记录排在最前的若干个所述顶级特征信息的类型。
9.一种计算机装置,其特征在于,包括存储器和处理器,所述存储器用于存储至少一个程序,所述处理器用于加载所述至少一个程序以执行权利要求1-8任一项所述的基于血浆中循环RNA全转录组测序的肺癌特征识别方法。
10.一种计算机可读存储介质,其中存储有处理器可执行的程序,其特征在于,所述处理器可执行的程序在由处理器执行时用于执行权利要求1-8任一项所述的基于血浆中循环RNA全转录组测序的肺癌特征识别方法。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN202310248153.7A CN116312800A (zh) | 2023-03-08 | 2023-03-08 | 一种基于血浆中循环rna全转录组测序的肺癌特征识别方法、装置和存储介质 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN202310248153.7A CN116312800A (zh) | 2023-03-08 | 2023-03-08 | 一种基于血浆中循环rna全转录组测序的肺癌特征识别方法、装置和存储介质 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| CN116312800A true CN116312800A (zh) | 2023-06-23 |
Family
ID=86835586
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| CN202310248153.7A Pending CN116312800A (zh) | 2023-03-08 | 2023-03-08 | 一种基于血浆中循环rna全转录组测序的肺癌特征识别方法、装置和存储介质 |
Country Status (1)
| Country | Link |
|---|---|
| CN (1) | CN116312800A (zh) |
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN116825177A (zh) * | 2023-06-28 | 2023-09-29 | 北京津渡生科科技有限公司 | 基于统计学与随机森林的游离rna肝癌早筛方法及系统 |
Citations (9)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN108949979A (zh) * | 2018-07-11 | 2018-12-07 | 深圳市海普洛斯生物科技有限公司 | 一种通过血液样本判断肺结节良恶性的方法 |
| TW201918560A (zh) * | 2017-11-07 | 2019-05-16 | 美商南托米克斯有限責任公司 | 一種用於檢測、預測和監測癌症的循環rna |
| US20190221316A1 (en) * | 2017-04-04 | 2019-07-18 | Lung Cancer Proteomics, Llc | Plasma based protein profiling for early stage lung cancer prognosis |
| CN112292697A (zh) * | 2018-04-13 | 2021-01-29 | 弗里诺姆控股股份有限公司 | 用于生物样品的多分析物测定的机器学习实施方式 |
| CN113160889A (zh) * | 2021-01-28 | 2021-07-23 | 清华大学 | 一种基于cfDNA组学特性的癌症无创早筛方法 |
| CN113913333A (zh) * | 2021-10-20 | 2022-01-11 | 南京世和基因生物技术股份有限公司 | 一种肺癌诊断标志物及用途 |
| CN114141303A (zh) * | 2020-09-03 | 2022-03-04 | 福建和瑞基因科技有限公司 | 一种肺癌筛查模型的构建方法以及肺癌筛查的试剂盒 |
| CN114736968A (zh) * | 2022-06-13 | 2022-07-12 | 南京世和医疗器械有限公司 | 血浆游离dna甲基化标志物在肺癌早筛中的用途以及肺癌早筛装置 |
| CN115698321A (zh) * | 2020-06-16 | 2023-02-03 | 格里尔公司 | 用于血浆游离rna分析的多种方法 |
-
2023
- 2023-03-08 CN CN202310248153.7A patent/CN116312800A/zh active Pending
Patent Citations (9)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US20190221316A1 (en) * | 2017-04-04 | 2019-07-18 | Lung Cancer Proteomics, Llc | Plasma based protein profiling for early stage lung cancer prognosis |
| TW201918560A (zh) * | 2017-11-07 | 2019-05-16 | 美商南托米克斯有限責任公司 | 一種用於檢測、預測和監測癌症的循環rna |
| CN112292697A (zh) * | 2018-04-13 | 2021-01-29 | 弗里诺姆控股股份有限公司 | 用于生物样品的多分析物测定的机器学习实施方式 |
| CN108949979A (zh) * | 2018-07-11 | 2018-12-07 | 深圳市海普洛斯生物科技有限公司 | 一种通过血液样本判断肺结节良恶性的方法 |
| CN115698321A (zh) * | 2020-06-16 | 2023-02-03 | 格里尔公司 | 用于血浆游离rna分析的多种方法 |
| CN114141303A (zh) * | 2020-09-03 | 2022-03-04 | 福建和瑞基因科技有限公司 | 一种肺癌筛查模型的构建方法以及肺癌筛查的试剂盒 |
| CN113160889A (zh) * | 2021-01-28 | 2021-07-23 | 清华大学 | 一种基于cfDNA组学特性的癌症无创早筛方法 |
| CN113913333A (zh) * | 2021-10-20 | 2022-01-11 | 南京世和基因生物技术股份有限公司 | 一种肺癌诊断标志物及用途 |
| CN114736968A (zh) * | 2022-06-13 | 2022-07-12 | 南京世和医疗器械有限公司 | 血浆游离dna甲基化标志物在肺癌早筛中的用途以及肺癌早筛装置 |
Non-Patent Citations (1)
| Title |
|---|
| 李亚琼: "基于优化的偏最小二乘—判别分析和核磁共振波谱的肺癌血清代谢组学研究", 《中国优秀硕士学位论文全文数据库》, 15 September 2014 (2014-09-15) * |
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN116825177A (zh) * | 2023-06-28 | 2023-09-29 | 北京津渡生科科技有限公司 | 基于统计学与随机森林的游离rna肝癌早筛方法及系统 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US20240079092A1 (en) | Systems and methods for deriving and optimizing classifiers from multiple datasets | |
| Yap et al. | Verifying explainability of a deep learning tissue classifier trained on RNA-seq data | |
| EP4073805A1 (en) | Systems and methods for predicting homologous recombination deficiency status of a specimen | |
| Ahmed et al. | Early detection of Alzheimer's disease using single nucleotide polymorphisms analysis based on gradient boosting tree | |
| US20220275455A1 (en) | Data processing and classification for determining a likelihood score for breast disease | |
| CN117616505A (zh) | 用于使用指纹分析将化合物与生理状况相关联的系统和方法 | |
| CN111748632A (zh) | 一种特征lincRNA表达谱组合及肝癌早期预测方法 | |
| EP4326906A1 (en) | Analysis of fragment ends in dna | |
| Lai et al. | Screening model for bladder cancer early detection with serum miRnas based on machine learning: a mixed‐cohort study based on 16,189 participants | |
| JP7805453B2 (ja) | 細胞遊離核酸断片の位置別配列頻度及びサイズを用いたがん診断方法{Method for detecting cancer using fragment end sequence frequency and size by position of cell-free nucleic acid} | |
| CN111748634A (zh) | 一种特征lincRNA表达谱组合及结肠癌的早期预测方法 | |
| CN116312800A (zh) | 一种基于血浆中循环rna全转录组测序的肺癌特征识别方法、装置和存储介质 | |
| US20220259657A1 (en) | Method for discovering marker for predicting risk of depression or suicide using multi-omics analysis, marker for predicting risk of depression or suicide, and method for predicting risk of depression or suicide using multi-omics analysis | |
| JP2024535736A (ja) | がん関連微生物バイオマーカーを特定する方法 | |
| CN120199322A (zh) | 基于转录组和瘤内微生物的方法、模型 | |
| JP2024500881A (ja) | 微生物核酸および体細胞変異を用いたタキソノミー独立型の癌診断および分類 | |
| CN110428897B (zh) | 基于snp致病因素与疾病关联关系的疾病诊断信息处理方法 | |
| CN111763738A (zh) | 一种特征mRNA表达谱组合及肝癌早期预测方法 | |
| CN111944900A (zh) | 一种特征lincRNA表达谱组合及子宫内膜癌早期预测方法 | |
| CN111944902A (zh) | 一种基于lincRNA表达谱组合特征的肾乳头状细胞癌早期预测方法 | |
| Hobbs et al. | Biostatistics and bioinformatics in clinical trials | |
| JP2024537916A (ja) | メチル化された細胞遊離dnaを用いた癌種診断及び癌種予測方法 | |
| EP4388136A1 (en) | Methods for characterizing infections and methods for developing tests for the same | |
| CN120536571B (zh) | 基于基因标志物组合诊断或预测阿尔茨海默症的系统、设备或介质 | |
| Kariotis | Unsupervised machine learning of high dimensional data for patient stratification |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| PB01 | Publication | ||
| PB01 | Publication | ||
| SE01 | Entry into force of request for substantive examination | ||
| SE01 | Entry into force of request for substantive examination |