[go: up one dir, main page]

CN111370056B - 确定待测样本预定染色体不稳定指数的方法、系统和计算机可读介质 - Google Patents

确定待测样本预定染色体不稳定指数的方法、系统和计算机可读介质 Download PDF

Info

Publication number
CN111370056B
CN111370056B CN201910428251.2A CN201910428251A CN111370056B CN 111370056 B CN111370056 B CN 111370056B CN 201910428251 A CN201910428251 A CN 201910428251A CN 111370056 B CN111370056 B CN 111370056B
Authority
CN
China
Prior art keywords
window
sequence
sample
abnormal
window sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910428251.2A
Other languages
English (en)
Other versions
CN111370056A (zh
Inventor
李世勇
茅矛
张锋
陈彦
钟果林
张岩
陈灏
封裕敏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Siqin Medical Technology Co ltd
Original Assignee
Shenzhen Siqin Medical Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Siqin Medical Technology Co ltd filed Critical Shenzhen Siqin Medical Technology Co ltd
Priority to CN201910428251.2A priority Critical patent/CN111370056B/zh
Publication of CN111370056A publication Critical patent/CN111370056A/zh
Application granted granted Critical
Publication of CN111370056B publication Critical patent/CN111370056B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B35/00ICT specially adapted for in silico combinatorial libraries of nucleic acids, proteins or peptides
    • G16B35/10Design of libraries

Landscapes

  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Chemical & Material Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Theoretical Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Analytical Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Molecular Biology (AREA)
  • Library & Information Science (AREA)
  • Genetics & Genomics (AREA)
  • Biochemistry (AREA)
  • Investigating Or Analysing Biological Materials (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明提出了确定待测样本预定染色体不稳定指数的方法。该方法包括:(1)划分窗口序列(bins);(2)与所述参考序列;(3)统计bins中每一个的匹配测序读段数目;(4)对每个bins的匹配测序读段数目进行过滤,标准化,校正处理;(5)对步骤(4)所获得的结果进行取对数处理,以便获得每个bins的测序读段数目的对数值log R ratio;(6)确定第一预选异常窗口序列;(7)确定第二预选异常窗口序列;(8)确定异常窗口序列;(9)确定所述异常窗口序列的每一个拷贝数变异发生频率;(10)确定所述待测样本针对所述预定染色体的不稳定指数。

Description

确定待测样本预定染色体不稳定指数的方法、系统和计算机 可读介质
技术领域
本发明涉及生物信息领域,具体地,本发明涉及确定待测样本预定染色体不稳定指数的方法、系统和计算机可读介质。
背景技术
癌症会引起基因组的某些区域的扩增或缺失,30%的癌症患者会引起人的染色体加倍。那么染色体扩增或缺失的比率是否与癌症具有相关性,又或者说,通过染色体扩增或缺失的比率,是否可推知样本来源于癌症机体的概率?
这是科研工作者亟待解决的问题。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。为此,本发明创新性的开发了“染色体不稳定指数chromosome instability(CIN)score”的计算法,以用来衡量样本预定染色体的不稳定性。
基于此,在本发明的第一方面,本发明提出了确定待测样本预定染色体不稳定指数的方法。根据本发明的实施例,所述方法包括:(1)将所述预定染色体的参考序列划分为多个相同长度的窗口序列(bins);(2)将来自所述待测样本的测序数据与所述参考序列进行比对,所述测序数据由多个测序读段(reads)构成;(3)基于步骤(2)的比对结果,分别统计所述多个窗口序列每一个的匹配测序读段数目;(4)基于步骤(3)的统计结果,对每个窗口的匹配测序读段数目进行过滤,标准化,校正处理;(5)对步骤(4)所获得的标准化和校正后的每个窗口的匹配测序读段数目进行取对数处理,以便获得每个窗口的测序读段数目的对数值logR ratio;(6)对步骤(5)所获得的logR ratio进行平滑处理,并将窗口进行合并和CNV片段化处理,确定第一预选异常窗口序列;(7)基于标准化和校正后的每个窗口的匹配测序读段数目,获得每个窗口的匹配测序读段数目的标准分数,确定第二预选异常窗口序列;(8)基于(6)或(7)确定的第一预选异常窗口序列或第二预选异常窗口序列,确定异常窗口序列;(9)基于已知的肿瘤数据库,确定所述异常窗口序列的每一个拷贝数变异发生频率;(10)基于多个所述异常窗口序列的每一个的所述匹配测序读段数目、所述拷贝数变异发生频率、所述窗口序列的长度以及预定的常规参数,确定所述待测样本针对所述预定染色体的不稳定指数。其中,本领域技术人员可以理解的是,所述logR ratio是通过先将每个窗口的匹配测序读段数目标准化、校正化后,除以正常参考样本对应的拷贝数(如人是二倍体,所以正常参考样本对应的拷贝数是2)后,再将每个窗口的匹配测序读段数目取对数获得的。利用根据本发明实施例的方法,获得待测样本针对所述预定染色体的不稳定指数后,可获知待测样本来源于癌症样本的概率,进而为科学研究提供检测指标,如在筛选癌症治疗药物或探知个体患癌原因的研究中,可通过待测样本针对所述预定染色体在给药前后或给与干扰因素前后的不稳定指数的变化,筛选可用于癌症治疗的可靠药物或探知个体患癌的可能影响因素;又或者,利用根据本发明实施例的方法,获得待测样本针对所述预定染色体的不稳定指数后,可获知待测样本来源于癌症样本的概率,提供癌症检测的指标。
根据本发明的实施例,上述方法还可以进一步包括如下附加技术特征至少之一:
根据本发明的实施例,所述待测样本来源于疑似癌症患者。
根据本发明的实施例,所述待测样本为血液、体液、尿液、唾液或皮肤。
根据本发明的实施例,所述窗口序列的长度为1M,50K,20K,10K或5K。
根据本发明的实施例,测序数据是通过对血浆游离的DNA进行全基因组建库后,使用二代测序仪测序获得的,平均测序深度为小于1X,2X,3X,4X或5X。
所述二代测序仪的种类不受特别限制,根据本发明的具体实施例,所述二代测序仪为XTen、NovaSeq或NextSeq500。
根据本发明的实施例,在步骤(4)中,所述过滤包括过滤掉具有以下特征的测序读段:
1)比对率(mappability):表示测序获得的reads唯一正确比对上该区域的概率>0.5;;
2)每个bins里面N(非碱基A,T,C,G)的比例<0.5;
3)不在从UCSC上下载的region文件wgEncodeDacMapabilityConsensusExcludable.bed和wgEncodeDukeMapabilityRegionsExcludable.bed中;
4)X,Y染色体;
5)使用正常参考集合,计算出样本间标准化(除以样本的median)后的大于4倍标准差的bins。
根据本发明的实施例,在步骤(4)中,所述匹配测序读段数据是经过GC和比对率矫正后获得的。
根据本发明的具体实施例,所述GC矫正和对比率矫正是通过如下方式进行的:
1)GC计算:统计每个窗口(bin)内A,T,C,G碱基的数量;以及G和C的数量。GC所占的比值,为该窗口的GC含量。
2)Mappability计算:根据从UCSC下载的ENCODE’s mappability bigwig文件,将文件中的每个region的mappability与bin比较,计算出每个bin里面所有region的mappability的平均值,作为该bin的mappability值。
3)过滤掉reads数目异常的bins,保留1%-99%分位数的bins;
4)将每个bin的GC和mappability组合,并按照它们的组合进行分组,同时计算每个GC和mappability组合对应所有bins的reads数目中位数。
5)使用交叉验证的方法,确定局部加权非参数回归参数的最优值;构建拟合曲线,最后用每个bins的标准化后的深度除以曲线预测的值,得到校正后的值。
根据本发明的实施例,在步骤(6)中,进行平滑处理并将窗口进行合并和CNV片段化处理后的logRratio大于0.1或小于-0.1,是该logRratio所对应的窗口为第一预选异常窗口序列的指示。
本发明的实施例,在步骤(7)中,基于下列公式确定第二预选异常窗口序列:
zi=(xi-μi)/σi
其中,xi表示校正后的来自所述待测样本的第i个窗口序列的测序数据与第i个窗口参考序列匹配的匹配测序读段数目;
μi表示校正后的预先确定的来自多个参考集样本的第i个窗口序列的测序数据与第i个窗口参考序列匹配的匹配测序读段数目的平均值;
σi表示预先确定的来自多个参考集样本的第i个窗口序列的测序数据与第i个窗口参考序列匹配的匹配测序读段数目的标准方差;
zi表示每个窗口的匹配测序读段数目的标准分数(z-score);
所述参考集为已知正常人群样本。
根据本发明的实施例,zi大于3或小于-3是所述待测样本的第i个窗口序列为异常窗口序列的指示。
根据本发明的实施例,在步骤(8)中,logRratio大于0.1或小于-0.1和/或zi大于3或小于-3,是窗口为异常窗口序列的指示。
根据本发明的实施例,步骤(9)中,通过下列公式确定所述待测样本针对所述预定染色体的不稳定指数CIN score,
进而,通过下列公式,计算染色体的不稳定指数CIN score,
Figure GDA0002757076870000031
Figure GDA0002757076870000032
其中,n表示总的所述窗口序列的数目;
a表示预定的恒定常数,即窗口大小,与窗口大小有关;
lk表示第k个异常窗口的长度;
fk表示第k个异常窗口序列发生CNV的概率;
abs(Z-score)表示第k个窗口的标准分数的绝对值;
abs(logR)表示平滑处理后的第k个窗口的logR ratio的绝对值。
根据本发明的实施例,所述第k个异常窗口序列发生CNV的频率是基于WGS肿瘤样本的CNV变异结果确定的,其中,在所述WGS肿瘤样本中,第k个异常窗口序列区间与所述肿瘤样本的CNV变异区域的重叠区域占第k个异常窗口序列区间的90%以上,是所述第k个异常窗口序列区间在所述肿瘤样本中存在CNV的指示,所述fk是包含第k个异常窗口序列区间的癌症样本的数目与所述癌症样本总数目的比值。
根据本发明的实施例,进一步包括基于多个已知状态的样本以及所述待测样本的CIN score和/或标准分数,确定所述待测样本的癌症概率。
根据本发明的具体实施例,基于已知正常样本的CIN score作为基线数据,构建CIN score的正态分布,获得CIN score的正态分布的均值和标准差,所述待测样本的CINscore对应的p-value小于0.01,是待测样本来源于癌症样本的指示,进而为相关的科学研究或癌症检测提供检测指标。
在本发明的第二方面,本发明提出了一种计算机可读介质。根据本发明的实施例,所述计算机可读介质中存储有指令,所述指令被适于处理执行以便通过下列步骤确定待测样本预定染色体不稳定指数,(1)将所述预定染色体的参考序列划分为多个相同长度的窗口序列(bins);(2)将来自所述待测样本的测序数据与所述参考序列进行比对,所述测序数据由多个测序读段(reads)构成;(3)基于步骤(2)的比对结果,分别统计所述多个窗口序列每一个的匹配测序读段数目;(4)基于步骤(3)的统计结果,对每个窗口的匹配测序读段数目进行过滤,标准化,校正处理;(5)对步骤(4)所获得的标准化和校正后的每个窗口的匹配测序读段数目进行取对数处理,以便获得每个窗口的测序读段数目的对数值logRratio;(6)对步骤(5)所获得的logRratio进行平滑处理,并将窗口进行合并和CNV片段化处理,确定第一预选异常窗口序列;(7)基于标准化和校正后的每个窗口的匹配测序读段数目,获得每个窗口的匹配测序读段数目的标准分数,确定第二预选异常窗口序列;(8)基于(6)或(7)确定的第一预选异常窗口序列或第二预选异常窗口序列,确定异常窗口序列;(9)基于已知的肿瘤数据库,确定所述异常窗口序列的每一个拷贝数变异发生频率;(10)基于多个所述异常窗口序列的每一个的所述匹配测序读段数目、所述拷贝数变异发生频率、所述窗口序列的长度以及预定的常规参数,确定所述待测样本针对所述预定染色体的不稳定指数。利用根据本发明实施例的计算机可读介质,可获得待测样本针对所述预定染色体的不稳定指数后,获知待测样本来源于癌症样本的概率,进而为科学研究提供检测指标或提供癌症检测的指标。
在本发明的第三方面,提出了一种确定待测样本预定染色体不稳定指数的系统。根据本发明的实施例,所述系统包括:划分窗口装置,所述划分窗口装置适于将所述预定染色体的参考序列划分为多个相同长度的窗口序列(bins);比对装置,所述比对装置与所述划分窗口装置相连,适于将来自所述待测样本的测序数据与所述参考序列进行比对,所述测序数据由多个测序读段(reads)构成;统计装置,所述统计装置与所述比对装置相连,适于基于所述比对装置所获得的比对结果,分别统计所述多个窗口序列每一个的匹配测序读段数目;校正装置,所述校正装置与所述统计装置相连,适于基于所述统计装置所获得的统计结果,对每个窗口的匹配测序读段数目进行过滤,标准化,校正处理;取对数装置,所述取对数装置与所述校正装置相连,适于对所述校正装置所获得的标准化和校正后的每个窗口的匹配测序读段数目进行取对数处理,以便获得每个窗口的测序读段数目的对数值logRratio;第一预选异常窗口序列确定装置,所述第一预选异常窗口序列确定装置与所述取对数装置相连,适于对取对数装置所获得的logR ratio进行平滑处理,并将窗口进行合并和CNV片段化处理,确定第一预选异常窗口序列;第二预选异常窗口序列确定装置,所述第二预选异常窗口序列确定装置与所述校正装置相连,适于基于标准化和校正后的每个窗口的匹配测序读段数目,获得每个窗口的匹配测序读段数目的标准分数,确定第二预选异常窗口序列;异常窗口序列确定装置,所述异常窗口序列确定装置与所述第一预选异常窗口序列确定装置和所述第二预选异常窗口序列确定装置相连,适于基于第一预选异常窗口序列确定装置或第二预选异常窗口序列确定装置确定的第一预选异常窗口序列或第二预选异常窗口序列,确定异常窗口序列;拷贝数变异发生频率确定装置,所述拷贝数变异发生频率确定装置与所述异常窗口序列确定装置相邻,适于基于已知的肿瘤数据库,确定所述异常窗口序列的每一个拷贝数变异发生频率;不稳定指数确定装置,所述不稳定指数确定装置与所述拷贝数变异发生频率确定装置相连,适于基于多个所述异常窗口序列的每一个的所述匹配测序读段数目、所述拷贝数变异发生频率、所述窗口序列的长度以及预定的常规参数,确定所述待测样本针对所述预定染色体的不稳定指数。根据本发明实施例的确定待测样本预定染色体不稳定指数的系统适于执行上述定待测样本预定染色体不稳定指数的方法,进而通过所获得的待测样本预定染色体不稳定指数,确定待测样本来源于癌症样本的概率,进而为科学研究提供检测指标或提供癌症检测的指标。
需要说明的是,本领域技术人员能够理解,在前面所描述的确定待测样本预定染色体不稳定指数的方法的特征和优点也适合于计算机可读介质和确定待测样本预定染色体不稳定指数的系统,为描述方便,不再详述。
附图说明
图1是根据本发明实施例的确定待测样本预定染色体不稳定指数的系统的结构示意图;
图2是根据本发明实施例的确定待测样本预定染色体不稳定指数的系统的又一结构示意图;
图3是根据本发明实施例的窗口区间选取大小的示例图;
图4是根据本发明实施例的测序读段数据的GC分布图(将bins按照GC%分组,不同GC百分比下bins对应的频率);
图5是根据本发明实施例的CIN score的正态分布图;
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
为了描述方便,本发明所提出的确定待测样本预定染色体不稳定指数的系统的结构示意图可参考图1。根据本发明的实施例,所述系统包括:
划分窗口装置100,所述划分窗口装置100适于将所述预定染色体的参考序列划分为多个相同长度的窗口序列bins;
比对装置200,所述比对装置200与所述划分窗口装置100相连,适于将来自所述待测样本的测序数据与所述参考序列进行比对,所述测序数据由多个测序读段reads构成;
统计装置300,所述统计装置300与所述比对装置200相连,适于基于所述比对装置所获得的比对结果,分别统计所述多个窗口序列每一个的匹配测序读段数目;
校正装置400,所述校正装置400与所述统计装置300相连,适于基于所述统计装置所获得的统计结果,对每个窗口的匹配测序读段数目进行过滤,标准化,校正处理,可选地,匹配测序读段数据是经过GC和比对率矫正后获得;
取对数装置500,所述取对数装置500与所述校正装置400相连,适于对所述校正装置所获得的标准化和校正后的每个窗口的匹配测序读段数目进行取对数处理,以便获得每个窗口的测序读段数目的对数值logRratio;
第一预选异常窗口序列确定装置600,所述第一预选异常窗口序列确定装置600与所述取对数装置500相连,适于对取对数装置所获得的logRratio进行平滑处理,并将窗口进行合并和CNV片段化处理,确定第一预选异常窗口序列,
可选地,进行平滑处理并将窗口进行合并和CNV片段化处理后的logRratio大于0.1或小于-0.1,是该logRratio所对应的窗口为第一预选异常窗口序列的指示;
第二预选异常窗口序列确定装置700,所述第二预选异常窗口序列确定装置700与所述校正装置500相连,适于基于标准化和校正后的每个窗口的匹配测序读段数目,获得每个窗口的匹配测序读段数目的标准分数,确定第二预选异常窗口序列,
可选地,基于下列公式确定第二预选异常窗口序列:
zi=(xi-μi)/σi
其中,xi表示校正后的来自所述待测样本的第i个窗口序列的测序数据与第i个窗口参考序列匹配的匹配测序读段数目;
μi表示校正后的预先确定的来自多个参考集样本的第i个窗口序列的测序数据与第i个窗口参考序列匹配的匹配测序读段数目的平均值;
σi表示预先确定的来自多个参考集样本的第i个窗口序列的测序数据与第i个窗口参考序列匹配的匹配测序读段数目的标准方差;
zi表示每个窗口的匹配测序读段数目的标准分数;
所述参考集为已知正常人群样本;
其中,zi大于3或小于-3是所述待测样本的第i个窗口序列为第二预选异常窗口序列的指示;
异常窗口序列确定装置800,所述异常窗口序列确定装置800与所述第一预选异常窗口序列确定装置600和所述第二预选异常窗口序列确定装置700相连,适于基于第一预选异常窗口序列确定装置或第二预选异常窗口序列确定装置确定的第一预选异常窗口序列或第二预选异常窗口序列,确定异常窗口序列;
拷贝数变异发生频率确定装置900,所述拷贝数变异发生频率确定装置900与所述异常窗口序列确定装置800相邻,适于基于已知的肿瘤数据库,确定所述异常窗口序列的每一个拷贝数变异发生频率;
不稳定指数确定装置1000,所述不稳定指数确定装置1000与所述拷贝数变异发生频率确定装置900相连,适于基于多个所述异常窗口序列的每一个的所述匹配测序读段数目、所述拷贝数变异发生频率、所述窗口序列的长度以及预定的常规参数,确定所述待测样本针对所述预定染色体的不稳定指数,
可选地,通过下列公式确定所述待测样本针对所述预定染色体的不稳定指数CINscore,
Figure GDA0002757076870000071
Figure GDA0002757076870000072
其中,n表示总的所述窗口序列的数目;
a表示预定的恒定常数,与窗口大小有关;
lk表示第k个异常窗口的长度;
fk表示第k个异常窗口序列发生CNV的概率;
abs(Z-score)表示第k个窗口的标准分数的绝对值;
abs(logR)表示平滑处理后的第k个窗口的logR ratio的绝对值;
所述第k个异常窗口序列发生CNV的频率是基于WGS肿瘤样本的CNV变异结果确定的,其中,在所述WGS肿瘤样本中,第k个异常窗口序列区间与所述肿瘤样本的CNV变异区域的重叠区域占第k个异常窗口序列区间的90%以上,是所述第k个异常窗口序列区间在所述肿瘤样本中存在CNV的指示,所述fk是包含第k个异常窗口序列区间的癌症样本的数目与所述癌症样本总数目的比值。
具体地,所述待测样本来源于疑似癌症患者。
具体地,所述待测样本为血液、体液、尿液、唾液或皮肤。
具体地,测序数据是通过对血浆游离的DNA进行全基因组建库后,使用二代测序仪测序获得的,平均测序深度为小于1X,2X,3X,4X或5X。
具体地,所述二代测序仪为XTen、NovaSeq或NextSeq500。
具体地,确定述窗口序列的长度为:1M,50K,20K,10K或5K。
根据本发明的再一具体实施例,参考图2,所述系统进一步包括:癌症概率确定装置1100,所述癌症概率确定装置1100与所述不稳定指数确定装置1000相连,适于基于多个已知状态的样本以及所述待测样本的CIN score和/或标准分数,确定所述待测样本的癌症概率。
下面将结合实施例对本发明的方案进行解释。本领域技术人员将会理解,下面的实施例仅用于说明本发明,而不应视为限定本发明的范围。实施例中未注明具体技术或条件的,按照本领域内的文献所描述的技术或条件(例如参考J.萨姆布鲁克等著,黄培堂等译的《分子克隆实验指南》,第三版,科学出版社)或者按照产品说明书进行。所用试剂或仪器未注明生产厂商者,均为可以通过市购获得的常规产品,例如可以采购自Illumina公司。
实施例1测序样本的制备
1.血浆分离
a)准备好实验所需的仪器、试剂、耗材,高速冷冻离心机应提前预冷至4℃。
b)如果外周血样本是用EDTA抗凝管采集的,抽血之后立马放进4℃冰箱,并在2小时内进行血浆分离。如果外周血样本是用streck管等游离核酸保存管采集的,则可在常温放置,并在采血管说明书规定的时间内进行血浆分离分离。
c)记录样本信息,将采血管配平,将高速冷冻离心机换成水平转子,并设定参数:温度4℃,离心力1600g,时间10min。将采血管配平之后放置在离心机中,进行离心。
d)离心完成之后,将采血管放置在生物安全柜的离心管架上。将离心后采血管中的上清收集至新的15mL离心管中,在管壁标记样本编号以及操作时间。注意在收集上清时需要仔细操作,避免吸入白细胞。剩下的血细胞用于提取gDNA,分装至新的15mL离心管中,在管壁标记样本编号以及操作时间。
e)将高速冷冻离心机换成角转子,并设定参数:温度4℃,离心力16000g,时间10min。将装有上清的15mL离心管配平之后放置在离心机中,进行离心。
f)离心完成之后,将装有上清的15mL离心管放置在生物安全柜的离心管架上。将离心后离心管中的上清收集至新的15mL离心管中。注意在收集上清时需要仔细操作,避免吸入沉淀。这一步的目的是去除血浆当中的细胞碎片等杂质。
g)将血浆以及血细胞放置于-80℃冰箱保存,备用。
h)实验完成后,将所有物品归位,并清洁实验台面,将生物安全柜紫外灯打开,照射30min后关闭。记录详细的实验记录。
2.cfDNA提取
i)准备好实验所需的仪器、试剂、耗材。打开水浴锅,并调节温度至60℃。打开金属浴,并调节温度至56℃。确认试剂盒有效期,buffer ACB是否加有合适量的异丙醇,bufferACW1以及buffer ACW1是否加有合适量的无水乙醇。
j)记录样本编号等信息。
k)若是分离的新鲜血浆,则直接进行cfDNA提取。若血浆冻存在–80℃条件下,需将血浆样本解冻后,在16,000x g[固定角转头]的离心力以及4℃的温度条件下离心5min以去除冷冻沉淀。
l)按照表1配置所需量的ACL混合液。
表1:处理4ml样本所需的Buffel ACL以及carrier RNA(溶解于Buffer AVE)体积用量
Figure GDA0002757076870000091
Figure GDA0002757076870000101
m)转移400μl Proteinase K至装有4ml血浆的50ml离心管中。间断涡旋30s以充分混匀。
n)加入3.2ml的Buffer ACL(含有1.0μg carrier RNA)。剧烈涡旋混匀15秒。确保离心管经剧烈涡旋,以保证样本和Buffer ACL的重复混匀,从而实现高效的裂解。
o)注意:此步完成后请不要中断实验并立即进行下步的裂解孵育步骤。
p)将离心管接着60℃水浴30分钟。
q)向上述反应液中加入7.2ml的Buffer ACB。盖上管盖,间断涡旋15s以充分混匀。
r)将含有Buffer ACB的裂解液至于冰上孵育或冷藏孵育5min。
s)组装抽滤装置:把VacValve插在24孔底上,再把VacConnectors插入VacValve中,再将QIAamp Mini硅胶膜柱连接到VacConnectors上,最后把20ml扩容管插入到硅胶膜柱上。确保扩容管插入紧实以防止样本泄露。注意:将2ml收集管留下至后续空转时才使用。并在硅胶膜柱上做好样本编号的标记。VacValve可调节流速,VacConnectors可以防止污染,QIAamp Mini硅胶膜柱用于吸附DNA,扩容管用于装大体积血浆。
t)把孵育完的混合物转移至扩容管中,打开真空泵,待离心柱中的裂解液完全抽干后,关闭真空泵,打开24孔底座一侧的排气阀将压力释放到0兆帕。小心地将扩容管拆下并丢弃。
u)向QIAamp Mini硅胶膜柱中加入600μl的Buffer ACW1,关闭排气阀,并打开真空泵,进行抽滤液体。当离心柱中Buffer ACW1被抽干后,关闭真空泵,打开24孔底座一侧的排气阀将压力释放到0兆帕。
v)向QIAamp Mini硅胶膜柱中加入750μl的Buffer ACW2,关闭排气阀,并打开真空泵,进行抽滤液体。当离心柱中Buffer ACW2被抽干后,关闭真空泵,打开24孔底座一侧的排气阀将压力释放到0兆帕。
w)向QIAamp Mini硅胶膜柱中加入750μl的无水乙醇溶液,关闭排气阀,并打开真空泵,进行抽滤液体。当离心柱中无水乙醇被抽干后,关闭真空泵,打开24孔底座一侧的排气阀将压力释放到0兆帕。关闭真空泵电源。
x)盖上QIAamp Mini硅胶膜柱并从真空支管上取下后放置到干净的2ml收集管中,将VacConnector丢弃。收集管在全速条件(20,000x g;14,000rpm)下离心3min。
y)将QIAamp Mini硅胶膜柱放置到新的2ml收集管中,开盖并置于56℃条件下的金属浴上干燥10min至硅胶膜彻底干燥。
z)将QIAamp Mini硅胶膜柱取出后放置到干净的1.5ml洗脱管(试剂盒自带)中,并将使用过的2ml的收集管丢弃。
aa)向QIAamp Mini硅胶膜柱中硅胶膜的中央小心加入55μl的Nuclease-freewater。盖上管盖后在室温孵育3min。
bb)将洗脱管置于小型离心机中全速(20,000x g;14,000rpm)离心1min来洗脱cfDNA。
cc)质量标准与评估
Qubit HS定量:取1μLcfDNA使用
Figure GDA0002757076870000111
dsDNA HS Assay Kit定量,记录浓度。
Agilent 2100检测:测定cfDNA片段分布。
dd)实验完成后,将所有物品归位,并清洁实验台面,将生物安全柜紫外灯打开,照射
30min后关闭。记录详细的实验记录。
3.cfDNA文库构建
ee)建库前准备
i.从4℃冰箱取出纯化DNA所用的磁珠(AMPureXP beads,Beckman),室温平衡30min再使用。
ii.从-20℃冰箱内取出End Repair&A-Tailing Buffer和End Repair&A-TailingBuffer enzyme mix试剂,置于冰盒上解冻,待用。
iii.将要建库的cfDNA样本名称、取样日期、DNA浓度记录在实验记录本上,并编写好编号,方便之后操作。
iv.取相应数量的200μL PCR管,写好编号(管盖和管壁都标注编号)。
v.按cfDNA建库起始量10ng≤X≤100ng标准计算每个cfDNA样本所需要的DNA溶液体积,记录在实验记录本上,并取相应的体积置于对应的200μL PCR管内。
vi.向每个200μL PCR管内加入适量的Nuclease-Free water,使终体积达到50μL。
vii.注:在建库过程中配制所有反应体系应遵循如下规则:若样本少于四个,不需配制混合体系,每个样本独立加入反应体系中的每种成分溶液;若超过四个样本,则将反应体系中每个成分溶液按所需用量的105%配制混合体系,然后逐一加入各个样本中。
ff)末端修复&加A
i.按照表2所示,配制末端修复&加A反应体系。
表2:
Figure GDA0002757076870000121
ii.向每个200μl PCR管内加入10μL上述末端修复反应体系,混匀后低速离心,设定PCR仪,程序如下表3。
表3:
Figure GDA0002757076870000122
iii.将反应体系从PCR仪中取出,放置在小黄板上,并进行接头连接反应。
gg)接头连接反应体系
i.按照表4所示,配制接头连接反应体系。
表4:
成分 1个反应体系 8个反应体系(过量5%)
PCR-级水(PCR-grade water) 5μL 42μL
连接缓冲液(Ligation Buffer) 30μL 252μL
DNA连接酶(DNA Ligase) 10μL 84μL
总体积(Total volume) 45μL 378μL
ii.向每个反应管中加入45μL上述反应体系,温和混合均匀,低速离心。
iii.根据input DNA量加入适量的adapter,具体DNA:adapter如下表5,每个反应管各加入5μL adapter。另外根据测序要求,每个样本加入不同的adapter,使得同一个lane中不会出现两个样本使用同一个adapter的情况,记录好每个样本使用的adapter信息。
表5:
Figure GDA0002757076870000131
iv.混合均匀,并放入PCR仪中,设定温度20℃,反应15min。
hh)DNA纯化
i.配制80%乙醇(例如配置50mL 80%乙醇:40mL无水乙醇+10mL Nuclease-freeWater),80%乙醇应现用现配。
ii.准备相应数量的1.5mL样本管,并做好相应的标记。
iii.将事先在室温平衡好的磁珠充分震荡混匀,并向每个管中分装88μL。
iv.将上述加了adapter的DNA与磁珠混匀。室温静置10min。
v.将1.5mL样本管置于磁力架上,进行磁珠吸附,直至溶液澄清。
vi.小心移除上清液,再加入200μL 80%乙醇,将样本管水平旋转360度,静置30s后弃上清液。(此过程,离心管一直保持在磁力架上。)
vii.重复步骤上述步骤一次。
viii.应将所有残留的酒精溶液移除。打开管盖,常温下干燥磁珠,挥发乙醇,以免过多乙醇影响后续反应体系中酶的效果。注意:不可过分干燥磁珠,否则会导致DNA不容易从磁珠上洗脱下来,造成产量损失。当磁珠表面不再有光泽时即为干燥完成。
ix.每个样本管内加入21μL Nuclease-Free water,重悬浮磁珠,充分混匀后室温静置5min。
x.准备一批新的200μL PCR管,管盖管壁标注对应的样本编号。
xi.将样本管置于磁力架,进行磁珠吸附,直至溶液澄清后,将上清液转移至对应编号的PCR管中,作为PCR实验的模板。
ii)文库扩增
i.按照表6所示,配制文库扩增反应体系。
表6:
Figure GDA0002757076870000132
Figure GDA0002757076870000141
ii.每个0.2mL样本管内加入30μL Pre-PCR扩增反应体系,温和混匀并低速离心,放入PCR仪中反应。
iii.将PCR仪设定如下程序,PCR cycle应根据input DNA量适当调整,见表7。
表7:
Figure GDA0002757076870000142
iv.循环数选择参考表格8。
表8:
Input DNA量(ng) PCR cycle
X>50ng 4
25ng<X≤50ng 5
10ng<X≤25ng 6
X≤10ng 7
v.Pre-PCR反应结束后,开始进行文库纯化。
jj)文库纯化
i.准备相应数量的1.5mL样本管,并做好相应的标记。
ii.将事先在室温平衡好的磁珠充分震荡混匀,并向每个管中分装50μL。
iii.将上述加了adapter的DNA与磁珠混匀。室温静置10min。
iv.将1.5mL样本管置于磁力架上,进行磁珠吸附,直至溶液澄清。
v.小心移除上清液,再加入200μL 80%乙醇,将样本管水平旋转360度,静置30s后弃上清液。(此过程,离心管一直保持在磁力架上。)
vi.重复步骤上述步骤一次。
vii.应将所有残留的酒精溶液移除。打开管盖,常温下干燥磁珠,挥发乙醇,以免过多乙醇影响后续反应体系中酶的效果。注意:不可过分干燥磁珠,否则会导致DNA不容易从磁珠上洗脱下来,造成产量损失。当磁珠表面不再有光泽时即为干燥完成。
viii.每个样本管内加入35μL Nuclease-Free water,重悬浮磁珠,充分混匀后室温静置5min。
ix.准备一批新的离心管,管盖上标注所属项目,取样日期,样本名称;管壁上标注接头信息,建库日期,浓度。
x.将1.5mL样本管置于磁力架上,进行磁珠吸附,直至溶液澄清后,将上清液转移至对应的新的写有样本信息的1.5mL离心管。
xi.取1ul样本测浓度,1ul样本使用Agilent 2100测定文库片段大小,并记录相应信息。
xii.样本放入相对应项目的冻存盒内,置于-20℃保存。
xiii.实验完成后,将所有物品归位,并清洁实验台面,将超净工作台紫外灯打开,照射30min后关闭。记录详细的实验信息。
4.文库pooling
kk)准备好实验所需的仪器、试剂、耗材。
ll)按照测定的浓度以及所需要测定的数据量,计算pooling体积。
mm)取一个新的1.5ml离心管,做好标记。按照计算的pooling体积进行pooling。
nn)混合均匀之后,测定浓度,并记录信息。
oo)实验完成后,将所有物品归位,并清洁实验台面。
5.上机测序
将上述pooling好的文库用Tris-HCl以及NaOH进行稀释变性,然后进行上机测序。
实施例2
发明人创新性地开发了chromosome instability(CIN)score的计算法方法,用来衡量癌症患者的染色体不稳定性:
(1)按照实施例1的方法,完成对样本“HZ042”的建库测序,获得下机数据,过滤掉低质量等reads后,使用比对软件(bwa)将这些测序reads比对到人的参考基因组上(hg19)。
(2)过滤比对结果,要求比对质量值>30,去除重复的reads,不正常配对的reads等。使用bedtools里面的工具获得reads1的比对起始位置。
(3)根据比对起始位置,发明人通过已经发布的方法(Gusnanto et al.(2014)),计算出不同区间对应的赤池信息量准则(Akaike’s information criterion)和交叉验证对数似然估计值(Cross validation Log-likelihood)。如图3所示,选取AIC最小值(或者对数似然值最大)对应的区间大小,最终选取10,000bp作为区间大小.
(4)将人的参考基于组,每个10000bp,划分为一个区间(bin),统计每个区间的比对reads;
(5)bins的过滤包括:1)mappability>0.5;2)N的比例<0.5;3)不在从UCSC上下载的region文件wgEncodeDacMapabilityConsensusExcludable.bedwgEncodeDukeMapabi lityRegionsExcludable.bed;4)过滤掉X,Y染色体;5)使用normal参考集合,计算出样本间标准化(除以样本的median)后的大于4倍标准差的bins;总共将整个基因组分成309579个bins,过滤后251519个bins;
(6)每个样本的reads数,相对于bins的长度校正(除以该bin非N的比例)
(7)根据每个bin的GC值:统计每个窗口(bin)内A,T,C,G碱基的数量;以及G和C的数量。GC所占的比值,为该窗口的GC含量,图4为待测样本测序读段数据的GC分布图。
(8)Mappability计算:根据从UCSC下载的ENCODE’s mappability bigwig文件,将文件中的每个region的mappability与bin比较,计算出每个bin里面所有region的mappability的平均值,作为该bin的mappability值。
(9)过滤掉reads数目异常的bins:保留1%-99%分位数的bins;
(10)将每个bin的GC和mappability组合,并按照它们的组合进行分组,同时计算每个GC和mappability组合对应所有bins的reads数目中位数。
(11)使用广义交叉验证的方法,将bins平均分成10分,用其中9分数据拟合局部加权非参数回归参数曲线,将剩余的1份数据作为测试集,进行预测,计算AIC等;
确定局部加权非参数回归参数的最优值(AIC最小);构建拟合曲线,最后用每个bins的标准化后的深度除以曲线预测的值,得到校正后的值。
(12)假设正常样本,几乎不存在CNV变化,同时遗传的CNV是随机发生的。正常人群,在同一个bin上的校正后的深度服从正态分布。因此,发明人使用同样的方法,完成300例正常人群的测序和分析,得到每一个的bins的正态分布的均值和标准差(如下表9显示部分bins的均值和标准差)。在根据受试者在同一个bins下的标准化后的深度,计算Z-score。如果受试者的Z-score绝对值大于3倍标准差,就认为该样本的这个bins,在该区域存在缺失或扩增。挑选出异常的biomarker,并计算出测试样本,相对于参考集的logRratio。
表9:基于近300例正常样本参考集,计算出的均值和标准差
Figure GDA0002757076870000161
Figure GDA0002757076870000171
Figure GDA0002757076870000181
Figure GDA0002757076870000191
Figure GDA0002757076870000201
Figure GDA0002757076870000211
Figure GDA0002757076870000221
Figure GDA0002757076870000231
(13)使用已经发表的R软件包DNAcopy(https://bioconductor.org/packages/ release/bioc/html/DNAcopy.html)对bins的值进行平滑,校正异常值(smooth);
(14)使用已经发表的算法(比如:循环二元分割法(CBS)将bins合并成片段(DNAcopy),隐马尔可夫模型(HMMcopy:Lai D,Ha G,Shah S(2019))最终得到该样本的CNV结果。
表10:HZ042的基于隐马尔可夫模型得到的CNV结果
Figure GDA0002757076870000232
Figure GDA0002757076870000241
Figure GDA0002757076870000251
Figure GDA0002757076870000261
Figure GDA0002757076870000271
Figure GDA0002757076870000281
备注:1表示0个拷贝,纯合子缺失;2表示1个拷贝,杂合性缺失;3表示2个拷贝,正常状态;4表示3个拷贝,染色体增加(gain);5表示4个拷贝,染色体扩增;6表示5个及以上拷贝,高水平扩增。
(15)将每个片段的平均logRratio作为每个bins的logRratio;
(16)挑选出Z-score绝对值>3或/且logRratio>0.1或<-0.1,作为最终具有CNV变异的标签。样本HZ042,最终有95个bins存在CNV变异。
基于ICGC、TCGA、发明人所拥有的肿瘤测序数据,构建肿瘤大数据库。发明人总共收集超过10000例样本的肿瘤全基因组的CNV变异数据。并将每个肿瘤样本的发生CNV变异的region与每个bin对比,计算出了每个bins在肿瘤大数据库中CNV发生频率fk。具体计算方法为:肿瘤数据库中每个样本的CNV变异区域,与每个marker区域比较。如果某个bin的区域与样本的CNV变异区域的重叠区域占该bin区间的90%以上(overlapping ratio/lengthof bin>0.9),表示这个marker在该样本上,存在CNV变异。用所有发生CNV变异的肿瘤样本数除以总的肿瘤样本数为fk;如果所有样本在某个bin都没有发生CNV突变,fk=1/(肿瘤样本总数+1)。
进而,通过下列公式,计算染色体的不稳定指数CIN score,
Figure GDA0002757076870000282
Figure GDA0002757076870000283
其中,n表示总的所述窗口序列的数目;
a表示预定的恒定常数,与窗口大小有关;
lk表示第k个异常窗口的长度;
fk表示第k个异常窗口序列发生CNV的概率;
Z-score表示第k个窗口的标准分数的绝对值;
abs(logR)表示平滑处理后的第k个窗口的logR ratio的绝对值。
同理,发明人测试了正常样本,依据上述方法和公式,计算了正常样本的CINscore,基于正常样本的基线数据,构建CINscore的正态分布。计算出的受试者CINscore异常的概率,即为癌症的概率。
实施例3
发明人利用实施例2中的方法,构建了CIN score的正态分布图,如图5所示,获得了CIN score正态分布的均值和标准差
根据上面拟合的分布,和待检测样本的CINscore,可以计算出p=P(x<CIS|mean,sd)。该样本是肿瘤的概率是1-p,对应的cut-offvalue:0.01。
比如肿瘤样本(临床病理确认)18091403BP,该样本的CINscore按照实施例2的方法计算出CIN score=93.48,对应的p-value值是0,远小于0.01,判定为肿瘤样本
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (36)

1.一种确定待测样本预定染色体不稳定指数的方法,其特征在于,包括:
(1)将所述预定染色体的参考序列划分为多个相同长度的窗口序列bins;
(2)将来自所述待测样本的测序数据与所述参考序列进行比对,所述测序数据由多个测序读段reads构成;
(3)基于步骤(2)的比对结果,分别统计多个所述窗口序列每一个的匹配测序读段数目;
(4)基于步骤(3)的统计结果,对每个窗口的匹配测序读段数目进行过滤,标准化,校正处理;
(5)对步骤(4)所获得的标准化和校正后的每个窗口的匹配测序读段数目进行取对数处理,以便获得每个窗口的测序读段数目的对数值logRratio;
(6)对步骤(5)所获得的logRratio进行平滑处理,并将窗口进行合并和CNV片段化处理,确定第一预选异常窗口序列;
(7)基于标准化和校正后的每个窗口的匹配测序读段数目,获得每个窗口的匹配测序读段数目的标准分数,确定第二预选异常窗口序列;
(8)基于(6)或(7)确定的第一预选异常窗口序列或第二预选异常窗口序列,确定异常窗口序列;
(9)基于已知的肿瘤数据库,确定所述异常窗口序列的每一个拷贝数变异发生频率;
(10)基于多个所述异常窗口序列的每一个的所述匹配测序读段数目、所述拷贝数变异发生频率、所述窗口序列的长度以及预定的常规参数,确定所述待测样本针对所述预定染色体的不稳定指数,
其中,基于下列公式确定第二预选异常窗口序列:
zi=(xi-μi)/σi
其中,xi表示校正后的来自所述待测样本的第i个窗口序列的测序数据与第i个窗口参考序列匹配的匹配测序读段数目;
μi表示校正后的预先确定的来自多个参考集样本的第i个窗口序列的测序数据与第i个窗口参考序列匹配的匹配测序读段数目的平均值;
σi表示预先确定的来自多个参考集样本的第i个窗口序列的测序数据与第i个窗口参考序列匹配的匹配测序读段数目的标准方差;
zi表示每个窗口的匹配测序读段数目的标准分数;
所述参考集为已知正常人群样本;
通过下列公式确定所述待测样本针对所述预定染色体的不稳定指数CIN score,
Figure FDA0002853536210000021
Figure FDA0002853536210000022
其中,n表示总的所述窗口序列的数目;
a表示预定的恒定常数,与窗口大小有关;
lk表示第k个异常窗口的长度;
fk表示第k个异常窗口序列发生CNV的概率;
abs(Z-score)表示第k个窗口的标准分数的绝对值;
abs(logR)表示平滑处理后的第k个窗口的logR ratio的绝对值。
2.根据权利要求1所述的方法,其特征在于,所述待测样本来源于疑似癌症患者。
3.根据权利要求2所述的方法,其特征在于,所述待测样本为血液、体液、尿液、唾液或皮肤。
4.根据权利要求1所述的方法,其特征在于,测序数据是通过对血浆游离的DNA进行全基因组建库后,使用二代测序仪测序获得的,平均测序深度为小于1X,2X,3X,4X或5X。
5.根据权利要求4所述的方法,其特征在于,所述二代测序仪为XTen、NovaSeq或NextSeq500。
6.根据权利要求2所述的方法,其特征在于,确定所述窗口序列的长度为:1M,50K,20K,10K或5K。
7.根据权利要求1所述的方法,其特征在于,在步骤(4)中,匹配测序读段数据是经过GC和比对率矫正后获得的。
8.根据权利要求1所述的方法,其特征在于,在步骤(6)中,进行平滑处理并将窗口进行合并和CNV片段化处理后的logRratio大于0.1或小于-0.1,是该logRratio所对应的窗口为第一预选异常窗口序列的指示。
9.根据权利要求1所述的方法,其特征在于,zi大于3或小于-3是所述待测样本的第i个窗口序列为第二预选异常窗口序列的指示。
10.根据权利要求8或9所述的方法,其特征在于,在步骤(8)中,logRratio大于0.1或小于-0.1和/或zi大于3或小于-3,是窗口为异常窗口序列的指示。
11.根据权利要求1所述的方法,其特征在于,所述第k个异常窗口序列发生CNV的频率是基于WGS肿瘤样本的CNV变异结果确定的,其中,在所述WGS肿瘤样本中,第k个异常窗口序列区间与所述肿瘤样本的CNV变异区域的重叠区域占第k个异常窗口序列区间的90%以上,是所述第k个异常窗口序列区间在所述肿瘤样本中存在CNV的指示,所述fk是包含第k个异常窗口序列区间的癌症样本的数目与所述癌症样本总数目的比值。
12.根据权利要求1所述的方法,其特征在于,进一步包括基于多个已知状态的样本以及所述待测样本的CIN score和/或标准分数,确定所述待测样本的癌症概率。
13.一种计算机可读介质,其特征在于,所述计算机可读介质中存储有指令,所述指令被适于处理执行以便通过下列步骤确定待测样本预定染色体不稳定指数,
(1)将所述预定染色体的参考序列划分为多个相同长度的窗口序列bins;
(2)将来自所述待测样本的测序数据与所述参考序列进行比对,所述测序数据由多个测序读段reads构成;
(3)基于步骤(2)的比对结果,分别统计多个所述窗口序列每一个的匹配测序读段数目;
(4)基于步骤(3)的统计结果,对每个窗口的匹配测序读段数目进行过滤,标准化,校正处理;
(5)对步骤(4)所获得的标准化和校正后的每个窗口的匹配测序读段数目进行取对数处理,以便获得每个窗口的测序读段数目的对数值logRratio;
(6)对步骤(5)所获得的logRratio进行平滑处理,并将窗口进行合并和CNV片段化处理,确定第一预选异常窗口序列;
(7)基于标准化和校正后的每个窗口的匹配测序读段数目,获得每个窗口的匹配测序读段数目的标准分数,确定第二预选异常窗口序列;
(8)基于(6)或(7)确定的第一预选异常窗口序列或第二预选异常窗口序列,确定异常窗口序列;
(9)基于已知的肿瘤数据库,确定所述异常窗口序列的每一个拷贝数变异发生频率;
(10)基于多个所述异常窗口序列的每一个的所述匹配测序读段数目、所述拷贝数变异发生频率、所述窗口序列的长度以及预定的常规参数,确定所述待测样本针对所述预定染色体的不稳定指数,
其中,在步骤(7)中,基于下列公式确定第二预选异常窗口序列:
zi=(xi-μi)/σi
其中,xi表示校正后的来自所述待测样本的第i个窗口序列的测序数据与第i个窗口参考序列匹配的匹配测序读段数目;
μi表示校正后的预先确定的来自多个参考集样本的第i个窗口序列的测序数据与第i个窗口参考序列匹配的匹配测序读段数目的平均值;
σi表示预先确定的来自多个参考集样本的第i个窗口序列的测序数据与第i个窗口参考序列匹配的匹配测序读段数目的标准方差;
zi表示每个窗口的匹配测序读段数目的标准分数;
所述参考集为已知正常人群样本;
步骤(10)中,通过下列公式确定所述待测样本针对所述预定染色体的不稳定指数CINscore,
Figure FDA0002853536210000041
Figure FDA0002853536210000042
其中,n表示总的所述窗口序列的数目;
a表示预定的恒定常数,与窗口大小有关;
lk表示第k个异常窗口的长度;
fk表示第k个异常窗口序列发生CNV的概率;
abs(Z-score)表示第k个窗口的标准分数的绝对值;
abs(logR)表示平滑处理后的第k个窗口的logR ratio的绝对值。
14.根据权利要求13所述的计算机可读介质,其特征在于,所述待测样本来源于疑似癌症患者。
15.根据权利要求14所述的计算机可读介质,其特征在于,所述待测样本为血液、体液、尿液、唾液或皮肤。
16.根据权利要求15所述的计算机可读介质,其特征在于,测序数据是通过对血浆游离的DNA进行全基因组建库后,使用二代测序仪测序获得的,平均测序深度为小于1X,2X,3X,4X或5X。
17.根据权利要求16所述的计算机可读介质,其特征在于,所述二代测序仪为X Ten、NovaSeq或NextSeq 500。
18.根据权利要求13所述的计算机可读介质,其特征在于,确定所述窗口序列的长度为:1M,50K,20K,10K或5K。
19.根据权利要求13所述的计算机可读介质,其特征在于,在步骤(4)中,所述匹配测序读段数据是经过GC和比对率矫正后获得的。
20.根据权利要求13所述的计算机可读介质,其特征在于,在步骤(6)中,进行平滑处理并将窗口进行合并和CNV片段化处理后的logRratio大于0.1或小于-0.1,是该logRratio所对应的窗口为第一预选异常窗口序列的指示。
21.根据权利要求13所述的计算机可读介质,其特征在于,zi大于3或小于-3是所述待测样本的第i个窗口序列为第二预选异常窗口序列的指示。
22.根据权利要求13所述的计算机可读介质,其特征在于,在步骤(8)中,logRratio大于0.1或小于-0.1和/或zi大于3或小于-3,是窗口为异常窗口序列的指示。
23.根据权利要求13所述的计算机可读介质,其特征在于,所述第k个异常窗口序列发生CNV的频率是基于WGS肿瘤样本的CNV变异结果确定的,其中,在所述WGS肿瘤样本中,第k个异常窗口序列区间与所述肿瘤样本的CNV变异区域的重叠区域占第k个异常窗口序列区间的90%以上,是所述第k个异常窗口序列区间在所述肿瘤样本中存在CNV的指示,所述fk是包含第k个异常窗口序列区间的癌症样本的数目与所述癌症样本总数目的比值。
24.根据权利要求13所述的计算机可读介质,其特征在于,进一步包括基于多个已知状态的样本以及所述待测样本的CIN score和/或标准分数,确定所述待测样本的癌症概率。
25.一种确定待测样本预定染色体不稳定指数的系统,其特征在于,包括:
划分窗口装置,所述划分窗口装置适于将所述预定染色体的参考序列划分为多个相同长度的窗口序列bins;
比对装置,所述比对装置与所述划分窗口装置相连,适于将来自所述待测样本的测序数据与所述参考序列进行比对,所述测序数据由多个测序读段reads构成;
统计装置,所述统计装置与所述比对装置相连,适于基于所述比对装置所获得的比对结果,分别统计多个所述窗口序列每一个的匹配测序读段数目;
校正装置,所述校正装置与所述统计装置相连,适于基于所述统计装置所获得的统计结果,对每个窗口的匹配测序读段数目进行过滤,标准化,校正处理;
取对数装置,所述取对数装置与所述校正装置相连,适于对所述校正装置所获得的标准化和校正后的每个窗口的匹配测序读段数目进行取对数处理,以便获得每个窗口的测序读段数目的对数值logRratio;
第一预选异常窗口序列确定装置,所述第一预选异常窗口序列确定装置与所述取对数装置相连,适于对取对数装置所获得的logRratio进行平滑处理,并将窗口进行合并和CNV片段化处理,确定第一预选异常窗口序列;
第二预选异常窗口序列确定装置,所述第二预选异常窗口序列确定装置与所述校正装置相连,适于基于标准化和校正后的每个窗口的匹配测序读段数目,获得每个窗口的匹配测序读段数目的标准分数,确定第二预选异常窗口序列;
异常窗口序列确定装置,所述异常窗口序列确定装置与所述第一预选异常窗口序列确定装置和所述第二预选异常窗口序列确定装置相连,适于基于第一预选异常窗口序列确定装置或第二预选异常窗口序列确定装置确定的第一预选异常窗口序列或第二预选异常窗口序列,确定异常窗口序列;
拷贝数变异发生频率确定装置,所述拷贝数变异发生频率确定装置与所述异常窗口序列确定装置相邻,适于基于已知的肿瘤数据库,确定所述异常窗口序列的每一个拷贝数变异发生频率;
不稳定指数确定装置,所述不稳定指数确定装置与所述拷贝数变异发生频率确定装置相连,适于基于多个所述异常窗口序列的每一个的所述匹配测序读段数目、所述拷贝数变异发生频率、所述窗口序列的长度以及预定的常规参数,确定所述待测样本针对所述预定染色体的不稳定指数,
其中,第二预选异常窗口序列确定装置适于执行以下操作:基于下列公式确定第二预选异常窗口序列:
zi=(xi-μi)/σi
其中,xi表示校正后的来自所述待测样本的第i个窗口序列的测序数据与第i个窗口参考序列匹配的匹配测序读段数目;
μi表示校正后的预先确定的来自多个参考集样本的第i个窗口序列的测序数据与第i个窗口参考序列匹配的匹配测序读段数目的平均值;
σi表示预先确定的来自多个参考集样本的第i个窗口序列的测序数据与第i个窗口参考序列匹配的匹配测序读段数目的标准方差;
zi表示每个窗口的匹配测序读段数目的标准分数;
所述参考集为已知正常人群样本;
不稳定指数确定装置适于执行以下操作:通过下列公式确定所述待测样本针对所述预定染色体的不稳定指数CIN score,
Figure FDA0002853536210000061
Figure FDA0002853536210000062
其中,n表示总的所述窗口序列的数目;
a表示预定的恒定常数,与窗口大小有关;
lk表示第k个异常窗口的长度;
fk表示第k个异常窗口序列发生CNV的概率;
abs(Z-score)表示第k个窗口的标准分数的绝对值;
abs(logR)表示平滑处理后的第k个窗口的logR ratio的绝对值。
26.根据权利要求25所述的系统,其特征在于,所述待测样本来源于疑似癌症患者。
27.根据权利要求26所述的系统,其特征在于,所述待测样本为血液、体液、尿液、唾液或皮肤。
28.根据权利要求27所述的系统,其特征在于,测序数据是通过对血浆游离的DNA进行全基因组建库后,使用二代测序仪测序获得的,平均测序深度为小于1X,2X,3X,4X或5X。
29.根据权利要求28所述的系统,其特征在于,所述二代测序仪为XTen、NovaSeq或NextSeq500。
30.根据权利要求25所述的系统,其特征在于,确定述窗口序列的长度为:1M,50K,20K,10K或5K。
31.根据权利要求25所述的系统,其特征在于,所述校正装置中所处理的所述匹配测序读段数据是经过GC和比对率矫正后获得的。
32.根据权利要求25所述的系统,其特征在于,第一预选异常窗口序列确定装置适于执行以下操作:进行平滑处理并将窗口进行合并和CNV片段化处理后的logRratio大于0.1或小于-0.1,是该logRratio所对应的窗口为第一预选异常窗口序列的指示。
33.根据权利要求25所述的系统,其特征在于,zi大于3或小于-3是所述待测样本的第i个窗口序列为第二预选异常窗口序列的指示。
34.根据权利要求25所述的系统,其特征在于,异常窗口序列确定装置适于执行以下操作:logRratio大于0.1或小于-0.1和/或zi大于3或小于-3,是窗口为异常窗口序列的指示。
35.根据权利要求25所述的系统,其特征在于,所述第k个异常窗口序列发生CNV的频率是基于WGS肿瘤样本的CNV变异结果确定的,其中,在所述WGS肿瘤样本中,第k个异常窗口序列区间与所述肿瘤样本的CNV变异区域的重叠区域占第k个异常窗口序列区间的90%以上,是所述第k个异常窗口序列区间在所述肿瘤样本中存在CNV的指示,所述fk是包含第k个异常窗口序列区间的癌症样本的数目与所述癌症样本总数目的比值。
36.根据权利要求25所述的系统,其特征在于,进一步包括癌症概率确定装置,所述癌症概率确定装置与所述不稳定指数确定装置相连,适于基于多个已知状态的样本以及所述待测样本的CIN score和/或标准分数,确定所述待测样本的癌症概率。
CN201910428251.2A 2019-05-22 2019-05-22 确定待测样本预定染色体不稳定指数的方法、系统和计算机可读介质 Active CN111370056B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910428251.2A CN111370056B (zh) 2019-05-22 2019-05-22 确定待测样本预定染色体不稳定指数的方法、系统和计算机可读介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910428251.2A CN111370056B (zh) 2019-05-22 2019-05-22 确定待测样本预定染色体不稳定指数的方法、系统和计算机可读介质

Publications (2)

Publication Number Publication Date
CN111370056A CN111370056A (zh) 2020-07-03
CN111370056B true CN111370056B (zh) 2021-03-30

Family

ID=71209985

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910428251.2A Active CN111370056B (zh) 2019-05-22 2019-05-22 确定待测样本预定染色体不稳定指数的方法、系统和计算机可读介质

Country Status (1)

Country Link
CN (1) CN111370056B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112397143B (zh) * 2020-10-30 2022-06-21 深圳思勤医疗科技有限公司 基于血浆多组学多维特征和人工智能预测肿瘤风险值的方法
CN112669906B (zh) * 2020-11-25 2021-09-28 深圳华大基因股份有限公司 用于衡量基因组不稳定性的检测方法、设备、终端设备和计算机可读存储介质
CN112634987B (zh) * 2020-12-25 2021-07-27 北京吉因加医学检验实验室有限公司 一种单样本肿瘤dna拷贝数变异检测的方法和装置
CN113129302B (zh) * 2021-05-13 2025-03-21 北京爱奇艺科技有限公司 跳出曲线的优化方法、装置、电子设备及存储介质
CN114093417B (zh) * 2021-11-23 2022-10-04 深圳吉因加信息科技有限公司 一种鉴定染色体臂杂合性缺失的方法和装置
CN114220481B (zh) * 2021-11-25 2023-09-08 深圳思勤医疗科技有限公司 基于全基因组测序完成待测样本的核型分析的方法、系统和计算机可读介质
CN114792548B (zh) * 2022-06-14 2022-09-09 北京贝瑞和康生物技术有限公司 校正测序数据、检测拷贝数变异的方法、设备和介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2941769A1 (en) * 2014-03-11 2015-09-17 The Council Of The Queensland Institute Of Medical Research Determining cancer aggressiveness, prognosis and responsiveness to treatment
GB201503023D0 (en) * 2015-02-24 2015-04-08 King S College London Chromosomal instability

Also Published As

Publication number Publication date
CN111370056A (zh) 2020-07-03

Similar Documents

Publication Publication Date Title
CN111370056B (zh) 确定待测样本预定染色体不稳定指数的方法、系统和计算机可读介质
AU2023202572B2 (en) Single-molecule sequencing of plasma DNA
CN112397143B (zh) 基于血浆多组学多维特征和人工智能预测肿瘤风险值的方法
CN104204220B (zh) 一种遗传变异检测方法
CN111370057B (zh) 确定样本染色体结构变异信号强度以及插入片段长度分布特征的方法及应用
CN105392894B (zh) 确定样本基因组中是否存在拷贝数变异的方法、系统和计算机可读介质
CN108334750A (zh) 一种宏基因组数据分析方法及系统
WO2016049878A1 (zh) 一种基于snp分型的亲子鉴定方法及应用
CN106834502A (zh) 一种基于基因捕获和二代测序技术的脊髓性肌萎缩症相关基因拷贝数检测试剂盒及方法
CN113764044B (zh) 一种构建骨髓增生异常综合征进展基因预测模型的方法
CN112397150B (zh) 基于目标区域捕获测序的ctDNA甲基化水平预测装置及方法
CN112513292A (zh) 基于高通量测序检测同源序列的方法和装置
CN112410422B (zh) 基于片段化模式预测肿瘤风险值的方法
CN108315404B (zh) 确定胎儿beta地中海贫血基因单体型的方法及系统
CN109996894A (zh) 用于单基因疾病的基于通用单倍型的非侵入性产前测试
CN117327788B (zh) 一种髓系血液肿瘤检测基因panel的捕获探针及其设计方法、检测方法
CN113265452A (zh) 一种基于Nanopore宏基因组RNA-seq的生物信息学检测病原体的方法
CN114107454A (zh) 基于宏基因/宏转录组测序的呼吸道感染病原检测方法
CN108070648B (zh) 确定胎儿脊髓性肌肉萎缩症基因单体型的方法及系统
CN114220481B (zh) 基于全基因组测序完成待测样本的核型分析的方法、系统和计算机可读介质
CN111304299A (zh) 一种用于检测常染色体拷贝数变异的引物组合、试剂盒和方法
CN116083600A (zh) 双峰驼乳脂率相关基因card11及其作为分子标记的应用
CN113637747A (zh) 确定核酸样本中snv和肿瘤突变负荷的方法及应用
CN113186255A (zh) 基于单分子测序检测核苷酸变异方法与装置
WO2021137770A1 (en) Method for fetal fraction estimation based on detection and interpretation of single nucleotide variants

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant