发明内容
本发明第一方面提供生物标志物,包括如下所示基因中一个或多个(例如至少15、20、50、100、150、250)或全部:ABL1、AFF3、AKT1、AKT2、AKT3、ALK、AR、AXL、BCL2、BCL2L1、BCL6、BRAF、BRD4、CALR、CARD11、CBL、CCND1、CCND2、CCND3、CCNE1、CD79A、CD79B、CDK4、CDK6、CSF1R、CTNNB1、DDR2、DNMT3A、EGFR、ERBB2、ERBB3、ERBB4、ERG、ETS1、EZH2、FGF14、FGF4、FGF5、FGF6、FGF7、FGF8、FGF9、FGFR1、FGFR3、FGFR4、FLI1、FLT1、FLT3、FOXL2、GNA11、GNAQ、GNAS、H3F3A、HRAS、IDH1、IDH2、IGF1R、JAK1、JAK2、JAK3、JUN、KDM5A、KDR、KIT、KMT2A、KRAS、LYN、MAP2K1、MAP2K2、MAPK1、MDM2、MDM4、MED12、MET、MITF、MPL、MTOR、MYC、MYCL、MYCN、MYD88、NFE2L2、NRAS、NRG1、NSD2、NSD3、NTRK1、NTRK2、NTRK3、PAX3、PDGFRA、PDGFRB、PIK3CA、PIK3CB、PPP2R1A、PREX2、PTPN11、RAC1、RAF1、REL、RET、RICTOR、ROS1、RPS6KB1、SF3B1、SMO、SOX2、SRC、STAT3、SYK、TRRAP、U2AF1、XPO1、APC、ARID1A、ARID2、ASXL1、ATM、ATR、ATRX、AXIN1、B2M、BAP1、BARD1、BCOR、BRCA1、BRCA2、BRIP1、CD274、CDH1、CDK12、CDKN2A、CDKN2B、CDKN2C、CEBPA、CHEK1、CHEK2、CIC、CREBBP、CTCF、CUL3、DAXX、EED、EP300、ERCC2、ESR1、ABRAXAS1、FANCA、FANCC、FANCI、FANCL、FAT1、FAT4、FBXW7、FHIT、GATA3、GRIN2A、HNF1A、IKZF1、INPP4B、KMT2C、KMT2D、LRP1B、MAP3K1、MEN1、MLH1、MRE11、MSH2、MSH3、MSH6、MUTYH、NBN、NF1、NPM1、PALB2、PAX5、PIK3R1、PMS2、PRDM1、PTCH1、PTEN、PTPRT、RB1、SDHA、SETD2、SMAD2、SMAD4、SMARCA4、SMARCB1、SOCS1、SPEN、SPOP、STAG2、STK11、TENT5C、TET2、TGFBR2、TNFAIP3、TNFRSF14、TP53、TSC1、TSC2、VHL、XRCC2、BTK、FGFR2、KDM6A、NOTCH1、NOTCH2、RHOA、WT1、CSF3R、DIS3、EML4、ERCC1、ETV1、ETV4、ETV5、ETV6、EWSR1、FGF1、FGF10、FGF19、FGF2、FGF23、FGF3、GEN1、HIST1H1C、ID3、IRF4、IRS2、KIF5B、LAMP1、MAX、MCL1、MEF2B、MLLT3、NFKBIA、NKX2-1、NOTCH3、PARP1、PAX7、PDCD1、PDCD1LG2、PIK3CD、PIK3CG、POLE、PPARG、PPP2R2A、RAD21、RAD51、RAD51B、RAD51C、RAD51D、RAD54L、RXRA、SLX4、TERT、TFRC、TMPRSS2。
在一个或多个实施方案中,各基因的外显子序列包括与表2所示的相应基因的探针序列或其逆向互补序列杂交的序列,或包括与SEQ ID NO:1-260中相应基因的探针序列或其逆向互补序列杂交的序列。
在一个或多个实施方案中,所述生物标志物用于鉴别诊断或预测癌症,所述癌症包括以下至少其中之一:肺癌、胃癌、肝癌、结直肠癌、食管癌、胰腺癌、膀胱癌、肾癌、鼻咽癌、骨肉瘤、脑胶质瘤、口腔癌、皮肤黑色素瘤、胆管癌、胆囊癌、甲状腺癌、前列腺癌、喉癌、阴茎癌、睾丸癌、乳腺癌、卵巢癌、宫颈癌、子宫内膜癌。
本发明第二方面提供探针组,包含能杂交捕获表1所示基因中一个或多个(例如至少15个、20个、50个、100个、150个、250个)或全部基因的探针。
在一个或多个实施方案中,所述探针是所述基因的叠瓦式探针,覆盖所述基因的外显子序列。
在一个或多个实施方案中,所述探针是RNA。
在一个或多个实施方案中,所述探针能与基因的目的序列杂交,所述目的序列包括能与表2所示的相应基因的探针序列或其逆向互补序列杂交的来自相应基因的序列,或包括能与SEQ ID NO:1-260中相应基因的探针序列或其互补序列杂交的来自相应基因的序列。
在一个或多个实施方案中,所述探针的DNA对应物如SEQ ID NO:1-260所示。
在一个或多个实施方案中,针对任一基因的探针是探针组合,具有能与基因的所述目的序列或其片段杂交的一种或多种序列,并且所述探针组合所杂交的基因序列覆盖相应基因的所述目的序列。
本发明还提供一种cfDNA癌症早期基因检测试剂盒,所述试剂盒包含本文第二方面任一实施方案所述的探针组,用于检测表1所示基因中一个或多个(例如至少15个、20个、50个、100个、150个、250个)或全部基因。
在一个或多个实施方案中,所述癌症是选自肺癌、胃癌、肝癌、结直肠癌、食管癌、胰腺癌、膀胱癌、肾癌、鼻咽癌、骨肉瘤、脑胶质瘤、口腔癌、皮肤黑色素瘤、胆管癌、胆囊癌、甲状腺癌、前列腺癌、喉癌、阴茎癌、睾丸癌、乳腺癌、卵巢癌、宫颈癌、子宫内膜癌中的一种或多种。
在一个或多个实施方案中,所述试剂盒还包含选自以下的一种或多种:血液采集装置、血液DNA提取试剂、DNA片段化试剂、接头、固相载体、PCR所需试剂、缓冲液、DNA纯化试剂。
在一个或多个实施方案中,所述探针组以分别、任意组合或全部组合的形式存在于试剂盒中。优选地,所述探针组以全部组合的形式存在于试剂盒。
本发明还提供本文任一实施方案所述的探针组或试剂盒在建立癌症相关文库中的应用,所述文库包含表1所示基因中一个或多个(例如至少15个、20个、50个、100个、150个、250个)或全部基因的感兴趣的外显子序列,优选所述基因的全部外显子序列。
本发明还提供一种癌症相关基因文库,包含表1所示的基因中一个或多个(例如至少15个、20个、50个、100个、150个、250个)或全部基因的感兴趣的外显子序列,优选所述基因的全部外显子序列。
在一个或多个实施方案中,各基因的外显子序列包括与表2所示的相应基因的探针序列或其逆向互补序列杂交的来自相应基因的序列,或包括与SEQ ID NO:1-260中相应基因的探针序列或其逆向互补序列杂交的来自相应基因的序列。
本发明还提供所述癌症基因相关文库在基因测序中的应用,例如二代测序。
本发明还提供癌症相关基因文库的制备方法,所述文库包含表1所示的基因中一个或多个(例如至少15个、20个、50个、100个、150个、250个)或全部基因的感兴趣的外显子序列(优选全部外显子序列),所述方法包含如下步骤:
(1)捕获基因的目的片段,所述目的片段能与表2所示的相应基因的探针序列或其逆向互补序列杂交,或能与SEQ ID NO:1-260中相应基因的探针序列或其逆向互补序列杂交,
(2)扩增目的片段,得到的扩增产物构成癌症相关基因文库。
在一个或多个实施方案中,所述方法包含如下步骤:
(1)使用本发明第二方面任一实施方案所述的探针组对DNA片段进行杂交捕获,获得目的片段;
(2)将目的片段扩增,得到的扩增产物构成癌症相关基因文库。
在一个或多个实施方案中,步骤(2)包括:将目的片段纯化后再PCR扩增。
在一个或多个实施方案中,所述DNA片段是cfDNA。
在一个或多个实施方案中,所述DNA片段具有粘性末端。
在一个或多个实施方案中,所述DNA片段源自血液、血浆或血清。
在一个或多个实施方案中,所述DNA片段连接有接头。
在一个或多个实施方案中,所述DNA片段是cfDNA经末端补平、3’端加A、接头连接和扩增所获得的DNA分子。
本发明还提供一种突变检测方法或癌症诊断方法,包括对包含表1所示基因中的一个或多个或全部基因(例如至少15个、20个、50个、100个、150个、250个或全部基因)的外显子序列的外显子库进行测序以检测是否存在突变或是否存在与所述癌症相关的突变。
在一个或多个实施方案中,各基因的外显子序列包括与表2所示的相应基因的探针序列或其逆向互补序列杂交的来自相应基因的序列,或包括与SEQ ID NO:1-260中相应基因的探针序列或其逆向互补序列杂交的来自相应基因的序列。
在一个或多个实施方案中,所述测序的测序深度为至少500x,例如至少800x、至少1000x。
在一个或多个实施方案中,所述外显子库是由本文所述的癌症相关基因文库的制备方法制备得到的癌症相关基因文库。
在一个或多个实施方案中,所述方法在测序前还包括本文所述的癌症相关基因文库的制备方法的步骤。
在一个或多个实施方案中,所述方法在测序后还包括从测序读数中确定一致性序列和突变检测。具体包括:对含有UMI的原始FASTQ文件提取双端分子标签信息,进行基因组比对和分组,进行双链一致性序列分析,和进行突变检测。所述突变检测包括将样品的测序数据与基因的野生型序列比较,从而鉴定所述基因的突变(包括突变类型、突变位点、突变序列或突变水平),其中,突变频率大于0.2,支持突变的序列数大于或等于2。
在一个或多个实施方案中,所述癌症是选自肺癌、胃癌、肝癌、结直肠癌、食管癌、胰腺癌、膀胱癌、肾癌、鼻咽癌、骨肉瘤、脑胶质瘤、口腔癌、皮肤黑色素瘤、胆管癌、胆囊癌、甲状腺癌、前列腺癌、喉癌、阴茎癌、睾丸癌、乳腺癌、卵巢癌、宫颈癌、子宫内膜癌中的一种或多种。
本发明还提供介质,其上记载有本文第一方面所述的生物标志物。所述介质用于与测序数据比对以鉴定所述基因的突变。
在一个或多个实施方案中,所述介质上记载有选自以下的一种或多种内容:基因名称、基因序列、基因在染色体上的位置、基因的突变位点或其序列。在一个或多个实施方案中,所述突变是与肿瘤相关的突变。所述突变优选SNV和/或InDel。在一个或多个实施方案中,所述基因序列是外显子序列。
在一个或多个实施方案中,各基因的外显子序列包括能与表2所示的相应基因的探针序列或其互补序列杂交的来自相应基因的序列,或包括与SEQ ID NO:1-260中相应基因的探针序列或其逆向互补序列杂交的来自相应基因的序列。
在一个或多个实施方案中,所述介质是印有所述内容的卡片,例如纸质、塑料、金属、玻璃卡片。
在一个或多个实施方案中,所述介质是存储有计算机程序的计算机可读介质,当所述计算机程序被处理器执行时,实现下述步骤:将样品的测序数据与基因的野生型序列比较,从而鉴定所述样品中所述基因的突变,包括突变类型、突变位点、突变序列或突变水平。优选地,所述计算机程序被处理器执行时,实现本文所述的突变检测方法或癌症诊断方法。
本发明还提供探针或介质在制备癌症相关基因文库或癌症诊断产品(例如试剂盒或癌症诊断装置)中的用途,所述探针能从cfDNA中杂交捕获表1所示基因中的一个或多个或全部,例如至少15个、20个、50个、100个、150个、250个或全部基因。
在一个或多个实施方案中,所述探针是所述基因的叠瓦式探针,覆盖所述基因的感兴趣的外显子序列,优选全部外显子序列。
在一个或多个实施方案中,所述癌症是选自肺癌、胃癌、肝癌、结直肠癌、食管癌、胰腺癌、膀胱癌、肾癌、鼻咽癌、骨肉瘤、脑胶质瘤、口腔癌、皮肤黑色素瘤、胆管癌、胆囊癌、甲状腺癌、前列腺癌、喉癌、阴茎癌、睾丸癌、乳腺癌、卵巢癌、宫颈癌、子宫内膜癌中的一种或多种。
在一个或多个实施方案中,所述探针选自本发明第二方面任一实施方案所述的探针组,其用于如下方法:
(1)使用所述探针组对DNA片段进行杂交捕获,获得目的片段;
(2)将目的片段扩增,得到的扩增产物构成癌症相关基因文库。
(3)对所述文库进行测序,测序深度为至少500x。
在一个或多个实施方案中,所述DNA片段是cfDNA。
在一个或多个实施方案中,所述DNA片段是cfDNA经末端补平、3’端加A、接头连接和扩增所获得的DNA分子。
在一个或多个实施方案中,所述癌症相关基因文库包含表1所示的260个基因中一个或多个(例如至少15个、20个、50个、100个、150个、250个)或全部基因的感兴趣的外显子序列,优选所述基因的全部外显子序列。
具体实施方式
发明人构建了一组与肿瘤发病高度相关的基因panel,并建立一种更加精准的检测方法,设计检测探针和分子标签标记引物,从血液提取的DNA中获得肿瘤相关基因突变信息,再经过生物信息学手段分析数据比对参考基因位点,得到肿瘤早期筛查基因突变分析报告。对循环游离DNA的基因突变检测灵敏度要达到千分之五,检测突变位点数需尽可能丰富。
本发明通过结合MSK-IMPACT、FoundationOne CDx及MD Andersen相关数据库,筛选出与主流癌症发病密切相关的260个基因,基于二代测序技术,利用靶向捕获方法富集260个基因的全部外显子区域,设计并优化合成特异性的叠瓦式探针,提高对模板区域的捕获效率;采用分子标签标记引物(例如双端分子标签(UMI))技术进行质控,随后对富集的捕获产物进行高通量测序,使用完善分析的预测模型,有效过滤测序中的假阳性突变,进而达成丰富肿瘤标志物类型、提升检测准确度、扩大覆盖癌种、提升检测价值的意义。
进行泛癌种基因panel的ctDNA检查方案的优点有:ctDNA突变具有较高的敏感性和特异性;ctDNA检测可以通过外周血完成,对人体伤害小;ctDNA实时反映体内目前状态,连续监测可从本质上反应肿瘤的动态变化。本发明探针在商业化标准品阳性位点的检出情况与标准品说明书相符。另外在21例真实样本中检出4例阳性,且与阳性检出者的体验报告一致。
发明人发现,表1所示的260基因包含与特定癌症相关的关键基因组合,通过检测这些基因的突变,使用cfDNA即可对所述癌症进行泛癌风险评估和诊断。这260个基因是能准确检测所述癌症的最少基因组合。如果减少基因,则对某一癌症的检测精确性显著下降;即使增加基因,对这些癌症的检测精确性没有明显提升,但是会显著增加测序和分析的时间和复杂性。
本文中,“癌症”或“相关癌症”包括:肺癌、胃癌、肝癌、结直肠癌、食管癌、胰腺癌、膀胱癌、肾癌、鼻咽癌、骨肉瘤、脑胶质瘤、口腔癌、皮肤黑色素瘤、胆管癌、胆囊癌、甲状腺癌、前列腺癌、喉癌、阴茎癌、睾丸癌、乳腺癌、卵巢癌、宫颈癌、子宫内膜癌。
本发明首先提供标志物,包括260基因中一个或多个,优选包括至少15、20、50、100、150、250或全部,所述标志物与选自以下的癌症相关:肺癌、胃癌、肝癌、结直肠癌、食管癌、胰腺癌、膀胱癌、肾癌、鼻咽癌、骨肉瘤、脑胶质瘤、口腔癌、皮肤黑色素瘤、胆管癌、胆囊癌、甲状腺癌、前列腺癌、喉癌、阴茎癌、睾丸癌、乳腺癌、卵巢癌、宫颈癌、子宫内膜癌中的一种或多种。所述260基因包括:
原癌基因113个:ABL1、AFF3、AKT1、AKT2、AKT3、ALK、AR、AXL、BCL2、BCL2L1、BCL6、BRAF、BRD4、CALR、CARD11、CBL、CCND1、CCND2、CCND3、CCNE1、CD79A、CD79B、CDK4、CDK6、CSF1R、CTNNB1、DDR2、DNMT3A、EGFR、ERBB2、ERBB3、ERBB4、ERG、ETS1、EZH2、FGF14、FGF4、FGF5、FGF6、FGF7、FGF8、FGF9、FGFR1、FGFR3、FGFR4、FLI1、FLT1、FLT3、FOXL2、GNA11、GNAQ、GNAS、H3F3A、HRAS、IDH1、IDH2、IGF1R、JAK1、JAK2、JAK3、JUN、KDM5A、KDR、KIT、KMT2A、KRAS、LYN、MAP2K1、MAP2K2、MAPK1、MDM2、MDM4、MED12、MET、MITF、MPL、MTOR、MYC、MYCL、MYCN、MYD88、NFE2L2、NRAS、NRG1、NSD2、NSD3、NTRK1、NTRK2、NTRK3、PAX3、PDGFRA、PDGFRB、PIK3CA、PIK3CB、PPP2R1A、PREX2、PTPN11、RAC1、RAF1、REL、RET、RICTOR、ROS1、RPS6KB1、SF3B1、SMO、SOX2、SRC、STAT3、SYK、TRRAP、U2AF1、XPO1,
抑癌基因91个:APC、ARID1A、ARID2、ASXL1、ATM、ATR、ATRX、AXIN1、B2M、BAP1、BARD1、BCOR、BRCA1、BRCA2、BRIP1、CD274、CDH1、CDK12、CDKN2A、CDKN2B、CDKN2C、CEBPA、CHEK1、CHEK2、CIC、CREBBP、CTCF、CUL3、DAXX、EED、EP300、ERCC2、ESR1、ABRAXAS1、FANCA、FANCC、FANCI、FANCL、FAT1、FAT4、FBXW7、FHIT、GATA3、GRIN2A、HNF1A、IKZF1、INPP4B、KMT2C、KMT2D、LRP1B、MAP3K1、MEN1、MLH1、MRE11、MSH2、MSH3、MSH6、MUTYH、NBN、NF1、NPM1、PALB2、PAX5、PIK3R1、PMS2、PRDM1、PTCH1、PTEN、PTPRT、RB1、SDHA、SETD2、SMAD2、SMAD4、SMARCA4、SMARCB1、SOCS1、SPEN、SPOP、STAG2、STK11、TENT5C、TET2、TGFBR2、TNFAIP3、TNFRSF14、TP53、TSC1、TSC2、VHL、XRCC2,
原癌抑癌基因7个:BTK、FGFR2、KDM6A、NOTCH1、NOTCH2、RHOA、WT1,
其他肿瘤相关基因49个:CSF3R、DIS3、EML4、ERCC1、ETV1、ETV4、ETV5、ETV6、EWSR1、FGF1、FGF10、FGF19、FGF2、FGF23、FGF3、GEN1、HIST1H1C、ID3、IRF4、IRS2、KIF5B、LAMP1、MAX、MCL1、MEF2B、MLLT3、NFKBIA、NKX2-1、NOTCH3、PARP1、PAX7、PDCD1、PDCD1LG2、PIK3CD、PIK3CG、POLE、PPARG、PPP2R2A、RAD21、RAD51、RAD51B、RAD51C、RAD51D、RAD54L、RXRA、SLX4、TERT、TFRC、TMPRSS2。
本文中,“原癌抑癌基因”或“原癌/抑癌基因”指同时具有原癌基因和抑癌基因功能的基因。
表1:基因清单
本发明还提供能杂交捕获表1所示基因中至少15个、20个、50个、100个、150个、250个或全部基因的探针组。在示例性实施例中,所述探针是所述基因的叠瓦式探针,覆盖260个所述基因的外显子序列。所述探针优选是RNA。在示例性实施方案中,所述探针的DNA序列如SEQ ID NO:1-260所示。这些探针和基因的对应关系如表2所示。
表2
本发明还提供从cfDNA中检测相关癌症的试剂盒,所述试剂盒包含本文所述的探针组,用于检测表1所示基因中至少15个、20个、50个、100个、150个、250个或全部基因。所述试剂盒还可包含选自以下的一种或多种:血液采集装置、血液DNA提取试剂、DNA片段化试剂、接头、固相载体、PCR所需试剂、缓冲液、DNA纯化试剂。在所述试剂盒中,探针组可以以分别、任意组合或全部组合的形式存在于试剂盒中。优选地,所述探针组以全部组合的形式存在于试剂盒。
本发明的探针组或试剂盒可用于构建癌症相关文库,该文库包含表1所示基因中至少15个、20个、50个、100个、150个、250个或全部基因的感兴趣的外显子序列。
制备癌症相关文库的方法,包含如下步骤:(1)使用本发明所述的探针组对DNA片段进行杂交捕获,获得目的片段;(2)将目的片段扩增,得到的扩增产物构成癌症相关文库。目的片段可经纯化再扩增。所述DNA片段可以是源自血液、血浆或血清的cfDNA,也可以是含有肿瘤细胞基因组DNA的肿瘤组织DNA样品。所述cfDNA在杂交前经末端补平、3’端加A、接头连接和扩增以提高杂交效率。
在一些实施方案中,本文所述的制备癌症相关文库的方法包括:(1)从血浆中提取cfDNA,获得0.2-4ng/ul的样品DNA;(2)用End Repair-A Tailing将DNA末端修复并加A尾;(3)用SureSelect XT HS2 Adaptor Oligo Mix对DNA加接头;(4)使用Ampure XP磁珠纯化DNA;(5)使用SureSelect XT HS2 Index Primer Pair和HerculaseⅡFusion DNAPolymerase扩增已连接接头的DNA;(6)使用AMPure XP磁珠纯化扩增后的DNA,获得DNA文库;(7)将能杂交表1所示260个基因的探针与DNA文库杂交,杂交程序为:95℃5分钟,65℃10分钟,(65℃1分钟)*60循环,37℃3秒,65℃保持;(8)使用链霉亲和素磁珠捕获杂交的文库;(9)使用HerculaseⅡFusion DNA Polymeras和SureSelect Post-Capture Pirmer Mix扩增杂交的文库;(10)使用AMPure XP磁珠纯化扩增后的杂交文库。更具体的制备癌症相关文库的方法如实施例1所述。
利用上述癌症相关文库,本发明提供一种突变检测方法或癌症诊断方法,包括对所述癌症相关文库进行测序以检测是否存在突变或是否存在与所述癌症相关的突变的步骤。本文所述的测序可以是现有技术中已知的任何测序方法,优选二代测序,例如illumina的二代测序平台。通常所述测序的测序深度至少为500x。所述突变包括点突变、插入突变、缺失突变。
测序后的分析过程通常需要从测序读数中确定一致性序列和突变检测。这具体包括:对含有UMI的原始FASTQ文件提取双端分子标签信息,进行基因组比对和分组,进行双链一致性序列分析,和进行突变检测。所述突变检测包括将样品的测序数据与基因的野生型序列比较,从而鉴定所述基因的突变(包括突变类型、突变位点、突变序列或突变水平),其中,突变频率大于0.2,支持突变的序列数大于或等于2。
在一些实施方案中,本文所述的测序后的分析过程包括:(1)测序数据预处理:包括对数据进行MD5校验,和/或,使用picard进行格式转换;(2)提取双端分子标签信息:使用fgbio软件的ExtractUmisFromBam模块提取双端分子标签信息;(3)基因组比对:使用GATK和BWA将测序结果比对到基因组从而确定位置信息;(4)一致性读长序列过滤:使用fgbio软件进行一致性序列读长分析、过滤和修剪;(5)使用VarDict进行突变位点检测;(6)使用annovar进行突变位点注释;(7)筛选阳性突变位点。其中,步骤(4)的过滤条件包括:(I)过滤掉一致性序列数低于min-read值的reads。例如,6、3、3数字分别代表:双链一致性序列、一条单链的一致性序列、另一条单链的一致性序列,这三者要求达到的最低支持读长数量分别为2、1、1。(II)过滤掉错误率高于max-read-error-rate值的一致性序列read。例如,0.2表示双链一致性序列、一条单链的一致性序列、另一条单链的一致性序列,这三者允许的最大错误率分别为0.2、0.2、0.2。其中,步骤(7)的筛选包括剔除以下位点:(a)位于基因间区、内含子区、5'端非翻译区、3'端非翻译区的位点;(b)同义突变位点;(c)突变频率小于0.2的位点;(d)支持突变的序列数小于2的位点。
本发明另一方面还提供介质,其上记载有本文所述的标志物。所述介质用于与测序数据比对以鉴定所述基因的突变。例如,所述介质上记载有选自以下的一种或多种内容:基因名称、基因序列(优选外显子序列)、基因在染色体上的位置、基因的突变位点或其序列。所述突变是与本文所述癌症相关的突变。所述突变优选SNV和/或InDel。
所述介质可以是印有所述内容的卡片,例如纸质、塑料、金属、玻璃卡片。还可以是存储有计算机程序的计算机可读介质,当所述计算机程序被处理器执行时,实现下述步骤:将样品的测序数据与基因的野生型序列比较,从而鉴定所述样品中所述基因的突变,包括突变类型、突变位点、突变序列或突变水平。优选地,所述计算机程序被处理器执行时,实现本文所述的突变检测方法或癌症诊断方法。
本发明还提供本文所述探针组或介质在制备癌症相关文库或癌症诊断产品(例如试剂盒)中的用途,所述探针能从cfDNA中杂交捕获表1所示基因中的一个或多个或全部,例如至少15个、20个、50个、100个、150个、250个或全部基因。所述癌症、试剂盒如本文他处所述。
本发明还提供了一种泛癌检测方法,包括以下步骤,步骤S1:获得检测样本DNA(所述样本DNA为血浆中的cfDNA);步骤S2:样本DNA文库的构建,然后采用Agilent文库构建试剂盒进行文库制备(主要步骤有:末端补平,3’端加“A”,接头连接,纯化,文库扩增,纯化。文库制备完成后将其置于-20℃保存);步骤S3:构建本发明所述检测panel的检测探针,与DNA文库杂交捕获,并测序;步骤S4:对测序结果进行生物学信息分析,获得样本突变结果;步骤S5:将样本突变结果与所述检测panel进行比对,得到该样本基因突变结果。
实施例
实施例1
使用streck采血管采集20ml外周血后按照下述步骤进行处理。
步骤一:cfDNA提取
1.1预冷离心机,温度设置为4℃,1900g离心10min,吸取上清血浆,转移至EP管中后16000g离心10min,吸取上清血浆。
1.2使用QIAsymphony自动化平台提取血浆游离DNA(cfDNA)。
并使用qubit测定浓度,使用Bioanalyzer2100检测核酸片段分布情况。
步骤二:文库构建准备工作
2.1样本准备:配置50ul体积的DNA样本,样本总量在10-200ng。
2.2按照下表配置接头连接混合物(Ligation master mix)
表3:接头连接混合物配置体系
| 反应物 |
1次反应体积 |
| Ligation Buffer |
23μl |
| T4 DNA Ligase |
2μl |
| 合计 |
25μl |
步骤三:末端修复及加A尾(ERA)
3.1按照下表在PCR仪上设置ERA程序。
表4:ERA步骤PCR程序
| 步骤 |
温度 |
时间 |
| 步骤1 |
20℃ |
15分钟 |
| 步骤2 |
72℃ |
15分钟 |
| 步骤3 |
4℃ |
Hold |
3.2按照下表配置ERA mix。
表5:ERA反应体系
| 反应物 |
1次反应体积 |
| End Repair-A Tailing Buffer |
16μl |
| End Repair-A Tailing Enzyme Mix |
4μl |
| 合计 |
20μl |
3.3向每个样本(50ul)中加入20ul ERA mix。并迅速将样本放入PCR热循环仪中,并立即开始ERA程序。程序运行至4℃hold时,立即将样本取出置于4℃预冷的冰盒上。
步骤四:接头连接(Ligation the molecular-barcoded adaptor)
4.1按照下表在PCR仪上设置Ligation步骤。
表6:ligation步骤PCR程序
| 步骤 |
温度 |
时间 |
| 步骤1 |
20℃ |
30分钟 |
| 步骤2 |
4℃ |
保持 |
4.2向每个样本(70ul)中加入25ul ligation master mix,彻底涡旋混匀后,再加入5ul SureSelect XT HS2 Adaptor Oligo Mix,彻底涡旋混匀后瞬时离心。
4.3将样本放入PCR仪中,运行Ligation程序。
步骤五:使用Ampure XP磁珠纯化样本
5.1确保Ampure XP磁珠在使用前已在室温平衡30min。
5.2每个样本需配置400ul的70%乙醇,需要现用现配。
5.3向每个样本中加入80ul AMPure XP beads。彻底涡旋混匀,室温放置10min。
5.4将样本放置到磁力架上,直至液体澄清后小心吸弃上清。
5.5样本仍放置在磁力架上,每个样本加入200ul 70%乙醇,静置1min后,弃上清。重复该步骤一次。
5.6管子置于磁力架上,室温静置晾至磁珠干燥(5~10min)。
5.7向每个样本中加入36ul nuclease-free水。彻底涡旋混匀后,室温孵育5min,随后离心10s。
5.8将样本置于磁力架上,当样本澄清后(约1min),取34ul上清至新的200ul离心管中,置于4℃预冷冰板上。丢弃有磁珠的离心管。
步骤六:扩增已连接接头的文库(Pre PCR扩增)
6.1按照下表,在灭菌的200ul/1.5ml离心管中配置Pre PCR mix,将配置后的PrePCR mix彻底涡旋混匀,置于冰上待用。
表7:Pre PCR反应mix配置体系
| 反应物 |
1次反应体积 |
| 5x HerculaseⅡBuffer with dNTPs |
10μl |
| HerculaseⅡFusion DNA Polymerase |
1μl |
| 合计 |
11μl |
6.2向每个样本中加入11ul PCR反应混合液,彻底涡旋混匀后顺离。
6.3不同样本加入5ul不同的SureSelect XT HS2 Index Primer Pair。
6.4按照下表选择扩增循环数。
表8:DNA投入量与循环数对应表
| DNA投入量 |
循环数 |
| 100-200ng |
8 |
| 10-100ng |
9 |
| <10ng |
11 |
6.5按照下表,在PCR仪上设置扩增程序。将样本放入PCR仪上后,开始运行扩增程序。(循环数参考6.4步骤表格)
表9:Pre PCR步骤PCR程序
步骤七:使用AMPure XP磁珠纯化扩增后的文库
7.1确保Ampure XP磁珠在使用前已在室温平衡30min。
7.2每个样本需配置400ul的70%乙醇,需要现用现配。
7.3向每个样本中加入80ul混匀后的AMPure XP beads。彻底涡旋混匀,室温放置10min。
7.4将样本放置到磁力架上,直至液体澄清后小心吸弃上清。
7.5样本仍放置在磁力架上,每个样本加入200ul 70%乙醇,静置1min后,弃上清。重复该步骤一次。
7.6管子置于磁力架上,室温静置晾至磁珠干燥(5~10min)。
7.7向每个样本中加入15ul nuclease-free水。彻底涡旋混匀后,室温孵育5min,随后离心10s。
7.8将样本置于磁力架上,当样本澄清后(约1min),取14ul上清至新的200ul离心管中,置于4℃预冷冰板上。丢弃磁珠的离心管。
步骤八:Pre PCR纯化后文库质控
8.1配置Qubit试剂。对稀释后的Pre PCR纯化后文库进行定量。
步骤九:杂交捕获
9.1彻底涡旋混匀Blocker mix(SureSelect XT HS2 Blocker Mix),向配置好的Pre PCR文库中加入5ul Blocker mix。
9.2按照下表,在PCR仪上设置杂交程序。设置反应体积30ul,热盖105℃。
表10:杂交捕获步骤PCR程序
9.3将样本放入PCR仪中,开始进行杂交程序,并计时15min。
注意:杂交程序中的步骤3为暂停步骤,当程序运行到步骤3时,暂停程序。
9.4按照下表,配置25%RNase block溶液,置于冰上待用。
表11:25%RNase block溶液配置体系
| 反应物 |
单个反应体积 |
| SureSelect RNase Block |
0.5ul |
| Nuclease-free water |
1.5ul |
| Total |
2ul |
9.5按照下表配置探针。配置好的探针彻底涡旋混匀并瞬离后,放置于室温中,在15min内,将探针加入到PCR仪上的样本中。
表12:探针配制体系
| 反应物 |
单个反应体积 |
| 25%RNase Block solution(from step 9.4) |
2ul |
| Probe(with design<3MB) |
2ul |
| SureSelect Fast Hybridization Buffer |
6ul |
| Nuclease-free water |
3ul |
| Total |
13ul |
9.6此时杂交程序暂停在步骤3上。打开PCR仪盖子,打开1个样本管盖,加入13ul配置好的探针并吹打混匀10次。所有样本都加入配置好的探针并吹打混匀后将样本放回PCR仪上,继续进行杂交程序。
步骤十:准备链霉亲和素磁珠
10.1涡旋混匀Dynabeads Myone Streptavidin T1 Beads。
10.2对于每例杂交样本,在新的PCR管中加入50ul重悬后的T1磁珠。
10.3清洗T1磁珠:向50ul T1磁珠中加入200ul Binding Buffer,彻底涡旋混匀并瞬离后,置于磁力架上1min,吸弃上清。重复该步骤3次。清洗结束后将T1磁珠重悬于200ul的binding buffer中。
步骤十一:使用链霉亲和素磁珠捕获杂交文库
11.1完成链霉亲和素磁珠清洗后,将杂交完成后的文库(30ul)取出,瞬离后立即加入重悬于200ul binding buffer的T1磁珠中。
11.2将杂交文库和T1磁珠的混合物放到恒温金属浴上,1500rpm,室温下孵育30min。
11.3在此30分钟孵育期间,将SureSelect Wash Buffer2在70℃下进行预热:将200ul Wash Buffer 2分装到8联排中,每个样本需要6个200ul Wash Buffer 2。将分装号的Wash Buffer 2放置到热循环仪上,温度设置为70℃,热盖105℃,体积100ul,进行孵育。
11.4带有杂交文库和T1磁珠的混合物室温孵育完成后,瞬时离心,置于磁力架上,待液体澄清后,吸弃上清。
11.5将捕获文库从磁力架上取下,加入200ul Wash Buffer 1,移液枪吹打混匀15~20次,直到磁珠彻底混匀,全部转移到200ul离心管中,下一步在70℃孵育的PCR仪旁操作。
11.6将带有捕获文库和T1磁珠的200ul离心管置于磁力架上,吸弃上清。
11.7向带有捕获文库和T1磁珠的200ul离心管中加入200ul 70℃的Wash Buffer2,盖好盖子,涡旋混匀8s,瞬时离心,70℃孵育5min后,将200ul离心管置于磁力架上,待液体澄清后,吸弃上清。重复该步骤5次,共6次。
11.8将200ul离心管瞬时离心,置于磁力架上,彻底吸弃干净管中残留的WashBuffer 2。向样本中加入25ul无核酸酶水,置于4℃预冷冰板上。
步骤十二:Post PCR扩增
12.1按照下表配置Post PCR mix,彻底涡旋混匀并瞬离,置于冰上待用。
表13:Post PCR反应体系
12.2向每个捕获文库中加入25ul Post PCR mix,彻底涡旋混匀,稍稍瞬离,置于冰板上待用。
12.3按照下表设置Post PCR扩增程序。将样本放到PCR仪上,开始进行Post PCR扩增程序。
表14:Post PCR反应PCR程序
步骤十三:使用AMPure XP磁珠纯化扩增后的文库
13.1确保Ampure XP磁珠在使用前已在室温平衡30min。
13.2每个样本需配置400ul的70%乙醇,需要现用现配。
13.3向每个样本中加入50ul混匀后的AMPure XP beads。彻底涡旋混匀,室温孵育10min后,瞬时离心。
13.4将样本放置到磁力架上,直至液体澄清(约1min)。小心吸弃上清,注意不要碰到磁珠。
13.5样本仍放置在磁力架上,每个样本加入200ul 70%乙醇,静置1min后弃上清。重复该步骤一次。
13.6管子置于磁力加上,室温静置晾至磁珠不反光(5~10min)。
13.7向每个样本中加入20ul nuclease-free水。彻底涡旋混匀后,水平放置,室温孵育5min,随后离心10s。
13.8将样本置于磁力架上,当样本澄清后(约1min),取19ul上清至新的1.5ml离心管中,置于4℃预冷冰板上。丢掉有磁珠的离心管。
13.9Post PCR纯化后文库质控:配置Qubit试剂。对Post PCR纯化后文库进行定量,并记录。使用Bioanalyzer 2100对Post PCR纯化后文库片段分布进行质控。
质控结果如下表所示。
表15:质控结果
注:
1.DNA总量(ng):送检样本提取的DNA总量,不同样本类型具有不同的质控标准;
2.DNA质量:根据提取DNA总量及DNA片段大小将判断等级,分为合格、不合格两部分,不合格则不能满足检测要求;
3.下机产量(G):样本测序下机数据量;
4.碱基质量Q30:送检样本测序数据中碱基质量能达到Q30及以上(表示碱基识别错误的概率低于0.1%,即碱基识别正确率超过99.9%)的比例;
5.质控结果总体解析:综合所有的质控参数,将样本总体质量评估结果分为“合格”、“风险预警”和“不合格”三个等级,整体质量结果评估为“风险预警”和“不合格”均可能会影响此次检测的准确性和敏感性。
实施例2
使用illumina的平台对实施例1的文库进行二代测序(使用illuminaNextseq2000或其他型号测序仪)
步骤一:原始下机数据预处理
1.1数据下载完成后进行MD5校验数据完整性,数据通过校验后进行后续数据分析步骤。
步骤二:文件格式转换
2.1将FASTQ数据转换成未比对的BAM文件,这一步可用picard工具实现,GATK4已经集成了picard全部功能,我们这里直接用GATK来完成转换。
步骤三:提取双端分子标签信息
3.1文件中提取双端分子标签信息,记录在BAM文件中的RX标签中,以便进行后续分析。这里我们使用fgbio软件的ExtractUmisFromBam模块来完成。
步骤四:基因组比对
4.1提取双端分子标签信息后,需要比对到基因组从而确定位置信息。之后将分子标签信息和比对信息存储在BAM文件中,用于后续分析使用。
4.2先将带UMI标签的非比对BAM文件转换成FASTQ文件,此步骤采用GATK中的SamToFastq功能完成。
4.3使用BWA软件将上一步输出的FASTQ文件比对到参考基因组上,此步骤BWA中mem功能完成。
4.4将比对后的BAM文件和未比对的BAM文件合并,此步骤采用GATK中的MergeBamAlignment功能完成。
步骤五:寻找一致性读长(Call Consensus Reads)
5.1此分析步骤利用起始终止位置信息及双端分子标签寻找同一来源的reads,生成一致性reads,再通过不同过滤条件生成符合分析要求的一致性序列。
5.2相同原始分子的读长分组(Group):在基因组上具有相同的起始和终止位置信息的reads先被分为一组,再根据携带的分子标签信息进行细分。使用fgbio软件中的GroupReadsByUmi功能,对BAM文件中存储的分子标签序列、read1和read2的位置信息进行处理,获得相同来源的分子信息。
5.3一致性序列读长分析(Calls duplex consensus reads):双链一致性序列读长分析通过同一个DNA分子双链产生的两类读长(*/A和*/B)间的互相校正实现。所有相同的唯一分子(相同分子标签和比对位置)读长先通过一致性分析,形成单链一致性序列(single strand consensus sequence)。之后根据两条互补单链信息,再进行双链一致性分析。无法形成单链一致性序列的read或无法寻找到互补链的单链读长,均不会生成最终一致性序列读长。使用fgbio软件中的CallDuplexConsensusReads功能完成此步骤分析。
步骤六:突变检测前的数据处理
6.1完成上述步骤后,一致性序列在突变检测前需要先转换为FASTQ文件,然后进行基因组比对。
6.2 BWA软件将上一步输出的FASTQ文件比对到参考基因组上,此步骤使用BWA中mem功能完成。
6.3从将比对后的BAM文件和未比对的BAM文件合并,此步骤采用GATK中的MergeBamAlignment功能完成。
步骤七:一致性读长序列过滤
7.1一致性序列读长过滤包括对单个碱基进行遮蔽或过滤,也可以过滤掉读长信息,这主要利用上一步骤中每个碱基的Tag值进行。读长过滤通过设置条件,分别对R1和R2的比对信息进行;一旦不符合条件,所有相关读长和一致性序列均会被过滤掉。使用fgbio软件中的FilterConsensusReads功能完成此步骤分析。
7.2过滤条件:
一致支持一致性序列的read数低于min-read值的会被过滤掉。示例中的63 3数字分别代表:双链一致性序列、一条单链的一致性序列、另一条单链的一致性序列,这三者要求达到的最低支持读长数量分别为2 1 1。
错误率高于max-read-error-rate值的一致性序列read会被过滤掉。示例中0.2表示双链一致性序列、一条单链的一致性序列、另一条单链的一致性序列,这三者允许的最大错误率分别0.2 0.2 0.2(当属入一个值时,后二者默认与第一个值相同)。
步骤八:一致性读长序列修剪
8.1同一分子来源的多条read需要通过修剪,去除重叠区域以避免对同一突变的重复计数。使用fgbio软件中的ClipBam功能完成此步骤分析。
步骤九:突变位点检测
9.1突变检测使用软件VarDict进行,分析命令如下,共包含四个步骤:首先使用软件中的vardict功能进行变异分析,然后用teststrandbias.R功能对链偏好性进行矫正和过滤,再用var2vcf_valid.pl将原始变异分析内容转换成vcf文件的格式,最后使用Sortvcf功能对vcf突变文件进行排序。
步骤十:突变位点注释
10.1完成变异检测后,我们需要对结果进行注释,此步骤我们使用软件annovar完成。
步骤十一:过滤后阳性位点筛选
11.1变异检测结果完成注释之后,我们还需要筛选出阳性位点,此步骤采用以下筛选条件进行筛选:
位点在基因间区、内含子区、5'端非翻译区、3'端非翻译区的都要剔除掉;剔除同义突变位点;
位点突变频率要小于0.2;
支持突变的序列数为2或以上。
实施例3,实验结果
选取商业化标准品(Multiplex I cfDNA Reference Standard Set,Horizon公司,货号:HD780,批号为:46125)和21例来自医院的真实样本(志愿者已签署知情同意书)进行验证。
商业化cfDNA标准品突变检测结果如下表所示。
表16:标准品检测结果
21例真实样本检测结果如下表所示,其中检出4例阳性,与阳性检出者的体验报告一致。
表17:真实样本阳性检出结果