CN121079437A - 启动子甲基化检测 - Google Patents
启动子甲基化检测Info
- Publication number
- CN121079437A CN121079437A CN202480025161.8A CN202480025161A CN121079437A CN 121079437 A CN121079437 A CN 121079437A CN 202480025161 A CN202480025161 A CN 202480025161A CN 121079437 A CN121079437 A CN 121079437A
- Authority
- CN
- China
- Prior art keywords
- methylation
- cancer
- nucleic acid
- sample
- dna
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6876—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
- C12Q1/6883—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
- C12Q1/6886—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material for cancer
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q2600/00—Oligonucleotides characterized by their use
- C12Q2600/106—Pharmacogenomics, i.e. genetic variability in individual responses to drugs and drug metabolism
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q2600/00—Oligonucleotides characterized by their use
- C12Q2600/154—Methylation markers
Landscapes
- Chemical & Material Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Organic Chemistry (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Engineering & Computer Science (AREA)
- Immunology (AREA)
- Pathology (AREA)
- Analytical Chemistry (AREA)
- Zoology (AREA)
- Genetics & Genomics (AREA)
- Wood Science & Technology (AREA)
- Physics & Mathematics (AREA)
- Biotechnology (AREA)
- Microbiology (AREA)
- Molecular Biology (AREA)
- Hospice & Palliative Care (AREA)
- Biophysics (AREA)
- Oncology (AREA)
- Biochemistry (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本文描述了通过同时检测来自单个患者样品的基因组和表观基因组属性(包括定量启动子甲基化)来选择用于个性化癌症治疗的疗法的方法,诸如诊断,以及用于确定与表观遗传等位基因状态相关的甲基化模式的应用。
Description
相关申请的交叉引用
本申请要求2023年6月23日提交的美国临时专利申请第63/509,917号和2023年4月12日提交的第63/495,688号的权益,其各自通过引用以其整体并入本文。
发明领域
本文描述了通过同时检测来自单个患者样品的基因组和表观基因组属性(包括定量启动子甲基化)来选择用于个性化癌症治疗的疗法的方法,诸如诊断。
背景
癌症患者的疗法选择是不精确的。通常分析来自患者样品的DNA、RNA和蛋白质的模式,其可预测对特定治疗的响应。这些生物标志物的范围可以从单个基因(例如EGFR,通过实时PCR)和蛋白质(例如HER2,通过免疫组织化学)到复杂的基因组特征(例如肿瘤突变负荷,通过下一代测序)。多种类型分析物的测试工作流程通常是分开的,并且由于分离、化学和定量过程等的不兼容性而不能组合。因此,诊断测试无法检查全部范围的提供有用信息的生物标志物,如果需要多组学结果,则必须进行多个、单独的测试。在大多数情况下,由于包括缺乏足够的患者样品在内的多种原因,未进行多项测试,并且基于不完整的信息做出临床决定。
本领域非常需要个性化医疗的改进。通过同时询问患者样品的基因组和表观基因组状态,可以实现对疗法有效性的更准确预测。
本文描述了对源自患者样品的基因组和表观基因组组分两者的信息的同时测试和并入,这样的诊断测试将能够考虑到其他方式不可获得的另外的信息。感兴趣的是甲基化状态,特别是启动子区的甲基化状态,包括与表观遗传等位基因状态相关的甲基化模式,这可以解释基因组改变无法解释患者中治疗的不同效力的情况,包括例如parp抑制剂(PARPi)。
发明概述
本文描述了一种方法,包括:检测多于一个基因中的至少一个的一个或更多个启动子区中的甲基化;以及产生多于一个甲基化判定以定量一个或更多个启动子区的甲基化。在其他实施方案中,方法包括获得样品。在其他实施方案中,方法包括具有获得的样品。在其他实施方案中,方法包括处理一个或更多个启动子区的甲基化的量以表征样品。在其他实施方案中,表征样品包括HRD、癌症衍生的启动子甲基化、结肠直肠癌的家族形式或林奇综合征肿瘤类型。在其他实施方案中,启动子包括转录起始位点(TSS)上游5kb的区域,其中使用以下中的一个或更多个进一步细化5kb区域:定制组区域、在临床样品中发现的甲基化峰以及排除在正常样品中发现的峰。在其他实施方案中,在转录物水平定义TSS。在其他实施方案中,在基因水平定义TSS。在其他实施方案中,方法包括确定通过总阳性对照分子归一化的与靶区重叠的分子数量的比率。在其他实施方案中,方法包括确定比率包括至少基于重叠CpG的数量过滤分子。在其他实施方案中,定量一个或更多个启动子区的甲基化是基于甲基化CpG的数量。在其他实施方案中,方法包括至少基于文献注释、共同甲基化峰位置和/或公共数据集来细化一个或更多个启动子区。在其他实施方案中,基因包括肿瘤抑制基因、HRR基因和IO基因。在其他实施方案中,HRR基因至少包含BRCA1和BRCA2。
在其他实施方案中,方法包括与源自训练样品群体的最小甲基化阈值进行比较。在其他实施方案中,训练样品包括无癌样品。在其他实施方案中,用于判定的最小甲基化阈值包括以下中的至少一个:1-100的最小分子计数,以及每个基因的最小甲基化评分是以下的最大值:95正态分位数+8X105或中位数+5*中位数绝对偏差。在其他实施方案中,定量一个或更多个启动子区的甲基化预测疗法响应。在其他实施方案中,将定量一个或更多个启动子区的甲基化与MSI-H状态相组合。
在其他实施方案中,疗法包括免疫检查点抑制剂、聚(ADP-核糖)聚合酶(PARP)抑制剂、激酶抑制剂或芳香酶抑制剂、或PI3K和mTOR抑制剂中的一种或更多种。在其他实施方案中,免疫检查点抑制剂是帕博利珠单抗(Pembrolizumab)。在其他实施方案中,方法包括聚(ADP-核糖)聚合酶(PARP)抑制剂奥拉帕利(Olaparib)或他拉唑帕利(Talazoparib)。在其他实施方案中,疗法是PI3K和mTOR抑制剂与聚(ADP-核糖)聚合酶(PARP)抑制剂的组合。在其他实施方案中,PI3K和mTOR抑制剂是吉达利塞(Gedatolisib),并且聚(ADP-核糖)聚合酶(PARP)抑制剂是他拉唑帕利。
本文描述了一种方法,包括确定多于一个基因中的至少一个的启动子区,每个基因从多于一个样品获得,确定启动子区的甲基化评分以产生多于一个甲基化判定和/或启动子甲基化的定量,处理多于一个甲基化判定以产生测试样品表现出基因组状态的预测。
本文描述了一种方法,包括确定多于一个基因的启动子区,每个基因从多于一个样品获得;确定启动子区的甲基化评分以产生多于一个甲基化判定和/或启动子甲基化的定量;处理多于一个甲基化判定以产生测试样品表现出基因组状态的预测。在其他实施方案中,基因组状态包括HRD、癌症衍生的启动子甲基化、结肠直肠癌的家族形式或林奇综合征肿瘤类型。在其他实施方案中,启动子包括TSS上游5kb的区域,其中使用以下中的一个或更多个进一步细化5kb区域:定制组区域、在临床样品中发现的甲基化峰以及排除在正常样品中发现的峰。在其他实施方案中,在转录物水平定义TSS。在其他实施方案中,在基因水平定义TSS。在其他实施方案中,甲基化评分被确定为通过总阳性对照分子归一化的与靶区重叠的分子数量的比率。在其他实施方案中,至少基于重叠CpG的数量过滤支持甲基化评分的分子。在其他实施方案中,至少基于文献注释、常见甲基化峰位置和/或公共数据集细化启动子区。在其他实施方案中,基因包括肿瘤抑制基因、HRR基因和IO基因。在其他实施方案中,HRR基因至少包含BRCA1和BRCA2。在其他实施方案中,判定包括从训练样品群体导出最小甲基化阈值。在其他实施方案中,训练样品包括无癌样品。在其他实施方案中,用于判定的最小甲基化阈值包括:每个基因的最小分子计数为1-100最小值和/或最小甲基化评分为以下的最大值:95正态分位数+8X105或中位数+5*中位数绝对偏差。在其他实施方案中,与MSI-H状态组合的启动子甲基化判定预测疗法响应。在其他实施方案中,疗法包括免疫检查点抑制剂、聚(ADP-核糖)聚合酶(PARP)抑制剂、激酶抑制剂或芳香酶抑制剂、或PI3K和mTOR抑制剂中的一种或更多种。在其他实施方案中,免疫检查点抑制剂是帕博利珠单抗(Pembrolizumab)。在其他实施方案中,聚(ADP-核糖)聚合酶(PARP)抑制剂是奥拉帕利(Olaparib)或他拉唑帕利(Talazoparib)。在其他实施方案中,疗法是PI3K和mTOR抑制剂与聚(ADP-核糖)聚合酶(PARP)抑制剂的组合。在其他实施方案中,PI3K和mTOR抑制剂是吉达利塞(Gedatolisib),并且聚(ADP-核糖)聚合酶(PARP)抑制剂是他拉唑帕利。
本文描述了一种方法,包括确定各自从多于一个样品获得的BRCA1和BRCA2的启动子区,确定启动子区的甲基化评分以生成多于一个甲基化判定,处理多于一个甲基化判定以生成患者表现出BRCA1或BRCA2的双等位基因丢失的预测。
本文描述了一种方法,包括确定各自从多于一个样品获得的BRCA1和BRCA2的启动子区,确定启动子区的甲基化评分以产生多于一个甲基化判定,处理多于一个甲基化判定以产生患者表现出BRCA1或BRCA2的双等位基因丢失的预测,确定患者是用PARPi治疗的候选者。
本文描述了一种方法,包括确定各自从多于一个样品获得的BRCA1和BRCA2的启动子区,确定启动子区的甲基化评分以产生多于一个甲基化判定,处理多于一个甲基化判定以产生患者表现出BRCA1或BRCA2的双等位基因丢失的预测,确定患者是用吉达利塞和他拉唑帕利治疗的候选者。在其他实施方案中,方法包括,其中吉达利塞使晚期TNBC或BRCA1/2突变乳腺癌对用他拉唑帕利的PARP抑制敏感。
本文描述了一种方法,包括确定MLH1的启动子区,每个启动子区从多于一个样品获得,确定启动子区的甲基化评分以产生多于一个启动子甲基化判定,从基因组数据确定患者是BRAF V600E阳性,其中在BRAF V600E阳性患者中检测启动子甲基化将患者鉴定为可能处于遗传/家族形式的结肠直肠癌或林奇综合征相关肿瘤类型的风险中的患者。
本文描述了一种方法,包括:通过具有一个或更多个硬件处理器和存储器的计算系统获得源自受试者的样品的测序读段,确定与样品中包括的多于一个基因相对应的一个或更多个分类区;以及通过生成源自受试者的样品中的测序读段的定量量度来确定一个或更多个分类区的甲基化水平。在其他实施方案中,方法包括获得样品。在其他实施方案中,方法包括具有获得的样品。在其他实施方案中,方法包括处理一个或更多个分类区的甲基化水平以表征样品。在其他实施方案中,表征样品包括确定HRD状态、与癌症相关的启动子甲基化。在其他实施方案中,定量量度包括确定通过总阳性对照分子归一化的与分类区重叠的分子数量的比率,其中所述分子表现出阈值量的甲基化胞嘧啶。在其他实施方案中,将定量量度与预定阈值进行比较,以判定一个或更多个分类区的甲基化状态。在其他实施方案中,确定比率包括至少基于甲基化胞嘧啶的阈值量过滤分子。在其他实施方案中,确定一个或更多个分类区的甲基化水平是基于甲基化CpG的数量。在其他实施方案中,分类区包含启动子区。在其他实施方案中,一个或更多个分类区单独地对应于这样的基因组区域,其中来源于从其中存在癌症的受试者获得的细胞的核酸基因组区域中的胞嘧啶甲基化率与来源于从其中不存在癌症的受试者获得的细胞的核酸基因组区域中的胞嘧啶甲基化率不同。在其他实施方案中,多于一个样品和另外的样品包括无细胞核酸。在其他实施方案中,该方法包括由计算系统使用训练数据进行训练过程以生成模型,其中训练过程包括由计算系统基于单个样品的癌症指示在阈值置信水平内来确定包括在训练数据中的单个样品的一个或更多个另外的权重。在其他实施方案中,单个样品的癌症的指示在阈值置信水平之外,并且方法包括:由计算系统在训练过程期间将罚分应用于单个样品的权重。方法包括:由计算系统并且使用一种或更多种机器学习算法,使用训练数据的一部分来针对模型进行训练过程的一次或更多次第一迭代;以及由计算系统基于训练过程的一次或更多次第一迭代来生成模型的第一输出数据,第一输出数据对应于多于一个受试者中的第一单个受试者中存在癌症的一个或更多个第一另外的指示,第一单个受试者对应于训练数据的部分。在其他实施方案中,该方法包括由计算系统将第一输出数据和训练数据组合以产生另外的训练数据;由计算系统使用另外的训练数据的一部分针对模型进行训练过程的一次或更多次第二迭代;以及由计算系统基于训练过程的一次或更多次第二迭代生成模型的第二输出数据,第二输出数据指示在多于一个受试者中的第二单个受试者中存在癌症的一个或更多个第二另外的指示,第二单个受试者对应于另外的训练数据的部分。在其他实施方案中,多于一个分类区中的单个分类区的权重基于第一输出数据和第二输出数据来确定。在其他实施方案中,该方法包括由计算系统确定在训练过程的一次或更多次迭代期间确定的存在癌症的指示的数量至少是包括在训练数据中的一个或更多个样品的阈值;以及由计算系统确定对模型的一个或更多个权重的修饰未被修饰或以最小量被修饰。在其他实施方案中,该方法包括由计算系统确定在训练过程的一次或更多次迭代期间确定的存在癌症的指示的另外的数量小于包括在训练数据中的一个或更多个另外的样品的阈值;以及由计算系统确定对模型的一个或更多个另外的权重的修饰以超过最小量的量被修饰。在其他实施方案中,该方法包括将来源于受试者的血液或组织中的至少一种的多于一个核酸与包含一定量的甲基结合结构域(MBD)蛋白的溶液组合以产生核酸-MBD蛋白溶液;以及用盐溶液对核酸-MBD蛋白溶液进行多于一次洗涤以产生许多核酸级分,单个核酸级分在多于一个核酸的具有至少阈值胞嘧啶-鸟嘌呤含量的区域中具有阈值数量的甲基化胞嘧啶。在其他实施方案中,多于一次洗涤中的洗涤用具有一定浓度的氯化钠(NaCl)的溶液进行,并且产生许多核酸级分中具有与MBD蛋白的一定结合强度范围的核酸级分。在其他实施方案中,该方法包括确定第一核酸级分与多于一个核酸分区中的第一分区关联,第一分区对应于与MBD蛋白的第一范围结合强度;将第一分子条形码附接至第一核酸级分的核酸,第一分子条形码被包括在与第一分区关联的第一组分子条形码中;确定第二核酸级分与多于一个核酸分区中的第二分区关联,第二分区对应于与MBD蛋白的第一范围结合强度不同的与MBD蛋白的第二范围结合能;以及将第二分子条形码附接至第二核酸级分的核酸,第二分子条形码被包括在与第二分区关联的第二组分子条形码中。
在其他实施方案中,该方法包括将许多核酸级分的至少一部分与一定量的裂解具有一个或更多个未甲基化胞嘧啶的分子的限制性内切酶组合以产生用于产生测序读段的多于一个样品的至少一部分,其中甲基化胞嘧啶的阈值量对应于具有至少阈值胞嘧啶-鸟嘌呤含量的区域内甲基化胞嘧啶的最小频率。
本文描述了一种方法,包括:通过具有一个或更多个硬件处理器和存储器的计算系统获得源自受试者的样品的测序读段,确定对应于所述样品中包括的多于一个基因的一个或更多个分类区,通过生成定量量度来确定一个或更多个分类区的甲基化水平,所述定量量度包括通过总阳性对照分子归一化的与分类区重叠的分子数量的比率,其中所述分子表现出阈值量的甲基化胞嘧啶;以及将所述定量量度与预定阈值进行比较以判定一个或更多个分类区的甲基化状态。
在各种实施方案中,定量量度的确定可以包括将源自受试者的血液或组织中的至少一种的多于一种核酸与包含一定量的甲基结合结构域(MBD)蛋白的溶液组合以产生核酸-MBD蛋白溶液;以及用盐溶液对核酸-MBD蛋白溶液进行多于一次洗涤以产生许多核酸级分。在一些情况下,单个核酸级分在具有至少阈值胞嘧啶-鸟嘌呤含量的多于一个核酸的区域中具有阈值数量的甲基化胞嘧啶。之后,所述多于一次洗涤中的洗涤用具有一定浓度的氯化钠(NaCl)的溶液进行,并且产生所述许多核酸级分中具有与MBD蛋白的一定结合强度范围的核酸级分。
人们可以确定第一核酸级分与多于一个核酸分区中的第一分区关联,第一分区对应于与MBD蛋白的第一范围结合强度;将第一分子条形码附接至第一核酸级分的核酸,第一分子条形码被包括在与第一分区关联的第一组分子条形码中,并且随后确定第二核酸级分与多于一个核酸分区中的第二分区关联,第二分区对应于与MBD蛋白的第一范围结合强度不同的与MBD蛋白的第二范围结合能;以及随后将第二分子条形码附接至第二核酸级分的核酸,第二分子条形码被包括在与第二分区关联的第二组分子条形码中。
在一些情形中,人们可以将许多核酸级分的至少一部分与一定量的裂解具有一个或更多个未甲基化胞嘧啶的分子的限制性内切酶组合以产生用于产生测序读段的多于一个样品的至少一部分,其中甲基化胞嘧啶的阈值量对应于具有至少阈值胞嘧啶-鸟嘌呤含量的区域内甲基化胞嘧啶的最小频率。
另外,人们可以将许多核酸级分的至少一部分与一定量的限制性内切酶组合,所述限制性内切酶裂解具有一个或更多个甲基化胞嘧啶的分子以产生用于产生测序读段的多于一个样品的至少一部分,其中未甲基化胞嘧啶的阈值量对应于具有至少阈值胞嘧啶-鸟嘌呤含量的区域内未被裂解的甲基化胞嘧啶的最大频率。
附图简述
图1. BRCA1启动子区。具有核心启动子活性的11个CpG位点(圆形),显示在乳腺癌中被高甲基化(粉色圆形),被涵盖在图BRCA1启动子定义中。数字是指相对于BRCA1转录起始的核苷酸位置。
图2:BRCA1的95%检测限(LoD)。BRCA1启动子甲基化LoD为0.6%,如通过HCC-38 (一种充分表征的乳腺癌细胞系)的滴定所确定的。先前,通过亚硫酸氢盐测序和RT-PCR证实HCC-38通过启动子甲基化在BRCA1基因座处被表观遗传沉默(Stefansson 2012,Xu 2010)。通过比较,我们的方法在测试的80个无癌供者中没有检测到任何BRCA1启动子甲基化,证明了100%的特异性。
图3:在选定的患者队列中,不同癌症类型的BRCA1启动子甲基化的发生率。注意,甲基化频率的差异可能归因于GuardantInfinity队列中未选择的、非随机的患者亚型组成,以及癌症的阶段(其中患者可能在治疗过程中丢失甲基化),并且可能无法与TCGA中的患者队列直接比较。缩写:卵巢癌(OVCA)、乳腺癌(BRCA)、膀胱癌(BLCA)、肺腺癌(LUAD)、结肠直肠腺癌(COAD)、肺鳞状细胞癌(LUSC)、黑素瘤(SKCM)。
图4:HRR基因中的表观遗传和基因组改变的Oncoprint分析。致病性定义为上述HRR基因中的任何无义、移码、重排或致病性ClinVar错义突变。由于来自克隆造血的可能干扰,ATM和CHEK2中的体细胞截短突变从该分析中省略。启动子甲基化以粉色突出显示——注意,这些改变大多与其他HRR基因中的其他致病性改变相互排斥。
图5. 样本组中启动子覆盖率的特征。本文描绘了200bp滑动窗口中的最小10CpG。
图6. 启动子甲基化区定义区去除:性染色体+正常噪声区。每个基因合计TSS上游5kb。如果有多个TSS,在基因水平合计。定义方法:按每个TSS拆分->在转录物水平报告;通过文献、其他数据(例如MBD分区峰、RNA/甲基化关联)细化启动子区。启动子区中的至少2个探针,用于一组中覆盖的几乎所有16,000个基因。
图7. 说明性分析验证:检测限。
图8. 表观基因组MLH1与MSI-H关联,MSI启动子定义。
图9. MLH1+的MSI-H与MSS/MSI-L的区域模式。
图10. BRCA1-临床样品和细胞系。
图11. 启动子甲基化:部分甲基化与完全甲基化。在一些情况下,仅完全甲基化可导致基因失活。启动子甲基化通常发生在一个等位基因中,而另一个等位基因因其他事件而失活。(例如,BRCA LoH/启动子共同出现在HRD+中)。功能性甲基化改变可包括区分部分甲基化与完全甲基化。
图12. EM-seq概述:组设计。在正交方法中,为了证明检测方案的能力,设计了用于泛癌症甲基化富集的EM-seq组。用13,090个探针靶向1.54 Mb (125,080 CpG) @ 15,000x深度。1.00 Mb和90,949个CpG被表观基因组探针覆盖(65%的序列,73%的CpG);876 kb和这些CpG中的70,493个与refseq启动子区重叠,并且显示了MLH1和BRCA1。
图13. EM-seq数据与公共阵列数据的一致性。描绘了使用纯(neat)细胞系的正交EM-seq结果的准确性。变异水平(左图)和探针水平(右图) β在KM12 Em-seq (x轴)和Illumina 450K阵列数据(NCI,y轴)之间一致。探针β是每个EM-seq区域(两个数据集)中所有CpG β的平均值。
图14. 表观基因组检测逐区域TF与逐区域EM-Seq。这里,样品中阳性预测准确度(PPA)的准确度>=表观基因组LoD (粗略估计>0.3% TF=左图上的红色框)。可以预期EM-Seq的PPA>80%,因为大多数样品具有>0.1%的β值(判定阈值)。在表观基因组检测和EMSeq组上的所有基因的阳性临床样品中,均混合了阳性和阴性启动子甲基化判定。在表观基因组检测和EMSeq组上的所有基因的阴性(无癌症)临床样品中,启动子甲基化判定大多为阴性的。
详述
BRCA1启动子甲基化(PM)是癌症中的早期起始事件,取决于亚型发生在所有乳腺肿瘤的3%至65.2%中,以及三阴性肿瘤的30%至65%中。BRCA1启动子甲基化与缺陷性同源重组修复(HRR)、乳腺癌和卵巢癌的早期发作以及对辅助化学疗法的临床响应的改善相关。迄今为止,还没有全面评估无细胞循环肿瘤DNA (ctDNA)中BRCA1启动子甲基化和基因组改变两者的诊断测定。在此,发明人已经建立了迄今为止未实现的检测方法,用于询问启动子甲基化状态、基因组改变两者以及进一步定量有或没有表观遗传等位基因状态的甲基化。这里,这种使用包括甲基结合结构域分区的表观基因组检测平台对乳腺癌患者队列中的BRCA1 PM和基因组改变的多模式检测允许询问800+基因的液体活检测定和全基因组甲基化检测。对1016例晚期乳腺癌患者ctDNA中的BRCA1 PM进行了评估,同时对800+基因进行了基因组测序,并通过表观基因组甲基化检测测定对398个癌症相关基因进行了PM谱分析。分析了每个覆盖基因的预定义启动子区,包括启动子定义的新方法。对于每个样品,计算每个基因的甲基化评分,并将其用作进行PM判定的基础。通过计算机模拟和实验滴定来自临床样品和具有已知基因PM的细胞系的ctDNA到无癌供者的血浆中来确定检测限(LoD)。
此外,建立上述检测方法允许在系统水平上确定表观遗传等位基因状态。等位基因特异性甲基化模式在控制基因表达和维持正常细胞功能中起重要作用,并且这些模式的破坏可促成包括肿瘤发生在内的发病机制。印记是等位基因特异性甲基化模式的一种形式,其中基因的一个等位基因根据其遗传自父亲还是母亲而被甲基化并沉默。印记基因的差异甲基化和由此产生的单等位基因表达对于正常发育和生理功能是重要的,并且这些印记模式的异常变化(甲基化的丢失或获得)可导致发育障碍和增加的对疾病(包括癌症)的易感性。例如,印迹丢失(LOI)可导致正常印迹基因的两个等位基因的表达,潜在地使促进细胞生长的基因的表达加倍,这是各种癌症中的共同特征,参见例如图10的图A。在另外的情况下,通常未甲基化且活跃的肿瘤抑制基因可以在一个等位基因上发生甲基化。这种甲基化可以沉默该等位基因的基因表达,如果另一等位基因丢失或突变,则有助于癌症进展。一个众所周知的例子是p16基因(CDKN2A),其可以在各种癌症诸如黑素瘤、膀胱癌等中经历高甲基化,参见例如图10的图B。与整个等位基因的完全甲基化相比,部分等位基因特异性甲基化模式(参见图10的图C)可以更微妙地影响基因功能。这种选择性甲基化可以发生在基因的特定区域,诸如启动子、增强子或其他调节元件,以细胞类型特异性方式影响该基因的转录活性。在癌症中,肿瘤抑制基因启动子区的部分甲基化可以下调基因表达,而不会使基因完全沉默。这种部分甲基化可能仅发生在启动子区内的某些CpG岛中。另外,增强子区域的甲基化可以调节增强子的活性,从而间接影响与这些增强子相关的基因的表达。增强子区域的部分甲基化可导致有助于肿瘤发生的基因表达谱的改变。
目前的方法是省略测试患者样品的基因组和表观基因组属性两者,或者单独进行多个测试。如果基因组和表观基因组信息都是可得的,则省略基因组或表观基因组信息可能导致开出可能已知无效的癌症疗法或拒绝开出可能已知有效的癌症疗法。例如,具有KRASG12C生物标志物的患者被开具KRAS抑制剂,但是如果表观基因组信息显示KRAS启动子被甲基化并且因此基因沉默,则KRAS抑制剂将是无效的将是明显的。另一方面,没有检测到BRCA1突变的患者可能不会被开具PARP抑制剂,但如果表观基因组信息显示BRCA1启动子被甲基化并且因此基因沉默,则该患者将是PARP抑制剂的良好候选者。由于包括缺乏足够的患者样品在内的多种原因,通常不进行多次测试。其他缺点包括缺乏报销、不便和缺乏可用的商业产品等。
癌症可以通过表观遗传变异诸如甲基化来指示。癌症中甲基化变化的实例包括参与正常生长控制、DNA修复、细胞周期调节和/或细胞分化的基因的转录起始位点(TSS)处的CpG岛中的DNA甲基化的局部增加。这种高甲基化可能与涉及的基因的转录能力的异常损失相关,并且与引起基因表达改变的点突变和缺失至少同样频繁地发生。DNA甲基化谱分析(profile)可以用于检测基因组中具有不同甲基化程度的区域(“差异性甲基化区域”或“DMR”),这些区域在发育期间改变或受到疾病(例如,癌症或任何癌症相关疾病)的扰动。癌细胞的基因组在上述DNA甲基化模式中具有不平衡,因此在DNA的功能包装中具有不平衡。因此,染色质组织的异常与甲基化变化相结合,当联合分析时,可能有助于增强癌症谱分析。将MBD分区与片段组学数据(例如片段映射的起始和终止位置(与核小体位置相关)、片段长度和相关的核小体占据)相结合,可用于高甲基化研究中的染色质结构分析,目的是提高生物标志物检测率。
甲基化谱分析可以包括确定遍及基因组的不同区域的甲基化模式。例如,在基于甲基化程度(例如,每个分子中甲基化位点的相对数量)对分子进行分区和测序之后,可以将不同分区中的分子的序列映射到参考基因组。这可以显示基因组中与其他区域相比甲基化更高或甲基化不太高的区域。以这种方式,与单个分子形成对比,基因组区域在其甲基化程度上可以不同。
核酸分子的特征可以是修饰,其可以包括各种化学或蛋白质修饰(即,表观遗传修饰)。化学修饰的非限制性实例可以包括但不限于共价DNA修饰,包括DNA甲基化。在一些实施方案中,DNA甲基化包括向CpG位点处的胞嘧啶(核酸序列中的胞嘧啶后跟鸟嘌呤)添加甲基基团。在一些实施方案中,DNA甲基化包括将甲基基团添加至腺嘌呤,诸如N6-甲基腺嘌呤。在一些实施方案中,DNA甲基化是5-甲基化(对胞嘧啶的6-碳环的第5个碳的修饰)。在一些实施方案中,5-甲基化包括将甲基基团添加至胞嘧啶的5C位置,以产生5-甲基胞嘧啶(m5c)。在一些实施方案中,甲基化包括m5c的衍生物。m5c的衍生物包括但不限于5-羟甲基胞嘧啶(5-hmC)、5-甲酰基胞嘧啶(5-fC)和5-羧基胞嘧啶(5-caC)。在一些实施方案中,DNA甲基化是3C甲基化(对胞嘧啶的6-碳环的第3个碳的修饰)。在一些实施方案中,3C甲基化包括将甲基基团添加至胞嘧啶的3C位置,以生成3-甲基胞嘧啶(3mC)。其他实例包括N6-甲基腺嘌呤或糖基化。DNA甲基化包括向DNA(例如CpG)添加甲基基团,并且可以改变甲基化DNA区域的表达。甲基化还可以发生在非CpG位点处,例如,甲基化可以发生在CpA、CpT或CpC位点处。DNA甲基化可以改变甲基化DNA区域的活性。例如,当启动子区中的DNA被甲基化时,基因的转录可以被抑制。DNA甲基化对正常发育至关重要,并且甲基化的异常可能破坏表观遗传调节。表观遗传调节中的破坏,例如抑制,可能引起疾病,诸如癌症。启动子的DNA甲基化可能指示癌症。
CpG二联体是双链DNA分子的有义链上的二核苷酸CpG (胞嘧啶-磷酸-鸟嘌呤,即,在核酸序列的5’-3’方向上,胞嘧啶后跟鸟嘌呤)及反义链上的其互补CpG。CpG二元体可以是完全甲基化或半甲基化的(仅在一条链上甲基化)。
CpG二核苷酸在正常人类基因组中是未被充分代表的(underrepresented),其中大部分CpG二核苷酸序列是转录惰性的(例如染色体的近着丝粒部分和重复元件中的DNA异染色质区域)并且是甲基化的。然而,许多CpG岛被保护免受这样的甲基化,尤其是在转录起始位点(TSS)周围。
蛋白质修饰包括结合染色质的组分,特别是组蛋白(包括其修饰形式),以及结合其他蛋白质,诸如参与复制或转录的蛋白质。本公开内容提供了处理和分析具有不同修饰程度的核酸的方法,使得其原始修饰的性质与核酸标签相关,并且可以在分析核酸时通过对标签进行测序来解码。然后,样品核酸修饰的遗传变异可以与原始样品中该核酸的修饰程度(表观遗传变异)相关联。包括单链(例如,ssDNA或RNA)或双链分子(例如,dsDNA)。
DNA的损失可能减少一种或更多种类型的DNA的存在,使得难以检测到一种或更多种类型的DNA (例如cfDNA)的存在。在一种或更多种另外的情况下,测量DNA甲基化的现有方法,例如富集或耗竭方法,可以具有相对高水平的分辨率,例如约100个碱基对(bp)至约200 bp,这可以使得精确确定DNA甲基化的量变得困难。确定DNA甲基化的准确度可以影响样品肿瘤分数估计的准确度。由于肿瘤分数可以用于确定样品是否来源于其中存在或不存在肿瘤的受试者,因此确定肿瘤分数估计的准确度可能影响个体的诊断和/或治疗决策。
更具体地,本文所述的技术允许定量启动子区甲基化。吉达利塞是一种静脉施用的PI3K和mTOR抑制剂,已被证明在转移性乳腺癌患者中是安全的,无论是单独使用还是与口服疗法联合使用。先前的研究表明,PI3K抑制剂降低了DNA合成和S期进展所需的核苷酸池。此外,PI3K/mTOR的抑制可阻碍PI3K与同源重组复合物的相互作用,增加DNA修复对PARP酶的依赖性。基于该数据,PI3K抑制剂和PARP抑制剂的组合可能为患有野生型BRCA的TNBC带来一种新的、非化学疗法治疗选择,并改善PARP抑制剂作为单一药物在BRCA1/2突变晚期乳腺癌中观察到的适度PFS。本试验的假设是,吉达利塞将使晚期TNBC或BRCA1/2突变乳腺癌对他拉唑帕利的PARP抑制作用敏感。令人感兴趣的是确定吉达利塞联合他拉唑帕利的推荐2期剂量,并评估该组合在三阴性或BRCA1/2阳性(突变/缺陷)的晚期HER2阴性乳腺癌中的效力。
样品
样品可以是从受试者分离的任何生物样品。样品可以是身体样品。样品可以包括身体组织,诸如已知或怀疑的实体瘤、全血、血小板、血清、血浆、粪便、红细胞、白血细胞或白细胞、内皮细胞、组织活检物、脑脊液、滑液、淋巴液、腹水、间质液或细胞外液、细胞之间的间隙中的流体(包括龈沟液)、骨髓、胸腔积液、脑脊液、唾液、粘液、痰、精液、汗液、尿液。样品优选地为体液,特别地血液及其级分,以及尿液。样品可以是最初从受试者分离出来的形式,或者可以进行进一步处理以去除或添加组分,诸如细胞,或者相对于其他组分对一种组分进行富集。因此,用于分析的优选的体液是含有无细胞核酸的血浆或血清。可以从受试者分离或获得样品,并将其运送到样品分析地点。样品可以在合意的温度保存和运输,例如室温、4℃、-20℃和/或-80℃。样品可以在样品分析地点从受试者分离或获得。受试者可以是人类、哺乳动物、动物、伴生动物、服务动物或宠物。受试者可以患有癌症。受试者可以没有癌症或可检测到的癌症症状。受试者可以已经用一种或更多种癌症疗法,例如,化学疗法、抗体、疫苗或生物制剂中的任一种或更多种治疗过。受试者可以处于缓解中。受试者可以被诊断或可以未被诊断为对癌症或任何癌症相关的遗传突变/紊乱易感。
血浆的体积可以取决于对测序的区域期望的读段深度。示例性体积为0.4-40 ml、5-20 ml、10-20 ml。例如,体积可以是0.5 mL、1 mL、5 mL、10 mL、20 mL、30 mL或40 mL。取样的血浆的体积可以是5 ml至20 ml。
样品可以包含各种量的包含基因组等同物的核酸。例如,约30 ng DNA的样品可以包含约10,000 (104)个单倍体人类基因组当量,并且在cfDNA的情况下,可以包含约2000亿(2×1011)个个体多核苷酸分子。类似地,约100 ng DNA的样品可以含有约30,000个单倍体人类基因组当量,并且在cfDNA的情况下,含有约6,000亿个个体分子。
样品可以包含来自不同来源的核酸,例如,来自同一受试者的细胞和无细胞的核酸,来自不同受试者的细胞和无细胞的核酸。样品可以包含携带突变的核酸。例如,样品可以包含携带种系突变和/或体细胞突变的DNA。种系突变是指存在于受试者的种系DNA中的突变。体细胞突变是指来源于受试者的体细胞例如,癌细胞的突变。样品可以包含携带癌症相关突变(例如,癌症相关体细胞突变)的DNA。样品可以包含表观遗传变异(即化学或蛋白修饰),其中表观遗传变异与遗传变异(诸如癌症相关突变)的存在相关。在一些实施方案中,样品包含与遗传变异的存在相关的表观遗传变异,其中样品不包含所述遗传变异。
扩增前样品中无细胞核酸的示例性量的范围为约1 fg至约1 µg,例如1 pg至200ng、1 ng至100 ng、10 ng至1000 ng。例如,量可以是上至约600 ng、上至约500 ng、上至约400 ng、上至约300 ng、上至约200 ng、上至约100 ng、上至约50 ng或上至约20 ng的无细胞核酸分子。量可以是至少1 fg、至少10 fg、至少100 fg、至少1 pg、至少10 pg、至少100pg、至少1 ng、至少10 ng、至少100 ng、至少150 ng或至少200 ng的无细胞核酸分子。量可以是上至1飞克(fg)、10 fg、100 fg、1皮克(pg)、10 pg、100 pg、1 ng、10 ng、100 ng、150ng或200 ng的无细胞核酸分子。所述方法可以包括获得1飞克(fg)至200 ng。
无细胞核酸是不包含在细胞内或以其他方式与细胞结合的核酸,或者换言之,在去除完整细胞后保留在样品中的核酸。无细胞核酸包括DNA、RNA及其杂合体(hybrid),包括基因组DNA、线粒体DNA、siRNA、miRNA、循环RNA (cRNA)、tRNA、rRNA、小核仁RNA (snoRNA)、Piwi-相互作用RNA (piRNA)、长非编码RNA (长ncRNA)和/或这些的任一种的片段。无细胞核酸可以是双链、单链或其杂合体。无细胞核酸可以通过分泌或细胞死亡程序例如细胞坏死和凋亡释放到体液中。一些无细胞核酸从癌细胞释放到体液中,例如循环肿瘤DNA(ctDNA)。其他从健康细胞释放。在一些实施方案中,cfDNA是无细胞胎儿DNA (cffDNA)。在一些实施方案中,无细胞核酸由肿瘤细胞产生。在一些实施方案中,无细胞核酸由肿瘤细胞和非肿瘤细胞的混合物产生。
无细胞核酸具有约100-500个核苷酸的示例尺寸分布,其中110个至约230个核苷酸的分子代表约90%的分子,具有约168个核苷酸的众数,并且第二个小峰在240个至440个核苷酸之间的范围内。无细胞核酸可以通过分级或分区步骤从体液分离,在该分级或分区步骤中,存在于溶液中的无细胞核酸与体液中的完整细胞和其他不可溶组分分离。分区可以包括诸如离心或过滤的技术。可选地,体液中的细胞可以被裂解,并且无细胞核酸和细胞核酸被一起处理。通常,在添加缓冲液和洗涤步骤之后,核酸可以用醇沉淀。可以使用进一步的清洁步骤诸如基于二氧化硅的柱以去除污染物或盐。可以在整个反应中添加非特异性大量载体核酸(bulk carrier nucleic acid),诸如Cot-1 DNA、用于亚硫酸氢盐测序、杂交和/或连接的DNA或蛋白,以优化程序的某些方面,诸如产量。
在这样的处理后,样品可以包括各种形式的核酸,包括双链DNA、单链DNA和单链RNA。在一些实施方案中,单链DNA和RNA可以被转化成双链形式,因此它们被包括在后续处理和分析步骤中。
分析物
分析物可以包括核酸分析物和非核酸分析物。本公开内容提供了检测来自受试者的生物样品中的遗传变异。生物样品可以包括来自癌细胞的多核苷酸。多核苷酸可以是DNA(例如,基因组DNA、cDNA)、RNA (例如,mRNA、小RNA)或其任何组合。生物样品可以包括例如来自活检的肿瘤组织。在一些情况下,生物样品可以包括血液或唾液。在特定情况下,生物样品可包含无细胞DNA (“cfDNA”)或循环肿瘤DNA (“ctDNA”)。无细胞DNA可以存在于例如血液中。
非核酸分析物的实例包括但不限于脂质、糖类、肽、蛋白质、糖蛋白(N-连接或O-连接)、脂蛋白、磷蛋白、蛋白质的特定磷酸化或乙酰化变体、蛋白质的酰胺化变体、蛋白质的羟基化变体、蛋白质的甲基化变体、蛋白质的泛素化变体、蛋白质的硫酸化变体、病毒蛋白质(例如,病毒衣壳、病毒包膜、病毒外壳、病毒附件、病毒糖蛋白、病毒刺突等)、细胞外和细胞内蛋白质、抗体和抗原结合片段。这还包括受体、抗原、表面蛋白、跨膜蛋白、分化蛋白簇、蛋白通道、蛋白泵、载体蛋白、磷脂、糖蛋白、糖脂、细胞-细胞相互作用蛋白复合物、抗原呈递复合物、主要组织相容性复合物、工程化T细胞受体、T细胞受体、B细胞受体、嵌合抗原受体、细胞外基质蛋白、细胞表面蛋白的翻译后修饰(例如,磷酸化、糖基化、泛素化、亚硝基化、甲基化、乙酰化或脂化)状态、间隙连接和黏着连接。
通常,系统、设备、方法和组合物可用于分析任何数量的分析物,进一步包括核酸分析物和非核酸分析物二者。例如,被分析的分析物的数量可以是存在于样品的区域中或基底的单个特征内的至少约2种、至少约3种、至少约4种、至少约5种、至少约6种、至少约7种、至少约8种、至少约9种、至少约10种、至少约11种、至少约12种、至少约13种、至少约14种、至少约15种、至少约20种、至少约25种、至少约30种、至少约40种、至少约50种、至少约100种、至少约1,000种、至少约10,000种、至少约100,000种或更多种不同分析物。用于进行多重测定以分析两种或更多种不同分析物的方法将在本公开内容的后续部分中讨论。
一种或更多种核酸分析物和/或非核酸分析物构成所研究的生物系统(例如,细胞)中的一组分子相互作用,其可被视为“相互作用组”-在属于不同生化家族(蛋白质、核酸、脂质、糖类等)的分子之间以及也在给定家族内发生的分子相互作用。在各种实施方案中,相互作用组是蛋白质-DNA相互作用组(由转录因子(和DNA或染色质调节蛋白)及其靶基因形成的网络)。在其他实施方案中,相互作用组是指蛋白质-蛋白质相互作用网络(PPI)或蛋白质相互作用网络(PIN)。本文所述的方法允许研究和分析相互作用组。诸如蛋白质基因组学(全基因组测序、全外显子组测序和RNA-seq以及质谱作为实例)的技术可以支持相互作用组的研究。
分析
本发明的方法可以用于诊断受试者中状况特别是癌症的存在,以表征状况(例如,对癌症进行分期或确定癌症的异质性),监测状况对治疗的响应,实现对状况发展或状况后续进程的风险的预后。本公开内容也可以用于确定特定治疗选择的效力。如果治疗是成功的,则成功的治疗选择可能随着更多的癌症可能死亡并且脱落DNA而增加受试者的血液中检测到的拷贝数变异或罕见突变的量。在其他实例中,这可能不会发生。在另一个实例中,也许某些治疗选择可能与癌症随时间推移的遗传谱相关。这种相关性可以用于选择疗法。另外地,如果观察到癌症在治疗之后处于缓解中,本发明的方法可以用于监测残留疾病或疾病的复发。
可以检测到的类型和数量的癌症可以包括血癌、脑癌、肺癌、皮肤癌、鼻癌、喉癌、肝癌、骨癌、淋巴瘤、胰腺癌、皮肤癌、肠癌、直肠癌、甲状腺癌、膀胱癌、肾癌、口腔癌、胃癌、固态瘤、异质性肿瘤、同质性肿瘤等。癌症的类型和/或分期可以根据遗传变异检测,包括突变、罕见突变、插入/缺失、拷贝数变异、颠换、易位、倒位、缺失、非整倍性、部分非整倍性、多倍性、染色体不稳定性、染色体结构改变、基因融合、染色体融合、基因截短、基因扩增、基因复制、染色体损伤、DNA损伤、核酸化学修饰的异常改变、表观遗传模式的异常改变和核酸5-甲基胞嘧啶的异常改变。
遗传和其他分析物数据也可用于表征特定形式的癌症。癌症在组成和分期两方面通常是异质性的。遗传谱数据可以允许表征癌症的具体亚型,该表征在该具体亚型的诊断或治疗中可能是重要的。该信息还可以为受试者或从业者提供关于具体类型癌症的预后的线索,并且允许受试者或从业者根据疾病的进展调整治疗选择。一些癌症可以进展而变得更具侵袭性和遗传不稳定性。其他癌症可以保持良性的、非活动的、或休眠的。本公开内容的系统和方法可以用于确定疾病进展。
本发明的分析也可用于确定特定治疗选择的效力。如果治疗是成功的,则成功的治疗选择可能随着更多的癌症可能死亡并且脱落DNA而增加受试者的血液中检测到的拷贝数变异或罕见突变的量。在其他实例中,这可能不会发生。在另一个实例中,也许某些治疗选择可能与癌症随时间推移的遗传谱相关。这种相关性可以用于选择疗法。另外地,如果观察到癌症在治疗之后处于缓解中,本发明的方法可以用于监测残留疾病或疾病的复发。
本发明的方法还可以用于检测除癌症之外的状况中的遗传变异。在出现某些疾病后,免疫细胞,诸如B细胞,可以经历快速克隆性扩增。可以使用拷贝数变异检测来监测克隆性扩增,并且可以监测某些免疫状态。在该实例中,可以随时间推移进行拷贝数变异分析,以产生特定疾病可能如何进展的谱。拷贝数变异或甚至罕见突变检测可以用于确定病原体群体在感染的进程期间如何改变。这在慢性感染(诸如HIV/AID或肝炎感染)期间可能特别重要,病毒可以藉以在感染的进程期间改变生命周期状态和/或突变为毒力更强的形式。当免疫细胞试图破坏移植组织时,本发明的方法可以用于确定或剖析宿主身体的排斥活性,以监测移植组织的状态以及改变排斥治疗或预防的过程。
此外,本公开内容的方法可以用于表征受试者的异常状况的异质性。这样的方法可以包括,例如生成来源于受试者的细胞外多核苷酸的遗传谱,其中所述遗传谱包括由拷贝数变异和罕见突变分析得到的多于一个数据。在一些实施方案中,异常状况是癌症。在一些实施方案中,异常状况可以是导致异质性基因组群体的状况。在癌症的实例中,已知一些肿瘤包含处于癌症的不同分期的肿瘤细胞。在其他实例中,异质性可以包括疾病的多个病灶。再次,在癌症的实例中,可以存在多个肿瘤病灶,或许其中一个或更多个病灶为已从原发部位扩散的转移的结果。
本发明的方法可以用于生成或剖析为来源于异质性疾病中不同细胞的遗传信息的总和的指纹图谱或数据集。该数据集可以包含单独的或组合的拷贝数变异和突变分析。
本发明的方法可以用于诊断、预后、监测或观察癌症或其他疾病。在一些实施方案中,本文的方法不涉及胎儿的诊断、预后或监测胎儿,并因此不涉及非侵入性产前测试。在其他实施方案中,这些方法可以用于妊娠受试者中以诊断、预后、监测或观察未出生受试者中的癌症或其他疾病,所述未出生受试者的DNA和其他多核苷酸可以与母体分子共循环。
核酸的5-甲基胞嘧啶模式的确定
基于亚硫酸氢盐的测序及其变化形式提供了确定核酸的甲基化模式的手段。在一些实施方案中,确定甲基化模式包括区分5-甲基胞嘧啶(5mC)与非甲基化胞嘧啶。在一些实施方案中,确定甲基化模式包括区分N6-甲基腺嘌呤与非甲基化腺嘌呤。在一些实施方案中,确定甲基化模式包括将5-羟甲基胞嘧啶(5hmC)、5-甲酰基胞嘧啶(5fC)和5-羧基胞嘧啶(5caC)与非甲基化胞嘧啶区分开。亚硫酸氢盐测序的实例包括但不限于氧化亚硫酸氢盐测序(OX-BS-seq)、Tet辅助亚硫酸氢盐测序(TAB-seq)和还原亚硫酸氢盐测序(redBS-seq)。
氧化亚硫酸氢盐测序(OX-BS-seq)用于通过首先将5hmC转化为5fC,然后如前所述进行亚硫酸氢盐测序来区分5mC和5hmC。Tet辅助亚硫酸氢盐测序(TAB-seq)也可以用于区分5mc和5hmC。在TAB-seq中,5hmC受糖基化保护。如前所述,在进行亚硫酸氢盐测序之前,使用Tet酶将5mC转化为5caC。还原亚硫酸氢盐测序用于区分5fC与修饰的胞嘧啶。
通常,在亚硫酸氢盐测序中,核酸样品被分成两个等分试样,并且一个等分试样用亚硫酸氢盐处理。亚硫酸氢盐将天然胞嘧啶和某些修饰的胞嘧啶核苷酸(例如5-甲酰基胞嘧啶或5-羧基胞嘧啶)转化为尿嘧啶,而其他修饰的胞嘧啶(例如5-甲基胞嘧啶、5-羟甲基胞嘧啶)不被转化。来自两个等分试样的分子的核酸序列的比较指示哪些胞嘧啶被转化为尿嘧啶,而哪些没有被转化为尿嘧啶。因此,可以确定被修饰的和未被修饰的胞嘧啶。最初将样品分成两个等分试样对于仅含有少量核酸和/或包括异质细胞/组织来源诸如含有无细胞DNA的体液的样品是不利的。
本公开内容提供了允许亚硫酸氢盐测序及其变化形式的方法。这些方法通过将群体中的核酸连接至捕获部分(即,可被捕获或固定的标记)而起作用。捕获部分包含但不限于生物素、亲和素、链霉亲和素、包含特定核苷酸序列的核酸、被抗体识别的半抗原和磁性可吸引颗粒。提取部分可以是结合对的成员,诸如生物素/链霉抗生物素蛋白或半抗原/抗体。在一些实施方案中,附接至分析物的捕获部分被它的结合对捕获,该结合对附接至可分离部分,诸如磁性可吸引颗粒或可以通过离心沉淀的大颗粒。捕获部分可以是允许将带有捕获部分的核酸与缺乏捕获部分的核酸亲和分离的任何类型的分子。示例捕获部分是生物素或寡核苷酸,所述生物素允许通过与连接或可连接到固相的链霉亲和素结合而进行亲和分离,所述寡核苷酸允许通过与连接或可连接到固相的互补寡核苷酸结合而进行亲和分离。在捕获部分与样品核酸连接之后,样品核酸用作扩增模板。在扩增之后,原始模板保持与捕获部分连接,但扩增子不与捕获部分连接。
捕获部分可以作为衔接子的组分连接至样品核酸,衔接子也可以提供扩增和/或测序引物结合位点。在一些方法中,样品核酸在两个末端处连接至衔接子,其中两个衔接子带有捕获部分。优选地,衔接子中的任何胞嘧啶残基被修饰,诸如被5-甲基胞嘧啶修饰,以保护免受亚硫酸氢盐的作用。在一些情况下,捕获部分通过可裂解的接头(例如,可光裂解的脱硫生物素-TEG或被USER™酶可裂解的尿嘧啶残基,Chem. Commun. (Camb). 2015 Feb21; 51(15): 3266-3269),在这种情况下,如果需要,可以去除捕获部分。
将扩增子变性并与用于捕获标签的亲和试剂接触。原始模板结合亲和试剂,而扩增产生的核酸分子不结合。因此,原始模板可以与扩增产生的核酸分子分离。
在分离或分区之后,可以对核酸的相应群体(即,原始模板和扩增产物)进行亚硫酸氢盐处理,其中原始模板群体接受亚硫酸氢盐处理,而扩增产物不接受。可选地,扩增产物可以经历亚硫酸氢盐处理,而原始模板群体不经历亚硫酸氢盐处理。在这样的处理后,相应的群体可以被扩增(在原始模板群体的情况下,这将尿嘧啶转化为胸腺嘧啶)。群体也可以经历生物素探针杂交以用于富集。然后分析相应的群体并比较序列以确定哪些胞嘧啶在原始样品中是5-甲基化的(或5-羟甲基化的)。检测模板群体中的T核苷酸(对应于转化为尿嘧啶的未甲基化胞嘧啶)和扩增群体的相应位置处的C核苷酸指示未修饰的C。在原始模板和扩增群体的相应位置处存在C表明原始样品中存在修饰的C。
在一些实施方案中,方法使用加分子标签的DNA文库的顺序DNA-seq和亚硫酸氢盐-seq (BIS-seq) NGS文库制备。该过程通过衔接子(例如生物素)的标记、整个文库的DNA-seq扩增、亲本分子回收(例如链霉亲和素珠下拉)、亚硫酸氢盐转化和BIS-seq进行。在一些实施方案中,方法通过在有和没有亚硫酸氢盐处理的情况下的亲本文库分子的顺序NGS制备型扩增,以单碱基分辨率鉴定5-甲基胞嘧啶。这可以通过用在两条衔接子链之一上的标记物(例如生物素)修饰在BIS-seq中使用的5-甲基化的NGS衔接子(定向衔接子;Y形/叉形,用5-甲基胞嘧啶替代)来实现。样品DNA分子是连接的衔接子,并被扩增(例如,通过PCR)。由于仅亲本分子将具有标记的衔接子末端,因此它们可以通过标记特异性捕获方法(例如链霉亲和素磁珠)从其扩增的子代选择性地回收。由于亲本分子保留5-甲基化标记,捕获的文库上的亚硫酸氢盐转化将在BIS-seq时产生单碱基分辨率的5-甲基化状态,从而将分子信息保留到相应的DNA-seq。在一些实施方案中,亚硫酸氢盐处理的文库可以在富集/NGS之前通过在标准多重NGS工作流程中添加样品标签DNA序列而与未处理的文库组合。与BIS-seq工作流程一样,生物信息学分析可以针对基因组比对和5-甲基化碱基识别来进行。总之,该方法提供了在文库扩增后选择性地回收携带5-甲基胞嘧啶标志物的亲本、连接的分子的能力,从而允许亚硫酸氢盐转化的DNA的并行处理。这克服了亚硫酸氢盐处理对从工作流程提取的DNA-seq信息的质量/灵敏度的破坏性质。用该方法,回收的连接的、亲本DNA分子(经由标记的衔接子)允许扩增完整的DNA文库,并且并行应用引起表观遗传DNA修饰的处理。本公开内容讨论了使用BIS-seq方法鉴定胞嘧啶5-甲基化(5-甲基胞嘧啶),但这不应是限制性的。BIS-seq的变化形式已经被开发出来以识别羟甲基化胞嘧啶(5hmC;OX-BS-seq、TAB-seq)、甲酰基胞嘧啶(5fC;redBS-seq)和羧基胞嘧啶。这些方法可以用本文描述的顺序/并行文库制备来实现。
分析修饰的核酸的替代方法
本公开内容提供了用于分析修饰的核酸(例如,甲基化的、与组蛋白连接的和以上讨论的其他修饰)的可选方法。在一些这样的方法中,使带有不同程度修饰(例如,每个核酸分子有0、1、2、3、4、5或更多甲基基团)的核酸群体与衔接子接触,然后根据修饰的程度将群体分级。衔接子附接到群体中核酸分子的一端或两端。优选地,衔接子包含足够数量的不同标签,使得标签组合的数量导致具有相同起点和终点的两个核酸接收不同标签组合的概率高,例如95%、99%或99.9%。在附接衔接子后,核酸从结合衔接子内的引物结合位点的引物扩增。无论带有相同或不同标签的衔接子都可以包含相同或不同的引物结合位点,但优选地衔接子包含相同的引物结合位点。在扩增后,核酸与优选地结合带有修饰的核酸的剂(诸如先前描述的这样的剂)接触。核酸被分成至少两个分区,至少两个分区的差异在于带有修饰的核酸对剂的结合程度不同。例如,如果剂对带有修饰的核酸具有亲和力,则修饰被过度代表的核酸(与群体中的中位代表性相比)优先与剂结合,而修饰未被充分代表的核酸不结合剂或者更容易从剂洗脱。在分离后,不同的分区然后可以经历另外的处理步骤,这通常包括并行但单独的另外的扩增和序列分析。然后可以将来自不同分区的序列数据进行比较。
核酸两端可以连接到包含引物结合位点和标签的Y型衔接子。扩增分子。然后,通过与优先结合5-甲基胞嘧啶的抗体接触将扩增的分子分区以产生两个分区。一个分区包含缺乏甲基化的原始分子和丢失甲基化的扩增拷贝。另一个分区包含具有甲基化的原始DNA分子。然后对两个分区单独进行处理和测序,并进一步扩增甲基化分区。然后可以比较两个分区的序列数据。在该实例中,标签不是用来区分甲基化DNA和未甲基化DNA,而是用来区分这些分区中的不同分子,使得人们可以确定具有相同起点和终点的读段是否基于相同或不同的分子。
本公开内容还提供了用于分析核酸群体的方法,其中至少一些核酸包含一个或更多个修饰的胞嘧啶残基,诸如5-甲基胞嘧啶和先前描述的任何其他修饰。在这些方法中,核酸群体与包括一个或更多个在5C位置处修饰的胞嘧啶残基诸如5-甲基胞嘧啶的衔接子接触。优选地,这样的衔接子中的所有胞嘧啶残基也都是修饰的,或者衔接子的引物结合区中所有这样的胞嘧啶都是修饰的。将衔接子附接到群体中核酸分子的两端。优选地,衔接子包含足够数量的不同标签,使得标签组合的数量导致具有相同起点和终点的两个核酸接收不同标签组合的概率高,例如95%、99%或99.9%。这样的衔接子中的引物结合位点可以是相同或不同的,但优选地是相同的。衔接子附接后,由与衔接子的引物结合位点结合的引物扩增核酸。将扩增的核酸分为第一等分试样和第二等分试样。在进行或不进行进一步处理的情况下,对第一等分试样进行序列数据测定。由此确定第一等分试样中分子的序列数据而不管核酸分子的初始甲基化状态。第二等分试样中的核酸分子用亚硫酸氢盐处理。该处理将未修饰的胞嘧啶转化为尿嘧啶。然后亚硫酸氢盐处理的核酸经历扩增,该扩增由针对连接至核酸的衔接子的原始引物结合位点的引物引发。现在只有最初连接到衔接子的核酸分子(不同于其扩增产物)被扩增,因为这些核酸在衔接子的引物结合位点保留了胞嘧啶,而扩增产物已丢失了这些胞嘧啶残基的甲基化,这些丢失甲基化的胞嘧啶残基在亚硫酸氢盐处理中已经历转化成为尿嘧啶。因此,只有群体中的原始分子(至少其中一些是甲基化的)经历扩增。扩增后,对这些核酸进行序列分析。对从第一等分试样和第二等分试样确定的序列的比较尤其可以指示核酸群体中哪些胞嘧啶经历了甲基化。
将样品分区为多于一个子样品;样品的方面;表观遗传特征的分析
在本文描述的某些实施方案中,可以基于核酸的一个或更多个特征对不同形式的核酸群体(例如,样品中的高甲基化DNA和低甲基化DNA,诸如如本文描述的cfDNA的捕获组)进行物理分区,然后进一步分析,例如,差异修饰或分离核碱基、加标签和/或测序。这种方法可以用来确定,例如,某些序列是高甲基化的还是低甲基化的。在一些实施方案中,对高甲基化可变表观遗传靶区进行分析以确定它们是否显示出肿瘤细胞的高甲基化特征,和/或对低甲基化可变表观遗传靶区进行分析以确定它们是否显示出肿瘤细胞的低甲基化特征。另外,通过将异质性核酸群体分区,人们可以增加罕见信号,例如,通过富集在群体的一种级分(或一个分区)中更普遍的罕见核酸分子。例如,通过将样品分区为高甲基化和低甲基化核酸分子,可以更容易地检测出存在于高甲基化DNA中但在低甲基化DNA中较少(或不存在)的遗传变异。通过分析样品的多于一个级分,可以对基因组的单个基因座或核酸种类进行多维分析,并因此可以实现更大的灵敏度。
在一些情况下,将异质性核酸样品分区为两个或更多个分区(例如,至少3个、4个、5个、6个或7个分区)。在一些实施方案中,对每个分区差异性加标签。然后,可以将加标签的分区汇集在一起,用于集体样品制备和/或测序。分区-加标签-汇集步骤可以发生多于一次,其中每一轮分区基于不同的特征(本文提供的实例)发生,并且使用区别于其他分区和分区手段的差异性标签来加标签。
可以用于分区的特征的实例包括序列长度、甲基化水平、核小体结合、序列错配、免疫沉淀和/或与DNA结合的蛋白。所得的分区可以包括以下核酸形式中的一种或更多种:单链DNA (ssDNA)、双链DNA (dsDNA)、较短DNA片段和较长DNA片段。在一些实施方案中,通常进行基于胞嘧啶修饰(例如,胞嘧啶甲基化)或甲基化的分区,并且任选地与至少一个另外的分区步骤组合,该步骤可以基于DNA的任何前述特征或形式。在一些实施方案中,将异质性核酸群体分区为具有一个或更多个表观遗传修饰和不具有所述一个或更多个表观遗传修饰的核酸。表观遗传修饰的实例包括甲基化的存在或不存在、甲基化水平、甲基化类型(例如,5-甲基胞嘧啶与其他类型的甲基化,诸如腺嘌呤甲基化和/或胞嘧啶羟甲基化)、以及与一种或更多种蛋白(诸如组蛋白)的相关和相关水平。可选地或另外地,可以将异质性核酸群体分区为与核小体相关的核酸分子和不含核小体的核酸分子。可选地或另外地,可以将异质性核酸群体分区为单链DNA (ssDNA)和双链DNA (dsDNA)。可选地或另外地,异质性核酸群体可以基于核酸长度(例如,最大160 bp的分子和具有大于160 bp的长度的分子)来分区。
在一些情况下,将每个分区(代表不同的核酸形式)差异性标记,并将分区汇集在一起,然后测序。在其他情况下,将不同的形式单独测序。在一些实施方案中,将不同核酸群体分区为两个或更多个不同的分区。每个分区代表不同的核酸形式,并且第一分区(也称为子样品)包括比第二子样品具有更大比例的胞嘧啶修饰的DNA。将每个分区不同地加标签。对第一子样品进行不同地影响第一子样品的DNA中的第一核碱基和DNA中的第二核碱基的程序,其中第一核碱基是修饰或未修饰的核碱基,第二核碱基是不同于第一核碱基的修饰或未修饰的核碱基,并且第一核碱基和第二核碱基具有相同的碱基配对特异性。将加标签的核酸汇集在一起,然后测序。获得序列读段并进行分析,包括计算机模拟(in silico)区分第一子样品的DNA中的第一核碱基和第二核碱基。标签用于分选来自不同分区的读段。可以在各个分区的水平以及整个核酸群体水平上进行分析以检测遗传变异。例如,分析可以包括计算机模拟分析来确定遗传变异,诸如每个分区的核酸中的CNV、SNV、插入/缺失、融合。在一些情况下,计算机模拟分析可以包括确定染色质结构。例如,序列读段的覆盖范围可以用来确定核小体在染色质中的定位。较高的覆盖范围可以与基因组区域中较高的核小体占据度相关联,而较低的覆盖范围可以与较低的核小体占据度或核小体缺失区(nucleosome depleted region,NDR)相关联。
样品可以包括不同修饰的核酸,包括对核苷酸的复制后修饰和与一个或更多个蛋白的结合(通常是非共价的)。
在实施方案中,核酸群体是从怀疑患有赘生物、肿瘤或癌症或先前被诊断为患有赘生物、肿瘤或癌症的受试者的血清、血浆或血液样品获得的核酸群体。核酸群体包括具有不同甲基化水平的核酸。甲基化可以由任何一个或更多个复制后或转录后修饰发生。复制后修饰包括对核苷酸胞嘧啶的修饰,特别是在核碱基的5-位置处,例如5-甲基胞嘧啶、5-羟甲基胞嘧啶、5-甲酰基胞嘧啶和5-羧基胞嘧啶。亲和剂可以是具有所需特异性的抗体、天然结合配偶体或其变体 (Bock等人,Nat Biotech 28: 1106-1114 (2010);Song等人,NatBiotech 29: 68-72 (2011))、或例如通过噬菌体展示选择的对给定靶具有特异性的人工肽。
本文设想的捕获部分的实例包括如本文描述的甲基结合结构域(MBD)和甲基结合蛋白(MBP),包括蛋白诸如MeCP2和优先与5-甲基胞嘧啶结合的抗体。同样,对不同形式核酸的分区可以使用组蛋白结合蛋白进行,该组蛋白结合蛋白可以分离与组蛋白结合的核酸与游离或未结合的核酸。可以用于本文公开的方法的组蛋白结合蛋白的实例包括RBBP4、RbAp48和SANT结构域肽。对于一些亲和剂和修饰,尽管与剂的结合可以取决于核酸是否带有修饰而以基本上全或无的方式发生,但是分离可以是一定程度的。在这样的情况下,与修饰未被充分代表的核酸(nucleic acids underrepresented in the modification)相比,修饰被过度代表的核酸(nucleic acids overrepresented in a modification)与剂以更大的程度与剂结合。可选地,具有修饰的核酸可以以全或无的方式结合。但是然后,各种水平的修饰可以从结合剂顺序洗脱。
例如,在一些实施方案中,分区可以是二元的或者基于修饰的程度/水平。例如,可以使用甲基结合结构域蛋白(例如MethylMiner甲基化DNA富集试剂盒(ThermoFisherScientific))将所有甲基化片段与未甲基化的片段分区。随后,另外的分区可以包括通过调整含有甲基结合结构域和结合片段的溶液的盐浓度来洗脱具有不同甲基化水平的片段。随着盐浓度增加,具有更大甲基化水平的片段被洗脱。在一些情况下,最终分区代表具有不同程度的修饰(过度代表性(over representative)或代表性不足(underrepresentative)的修饰)的核酸。过度代表性和代表性不足可以由核酸带有的修饰的数量相对于群体中每条链的修饰的中位数来定义。例如,如果样品中的核酸中5-甲基胞嘧啶残基的中位数为2,则包含多于两个5-甲基胞嘧啶残基的核酸的修饰是过度代表性的,而具有1个或0个5-甲基胞嘧啶残基的核酸是代表性不足的。亲和分离的作用是富集结合相中修饰被过度代表的核酸和非结合相(即,溶液中)中修饰代表不足的核酸。结合相的核酸可以在后续处理之前洗脱。
当使用MethylMiner甲基化DNA富集试剂盒(ThermoFisher Scientific)时,可以使用顺序洗脱将不同水平的甲基化分区。例如,可以通过使核酸群体与来自试剂盒的附接至磁珠的MBD接触,将低甲基化分区(例如,无甲基化)与甲基化分区分离。珠用于从未甲基化核酸中分离出甲基化核酸。随后,顺序进行一个或更多个洗脱步骤,以洗脱具有不同甲基化水平的核酸。例如,第一组甲基化核酸可以在160 mM或更高的盐浓度洗脱,例如,至少150mM、至少200 mM、至少300 mM、至少400 mM、至少500 mM、至少600 mM、至少700 mM、至少800mM、至少900 mM、至少1000 mM或至少2000 mM。在这样的甲基化核酸被洗脱后,磁性分离再次用于将较高水平的甲基化核酸与具有较低甲基化水平的核酸分离。洗脱和磁性分离步骤本身可以重复进行以产生各种分区,诸如低甲基化分区(代表无甲基化)、甲基化分区(代表低甲基化水平)和高甲基化分区(代表高甲基化水平)。
在一些方法中,与用于亲和分离的剂结合的核酸经历洗涤步骤。洗涤步骤洗去与亲和剂弱结合的核酸。这样的核酸可以富集具有接近均值或中位数(即,在样品与剂初始接触时保持与固相结合的核酸和不与固相结合的核酸之间的中间值)程度的修饰的核酸。亲和分离导致具有不同修饰程度的核酸的至少两个和有时三个或更多个分区。当分区仍然分开时,将至少一个分区且通常两个或三个(或更多个)分区的核酸与核酸标签连接,该核酸标签通常作为衔接子的组成部分提供,并且不同分区中的核酸接收将一个分区的成员与另一个分区的成员区分开的不同的标签。与同一分区的核酸分子连接的标签可以彼此相同或不同。但是如果彼此不同,则标签可以具有一部分共有的编码,以便将它们所附接的分子鉴定为属于特定分区。关于基于诸如甲基化的特征来分区核酸样品的更多细节,参见WO2018/119452,其通过引用并入本文。在一些实施方案中,核酸分子可以基于与特定蛋白或其片段结合的核酸分子和不与该特定蛋白或其片段结合的核酸分子被分级分离成不同的分区。
核酸分子可以基于DNA-蛋白结合来分级分离。蛋白-DNA复合物可以基于蛋白的特定特性来分级分离。这样的特性的实例包括各种表位、修饰(例如,组蛋白甲基化或乙酰化)或酶促活性。可以结合DNA并用作用于分级分离的基础的蛋白的实例可以包括但不限于蛋白A和蛋白G。任何合适的方法可以用于基于蛋白结合区域来分级分离核酸分子。用于基于蛋白结合区域来分级分离核酸分子的方法的实例包括但不限于SDS-PAGE、染色质免疫沉淀(ChIP)、肝素层析和不对称场流动分级分离法(AF4)。
在一些实施方案中,通过使核酸与甲基化结合蛋白(“MBP”)的甲基化结合结构域(“MBD”)接触来进行核酸的分区。MBD与5-甲基胞嘧啶(5mC)结合。MBD经由生物素接头与顺磁珠(诸如Dynabeads® M-280链霉亲和素)偶联。分区为具有不同甲基化程度的级分可以通过递增的NaCl浓度洗脱级分来进行。
通过NGS对MBD珠分区的文库进行分子标签鉴定的示例性方法如下:
使用甲基结合结构域蛋白-珠纯化试剂盒对提取的DNA样品(例如,从人类样品提取的血浆DNA)进行物理分区,保留来自过程的所有洗脱物用于下游处理。
将差异性分子标签和NGS可行性衔接子序列并行应用于每个分区。例如,将高甲基化分区、残留甲基化(‘洗涤’)分区和低甲基化分区与带有分子标签的NGS衔接子连接。
重新组合所有加分子标签的分区,并使用衔接子特异性DNA引物序列进行随后扩增。
对重新组合和扩增的总文库进行富集/杂交,靶向感兴趣的基因组区域(例如,癌症特异性遗传变异和差异性甲基化区域)。
重新扩增富集的总DNA文库,附加样品标签。将不同的样品汇集并在NGS仪器上进行多重测定。
对NGS数据进行生物信息学分析,其中使用分子标签来鉴定独特分子,以及将样品去卷积为差异性MBD分区的分子。该分析可以与标准的基因测序/变异检测同时产生基因组区域的相对5-甲基胞嘧啶的信息。
本文设想的MBP的实例包括,但不限于:
(a) 相比于结合未修饰的胞嘧啶,优先结合5-甲基-胞嘧啶的蛋白MeCP2;
(b) 相比于结合未修饰的胞嘧啶,优先结合5-羟甲基-胞嘧啶的RPL26、PRP8和DNA错配修复蛋白MHS6;
(c) 相比于结合未修饰的胞嘧啶,优先结合5-甲酰基-胞嘧啶的FOXK1、FOXK2、FOXP1、FOXP4和FOXI3 (Iurlaro等人, Genome Biol. 14: R119 (2013))。
(d) 对一个或更多个甲基化核苷酸碱基特异性的抗体。
通常,洗脱随每个分子的甲基化位点数量变化,在增加的盐浓度下,具有更多甲基化的分子洗脱。为了基于甲基化程度将DNA洗脱到不同的群体中,人们可以使用一系列递增NaCl浓度的洗脱缓冲液。盐浓度可以在约100 nM至约2500 mM NaCl的范围。在一种实施方案中,该过程产生三(3)个分区。将分子与第一盐浓度的溶液接触,并且该溶液包含含有甲基结合结构域的分子,该分子可以与捕获部分诸如链霉亲和素附接。在第一盐浓度,一个分子群体将与MBD结合,并且一个群体将保持未结合。未结合的群体可以被分离为“低甲基化”群体。例如,代表低甲基化形式的DNA的第一分区是在低盐浓度(例如,100 mM或160 mM)保持未结合的分区。代表中等甲基化DNA的第二分区使用中等盐浓度(例如,在100 mM和2000mM之间的浓度)洗脱。这也从样品中分离。代表高甲基化形式的DNA的第三分区使用高盐浓度(例如,至少约2000 mM)洗脱。
本公开内容还提供了用于分析核酸群体的方法,其中至少一些核酸包含一个或更多个修饰的胞嘧啶残基,诸如5-甲基胞嘧啶和先前描述的任何其他修饰。在这些方法中,在分区之后,使核酸子样品与包含一个或更多个在5C位置处修饰的胞嘧啶残基(诸如5-甲基胞嘧啶)的衔接子接触。优选地,这样的衔接子中的所有胞嘧啶残基也都是修饰的,或者衔接子的引物结合区中所有这样的胞嘧啶都是修饰的。将衔接子附接到群体中核酸分子的两端。优选地,衔接子包含足够数量的不同标签,使得标签组合的数量导致具有相同起点和终点的两个核酸接收不同标签组合的概率高,例如95%、99%或99.9%。这样的衔接子中的引物结合位点可以是相同或不同的,但优选地是相同的。衔接子附接后,由与衔接子的引物结合位点结合的引物扩增核酸。将扩增的核酸分为第一等分试样和第二等分试样。在进行或不进行进一步处理的情况下,对第一等分试样进行序列数据测定。由此确定第一等分试样中分子的序列数据而不管核酸分子的初始甲基化状态。第二等分试样中的核酸分子经历不同地影响DNA中的第一核碱基和DNA中的第二核碱基的程序,其中第一核碱基包括在位置5处修饰的胞嘧啶,并且第二核碱基包括未修饰的胞嘧啶。该程序可以是亚硫酸氢盐处理或将未修饰的胞嘧啶转化为尿嘧啶的另一程序。然后将经历该程序的核酸用针对连接到核酸的衔接子的原始引物结合位点的引物扩增。现在只有最初连接到衔接子的核酸分子(不同于其扩增产物)被扩增,因为这些核酸在衔接子的引物结合位点保留了胞嘧啶,而扩增产物已丢失了这些胞嘧啶残基的甲基化,这些丢失甲基化的胞嘧啶残基在亚硫酸氢盐处理中已经历转化成为尿嘧啶。因此,只有群体中的原始分子(至少其中一些是甲基化的)经历扩增。扩增后,这些核酸经历序列分析。对从第一等分试样和第二等分试样确定的序列的比较尤其可以指示核酸群体中哪些胞嘧啶经历了甲基化。
这样的分析可以使用以下示例性程序来进行。在分区后,将甲基化DNA的两端连接到含有引物结合位点和标签的Y形衔接子。衔接子中的胞嘧啶在位置5处被修饰(例如,5-甲基化)。衔接子的修饰用于在随后的转化步骤(例如,亚硫酸氢盐处理、TAP转化或不影响修饰胞嘧啶但影响未修饰胞嘧啶的任何其他转化)中保护引物结合位点。衔接子附接后,扩增DNA分子。将扩增产物分为两个等分试样用于有转化和无转化的测序。未经历转化的等分试样可以在进行或不进行进一步处理的情况下经历序列分析。另一等分试样经历不同地影响DNA中的第一核碱基和DNA中的第二核碱基的程序,其中第一核碱基包括在位置5处修饰的胞嘧啶,并且第二核碱基包括未修饰的胞嘧啶。该程序可以是亚硫酸氢盐处理或将未修饰的胞嘧啶转化为尿嘧啶的另一程序。当与对原始引物结合位点特异性的引物接触时,只有受胞嘧啶修饰保护的引物结合位点可以支持扩增。因此,只有原始分子而非来自第一扩增的拷贝经历进一步扩增。进一步扩增的分子然后经历序列分析。然后可以比较来自两个等分试样的序列。如以上讨论的分离方案中的,衔接子中的核酸标签不用于区分甲基化DNA和未甲基化DNA,而是用于区分同一分区内的核酸分子。
使第一子样品经历不同地影响第一子样品的DNA中的第一核碱基和DNA中的第二
核碱基的程序
本文公开的方法包括使第一子样品经历不同地影响第一子样品的DNA中的第一核碱基和DNA中的第二核碱基的程序的步骤,其中第一核碱基是修饰或未修饰的核碱基,第二核碱基是不同于第一核碱基的修饰或未修饰的核碱基,并且第一核碱基和第二核碱基具有相同的碱基配对特异性。在一些实施方案中,如果第一核碱基是修饰或未修饰的腺嘌呤,则第二核碱基是修饰或未修饰的腺嘌呤;如果第一核碱基是修饰或未修饰的胞嘧啶,则第二核碱基是修饰或未修饰的胞嘧啶;如果第一核碱基是修饰或未修饰的鸟嘌呤,则第二核碱基是修饰或未修饰的鸟嘌呤;如果第一核碱基是修饰或未修饰的胸腺嘧啶,则第二核碱基是修饰或未修饰的胸腺嘧啶(其中为了本步骤的目的,修饰和未修饰的尿嘧啶包括在修饰的胸腺嘧啶中)。
在一些实施方案中,第一核碱基是修饰或未修饰的胞嘧啶,然后第二核碱基是修饰或未修饰的胞嘧啶。例如,第一核碱基可以包括未修饰的胞嘧啶(C),并且第二核碱基可以包括5-甲基胞嘧啶(mC)和5-羟甲基胞嘧啶(hmC)中的一种或更多种。可选地,第二核碱基可以包括C,并且第一核碱基可以包括mC和hmC中的一种或更多种。其它组合也是可能的,如例如在以上概述和以下讨论中指示的,诸如其中第一核碱基和第二核碱基中的一种包括mC并且另一种包括hmC。
在一些实施方案中,不同地影响第一子样品的DNA中的第一核碱基和DNA中的第二核碱基的程序包括亚硫酸氢盐转化。亚硫酸氢盐处理将未修饰的胞嘧啶和某些修饰的胞嘧啶核苷酸(例如5-甲酰基胞嘧啶(fC)或5-羧基胞嘧啶(caC))转化为尿嘧啶,而其他修饰的胞嘧啶(例如,5-甲基胞嘧啶和5-羟甲基胞嘧啶)不被转化。因此,在使用亚硫酸氢盐转化的情况下,第一核碱基包括未修饰的胞嘧啶、5-甲酰基胞嘧啶、5-羧基胞嘧啶或其他受亚硫酸氢盐影响的胞嘧啶形式中的一种或更多种,并且第二核碱基可以包括mC和hmC中的一种或更多种,诸如mC和任选地hmC。对亚硫酸氢盐处理的DNA的测序将读取为胞嘧啶的位置鉴定为mC位置或hmC位置。同时,读取为T的位置被鉴定为T或亚硫酸氢盐易感形式的C,诸如未修饰的胞嘧啶、5-甲酰基胞嘧啶或5-羧基胞嘧啶。因此,如本文描述的对第一子样品进行亚硫酸氢盐转化有助于使用从第一子样品获得的序列读段鉴定含有mC或hmC的位置。关于亚硫酸氢盐转化的示例性描述,参见例如,Moss等人,Nat Commun. 2018; 9: 5068。
在一些实施方案中,不同地影响第一子样品的DNA中的第一核碱基和DNA中的第二核碱基的程序包括氧化亚硫酸氢盐(Ox-BS)转化。在一些实施方案中,不同地影响第一子样品的DNA中的第一核碱基和DNA中的第二核碱基的程序包括TET辅助的亚硫酸氢盐(TAB)转化。在一些实施方案中,不同地影响第一子样品的DNA中的第一核碱基和DNA中的第二核碱基的程序包括Tet辅助的取代硼烷还原剂转化,任选地其中取代硼烷还原剂是2-甲基吡啶硼烷、吡啶硼烷、叔丁基胺硼烷或氨硼烷。在一些实施方案中,不同地影响第一子样品的DNA中的第一核碱基和DNA中的第二核碱基的程序包括化学辅助的取代硼烷还原剂转化,任选地其中取代硼烷还原剂是2-甲基吡啶硼烷、吡啶硼烷、叔丁基胺硼烷或氨硼烷。在一些实施方案中,不同地影响第一子样品的DNA中的第一核碱基和DNA中的第二核碱基的程序包括APOBEC偶联的表观遗传(ACE)转化。
在一些实施方案中,不同地影响第一子样品的DNA中的第一核碱基和DNA中的第二核碱基的程序包括对第一核碱基的酶促转化,例如,如EM-Seq中的。参见例如,Vaisvila R等人(2019) EM-seq: Detection of DNA methylation at single base resolutionfrom picograms of DNA. bioRxiv; DOI: 10.1101/2019.12.20.884692,可从www.biorxiv.org/content/10.1101/2019.12.20.884692v1获得。例如,TET2和T4-βGT可用于将5mC和5hmC转化为不能被脱氨基酶(例如,APOBEC3A)脱氨基的底物,并且然后脱氨基酶(例如,APOBEC3A)可用于使未修饰的胞嘧啶脱氨基,将其转化为尿嘧啶。
在一些实施方案中,不同地影响第一子样品的DNA中的第一核碱基和DNA中的第二核碱基的程序包括将最初包含第一核碱基的DNA与最初不包含第一核碱基的DNA分离。
在一些实施方案中,第一核碱基是修饰或未修饰的腺嘌呤,并且第二核碱基是修饰或未修饰的腺嘌呤。在一些实施方案中,修饰的腺嘌呤是N6-甲基腺嘌呤(mA)。在一些实施方案中,修饰的腺嘌呤是N6-甲基腺嘌呤(mA)、N6-羟甲基腺嘌呤(hmA)或N6-甲酰基腺嘌呤(fA)中的一种或更多种。
包括甲基化DNA免疫沉淀(MeDIP)的技术可以用于分离含有修饰的碱基(诸如mA)的DNA与其他DNA。参见,例如,Kumar等人,Frontiers Genet. 2018; 9: 640;Greer等人,Cell 2015; 161: 868-878。对mA特异性的抗体在Sun等人,Bioessays 2015; 37:1155-62中描述。针对各种修饰的核碱基(诸如胸腺嘧啶/尿嘧啶的形式,包括卤化形式,诸如5-溴尿嘧啶)的抗体是商业上可获得的。各种修饰的碱基也可以基于它们的碱基配对特异性的改变来检测。例如,次黄嘌呤是腺嘌呤的修饰形式,其可由脱氨基产生,并且在测序中读作G。参见例如美国专利8,486,630;Brown, Genomes,第2版,John Wiley & Sons, Inc., NewYork, N.Y., 2002,第14章,“Mutation, Repair, and Recombination”。
富集/捕获步骤;扩增;衔接子;条形码
在一些实施方案中,本文公开的方法包括捕获DNA诸如cfDNA的一个或更多个靶区组的步骤。可以使用本领域中已知的任何合适的方法来进行捕获。在一些实施方案中,捕获包括使待捕获的DNA与靶特异性探针组接触。靶特异性探针组可以具有本文描述的靶特异性探针组的任何特征,包括但不限于以上阐述的实施方案和下文与探针有关的部分中的特征。可以对本文公开的方法过程中制备的一个或更多个子样品进行捕获。在一些实施方案中,从至少第一子样品或第二子样品,例如至少第一子样品和第二子样品中捕获DNA。在第一子样品经历分离步骤(例如,分离最初包括第一核碱基(例如,hmC)的DNA与最初不包括第一核碱基的DNA,诸如hmC-seal)的情况下,可以对最初包括第一核碱基(例如,hmC)的DNA、最初不包括第一核碱基的DNA和第二子样品中的任何一个、任何两个或全部进行捕获。在一些实施方案中,对子样品进行差异性加标签(例如,如本文描述的),并且然后在经历捕获之前进行汇集。
捕获步骤可以使用适于特定核酸杂交的条件进行,该条件通常在某种程度上取决于探针的特征,诸如长度、碱基组成等。鉴于本领域有关核酸杂交的一般知识,本领域技术人员对适当的条件将是熟悉的。在一些实施方案中,形成靶特异性探针和DNA的复合物。
在一些实施方案中,本文描述的方法包括捕获从测试受试者获得的cfDNA的多于一个靶区组。靶区包括表观遗传靶区,所述表观遗传靶区可以显示出甲基化水平和/或片段化模式的差异,这取决于它们来源于肿瘤细胞还是来源于健康细胞。靶区还包括序列可变靶区,所述序列可变靶区可以显示出序列差异,这取决于它们来源于肿瘤细胞还是来源于健康细胞。捕获步骤产生cfDNA分子的捕获组,并且在cfDNA分子的捕获组中,对应于序列可变靶区组的cfDNA分子以比对应于表观遗传靶区组的cfDNA分子更大的捕获产量被捕获。对于捕获步骤、捕获产量和相关方面的另外的讨论,参见WO2020/160414,为了所有目的将其通过引用并入本文。
在一些实施方案中,本文描述的方法包括使从测试受试者获得的cfDNA与靶特异性探针组接触,其中靶特异性探针组被配置为以比对应于表观遗传靶区组的cfDNA更大的捕获产量捕获对应于序列可变靶区组的cfDNA。
以比对应于表观遗传靶区组的cfDNA更大的捕获产量捕获对应于序列可变靶区组的cfDNA是有益的,因为以足够的置信度或准确度分析序列可变靶区可能需要的测序深度比分析表观遗传靶区可能需要的测序深度更大。确定片段化模式(例如,测试转录起始位点或CTCF结合位点的扰动)或片段丰度(例如,在高甲基化分区和低甲基化分区中)所需的数据量通常小于确定癌症相关序列突变的存在或不存在所需的数据量。以不同的产量捕获靶区组可以有助于在同一测序运行中(例如,使用汇集的混合物和/或在同一测序池中)将靶区测序到不同的测序深度。
在各种实施方案中,该方法还包括将捕获的cfDNA测序到,例如,对表观遗传靶区组和序列可变靶区组不同程度的测序深度,与本文讨论的一致。在一些实施方案中,将靶特异性探针和DNA的复合物与未结合到靶特异性探针的DNA分离。例如,在靶特异性探针共价地或非共价地结合到固体支持物的情况下,可以使用洗涤或抽吸步骤来分离未结合的材料。可选地,在复合物具有不同于未结合材料的色谱特性的情况下(例如,在探针包含结合色谱树脂的配体的情况下),可以使用色谱法。
如本文其他地方详细讨论的,靶特异性探针组可以包括多于一个组,诸如针对序列可变靶区组的探针和针对表观遗传靶区组的探针。在一些这样的实施方案中,在同一容器中同时使用针对序列可变靶区的探针和针对表观遗传靶区的探针进行捕获步骤,例如,针对序列可变靶区组和表观遗传靶区组的探针在同一组合物中。该方法提供了相对效率更高的工作流程。在一些实施方案中,针对序列可变靶区组的探针的浓度大于针对表观遗传靶区组的探针的浓度。
可选地,在第一容器中用序列可变靶区探针组并在第二容器中用表观遗传靶区探针组进行捕获步骤,或者在第一时间和第一容器用序列可变靶区探针组并在第一时间之前或之后的第二时间用表观遗传靶区探针组进行接触步骤。该方法允许制备单独的第一组合物和第二组合物,所述第一组合物和第二组合物包括对应于序列可变靶区组的捕获的DNA和对应于表观遗传靶区组的捕获的DNA。所述组合物可以按期望单独地处理(例如,基于甲基化进行分级,如本文其他地方描述的),并以适当比例重新组合以提供用于进一步处理和分析诸如测序的材料。
在一些实施方案中,扩增DNA。在一些实施方案中,在捕获步骤之前进行扩增。在一些实施方案中,在捕获步骤之后进行扩增。
在一些实施方案中,DNA中包含衔接子。这可以与扩增程序同时进行,例如,通过在引物的5’部分中提供衔接子,例如,如以上描述的。可选地,衔接子可以通过其他方法诸如连接添加。
在一些实施方案中,DNA中包含标签,标签可以是条形码或包含条形码。标签可以有助于鉴定核酸的来源。例如,条形码可以用于允许在汇集多于一个样品用于并行测序之后鉴定DNA来自的来源,例如,受试者。这可以与扩增程序同时进行,例如,通过在引物的5’部分中提供条形码,例如,如以上描述的。在一些实施方案中,衔接子和标签/条形码由同一引物或引物组提供。例如,条形码可以位于衔接子的3’和引物的靶杂交部分的5’。可选地,条形码可以通过其他方法添加,诸如连接,任选地与衔接子一起在同一连接底物中。
关于扩增、标签和条形码的另外的细节在以下“方法的一般特征”章节中讨论,这些细节可以在可行的程度上与任何前述实施方案和“引言及概述”章节中阐述的实施方案组合。
捕获组
在一些实施方案中,提供DNA (例如,cfDNA)的捕获组。对于所公开的方法,DNA的捕获组可以例如通过在如本文描述的分区步骤之后进行捕获步骤来提供。捕获组可以包括对应于序列可变靶区组的DNA、对应于表观遗传靶区组的DNA或其组合。在一些实施方案中,当针对靶区的尺寸(足迹尺寸)的差异进行归一化时,捕获的序列可变靶区DNA的量大于捕获的表观遗传靶区DNA的量。
可选地,可以提供分别包括对应于序列可变靶区组的DNA和对应于表观遗传靶区组的DNA的第一捕获组和第二捕获组。可以组合第一捕获组和第二捕获组以提供组合的捕获组。
在其中包括对应于序列可变靶区组和表观遗传靶区组的DNA的捕获组(包括如以上讨论的组合的捕获组)的一些实施方案中,对应于序列可变靶区组的DNA可以以比对应于表观遗传靶区组的DNA更大的浓度存在,例如,1.1倍至1.2倍大的浓度、1.2倍至1.4倍大的浓度、1.4倍至1.6倍大的浓度、1.6倍至1.8倍大的浓度、1.8倍至2.0倍大的浓度、2.0倍至2.2倍大的浓度、2.2倍至2.4倍大的浓度、2.4倍至2.6倍大的浓度、2.6倍至2.8倍大的浓度、2.8倍至3.0倍大的浓度、3.0倍至3.5倍大的浓度、3.5倍至4.0倍大的浓度、4.0倍至4.5倍大的浓度、4.5倍至5.0倍大的浓度、5.0倍至5.5倍大的浓度、5.5倍至6.0倍大的浓度、6.0倍至6.5倍大的浓度、6.5倍至7.0倍大的浓度、7.0倍至7.5倍大的浓度、7.5倍至8.0倍大的浓度、8.0倍至8.5倍大的浓度、8.5倍至9.0倍大的浓度、9.0倍至9.5倍大的浓度、9.5倍至10.0倍大的浓度、10倍至11倍大的浓度、11倍至12倍大的浓度、12倍至13倍大的浓度、13倍至14倍大的浓度、14倍至15倍大的浓度、15倍至16倍大的浓度、16倍至17倍大的浓度、17倍至18倍大的浓度、18倍至19倍大的浓度、19倍至20倍大的浓度、20倍至30倍大的浓度、30倍至40倍大的浓度、40倍至50倍大的浓度、50倍至60倍大的浓度、60倍至70倍大的浓度、70倍至80倍大的浓度、80倍至90倍大的浓度、90倍至100倍大的浓度、10倍至20倍大的浓度、10倍至40倍大的浓度、10倍至50倍大的浓度、10倍至70倍大的浓度或10倍至100倍大的浓度。浓度差异的程度按针对靶区足迹尺寸的归一化计算,如定义章节中讨论的。
表观遗传靶区组
表观遗传靶区组可以包括一个或更多个类型的靶区,所述靶区可以区分来自赘生性(例如,肿瘤或癌症)细胞的DNA与来自健康细胞(例如,非赘生性循环细胞)的DNA。本文详细讨论了这样的区域的示例类型。表观遗传靶区组还可以包括一个或更多个对照区域,例如,如本文描述的。在一些实施方案中,表观遗传靶区组具有至少100 kb,例如,至少200kb、至少300 kb或至少400 kb的足迹。在一些实施方案中,表观遗传靶区组具有在以下范围内的足迹:100-1000 kb,例如,100-200 kb、200-300 kb、300-400 kb、400-500 kb、500-600kb、600-700 kb、700-800 kb、800-900 kb和900-1,000 kb。
高甲基化可变靶区
在一些实施方案中,表观遗传靶区组包括一个或更多个高甲基化可变靶区。通常,高甲基化可变靶区是指这样的区域,在该区域中,例如在cfDNA样品中,所观察到的甲基化水平的增加指示样品(例如cfDNA)含有由赘生性细胞(诸如肿瘤细胞或癌细胞)产生的DNA的可能性增加。例如,肿瘤抑制基因启动子的高甲基化已经被重复观察到。参见,例如,Kang等人,Genome Biol. 18:53 (2017)和其中引用的参考文献。在实例中,高甲基化可变靶区可以包括这样的区域,相对于来自相同类型的健康组织的DNA,癌性组织中该区域的甲基化不一定不同,但相对于健康受试者中典型的cfDNA,该区域的甲基化确实不同(例如,具有更多甲基化)。例如,当癌症的存在导致细胞死亡(诸如对应于癌症的组织类型的细胞凋亡)增加时,可以至少部分地使用这样的高甲基化可变靶区来检测这样的癌症。在一些实施方案中,高甲基化可变靶区包括一个或更多个基因组区域,其中在癌症受试者中这些区域中的cfDNA分子的甲基化状态相对于来自健康受试者的cfDNA没有差异,但是在这些区域中高甲基化cfDNA的存在/增加的量指示特定的组织类型(例如,癌症来源),并且由于增加的凋亡(例如,肿瘤脱落)进入循环中作为cfDNA呈现。
高甲基化靶区可以例如从癌症基因组图谱(the Cancer Genome Atlas)获得。Kang等人,Genome Biology 18:53(2017)描述了使用来自乳腺、结肠、肾、肝和肺的高甲基化靶区构建称为癌症定位器(CancerLocator)的概率方法。在一些实施方案中,高甲基化靶区可以是对一个或更多个类型的癌症特异性的。因此,在一些实施方案中,高甲基化靶区包括一个、两个、三个、四个或五个高甲基化靶区亚组,所述高甲基化靶区亚组集体地显示出乳腺癌、结肠癌、肾癌、肝癌和肺癌中的一种、两种、三种、四种或五种中的高甲基化。
在一些实施方案中,针对表观遗传靶区组的探针包括对一个或更多个高甲基化可变靶区特异性的探针。高甲基化可变靶区可以是上文列出的任何高甲基化可变靶区。例如,对高甲基化可变靶区特异性的探针包括对表1中列出的多于一个基因座(例如,表1中列出的基因座中的至少10%、20%、30%、40%、50%、60%、70%、80%、90%或100%)特异性的探针。在一些实施方案中,对高甲基化可变靶区特异性的探针包括对表2中列出的多于一个基因座(例如,表2中列出的基因座中的至少10%、20%、30%、40%、50%、60%、70%、80%、90%或100%)特异性的探针。在一些实施方案中,对高甲基化可变靶区特异性的探针包括对表1或表2中列出的多于一个基因座(例如,表1或表2中列出的基因座中的至少10%、20%、30%、40%、50%、60%、70%、80%、90%或100%)特异性的探针。在一些实施方案中,对于作为靶区被包括在内的每个基因座,可以有一种或更多种探针,所述探针具有在该基因的转录起始位点和终止密码子(对于选择性剪接的基因为最后的终止密码子)之间结合的杂交位点。在一些实施方案中,一种或更多种探针在所列位置的300 bp内(例如,在200 bp或100 bp内)结合。在一些实施方案中,探针具有与以上列出的位置重叠的杂交位点。在一些实施方案中,对高甲基化靶区特异性的探针包括对高甲基化靶区的一个、两个、三个、四个或五个亚组特异性的探针,其集体地显示出在乳腺癌、结肠癌、肾癌、肝癌和肺癌中的一种、两种、三种、四种或五种中的高甲基化。
低甲基化可变靶区
全面低甲基化是在多种癌症中普遍观察到的现象。参见例如,Hon等人, GenomeRes. 22:246-258 (2012) (breast cancer);Ehrlich, Epigenomics 1:239-259 (2009)(注意到结肠癌、卵巢癌、前列腺癌、白血病、肝细胞癌和宫颈癌中低甲基化的观察结果的综述文章)。例如,在健康细胞中正常被甲基化的区域(诸如重复元件(例如,LINE1元件、Alu元件、着丝粒串联重复序列、着丝粒周围串联重复序列和卫星DNA)和基因间区域)在肿瘤细胞中可能显示出减少的甲基化。因此,在一些实施方案中,表观遗传靶区组包括低甲基化可变靶区,其中所观察到的甲基化水平的降低指示样品(例如,cfDNA)含有由赘生性细胞(诸如肿瘤细胞或癌细胞)产生的DNA的可能性增加。在实例中,低甲基化可变靶区可以包括这样的区域,相对于来自相同类型的健康组织的DNA,癌性组织中该区域的甲基化状态不一定不同,但相对于健康受试者中典型的cfDNA,该区域的甲基化确实不同(例如,甲基化较少)。例如,当癌症的存在导致细胞死亡(诸如对应于癌症的组织类型的细胞凋亡)增加时,可以至少部分地使用这样的低甲基化可变靶区来检测这样的癌症。在一些实施方案中,低甲基化可变靶区包括一个或更多个基因组区域,其中在癌症受试者中这些区域中的cfDNA分子的甲基化状态相对于来自健康受试者的cfDNA没有差异,但是在这些区域中低甲基化cfDNA的存在/增加的量指示特定的组织类型(例如,癌症来源),并且以伴随增加的凋亡(例如,肿瘤脱落)进入循环中的cfDNA呈现。
在一些实施方案中,低甲基化可变靶区包括重复元件和/或基因间区域。在一些实施方案中,重复元件包括LINE1元件、Alu元件、着丝粒串联重复序列、着丝粒周围串联重复序列和/或卫星DNA中的一种、两种、三种、四种或五种。
显示出癌症相关的低甲基化的示例特定基因组区域包括人类1号染色体的核苷酸8403565-8953708和151104701-151106035。在一些实施方案中,低甲基化可变靶区与这些区域中的一个或两个重叠或者包括这些区域中的一个或两个。
在一些实施方案中,针对表观遗传靶区组的探针包括对一个或更多个低甲基化可变靶区特异性的探针。低甲基化可变靶区可以是以上列出的任何低甲基化靶区。例如,对一个或更多个低甲基化可变靶区特异性的探针可以包括针对以下区域的探针:诸如重复元件(例如,LINE1元件、Alu元件、着丝粒串联重复序列、着丝粒周围串联重复序列和卫星DNA)和基因间区域,这些区域在健康细胞中通常被甲基化,在肿瘤细胞中可能显示出减少的甲基化。
在一些实施方案中,对低甲基化可变靶区特异性的探针包括对重复元件和/或基因间区域特异性的探针。在一些实施方案中,对重复元件特异性的探针包括对LINE1元件、Alu元件、着丝粒串联重复序列、着丝粒周围串联重复序列和/或卫星DNA中的一种、两种、三种、四种或五种特异性的探针。
对显示出癌症相关低甲基化的基因组区域特异性的示例探针包括对人类1号染色体的核苷酸8403565-8953708和/或151104701-151106035特异性的探针。在一些实施方案中,对低甲基化可变靶区特异性的探针包括对与人类1号染色体核苷酸8403565-8953708和/或151104701-151106035重叠或包含其的区域特异性的探针。
用于检测该组区域的探针可以包括用于检测感兴趣的基因组区域(热点区域)的探针以及核小体感知探针(例如,KRAS密码子12和13),并且可以设计成基于分析cfDNA覆盖范围和受核小体结合模式影响的片段尺寸变异和GC序列组成来优化捕获。本文使用的区域还可以包括基于核小体位置和GC模型优化的非热点区域。
在一些实施方案中,DNA (例如,cfDNA)从患有癌症的受试者获得。在一些实施方案中,DNA (例如,cfDNA)从怀疑患有癌症的受试者获得。在一些实施方案中,DNA (例如,cfDNA)从患有肿瘤的受试者获得。在一些实施方案中,DNA (例如,cfDNA)从怀疑患有肿瘤的受试者获得。在一些实施方案中,DNA (例如,cfDNA)从患有赘生物的受试者获得。在一些实施方案中,DNA (例如,cfDNA)从怀疑患有赘生物的受试者获得。在一些实施方案中,DNA(例如,cfDNA)从处于从肿瘤、癌症或赘生物缓解(例如,在化学疗法、手术切除、放射或其组合之后)的受试者获得。在任一前述实施方案中,癌症、肿瘤或赘生物或者疑似的癌症、肿瘤或赘生物可以是肺、结肠、直肠、肾、乳腺、前列腺或肝的。在一些实施方案中,癌症、肿瘤或赘生物或者疑似的癌症、肿瘤或赘生物是肺的。在一些实施方案中,癌症、肿瘤或赘生物或者疑似的癌症、肿瘤或赘生物是结肠的或直肠的。在一些实施方案中,癌症、肿瘤或赘生物或者疑似的癌症、肿瘤或赘生物是乳腺的。在一些实施方案中,癌症、肿瘤或赘生物或者疑似的癌症、肿瘤或赘生物是前列腺的。在任一前述实施方案中,受试者可以是人类受试者。
在一些实施方案中,序列可变靶区探针组具有至少0.5 kb (例如,至少1 kb、至少2 kb、至少5 kb、至少10 kb、至少20 kb、至少30 kb或至少40 kb)的足迹。在一些实施方案中,表观遗传靶区探针组具有0.5-100 kb (例如,0.5-2 kb、2-10 kb、10-20 kb、20-30 kb、30-40 kb、40-50 kb、50-60 kb、60-70 kb、70-80 kb、80-90 kb和90-100 kb)范围内的足迹。
在一些实施方案中,对序列可变靶区组特异性的探针包括对来自至少10个、20个、30个或35个癌症相关基因的靶区特异性的探针,所述癌症相关基因诸如AKT1、ALK、BRAF、CCND1、CDK2A、CTNNB1、EGFR、ERBB2、ESR1、FGFR1、FGFR2、FGFR3、FOXL2、GATA3、GNA11、GNAQ、GNAS、HRAS、IDH1、IDH2、KIT、KRAS、MED12、MET、MYC、NFE2L2、NRAS、PDGFRA、PIK3CA、PPP2R1A、PTEN、RET、STK11、TP53和U2AF1。
包含捕获的DNA的组合物
本文提供了包含捕获的DNA的第一群体和第二群体的组合。第一群体可以包含或源自比第二群体具有更大比例的胞嘧啶修饰的DNA。第一群体可以包含具有改变的碱基配对特异性的最初存在于DNA中的第一核碱基的形式和没有改变的碱基配对特异性的第二核碱基,其中在碱基配对特异性改变之前最初存在于DNA中的第一核碱基的形式是修饰或未修饰的核碱基,第二核碱基是不同于第一核碱基的修饰或未修饰的核碱基,并且在碱基配对特异性改变之前最初存在于DNA中的第一核碱基的形式和第二核碱基具有相同的碱基配对特异性。第二群体不包含具有改变的碱基配对特异性的最初存在于DNA中的第一核碱基的形式。在一些实施方案中,胞嘧啶修饰是胞嘧啶甲基化。在一些实施方案中,第一核碱基是修饰或未修饰的胞嘧啶,并且第二核碱基是修饰或未修饰的胞嘧啶。第一核碱基和第二核碱基可以是本文在概述中或者关于使第一子样品经历不同地影响第一子样品的DNA中的第一核碱基和DNA中的第二核碱基的程序所讨论的任何核碱基。
在一些实施方案中,第一群体包含选自第一组一个或更多个序列标签的序列标签,并且第二群体包含选自第二组一个或更多个序列标签的序列标签,并且第二组序列标签不同于第一组序列标签。序列标签可以包括条形码。
在一些实施方案中,第一群体包含受保护的hmC,诸如葡糖基化的hmC。在一些实施方案中,第一群体经历本文讨论的任何转化程序,诸如亚硫酸氢盐转化、Ox-BS转化、TAB转化、ACE转化、TAP转化、TAPSβ转化或CAP转化。在一些实施方案中,第一群体经受hmC的保护,随后mC和/或C的脱氨基。在组合的一些实施方案中,第一群体包含或衍生自具有比第二群体更大比例的胞嘧啶修饰的DNA,并且第一群体包含第一和第二亚群体,并且第一核碱基是修饰或未修饰的核碱基,第二核碱基是不同于第一核碱基的修饰或未修饰的核碱基,并且第一核碱基和第二核碱基具有相同的碱基配对特异性。在一些实施方案中,第二群体不包含第一核碱基。在一些实施方案中,第一核碱基是修饰或未修饰的胞嘧啶,并且第二核碱基是修饰或未修饰的胞嘧啶,任选地其中修饰的胞嘧啶是mC或hmC。在一些实施方案中,第一核碱基是修饰或未修饰的腺嘌呤,并且第二核碱基是修饰或未修饰的腺嘌呤,任选地其中修饰的腺嘌呤是mA。
在一些实施方案中,第一核碱基(例如,修饰的胞嘧啶)被生物素化。在一些实施方案中,第一核碱基(例如,修饰的胞嘧啶)是对β-6-叠氮基-葡糖基-5-羟甲基胞嘧啶进行Huisgen环加成的产物,该产物包含亲和标记(例如,生物素)。
在本文描述的任何组合中,捕获的DNA可以包括cfDNA。捕获的DNA可以具有本文描述的关于捕获组的任何特征,包括例如,对应于序列可变靶区组的DNA的浓度比对应于表观遗传靶区组的DNA的浓度更大(如以上讨论的针对足迹尺寸进行归一化)。在一些实施方案中,捕获组的DNA包含序列标签,所述序列标签可以如本文描述的添加到DNA。通常,序列标签的包含导致DNA分子不同于它们天然存在的、未加标签的形式。
该组合还可以包含本文描述的探针组或测序引物,其中每一个都可不同于天然存在的核酸分子。例如,本文描述的探针组可以包含捕获部分,并且测序引物可以包含非天然存在的标记。
计算机系统
本公开内容的方法可以使用或借助于计算机系统来实现。例如,这样的方法可以包括:将样品分区为多于一个子样品,所述多于一个子样品包括第一子样品和第二子样品,其中第一子样品包含比第二子样品具有更大比例的胞嘧啶修饰的DNA;使第一子样品经历不同地影响第一子样品的DNA中的第一核碱基和DNA中的第二核碱基的程序,其中第一核碱基是修饰或未修饰的核碱基,第二核碱基是不同于第一核碱基的修饰或未修饰的核碱基,并且第一核碱基和第二核碱基具有相同的碱基配对特异性;以及以区分第一子样品的DNA中的第一核碱基和第二核碱基的方式对第一子样品中的DNA和第二子样品中的DNA进行测序。
在一个方面,本公开内容提供了一种包括计算机可执行指令的非暂时性计算机可读介质,在由至少一个电子处理器执行时,该计算机可执行指令进行方法的至少一部分,该方法包括:从测试受试者收集cfDNA;从cfDNA中捕获多于一个靶区组,其中多于一个靶区组包括序列可变靶区组和表观遗传靶区组,从而产生捕获的cfDNA分子组;对捕获的cfDNA分子进行测序,其中序列可变靶区组的捕获的cfDNA分子被测序至比表观遗传靶区组的捕获的cfDNA分子更深的测序深度;获得由核酸测序仪通过对捕获的cfDNA分子进行测序而产生的多于一个序列读段;将多于一个序列读段映射至一个或更多个参考序列以产生映射的序列读段;以及处理对应于序列可变靶区组和表观遗传靶区组的映射的序列读段,以确定受试者患有癌症的可能性。
代码可以被预编译并被配置为用于与具有适用于执行代码的处理器的机器一起使用,或可以在运行时间期间被编译。代码可以以编程语言提供,该编程语言可以被选择使得代码能够以预编译的或按编译原样(as-compiled)的方式被执行。
与计算机系统和网络、数据库和计算机程序产品相关的另外细节也在例如以下中提供:Peterson, Computer Networks: A Systems Approach, Morgan Kaufmann, 5thEd.(2011),Kurose, Computer Networking: A Top-Down Approach, Pearson, 7th Ed.(2016),Elmasri, Fundamentals of Database Systems, Addison Wesley, 6th Ed.(2010),Coronel, Database Systems: Design, Implementation, & Management,Cengage Learning, 11th Ed.(2014),Tucker, Programming Languages, McGraw-HillScience/Engineering/Math, 2nd Ed.(2006),和Rhoton, Cloud ComputingArchitected: Solution Design Handbook, Recursive Press (2011),其均通过引用以其整体并入。
癌症和其他疾病
本发明的方法可以用于诊断受试者中状况特别是癌症的存在,以表征状况(例如,对癌症进行分期或确定癌症的异质性),监测状况对治疗的响应,实现对状况发展或状况后续进程的风险的预后。本公开内容也可以用于确定特定治疗选择的效力。如果治疗是成功的,则成功的治疗选择可能随着更多的癌症可能死亡并且脱落DNA而增加受试者的血液中检测到的拷贝数变异或罕见突变的量。在其他实例中,这可能不会发生。在另一个实例中,也许某些治疗选择可能与癌症随时间推移的遗传谱相关。这种相关性可以用于选择疗法。
另外地,如果观察到癌症在治疗之后处于缓解中,本发明的方法可以用于监测残留疾病或疾病的复发。
在一些实施方案中,本文公开的方法和系统可以基于将核酸变异分类为体细胞来源或种系来源而用于鉴定定制或靶向的疗法以治疗患者的特定疾病或状况。通常,所考虑的疾病是一种癌症。这样的癌症的非限制性实例包括胆道癌、膀胱癌、移行细胞癌、尿路上皮癌、脑癌、神经胶质瘤、星形细胞瘤、乳腺癌、化生癌、宫颈癌、宫颈鳞状细胞癌、直肠癌、结肠直肠癌、结肠癌、遗传性非息肉性结肠直肠癌、结肠腺癌、胃肠间质瘤(GIST)、子宫内膜癌、子宫内膜间质肉瘤、食管癌、食管鳞状细胞癌、食管腺癌、眼黑素瘤、葡萄膜黑素瘤、胆囊癌、胆囊腺癌、肾细胞癌、透明细胞肾细胞癌(clear cell renal cell carcinoma)、移行细胞癌、尿路上皮癌、肾母细胞瘤、白血病、急性淋巴细胞白血病(ALL)、急性髓性白血病(AML)、慢性淋巴细胞白血病(CLL)、慢性髓性白血病(CML)、慢性粒单核细胞白血病(CMML)、肝癌(liver cancer)、肝癌(liver carcinoma)、肝细胞瘤、肝细胞癌、胆管癌、肝母细胞瘤、肺癌、非小细胞肺癌(NSCLC)、间皮瘤、B细胞淋巴瘤、非霍奇金淋巴瘤、弥漫性大B细胞淋巴瘤、套细胞淋巴瘤、T细胞淋巴瘤、非霍奇金淋巴瘤、前体T淋巴母细胞淋巴瘤/白血病、外周T细胞淋巴瘤、多发骨髓瘤、鼻咽癌(NPC)、神经母细胞瘤、口咽癌、口腔鳞状细胞癌、骨肉瘤、卵巢癌、胰腺癌、胰腺导管腺癌、假乳头状肿瘤、泡细胞癌。前列腺癌、前列腺腺癌、皮肤癌、黑素瘤、恶性黑素瘤、皮肤黑素瘤、小肠癌、胃癌(stomach cancer)、胃癌(gastriccarcinoma)、胃肠间质瘤(GIST)、子宫癌或子宫肉瘤。癌症的类型和/或分期可以根据遗传变异检测,包括突变、罕见突变、插入/缺失、拷贝数变异、颠换、易位、倒位、缺失、非整倍性、部分非整倍性、多倍性、染色体不稳定性、染色体结构改变、基因融合、染色体融合、基因截短、基因扩增、基因复制、染色体损伤、DNA损伤、核酸化学修饰的异常改变、表观遗传模式的异常改变和核酸5-甲基胞嘧啶的异常改变。
遗传数据还可以用于表征特定形式的癌症。癌症在组成和分期两方面通常是异质性的。遗传谱数据可以允许表征癌症的具体亚型,该表征在该具体亚型的诊断或治疗中可能是重要的。该信息还可以为受试者或从业者提供关于具体类型癌症的预后的线索,并且允许受试者或从业者根据疾病的进展调整治疗选择。一些癌症可以进展而变得更具侵袭性和遗传不稳定性。其他癌症可以保持良性的、非活动的、或休眠的。本公开内容的系统和方法可以用于确定疾病进展。
此外,本公开内容的方法可以用于表征受试者的异常状况的异质性。这样的方法可以包括,例如生成来源于受试者的细胞外多核苷酸的遗传谱,其中所述遗传谱包括由拷贝数变异和罕见突变分析得到的多于一个数据。在一些实施方案中,异常状况是癌症。在一些实施方案中,异常状况可以是导致异质性基因组群体的状况。在癌症的实例中,已知一些肿瘤包含处于癌症的不同分期的肿瘤细胞。在其他实例中,异质性可以包括疾病的多个病灶。再次,在癌症的实例中,可以存在多个肿瘤病灶,或许其中一个或更多个病灶为已从原发部位扩散的转移的结果。
本发明的方法可以用于生成或剖析为来源于异质性疾病中不同细胞的遗传信息的总和的指纹图谱或数据集。该数据集可以包括单独的或组合的拷贝数变异、表观遗传变异和突变分析。
本发明的方法可以用于诊断、预后、监测或观察癌症或其他疾病。在一些实施方案中,本文的方法不涉及胎儿的诊断、预后或监测胎儿,并因此不涉及非侵入性产前测试。在其他实施方案中,这些方法可以用于妊娠受试者中以诊断、预后、监测或观察未出生受试者中的癌症或其他疾病,所述未出生受试者的DNA和其他多核苷酸可以与母体分子共循环。
使用本文公开的方法和系统任选地评价的其他基于遗传的疾病、病症或状况的非限制性实例包括软骨发育不全、α-1抗胰蛋白酶缺乏症、抗磷脂综合征、孤独症、常染色体显性多囊肾病、沙尔科-马里-图思病(Charcot-Marie-Tooth, CMT)、猫叫综合征、克罗恩病、囊性纤维化、德卡姆病(Dercum disease)、唐氏综合征、Duane综合征、杜兴氏肌营养不良症、因子V Leiden易栓症、家族性高胆固醇血症、家族性地中海热、脆性X综合征、戈谢病、血色素沉着症、血友病、前脑无裂畸形(holoprosencephaly)、亨廷顿病、克兰费尔特综合征、马方综合征、强直性肌营养不良、神经纤维瘤病、努南综合征、成骨不全、帕金森病、苯丙酮尿症、Poland异常、卟啉症、早老症、视网膜色素变性、重症联合免疫缺陷(SCID)、镰状细胞病、脊髓性肌萎缩症、Tay-Sachs、地中海贫血、三甲基胺尿症、特纳综合征、颚心脸综合征(velocardiofacial syndrome)、WAGR综合征、威尔逊病等。
在一些实施方案中,本文描述的方法包括在先前被诊断为患有癌症的受试者的先前癌症治疗之后的预选时间点,使用如本文描述获得的序列信息组检测来源于或源自肿瘤细胞的DNA的存在或不存在。该方法还可以包括确定癌症复发评分,所述癌症复发评分指示来源于或源自测试受试者的肿瘤细胞的DNA的存在或不存在。在确定了癌症复发评分的情况下,可以进一步使用它来确定癌症复发状态。例如,当癌症复发评分高于预定阈值时,癌症复发状态可能处于癌症复发风险。例如,当癌症复发评分低于预定阈值时,癌症复发状态可能处于低或较低的癌症复发风险。在特定实施方案中,等于预定阈值的癌症复发评分可以得到处于癌症复发风险或者处于低或较低的癌症复发风险的癌症复发状态。
在一些实施方案中,将癌症复发评分与预定的癌症复发阈值进行比较,并且当癌症复发评分高于癌症复发阈值时,将测试受试者分类为后续癌症治疗的候选者,或者当癌症复发评分低于癌症复发阈值时,将测试受试者分类为治疗的非候选者。在特定实施方案中,等于癌症复发阈值的癌症复发评分可以得到作为后续癌症治疗的候选者或治疗的非候选者的分类。
以上讨论的方法还可以包括任何相容特征或在本文其他地方(包括关于确定测试受试者的癌症复发风险和/或将测试受试者分类为后续癌症治疗的候选者的方法的章节中)阐述的特征。
确定测试受试者中癌症复发的风险和/或将测试受试者分类为后续癌症治疗的候
选者的方法。
在一些实施方案中,本文提供的方法是确定测试受试者的癌症复发风险的方法。在一些实施方案中,本文提供的方法是将测试受试者分类为后续癌症治疗的候选者的方法。
这样的方法中的任一种可以包括在对测试受试者进行一个或更多个先前的癌症治疗之后的一个或更多个预选时间点从被诊断为患有癌症的测试受试者收集DNA (例如,来源于或源自肿瘤细胞)。受试者可以是本文描述的任何受试者。DNA可以是cfDNA。DNA可以从组织样品中获得。
这样的方法中的任一种可以包括从来自受试者的DNA中捕获多于一个靶区组,其中多于一个靶区组包括序列可变靶区组和表观遗传靶区组,由此产生DNA分子的捕获组。捕获步骤可以根据本文其他地方描述的任何实施方案来进行。在这样的方法中的任一种中,先前的癌症治疗可包括手术、施用治疗组合物和/或化学疗法。
这样的方法中的任一种可以包括对捕获的DNA分子进行测序,由此产生序列信息组。可以将序列可变靶区组的捕获的DNA分子测序到比表观遗传靶区组的捕获的DNA分子更大的测序深度。
这样的方法中的任一种可以包括在预选的时间点使用序列信息组检测来源于或源自肿瘤细胞的DNA的存在或不存在。对来源于或源自肿瘤细胞的DNA的存在或不存在的检测可以根据本文其他地方描述的它的任何实施方案来进行。
确定测试受试者的癌症复发风险的方法可以包括确定癌症复发评分,所述癌症复发评分指示来源于或源自测试受试者的肿瘤细胞的DNA的存在或不存在或者量。癌症复发评分可以进一步用于确定癌症复发状态。例如,当癌症复发评分高于预定阈值时,癌症复发状态可能处于癌症复发风险。例如,当癌症复发评分低于预定阈值时,癌症复发状态可能处于低或较低的癌症复发风险。在特定实施方案中,等于预定阈值的癌症复发评分可以得到处于癌症复发风险或者处于低或较低的癌症复发风险的癌症复发状态。
将测试受试者分类为后续癌症治疗的候选者的方法可以包括将测试受试者的癌症复发评分与预定癌症复发阈值进行比较,从而当癌症复发评分高于癌症复发阈值时将测试受试者分类为后续癌症治疗的候选者,或者当癌症复发评分低于癌症复发阈值时将测试受试者分类为治疗的非候选者。在特定实施方案中,等于癌症复发阈值的癌症复发评分可以得到作为后续癌症治疗的候选者或治疗的非候选者的分类。在一些实施方案中,后续癌症治疗包括化学疗法或施用治疗组合物。
这样的方法中的任一种可以包括基于癌症复发评分确定测试受试者的无疾病存活(DFS)期;例如,DFS期可以是1年、2年、3年、4年、5年或10年。
在一些实施方案中,序列信息组包括序列可变靶区序列,并且确定癌症复发评分可以包括确定至少第一子评分,所述第一子评分指示序列可变靶区序列中存在的SNV、插入/缺失、CNV和/或融合的量。
在一些实施方案中,序列可变靶区中选自1个、2个、3个、4个或5个的突变数量足以使第一子评分导致癌症复发评分被分类为癌症复发阳性。在一些实施方案中,突变数量选自1个、2个或3个。
在一些实施方案中,序列信息组包括表观遗传靶区序列,并且确定癌症复发评分包括确定指示分子(从表观遗传靶区序列中获得)的量的第二子评分,所述分子代表不同于在来自健康受试者的相应样品中发现的DNA (例如,在来自健康受试者的血液样品中发现的cfDNA,或在来自健康受试者的组织样品中发现的DNA,其中组织样品是与从测试受试者获得的组织相同类型的组织)的表观遗传状态。这些异常分子(即,具有不同于来自健康受试者的相应样品中发现的DNA的表观遗传状态的分子)可以和与癌症相关的表观遗传改变一致,例如,高甲基化可变靶区的甲基化和/或片段化可变靶区的被扰动的片段化,其中“被扰动”意指不同于来自健康受试者的相应样品中发现的DNA。
在一些实施方案中,大于或等于0.001%-10%范围内的值的指示高甲基化可变靶区组中的高甲基化和/或片段化可变靶区组中的异常片段化的对应于高甲基化可变靶区组和/或片段化可变靶区组的分子比例足以使第二子评分被分类为癌症复发阳性。范围可为0.001%-1%、0.005%-1%、0.01%-5%、0.01%-2%或0.01%-1%。
在一些实施方案中,这样的方法中的任一种可以包括根据指示一个或更多个指示来自肿瘤细胞的来源的特征的序列信息组中的分子分数确定肿瘤DNA分数。这可以用于对应于表观遗传靶区中的一些或所有的分子,例如,包括高甲基化可变靶区和片段化可变靶区(高甲基化可变靶区的高甲基化和/或片段化可变靶区的异常片段化可以被认为指示来自肿瘤细胞的来源)中的一个或两者。这可以用于对应于序列可变靶区的分子,例如,包含与癌症一致的改变(诸如SNV、插入/缺失、CNV和/或融合)的分子。肿瘤DNA分数可以基于对应于表观遗传靶区的分子和对应于序列可变靶区的分子的组合来确定。
癌症复发评分的确定可以至少部分地基于肿瘤DNA分数,其中大于10-11至1或10-10至1的范围内的阈值的肿瘤DNA分数足以使癌症复发评分被分类为癌症复发阳性。在一些实施方案中,大于或等于10-10至10-9、10-9至10-8、10-8至10-7、10-7至10-6、10-6至10-5、10-5至10-4、10-4至10-3、10-3至10-2或10-2至10-1的范围内的阈值的肿瘤DNA分数足以使癌症复发评分被分类为癌症复发阳性。在一些实施方案中,大于至少10-7的阈值的肿瘤DNA分数足以使癌症复发评分被分类为癌症复发阳性。可以基于累积概率来确定肿瘤DNA分数大于阈值,诸如对应于任何前述实施方案的阈值。例如,如果肿瘤分数大于任何前述范围中的阈值的累积概率超过至少0.5、0.75、0.9、0.95、0.98、0.99、0.995或0.999的概率阈值,则认为样品为阳性。在一些实施方案中,概率阈值为至少0.95,诸如0.99。
在一些实施方案中,序列信息组包括序列可变靶区序列和表观遗传靶区序列,并且确定癌症复发评分包括确定指示序列可变靶区序列中存在的SNV、插入/缺失、CNV和/或融合的量的第一子评分和指示表观遗传靶区序列中异常分子的量的第二子评分,以及组合第一子评分和第二子评分以提供癌症复发评分。在组合第一子评分和第二子评分的情况下,它们可以通过以下方式来组合:将阈值独立地应用于每个子评分(例如,在序列可变靶区中大于预定的突变数量(例如>1),并且在表观遗传靶区中大于预定的异常分子(即,具有不同于在来自健康受试者的相应样品中发现的DNA的表观遗传状态的分子;例如肿瘤)分数),或者训练机器学习分类器以基于多于一个阳性训练样品和阴性训练样品来确定状态。
在一些实施方案中,在-4至2或-3至1的范围内的组合评分的值足以使癌症复发评分被分类为癌症复发阳性。
在其中癌症复发评分被分类为癌症复发阳性的任何实施方案中,受试者的癌症复发状态可能处于癌症复发的风险和/或可以将受试者分类为后续癌症治疗的候选者。
在一些实施方案中,癌症是本文其他地方描述的癌症类型中的任一种,例如,结肠直肠癌。
治疗和相关施用
在某些实施方案中,本文公开的方法涉及鉴于核酸变异为体细胞来源或种系来源的状态,鉴定定制疗法并向患者施用定制疗法。在一些实施方案中,基本上任何癌症疗法(例如,手术疗法、放射疗法、化学疗法疗法和/或类似疗法)都可以被包括为这些方法的一部分。通常,定制疗法包括至少一种免疫疗法(或免疫治疗剂)。免疫治疗通常指增强针对给定癌症类型的免疫应答的方法。在某些实施方案中,免疫治疗是指增强针对肿瘤或癌症的T细胞应答的方法。
在某些实施方案中,来自受试者的样品的核酸变异为体细胞来源或种系来源的状态可以与来自参考群体的比较器结果的数据库进行比较,以鉴定用于该受试者的定制或靶向疗法。通常,参考群体包括与测试的受试者具有相同癌症或疾病类型的患者和/或正在接受或已经接受与测试的受试者相同的疗法的患者。当核酸变异和比较器结果满足某些分类标准(例如,基本或近似匹配)时,可以鉴定定制或靶向治疗(或多于一种治疗)。
在某些实施方案中,本文描述的定制疗法通常肠胃外(例如,静脉内或皮下)施用。含有免疫治疗剂的药物组合物通常静脉内施用。某些治疗剂口服施用。然而,定制疗法(例如,免疫治疗剂等)也可以通过以下方法施用,诸如例如含服、舌下、直肠、阴道、尿道内、表面(topical)、眼内、鼻内和/或耳内,所述施用可以包括片剂、胶囊、颗粒、水性悬浮液、凝胶、喷雾剂、栓剂、药膏(salves)、软膏(ointments)等。
尽管本文中已经示出并描述了本发明的优选实施方案,但对于本领域技术人员明显的是,这些实施方案仅以示例的方式提供。并不意图本发明限于本说明书中提供的特定实例。虽然已参考以上提及的说明书描述了本发明,但本文实施方案的描述和说明并不意图以限制性的意义来解释。本领域技术人员在不脱离本发明的情况下现将会想到多种变化、改变和替代。此外,应当理解,本发明的所有方面并不限于本文根据各种条件和变量阐述的具体描述、配置或相对比例。应当理解,在实践本发明时可以采用本文描述的本公开内容的实施方案的各种替代选择。因此设想本公开内容还应涵盖任何此类替代选择、修改、变化或等同物。以下权利要求旨在限定本发明的范围,并由此涵盖这些权利要求范围内的方法和结构及其等同物。
虽然为了清楚与理解的目的,已经通过图示和实例的方式对前述公开内容进行了一些详细描述,但是本领域普通技术人员通过阅读本公开内容将会清楚,在不偏离本公开内容的真实范围的情况下,可以进行形式和细节上的多种改变,并且可以在所附权利要求书的范围内实施。例如,所有方法、系统、计算机可读介质和/或组件特征、步骤、元件或其他方面都可以以多种组合来使用。
癌症治疗、疗法
在一些情况下,癌症治疗包括但不限于伊马替尼、吉非替尼、阿法替尼、达可替尼(dacomitinib)、舒尼替尼、索拉非尼、凡德他尼、布立尼布(brivanib)、卡博替尼、奈拉替尼、替万替尼、贝伐单抗、西妥木单抗(cixutumumab)、达罗托组单抗(dalotuzumab)、芬妥木单抗(figitumumab)、利妥木单抗(rilotumumab)、奥纳妥组单抗(onartuzumab)、加尼妥单抗(ganitumab)、雷莫芦单抗、瑞达福莫司(ridaforolimus)、替西罗莫司、依维莫司、BMS-690514、BMS-754807、EMD 525797、GDC-0973、GDC-0941、MK-2206、AZD6244、GSK1120212、PX-866、XL821、IMC-A12、MM-121、PF-02341066、RG7160和Sym004。适合用作抗EGFR疗法的抗体包括西妥昔单抗(商品名:Erbitux)和帕尼单抗(商品名:Vectibex)。在一些情况下,癌症治疗包括EGFR酪氨酸激酶抑制剂,例如吉非替尼(商品名:Iressa)、埃罗替尼(商品名:Tarceva)、拉帕替尼、卡奈替尼(canertinib)和西妥昔单抗。
在一些情况下,可以组合使用疗法,例如抗EGFR疗法和抗EGFR疗法。抗EGFR疗法可以与化学疗法剂或化学疗法方案的任何组合组合使用,例如FOLFOX (氟尿嘧啶[5-FU]/甲酰四氢叶酸/奥沙利铂)、FOLFIRI (5-FU/甲酰四氢叶酸/伊立替康)等。
在一些方面,向受试者施用癌症治疗。在一些情况下,癌症治疗与另一种疗法(诸如非抗EGFR疗法与抗EGFR疗法)组合施用。
遗传分析
遗传分析包括检测核苷酸序列变体和拷贝数变异。遗传变异可以通过测序来确定。测序方法可以是大规模并行测序,即同时(或快速连续)测序至少100,000个、100万个、1000万个、1亿个或10亿个多核苷酸分子中的任一个。测序方法可包括但不限于:高通量测序、焦磷酸测序、合成测序、单分子测序、纳米孔测序、半导体测序、连接测序、杂交测序、RNA-Seq (Illumina)、数字基因表达(Helicos)、下一代测序、单分子合成测序(SMSS)(Helicos)、大规模并行测序、克隆单分子阵列(Solexa)、鸟枪测序、Maxam-Gilbert或Sanger测序、引物步移、使用PacBio、SOLiD、Ion Torrent或纳米孔平台的测序和本领域已知的任何其它测序方法。
通过进行序列捕获,即富集样品中感兴趣的靶序列,例如,包括KRAS和/或EGFR基因或其含有序列变体生物标志物的部分的序列,可以使测序更有效。可以使用与感兴趣的靶杂交的固定探针进行序列捕获。
无细胞DNA可以包括与种系DNA混合的少量肿瘤DNA。增加检测肿瘤DNA,并且特别是遗传序列变体和拷贝数变异的灵敏度和特异性的测序方法可用于本发明的方法中。这样的方法描述于例如WO 2014/039556中。这些方法不仅可以以高达或大于0.1%的灵敏度检测分子,还可以将这些信号与当前测序方法中典型的噪声区分开。可以使用各种方法来实现来自基于血液的cfDNA样品的灵敏度和特异性的增加。一种方法包括高效加标签样品中的DNA分子,例如,加标签样品中至少50%、75%或90%的多核苷酸中的任一个。这增加了样品中的低丰度靶分子将被加标签并随后测序的可能性,并且显著增加了靶分子检测的灵敏度。
另一种方法涉及分子追踪,其鉴定已经从原始亲本分子冗余生成的序列读段,并分配亲本分子中每个基因座或位置处的碱基的最可能身份。这通过减少由扩增和测序错误产生的噪声显著地增加了检测的特异性,这降低了假阳性的频率。
本公开内容的方法可用于以至少99%、99.9%、99.99%、99.999%、99.9999%或99.99999%的特异性以小于5%、1%、0.5%、0.1%、0.05%或0.01%的浓度检测加非独特标签的初始起始遗传物质(例如,罕见DNA)中的遗传变异。随后可以追踪加标签的多核苷酸的序列读段,以产生具有错误率不超过2%、1%、0.1%或0.01%的多核苷酸的共有序列。
拷贝数变异确定可涉及确定定位于遗传基因座(例如EGFR基因或KRAS基因)的样品中多核苷酸的定量量度。定量量度可以是数字。在确定了定位于基因座的多核苷酸的总数后,该数量可用于确定基因座处拷贝数变异的标准方法中。定量量度可以相对于标准归一化。在一种方法中,测试基因座处的定量量度可以相对于映射到基因组中的对照基因座的多核苷酸(例如具有已知拷贝数的基因)的定量量度进行标准化。在另一种方法中,可以将定量量度与原始样品中核酸的量进行比较。例如,可以将定量量度与二倍体的预期量度进行比较。在另一种方法中,定量量度可以相对于来自对照样品的量度进行归一化,并且可以比较不同基因座处的归一化量度。在另一种方法中,定量涉及定量样品中映射到基因座的亲本或原始分子,而不是序列读段的数量。拷贝数变异可以是基因的扩增或缺失或截短。扩增可以是基因的3、4、5、6、7、8、9、10或10个或更多个拷贝。缺失或截短可以是基因的0或1个拷贝。
用于检测拷贝数变化的方法的示例可以包括阵列。阵列可以包含多于一个捕获探针。捕获探针可以是与阵列表面结合的寡核苷酸。捕获探针可以结合表1中列出的至少1、2、3、4、5、6、7、8、9、10、11或12个基因。源自受试者的DNA可以在杂交用于检测之前被标记(例如,用荧光团)。
在其他实例中,可以使用识别感兴趣的基因的引物扩增感兴趣的基因。引物可以与特定感兴趣区域上游和/或下游(例如,突变位点上游)的基因杂交。检测探针可以与扩增产物杂交。检测探针可以与野生型序列或与突变/变体序列特异性杂交。检测探针可以用可检测标记(例如,用荧光团)标记。野生型或突变序列的检测可以通过检测可检测标记(例如,荧光成像)来进行。在拷贝数变异的实例中,可以将感兴趣的基因与参考基因进行比较。感兴趣的基因和参考基因之间的拷贝数差异可以指示基因的扩增或缺失/截短。适于进行本文描述方法的平台的实例包括数字PCR平台,诸如,例如Fluidigm数字阵列。
实施例
以下实施例是为了说明本发明的各种实施方案而给出,并不意味着以任何方式限制本发明。本发明实施例以及本文描述的方法目前代表优选实施方案,是示例性的,并且不旨在作为对本发明范围的限制。本领域技术人员将会想到包含在由权利要求书的范围限定的本发明精神内的其中的变化和其他用途。
实施例1
涉及启动子甲基化的治疗效力:在一个实例中,感兴趣的是了解吉达利塞是否会使晚期TNBC或BRCA1/2突变乳腺癌对用他拉唑帕利的PARP抑制敏感。在I期研究中,3名患者被归类为部分缓解(PR),5名患者被归类为疾病稳定(SD)。使用了组织基因组学,而无法解释进展患者与未进展患者的混杂情况。重要的是,存在基因失活的替代机制,其可以通过启动子甲基化来解释这种差异。
PI3K抑制剂被认为减少细胞核库(nuclear pool)(可能导致复制错误/复制叉停滞/DNA修复增加)。这将增加修复机制和对PARP的依赖。还认为PI3K抑制剂阻碍PI3K与HR复合物的相互作用。这将增加DNA修复对PARP 的依赖。
这里,这些患者的BRCA启动子甲基化状态通过分析TNBC样品和临床结果数据来评估,其中包括添加启动子甲基化数据以计算HRD评分。
实施例2
MLH1启动子甲基化测试:在另一个实例中,可以鉴定处于遗传/家族形式的结肠直肠癌或林奇综合征相关肿瘤类型风险的患者。MLH1启动子高甲基化(且通常BRAF V600E阳性)与散发形式(sporadic form)的CRC相关。
实施例3
BRCA1启动子甲基化测试:在另一个实例中,可以包括作为同源重组修复缺陷相关肿瘤类型(brca、ovca、panc、prca)的变异类型。许多HRD相关肿瘤表现出BRCA1的单拷贝丢失或重排,而没有第二次命中。这些病例中的一部分可能具有剩余等位基因的启动子高甲基化,导致BRCA1的双等位基因丢失。
实施例4
MGMT启动子甲基化测试:在另一个实例中,可以结合与用某些类型的化学疗法治疗时的益处相关的启动子高甲基化。
实施例5
等位基因表达和启动子甲基化:上述用于定量启动子甲基化水平的技术允许以等位基因特异性方式确定甲基化水平。
使用本文所述的方法和组合物,一个或更多个分类区的甲基化水平来表征样品,包括定量量度的确定。定量量度的确定可以包括将源自受试者的血液或组织中的至少一种的多于一种核酸与包含一定量的甲基结合结构域(MBD)蛋白的溶液组合以产生核酸-MBD蛋白溶液;以及用盐溶液对核酸-MBD蛋白溶液进行多于一次洗涤以产生许多核酸级分。在一些情况下,单个核酸级分在具有至少阈值胞嘧啶-鸟嘌呤含量的多于一个核酸的区域中具有阈值数量的甲基化胞嘧啶。之后,所述多于一次洗涤中的洗涤用具有一定浓度的氯化钠(NaCl)的溶液进行,并且产生所述许多核酸级分中具有与MBD蛋白的一定结合强度范围的核酸级分。
人们可以确定第一核酸级分与多于一个核酸分区中的第一分区关联,第一分区对应于与MBD蛋白的第一范围结合强度;将第一分子条形码附接至第一核酸级分的核酸,第一分子条形码被包括在与第一分区关联的第一组分子条形码中,并且随后确定第二核酸级分与多于一个核酸分区中的第二分区关联,第二分区对应于与MBD蛋白的第一范围结合强度不同的与MBD蛋白的第二范围结合能;以及随后将第二分子条形码附接至第二核酸级分的核酸,第二分子条形码被包括在与第二分区关联的第二组分子条形码中。
使用上述方法和组合物,可以确定通过总阳性对照分子归一化的与分类区重叠的分子数量的比率,其中所述分子表现出阈值量的甲基化胞嘧啶。在一些情况下,将该定量量度与预定阈值进行比较,以判定一个或更多个分类区的甲基化状态。此外,在一些情况下,确定比率包括至少基于甲基化胞嘧啶的阈值量过滤分子和/或基于甲基化CpG的数量确定一个或更多个分类区的甲基化水平。
典型地,特定DNA甲基化模式对于发育适当的基因表达的重要性在印记的基因座中最为清楚地被证明。尽管基因通常从母系和父系等位基因两者表达,但在印迹基因座处,仅表达母系或父系等位基因。在一些情况下,这种限制可能限于发育期间的特定组织或时间。
印迹基因座周围的DNA的甲基化状态也显示出每个等位基因特有的模式。差异甲基化结构域或区域(DMD或DMR)的位置是可变的,并且表达的等位基因可以显示低甲基化和/或高甲基化结构域二者。亲本等位基因特异性甲基化模式可以指导等位基因特异性表达。在癌症的背景下,一个实例是H19/Igf2和Rasgrf1基因座及其DMR具有增强子阻断活性并以甲基化敏感的方式结合CTCF。与未甲基化DMR结合的CTCF抑制Igf2和Rasgrf1表达所需的增强子与启动子的相互作用,并且当DMR被甲基化并且CTCF结合被阻止时,这种阻断被缓解以允许表达。
实施例6
启动子甲基化沉默、印记:传统的理解是印迹基因是“沉默的”,这种形式的单等位基因表达来源于母系或父系等位基因。在癌症中,一些沉默的印记基因的拷贝可以被重新激活,导致两个等位基因的表达。单等位基因调控的丢失被称为印迹丢失(LOI),此外,在癌细胞系中也观察到印迹基因的激活拷贝的扩增而不影响沉默拷贝的甲基化[19]。在这样的情况下,印迹基因可以在两个或更多个转录位点而不是一个转录位点中表达。因此,细胞核中印迹基因的转录位点检测数量的增加可以用作潜在的癌症生物标志物。在这里,现有的报告检测新生RNA或前mRNA原位杂交(ISH)方法靶向内含子可用于可视化和标记这些转录位点,并应用于研究两个印迹基因的转录调节。
使用本文所述的方法和组合物,一个或更多个分类区的甲基化水平表征样品,包括确定定量量度,所述定量量度包括确定通过总阳性对照分子归一化的与分类区重叠的分子数量的比率,其中所述分子表现出阈值量的甲基化胞嘧啶。在一些情况下,将该定量量度与预定阈值进行比较,以判定一个或更多个分类区的甲基化状态。此外,在一些情况下,确定比率包括至少基于甲基化胞嘧啶的阈值量过滤分子和/或基于甲基化CpG的数量确定一个或更多个分类区的甲基化水平。
实施例7
由表观遗传等位基因状态、印记产生的其他表达形式:如所描述的,常规理解是,导致LOI的印迹基因通过异常的双等位基因表达使细胞易受细胞转化和肿瘤发生的影响(例如,印迹IGF2基因座被认为通过抑制结肠直肠癌中的凋亡来促进肿瘤发生,并导致肺癌、结肠癌和卵巢癌中的过度增殖缺陷,以及不同癌症中的其他印迹基因(诸如H19、PEG3、MEST和PLAGL1)的LOI)。
然而,尽管LOI通过下调癌症中报道的印迹基因而与正常活性等位基因主要表达的沉默相关,但尚不清楚。例如,在食管癌中,IGF2的LOI与表达下调和生存改善特异性相关。同样在前列腺癌中,尽管有LOI,也没有发现IGF2的表达增加。尽管LOI在癌症中具有主要相关性,但这一零碎证据表明,LOI在癌症中的作用(即生长和肿瘤促进表达)的当前范式需要另外的评估。
上述方法允许确定印迹基因网络,其中这些基因被共同调节。平行地,拷贝数变异(CNV)可以是癌症中印记失调的重要原因,前述方法和技术提供了基因组和表观基因组特征的多模式检测。
上述方法和技术支持LOI或仍然缺乏的其他形式的等位基因表达的系统分析。尽管单等位基因表达得到了更好的理解,但在人类中只有少数区域被很好地表征,由于现有方法用于检测单个印迹基因座处的癌症的异常单等位基因表达,因此不了解评估的组织特异性印迹模式,。此外,基因分型的必要性极大地阻碍了现有高通量方法的实际适用性。前述技术允许对癌症中(i)包括单等位基因表达/印迹基因座的等位基因表达和(ii)它们的失调(dysregulation)和放松管制(deregulation) (例如LOI)进行系统谱分析。
实施例8
表观遗传调控失衡也可增加肿瘤细胞的可塑性,表观遗传等位基因表达用于确定肿瘤异质性:鉴于表观遗传调节(包括等位基因表达及其在癌症发病机制中的作用)的明显重要性,在确定肿瘤异质性的背景下应用上述方法和组合物是令人感兴趣的。各种癌症(例如,乳腺癌)在分子水平上是高度复杂的异质性疾病,形成具有不同表型特征的肿瘤亚群。不同细胞亚群之间DNA甲基化模式的差异可以驱动表型变化,这对于为乳腺癌肿瘤内表观遗传异质性提供新的见解是有价值的。在一些情况下,人工观察表观等位基因表达已被用于鉴定肿瘤核心和肿瘤外周之间的差异表观等位基因,并表征具有不同甲基化模式的肿瘤亚群。可以基于Jensen-Shannon散度来计算表观等位基因不平衡的方法,尽管本领域技术人员容易理解,可以使用用于计算变异的各种其他方法。该技术可以鉴定连续CpG (例如,由相同的读段覆盖的四个连续CpG作为表观等位基因)。考虑到CpG的甲基化状态为甲基化或未甲基化,表观等位基因包含16种可能的甲基化模式。散度(例如,熵散度)可用于定量一个或更多个样品的甲基化模式之间的相异性。
这里,由于较高的表观遗传异质性,肿瘤(例如核心肿瘤)的甲基化模式可能比肿瘤外周更无序,因此具有较高表观遗传异质性的基因也具有较高的转录异质性。使用上述方法和技术,这可以被系统地分析以评估肿瘤内的表观遗传状态的全貌。我们定义了由相同读段覆盖的四个连续CpG作为一个表观等位基因。
实施例9
测量表观遗传启动子甲基化趋异、漂移的表观等位基因多样性和表观遗传负担:在其他情况下,可以使用组成熵方程(例如,Methyclone)计算具有表观遗传等位基因变异的基因座。这里,每个基因座的表观遗传状态涉及四个连续CpG二核苷酸处的胞嘧啶甲基化,支持这些基因座处可能的16种CpG甲基化模式作为表观等位基因。当比较一个或更多个样品时,当这些位点的表观等位基因比例在其组成中经历统计学上显著的熵偏移(通过δ玻尔兹曼熵ΔS < Δ90计算)时,可以认为基因座中的表观遗传漂移是显著的。
每百万个基因座的表观遗传状态的确定可以用于标准化每个样本的可变覆盖深度和测量的基因座数量,以确定整个基因组上的表观等位基因漂移的总体幅度,作为计算表观等位基因负荷的一种形式,类似于肿瘤突变负荷。表观遗传漂移可以包括两个样本之间的表观等位基因的获得和/或丢失。可以使用来自前述方法和组合物的甲基组数据来确定表观等位基因和系统表观遗传基因座测量。
在各种实施方案中,(例如,em-SEQ、ERRBS)可用于使用正交甲基组测序方法验证样本的子集。这种系统分析允许确定肿瘤遗传和表观遗传异质性,以表征独立的、生物学上不同的现象,每种现象都可能具有独特的功能意义。表观遗传等位基因负荷的程度可以包括也可以不包括其他因素,诸如年龄和其他临床参数、影响表观遗传修饰基因(例如,DNMT3A、TET2和IDH1/2)的体细胞突变、在克隆演化期间以与遗传等位基因相似或不同的方式的显性表观遗传等位基因行为、以及在一系列时间点,当纵向监测时,在进展期间遗传和表观遗传等位基因的动力学和模式之间的差异。
在各种情况下,这些测量结果可用于分类,包括通过使用机器学习算法(例如,支持向量机)和/或各种数据库,以鉴定疾病进展期间的表观等位基因模式动力学和体细胞突变负荷中的一种或更多种。例如,诊断标准可以分为具有主要表观等位基因多样性和低体细胞突变(例如,表观遗传驱动的)的疾病和具有较低表观等位基因多样性和较高突变负荷(例如,遗传驱动的)的其他疾病。后者随着进展而发展出越来越多的表观遗传多样性。这里,在这两种情况下,遗传克隆组成基本上保持稳定,尽管也可能鉴定出遗传克隆稳定性的情形。在表观遗传不稳定性和遗传不稳定性或特定体细胞突变之间缺乏联系的情况下,诊断患者中显性异质性的替代模式可以被评估为涉及:一种遗传和一种表观遗传形式的显性。
实施例10
表观遗传漂移、等位基因表达的测量:这里,确定依赖于表观遗传等位基因状态和相关临床癌症风险的全系统生物基因激活/失活的能力,包括表观等位基因的甲基化状态,跨越几个CpG的甲基化事件的定量,可以被视为单倍型定义的一种形式(例如,考虑序列读段内单个CpG的甲基化状态以及序列读段本身的平均甲基化水平)。
使用具有示例性默认值(最小2个CpG位点,CpG的最小平均甲基化β值为0.5)的基于下一代测序(NGS)的数据,任选的阈值化测量定义了感兴趣的表观等位基因的亚群,并且基于各种序列背景(例如,CpG、CHG或CHH)中胞嘧啶的最小数量和平均甲基化水平。阈值化参数可以是完全可调节的,以靶向期望的表观等位基因群体;位点,非CpG位点的最大平均甲基化β值为0.1。没有阈值化的序列读段的任选阈值化,包括每个基因组位置的甲基化β值计算为甲基化胞嘧啶的数量与甲基化和未甲基化胞嘧啶的总数的比率:b = C / (C+T)。与之相比,当进行读段阈值化(默认作用模式)时,每个基因组位置的甲基化水平,即变异表观等位基因频率(VEF),可以计算为通过阈值的读段对中甲基化胞嘧啶的数量(Ca)与所有读段对中甲基化和未甲基化胞嘧啶的总数的比率:VEF = Ca / (C+T)。
调整范围以包括延伸的基因组区域而不是单个碱基的水平,VEF可以等于通过阈值的读段对的数量(Na)与与感兴趣区域重叠的读段对的总数(N)的比率:VEF = Na / N。这允许通过阈值化来定义具有相似甲基化性质的一组表观等位基因(即,单个甲基化模式),其中VEF有效地表示在单个胞嘧啶或延伸的基因组区域水平上该组表观等位基因通过阈值的频率。
在任一情况下,如果实验设置允许在每个碱基水平上判定甲基化,则可以在没有先前假设的情况下从任意数量的BAM文件产生来自具有读段阈值话的默认报告模式的甲基化β值以及VEF值。这两个值都有效地表示每个基因组位置的甲基化水平,因此可以进一步直接用作其他生物信息学工具的输入,包括但不限于差异甲基化分析工具。
Claims (49)
1.一种方法,包括:
检测多于一个基因中的至少一个的一个或更多个启动子区中的甲基化;和
产生多于一个甲基化判定以定量所述一个或更多个启动子区的甲基化。
2.根据权利要求1所述的方法,包括获得样品。
3.根据权利要求1所述的方法,包括具有获得的样品。
4.根据权利要求1所述的方法,包括处理所述一个或更多个启动子区的甲基化的量以表征样品。
5.根据权利要求1所述的方法,其中表征所述样品包括HRD、癌症衍生的启动子甲基化、结肠直肠癌的家族形式或林奇综合征肿瘤类型。
6.根据权利要求1所述的方法,其中所述启动子包括转录起始位点(TSS)上游5kb的区域,其中使用以下中的一个或更多个进一步细化5kb区域:定制组区域、在临床样品中发现的甲基化峰以及排除在正常样品中发现的峰。
7.根据权利要求6所述的方法,其中在转录物水平定义所述TSS。
8.根据权利要求6所述的方法,其中在基因水平上定义所述TSS。
9.根据权利要求1所述的方法,包括确定通过总阳性对照分子归一化的与靶区重叠的分子数量的比率。
10.根据权利要求9所述的方法,其中确定所述比率包括至少基于重叠CpG的数量过滤分子。
11.根据权利要求1所述的方法,其中所述一个或更多个启动子区的甲基化的定量是基于甲基化CpG的数量。
12.根据权利要求1所述的方法,包括至少基于文献注释、共同甲基化峰位置和/或公共数据集来细化所述一个或更多个启动子区。
13.根据权利要求1所述的方法,其中所述基因包括肿瘤抑制基因、HRR基因和IO基因。
14.根据权利要求13所述的方法,其中所述HRR基因至少包含BRCA1和BRCA2。
15.根据权利要求1所述的方法,包括与源自训练样品群体的最小甲基化阈值进行比较。
16.根据权利要求15所述的方法,其中所述训练样品包括无癌样品。
17.根据权利要求15所述的方法,其中用于判定的所述最小甲基化阈值包括以下中的至少一个:1-100的最小分子计数,以及每个基因的最小甲基化评分是以下的最大值:95正态分位数+8X105或中位数+5*中位数绝对偏差。
18.根据权利要求1所述的方法,其中定量所述一个或更多个启动子区的甲基化预测疗法响应。
19.根据权利要求18所述的方法,其中将定量所述一个或更多个启动子区的甲基化与MSI-H状态相组合。
20.根据权利要求18所述的方法,其中所述疗法包括免疫检查点抑制剂、聚(ADP-核糖)聚合酶(PARP)抑制剂、激酶抑制剂或芳香酶抑制剂、或PI3K和mTOR抑制剂中的一种或更多种。
21.根据权利要求20所述的方法,其中所述免疫检查点抑制剂是帕博利珠单抗。
22.根据权利要求20所述的方法,其中所述聚(ADP-核糖)聚合酶(PARP)抑制剂是奥拉帕利或他拉唑帕利。
23.根据权利要求20所述的方法,其中所述疗法是PI3K和mTOR抑制剂与聚(ADP-核糖)聚合酶(PARP)抑制剂的组合。
24.根据权利要求23所述的方法,其中所述PI3K和mTOR抑制剂是吉达利塞,所述聚(ADP-核糖)聚合酶(PARP)抑制剂是他拉唑帕利。
25.一种方法,包括:
确定多于一个基因中的至少一个的启动子区,每个基因从多于一个样品获得;
确定所述启动子区的甲基化评分以产生多于一个甲基化判定和/或启动子甲基化的定量;
处理所述多于一个甲基化判定以产生测试样品表现出基因组状态的预测。
26.一种方法,包括:
通过具有一个或更多个硬件处理器和存储器的计算系统获得源自受试者的样品的测序读段,
确定与所述样品中包括的多于一个基因相对应的一个或更多个分类区;和
通过产生源自所述受试者的所述样品中的所述测序读段的定量量度来确定所述一个或更多个分类区的甲基化水平。
27.根据权利要求26所述的方法,包括获得样品。
28.根据权利要求26所述的方法,包括具有获得的样品。
29.根据权利要求26所述的方法,包括处理所述一个或更多个分类区的甲基化水平以表征所述样品。
30.根据权利要求29所述的方法,其中表征所述样品包括确定HRD状态、与癌症相关的启动子甲基化。
31.根据前述权利要求中任一项所述的方法,其中所述定量量度包括确定通过总阳性对照分子归一化的与分类区重叠的分子数量的比率,其中所述分子表现出阈值量的甲基化胞嘧啶。
32.根据前述权利要求中任一项所述的方法,其中将所述定量量度与预定阈值进行比较以判定所述一个或更多个分类区的甲基化状态。
33.根据前述权利要求中任一项所述的方法,其中确定所述比率包括至少基于甲基化胞嘧啶的阈值量过滤分子。
34.根据前述权利要求中任一项所述的方法,其中所述确定所述一个或更多个分类区的甲基化水平是基于甲基化CpG的数量。
35.根据前述权利要求中任一项所述的方法,其中所述分类区包含启动子区。
36.根据前述权利要求中任一项所述的方法,其中所述一个或更多个分类区单独地对应于这样的基因组区域,其中来源于从其中存在癌症的受试者获得的细胞的核酸基因组区域中的胞嘧啶甲基化率与来源于从其中不存在癌症的受试者获得的细胞的核酸基因组区域中的胞嘧啶甲基化率不同。
37.根据前述权利要求中任一项所述的方法,其中所述多于一个样品和所述另外的样品包括无细胞核酸。
38.根据前述权利要求中任一项所述的方法,包括:
由所述计算系统使用训练数据进行训练过程以生成模型,其中所述训练过程包括:
由所述计算系统基于包括在所述训练数据中的单个样品的癌症的指示在阈值置信水平内来确定所述单个样品的一个或更多个另外的权重。
39.根据前述权利要求中任一项所述的方法,其中单个样品的癌症的所述指示在所述阈值置信水平之外,并且所述方法包括:
由所述计算系统在所述训练过程期间将罚分应用于所述单个样品的权重。
40.根据前述权利要求中任一项所述的方法,包括:
由所述计算系统并且使用一种或更多种机器学习算法,使用所述训练数据的一部分来针对所述模型进行所述训练过程的一次或更多次第一迭代;以及
由所述计算系统基于所述训练过程的所述一次或更多次第一迭代生成所述模型的第一输出数据,所述第一输出数据对应于所述多于一个受试者中的第一单个受试者中存在癌症的一个或更多个第一另外的指示,所述第一单个受试者对应于所述训练数据的所述部分。
41.根据前述权利要求中任一项所述的方法,包括:
由所述计算系统将所述第一输出数据和所述训练数据组合以产生另外的训练数据;
由所述计算系统使用所述另外的训练数据的一部分来针对所述模型进行所述训练过程的一次或更多次第二迭代;以及
由所述计算系统基于所述训练过程的所述一次或更多次第二迭代生成所述模型的第二输出数据,所述第二输出数据指示在所述多于一个受试者中的第二单个受试者中存在癌症的一个或更多个第二另外的指示,所述第二单个受试者对应于所述另外的训练数据的所述部分。
42.根据前述权利要求中任一项所述的方法,其中所述多于一个分类区中的单个分类区的所述权重基于所述第一输出数据和所述第二输出数据来确定。
43.根据前述权利要求中任一项所述的方法,包括:
由所述计算系统确定在所述训练过程的一次或更多次迭代期间确定的存在癌症的指示的数量至少是包括在所述训练数据中的一个或更多个样品的阈值;以及
由所述计算系统确定对所述模型的一个或更多个权重的修饰未被修饰或以最小量被修饰。
44.根据前述权利要求中任一项所述的方法,包括:
由所述计算系统确定在所述训练过程的所述一次或更多次迭代期间确定的存在癌症的指示的另外的数量小于包括在所述训练数据中的一个或更多个另外的样品的所述阈值;以及
由所述计算系统确定对所述模型的一个或更多个另外的权重的修饰以超过所述最小量的量被修饰。
45.根据前述权利要求中任一项所述的方法,包括:
将来源于受试者的血液或组织中的至少一种的多于一个核酸与包含一定量的甲基结合结构域(MBD)蛋白的溶液组合以产生核酸-MBD蛋白溶液;以及
用盐溶液对所述核酸-MBD蛋白溶液进行多于一次洗涤以产生许多核酸级分,单个核酸级分在所述多于一个核酸的具有至少所述阈值胞嘧啶-鸟嘌呤含量的区域中具有阈值数量的甲基化胞嘧啶。
46.根据权利要求20所述的方法,其中所述多于一次洗涤中的洗涤用具有一定浓度的氯化钠(NaCl)的溶液进行,并且产生所述许多核酸级分中具有与MBD蛋白的一定结合强度范围的核酸级分。
47.根据前述权利要求中任一项所述的方法,包括:
确定第一核酸级分与多于一个核酸分区中的第一分区关联,所述第一分区对应于与MBD蛋白的第一范围结合强度;
将第一分子条形码附接至所述第一核酸级分的核酸,所述第一分子条形码被包括在与所述第一分区关联的第一组分子条形码中;
确定第二核酸级分与所述多于一个核酸分区中的第二分区关联,所述第二分区对应于与MBD蛋白的第一范围结合强度不同的与MBD蛋白的第二范围结合能;以及
将第二分子条形码附接至所述第二核酸级分的核酸,所述第二分子条形码被包括在与所述第二分区关联的第二组分子条形码中。
48.根据前述权利要求中任一项所述的方法,包括:
将所述许多核酸级分的至少一部分与一定量的裂解具有一个或更多个未甲基化胞嘧啶的分子的限制性内切酶组合,以产生用于产生所述测序读段的所述多于一个样品中的至少一部分,
其中甲基化胞嘧啶的所述阈值量对应于具有至少所述阈值胞嘧啶-鸟嘌呤含量的区域内甲基化胞嘧啶的最小频率。
49.一种方法,包括:
通过具有一个或更多个硬件处理器和存储器的计算系统获得源自受试者的样品的测序读段,
确定与所述样品中包括的多于一个基因相对应的一个或更多个分类区,
通过生成定量量度来确定所述一个或更多个分类区的甲基化水平,所述定量量度包括通过总阳性对照分子归一化的与分类区重叠的分子数量的比率,其中所述分子表现出阈值量的甲基化胞嘧啶;和
将所述定量量度与预定阈值进行比较以判定所述一个或更多个分类区的甲基化状态。
Applications Claiming Priority (5)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| US202363495688P | 2023-04-12 | 2023-04-12 | |
| US63/495,688 | 2023-04-12 | ||
| US202363509917P | 2023-06-23 | 2023-06-23 | |
| US63/509,917 | 2023-06-23 | ||
| PCT/US2024/024378 WO2024216112A1 (en) | 2023-04-12 | 2024-04-12 | Promoter methylation detection |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| CN121079437A true CN121079437A (zh) | 2025-12-05 |
Family
ID=91184920
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| CN202480025161.8A Pending CN121079437A (zh) | 2023-04-12 | 2024-04-12 | 启动子甲基化检测 |
Country Status (4)
| Country | Link |
|---|---|
| US (1) | US20250101522A1 (zh) |
| EP (1) | EP4695426A1 (zh) |
| CN (1) | CN121079437A (zh) |
| WO (1) | WO2024216112A1 (zh) |
Family Cites Families (7)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US20070161029A1 (en) * | 2005-12-05 | 2007-07-12 | Panomics, Inc. | High throughput profiling of methylation status of promoter regions of genes |
| WO2009074364A1 (en) * | 2007-12-13 | 2009-06-18 | Edgar Dahl | Novel prognostic breast cancer marker |
| US8486630B2 (en) | 2008-11-07 | 2013-07-16 | Industrial Technology Research Institute | Methods for accurate sequence data and modified base position determination |
| US9328379B2 (en) * | 2010-03-12 | 2016-05-03 | The Johns Hopkins University | Hypermethylation biomarkers for detection of head and neck squamous cell cancer |
| EP4424826A3 (en) | 2012-09-04 | 2024-11-27 | Guardant Health, Inc. | Systems and methods to detect rare mutations and copy number variation |
| WO2018119452A2 (en) | 2016-12-22 | 2018-06-28 | Guardant Health, Inc. | Methods and systems for analyzing nucleic acid molecules |
| EP4567131A3 (en) | 2019-01-31 | 2025-09-03 | Guardant Health, Inc. | Compositions and methods for isolating cell-free dna |
-
2024
- 2024-04-12 US US18/634,561 patent/US20250101522A1/en active Pending
- 2024-04-12 WO PCT/US2024/024378 patent/WO2024216112A1/en not_active Ceased
- 2024-04-12 EP EP24727022.6A patent/EP4695426A1/en active Pending
- 2024-04-12 CN CN202480025161.8A patent/CN121079437A/zh active Pending
Also Published As
| Publication number | Publication date |
|---|---|
| WO2024216112A1 (en) | 2024-10-17 |
| EP4695426A1 (en) | 2026-02-18 |
| US20250101522A1 (en) | 2025-03-27 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP7573536B2 (ja) | 無細胞dnaを単離するための組成物および方法 | |
| JP7717057B2 (ja) | メチル化分配アッセイにおいて無細胞dnaを解析するための組成物および方法 | |
| JP2021520816A (ja) | 循環腫瘍dnaの個別化された検出を用いる癌検出およびモニタリングの方法 | |
| CA2784613C (en) | Diagnostic methods based on somatically acquired rearrangement | |
| CN119032182A (zh) | 用于癌症检测和监测的方法 | |
| Onsongo et al. | CNV-RF is a random forest–based copy number variation detection method using next-generation sequencing | |
| AU2020369205A1 (en) | Prostate cancer detection methods | |
| WO2022157764A1 (en) | Non-invasive cancer detection based on dna methylation changes | |
| WO2025007038A1 (en) | Methods for early detection of cancer | |
| US20250101522A1 (en) | Brca1 promoter methylation in sporadic breast cancer patients detected by liquid biopsy | |
| US20250364077A1 (en) | Generalized probabilistic generative modeling method for analysis of tumor methylated molecules in target capture regions | |
| US20250243550A1 (en) | Minimum residual disease (mrd) detection in early stage cancer using urine | |
| US20250250638A1 (en) | Genomic and methylation biomarkers for prediction of copy number loss / gene deletion | |
| WO2025019254A1 (en) | Classification of breast tumors using dna methylation from liquid biopsy | |
| US20240420800A1 (en) | METHOD FOR HRD DETECTION IN TARGETED cfDNA SAMPLES USING DE NOVO MUTATIONAL SIGNATURES | |
| WO2025106796A1 (en) | Non-small cell lung cancer (nsclc) histology classification using dna methylation data captured from liquid biopsies | |
| WO2025106837A1 (en) | Tumor fraction and outcome association in a real-world non-small cell lung cancer (nsclc) cohort using a methylation-based circulating tumor dna (ctdna) assay | |
| WO2025019297A1 (en) | Classification of colorectal tumors using dna methylation from liquid biopsy | |
| WO2025235602A1 (en) | Predictive, prognostic signatures for immuno-oncology using liquid biopsy | |
| US20250201344A1 (en) | Methods and systems for identifying an origin of a variant | |
| RU2811503C2 (ru) | Способы выявления и мониторинга рака путем персонализированного выявления циркулирующей опухолевой днк | |
| WO2025007034A1 (en) | Methods for determining surveillance and therapy for diseases | |
| WO2025250656A1 (en) | Machine learning classification model for cancer detection | |
| WO2025208044A1 (en) | Methods for cancer detection using molecular patterns | |
| WO2025076452A1 (en) | Detecting tumor-related information based on methylation status of cell-free nucleic acid molecules |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| PB01 | Publication | ||
| PB01 | Publication |