[go: up one dir, main page]

CN105392894A - 确定样本基因组中是否存在拷贝数变异的方法、系统和计算机可读介质 - Google Patents

确定样本基因组中是否存在拷贝数变异的方法、系统和计算机可读介质 Download PDF

Info

Publication number
CN105392894A
CN105392894A CN201280067240.2A CN201280067240A CN105392894A CN 105392894 A CN105392894 A CN 105392894A CN 201280067240 A CN201280067240 A CN 201280067240A CN 105392894 A CN105392894 A CN 105392894A
Authority
CN
China
Prior art keywords
sequencing
candidate
value
breakthrough
sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201280067240.2A
Other languages
English (en)
Other versions
CN105392894B (zh
Inventor
殷旭阳
张春雷
陈盛培
张春生
潘小瑜
蒋慧
张秀清
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BGI Shenzhen Co Ltd
Original Assignee
BGI Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BGI Shenzhen Co Ltd filed Critical BGI Shenzhen Co Ltd
Publication of CN105392894A publication Critical patent/CN105392894A/zh
Application granted granted Critical
Publication of CN105392894B publication Critical patent/CN105392894B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6844Nucleic acid amplification reactions
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6809Methods for determination or identification of nucleic acids involving differential detection
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/10Ploidy or copy number detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B5/00ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Analytical Chemistry (AREA)
  • Biotechnology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Organic Chemistry (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Wood Science & Technology (AREA)
  • Zoology (AREA)
  • Molecular Biology (AREA)
  • Genetics & Genomics (AREA)
  • General Engineering & Computer Science (AREA)
  • Microbiology (AREA)
  • Biochemistry (AREA)
  • Immunology (AREA)
  • Chemical Kinetics & Catalysis (AREA)
  • Computer Hardware Design (AREA)
  • Evolutionary Computation (AREA)
  • Geometry (AREA)
  • General Physics & Mathematics (AREA)
  • Physiology (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

提供了确定样本基因组中是否存在拷贝数变异的方法和适于执行该方法的系统和计算机可读介质。其中,确定样本基因组中是否存在拷贝数变异的方法,包括步骤:对所述样本基因组进行测序,以便获得由多个测序序列构成的测序结果;将所述测序结果与参照基因组序列进行比对,以便确定所述测序序列在所述参照基因组序列上的分布;基于所述测序序列在参照基因组序列上的分布,在所述参照基因组序列上确定多个突破点,所述突破点两侧的测序序列数目存在显著差异;基于所述多个突破点,在所述参照基因组上确定检验窗口;基于落入所述检验窗口的测序序列,确定第一参数;以及基于所述第一参数与预定阈值的差异,确定所述样本基因组,针对所述检验窗口是否存在拷贝数变异。

Description

确定样本基因组中是否存在拷贝数变异的方法、 系统和计算机可读介质 优先权信息
技术领域
本发明涉及确定样本基因组中是否存在拷贝数变异的方法和适于执行该方法的系统和计算机可读 介质。
背景技术
在科学研究及应用领域, 时常遇到需要对单个细胞或几个细胞, 或微量核酸样本进行分析的问 题, 比如 ^辅助生殖技术领域的植入前诊断(PGD)和植入前筛查(PGS) , 涉及对单个生殖细胞或单 个卵裂球细胞或胚胎细胞进行分析; 无创产前诊断技术领域, 涉及通过母体外周血中微量的胎儿细 胞进行检测的问题; 在宏基因组学中, 对环境中单个或微量的生物细胞进行分析; 以及在疾病或生 理研究中, 涉及对组织或体液中 ^个细胞进行分析。
然而, 目前确定拷贝数变异的方法仍有待改进。
发明内容
本发明旨在至少解决现有技术中存在的技术问题之一。
根据本发明的一个方面, 本发明提出了一种确定样本基因组中是否存在拷贝数变异的方法。 根据本 发明的实施例, 该方法包括以下步骤: 对所述样本基因组进行测序, 以便获得由多个测序序列构成的测 序结果; 将所述测序结果与参照基因组序列进行比对, 以便确定所述测序序列在所述参照基因组序列上 的分布; 基于所述测序序列在参照基因组序列上的分布, 在所述参照基因组序列上确定多个突破点, 所 述突破点两侧的测序序列数目存在显著差异; 基于所述多个突破点,在所述参照基因组上确定检验窗口; 基于落入所述检验窗口的测序序列, 确定第一参数; 以及基于所述第一参数与预定阈值的差异, 确定所 述样本基因组, 针对所述检验窗口是否存在拷贝数变异。 利用根据本发明实施例的确定样本基因组中是 否存在拷贝数变异的方法, 能够有效地确定样本基因组中是否存在拷贝数变异, 并且适用于各种拷贝数 变异, 包括但不限于染色体非整倍性、 染色体片段缺失、 染色体片段增加、 微缺失、 微重复。
根据本发明的第二方面, 本发明提出了一种确定样本基因组中是否存在拷贝数变异的系统。 根据本 发明的实施例, 该系统包括: 测序装置, 所述测序装置用于对对所述样本基因组进行测序, 以便获得由 多个测序序列构成的测序结果; 分析装置, 所述分析装置与所述测序装置相连, 以便基于所述测序结果 确定所述基因组中是否存在拷贝数变异, 所述分析装置进一步包括: 比对单元, 所述比对单元适于将所 述测序结果与参照基因组序列进行比对, 以便确定所述测序序列在所述参照基因组序列上的分布; 突破 点确定单元, 所述突破点确定单元与所述比对单元相连, 并且适于基于所述测序序列在参照基因组序列 上的分布, 在所述参照基因组序列上确定多个突破点, 所述突破点两侧的测序序列数目存在显著差异; 检验窗口确定单元,所述检验窗口确定单元与所述突破点确定单元相连,并且适于基于所述多个突破点, 在所述参照基因组上确定检验窗口; 参数确定单元, 所述参数确定单元与所述检验窗口确定单元相连, 并且适于基于落入所述检验窗口的测序序列, 确定第一参数; 以及判断单元, 所述判断单元与所述参数 确定单元相连, 并且适于基于所述第一参数与预定阈值的差异, 确定所述样本基因组, 针对所述检验窗 口是否存在拷贝数变异。 利用根据本发明实施例的确定样本基因组中是否存在拷贝数变异的系统, 能够 有效地实施根据本发明实施例的确定样本基因组中是否存在拷贝数变异的方法, 从而能够有效地确定样 本基因组中是否存在拷贝数变异, 并且适用于各种拷贝数变异, 包括但不限于染色体非整倍性、 染色体 片段缺失、 染色体片段增加、 微缺失、 微重复。
根据本发明的第三方面, 本发明提出了一种计算机可读介质。 根据本发明的实施例, 该计算机可读 介质上存储有指令, 所述指令适于被处理器执行以便通过下列步骤确定样本基因组中是否存在拷贝数变 异: 将测序结果与参照基因组序列进行比对, 以便确定所述测序序列在所述参照基因组序列上的分布, 其中所述测序结果是由通过对所述样本基因组进行测序所获得的多个测序序列构成的; 基于所述测序序 列在参照基因组序列上的分布, 在所述参照基因组序列上确定多个突破点, 所述突破点两侧的测序序列 数目存在显著差异; 基于所述多个突破点, 在所述参照基因组上确定检验窗口; 基于落入所述检验窗口 的测序序列, 确定第一参数; 以及基于所述第一参数与预定阈值的差异, 确定所述样本基因组, 针对所 述检验窗口是否存在拷贝数变异。 借助该计算机可读介质, 能够有效地实施根据本发明实施例的确定样 本基因组中是否存在拷贝数变异的方法, 从而能够有效地确定样本基因组中是否存在拷贝数变异, 并且 适用于各种拷贝数变异, 包括但不限于染色体非整倍性、 染色体片段缺失、 染色体片段增加、 微缺失、 微重复。
本发明的附加方面和优点将在下面的描述中部分给出, 部分将从下面的描述中变得明显, 或通 过本发明的实践了解到。
附图说明
本发明的上述和 /或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理 解, 其中:
图 1 显示了根据本发明一个实施例的确定样本基因组中是否存在拷贝数变异的方法的流程示意 图;
图 2显示了根据本发明一个实施例的确定样本基因组中是否存在拷贝数变异的系统的结构示意图; 图 3 显示了根据本发明又一个实施例的确定样本基因组中是否存在拷贝数变异的方法的流程示意 图;
图 4显示了根据本发明的实施例, 样品 S1的染色体数字核型图。 左图为胚胎单细胞经全基因 组扩增后用本发明进行拷贝数变异检测的结果, 右图为相同的胚胎提取 DNA 后直接测序(未经 WGA)的结果; 以及
图 5显示了根据本发明的实施例, 样品 S2染色体数字核型图。 左图为胚胎单细胞经全基因组 扩增后用本发明进行拷贝数变异检测的结果,右图为相同的胚胎提取 DNA后直接测序(未经 WGA) 的结果。
发明详细描述
下面详细描述本发明的实施例, 所述实施例的示例在附图中示出, 其中自始至终相同或类似的 标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例 性的, 仅用于解释本发明, 而不能理解为对本发明的限制。
需要说明的是, 术语 "第一" 、 "第二" 仅用于描述目的, 而不能理解为指示或暗示相对重要 性或者隐含指明所指示的技术特征的数量。 由此, 限定有 "第一'' 、 "第二'' 的特征可以明示或者 隐含地包括一个或者更多个该特征。 进一步地, 在本发明的描述中, 除非另有说明, "多个'' 的含 义是两个或两个以上。 如果没有明确说明, 在本文的公式或标识中, 相同的字母代表相同的含义。
一、 确定样本基因组中是否存在拷贝数变异的方法
根据本发明的一个方面, 本发明提出了一种确定样本基因组中是否存在拷贝数变异的方法。 在本发 明中所使用的术语 "拷贝数变异(copy number variation, CNV )" 的含义是染色体或染色体片段拷贝数 的异常, 包括但不限于染色体非整倍性、 染色体片段缺失、 染色体片段增加、 微缺失、 微重复。
参考图 1 , 根据本发明实施例的确定样本基因组中是否存在拷贝数变异的方法包括:
S100: 对样本基因组进行测序, 以便获得由多个测序序列构成的测序结果
根据本发明的实施例, 本发明的方法可以采用的样本基因组的类型并不受特别限制, 既可以是全基 因组, 也可以是基因组的一部分, 例如可以是染色体或其片段。 另外, 根据本发明的实施例, 在对样本 基因组进行测序之前, 进一步包括从生物样本中提取样本基因组的步骤。 由此, 能够直接以生物样本作 为原材料, 获得关于该生物样本是否具有拷贝数变异的信息, 从而反映生物体的健康状态。 根据本发明 的实施例, 可以采用的生物样本并不受特别限制。 根据本发明的一些具体示例, 可以采用的生物样本为 选自血液、 尿液、 唾液、 组织、 生殖细胞、 受精卵、 卵裂球和胚胎的任意一种。 本领域技术人员能够理 解的是, 针对不同的疾病, 可以采用不同的生物样本来进行分析。 由此, 可以方便地从生物体获取这些 样本, 并且能够具体地针对某些疾病采取不同的样本, 从而针对某些特殊疾病采取特定的分析手段。 例 如, 对于可能罹患特定癌症的测试对象, 可以从该组织或其附近采集样本, 并进一步分离细胞进行分析, 由此, 能够精确并且尽可能早地获知该组织是否发生癌变。 根据本发明的具体实施例, 可以采用单细胞 作为生物样本。 根据本发明的实施例, 从生物样本分离单细胞的方法和设备不受特别限制。 根据本发明 的一些具体示例, 可以采用选自稀释法、 口吸管分离法、 显微操作 (优选显微切割)、 流式细胞分离术、 微流控法的至少一种从生物样本分离单细胞。 由此, 能够有效便捷地获得生物样本的单细胞, 以便实施 后续操作, 由此, 可以进一步提高确定样本基因组中是否存在拷贝数变异的效率。
另外, 根据本发明的实施例, 对样本基因组进行测序的方法不受特别限制。 根据本发明的一个实施 例, 对样本基因组进行测序进一步包括: 首先, 对样本基因组进行扩增得到经过扩增的基因组; 接下来, 利用经过扩增的样本基因组构建测序文库; 最后, 对所得到的测序文库进行测序, 以便获得由多个测序 序列构成的测序结果。 由此, 能够有效地获取样本基因组的测序结果的全基因组信息, 并且能够对单细 胞基因组或者微量核酸样本进行有效测序, 从而进一步提高了确定样本基因组中是否存在拷贝数变异的 效率。 本领域技术人员可以根据采用的基因组测序技术的具体方案选择不同的构建测序文库的方法, 关 于构建基因组测序文库的细节, 可以参见测序仪器的厂商例如 Illumina公司所提供的规程, 例如参见 Illumina公司 Multiplexing Sample Preparation Guide ( Part#1005361; Feb 2010 )或 Paired-End SamplePrep Guide ( Part# 1005063; Feb 2010 ), 通过参照将其并入本文。
任选地, 对于以单细胞作为生物样本提取基因组, 根据本发明的实施例, 可以进一步包括对单细胞 进行裂解, 以便释放所述单细胞的全基因组的步骤。 根据本发明的一些示例, 可以用于裂解单细胞并释 放全基因组的方法不受特别限制, 只要能够将单细胞裂解优选充分裂解即可。 根据本发明的具体示例, 可以利用碱性裂解液将所述单细胞裂解并释放所述单细胞的全基因组。 发明人发现, 这样能够有效地裂 解单细胞并释放出全基因组, 并且所释放的全基因组在进行测序时, 能够提高准确率, 从而进一步提高 了确定样本基因组中是否存在拷贝数变异的效率。 根据本发明的实施例, 单细胞全基因组扩增的方法不 受特别限制, 可以采用基于 PCR的方法例如可以采用 PEP-PCR、 DOP-PCR、 和 OmniPlex WGA, 也可 以采用非基于 PCR的方法例如 MDA (多重链置换扩增)。 根据本发明的具体示例, 优选采用基于 PCR的 方法, 例如 OmniPlex WGA方法。 可选用的商业化试剂盒包括但不限于 Sigma Aldrich的 GenomePlex , Rubicon Genomics的 PicoPlex, Qiagen的 REPLI-g, GE Healthcare的 illustra GenomiPhi等。 根据本发明 的具体示例, 在构建测序文库之前, 可以采用 OmniPlex WGA对单细胞全基因组进行扩增。 由此, 能够 有效地对全基因组进行扩增, 从而进一步提高了确定样本基因组中是否存在拷贝数变异的效率。 根据本 发明的实施例, 可以采用选自第二代测序技术如 Illumina公司的 Hiseq 系统, Miseq 系统, Genome Analyzer(GA)系统, Roche公司的 454 FLX, Applied Biosystems公司的 SOLiD系统, Life Technologies 公司的 Ion Torrent系统等的至少一种对所述全基因组测序文库进行测序。 由此, 能够利用这些测序装置 的高通量、 深度测序的特点, 进一步提高了确定单细胞染色体非整倍性的效率。 当然, 本领域技术人员 能够理解的是, 还可以采用其他的测序方法和装置进行全基因组测序, 例如第三代测序技术即单分子测 序技术如 Helicos Biosciences公司的 HeliScope系统, PacBio公司的 RS系统等的任一种, 以及以后可能 开发出来的更先进的测序技术。 根据本发明的实施例, 通过全基因组测序所得到的测序数据的长度不受 特别限制。 根据本发明的一个具体示例, 所述多个测序数据的平均长度为约 50bp。 申请人惊奇地发现, 当测序数据的平均长度为约 50bp时, 能够极大地方便对测序数据进行分析, 提高分析效率, 同时能够显 著降低分析的成本。 进一步提高了确定单细胞染色体非整倍性的效率, 并且降低了确定单细胞染色体非 整倍性的成本。 这里所使用的术语 "平均长度" 是指各个测序数据长度数值的平均值。
S200: 将测序结果与参照基因组序列进行比对, 以便确定测序序列在参照基因组序列上的分布 在完成对样本基因组进行测序之后, 所得到的测序结果中包含了多个测序序列。 将所得到的测序结 果与参照基因组序列进行比对, 从而可以确定所得到的测序序列在参照基因组序列上的定位。 根据本发 明的实施例, 可以采用任何已知的方法对这些测序数据的总数目进行计算。 例如, 可以采用测序仪器的 制造商所提供的软件进行分析。 优选采用短寡核苷酸分析包(Short Oligonucleotide Analysis Package , SOAP )和 BWA比对(Burrows-Wheeler Aligner )进行, 将测序序列与参考基因组序列比对, 得到测序 序列在参考基因组上的位置。 进行序列比对可以使用程序提供的默认参数进行, 或者由本领域技术人员 根据需要对参数进行选择。 在本发明的一个实施方案中, 所采用的比对软件是 SOAPaligner/soap2。
根据本发明的实施例, 参照基因组序列是 NCBI数据库中的标准人类基因组参考序列 (例如可以为 hgl8, NCBI Build 36 )。 也可以是已知基因组序列的一部分, 例如可以为选自人类 21号染色体、 18号染 色体、 13号染色体、 X染色体和 Y染色体的至少一种的序列。
根据本发明的实施例, 通过将测序结果与参照基因组序列进行比对, 可以选择与参照基因组序列唯 一比对的序列, 进行后续分析, 由此, 能够避免重复序列对拷贝数变异分析的干扰, 进一步提高确定样 本基因组中是否存在拷贝数变异的效率。
S300: 基于测序序列在参照基因组序列上的分布, 在参照基因组序列上确定多个突破点 在本文中所使用的术语 "突破点" 指的是基因组上这样一种位点, 在该位点两侧相同的区段之间测 序序列数目存在显著差异。 因为测序序列 (reads )是来源于样本基因组的, 因而当样本基因组中特定区 域出现拷贝数变异时, 与该区域对应的测序序列的数目也会有显著变牝。 由此, 在确定多个突破点后, 可以初步判断两个相邻突破点之间的区段可能存在拷贝数变异。
根据本发明的实施例, 在参照基因组上确定突破点可以进一步包括:
首先, 将参考基因组序列划分为多个预定长度的一级窗口, 并确定落入各一级窗口中的测序序列。 根据本发明的具体实例, 可以通过常规的比对程序, 将所得到的测序结果中所包含的测序序列与参照基 因组序列进行比对, 从而确定落入各一级窗口中的测序序列。 例如可以在前面描述的 S200步骤中完成。 根据本发明的具体实例, 落入各一级窗口中的测序序列为唯一比对测序序列。 由此, 能够避免重复序列 对拷贝数变异分析的干扰, 进一步提高确定样本基因组中是否存在拷贝数变异的效率。
接下来, 针对参考基因组序列上的至少一个位点, 确定落入位点两侧相同数目一级窗口中的测序序 列数目。 根据本发明的实施例, 可以对参考基因组序列上的所有位点进行相关夯析, 也可以对感兴趣的 染色体, 例如人类 21号染色体、 18号染色体、 13号染色体、 X染色体和 Y染色体的至少一种上的所有 位点进行该分析。 根据本发明的实施例, 各一级窗口的长度可以相同或者不同, 并且一级窗口之间可以 有重叠, 只要各个一级窗口的信息是已知的即可, 优选各一级窗口具有相同的长度。 根据本发明的实施 例, 各一级窗口的长度可以均为 100-200Kbp, 优选 150Kbp。 根据本发明的实施例, 在位点两侧选择的 一级窗口的数目并不受特别限制, 根据具体实例, 可以在位点两侧各取 100个一级窗口。
接下来, 可以通过统计分析, 确定所研究位点两侧测序序列数据分布的 p值, 该 p值可以反映两侧 测序数据数目的显著差异性。 如果所述位点的 p值小于终止 p值, 判断该位点为突破点。 根据本发明的 实施例, 终止 p值的范围可以是通过对已知序列的样本进行平行分析而确定的, 根据本发明的一个具体 实例, 终止 p值为 1.1X10-50
根据本发明的一个实施例, 确定位点两侧测序数据数目的显著差异性 p值进一步包括:
针对选定的位点, 在该位点两侧各取相同数目的一级窗口, 并且计算每个一级窗口的相对测序序列 数目 Ri, 其中 i表示一级窗口的编号,
对所有一级窗口的相对测序序列数目 ¾进行游程检验, 以便确定该位点的 p值,
其中, .
述相对测序序列数目是通过下列公式确定的:
其中 η表示落入第 i一级窗口的测序序列数目, ri , n表示一级窗口的总数目。
具体地, 对所有一级窗口的相对测序序列数目进行游程检验进一奇包括: 对每个一级窗口的相对测序序 列数目 Ri进行 GC含量校正, 以便获得校正的相对测序序列数目 "^; 基于校正的相对测序序列数目, 确 定每个一级窗口的标准化的测序序列数目 ; 以及对所有一级窗口的标准化的测序序列数目 ¾进行游程 检验。 更具体地, 所述校正的相对测序序列数目^'是通过下列步骤获得的:
首先, 计算每个一级窗口的 GC含量; 接下来, 将 GC含量以预定数值为单位划分为多个区域, 并且统计每个区域中相对测序序列数目的 平均值 Ms, 其中 s为 GC区域的编号,根据本发明的实施例, 预定数值可以为在 0.0005-0.01范围内的任 意数值, 对应的区域大小为 50k-300k, 优选采用 0.001, 由此进杆矫正的力度 (power)最佳;
接下来, 根据下列公式确定所述校正的相对测序序列数目
R = R —M - 最后, 通过下列公式确定标准化的测序序列数目
Z, = ( - Rt - mean )/SD
其中,
SD = —— Y (R - R; - mean )'
V » o
由此, 可以通过 GC含量对测序序列数目进行校验。 由此, 可以消除基因组扩增的偏好所造成的干 扰, 从而进一步提高确定样本基因组中是否存在拷贝数变异的精确性和效率。
在确定多个突破点后, 可以初步判断两个相邻突破点之间的区段可能存在拷贝数变异。 因而可以将 这些区段作为检验窗口,用于进一步判断是否存在拷贝数变异。对于初步判断得到的突破点较多的情形, 可以对突破点进一步进行筛选。 由此, 根据本发明的实施例, 基于多个突破点, 在参照基因组上确定检 验窗口进一步包括:
1 )确定多个候选突破点, 候选突破点是指这样一种突破点, 在该突破点的前后均存在其他突破点;
2 )确定每个候选突破点的 p值, 并剔除 p值最大的候选突破点;
3 )对剩余的候选突破点重复步骤 2 ), 在剔除一部分候选突破点, 直到剩余候选突破点的 p值均小 于终止 p值, 剩余候选突破点作为经过筛选的候选突破点; 以及
4 )确定相邻两个经过筛选的候选突破点之间的区域为检验窗口。
根据本发明的实施例, 可以通过下列步骤确定候选突破点的 p值: .
将候选突破点与相邻的上一个突破点之间的区域作为第一候选区域, 将所述候选突破点与相邻的下 一个突破点之间的区域作为第二候选区域;
对第一候选区域和第二候选区域中所包含一级窗口的标准化的测序序列数目 进行游程检验 (游程 检验是一种非参数检验, 利用两个群体元素混合后的分布均匀状态评价此两个群体的差异显著性, 关于 该检验的细节, 可以参见 Wald A. WJ. On a Test Whether Two Samples are from the Same Population. The Annals of Mathematical Statistics 1940; 11 :147-162, 通过参照将其并入本文), 以便确定所述候选突破点的 p值。
根据本发明的实施例, 终止 p值是通过下列步骤确定的:
利用对照样品的测序结果, 重复在参照基因组上确定检验窗口的操作, 并记录每次被剔除候选突破 点的 p值, 直到候选突破点的数目为零, 这里所使用的术语对照样品指的是已知核 列中不存在拷贝 数变异的样品; 以及
基于被剔除候选突破点的 p值分布, 确定所述终止 p值, 例如将被剔除的候选突破点的/?值做分布 图, 选取 p值变化趋势最大的地方作为终止 p值( p , ) 。
根据本发明的具体示例, 终止 p值可以为 1.1X10_5Q
S400: 基于落入检验窗口的测序序列, 确定第一参数
替换页(细则 26 ) 在确定检验窗口后, 可以通过对检验窗口中所包含的测序序列进行统计分析, 从而确定该检验窗口 是否存在拷贝数变异。 根据本发明的一个实施例, 基于落入所述检验窗口的测序序列, 确定第一参数进 一步包括: 确定检验窗口中所包含的所有一级窗口的平均标准化的测序序列数目 该平均标准化的测 序序列数目 ^ "作为第一参数。 关于标准化的测序序列数目, 前面已经进行了详细描述, 此处不再贅述。
S500: 基于第一参数与预定阔值的差异, 确定样本基因组针对该检验窗口是否存在拷贝数变异 根据本发明的实施例, 可以通过将前面所确定的第一参数与预定阈值进行比较, 基于第一参数和预 定阈值之间的差异, 来确定关于特定的检验窗口, 基因组样本是否具有拷贝数变异。 基于基因组测序的 测序结果中, 针对某一特定窗口的测序序列的数目, 是与全基因组中该窗口在染色体或基因组中的含量 呈正相关的, 因而, 通过对测序结果中来源于某一特定窗口的测序序列进行统计分析, 能够有效地确定 关于该窗口, 样本基因组是否具有拷贝数变异。 在本文中所使用的术语 "预定阈值" 是指将已知基因组 正常的样本基因组重复针对上述实施的操作和分析所得到的关于特定窗口的相关数据。 本领域技术人员 能够理解的是, 可以采用相同的测序条件和数学运算方法, 分别获得特定窗口的相关参数, 以及正常细 胞的相关参数。 这里, 可以将正常细胞的相关参数作为预定阈值。 另外, 本文中所使用的术语 "预定", 应做广义理解, 可以是预先通过实验确定的, 也可以是在进行生物样本分析时, 采用平行实验获得的。 这里所使用的术语 "平行实验" 应作广义理解, 既可以指的是同时进行未知样品和已知样品的测序和分 析, 也可以是先后进行在相同条件下的测序和分析。 根据本发明的实施例, 所述预定阈值采用第一阈值 和第二阈值, 通过将第一参数^"与第一阈值和第二阈值相比较, 小于第一阈值为拷贝数减少 (即缺失), 大于第二阈值为拷贝数增加(即重复), 由此可以确定拷贝数变异类型。 根据本发明的具体示例, 设定 α
= 0 5为显著界线, 第一阈值为 -I.645 , 第二阈值为 I.645 , 由此, 可以进一步有效地确定拷贝数变异类 型。
利用根据本发明实施例的确定样本基因组中是否存在拷贝数变异的方法, 能够有效地确定样本基因 组中是否存在拷贝数变异, 并且适用于各种拷贝数变异, 包括但不限于染色体非整倍性、 染色体片段缺 失、 染色体片段增加、 微缺失、 微重复。 拷贝数变异是引起出生缺陷的主要因素, 在体外培养的胚胎中 也非常常见, 是引起体外生殖失败的主要原因。 拷贝数变异也是很多疾病如癌症的致病因素。 全基因组 扩增是对单个细胞、 几个细胞或微量核酸样本进行全基因组范围扩增的技术, 可以在尽量保持全基因组 代表性前提下使样本量增加, 达到所需的样本量。 但是, 通常而言, 全基因组扩增都存在扩增偏向性的 问题,有可能给后续分析带来误差。根据本发明实施例的确定样本基因组中是否存在拷贝数变异的方法, 在对单细胞或微量核酸样本经全基因组扩增后, 通过测序技术获得数据, 进行拷贝数变异的分析, 一方 面通过全基因组扩增解决了单细胞或微量核酸样本分析难的问题, 另一方面避免了全基因组扩增对拷贝 数变异分析产生的偏差, 使检测更准确更全面, 尤其是通过 GC含量校正, 能够更进一步提高检测效率。 另外, 根据本发明的实施例, 在不同样品的文库构建过程中引入不同的标签, 由此可以同时对多种样品 进行检验, 进一步提高确定样本基因组中是否存在拷贝数变异的效率。 利用根据本发明实施例的确定样 本基因组中是否存在拷贝数变异的方法, 能够进行胚胎植入前拷贝数变异筛查和诊断或无创胎儿拷贝数 变异筛查, 有利于提供遗传咨询和临床决策依据; 进行产前诊断可有效防止病变胚胎植入, 防止患儿出 生。 二、 确定样本基因组中是否存在拷贝数变异的系统
根据本发明的第二方面, 本发明提出了一种确定样本基因组中是否存在拷贝数变异的系统, 利用该 系统能够有效的实施前述确定样本基因组中是否存在拷贝数变异的方法, 从而可以有效的确定样本基因 组中是否存在拷贝数变异。
参考图 2, 根据本发明的实施例, 确定样本基因组中是否存在拷贝数变异的系统 1000包括: 测序装 置 100和分析装置 200。
根据本发明的实施例, 测序装置 100用于对对样本基因组进行测序, 以便获得由多个测序序列构成 的测序结果。根据本发明的实施例,确定样本基因组中是否存在拷贝数变异的系统 1000可以进一步包括 基因组提取装置(图中未示出), 该基因组提取装置适于从生物样本中提取样本基因组, 并且该基因组提 取装置与测序装置相连以便为测序装置 100提供样本基因组。 由此, 能够直接以生物样本作为原材料, 获得关于该生物样本是否具有拷贝数变异的信息, 从而反映生物体的健康状态。 根据本发明的实施例, 测序装置可以进一步包括: 基因组扩增单元、 测序文库构建单元以及测序单元。 其中, 基因组扩增单元 适于对所述样本基因组进行扩增, 测序文库构建单元与基因组扩增单元相连, 并且适于利用经过扩增的 样本基因组构建测序文库; 以及测序单元, 测序单元与所述测序文库构建单元相连, 并且适于对所述测 序文库进行测序。 根据本发明的实施例, 测序单元为选自第二代测序技术如 Illumina公司的 Hiseq系统, Miseq系统, Genome Analyzer(GA)系统, Roche公司的 454 FLX, Applied Biosystems公司的 SOLiD系统, Life Technologies公司的 Ion Torrent系统和单分子测序装置的至少一种。 由此, 能够利用这些测序装置的 高通量、 深度测序的特点, 进一步提高了确定单细胞染色体非整倍性的效率。
根据本发明的实施例, 分析装置 200与测序装置 100相连, 以便基于测序结果确定基因组中是否存 在拷贝数变异。 根据本发明的实施例, 分析装置 200进一步包括: 比对单元 201、 突破点确定单元 202、 检验窗口确定单元 203、 参数确定单元 204以及判断单元 205。 其中, 比对单元 201适于将测序结果与参 照基因组序列进行比对, 以便确定测序序列在参照基因组序列上的分布。 根据本发明的实施例, 比对单 元 201 内存储有参照基因组序列为已知的人类基因组序列, 任选地, 该参照基因组序列为选自人类 21 号染色体、 18号染色体、 13号染色体、 X染色体和 Y染色体的至少一种的序列。 突破点确定单元 202 与比对单元 201相连, 并且适于基于测序序列在参照基因组序列上的分布, 在参照基因组序列上确定多 个突破点, 如前所述, 突破点两侧的测序序列数目存在显著差异。 检验窗口确定单元 203与突破点确定 单元 202相连, 并且适于基于这些突破点, 在参照基因组上确定检验窗口。 参数确定单元 204与检验窗 口确定单元 203相连, 并且适于基于落入检验窗口的测序序列, 确定第一参数判断单元 205与参数确定 单元 204相连, 并且适于基于所得到的第一参数与预定阈值的差异, 确定样本基因组针对所确定的检验 窗口是否存在拷贝数变异。
根据本发明的实施例, 突破点确定单元 202可以进一步包括适于执行下列以确定突破点的模块: 将参考基因组序列划分为多个预定长度的一级窗口, 并确定落入各一级窗口中的测序序列; 首先, 将参考基因组序列划分为多个预定长度的一级窗口, 并确定落入各一级窗口中的测序序列。 根据本发明的具体实例, 可以通过常规的比对程序, 将所得到的测序结果中所包含的测序序列与参照基 因组序列进行比对, 从而确定落入各一级窗口中的测序序列。 根据本发明的实施例, 各一级窗口的长度 可以相同或者不同, 并且一级窗口之间可以有重叠, 只要各个一级窗口的信息是已知的即可, 优选各一 级窗口具有相同的长度。 根据本发明的实施例, 各一级窗口的长度可以均为 100-200Kbp, 优选 150Kbp。 根据本发明的实施例, 在位点两侧选择的一级窗口的数目并不受特别限制, 根据具体实例, 可以在位点 两侧各取 100个一级窗口。
接下来, 确定所述位点的 p值, 该 p值可以反映两侧测序数据数目的显著差异性。 以及如果所述位 点的 p值小于终止 p值, 判断该位点为突破点。 根据本发明的实施例, 终止 p值的范围可以是通过对已 知序列的样本进行平行分析而确定的, 根据本发明的一个具体实例, 终止 p值可以为 1.1X10—5Q
根据本发明的实施例, 突破点确定单元 202可以进一步包括适于执行下列以确定 p值的模块: 针对选定的位点, 在该位点两侧各取相同数目的一级窗口, 并且计算每个一级窗口的相对测序序列 数目 , 其中 i表示一级窗口的编号
对所有一级窗口的相对测序序列数目 进行游程检验, 以便确定所述位点的 p值,
其中,
所述相对测序序列数目是通过公式确定的: 1
其中 η表示落入第 i一级窗口的测序序列数目,
, n表示一级窗口的总数目 根据本发明的实施例, 突破点确定单元 202可以进一步包括适于执行下列以对所有一级窗口的相对 测序序列数目进行游程检验的模块:
对每个一级窗口的相对测序序列数目 Ri进行 GC含量校正, 以便获得校正的相对测序序列数目 基于所述校正的相对测序序列数目, 确定每个一级窗口的标准化的测序序列数目 ¾; 以及 对所有一级窗口的标准化的测序序列数目 ¾进行游程检验。 其中, 根据本发明的实施例, 校正的相 对测序序列数目 是通过适于执行下列步骤的模块获得的:
计算每个一级窗口的 GC含量;
将 GC含量以预定数值为单位划分为多个区域,并且统计每个区域中相对测序序列数目的平均值 Ms, 其中 s为 GC区域的编号, 根据本发明的实施例, 预定数值可以为在 0.0005-0.01范围内的任意数值, 对 应的区域大小为 50k-300k, 优选采用 0.001, 由此进行矫正的力度 (power)最佳;
根据公式下列公式确定所述校正的相对测序序列数目 Ri :
= - MS ;
所述标准化的测序序列数目 ¾是通过下列公式确定的
Z, = ( - R, - mean )/SD
其中,
1 " - mean =—∑ R - - R,
;? /=1 '
SD = —— Y (R, - mean )'
在确定多个突破点后, 可以初步判断两个相邻突破点之间的区段可能存在拷贝数变异。 因而可以将 这些区段作为检验窗口,用于进一步判断是否存在拷贝数变异。对于初步判断得到的突破点较多的情形, 可以对突破点进一步进行筛选。 由此, 根据本发明的实施例, 基于多个突破点, 在参照基因组上确定检 验窗口进一步包括适于执行下列的模块:
1 )确定多个候选突破点, 候选突破点是指这样一种突破点, 在该突破点的前后均存在其他突破点;
2.)确定每个候选突破点的 p值, 并剔除 p值最大的候选突破点;
3 )对剩余的候选突破点重复步骤 2 ), 在剔除一部分候选突破点, 直到剩余候选突破点的 p值均小 于终止 p值, 剩余候选突破点作为经过筛选的候选突破点; 以及
4 )确定相邻两个经过筛选的候选突破点之间的区域为检验窗口。 其中, 根据本发明的实施例, 通过下列步骤确定所述候选突破点的 p值:
将候选突破点与相邻的上一个突破点之间的区域作为第一候选区域, 将所述候选突破点与相邻的下 一个突破点之间的区域作为第二候选区域;
对第一候选区域和第二候选区域中所包含一级窗口的标准化的测序序列数目 进行游程检验, 以便 确定所述候选突破点的 p值。
根据本发明的实施例, 终止 p值是通过下列步骤确定的:
利用对照样品的测序结果, 重复在参照基因组上确定检验窗口的操作, 并记录每次被剔除候选突破 点的 p值, 直到候选突破点的数目为零, 这里所使用的术语对照样品指的是已知核酸序列中不存在拷贝 数变异的样品; 以及
基于被剔除候选突破点的 p值分布, 确定所述终止 p值, 例如将被剔除的候选突破点的 p值做分布 图, 选取 p值变化趋势最大的地方作为终止 p值( p final ) 。
根据本发明的具体示例, 终止 p值可以为 UX10—5Q。 根据本发明的实施例, 参数确定单元 204可以 进一步包括适于执行下列的模块: 确定所述检验窗口中所包含的所有一级窗口的平均标准化的测序序列 数目 其中, 所得到的平均标准化的测序序列数目 ^"作为第一参数。 进一步, 在判断单元 205中存储 有预定阙值, 由此, 判断单元 205可以参数确定单元 204所确定的第一参数与该预定阈值进行比较, 从 而判断所得到的检验窗口是否具有拷贝数变异, 其中, 根据本发明的实施例, 根据本发明的实施例, 所 述预定阈值采用第一阈值和第二阈值, 通过将第一参数^"与第一阈值和第二阈值相比较, 小于第一阈值 为拷贝数减少 (即缺失), 大于第二阈值为拷贝数增加(即重复), 由此可以确定拷贝数变异类型。 根据 本发明的具体示例, 设定 α = 0 5为显著界线' 第一阈值为 -I.645, 第二阈值为 I.645, 由此' 可以进一 步有效地确定拷贝数变异类型。
由此, 利用根据本发明实施例的确定样本基因组中是否存在拷贝数变异的系统, 能够有效地实施根 据本发明实施例的确定样本基因组中是否存在拷贝数变异的方法, 从而能够有效地确定样本基因组中是 否存在拷贝数变异, 并且适用于各种拷贝数变异, 包括但不限于染色体非整倍性、 染色体片段缺失、 染 色体片段增加、 微缺失、 微重复。
需要说明的是, 本领域技术人员能够理解, 在前面所描述的确定样本基因组中是否存在拷贝数变异 的方法的特征和优点也适合于确定样本基因组中是否存在拷贝数变异的系统, 为描述方便, 不再详述。
计算机可读介质
根据本发明的第三方面, 本发明提出了一种计算机可读介质。 根据本发明的实施例, 该计算机可读 介质上存储有指令, 所述指令适于被处理器执行以便通过下列步骤确定样本基因组中是否存在拷贝数变 异: 将测序结果与参照基因组序列进行比对, 以便确定所述测序序列在所述参照基因组序列上的分布, 其中所述测序结果是由通过对所述样本基因组进行测序所获得的多个测序序列构成的; 基于所述测序序 列在参照基因组序列上的分布, 在所述参照基因组序列上确定多个突破点, 所述突破点两侧的测序序列 数目存在显著差异; 基于所述多个突破点, 在所述参照基因组上确定检验窗口; 基于落入所述检验窗口 的测序序列, 确定第一参数; 以及基于所述第一参数与预定阈值的差异, 确定所述样本基因组, 针对所 述检验窗口是否存在拷贝数变异。 借助该计算机可读介质, 能够有效地实施根据本发明实施例的确定样 本基因组中是否存在拷贝数变异的方法, 从而能够有效地确定样本基因组中是否存在拷贝数变异, 并且 适用于各种拷贝数变异, 包括但不限于染色体非整倍性、 染色体片段缺失、 染色体片段增加、 微缺失、 微重复。
需要说明的是, 本领域技术人员能够理解, 在前面所描述的确定样本基因组中是否存在拷贝数变异 的方法的特征和优点也适合于该计算机可读介质, 为描述方便, 不再详述。 下面将结合实施例对本发明的方案进行解释。 本领域技术人员将会理解, 下面的实施例仅用于说明 本发明, 而不应视为限定本发明的范围。 实施例中未注明具体技术或条件的, 按照本领域内的文献所描 述的技术或条件(例如参考 J.萨姆布鲁克等著, 黄培堂等译的《分子克隆实验指南》, 第三版, 科学出版 社)或者按照产品说明书进行。 所用试剂或仪器未注明生产厂商者, 均为可以通过市购获得的常规产品, 例如可以采购自 Illumina公司。
一般方法
参考图 3, 在实施例中采用的确定样本基因组中是否存在拷贝数变异的方法包括下列:
首先, 对样品的全基因组进行扩增, 并进行测序得到测序序列 (测序数据);
接下来,通过 SOAP2将所得到的测序序列与 NCBI数据库中的标准人类基因组参考序列进行 SOAP2 比对, 得到所测序序列在基因组上的位置信息。 为避免重复序列对拷贝数变异分析的干扰, 只选取与人 类基因组参考序列唯一比对的测序序列 (reads), 进行后续分析。
接下来, 寻找测试样本基因组上两侧测序序列数目在统计上有显著差异的位点, 其包括下列步骤: a)计算测试样本(可以同时对多个样本进行分析)的相对测序序列数:
在人类基因组参考序列上开长度为 W的窗口 ( W可以是大于 1的任意整数, 例如 10K - 10M bp, 优选 50K - 1M bp, 更优选为 100K - 300 bp, 例如约 150K bp) , 统计所得到的测序序列中落在每 个 '分别代表窗口编号和样本编号, 并计算每个窗口的 GC含量
GC ,
b)数据校正与标准化:
在 GC含量为横坐标和相对测序序列数 R为纵坐标的坐标系中, 将 GC从小到大划分为大小相等的 区域, 统计每个区域中 R的平均值 5 , s为 GC区域的编号;
对样品中的每个窗口, 计算校正的相对测序序列数 i,j = Ri,j -Ms , 窗口 的 GC含量在第 s GC 区域内;
对于样品中每个窗口, 计算标准化的相对测序序列数 Z;
, = (Ri , -Ri , -meani )/SDi , 其中 . =丄 £ .-R. .),
c)确定并筛选突破点
确定突破点: 针对参考基因组序列上每个点, 取其左右两侧各 n个窗口 (例如 100个窗口)作为两 个群体进行统计检验, 每个点会计算得到一个代表该点两侧差异的 p值, 留下 p值最小的 m个点(例如 3000个)作为突破点 ( Breakpoint )
筛选突破点: 将所有排过序的突破点记为 β ={bx,b1,...,b } , 每个突破点都存在左右两个片段, 所 述片段即上一个突破点到该突破点的区域以及该突破点到下一个突破点的区域, 将这两个片段中所有 Ζ..进行统计检验(例如进行游程检验, 一种非参数检验, 利用两个群体元素混合后的分布均匀状态评 两个群体的差异显著性)所得的 ρ值( Α), 视作" ¾作为突破点的显著性", 将/¾最大的候选突破点 剔除, 反复此步骤, 直到所有 ρ值都小于该染色体的终止 ρ值( ρ ; );
终止 ρ值的获得: 在测试过程中, 将以对照样本作为测试样本 '行上述步骤确定若干突破点步骤, 将全基因组上所有排过序的候选突破点记为 β ={bx,b1,...,b } , 每个候选突破点¾都存在左右面两个窗 口, 将这两个窗口中所有 Ζ..进行游程检验所得的 ρ值( ft) , 视作" ¾作为突破点的显著性", 将最不显 著的候选突破点剔除并记 亥突破点对应的 Ρ值, 直到候选突破点数为 0, 将被剔除的候选突破点的 ρ 值做分布图, 选取 ρ值变化趋势最大的地方作为终止 ρ值( ρ 1 ) ;
确定检验窗口 , 并验证检 窗口: 在获得经过 ϋ选的突破, Κ后」确定检验窗口。 为了进一步对检验 窗口进行判断, 计算该片段中 的平均值, 记为 ζ, 如果片段的 ζ超出阈值范围, 则该片段为拷贝数 变异, 其中阈值的确定具体如下: 对合并窗口后每个 Ji段, 计算所有对照样品在该片段中的标准化相对测序序列数 ^的平均值和标 准差; 因为每个片段中 ζ符合正态分布, 所以根据前面步骤中计算得到的平均值和标准差, 计算累积概 率在 0.05时该片段的阈值范围, 作为过滤该片段是否存在拷贝数变异的阈值。
实施例 1对一例胚胎单细胞样品进行胎儿片段拷贝数变异检测,以 SJ!†—例胚胎单细胞样品进行染 色体非整倍性变异检测
1、 全基因组扩增: 本实施例采用 Sigma Aldrich公司的 GenomePlex® Single Cell Whole Genome Amplification Kit对两例胚胎单细胞样本进行全基因组扩增。所述胚胎单细胞样本为第五天囊胚期的外滋 养层单细胞, 通过激光捕获显微切割方法从囊胚中分离。 两例胚胎单细胞经裂解后, 均按照制造商所提 供的试剂盒说明书进行全基因组扩增操作。
2、 测序: 本实施例中, 采用 Illumina公司的 Hiseq2000测序平台对于获自上述 2例胚胎单细胞全基 因组扩增的 DNA进行测序, 按照 Illumina公司所提供的说明书, 进行文库构建、 上机测序, 使每个样本 得到约 0.36G数据量, 每个样本根据标签序列进行区分。 利用比对软件 SOAP2 , 将测序所得测序序列与 NCBI数据库中版本 36 ( hgl 8; NCBIBuild36 )的人类基因组参考序列进行比对, 将得到测序序列在人类 基因组参考序列上进行定位。
3、 数据分析
a )计算测试样本和对照样本(对照样本为核型正常的样品) 的相对测序序列数:
在人类基因组参考序列上划分为多个长度为 150K bp的窗口, 统计前面步骤 2 )所得到测序序列中落 在每个窗口上的测序序列数 r ., 其中下标 /和 分别代表窗口编号和样本编号, 并计算每个窗口的 GC 含量 GC. . , 按照一般方法中'挺供的公式计算相对测序序列数
b ) 据校正与标准化:
在 GC含量为横坐标和相对测序序列数 R为纵坐标的坐标系中, 将 GC从小到大划分为大小为 0. 001 的区域, 统计每个区域中 R的平均值 Ms , s为 GC区域的编号, 见表 1。 按照一般方法中提供的公式对 所得到的测序序列进行校正和标准化。
表 1 校正过程中每个 GC区域^ ^列表
/:/:/ O/-οίϊοίΜ>1£20iAV
80 0. 395~0. 396 0. 04 0. 414~0. 415 0. 08 197 0. 512~0. 513 - 1. 39 0. 53广 0. 532 - 1. 06
81 0. 396~0. 397 0. 06 0. 415~0. 416 0. 05 198 0. 513^0. 514 - 1. 43 0. 532~0. 533 - 1. 05
82 0. 397~0. 398 0. 03 0. 416~0. 417 0. 04 199 0. 514~0. 515 - 1. 45 0. 533~0. 534 - 1. 42
83 0. 398~0. 399 0. 02 0. 417~0. 418 0. 09 200 0. 515^0. 516 - 1. 3 0. 534~0. 535 - 0. 89
84 0. 399~0. 4 0. 09 0. 418~0. 419 0. 06 201 0. 516^0. 517 - 1. 38 0. 535~0. 536 - 1. 8
85 0. 4~0. 401 0. 02 0. 419~0. 42 - 0. 01 202 0. 517~0. 518 - 0. 94 0. 536~0. 537 - 0. 81
86 0. 40广 0. 402 0. 01 0. 42~0. 421 0. 09 203 0. 518^0. 519 - 1. 48 0. 537~0. 538 - 0. 89
87 0. 402~0. 403 0. 03 0. 42广 0. 422 0. 08 204 0. 519~0. 52 - 1. 48 0. 538~0. 539 - 0. 91
88 0. 403~0. 404 0 0. 422~0. 423 0. 06 205 0. 52~0. 521 - 0. 91 0. 539~0. 54 - 0. 96
89 0. 404~0. 405 0. 03 0. 423~0. 424 0. 08 206 0. 52广 0. 522 - 0. 89 0. 54~0. 541 - 1. 98
90 0. 405^0. 406 0. 02 0. 424~0. 425 0. 03 207 0. 522~0. 523 - 1. 9 0. 54广 0. 542 - 0. 29
91 0. 406^0. 407 0. 03 0. 425^0. 426 0. 06 208 0. 523~0. 524 - 1. 46 0. 542~0. 543 - 1. 28
92 0. 407~0. 408 0. 02 0. 426^0. 427 0. 05 209 0. 524~0. 525 -2. 02 0. 543~0. 544 - 1. 84
93 0. 408^0. 409 -0. 01 0. 427~0. 428 0. 06 210 0. 525~0. 526 - 1. 39 0. 544~0. 545 -1. 41
94 0. 409~0. 41 -0. 06 0. 428~0. 429 0. 03 211 0. 526~0. 527 - 1. 72 0. 545~0. 546 - 0. 54
95 0. 4Γ0. 411 -0. 06 0. 429^0. 43 0. 04 212 0. 528~0. 529 - 1. 08 0. 547~0. 548 - 1. 31
96 0. 41广 0. 412 -0. 04 0. 43~0. 431 0. 05 213 0. 529~0. 53 - 1. 42 0. 548~0. 549 -1. 11
97 0. 412~0. 413 -0. 04 0. 43广 0. 432 0. 01 214 0. 53~0. 531 - 1. 71 0. 549~0. 55 - 1. 38
98 0. 413~0. 414 -0. 02 0. 432~0. 433 0. 04 215 0. 53广 0. 532 -2. 27 0. 55~0. 551 - 1. 5
99 0. 414~0. 415 -0. 05 0. 433~0. 434 0 216 0. 532~0. 533 - 1. 78 0. 55广 0. 552 - 1. 22
100 0. 415~0. 416 -0. 07 0. 434~0. 435 - 0. 02 217 0. 533~0. 534 - 1. 55 0. 552~0. 553 - 0. 8
101 0. 416~0. 417 -0. 08 0. 435^0. 436 0. 01 218 0. 535~0. 536 - 1. 25 0. 553~0. 554 - 1. 32
102 0. 417~0. 418 -0. 11 0. 436^0. 437 0. 04 219 0. 536~0. 537 - 1. 09 0. 554~0. 555 - 1. 79
103 0. 418~0. 419 -0. 07 0. 437~0. 438 0. 01 220 0. 537~0. 538 -2. 02 0. 556~0. 557 - 1. 3
104 0. 419~0. 42 -0. 09 0. 438^0. 439 - 0. 01 221 0. 54~0. 541 -2. 16 0. 557~0. 558 - 1. 48
105 0. 42~0. 421 -0. 13 0. 439~0. 44 - 0. 01 222 0. 54广 0. 542 - 1. 64 0. 558~0. 559 - 1. 7
106 0. 42广 0. 422 - 0. 1 0. 44~0. 441 - 0. 01 223 0. 544~0. 545 -2. 3 0. 559~0. 56 - 1. 55
107 0. 422~0. 423 -0. 12 0. 44Γ0. 442 - 0. 01 224 0. 546~0. 547 -2. 51 0. 56广 0. 562 - 1. 62
108 0. 423~0. 424 -0. 11 0. 442^0. 443 - 0. 06 225 0. 548~0. 549 -2. 7 0. 563~0. 564 - 1. 68
109 0. 424~0. 425 - 0. 17 0. 443~0. 444 - 0. 04 226 0. 549~0. 55 - 1. 77 0. 564~0. 565 - 1. 47
110 0. 425^0. 426 -0. 14 0. 444~0. 445 - 0. 07 227 0. 55~0. 551 - 1. 08 0. 569~0. 57 - 1. 42
111 0. 426^0. 427 -0. 14 0. 445~0. 446 -0. 11 228 0. 55广 0. 552 -2. 13 0. 58~0. 581 - 1. 74
112 0. 427~0. 428 - 0. 15 0. 446~0. 447 - 0. 13 229 0. 553~0. 554 -2. 19 0. 583~0. 584 -2. 43
113 0. 428~0. 429 - 0. 19 0. 447^0. 448 - 0. 08 230 0. 555~0. 556 -2. 04 0. 6~0. 601 - 1. 79
114 0. 429^0. 43 - 0. 18 0. 448~0. 449 -0. 11 231 0. 556~0. 557 - 1. 93
115 0. 43~0. 431 - 0. 18 0. 449~0. 45 - 0. 07 232 0. 562~0. 563 -2. 51
116 0. 43广 0. 432 -0. 21 0. 45~0. 451 - 0. 16 233 0. 572~0. 573 - 1. 85
117 0. 432~0. 433 - 0. 26 0. 45广 0. 452 0. 08 234 0. 574~0. 575 -2. 74
C )合并窗口
确定突破点, 针对参考基因组序列上每个点, 取其左右两侧各 100个窗口作为两个群体进行游程检 验,每个点会计算得到一个代表该点两侧差异的 β值,留下 值最小的 3000个点作为突破点(Breakpo int ) 筛选突破点: 将所有排过序的突破点记为 β = {bx , b1 , ..., b } , 每个突破点都存在左右两个片段, 所 述片段即上一个突破点到该突破点的区域以及该突破点到下一个突破点的区域, 将这两个片段中所有 Ζ. .进行游程检验所得的 Ρ值(ft ), 视作 "¾作为突破点的显著性", 将/¾最大的候选突破点剔除, 反 步骤, 直到所有 ρ值都小于该染色体的终止 ρ值 1. 1Χ10—5°;
d )在得到筛选后的突破点后, 确定相邻两个突破点之间的区域为检验窗口, _而对窗口进行令并, 为了进一步对合并窗口后获得的片段进行过滤, 计算该片段中 Z. .的平均值, 记为 如果片段的 超 出阈值范围, 则该片段为拷贝数变异。 采用 -1. 645作为第一阈 采用 1. 645作为第二阈值。
4、 结果。 表 2表示了在该实施例中, 各胚胎单细胞样品经 WGA全基因组扩增后, 拷贝数变异的 检测结果列表。 表 2. 实施例 1各胚胎单细胞样品经 WGA拷贝数变异检测结果列表
由表 1的结果, 可以看出, 通过本发明的确定样本基因组中是否存在拷贝数变异的方法, 能够有效 地确定各种类型的拷贝数变异。
实施例 2
使用与实施例 1相同的胚胎, 重复实施例 1 , 只是在提取 DNA后直接进行测序 (未经 WGA)。 实施 例 1和实施例 2结果比较见表 3、 图 4和图 5。
表 3. 实施案例各样品 WGA与未经 WGA样本测序数据拷贝数变异检测结果比较
从表 3数据及染色体数字核型图图 4、 图 5可看出,样品经 WGA与未经 WGA测序数据拷贝数变异 检测结果是一致的。 对于表 3 "缺失'' 或 "重复'' 起始终止位置(发生拷贝数变异的边界) 的差异, 由 于拷贝数变异的边界难以精确确定, 一般地, 对于约 150K 的一级窗口, 可以判定两者的边界差异在 100-300Kb为完全一致, 在 300Kb-lMb范围为较一致, 表 3显示两方法确定的拷贝数变异边界的差异范 围在 100-300Kb或 300Kb- 1Mb之内, 判定两方法确定的发生拷贝数变异的边界一致。
工业实用性
本发明的确定样本基因组中是否存在拷贝数变异的方法、 系统和计算机可读介质能够有效地用于确 定样本基因组中是否存在拷贝数变异。
尽管本发明的具体实施方式已经得到详细的描述, 本领域技术人员将会理解。 根据已经公开的所有 教导, 可以对那些细节进行各种修改和替换, 这些改变均在本发明的保护范围之内。 本发明的全部范围 由所附权利要求及其任何等同物给出。
在本说明书的描述中, 参考术语 "一个实施例"、 "一些实施例"、 "示意性实施例"、 "示例"、 "具体 示例"、 或 "一些示例"等的描述意指结合该实施例或示例描述的具体特征、 结构、 材料或者特点包含于 本发明的至少一个实施例或示例中。 在本说明书中, 对上述术语的示意性表述不一定指的是相同的实施 例或示例。 而且, 描述的具体特征、 结构、 材料或者特点可以在任何的一个或多个实施例或示例中以合 适的方式结合。

Claims (35)

1、 一种确定样本基因组中是否存在拷贝数变异的方法, 其特征在于, 包括以下步骤: 对所述样本基因组进行测序, 以便获得由多个测序序列构成的测序结果;
将所述测序结果与参照基因组序列进行比对, 以便确定所述测序序列在所述参照基因组序列上的分 布;
基于所述测序序列在参照基因组序列上的分布, 在所述参照基因组序列上确定多个突破点, 所述突 破点两侧的测序序列数目存在显著差异;
基于所述多个突破点, 在所述参照基因组上确定检验窗口;
基于落入所述检验窗口的测序序列, 确定第一参数; 以及
基于所述第一参数与预定阈值的差异, 确定所述样本基因组, 针对所述检验窗口是否存在拷贝数变 异。
2、 根据权利要求 1所述的方法, 其特征在于, 进一步包括从生物样本中提取样本基因组的步骤。
3、 根据权利要求 2所述的方法, 其特征在于, 所述生物样本为孕妇样本或胎儿样本, 任选地, 所述 生物样本为选自孕妇血浆、 绒毛膜绒毛、 羊水、 脐带血、 胎盘和胎儿足跟血的至少一种。
4、 根据权利要求 2所述的方法, 其特征在于, 所述生物样本为选自血液、 尿液、 唾液、 组织、 生殖 细胞、 受精卵、 卵裂球和胚胎的至少一种,
任选地, 所述生物样本为单细胞。
5、 根据权利要求 1所述的方法, 其特征在于, 对所述样本基因组进行测序进一步包括: 对所述样本基因组进行扩增;
利用所述经过扩增的样本基因组构建测序文库; 以及
对所述测序文库进行测序。
6、 根据权利要求 4所述的方法, 其特征在于, 进一步包括对所述单细胞进行裂解, 以便释放所述单 细胞的全基因组的步骤。
7、 根据权利要求 6所述的方法, 其特征在于,
利用碱性裂解液对所述单细胞进行裂解, 以便释放所述单细胞的全基因组。
8、 根据权利要求 7所述的方法, 其特征在于, 利用基于 PCR的全基因组扩增方法对所述全基因组 进行扩增。
9、 根据权利要求 8所述的方法, 其特征在于,
所述基于 PCR的全基因组扩增方法为 OmniPlex WGA方法。
10、 根据权利要求 5所述的方法, 其特征在于,
利用选自 Hiseq系统、 Miseq系统、 Genome Analyzer(GA)系统、 454 FLX、 SOLiD系统、 Ion Torrent 系统和单分子测序装置的至少一种对所述测序文库进行测序。
11、 根据权利要求 1所述的方法, 其特征在于, 所述拷贝数变异为选自染色体非整倍性、 染色体片 段缺失、 染色体片段增加、 微缺失、 微重复的至少一种。
12、 根据权利要求 1所述的方法, 其特征在于, 在所述参照基因组上确定突破点进一步包括: 将参考基因组序列划分为多个预定长度的一级窗口, 并确定落入各一级窗口中的测序序列; 针对参考基因组序列上的至少一个位点, 确定落入所述位点两侧相同数目一级窗口中的测序序列数 目;
确定所述位点的 p值, 所述 p值表示两侧测序数据数目的显著差异性; 以及
如果所述位点的 p值小于终止 p值, 判断所述位点为突破点。
13、根据权利要求 12所述的方法, 其特征在于, 所述落入各一级窗口中的测序序列为唯一比对测序 序列。
14、 根据权利要求 12所述的方法, 其特征在于, 在所述位点两侧各取 100个一级窗口。
15、根据权利要求 12所述的方法,其特征在于,所述一级窗口的长度均为 100-200Kbp,优选 150Kbp。 16、 根据权利要求 12所述的方法, 其特征在于, 所述终止 p值为至多 1.1 Χ10-5<)
Π、 根据权利要求 12 所述的方法, 其特征在于, 确定所述位点两侧测序数据数目的显著差异性 ρ 值进一步包括:
针对所述位点, 在所述位点两侧各取相同数目的一级窗口, 并且计算每个一级窗口的相对测序序列 数目 Ri, 其中 i表示一级窗口的编号
对所有一级窗口的相对测序序列数目 进行游程检验, 以便确定所述位点的 p值,
其中,
所述相对测序序列数目是通过下列公式确定的: = log2 ―'
{ '' J
其中 η表示落入第 i一级窗口的测序序列数目, ― 1 » , n表示一级窗口的总数目。
18、根据权利要求 17所述的方法, 其特征在于, 对所有一级窗口的相对测序序列数目进行游程检验 进一步包括: 对每个一级窗口的相对测序序列数目. R(进行 GC含量校正, 以便获得校正的相对测序序列数目 R'; 基于所述校正的相对测序序列数目, 确定每个一级窗口的标准化的测序序列数目 ; 以及 对所有一级窗口的标准化的测序序列数目 进行游程检验。
19、 根据权利要求 18所述的方法, 其特征在于, 所述校正的相对测序序列数目 <sup>J</sup> ^是通过下列步骤获得的:
计算每个一级窗口的 GC含量;
将 GC含量以 0.001为单位划分为多个区域, 并且统计每个区域中相对测序序列数目的平均值 Ms, 其中 s为 GC区域的编号;
R. = R. - Ms - 根据下列公式确定所述校正的相对测序序列数目 Ri :
所述标准化的测序序列数目 是通过下列公式确定的
其中,
1 n 、
mean =—∑ l R - - R - I
SD = —— Y iR, - R; - mean )'
V » - 1 =i o
20、 根据权利要求 19所述的方法, 其特征在于, 基于所述多个突破点, 在所述参照基因组上确定检 验窗口进一步包括:
1 )确定多个候选突破点, 其中在所述候选突破点的前后均存在其他突破点;
16
替换页(细则笫 26条) 2 )确定每个候选突破点的 p值, 并剔除 p值最大的候选突破点;
3 )对剩余的候选突破点重复步骤 2 ), 直到剩余候选突破点的 p值均小于终止 p值, 所述剩余候选 突破点作为经过筛选的候选突破点; 以及
4 )确定相邻两个经过筛选的候选突破点之间的区域为检验窗口,
其中, 通过下列步骤确定所述候选突破点的 p值:
将所述候选突破点与相邻的上一个突破点之间的区域作为第一候选区域, 将所述候选突破点与相邻的 下一个突破点之间的区域作为第二候选区域;
对所述第一候选区域和第二候选区域中所包含一级窗口的标准化的测序序列数目 进行游程检验, 以便确定所述候选突破点的 p值,
任选地, 所述终止 p值是通过下列步骤确定的:
利用对照样品的测序结果, 重复在参照基因组上确定检验窗口的操作, 并记录每次被剔除候选突破 点的 p值, 直到候选突破点的数目为零; 以及
基于被剔除候选突破点的 p值分布, 确定所述终止 p值,
任选地, 所述终止 p值为 1.1X10—5Q
21、 根据权利要求 20所述的方法, 其特征在于, 基于落入所述检验窗口的测序序列, 确定第一参数 进一步包括:
确定所述检验窗口中所包含的所有一级窗口的平均标准化的测序序列数目 所述平均标准化的测 序序列数目 作为第一参数。
22、根据权利要求 1所述的方法, 其特征在于, 所述预定阈值采用 -1.645作为第一阈值和 1.645作为 第二阈值。
23、 根据权利要求 1所述的方法, 其特征在于, 所述参照基因组序列为选自人类 21号染色体、 18 号染色体、 13号染色体、 X染色体和 Y染色体的至少一种的序列。
24、 一种确定样本基因组中是否存在拷贝数变异的系统, 其特征在于, 包括:
测序装置, 所述测序装置用于对对所述样本基因组进行测序, 以便获得由多个测序序列构成的测序 结果;
分析装置, 所述分析装置与所述测序装置相连, 以便基于所述测序结果确定所述基因组中是否存在 拷贝数变异, 所述分析装置进一步包括:
比对单元, 所述比对单元适于将所述测序结果与参照基因组序列进行比对, 以便确定所述测序 序列在所述参照基因组序列上的分布;
突破点确定单元, 所述突破点确定单元与所述比对单元相连, 并且适于基于所述测序序列在参 照基因组序列上的分布, 在所述参照基因组序列上确定多个突破点, 所述突破点两侧的测序序列数 目存在显著差异;
检验窗口确定单元, 所述检验窗口确定单元与所述突破点确定单元相连, 并且适于基于所述多 个突破点, 在所述参照基因组上确定检验窗口;
参数确定单元, 所述参数确定单元与所述检验窗口确定单元相连, 并且适于基于落入所述检验 窗口的测序序列, 确定第一参数; 以及
判断单元, 所述判断单元与所述参数确定单元相连, 并且适于基于所述第一参数与预定阈值的 差异, 确定所述样本基因组, 针对所述检验窗口是否存在拷贝数变异。
25、 根据权利要求 24所述的系统, 其特征在于, 进一步包括基因组提取装置, 所述基因组提取装置 适于从生物样本中提取样本基因组。
26、 根据权利要求 24所述的系统, 其特征在于, 所述测序装置进一步包括:
基因组扩增单元, 所述基因组扩增单元适于对所述样本基因组进行扩增;
测序文库构建单元, 所述测序文库构建单元与所述基因组扩增单元相连, 并且适于利用所述经过扩 增的样本基因组构建测序文库; 以及 测序单元, 所述测序单元与所述测序文库构建单元相连, 并且适于对所述测序文库进行测序。 j7、根据权利要求 26所述的系统,其特征在于,所述测序单元为选自 Hiseq系统、 Miseq系统、 Genome Analyzer(GA)系统、 454 FLX、 SOLiD系统、 Ion Torrent系统和单分子测序装置的至少一种。
28、根据权利要求 24所述的系统, 其特征在于, 所述突破点确定单元进一步包括适于执行下列以确 定突破点的模块:
将参考基因组序列划分为多个预定长度的一级窗口, 并确定落入各一级窗口中的测序序列; 针对参考基因组序列上的至少一个位点, 确定落入所述位点两侧相同数目一级窗口中的测序序列数 目;
确定所述位点的 p值, 所述 p值表示两侧测序数据数目的显著差异性; 以及
如果所述位点的 p值小于终止 p值, 判断所述位点为突破点。
29、根据权利要求 28所述的系统, 其特征在于, 所述突破点确定单元进一步包括适于执行下列以确 定 p值的模块:
针对所述位点, 在所述位点两侧各取相同数目的一级窗口, 并且计算每个一级窗口的相对测序序列 数目 , 其中 ί表示一级窗口的编号
对所有一级窗口的相对测序序列数目 进行游程检验, 以便确定所述位点的 p值,
其中,
所述相对测序序列数目是通过公式确定的:
其 η表示落入第 i一级窗口的测序序列数 B,
n表示一级窗口的总数目。
30、根据权利要求 29所述的系统, 其特征在于, 所述突破点确定单元进一步包括适于执行下列以对 所有一级窗口的相对测序序列数目进行游程检验的模块: 对每个一级窗口的相对测序序列数目 Ri进行 GC含量校正, 以便获得校正的相对测序序列数目 Ri; 基于所述校正的相对测序序列数目, 确定每个一级窗口的标准化的测序序列数目 ¾; 以及 . 对所有一级窗口的标准化的测序序列数目 ¾进行游程检验。
31、 根据权利要求 30所述的系统, 其特征在于, 所述校正的相对测序序列数目 是通过适于执行下列步骤的模块获得的:
计算每个一级窗口的 GC含量;
将 GC含量以 0.001为单位划分为多个区域, 并且统计每个区域中相对测序序列数目的平均值 Ms, 其中 s为 GC区域的编号;
R = R -M - 根据公式下列公式确定所述校正的相对测序序列数目 .
所述标准化的测序序列数目 Zi是通过下列公式确定的
18
替换页 (细则第 26条)
其中,
32、 根据权利要求 31所述的系统, 其特征在于, 基于所述多个突破点, 检验窗口确定单元进一步包 括适于执行下列的模块:
1 )确定多个候选突破点, 其中在所述候选突破点的前后均存在其他突破点;
2 )确定每个候选突破点的 p值, 并剔除 p值最大的候选突破点;
3 )对剩余的候选突破点重复步骤 2 ), 直到剩余候选突破点的 p值均小于终止 p值, 所述剩余候选 突破点作为经过筛选的候选突破点; 以及
4 )确定相邻两个经过筛选的候选突破点之间的区域为检验窗口,
其中, 通过下列步骤确定所述候选突破点的 p值:
将所述候选突破点与相邻的上一个突破点之间的区域作为第一候选区域, 将所述候选突破点与相邻的 下一个突破点之间的区域作为第二候选区域;
对所述第一候选区域和第二候选区域中所包含一级窗口的标准化的测序序列数目 进行游程检验, 以便确定所述候选突破点的 p值,
任选地, 所述终止 p值是通过下列步骤确定的:
利用对照样品的测序结果, 重复在参照基因组上确定检验窗口的操作, 并记录每次被剔除候选突破 点的 p值, 直到候选突破点的数目为零; 以及
基于被剔除候选突破点的 p值分布, 确定所述终止 p值,
任选地, 所述终止 p值为 1.1X10-5G
• 33、 根据权利要求 32所述的系统, 其特征在于, 参数确定单元进一步包括适于执行下列的模块: 确定所述检验窗口中所包含的所有一级窗口的平均标准化的测序序列数目 ϊ , 所述平均标准化的测 序序列数目 作为第一参数。
34、 根据权利要求 24所述的系统, 其特征在于, 所述确定单元中存储有预定阙值, 所述预定阈值采 用 -1.645作为第一阈值和 1.645作为第二阁值。
35、根据权利要求 24所述的系统, 其特征在于, 所述比对单元内存储有参照基因组序列为已知的人 类基因组序列, 任选地, 所述参照基因组序列为选自人类 21号染色体、 18号染色体、 〗3号染色体、 X 染色体和 Y染色体的至少一种的序列。
36、 一种计算机可读介质, 其特征在于, 所述计算机可读介质上存储有指令, 所述指令适于被处理 器执行以便通过下列步骤确定样本基因组中是否存在拷贝数变异:
将测序结果与参照基因组序列进行比对, 以便确定所述测序序列在所述参照基因组序列上的分布, 其中所述测序结果是由通过对所述样本基因组进行测序所获得的多个测序序列构成的;
基于所述测序序列在参照基因组序列上的分布, 在所述参照基因组序列上确定多个突破点, 所述突 破点两侧的测序序列数目存在显著差异;
基于所述多个突破点, 在所述参照基因组上确定检验窗口;
基于落入所述检验窗口的测序序列, 确定第一参数; 以及
基于所述第一参数与预定罔值的差异, 确定所述样本基因组, 针对所述检验窗口是否存在拷贝数变 异。
37、根据权利要求 36所述的计算机可读介质, 其特征在于, 在所述参照基因组上确定突破点进一步 包括:
将参考基因组序列划分为多个预定长度的一级窗口, 并确定落入各一级窗口中的测序序列; 针对参考基因组序列上的至少一个位点, 确定落入所述位点两侧相同 '数目一级窗口中的测序序列数 目;
确定所述位点的 p值, 所述 p值表示两侧测序数据数目的显著差异性; 以及
如果所述位点的 p值小于终止 p值, 判断所述位点为突破点。
38、根据权利要求 37所述的计算机可读介质, 其特征在于, 所述落入各一级窗口中的测序序列为唯 一比对测序序列。
39、 根据权利要求 37所述的计算机可读介质, 其特征在于, 在所述位点两侧各取 100个一级窗口。 40、 根据权利要求 37所述的计算机可读介质, 其特征在于, 所述一级窗口的长度均为 100-200Kbp, 优选 150Kbp。
41、 根据权利要求 37所述的计算机可读介质, 其特征在于, 所述终止 p值为至多 1.1X10-5Q
42、根据权利要求 37所述的计算机可读介质, 其特征在于, 确定所述位点两侧测序数据数目的显著 差异性 p值进一步包括:
针对所述位点, 在所述位点两侧各取相同数目的一级窗口, 并且计算每个一级窗口的相对测序序列 数目 Ri, 其中 i表示一级窗口的编号
对所有一级窗口的相对测序序列数目 1¾进行游程检验, 以便确定所述位点的 p值,
其中,
所述相对测序序列数目是通过公式确定的:
其中 ri表^落入第 i一级窗口的测序序列数目,
_ 1 ^ , n表示一级窗口的总数目。
43、根据权利要求 42所述的计算机可读介质, 其特征在于, 在对所有一级窗口的相对测序序列数目 进行游程检验进一步包括: 对每个一级窗口的相对测序序列数目 进行 GC含量校正, 以便获得校正的相对测序序列数目 基于所述校正的相对测序序列数目, 确定每个一级窗口的标准化的测序序列数目 ¾; 以及 对所有一级窗口的标准化的测序序列数目 进行游程检验。
44、 根据权利要求 43所述的计算机可读介质, 其特征在于, 所述校正的相对测序序列数目 是通过下列步骤获得的:
计算每个一级窗口的 . GC含量;
将 GC含量以 0.001为单位划分为多个区域, 并且统计每个区域中相对测序序列数目的平均值 Ms, 其中 s为 GC区域的编号;
R = R - Ms , 根据公式下列公式确定所述校正的相对测序序列数目 ·
所述标准化的测序序列数目 ¾是通过下列公式确定的
替换页 则第 26条) 其中, mean 、 R
R
SD = —— Y ( R, - R,. - mean )'
V " o
45、根据权利要求 43所述的计算机可读介质, 其特征在于, 基于所述多个突破点, 在所述参照基因 组上确定检验窗口进一步包括:
1 )确定多个候选突破点, 其中在所述候选突破点的前后均存在其他突破点;
2 )确定每个候选突破点的 p值, 并剔除 p值最大的候选突破点;
3 )对剩余的候选突破点重复步骤 2 ), 直到剩余候选突破点的 p值均小于终止 p值, 所述剩余候选 突破点作为经过筛选的候选突破点; 以及
4 )确定相邻两个经过筛选的候选突破点之间的区域为检验窗口,
其中, 通过下列步骤确定所述候选突破点的 p值:
将所述候选突破点与相邻的上一个突破点之间的区域作为第一候选区域 , 将所述候选突破点与相邻的 下一个突破点之间的区域作为第二候选区域;
对所述第一候选区域和第二候选区域中所包含一级窗口的标准化的测序序列数目 进行游程检验, 以便确定所述候选突破点的 p值,
任选地, 所述终止 p值是通过下列步骤确定的:
利用对照样品的测序结果, 重复在参照基因组上确定检验窗口的操作, 并记录每次被剔除候选突破 点的 p值, 直到候选突破点的数 S为零; 以及
基于被剔除候选突破点的 p值分布, 确定所述终止 p值,
任选地, 所述终止 p值为 1.1Χ10-5°。
46、根据权利要求 45所述的计算机可读介质, 其特征在于, 基于落入所述检验窗口的测序序列, 确 定第一参数进一步包括:
确定所述检验窗口中所包含的所有一级窗口的平均标准化的测序序列数目 ϊ , 所述平均标准化的测 序序列数目 作为第一参数。 47、 根据权利要求 46所述的计算机可读介质, 其特征在于, 所述预定阈值采用 -1.645作为第一阈值 和 1.645作为第二阈值。
48、 根据权利要求 36所述的计算机可读介质, 其特征在于, 所述参照基因组序列为选自人类 21号 染色体、 18号染色体、 13号染色体、 X染色体和 Y染色体的至少一种的序列。
替换页(细 ¾第 26条)
CN201280067240.2A 2012-01-20 2012-01-20 确定样本基因组中是否存在拷贝数变异的方法、系统和计算机可读介质 Active CN105392894B (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CN2012/070680 WO2013107048A1 (zh) 2012-01-20 2012-01-20 确定样本基因组中是否存在拷贝数变异的方法、系统和计算机可读介质

Publications (2)

Publication Number Publication Date
CN105392894A true CN105392894A (zh) 2016-03-09
CN105392894B CN105392894B (zh) 2018-05-29

Family

ID=48798533

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201280067240.2A Active CN105392894B (zh) 2012-01-20 2012-01-20 确定样本基因组中是否存在拷贝数变异的方法、系统和计算机可读介质

Country Status (10)

Country Link
US (1) US20150012252A1 (zh)
EP (1) EP2826865B8 (zh)
JP (1) JP5938484B2 (zh)
KR (1) KR101770884B1 (zh)
CN (1) CN105392894B (zh)
AU (1) AU2012366077B2 (zh)
IL (1) IL233691B (zh)
RU (1) RU2593708C2 (zh)
SG (1) SG11201404079SA (zh)
WO (1) WO2013107048A1 (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108090325A (zh) * 2016-11-23 2018-05-29 中国科学院昆明动物研究所 一种应用β-稳定性分析单细胞测序数据的方法
CN109097457A (zh) * 2017-06-20 2018-12-28 深圳华大智造科技有限公司 确定核酸样本中预定位点突变类型的方法
WO2020047694A1 (zh) * 2018-09-03 2020-03-12 深圳华大智造科技有限公司 确定新发突变在胚胎中的遗传状态的方法和装置
CN111383717A (zh) * 2018-12-29 2020-07-07 北京安诺优达医学检验实验室有限公司 一种构建生物信息分析参照数据集的方法及系统
CN114999573A (zh) * 2022-04-14 2022-09-02 哈尔滨因极科技有限公司 一种基因组变异检测方法及检测系统
CN115579054A (zh) * 2022-11-17 2023-01-06 北京大学 单细胞拷贝数变异探测方法、装置、设备及介质
CN116453588A (zh) * 2023-04-12 2023-07-18 深圳华大基因股份有限公司 基于全基因组测序的strc基因拷贝数变异检测方法

Families Citing this family (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3204882B1 (en) 2014-10-10 2025-01-01 Life Technologies Corporation Methods, systems, and computer-readable media for calculating corrected amplicon coverages
WO2017161201A1 (en) * 2016-03-16 2017-09-21 Cynvenio Biosystems Inc. Cancer detection assay and related compositions, methods and systems
CN107590362B (zh) * 2017-08-21 2019-12-06 武汉菲沙基因信息有限公司 一种基于长读序测序判断重叠组装正误的方法
CN108251532B (zh) * 2018-03-29 2021-12-28 上海锐翌生物科技有限公司 基于ngs技术的粪便dna结直肠肿瘤多基因预测模型
CN108573125B (zh) * 2018-04-19 2022-05-13 上海亿康医学检验所有限公司 一种基因组拷贝数变异的检测方法及包含该方法的装置
CN111379032B (zh) * 2018-12-28 2024-07-23 北京贝瑞和康生物技术有限公司 一种用于构建同时实现基因组拷贝数变异检测和基因突变检测的测序文库的方法和试剂盒
CN111916150B (zh) * 2019-05-10 2024-09-06 北京贝瑞和康生物技术有限公司 一种基因组拷贝数变异的检测方法和装置
CN114502744B (zh) * 2019-12-11 2023-06-23 深圳华大基因股份有限公司 一种基于血液循环肿瘤dna的拷贝数变异检测方法和装置
CN111968701B (zh) * 2020-08-27 2022-10-04 北京吉因加科技有限公司 检测指定基因组区域体细胞拷贝数变异的方法和装置
CN112562787B (zh) * 2020-12-03 2021-09-07 江苏先声医学诊断有限公司 一种基于ngs平台的基因大片段重排检测方法
EP4397773A4 (en) * 2021-08-30 2025-09-10 Guangzhou Burning Rock Dx Co Ltd METHOD FOR DETECTING VARIATION IN COPY NUMBER AND ITS APPLICATION
CN114220481B (zh) * 2021-11-25 2023-09-08 深圳思勤医疗科技有限公司 基于全基因组测序完成待测样本的核型分析的方法、系统和计算机可读介质
CN114758720B (zh) * 2022-06-14 2022-09-02 北京贝瑞和康生物技术有限公司 用于检测拷贝数变异的方法、设备和介质
CN114792548B (zh) * 2022-06-14 2022-09-09 北京贝瑞和康生物技术有限公司 校正测序数据、检测拷贝数变异的方法、设备和介质
CN117995269A (zh) * 2022-12-30 2024-05-07 深圳市真迈生物科技有限公司 一种基因组拷贝数变异分析的方法、装置及存储介质
CN116240273B (zh) * 2023-04-19 2023-08-15 北京优迅医学检验实验室有限公司 一种基于低深度全基因组测序的判断母源污染比例的方法及其应用
CN116863998B (zh) * 2023-06-21 2024-04-05 扬州大学 一种基于遗传算法的全基因组预测方法及其应用
CN117275573A (zh) * 2023-10-24 2023-12-22 南京格致基因生物科技有限公司 一种基于软硬件协同计算染色体拷贝数的方法
CN117116344B (zh) * 2023-10-25 2024-07-19 北京大学第三医院(北京大学第三临床医学院) 一种单细胞水平pmp22重复变异的检测系统和方法
CN117935907B (zh) * 2024-01-31 2024-09-03 苏州贝康医疗器械有限公司 真假基因的拷贝数变异的检测方法和装置
CN119091954B (zh) * 2024-09-03 2025-05-30 浙江洛兮医学检验实验室有限公司 一种基于测序深度的拷贝数变异检测流程方法
CN120048341A (zh) * 2025-02-19 2025-05-27 西安交通大学 一种基于三代测序数据和泛基因组的结构变异检测算法、系统、设备及介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007129000A2 (en) * 2006-04-12 2007-11-15 Medical Research Council Method for determining copy number

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030082606A1 (en) * 2001-09-04 2003-05-01 Lebo Roger V. Optimizing genome-wide mutation analysis of chromosomes and genes
US7702468B2 (en) * 2006-05-03 2010-04-20 Population Diagnostics, Inc. Evaluating genetic disorders
LT2334812T (lt) * 2008-09-20 2017-04-25 The Board Of Trustees Of The Leland Stanford Junior University Neinvazinis fetalinės aneuploidijos diagnozavimas sekvenavimu
CN102858995B (zh) 2009-09-10 2016-10-26 森特瑞隆技术控股公司 靶向测序方法
US10662474B2 (en) * 2010-01-19 2020-05-26 Verinata Health, Inc. Identification of polymorphic sequences in mixtures of genomic DNA by whole genome sequencing
EP2591433A4 (en) * 2010-07-06 2017-05-17 Life Technologies Corporation Systems and methods to detect copy number variation
PL2772549T3 (pl) * 2011-12-31 2019-12-31 Bgi Genomics Co., Ltd. Sposób wykrywania zmienności genetycznej

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007129000A2 (en) * 2006-04-12 2007-11-15 Medical Research Council Method for determining copy number

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
SEUNGTAI YOON ET AL.: ""Sensitive and accurate detection of copy number variants using read depth of coverage"", 《GENOME RESEARCH》 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108090325A (zh) * 2016-11-23 2018-05-29 中国科学院昆明动物研究所 一种应用β-稳定性分析单细胞测序数据的方法
CN108090325B (zh) * 2016-11-23 2022-01-25 中国科学院昆明动物研究所 一种应用β-稳定性分析单细胞测序数据的方法
CN109097457A (zh) * 2017-06-20 2018-12-28 深圳华大智造科技有限公司 确定核酸样本中预定位点突变类型的方法
WO2020047694A1 (zh) * 2018-09-03 2020-03-12 深圳华大智造科技有限公司 确定新发突变在胚胎中的遗传状态的方法和装置
CN111383717A (zh) * 2018-12-29 2020-07-07 北京安诺优达医学检验实验室有限公司 一种构建生物信息分析参照数据集的方法及系统
CN114999573A (zh) * 2022-04-14 2022-09-02 哈尔滨因极科技有限公司 一种基因组变异检测方法及检测系统
CN115579054A (zh) * 2022-11-17 2023-01-06 北京大学 单细胞拷贝数变异探测方法、装置、设备及介质
CN115579054B (zh) * 2022-11-17 2023-06-02 北京大学 单细胞拷贝数变异探测方法、装置、设备及介质
CN116453588A (zh) * 2023-04-12 2023-07-18 深圳华大基因股份有限公司 基于全基因组测序的strc基因拷贝数变异检测方法

Also Published As

Publication number Publication date
WO2013107048A1 (zh) 2013-07-25
EP2826865B8 (en) 2017-08-16
EP2826865A1 (en) 2015-01-21
KR101770884B1 (ko) 2017-09-05
EP2826865B1 (en) 2017-06-21
IL233691B (en) 2019-01-31
RU2014134175A (ru) 2016-03-20
JP2015506684A (ja) 2015-03-05
AU2012366077A1 (en) 2014-08-07
CN105392894B (zh) 2018-05-29
RU2593708C2 (ru) 2016-08-10
AU2012366077B2 (en) 2016-01-21
JP5938484B2 (ja) 2016-06-22
US20150012252A1 (en) 2015-01-08
KR20140114442A (ko) 2014-09-26
IL233691A0 (en) 2014-09-30
HK1215454A1 (zh) 2016-08-26
EP2826865A4 (en) 2015-05-27
SG11201404079SA (en) 2014-10-30

Similar Documents

Publication Publication Date Title
CN105392894A (zh) 确定样本基因组中是否存在拷贝数变异的方法、系统和计算机可读介质
US20250122566A1 (en) Diagnosing fetal chromosomal aneuploidy using massively parallel genomic sequencing
US12060614B2 (en) Diagnosing fetal chromosomal aneuploidy using massively parallel genomic sequencing
KR102113896B1 (ko) 모체 혈장으로부터의 비침습적 산전 분자 핵형분석
CN104093858A (zh) 确定生物样本中染色体数目异常的方法、系统和计算机可读介质
Qu et al. The setup and application of reference material in sequencing-based noninvasive prenatal testing
WO2018219581A1 (en) Method and system for nucleic acid sequencing
AU2008278843B2 (en) Diagnosing fetal chromosomal aneuploidy using genomic sequencing
AU2013200581B2 (en) Diagnosing cancer using genomic sequencing
HK40030136A (zh) 利用基因组测序诊断癌症
HK1215454B (zh) 确定样本基因组中是否存在拷贝数变异的方法、系统和计算机可读介质
HK40007856B (zh) 基因测序技术诊断胎儿染色体异常
HK1177768B (zh) 利用基因组测序诊断胎儿染色体非整倍性
HK1177766A (zh) 利用基因组测序诊断癌症
HK1177766B (zh) 利用基因组测序诊断癌症

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: Yantian District of Shenzhen City, Guangdong province 518083 Hongan street No. 21 China Comprehensive Park 7 Building 7 layer -14 layer

Applicant after: BGI SHENZHEN CO LTD

Address before: Yantian District of Shenzhen City, Guangdong province 518083 North Road No. 146 North Industrial Zone 11, floor 3, 2

Applicant before: Shenzhen BGI Medicine Co., Ltd.

COR Change of bibliographic data
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 1215454

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant