CN111944806A

CN111944806A - 一种高通量测序污染检测用分子标签组及其应用

Info

Publication number: CN111944806A
Application number: CN202010751025.0A
Authority: CN
Inventors: 杨敬敏; 唐嘉婕; 林健; 朱学萍; 高鹏飞
Original assignee: Shanghai Wickham Biomedical Technology Co ltd
Current assignee: Shanghai Wickham Biomedical Technology Co ltd
Priority date: 2020-07-30
Filing date: 2020-07-30
Publication date: 2020-11-17

Abstract

本发明提供一种高通量测序污染检测用分子标签组，所述分子标签组中包括若干不同的分子标签；不同的分子标签长度不同；所述分子标签为核酸片段。利用本发明所述的分子标签组进行样本检测时，在样本预处理前，将适量拷贝的分子标签混入样本中，样本类型包括但不限于血液、唾液、血浆、DNA等。混入有分子标签的样本进行核酸提取、文库构建、多重PCR、杂交捕获等环节，最终通过特异性地扩增文库中包含的分子标签，并利用片段分析仪器检测扩增产物长度分布，快速简单地判断样本是否发生混淆或交叉污染并确定污染源。

Description

一种高通量测序污染检测用分子标签组及其应用

技术领域

本发明涉及生物信息学和生物技术领域，特别是涉及一种高通量测序污染检测用分子标签组及其应用。

背景技术

二代测序与一代测序、PCR等检测手段相比，检测周期相对较长，检测过程也更为复杂，一个检测周期包括样本预处理、核酸提取、文库构建、测序、数据分析等步骤。整个检测周期，从样本到数据，经历多个检测环节和多个检测人员，一旦发生了样本混淆、样本相互污染等情况，将产生错误的数据分析结果。因此，样本溯源和污染识别，是产生正确的二代测序结果的前提和保证。

二代测序中常用的样本溯源方法，是给不同样本加上不同的标签，得以在数据中识别并拆分。具体的说，二代测序在文库构建过程中，会在文库两端加上测序平台通用接头，以使得文库可以在测序平台上被测序。通用接头包含了一段用于在测序下机数据中识别区分样本的标签序列，同一次测序反应中，不同文库会加上不同的标签序列，使得数据分析人员得以在下机数据中，将不同样本文库的数据拆分开，单独进行后续分析。如果实验过程中，不同文库之间的标签序列发生了交叉污染，将导致数据拆分时，一个样本中错误地混入另一个样本的数据。如果无法识别这种交叉污染，也会得出错误的分析结果。

还有一种用于二代测序中样本溯源的方法，即选择一些SNP位点，用更简单快速的方法检测样本DNA中的这些SNP位点，与最终数据中这些SNP分型对比，以此判断样本是否属于同一来源。这种方法需要在常规的检测流程基础上增加一个额外的SNP检测，对人力物力时间成本的消耗也相应的增加。

还有一些实验室通过样本采集管多处注明、建立样本信息追踪单、设置实验评选重复以及不同处理条件下的标志物等方法来规避样本混淆，这些操作不仅复杂也不适用于临床检测。

发明内容

鉴于以上所述现有技术的缺点，本发明的目的在于提供一种高通量测序污染检测用分子标签组及其应用。

本发明第一方面提供一种高通量测序污染检测用分子标签组，所述分子标签组中包括若干不同的分子标签；不同的分子标签长度不同；所述分子标签为核酸片段。

本发明第二方面提供一种高通量测序污染的检测方法，所述方法至少包括如下步骤：在每个样本中引入选自前述的分子标签组中的一个或多个分子标签，其中，各样本引入的分子标签中，至少包括一个特有分子标签，所述特有分子标签是指与其他样本引入的分子标签均不同的分子标签。

本发明第三方面提供一种高通量测序污染的样本区分方法，所述方法至少包括如下步骤：在每个样本中引入选自前述的分子标签组中的一个或多个分子标签，其中，各样本引入的分子标签中，至少包括一个特有分子标签，所述特有分子标签是指与其他样本引入的分子标签均不同的分子标签。

本发明第三方面提供高通量测序污染检测用分子标签组，或前述的高通量测序污染的检测方法或前述高通量测序的样本区分方法在基因测序中的用途。

如上所述，本发明的一种高通量测序污染检测用分子标签组及其应用，具有以下有益效果：

利用本发明所述的分子标签组进行样本检测时，在样本预处理前，将适量拷贝的分子标签混入样本中，样本类型包括但不限于血液、唾液、血浆、DNA等。混入有分子标签的样本进行核酸提取、文库构建、多重PCR、杂交捕获等环节，最终通过特异性地扩增文库中包含的分子标签，并利用片段分析仪器检测扩增产物长度分布，快速简单地判断样本是否发生混淆或交叉污染并确定污染源；所述方法还可以用于样本的区分。

附图说明

图1：样本A扩增产物片段分析结果。

图2：样本B扩增产物片段分析结果。

图3：样本D扩增产物片段分析结果。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。

在进一步描述本发明具体实施方式之前，应理解，本发明的保护范围不局限于下述特定的具体实施方案；还应当理解，本发明实施例中使用的术语是为了描述特定的具体实施方案，而不是为了限制本发明的保护范围；在本发明说明书和权利要求书中，除非文中另外明确指出，单数形式“一个”、“一”和“这个”包括复数形式。

当实施例给出数值范围时，应理解，除非本发明另有说明，每个数值范围的两个端点以及两个端点之间任何一个数值均可选用。除非另外定义，本发明中使用的所有技术和科学术语与本技术领域技术人员通常理解的意义相同。除实施例中使用的具体方法、设备、材料外，如本技术领域的技术人员对现有技术的掌握及本发明的记载，还可以使用与本发明实施例中所述的方法、设备、材料相似或等同的现有技术的任何方法、设备和材料来实现本发明。

除非另外说明，本发明中所公开的实验方法、检测方法、制备方法均采用本技术领域常规的分子生物学、生物化学、染色质结构和分析、分析化学、细胞培养、重组DNA技术及相关领域的常规技术。

本发明一实施例的高通量测序污染检测用分子标签组，所述分子标签组中包括若干不同的分子标签；不同的分子标签长度不同；所述分子标签为核酸片段。

所述分子标签组包括两个以上长度不同的分子标签。所述分子标签组内的分子标签数量可灵活运用。例如可以为3个以上，4个以上，5个以上，6个以上，7个以上，10个以上，15个以上，17个以上，等等。有几个分子标签，就可以同时检测几个样本有无相互污染。

分子标签的上限可不受限制。数量少的话，可用的组合就少；数量多的话，前期分子标签制备就会工作量大。

进一步的，一个样本对应的分子标签组中，至少有一个分子标签的长度与待检测的其他样本的分子标签的长度不同。

进一步的，所述分子标签的序列与样本同源性低。优选的，所述同源性低于90％。

所述同源性采用序列比对的方法获得。具体的，使用NCBI数据库的核酸比对(Nucleotide BLAST)功能，将分子标签序列与检测样本物种基因组进行比对，比对结果中的Per.Ident即代表分子标签序列与样本物种基因组序列某一段区域的同源比例。

可选的，所述分子标签与样本不同源；防止对样本结果造成干扰。

进一步的，所述分子标签包括相同段和长度特异性段，所述相同段的长度相同，碱基排列顺序相同。

长度特异性段是指该段序列的长度不同。

所述分子标签可来源于不同的分子标签源。所述分子标签可以通过基因合成，分子克隆或PCR扩增等手段制备。

在一种实施方式中，所述分子标签组中各分子标签可均来源于同一分子标签源片段。方便进行扩增。

所述分子标签源片段可来自病毒基因组序列。

在一种实施方式中，所述分子标签源片段来源于病毒phix174的基因组序列。优选的，所述分子标签源片段的序列如SEQ ID NO：18所示。

在一种实施方式中，所述分子标签序列选自以下SEQ ID NO：1～17中的一个或多个。

进一步的，所述分子标签长度为100bp-20kb。

在一种实施方式中，测序样本为片段化DNA时，所述分子标签为短片段分子标签，所述短片段分子标签的长度为100-300bp；测序样本为gDNA时，所述分子标签为长片段分子标签，所述长片段分子标签的长度为1kb～20kb。

所述长片段分子标签可以通过短片段分子标签插入载体中获得。所述载体可以为质粒载体。例如pESI-T载体、BlueScribe载体、pBluescript载体、pGEM载体、pUC19载体等常规分子克隆载体。

长片段分子的标签的优势在于，在提取基因组DNA的过程中分子标签不易损失。一般的基因组DNA提取试剂盒采用磁珠法或柱离心法，通过磁珠或硅胶膜等载体吸附基因组DNA，这种吸附通常具有选择性，倾向于吸附1kb以上的DNA片段，丢失掉大部分1kb以下的小片段。若使用短片段分子标签，提取到的DNA中，分子标签的回收率非常低，该DNA构建的文库中也有可能难以扩增富集到相应的分子标签。对于血浆游离DNA，其本身片段较短(160bp左右)，提取游离DNA的试剂盒中核酸吸附载体倾向于吸附小片段核酸，因此，对于血浆样本，使用短片段分子标签即可。

本发明一实施例的高通量测序污染的检测方法，至少包括如下步骤：在每个样本中引入选自前述的分子标签组中的一个或多个分子标签，其中，各样本引入的分子标签中，至少包括一个特有分子标签，所述特有分子标签是指与其他样本引入的分子标签均不同的分子标签。

在一种实施方式中，所述方法至少包括如下步骤：

(1)在每个样本中引入选自前述的分子标签组的分子标签；

(2)获取每个样本中的核酸片段，将核酸片段和接头进行连接，进行基因文库构建；

(3)利用分子标签的通用引物扩增步骤(2)获得的产物；

(4)分析步骤(3)获得的扩增产物的片段长度，若样本m中出现n样本的特有分子标签的长度峰，则m样本被n样本污染；若m样本中没有其他样本特有分子标签的长度峰出现，则m样本没有被污染。

所述分子标签的通用引物是指与分子标签的相同段互补的引物，可以对所有的分子标签进行扩增富集，得到分子标签。

在一种实施方式中，所述方法还包括以下步骤：

(21)将步骤(2)中获得的基因文库，与杂交探针进行杂交捕获，获得捕获文库；所述杂交探针包括分子标签特异性探针和样本探针。

所述分子标签特异性探针用于特异性捕获一个样本中所有分子标签。

进一步的，所述分子标签特异性探针为一个样本中所有分子标签相同段中的一部分。可以同时捕获一个样本中所有分子标签。

所述样本探针序列根据样本的不同及实验目的的不同进行选择。杂交捕获方法是为了捕获样本基因组文库中的目标区域，样本探针指的就是捕获样本目标区域的探针。目标区域是根据整个实验检测的目的而定的，比如要检测遗传病，样本探针就覆盖遗传病相关基因区域。

本发明还可以提供一种高通量测序的样本区分方法，所述方法至少包括如下步骤：在每个样本中引入选自前述的分子标签组中的一个或多个分子标签，其中，各样本引入的分子标签中，至少包括一个特有分子标签，所述特有分子标签是指与其他样本引入的分子标签均不同的分子标签。

所述方法至少包括如下步骤：

(1)在每个样本中引入选自权利要求1-7中任一项所述的分子标签组的分子标签；

(3)利用分子标签的通用引物扩增步骤(2)获得的产物；

(4)分析步骤(3)获得的扩增产物的片段长度，根据样本中特有分子标签对样本进行区分。

由于各个样本中添加的分子标签组已知、不同且特异性对应，例如样本m与分子标签组M对应，样本n与分子标签组N对应，样本p与分子标签组P对应。分析步骤(3)获得的扩增产物的片段长度时，若一个样本中只出现分子标签组M的长度峰，则可知该样本为样本m；若一个样本中只出现分子标签组n的长度峰，则可知该样本为样本N；若一个样本中只出现分子标签组p的长度峰，则可知该样本为样本P。

在一种实施方式中，所述方法还包括以下步骤：

前述的高通量测序污染检测用分子标签组，或前述高通量测序污染的检测方法或高通量测序的样本区分方法可用于基因测序。

实施例1分子标签制备

本发明选择了病毒phix174的基因组序列作为分子标签来源，将phix174的SEQ IDNO：18所示的序列作为分子标签源，扩增得到短片段分子标签，可用于片段化DNA样本质控。将短片段分子标签连接到质粒载体上，得到长片段分子标签，可用于基因组DNA样本质控。

具体的，SEQ ID NO：18：

TCCATGCGGTGCACTTTATGCGGACACTTCCTACAGGTAGCGTTGACCCTAATTTTGGTCGTCGGGTACGCAATCGCCGCCAGTTAAATAGCTTGCAAAATACGTGGCCTTATGGTTACAGTATGCCCATCGCAGTTCGCTACACGCAGGACGCTTTTTCACGTTCTGGTTGGTTGTGGC。

同时，针对分子标签源片段设计了扩增引物，扩增引物length-primer-F序列为GAGTTTTATCGCTXXXXXXXXXXXXXXXX，其中XXXXXXXXXXXXXXXX为分子标签长度特异性序列，此序列通过结合于phix174基因组上不同位置扩增出不同长度的序列，扩增引物length-primer-R序列为AAGCGGCTCACCTTTAGCATCAACAG

(SEQ ID NO：19)。扩增分子标签具体引物如下：(这里仅列出17个分子标签的扩增引物，实际应用中可以不止17条)

使用以上引物对phix174基因组DNA(NEB,CAT#N3021)进行扩增，扩增体系如下：

试剂	体积(μL)
		2×Taq Master Mix(Vazyme)	25
引物	1
		phix174gDNA	1
Nuclease free water	23
		总体积	50

扩增程序如下：

得到的扩增产物即短片段分子标签序列如下表1所示：

表1

使用零背景TOPO-TA克隆试剂盒(翊圣生物，10908ES20)，根据产品说明书中的操作步骤，将扩增产物连接至载体pESI-T(该载体为上述克隆试剂盒内包含)上，获得长度约为2kb的长片段分子标签。

实施例2在全血样本中混入短片段分子标签

分别在全血样本A和B中混入表1分子标签组的短片段分子标签，其中，在10ml全血样本A中混入length-2、length-3、length-5和length-6这几个短片段分子标签，每个短片段分子标签混入10⁸个拷贝，10ml全血样本B中混入length-1、length-2、length-4和length-6这几个短片段分子标签，每个短片段分子标签混入10⁸个拷贝。将两个全血样本分别进行梯度离心，分离出4-5mL血浆，并提取血浆中的cfDNA。分别对两个全血样本中的cfDNA进行基因文库构建和杂交捕获。过程如下：

2.1末端修复和加A

2.1.1反应体系如下：

试剂名称	体积(μL)
		cfDNA	20
Nuclease-free water	12
		End repair&A buffer	15
End repair&A Enzyme	3
		总体积	50

2.1.2将反应体系置于PCR仪上，运行如下程序：

2.2连接接头

2.2.1连接体系如下：

试剂名称	体积(μL)
		Ligate buffer	20
Ligase Enzyme	5
		Nuclease-free water	13
接头	2
		末端修复加A产物	50
总体积	90

2.2.2连接接头反应程序如下：

反应温度	反应时间
		4℃	Hold
22℃	60min
		4℃	Hold

2.3片段筛选

向步骤2.2.2获得的产物中加入100μL磁珠，混匀；室温静置5min后，置于磁力架上，待溶液澄清，吸弃全部上清。用75％乙醇清洗磁珠两次。然后用100μL Nuclease-freewater悬浮磁珠，室温静置2min后，加入100μL PEG/NaCl溶液至上清液中，混匀，室温静置5min。再次置于磁力架上，待溶液澄清，吸弃全部上清。用75％乙醇清洗磁珠两次。加入23μLNuclease-free water，吹打混匀，室温静置2min，获得片段筛选产物。

2.4进行扩增，构建基因文库

2.4.1扩增程序如下：

2.4.2扩增体系如下：

试剂名称	体积(μL)
		2X KAPA HiFi Hot Start PCR Ready mix	25
接头引物	2
		片段筛选产物	23
总体积	50

扩增体系置于PCR上，运行程序，分别获得样本A和B的基因文库。

2.5基因文库纯化

向样本A和B的基因文库中分别加入50μL磁珠，混匀；室温静置5min后，置于磁力架上，待溶液澄清，吸弃全部上清。用75％乙醇清洗磁珠两次。然后用30μLNuclease-freewater悬浮磁珠，室温静置2min后，将上清吸取至新的1.5mL离心管内。

2.6杂交

2.6.1将分子标签特异性探针与原本杂交捕获的探针(分别用于捕获样本A和样本B的探针)混合，获得捕获探针组；每条探针每个杂交反应加入2fmol，所述分子标签特异性探针序列为：GTAGCGTTGACCCTAATTTTGGTCGTCGGGTACGCAATCGCCGCCAGTTAAATAGCTTGC AAAATACGTGGCCTTATGGTTACAGTATGCCCATCGCAGT(SEQ ID NO：37)。

2.6.2将样本A和B的两个基因文库分别加入4μL 2.61中的捕获探针组、8μLUniversal Blockers和5μL Blocker solution，混匀并浓缩至完全干燥，用20μL FastHybridization mix将其溶解，再加入30μL Hybridization Enhancer。于PCR仪上运行如下程序，杂交时间为16h。

温度	时间
		95℃	∞
95℃	5min
		60℃	∞

2.7捕获

2.7.1将100μL链霉亲和素磁珠用200μL Fast binding buffer清洗3次，再加入200μL Fast binding buffer悬浮磁珠。

2.7.2杂交结束后，将杂交体系快速转移到链霉亲和素磁珠管内，混匀后室温孵育30min后，离心后置于磁力架上静置1min，待溶液澄清后，吸弃上清。

2.7.3用200μL已预热至70℃的Fast Wash Buffer 1清洗两次后，用200μL 48℃预热的Wash buffer 2悬浮磁珠，48℃孵育5min后，置于磁力架上静置1min，待溶液澄清后，吸弃上清。

2.7.4重复上一步两次，然后完全除去残留上清，加入22.5μL Nuclease-freewater，混匀，转移至0.2mL PCR管中，获得捕获产物。

2.8进行扩增,获得样本A和样本B的捕获文库

扩增程序如下：

扩增体系如下：

试剂名称	体积(μL)
		KAPA HiFi HotStart ReadyMix	25
接头引物	2.5
		捕获产物	22.5
总体积	50

2.9文库纯化

向步骤2.8获得的捕获文库中加入90μL磁珠，混匀；室温静置5min后，置于磁力架上，待溶液澄清，吸弃全部上清。用75％乙醇清洗磁珠两次。然后用30μL Nuclease-freewater悬浮磁珠，室温静置2min后，将上清吸取至新的1.5mL离心管内，获得纯化后的捕获文库。

2.10分子标签通用引物扩增捕获文库

2.10.1用分子标签通用引物分别扩增样本A和B纯化后的捕获文库，通用引物F序列为ACACGACGCTCTTCCGATCTGAGTTTTATCGCT(SEQ ID NO：38)，R序列为CCTTGGCACCCGAGAATTCCAAAGCGGCTCACCTTTA(SEQ ID NO：39)。

2.10.2扩增体系为：

2.10.3扩增程序为：

2.11扩增产物用片段分析仪Qsep100进行片段分析

将步骤2.10获得的样本A和样本B文库扩增产物用片段分析仪Qsep100进行片段分析，片段分析结果如图1和图2所示。其中，样本A混入的短片段分子标签分别为length-2、length-3、length-5和length-6，理论上通用引物扩增后得到产物长度应为188bp、192bp、200bp和204bp，实际扩增产物qsep检测长度为188bp、192bp、199bph和203bp。样本B混入的分子标签分别为length-1、length-2、length-4和length-6，理论上通用引物扩增后得到产物长度应为184bp、188bp、196bp和204bp，实际扩增产物qsep检测长度为185bp、188bp、196bp和204bp。两个样本最初加入的分子标签长度，与所得文库扩增产物的片段分布是一一对应的，并且没有其他样本对应短片段分子标签长度的峰出现。可判断两个样本没有发生混淆或交叉污染。

实施例3在全血样本中混入长片段分子标签

分别在全血样本C和D中混入根据表1的短片段分子标签制得的长片段分子标签，其中，在2mL全血样本C中混入的分子标签包括length-7、length-9和length-13这几个短片段分子标签对应的长片段分子标签，每个长片段分子标签混入10⁸个拷贝，在2mL全血样本D中混入包括length-9、length-13和length-17这几个短片段分子标签对应的长片段分子标签，每个长片段分子标签混入10⁸个拷贝。从C样本中取200μL混入D样本中，人为制造样本污染。将样本D进行基因组DNA提取，并构建样本D的基因组文库。构建过程如下：

3.1片段化、末端修复和加A

取100ng D样本的基因组DNA，补Nuclease-free water至50μL，加入10μLSmearase Mix，混匀后置于冰上。PCR仪设置如下程序：

温度	时间
		4℃	1min
30℃	20min
		72℃	20min
4℃	∞

待程序运行开始运行4℃时，将反应体系放入PCR仪。

3.2连接接头，获得连接产物

3.2.1根据下表配制连接体系：

试剂名称	体积(μL)
		5x Fast-Pace Ligation Buffer	20
Fast-Pace T4 DNA Ligase	5
		接头	1.5
Nuclease-free water	13.5
		步骤3.1产物	60
总体积	100

3.2.2设置如下PCR程序并运行：

温度	时间
		20℃	15min
4℃	∞

3.3片段筛选

向步骤3.2获得的连接产物中加入100μL磁珠，混匀；室温静置5min后，置于磁力架上，待溶液澄清，吸弃全部上清。用75％乙醇清洗磁珠两次。然后用100μL Nuclease-freewater悬浮磁珠，室温静置2min后，加入65μL磁珠上清液，混匀，室温静置5min；再置于磁力架上，待溶液澄清，吸取160μL上清至新的离心管，加入20μL磁珠至上清液中，混匀，室温静置5min；置于磁力架上，待溶液澄清，吸弃全部上清。用75％乙醇清洗磁珠两次。加入24μLNuclease-free water，吹打混匀，室温静置2min。

3.4进行扩增，构建样本D的基因组文库

反应体系如下：

溶液	体积(μL)
		2X KAPA HiFi Hot Start PCR Ready mix	25
DNA	24
		接头引物	1
Total	50

扩增程序如下：

3.5基因组文库纯化

向扩增产物即样本D的基因组文库中加入50μL磁珠，混匀；室温静置5min后，置于磁力架上，待溶液澄清，吸弃全部上清。用75％乙醇清洗磁珠两次。然后用30μL Nuclease-free water悬浮磁珠，室温静置2min后，将上清吸取至新的1.5mL离心管内。

3.6通用引物扩增样本D的基因组文库

3.6.1用分子标签通用引物扩增样本D的基因组文库，通用引物F序列为ACACGACGCTCTTCCGATCTGAGTTTTATCGCT(SEQ ID NO：38)，R序列为CCTTGGCACCCGAGAATTCCAAAGCGGCTCACCTTTA(SEQ ID NO：39)。

3.6.2扩增体系为：

试剂	体积/μL
		2×Taq Master Mix(Vazyme)	25
通用引物	1
		样本D的基因组文库	1
Nuclease free water	23
		总体积	50

3.6.3扩增程序为：

3.7扩增产物用片段分析仪Qsep100进行片段分析

将步骤3.6获得的样本D的基因组文库扩增产物用片段分析仪Qsep100进行片段分析，片段分析结果如图3所示，样本C混入的长片段分子标签对应的短片段分子标签分别为length-7、length-9和length-13，理论上通用引物扩增后得到产物长度应为208bp、216bp和232bp；样本D混入的长片段分子标签对应的短片段分子标签分别为length-9、length-13和length-17，理论上通用引物扩增后得到产物长度应为216bp、232bp和248bp。样本D被样本C污染，分子标签扩增产物中应有样本C对应的分子标签长度的峰。样本D实际扩增产物qsep检测长度为209bp、215bp、230bp和247bp，其中长度为209bp的峰来自于样本C中的分子标签，由此可判断样本D样本被C样本污染。

以上的实施例是为了说明本发明公开的实施方案，并不能理解为对本发明的限制。此外，本文所列出的各种修改以及发明中方法、组合物的变化，在不脱离本发明的范围和精神的前提下对本领域内的技术人员来说是显而易见的。虽然已结合本发明的多种具体优选实施例对本发明进行了具体的描述，但应当理解，本发明不应仅限于这些具体实施例。事实上，各种如上所述的对本领域内的技术人员来说显而易见的修改来获取发明都应包括在本发明的范围内。

序列表

<110> 上海韦翰斯生物医药科技有限公司

<120> 一种高通量测序污染检测用分子标签组及其应用

<160> 39

<170> SIPOSequenceListing 1.0

<210> 1

<211> 143

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 1

gagttttatc gctacaggta gcgttgaccc taattttggt cgtcgggtac gcaatcgccg 60

ccagttaaat agcttgcaaa atacgtggcc ttatggttac agtatgccca tcgcagtctg 120

ttgatgctaa aggtgagccg ctt 143

<210> 2

<211> 147

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 2

gagttttatc gcttcctaca ggtagcgttg accctaattt tggtcgtcgg gtacgcaatc 60

gccgccagtt aaatagcttg caaaatacgt ggccttatgg ttacagtatg cccatcgcag 120

tctgttgatg ctaaaggtga gccgctt 147

<210> 3

<211> 151

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 3

gagttttatc gctcacttcc tacaggtagc gttgacccta attttggtcg tcgggtacgc 60

aatcgccgcc agttaaatag cttgcaaaat acgtggcctt atggttacag tatgcccatc 120

gcagtctgtt gatgctaaag gtgagccgct t 151

<210> 4

<211> 155

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 4

gagttttatc gctcggacac ttcctacagg tagcgttgac cctaattttg gtcgtcgggt 60

acgcaatcgc cgccagttaa atagcttgca aaatacgtgg ccttatggtt acagtatgcc 120

catcgcagtc tgttgatgct aaaggtgagc cgctt 155

<210> 5

<211> 159

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 5

gagttttatc gcttatgcgg acacttccta caggtagcgt tgaccctaat tttggtcgtc 60

gggtacgcaa tcgccgccag ttaaatagct tgcaaaatac gtggccttat ggttacagta 120

tgcccatcgc agtctgttga tgctaaaggt gagccgctt 159

<210> 6

<211> 163

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 6

gagttttatc gctactttat gcggacactt cctacaggta gcgttgaccc taattttggt 60

cgtcgggtac gcaatcgccg ccagttaaat agcttgcaaa atacgtggcc ttatggttac 120

agtatgccca tcgcagtctg ttgatgctaa aggtgagccg ctt 163

<210> 7

<211> 167

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 7

gagttttatc gctgtgcact ttatgcggac acttcctaca ggtagcgttg accctaattt 60

tggtcgtcgg gtacgcaatc gccgccagtt aaatagcttg caaaatacgt ggccttatgg 120

ttacagtatg cccatcgcag tctgttgatg ctaaaggtga gccgctt 167

<210> 8

<211> 171

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 8

gagttttatc gcttgcggtg cactttatgc ggacacttcc tacaggtagc gttgacccta 60

attttggtcg tcgggtacgc aatcgccgcc agttaaatag cttgcaaaat acgtggcctt 120

atggttacag tatgcccatc gcagtctgtt gatgctaaag gtgagccgct t 171

<210> 9

<211> 175

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 9

gagttttatc gcttccatgc ggtgcacttt atgcggacac ttcctacagg tagcgttgac 60

cctaattttg gtcgtcgggt acgcaatcgc cgccagttaa atagcttgca aaatacgtgg 120

ccttatggtt acagtatgcc catcgcagtc tgttgatgct aaaggtgagc cgctt 175

<210> 10

<211> 179

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 10

gagttttatc gctcatttcc atgcggtgca ctttatgcgg acacttccta caggtagcgt 60

tgaccctaat tttggtcgtc gggtacgcaa tcgccgccag ttaaatagct tgcaaaatac 120

gtggccttat ggttacagta tgcccatcgc agtctgttga tgctaaaggt gagccgctt 179

<210> 11

<211> 183

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 11

gagttttatc gcttcttcat ttccatgcgg tgcactttat gcggacactt cctacaggta 60

gcgttgaccc taattttggt cgtcgggtac gcaatcgccg ccagttaaat agcttgcaaa 120

atacgtggcc ttatggttac agtatgccca tcgcagtctg ttgatgctaa aggtgagccg 180

ctt 183

<210> 12

<211> 187

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 12

gagttttatc gctgccgtct tcatttccat gcggtgcact ttatgcggac acttcctaca 60

ggtagcgttg accctaattt tggtcgtcgg gtacgcaatc gccgccagtt aaatagcttg 120

caaaatacgt ggccttatgg ttacagtatg cccatcgcag tctgttgatg ctaaaggtga 180

gccgctt 187

<210> 13

<211> 191

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 13

gagttttatc gctaatggcc gtcttcattt ccatgcggtg cactttatgc ggacacttcc 60

tacaggtagc gttgacccta attttggtcg tcgggtacgc aatcgccgcc agttaaatag 120

cttgcaaaat acgtggcctt atggttacag tatgcccatc gcagtctgtt gatgctaaag 180

gtgagccgct t 191

<210> 14

<211> 195

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 14

gagttttatc gctagctaat ggccgtcttc atttccatgc ggtgcacttt atgcggacac 60

ttcctacagg tagcgttgac cctaattttg gtcgtcgggt acgcaatcgc cgccagttaa 120

atagcttgca aaatacgtgg ccttatggtt acagtatgcc catcgcagtc tgttgatgct 180

aaaggtgagc cgctt 195

<210> 15

<211> 199

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 15

gagttttatc gctgtacagc taatggccgt cttcatttcc atgcggtgca ctttatgcgg 60

acacttccta caggtagcgt tgaccctaat tttggtcgtc gggtacgcaa tcgccgccag 120

ttaaatagct tgcaaaatac gtggccttat ggttacagta tgcccatcgc agtctgttga 180

tgctaaaggt gagccgctt 199

<210> 16

<211> 203

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 16

gagttttatc gcttatggta cagctaatgg ccgtcttcat ttccatgcgg tgcactttat 60

gcggacactt cctacaggta gcgttgaccc taattttggt cgtcgggtac gcaatcgccg 120

ccagttaaat agcttgcaaa atacgtggcc ttatggttac agtatgccca tcgcagtctg 180

ttgatgctaa aggtgagccg ctt 203

<210> 17

<211> 207

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 17

gagttttatc gcttgagtat ggtacagcta atggccgtct tcatttccat gcggtgcact 60

ttatgcggac acttcctaca ggtagcgttg accctaattt tggtcgtcgg gtacgcaatc 120

gccgccagtt aaatagcttg caaaatacgt ggccttatgg ttacagtatg cccatcgcag 180

tctgttgatg ctaaaggtga gccgctt 207

<210> 18

<211> 180

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 18

tccatgcggt gcactttatg cggacacttc ctacaggtag cgttgaccct aattttggtc 60

gtcgggtacg caatcgccgc cagttaaata gcttgcaaaa tacgtggcct tatggttaca 120

gtatgcccat cgcagttcgc tacacgcagg acgctttttc acgttctggt tggttgtggc 180

<210> 19

<211> 26

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 19

aagcggctca cctttagcat caacag 26

<210> 20

<211> 29

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 20

gagttttatc gctgtagcgt tgaccctaa 29

<210> 21

<211> 29

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 21

gagttttatc gctacaggta gcgttgacc 29

<210> 22

<211> 29

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 22

gagttttatc gcttcctaca ggtagcgtt 29

<210> 23

<211> 29

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 23

gagttttatc gctcacttcc tacaggtag 29

<210> 24

<211> 29

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 24

gagttttatc gctcggacac ttcctacag 29

<210> 25

<211> 29

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 25

gagttttatc gcttatgcgg acacttcct 29

<210> 26

<211> 29

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 26

gagttttatc gctactttat gcggacact 29

<210> 27

<211> 29

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 27

gagttttatc gctgtgcact ttatgcgga 29

<210> 28

<211> 29

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 28

gagttttatc gcttgcggtg cactttatg 29

<210> 29

<211> 29

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 29

gagttttatc gcttccatgc ggtgcactt 29

<210> 30

<211> 29

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 30

gagttttatc gcttcttcat ttccatgcg 29

<210> 31

<211> 29

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 31

gagttttatc gctgccgtct tcatttcca 29

<210> 32

<211> 29

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 32

gagttttatc gctaatggcc gtcttcatt 29

<210> 33

<211> 29

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 33

gagttttatc gctagctaat ggccgtctt 29

<210> 34

<211> 29

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 34

gagttttatc gctgtacagc taatggccg 29

<210> 35

<211> 29

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 35

gagttttatc gcttatggta cagctaatg 29

<210> 36

<211> 29

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 36

gagttttatc gcttgagtat ggtacagct 29

<210> 37

<211> 100

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 37

gtagcgttga ccctaatttt ggtcgtcggg tacgcaatcg ccgccagtta aatagcttgc 60

aaaatacgtg gccttatggt tacagtatgc ccatcgcagt 100

<210> 38

<211> 33

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 38

acacgacgct cttccgatct gagttttatc gct 33

<210> 39

<211> 37

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 39

ccttggcacc cgagaattcc aaagcggctc accttta 37

Claims

1.一种高通量测序污染检测用分子标签组，其特征在于，

所述分子标签组中包括若干不同的分子标签；不同的分子标签长度不同；所述分子标签为核酸片段。

2.如权利要求1所述的高通量测序污染检测用分子标签组，其特征在于，还包括以下特征中的一项或多项：

1)所述分子标签的序列与样本的同源性低；优选的，同源性低于90％；

2)所述分子标签包括相同段和长度特异性段，所述相同段的长度相同，碱基排列顺序相同；

3)所述分子标签组中各分子标签均来源于同一分子标签源片段。

3.如权利要求2所述的高通量测序污染检测用分子标签组，其特征在于，还包括以下特征中的一项或多项：

1)所述分子标签组包括两个以上长度不同的分子标签；

2)所述分子标签源片段来自病毒基因组序列。

4.如权利要求3所述的高通量测序污染检测用分子标签组，其特征在于，所述分子标签源片段来源于病毒phix174的基因组序列，优选的，所述分子标签源片段的序列如SEQ IDNO：18所示。

5.如权利要求4所述的高通量测序污染检测用分子标签组，其特征在于，所述分子标签组中的分子标签序列选自SEQ ID NO：1～17中的一个或多个。

6.如权利要求1所述的高通量测序污染检测用分子标签组，其特征在于，所述分子标签长度为100bp-20kb。

7.如权利要求6所述的高通量测序污染检测用分子标签组，其特征在于，测序样本为片段化DNA时，所述分子标签为短片段分子标签，所述短片段分子标签的长度为100-300bp；测序样本为gDNA时，所述分子标签为长片段分子标签，所述长片段分子标签的长度为1kb～20kb。

8.一种高通量测序污染的检测方法，其特征在于，所述方法至少包括如下步骤：在每个样本中引入选自权利要求1-7中任一项所述的分子标签组中的一个或多个分子标签，其中，各样本引入的分子标签中，至少包括一个特有分子标签，所述特有分子标签是指与其他样本引入的分子标签均不同的分子标签。

9.如权利要求8所述的高通量测序污染的检测方法，其特征在于，所述方法至少包括如下步骤：

(3)利用分子标签的通用引物扩增步骤(2)获得的产物；

10.如权利要求9所述的高通量测序污染的检测方法，其特征在于，所述方法还包括以下步骤：

11.一种高通量测序的样本区分方法，所述方法至少包括如下步骤：在每个样本中引入选自权利要求1-7中任一项所述的分子标签组中的一个或多个分子标签，其中，各样本引入的分子标签中，至少包括一个特有分子标签，所述特有分子标签是指与其他样本引入的分子标签均不同的分子标签。

12.如权利要求11所述的高通量测序的样本区分方法，其特征在于，所述方法至少包括如下步骤：

(3)利用分子标签的通用引物扩增步骤(2)获得的产物；

13.如权利要求1-7任一所述的高通量测序污染检测用分子标签组，或权利要求8-10任一所述的高通量测序污染的检测方法或权利要求11-12任一所述的高通量测序的样本区分方法在基因测序中的用途。