CN101415839B

CN101415839B - 对多核苷酸模板进行测序的方法

Info

Publication number: CN101415839B
Application number: CN2007800102959A
Authority: CN
Inventors: 埃里克·汉斯·韦尔马斯; 格拉哈姆·约翰·沃斯利; 乔纳森·马克·布特尔; 科林·洛伊德·巴尔内斯; 罗伯托·里加蒂; 尼尔·安托尼·戈姆利; 杰夫雷·保罗·史密斯; 文森特·彼得·史密斯; 托比亚斯·威廉·巴尔·奥斯特; 大卫·本特利
Original assignee: Solexa Ltd Great Britain
Current assignee: Solexa Ltd Great Britain
Priority date: 2006-02-08
Filing date: 2007-02-08
Publication date: 2012-06-27
Anticipated expiration: 2027-02-08
Also published as: DK1987159T3; EP1987159B1; EP1987159B2; US20110009276A1; CN101415839A; US8192930B2; EP1987159A1; US20150203910A1; SG169356A1; US8945835B2; US10876158B2; CA2641851A1; US20130165327A1; US9994896B2; US20180363047A1; DK1987159T4; WO2007091077A1

Abstract

本发明提供了一种对双链多核苷酸模板进行成对测序的方法，本方法可以确定多核苷酸模板上两个不同且分开的区域中的核苷酸序列。

Description

对多核苷酸模板进行测序的方法

技术领域

本发明涉及对双链多核苷酸模板进行成对测序的方法，本方法可以确定多核苷酸模板上两个不同且分开的区域中的核苷酸序列。

背景技术

有关生物分子研究的发展，部分是由于用来表征分子或其生物反应的技术改进所致。特别的，对核酸DNA和RNA的研究受益于序列分析技术的发展。

US5302509描述了一种对多核苷酸模板测序的方法，该方法包括使用DNA聚合酶或DNA连接酶连续掺入与模板链互补的经标记核苷酸或多核苷酸而实施的多延伸反应。在这种“合成测序(sequencing by synthesis)”反应中，通过连续掺入与模板链互补的单个核苷酸以5’到3’的方向构建了一条与模板链碱基配对的新核苷酸链。将测序反应使用的核苷三磷酸底物封闭以防止过度掺入，差异标记核苷三磷酸底物以使得能够确定作为后续核苷酸被加入的掺入核苷酸的种类。

为了进行准确测序，可以将可逆的链终止结构性修饰或“封闭基团(blocking group)”添加到底物核苷酸，以保证核苷酸以受控方式一次掺入一个。每掺入一个单核苷酸，封闭基团即阻止任何其它核苷酸再掺入进多核苷酸链。一旦确定了最后掺入的标记核苷酸的种类，就除去标记部分和封闭基团，允许下一个封闭的标记核苷酸在随后的测序运行中被掺入。

在某些的情况下(特别是在当使用封闭的经标记核苷酸时)，可以通过使用合成测序(sequencing-by-synthesis)技术可靠获得的测序数据的量可能是有限的。在一些情况下，测序“运行(run)”可能限于允许与人类基因组进行序列重新比对的一些碱基，通常大约25-30个掺入循环。尽管，此长度的测序运行非常有用(特别是在，例如SNP分析和基因分型中的应用)，但在很多情况下，能够可靠的获取同一个模板分子另外的序列数据是有利的。

“配对末端(paired-end)”和“成对(pairwise)”测序技术在分子生物学领域是公知的，特别是在全基因组鸟枪测序法的情况下(Siegel A.F.et al.，Genomics.2000，68：237-246；Roach J.C.et al.，Genomics.1995，26：345-353.)。配对末端测序允许确定来自一条多核苷酸双链两个位置的序列的两个“读取(read)”。配对末端法的优点在于，对单个模板上两段“n”碱基序列的每段进行测序比以随机方式对两个独立模板上的“n”碱基序列的每段进行测序明显能得到更多的信息。使用合适的序列信息集合的软件工具(Millkin S.C.et al.，Genome Res.2003，13：81-90；Kent，E.J.et al.，Genome Res.2001，11：1541-8)，就有可能利用以下知识，即“配对末端”序列并非完全随机，而是已知发生在单个双链上，并且因此在基因组中是相连或成对的。该信息已显示出非常有助于将全基因组的序列组合成一致的序列。

配对末端测序法通常通过利用本领域已知的特定环形鸟枪克隆载体来实施。在特异性单位点切割载体后，将待测序模板DNA(通常是基因组DNA)插入到载体中，末端重新封闭形成新构建物。插入DNA侧翼的载体序列包含序列引物的结合位点，所述引物允许对相反链上的插入DNA进行测序。

该方法的缺点在于它需要对DNA模板进行费时的克隆，并且需要在合适的测序载体中进行测序。此外，因为需要将DNA模板克隆到载体中以使得将序列引物的结合位点设置于所述模板片段的两端，所以利用基于阵列的测序技术非常困难。使用基于阵列的技术，通常只可能从核苷酸模板的一端进行测序，这经常是邻近与阵列相连接的点的末端。

WO 2004/070005中描述了一种对多核苷酸模板进行双末端测序的方法，它可在固体支持物上实施。该方法依赖于在单个引物杂交步骤中将两个或多个引物同时与靶标多核苷酸杂交。在所述杂交步骤之后，除一个引物之外，封闭其它所有与模板杂交的引物，该未被封闭的引物具有作为第一个测序反应起点的游离3’端羟基。测序一直进行到不可能再有链伸长，或者终止测序反应。接着将被封闭引物中的一个解除封闭以得到游离3’羟基并从此起始点进行另一个测序反应。这样，所述模板保持完好并始终连接在固体支持物上。

基于封闭及未封闭引物杂交的此方法的主要缺陷在于如果需要对双链核酸模板互补链上的两个区域进行测序，则必须在单个杂交步骤中将引物与所述模板的两个互补链杂交。由于模板的两条链都保持完好并连接在固体支持物上，因此将引物与模板链上的相应序列杂交一般来说不利于模板两条互补链通过退火形成双链。该方法的另一个缺陷是需要确保第一个引物的化学封闭以允许对第二个引物进行测序。应用中所描述的非固定化珠的特征意味着从所述珠上除去引物并不简单，因此除非第一个引物被完全封闭，否则测序就不是最优的。

WO 98/44151和WO 00/18957都描述了一种核酸扩增的方法，其允许扩增产物被固定在固体支持物上以形成由簇或“集群(colony)”构成的阵列，所述簇或“集群”是由多个相同的固定化多核苷酸链和多个相同的固定化互补链形成的。在根据这些方法制备的成簇阵列上的DNA集群中存在的核酸分子可以为测序反应提供模板，例如，如WO 98/44152中所述，但是到目前为止，从每个集群中的一种固定化链只能获得单测序读取。

发明内容

本发明人开发了一种对双链多核苷酸模板(包括成簇阵列上的双链模板，如本文中所述的那些)进行配对末端测序或成对测序的方法。术语成对测序是指通过对靶标多核苷酸双链中同一条链上或互补链上两个不同区域测序获得的一对读取。使用本发明的方法，有可能从成簇阵列上的每个双链模板获取两个相连或成对的读取，而不是像现有技术方法一样只能获得单个测序读取。

根据本发明，提供了一种对靶标双链多核苷酸第一和第二区域进行成对测序的方法，其中所述第一和第二区域在同一靶标双链多核苷酸上，该方法包括：

(a)提供一种固体支持物，其上已固定了多个双链模板多核苷酸，每个多核苷酸都是由5’端连接在所述固体支持物上的互补的第一和第二模板链形成的；

(b)对所述多个双链模板多核苷酸进行处理，使所述双链模板多核苷酸变性以使得测序引物杂交；

(c)将第一测序引物与(b)部分产生的模板链中的一个杂交；

(d)通过将核苷酸依次加至第一测序引物来进行第一测序反应，以产生第一延伸测序引物并确定第一模板链中靶标多核苷酸的第一区域的序列；

(e)除去步骤(d)中的所述第一延伸测序引物；

(f)将第二测序引物与所述模板链中的一个杂交；和

(g)通过将核苷酸依次加至第二测序引物进行第二测序反应，产生第二延伸测序引物并确定所述靶标多核苷酸第二区域的序列，其中对所述靶标多核苷酸第一和第二区域序列的确定实现了对所述靶标双链多核苷酸的所述第一和第二区域的成对测序。

在一个实施方案中，初始多核苷酸双链的两条链都保持固定化，具有不同序列的两个引物被用来进行每个测序运行。步骤(b)和(e)可包括热处理或化学处理(如0.1M氢氧化钠)，以使得结合在支持物表面的双链多核苷酸变性。

在另一个实施方案中，也可将所述靶标双链多核苷酸制备成包含夹在两个序列未知的区域之间的已知序列区。所述已知序列可包含限制性核酸内切酶的识别位点。限制性核酸内切酶的切割会形成两个独立的多核苷酸，每个都通过5’端固定。接着所述两个多核苷酸可被置于变性条件下，得到两个通过5’端固定的单链多核苷酸。每个单链多核苷酸可以被依次测序，以使得从所述一个初始靶标中得到两个独立的读取。

在另一个实施方案中，也可将所述靶标双链多核苷酸制备成包含夹在两个序列未知的区域之间的已知序列区。可以将所述固定化多核苷酸的一端从所述表面切割下来，将所得的多核苷酸变性。通过5’端固定的所得单链多核苷酸包含两个不同的能够与测序引物杂交的区域；可以依次获得两个读取。

附图说明

图1是配对末端读取的示意图。在该过程中，第一寡核苷酸(寡核苷酸1)与待测序模板杂交，用于引发第一测序运行(第1运行，25个循环的单碱基测序(single base sequencing，SBS))。接着将寡核苷酸1从所述模板上除去，将第二引物(寡核苷酸2)与相同模板的不同区域杂交，用于引发第二测序运行(第2运行，25个循环的单碱基测序)。结果是从相同模板的不同位置得到两个测序读取。

图2是五种不同模板序列混合物的测序反应结果，所述序列被扩增形成簇。

图3是测序反应的结果。所显示的图像是由A掺入所产生的。92％的运行1的簇与运行2中相对应(align)。运行2中大于99％的被检测到。

图4是用未知序列之间的已知序列来构建多核苷酸分子的方法的图示，其中限制性酶被用于生成双标签序列(载体-靶标-靶标-载体)，其中所述片段两末端之间的中间区域被切除。

图5是在不使用限制性酶的情况下确定长的未知多核苷酸区域的成对读取方法之示意图。

图6是样品制备方法的示意图，所述样品用于从任意长度片段的两个末端获得成对读取。该方法使用生物素化的接头来分离包含所述接头的成环插入物。接着可以切割所述环形插入物，使用另外的接头重新环化形成包含两个接头区域的更小尺寸的环。可以使用针对第一个接头的选择性引物扩增所述环，生成适于扩增的线性模板。

图7是样品制备方法的示意图，所述样品用于从任意长度片段的两个末端获得成对读取。该方法使用生物素化的接头来分离包含所述接头的成环插入物，接着将所述环片段化并进行处理使得所述末端也包含允许随后扩增和测序的接头。

图8是本发明方法的示意图，其中所述中间已知区域包含一个特定限制性酶的酶切位点。经所述限制性酶处理后，可以从扩增片段的中间区域获得两个测序读取。更特别的，可以从所述固定化双链的每条链获得一个读取。

图9是样品制备的示意图，所述样品适于获得任意长度片段的一对读取。该方法基于用受控量的dUTP扩增所述片段，由此引入低水平的修饰，所述修饰使片段可以被随机切割(即在尿嘧啶碱基随机插入的地方切割)。所述切割片段可以重新连接成环并被扩增，以使得初始PCR片段的两个末端连接在一起而中间碱基被切割掉。

图10是样品制备的示意图，所述样品适于获得任意长度片段的一对读取。该方法是基于将初始样品中鸟嘌呤碱基氧化至低水平，由此引入低水平的修饰，所述修饰使得片段可以被随机切割(即在鸟嘌呤碱基随机氧化的地方切割)。所述切割片段可以重新连接成环并被扩增，以使得初始PCR片段的两个末端连接在一起而中间碱基被切割掉。

图11是样品制备的示意图，所述样品适于获得任意长度片段的一对读取。该方法是基于将初始样品中鸟嘌呤碱基氧化至低水平，由此引入低水平的修饰，所述修饰使得片段可以被随机切割(即在鸟嘌呤碱基随机氧化的地方切割)。如果使用除去8-氧代鸟嘌呤碱基的酶切开载体-靶标连接环，那么只有靶标片段的末端仍然连接在所述载体上。可以连接一个新的接头序列以重新封闭露出(polished)的末端，产生具有两个来自初始载体的已知末端的片段，两个末端分别来自靶标片段和中间接头序列。该片段可以通过使用与所述初始载体的所述末端互补的引物进行扩增来线性化。

图12显示了所附实施例中用于固相扩增的示例性双链DNA模板的结构和序列。扩增引物P5和P7的序列以粗体显示。

发明详述

本发明提供了对靶标双链多核苷酸模板的两个区域进行测序的方法，所述区域在本文中称为进行序列测定的第一和第二区域。进行序列测定的第一和第二区域既可以在双链多核苷酸模板的同一条链上，也可以在互补链上，所述互补链在本文中分别称为第一和第二模板链。

本发明方法的起点是提供以扩增簇形式固定于固体支持物上的多个模板多核苷酸双链体，如WO9844151和WO00018957中所述，其内容以参考形式合并入本文。特定簇中的每一个双链体都包含相同的待测序双链靶标区域。每个双链都是由互补的第一和第二模板链形成的，它们都在5’末端或接近5’末端的地方连接在固体支持物上。通常，所述模板多核苷酸双链体将以成簇阵列的形式提供。

WO07010252也描述了从每个簇上读取第一和第二模板链的方法，但它的缺点是每个簇中只有一半的链被测序。这降低了测序读取的信号强度。本文所述的方法允许对每个簇中每条链基本上所有的拷贝进行测序，因此，比之前的方法产生的信号更强。本方法的这个性质赋予了信号检测更高的灵敏性，这就意味着相比现有技术可以从更小的簇上获得更长的读取。

当提到分子(如核酸)固定化或连接到固体支持物上时，术语“固定化(immobilised)”和“连接”在本文中可以互换使用，除非另有明确指出或通过上下文指出，否则两个术语都旨在包括直接或间接，共价或非共价的连接。在本发明的某些实施方案中，共价连接可能是优选的，但是一般来说，只要求在计划使用所述支持物的条件下(例如在需要核酸扩增和/或测序的应用中)分子(如核酸)保持固定化或连接在支持物上。

本发明的某实施方案可能利用包含“官能化的”惰性基底或基质的固体支持物(例如，玻璃片、聚合物珠等)，所述官能化例如通过施加中间材料的层或覆层来实现，所述中间材料包含可以与生物分子(如多核苷酸)共价连接的反应性基团。这些支持物的实例包括但不仅限于惰性基底(如玻璃)上所支持的聚丙烯酰胺水凝胶。在这些实施方案中，所述生物分子(如多核苷酸)可以直接共价连接于所述中间材料上(如水凝胶)，但所述中间材料本身可以非共价连接于基底或基质(如玻璃基底)上。因此术语“共价连接在固体支持物上”可以理解为包括这类排列。

根据上下文，本文提到的特定核酸序列也可以指包含该核酸序列的核酸分子，这对于本领域的读者来说是显而易见的。靶标片段的测序意味着建立按时间顺序的碱基读取。然而，碱基不需要是连续的，也不是必须对整个片段上每一个碱基进行测序。

随后的段落更详细的描述了本发明的不同方面。除非有相反地明确指出，否则本发明的每个方面可以和本发明的其它任何一个或多个方面相结合。特别是，任何被指为特别的、优选的或有利的特征也可以和其它一个或多个被指为特别的、优选的或有利的特征相结合。

根据本发明，术语“靶标核酸序列”、“靶标核酸分子”、“靶标核酸”和“靶标核酸片段”可以互换使用以指代阵列上需要被测序的核酸分子。靶标核酸基本上可以是任何已知或未知序列的核酸。例如，它可以是基因组DNA或cDNA的片段。测序可以确定靶标分子的全部序列或一部分序列。所述靶标可以来源于已被随机片段化的初始核酸样品。可以通过在每个靶标片段末端安置通用扩增序列而将所述靶标加工成适合扩增的模板。还可以通过逆转录成cDNA而从原始的RNA样品中得到所述靶标。

如本文中所使用的，术语“多核苷酸”是指脱氧核糖核酸(DNA)，但是在合适时，本领域技术人员会了解该方法也可用于核糖核酸(RNA)。该术语应该被理解为包括或等同于由核苷酸类似物构成的DNA或RNA的类似物，并且适用于单链(如有义链或反义链)和双链多核苷酸。本文中所用的该术语也包括cDNA，即由RNA模板生成的互补或拷贝DNA，例如，通过逆转录酶的作用生成。

初始多核苷酸分子可来源于双链DNA(dsDNA)形式(如基因组DNA片段，PCR或扩增产物等)或者来源于单链形式，如DNA或RNA，并被转化成dsDNA形式。例如，使用该领域熟知的标准技术，mRNA分子可以复制成适用于本发明方法的双链cDNA。初始多核苷酸分子的确切序列通常对本发明不重要，它可以是已知的或未知的。

在一个特定的实施方案中，初始多核苷酸分子为DNA分子。更特别的，初始多核苷酸分子代表生物体的全部遗传互补序列(geneticcomplement)，是包含内含子和外显子序列(编码序列)以及非编码调控序列(如启动子和增强子序列)的基因组DNA分子。在一个使用基因组DNA分子的实施方案中，可以实现基因组水平的分析或对整个基因组的分析。然而，可以想象也可以使用多核苷酸序列或基因组DNA的特定子集，例如特定的染色体。更特别的，初始多核苷酸分子序列是未知的。再特别的，初始多核苷酸分子是人类基因组DNA分子。可以在任意随机片段化过程之前或之后，以及在接头序列连接之前或之后，化学或酶处理所述DNA靶标分子。

随机片段化是指以无序方式通过酶、化学以及机械方法等进行的多核苷酸分子片段化。这种片段化方法在该领域广为人知，并可使用标准方法(Sambrook and Russell，Molecular Cloning，A Laboratory Manual，Third Edition)。为了清楚起见，通过特异性PCR扩增较小片段而生成较大核酸的较小片段并不等同于大片段核酸的片段化，这是因为较大核酸仍保持完好(即并未因为PCR扩增而片段化)。而且，随机片段化是设计用来与包含断裂和/或断裂附近的序列特性或位置无关地生成片段。更特别的，随机片段化是通过机械方式(例如雾化或超声)实现的，生成长度大约50个碱基对到约1500个碱基对的片段，更特别的是长50-700个碱基对，再特别的是长50-400个碱基对。最特别的，本方法用来生成长度在50-150个碱基对的较小片段。

多核苷酸通过机械方法(如雾化、超声和水力剪切等)的片段化得到具有平末端以及3’和5’突出端的非均质的片段混合物。因此，需要使用该领域已知的方法或试剂盒(如Licgen DNA终止子末端修复试剂盒)修复片段末端，从而生成最适于插入的末端，例如，插入到克隆载体的平端位点。在一个具体实施方案中，所述核酸集群的片段末端被平末端化，更特别的，所述片段末端是平末端化并且磷酸化的。可以通过酶处理(例如使用多核苷酸激酶)引入磷酸部分。

在一个具体实施方案中，用单突出核苷酸通过例如某种类型的DNA聚合酶活性来制备所述靶标多核苷酸序列，所述DNA聚合酶如Taq聚合酶或Klenow无外切型(exo minus)聚合酶，它们具有非模板依赖性末端转移酶活性，可以将单个脱氧核苷酸(例如脱氧腺苷(A))添加到如PCR产物的3’末端。这些酶可以用来将单核苷酸“A”添加到靶标多核苷酸双链每条链的平端化3’端。因此，可以通过与Taq聚合酶或Klenow无外切型聚合酶的反应将“A”添加到靶标多核苷酸双链体每个末端修复链的3’端，同时所述接头多核苷酸构建物可以是T构建物，其在所述接头构建物的每个双链区3’端具有相容的“T”突出。此末端修饰还阻止载体和靶标的自连接，使得偏好于形成组合连接的接头-靶标序列。

可以对任意长度片段获得成对读取，例如2-10kb的PCR扩增子或分离自细菌或其它生物来源的DNA克隆。靶标可以是大约40kb的噬菌粒分子的末端或大约100-200kb的细菌人工染色体(BAC′s)的末端。来自这些来源的靶标末端可以不经片段化就进行测序以从每个未片段化靶标的末端获得读取，或者靶标可以被片段化。可以对片段化的靶标进行大小选择(如通过凝胶电泳)以获得靶标片段较窄尺寸的分布。整个样品中间隔的成对读取可以用作从头组装先前未测序样品的工具，也可用于当参照基因组可供利用时样品的再测序。当需要知道所述分子任意一端的序列时，本文所描述的方法适用于任何来源的核酸分子。

为了使用本发明的方法对给定靶标双链多核苷酸的两个区域测序，需要实施依次的测序反应。为了实现两个分开的测序反应，就有必要与两个不同单链区依次杂交来作为测序的模板。可以通过本文描述的任何一种方式形成适合测序的单链区域。

依次杂交

固定化双链体包含两条互补链，每条都通过5’末端固定于所述表面。变性双链多核苷酸得到两条单链多核苷酸；每条链能够与不同的测序引物杂交。使用与其中一条结合链的3’末端互补的第一测序引物，可以从一条链获得测序读取。接着可将该测序运行变性；与另一条链的3’末端互补的第二测序引物可以与之杂交。接着可以在第一运行的多核苷酸分子的相反末端重复测序方案以进行第二运行。

用于使固定化多核苷酸分子变性或除去第一测序引物的变性处理可以是加热至超过95℃或者是用变性溶液进行的化学处理，所述变性溶液例如0.1M氢氧化钠，50％的甲酰胺或8M的尿素溶液。

在第一和第二读取过程中测序引物可保持固定化。如果所述双链多核苷酸被设计成在每个链上包含序列选择性的切口化位点，则可以在对每条链切口化之后以该切口化链的3’端作为起点依次实施测序读取。切口化链的5′末端保持固定化，其可以在第一测序运行后，实施第二链切口化处理前被封闭。在这种情况下，双链体没有变性以使测序引物杂交，而是第一链被切口化以使得初始双链体的一部分用作测序引物并对第二链进行测序。通过所述双链体第二链的切口开始第二读取，从而对第一链读取。在该实施方案中，在任何点都不将所述阵列置于变性条件之下是非常重要的，这是因为在第二读取过程中，所述模板只通过杂交与所述表面连接。

用限制性核酸内切酶进行簇切割

双链多核苷酸模板包含夹在位于序列末端处的已知接头之间的未知靶标DNA序列。然而，很容易使用分子生物学技术构建其中也有将未知区域一分为二的核苷酸序列已知区域的多核苷酸。因此，模板多核苷酸可以表示为具有一个已知末端、一段未知序列、已知接头区、另一段未知序列和第二个已知末端，如果它们不进一步扩增那么在本文中被定义为接头-靶标-接头-靶标-接头构建体，或者如果所述初始接头-靶标-接头-靶标-接头接受扩增，则被定义为引物-靶标-接头-靶标-引物。内部序列可以设计为包含两个测序引物位点；以及允许对双链体的两条链进行序列选择性切割的位点，例如限制性核酸内切酶的识别位点，如图8所示。这种限制性核酸内切酶切割生成两个锚定的多核苷酸双链体，所述双链体在其中一条链5’末端固定。该固定化双链体可以通过热处理或化学处理来变性，生成固定于相邻位置的两个非互补单链多核苷酸。可以使用不同的测序引物对这些非互补链中的每一条测序以给出源于所述初始多核苷酸双链体的两个读取。

可以通过将随机化基因组片段与线性化载体相连接以重新生成环形构建物来构建带有内部引物区的双链多核苷酸模板。使用远程切割限制性酶(如MmeI或Ecop15)，远离环化载体的已知部分而切割到未知区域，这样可以除去所述未知序列的中间区域。EcoP15I是III型限制性酶的一种，它识别基序CAGCAG序列并在CAGCAG基序下游27个碱基对处切割双链DNA分子。切割位点包含2个碱基的5’突出，它可以通过末端修复形成一个27个碱基的平末端化双链体。在正常的体内条件下，EcoP15I需要两个在双链分子的相反链上头对头朝向的CAGCAG基序，随后酶只在两个位点其中之一处切割双链体。但是，在存在抗生素化合物Sinefugin(Sigma cat编号：S8559)的特定体外条件下，EcoP15I具有在所有存在于序列中的CAGCAG序列处诱导切割双链的所需作用，而不论其数目或方向如何，如Raghavendra和Rao所描述(Biochem Biophys ResCommun.2005 Sep 2；334(3)：803-11)，它以整体合并入本文，但是就我们所知，此前未报道过Sinefungin或其类似物在使用EcoP15或其它限制性核酸内切酶III制备双标签文库中的用途。

每个分子末端既可以连接在一起形成载体-靶标-靶标-载体类型的单核苷酸“双标签”序列，或者已知序列的接头可用作载体-靶标-接头-靶标-载体类型模板中的间隔区域，如图4所示。建立此类型构建物的一个替代性方法是打开一个成环的载体分子并在其每一端都连接上接头，该方法的一个实施例如图7所示，其中通过远程切割限制性酶而非随机化方法的片段化也包括在图7中。

在用于簇生成和SBS的DNA模板的制备中，将两个EcoP15I位点和其它已知接头序列连接到带有靶序列的环形载体上与未知靶标序列相邻的位置，如图4所示。EcoP15I位点临近所述靶标序列，这使得向靶标序列内27个碱基对的特定位置进行切割，因此可以操纵未知靶标序列27个碱基的序列。使用分别位于所述靶标DNA片段任意一端的两个EcoP15I位点，使得大部分的靶标序列被除去，而在任一末端剩下两个相关联的27碱基对片段。54个碱基的单测序读取给出了来自初始靶标两个末端的序列信息，而没有插入碱基。54个连续碱基的构建物为双标签的一个实例，因为它包含连接在一起的原始靶标两个27碱基对末端。该EcoP15I特异性双标签构建物包含载体-靶标(27碱基)-靶标(27碱基)-载体。如果用与所述载体区域互补的引物扩增所述环形双标签，则可以获得线性双标签构建物引物-靶标(27碱基)-靶标(27碱基)-引物。

重新连接以使得环形构建物闭合可以使用足够保证该环有效封闭的任意长度序列来完成。使用初始切割位点任意一侧的引物扩增可给出所需多核苷酸模板的拷贝。然而，可以用此双标签法生成的未知区域的长度受到远程切割的限制性酶的可用性的限制。使用限制性酶构建此类文库的实例曾有报道(Science 2005；Vol.309.No.5741，pp.1728-1732)。

生成双标签的方法详细记载于例如，WO00179553，WO03074734，WO6135342或US2006/0024681中。扩增此类双标签的单分子生成成簇阵列，其中每个所扩增双链体的两条链都被固定，如本发明人第一次所教导的，所述扩增带来一个巨大优点，即有可能在单个固体支持物上同时分析大量的不同序列双标签。而且，在所述双标签中插入接头可使得从每个模板双链体获得4个测序读取而不仅仅是两个。现有技术方法的另一重要限制是需要使用限制性酶，这就限制了靶标序列的长度。本文中详细描述的方法不需要使用限制性酶，它在可以被测序的两个靶标片段的长度方面具有显著的优势。

一种生成其中靶标多核苷酸片段长于限制性酶切位点的所需构建物的替代性方法是将线性接头序列连接到未知片段中形成环形构建物，这在本发明中特别有优势。接着可使用随机剪切处理(如超声、雾化或外切酶处理)来生成包含中间接头序列的线性构建物。接头可以用如生物素的基团所修饰以利于接头-靶标环或其片段的纯化。末端修复，接下来与另一个接头环化，将产生具有两个已知和两个未知区域的环形产物。对其可以使用引物对扩增，产生所需的已知-未知-已知-未知-已知多核苷酸模板。该技术有一系列的变化，且其步骤的顺序也并非固定的。预期任何用于生成包含下列部分的多核苷酸分子的技术包括在本发明的范围内，所述部分即已知末端和在两个未知的待测序目的区域之间的已知中间序列。可用于此类样品制备技术的多种方法在图5、6、7、9、10和11中显示。参考附图在下文描述这些方法。

图5是在不使用限制性酶的情况下确定长的未知多核苷酸区域成对读取之方法的示意图。靶标插入片段可以是，例如：PCR扩增子，分离自生物样品(如细菌、病毒或其它生物)、分离的克隆、克隆文库、质粒、噬菌粒或任何其它核酸来源的随机剪切的核酸样品，其可以使用合适接头连接成环。所述随机剪切靶标可以在连接之前进行末端修复。如果在连接前将所述样品片段化，那么可以在连接前对所述片段进行大小选择得到很窄的分布，或者控制片段化以得到具有大小窄窄地分布在某一尺寸的片段，例如5kb或10kb。

还可以使用如超声、雾化或水力剪切等多种技术将所述环形构建物随机片段化。由于这些过程的随机性，所述片段将是包含接头序列的片段和不包含接头序列的片段的混合物。如果保护接头使之免受片段化，则可以减少片段化过程的随机性。由于接头区域的序列已知，该序列可用于选择性将DNA结合蛋白或类似物质靶向到所述接头区域。如果所述蛋白大小足够的话，它们还可以与靶标序列结合并保护所述靶标不再受进一步的片段化。可以使用接头区域的已知序列靶向所述蛋白，例如使用寡核苷酸-蛋白质缀合物。在该情况下，使用与双链体强力杂交形成三螺旋的寡核苷酸或分子(例如可以链侵入到双链体的肽核酸(PNA))可能是有利的。

合适的DNA结合蛋白可以包括转录因子、DNA聚合酶或其它核酸修饰酶、染色质或限制性酶，此时结合位点被修饰从而不能被切割。受保护区域的大小取决于所用保护靶标序列的方法，但可以是从接头序列每个末端开始20-200个碱基不等。

可以使用第二接头将片段重新环化，以获得基本上两类环形构建物，即只有第二接头的构建物以及有第一和第二两个接头的构建物。用第一接头特异性引物对所述环进行扩增会导致只有包含完整第一接头序列的环得到扩增，因此，将仅仅获得预期的包含引物-靶标-接头-靶标-引物构建物的产物。

在所有环扩增的实施例中，扩增方法可以包括用于标准扩增反应的两个引物，或可以通过滚环扩增来进行。在一些情况下，滚环扩增法中也可以使用两个引物，使得所述环形模板的初始拷贝可以被进一步扩增。

图6所示为图5的变化，其中所述初始接头是生物素化的。接头的生物素化允许在固体支持物上实施一些或全部的步骤，或在需要的时候纯化所需片段。如果所述接头如上所述连接在靶标上，未连接的靶标将不携带生物素修饰，则它可以容易的从分子混合物中被除去。一旦所述环片段化，接头上的生物素基团还允许将携带初始接头的片段从那些没有携带的片段中选择出来。可以如上所述将包含片段的接头与第二接头相连接，并用第一接头序列特异性引物扩增以生成适于进一步扩增和/或测序的线性模板。

图7所示为图6的变化，其中用接头处理片段化的环，从而线性片段的两个末端都被修饰。这就避免了对第二环化反应的需要，而同时仍允许制备接头-靶标-接头-靶标-接头类型的构建物。

图9是制备用于从任意长度片段的远端获得读取对的样品的示意图。该方法基于用受控量的dUTP来扩增片段，由此引入可以使片段被随机切割的低水平修饰(也就是在尿嘧啶碱基随机插入的地方切割)。切割片段可以被重新连接成环并被扩增，以使得初始PCR片段的两个末端连接在一起而中间碱基被切除。

图10是制备用于从任意长度片段的远端获得读取对的样品的示意图，所述制备不需要初始PCR反应来引入随后切割所需的修饰碱基。该方法基于低水平氧化初始样品中的鸟嘌呤碱基，由此引入可以使片段被随机切割的低水平修饰(也就是在鸟嘌呤碱基随机氧化的地方切割)。切割片段可以被重新连接成环并被扩增，以使得初始PCR片段的两个末端连接在一起而中间碱基被切除。

图11是制备用于从任意长度片段的远端获得读取对的样品的示意图。该方法基于低水平氧化初始样品中的鸟嘌呤碱基，由此引入可以使片段被随机切割的低水平修饰(也就是在鸟嘌呤碱基随机氧化的地方切割)。如果使用除去8-氧代鸟嘌呤碱基的酶切开载体-靶标连接环，那么此时只有靶标片段的末端保持连接在载体上。可以连接新接头序列以重新环化露出的末端，生成具有两个来自初始载体的已知末端的片段，两个末端分别来自靶标片段的和中部接头序列。可以用与初始载体末端互补的引物进行扩增来线性化该片段，从而得到适合进一步扩增和/或测序的引物-靶标-接头-靶标-引物构建物。

固定化DNA的线性化

可以如上所述将多核苷酸分子制备成包含两个测序引物的序列。如果这些分子被固定化，使得可以从表面上切割两个固定化末端之一，则在此切割之后可以通过热处理或化学变性条件使只在双链体一端固定的所得双链DNA成为单链，以得到包含两个引物杂交位点的单链分子。除去“桥连”的双链核酸结构中一条固定化单链的所有或一部分的过程在本文中可以被称为“线性化”。可以使用第一测序引物对单链分子测序，接着除去第一引物并引入第二测序引物以允许第二读取。如果构建物没有被线性化，就有可能从每个双链体获得四个读取，这是因为每条链可以被测序两次，一次来自3’末端的接头序列，另一次来自中间接头序列。

为了对固定化双链线性化，模板双链体的第一或第二链必须包含切割位点。上述的切割位点是可以通过化学、酶或光化学方法对第一或第二模板链进行受控切割的位点。然后仅通过一端固定所述双链多核苷酸。接着使所述多核苷酸变性，留下5’端固定的多核苷酸单链。然后可以将第一测序引物与模板的单链区域杂交并作为测序反应的引物使用，之后将它从所述模板上除去，杂交第二测序引物并将其用于所述单链模板不同区域的测序。

任何合适的酶、化学或光化学切割反应都可以用于切割。切割反应可导致部分的或整个链被切割。合适的切割方法包括，例如，限制性酶消化，在此情况下，所述切割位点是适合于指导双链体模板一条或两条链切割的酶的限制性位点；RNA酶消化或脱氧核糖核酸和核糖核酸之间键的化学切割，在此情况下，所述切割位点可包含一个或多个核糖核苷酸；使用还原剂(如：TCEP)对二硫键的化学还原，在此情况下，所述切割位点应包含合适的二硫键；用高碘酸盐对二醇键的化学切割，在此情况下，切割位点应该包含二醇键合；无碱基位点的生成和随后的水解等。

在一个实施方案中，切割可以发生在模板多核苷酸双链的一条或两条链上的切割位点，所述双链体包含一个或多个或任意组合的非天然核苷酸、核糖核苷酸或非核苷酸的化学修饰。

本发明方法中所使用的合适切割技术在共同未决的申请WO07010251中有完整说明，它包括但不仅限于如下内容：

(i)化学切割

术语“化学切割”包括任何利用非核酸和非酶化学试剂来促进/实现模板多核苷酸双链中一条或两条链切割的方法。如果需要，所述模板多核苷酸双链体中一条或两条链可包含一个或多个非核苷酸的化学部分和/或非天然核苷酸和/或非天然骨架连接，以便进行化学切割反应。在一个具体实施方案中，可以将实现化学切割所需的修饰可以掺入到用于通过固相核酸扩增形成模板多核苷酸双链体的扩增引物中。

在一个具体实施方案中，所述模板多核苷酸双链体的一条链(或者，如果通过固相扩增形成则是产生此链的扩增引物)可包含允许通过高碘酸盐(如高碘酸钠)处理切割的二醇键。应该理解，可以在切割位点包含不止一个二醇。

适合在多核苷酸链上掺入的基于亚磷酰胺化学法的二醇连接单位可以购自Fidelity system Inc.(Gaithersburg，MD，USA)，或者可以按照WO07010251中所述的方法进行化学制备。可以使用DNA自动化学合成的标准方法将一个或多个二醇单位掺入到多核苷酸中。因此，可以方便地通过化学合成来制备包含一个或多个二醇连接的寡核苷酸引物。

为了将二醇连接置于距固体支持物最优的距离，可以在二醇连接和固体支持物的连接位点之间包含一个或多个间隔物分子。为了促进固体支持物在多核苷酸链5’端的连接，所述5’端可以被修饰成包含硫代磷酸酯基。硫代磷酸酯基可以在包含间隔物和二醇单位的多核苷酸链的化学合成中容易的连接上去。所述间隔物分子可以包括例如与被扩增模板不互补的一段核苷酸。通常可以包含1到20个，特别是1到15个或1到10个，更为具体的是2、3、4、5、6、7、8、9或10个间隔核苷酸。在一个具体实施方案中，10个间隔核苷酸被置于固体支持物连接点和二醇连接之间。在另一个具体实施方案中，使用多聚T间隔物，尽管也可以使用其它核苷酸及其组合。在另一个具体实施方案中，所述引物可以包含10T间隔核苷酸。

通过“切割剂”的处理来切割所述二醇连接，该切割剂可以是任何能够促进二醇切割的物质。其中一种切割剂是高碘酸盐，如高碘酸钠的水溶液(NaIO₄)。切割剂(如高碘酸盐)处理切割二醇键之后，为了中和切割反应中生成的反应性物质，可以用“加帽剂”处理所述切割产物。用于该用途合适的加帽剂包括胺类，如乙醇胺或丙醇胺(3-氨基-丙-1-醇)。有利的是，所述加帽剂(如丙醇胺)可以包含在与切割剂(如高碘酸盐)的混合物中，使得反应性物质一形成就被加帽。

因为高碘酸盐和丙醇胺处理与核酸完整性和水凝胶表面化学相容，所以二醇键和实现切割模板多核苷酸双链体至少一条链的切割剂(如高碘酸盐)组合的实例在线性化固相支持的聚丙烯酰胺水凝胶上的模板双链体方面作用良好。然而，使用二醇键/高碘盐作为线性化的方法并不仅限于聚丙烯酰胺水凝胶表面，还可扩展到固定在其它固体支持物和表面的双链体的线性化，包括由官能化硅烷包被的支持物(等)。

在另一个实施方案中，待切割的链(或者，如果通过固相扩增制备的话则是产生此链的扩增引物)可以包含允许用化学还原剂切割的二硫基团，如三(2-羧乙基)磷酸盐酸盐(Tris(2-carboxyethyl)-phosphatehydrochloride，TCEP)。

ii)无碱基位点的切割

“无碱基位点”定义为多核苷酸链上碱基成分被除去的核苷酸位点。无碱基位点可以在生理条件下通过核苷酸残基水解而在DNA上自发出现，也可以在人工条件下化学形成或者通过酶作用形成。一旦形成后，无碱基位点可以被切割(如通过核酸内切酶或其它单链切割酶的处理，或暴露于热或碱)，为多核苷酸链的位点特异性切割提供了一种方法。

在一个具体但非限制性的实施方案中，无碱基位点可以在模板多核苷酸双链体的一条链上预定的位置处生成，然后在模板多核苷酸双链体的一条链上预定切割位点处通过首先掺入脱氧尿嘧啶(U)而被切割。这可以通过例如在用于固相PCR扩增制备模板多核苷酸双链体的引物之一中包含U来实现。接着可利用尿嘧啶DNA糖苷酶(UDG)除去尿嘧啶碱基，在一条链上生成无碱基位点。然后可以在无碱基位点处通过核酸内切酶(如，EndoIV核酸内切酶、AP裂解酶、FPG糖苷酶/AP裂解酶、EndoVIII糖苷酶/AP裂解酶)、热或碱处理来切割包含无碱基位点的多核苷酸链。

无碱基位点还可以在除脱氧尿嘧啶之外的非天然/经修饰的脱氧核糖核苷酸处生成并以相似的方式通过核酸内切酶、热或碱处理切割。例如，通过暴露于FPG糖苷酶，可以将8-氧代鸟嘌呤转化成无碱基位点。可以通过暴露于AlkA糖苷酶而将脱氧次黄甙转化为无碱基位点。如此生成的无碱基位点可以接着被切割，通常是通过合适的核酸内切酶处理(如，EndoIV、AP裂解酶)。如果非天然/经修饰的核苷酸将被掺入到用于固相扩增的扩增引物中，那么该非天然/经修饰的核苷酸应该能够通过用于扩增反应的聚合酶进行复制。

在一个实施方案中，待切割分子可以暴露于包含合适的糖苷酶和一种或多种合适的核酸内切酶的混合物。在此类混合物中，所述糖苷酶和所述核酸内切酶通常以至少约2：1的活性比存在。

该切割方法在生成核酸测序模板的方面具有特别的优点。特别是，在通过如UDG的糖苷酶处理生成的无碱基位点处的切割可以在切割链上生成游离3’羟基基团，它为互补链上区域的测序提供了起点。另外，如果初始双链核酸在一条链上包含唯一一个可切割的碱基(如尿嘧啶)，那么在双链体的这条链上的唯一位置处可以生成一个单“切口”。由于所述切割反应需要不是天然存在于DNA中而是独立于序列背景的残基(例如脱氧尿苷)，所以如果只包含一个非天然碱基，那么就不可能在双链体上其它非所需位点处发生糖苷酶介导的切割。相反，若是双链核酸被一个识别特异序列的“切口化”核酸内切酶切割，那么如果具有正确的识别序列，酶就有可能在双链体中的“其它”位点处生成缺口(除了所需切割位点之外)。如果缺口生成在想要测序的链上而不是在全部或部分除去以生成测序模板的链上，那就会出现问题，如果双链核酸分子的靶标部分具有未知序列则也特别有风险。

使用该方法对置于具体序列背景中以提供切割位点的非天然残基(例如尿嘧啶)没有要求，这本身就是优点。特别的，如果所述切割位点将被掺入到用于通过固相扩增生成簇阵列的扩增引物，则只需要用非天然核苷酸(如尿嘧啶)替换引物中的一个天然核苷酸(如胸腺嘧啶)就能实现切割。不需要改造引物使其包含数个核苷酸长的限制性酶识别序列。可以容易的使用寡核苷酸化学合成的常规技术和设备来制备包含尿嘧啶核苷酸及其它如上所列非天然核苷酸的寡核苷酸引物。

切割通过UDG对尿嘧啶的作用所生成的双链分子上无碱基位点的另外一个优点是，“合成测序”反应中掺入的第一个碱基总是T，所述反应自通过该位点处的切割形成的3′末端游离羟基起始。因此，如果所述模板多核苷酸双链体形成包含许多此类分子的成簇阵列的一部分(所有的分子都通过这种方式被切割生成测序模板)，那么普遍掺入整个阵列的第一个碱基将是T。这可以提供一种在测序运行开始时测定各个簇强度的序列不依赖性的测定法。

iii)核糖核苷酸的切割

在由脱氧核糖核苷酸(带有或不带有其它非核苷酸的化学部分、非天然碱基或非天然骨架连接)组成的多核苷酸链中掺入一个或多个核糖核苷酸可以为使用能选择性切割脱氧核糖核苷酸与核糖核苷酸之间磷酸二酯键的化学试剂或使用核糖核酸酶(RNAse)的切割提供位点。因此，可以通过使用此类化学试剂或RNA酶在包含一个或多个连续核糖核苷酸的位点切割所述模板多核苷酸双链体的一条链来产生测序模板。特别的说，待切割链包含单个核糖核苷酸以提供化学切割位点。

能够选择性切割脱氧核糖核苷酸与核糖核苷酸之间磷酸二酯键的合适化学切割剂包括金属离子，例如，稀土金属离子(尤其是La³⁺，特别是Tm³⁺、Yb³⁺或Lu³⁺(Chen et aL Biotechniques.2002，32：528-520；Komiyamaet al. Chem.Commun.1999，1443-1451))、Fe(3)或Cu(3)，或暴露于高pH值，例如用如氢氧化钠的碱进行处理。“脱氧核糖核苷酸与核糖核苷酸之间磷酸二酯键的选择性切割”指所述化学切割剂在相同条件下不能切割两个脱氧核糖核苷酸之间的磷酸二酯键。

核糖核苷酸的碱基组成通常并不重要，而是可以加以选择以便优化化学(或酶)切割。例如，如果切割通过暴露于金属离子(特别是稀土金属离子)来实施，则可以使用rUMP或rCMP。

典型的，核糖核苷酸将被掺入到模板多核苷酸双链体的一条链中(或者，如果通过固相扩增制备的话则是产生此链的扩增引物)，并可能位于在所述双链体的两条互补链退火时呈单链形式的双链体区域中(即5’突出部分)。如果使用正向和反向扩增引物通过固相PCR扩增来制备所述模板多核苷酸双链体，其中一个引物包含至少一个核糖核苷酸，则用于PCR扩增的标准DNA聚合酶不能够复制核糖核苷酸模板。因此，PCR产物将包含5’突出的区域，该区域包含核糖核苷酸和所述核糖核苷酸上游的扩增引物的其余部分。

核糖核苷酸和脱氧核糖核苷酸之间或两个核糖核苷酸之间的磷酸二酯键也可以被RNA酶切割。任何具有合适底物特异性的内切核糖核酸酶都可以被用于此目的。如果核糖核苷酸存在于当双链分子的两条互补链退火时呈单链形式的区域中(即在5′突出部分中)，那么RNA酶将是对包含核糖核苷酸的单链具有特异性的核酸内切酶。对于使用核糖核酸酶的切割，在一个特定实施方案中可以包含两个或多个连续的核糖核苷酸，更特别的，包含2到10个或5到10个连续的核糖核苷酸。核糖核苷酸的确切序列通常并不重要，除非某些RNA酶对某些残基之后的切割具有特异性。合适的RNA酶包括例如RNaseA，它在C和U残基后进行切割。因此，当用RNaseA切割时，切割位点必须包含至少一个是C或U的核糖核苷酸。

可以通过使用合适核糖核苷酸前体的化学合成寡核苷酸的标准技术容易地合成掺入一个或多个核糖核苷酸的多核苷酸。如果通过固相核酸扩增制备模板多核苷酸双链体，那么在用于扩增反应的其中一个引物中掺入一个或多个核糖核苷酸是很方便的。

iv)光化学切割

术语“光化学切割”包括任何利用光能来切割双链核酸分子中一条或两条链的的方法。

光化学切割位点可以由双链分子的一条链中非核苷酸化学间隔单元提供(或者，如果通过固相扩增制备的话则是产生此链的扩增引物)。合适的光化学可切割间隔物包括PC间隔物亚磷酰胺(4(4，4’-二甲氧三苯甲氧基)丁酰氨基甲基)-1-(2-硝基苯基)-乙基)-2-氰乙基-(N，N-二异丙基)-亚磷酰胺)

(4-(4，4’-Dimethoxytrityloxy)butyramidomethyl)-1-(2-nitrophenyl)-ehtyl-2-cyanoethyl-(N，N-diisopropyl)-phosphoramidite))，它由美国弗吉尼亚州斯特林(Sterling，Virginia，USA)的Glen Research公司提供(目录号为10-4913-XX)。其结构如下：

可以通过暴露于紫外光源来切割所述间隔单元。

使用寡核苷酸化学合成的标准技术，可以将该间隔单元和能使之连接到固体表面的硫代磷酸酯基团一起连接到多核苷酸的5’端。方便的是，该间隔单元可以掺入到正向或反向扩增引物中，该引物用于通过固相扩增合成可光切割模板的多核苷酸双链体。

v)半甲基化DNA的切割

还可以通过在该链中掺入一个或多个甲基化核苷酸然后用对包含该甲基化核苷酸的识别序列特异性的核酸内切酶进行切割来实现对双链核酸分子其中一条链的位点特异性切割。

甲基化核苷酸通常将被掺入到模板多核苷酸双链体其中一条链的区域中，其在互补链上具有一段非甲基化脱氧核糖核苷酸的互补区，这样所述两条链退火生成了半甲基化的双链结构。接着可以通过合适的核酸内切酶作用切割半甲基化双链。为了避免质疑，切割此类半甲基化靶序列的酶不被认为是从本发明第二个方面的范围中排除的“限制性核酸内切酶”，而是也旨在构成本发明主题的一部分。

可以使用自动DNA合成的标准技术以及合适甲基化的核苷酸前体来制备掺入一个或多个甲基化核苷酸的多核苷酸。如果通过固相核酸扩增制备模板多核苷酸双链体，那么在用于扩增反应的其中一个引物上掺入一个或多个甲基化核苷酸是很方便的。

vi)PCR阻塞物

在本发明的另一个实施方案中，可以通过使用正向和反向引物的固相扩增来制备所述模板多核苷酸双链，其中一个引物包含“PCR阻塞物(PCR stopper)”。“PCR阻塞物”是阻止用于扩增的聚合酶通读(read-through)的任何部分(核苷酸或非核苷酸)，使得在超出该点后不能延伸/复制。其结果是由包含该PCR阻塞物的引物延伸得到的扩增链将包含5’端突出部分。该5’端突出(PCR阻塞物本身除外)可由通过天然骨架连接的天然脱氧核糖核苷酸构成，即，它可以仅仅是一段单链DNA。随后可以用选择性切割单链DNA而非双链DNA的切割剂(如酶)在5’端突出区域切割该分子，例如用绿豆核酸酶。

PCR阻塞物本质上可以是基本上任何阻止用于扩增反应的聚合酶通读的部分。合适的PCR阻塞物包括但不仅限于六乙二醇(HEG)、无碱基位点和任何可以阻止聚合酶通读的非天然或经修饰的核苷酸，包括DNA类似物如肽核酸(PNA)。

可以在使用包含稳定无碱基位点的合适间隔单元进行寡核苷酸化学合成过程中引入稳定的无碱基位点。例如，可以在寡核苷酸化学合成时掺入购自美国弗吉尼亚州斯特林的Glen Research的无碱基呋喃(5’-O-二甲氧三苯甲氧基-1’，2’-二脱氧核糖-3’-[(2-氰乙基)-(N，N-二异丙基)-亚磷酰胺)((5’-O-Dimethoxytrityl-1’，2’-Dideoxyribose-3’-[(2-cyanoethyl)-(N，N-diisopropyl)]-phosphoramidite))间隔物，以引入无碱基位点。这样，该位点可以容易地被引入到用于固相扩增的寡核苷酸引物中。如果无碱基位点被掺入到正向或反向扩增引物中，那么所得扩增产物将在一条包含该无碱基位点的链上具有5’端突出(以单链形式)。接着可以通过合适化学试剂(例如暴露于碱)或酶(例如AP核酸内切酶VI，Shida et al.Nucleic AcidsResearch，1996，Vol.24，4572-4576)的作用切割该单链无碱基位点。vii)多肽接头的切割

还可以通过制备缀合结构而将切割位点引入到模板多核苷酸双链体的一条链中，在该结构中肽分子与双链体其中一条链相连(或者，如果通过固相扩增制备的话则是产生此链的扩增引物)。随后可以通过具有合适特异性的肽酶或其它任何合适的非酶化学或光化学切割方式切割肽分子。通常，通过将肽与模板多核苷酸双链体仅仅一条链共价连接来形成所述肽和核酸之间的缀合物，其中所述肽部分与该链5’端缀合，与固体表面的连接点临近。如果通过固相扩增制备模板多核苷酸双链，则可以在扩增引物之一的5’端掺入所述肽缀合物。显然，该引物的肽部分在PCR扩增时不会被复制，因此，“桥式(bridged)”扩增产物会在一条链上包含可切割的5’端肽突出。

可以使用本领域中的常规方法制备肽与核酸的缀合物，其中肽与核酸5’端缀合。在这样的一项技术中，可以分别合成具有所需氨基酸和核酸序列的肽和核酸，如通过标准自动化学合成技术，并随后在水/有机溶液中缀合。例如，可从Glen Research购得的OPeC^TM系统是基于N末端硫酯官能化的肽与5’端半胱氨酰化寡核苷酸的“天然连接”。五氟苯基S-苯甲基硫代琥珀酸酯(pentafluorophenyl S-benzylthiosuccinate)被用于基于Fmoc的标准固相肽组装的最终偶联步骤。使用三氟乙酸去保护，在溶液中生成N端S-苯甲基硫代琥珀酰基取代的肽。O-反式-4-(N-a-Fmoc-S-叔丁基亚磺酰基-1-半胱氨酰)氨基环己基O-2-氰乙基-N，N-二异丙基亚磷酰胺(O-trans-4-(N-a-Fmoc-S-tert-butylsulfenyl-1-cysteinyl)aminocyclohexylO-2-cyanoethyl-N，N-diisopropylphosphoramidite)被用于标准的亚磷酰胺固相寡核苷酸组装的最终偶联步骤。使用氨水溶液去保护，在溶液中生成5’-S-叔丁基亚磺酰基-L-半胱氨酰官能化的寡核苷酸。通过使用苯硫酚将经修饰肽的苄硫基末端转化成苄硫基类似物，同时用三(羧乙基)-膦还原经修饰寡核苷酸。这两种中间产物的偶联以及之后的“天然连接”步骤导致形成寡核苷酸-肽缀合物。

可以使用本领域已知的任何与所选表面相容的共价连接技术将包含肽和核酸的缀合物链共价连接到固体支持物上。如果肽/核酸缀合物结构是用于固相PCR扩增的扩增引物，则与固体支持物的连接必须使核酸部分的3’端游离。

所述肽部分可以被设计为可被任意选定的肽酶切割，其中许多是本领域已知的。肽酶的性质没有特别的限制，只须肽酶可以在所述肽部分的某处切割即可。相似的，所述肽部分的长度和氨基酸序列也没有特别的限制，只是需要它们可以被所选的肽酶切割。

对所述核酸部分的长度和确切序列也没有特别的限制，它可以是任何所需的序列。如果所述核酸部分在固相PCR中起引物作用，那么它的长度和核苷酸序列将被选择成能够与待扩增模板退火。

限制性核酸内切酶/切口化核酸内切酶的酶消化

用限制性核酸内切酶切割双链多核苷酸是分子生物学领域一项常规使用的技术。切口化核酸内切酶是一类对多核苷酸双链体其中一条链进行选择性切割或“切口化(nick)”的酶，其在分子生物学领域也是公知的。本发明在酶的性质方面并没有限制。基本上任何限制性或切口化核酸内切酶都可以使用，只要在切割位点包含合适的识别序列即可。

随后将进一步详细说明本发明方法。

可使用本领域已知的任何合适的固体支持物和任何合适的连接方式，其中的几个将通过下面的实施例进行说明。与固体支持物的连接可以通过共价连接实现。

多核苷酸双链体将由两条包含由磷酸二酯键连接的脱氧核糖核苷酸的互补多核苷酸链形成，但还可包含一个或多个核糖核苷酸和/或非核苷酸的化学部分和/或非天然核苷酸和/或非天然骨架连接。特别的，双链核酸可在一条或两条链的5’端包含非核苷酸化学部分(例如接头或间隔物)。例如，双链核酸可以包含甲基化核苷酸、尿嘧啶碱基、硫代磷酸酯基团、核糖核苷酸、二醇键、二硫键、肽等，但并不限于此。可以包含这些非DNA或非天然修饰以实现切割或赋予其它所需的性质，例如，实现与固体支持物的共价连接，或作为间隔物将切割位点置于距固体支持物最佳距离处。

模板双链体还可包含位于靶标多核苷酸侧翼5’端和3’端的非靶标序列。如果通过固相扩增形成模板双链体，则这些非靶标序列通常来自于用于固相扩增的引物。

多核苷酸双链体形成包含许多此类第一和第二双链体的单个簇或集群的一部分，所述簇或集群本身通常形成具有许多此类簇或集群的阵列的一部分。术语“簇”和“集群”通篇可以互换使用，其指固体支持物上的离散位点，其包含多个相同的固定化核酸链以及多个相同的固定化互补核酸链。术语“成簇阵列”指由此类簇或集群组成的阵列。

本发明的一个关键特征在于两个测序运行可以发生在成簇阵列的相同簇或集群上。在该阵列上每个集群内的每个双链体都包含相同的双链靶标多核苷酸，而不同的集群可由包含不同双链靶标多核苷酸的双链体形成。在一个具体实施方案中，给定的成簇阵列上至少90％、更特别的至少95％的集群由包含不同双链靶标多核苷酸的模板双链体形成，尽管所述阵列上每个单独的集群内所有的模板双链体包含相同的双链靶标多核苷酸。

然后可以以允许引物杂交的方式处理扩增的多核苷酸。这可以通过下列各项处理进行：加热所扩增的簇使双链体变性，然后在第一测序引物存在的情况下冷却，例如采用氢氧化钠的化学处理以使得所述双链体变性，或者对双链体多核苷酸的一条或两条链进行切割处理。

所述阵列上每个多核苷酸双链体包含相同的通用引物识别区域，以允许使用相同引物对每个簇进行测序。接着第一测序引物与第一模板链杂交，通过将核苷酸连续掺入第一测序引物进行测序反应，从而确定靶标多核苷酸第一区域的序列。

通过将引物与模板链在促进引物与模板退火的条件下相接触来实现测序引物与模板链的杂交。这些条件对于分子生物学领域技术人员来说是公知的。

当第一测序反应完成后，从表面除去延伸的第一测序引物。这可以通过加热或化学变性实现。紧接着第二测序引物与所述模板的第二区域杂交，通过将核苷酸连续添加到第二测序引物进行测序反应，从而确定靶标多核苷酸第二区域的序列。

可以使用任何合适的“合成测序”技术进行测序，其中核苷酸被连续添加到游离的3’羟基上，通常由测序引物退火来提供，导致从5’到3’方向合成多核苷酸链。在一个具体的实施方案中，在每次添加后确定所添加核苷酸的种类。

可用于本发明方法的一个具体的测序方法依赖于使用可充当可逆性链终止子的经修饰核苷酸。本发明中所使用的核苷酸在WO04018497和US7057026中有完整的说明。一旦经修饰的核苷酸被掺入到与被测序模板区域互补的正在伸长的多核苷酸链中，就没有可用的游离3′羟基来指导进一步的序列延伸，因此聚合酶无法添加另外的核苷酸。一旦确定了掺入正在伸长的链中的碱基的种类，可除去3’封闭以允许添加下一个连续核苷酸。通过将使用这些经修饰的核苷酸得到的产物排序，就有可能推断出DNA模板的DNA序列。如果每个经修饰的核苷酸上连接了已知对应不同碱基的不同标记的话，其帮助区分每个掺入步骤中所添加的碱基，那么这些反应可以在单个实验中完成。作为替代的，可以实施包含每个经修饰的核苷酸的单独反应，其中核苷酸是分别添加的。

经修饰的核苷酸可能携带标记以方便其检测。在一个具体的实施方案中，所述标记是荧光标记。每个核苷酸类型可以携带不同的荧光标记。适合在本发明中使用的荧光标记在美国申请60/801270中有说明。然而，可检测标记不一定是荧光标记。可以检测DNA序列中所掺入核苷酸的任何标记都可以使用。

一种检测带有荧光标记的核苷酸的方法包括使用对标记核苷酸的特定波长激光或使用其它合适的光源。可以通过CCD相机或其它合适检测方法检测核苷酸上标记所发的荧光。一种适合确定掺入核苷酸所发出的荧光信号的成像系统在申请60/788248中有说明。

本发明的方法并不仅限于使用上述的测序方法，而是可以与基本上任何依赖于在核苷酸链上连续掺入核苷酸的测序方法联用。合适的技术包括，例如：Pyrosequencing^TM、FISSEQ(荧光原位测序)、MPSS(大规模平行测序技术)和基于连接的测序方法，如US6306597中所述。

用本发明方法测序的靶标双链多核苷酸可以是任何需要测序的多核苷酸。所述靶标多核苷酸可以是已知的、未知的或部分已知的序列，例如在重测序应用中的那些。使用下面详细说明的模板制备方法，有可能从基本上任何具有已知、未知或部分已知序列的双链靶标多核苷酸开始制备模板阵列。通过使用阵列，就可能平行的对相同或不同序列的多个靶标测序。成对方法的一个具体的应用是在基因组DNA片段的测序中。本方法为基因组重排的鉴别提供了特别的优点，这是因为使用本方法获得的每个靶标分子的两个序列区域已知在基因组中一定距离内彼此相连，其取决于起始靶标分子的大小。

待测序模板的制备

可以通过固相核酸扩增产生核酸集群来制备适合使用本发明方法测序的模板。这可以使用WO98/44151和WO00/18957中所述的类似程序进行，其内容通过参考以整体形式并入本文。

为进行扩增，将两种扩增引物的混合物固定化或“接枝”到合适的固体支持物表面上。

所述扩增引物是具有以下结构的寡核苷酸分子：

正向引物：A-L-X-S1

反向引物：A-L-X-S2

其中A代表允许连接到固体支持物的部分，L是任选的接头部分，X是任选的切割位点，S1和S2是允许包含靶标双链多核苷酸的模板核酸分子扩增的多核苷酸序列。

引物的混合物一般包含大体相等含量的正向和反向引物。

L代表可被包含在内但并非严格必不可少的接头。该接头可以是包含碳的链，例如式为(CH₂)_n的那些，其中“n”是从1到约1500，例如小于约1000，特别的小于100，例如从2到50，特别的从5到25。然而，也可使用多种其它的接头，对它们的结构唯一的限制是接头必须在随后计划使用多核苷酸的条件下稳定，例如DNA扩增和测序时使用的条件。

还可使用那些不只由碳原子组成的接头。此类接头包括具有通式为(CH₂-CH₂-O)_m的聚乙二醇，其中m为1到600，特别的小于约500。

也可修饰主要由碳原子链和PEG构成的接头以包含打断所述链的官能团。此类基团的例子包括酮、酯、胺、酰胺、醚、硫醚、亚砜、砜。可以单独使用或与此类官能团的存在组合使用烯类、炔类、芳香族或杂芳族部分，或环脂类(例如环己基)。例如，环己基或苯基可以通过其1位和4位被连接到PEG或(CH₂)_n链上。

作为上述主要基于饱和碳原子的线性链并任选地插入有不饱和碳原子或杂原子的接头的替代选择，可以考虑基于核酸或单糖单元(如葡萄糖)的其它接头。使用肽作为接头也在本发明范围之内。

在另一个实施方案中，接头可包含构成扩增引物的一部分但不参与任何发生在引物上或使用引物进行的反应(例如，杂交或扩增反应)的一个或多个核苷酸。此类核苷酸在本文中也可称为“间隔物”多核苷酸。通常可包含1到20个，更特别的1到15个或1到10个，更特别的2、3、4、5、6、7、8、9或10个间隔核苷酸。最特别的，所述引物包含10个间隔核苷酸。可使用多聚T间隔物，尽管也可使用其它核苷酸和其组合。在一个特别的实施方案中，所述引物可包含10T间隔核苷酸。

所述一个或多个间隔核苷酸的功能是将靶标杂交和指导扩增所需的引物部分与同固体支持物相连接的位点(即S1或S2)间隔开来。在5’端包含间隔核苷酸可以显著改善互补多核苷酸与区域S1或S2杂交的性能。在一个具体的实施方案中，多核苷酸包含10T间隔核苷酸和用于连接固体支持物的5’硫代磷酸酯基团(A部分)，尽管如下所述可使用其它的连接部分。

正向和反向引物中的序列S1和S2是以组合的形式通过固相桥联扩增反应来指导模板扩增的多核苷酸序列。待扩增模板本身必须在3’端包含(当视作单链时)能够与正向引物中序列S1杂交的序列以及在5’端包含其互补序列能够与反向引物中序列S2杂交的序列。

正向和反向引物寡核苷酸中的序列S1和S2的确切性质取决于计划扩增的模板的性质。S1和S2必须能够与待扩增模板互补链的相应序列杂交。术语“杂交”包括引物和模板之间序列特异性结合。引物与模板链上其相应序列的结合应在标准PCR中引物和模板退火所使用的典型条件下发生。典型的杂交条件为初始变性步骤之后的40℃5×SSC。序列S1和S2与待扩增模板链上其相应序列的完全互补对杂交来说并不是必不可少的。

S1和S2可具有不同的或相同的序列，其长度通常为大约20-30个核苷酸。引物可以包括天然和非天然的DNA碱基、核糖核苷酸或其任何组合，还可包括非天然骨架连接，如二硫键或硫代磷酸酯。

切割位点X可位于序列S1或S2内，或者如果接头L本身是多核苷酸片段，则它们可形成接头区域L的一部分。在其它一些实施方案中，切割位点可在序列L和S1或者L和S2连接处形成，或者在A部分和接头L(如果存在的话)或在A部分和序列S1或S2之间(如果L不存在的话)连接处形成。

A部分可以是任何允许寡核苷酸引物固定在固体支持物上的化学部分。固体支持物的表面本身可以被官能化以允许引物的连接。可以使用任何合适的共价或非共价连接方法，其中许多是本领域公知的。

例如，生物素化的白蛋白(BSA)可以通过蛋白在表面上的物理吸附而形成生物素基团的稳定附着。也可使用硅烷进行共价修饰，其被用于将分子连接到固体支持物上，通常是玻璃载片。例如，四乙氧硅烷和三乙氧基-溴乙酰氨基丙基-硅烷(triethoxy-bromoacetamidopropyl-silane)的混合物(如1：100的比例)可用于制备官能化的玻璃载片，其允许包含硫代磷酸或硫代磷酸酯官能团的核酸分子附着。使用可以与氨基表面反应的如生物素-PEG-琥珀酰亚胺酯的合适反应性物质，可以将生物素分子附着到表面上。接着可以将扩增引物的混合物与官能化的固体支持物相接触。

在一个替代性实施方案中，可以使用官能化的聚丙烯酰胺水凝胶来连接引物，其中A部分为含硫亲核基团。合适的含有硫亲核体的多核苷酸例子在Zhao et al(Nucleic Acids Reseach，2001，29(4)，955-959)以及Pirrung et al(Langmiur，2000，16，2185-2191)中公开，它包括例如简单硫醇、硫代磷酸酯和硫代磷酰氨基酸酯(thiophosphoramidate)。特定的水凝胶有由以下两类物质混合所构成的，(i)第一共聚单体，其是丙烯酰胺、甲基丙烯酰胺、甲基丙烯酸、甲基丙烯酸羟乙基酯或N-乙烯基吡咯烷酮；和(ii)第二共聚单体，它们是式(I)的官能化的丙烯酰胺或丙烯酸酯：

H₂C＝C(H)-C(＝O)-A-B-C(I)

或者式(II)的甲基丙烯酸酯或甲基丙烯酰胺：

或H₂C＝C(CH₃)-C(＝O)-A-B-C-(II)

(其中：

A是NR或O，其中R是氢或包含1到5个碳原子的任选地取代的饱和烃基；

-B-是任选地取代的式为-(CH₂)_n-的亚烷基双基(biradical)，其中n是1到50的整数；其中n＝2或更大时，所述亚烷基双基的一个或多个任选地取代的亚乙基双基-CH₂CH₂-可以独立地被亚乙烯基或亚乙炔基所取代；其中n＝1或更大时，一个或多个亚甲基双基-CH₂-可以被包含4到50个碳原子的任选地取代的单或多环烃取代，或被相应的杂单环基或杂多环基双基取代，其中至少一个CH₂或CH₂被氧、硫或氮原子或NH基所取代；以及

C是和化合物反应(以将所述化合物共价结合到水凝胶上)以形成聚合产物的基团。可以通过丙烯酰胺和N-(5-溴乙酰氨基戊基)丙烯酰胺(N-(5-bromoacetamidylpentyl)acrylamide，BRAPA)共聚形成特定的水凝胶。

如本文中所用到的，术语“固体支持物”是指多核苷酸分子连接到其上的物质。合适的固体支持物有市售的，其对本领域技术人员来说是显而易见的。可以使用例如玻璃、陶瓷、硅石和硅的材料生产所述支持物。也可以使用具有金表面的支持物。所述支持物通常包含一个平的表面(平面)，或至少包含其中待连接的多核苷酸大致在同一平面上的结构。作为替代的，所述固体支持物可以为非平面，例如微珠。可使用任何合适的尺寸。例如，所述支持物可以在每个方向上是1到10cm的量级。

对于要进行的接枝反应，将扩增引物的混合物在允许A部分和所述支持物发生反应的条件下施加于(适当官能化的)固体支持物。接枝反应的结果是固体支持物上的引物大体平均分布。

在一些特定实施方案中，待扩增模板可以与扩增引物一起在单个接枝反应中接枝到固体支持物上。这可以通过将在5’端包含A部分的模板分子添加到引物的混合物中以形成引物-模板混合物来实现。接着该混合物在单步骤中接枝到固体支持物上。然后，可以使用固定化的模板和引物在类似于WO00/18957中所述的反应中进行扩增。该反应的第一步是表面结合的模板和表面结合的扩增引物之间的杂交。

如果仅仅引物的混合物接枝到固体支持物表面，并且待扩增模板存在于游离溶液中，则扩增反应大体上可如WO98/44151中所述进行。简单的说，引物连接之后，在允许模板和固定化引物杂交的条件下将所述固体支持物与待扩增模板相接触。通常在合适的杂交条件下将所述模板加入到游离溶液中，这对本领域技术人员是明显的。通常杂交条件为例如40℃5×SSC，其是在起始变性步骤之后进行。接着可以进行固相扩增，扩增的第一步是引物延伸步骤，其中将核苷酸添加到与模板杂交的固定化引物的3’端以生成一个完整延伸的互补链。这样该互补链在其3’端包含能够与固定在固体支持物上的第二引物分子结合的序列。进一步的扩增轮(与标准PCR反应类似)导致形成结合于固体支持物的模板分子的簇或集群。

扩增引物中的序列S1和S2可以是期望扩增的特定靶标核苷酸特异性的，但在另一些实施方案中，序列S1和S2可以是“通用的”引物序列，其使得可以扩增任何具有已知或未知序列的经修饰而其可以被通用引物扩增的靶标核酸。

可以通过在待扩增靶标核酸分子的5’端和3’端添加已知接头序列来修饰靶标双链多核苷酸，由此可制备可用通用引物待扩增的合适模板。靶标分子本身可以是任何需要测序的双链分子(如，人类基因组DNA的随机片段)。接头序列使得可以使用具有上述通用结构的正向和反向引物扩增固体支持物上的这些分子以形成簇，其中序列S1和S2是通用的引物序列。

所述接头通常是短链寡核苷酸，其可以通过常规方法合成。所述接头可以通过多种方式(例如亚克隆、连接等)附加到靶标核酸片段的5’端和3’端。更特别的，将两种不同的接头序列附加到待扩增靶标核酸分子上使得一个接头附加到靶标核酸分子的一端而另一个接头分子连接到靶标核酸分子另一端。包含侧翼是接头的靶标核酸序列的所得构建物在本文中被称为“模板核酸构建物”。

在用接头序列修饰之前可以有利地按尺寸将靶标双链多核苷酸分级。

所述接头包含允许使用固定于固体支持物上的扩增引物分子扩增核酸的序列。所述接头中的这些序列在本文中可被称为“引物结合序列”。为了起到核酸扩增模板的作用，模板构建物的一条单链必须包含与正向扩增引物中序列S1互补的序列(这样所述正向引物分子可结合并引发互补链合成)以及与反向扩增引物分子中序列S2相对应的序列(这样反向引物分子可以结合到互补链上)。接头中允许与引物分子杂交的序列通常长约20-30个核苷酸，但是本发明并不限于此长度的序列。

扩增引物中序列S1和S2确切身份(identity)，以及接头中的相应序列，通常来说对本发明并不重要，只要所述引物分子可以与扩增序列相互作用来指导桥式扩增即可。引物设计的原则通常对本领域技术人员来说都是很熟悉的。

通过WO 98/44151或WO 00/18957中类似的方法实施的固相扩增将导致生成“桥式”扩增产物的集群的阵列。扩增产物的两条链都在5’端或临近5’端的位置固定于固体支持物，该连接来自于扩增引物的初始连接。通常，每个集群内的扩增产物来自于单靶标分子的扩增。

本发明测序方法的应用并不仅限于对扩增反应所产生模板的测序。本方法还可以应用于对通过适于杂交和测序重复循环的任何其它方法固定于支持物上的双链模板的测序。

可通过参考下文实施例进一步理解本发明。

实施例

下列为可应用于本发明方法实施的常规技术的实施例。可以按照公开的参考文献WO07010251中所述方法制备簇，其方案以参考形式并入本文。

实施例1：用丙烯酰胺包被玻璃芯片

所用的固体支持物通常是8通道玻璃芯片，如Silex Microsystems(Silex Microsystem，Sweden)、Mironit (Twente，Nederland)或IMT等公司(Neuchatel，Switzerland)所提供的产品。然而，实验条件和程序也可以容易地适用于其它固体支持物。

按以下步骤清洗芯片：纯Decon清洗30分钟、milliQ水清洗30分钟、1NNaOH清洗15分钟、milliQ水清洗30分钟、0.1N HCl清洗15分钟、milliQ水清洗30分钟。

聚合物溶液制备

制备10ml 2％的聚合混合物

-10ml 2％丙烯酰胺的milliQ水溶液

-165μl 100mg/ml的N-(5-溴乙酰氨基戊基)丙烯酰胺(BRAPA)的DMF溶液(23.5mg溶于235μl DMF)

-11.5μl的TEMED

-100μl 50mg/ml过硫酸钾的milliQ水溶液(20mg溶于400μl水中)首先用氩气对10ml丙烯酰胺溶液除气15分钟。依次将BRAPA、TEMED和过硫酸钾溶液加入到丙烯酰胺溶液中。接着将混合物快速涡旋混合后立即使用。随后聚合反应在室温下进行1小时30分。然后，用milliQ水清洗通道30分钟。随后通过从进口吹氩气来干燥载片，并将其贮存在低压干燥器中。

实施例2 N-(5-溴乙酰氨基戊基)丙烯酰胺(BRAPA)的合成

N-Boc-1，5-二氨基戊烷甲苯磺酸得自Novabiochem。溴乙酰氯和丙烯酰氯得自Fluka。所有其它试剂均为Aldrich的产品。

通过压力平衡式滴液漏斗在0℃下历时1小时将丙烯酰氯(1.13毫升，1eq)加入到N-Boc-1，5-二氨基戊烷甲苯磺酸(5.2克，13.88mmol)和三乙胺(4.83毫升，2.5eq)在THF(120毫升)中的搅拌悬浮液。在室温下搅拌反应混合物并用TLC检测反应进度(石油醚：乙酸乙酯1：1)。两小时后，滤掉反应中形成的盐并将滤液蒸发至干燥。用快速层析纯化残余物(先用纯石油醚，然后用最高至60％的乙酸乙酯梯度)得到2.56g(9.98mmol，71％)浅褐色固体产物2。¹H NMR(400MHz，d₆-DMSO)：1.20-1.22(m，2H，CH₂)，1.29-1.43(m，13H，tBu，2xCH₂)，2.86(q，2H，J＝6.8Hz和12.9Hz，CH₂)，3.07(q，2H，J＝6.8Hz和12.9Hz，CH₂)，5.53(dd，1H，J＝2.3Hz和10.1Hz，CH)，6.05(dd，1H，J＝2.3Hz和17.2Hz，CH)，6.20(dd，1H，J＝10.1Hz和17.2Hz，CH)，6.77(t，1H，J＝5.3Hz，NH)，8.04(bs，1H，NH)。C₁₃H₂₄N₂O₃的质量(电喷雾+)计算值为256，实测值为279(256+Na⁺)。

产物2(2.56g，10mmol)溶解于三氟乙酸：二氯甲烷(1：9，100ml)中并在室温下搅拌。通过TLC监测(二氯甲烷：甲醇9：1)反应进程。结束时，将反应混合物蒸发至干燥，残余物与甲苯共蒸发3次，然后用快速色谱进行纯化(用纯二氯甲烷，然后用最高至20％的甲醇梯度)。得到白色粉末状的产物3(2.43g，9mmol，90％)。¹H NMR(400MHz，D₂O)：1.29-1.40(m，2H，CH₂)，1.52(quint.，2H，J＝7.1Hz，CH₂)，1.61(quint.，2H，J＝7.7Hz，CH₂)，2.92(t，2H，J＝7.6Hz，CH₂)，3.21(t，2H，J＝6.8Hz，CH₂)，5.68(dd，1H，J＝1.5Hz和10.1Hz，CH)，6.10(dd，1H，J＝1.5Hz和17.2Hz，CH)，6.20(dd，1H，J＝10.1Hz和17.2Hz，CH)。C₈H₁₆N₂O的质量(电喷雾+)计算值为156，实测值为179(156+Na⁺)。

通过压力平衡滴液漏斗在-60℃下(在杜瓦瓶中cardice和异丙醇浴)历时1小时将溴乙酰氯(2.07毫升，1.1eq)加入到产物3(6.12g，22.64mmol)和三乙胺(6.94ml，2.2eq)的THF(120ml)混悬液中。然后反应混合物在室温下搅拌过夜，在次日通过TLC(二氯甲烷：甲醇9：1)检测反应的完成情况。滤去反应生成的盐并将反应混合物蒸发至干燥。残余物用色谱纯化(用纯二氯甲烷，然后再用最高至5％的甲醇梯度)。得到3.2g(11.55mmol，51％)白色粉末状产物1(BRAPA)。在石油醚：乙酸乙酯的混合物中对产物进行重结晶，得到3g产物1。¹H NMR(400MHz，d₆-DMSO)：1.21-1.30(m，2H，CH₂)，1.34-1.48(m，4H，2xCH₂)，3.02-3.12(m，4H，2xCH₂)，3.81(s，2H，CH₂)，5.56(d，1H，J＝9.85Hz，CH)，6.07(d，1H，J＝16.9Hz，CH)，6.20(dd，1H，J＝10.1Hz和16.9Hz，CH)，8.07(bs，1H，NH)，8.27(bs，1H，NH)。C₁₀H₁₇BrN₂O₂的分子量(电喷雾+)计算值为276或278，实测值为279(278+H⁺)，299(276+Na⁺)。

实施例3：引物的接枝

将SFA包被的流通池(flowcell)置于改装过的MJ-Research热循环仪中，并连接蠕动泵。将10mM磷酸缓冲液(pH7.0)中的0.5μM正向引物和0.5μM反向引物组成的接枝混合物以60μl/分钟的流速在20℃下75秒内泵入流通池的通道内。随后将热循环仪加热到51.6℃，流通池在该温度下孵育1小时。在这段时间内，接枝混合物经历了18轮泵循环：以15μl/分钟的流速持续泵入接枝混合物20秒，接着将溶液来回地(以15μl/分钟泵入5秒，然后以15μl/分钟泵出5秒)泵入泵出180秒。在18个泵循环之后，流通池以15μl/分钟的流速在51.6℃下泵入5xSSC/5mM EDTA清洗，持续300秒。接着将热循环仪冷却至20℃。

通常，所述引物是掺入切割所需的任何特异序列或修饰的5’硫代磷酸酯化寡核苷酸。它们的序列和供应商根据它们用于实验的不同而不同，而在本实施例中，其与模板双链体5’端互补。对于所述的实验，扩增的簇在接枝引物之一中包含二醇键。可以通过将合适的亚磷酰胺中间体加入到用于固相扩增的引物之一中而引入二醇键，如WO07010251中所述。

接枝引物在5’末端含有T碱基序列，其用作间隔基团以辅助线性化和杂交。在商业化DNA合成仪上在标准的偶联条件下使用二醇亚磷酰胺制备寡核苷酸。氨水中的最终切割/去保护步骤从受保护的二醇部分切割下醋酸基，从而使溶液中的寡核苷酸包含二醇基修饰。接枝到流通池上的两个引物的序列为：

P5＝5′-PS-TTTTTTTTTT-Diol-AATGATACGGCGACCACCGA-3′

和

P7＝5′-PS-TTTTTTTTTTCAAGCAGAAGACGGCATACGA-3′

实施例4：簇形成

用于扩增过程的DNA序列是5种单模板序列的混合物，其末端与接枝引物互补。其中一个单模板双链体的全序列如图12所示，该19个碱基的可变靶标区域的序列如图2中所示。所述双链DNA(1nM)用0.1M氢氧化钠处理变性，随后在“杂交缓冲液”(5xSSC/0.1％吐温)中快速稀释(snap dilution)至所需的0.2-2pM“工作浓度”

通过使用MJ Research热循环仪的热循环来进行表面扩增，该仪器与有装配了Ismatec管(桔黄/黄色，0.51mm ID)的8通道蠕动泵IsmatecIPC ISM931联用。

临扩增反应前将单链模板与所述接枝引物杂交，因此其是由初始引物延伸步骤而不是由模板变性步骤开始。杂交程序从严格缓冲液中的加热步骤开始以保证在杂交前完全变性。在杂交后，其是在20分钟的缓慢冷却步骤中发生的，用清洗缓冲液清洗所述流通池5分钟(0.3xSSC/0.1％吐温)。

典型的扩增过程在下表中有详细说明，并详细说明了每个通道的流通体积：

杂交预混物(缓冲液)＝5xSSC/0.1％吐温；

杂交混合物＝0.1M氢氧化物DNA样品，在杂交预混物中稀释；

清洗缓冲液＝0.3xSSC/0.1％吐温；

扩增预混物＝2M甜菜碱，20mM Tris，10mM硫酸铵，2mM硫酸镁，0.1％Triton，1.3％DMSO，pH8.8；

扩增混合物＝2M甜菜碱，20mM Tris，10mM硫酸铵，2mM硫酸镁，0.1％Triton，1.3％DMSO，pH8.8加上200μm dNTP混合物和25单位/mL的Taq聚合酶(NEB产品号M0273L)。

可以用多种方法处理簇以便测序：

实施例5：非线性化簇的测序

接着通过以15μL/分的流速在所有通道中泵过0.1M氢氧化钠将所述通道变性，持续5分钟。为了帮助链分离，将包含氢氧化钠的芯片加热到80℃，以15μl/min的流速泵入杂交缓冲液(0.3xSCC)中的测序引物，持续5分钟。接着将芯片冷却至66℃，并在此温度下孵育15分钟。

将芯片冷却到40℃，并用0.1xSSC/0.1％吐温清洗5分钟。

如下所述实施测序酶反应的循环，其表现为在非线性化簇和线性化簇上的掺入。对这些图的分析揭示出非线性化簇上的掺入程度大约是线性化簇的一半。

在用0.1M氢氧化钠变性之后，使第二测序引物杂交以进行模板其它链上的第二测序运行。

实施例6：使用单链模板上两步杂交对线性化簇测序

步骤1：线性化

为了使流通池通道内所形成的核酸簇线性化，使线性化缓冲液以15μl/分的流速在室温下流过流通池(总体积为300μl每通道)，持续20分钟，随后在室温下流过5分钟的水。

线性化缓冲液由1429μl的水，64mg的高碘酸钠，1500μl的甲酰胺，60μl 1M pH为8的Tris，以及11.4μL的3-氨基丙醇组成，混合后终体积为3ml。使高碘酸盐先与水混合，而Tris与甲酰胺混合。然后两溶液混合在一起，将3-氨基丙醇加入该混合物。

步骤2：封闭可延伸的3’羟基

为了制备封闭预混物，将1360μl的水，170μl的10×封闭缓冲液(NEB缓冲液4；产品号为B7004S)，170μl的氯化钴(25mM)混合，终体积为1700μl。为了制备封闭混合物，将1065.13μl的封闭预混物，21.12μl的125μM ddNTP混合物，以及13.75μl的TdT末端转移酶(NEB；部分号M0252S)混合，终体积为1100μL。

为了封闭流通池通道中所形成的簇中的核酸，使所述封闭缓冲液流经流通池，温度按以下示例性实施方案中所示进行调节。

步骤	说明	温度(℃)	时间(秒)	流速(μl/分)	泵入体积(μl)
						1	泵入封闭预混物	20	200	15	50
2	泵入封闭混合物	37.7	300	15	75
						3	停止流动并保持温度	37.7	20	静止	0
4	循环泵入封闭混合物，等待	37.7	8x(20+180)	15/静止	45
						5	泵入清洗缓冲液	20	300	15	75

步骤3：测序引物的变性和杂交

为了制备引物混合物，将895.5μl的杂交预混物/缓冲液和4.5μl的测序引物(100μM)混合至终体积为900ul。这些反应中所用的两个测序引物的序列如下所示：

第一读取的测序引物：

5’AATGATACGGCGACCACCGAGATGAAGGTATAGAT

第二读取的测序引物：

5’ACACTCTTTCCCTACACGACGCTCTTCCGATC

为了使簇中的核酸变性并与所述测序引物杂交，将合适的溶液流过流通池，如下所述：

步骤	说明	温度(℃)	时间(秒)	流速(μl/分)	泵入体积(μl)
						1	泵入0.1M NaOH	20	300	15	75
2	泵入TE	20	300	15	75
						3	泵入引物混合物	20	300	15	75
4	保持在60C	60	900	0	0
						5	泵入清洗缓冲液	40.2	300	15	75

在第一测序运行之后，可以重复该过程以除去第一运行的引物并与第二测序引物杂交。在测序引物变性和杂交之后，流通池即可用于测序。

实施例7：DNA测序循环

使用按照国际专利申请WO 2004/018493中所述制备的并用四种不同的市售荧光团(Molecular Probes Inc.)标记的经修饰核苷酸进行测序。

一种突变9°N聚合酶(一种包含三突变L408Y/Y409A/P410V和C223S的外切型变体(exo-variant))被用于核苷酸掺入步骤。

将掺入混合物、掺入缓冲液(50mM Tris-HCl pH8.0，6mM MgSO₄，1mM EDTA，0.05％(v/v)Tween-20，50mM NaCl)以及110nM YAV外切型-C223S和各1μM的四种经标记的经修饰核苷酸施加在成簇模板上，并加热到45℃。

模板在45℃保持30分钟，冷却至20℃并用掺入缓冲液清洗，再用5xSSC/0.05％吐温20清洗。然后，模板暴露于成像缓冲液(新溶解的100mM Tris pH7.0，30mM NaCl，0.05％吐温20，50mM抗坏血酸钠)。

模板在室温下用四种颜色扫描。

模板接着暴露于如下所述的切割和掺入的测序循环：

切割

提供切割缓冲液(0.1M Tris pH7.4，0.1M NaCl和0.05％吐温20)。加热至60℃。

用切割混合液(切割缓冲液中的100mM TCEP)处理所述簇。

共等待15分钟，另外每4分钟泵入新鲜缓冲液。

冷却至20℃。

用酶缓冲液清洗。

用5xSSC/0.05％吐温20清洗。

提供成像缓冲液。

室温下用4种颜色扫描。

掺入

提供掺入缓冲液，加热到60℃。

用掺入缓冲液处理。共等待15分钟，另外每4分钟泵入新鲜缓掺入混合液。

冷却至20℃。

用掺入缓冲液清洗。

用5xSSC/0.05％吐温20清洗。

提供成像缓冲液。

室温下用4种颜色扫描。

重复所需循环数的掺入和切割过程。

使用基于全内反射的荧光CCD成像设备检测掺入的核苷酸。

本发明方法的示意图在图1中给出。测序反应所得的数据列于图2和3中。每一运行中所得的测序数据在质量上相当，并且大于99％的第一运行的簇也在第二运行中产生测序数据。另外，每个来自第二运行的序列可以与文库中五个预期序列之一相对应。该数据明确的显示，如下各项是可能的：将第一测序引物与线性化簇杂交、得到测序读取、除去第一延伸引物、与第二引物杂交以及得到第二读取。尽管所示数据是从已知序列的单模板的混合物中得到的，以验证该方法的有效性，但是模板的序列对本发明的有效性并不重要，因此任何使用本文所述的方法制备和扩增的模板或3’和5’端修饰的模板文库都在本发明范围之内。

Claims

1.一种对固定于固体支持物上的双链多核苷酸第一和第二区域成对测序的方法，其中所述第一和第二区域在同一靶标双链多核苷酸上，该方法包括：

(a)提供固体支持物，其上已固定化了多个双链多核苷酸，每个双链多核苷酸都是由其5’端连接在所述固体支持物上的互补的第一和第二模板链所形成的，其中每个双链模板多核苷酸都包含靶标双链多核苷酸；

(b)对所述多个双链多核苷酸进行处理使所述双链模板多核苷酸变性，以允许测序引物与所述第一或第二模板链杂交；

(c)将第一测序引物与(b)部分中所生成的所述第一或第二模板链杂交；

(d)使用利用了聚合酶和经标记核苷酸的引物延伸循环来进行第一测序反应以监测经标记核苷酸在第一测序引物上的掺入，从而生成第一延伸测序引物，并确定模板多核苷酸第一区域的序列；

(e)除去步骤(d)中所述延伸测序引物；

(f)将第二测序引物与步骤(c)的所述模板链或其互补序列杂交；以及

(g)使用利用了聚合酶和经标记核苷酸的引物延伸循环来进行第二测序运行以监测经标记核苷酸在第二测序引物上的掺入，从而生成第二延伸测序引物，并确定模板多核苷酸第二区域的序列，其中确定所述模板多核苷酸的第一和第二区域的序列实现了所述靶标双链多核苷酸的所述第一和第二区域的成对测序。

2.根据权利要求1的方法，其中通过加热和冷却杂交所述第一和第二引物。

3.根据权利要求1或2的方法，其中在化学变性步骤后杂交所述第一引物。

4.根据权利要求1或2的方法，其中通过化学变性除去所述第一引物。

5.根据权利要求4的方法，其中使用氢氧化钠溶液、甲酰胺溶液或尿素溶液实施所述化学变性。

6.根据权利要求5的方法，其中氢氧化钠溶液浓度大于0.05M。

7.根据权利要求1或2的方法，其中所述靶标双链多核苷酸在所述靶标双链多核苷酸的第一和第二区域之间包含已知的引物区域。

8.根据权利要求7的方法，其中内部的已知引物区域含有可以被限制性酶识别的位点，其中使用所述限制性酶实施步骤(b)中的所述处理以使所述靶标双链多核苷酸变性，使用加热或化学变性来从表面除去非共价连接的单链多核苷酸区域。

9.根据权利要求7的方法，其中使用所述第一和第二测序引物对所述固定化多核苷酸的第一和第二区域进行测序，所述测序引物与所述已知内部引物的不同区域互补。

10.根据权利要求1或2的方法，其中步骤(a)中多个模板双链多核苷酸存在于成簇阵列上。

11.根据权利要求10的方法，其中所述成簇阵列是通过固相核酸扩增形成的。

12.根据权利要求1或2的方法，其中针对包含不同序列的多个模板多核苷酸同时实施对靶标双链多核苷酸第一和第二区域的成对测序。

13.根据权利要求1或2的方法，其中所述第一和第二引物与所述双链模板多核苷酸的同一链杂交。

14.根据权利要求1或2的方法，其中所述引物包含不同序列。