CN121219408A

CN121219408A - 聚合酶变体

Info

Publication number: CN121219408A
Application number: CN202480032382.8A
Authority: CN
Inventors: 欧文·卡布尼克·史密斯; 肖恩·帕特里克·泰伊; 轩·宇·埃利安·李; 拉姆齐·易卜拉欣·泽图恩; 陈思远
Original assignee: Twist Bioscience Corp
Current assignee: Twist Bioscience Corp
Priority date: 2023-04-21
Filing date: 2024-04-17
Publication date: 2025-12-26
Also published as: AU2024259004A9; KR20250175336A; WO2024220475A1; AU2024259004A1

Abstract

本文描述了涉及酶多肽和文库的方法和组合物，所述文库具有编码包含变体氨基酸序列的多肽的核酸。本文还描述了使用具有变体氨基酸序列的酶多肽延伸多核苷酸分子的方法。本文还描述了使用具有变体氨基酸序列的聚合酶多肽用于制备测序文库的方法。

Description

聚合酶变体

相关申请的交叉引用

本申请要求2023年4月21日提交的美国临时专利申请第63/497,665号的优先权，该美国临时申请的全部内容通过引用并入本文。本说明书中提及的所有出版物、专利和专利申请均通过引用并入本文，其程度如同每个单独出版物、专利或专利申请被具体地和单独地指出通过引用来并入。

背景

酶能够催化宽范围的化学反应，包括用于测序应用的化学生物学中使用的那些。然而，酶的设计和实施方式可以是具有挑战性的。因此，需要开发用于优化酶性质的组合物和方法。

总结

本文提供了包含相对于SEQ ID NO: 1包含至少一个氨基酸突变的氨基酸序列的多肽。在一些实施方案中，氨基酸序列与SEQ ID NO: 3-9中的任一个至少80%、至少90%、至少95%、至少98%或100%同源。在一些实施方案中，突变包括添加、缺失、取代或其组合。在一些实施方案中，相对于SEQ ID NO: 1，缺失包括从N末端的250-300个氨基酸。在一些实施方案中，多肽相对于SEQ ID NO: 1包含至少2个、至少3个或至少4个氨基酸突变。在一些实施方案中，突变在相对于SEQ ID NO: 1的位置V449、V493、L522、L605、T664、E681、W706、D732、R736、R736和G824中的一个或更多个处。在一些实施方案中，相对于SEQ ID NO: 1，突变选自V449F、V493L、L522I、L605C、T664I、E681G、W706Y、D732A、R736K、R736Q和G824A中的一种或更多种。在一些实施方案中，多肽包含纯化标签。

本文还提供了编码多肽的核酸分子，和包含核酸分子的载体和细胞。

本文提供了用于延伸第一多核苷酸的方法。在一些方面，该方法包括使第一多核苷酸与核苷酸和多肽接触以形成延伸的多核苷酸。在一些方面，多肽包含相对于SEQ IDNO: 1包含至少一个氨基酸突变的氨基酸序列。在一些实施方案中，第一多核苷酸包含基因组DNA或其片段、cDNA或三磷酸腺苷。在一些实施方案中，该方法对于单个核苷酸的掺入是至少90%选择性的。在一些实施方案中，该方法对于核苷酸类型的掺入是至少90%选择性的。在一些实施方案中，该方法对于腺嘌呤(A)相对于鸟嘌呤(G)是至少95%选择性的。在一些实施方案中，该方法还包括将衔接子连接至延伸的多核苷酸。在一些实施方案中，衔接子包含与延伸的多核苷酸互补的突出端。在一些实施方案中，该方法还包括延伸第二多核苷酸。在一些方面，多核苷酸和第二多核苷酸杂交。

本文提供了用于制备测序文库的方法。在一些方面，方法包括提供多于一种核酸；末端修复该多于一种核酸；使用聚合酶对该多于一种核酸进行a-加尾；和使用连接酶将至少一个衔接子连接至核酸。在一些方面，聚合酶包含相对于SEQ ID NO: 1包含至少一个氨基酸突变的氨基酸序列。

附图简述

图1是根据本公开内容的方面，描绘用于测定TaqIT DNA聚合酶(“TaqIT”)的变体的A-加尾活性的示例性工作流程的图。

图2A-图2D是根据本公开内容的方面，展示示例性衔接子在末端修复和A-加尾之前和之后的末端组成的条形图。图2A描绘了具有不同长度的平末端或突出端的未处理的无细胞DNA (cfDNA)分子的读段计数。图2B描绘了具有不同长度的平末端或突出端的末端修复的cfDNA分子的读段计数。图2C描绘了具有不同长度的平末端或突出端的末端修复的和A-加尾的cfDNA分子的读段计数。图2D描绘了由野生型TaqIT DNA聚合酶添加的具有3’突出端的一个碱基对的末端组成。

图3是根据本公开内容的方面，描绘氨基酸的累积概率(以0.2单位间隔，0.0至1.0)相对于Taq DNA聚合酶中的位置(左到右：730-755)的概率图。

图4A是根据本公开内容的方面，描绘DNA聚合酶的A-加尾变体的示例性第一轮筛选的平均值-归一化结果的散点图。图4B是根据本公开内容的方面，描绘顶级表现者变体相对于野生型DNA聚合酶的倍数变化值的表。

图5A-图5C展示了根据本公开内容的方面，将Taq DNA聚合酶同源物与野生型进行比较的示例性实验的结果。图5A是两种纯化的野生型DNA聚合酶的SDS-PAGE凝胶的照片。图5B是Taq DNA聚合酶的十二种纯化同源物的SDS-PAGE凝胶的照片。图5C是描绘用十二种TaqDNA聚合酶同源物中的每一种和两种野生型DNA聚合酶进行的下一代测序的结果的条形图。

图6A-图6C描绘了根据本公开内容的方面，将TaqIT DNA聚合酶的二元A-加尾变体与野生型进行比较的示例性实验的结果。图6A是描绘来自TaqIT DNA聚合酶的示例性二元A-加尾变体的归一化结果的散点图。图6B是描绘顶级表现者二元变体相对于野生型的倍数变化值的表。图6C是描绘来自TaqIT DNA聚合酶的二元A-加尾变体的另外的结果的散点图。

图7A-图7C描绘了根据本公开内容的方面，评价TaqIT DNA聚合酶的二元变体的示例性实验的结果。图7A是TaqIT DNA聚合酶的纯化的二元变体的SDS-PAGE凝胶的照片。图7B是描绘与野生型相比用二元变体进行的下一代测序的结果的条形图。图7C是描绘另外的二元变体下一代测序结果的条形图。

图8A-图8B描绘了根据本公开内容的方面，评价TaqIT DNA聚合酶的二元A-加尾变体的有效性的示例性实验的结果。图8A是描绘在用二元变体进行A-加尾后具有正确尾部长度的读段的分数的条形图。图8B是描绘具有鸟嘌呤(G)而不是腺苷(A)添加的单个碱基对3’突出端的读段的分数的条形图。

图9A-图9B描绘了根据本公开内容的方面，评价TaqIT DNA聚合酶的三元(tertiary)变体的示例性实验的结果。图9A是描绘三元变体的归一化结果的散点图。图9B是描绘顶级表现者三元变体相对于野生型的倍数变化值的表。

详述

除非另有指示，否则本公开内容采用本领域技术范围内的常规分子生物学技术。除非另有定义，否则本文使用的所有技术术语和科学术语具有与本领域的普通技术人员通常理解的相同的含义。

本文提供了用于测序文库的生成的组合物和方法。本文还提供了用于改善文库生成的工程化酶。本文还提供了用于生成测序文库的聚合酶。

定义

在整个本公开内容中，各种实施方案以范围形式呈现。应当理解，以范围形式的描述仅仅是为了方便和简洁，并且不应当被解释为对任何实施方案的范围的不可改变的限制。因此，除非上下文另有清楚地规定，否则范围的描述应被认为已经具体公开了所有可能的子范围以及该范围内的单独的数值，直至下限单位的十分之一。例如，范围的描述诸如从1至6应该被认为已具体公开了子范围诸如从1至3、从1至4、从1至5、从2至4、从2至6、从3至6等等，以及在该范围内的单独的数字，例如1.1、2、2.3、5和5.9。不论范围的宽度如何，这都适用。这些中间范围的上限和下限可以独立地被包括在较小的范围内，并且也被涵盖在本公开内容内，排除所述范围内的任何特定地排除的限值。在所述范围包括限值中的一个或两个的情况下，除非上下文另有清楚地规定，否则排除那些所包括的限值中的任一个或两个的范围也被包括在本公开内容中。

本文使用的术语仅用于描述特定的实施方案的目的，且不意图限制任何实施方案。除非上下文另有清楚地指示，否则如本文使用的，单数形式“一(a)”、“一(an)”和“该(the)”意图也包括复数形式。还应理解，术语“包括/包含(comprises)”和/或“包括/包含(comprising)”在本说明书中使用时，指定所述特征、整数、步骤、操作、要素和/或组成部分的存在，但不排除存在或添加一个或更多个其他特征、整数、步骤、操作、要素、组成部分和/或它们的组。如本文使用的，术语“和/或”包括所列出的相关的项中的一项或更多项的任何和所有的组合。

除非具体陈述或从上下文中明显，否则如本文使用的，提及数字或数字的范围的术语“约”应理解为意指所述数字及其+/-10%的数字，或对于对范围列出的值的列出的下限以下10%和上限以上10%的数字。

除非具体规定，否则如本文使用的，术语“核酸”、“核酸分子”、“多核苷酸”和“寡核苷酸”涵盖双链或三链核酸分子，以及单链核酸分子。在双链或三链核酸分子中，核酸链不需要是共延伸的(coextensive)(即，双链核酸分子不需要沿着两条链的整个长度为双链的)。除非另有规定，否则在提供时核酸序列按5’至3’方向列出。本文描述的方法提供了分离的核酸的产生。本文描述的方法另外地提供了分离和纯化的核酸的产生。如本文提及的“核酸”的长度可以包括至少5、10、20、30、40、50、60、70、80、90、100、125、150、175、200、225、250、275、300、325、350、375、400、425、450、475、500、600、700、800、900、1000、1100、1200、1300、1400、1500、1600、1700、1800、1900、2000个或更多个碱基。此外，本文提供了用于合成任何数目的编码多肽区段的核苷酸序列的方法，所述核苷酸序列包括编码非核糖体肽(NRP)的序列、编码非核糖体肽合成酶(NRPS)模块和合成变体、其他模块蛋白诸如抗体的多肽区段、来自其他蛋白家族的多肽区段的序列，包括非编码DNA或RNA，诸如调节序列，例如启动子、转录因子、增强子、siRNA、shRNA、RNAi、miRNA、来源于微RNA的小核仁RNA，或任何感兴趣的功能或结构DNA或RNA单元。

以下是多核苷酸的非限制性实例：基因或基因片段的编码或非编码区、基因间DNA、由连锁分析定义的基因座(loci/locus)、外显子、内含子、信使RNA (mRNA)、转运RNA、核糖体RNA、短干扰RNA (siRNA)、短发夹RNA (shRNA)、微小RNA (miRNA)、小核仁RNA、核酶、互补DNA (cDNA)，互补DNA是mRNA的DNA表示，通常通过信使RNA (mRNA)的逆转录或通过扩增获得；合成产生或通过扩增产生的DNA分子、基因组DNA、重组多核苷酸、分支多核苷酸、质粒、载体、任何序列的分离的DNA、任何序列的分离的RNA、核酸探针和引物。编码本文提及的基因或基因片段的cDNA可以包含至少一个编码外显子序列的区域，而没有基因组等同序列中的间插内含子序列。

酶变体

本文提供了用于文库制备的酶。在一些情况下，酶包含聚合酶。在一些情况下，酶被配置为增加非模板化3’核苷酸添加的特异性。在一些情况下，酶被配置为增加非模板化3’腺苷添加的特异性。在一些情况下，酶包含Taq聚合酶。在一些情况下，Taq聚合酶选自下文表1。在一些情况下，Taq聚合酶是截短的Taq聚合酶(例如，TaqIT聚合酶)。在一些情况下，酶包含SEQ ID NO: 1的变体。在一些情况下，酶包含SEQ ID NO: 2的变体。

Taq聚合酶可以用于“A-加尾”，其中腺苷核苷酸从多核苷酸(例如，基因组DNA、cDNA)的3’末端延伸。在一些情况下，延伸以产生突出端有利于与衔接子的连接。在一些情况下，使用T4连接酶或其他连接酶发生连接。在一些情况下，本文提供的变体聚合酶提供了对添加的核苷酸数目的更高控制。在一些情况下，核苷酸包括三磷酸腺苷。在一些情况下，相对于掺入多于一个核苷酸(例如，2个或更多个)，变体酶对单个核苷酸包含至少70%、75%、80%、85%、90%、95%、97%或至少99%的选择性。在一些情况下，本文提供的变体聚合酶提供了对添加的核苷酸类型的更高控制。在一些情况下，变体聚合酶包含对单一核苷酸类型的至少70%、75%、80%、85%、90%、95%、97%或至少99%的选择性。在一些情况下，变体聚合酶包含对腺苷的至少70%、75%、80%、85%、90%、95%、97%或至少99%的选择性。在一些情况下，变体聚合酶对于腺苷(A)相对于鸟苷(G)的单一核苷酸类型包含至少70%、75%、80%、85%、90%、95%、97%或至少99%的选择性。在一些情况下，变体聚合酶延伸第一多核苷酸和第二多核苷酸的3’末端。在一些情况下，第一多核苷酸和第二多核苷酸杂交在一起。

本文提供的酶可以包含SEQ ID NO: 1的一种或更多种变体。在一些情况下，变体包含相对于SEQ ID NO: 1的插入、缺失或取代中的一种或更多种。在一些情况下，缺失包括N末端缺失。在一些情况下，缺失包括C末端缺失。在一些情况下，缺失包括至少10个、25个、30个、50个、60个、100个、150个、200个、250个、280个、300个或至少350个氨基酸的缺失。在一些情况下，缺失包括从N末端至少10个、25个、30个、50个、60个、100个、150个、200个、250个、280个、300个或至少350个氨基酸的缺失。在一些情况下，缺失包括20-300个、20-290个、20-250个、20-200个、50-300个、100-300个、150-300个、200-300个、200-350个、200-400个、250-400个、250-300个、250-350个、275-300个或275-325个氨基酸的缺失。在一些情况下，缺失包括从N末端20-300个、20-290个、20-250个、20-200个、50-300个、100-300个、150-300个、200-300个、200-350个、200-400个、250-400个、250-300个、250-350个、275-300个或275-325个氨基酸的缺失。在一些情况下，变体包含SEQ ID NO: 1的至少1个、至少2个、至少3个、至少4个、至少5个、至少6个、至少7个、至少8个、至少9个、至少10个、至少11个、至少12个、至少13个、至少14个、至少15个或至少16个变体氨基酸位置。在一些情况下，变体包含SEQ ID NO: 1的约1个、约2个、约3个、约4个、约5个、约6个、约7个、约8个、约9个、约10个、约11个、约12个、约13个、约14个、约15个或约16个变体氨基酸位置。本文提供的酶可以包含SEQ ID NO: 2的一种或更多种变体。在一些情况下，变体包含SEQ ID NO: 2的至少1个、至少2个、至少3个、至少4个、至少5个、至少6个、至少7个、至少8个、至少9个、至少10个、至少11个、至少12个、至少13个、至少14个、至少15个或至少16个变体氨基酸位置。在一些情况下，变体包含SEQ ID NO: 2的约1个、约2个、约3个、约4个、约5个、约6个、约7个、约8个、约9个、约10个、约11个、约12个、约13个、约14个、约15个或约16个变体氨基酸位置。

本文提供的酶可以包含在一个或更多个氨基酸位置处具有同源性或相似性和突变的序列。在一些情况下，酶在选自449、493、522、605、664、681、706、732、736或824的一个或更多个位置处包含突变并且与SEQ ID NO: 1包含至少95%相似性。在一些情况下，酶在选自449、493、522、605、664、681、706、732、736或824的两个或更多个位置处包含突变并且与SEQ ID NO: 1包含至少90%相似性。在一些情况下，酶在选自449、493、522、605、664、681、706、732、736或824的三个或更多个位置处包含突变并且与SEQ ID NO: 1包含至少90%相似性。在一些情况下，酶在选自449、493、522、605、664、681、706、732、736或824的四个或更多个位置处包含突变并且与SEQ ID NO: 1包含至少90%相似性。在一些情况下，酶在选自449、493、522、605、664、681、706、732、736或824的五个或更多个位置处包含突变并且与SEQ IDNO: 1包含至少90%相似性。在一些情况下，酶在选自449、493、522、605、664、681、706、732、736或824的六个或更多个位置处包含突变并且与SEQ ID NO: 1包含至少90%相似性。在一些情况下，酶在选自449、493、522、605、664、681、706、732、736或824的七个或更多个位置处包含突变并且与SEQ ID NO: 1包含至少90%相似性。在一些情况下，酶在选自449、493、522、605、664、681、706、732、736或824的八个或更多个位置处包含突变并且与SEQ ID NO: 1包含至少90%相似性。在一些情况下，酶在选自449、493、522、605、664、681、706、732、736或824的九个或更多个位置处包含突变并且与SEQ ID NO: 1包含至少90%相似性。在一些情况下，酶在选自449、493、522、605、664、681、706、732、736或824的十个或更多个位置处包含突变并且与SEQ ID NO: 1包含至少90%相似性。

本文提供的酶可以包含在一个或更多个氨基酸位置处具有同源性或相似性和突变的序列。在一些情况下，酶在选自V449F、V493L、L522I、L605C、T664I、E681G、W706Y、D732A、R736K、R736Q或G824A的一个或更多个位置处包含突变并且与SEQ ID NO: 1包含至少95%相似性。在一些情况下，酶在选自V449F、V493L、L522I、L605C、T664I、E681G、W706Y、D732A、R736K、R736Q或G824A的两个或更多个位置处包含突变并且与SEQ ID NO: 1包含至少90%相似性。在一些情况下，酶在选自V449F、V493L、L522I、L605C、T664I、E681G、W706Y、D732A、R736K、R736Q或G824A的三个或更多个位置处包含突变并且与SEQ ID NO: 1包含至少90%相似性。在一些情况下，酶在选自V449F、V493L、L522I、L605C、T664I、E681G、W706Y、D732A、R736K、R736Q或G824A的四个或更多个位置处包含突变并且与SEQ ID NO: 1包含至少90%相似性。在一些情况下，酶在选自V449F、V493L、L522I、L605C、T664I、E681G、W706Y、D732A、R736K、R736Q或G824A的五个或更多个位置处包含突变并且与SEQ ID NO: 1包含至少90%相似性。在一些情况下，酶在选自V449F、V493L、L522I、L605C、T664I、E681G、W706Y、D732A、R736K、R736Q或G824A的六个或更多个位置处包含突变并且与SEQ ID NO: 1包含至少90%相似性。在一些情况下，酶在选自V449F、V493L、L522I、L605C、T664I、E681G、W706Y、D732A、R736K、R736Q或G824A的七个或更多个位置处包含突变并且与SEQ ID NO: 1包含至少90%相似性。在一些情况下，酶在选自V449F、V493L、L522I、L605C、T664I、E681G、W706Y、D732A、R736K、R736Q或G824A的八个或更多个位置处包含突变并且与SEQ ID NO: 1包含至少90%相似性。在一些情况下，酶在选自V449F、V493L、L522I、L605C、T664I、E681G、W706Y、D732A、R736K、R736Q或G824A的九个或更多个位置处包含突变并且与SEQ ID NO: 1包含至少90%相似性。在一些情况下，酶在选自V449F、V493L、L522I、L605C、T664I、E681G、W706Y、D732A、R736K、R736Q或G824A的十个或更多个位置处包含突变并且与SEQ ID NO: 1包含至少90%相似性。

本文提供的酶可以包含SEQ ID NO: 2的一种或更多种变体。在一些情况下，变体包含SEQ ID NO: 2的至少1个、至少2个、至少3个、至少4个、至少5个、至少6个、至少7个、至少8个、至少9个、至少10个、至少11个、至少12个、至少13个、至少14个、至少15个或至少16个变体氨基酸位置。在一些情况下，变体包含SEQ ID NO: 2的约1个、约2个、约3个、约4个、约5个、约6个、约7个、约8个、约9个、约10个、约11个、约12个、约13个、约14个、约15个或约16个变体氨基酸位置。

本文提供的酶可以包含在一个或更多个氨基酸位置处具有同源性或相似性和突变的序列。在一些情况下，酶在选自V449F、V493L、L522I、L605C、T664I、E681G、W706Y、D732A、R736K、R736Q或G824A的一个或更多个位置处包含突变并且与SEQ ID NO: 2包含至少95%相似性。在一些情况下，酶在选自V449F、V493L、L522I、L605C、T664I、E681G、W706Y、D732A、R736K、R736Q或G824A的两个或更多个位置处包含突变并且与SEQ ID NO: 2包含至少90%相似性。在一些情况下，酶在选自V449F、V493L、L522I、L605C、T664I、E681G、W706Y、D732A、R736K、R736Q或G824A的三个或更多个位置处包含突变并且与SEQ ID NO: 2包含至少90%相似性。在一些情况下，酶在选自V449F、V493L、L522I、L605C、T664I、E681G、W706Y、D732A、R736K、R736Q或G824A的四个或更多个位置处包含突变并且与SEQ ID NO: 2包含至少90%相似性。在一些情况下，酶在选自V449F、V493L、L522I、L605C、T664I、E681G、W706Y、D732A、R736K、R736Q或G824A的五个或更多个位置处包含突变并且与SEQ ID NO: 2包含至少90%相似性。在一些情况下，酶在选自V449F、V493L、L522I、L605C、T664I、E681G、W706Y、D732A、R736K、R736Q或G824A的六个或更多个位置处包含突变并且与SEQ ID NO: 2包含至少90%相似性。在一些情况下，酶在选自V449F、V493L、L522I、L605C、T664I、E681G、W706Y、D732A、R736K、R736Q或G824A的七个或更多个位置处包含突变并且与SEQ ID NO: 2包含至少90%相似性。在一些情况下，酶在选自V449F、V493L、L522I、L605C、T664I、E681G、W706Y、D732A、R736K、R736Q或G824A的八个或更多个位置处包含突变并且与SEQ ID NO: 2包含至少90%相似性。在一些情况下，酶在选自V449F、V493L、L522I、L605C、T664I、E681G、W706Y、D732A、R736K、R736Q或G824A的九个或更多个位置处包含突变并且与SEQ ID NO: 2包含至少90%相似性。在一些情况下，酶在选自V449F、V493L、L522I、L605C、T664I、E681G、W706Y、D732A、R736K、R736Q或G824A的十个或更多个位置处包含突变并且与SEQ ID NO: 2包含至少90%相似性。

在一些情况下，所有序列在多肽序列的C末端处表达为His6标签(HHHHHH, SEQ IDNO: 10)以用于纯化目的。

表1.聚合酶蛋白序列

本文提供的酶可以包含与SEQ ID NO: 1具有同源性或相似性的序列。在一些情况下，本文提供的酶与SEQ ID NO: 1包含至少约50%、至少约60%、至少约70%、至少约80%、至少约85%、至少约90%、至少约95%、至少约97%、至少约98%、至少约99%、至少约99.5%或更高的相似性。在一些情况下，本文提供的酶的至少10个连续氨基酸与SEQ ID NO: 1包含至少约50%、至少约60%、至少约70%、至少约80%、至少约85%、至少约90%、至少约95%、至少约97%、至少约98%、至少约99%、至少约99.5%或更高的相似性。在一些情况下，本文提供的酶的至少50个连续氨基酸与SEQ ID NO: 1包含至少约50%、至少约60%、至少约70%、至少约80%、至少约85%、至少约90%、至少约95%、至少约97%、至少约98%、至少约99%、至少约99.5%或更高的相似性。在一些情况下，本文提供的酶的至少100个连续氨基酸与SEQ ID NO: 1包含至少约50%、至少约60%、至少约70%、至少约80%、至少约85%、至少约90%、至少约95%、至少约97%、至少约98%、至少约99%、至少约99.5%或更高的相似性。在一些情况下，本文提供的酶的20个-100个连续氨基酸与SEQ ID NO: 1包含至少约50%、至少约60%、至少约70%、至少约80%、至少约85%、至少约90%、至少约95%、至少约97%、至少约98%、至少约99%、至少约99.5%或更高的相似性。

本文提供的酶可以包含与SEQ ID NO: 2具有同源性或相似性的序列。在一些情况下，本文提供的酶与SEQ ID NO: 2包含至少约50%、至少约60%、至少约70%、至少约80%、至少约85%、至少约90%、至少约95%、至少约97%、至少约98%、至少约99%、至少约99.5%或更高的相似性。在一些情况下，本文提供的酶的至少10个连续氨基酸与SEQ ID NO: 2包含至少约50%、至少约60%、至少约70%、至少约80%、至少约85%、至少约90%、至少约95%、至少约97%、至少约98%、至少约99%、至少约99.5%或更高的相似性。在一些情况下，本文提供的酶的至少50个连续氨基酸与SEQ ID NO: 2包含至少约50%、至少约60%、至少约70%、至少约80%、至少约85%、至少约90%、至少约95%、至少约97%、至少约98%、至少约99%、至少约99.5%或更高的相似性。在一些情况下，本文提供的酶的至少100个连续氨基酸与SEQ ID NO: 2包含至少约50%、至少约60%、至少约70%、至少约80%、至少约85%、至少约90%、至少约95%、至少约97%、至少约98%、至少约99%、至少约99.5%或更高的相似性。在一些情况下，本文提供的酶的20个-100个连续氨基酸与SEQ ID NO: 2包含至少约50%、至少约60%、至少约70%、至少约80%、至少约85%、至少约90%、至少约95%、至少约97%、至少约98%、至少约99%、至少约99.5%或更高的相似性。

本文提供的酶可以包含与SEQ ID NO: 3具有同源性或相似性的序列。在一些情况下，本文提供的酶与SEQ ID NO: 3包含至少约50%、至少约60%、至少约70%、至少约80%、至少约85%、至少约90%、至少约95%、至少约97%、至少约98%、至少约99%、至少约99.5%或更高的相似性。在一些情况下，本文提供的酶的至少10个连续氨基酸与SEQ ID NO: 3包含至少约50%、至少约60%、至少约70%、至少约80%、至少约85%、至少约90%、至少约95%、至少约97%、至少约98%、至少约99%、至少约99.5%或更高的相似性。在一些情况下，本文提供的酶的至少50个连续氨基酸与SEQ ID NO: 3包含至少约50%、至少约60%、至少约70%、至少约80%、至少约85%、至少约90%、至少约95%、至少约97%、至少约98%、至少约99%、至少约99.5%或更高的相似性。在一些情况下，本文提供的酶的至少100个连续氨基酸与SEQ ID NO: 3包含至少约50%、至少约60%、至少约70%、至少约80%、至少约85%、至少约90%、至少约95%、至少约97%、至少约98%、至少约99%、至少约99.5%或更高的相似性。在一些情况下，本文提供的酶的20个-100个连续氨基酸与SEQ ID NO: 3包含至少约50%、至少约60%、至少约70%、至少约80%、至少约85%、至少约90%、至少约95%、至少约97%、至少约98%、至少约99%、至少约99.5%或更高的相似性。

本文提供的酶可以包含与SEQ ID NO: 4具有同源性或相似性的序列。在一些情况下，本文提供的酶与SEQ ID NO: 4包含至少约50%、至少约60%、至少约70%、至少约80%、至少约85%、至少约90%、至少约95%、至少约97%、至少约98%、至少约99%、至少约99.5%或更高的相似性。在一些情况下，本文提供的酶的至少10个连续氨基酸与SEQ ID NO: 4包含至少约50%、至少约60%、至少约70%、至少约80%、至少约85%、至少约90%、至少约95%、至少约97%、至少约98%、至少约99%、至少约99.5%或更高的相似性。在一些情况下，本文提供的酶的至少50个连续氨基酸与SEQ ID NO: 4包含至少约50%、至少约60%、至少约70%、至少约80%、至少约85%、至少约90%、至少约95%、至少约97%、至少约98%、至少约99%、至少约99.5%或更高的相似性。在一些情况下，本文提供的酶的至少100个连续氨基酸与SEQ ID NO: 4包含至少约50%、至少约60%、至少约70%、至少约80%、至少约85%、至少约90%、至少约95%、至少约97%、至少约98%、至少约99%、至少约99.5%或更高的相似性。在一些情况下，本文提供的酶的20个-100个连续氨基酸与SEQ ID NO: 4包含至少约50%、至少约60%、至少约70%、至少约80%、至少约85%、至少约90%、至少约95%、至少约97%、至少约98%、至少约99%、至少约99.5%或更高的相似性。

本文提供的酶可以包含与SEQ ID NO: 5具有同源性或相似性的序列。在一些情况下，本文提供的酶与SEQ ID NO: 5包含至少约50%、至少约60%、至少约70%、至少约80%、至少约85%、至少约90%、至少约95%、至少约97%、至少约98%、至少约99%、至少约99.5%或更高的相似性。在一些情况下，本文提供的酶的至少10个连续氨基酸与SEQ ID NO: 5包含至少约50%、至少约60%、至少约70%、至少约80%、至少约85%、至少约90%、至少约95%、至少约97%、至少约98%、至少约99%、至少约99.5%或更高的相似性。在一些情况下，本文提供的酶的至少50个连续氨基酸与SEQ ID NO: 5包含至少约50%、至少约60%、至少约70%、至少约80%、至少约85%、至少约90%、至少约95%、至少约97%、至少约98%、至少约99%、至少约99.5%或更高的相似性。在一些情况下，本文提供的酶的至少100个连续氨基酸与SEQ ID NO: 5包含至少约50%、至少约60%、至少约70%、至少约80%、至少约85%、至少约90%、至少约95%、至少约97%、至少约98%、至少约99%、至少约99.5%或更高的相似性。在一些情况下，本文提供的酶的20个-100个连续氨基酸与SEQ ID NO: 5包含至少约50%、至少约60%、至少约70%、至少约80%、至少约85%、至少约90%、至少约95%、至少约97%、至少约98%、至少约99%、至少约99.5%或更高的相似性。

本文提供的酶可以包含与SEQ ID NO: 6具有同源性或相似性的序列。在一些情况下，本文提供的酶与SEQ ID NO: 6包含至少约50%、至少约60%、至少约70%、至少约80%、至少约85%、至少约90%、至少约95%、至少约97%、至少约98%、至少约99%、至少约99.5%或更高的相似性。在一些情况下，本文提供的酶的至少10个连续氨基酸与SEQ ID NO: 6包含至少约50%、至少约60%、至少约70%、至少约80%、至少约85%、至少约90%、至少约95%、至少约97%、至少约98%、至少约99%、至少约99.5%或更高的相似性。在一些情况下，本文提供的酶的至少50个连续氨基酸与SEQ ID NO: 6包含至少约50%、至少约60%、至少约70%、至少约80%、至少约85%、至少约90%、至少约95%、至少约97%、至少约98%、至少约99%、至少约99.5%或更高的相似性。在一些情况下，本文提供的酶的至少100个连续氨基酸与SEQ ID NO: 6包含至少约50%、至少约60%、至少约70%、至少约80%、至少约85%、至少约90%、至少约95%、至少约97%、至少约98%、至少约99%、至少约99.5%或更高的相似性。在一些情况下，本文提供的酶的20个-100个连续氨基酸与SEQ ID NO: 6包含至少约50%、至少约60%、至少约70%、至少约80%、至少约85%、至少约90%、至少约95%、至少约97%、至少约98%、至少约99%、至少约99.5%或更高的相似性。

本文提供的酶可以包含与SEQ ID NO: 7具有同源性或相似性的序列。在一些情况下，本文提供的酶与SEQ ID NO: 7包含至少约50%、至少约60%、至少约70%、至少约80%、至少约85%、至少约90%、至少约95%、至少约97%、至少约98%、至少约99%、至少约99.5%或更高的相似性。在一些情况下，本文提供的酶的至少10个连续氨基酸与SEQ ID NO: 7包含至少约50%、至少约60%、至少约70%、至少约80%、至少约85%、至少约90%、至少约95%、至少约97%、至少约98%、至少约99%、至少约99.5%或更高的相似性。在一些情况下，本文提供的酶的至少50个连续氨基酸与SEQ ID NO: 7包含至少约50%、至少约60%、至少约70%、至少约80%、至少约85%、至少约90%、至少约95%、至少约97%、至少约98%、至少约99%、至少约99.5%或更高的相似性。在一些情况下，本文提供的酶的至少100个连续氨基酸与SEQ ID NO: 7包含至少约50%、至少约60%、至少约70%、至少约80%、至少约85%、至少约90%、至少约95%、至少约97%、至少约98%、至少约99%、至少约99.5%或更高的相似性。在一些情况下，本文提供的酶的20个-100个连续氨基酸与SEQ ID NO: 7包含至少约50%、至少约60%、至少约70%、至少约80%、至少约85%、至少约90%、至少约95%、至少约97%、至少约98%、至少约99%、至少约99.5%或更高的相似性。

本文提供的酶可以包含与SEQ ID NO: 8具有同源性或相似性的序列。在一些情况下，本文提供的酶与SEQ ID NO: 8包含至少约50%、至少约60%、至少约70%、至少约80%、至少约85%、至少约90%、至少约95%、至少约97%、至少约98%、至少约99%、至少约99.5%或更高的相似性。在一些情况下，本文提供的酶的至少10个连续氨基酸与SEQ ID NO: 8包含至少约50%、至少约60%、至少约70%、至少约80%、至少约85%、至少约90%、至少约95%、至少约97%、至少约98%、至少约99%、至少约99.5%或更高的相似性。在一些情况下，本文提供的酶的至少50个连续氨基酸与SEQ ID NO: 8包含至少约50%、至少约60%、至少约70%、至少约80%、至少约85%、至少约90%、至少约95%、至少约97%、至少约98%、至少约99%、至少约99.5%或更高的相似性。在一些情况下，本文提供的酶的至少100个连续氨基酸与SEQ ID NO: 8包含至少约50%、至少约60%、至少约70%、至少约80%、至少约85%、至少约90%、至少约95%、至少约97%、至少约98%、至少约99%、至少约99.5%或更高的相似性。在一些情况下，本文提供的酶的20个-100个连续氨基酸与SEQ ID NO: 8包含至少约50%、至少约60%、至少约70%、至少约80%、至少约85%、至少约90%、至少约95%、至少约97%、至少约98%、至少约99%、至少约99.5%或更高的相似性。

本文提供的酶可以包含与SEQ ID NO: 9具有同源性或相似性的序列。在一些情况下，本文提供的酶与SEQ ID NO: 9包含至少约50%、至少约60%、至少约70%、至少约80%、至少约85%、至少约90%、至少约95%、至少约97%、至少约98%、至少约99%、至少约99.5%或更高的相似性。在一些情况下，本文提供的酶的至少10个连续氨基酸与SEQ ID NO: 9包含至少约50%、至少约60%、至少约70%、至少约80%、至少约85%、至少约90%、至少约95%、至少约97%、至少约98%、至少约99%、至少约99.5%或更高的相似性。在一些情况下，本文提供的酶的至少50个连续氨基酸与SEQ ID NO: 9包含至少约50%、至少约60%、至少约70%、至少约80%、至少约85%、至少约90%、至少约95%、至少约97%、至少约98%、至少约99%、至少约99.5%或更高的相似性。在一些情况下，本文提供的酶的至少100个连续氨基酸与SEQ ID NO: 9包含至少约50%、至少约60%、至少约70%、至少约80%、至少约85%、至少约90%、至少约95%、至少约97%、至少约98%、至少约99%、至少约99.5%或更高的相似性。在一些情况下，本文提供的酶的20个-100个连续氨基酸与SEQ ID NO: 9包含至少约50%、至少约60%、至少约70%、至少约80%、至少约85%、至少约90%、至少约95%、至少约97%、至少约98%、至少约99%、至少约99.5%或更高的相似性。

酶优化

本文描述了计算机模拟文库设计的方法和系统。例如，酶或酶片段的氨基酸序列可以用作输入。任何酶的氨基酸序列可以用于本文描述的方法和系统中的输入。可以查询包含来自生物体的已知突变的数据库，并可以生成包含这些突变的组合的序列的文库。在一些情况下，从文库中可以排除特定突变或突变的组合(例如，已知的免疫原性位点、结构位点等)。在一些情况下，输入序列中的特定位点可以被组氨酸、天冬氨酸、谷氨酸或其组合系统地替换。在一些情况下，可以指定酶的每个区域允许的突变的最大或最小数目。在一些情况下，相对于输入序列或输入序列的对应种系(野生型)序列描述突变。例如，通过优化生成的序列可以包含来自输入序列的至少1个、至少2个、至少3个、至少4个、至少5个、至少6个、至少7个、至少8个、至少9个、至少10个、至少11个、至少12个、至少13个、至少14个、至少15个、至少16个或超过16个突变。在一些情况下，通过优化生成的序列包含来自输入序列的不超过1个、不超过2个、不超过3个、不超过4个、不超过5个、不超过6个、不超过7个、不超过8个、不超过9个、不超过10个、不超过11个、不超过12个、不超过13个、不超过14个、不超过15个、不超过16个或不超过18个突变。在一些情况下，通过优化生成的序列相对于输入序列包含约1个、约2个、约3个、约4个、约5个、约6个、约7个、约8个、约9个、约10个、约11个、约12个、约13个、约14个、约15个、约16个或约18个突变。在一些情况下，对于期望的序列可以合成、组装和/或富集计算机模拟酶文库。

还可以修饰对应于输入序列的种系序列以生成文库中的序列。例如，通过本文描述的优化方法生成的序列包含来自种系序列的至少1个、至少2个、至少3个、至少4个、至少5个、至少6个、至少7个、至少8个、至少9个、至少10个、至少11个、至少12个、至少13个、至少14个、至少15个、至少16个或超过16个突变。在一些情况下，通过优化生成的序列包含来自种系序列的不超过1个、不超过2个、不超过3个、不超过4个、不超过5个、不超过6个、不超过7个、不超过8个、不超过9个、不超过10个、不超过11个、不超过12个、不超过13个、不超过14个、不超过15个、不超过16个或不超过18个突变。在一些情况下，通过优化生成的序列相对于种系序列包含约1个、约2个、约3个、约4个、约5个、约6个、约7个、约8个、约9个、约10个、约11个、约12个、约13个、约14个、约15个、约16个或约18个突变。

机器学习

如本文描述的，来自预处理操作的数据可以被输入到一种或更多种机器学习(ML)算法中，用于鉴定包含对靶具有高亲和力和/或具有功能活性的一种或更多种候选物的文库。在一些实施方案中，一种或更多种候选物包含一种或更多种编码酶的序列。在一些实例中，文库可以是合成文库。在一些实施方案中，ML算法可以被整合到用于智能决策和/或实验验证的计算流水线中。在一些实施方案中，一种或更多种ML算法可以是监督的、半监督的或无监督的，用于训练以鉴定异常。在一些实施方案中，一种或更多种ML算法可以执行分类或聚类以鉴定异常或攻击。在一些实施方案中，一种或更多种ML算法可以包括用于执行聚类以鉴定离群值的经典ML算法。经典ML算法可以包括从现有观察(即，已知特征)学习以预测输出的算法。在一些情况下，用于执行聚类的经典ML算法可以是K均值聚类、均值漂移聚类、具有噪声的应用的基于密度的空间聚类(DBSCAN)、期望最大化(EM)聚类(例如，使用高斯混合模型(GMM))、凝聚层次聚类或其组合。在一些实施方案中，一种或更多种ML算法可以包括用于分类的经典ML算法。在一些情况下，经典ML算法可以包括逻辑回归、朴素贝叶斯、K-最近邻、随机森林或决策树、梯度提升、支持向量机(SVM)或其组合。在一些实施方案中，一种或更多种ML算法可以采用深度学习。深度学习算法可以包括通过提取新特征来学习以预测输出的算法。深度学习算法可以包括层，所述层可以包括神经网络。

表达系统

本文提供了包含编码酶的核酸的文库，其中文库具有改进的特异性、稳定性、表达、折叠或下游活性。在一些情况下，本文描述的文库可以用于筛选和分析。

本文提供了包含编码酶的核酸的文库，其中核酸文库用于筛选和分析。在一些情况下，筛选和分析包括体外测定、体内测定或离体测定。用于筛选的细胞包括取自活体受试者的原代细胞或细胞系。细胞可以来自原核生物(例如，细菌和真菌)或真核生物(例如，动物和植物)。示例性动物细胞包括但不限于来自小鼠、兔、灵长类动物和昆虫的那些细胞。在一些情况下，用于筛选的细胞包括细胞系，包括但不限于中国仓鼠卵巢(CHO)细胞系、人类胚胎肾(HEK)细胞系或幼仓鼠肾(BHK)细胞系。在一些情况下，本文描述的核酸文库也可以被递送至多细胞生物体。示例性多细胞生物体包括但不限于植物、小鼠、大鼠、兔、灵长类动物(例如，猴或猿)、鱼、蠕虫、鸟类、鸡、骆驼、猫、狗、马、牛、绵羊、山羊、青蛙或昆虫。

本文描述的核酸文库可以筛选各种药理学或药代动力学特性。在一些情况下，文库使用体外测定、体内测定或离体测定来筛选。例如，筛选的体外药理学或药代动力学特性包括但不限于结合亲和力(affinity)、结合特异性和结合亲合力(avidity)。筛选的本文描述文库的示例性体内药理学或药代动力学特性包括但不限于治疗功效、活性、临床前毒性特性、临床功效特性、临床毒性特性、免疫原性、效力和临床安全性特性。

本文提供了核酸文库，其中核酸文库可以在载体中表达。用于插入本文公开的核酸文库的表达载体可以包括真核或原核表达载体。示例性表达载体包括但不限于哺乳动物表达载体：pSF-CMV-NEO-NH2-PPT-3XFLAG、pSF-CMV-NEO-COOH-3XFLAG、pSF-CMV-PURO-NH2-GST-TEV、pSF-OXB20-COOH-TEV-FLAG(R)-6His、pCEP4 pDEST27、pSF-CMV-Ub-KrYFP、pSF-CMV-FMDV-daGFP、pEF1a-mCherry-N1载体、pEF1a-tdTomato载体、pSF-CMV-FMDV-Hygro、pSF-CMV-PGK-Puro、pMCP-tag(m)和pSF-CMV-PURO-NH2-CMYC；细菌表达载体：pSF-OXB20-BetaGal、pSF-OXB20-Fluc、pSF-OXB20和pSF-Tac；植物表达载体：pRI 101-AN DNA和pCambia2301；和酵母表达载体：pTYB21和pKLAC2；以及昆虫表达载体：pAc5.1/V5-His A和pDEST8。在一些情况下，载体是pcDNA3或pcDNA3.1。

本文描述了在载体中表达以生成包含酶的构建体的核酸文库。在一些情况下，构建体的尺寸是不同的。在一些情况下，构建体包含至少或约500个、至少或约600个、至少或约700个、至少或约800个、至少或约900个、至少或约1000个、至少或约1100个、至少或约1300个、至少或约1400个、至少或约1500个、至少或约1600个、至少或约1700个、至少或约1800个、至少或约2000个、至少或约2400个、至少或约2600个、至少或约2800个、至少或约3000个、至少或约3200个、至少或约3400个、至少或约3600个、至少或约3800个、至少或约4000个、至少或约4200个、至少或约4400个、至少或约4600个、至少或约4800个、至少或约5000个、至少或约6000个、至少或约7000个、至少或约8000个、至少或约9000个、至少或约10000个或多于10000个碱基。在一些情况下，构建体包含约300至1,000个、300至2,000个、300个至3,000个、300至4,000个、300个至5,000个、300至6,000个、300至7,000个、300至8,000个、300个至9,000个、300至10,000个、1,000至2,000个、1,000至3,000个、1,000至4,000个、1,000至5,000个、1,000至6,000个、1,000至7,000个、1,000至8,000个、1,000至9,000个、1,000至10,000个、2,000至3,000个、2,000至4,000个、2,000至5,000个、2,000至6,000个、2,000至7,000个、2,000个至8,000个、2,000至9,000个、2,000至10,000个、3,000至4,000个、3,000至5,000个、3,000至6,000个、3,000至7,000个、3,000至8,000个、3,000至9,000个、3,000至10,000个、4,000至5,000个、4,000至6,000个、4,000至7,000个、4,000至8,000个、4,000至9,000个、4,000至10,000个、5,000至6,000个、5,000至7,000个、5,000至8,000个、5,000至9,000个、5,000至10,000个、6,000至7,000个、6,000至8,000个、6,000至9,000个、6,000至10,000个、7,000至8,000个、7,000至9,000个、7,000至10,000个、8,000至9,000个、8,000至10,000个或9,000至10,000个碱基的范围。

本文提供了包含编码酶的核酸的文库，其中核酸文库在细胞中表达。在一些情况下，文库被合成为表达报告基因。示例性报告基因包括但不限于乙酰羟基酸合酶(AHAS)、碱性磷酸酶(AP)、β半乳糖苷酶(LacZ)、β葡萄糖苷酶(GUS)、氯霉素乙酰转移酶(CAT)、绿色荧光蛋白(GFP)、红色荧光蛋白(RFP)、黄色荧光蛋白(YFP)、青色荧光蛋白(CFP)、天蓝色荧光蛋白、柠檬黄(citrine)荧光蛋白、橙色荧光蛋白、樱桃色荧光蛋白、绿松石色荧光蛋白、蓝色荧光蛋白、辣根过氧化物酶(HRP)、萤光素酶(Luc)、胭脂碱合酶(NOS)、章鱼碱合酶(OCS)、萤光素酶以及其衍生物。确定报告基因调节的方法是本领域熟知的，并且包括但不限于荧光法(fluorometric method)(例如荧光光谱、荧光激活细胞分选(FACS)、荧光显微术)和抗生素抗性确定。

术语“序列同一性”意指，两个多核苷酸序列在比较窗口内是相同的(即，基于一个核苷酸接着一个核苷酸)。术语“序列同一性百分比”如下计算：通过在比较窗口上比较两个最佳比对的序列，确定两个序列中出现相同的核酸碱基(例如，A、T、C、G、U或I)的位置数目以产生匹配位置的数目，将匹配位置的数目除以比较窗口中位置的总数目(即，窗口尺寸)，并且将结果乘以100以得到序列同一性百分比。

术语两个蛋白之间的“同源性”或“相似性”通过将一个蛋白序列的氨基酸序列及其保守氨基酸取代物与第二个蛋白序列进行比较来确定。相似性可以通过本领域熟知的程序来确定，例如，BLAST程序(美国国家生物信息中心(the National Center forBiological Information)的局部比对搜索基本工具)。

本文提供了包含编码酶(例如，聚合酶)的核酸的文库。本文描述的酶允许一系列活性位点编码序列的改进的稳定性。在一些情况下，活性位点编码序列通过底物与酶的催化活性位点之间的相互作用来确定。

使用各种方法分析基于本文描述的配体/底物与酶之间的表面相互作用的活性位点的序列。例如，进行多物种计算分析。在一些情况下，进行结构分析。在一些情况下，进行序列分析。可以使用本领域已知的数据库进行序列分析。数据库的非限制性实例包括但不限于NCBI BLAST (blast.ncbi.nlm.nih.gov/Blast.cgi)、UCSC基因组浏览器(genome.ucsc.edu/)、UniProt (www.uniprot.org/)和IUPHAR/BPS Guide toPHARMACOLOGY (guidetopharmacology.org/)。

本文描述了基于各种生物体中的序列分析设计的活性位点。例如，进行序列分析以鉴定不同生物体中的同源序列。示例性生物体包括但不限于小鼠、大鼠、马科动物、绵羊、牛、灵长类动物(例如，黑猩猩、狒狒、大猩猩、猩猩、猴)、犬、猫、猪、驴、兔、骆驼、鱼、蝇或人类。在一些情况下，在同一生物体中跨个体鉴定同源序列。

在鉴定活性位点之后，可以生成包含编码活性位点的核酸的文库。在一些情况下，活性位点的文库包含基于构象配体/底物相互作用设计的活性位点的序列。可以翻译活性位点的文库以生成蛋白质文库。在一些情况下，活性位点的文库被翻译以生成肽文库、免疫球蛋白文库、其衍生物或其组合。在一些情况下，活性位点的文库被翻译以生成蛋白质文库，该蛋白质文库被进一步修饰以生成肽模拟物文库。在一些情况下，翻译活性位点的文库以生成用于生成小分子的蛋白质文库。

本文描述的方法提供了活性位点的文库的合成，所述活性位点的文库包含各自编码至少一个预定参考核酸序列的预定变体的核酸。在一些情况下，预定参考序列是编码蛋白的核酸序列，并且变体文库包含编码至少单个密码子变异的序列，使得由合成的核酸编码的随后蛋白中单个残基的多于一个不同变体通过标准翻译过程产生。在一些情况下，活性位点的文库包含在多于一个位置处共同编码变异的不同核酸。在一些情况下，变体文库包含编码活性位点中至少单个密码子的变异的序列。在一些情况下，变体文库包含编码活性位点中多于一个密码子的变异的序列。用于变异的密码子的示例性数目包括但不限于至少或约1个、5个、10个、15个、20个、25个、30个、35个、40个、45个、50个、55个、60个、65个、70个、75个、80个、85个、90个、95个、100个、125个、150个、175个、225个、250个、275个、300个或多于300个密码子。

本文描述的方法提供了包含编码活性位点的核酸的文库的合成，其中文库包含编码活性位点的长度变异的序列。在一些情况下，文库包含编码与预定参考序列相比少至少或约1个、5个、10个、15个、20个、25个、30个、35个、40个、45个、50个、55个、60个、65个、70个、75个、80个、85个、90个、95个、100个、125个、150个、175个、225个、250个、275个、300个或多于300个密码子的长度变异的序列。在一些情况下，文库包含编码与预定参考序列相比多至少或约1个、5个、10个、15个、20个、25个、30个、35个、40个、45个、50个、55个、60个、65个、70个、75个、80个、85个、90个、95个、100个、125个、150个、175个、200个、225个、250个、275个、300个或多于300个密码子的长度变异的序列。

在鉴定活性位点之后，可以设计和合成酶以包含活性位点。可以基于结合、特异性、稳定性、表达、折叠或下游活性来设计包含活性位点的酶。

本文描述的方法提供了核酸文库的合成，所述核酸文库各自编码至少一个预定参考核酸序列的预定变体。在一些情况下，预定参考序列是编码蛋白的核酸序列，并且变体文库包含编码至少单个密码子变异的序列，使得由合成的核酸编码的随后蛋白中单个残基的多于一个不同变体通过标准翻译过程产生。在一些情况下，文库包含共同编码在多于一个位置处的变异的不同核酸。在一些情况下，变体文库包含编码活性位点中至少单个密码子的变异的序列。例如，酶的至少一个单个密码子是不同的。用于变异的密码子的示例性数目包括但不限于至少或约1个、5个、10个、15个、20个、25个、30个、35个、40个、45个、50个、55个、60个、65个、70个、75个、80个、85个、90个、95个、100个、125个、150个、175个、225个、250个、275个、300个或多于300个密码子。

本文描述的方法提供了核酸文库的合成，所述核酸文库各自编码至少一个预定参考核酸序列的预定变体，其中文库包含编码酶中结构域的长度变异的序列。在一些情况下，文库包含编码与预定参考序列相比少至少或约1个、5个、10个、15个、20个、25个、30个、35个、40个、45个、50个、55个、60个、65个、70个、75个、80个、85个、90个、95个、100个、125个、150个、175个、225个、250个、275个、300个或多于300个密码子的长度变异的序列。在一些情况下，文库包含编码与预定参考序列相比多至少或约1个、5个、10个、15个、20个、25个、30个、35个、40个、45个、50个、55个、60个、65个、70个、75个、80个、85个、90个、95个、100个、125个、150个、175个、200个、225个、250个、275个、300个或多于300个密码子的长度变异的序列。

在酶文库的合成之后进行筛选和分析。例如，测定文库的文库可展示性、筛选和/或淘选。在一些情况下，使用可选择的标签测定可展示性。示例性标签包括但不限于放射性标签、荧光标签、酶、化学发光标签、比色标签、亲和标签或本领域已知的其他标记或标签。在一些情况下，标签是组氨酸、多组氨酸、myc、血凝素(HA)或FLAG。在一些情况下，文库通过使用各种方法测序来测定，包括但不限于单分子实时(SMRT)测序、Polony测序、连接测序、可逆终止子测序、质子检测测序、离子半导体测序、纳米孔测序、电子测序、焦磷酸测序、Maxam-Gilbert测序、链终止(例如，Sanger)测序、+S测序或合成测序。在一些情况下，测定文库的A-加尾活性或稳定性。

变体文库

密码子变异

本文描述的变体核酸文库可以包含多于一个核酸，其中与参考核酸序列相比，每个核酸编码变体密码子序列。在一些情况下，第一核酸群体的每个核酸包含在单个变体位点处的变体。在一些情况下，第一核酸群体包含在单个变体位点处的多于一个变体，使得第一核酸群体包含在相同变体位点处的多于一个变体。第一核酸群体可以包含共同编码在相同变体位点处的多于一个密码子变体的核酸。第一核酸群体可以包含共同编码在相同位置处的多至19个或更多密码子的核酸。第一核酸群体可以包含共同编码在相同位置处的多至60个变体三联体的核酸，或者第一核酸群体可以包含共同编码在相同位置处的多至61个不同密码子三联体的核酸。每个变体可以编码在翻译期间产生不同氨基酸的密码子。表2提供了变体位点的每个可能密码子(和代表性氨基酸)的列表。

表2.密码子和氨基酸残基的列表

核酸群体可以包含共同编码在多于一个位置处的多至20个密码子变异的不同核酸。在这样的情况下，群体中的每个核酸包含相同核酸中多于一个位置处的密码子变异。在一些情况下，群体中的每个核酸包含单个核酸中1个、2个、3个、4个、5个、6个、7个、8个、9个、10个、11个、12个、13个、14个、15个、16个、17个、18个、19个、20个或更多个密码子处的密码子变异。在一些情况下，每个变体长核酸包含单个长核酸中1个、2个、3个、4个、5个、6个、7个、8个、9个、10个、11个、12个、13个、14个、15个、16个、17个、18个、19个、20个、21个、22个、23个、24个、25个、26个、27个、28个、29个、30个或更多个密码子处的密码子变异。在一些情况下，变体核酸群体包含单个核酸中1个、2个、3个、4个、5个、6个、7个、8个、9个、10个、11个、12个、13个、14个、15个、16个、17个、18个、19个、20个、21个、22个、23个、24个、25个、26个、27个、28个、29个、30个或更多个密码子处的密码子变异。在一些情况下，变体核酸群体包含单个长核酸中至少约10个、20个、30个、40个、50个、60个、70个、80个、90个、100个或更多个密码子中的密码子变异。

高度并行核酸合成

本文提供了一种平台方法，该方法利用从多核苷酸合成至硅上纳米孔内基因组装的端至端过程的小型化、并行化和垂直集成来产生革命性的合成平台。本文描述的装置提供了与96孔板具有相同足迹的硅合成平台，与传统合成方法相比，该硅合成平台能够使通量增加多至1,000倍或更多倍，并在单次高度并行运行中产生多至大约1,000,000或更多个多核苷酸或10,000或更多个基因。

随着下一代测序的出现，高分辨率基因组数据已经成为深入研究各种基因在正常生物学和疾病发病机制两者中的生物学作用的研究的重要因素。这项研究的核心是分子生物学的中心法则和“序列信息的逐残基转换(residue-by-residue transfer ofsequential information)”的概念。DNA中编码的基因组信息被转录为信息，然后该信息被翻译为蛋白，该蛋白是给定生物途径中的活性产物。

另一个令人兴奋的研究领域是聚焦高度特异性细胞靶的治疗分子的发现、开发和制造。高多样性DNA序列文库是靶向治疗剂开发流水线(pipeline)的核心。使用基因突变体在设计、构建和测试蛋白工程化循环中表达蛋白，该循环理想地以对其治疗靶具有高亲和力的蛋白的高表达的优化基因而结束。作为一个实例，考虑受体的结合口袋。同时测试结合袋内所有残基的所有序列排列的能力将允许彻底的探索，增加成功的机会。研究人员试图在受体内的特定位点处产生所有可能的突变的饱和诱变代表应对这一开发挑战的一种方法。虽然昂贵并且时间和劳动密集，但其能够实现待被引入到各位置中的各变体。相比之下，几个选择的位置或短段DNA可以被广泛修饰的组合诱变产生具有偏倚代表的不完整的变体库。

为了加速药物开发流水线，可用于测试的在正确位置中以预期频率具有可用期望变体的文库(换言之，精确文库)能够减少成本以及筛选的周转时间。本文提供了用于合成核酸合成变体文库的方法，该方法提供了每个预期的变体以期望频率的精确引入。对于最终用户，这意味着不仅能够彻底地对序列空间进行采样，而且能够以有效的方式查询这些假设，从而减少成本和筛选时间。全基因组编辑可以阐明重要的途径，可以测试文库中每个变体和序列排列的最佳功能，并且可以使用数千个基因重构整个途径和基因组，以便将生物系统工程化，用于药物发现。

在第一实例中，可以使用本文描述的方法优化酶本身。例如，为了改进酶的特定功能，设计并合成编码酶的一部分的变体多核苷酸文库。然后可以通过本文描述的方法(例如，PCR诱变，随后插入到载体中)产生酶的变体核酸文库。然后在生产细胞系中表达酶并且筛选增强的活性。示例性筛选包括检查与底物的结合亲和力、稳定性(例如，热、盐)或功能(例如，底物范围、速度)的调节。

通过本文描述的方法合成的核酸文库可以在与疾病状态相关的各种细胞中表达。与疾病状态相关的细胞包括细胞系、组织样品、来自受试者的原代细胞、来自受试者的扩增的培养细胞或模型系统中的细胞。示例性模型系统包括但不限于疾病状态的植物和动物模型。

为了鉴定与疾病状态的预防、减少或治疗相关的变体分子，本文描述的变体核酸文库在与疾病状态相关的细胞中表达，或者在其中可以诱导细胞疾病状态的细胞中表达。在一些情况下，使用剂诱导细胞的疾病状态。用于疾病状态诱导的示例性工具包括但不限于Cre/Lox重组系统、LPS炎症诱导和诱导低血糖的链脲佐菌素。与疾病状态相关的细胞可以是来自模型系统的细胞或培养的细胞，以及来自患有特定疾病状况的受试者的细胞。示例性疾病状况包括细菌性紊乱、真菌性紊乱、病毒性紊乱、自身免疫性紊乱或增殖性紊乱(例如，癌症)。在一些情况下，变体核酸文库在模型系统、细胞系或来源于受试者的原代细胞中表达，并且筛选至少一种细胞活性的改变。示例性细胞活性包括但不限于增殖、周期进展、细胞死亡、粘附、迁移、繁殖、细胞信号传导、能量产生、氧利用、代谢活性和老化、对自由基损伤的响应或其任何组合。

在一些情况下，本文描述的方法提供了包含在多于一个密码子位点处不同的变体核酸的核酸文库的产生。在一些情况下，核酸可以具有变体密码子位点中的1个位点、2个位点、3个位点、4个位点、5个位点、6个位点、7个位点、8个位点、9个位点、10个位点、11个位点、12个位点、13个位点、14个位点、15个位点、16个位点、17个位点、18个位点、19个位点、20个位点、30个位点、40个位点、50个位点或更多个。在一些情况下，变体密码子位点中的一个或更多个位点可以是相邻的。在一些情况下，变体密码子位点中的一个或更多个位点可以不相邻，并且被1个、2个、3个、4个、5个、6个、7个、8个、9个、10个或更多个密码子分开。在一些情况下，核酸可以包含变体密码子位点中的多于一个位点，其中所有变体密码子位点彼此相邻，形成一段变体密码子位点。在一些情况下，核酸可以包含变体密码子位点中的多于一个位点，其中任何变体密码子位点彼此不相邻。在一些情况下，核酸可以包含变体密码子位点中的多于一个位点，其中变体密码子位点中的一些彼此相邻，形成一段变体密码子位点，并且变体密码子位点中的一些彼此不相邻。

测序

本文提供的酶可以用于多种下游应用。在一些情况下，酶包括聚合酶。在一些情况下，从一个或更多个来源获得样品，并且分离样品多核苷酸的群体。样品(通过非限制性实例的方式)获得自生物来源，诸如唾液、血液、组织、皮肤或完全合成的来源。在一些情况下，样品包括循环肿瘤DNA (ctDNA)、无细胞DNA (cfDNA)或其他核酸样品。将从样品获得的多于一个多核苷酸片段化、末端修复和腺苷酸化以形成双链样品核酸片段。在一些情况下，末端修复通过在合适的缓冲液中用一种或更多种酶，诸如T4 DNA聚合酶或其变体(包括本文描述的Taq变体)、klenow酶和T4多核苷酸激酶处理来完成。为了促进与衔接子连接，添加核苷酸突出端，在一些情况下，添加3’至5’ exo- klenow片段和dATP。为了促进与衔接子连接，添加核苷酸突出端，在一些情况下，添加本文描述的变体聚合酶和dATP。

衔接子(诸如通用衔接子)可以用连接酶(诸如本文描述的T4连接酶)连接到样品多核苷酸片段的两个末端，以产生加衔接子标签的多核苷酸链的文库，并且用引物(诸如通用引物)扩增加衔接子标签的多核苷酸文库。在一些情况下，衔接子是包含一个或更多个引物结合位点、一个或更多个接枝区域和一个或更多个索引(或条形码)区域的Y形衔接子。在一些情况下，一个或更多个索引区域存在于衔接子的每条链上。在一些情况下，接枝区域与流通池表面互补，并促进样品文库的下一代测序。在一些情况下，Y形衔接子包含部分互补序列。在一些情况下，Y形衔接子包含单个胸苷突出端，所述单个胸苷突出端与双链加衔接子标签的多核苷酸链的突出腺嘌呤杂交。Y形衔接子可以包含对裂解具有抗性的修饰的核酸。例如，硫代磷酸酯主链用于将突出胸苷附接至衔接子的3’末端。如果使用通用引物，则进行文库的扩增以将条形码化引物添加至衔接子。

多于一个核酸(即基因组序列)可以从样品获得，并且片段化，任选地末端修复和腺苷酸化。将衔接子连接至多核苷酸片段的两个末端以产生加衔接子标签的多核苷酸链的文库，并且扩增加衔接子标签的多核苷酸文库。然后，在衔接子阻断物存在的情况下，在高温，优选地96°C使加衔接子标签的多核苷酸文库变性。多核苷酸靶向文库(探针文库)在杂交溶液中在高温，优选地约90°C至99°C变性，并在约45°C至80°C在杂交溶液中与变性的、加标签的多核苷酸文库组合持续约10小时至24小时。然后将结合缓冲液添加至杂交的加标签的多核苷酸探针，并且使用包含捕获部分的固体支持物选择性地结合杂交的加衔接子标签的多核苷酸探针。将固体支持物用缓冲液洗涤一次或更多次，优选地约2次和5次以去除未结合的多核苷酸，然后加入洗脱缓冲液以从固体支持物释放富集的、加衔接子标签的多核苷酸片段。扩增加衔接子标签的多核苷酸片段的富集的文库，并然后对文库进行测序。可选变量诸如孵育时间、温度、反应体积/浓度、洗涤次数或与说明书一致的其他变量也用于该方法中。

在任何情况下，寡核苷酸的检测或定量分析可以通过测序来完成。亚单元或整个合成的寡核苷酸可以通过本领域已知的任何合适的方法，例如，Illumina边合成边测序、PacBio SMRT测序(波导)、Oxford纳米孔(纳米孔测序)或BGI/MGI纳米球测序，包括本文描述的测序方法，经由所有寡核苷酸的全测序来检测。

测序可以通过本领域熟知的经典Sanger测序方法完成。测序也可以使用高通量系统完成，其中一些系统允许在测序的核苷酸掺入生长链之后或之时立即检测该测序的核苷酸，即，实时或基本上实时检测序列。在一些情况下，高通量测序每小时产生至少1,000个、至少5,000个、至少10,000个、至少20,000个、至少30,000个、至少40,000个、至少50,000个、至少100,000个或至少500,000个序列读段；其中每个读段为每个读段至少50个、至少60个、至少70个、至少80个、至少90个、至少100个、至少120个或至少150个碱基。

在一些情况下，高通量测序涉及使用由Illumina基因组分析仪IIX、MiSeq个人测序仪或HiSeq系统可获得的技术，诸如使用HiSeq 2500、HiSeq 1500、HiSeq 2000、HiSeq1000、iSeq 100、Mini Seq、MiSeq、NextSeq 550、NextSeq 2000、NextSeq 550或NovaSeq6000的那些。这些机器通过合成化学使用基于可逆终止子的测序。这些机器可以在13小时-44小时内生成6000 Gb或更多的读段。较小的系统可以用于3天、2天、1天或更短时间内的运行。可以使用短的合成循环来最小化获得测序结果所花费的时间。

在一些情况下，高通量测序涉及使用由ABI Solid系统可获得的技术。这种遗传分析平台能够对与珠相连的克隆扩增的DNA片段进行大规模并行测序。测序方法基于与染料标记的寡核苷酸的顺序连接。

下一代测序可以包括离子半导体测序(例如，使用来自Life Technologies (IonTorrent)的技术)。离子半导体测序可以利用这样的事实：当核苷酸掺入DNA链中时，可以释放离子。为了进行离子半导体测序，可以形成微机械化的孔的高密度阵列。每个孔可以容纳单个DNA模板。在孔下方可以是离子敏感层，并且在离子敏感层下方可以是离子传感器。当核苷酸添加到DNA时，可以释放H+，这可以作为pH的变化来测量。H+离子可以转换成电压并由半导体传感器记录。可以用一个接一个核苷酸顺序地充满阵列芯片。可以不需要扫描、光或照相机。在一些情况下，IONPROTON™测序仪用于测序核酸。在一些情况下，使用IONPGM™测序仪。Ion Torrent个人基因组机器(PGM)可以在两个小时内进行1000万个读段。

在一些情况下，高通量测序涉及使用由Helicos BioSciences Corporation(Cambridge, Mass.)可得的技术，诸如单分子合成测序(SMSS)方法。SMSS是独特的，因为它允许在长达24小时内对整个人类基因组进行测序。最后，SMSS是强大的，因为像MW技术一样，它不需要杂交之前的预扩增步骤。事实上，SMSS不需要任何扩增。SMSS部分地描述于美国公布申请第2006002471 I号；第20060024678号；第20060012793号；第20060012784号；和第20050100932号中。

在一些情况下，高通量测序涉及使用由454 Lifesciences, Inc. (Branford,Conn.)可得的技术，诸如Pico滴定板装置，所述Pico滴定板装置包括纤维光学板，该纤维光学板传输由测序反应产生的待由仪器中的CCD照相机记录的化学发光信号。这种纤维光学的使用允许在4.5小时内检测至少2000万个碱基对。

使用珠扩增随后进行纤维光学检测的方法描述于Marguiles等人，“Genomesequencing in microfabricated high-density picolitre reactors”, Nature, 2005，第437卷，第376-380页中；以及在美国公布第2002/0012930号；第2003/0058629号、第2003/0100102号、第2003/0148344号、第2004/0248161号、第2005/0079510号、第2005/0124022号和第2006/0078909号中。

在一些情况下，使用克隆单分子阵列(Solexa, Inc.)或利用可逆终止子化学的合成测序(SBS)进行高通量测序。这些技术部分地描述于美国专利第6,969,488号；第6,897,023号；第6,833,246号；第6,787,308号；和美国公布第2004/0106130号、第2003/0064398号、第2003/0022207号；和Constans, “Beyond Sanger: toward the $1,000 genome: newtechnologies promise faster and cheaper whole-genome sequencing”，The Scientist，2003，第17卷，第13期，第36+页中。寡核苷酸的高通量测序可以使用本领域已知的任何合适的测序方法来实现，诸如由Pacific Biosciences、Complete Genomics、GeniaTechnologies、Halcyon Molecular、Oxford Nanopore Technologies等商业化的那些。其他高通量测序系统包括以下中公开的那些：Venter等人，Science, 2001；Adams等人，Science, 2000；和Levene等人，Science, 2003，第299卷，第682-686页；以及美国公布第2003/0044781号和第2006/0078937号。总体而言，这样的系统涉及经由聚合反应时序添加碱基来对具有多于一个碱基的靶寡核苷酸分子进行测序，所述聚合反应是在寡核苷酸分子上测量的，即，实时追踪待测序的模板寡核苷酸分子上的核酸聚合酶的活性。然后可以通过在碱基添加序列中的每个步骤处核酸聚合酶的催化活性鉴定哪个碱基被掺入靶寡核苷酸的生长互补链中来推导序列。在靶寡核苷酸分子复合物上的聚合酶被提供在适于沿着靶寡核苷酸分子移动并在活性位点处延伸寡核苷酸引物的位置。在活性位点附近提供多于一种标记类型的核苷酸类似物，其中每种可区分类型的核苷酸类似物与靶寡核苷酸序列中的不同核苷酸互补。通过使用聚合酶在活性位点处向寡核苷酸链添加核苷酸类似物来延伸生长的寡核苷酸链，其中所添加的核苷酸类似物在活性位点处与靶寡核苷酸的核苷酸互补。鉴定作为聚合步骤的结果添加至寡核苷酸引物的核苷酸类似物。重复提供标记的核苷酸类似物、聚合生长的寡核苷酸链和鉴定添加的核苷酸类似物的步骤，使得寡核苷酸链进一步延伸并确定靶寡核苷酸的序列。

下一代测序技术可以包括Pacific Biosciences的实时(SMRT™)技术。在SMRT中，四种DNA碱基中的每一种可以附接到四种不同荧光染料中的一种。这些染料可以是磷酸连接的。单个DNA聚合酶可以与模板单链DNA的单个分子固定在零模波导(ZMW)的底部。ZMW可以是限制结构，其使得能够在针对荧光核苷酸的背景下观察由DNA聚合酶对单个核苷酸的掺入，所述荧光核苷酸可以快速扩散进入和扩散出ZMW (以微秒计)。将核苷酸掺入到生长的链中可以花费几毫秒。在此期间，荧光标记可以被激发并产生荧光信号，并且荧光标签可以被裂解掉。ZMW可以从下方照明。来自激发光束的衰减光可以穿透每个ZMW的下部20 nm-30 nm。可以创建检测限为20仄升(10″升)的显微镜。微小的检测体积可以在降低背景噪声方面提供1000倍的改进。染料的相应荧光的检测可以指示掺入了哪个碱基。该过程可以重复。

在一些情况下，下一代测序是纳米孔测序。参见例如，Soni等人，Clin Chem.，2007，第53卷，第1996-2001页。纳米孔可以是直径约1纳米数量级的小孔。由于离子通过纳米孔的传导，将纳米孔浸没在导电流体中并在其上施加电势可以产生微弱的电流。流动的电流量可以对纳米孔的尺寸敏感。当DNA分子穿过纳米孔时，DNA分子上的每个核苷酸可以以不同程度阻碍纳米孔。因此，当DNA分子穿过纳米孔时流经纳米孔的电流的变化可以代表DNA序列的读取。纳米孔测序技术可以来自Oxford Nanopore Technologies；例如，GridION系统。单个纳米孔可以跨微孔的顶部插入聚合物膜中。每个微孔可以具有用于单独感测的电极。微孔可以被制造成阵列芯片，每个芯片具有100,000个或更多个微孔(例如，超过200,000个、300,000个、400,000个、500,000个、600,000个、700,000个、800,000个、900,000个或1,000,000个)。仪器(或节点)可以用于分析芯片。可以实时分析数据。一次可以操作一个或更多个仪器。纳米孔可以是蛋白纳米孔，例如，蛋白α-溶血素、七聚体蛋白孔。纳米孔可以是固态纳米孔制成，例如，在合成膜(例如，SiN_x或SiO₂)中形成的纳米尺寸的孔。纳米孔可以是混合孔(例如，蛋白孔集成到固态膜中)。纳米孔可以是具有集成传感器(例如，隧穿电极检测器、电容检测器或基于石墨烯的纳米间隙或边缘状态检测器(参见例如，Garaj等人,Nature, 2010，第467卷，第190-193页))的纳米孔。纳米孔可以功能化用于分析特定类型的分子(例如，DNA、RNA或蛋白质)。纳米孔测序可以包括“链测序”，其中完整的DNA聚合物可以通过蛋白纳米孔，并在DNA移位孔时实时测序。酶可以分离双链DNA的链并将链供给通过纳米孔。DNA在一个末端处可以具有发夹，并且系统可以读取两条链。在一些情况下，纳米孔测序是“核酸外切酶测序”，其中单个核苷酸可以通过进行性核酸外切酶从DNA链裂解，并且核苷酸可以通过蛋白纳米孔。核苷酸可以瞬时结合至孔中的分子(例如，环糊精)。电流的特征性中断可以用于鉴定碱基。

可以使用来自GENIA的纳米孔测序技术。工程化蛋白孔可以包埋在脂质双层膜中。“主动控制”技术可以用于实现高效的纳米孔-膜组装和DNA移动通过通道的控制。在一些情况下，纳米孔测序技术来自NABsys。基因组DNA可以片段化为平均长度约100 kb的链。可以将100 kb片段制成单链，并随后与6-mer探针杂交。具有探针的基因组片段可以被驱动通过纳米孔，其可以产生电流相对于时间的追踪。电流追踪可以提供探针在每个基因组片段上的位置。基因组片段可以排列以创建基因组的探针图。对于探针的文库，该过程可以并行进行。可以生成每个探针的基因组长度探针图。错误可以用被称为“移动窗口杂交测序(moving window Sequencing By Hybridization，mwSBH)”的过程来修复。在一些情况下，纳米孔测序技术来自IBM/Roche。电子束可以用于在微芯片中制造纳米孔尺寸的开口。电场可以用于拉动DNA通过纳米孔或使DNA穿过纳米孔。纳米孔中的DNA晶体管装置可以包括交替的纳米尺寸的金属层和电介质层。DNA主链中的离散电荷可以被DNA纳米孔内的电场捕获。关闭和打开栅极电压可以允许读取DNA序列。

下一代测序可以包括DNA纳米球测序，如例如由Complete Genomics进行的。参见，例如，Drmanac等人，Science，2010，第327卷，第5961期，第78-81页。DNA可以被分离、片段化和选择尺寸。例如，可以将DNA片段化(例如，通过超声处理)至约500 bp的平均长度。衔接子(Adl)可以附接到片段的末端。衔接子可以用于与用于测序反应的锚杂交。可以PCR扩增与每个末端结合的具有衔接子的DNA。可以修饰衔接子序列，使得互补的单链末端彼此结合形成环状DNA。DNA可以被甲基化以保护其不被用于后续步骤中的IIS型限制性内切酶裂解。衔接子(例如，右衔接子)可以具有限制性识别位点，并且限制性识别位点可以保持非甲基化。衔接子中的非甲基化的限制性识别位点可以被限制性内切酶(例如，Acul)识别，并且DNA可以在右衔接子右侧13 bp被Acul裂解以形成线性双链DNA。可以将第二轮右衔接子和左衔接子(Ad2)连接到线性DNA的任一末端上，并且可以PCR扩增结合有两种衔接子的所有DNA (例如，通过PCR)。可以修饰Ad2序列以允许它们彼此结合并形成环状DNA。DNA可以被甲基化，但限制性内切酶识别位点可以在左Adl衔接子上保持非甲基化。可以应用限制性内切酶(例如，Acul)，并且可以在Adl左侧13 bp裂解DNA以形成线性DNA片段。可以将第三轮右衔接子和左衔接子(Ad3)连接至线性DNA的右侧翼和左侧翼，并且可以PCR扩增所得片段。可以修饰衔接子，使得它们可以彼此结合并形成环状DNA。可以添加III型限制性内切酶(例如，EcoP15)；EcoP15可以在Ad3左侧26 bp和Ad2右侧26 bp裂解DNA。这种裂解可以去除大的DNA区段并再次线性化DNA。可以将第四轮右衔接子和左衔接子(Ad4)连接至DNA，可以扩增DNA(例如，通过PCR)并修饰，使得它们彼此结合并形成完整的环状DNA模板。

滚环复制(例如，使用Phi 29 DNA聚合酶)可以用于扩增DNA的小片段。四种衔接子序列可以含有回文序列，其可以杂交并且单链可以自身折叠以形成DNA纳米球(DNB™)，所述DNA纳米球平均直径可以为约200纳米-300纳米。DNA纳米球可以附接(例如，通过吸附)到微阵列(测序流通池)。流通池可以是涂覆有二氧化硅、钛和六甲基二硅氮烷(HMDS)以及光致抗蚀剂材料的硅晶片。测序可以通过将荧光探针连接至DNA的非链式测序来进行。被询问位置的荧光的颜色可以通过高分辨率照相机可视化。可以确定衔接子序列之间核苷酸序列的身份。

本文提供了用于制备核酸文库的方法，所述方法包括以下中的一个或更多个步骤：提供一种或更多种样品核酸；样品核酸的末端修复；使用本文描述的变体聚合酶对样品核酸进行A-加尾，使一种或更多种样品核酸与多于一种衔接子和连接酶接触以形成包含衔接子连接的核酸的核酸测序文库；以及对核酸文库进行测序。在一些情况下，样品核酸包含基因组片段。

在一些情况下，基因组片段从基因组的裂解获得。在一些情况下，基因组片段从基因组的扩增获得。在一些情况下，样品核酸包含cDNA。在一些情况下，样品核酸包含cfDNA。在一些情况下，方法还包括制备核酸文库的一个或更多个步骤，诸如末端修复、a-加尾和扩增。在一些情况下，方法还包括在测序之前富集核酸文库。

阐述以下实施例是为了向本领域技术人员更清楚地说明本文公开的实施方案的原理和实践，并且不应被解释为限制任何要求保护的实施方案的范围。除非另有说明，否则所有份数和百分比均基于重量。

试剂盒

本文提供的组合物和方法可以存在于试剂盒中。在一些情况下，用于核酸文库制备的试剂盒包含(a)连接酶；(b)本文描述的变体聚合酶；和(c)至少一种衔接子。在一些情况下，试剂盒包含用于容纳试剂盒组分的包装。在一些情况下，试剂盒包含使用试剂盒组分的说明。在一些情况下，试剂盒包含衔接子、缓冲液、另外的酶、聚合酶、dNTP或与测序文库制备一起使用的其他组分。

实施例

以下实施例是为了说明本公开内容的各种实施方案而提供，并不意味着以任何方式限制本公开内容。本发明实施例以及本文描述的方法目前代表优选实施方案，是示例性的，并且不意图作为对本公开内容范围的限制。本领域技术人员将会想到其中的变化和其他用途，其包含在由权利要求书的范围限定的本公开内容的精神内。

实施例1：Taq聚合酶高通量测定

通用工作流程在图1中示出。对于该384孔板A-加尾酶筛选方案，从TwistBioscience Corporation获得非克隆片段。这些片段被设计为含有位于酶变体序列侧翼的T7启动子和终止子。将该DNA冻干并重悬于水中。用BR dsDNA Qubit (Thermofisher)测定每个孔中的DNA浓度。使用ECHO液体转移仪器在37℃用归一化的DNA模板质量建立小规模、1µL转录-偶联翻译(TxTl)反应持续2小时，用于产生酶变体，每个孔中一种独特的变体。在TxTl之后，将蛋白质混合物在70℃热处理持续30分钟以使TxTl蛋白质失活并仅留下活性的TaqIT变体(TaqIT缺乏天然Taq聚合酶的前280个氨基酸)。用A-加尾反应缓冲液、dNTP、由TxTl产生的酶和5 ng通过用MlyI限制性酶消化产生的平末端230 bp DNA底物进行A-加尾反应。该平末端底物是4条序列的混合物，除了任一侧的末端碱基是所有4种碱基的等摩尔混合物之外，它们都具有相同的序列。将A-加尾反应在65℃孵育持续30 min，以允许酶变体向平末端底物进行未模板化的添加。然后将反应一分为二以分别评价不同的碱基添加。为了观察酶变体的期望的活性，使用标准T-加尾的衔接子以连接至A-加尾的底物。TT或C-加尾的衔接子也用于定量酶变体的AA或G添加。在反应物1:300稀释后，通过qPCR评价双连接产物。用于测量连接的qPCR引物跨越连接点退火以确保适当的连接。此外，利用单独的引物对来测量嵌合分子连接(该实验不期望的结果)。基于相应筛选的qPCR数据，汇编Ct值并识别变体命中，所述变体命中被带入下一轮设计中，或被纯化用于验证。

使用纯化的WT TaqIT，评价A-加尾产物的突出端和碱基组成。在该测定中，将具有不同突出端和碱基组成的衔接子的池连接至具有未知末端的底物。每个衔接子具有条形码，该条形码允许在测序后解码DNA底物的末端类型(例如平末端或3-bp 5’突出端)。未处理的cfDNA (图2A)、末端修复后的cfDNA (图2B)以及末端修复和用WT TaqIT A-加尾后的cfDNA (图2C)的末端组成。末端修复成功地使分子得到平末端，并且A-加尾将单个A添加至大多数末端。在评价由WT TaqIT添加的3’ 1bp突出端的碱基组成的该实验中，几乎20%具有不是A的添加的碱基(图2D)。这些碱基将不可用于连接至标准的T-衔接子(具有一个碱基T突出端)。

实施例2：Taq聚合酶优化

按照实施例1的通用程序，使用多轮优化/选择来生成Taq聚合酶变体。来自Taq序列(SEQ ID NO: 1)的变体部分地基于高熵位置选择(图3)，并使用高通量qPCR测定进行筛选(图4A-图4B)。在第一轮中，测试单个变体的聚合性能度量。Taq聚合酶区域的多序列比对(MSA)与该酶的序列同源物比对。在文献中鉴定的酶区域进行MSA。在其他同源物中发现的可选选择的氨基酸，但不是WT，是TaqIT变体的初始设计的基础(图3)。

使用384孔板工作流程测定通过MSA鉴定的酶变体。进行两次重复，并通过qPCR定量与T-加尾衔接子的连接。归一化至WT的活性的散点图(图4A)显示出了两个重复之间的相关性。在WT周围存在变体云，并且变体的子集在一个或两个重复中表现优于WT。在跨越重复中始终表现优于WT的顶级变体的表在图4B中示出。

通过利用Taq聚合酶耐热性纯化Taq变体。图5A。将Taq变体表达为加His6标签的构建体。使加His标签的变体进行酶促裂解(BPER)并在70℃热处理持续30分钟。使用Ni-NTA柱纯化从热稳定的裂解物中纯化Taq变体，用于在下一代测序文库制备测定中表征。通过分光光度法定量纯化的变体，并使用SDS PAGE评价纯度。图5A示出纯化的野生型TaqIT的SDSPAGE凝胶，并且图5B示出纯化的Taq同源物的SDS PAGE凝胶。在末端修复、A-加尾反应期间，使用纯化的TaqIT同源物作为A-加尾酶进行NGS文库制备。这里绘制了每种酶变体(n=3)的比对的读段的总数(图5C)。

在第2轮筛选中，使用上文384孔板工作流程测定约50种单一变体的二元组合(图6A-图6C)。从这一轮中，选择成功者在纯化后进行评价。纯化的变体通过分光光度计定量，并在用于NGS文库制备(图7B-图7C)之前使用SDS PAGE (图7A)评价纯度。使用上文384孔板工作流程测定酶三元变体。进行两次重复，并通过qPCR定量与T-加尾衔接子的连接。归一化至WT的活性的散点图(图9A)示出了两个重复之间的相关性。在WT周围存在变体云，并且变体的子集在一个或两个重复中表现优于WT。在跨越重复中始终表现优于WT的顶级变体的表(图9B) (FE =富集倍数)。分析二元组合变体的正确尾部长度和3’具有“G”而不是“A”位置的一个碱基对突出端的数目(图8A-图8B)。使用末端组成测定，评价TaqIT二元变体和一种同源物的具有期望的1 bp 3’突出端的读段的百分比(图8A)。使用末端组成测定，评价TaqIT二元变体和一种同源物的具有G尾的1 bp 3’读段的百分比(一种不期望的结果)。通过减少对A-加尾具有更高特异性的G-加尾，TaqIT变体将为NGS产生更多可连接的分子(图8B)。

还构建了每个序列具有两个突变体的二元组合，示出一组纯化的TaqIT二元变体的SDS-PAGE凝胶在图7A中示出。在末端修复和A-加尾反应期间，使用纯化的TaqIT二元变体作为A-加尾酶进行NGS文库制备。这里绘制了每种酶变体(n=3)的比对的读段的总数(左)和嵌合体百分比(右)。(图9A-图9B)。使用上文384孔板工作流程测定酶三元变体。进行两次重复，并通过qPCR定量与T-加尾衔接子的连接。归一化至WT的活性的散点图(左)示出了两个重复之间的相关性。在WT周围存在变体云，并且变体的子集在一个或两个重复中表现优于WT。该板包括来自前一轮的几个二元变体。二元变体表现优于WT，并且其他三元变体也表现优于一些二元变体。右侧是在跨越重复中始终表现优于WT的顶级变体的表。(图9A-图9B)。

在一些情况下，野生型TaqIT (SEQ ID NO: 2)导致约8%的G加尾(而不是A)。对于与包含T突出端的衔接子的连接，这可能降低与这种类型的衔接子的连接效率。鉴定了突变体，其给出了改进的A-加尾效率和不超过2% G加尾的选择性(表3)。

表3

虽然本文已经示出和描述了本公开内容的优选的实施方案，但是对于本领域技术人员将明显的是，这样的实施方案仅以实例的方式提供。在不偏离本公开内容的情况下，本领域技术人员现将想到许多变化、改变和替代。应当理解，在实践本公开内容时可以使用本文描述的本公开内容的实施方案的多种替代方案。所附权利要求旨在限定本公开内容的范围，并且由此覆盖这些权利要求范围内的方法和结构及其等效物。

通过以下非限制性项目进一步描述本公开内容。

项目1. 一种变体多肽，所述变体多肽相对于SEQ ID NO: 1包含至少一个氨基酸突变。

项目2. 根据项目1所述的多肽，其中多肽与SEQ ID NO: 3-9中的任一个包含至少80%相似性。

项目3. 根据项目1所述的多肽，其中多肽与SEQ ID NO: 3-9中的任一个包含至少90%相似性。

项目4. 根据项目1所述的多肽，其中多肽与SEQ ID NO: 3-9中的任一个包含至少95%相似性。

项目5. 根据项目1所述的多肽，其中多肽与SEQ ID NO: 3-9中的任一个包含至少98%相似性。

项目6. 根据项目1所述的多肽，其中多肽包含SEQ ID NO: 3-9中的任一个。

项目7. 根据项目1-6中任一项所述的多肽，其中突变包含添加、缺失和取代中的一种或更多种。

项目8. 根据项目1-7中任一项所述的多肽，其中相对于SEQ ID NO: 1，缺失包括从N末端的250-300个氨基酸。

项目9. 根据项目1-7中任一项所述的多肽，其中多肽相对于SEQ ID NO: 1包含至少2个氨基酸突变。

项目10. 根据项目1-7中任一项所述的多肽，其中多肽相对于SEQ ID NO: 1包含至少3个氨基酸突变。

项目11. 根据项目1-7中任一项所述的多肽，其中多肽相对于SEQ ID NO: 1包含至少4个氨基酸突变。

项目12. 根据项目1-11中任一项所述的多肽，其中突变在相对于SEQ ID NO: 1的位置V449F、V493L、L522I、L605C、T664I、E681G、W706Y、D732A、R736K、R736Q和G824A中的一个或更多个处。

项目13. 根据项目12所述的多肽，其中突变在相对于SEQ ID NO: 1的位置V449F、V493L、L522I、L605C、T664I、E681G、W706Y、D732A、R736K、R736Q和G824A中的两个或更多个处。

项目14. 根据项目12所述的多肽，其中突变选自相对于SEQ ID NO: 1的V449F、V493L、L522I、L605C、T664I、E681G、W706Y、D732A、R736K、R736Q和G824A中的两种或更多种。

项目15. 根据项目14所述的多肽，其中突变选自相对于SEQ ID NO: 1的V449F、V493L、L522I、L605C、T664I、E681G、W706Y、D732A、R736K、R736Q和G824A中的一种或更多种。

项目16. 根据项目1-15中任一项所述的多肽，其中多肽还包含纯化标签。

项目17. 一种核酸，所述核酸编码项目1-16中任一项所述的多肽。

项目18. 一种载体，所述载体包含项目17的核酸。

项目19. 根据项目18所述的载体，其中载体包含质粒。

项目20. 一种细胞，所述细胞包含项目17的核酸。

项目21. 根据项目20所述的细胞，其中细胞包括细菌细胞。

项目22. 一种表达项目1-15中任一项所述的多肽的方法。

项目23. 根据项目22所述的方法，其中表达包括项目1-16中任一项所述的核酸序列的翻译。

项目24. 根据项目22或23所述的方法，其中方法包括体内方法。

项目25. 根据项目22或23所述的方法，其中方法包括无细胞方法。

项目26. 一种用于延伸第一多核苷酸的方法，所述方法包括：

使第一多核苷酸与项目1-16中任一项所述的核苷酸和多肽接触以形成延伸的多核苷酸。

项目27. 根据项目26所述的方法，其中第一多核苷酸包含基因组DNA或其片段。

项目28. 根据项目26所述的方法，其中第一多核苷酸包含cDNA。

项目29. 根据项目26所述的方法，其中核苷酸包含三磷酸腺苷。

项目30. 根据项目26-29中任一项所述的方法，其中方法对于单个核苷酸的掺入是选择性的。

项目31. 根据项目30所述的方法，其中相对于掺入多于一个核苷酸，方法导致对于单个核苷酸的至少90%选择性。

项目32. 根据项目30所述的方法，其中相对于掺入多于一个核苷酸，方法导致对于单个核苷酸的至少95%选择性。

项目33. 根据项目26-29中任一项所述的方法，其中方法对于核苷酸类型的掺入是选择性的。

项目34. 根据项目33所述的方法，其中方法导致对于核苷酸类型的至少90%选择性。

项目35. 根据项目33所述的方法，其中方法导致对于核苷酸类型的至少95%选择性。

项目36. 根据项目33所述的方法，其中方法导致对于A相对于G的至少95%选择性。

项目37. 根据项目26-36中任一项所述的方法，其中方法还包括将衔接子连接至延伸的多核苷酸。

项目38. 根据项目37所述的方法，其中衔接子包含与延伸的多核苷酸互补的突出端。

项目39. 根据项目37所述的方法，其中方法还包括延伸第二多核苷酸。

项目40. 根据项目39所述的方法，其中第一多核苷酸与第二多核苷酸杂交。

项目41. 一种用于核酸文库制备的试剂盒，所述试剂盒包含：

连接酶；

具有项目1-16中任一项所述的多肽的序列的聚合酶；和

至少一种衔接子。

项目42. 一种用于制备测序文库的方法，包括：

提供多于一种核酸；

末端修复该多于一种核酸；

使用具有项目1-16中任一项所述的多肽的序列的聚合酶对该核酸进行a-加尾；和

使用连接酶将至少一种衔接子连接至核酸。

项目43. 根据项目42所述的方法，其中多于一种核酸来源于cfDNA。

项目44. 根据项目42所述的方法，其中多于一种核酸来源于ctDNA。

Claims

1.一种多肽，所述多肽包含相对于SEQ ID NO: 1包含至少一个氨基酸突变的氨基酸序列。

2.根据权利要求1所述的多肽，其中所述多肽包含与SEQ ID NO: 3-9中的任一个至少80%、至少90%、至少95%、至少98%或100%同源的氨基酸序列。

3.根据权利要求1所述的多肽，其中所述突变包括添加、缺失、取代或其组合。

4.根据权利要求1所述的多肽，其中相对于SEQ ID NO: 1，所述缺失包括从N末端的250-300个氨基酸。

5.根据前述权利要求中任一项所述的多肽，其中所述多肽相对于SEQ ID NO: 1包含至少2个、至少3个或至少4个氨基酸突变。

6.根据权利要求1所述的多肽，其中所述突变在相对于SEQ ID NO: 1的位置V449、V493、L522、L605、T664、E681、W706、D732、R736、R736和G824中的一个或更多个处。

7.根据权利要求1所述的多肽，其中所述突变选自相对于SEQ ID NO: 1的V449F、V493L、L522I、L605C、T664I、E681G、W706Y、D732A、R736K、R736Q和G824A中的一种或更多种。

8.根据权利要求1所述的多肽，还包含纯化标签。

9.一种编码根据权利要求1所述的多肽的核酸分子。

10.一种载体，所述载体包含根据权利要求9所述的核酸。

11.一种细胞，所述细胞包含根据权利要求9所述的核酸分子。

12.一种用于延伸第一多核苷酸的方法，所述方法包括：

使所述第一多核苷酸与核苷酸和多肽接触以形成延伸的多核苷酸，

其中所述多肽包含相对于SEQ ID NO: 1包含至少一个氨基酸突变的氨基酸序列。

13.根据权利要求12所述的方法，其中所述第一多核苷酸包含基因组DNA或其片段、cDNA或三磷酸腺苷。

14.根据权利要求12所述的方法，其中所述方法对于单个核苷酸的掺入是至少90%选择性的。

15.根据权利要求12所述的方法，其中所述方法对于核苷酸类型的掺入是至少90%选择性的。

16.根据权利要求15所述的方法，其中所述方法对于腺嘌呤(A)相对于鸟嘌呤(G)是至少95%选择性的。

17.根据权利要求1所述的方法，还包括将衔接子连接至所述延伸的多核苷酸。

18.根据权利要求17所述的方法，其中所述衔接子包含与所述延伸的多核苷酸互补的突出端。

19.根据权利要求17所述的方法，还包括延伸第二多核苷酸，其中所述第一多核苷酸与所述第二多核苷酸杂交。

20.一种用于制备测序文库的方法，包括：

提供多于一种核酸；

末端修复所述多于一种核酸；

使用聚合酶对所述多于一种核酸进行a-加尾，其中所述聚合酶包含相对于SEQ ID NO:1包含至少一个氨基酸突变的氨基酸序列；和

使用连接酶将至少一种衔接子连接至所述核酸。