CN110168084A

CN110168084A - 用于内源和来源DNA的单发指导RNA(ogRNA)靶向的系统和方法

Info

Publication number: CN110168084A
Application number: CN201780082711.XA
Authority: CN
Inventors: A·E·弗里德兰; H·嘉亚拉穆; B·E·斯泰恩伯格
Original assignee: Eddie Tasmania Pharmaceutical Co
Current assignee: Eddie Tasmania Pharmaceutical Co
Priority date: 2016-12-05
Filing date: 2017-12-05
Publication date: 2019-08-23
Also published as: US20180251792A1; CA3046076A1; MX2024002327A; US9963719B1; US10006054B1; MX2019006475A; JP2023052089A; WO2018106693A1; US20230416787A1; US20200056208A1; US11028411B2; JP7272952B2; US20180201956A1; JP2019536462A; US20220017927A1; US11692205B2; EP3548614A1; KR102604903B1; AU2017373797A1; KR20190088555A

Abstract

提供了编码基因组编辑系统组分的工程化核酸，所述组分是工程化RNA指导的核酸酶，其包括部分由细胞基因组编码的插入物或由指导RNA识别的其他序列。

Description

用于内源和来源DNA的单发指导RNA(ogRNA)靶向的系统和方法

相关申请的交叉引用

本申请要求2016年12月5日提交的美国临时申请号62/430,154和2017年5月9日提交的美国临时申请号62/503,640的优先权，将这些申请的内容通过引用以其全文并入，并要求这些内容的优先权。

序列表

本申请含有以ASCII格式经由EFS-Web提交的序列表，并且将其通过引用以其全文特此结合。创建于2017年12月4日的ASCII副本命名为0841770163SEQLISTING.TXT，并且大小为92,969字节。

技术领域

本披露涉及用于编辑靶核酸序列或调节靶核酸序列的表达的基因组编辑系统以及相关方法和组合物，以及其应用。更特定地，本披露涉及工程化自调节基因组编辑系统。

背景技术

CRISPR(成簇规律间隔短回文重复序列)在细菌和古细菌中作为适应性免疫系统进化，以防御病毒攻击。在暴露于病毒后，病毒DNA的短区段被整合进CRISPR基因座中。RNA是从包括病毒序列的CRISPR基因座的一部分转录。该RNA含有与病毒基因组互补的序列，介导将Cas9蛋白靶向病毒基因组中的靶序列。Cas9蛋白又裂解病毒靶标并且由此使该靶标沉默。

最近，CRISPR/Cas系统已经改适以用于在真核细胞中进行基因组编辑。位点特异性双链断裂(DSB)的引入允许通过内源DNA修复机制(例如非同源末端连接(NHEJ)或同源定向修复(HDR))改变靶序列。

使用基于CRISPR/Cas的基因组编辑系统作为治疗遗传病的工具已得到广泛认可。例如，美国食品药品监督管理局(FDA)于2016年11月15日举办科学委员会会议(ScienceBoard Meeting)，介绍了此类系统的使用以及其可能造成的潜在监管问题。在这次会议上，FDA指明，虽然可定制Cas9/指导RNA(gRNA)核糖核蛋白(RNP)复合物以在所关注基因座处产生精确编辑，但这些复合物也可与其他“脱靶”基因座相互作用并在其他“脱靶”基因座处切割。脱靶切割(“脱靶”)的可能性又至少增加关于批准CRISPR/Cas疗法的监管风险。

降低脱靶风险的一个策略是在编码Cas9的载体中包括“管理指导RNA”(ggRNA)，其为靶向Cas9编码序列的指导RNA。在将这种载体递送至受试者时，可能原本由病毒转导细胞组成型和/或稳定表达的Cas9仅瞬时表达。随着时间推移，载体中的Cas9编码结构域因管理指导RNA介导的切割而被破坏。

发明内容

本披露提供基因组编辑系统和相关方法，其改适靶向特定基因座的gRNA以按与常规ggRNA不同的方式短暂限制这些系统的基因组编辑活性。这些经改适gRNA称为“单发(one-shot)指导RNA”或“ogRNA”。为清晰起见，本文描述的ogRNA可以为单分子或模块，如下文更详细地论述。将gRNA改适为ogRNA是通过将此类gRNA识别的细胞DNA序列工程化到编码RNA指导的核酸酶(例如，Cas9核酸酶或Cpf1核酸酶)或载体骨架的核酸序列中来实现。在某些实施例中，RNA指导的核酸酶是Cas9。在某些实施例中，RNA指导的核酸酶是Cpf1。

在一个方面中，本披露涉及编码RNA指导的核酸酶的经分离核酸，该经分离核酸包括外源、经取代、插入或工程化的核酸序列，例如真核核酸序列。真核或其他外源序列的长度通常为17个核苷酸或更多，并且包含或邻近由RNA指导的核酸酶识别的原型间隔子邻近基序(PAM)。经分离核酸的某些实施例还编码具有靶向结构域的gRNA(例如，ogRNA)，该靶向结构域与邻近PAM的外源或真核核酸序列的部分互补，该靶向结构域的长度为任选地大于16个核苷酸或为16-24个核苷酸。在某些实施例中，靶向结构域与外源或真核核酸序列的部分的互补性足以允许修饰编码RNA指导的核酸酶的核酸序列。在某些实施例中，靶向结构域与外源或真核核酸序列的至少约50％、约60％、约70％、约80％、约90％、约91％、约92％、约93％、约94％、约95％、约96％、约97％、约98％、约99％互补。在某些实施例中，RNA指导的核酸酶是Cas9蛋白。在一些实施例中，真核核酸序列是在RNA指导的核酸酶编码序列内，其中该真核核酸序列可以编码该蛋白质的经修饰部分的至少部分。在其中外源序列编码RNA指导的核酸酶的经修饰部分的全部或部分的情况下，该序列可以定位于一区域内，该区域在其3'端和5'端的每一端侧接甘氨酸、丙氨酸或缬氨酸的密码子。在一些情形中，RNA指导的核酸酶编码序列的包含外源核酸序列的区域编码具有G-(X)_6-10-G的序列的氨基酸。在其中RNA指导的核酸酶为Cas9的实施例中，由这些序列编码的蛋白质可以包含诸如E271_N272insGX_6-10G、L371_N372insGX_6-10G和/或Q737_A738insGX_6-10G等插入(相对于SEQ ID NO:2)，和/或在Cas9肽的N末端处或N末端附近的插入，和/或与SEQ ID NO:3-5和10具有至少95％同一性(例如95％、96％、97％、98％、99％或更高同一性)的序列。

继续本披露的这个方面，经分离核酸可以包括插入(相对于SEQ ID NO:6)c.813_814insN27-36、c.1113_1114insN27-36和/或c.2211_2212insN27-36，和/或在Cas9肽的N末端的编码序列处或N末端的编码序列附近的插入，和/或与SEQ ID NO:7-9和11具有至少95％(例如95％、96％、97％、98％、99％或更高同一性)的序列同一性。可替代地或另外地，经分离核酸可以包括c.157insN_19-36的插入和/或与SEQ ID NO:1共享至少80％(例如80％、85％、90％、95％、96％、97％、98％、99％或更高同一性)的序列同一性。将根据本披露的这个方面的经分离核酸任选地并入载体例如质粒、病毒载体、裸DNA载体等中。在一些情况下，腺相关病毒(AAV)载体并入根据本披露的这个方面的经分离核酸。在某些实施例中，gRNA的靶位点是在载体骨架内。这些载体可用于改变细胞内源靶基因和RNA指导的核酸酶表达二者。

在某些实施例中，RNA指导的核酸酶是Cpf1。在某些实施例中，Cpf1蛋白的氨基酸序列陈述于SEQ ID NO:13中。在某些实施例中，Cpf1蛋白可以包含插入，例如GX_6-10G插入。在某些实施例中，插入(相对于SEQ ID NO:13)定位于氨基酸位置147与148之间，氨基酸位置484与492之间的任一位置，氨基酸位置568与590之间的任一位置，氨基酸位置795与855之间的任一位置，氨基酸位置1131与1140之间的任一位置，或氨基酸位置1160与1173之间的任一位置。在某些实施例中，插入定位于Cpf1肽的N末端处或N末端附近。在某些实施例中，包含该插入的Cpf1蛋白的氨基酸序列与SEQ ID NO:13具有至少95％序列同一性(例如95％、96％、97％、98％、99％或更高同一性)。

在某些实施例中，编码Cpf1蛋白的经分离核酸序列陈述于SEQ ID NO:14中。在某些实施例中，经分离Cpf1核酸可以包含插入，例如N24-36插入。在某些实施例中，插入(相对于SEQ ID NO:14)定位于核酸位置441与442之间，核酸位置1452与1474之间的任一位置，核酸位置1704与1768之间的任一位置，核酸位置2385与2563之间的任一位置，核酸位置3393与3418之间的任一位置，或核酸位置3480与3517之间的任一位置。在某些实施例中，该插入不改变经分离Cpf1核酸的阅读框。在某些实施例中，插入定位于Cpf1肽的N末端处或N末端附近。在某些实施例中，包含该插入的Cpf1蛋白的核酸序列与SEQ ID NO:14具有至少95％(例如95％、96％、97％、98％、99％或更高同一性)的序列同一性。将根据本披露的这个方面的经分离核酸任选地并入载体例如质粒、病毒载体、裸DNA载体等中。在一些情况下，腺相关病毒(AAV)载体并入根据本披露的这个方面的经分离核酸。在某些实施例中，gRNA的靶位点是在载体骨架内。这些载体可用于改变细胞内源靶基因和RNA指导的核酸酶表达二者。

在另一个方面中，本披露涉及瞬时活性基因组编辑系统，其包括具有与真核核苷酸序列互补的靶向结构域的指导RNA以及由包含如上所述真核核酸序列的核酸编码的工程化RNA指导的核酸酶。在某些实施例中，RNA指导的核酸酶是Cas9蛋白。gRNA和工程化Cas9可以形成Cas9/gRNA复合物，该复合物又可裂解或以其他方式改变编码工程化Cas9蛋白的核酸或使该核酸失活。在某些实施例中，Cas9/gRNA复合物可以裂解编码细胞内源靶基因的核酸。瞬时活性基因组编辑系统可用于改变细胞内源靶标和RNA指导的核酸酶表达二者。如上文所讨论的，真核核酸序列可以至少部分编码Cas9的经修饰部分(例如，氨基酸插入或取代)，该经修饰部分具有如上所述的序列。在某些实施例中，工程化Cas9蛋白具有野生型Cas9蛋白的至少约80％的核酸酶活性。

在某些实施例中，RNA指导的核酸酶是Cpf1蛋白。gRNA和工程化Cpf1可以形成Cpf1/gRNA复合物，该复合物又可裂解或以其他方式改变编码工程化Cpf1蛋白的核酸或使该核酸失活。在某些实施例中，Cpf1/gRNA复合物可以裂解编码细胞内源靶基因的核酸。瞬时活性基因组编辑系统可用于改变细胞内源靶标和RNA指导的核酸酶表达二者。如上文所讨论的，真核核酸序列可以至少部分编码Cpf1的经修饰部分(例如，氨基酸插入或取代)，该经修饰部分具有如上所述的序列。在某些实施例中，工程化Cpf1蛋白具有野生型Cpf1蛋白的至少约80％的核酸酶活性

在又另一个方面中，本披露涉及RNA指导的核酸酶，其包含至少部分由长度为至少17个核苷酸的真核核酸序列编码的氨基酸插入或取代。在某些实施例中，具有氨基酸插入或取代的RNA指导的核酸酶具有野生型RNA指导的核酸酶的至少约80％的核酸酶活性。真核序列可以是哺乳动物序列，和/或人类或动物受试者的序列。在某些实施例中，RNA指导的核酸酶可以是Cas9蛋白，并且根据本披露的这个方面的编码Cas9蛋白的核酸基本上如上所述。

在另一个方面中，本披露涉及改变细胞的方法，其包括递送(例如接触、给予、引入、转染、转导等)如上所述的瞬时表达的基因组编辑系统。在某些实施例中，该方法可用于改变细胞中的靶位点。在某些实施例中，该方法可用于改变细胞内源靶基因和RNA指导的核酸酶表达二者。

在再另一个方面中，本披露涉及试剂盒，该试剂盒包含瞬时活性基因组编辑系统的以下一种或多种组分：根据上文所呈现的披露的各个方面核酸和/或RNA指导的核酸酶。

附图说明

附图旨在提供本披露的某些方面和实施例的说明性和示意性而非综合性的实例。图式并不旨在限制或结合于任何具体理论或模型，并且不一定成比例。不限制前文，可将核酸和多肽描绘为线性序列，或描绘为示意性二维或三维结构；这些描绘旨在具有说明性，而不是限制或束缚于关于其结构的任何具体模型或理论。

图1A是展示SaCas9-gRNA复合物的图，该复合物靶向内源细胞靶标和病毒载体中编码SaCas9的核酸二者。

图1B是描绘2-载体系统的卡通图，其中工程化SaCas9和gRNA被编码于分开的病毒基因组上。用箭头标记重组腺相关病毒(AAV)基因组中两种类型的示例性位点，异源细胞序列可工程化至这些位点中。

图2是描绘金黄色葡萄球菌(S.aureus)Cas9蛋白的带状图。用箭头标识可由工程化异源序列编码的示例性区域。

图3A-3C是示出并入异源细胞序列的示例性肽编码插入物的示意图。

图4A是描绘示例性构建体以及gRNA表达质粒的卡通图，这些示例性构建体具有在SaCas9编码序列中四个不同位置处的靶位点。

图4B描绘了对野生型Cas9构建体和自我失活Cas9构建体的转录水平和翻译水平的比较。

图4C-4E描绘了野生型和自我失活SaCas9蛋白之间的核酸酶活性水平。

图5A描绘了实例3中的实验设计。

图5B描绘了自我失活AAV在靶GFP质粒处维持功效，而在HEK293细胞中自我失活。左上图示出插入自我失活Cas9构建体中的靶位点的位置。左下图示出在使用或不使用野生型或自我失活SaCas9构建体的情况下，HEK293细胞中的GFP表达水平。右下图示出经野生型或自我失活SaCas9构建体转导的HEK293细胞中的Cas9蛋白水平。

图6A是示出在小鼠视网膜外植体中，在使用野生型或自我失活SaCas9构建体的情况下，内源靶基因座(mCEP290)的编辑水平的图。

图6B是展现在小鼠视网膜外植体中，在使用野生型或自我失活SaCas9构建体的情况下，野生型SaCas9序列水平％的图。

图7A描绘了在体内使用野生型或自我失活SaCas9构建体的情况下，内源靶基因座的编辑水平。

图7B描绘了与野生型SaCas9构建体相比，通过自我失活SaCas9构建体表达的特定转录物的倍数变化。

具体实施方式

定义和缩写

除非另外指定，否则以下术语中的每一个具有此章节中与其相关的含义。

不定冠词“一个”(“a”和“an”)是指至少一个相关名词，并且可与术语“至少一个”和“一个或多个”互换使用。例如，“一个模块”意指至少一个模块，或一个或多个模块。

连词“或”和“和/或”可作为非排他析取词互换使用。

“结构域”用于描述蛋白质或核酸的区段。除非另外指明，否则不需要结构域具有任何特定功能特性。

“indel”是核酸序列中的插入和/或缺失。indel可为DNA双链断裂的修复产物，该DNA双链断裂例如通过本披露的基因组编辑系统形成的双链断裂。indel最常在通过“错误倾向”修复路径(例如下文所述的NHEJ路径)修复断裂时形成。

“基因转变”是指通过并入内源同源序列(例如基因阵列内的同源序列)改变DNA序列。“基因修正”是指通过并入外源同源序列(例如外源单链或双链供体模板DNA)改变DNA序列。基因转变和基因修正是通过HDR路径(例如下文所述的那些)修复DNA双链断裂的产物。

Indel、基因转变、基因修正和其他基因组编辑结果典型地通过测序(最常通过“新一代(next-gen)”或“边合成边测序(sequencing-by-synthesis)”方法进行，但仍可使用Sanger测序)来评价，并且通过所有测序读段之间所关注位点处的数值变化(例如，±1、±2或更多个碱基)的相对频率来定量。测序用DNA样品可通过本领域中已知的多种方法来制备，并且可包括通过聚合酶链式反应(PCR)扩增所关注位点、捕捉通过双链断裂产生的DNA末端，如在Tsai等人(Nat.Biotechnol.[自然生物技术]34(5):483(2016)，通过引用并入本文)中所述的GUIDEseq方法中，或通过本领域熟知的其他手段。基因组编辑结果也可通过原位杂交法(例如FiberComb^TM系统，由基因组视觉公司(Genomic Vision)(法国巴涅)商品化)和通过本领域中已知的任何其他适宜方法来评价。

“alt-HDR”、“替代性同源定向修复”或“替代性HDR”可互换使用，是指使用同源核酸(例如，内源同源序列(例如姐妹染色单体)或外源核酸(例如模板核酸))修复DNA损伤的过程。alt-HDR与经典HDR的不同之处在于，该过程利用与经典HDR不同的路径，并且可以被经典HDR介体RAD51和BRCA2抑制。Alt-HDR的不同之处还在于涉及单链或带切口同源核酸模板，而经典HDR通常涉及双链同源模板。

“经典HDR”、“经典同源定向修复”或“cHDR”是指使用同源核酸(例如，内源同源序列(例如，姐妹染色单体)或外源核酸(例如，模板核酸))修复DNA损伤的过程。当在双链断裂处已有显著切除，形成DNA的至少一个单链部分时，经典HDR典型地起作用。在正常细胞中，cHDR典型地涉及一系列步骤，例如识别断裂、稳定断裂、切除、稳定单链DNA、形成DNA交叉中间体、拆分交叉中间体和连接。该过程需要RAD51和BRCA2，并且同源核酸典型地为双链。

除非另外指明，否则如本文所用的术语“HDR”涵盖经典HDR和alt-HDR两者。

“非同源末端连接”或“NHEJ”是指连接介导的修复和/或非模板介导的修复，包括经典NHEJ(cNHEJ)和替代性NHEJ(altNHEJ)，替代性NHEJ又包括微同源介导的末端连接(MMEJ)、单链退火(SSA)和合成依赖性微同源介导的末端连接(SD-MMEJ)。

在关于分子的修饰(例如核酸或蛋白质)使用时，“替代”或“替代的”不需要方法限制，但仅指示替代实体是存在的。

“受试者”意指人类或非人类动物。人类受试者可为任何年龄(例如，婴儿、儿童、青年人或成年人)，并且可患有疾病，并且可能实际上具有基因改变。可替代地，受试者可为动物，该术语包括但不限于哺乳动物、鸟、鱼、爬行动物、两栖动物，并且更具体地非人灵长类动物、啮齿类动物(例如小鼠、大鼠、仓鼠等)、兔子、豚鼠、犬、猫等。在本披露的某些实施例中，受试者为家畜，例如牛、马、绵羊或山羊。在某些实施例中，受试者是家禽。

“治疗(Treat)”、“治疗(treating)”和“治疗(treatment)”意指治疗受试者(例如，人类受试者)的疾病，包括以下各项中的一种或多种：抑制疾病，即，阻止或预防其发展或进展；缓解疾病，即，引起疾病状态消退；减轻疾病的一种或多种症状；和治愈疾病。

“预防(prevent)”、“预防(preventing)”和“预防(prevention)”是指预防哺乳动物(例如人类)的疾病，包括：(a)避免或预先排除疾病；(b)影响朝向疾病的倾向；或(c)预防或延迟疾病的至少一种症状的发作。

“试剂盒”是指两种或更多种组分的任何集合，该两种或更多种组分一起构成可用于特殊目的的功能单元。通过说明(而不是限制)，根据本披露的一个试剂盒可以包括与RNA指导的核酸酶复合或能够与该核酸酶复合的指导RNA，并且伴有(例如悬浮于，或可悬浮于)药学上可接受的载体。该试剂盒可用于将复合物引入例如细胞或受试者中，用于在这种细胞或受试者中引起所需基因组改变的目的。试剂盒的组分可以包装在一起，或者这些组分可分开包装。根据本披露的试剂盒还任选地包括使用说明书(DFU)，其描述例如根据本披露的方法使用该试剂盒。DFU可以物理方式与试剂盒包装在一起，或者可以使试剂盒的使用者能获得该DFU，例如通过电子方式获得。

术语“多核苷酸”、“核苷酸序列”、“核酸”、“核酸分子”、“核酸序列”和“寡核苷酸”是指DNA和RNA中的一系列核苷酸碱基(也称为“核苷酸”)，并且意指两个或更多个核苷酸的任何链。这些术语是指可以作为嵌合混合物或衍生物或其经修饰形式的组合物，其为单链或双链。这些术语还指可以在碱基部分、糖部分或磷酸骨架处经修饰的组合物，例如以改进分子的稳定性、其杂交参数等。核苷酸序列典型地携带遗传信息，包括但不限于细胞器用于制造蛋白质和酶的信息。这些术语包括双链或单链基因组DNA、RNA、任何合成的和遗传操作的多核苷酸，以及有义和反义多核苷酸二者。这些术语还包括含有经修饰碱基的核酸。

常规IUPAC表示法用于本文所呈现的核苷酸序列中，如下表1中所示(还参见Cornish-Bowden A，Nucleic Acids Res.[核酸研究]1985年5月10日；13(9):3021-30，通过引用并入本文)。然而应注意，在序列可能由DNA或者RNA编码的那些情况下，例如在gRNA靶向结构域中，“T”表示“胸腺嘧啶或尿嘧啶”。

表1：IUPAC核酸表示法

术语“蛋白质”、“肽”和“多肽”可互换使用，是指通过肽键连接在一起的氨基酸的连续链。这些术语包括个别蛋白质、缔合在一起的蛋白质的组或复合物，以及此类蛋白质的片段或部分、变体、衍生物和类似物。肽序列使用常规表示法呈现于本文中，在左侧以氨基或N末端开始，并且前进至右侧的羧基或C末端。可以使用标准单字母或三字母缩写。

概述

总体而言，本披露涉及基因组编辑系统，包括但不限于瞬时活性基因组编辑系统，其包含RNA指导的核酸酶和靶向特定(通常细胞的)DNA序列的gRNA。这些基因组编辑系统中所用的gRNA在本披露通篇中称为“单发指导RNA”或ogRNA，以将其与特异性靶向编码RNA指导的核酸酶(例如Cas9)的核酸序列的管理指导RNA相区分。在本披露的不同实施例中，编码基因组编辑系统的核酸经修饰以引入由ogRNA识别的位点，允许这些ogRNA在不改变其识别其被设计所靶向的特定细胞序列的能力的情况下起ggRNA的作用。因此，在某些实施例中，基因组编辑系统可以编辑内源靶基因座以及编码RNA指导的核酸酶的核酸。图1A是展示SaCas9-gRNA复合物的图，该复合物靶向内源细胞基因座以及病毒载体中的工程化Cas9序列，该工程化Cas9序列包含ogRNA靶序列。

为便于呈现，并且如图1B中所示，将引入编码基因组编辑系统的核酸中的位点分组为：(a)引入核酸载体骨架(例如病毒基因组骨架)中的位点，和/或(b)引入RNA指导的核酸酶编码序列(例如编码Cas9核酸酶的序列)中的位点。这种分组并不旨在限制或结合于任何具体理论或模型，并且(a)和(b)并不相互排斥。将ogRNA靶位点引入编码基因组编辑系统的序列或含有此类序列的载体中具有优于其他自我失活策略的若干优点。一方面，将ogRNA靶位点引入此类核酸中允许在不需要单独ggRNA的情况下设计和实施自我失活基因组编辑系统。这又容许将自我失活基因组编辑系统包装在显著较小的空间中，以有助于例如包含多个包装在单一载体中的gRNA(“单发”配置)的自我失活系统，该单一载体例如AAV载体，包装极限为约4.7kb。另一优点在于，相对于ggRNA系统而言ogRNA行为的预测性的潜在改进，这是由于例如消除了靶向基因组的gRNA与ggRNA之间的表达或切割效率差异所致的变化。本披露的实施例的其他优点对于本领域技术人员将是明显的。在某些实施例中，与野生型蛋白质相比，引入RNA指导的核酸酶中的位点不改变RNA指导的核酸酶的核酸酶活性。在某些实施例中，工程化RNA指导的核酸酶具有野生型蛋白质的至少约80％、约85％、约90％、约95％或约99％的核酸酶活性。

首先参看将工程化序列引入载体骨架中，本领域技术人员将理解，许多载体核酸(例如质粒、人工染色体和/或重组病毒载体基因组)包含不编码RNA指导的核酸酶的“骨架”序列。通过将一个或多个ogRNA靶位点工程化至这些骨架序列中，并入ogRNA的基因组编辑系统可识别并改变该载体，例如通过形成单链或双链断裂、点突变或如下文更详细地描述的其他修饰来进行。这种改变又可以减少或消除基因组编辑系统的一种或多种组分的转录，并且由此限制基因组编辑系统的活性。

ogRNA靶位点不论是否并入载体骨架或RNA指导的核酸酶编码序列中，通常都将包含与ogRNA的靶向结构域序列(或“间隔序列”，长度为16-24个核苷酸)互补的16-24个核苷酸的序列(“原型间隔子”序列)；原型间隔子与原型间隔子邻近基序(或“PAM”)相邻，根据所用RNA指导的核酸酶的种类，该原型间隔子邻近基序的长度通常介于3个与6个核苷酸之间。本披露中的某些实例集中于用于金黄色葡萄球菌Cas9的靶位点，该Cas9识别紧靠原型间隔子的3'的NNGRRT或NNGRRV PAM，如在“顶部”或“互补”链上所可视化。不限制前文，示例性金黄色葡萄球菌ogRNA靶位点的长度可为22-30个核苷酸，包含真核基因中的16-24核酸序列以及由金黄色葡萄球菌Cas9识别的6个核苷酸的PAM。

可将单发指导RNA靶位点工程化至载体骨架中的任何适宜位置，但在某些情形中可以有利地将ogRNA靶位点靠近以下位点或元件定位：(a)是载体在体内的稳定性所需要的；(b)在被例如indel破坏时将失去功能而不是获得功能；和/或(c)是表达功能性RNA指导的核酸酶所需要的。这些位点或元件可包括但不限于gRNA和/或RNA指导的核酸酶的启动子序列；末端反向重复序列、gRNA编码序列等。

在某些将ogRNA靶位点引入核酸载体骨架中的实施例中，靶位点位于gRNA和/或RNA指导的核酸酶的启动子序列内或与该启动子序列相邻。在某些实施例中，靶位点位于启动子序列的转录起始位点上游，例如，转录起始位点上游0bp、约1bp、约10bp、约50bp、约100bp、约200bp、约500bp、约1000bp或其任何中间距离或范围。在某些实施例中，靶位点位于启动子序列的转录起始位点下游，例如，转录起始位点下游0bp、约1bp、约10bp、约50bp、约100bp、约200bp、约500bp、约1000bp或其任何中间距离或范围。在某些实施例中，靶位点包含转录起始位点。

在某些将ogRNA靶位点引入核酸载体骨架中的实施例中，靶位点位于RNA指导的核酸酶的5'非翻译区(5'UTR)内或与该5'非翻译区相邻。在某些实施例中，靶位点位于启动子序列的翻译起始位点上游，例如翻译起始位点上游0bp、约1bp、约10bp、约50bp、约100bp、约200bp、约500bp、约1000bp或其任何中间距离或范围。在某些实施例中，靶位点位于RNA指导的核酸酶的3'非翻译区(3'UTR)内或与该3'非翻译区相邻。在某些实施例中，靶位点位于翻译终止密码子(例如，TGA、TAA和TAG)下游，例如，翻译终止位点下游0bp、约1bp、约10bp、约50bp、约100bp、约200bp、约500bp、约1000bp或其任何中间距离或范围。

下表2包括一个示例性AAV骨架，靶位点(由N's表示)在5'端附近工程化至该AAV骨架中(c.157insN_19-30)

表2：示例性骨架中靶序列

虽然表2的示例性骨架序列包括单一靶位点，但本披露还涵盖其中2、3、4、5或更多个相同或不相同靶序列工程化至载体中的骨架。另外，本领域技术人员将了解，载体骨架内的某些序列可与靶位点的部分类似，并且这些位点可易于修饰以产生靶位点。例如，在载体骨架内可以存在多个PAM，并且紧靠5'的序列(如在互补或顶部链上所可视化)可经修饰而与由ogRNA识别的原型间隔子相差0、1、2、3或更多个核苷酸。可替代地，可例如通过修饰紧靠靶向结构域3'的gRNA的残基将PAM序列引入编码gRNA靶向结构域的序列中。在某些实施例中，编码具有真核序列的Cas9蛋白的经分离核酸可以与SEQ ID NO:1共享至少80％(例如80％、85％、90％、95％、96％、97％、98％、99％或更高同一性)的序列同一性。在某些实施例中，编码具有真核序列的Cpf1蛋白的经分离核酸可以与SEQ ID NO:14共享至少80％(例如80％、85％、90％、95％、96％、97％、98％、99％或更高同一性)的序列同一性。

之后参看其中将靶位点引入编码RNA指导的核酸酶的序列中的系统，本披露提供某些工程化金黄色葡萄球菌Cas9蛋白，该蛋白是由包含如上所述靶位点的DNA序列来编码。当在Cas9编码序列和/或工程化Cas9蛋白中实施包含此类靶位点的短(例如24-42个碱基对，或8-13个氨基酸)序列时，不论是将这些短序列插入序列中或这些短序列替代序列的一部分，其都被称为“插入物”。图3A-3C是示出并入异源细胞序列的示例性肽编码插入物的示意图。

技术人员将了解，插入物的设计标准包括某些条件，这些条件不一定适用于DNA载体的“骨架”序列中的靶位点。一方面，在某些实施例中，插入物的长度可被3整除，以避免引入可影响工程化RNA指导的核酸酶的功能的移码突变。在基因组靶位点的长度无法被3整除的情况下，视需要将一个或两个额外核苷酸添加至插入物中，以保留包含插入物的编码序列的阅读框。

本披露的某些实施例符合的另一设计标准是，对包含插入物的工程化蛋白质的结构的破坏极小。这个要求在一些情况下是通过以下方式来符合的：(a)将插入物定位于对氨基酸添加耐受良好的核酸酶蛋白的区域中，和/或(b)选择将倾向于不破坏周围蛋白质的结构的插入物。继而处理这两个设计要素：关于插入物的位置，图1B和图2描绘了金黄色葡萄球菌Cas9蛋白中的四个示例性位点(AC1、AC2、AC3、NT)，在本披露的多个实施例中将插入物添加至所述四个示例性位点中，例如，E271_N272insGX_6-10G、L371_N372insGX_6-10G、Q737_A738insGX_6-10G和/或在N末端(NT)处或N末端附近。对应于这些位置中的每一个位置的肽序列呈现于下表3中。在该表中，插入物内的残基表示为X。为清晰起见，所呈现的序列包括10-12个氨基酸的插入物，但该插入物可具有任何适宜长度。

在某些实施例中，“在N末端处或N末端附近”的插入物定位于距RNA指导的核酸酶(例如，Cas9或Cpf1)肽的第一氨基酸残基约20个氨基酸残基内。在某些实施例中，在N末端处或N末端附近的插入物定位于距RNA指导的核酸酶(例如，Cas9或Cpf1)肽的第一氨基酸残基约0、约1、约2、约3、约4、约5、约6、约7、约8、约9、约10、约11、约12、约13、约14、约15、约16、约17、约18、约19或约20个氨基酸残基处。在某些实施例中，在N末端处或N末端附近的插入物定位于RNA指导的核酸酶(例如，Cas9或Cpf1)肽的第一氨基酸残基的上游。在某些实施例中，在N末端处或N末端附近的插入物定位于RNA指导的核酸酶(例如，Cas9或Cpf1)肽的第一氨基酸残基的下游。在某些实施例中，在N末端处或N末端附近的插入物定位于核定位序列(NLS)与RNA指导的核酸酶肽的编码序列之间。在某些实施例中，NLS包含SEQ ID NO:12GPKKKRKVEAS[SEQ ID NO:12]中所述的肽序列。

在某些实施例中，在N末端处或N末端附近的插入物定位于距Cas9肽的第一氨基酸残基约9个氨基酸残基内。在某些实施例中，在N末端处或N末端附近的插入物定位于距Cas9肽的第一氨基酸残基约0、约1、约2、约3、约4、约5、约6、约7、约8、约9个氨基酸残基处。在某些实施例中，在N末端处或N末端附近的插入物定位于距Cpf1肽的第一氨基酸残基约20个氨基酸残基内。在某些实施例中，在N末端处或N末端附近的插入物定位于距Cpf1肽的第一氨基酸残基约0、约1、约2、约3、约4、约5、约6、约7、约8、约9、约10、约11、约12、约13、约14、约15、约16、约17、约18、约19或约20个氨基酸残基处。

在某些实施例中，插入物可以包含翻译起始密码子(即，ATG)。在某些实施例中，翻译起始密码子(即，ATG)与RNA指导的核酸酶编码序列一起在框内。在某些实施例中，在RNA指导的核酸酶编码序列的N末端处或N末端附近的插入物定位于翻译起始密码子(即，ATG)与RNA指导的核酸酶编码序列之间。

另外，技术人员将了解，RNA指导的核酸酶序列(例如，Cas9或Cpf1蛋白序列)可以按不破坏ogRNA的操作的方式经修饰，并且这些序列可经修饰以具有1、2、3、4、5、6、7、8、9、10或更多个氨基酸变化。换句话说，在某些实施例中，序列将与相应的天然存在的RNA指导的核酸酶具有高于95％的序列同一性。在某些实施例中，如与野生型RNA指导的核酸酶相比，在这三个示例性位点中添加的插入物不改变RNA指导的核酸酶蛋白的核酸酶活性。在某些实施例中，在示例性位点添加有插入物的RNA指导的核酸酶将具有野生型RNA指导的核酸酶的至少约40％、约50％、约60％、约70％、约80％、约85％、约90％、约95％或约99％的核酸酶活性。

表3：示例性工程化Cas9蛋白

表3中呈现的工程化Cas9蛋白是由表4中所列的示例性核酸序列编码。在该表中，插入物内的核苷酸表示为N，并且对应于氨基酸位置1-3的插入物位置分别是c.813_814insN_27-36、c.1113_1114insN_27-36和c.2211_2212insN_27-36。

表4：编码工程化Cas9蛋白的示例性核酸序列

MTQFEGFTNLYQVSKTLRFELIPQGKTLKHIQEQGFIEEDKARNDHYKELKPIIDRIYKTYADQCLQLVQLDWENLSAAIDSYRKEKTEETRNALIEEQATYRNAIHDYFIGRTDNLTDAINKRHAEIYKGLFKAELFNGKVLKQLGTVTTTEHENALLRSFDKFTTYFSGFYENRKNVFSAEDISTAIPHRIVQDNFPKFKENCHIFTRLITAVPSLREHFENVKKAIGIFVSTSIEEVFSFPFYNQLLTQTQIDLYNQLLGGISREAGTEKIKGLNEVLNLAIQKNDETAHIIASLPHRFIPLFKQILSDRNTLSFILEEFKSDEEVIQSFCKYKTLLRNENVLETAEALFNELNSIDLTHIFISHKKLETISSALCDHWDTLRNALYERRISELTGKITKSAKEKVQRSLKHEDINLQEIISAAGKELSEAFKQKTSEILSHAHAALDQPLPTTLKKQEEKEILKSQLDSLLGLYHLLDWFAVDESNEVDPEFSARLTGIKLEMEPSLSFYNKARNYATKKPYSVEKFKLNFQMPTLASGWDVNKEKNNGAILFVKNGLYYLGIMPKQKGRYKALSFEPTEKTSEGFDKMYYDYFPDAAKMIPKCSTQLKAVTAHFQTHTTPILLSNNFIEPLEITKEIYDLNNPEKEPKKFQTAYAKKTGDQKGYREALCKWIDFTRDFLSKYTKTTSIDLSSLRPSSQYKDLGEYYAELNPLLYHISFQRIAEKEIMDAVETGKLYLFQIYNKDFAKGHHGKPNLHTLYWTGLFSPENLAKTSIKLNGQAELFYRPKSRMKRMAHRLGEKMLNKKLKDQKTPIPDTLYQELYDYVNHRLSHDLSDEARALLPNVITKEVSHEIIKDRRFTSDKFFFHVPITLNYQAANSPSKFNQRVNAYLKEHPETPIIGIDRGERNLIYITVIDSTGKILEQRSLNTIQQFDYQKKLDNREKERVAARQAWSVVGTIKDLKQGYLSQVIHEIVDLMIHYQAVVVLANLNFGFKSKRTGIAEKAVYQQFEKMLIDKLNCLVLKDYPAEKVGGVLNPYQLTDQFTSFAKMGTQSGFLFYVPAPYTSKIDPLTGFVDPFVWKTIKNHESRKHFLEGFDFLHYDVKTGDFILHFKMNRNLSFQRGLPGFMPAWDIVFEKNETQFDAKGTPFIAGKRIVPVIENHRFTGRYRDLYPANELIALLEEKGIVFRDGSNILPKLLENDDSHAIDTMVALIRSVLQMRNSNAATGEDYINSPVRDLNGVCFDSRFQNPEWPMDADANGAYHIALKGQLLLNHLKESKDLKLQNGISNQDWLAYIQELRN[SEQ ID NO:13]

ATGACACAGTTCGAGGGCTTTACCAACCTGTATCAGGTGAGCAAGACACTGCGGTTTGAGCTGATCCCACAGGGCAAGACCCTGAAGCACATCCAGGAGCAGGGCTTCATCGAGGAGGACAAGGCCCGCAATGATCACTACAAGGAGCTGAAGCCCATCATCGATCGGATCTACAAGACCTATGCCGACCAGTGCCTGCAGCTGGTGCAGCTGGATTGGGAGAACCTGAGCGCCGCCATCGACTCCTATAGAAAGGAGAAAACCGAGGAGACAAGGAACGCCCTGATCGAGGAGCAGGCCACATATCGCAATGCCATCCACGACTACTTCATCGGCCGGACAGACAACCTGACCGATGCCATCAATAAGAGACACGCCGAGATCTACAAGGGCCTGTTCAAGGCCGAGCTGTTTAATGGCAAGGTGCTGAAGCAGCTGGGCACCGTGACCACAACCGAGCACGAGAACGCCCTGCTGCGGAGCTTCGACAAGTTTACAACCTACTTCTCCGGCTTTTATGAGAACAGGAAGAACGTGTTCAGCGCCGAGGATATCAGCACAGCCATCCCACACCGCATCGTGCAGGACAACTTCCCCAAGTTTAAGGAGAATTGTCACATCTTCACACGCCTGATCACCGCCGTGCCCAGCCTGCGGGAGCACTTTGAGAACGTGAAGAAGGCCATCGGCATCTTCGTGAGCACCTCCATCGAGGAGGTGTTTTCCTTCCCTTTTTATAACCAGCTGCTGACACAGACCCAGATCGACCTGTATAACCAGCTGCTGGGAGGAATCTCTCGGGAGGCAGGCACCGAGAAGATCAAGGGCCTGAACGAGGTGCTGAATCTGGCCATCCAGAAGAATGATGAGACAGCCCACATCATCGCCTCCCTGCCACACAGATTCATCCCCCTGTTTAAGCAGATCCTGTCCGATAGGAACACCCTGTCTTTCATCCTGGAGGAGTTTAAGAGCGACGAGGAAGTGATCCAGTCCTTCTGCAAGTACAAGACACTGCTGAGAAACGAGAACGTGCTGGAGACAGCCGAGGCCCTGTTTAACGAGCTGAACAGCATCGACCTGACACACATCTTCATCAGCCACAAGAAGCTGGAGACAATCAGCAGCGCCCTGTGCGACCACTGGGATACACTGAGGAATGCCCTGTATGAGCGGAGAATCTCCGAGCTGACAGGCAAGATCACCAAGTCTGCCAAGGAGAAGGTGCAGCGCAGCCTGAAGCACGAGGATATCAACCTGCAGGAGATCATCTCTGCCGCAGGCAAGGAGCTGAGCGAGGCCTTCAAGCAGAAAACCAGCGAGATCCTGTCCCACGCACACGCCGCCCTGGATCAGCCACTGCCTACAACCCTGAAGAAGCAGGAGGAGAAGGAGATCCTGAAGTCTCAGCTGGACAGCCTGCTGGGCCTGTACCACCTGCTGGACTGGTTTGCCGTGGATGAGTCCAACGAGGTGGACCCCGAGTTCTCTGCCCGGCTGACCGGCATCAAGCTGGAGATGGAGCCTTCTCTGAGCTTCTACAACAAGGCCAGAAATTATGCCACCAAGAAGCCCTACTCCGTGGAGAAGTTCAAGCTGAACTTTCAGATGCCTACACTGGCCTCTGGCTGGGACGTGAATAAGGAGAAGAACAATGGCGCCATCCTGTTTGTGAAGAACGGCCTGTACTATCTGGGCATCATGCCAAAGCAGAAGGGCAGGTATAAGGCCCTGAGCTTCGAGCCCACAGAGAAAACCAGCGAGGGCTTTGATAAGATGTACTATGACTACTTCCCTGATGCCGCCAAGATGATCCCAAAGTGCAGCACCCAGCTGAAGGCCGTGACAGCCCACTTTCAGACCCACACAACCCCCATCCTGCTGTCCAACAATTTCATCGAGCCTCTGGAGATCACAAAGGAGATCTACGACCTGAACAATCCTGAGAAGGAGCCAAAGAAGTTTCAGACAGCCTACGCCAAGAAAACCGGCGACCAGAAGGGCTACAGAGAGGCCCTGTGCAAGTGGATCGACTTCACAAGGGATTTTCTGTCCAAGTATACCAAGACAACCTCTATCGATCTGTCTAGCCTGCGGCCATCCTCTCAGTATAAGGACCTGGGCGAGTACTATGCCGAGCTGAATCCCCTGCTGTACCACATCAGCTTCCAGAGAATCGCCGAGAAGGAGATCATGGATGCCGTGGAGACAGGCAAGCTGTACCTGTTCCAGATCTATAACAAGGACTTTGCCAAGGGCCACCACGGCAAGCCTAATCTGCACACACTGTATTGGACCGGCCTGTTTTCTCCAGAGAACCTGGCCAAGACAAGCATCAAGCTGAATGGCCAGGCCGAGCTGTTCTACCGCCCTAAGTCCAGGATGAAGAGGATGGCACACCGGCTGGGAGAGAAGATGCTGAACAAGAAGCTGAAGGATCAGAAAACCCCAATCCCCGACACCCTGTACCAGGAGCTGTACGACTATGTGAATCACAGACTGTCCCACGACCTGTCTGATGAGGCCAGGGCCCTGCTGCCCAACGTGATCACCAAGGAGGTGTCTCACGAGATCATCAAGGATAGGCGCTTTACCAGCGACAAGTTCTTTTTCCACGTGCCTATCACACTGAACTATCAGGCCGCCAATTCCCCATCTAAGTTCAACCAGAGGGTGAATGCCTACCTGAAGGAGCACCCCGAGACACCTATCATCGGCATCGATCGGGGCGAGAGAAACCTGATCTATATCACAGTGATCGACTCCACCGGCAAGATCCTGGAGCAGCGGAGCCTGAACACCATCCAGCAGTTTGATTACCAGAAGAAGCTGGACAACAGGGAGAAGGAGAGGGTGGCAGCAAGGCAGGCCTGGTCTGTGGTGGGCACAATCAAGGATCTGAAGCAGGGCTATCTGAGCCAGGTCATCCACGAGATCGTGGACCTGATGATCCACTACCAGGCCGTGGTGGTGCTGGCGAACCTGAATTTCGGCTTTAAGAGCAAGAGGACCGGCATCGCCGAGAAGGCCGTGTACCAGCAGTTCGAGAAGATGCTGATCGATAAGCTGAATTGCCTGGTGCTGAAGGACTATCCAGCAGAGAAAGTGGGAGGCGTGCTGAACCCATACCAGCTGACAGACCAGTTCACCTCCTTTGCCAAGATGGGCACCCAGTCTGGCTTCCTGTTTTACGTGCCTGCCCCATATACATCTAAGATCGATCCCCTGACCGGCTTCGTGGACCCCTTCGTGTGGAAAACCATCAAGAATCACGAGAGCCGCAAGCACTTCCTGGAGGGCTTCGACTTTCTGCACTACGACGTGAAAACCGGCGACTTCATCCTGCACTTTAAGATGAACAGAAATCTGTCCTTCCAGAGGGGCCTGCCCGGCTTTATGCCTGCATGGGATATCGTGTTCGAGAAGAACGAGACACAGTTTGACGCCAAGGGCACCCCTTTCATCGCCGGCAAGAGAATCGTGCCAGTGATCGAGAATCACAGATTCACCGGCAGATACCGGGACCTGTATCCTGCCAACGAGCTGATCGCCCTGCTGGAGGAGAAGGGCATCGTGTTCAGGGATGGCTCCAACATCCTGCCAAAGCTGCTGGAGAATGACGATTCTCACGCCATCGACACCATGGTGGCCCTGATCCGCAGCGTGCTGCAGATGCGGAACTCCAATGCCGCCACAGGCGAGGACTATATCAACAGCCCCGTGCGCGATCTGAATGGCGTGTGCTTCGACTCCCGGTTTCAGAACCCAGAGTGGCCCATGGACGCCGATGCCAATGGCGCCTACCACATCGCCCTGAAGGGCCAGCTGCTGCTGAATCACCTGAAGGAGAGCAAGGATCTGAAGCTGCAGAACGGCATCTCCAATCAGGACTGGCTGGCCTACATCCAGGAGCTGCGCAAC[SEQ ID NO:14]

技术人员将认识到，本文所呈现的示例性序列可以按不影响其所体现的基因组编辑系统的操作原理的方式被修饰。因此，经截短、融合至其他序列或以其他方式经修饰以相对于本文所呈现序列具有>50％、>60％、>70％、>80％、>85％、>90％、>91％、>92％、>93％、>94％、>95％、>96％、>97％、>98％或>99％序列同一性的经修饰核苷酸或氨基酸序列在本披露的范围内。与本文所呈现序列相差1、2、3、4、5、6、7、8、9、10、15、20或更多个残基的氨基酸或核酸序列也在本披露的范围内。

之后参看将使对核酸酶结构的破坏降至最低的插入物的选择，在本披露范围内的许多插入物已经工程化以满足以下要求中的一项或多项：(i)插入物在其3'端和5'端包括甘氨酸或另一小型柔性残基(例如，丙氨酸或缬氨酸)的3-核苷酸密码子，并且编码诸如以下等氨基酸序列：G-[X]_6-10-G，其中“X”表示任何氨基酸，受到此处所述的约束；(ii)插入物不在编码序列中引入终止密码子、剪接供体或受体或其他不需要的结构域；(iii)X的特征为亲水性或疏水性将不破坏工程化蛋白质的折叠或其最终结构(例如苯丙氨酸)；以及(iv)X并非大体积氨基酸(例如色氨酸)，并且不是半胱氨酸、脯氨酸或其他可能通过引入弯曲或引起与周围蛋白质的空间干扰、形成硫桥等破坏Cas9的结构的氨基酸。

在某些情形中，根据本披露的插入物可根据以下启发式方法来产生：

1.对于所关注细胞基因靶标内的靶位点(原型间隔子和PAM)，鉴别可能由所有6个可能阅读框中的靶位点序列编码的所有可能的氨基酸序列；

2.丢弃不符合上述设计标准的任何核苷酸序列阅读框(例如，编码终止密码子的阅读框，或编码可能会因疏水性、体积等破坏周围蛋白质的结构的肽的阅读框)；

3.对于步骤2中未丢弃的每个核苷酸序列，

a.将甘氨酸密码子添加至靶位点的3'端和5'端，

b.如果需要，在甘氨酸密码子与靶位点之间的序列的5'端插入一个或两个核苷酸，以将靶位点序列转移至所需阅读框中；和

c.如果需要，在靶位点与甘氨酸密码子之间的序列的3'端插入一个或两个核苷酸，以将3'甘氨酸密码子和随后的肽序列保持在框内。

应注意，本披露的插入物与RNA指导的核酸酶广泛相容，RNA指导的核酸酶包括但不限于Cas9、Cpf1和其他2类核酸酶以及其各种直系同源物，以及编码它们的核酸。在某些实施例中，RNA指导的核酸酶是Cas9。在某些实施例中，RNA指导的核酸酶是Cpf1。虽然本披露的某些实例集中于使用插入物调节金黄色葡萄球菌Cas9的表达，但技术人员将了解，本披露的插入物可经改适用于其他核酸酶或直系同源物。举例来说，插入物可通过以下方式经改适用于另一核酸酶或直系同源物：(i)选择适当靶位点，该靶位点包含由该核酸酶或直系同源物识别的PAM序列，和(ii)选择在肽环内的插入位点，该肽环(a)位于核酸酶蛋白的表面上，和/或(b)被预测可耐受该插入物的插入而不改变折叠或结构。

在使用中，根据本披露的工程化核酸同时提供用于转录和表达基因组编辑系统组分的模板和用于由基因组编辑系统在表达后进行裂解或其他编辑的底物。在许多(但不一定所有)实施例中，工程化核酸的裂解降低或消除由该工程化核酸编码的一个或多个基因组编辑系统组分的表达。可替代地或另外地，工程化核酸的裂解可导致形成降低基因组编辑系统组分的功能的indel突变。如与编码类似组分的未工程化核苷酸相比，这些结果又可以提供因递送工程化核酸引起的对基因组编辑活性的时间限制。例如，如果可预期在组成型启动子控制下编码RNA指导的核酸酶和gRNA的核酸载体驱动进行性的组成型基因组编辑活性，那么在同一载体中(在骨架或RNA指导的核酸酶编码序列中)包括ogRNA靶位点将导致系统组分的有限高表达期和基因组编辑活性的瞬时峰，所述高表达期和瞬时峰将在数小时、数天或数周期间随着每个细胞内的载体拷贝裂解和失活而降低。对于技术人员将很明显，使用本文所述瞬时活性基因组编辑系统的基因组编辑活性的时间限制在某些环境中可以是有利的，例如限制脱靶切割的可能性，或限制任何潜在的对基因组编辑系统组分的细胞反应。

在某些实施例中，RNA指导的核酸酶的活性可以通过插入载体骨架或者RNA指导的核酸酶编码序列中的ogRNA靶序列的性质来调节。例如，如果ogRNA靶序列包含共有PAM序列，那么RNA指导的核酸酶将以与包含次最佳PAM的靶序列相比更高的效率编辑编码RNA指导的核酸酶的核酸。因此，如果采用共有PAM序列，那么RNA指导的核酸酶的表达将反映爆发剂量，而如果采用次最佳PAM序列，那么RNA指导的核酸酶的表达将反映延长剂量。金黄色葡萄球菌Cas9的示例性共有和次最佳PAM序列列于表5中。

表5：共有和次最佳金黄色葡萄球菌Cas9 PAM序列

PAM	描述
		NNGRRT	共有金黄色葡萄球菌PAM
NNGYRT	次最佳PAM–R1处Y取代
		NNGRYT	次最佳PAM–R2处Y取代
NNGYYT	次最佳PAM–R1、R2处取代
		NNGRRV	次最佳PAM–V取代T
NNGYRV	次最佳PAM–R1、T处取代
		NNGRYV	次最佳PAM–R2、T处取代
NNHRRT	次最佳PAM–H取代G
		NNHYRT	次最佳PAM–H取代G，R1处取代
NNHRYT	次最佳PAM–H取代G，R2处取代
		NNHRRV	次最佳PAM–H取代G，V取代T
NNHYRV	次最佳PAM–H取代G，R1处取代，V取代T
		NNHRYV	次最佳PAM–H取代G，R2处取代，V取代T
NNHYYV	次最佳PAM–H取代G，R1、R2处取代，V取代T

此概述集中于多个示例性实施例，所述实施例说明某些工程化核酸载体和工程化RNA指导的核酸酶的原理。然而，为清晰起见，本披露涵盖对于本领域技术人员将明显的修饰和变异。例如，如本文所述对编码RNA指导的核酸酶的核酸以及编码细胞内源靶基因的核酸的编辑可以同时或合并进行，但这种编辑不一定存在时间限制。考虑到这一点，以下披露旨在更概括地说明基因组编辑系统的操作原理。下文不应被理解为限制性，而是说明基因组编辑系统的某些原理，所述原理与本披露组合，将告知本领域技术人员关于在本披露范围内的其他实施方式和修改的信息。

基因组编辑系统

术语“基因组编辑系统”是指具有RNA指导的DNA编辑活性的任何系统。本披露的基因组编辑系统包括至少两种从天然存在的CRISPR系统改适的组分：指导RNA(gRNA)和RNA指导的核酸酶。这两种组分形成复合物，该复合物能够与特定核酸序列缔合并编辑该核酸序列中或其周围的DNA，例如通过制造单链断裂(SSB或切口)、双链断裂(DSB)和/或点突变。在某些实施例中，基因组编辑系统是瞬时活性基因组编辑系统。在某些实施例中，基因组编辑系统可改变细胞内源靶基因和RNA指导的核酸酶表达二者。在某些实施例中，gRNA/RNA指导的核酸酶复合物可以裂解编码RNA指导的核酸酶的核酸和编码细胞内源靶基因的核酸二者。

天然存在的CRISPR系统进化性地组织化为两个类别和五种类型(Makarova等人，Nat Rev Microbiol.[自然综述：微生物学]2011年6月；9(6):467–477(Makarova)，通过引用并入本文)，并且虽然本披露的基因组编辑系统可改适任一类型或类别的天然存在的CRISPR系统的组分，但本文所呈现的实施例通常是从2类和II型或V型CRISPR系统改适。2类系统涵盖II型和V型，其特征为相对较大的多结构域RNA指导的核酸酶蛋白(例如，Cas9或Cpf1)以及一个或多个指导RNA(例如，crRNA和任选地tracrRNA)，它们形成核糖核蛋白(RNP)复合物，该复合物缔合(即，靶向)并裂解与crRNA的靶向(或间隔序列)序列互补的特定基因座。根据本披露的基因组编辑系统类似地靶向并编辑细胞DNA序列，但与自然界中存在的CRISPR系统显著不同。例如，本文所述的单分子指导RNA在自然界中不存在，并且根据本披露的指导RNA和RNA指导的核酸酶二者可并入任一数目的非天然存在的修饰。

基因组编辑系统可以用多种方式来实施(例如给予或递送至细胞或受试者)，并且不同的实施可适合于不同应用。例如，在某些实施例中，基因组编辑系统是作为蛋白质/RNA复合物(核糖核蛋白，或RNP)来实施，其可以包括于药物组合物中，所述药物组合物任选地包括药学上可接受的载体和/或囊封剂，例如脂质或聚合物微粒或纳米颗粒、胶束、脂质体等。在某些实施例中，基因组编辑系统是作为一种或多种编码上述RNA指导的核酸酶和指导RNA组分的核酸(任选地具有一种或多种其他组分)来实施；在某些实施例中，基因组编辑系统是作为一种或多种包含此类核酸的载体来实施，例如病毒载体，例如腺相关病毒；并且在某些实施例中，基因组编辑系统是作为前述任一种的组合来实施。根据本文所述原理操作的其他或经修改的实施将为技术人员所了解并且在本披露的范围内。

应注意，本披露的基因组编辑系统可靶向单一特定核苷酸序列，或者可通过使用两个或更多个指导RNA靶向(并且能平行编辑)两个或更多个特定核苷酸序列。在本披露通篇中，多个gRNA的使用称为“多重化”，并且可用于靶向多个无关的所关注靶序列，或用于在单一靶结构域内形成多个SSB或DSB，并且在一些情形中，用于在这种靶结构域内产生特定编辑。例如，Maeder等人的国际专利公开号WO 2015/138510(Maeder)(其是通过引用并入本文)描述用于修正人类CEP290基因中的点突变(C.2991+1655A至G)的基因组编辑系统，所述点突变导致产生隐蔽剪接位点，这又降低或消除该基因的功能。Maeder的基因组编辑系统利用两个指导RNA，这些指导RNA靶向该点突变任一侧上的(即，侧接)序列，并且形成侧接该突变的DSB。这又促进了包括突变在内的间插序列的缺失，由此消除隐蔽剪接位点并恢复正常的基因功能。

作为另一实例，Cotta-Ramusino等人的WO 2016/073990(“Cotta-Ramusino”)(通过引用并入本文)描述利用两个gRNA与Cas9切口酶(制造单链切口的Cas9，例如化脓链球菌(S.pyogenes)D10A)的基因组编辑系统，该布置称为“双重切口酶系统”。Cotta-Ramusino的双重切口酶系统经配置以在所关注序列的相对链上制造两个偏移一个或多个核苷酸的切口，所述切口组合产生具有悬突(在Cotta-Ramusino情形中是5'悬突，但3'悬突也有可能)的双链断裂。在一些情况下，该悬突又可以促进同源定向修复事件。并且作为另一实例，Palestrant等人的WO 2015/070083(“Palestrant”，通过引用并入本文)描述靶向编码Cas9的核苷酸序列的gRNA(称为“管理RNA”)，其可以包括于基因组编辑系统中，所述基因组编辑系统包含一个或多个其他gRNA以容许Cas9的瞬时表达，所述Cas9可能原本例如在一些经病毒转导的细胞中是组成型表达的。这些多重化应用旨在具有示例性而不是限制性，并且技术人员将了解，其他多重化应用通常与本文所述的基因组编辑系统相容。

在一些情况下，基因组编辑系统可以形成双链断裂，这些双链断裂是通过细胞DNA双链断裂机制例如NHEJ或HDR来修复。这些机制描述于多处文献中，例如Davis和Maizels,PNAS,111(10):E924-932,2014年3月11日(Davis)(描述Alt-HDR)；Frit等人，DNA Repair[DNA修复]17(2014)81-97(Frit)(描述Alt-NHEJ)；以及Iyama和Wilson III,DNA Repair[DNA修复](Amst.)2013年8月；12(8):620-636(Iyama)(概括描述经典HDR和NHEJ路径)。

如果基因组编辑系统通过形成DSB来操作，那么此类系统任选地包括促进或有助于特定双链断裂修复模式或特定修复结果的一个或多个组分。例如，Cotta-Ramusino还描述其中添加单链寡核苷酸“供体模板”的基因组编辑系统；将供体模板并入细胞DNA的靶区域中，该靶区域由基因组编辑系统裂解，并且可以导致靶序列中的变化。

在某些实施例中，基因组编辑系统在不引起单链或双链断裂的情况下修饰靶序列，或修饰靶序列中或附近的基因的表达。例如，基因组编辑系统可包括融合至作用于DNA的功能结构域的RNA指导的核酸酶，由此修饰靶序列或其表达。作为一个实例，RNA指导的核酸酶可连接至(例如融合至)胞苷脱氨酶功能结构域，并且可通过产生所靶向的C至A取代来操作。示例性核酸酶/脱氨酶功能描述于Komor等人Nature[自然]533,420–424(2016年5月19日)(“Komor”)中，所述文献是通过引用并入。可替代地，基因组编辑系统可利用裂解失活的(即，“死”)核酸酶，例如死Cas9(dCas9)，并且可通过在细胞DNA的一个或多个所靶向区域上形成稳定复合物来操作，由此干扰涉及一个或多个所靶向区域的功能，包括但不限于mRNA转录、染色质重塑等。

指导RNA(gRNA)分子

术语“指导RNA”和“gRNA”是指促进RNA指导的核酸酶(例如Cas9或Cpf1)与细胞中的靶序列(例如基因组或附加体序列)的特异性缔合(或“靶向”)的任何核酸。gRNA可以是单分子(包含单一RNA分子，并且可替代地称为嵌合)或模块(包含多于一个、并且典型地两个单独的RNA分子，例如crRNA和tracrRNA，其通常例如通过双链化彼此缔合)。gRNA和其组成部分的描述遍及于文献中，例如Briner等人(Molecular Cell[分子细胞]56(2),333-339，2014年10月23日(Briner)，将该文献是通过引用并入)，以及Cotta-Ramusino。

在细菌和古细菌中，II型CRISPR系统通常包含RNA指导的核酸酶蛋白(例如Cas9)、包括与外来序列互补的5'区的CRISPR RNA(crRNA)和包括与crRNA的3'区互补并形成双链体的5'区的反式激活crRNA(tracrRNA)。虽然并非旨在受限于任何理论，但认为此双链体有助于形成Cas9/gRNA复合物，并且是所述复合物的活性所需的。在II型CRISPR系统经改适用于基因编辑中时，发现crRNA和tracrRNA可以接合成单一单分子或嵌合指导RNA，例如但不限于借助桥接crRNA(在其3'端)和tracrRNA(在其5'端)的互补区的四核苷酸(例如GAAA)“四环(tetraloop)”或“接头”序列来接合。(Mali等人Science.[科学]2013年2月15日；339(6121):823–826(“Mali”)；Jiang等人Nat Biotechnol.[自然生物技术]2013年3月；31(3):233–239(“Jiang”)；和Jinek等人,2012年，Science[科学]8月17日；337(6096):816-821(“Jinek”)，将所有这些文献均通过引用并入本文。)

指导RNA不论是单分子或模块都包括“靶向结构域”，所述靶向结构域与靶序列内的靶结构域完全或部分互补，所述靶序列例如期望编辑的细胞基因组中的DNA序列。靶向结构域在文献中通过多种名称来提及，包括但不限于“指导序列”(Hsu等人,Nat Biotechnol.[自然生物技术]2013年9月；31(9):827–832(“Hsu”)，通过引用并入本文)、“互补性区域”(Cotta-Ramusino)、“间隔序列”(Briner)和一般性地称为“crRNA”(Jiang)。不论给予其何种名称，靶向结构域典型地长度为10-30个核苷酸，并且在某些实施例中长度为16-24个核苷酸(例如，长度为16、17、18、19、20、21、22、23或24个核苷酸)，并且在Cas9 gRNA情形中位于5'末端处或5'末端附近，并且在Cpf1 gRNA情形中位于3'末端处或3'末端附近。

除了靶向结构域以外，gRNA典型地(但不一定，如下文所讨论)包括多个可影响gRNA/Cas9复合物的形成或活性的结构域。例如，如上文所提及，通过gRNA的第一和第二互补性结构域形成的双链化结构(也称为重复:抗重复双链体)与Cas9的识别(REC)叶相互作用，并且可以介导Cas9/gRNA复合物的形成。(Nishimasu等人,Cell[细胞]156,935-949,2014年2月27日(Nishimasu 2014)和Nishimasu等人,Cell[细胞]162,1113-1126,2015年8月27日(Nishimasu 2015)，将这两篇文献均通过引用并入本文)。应注意，第一和/或第二互补性结构域可含有一个或多个多聚腺苷酸段，其可以由RNA聚合酶识别为终止信号。因此，第一和第二互补性结构域的序列任选地经修饰以消除这些段，并促进gRNA的体外转录的完成，例如通过使用如Briner中所述的A-G交换或A-U交换来修饰。对第一和第二互补性结构域的这些和其他类似修饰在本披露的范围内。

与第一和第二互补性结构域一起，Cas9 gRNA典型地包括两个或更多个其他双链化区域，该两个或更多个其他双链化区域在体内但不一定在体外参与核酸酶活性。(Nishimasu 2015)。在第二互补性结构域的3'部分附近的第一茎环1被不同地称为“近端结构域”(Cotta-Ramusino)、“茎环1”(Nishimasu 2014和2015)以及“连结(nexus)”(Briner)。一个或多个其他茎环结构通常存在于gRNA的3'端附近，其数目依物种而变：化脓链球菌gRNA典型地包括2个3'茎环(总计4个茎环结构，包括重复:抗重复双链体)，而金黄色葡萄球菌和其他物种仅具有一个(总计3个茎环结构)。对根据物种组织化的保守茎环结构(更通常地，和gRNA结构)的描述提供于Briner中。

虽然前述说明集中于用于Cas9的gRNA，但应了解，已经(或可能在未来)发现或发明其他RNA指导的核酸酶，其利用在一些方面与针对这一点描述的那些gRNA不同的gRNA。例如，Cpf1(“来自普雷沃菌属(Prevotella)和弗朗西斯菌属(Franciscella)1的CRISPR”)是最近发现的RNA指导的核酸酶，其发挥功能不需要tracrRNA。(Zetsche等人,2015,Cell[细胞]163,759–771 2015年10月22日(Zetsche I)，通过引用并入本文)。用于Cpf1基因组编辑系统的gRNA通常包括靶向结构域和互补性结构域(替代性地称为“把手”)。还应注意，在用于Cpf1的gRNA中，靶向结构域通常存在于3'端处或附近，而不是如上文结合Cas9 gRNA所述的5'端(把手位于Cpf1 gRNA的5'端处或5'端附近)。

但本领域技术人员将了解，虽然在来自不同原核物种的gRNA之间或在Cpf1与Cas9gRNA之间可能存在结构差异，但gRNA的操作原理通常是一致的。因为这种操作一致性，gRNA可在广义上通过其靶向结构域序列来定义，并且技术人员将了解，可将给定靶向结构域序列并入任何适宜gRNA中，包括单分子或模块gRNA，或包括一种或多种化学修饰和/或序列修饰(取代、额外核苷酸、截短等)的gRNA。因此，为了便于呈现本披露，gRNA可仅在其靶向结构域序列方面加以描述。

更通常地，技术人员将了解，本披露的一些方面涉及可以使用多个RNA指导的核酸酶实施的系统、方法和组合物。为此，除非另外指定，否则术语gRNA应理解为不仅涵盖那些与Cas9或Cpf1的特定种类相容的gRNA，还涵盖可以用于任何RNA指导的核酸酶的任何适宜gRNA。通过说明，在某些实施例中，术语gRNA可以包括用于存在于2类CRISPR系统中的任何RNA指导的核酸酶的gRNA，所述RNA指导的核酸酶例如II型或V型或CRISPR系统，或从其衍生或改适的RNA指导的核酸酶。

gRNA设计

用于选择和验证靶序列的方法以及脱靶分析先前已描述于例如以下文献中：Mali、Hsu、Fu等人,2014Nat biotechnol[自然生物技术]32(3):279-84；Heigwer等人,2014Nat methods[自然方法]11(2):122-3；Bae等人(2014)Bioinformatics[生物信息学]30(10):1473-5；和Xiao A等人(2014)Bioinformatics[生物信息学]30(8):1180-1182。这些参考文献中的每一篇都是通过引用并入本文。作为非限制性实例，gRNA设计可包括使用软件工具来优化对应于使用者的靶序列的潜在靶序列的选择，例如以使全基因组的总脱靶活性降至最低。虽然脱靶活性不限于裂解，但每个脱靶序列处的裂解效率可以例如使用实验衍生的加权方案来预测。这些和其他指导选择方法详细描述于Maeder和Cotta-Ramusino中。

gRNA修饰

gRNA的活性、稳定性或其他特征可以通过并入某些修饰来改变。作为一个实例，瞬时表达或递送的核酸可能易于被例如细胞核酸酶降解。因此，本文所述的gRNA可以含有引入针对核酸酶的稳定性的一个或多个经修饰核苷或核苷酸。虽然不希望受理论束缚，但还应相信，本文所述的某些经修饰gRNA在引入细胞中时可展现降低的先天性免疫反应。本领域技术人员将了解一般在细胞(例如哺乳动物细胞)中响应外源核酸(尤其那些病毒或细菌来源的核酸)观察到的某些细胞反应。此类反应可以包括诱导细胞因子表达和释放以及细胞死亡，可通过本文所呈现的修饰来减少或完全消除。

这个章节中讨论的某些示例性修饰可以包括于gRNA序列内的任一位置，包括但不限于在5'端处或5'端附近(例如，在5'端的1-10、1-5或1-2个核苷酸内)和/或在3'端处或3'端附近(例如，在3'端的1-10、1-5或1-2个核苷酸内)。在一些情形中，修饰定位于功能基序内，例如Cas9 gRNA的重复-抗重复双链体、Cas9或Cpf1 gRNA的茎环结构和/或gRNA的靶向结构域。

作为一个实例，gRNA的5'端可以包括真核mRNA帽结构或帽类似物(例如，G(5')ppp(5')G帽类似物、m7G(5')ppp(5')G帽类似物或3'-O-Me-m7G(5')ppp(5')G抗反向帽类似物(ARCA))，如下文所示：

该帽或帽类似物可以在gRNA的化学合成或者体外转录期间被包括。

按类似方式，gRNA的5'端可能缺少5'三磷酸基团。例如，体外转录的gRNA可能经磷酸酶处理(例如，使用小牛肠碱性磷酸酶)以移除5'三磷酸基团。

另一常见修饰包括在gRNA的3'端添加多个(例如，1-10、10-20或25-200个)腺嘌呤(A)残基，称为polyA段。可在化学合成期间，在体外转录后使用多聚腺苷聚合酶(例如，大肠杆菌(E.coli)多聚(A)聚合酶)，或在体内借助多聚腺苷酸化序列，将polyA段添加至gRNA，如Maeder中所述。

应注意，本文所述的修饰可以按任一适宜方式组合，例如不论是在体内从DNA载体转录的gRNA，或者是在体外转录的gRNA，都可以包括5'帽结构或帽类似物中的一种或两种以及3'polyA段。

指导RNA可以在3'末端U核糖处经修饰。例如，U核糖的两个末端羟基可以被氧化为醛基，并且伴随核糖环的打开，以提供如下所示的经修饰核苷：

其中“U”可以是未经修饰或经修饰的尿苷。

3'末端U核糖可以经如下所示的2'3'环状磷酸酯修饰：

其中“U”可以是未经修饰或经修饰的尿苷。

指导RNA可以例如通过并入本文所述的一个或多个经修饰核苷酸而含有可以针对降解稳定的3'核苷酸。在某些实施例中，尿苷可以由经修饰尿苷(例如，5-(2-氨基)丙基尿苷和5-溴代尿苷)或由本文所述的任何经修饰尿苷替代；腺苷和鸟苷可以由经修饰腺苷和鸟苷(例如，在8位处具有修饰，例如8-溴代鸟苷)或由本文所述的任何经修饰腺苷和鸟苷替代。

在某些实施例中，可以将糖修饰的核糖核苷酸并入gRNA中，例如，其中2'OH-基团由选自以下的基团替代：H、-OR、-R(其中R可以是例如烷基、环烷基、芳基、芳烷基、杂芳基或糖)、卤基、-SH、-SR(其中R可以是例如烷基、环烷基、芳基、芳烷基、杂芳基或糖)、氨基(其中氨基可以是例如NH₂；烷基氨基、二烷基氨基、杂环基、芳基氨基、二芳基氨基、杂芳基氨基、二杂芳基氨基或氨基酸)；或氰基(-CN)。在某些实施例中，磷酸骨架可以如本文所述经修饰，例如经硫代磷酸酯(PhTx)基团修饰。在某些实施例中，gRNA的一个或多个核苷酸可以各自独立地是经修饰或未经修饰的核苷酸，包括但不限于2'-糖修饰的，例如2'-O-甲基、2'-O-甲氧基乙基，或2'-氟修饰的，包括例如，2'-F或2'-O-甲基腺苷(A)、2'-F或2'-O-甲基胞苷(C)、2'-F或2'-O-甲基尿苷(U)、2'-F或2'-O-甲基胸苷(T)、2'-F或2'-O-甲基鸟苷(G)、2'-O-甲氧基乙基-5-甲基尿苷(Teo)、2'-O-甲氧基乙基腺苷(Aeo)、2'-O-甲氧基乙基-5-甲基胞苷(m5Ceo)及其任何组合。

指导RNA还可以包括“锁定”核酸(LNA)，其中2'OH-基团可以例如通过C1-6亚烷基C1-6亚杂烷基桥连接至同一核糖的4'碳。可使用任何适宜部分来提供此类桥，包括但不限于亚甲基、亚丙基、醚或氨基桥；O-氨基(其中氨基可以是例如NH₂；烷基氨基、二烷基氨基、杂环基、芳基氨基、二芳基氨基、杂芳基氨基或二杂芳基氨基、乙二胺或聚氨基)和氨基烷氧基或O(CH₂)_n-氨基(其中氨基可以是例如NH₂；烷基氨基、二烷基氨基、杂环基、芳基氨基、二芳基氨基、杂芳基氨基或二杂芳基氨基、乙二胺或聚氨基)。

在某些实施例中，gRNA可以包括经修饰核苷酸，其为多环状(例如，三环；和“解锁”形式，例如二醇核酸(GNA)(例如，R-GNA或S-GNA，其中核糖由附接至磷酸二酯键的二醇单元替代)，或苏糖核酸(TNA，其中核糖由α-L-苏式呋喃糖基-(3'→2')替代)。

通常，gRNA包括糖基核糖，其为具有氧的5元环。示例性的经修饰gRNA可以包括但不限于核糖中氧的替代(例如，经硫(S)、硒(Se)或亚烷基，例如亚甲基或亚乙基)；双键的添加(例如，以用环戊烯基或环己烯基替代核糖)；核糖的缩环(例如，以形成环丁烷或氧杂环丁烷的4元环)；核糖的扩环(例如，以形成具有额外碳或杂原子的6元环或7元环，例如脱水己糖醇、阿卓糖醇、甘露醇、环己烷基、环己烯基以及吗啉代，其也具有氨基磷酸酯骨架)。尽管大多数的糖类似物改变位于2'位，但其他位点也适于修饰，包括4'位。在某些实施例中，gRNA包含4'-S、4'-Se或4'-C-氨基甲基-2'-O-Me修饰。

在某些实施例中，可以将脱氮核苷酸(例如，7-脱氮-腺苷)并入gRNA中。在某些实施例中，可以将O-烷基化和N-烷基化核苷酸(例如，N6-甲基腺苷)并入gRNA中。在某些实施例中，gRNA分子中的一个或多个或所有核苷酸是脱氧核苷酸。

RNA指导的核酸酶

根据本披露的RNA指导的核酸酶包括但不限于天然存在的2类的CRISPR核酸酶，例如Cas9和Cpf1，以及由其衍生或获得的其他核酸酶。在功能方面，RNA指导的核酸酶定义为如下的那些核酸酶：(a)与gRNA相互作用(例如复合)；和(b)与gRNA一起缔合或任选地裂解或修饰DNA的靶区域，所述靶区域包括(i)与gRNA的靶向结构域互补的序列，以及任选地，(ii)称为“原型间隔子邻近基序”或“PAM”的另一序列，其更详细地描述于下文中。在说明以下实例时，RNA指导的核酸酶可以在广义上依据其PAM特异性和裂解活性来定义，即使在共享相同PAM特异性或裂解活性的个别RNA指导的核酸酶之间可能存在变异。技术人员将了解，本披露的一些方面涉及可以使用具有某种PAM特异性和/或裂解活性的任何适宜RNA指导的核酸酶实施的系统、方法和组合物。为此，除非另外指定，否则术语RNA指导的核酸酶应理解为通用术语，并不限于RNA指导的核酸酶的任何特定类型(例如，Cas9与Cpf1)、物种(例如，化脓链球菌与金黄色葡萄球菌)或变异(例如，全长与截短或分裂；天然存在的PAM特异性与工程化PAM特异性等)。

PAM序列的名称来源于其与“原型间隔子”序列的顺序关系，所述原型间隔子与gRNA靶向结构域(或“间隔序列”)互补。与原型间隔子一起，PAM序列定义特定RNA指导的核酸酶/gRNA组合的靶区域或序列。多种RNA指导的核酸酶可能需要PAM与原型间隔子之间的不同顺序关系。通常，Cas9识别在原型间隔子3'的PAM序列，如在底部链或非互补链上所可视化：

5'---------------------[原型间隔子]---------------3' 互补

3'------------------[PAM]-------------------------5' 非互补

另一方面，Cpf1通常识别在原型间隔子5'的PAM序列，如在底部链或非互补链上所可视化：

5'-------------------[原型间隔子]-----------------3' 互补

3'-----------------------------[PAM]--------------5' 非互补

除了识别PAM和原型间隔子的特定顺序定向以外，RNA指导的核酸酶还可以识别特定PAM序列。例如，金黄色葡萄球菌Cas9识别NNGRRT或NNGRRV的PAM序列，其中N个残基紧靠由gRNA靶向结构域所识别区域的3'。化脓链球菌Cas9识别NGG PAM序列。并且新凶手弗朗西斯菌(F.novicida)Cpf1识别TTN PAM序列。已鉴别多种RNA指导的核酸酶的PAM序列，并且鉴别新颖PAM序列的策略已描述于Shmakov等人,2015,Molecular Cell[分子细胞]60,385–397，2015年11月5日中。还应注意，工程化RNA指导的核酸酶可具有与参考分子的PAM特异性不同的PAM特异性(例如，在工程化RNA指导的核酸酶的情形中，参考分子可以是衍生出RNA指导的核酸酶的天然存在的变体，或与工程化RNA指导的核酸酶具有最大氨基酸序列同源的天然存在的变体)。

除了其PAM特异性以外，RNA指导的核酸酶可通过其DNA裂解活性来表征：天然存在的RNA指导的核酸酶典型地在靶核酸中形成DSB，但是已产生仅生成SSB的工程化变体(上文所讨论)(Ran和Hsu等人,Cell[细胞]154(6),1380–1389,2013年9月12日(Ran)，通过引用并入本文)，或完全不切割的工程化变体。

Cas9

已确定化脓链球菌Cas9的晶体结构(Jinek 2014)以及与单分子指导RNA和靶DNA复合的金黄色葡萄球菌Cas9的晶体结构(Nishimasu 2014；Anders 2014；和Nishimasu2015)。

天然存在的Cas9蛋白包含两个叶：识别(REC)叶和核酸酶(NUC)叶；每一叶包含特定的结构和/或功能结构域。REC叶包含富精氨酸桥螺旋(BH)结构域，以及至少一个REC结构域(例如REC1结构域和任选地REC2结构域)。REC叶与其他已知蛋白不共享结构相似性，指示其是独特的功能结构域。不希望受限于任何理论，突变分析提出BH和REC结构域的特殊功能作用：BH结构域似乎在gRNA:DNA识别中起作用，而REC结构域被认为与gRNA的重复:抗重复双链体相互作用并且介导Cas9/gRNA复合物的形成。

NUC叶包含RuvC结构域、HNH结构域和PAM相互作用(PI)结构域。RuvC结构域与逆转录病毒整合酶超家族成员共享结构相似性，并且裂解靶核酸的非互补(即底部)链。其可从两个或更多个分裂RuvC基序形成(例如化脓链球菌和金黄色葡萄球菌中的RuvC I、RuvC II和RuvC III)。同时，HNH结构域在结构上与HNN内切核酸酶基序类似，并且裂解靶核酸的互补(即顶部)链。顾名思义，PI结构域有助于PAM特异性。

虽然Cas9的某些功能与上文所述的特定结构域相关(但不一定完全取决于所述结构域)，但这些和其他功能可以由其他Cas9结构域或任一叶上的多个结构域来介导或影响。例如，在化脓链球菌Cas9中，如在Nishimasu 2014中所述，gRNA的重复:抗重复双链体落在REC叶与NUC叶之间的沟中，并且双链体中的核苷酸与BH、PI和REC结构域中的氨基酸相互作用。第一茎环结构中的一些核苷酸也与多个结构域(PI、BH和REC1)中的氨基酸相互作用，第二和第三茎环(RuvC和PI结构域)中的一些核苷酸也是如此。

Cpf1

与crRNA复合的氨基酸球菌属(Acidaminococcus sp.)Cpf1的晶体结构和包括TTTN PAM序列的双链(ds)DNA靶标已经由Yamano等人解析(Cell.[细胞]2016年5月5日；165(4):949–962(Yamano)，通过引用并入本文)。Cpf1像Cas9一样，具有两个叶：REC(识别)叶和NUC(核酸酶)叶。REC叶包括REC1和REC2结构域，其缺少与任何已知蛋白质结构的相似性。同时，NUC叶包括三个RuvC结构域(RuvC-I、-II和-III)和BH结构域。然而，与Cas9相反，Cpf1REC叶缺少HNH结构域，并且包括同样缺少与已知蛋白质结构的相似性的其他结构域：结构上独特的PI结构域、三个楔形(WED)结构域(WED-I、-II和-III)和核酸酶(Nuc)结构域。

虽然Cas9和Cpf1共享结构和功能的相似性，但应了解，某些Cpf1活性是由与任何Cas9结构域不同的结构域介导的。例如，靶DNA的互补链的裂解似乎是由Nuc结构域介导，所述Nuc结构域在顺序上和空间上与Cas9的HNH结构域不同。另外，Cpf1 gRNA的非靶向部分(把手)采用假结结构，而不是Cas9 gRNA中由重复:抗重复双链体形成的茎环结构。

RNA指导的核酸酶的修饰

上述RNA指导的核酸酶具有可用于多种应用的活性和特性，但技术人员将了解，RNA指导的核酸酶在某些情况下也可以经修饰，以改变裂解活性、PAM特异性或其他结构或功能特征。

首先参看改变裂解活性的修饰，上文已描述降低或消除NUC叶内结构域活性的突变。可在RuvC结构域中、在Cas9 HNH结构域中或在Cpf1 Nuc结构域中进行的示例性突变描述于Ran和Yamano中，以及Cotta-Ramusino中。通常，降低或消除两个核酸酶结构域之一中的活性的突变导致具有切口酶活性的RNA指导的核酸酶，但应注意，切口酶活性的类型根据哪个结构域失活而变化。作为一个实例，Cas9的RuvC结构域的失活将导致裂解如下所示的互补或顶部链的切口酶(其中C表示裂解位点)：

5'-------------------[原型间隔子]--[C]---------------------3'

3'---------------------------------------------------------5'

另一方面，Cas9 HNH结构域的失活导致裂解底部或非互补链的切口酶：

5'-------------------[原型间隔子]--------------------------3'

3'-------------------------------------[C]-----------------5'

对于化脓链球菌(Kleinstiver等人,Nature[自然].2015年7月23日；523(7561):481-5(Kleinstiver I)和金黄色葡萄球菌(Kleinstiver等人,Nat Biotechnol.[自然生物技术]2015年12月；33(12):1293–1298(Klienstiver II))，相对于天然存在的Cas9参考分子的PAM特异性的修饰已经由Kleinstiver等人描述。Kleinstiver等人还已描述改进Cas9的靶向保真性的修饰(Nature[自然],2016年1月28日；529,490-495(Kleinstiver III))。这些参考文献中的每一篇都是通过引用并入本文。

已将RNA指导的核酸酶分裂成两个或更多个部分，如Zetsche等人(NatBiotechnol.[自然生物技术]2015年2月；33(2):139-42(Zetsche II)，通过引用并入)和Fine等人(Sci Rep.[科学报告]2015年7月1日；5:10777(Fine)，通过引用并入)所描述。

在某些实施例中，RNA指导的核酸酶可以是尺寸经优化的或截短的，例如通过一个或多个缺失来进行，所述缺失减小核酸酶的尺寸，同时仍保留gRNA关联、靶标和PAM识别以及裂解活性。在某些实施例中，RNA指导的核酸酶以共价或非共价方式，任选地通过接头结合至另一多肽、核苷酸或其他结构。示例性结合的核酸酶和接头描述于Guilinger等人,Nature Biotechnology[自然生物技术]32,577–582(2014)中，所述文献出于所有目的通过引用并入本文中。

RNA指导的核酸酶还任选地包括标签，例如但不限于核定位信号，以促进RNA指导的核酸酶蛋白移动至细胞核中。在某些实施例中，RNA指导的核酸酶可以并入C末端和/或N末端核定位信号。核定位序列是本领域中已知的并且描述于Maeder和其他文献中。

前述修饰列表旨在具有示例性，并且技术人员根据本披露将了解，在某些应用中，其他修饰可以是可能的或期望的。因此，为简洁起见，参考特定RNA指导的核酸酶呈现本披露的示例性系统、方法和组合物，但应理解，所用RNA指导的核酸酶可以不改变其操作原理的方式经修饰。此类修饰在本披露的范围内。

编码RNA指导的核酸酶的核酸

本文提供编码RNA指导的核酸酶(例如Cas9、Cpf1或其功能片段)的核酸。先前已描述编码RNA指导的核酸酶的示例性核酸(参见，例如，Cong 2013；Wang 2013；Mali 2013；Jinek 2012)。

在一些情形中，编码RNA指导的核酸酶的核酸可以是合成的核酸序列。例如，合成核酸分子可以经化学修饰。在某些实施例中，编码RNA指导的核酸酶的mRNA将具有一种或多种(例如，所有)以下特性：其可以被加帽；多聚腺苷酸化；以及经5-甲基胞苷和/或假尿苷取代。

合成的核酸序列也可以经密码子优化，例如，至少一个非常见密码子或较不常见的密码子已经常见密码子替代。例如，合成核酸可以引导经优化信使mRNA的合成，例如，针对在哺乳动物表达系统中的表达进行优化，例如，本文所述。密码子优化的Cas9编码序列的实例呈现于Cotta-Ramusino中。

另外，或可替代地，编码RNA指导的核酸酶的核酸可包含核定位序列(NLS)。核定位序列是本领域中已知的。

候选分子的功能分析

候选RNA指导的核酸酶、gRNA和其复合物可以通过本领域中已知的标准方法来评估。参见，例如Cotta-Ramusino。RNP复合物的稳定性可通过差示扫描荧光法来评估，如下文所述。

差示扫描荧光法(DSF)

包含gRNA和RNA指导的核酸酶的核糖核蛋白(RNP)复合物的热稳定性可以通过DSF来测量。DSF技术测量蛋白质的热稳定性，所述热稳定性可以在有利条件下(例如添加结合RNA分子，例如gRNA)增加。

DSF测定可以根据任何适宜方案来进行，并且可以用于任何适宜环境中，包括但不限于(a)测试不同条件(例如gRNA:RNA指导的核酸酶蛋白的不同化学计量比，不同缓冲溶液等)以鉴别RNP形成的最佳条件；和(b)测试RNA指导的核酸酶和/或gRNA的修饰(例如化学修饰、序列改变等)以鉴别改进RNP形成或稳定性的那些修饰。DSF测定的一个读出是RNP复合物的熔融温度的位移；相对高的位移表明，相对于特征为较低位移的参考RNP复合物，RNP复合物更稳定(并且可能因此具有更高活性或更有利的形成动力学、降解动力学或另一功能特征)。在作为筛选工具布置DSF测定时，可指定阈值熔融温度位移，使得输出是熔融温度位移等于或高于阈值的一种或多种RNP。例如，阈值可以是5-10℃(例如5°、6°、7°、8°、9°、10°)或更高，并且输出可以是一种或多种特征为熔融温度位移大于或等于该阈值的RNP。

DSF测定条件的两个非限制性实例陈述于下文中：

为了确定形成RNP复合物的最佳溶液，将水+10x SYPRO(生命技术公司(Life Techonologies)目录号S-6650)中固定浓度(例如2μM)的Cas9分配至384孔板中。然后添加稀释于具有不同pH和盐的溶液中的等摩尔量的gRNA。在室温下孵育10分钟并短暂离心以移除任何气泡后，使用Bio-Rad CFX384^TMReal-Time System C1000Touch^TM热循环仪和Bio-Rad CFX Manager软件运行从20℃至90℃的梯度，每10秒温度增加1℃。

第二测定由以下步骤组成：在来自上文测定1的最适缓冲液中混合不同浓度的gRNA与固定浓度(例如2μM)的Cas9，并在384孔板中孵育(例如，在室温下10分钟)。添加等体积的最适缓冲液+10x SYPRO(生命技术公司目录号S-6650)，并且将板用B粘合剂(MSB-1001)密封。在短暂离心以移除任何气泡后，使用Bio-RadCFX384^TMReal-Time System C1000Touch^TM热循环仪和Bio-Rad CFX Manager软件运行从20℃至90℃的梯度，每10秒温度增加1℃。

基因组编辑策略

在本披露的各个实施例中，上述基因组编辑系统用于在细胞内或从细胞获得的DNA的靶向区中产生编辑(即改变)。本文描述产生特定编辑的各种策略，并且这些策略通常是在所需修复结果、个别编辑(例如SSB或DSB)的数目和定位以及此类编辑的靶位点方面加以描述。

涉及SSB或DSB的形成的基因组编辑策略是通过修复结果来表征，这些修复结果包括：(a)所靶向区域的全部或部分的缺失；(b)所靶向区域的全部或部分中的插入或其替代；或(c)所靶向区域的全部或部分的中断。此分组并不旨在具有限制性，或结合于任何具体理论或模型，而仅是为了便于呈现而提供。技术人员将了解，所列结果不会相互排斥，并且一些修复可导致其他结果。除非另外指定，否则对特定编辑策略或方法的描述不应理解为需要特定的修复结果。

所靶向区域的替代通常涉及用同源序列替代所靶向区域内现有序列的全部或部分，例如通过基因修正或基因转变来进行，两种修复结果是通过HDR路径介导。HDR是通过使用供体模板来促进，所述供体模板可以是单链或双链的，如下文更详细地描述。单链或双链模板可以是外源的，在这种情形中其将促进基因修正，或者所述模板可以是内源的(例如细胞基因组内的同源序列)，以促进基因转变。外源模板可以具有不对称悬突(即，模板中与DSB位点互补的部分可在3'或5'方向上偏移，而不是位于供体模板内的中心)，例如如Richardson等人所述(Nature Biotechnology[自然生物技术]34,339–344(2016)，(Richardson)，通过引用并入)。在模板为单链的情况下，其可以对应于所靶向区域的互补(顶部)或非互补(底部)链。

在一些情形中，通过在所靶向区域中或周围形成一个或多个切口来促进基因转变和基因修正，如在Ran和Cotta-Ramusino中所述。在一些情形中，双重切口酶策略用于形成两个偏移SSB，其又形成具有悬突(例如5'悬突)的单一DSB。

所靶向序列的全部或部分的中断和/或缺失可通过多种修复结果来实现。作为一个实例，可通过同时产生两个或更多个侧接所靶向区域的DSB使序列缺失，然后在修复DSB时切除所述所靶向区域，如在Maeder中针对LCA10突变所述。作为另一实例，可在修复前通过以下方式产生的缺失来中断序列：形成具有单链悬突的双链断裂，之后对悬突进行核酸外切加工。

靶序列中断的一个特定子集是通过在所靶向序列内形成indel来介导，其中修复结果典型地是通过NHEJ路径(包括Alt-NHEJ)来介导。NHEJ由于其与indel突变的关联而称为“错误倾向”修复路径。然而，在一些情形中，DSB是通过NHEJ修复，并且不改变其周围的序列(所谓的“完美”或“无瘢痕”修复)；这通常需要DSB的两端完美连接。同时，Indel被认为是从游离DNA末端在连接前的酶加工产生，其在一个或两个游离末端的一条或两条链中添加和/或移除核苷酸。

由于游离DSB末端的酶加工可具有随机性，indel突变往往是可变的，沿分布发生，并且可能受到多种因素影响，包括特定靶位点、所用细胞类型、所用基因组编辑策略等。有可能引起关于indel形成的有限泛化：通过修复单一DSB形成的缺失最常在1-50bp范围内，但是可能达到大于100-200bp。通过修复单一DSB形成的插入往往较短，并且常包括紧密围绕断裂位点的序列的短重复。然而，有可能获得大的插入，并且在这些情形中，插入的序列通常已经被追溯至基因组的其他区域或追溯至存在于细胞中的质粒DNA。

Indel突变和经配置以产生indel的基因组编辑系统可用于例如在不需要产生特定的最终序列时和/或在可耐受移码突变的情况下中断靶序列。其还可以用于偏好特定序列的环境中，只要某些所需序列往往优先通过给定位点处的SSB或DSB的修复而发生即可。Indel突变还是可用于评估或筛选特定基因组编辑系统和其组分的活性的工具。在这些和其他环境中，indel可以通过以下各项来表征：(a)其在与基因组编辑系统接触的细胞的基因组中的相对和绝对频率，和(b)相对于未编辑序列的数值差异的分布，例如±1、±2、±3等。作为一个实例，在先导发现(lead-finding)环境中，可基于在受控条件下的indel读出筛选多个gRNA，以鉴别最有效驱动靶位点处的切割的那些gRNA。可以选择以阈值频率或以高于阈值的频率产生indel或产生indel的特定分布的指导以供进一步研究和开发。Indel频率和分布还可以用作读出，用于评估不同的基因组编辑系统实施或配置和递送方法，例如通过保持gRNA不变并改变某些其他反应条件或递送方法。

多重策略

虽然上文讨论的示例性策略集中于通过单一DSB介导的修复结果，但根据本披露的基因组编辑系统还可用于产生在相同基因座中或在不同基因座中的两个或更多个DSB。涉及形成多个DSB或SSB的编辑策略描述于例如Cotta-Ramusino中。

供体模板设计

供体模板设计详细描述于文献中，例如Cotta-Ramusino中。DNA寡聚体供体模板(寡脱氧核苷酸或ODN)可以是单链(ssODN)或双链(dsODN)的，可以用于促进基于HDR的DSB修复，并且尤其可用于将改变引入靶DNA序列中、将新序列插入靶序列中、或完全替代靶序列。

不论是单链或双链，供体模板通常包括与待裂解的靶序列内或附近(例如侧接或邻近)的DNA区域同源的区域。这些同源区域在本文中称作“同源臂”，并且示意性地示于下文中：

[5'同源臂]-[替代序列]-[3'同源臂]。

同源臂可具有任何适宜长度(如果仅使用一个同源臂，包括0个核苷酸)，并且3'和5'同源臂可以具有相同长度或可以具有不同长度。适当同源臂长度的选择可能受到多种因素影响，例如对避免与某些序列(例如Alu重复序列或其他极为常见的元件)的同源性或微同源性的期望。例如，可以缩短5'同源臂以避免序列重复元件。在其他实施例中，可以缩短3'同源臂以避免序列重复元件。在一些实施例中，可以同时缩短5'和3'同源臂以避免包括某些序列重复元件。另外，一些同源臂设计可以改进编辑效率或增加所需修复结果的频率。例如，Richardson等人(Nature Biotechnology[自然生物技术]34,339–344(2016)(Richardson)，所述文献是通过引用并入)发现，单链供体模板的3'和5'同源臂的相对不对称性影响修复率和/或结果。

供体模板中的替代序列已描述于其他文献中，包括Cotta-Ramusino等人中。替代序列可以是任何适宜长度(如果所需修复结果是缺失，那么包括0个核苷酸)，并且相对于需要编辑的细胞内的天然存在的序列，典型地包括1、2、3或更多个序列修饰。一种常见序列修饰涉及改变天然存在的序列以修复突变，所述突变与需要治疗的疾病或病症相关。另一常见序列修饰涉及改变一个或多个序列，所述序列与RNA指导的核酸酶的PAM序列或用于产生SSB或DSB的一个或多个gRNA的靶向结构域互补或编码所述PAM序列或靶向结构域，以在将替代序列并入靶位点中之后减少或消除靶位点的重复裂解。

如果使用线性ssODN，其可以经配置以(i)退火至靶核酸的带切口链，(ii)退火至靶核酸的完整链，(iii)退火至靶核酸的正链，和/或(iv)退火至靶核酸的负链。ssODN可具有任何适宜长度，例如约或不大于150-200个核苷酸(例如，150、160、170、180、190或200个核苷酸)。

应注意，模板核酸也可以是核酸载体，例如病毒基因组或环状双链DNA，例如质粒。包含供体模板的核酸载体可以包括其他编码或非编码元件。例如，模板核酸可以作为病毒基因组的部分来递送(例如在AAV或慢病毒基因组中)，其包括某些基因组骨架元件(例如在AAV基因组情形中，末端反向重复序列)并且任选地包括编码gRNA和/或RNA指导的核酸酶的其他序列。在某些实施例中，供体模板可以邻近或侧接由一个或多个gRNA识别的靶位点，以促进在供体模板的一端或两端上形成游离DSB，所述供体模板可以参与使用相同gRNA修复在细胞DNA中形成的相应SSB或DSB。适合用作供体模板的示例性核酸载体描述于Cotta-Ramusino中。

不论使用何种形式，模板核酸都可以设计为避免不期望的序列。在某些实施例中，可以缩短一个或两个同源臂以避免与某些序列重复元件(例如，Alu重复、LINE元件等)重叠。

靶细胞

根据本披露的基因组编辑系统可以用于操作或改变细胞，例如以编辑或改变靶核酸。在各个实施例中，操作可在体内进行或离体进行。

可以根据本披露的实施例操作或改变多种细胞类型，并且在一些情形中，例如在体内应用中，例如通过将根据本披露的基因组编辑系统递送至多个细胞类型来改变或操作多个细胞类型。然而，在其他情形中，可能需要将操作或改变限制于特定的一个或多个细胞类型。例如，在一些情况下可能需要编辑具有有限分化潜力的细胞或最终分化细胞，例如在Maeder情形中的感光细胞，其中预期基因型的修饰会导致细胞表型变化。然而，在其他情形中，可能需要编辑分化程度较低的、多潜能或多能性的干细胞或祖细胞。举例来说，细胞可以是胚胎干细胞、诱导型多能干细胞(iPSC)、造血干细胞/祖细胞(HSPC)或其他干细胞或祖细胞类型，其分化为与给定应用或适应证相关的细胞类型。

作为推论，根据所靶向的一种或多种细胞类型和/或所需编辑结果，所改变或操作的细胞不同地为分裂细胞或非分裂细胞。

在离体操作或改变细胞时，细胞可以立即使用(例如给予受试者)，或可以维持或储存细胞以供将来使用。本领域技术人员将了解，可以使用本领域已知的任何适宜方法将细胞维持在培养中或储存(例如冷冻于液氮中)。

基因组编辑系统的实施：递送、配制和给予途径

如上文所讨论的，本披露的基因组编辑系统可以用任何适宜方式来实施，意味着此类系统的组分(包括但不限于RNA指导的核酸酶、gRNA和可选供体模板核酸)可以用任何适宜形式或形式的组合来递送、配制或给予，从而在细胞、组织或受试者中导致基因组编辑系统的转导、表达或引入和/或引起所需的修复结果。表6和7展示基因组编辑系统实施的若干非限制性实例。但本领域技术人员将了解，这些列表不是综合性的，并且其他实施是可能的。尤其参照表6，该表列示包含单一gRNA和可选供体模板的基因组编辑系统的若干示例性实施。然而，根据本披露的基因组编辑系统可以并入多个gRNA、多个RNA指导的核酸酶以及其他组分，例如蛋白质，并且基于该表中所示的原理，多种实施将为技术人员所了解。在该表中，[N/A]指示，基因组编辑系统不包括所指示的组分。

表6

表7归纳用于如本文所述的基因组编辑系统的组分的各种递送方法。同样，该列表旨在是示例性而不是限制性。

表7

基因组编辑系统的基于核酸的递送

可以通过本领域已知的方法或如本文所述将编码根据本披露的基因组编辑系统的各种元件的核酸给予受试者或递送至细胞。例如，可以通过例如载体(例如，病毒或非病毒载体)、非载体基方法(例如，使用裸DNA或DNA复合物)或其组合递送编码RNA指导的核酸酶的DNA和/或编码gRNA的DNA、以及供体模板核酸。

编码基因组编辑系统或其组分的核酸可以作为裸DNA或RNA直接递送至细胞，例如借助转染或电穿孔来递送，或者可以缀合至促进靶细胞(例如，红血球、HSC)摄取的分子(例如，N-乙酰半乳糖胺)。也可以使用核酸载体，例如表7中归纳的载体。

核酸载体可以包含编码基因组编辑系统组分(例如RNA指导的核酸酶、gRNA和/或供体模板)的一个或多个序列。载体还可以包含编码信号肽(例如，用于核定位、核仁定位或线粒体定位)的序列，其与编码蛋白质的序列缔合(例如插入其中或与其融合)。作为一个实例，核酸载体可以包括Cas9编码序列，其包括一个或多个核定位序列(例如，来自SV40的核定位序列)。

核酸载体还可以包括任何适宜数目的调节/控制元件，例如，启动子、增强子、内含子、多聚腺苷酸化信号、Kozak共有序列或内部核糖体进入位点(IRES)。这些元件为本领域中所熟知，并且描述于Cotta-Ramusino中。

根据本披露的核酸载体包括重组病毒载体。示例性病毒载体展示于表7中，并且其他适宜病毒载体以及其使用和产生描述于Cotta-Ramusino中。还可以使用本领域已知的其他病毒载体。另外，可以使用病毒颗粒来递送呈核酸和/或肽形式的基因组编辑系统组分。例如，可以组装“空”病毒颗粒以含有任何适宜负荷。病毒载体和病毒颗粒也可以经工程化以并入靶向配体，从而改变靶组织特异性。

除了病毒载体以外，可以使用非病毒载体来递送编码根据本披露的基因组编辑系统的核酸。非病毒核酸载体的一个重要分类是纳米颗粒，其可以是有机的或无机的。纳米颗粒为本领域所熟知，并且概述于Cotta-Ramusino中。可以使用任何适宜的纳米颗粒设计来递送基因组编辑系统组分或编码此类组分的核酸。例如，在本披露的某些实施例中，有机(例如脂质和/或聚合物)纳米颗粒可以适合用作递送运载体。用于纳米颗粒配制物和/或基因转移的示例性脂质示出于表8中，并且表9列示用于基因转移和/或纳米颗粒配制物的示例性聚合物。

表8：用于基因转移的脂质

表9：用于基因转移的聚合物

非病毒载体任选地包括靶向修饰以改进摄取和/或选择性靶向某些细胞类型。这些靶向修饰可以包括例如细胞特异性抗原、单克隆抗体、单链抗体、适体、聚合物、糖(例如，N-乙酰半乳糖胺(GalNAc))和细胞穿透肽。此类载体还任选地使用致融性和核内体去稳定肽/聚合物，经历酸触发的构象变化(例如，加速负荷的核内体逃逸)，和/或并入刺激可裂解的聚合物，例如用于在细胞区室中释放。例如，可以使用在还原性细胞环境中裂解的基于二硫化物的阳离子型聚合物。

在某些实施例中，除了基因组编辑系统的组分(例如，本文所述的RNA指导的核酸酶组分和/或gRNA组分)以外，递送一种或多种核酸分子(例如，DNA分子)。在某些实施例中，该核酸分子是与基因组编辑系统的一个或多个组分同时递送。在某些实施例中，该核酸分子是在递送基因组编辑系统的一个或多个组分之前或之后(例如，小于约30分钟、1小时、2小时、3小时、6小时、9小时、12小时、1天、2天、3天、1周、2周或4周)递送。在某些实施例中，该核酸分子是通过与递送基因组编辑系统的一个或多个组分(例如，RNA指导的核酸酶组分和/或gRNA组分)不同的方式来递送。该核酸分子可以通过本文所述的任何递送方法来递送。例如，该核酸分子可以通过病毒载体(例如，整合缺陷型慢病毒)来递送，并且RNA指导的核酸酶分子组分和/或gRNA组分可以通过电穿孔来递送，例如，使得可以降低由核酸(例如，DNA)引起的毒性。在某些实施例中，该核酸分子编码治疗性蛋白质，例如，本文所述的蛋白质。在某些实施例中，该核酸分子编码RNA分子，例如，本文所述的RNA分子。

RNP和/或编码基因组编辑系统组分的RNA的递送

可以通过本领域已知的方法将RNP(gRNA与RNA指导的核酸酶的复合物，即，核糖核蛋白复合物)和/或编码RNA指导的核酸酶和/或gRNA的RNA递送至细胞中或给予受试者，其中一些方法描述于Cotta-Ramusino中。在体外，编码RNA指导的核酸酶的和/或编码gRNA的RNA可以通过例如显微注射、电穿孔、瞬时细胞压缩或挤压来递送(参见，例如，Lee 2012)。还可以使用脂质介导的转染、肽介导的递送、GalNAc或其他缀合物介导的递送和其组合进行体外和体内递送。

在体外，通过电穿孔递送包含将细胞与编码RNA指导的核酸酶和/或gRNA的RNA(具有或不具有供体模板核酸分子)在盒、室或比色皿中混合，并且施加一个或多个限定持续时间和幅度的电脉冲。用于电穿孔的系统和方案为本领域中已知，并且任何适宜的电穿孔工具和/或方案可以结合本披露的各个实施例使用。

给予途径

可以通过任何适宜模式或途径(局部或全身)将基因组编辑系统或使用此类系统改变或操作的细胞给予受试者。全身给予模式包括口服和肠胃外途径。肠胃外途径包括例如静脉内、骨髓内、动脉内、肌内、真皮内、皮下、鼻内和腹膜内途径。全身给予的组分可以经修饰或配制以靶向例如HSC(造血干细胞/祖细胞)或红系祖细胞或前体细胞。

局部给予模式包括例如骨髓内注射至骨小梁中或股骨内注射到髓隙中，以及输注至门静脉中。在某些实施例中，与全身给予(例如，静脉内)时相比，在局部给予(例如，直接给予至骨髓中)时，显著较少量的组分(与全身方法相比)可以发挥作用。局部给予模式可以降低或消除在全身性给予治疗有效量的组分时可能发生的潜在毒副作用的发生率。

给予可以作为定期推注(例如静脉内)或作为持续输注从内部储库或从外部储库(例如从静脉内注射袋或可植入泵)提供。组分可以局部给予，例如，通过从持续释放药物递送装置中连续释放。

另外，组分可以经配制以容许经延长时段释放。释放系统可以包括生物可降解材料或通过扩散释放所并入组分的材料的基质。组分可以均匀或非均匀地分布于释放系统内。多种释放系统可以是有用的，但适当系统的选择将取决于具体应用所需要的释放速率。不可降解和可降解的释放系统均可以被使用。适宜释放系统包括聚合物和聚合基质、非聚合基质或无机和有机赋形剂和稀释剂，例如但不限于碳酸钙和糖(例如，海藻糖)。释放系统可以是天然的或合成的。然而，合成释放系统是优选的，因为其通常更可靠、更具可重现性并且产生更明确的释放曲线。可以选择释放系统材料，使得具有不同分子量的组分是通过穿过材料扩散或通过材料降解而释放。

代表性的合成生物可降解聚合物包括例如：聚酰胺，例如聚(氨基酸)和聚(肽)；聚酯，例如聚(乳酸)、聚(乙醇酸)、聚(乳酸-共-乙醇酸)和聚(己内酯)；聚(酸酐)；聚原酸酯；聚碳酸酯；和其化学衍生物(取代、添加化学基团，例如，烷基、亚烷基、羟化、氧化和本领域技术人员常规进行的其他修饰)、共聚物和其混合物。代表性的合成非生物可降解聚合物包括例如：聚醚，例如聚(氧化乙烯)、聚(乙二醇)和聚(环氧丁烷)；乙烯基聚合物-聚丙烯酸酯和聚甲基丙烯酸酯，例如甲基、乙基、其他烷基、甲基丙烯酸羟乙酯、丙烯酸和甲基丙烯酸和其他，例如聚(乙烯醇)、聚(乙烯基吡咯烷酮)和聚(乙酸乙烯酯)；聚(氨酯)；纤维素和其衍生物，例如烷基、羟烷基、醚、酯、硝化纤维素和各种醋酸纤维素；聚硅氧烷；和其任何化学衍生物(取代、添加化学基团，例如，烷基、亚烷基、羟化、氧化和本领域技术人员常规进行的其他修饰)、共聚物和其混合物。

也可以使用聚(丙交酯共乙交酯)微球。典型地，微球是由乳酸和乙醇酸的聚合物构成，其经结构化以形成空心球体。球体的直径可以是约15-30微米，并且可以加载本文所述的组分。

组分的双模或差别递送

技术人员根据本披露将了解，本文所披露的基因组编辑系统的不同组分可以一起或分开并且同时或不同时递送。可能尤其期望基因组编辑系统组分的分开和/或异步递送以提供对基因组编辑系统功能的时间或空间控制并限制由其活性引起的某些效应。

如本文所用的不同或差别模式是指递送模式，这些递送模式赋予受试组分分子(例如，RNA指导的核酸酶分子、gRNA、模板核酸或有效负载)不同的药效学或药物代谢动力学特性。例如，递送模式可以导致不同的组织分布，不同的半衰期或不同的时间分布，例如，在所选区室、组织或器官中。

一些递送的模式(例如，通过例如通过自主复制或插入细胞核酸中而在细胞或细胞子代中持续存在的核酸载体来递送)导致组分更持久的表达和存在。实例包括病毒(例如，AAV或慢病毒)递送。

举例来说，基因组编辑系统的组分(例如，RNA指导的核酸酶和gRNA)可以通过在所递送组分在体内或在特定区室、组织或器官中的所得半衰期或持久性方面不同的模式进行递送。在某些实施例中，gRNA可以通过此类模式进行递送。RNA指导的核酸酶分子组分可以通过导致在身体或特定区室或组织或器官中更低持久性或更少暴露的模式进行递送。

更通常地，在某些实施例中，使用第一递送模式来递送第一组分，并且使用第二递送模式来递送第二组分。第一递送模式赋予第一药效学或药物代谢动力学特性。第一药效学特性可以是例如组分或编码该组分的核酸在体内、区室、组织或器官中的分布、持久性或暴露。第二递送模式赋予第二药效学或药物代谢动力学特性。第二药效学特性可以是例如组分或编码该组分的核酸在体内、区室、组织或器官中的分布、持久性或暴露。

在某些实施例中，第一药效学或药物代谢动力学特性(例如，分布、持久性或暴露)比第二药效学或药物代谢动力学特性更有限。

在某些实施例中，第一递送模式经选择以优化(例如，最小化)药效学或药物代谢动力学特性(例如，分布、持久性或暴露)。

在某些实施例中，第二递送模式经选择以优化(例如，最大化)药效学或药物代谢动力学特性(例如，分布、持久性或暴露)。

在某些实施例中，第一递送模式包含使用相对持久的元件，例如，核酸，例如，质粒或病毒载体，例如，AAV或慢病毒。由于此类载体相对持久，从其转录的产物将相对持久。

在某些实施例中，第二递送模式包含相对短暂的元件，例如，RNA或蛋白质。

在某些实施例中，第一组分包含gRNA，并且递送模式相对持久，例如，gRNA是从质粒或病毒载体(例如，AAV或慢病毒)转录。这些基因的转录将具有极小生理学意义，因为这些基因不编码蛋白质产物，并且这些gRNA不能够单独起作用。第二组分(RNA指导的核酸酶分子)是以瞬时方式递送，例如，作为mRNA或作为蛋白质递送，从而确保完整的RNA指导的核酸酶分子/gRNA复合物仅在短时段内存在并有活性。

此外，这些组分可以不同的分子形式或用不同的互为补充以增强安全性和组织特异性的递送载体进行递送。

差别递送模式的使用可以增强性能、安全性和/或功效，例如，可以减少最终脱靶修饰的可能性。通过较不持久的模式递送免疫原性组分(例如，Cas9分子)可以降低免疫原性，因为来自细菌源Cas酶的肽通过MHC分子展示于细胞表面上。两部分式递送系统可以改善这些缺点。

差别递送模式可以用于将组分递送至不同但重叠的靶区域。在靶区域的重叠以外，活性复合物的形成被最小化。因此，在某些实施例中，第一组分(例如，gRNA)是通过第一递送模式进行递送，其导致第一空间(例如，组织)分布。第二组分(例如，RNA指导的核酸酶分子)是通过第二递送模式进行递送，其导致第二空间(例如，组织)分布。在某些实施例中，第一模式包含选自脂质体、纳米颗粒(例如，聚合纳米颗粒)和核酸的第一元件，例如，病毒载体。第二模式包含选自该组的第二元件。在某些实施例中，第一递送模式包含第一靶向元件，例如，细胞特异性受体或抗体，并且第二递送模式不包括该元件。在某些实施例中，第二递送模式包含第二靶向元件，例如，第二细胞特异性受体或第二抗体。

当在病毒递送载体、脂质体或聚合纳米颗粒中递送RNA指导的核酸酶分子时，存在递送至多个组织并且在多个组织中具有治疗活性的可能性，但此时可能希望仅靶向单一组织。两部分式递送系统可以解决这一挑战并且增强组织特异性。如果将gRNA分子和RNA指导的核酸酶分子包装于具有不同但重叠的组织向性的分开的递送运载体中，那么完全功能复合物仅在两种载体所靶向的组织中形成。

实例

以下实例仅仅是说明性的，并不旨在以任何方式限制本发明的范围或内容。

实例1–自我失活设计将靶位点包埋于载体中

AAV载体系统经工程化使得其含有自我失活的普遍适用的可调谐模块。这些模块包括已被靶向的内源细胞序列，从而排除了对任何额外gRNA的需要。另外，这些模块可基于在病毒基因组内的位置、gRNA的选择或PAM序列调谐。

自我失活设计含有与内源靶基因座相同或几乎相同的DNA序列。图1A是展示SaCas9(金黄色葡萄球菌Cas9)-gRNA复合物的图，该复合物靶向内源细胞靶标和病毒载体中编码SaCas9的核酸二者。

AAV中的靶序列可变地定位于病毒骨架中的位点或者SaCas9编码序列中的四个区域之一，并且含有经典或者次最佳的PAM。图1B是描绘2-载体系统的卡通图，其中工程化SaCas9和gRNA被编码于分开的病毒基因组上。用箭头标记AAV基因组中三种类型的示例性位点，异源细胞序列可以工程化至这些示例性位点中。在类型(a)中，在AAV骨架中的位点处插入细胞序列；在类型(b)中，在SaCas9编码序列中的四个区域(AC1、AC2、AC3或N末端(NT))之一处插入细胞序列。在某些AAV载体中，可以同时在类型(a)和类型(b)位点插入细胞序列。也可以将SaCas9和gRNA工程化至单一载体系统中。

实例2–SaCas9中的靶位点不破坏SaCas9核酸酶活性

这个实例提供了对SaCas9编码序列中的靶位点进行工程化的系统和方法，这些靶位点不破坏SaCas9核酸酶活性。构建各种质粒，并且不同靶位点位于SaCas9编码序列中的四个不同位置(NT、AC1、AC2或AC3)处。图4A是描绘示例性构建体以及人类VEGFA-3 gRNA表达质粒的卡通图，这些示例性构建体具有在SaCas9编码序列中四个不同位置的靶位点。这些靶位点来自mCEP290(指导物7、9)、hCEP290(指导物64、323、KKH)和SERPINA1(指导物333和776)。

将自我失活或对照Cas9质粒与靶向VEFGA位点3的gRNA表达质粒一起转染至HEK293细胞中。mCherry是通过单独的启动子来表达并且用于归一化质粒的经转染量。GFP是从与SaCas9相同的转录物表达，并且用于测量转录率与翻译率之间的潜在差异。图4B示出，自我失活SaCas9突变体在HEK293细胞中展现与对照SaCas9(WT)相比类似的表达水平。自我失活SaCas9构建体中的GFP表达与对照SaCas9构建体(WT)中的GFP表达相关联，指示自我失活SaCas9的无阻碍转录和翻译。

野生型对照和工程化自我失活SaCas9蛋白展现类似的核酸酶活性水平，如图4C-4E中所示。在每个图中指示具有在特定靶位点处插入的特定靶序列的自我失活SaCas9构建体。靶位点AC1、AC2、AC3和NT位于如图1B和图2中所描绘的编码序列中。靶序列m7、m9、a3、a7、64-1、64-2、323-1、323-2、KKH-1和KKH-2是指以下基因中的序列：小鼠CEP290(指导物m7和m9)、人类A1ATSERPINA1(指导物a3和a7)和人类CEP290(指导物64-1、64-2、323-1、323-2、KKH-1和KKH-2)，其示出于下表10中。通过T7E1测定来测量对照(标记为“标准品”)和自我失活SaCas9核酸酶活性。x轴示出转染至HEK293细胞中的质粒的量，并且y轴示出如通过T7E1测定所确定的VEGFA-3中的indel％。

表10

实例3–自我失活AAV在靶GFP质粒处维持功效，而在HEK293细胞中自我失活

这个实例提供体外数据，这些数据证实了同时达到稳健靶标修饰和在来源处自我靶向AAV DNA的集合体的可行性。

将HEK293细胞接种于24孔板中并用500ng/孔的GFP表达质粒转染，这些质粒含有包埋于GFP编码序列的5'端中的gRNA靶位点。第二天用靶向GFP的gRNA AAV与野生型或者自我靶向SaCas9 AAV(如图1B中所示)的混合物以200,000vg/细胞的总剂量转导HEK293细胞。两天后，通过荧光激活的细胞分选(FACS)分析细胞，以确定GFP表达的敲低。实验设计的示意图示出于图5A中。图5B示出在使用或不使用野生型或工程化SaCas9蛋白的情况下，HEK293细胞中的GFP表达水平。对照：无SaCas9蛋白；WT：野生型SaCas9蛋白；BB(sub)：工程化SaCas9，其中靶位点插入具有次最佳PAM序列NNGRRA或NNGRRV的AAV骨架中；BB：工程化SaCas9，其中靶位点插入具有经典PAM序列的AAV骨架中；AC1：工程化SaCas9，其中靶位点插入SaCas9编码序列的AC1位点处；BB/AC1：工程化SaCas9，其中靶位点同时插入AAV骨架中和SaCas9编码序列的AC1位点处。用自我失活SaCas9蛋白单独地测试两种不同的gRNA构建体(mCEP-7和mCEP-9)。如图5B左下图中所示，对照SaCas9构建体(WT)和自我失活SaCas9构建体展现类似的敲低GFP表达的能力。

还收获蛋白质并且通过alphaLISA测定对SaCas9水平进行定量。图5B右下图示出经野生型或自我失活SaCas9构建体转导的HEK293细胞中的Cas9蛋白水平。所有经自我失活SaCas9构建体转导的细胞都展现降低的SaCas9蛋白水平，与具有仅插入AAV骨架中的靶位点的SaCas9构建体相比，具有插入SaCas9编码序列的AC1位点处的靶位点的工程化SaCas9构建体展现改进的自我失活功效。另外，gRNA mCEP-9展现强于gRNA mCEP-7的自我失活能力。

实例4–自我失活AAV在靶基因座处维持功效，而在视网膜外植体中自我失活

这个实例提供组织外植体数据，这些数据证实了同时达到稳健靶标修饰和在来源处自我靶向AAV DNA的集合体的可行性。

视网膜外植体是从BL6小鼠提取并在24孔板中培养。用gRNA AAV与野生型或自我靶向SaCas9 AAV(如图1B中所示)的混合物以1E11vg/视网膜的总剂量转导外植体。在提取后第14天，从外植体收获DNA和RNA二者。通过PCR从所提取的DNA扩增内源靶基因座(mCEP290)，克隆至TOPO载体中并测序。对照(WT)或自我失活SaCas9构建体在小鼠视网膜外植体中的内源靶基因座处展现类似的基因编辑率，如图6A中所示。

另外，从所提取的RNA产生cDNA。通过PCR扩增SaCas9序列，克隆至TOPO载体中并测序。SaCas9 cDNA中的indel率％示出于图6B中。

实例5–自我失活AAV成功修饰靶基因座，而在体内自我失活

这个实例提供体内数据，这些数据证实了同时达到有效靶标修饰和在来源处自我靶向AAV DNA的集合体的可行性。将具有靶向mCEP290的SaCas9和gRNA的AAV视网膜下注射至C57BL/6J小鼠中，并在6周后收获视网膜用于DNA和cDNA测序。

以1.16x10¹⁰AAV/眼的总剂量转导gRNA AAV与野生型对照或自我靶向SaCas9 AAV的混合物(如图1B中所示)。在转导后6周时，从动物组织收获DNA和RNA二者。通过PCR从所提取的DNA扩增内源靶基因座，并用下一代测序方法在Miseq机器上测序。与如图7A中所示的阴性对照相比，自我失活SaCas9构建体展现有效基因编辑率，但具有Cas9编码序列内的靶向位点(AC和BB/AC)的SaCas9构建体的基因编辑率与野生型对照相比相对较低。

另外，从所提取的RNA产生cDNA。通过PCR扩增SaCas9序列，克隆至TOPO载体中并测序。自我失活SaCas9构建体的特定转录物与野生型SaCas9构建体相比的倍数变化示出于图7B中。含有SaCas9编码序列的转录物在经AC-m9-WT PAM构建体(具有插入SaCas9编码序列的AC1位点处的靶位点的自我失活SaCas9)和BB-m7-AC-m9构建体(具有同时插入AAV骨架中和SaCas9编码序列的AC1位点处的靶位点的自我失活SaCas9)转导的组织中显著减少。

通过引用并入

本文提及的所有出版物、专利和专利申请都通过引用以其全文而特此结合，如同每一单独的出版物、专利或专利申请具体且单独地指明通过引用而结合一样。在有冲突的情况下，以本申请(包括本文的任何定义)为准。

等效物

本领域技术人员仅使用常规实验就将认识到或能够确定本文所述的具体实施例的许多等效物。此类等效物旨在由以下权利要求涵盖。

序列表

<110> 爱迪塔斯医药公司

<120> 用于内源和来源DNA的单发指导RNA（ogRNA）靶向的系统和方法

<130> 011622-8003CN01

<150> US 62/503,640

<151> 2017-05-09

<150> US 62/430,154

<151> 2016-12-05

<160> 21

<170> PatentIn 3.5版

<210> 1

<211> 4520

<212> DNA

<213> 人工序列

<220>

<223> 合成核酸

<220>

<221> 尚未归类的特征

<222> (158)..(183)

<223> n为a、c、g或t

<400> 1

ttggccactc cctctctgcg cgctcgctcg ctcactgagg ccgggcgacc aaaggtcgcc 60

cgacgcccgg gctttgcccg ggcggcctca gtgagcgagc gagcgcgcag agagggagtg 120

gccaactcca tcactagggg ttcctcagat ctgaattnnn nnnnnnnnnn nnnnnnnnnn 180

nnnctagcgc ttaagtcgcg cattgattat tgactagtta ttaatagtaa tcaattacgg 240

ggtcattagt tcatagccca tatatggagt tccgcgttac ataacttacg gtaaatggcc 300

cgcctggctg accgcccaac gacccccgcc cattgacgtc aataatgacg tatgttccca 360

tagtaacgcc aatagggact ttccattgac gtcaatgggt ggactattta cggtaaactg 420

cccacttggc agtacatcaa gtgtatcata tgccaagtac gccccctatt gacgtcaatg 480

acggtaaatg gcccgcctgg cattatgccc agtacatgac cttatgggac tttcctactt 540

ggcagtacat ctacgtatta gtcatcgcta ttaccatggt gatgcggttt tggcagtaca 600

tcaatgggcg tggatagcgg tttgactcac ggggatttcc aagtctccac cccattgacg 660

tcaatgggag tttgttttgg caccaaaatc aacgggactt tccaaaatgt cgtaacaact 720

ccgccccatt gacgcaaatg ggcggtaggc gtgtacggtg ggaggtctat ataagcagag 780

ctggtttagt gaaccgtcag atccgctaga gatccgctct agaggatccg gtactcgagg 840

aactgaaaaa ccagaaagtt aactggtaag tttagtcttt ttgtctttta tttcaggtcc 900

cggatccggt ggtggtgcaa atcaaagaac tgctcctcag tggatgttgc ctttacttct 960

aggcctgtac ggaagtgtta cgcggccgcc accatgggac cgaagaaaaa gcgcaaggtc 1020

gaagcgtcca tgaaaaggaa ctacattctg gggctggaca tcgggattac aagcgtgggg 1080

tatgggatta ttgactatga aacaagggac gtgatcgacg caggcgtcag actgttcaag 1140

gaggccaacg tggaaaacaa tgagggacgg agaagcaaga ggggagccag gcgcctgaaa 1200

cgacggagaa ggcacagaat ccagagggtg aagaaactgc tgttcgatta caacctgctg 1260

accgaccatt ctgagctgag tggaattaat ccttatgaag ccagggtgaa aggcctgagt 1320

cagaagctgt cagaggaaga gttttccgca gctctgctgc acctggctaa gcgccgagga 1380

gtgcataacg tcaatgaggt ggaagaggac accggcaacg agctgtctac aaaggaacag 1440

atctcacgca atagcaaagc tctggaagag aagtatgtcg cagagctgca gctggaacgg 1500

ctgaagaaag atggcgaggt gagagggtca attaataggt tcaagacaag cgactacgtc 1560

aaagaagcca agcagctgct gaaagtgcag aaggcttacc accagctgga tcagagcttc 1620

atcgatactt atatcgacct gctggagact cggagaacct actatgaggg accaggagaa 1680

gggagcccct tcggatggaa agacatcaag gaatggtacg agatgctgat gggacattgc 1740

acctattttc cagaagagct gagaagcgtc aagtacgctt ataacgcaga tctgtacaac 1800

gccctgaatg acctgaacaa cctggtcatc accagggatg aaaacgagaa actggaatac 1860

tatgagaagt tccagatcat cgaaaacgtg tttaagcaga agaaaaagcc tacactgaaa 1920

cagattgcta aggagatcct ggtcaacgaa gaggacatca agggctaccg ggtgacaagc 1980

actggaaaac cagagttcac caatctgaaa gtgtatcacg atattaagga catcacagca 2040

cggaaagaaa tcattgagaa cgccgaactg ctggatcaga ttgctaagat cctgactatc 2100

taccagagct ccgaggacat ccaggaagag ctgactaacc tgaacagcga gctgacccag 2160

gaagagatcg aacagattag taatctgaag gggtacaccg gaacacacaa cctgtccctg 2220

aaagctatca atctgattct ggatgagctg tggcatacaa acgacaatca gattgcaatc 2280

tttaaccggc tgaagctggt cccaaaaaag gtggacctga gtcagcagaa agagatccca 2340

accacactgg tggacgattt cattctgtca cccgtggtca agcggagctt catccagagc 2400

atcaaagtga tcaacgccat catcaagaag tacggcctgc ccaatgatat cattatcgag 2460

ctggctaggg agaagaacag caaggacgca cagaagatga tcaatgagat gcagaaacga 2520

aaccggcaga ccaatgaacg cattgaagag attatccgaa ctaccgggaa agagaacgca 2580

aagtacctga ttgaaaaaat caagctgcac gatatgcagg agggaaagtg tctgtattct 2640

ctggaggcca tccccctgga ggacctgctg aacaatccat tcaactacga ggtcgatcat 2700

attatcccca gaagcgtgtc cttcgacaat tcctttaaca acaaggtgct ggtcaagcag 2760

gaagagaact ctaaaaaggg caataggact cctttccagt acctgtctag ttcagattcc 2820

aagatctctt acgaaacctt taaaaagcac attctgaatc tggccaaagg aaagggccgc 2880

atcagcaaga ccaaaaagga gtacctgctg gaagagcggg acatcaacag attctccgtc 2940

cagaaggatt ttattaaccg gaatctggtg gacacaagat acgctactcg cggcctgatg 3000

aatctgctgc gatcctattt ccgggtgaac aatctggatg tgaaagtcaa gtccatcaac 3060

ggcgggttca catcttttct gaggcgcaaa tggaagttta aaaaggagcg caacaaaggg 3120

tacaagcacc atgccgaaga tgctctgatt atcgcaaatg ccgacttcat ctttaaggag 3180

tggaaaaagc tggacaaagc caagaaagtg atggagaacc agatgttcga agagaagcag 3240

gccgaatcta tgcccgaaat cgagacagaa caggagtaca aggagatttt catcactcct 3300

caccagatca agcatatcaa ggatttcaag gactacaagt actctcaccg ggtggataaa 3360

aagcccaaca gagagctgat caatgacacc ctgtatagta caagaaaaga cgataagggg 3420

aataccctga ttgtgaacaa tctgaacgga ctgtacgaca aagataatga caagctgaaa 3480

aagctgatca acaaaagtcc cgagaagctg ctgatgtacc accatgatcc tcagacatat 3540

cagaaactga agctgattat ggagcagtac ggcgacgaga agaacccact gtataagtac 3600

tatgaagaga ctgggaacta cctgaccaag tatagcaaaa aggataatgg ccccgtgatc 3660

aagaagatca agtactatgg gaacaagctg aatgcccatc tggacatcac agacgattac 3720

cctaacagtc gcaacaaggt ggtcaagctg tcactgaagc catacagatt cgatgtctat 3780

ctggacaacg gcgtgtataa atttgtgact gtcaagaatc tggatgtcat caaaaaggag 3840

aactactatg aagtgaatag caagtgctac gaagaggcta aaaagctgaa aaagattagc 3900

aaccaggcag agttcatcgc ctccttttac aacaacgacc tgattaagat caatggcgaa 3960

ctgtataggg tcatcggggt gaacaatgat ctgctgaacc gcattgaagt gaatatgatt 4020

gacatcactt accgagagta tctggaaaac atgaatgata agcgcccccc tcgaattatc 4080

aaaacaattg cctctaagac tcagagtatc aaaaagtact caaccgacat tctgggaaac 4140

ctgtatgagg tgaagagcaa aaagcaccct cagattatca aaaagggcgg atcccccaag 4200

aagaagagga aagtctcgag cgactacaaa gaccatgacg gtgattataa agatcatgac 4260

atcgattaca aggatgacga tgacaagtag caataaagga tcgtttattt tcattggaag 4320

cgtgtgttgg ttttttgatc aggcgcgtcc aagcttgcat gctggggaga gatctaggaa 4380

cccctagtga tggagttggc cactccctct ctgcgcgctc gctcgctcac tgaggccgcc 4440

cgggcaaagc ccgggcgtcg ggcgaccttt ggtcgcccgg cctcagtgag cgagcgagcg 4500

cgcagagagg gagtggccaa 4520

<210> 2

<211> 1053

<212> PRT

<213> 人工序列

<220>

<223> 合成多肽

<400> 2

Met Lys Arg Asn Tyr Ile Leu Gly Leu Asp Ile Gly Ile Thr Ser Val

1 5 10 15

Gly Tyr Gly Ile Ile Asp Tyr Glu Thr Arg Asp Val Ile Asp Ala Gly

20 25 30

Val Arg Leu Phe Lys Glu Ala Asn Val Glu Asn Asn Glu Gly Arg Arg

35 40 45

Ser Lys Arg Gly Ala Arg Arg Leu Lys Arg Arg Arg Arg His Arg Ile

50 55 60

Gln Arg Val Lys Lys Leu Leu Phe Asp Tyr Asn Leu Leu Thr Asp His

65 70 75 80

Ser Glu Leu Ser Gly Ile Asn Pro Tyr Glu Ala Arg Val Lys Gly Leu

85 90 95

Ser Gln Lys Leu Ser Glu Glu Glu Phe Ser Ala Ala Leu Leu His Leu

100 105 110

Ala Lys Arg Arg Gly Val His Asn Val Asn Glu Val Glu Glu Asp Thr

115 120 125

Gly Asn Glu Leu Ser Thr Lys Glu Gln Ile Ser Arg Asn Ser Lys Ala

130 135 140

Leu Glu Glu Lys Tyr Val Ala Glu Leu Gln Leu Glu Arg Leu Lys Lys

145 150 155 160

Asp Gly Glu Val Arg Gly Ser Ile Asn Arg Phe Lys Thr Ser Asp Tyr

165 170 175

Val Lys Glu Ala Lys Gln Leu Leu Lys Val Gln Lys Ala Tyr His Gln

180 185 190

Leu Asp Gln Ser Phe Ile Asp Thr Tyr Ile Asp Leu Leu Glu Thr Arg

195 200 205

Arg Thr Tyr Tyr Glu Gly Pro Gly Glu Gly Ser Pro Phe Gly Trp Lys

210 215 220

Asp Ile Lys Glu Trp Tyr Glu Met Leu Met Gly His Cys Thr Tyr Phe

225 230 235 240

Pro Glu Glu Leu Arg Ser Val Lys Tyr Ala Tyr Asn Ala Asp Leu Tyr

245 250 255

Asn Ala Leu Asn Asp Leu Asn Asn Leu Val Ile Thr Arg Asp Glu Asn

260 265 270

Glu Lys Leu Glu Tyr Tyr Glu Lys Phe Gln Ile Ile Glu Asn Val Phe

275 280 285

Lys Gln Lys Lys Lys Pro Thr Leu Lys Gln Ile Ala Lys Glu Ile Leu

290 295 300

Val Asn Glu Glu Asp Ile Lys Gly Tyr Arg Val Thr Ser Thr Gly Lys

305 310 315 320

Pro Glu Phe Thr Asn Leu Lys Val Tyr His Asp Ile Lys Asp Ile Thr

325 330 335

Ala Arg Lys Glu Ile Ile Glu Asn Ala Glu Leu Leu Asp Gln Ile Ala

340 345 350

Lys Ile Leu Thr Ile Tyr Gln Ser Ser Glu Asp Ile Gln Glu Glu Leu

355 360 365

Thr Asn Leu Asn Ser Glu Leu Thr Gln Glu Glu Ile Glu Gln Ile Ser

370 375 380

Asn Leu Lys Gly Tyr Thr Gly Thr His Asn Leu Ser Leu Lys Ala Ile

385 390 395 400

Asn Leu Ile Leu Asp Glu Leu Trp His Thr Asn Asp Asn Gln Ile Ala

405 410 415

Ile Phe Asn Arg Leu Lys Leu Val Pro Lys Lys Val Asp Leu Ser Gln

420 425 430

Gln Lys Glu Ile Pro Thr Thr Leu Val Asp Asp Phe Ile Leu Ser Pro

435 440 445

Val Val Lys Arg Ser Phe Ile Gln Ser Ile Lys Val Ile Asn Ala Ile

450 455 460

Ile Lys Lys Tyr Gly Leu Pro Asn Asp Ile Ile Ile Glu Leu Ala Arg

465 470 475 480

Glu Lys Asn Ser Lys Asp Ala Gln Lys Met Ile Asn Glu Met Gln Lys

485 490 495

Arg Asn Arg Gln Thr Asn Glu Arg Ile Glu Glu Ile Ile Arg Thr Thr

500 505 510

Gly Lys Glu Asn Ala Lys Tyr Leu Ile Glu Lys Ile Lys Leu His Asp

515 520 525

Met Gln Glu Gly Lys Cys Leu Tyr Ser Leu Glu Ala Ile Pro Leu Glu

530 535 540

Asp Leu Leu Asn Asn Pro Phe Asn Tyr Glu Val Asp His Ile Ile Pro

545 550 555 560

Arg Ser Val Ser Phe Asp Asn Ser Phe Asn Asn Lys Val Leu Val Lys

565 570 575

Gln Glu Glu Asn Ser Lys Lys Gly Asn Arg Thr Pro Phe Gln Tyr Leu

580 585 590

Ser Ser Ser Asp Ser Lys Ile Ser Tyr Glu Thr Phe Lys Lys His Ile

595 600 605

Leu Asn Leu Ala Lys Gly Lys Gly Arg Ile Ser Lys Thr Lys Lys Glu

610 615 620

Tyr Leu Leu Glu Glu Arg Asp Ile Asn Arg Phe Ser Val Gln Lys Asp

625 630 635 640

Phe Ile Asn Arg Asn Leu Val Asp Thr Arg Tyr Ala Thr Arg Gly Leu

645 650 655

Met Asn Leu Leu Arg Ser Tyr Phe Arg Val Asn Asn Leu Asp Val Lys

660 665 670

Val Lys Ser Ile Asn Gly Gly Phe Thr Ser Phe Leu Arg Arg Lys Trp

675 680 685

Lys Phe Lys Lys Glu Arg Asn Lys Gly Tyr Lys His His Ala Glu Asp

690 695 700

Ala Leu Ile Ile Ala Asn Ala Asp Phe Ile Phe Lys Glu Trp Lys Lys

705 710 715 720

Leu Asp Lys Ala Lys Lys Val Met Glu Asn Gln Met Phe Glu Glu Lys

725 730 735

Gln Ala Glu Ser Met Pro Glu Ile Glu Thr Glu Gln Glu Tyr Lys Glu

740 745 750

Ile Phe Ile Thr Pro His Gln Ile Lys His Ile Lys Asp Phe Lys Asp

755 760 765

Tyr Lys Tyr Ser His Arg Val Asp Lys Lys Pro Asn Arg Glu Leu Ile

770 775 780

Asn Asp Thr Leu Tyr Ser Thr Arg Lys Asp Asp Lys Gly Asn Thr Leu

785 790 795 800

Ile Val Asn Asn Leu Asn Gly Leu Tyr Asp Lys Asp Asn Asp Lys Leu

805 810 815

Lys Lys Leu Ile Asn Lys Ser Pro Glu Lys Leu Leu Met Tyr His His

820 825 830

Asp Pro Gln Thr Tyr Gln Lys Leu Lys Leu Ile Met Glu Gln Tyr Gly

835 840 845

Asp Glu Lys Asn Pro Leu Tyr Lys Tyr Tyr Glu Glu Thr Gly Asn Tyr

850 855 860

Leu Thr Lys Tyr Ser Lys Lys Asp Asn Gly Pro Val Ile Lys Lys Ile

865 870 875 880

Lys Tyr Tyr Gly Asn Lys Leu Asn Ala His Leu Asp Ile Thr Asp Asp

885 890 895

Tyr Pro Asn Ser Arg Asn Lys Val Val Lys Leu Ser Leu Lys Pro Tyr

900 905 910

Arg Phe Asp Val Tyr Leu Asp Asn Gly Val Tyr Lys Phe Val Thr Val

915 920 925

Lys Asn Leu Asp Val Ile Lys Lys Glu Asn Tyr Tyr Glu Val Asn Ser

930 935 940

Lys Cys Tyr Glu Glu Ala Lys Lys Leu Lys Lys Ile Ser Asn Gln Ala

945 950 955 960

Glu Phe Ile Ala Ser Phe Tyr Asn Asn Asp Leu Ile Lys Ile Asn Gly

965 970 975

Glu Leu Tyr Arg Val Ile Gly Val Asn Asn Asp Leu Leu Asn Arg Ile

980 985 990

Glu Val Asn Met Ile Asp Ile Thr Tyr Arg Glu Tyr Leu Glu Asn Met

995 1000 1005

Asn Asp Lys Arg Pro Pro Arg Ile Ile Lys Thr Ile Ala Ser Lys

1010 1015 1020

Thr Gln Ser Ile Lys Lys Tyr Ser Thr Asp Ile Leu Gly Asn Leu

1025 1030 1035

Tyr Glu Val Lys Ser Lys Lys His Pro Gln Ile Ile Lys Lys Gly

1040 1045 1050

<210> 3

<211> 1065

<212> PRT

<213> 人工序列

<220>

<223> 合成多肽

<220>

<221> 尚未归类的特征

<222> (272)..(283)

<223> Xaa可以是任何天然存在的氨基酸

<400> 3

Met Lys Arg Asn Tyr Ile Leu Gly Leu Asp Ile Gly Ile Thr Ser Val

1 5 10 15

Gly Tyr Gly Ile Ile Asp Tyr Glu Thr Arg Asp Val Ile Asp Ala Gly

20 25 30

Val Arg Leu Phe Lys Glu Ala Asn Val Glu Asn Asn Glu Gly Arg Arg

35 40 45

Ser Lys Arg Gly Ala Arg Arg Leu Lys Arg Arg Arg Arg His Arg Ile

50 55 60

Gln Arg Val Lys Lys Leu Leu Phe Asp Tyr Asn Leu Leu Thr Asp His

65 70 75 80

Ser Glu Leu Ser Gly Ile Asn Pro Tyr Glu Ala Arg Val Lys Gly Leu

85 90 95

Ser Gln Lys Leu Ser Glu Glu Glu Phe Ser Ala Ala Leu Leu His Leu

100 105 110

Ala Lys Arg Arg Gly Val His Asn Val Asn Glu Val Glu Glu Asp Thr

115 120 125

Gly Asn Glu Leu Ser Thr Lys Glu Gln Ile Ser Arg Asn Ser Lys Ala

130 135 140

Leu Glu Glu Lys Tyr Val Ala Glu Leu Gln Leu Glu Arg Leu Lys Lys

145 150 155 160

Asp Gly Glu Val Arg Gly Ser Ile Asn Arg Phe Lys Thr Ser Asp Tyr

165 170 175

Val Lys Glu Ala Lys Gln Leu Leu Lys Val Gln Lys Ala Tyr His Gln

180 185 190

Leu Asp Gln Ser Phe Ile Asp Thr Tyr Ile Asp Leu Leu Glu Thr Arg

195 200 205

Arg Thr Tyr Tyr Glu Gly Pro Gly Glu Gly Ser Pro Phe Gly Trp Lys

210 215 220

Asp Ile Lys Glu Trp Tyr Glu Met Leu Met Gly His Cys Thr Tyr Phe

225 230 235 240

Pro Glu Glu Leu Arg Ser Val Lys Tyr Ala Tyr Asn Ala Asp Leu Tyr

245 250 255

Asn Ala Leu Asn Asp Leu Asn Asn Leu Val Ile Thr Arg Asp Glu Xaa

260 265 270

Xaa Xaa Xaa Xaa Xaa Xaa Xaa Xaa Xaa Xaa Xaa Asn Glu Lys Leu Glu

275 280 285

Tyr Tyr Glu Lys Phe Gln Ile Ile Glu Asn Val Phe Lys Gln Lys Lys

290 295 300

Lys Pro Thr Leu Lys Gln Ile Ala Lys Glu Ile Leu Val Asn Glu Glu

305 310 315 320

Asp Ile Lys Gly Tyr Arg Val Thr Ser Thr Gly Lys Pro Glu Phe Thr

325 330 335

Asn Leu Lys Val Tyr His Asp Ile Lys Asp Ile Thr Ala Arg Lys Glu

340 345 350

Ile Ile Glu Asn Ala Glu Leu Leu Asp Gln Ile Ala Lys Ile Leu Thr

355 360 365

Ile Tyr Gln Ser Ser Glu Asp Ile Gln Glu Glu Leu Thr Asn Leu Asn

370 375 380

Ser Glu Leu Thr Gln Glu Glu Ile Glu Gln Ile Ser Asn Leu Lys Gly

385 390 395 400

Tyr Thr Gly Thr His Asn Leu Ser Leu Lys Ala Ile Asn Leu Ile Leu

405 410 415

Asp Glu Leu Trp His Thr Asn Asp Asn Gln Ile Ala Ile Phe Asn Arg

420 425 430

Leu Lys Leu Val Pro Lys Lys Val Asp Leu Ser Gln Gln Lys Glu Ile

435 440 445

Pro Thr Thr Leu Val Asp Asp Phe Ile Leu Ser Pro Val Val Lys Arg

450 455 460

Ser Phe Ile Gln Ser Ile Lys Val Ile Asn Ala Ile Ile Lys Lys Tyr

465 470 475 480

Gly Leu Pro Asn Asp Ile Ile Ile Glu Leu Ala Arg Glu Lys Asn Ser

485 490 495

Lys Asp Ala Gln Lys Met Ile Asn Glu Met Gln Lys Arg Asn Arg Gln

500 505 510

Thr Asn Glu Arg Ile Glu Glu Ile Ile Arg Thr Thr Gly Lys Glu Asn

515 520 525

Ala Lys Tyr Leu Ile Glu Lys Ile Lys Leu His Asp Met Gln Glu Gly

530 535 540

Lys Cys Leu Tyr Ser Leu Glu Ala Ile Pro Leu Glu Asp Leu Leu Asn

545 550 555 560

Asn Pro Phe Asn Tyr Glu Val Asp His Ile Ile Pro Arg Ser Val Ser

565 570 575

Phe Asp Asn Ser Phe Asn Asn Lys Val Leu Val Lys Gln Glu Glu Asn

580 585 590

Ser Lys Lys Gly Asn Arg Thr Pro Phe Gln Tyr Leu Ser Ser Ser Asp

595 600 605

Ser Lys Ile Ser Tyr Glu Thr Phe Lys Lys His Ile Leu Asn Leu Ala

610 615 620

Lys Gly Lys Gly Arg Ile Ser Lys Thr Lys Lys Glu Tyr Leu Leu Glu

625 630 635 640

Glu Arg Asp Ile Asn Arg Phe Ser Val Gln Lys Asp Phe Ile Asn Arg

645 650 655

Asn Leu Val Asp Thr Arg Tyr Ala Thr Arg Gly Leu Met Asn Leu Leu

660 665 670

Arg Ser Tyr Phe Arg Val Asn Asn Leu Asp Val Lys Val Lys Ser Ile

675 680 685

Asn Gly Gly Phe Thr Ser Phe Leu Arg Arg Lys Trp Lys Phe Lys Lys

690 695 700

Glu Arg Asn Lys Gly Tyr Lys His His Ala Glu Asp Ala Leu Ile Ile

705 710 715 720

Ala Asn Ala Asp Phe Ile Phe Lys Glu Trp Lys Lys Leu Asp Lys Ala

725 730 735

Lys Lys Val Met Glu Asn Gln Met Phe Glu Glu Lys Gln Ala Glu Ser

740 745 750

Met Pro Glu Ile Glu Thr Glu Gln Glu Tyr Lys Glu Ile Phe Ile Thr

755 760 765

Pro His Gln Ile Lys His Ile Lys Asp Phe Lys Asp Tyr Lys Tyr Ser

770 775 780

His Arg Val Asp Lys Lys Pro Asn Arg Glu Leu Ile Asn Asp Thr Leu

785 790 795 800

Tyr Ser Thr Arg Lys Asp Asp Lys Gly Asn Thr Leu Ile Val Asn Asn

805 810 815

Leu Asn Gly Leu Tyr Asp Lys Asp Asn Asp Lys Leu Lys Lys Leu Ile

820 825 830

Asn Lys Ser Pro Glu Lys Leu Leu Met Tyr His His Asp Pro Gln Thr

835 840 845

Tyr Gln Lys Leu Lys Leu Ile Met Glu Gln Tyr Gly Asp Glu Lys Asn

850 855 860

Pro Leu Tyr Lys Tyr Tyr Glu Glu Thr Gly Asn Tyr Leu Thr Lys Tyr

865 870 875 880

Ser Lys Lys Asp Asn Gly Pro Val Ile Lys Lys Ile Lys Tyr Tyr Gly

885 890 895

Asn Lys Leu Asn Ala His Leu Asp Ile Thr Asp Asp Tyr Pro Asn Ser

900 905 910

Arg Asn Lys Val Val Lys Leu Ser Leu Lys Pro Tyr Arg Phe Asp Val

915 920 925

Tyr Leu Asp Asn Gly Val Tyr Lys Phe Val Thr Val Lys Asn Leu Asp

930 935 940

Val Ile Lys Lys Glu Asn Tyr Tyr Glu Val Asn Ser Lys Cys Tyr Glu

945 950 955 960

Glu Ala Lys Lys Leu Lys Lys Ile Ser Asn Gln Ala Glu Phe Ile Ala

965 970 975

Ser Phe Tyr Asn Asn Asp Leu Ile Lys Ile Asn Gly Glu Leu Tyr Arg

980 985 990

Val Ile Gly Val Asn Asn Asp Leu Leu Asn Arg Ile Glu Val Asn Met

995 1000 1005

Ile Asp Ile Thr Tyr Arg Glu Tyr Leu Glu Asn Met Asn Asp Lys

1010 1015 1020

Arg Pro Pro Arg Ile Ile Lys Thr Ile Ala Ser Lys Thr Gln Ser

1025 1030 1035

Ile Lys Lys Tyr Ser Thr Asp Ile Leu Gly Asn Leu Tyr Glu Val

1040 1045 1050

Lys Ser Lys Lys His Pro Gln Ile Ile Lys Lys Gly

1055 1060 1065

<210> 4

<211> 1065

<212> PRT

<213> 人工序列

<220>

<223> 合成多肽

<220>

<221> 尚未归类的特征

<222> (372)..(383)

<223> Xaa可以是任何天然存在的氨基酸

<400> 4

Met Lys Arg Asn Tyr Ile Leu Gly Leu Asp Ile Gly Ile Thr Ser Val

1 5 10 15

Gly Tyr Gly Ile Ile Asp Tyr Glu Thr Arg Asp Val Ile Asp Ala Gly

20 25 30

Val Arg Leu Phe Lys Glu Ala Asn Val Glu Asn Asn Glu Gly Arg Arg

35 40 45

Ser Lys Arg Gly Ala Arg Arg Leu Lys Arg Arg Arg Arg His Arg Ile

50 55 60

Gln Arg Val Lys Lys Leu Leu Phe Asp Tyr Asn Leu Leu Thr Asp His

65 70 75 80

Ser Glu Leu Ser Gly Ile Asn Pro Tyr Glu Ala Arg Val Lys Gly Leu

85 90 95

Ser Gln Lys Leu Ser Glu Glu Glu Phe Ser Ala Ala Leu Leu His Leu

100 105 110

Ala Lys Arg Arg Gly Val His Asn Val Asn Glu Val Glu Glu Asp Thr

115 120 125

Gly Asn Glu Leu Ser Thr Lys Glu Gln Ile Ser Arg Asn Ser Lys Ala

130 135 140

Leu Glu Glu Lys Tyr Val Ala Glu Leu Gln Leu Glu Arg Leu Lys Lys

145 150 155 160

Asp Gly Glu Val Arg Gly Ser Ile Asn Arg Phe Lys Thr Ser Asp Tyr

165 170 175

Val Lys Glu Ala Lys Gln Leu Leu Lys Val Gln Lys Ala Tyr His Gln

180 185 190

Leu Asp Gln Ser Phe Ile Asp Thr Tyr Ile Asp Leu Leu Glu Thr Arg

195 200 205

Arg Thr Tyr Tyr Glu Gly Pro Gly Glu Gly Ser Pro Phe Gly Trp Lys

210 215 220

Asp Ile Lys Glu Trp Tyr Glu Met Leu Met Gly His Cys Thr Tyr Phe

225 230 235 240

Pro Glu Glu Leu Arg Ser Val Lys Tyr Ala Tyr Asn Ala Asp Leu Tyr

245 250 255

Asn Ala Leu Asn Asp Leu Asn Asn Leu Val Ile Thr Arg Asp Glu Asn

260 265 270

Glu Lys Leu Glu Tyr Tyr Glu Lys Phe Gln Ile Ile Glu Asn Val Phe

275 280 285

Lys Gln Lys Lys Lys Pro Thr Leu Lys Gln Ile Ala Lys Glu Ile Leu

290 295 300

Val Asn Glu Glu Asp Ile Lys Gly Tyr Arg Val Thr Ser Thr Gly Lys

305 310 315 320

Pro Glu Phe Thr Asn Leu Lys Val Tyr His Asp Ile Lys Asp Ile Thr

325 330 335

Ala Arg Lys Glu Ile Ile Glu Asn Ala Glu Leu Leu Asp Gln Ile Ala

340 345 350

Lys Ile Leu Thr Ile Tyr Gln Ser Ser Glu Asp Ile Gln Glu Glu Leu

355 360 365

Thr Asn Leu Xaa Xaa Xaa Xaa Xaa Xaa Xaa Xaa Xaa Xaa Xaa Xaa Asn

370 375 380

Ser Glu Leu Thr Gln Glu Glu Ile Glu Gln Ile Ser Asn Leu Lys Gly

385 390 395 400

Tyr Thr Gly Thr His Asn Leu Ser Leu Lys Ala Ile Asn Leu Ile Leu

405 410 415

Asp Glu Leu Trp His Thr Asn Asp Asn Gln Ile Ala Ile Phe Asn Arg

420 425 430

Leu Lys Leu Val Pro Lys Lys Val Asp Leu Ser Gln Gln Lys Glu Ile

435 440 445

Pro Thr Thr Leu Val Asp Asp Phe Ile Leu Ser Pro Val Val Lys Arg

450 455 460

Ser Phe Ile Gln Ser Ile Lys Val Ile Asn Ala Ile Ile Lys Lys Tyr

465 470 475 480

Gly Leu Pro Asn Asp Ile Ile Ile Glu Leu Ala Arg Glu Lys Asn Ser

485 490 495

Lys Asp Ala Gln Lys Met Ile Asn Glu Met Gln Lys Arg Asn Arg Gln

500 505 510

Thr Asn Glu Arg Ile Glu Glu Ile Ile Arg Thr Thr Gly Lys Glu Asn

515 520 525

Ala Lys Tyr Leu Ile Glu Lys Ile Lys Leu His Asp Met Gln Glu Gly

530 535 540

Lys Cys Leu Tyr Ser Leu Glu Ala Ile Pro Leu Glu Asp Leu Leu Asn

545 550 555 560

Asn Pro Phe Asn Tyr Glu Val Asp His Ile Ile Pro Arg Ser Val Ser

565 570 575

Phe Asp Asn Ser Phe Asn Asn Lys Val Leu Val Lys Gln Glu Glu Asn

580 585 590

Ser Lys Lys Gly Asn Arg Thr Pro Phe Gln Tyr Leu Ser Ser Ser Asp

595 600 605

Ser Lys Ile Ser Tyr Glu Thr Phe Lys Lys His Ile Leu Asn Leu Ala

610 615 620

Lys Gly Lys Gly Arg Ile Ser Lys Thr Lys Lys Glu Tyr Leu Leu Glu

625 630 635 640

Glu Arg Asp Ile Asn Arg Phe Ser Val Gln Lys Asp Phe Ile Asn Arg

645 650 655

Asn Leu Val Asp Thr Arg Tyr Ala Thr Arg Gly Leu Met Asn Leu Leu

660 665 670

Arg Ser Tyr Phe Arg Val Asn Asn Leu Asp Val Lys Val Lys Ser Ile

675 680 685

Asn Gly Gly Phe Thr Ser Phe Leu Arg Arg Lys Trp Lys Phe Lys Lys

690 695 700

Glu Arg Asn Lys Gly Tyr Lys His His Ala Glu Asp Ala Leu Ile Ile

705 710 715 720

Ala Asn Ala Asp Phe Ile Phe Lys Glu Trp Lys Lys Leu Asp Lys Ala

725 730 735

Lys Lys Val Met Glu Asn Gln Met Phe Glu Glu Lys Gln Ala Glu Ser

740 745 750

Met Pro Glu Ile Glu Thr Glu Gln Glu Tyr Lys Glu Ile Phe Ile Thr

755 760 765

Pro His Gln Ile Lys His Ile Lys Asp Phe Lys Asp Tyr Lys Tyr Ser

770 775 780

His Arg Val Asp Lys Lys Pro Asn Arg Glu Leu Ile Asn Asp Thr Leu

785 790 795 800

Tyr Ser Thr Arg Lys Asp Asp Lys Gly Asn Thr Leu Ile Val Asn Asn

805 810 815

Leu Asn Gly Leu Tyr Asp Lys Asp Asn Asp Lys Leu Lys Lys Leu Ile

820 825 830

Asn Lys Ser Pro Glu Lys Leu Leu Met Tyr His His Asp Pro Gln Thr

835 840 845

Tyr Gln Lys Leu Lys Leu Ile Met Glu Gln Tyr Gly Asp Glu Lys Asn

850 855 860

Pro Leu Tyr Lys Tyr Tyr Glu Glu Thr Gly Asn Tyr Leu Thr Lys Tyr

865 870 875 880

Ser Lys Lys Asp Asn Gly Pro Val Ile Lys Lys Ile Lys Tyr Tyr Gly

885 890 895

Asn Lys Leu Asn Ala His Leu Asp Ile Thr Asp Asp Tyr Pro Asn Ser

900 905 910

Arg Asn Lys Val Val Lys Leu Ser Leu Lys Pro Tyr Arg Phe Asp Val

915 920 925

Tyr Leu Asp Asn Gly Val Tyr Lys Phe Val Thr Val Lys Asn Leu Asp

930 935 940

Val Ile Lys Lys Glu Asn Tyr Tyr Glu Val Asn Ser Lys Cys Tyr Glu

945 950 955 960

Glu Ala Lys Lys Leu Lys Lys Ile Ser Asn Gln Ala Glu Phe Ile Ala

965 970 975

Ser Phe Tyr Asn Asn Asp Leu Ile Lys Ile Asn Gly Glu Leu Tyr Arg

980 985 990

Val Ile Gly Val Asn Asn Asp Leu Leu Asn Arg Ile Glu Val Asn Met

995 1000 1005

Ile Asp Ile Thr Tyr Arg Glu Tyr Leu Glu Asn Met Asn Asp Lys

1010 1015 1020

Arg Pro Pro Arg Ile Ile Lys Thr Ile Ala Ser Lys Thr Gln Ser

1025 1030 1035

Ile Lys Lys Tyr Ser Thr Asp Ile Leu Gly Asn Leu Tyr Glu Val

1040 1045 1050

Lys Ser Lys Lys His Pro Gln Ile Ile Lys Lys Gly

1055 1060 1065

<210> 5

<211> 1065

<212> PRT

<213> 人工序列

<220>

<223> 合成多肽

<220>

<221> 尚未归类的特征

<222> (738)..(749)

<223> Xaa可以是任何天然存在的氨基酸

<400> 5

Met Lys Arg Asn Tyr Ile Leu Gly Leu Asp Ile Gly Ile Thr Ser Val

1 5 10 15

Gly Tyr Gly Ile Ile Asp Tyr Glu Thr Arg Asp Val Ile Asp Ala Gly

20 25 30

Val Arg Leu Phe Lys Glu Ala Asn Val Glu Asn Asn Glu Gly Arg Arg

35 40 45

Ser Lys Arg Gly Ala Arg Arg Leu Lys Arg Arg Arg Arg His Arg Ile

50 55 60

Gln Arg Val Lys Lys Leu Leu Phe Asp Tyr Asn Leu Leu Thr Asp His

65 70 75 80

Ser Glu Leu Ser Gly Ile Asn Pro Tyr Glu Ala Arg Val Lys Gly Leu

85 90 95

Ser Gln Lys Leu Ser Glu Glu Glu Phe Ser Ala Ala Leu Leu His Leu

100 105 110

Ala Lys Arg Arg Gly Val His Asn Val Asn Glu Val Glu Glu Asp Thr

115 120 125

Gly Asn Glu Leu Ser Thr Lys Glu Gln Ile Ser Arg Asn Ser Lys Ala

130 135 140

Leu Glu Glu Lys Tyr Val Ala Glu Leu Gln Leu Glu Arg Leu Lys Lys

145 150 155 160

Asp Gly Glu Val Arg Gly Ser Ile Asn Arg Phe Lys Thr Ser Asp Tyr

165 170 175

Val Lys Glu Ala Lys Gln Leu Leu Lys Val Gln Lys Ala Tyr His Gln

180 185 190

Leu Asp Gln Ser Phe Ile Asp Thr Tyr Ile Asp Leu Leu Glu Thr Arg

195 200 205

Arg Thr Tyr Tyr Glu Gly Pro Gly Glu Gly Ser Pro Phe Gly Trp Lys

210 215 220

Asp Ile Lys Glu Trp Tyr Glu Met Leu Met Gly His Cys Thr Tyr Phe

225 230 235 240

Pro Glu Glu Leu Arg Ser Val Lys Tyr Ala Tyr Asn Ala Asp Leu Tyr

245 250 255

Asn Ala Leu Asn Asp Leu Asn Asn Leu Val Ile Thr Arg Asp Glu Asn

260 265 270

Glu Lys Leu Glu Tyr Tyr Glu Lys Phe Gln Ile Ile Glu Asn Val Phe

275 280 285

Lys Gln Lys Lys Lys Pro Thr Leu Lys Gln Ile Ala Lys Glu Ile Leu

290 295 300

Val Asn Glu Glu Asp Ile Lys Gly Tyr Arg Val Thr Ser Thr Gly Lys

305 310 315 320

Pro Glu Phe Thr Asn Leu Lys Val Tyr His Asp Ile Lys Asp Ile Thr

325 330 335

Ala Arg Lys Glu Ile Ile Glu Asn Ala Glu Leu Leu Asp Gln Ile Ala

340 345 350

Lys Ile Leu Thr Ile Tyr Gln Ser Ser Glu Asp Ile Gln Glu Glu Leu

355 360 365

Thr Asn Leu Asn Ser Glu Leu Thr Gln Glu Glu Ile Glu Gln Ile Ser

370 375 380

Asn Leu Lys Gly Tyr Thr Gly Thr His Asn Leu Ser Leu Lys Ala Ile

385 390 395 400

Asn Leu Ile Leu Asp Glu Leu Trp His Thr Asn Asp Asn Gln Ile Ala

405 410 415

Ile Phe Asn Arg Leu Lys Leu Val Pro Lys Lys Val Asp Leu Ser Gln

420 425 430

Gln Lys Glu Ile Pro Thr Thr Leu Val Asp Asp Phe Ile Leu Ser Pro

435 440 445

Val Val Lys Arg Ser Phe Ile Gln Ser Ile Lys Val Ile Asn Ala Ile

450 455 460

Ile Lys Lys Tyr Gly Leu Pro Asn Asp Ile Ile Ile Glu Leu Ala Arg

465 470 475 480

Glu Lys Asn Ser Lys Asp Ala Gln Lys Met Ile Asn Glu Met Gln Lys

485 490 495

Arg Asn Arg Gln Thr Asn Glu Arg Ile Glu Glu Ile Ile Arg Thr Thr

500 505 510

Gly Lys Glu Asn Ala Lys Tyr Leu Ile Glu Lys Ile Lys Leu His Asp

515 520 525

Met Gln Glu Gly Lys Cys Leu Tyr Ser Leu Glu Ala Ile Pro Leu Glu

530 535 540

Asp Leu Leu Asn Asn Pro Phe Asn Tyr Glu Val Asp His Ile Ile Pro

545 550 555 560

Arg Ser Val Ser Phe Asp Asn Ser Phe Asn Asn Lys Val Leu Val Lys

565 570 575

Gln Glu Glu Asn Ser Lys Lys Gly Asn Arg Thr Pro Phe Gln Tyr Leu

580 585 590

Ser Ser Ser Asp Ser Lys Ile Ser Tyr Glu Thr Phe Lys Lys His Ile

595 600 605

Leu Asn Leu Ala Lys Gly Lys Gly Arg Ile Ser Lys Thr Lys Lys Glu

610 615 620

Tyr Leu Leu Glu Glu Arg Asp Ile Asn Arg Phe Ser Val Gln Lys Asp

625 630 635 640

Phe Ile Asn Arg Asn Leu Val Asp Thr Arg Tyr Ala Thr Arg Gly Leu

645 650 655

Met Asn Leu Leu Arg Ser Tyr Phe Arg Val Asn Asn Leu Asp Val Lys

660 665 670

Val Lys Ser Ile Asn Gly Gly Phe Thr Ser Phe Leu Arg Arg Lys Trp

675 680 685

Lys Phe Lys Lys Glu Arg Asn Lys Gly Tyr Lys His His Ala Glu Asp

690 695 700

Ala Leu Ile Ile Ala Asn Ala Asp Phe Ile Phe Lys Glu Trp Lys Lys

705 710 715 720

Leu Asp Lys Ala Lys Lys Val Met Glu Asn Gln Met Phe Glu Glu Lys

725 730 735

Gln Xaa Xaa Xaa Xaa Xaa Xaa Xaa Xaa Xaa Xaa Xaa Xaa Ala Glu Ser

740 745 750

Met Pro Glu Ile Glu Thr Glu Gln Glu Tyr Lys Glu Ile Phe Ile Thr

755 760 765

Pro His Gln Ile Lys His Ile Lys Asp Phe Lys Asp Tyr Lys Tyr Ser

770 775 780

His Arg Val Asp Lys Lys Pro Asn Arg Glu Leu Ile Asn Asp Thr Leu

785 790 795 800

Tyr Ser Thr Arg Lys Asp Asp Lys Gly Asn Thr Leu Ile Val Asn Asn

805 810 815

Leu Asn Gly Leu Tyr Asp Lys Asp Asn Asp Lys Leu Lys Lys Leu Ile

820 825 830

Asn Lys Ser Pro Glu Lys Leu Leu Met Tyr His His Asp Pro Gln Thr

835 840 845

Tyr Gln Lys Leu Lys Leu Ile Met Glu Gln Tyr Gly Asp Glu Lys Asn

850 855 860

Pro Leu Tyr Lys Tyr Tyr Glu Glu Thr Gly Asn Tyr Leu Thr Lys Tyr

865 870 875 880

Ser Lys Lys Asp Asn Gly Pro Val Ile Lys Lys Ile Lys Tyr Tyr Gly

885 890 895

Asn Lys Leu Asn Ala His Leu Asp Ile Thr Asp Asp Tyr Pro Asn Ser

900 905 910

Arg Asn Lys Val Val Lys Leu Ser Leu Lys Pro Tyr Arg Phe Asp Val

915 920 925

Tyr Leu Asp Asn Gly Val Tyr Lys Phe Val Thr Val Lys Asn Leu Asp

930 935 940

Val Ile Lys Lys Glu Asn Tyr Tyr Glu Val Asn Ser Lys Cys Tyr Glu

945 950 955 960

Glu Ala Lys Lys Leu Lys Lys Ile Ser Asn Gln Ala Glu Phe Ile Ala

965 970 975

Ser Phe Tyr Asn Asn Asp Leu Ile Lys Ile Asn Gly Glu Leu Tyr Arg

980 985 990

Val Ile Gly Val Asn Asn Asp Leu Leu Asn Arg Ile Glu Val Asn Met

995 1000 1005

Ile Asp Ile Thr Tyr Arg Glu Tyr Leu Glu Asn Met Asn Asp Lys

1010 1015 1020

Arg Pro Pro Arg Ile Ile Lys Thr Ile Ala Ser Lys Thr Gln Ser

1025 1030 1035

Ile Lys Lys Tyr Ser Thr Asp Ile Leu Gly Asn Leu Tyr Glu Val

1040 1045 1050

Lys Ser Lys Lys His Pro Gln Ile Ile Lys Lys Gly

1055 1060 1065

<210> 6

<211> 3159

<212> DNA

<213> 人工序列

<220>

<223> 合成核酸

<400> 6

atgaaaagga actacattct ggggctggac atcgggatta caagcgtggg gtatgggatt 60

attgactatg aaacaaggga cgtgatcgac gcaggcgtca gactgttcaa ggaggccaac 120

gtggaaaaca atgagggacg gagaagcaag aggggagcca ggcgcctgaa acgacggaga 180

aggcacagaa tccagagggt gaagaaactg ctgttcgatt acaacctgct gaccgaccat 240

tctgagctga gtggaattaa tccttatgaa gccagggtga aaggcctgag tcagaagctg 300

tcagaggaag agttttccgc agctctgctg cacctggcta agcgccgagg agtgcataac 360

gtcaatgagg tggaagagga caccggcaac gagctgtcta caaaggaaca gatctcacgc 420

aatagcaaag ctctggaaga gaagtatgtc gcagagctgc agctggaacg gctgaagaaa 480

gatggcgagg tgagagggtc aattaatagg ttcaagacaa gcgactacgt caaagaagcc 540

aagcagctgc tgaaagtgca gaaggcttac caccagctgg atcagagctt catcgatact 600

tatatcgacc tgctggagac tcggagaacc tactatgagg gaccaggaga agggagcccc 660

ttcggatgga aagacatcaa ggaatggtac gagatgctga tgggacattg cacctatttt 720

ccagaagagc tgagaagcgt caagtacgct tataacgcag atctgtacaa cgccctgaat 780

gacctgaaca acctggtcat caccagggat gaaaacgaga aactggaata ctatgagaag 840

ttccagatca tcgaaaacgt gtttaagcag aagaaaaagc ctacactgaa acagattgct 900

aaggagatcc tggtcaacga agaggacatc aagggctacc gggtgacaag cactggaaaa 960

ccagagttca ccaatctgaa agtgtatcac gatattaagg acatcacagc acggaaagaa 1020

atcattgaga acgccgaact gctggatcag attgctaaga tcctgactat ctaccagagc 1080

tccgaggaca tccaggaaga gctgactaac ctgaacagcg agctgaccca ggaagagatc 1140

gaacagatta gtaatctgaa ggggtacacc ggaacacaca acctgtccct gaaagctatc 1200

aatctgattc tggatgagct gtggcataca aacgacaatc agattgcaat ctttaaccgg 1260

ctgaagctgg tcccaaaaaa ggtggacctg agtcagcaga aagagatccc aaccacactg 1320

gtggacgatt tcattctgtc acccgtggtc aagcggagct tcatccagag catcaaagtg 1380

atcaacgcca tcatcaagaa gtacggcctg cccaatgata tcattatcga gctggctagg 1440

gagaagaaca gcaaggacgc acagaagatg atcaatgaga tgcagaaacg aaaccggcag 1500

accaatgaac gcattgaaga gattatccga actaccggga aagagaacgc aaagtacctg 1560

attgaaaaaa tcaagctgca cgatatgcag gagggaaagt gtctgtattc tctggaggcc 1620

atccccctgg aggacctgct gaacaatcca ttcaactacg aggtcgatca tattatcccc 1680

agaagcgtgt ccttcgacaa ttcctttaac aacaaggtgc tggtcaagca ggaagagaac 1740

tctaaaaagg gcaataggac tcctttccag tacctgtcta gttcagattc caagatctct 1800

tacgaaacct ttaaaaagca cattctgaat ctggccaaag gaaagggccg catcagcaag 1860

accaaaaagg agtacctgct ggaagagcgg gacatcaaca gattctccgt ccagaaggat 1920

tttattaacc ggaatctggt ggacacaaga tacgctactc gcggcctgat gaatctgctg 1980

cgatcctatt tccgggtgaa caatctggat gtgaaagtca agtccatcaa cggcgggttc 2040

acatcttttc tgaggcgcaa atggaagttt aaaaaggagc gcaacaaagg gtacaagcac 2100

catgccgaag atgctctgat tatcgcaaat gccgacttca tctttaagga gtggaaaaag 2160

ctggacaaag ccaagaaagt gatggagaac cagatgttcg aagagaagca ggccgaatct 2220

atgcccgaaa tcgagacaga acaggagtac aaggagattt tcatcactcc tcaccagatc 2280

aagcatatca aggatttcaa ggactacaag tactctcacc gggtggataa aaagcccaac 2340

agagagctga tcaatgacac cctgtatagt acaagaaaag acgataaggg gaataccctg 2400

attgtgaaca atctgaacgg actgtacgac aaagataatg acaagctgaa aaagctgatc 2460

aacaaaagtc ccgagaagct gctgatgtac caccatgatc ctcagacata tcagaaactg 2520

aagctgatta tggagcagta cggcgacgag aagaacccac tgtataagta ctatgaagag 2580

actgggaact acctgaccaa gtatagcaaa aaggataatg gccccgtgat caagaagatc 2640

aagtactatg ggaacaagct gaatgcccat ctggacatca cagacgatta ccctaacagt 2700

cgcaacaagg tggtcaagct gtcactgaag ccatacagat tcgatgtcta tctggacaac 2760

ggcgtgtata aatttgtgac tgtcaagaat ctggatgtca tcaaaaagga gaactactat 2820

gaagtgaata gcaagtgcta cgaagaggct aaaaagctga aaaagattag caaccaggca 2880

gagttcatcg cctcctttta caacaacgac ctgattaaga tcaatggcga actgtatagg 2940

gtcatcgggg tgaacaatga tctgctgaac cgcattgaag tgaatatgat tgacatcact 3000

taccgagagt atctggaaaa catgaatgat aagcgccccc ctcgaattat caaaacaatt 3060

gcctctaaga ctcagagtat caaaaagtac tcaaccgaca ttctgggaaa cctgtatgag 3120

gtgaagagca aaaagcaccc tcagattatc aaaaagggc 3159

<210> 7

<211> 3195

<212> DNA

<213> 人工序列

<220>

<223> 合成核酸

<220>

<221> 尚未归类的特征

<222> (814)..(849)

<223> n为a、c、g或t

<400> 7

atgaaaagga actacattct ggggctggac atcgggatta caagcgtggg gtatgggatt 60

attgactatg aaacaaggga cgtgatcgac gcaggcgtca gactgttcaa ggaggccaac 120

gtggaaaaca atgagggacg gagaagcaag aggggagcca ggcgcctgaa acgacggaga 180

aggcacagaa tccagagggt gaagaaactg ctgttcgatt acaacctgct gaccgaccat 240

tctgagctga gtggaattaa tccttatgaa gccagggtga aaggcctgag tcagaagctg 300

tcagaggaag agttttccgc agctctgctg cacctggcta agcgccgagg agtgcataac 360

gtcaatgagg tggaagagga caccggcaac gagctgtcta caaaggaaca gatctcacgc 420

aatagcaaag ctctggaaga gaagtatgtc gcagagctgc agctggaacg gctgaagaaa 480

gatggcgagg tgagagggtc aattaatagg ttcaagacaa gcgactacgt caaagaagcc 540

aagcagctgc tgaaagtgca gaaggcttac caccagctgg atcagagctt catcgatact 600

tatatcgacc tgctggagac tcggagaacc tactatgagg gaccaggaga agggagcccc 660

ttcggatgga aagacatcaa ggaatggtac gagatgctga tgggacattg cacctatttt 720

ccagaagagc tgagaagcgt caagtacgct tataacgcag atctgtacaa cgccctgaat 780

gacctgaaca acctggtcat caccagggat gaannnnnnn nnnnnnnnnn nnnnnnnnnn 840

nnnnnnnnna acgagaaact ggaatactat gagaagttcc agatcatcga aaacgtgttt 900

aagcagaaga aaaagcctac actgaaacag attgctaagg agatcctggt caacgaagag 960

gacatcaagg gctaccgggt gacaagcact ggaaaaccag agttcaccaa tctgaaagtg 1020

tatcacgata ttaaggacat cacagcacgg aaagaaatca ttgagaacgc cgaactgctg 1080

gatcagattg ctaagatcct gactatctac cagagctccg aggacatcca ggaagagctg 1140

actaacctga acagcgagct gacccaggaa gagatcgaac agattagtaa tctgaagggg 1200

tacaccggaa cacacaacct gtccctgaaa gctatcaatc tgattctgga tgagctgtgg 1260

catacaaacg acaatcagat tgcaatcttt aaccggctga agctggtccc aaaaaaggtg 1320

gacctgagtc agcagaaaga gatcccaacc acactggtgg acgatttcat tctgtcaccc 1380

gtggtcaagc ggagcttcat ccagagcatc aaagtgatca acgccatcat caagaagtac 1440

ggcctgccca atgatatcat tatcgagctg gctagggaga agaacagcaa ggacgcacag 1500

aagatgatca atgagatgca gaaacgaaac cggcagacca atgaacgcat tgaagagatt 1560

atccgaacta ccgggaaaga gaacgcaaag tacctgattg aaaaaatcaa gctgcacgat 1620

atgcaggagg gaaagtgtct gtattctctg gaggccatcc ccctggagga cctgctgaac 1680

aatccattca actacgaggt cgatcatatt atccccagaa gcgtgtcctt cgacaattcc 1740

tttaacaaca aggtgctggt caagcaggaa gagaactcta aaaagggcaa taggactcct 1800

ttccagtacc tgtctagttc agattccaag atctcttacg aaacctttaa aaagcacatt 1860

ctgaatctgg ccaaaggaaa gggccgcatc agcaagacca aaaaggagta cctgctggaa 1920

gagcgggaca tcaacagatt ctccgtccag aaggatttta ttaaccggaa tctggtggac 1980

acaagatacg ctactcgcgg cctgatgaat ctgctgcgat cctatttccg ggtgaacaat 2040

ctggatgtga aagtcaagtc catcaacggc gggttcacat cttttctgag gcgcaaatgg 2100

aagtttaaaa aggagcgcaa caaagggtac aagcaccatg ccgaagatgc tctgattatc 2160

gcaaatgccg acttcatctt taaggagtgg aaaaagctgg acaaagccaa gaaagtgatg 2220

gagaaccaga tgttcgaaga gaagcaggcc gaatctatgc ccgaaatcga gacagaacag 2280

gagtacaagg agattttcat cactcctcac cagatcaagc atatcaagga tttcaaggac 2340

tacaagtact ctcaccgggt ggataaaaag cccaacagag agctgatcaa tgacaccctg 2400

tatagtacaa gaaaagacga taaggggaat accctgattg tgaacaatct gaacggactg 2460

tacgacaaag ataatgacaa gctgaaaaag ctgatcaaca aaagtcccga gaagctgctg 2520

atgtaccacc atgatcctca gacatatcag aaactgaagc tgattatgga gcagtacggc 2580

gacgagaaga acccactgta taagtactat gaagagactg ggaactacct gaccaagtat 2640

agcaaaaagg ataatggccc cgtgatcaag aagatcaagt actatgggaa caagctgaat 2700

gcccatctgg acatcacaga cgattaccct aacagtcgca acaaggtggt caagctgtca 2760

ctgaagccat acagattcga tgtctatctg gacaacggcg tgtataaatt tgtgactgtc 2820

aagaatctgg atgtcatcaa aaaggagaac tactatgaag tgaatagcaa gtgctacgaa 2880

gaggctaaaa agctgaaaaa gattagcaac caggcagagt tcatcgcctc cttttacaac 2940

aacgacctga ttaagatcaa tggcgaactg tatagggtca tcggggtgaa caatgatctg 3000

ctgaaccgca ttgaagtgaa tatgattgac atcacttacc gagagtatct ggaaaacatg 3060

aatgataagc gcccccctcg aattatcaaa acaattgcct ctaagactca gagtatcaaa 3120

aagtactcaa ccgacattct gggaaacctg tatgaggtga agagcaaaaa gcaccctcag 3180

attatcaaaa agggc 3195

<210> 8

<211> 3195

<212> DNA

<213> 人工序列

<220>

<223> 合成核酸

<220>

<221> 尚未归类的特征

<222> (1114)..(1149)

<223> n为a、c、g或t

<400> 8

atgaaaagga actacattct ggggctggac atcgggatta caagcgtggg gtatgggatt 60

attgactatg aaacaaggga cgtgatcgac gcaggcgtca gactgttcaa ggaggccaac 120

gtggaaaaca atgagggacg gagaagcaag aggggagcca ggcgcctgaa acgacggaga 180

aggcacagaa tccagagggt gaagaaactg ctgttcgatt acaacctgct gaccgaccat 240

tctgagctga gtggaattaa tccttatgaa gccagggtga aaggcctgag tcagaagctg 300

tcagaggaag agttttccgc agctctgctg cacctggcta agcgccgagg agtgcataac 360

gtcaatgagg tggaagagga caccggcaac gagctgtcta caaaggaaca gatctcacgc 420

aatagcaaag ctctggaaga gaagtatgtc gcagagctgc agctggaacg gctgaagaaa 480

gatggcgagg tgagagggtc aattaatagg ttcaagacaa gcgactacgt caaagaagcc 540

aagcagctgc tgaaagtgca gaaggcttac caccagctgg atcagagctt catcgatact 600

tatatcgacc tgctggagac tcggagaacc tactatgagg gaccaggaga agggagcccc 660

ttcggatgga aagacatcaa ggaatggtac gagatgctga tgggacattg cacctatttt 720

ccagaagagc tgagaagcgt caagtacgct tataacgcag atctgtacaa cgccctgaat 780

gacctgaaca acctggtcat caccagggat gaaaacgaga aactggaata ctatgagaag 840

ttccagatca tcgaaaacgt gtttaagcag aagaaaaagc ctacactgaa acagattgct 900

aaggagatcc tggtcaacga agaggacatc aagggctacc gggtgacaag cactggaaaa 960

ccagagttca ccaatctgaa agtgtatcac gatattaagg acatcacagc acggaaagaa 1020

atcattgaga acgccgaact gctggatcag attgctaaga tcctgactat ctaccagagc 1080

tccgaggaca tccaggaaga gctgactaac ctgnnnnnnn nnnnnnnnnn nnnnnnnnnn 1140

nnnnnnnnna acagcgagct gacccaggaa gagatcgaac agattagtaa tctgaagggg 1200

tacaccggaa cacacaacct gtccctgaaa gctatcaatc tgattctgga tgagctgtgg 1260

catacaaacg acaatcagat tgcaatcttt aaccggctga agctggtccc aaaaaaggtg 1320

gacctgagtc agcagaaaga gatcccaacc acactggtgg acgatttcat tctgtcaccc 1380

gtggtcaagc ggagcttcat ccagagcatc aaagtgatca acgccatcat caagaagtac 1440

ggcctgccca atgatatcat tatcgagctg gctagggaga agaacagcaa ggacgcacag 1500

aagatgatca atgagatgca gaaacgaaac cggcagacca atgaacgcat tgaagagatt 1560

atccgaacta ccgggaaaga gaacgcaaag tacctgattg aaaaaatcaa gctgcacgat 1620

atgcaggagg gaaagtgtct gtattctctg gaggccatcc ccctggagga cctgctgaac 1680

aatccattca actacgaggt cgatcatatt atccccagaa gcgtgtcctt cgacaattcc 1740

tttaacaaca aggtgctggt caagcaggaa gagaactcta aaaagggcaa taggactcct 1800

ttccagtacc tgtctagttc agattccaag atctcttacg aaacctttaa aaagcacatt 1860

ctgaatctgg ccaaaggaaa gggccgcatc agcaagacca aaaaggagta cctgctggaa 1920

gagcgggaca tcaacagatt ctccgtccag aaggatttta ttaaccggaa tctggtggac 1980

acaagatacg ctactcgcgg cctgatgaat ctgctgcgat cctatttccg ggtgaacaat 2040

ctggatgtga aagtcaagtc catcaacggc gggttcacat cttttctgag gcgcaaatgg 2100

aagtttaaaa aggagcgcaa caaagggtac aagcaccatg ccgaagatgc tctgattatc 2160

gcaaatgccg acttcatctt taaggagtgg aaaaagctgg acaaagccaa gaaagtgatg 2220

gagaaccaga tgttcgaaga gaagcaggcc gaatctatgc ccgaaatcga gacagaacag 2280

gagtacaagg agattttcat cactcctcac cagatcaagc atatcaagga tttcaaggac 2340

tacaagtact ctcaccgggt ggataaaaag cccaacagag agctgatcaa tgacaccctg 2400

tatagtacaa gaaaagacga taaggggaat accctgattg tgaacaatct gaacggactg 2460

tacgacaaag ataatgacaa gctgaaaaag ctgatcaaca aaagtcccga gaagctgctg 2520

atgtaccacc atgatcctca gacatatcag aaactgaagc tgattatgga gcagtacggc 2580

gacgagaaga acccactgta taagtactat gaagagactg ggaactacct gaccaagtat 2640

agcaaaaagg ataatggccc cgtgatcaag aagatcaagt actatgggaa caagctgaat 2700

gcccatctgg acatcacaga cgattaccct aacagtcgca acaaggtggt caagctgtca 2760

ctgaagccat acagattcga tgtctatctg gacaacggcg tgtataaatt tgtgactgtc 2820

aagaatctgg atgtcatcaa aaaggagaac tactatgaag tgaatagcaa gtgctacgaa 2880

gaggctaaaa agctgaaaaa gattagcaac caggcagagt tcatcgcctc cttttacaac 2940

aacgacctga ttaagatcaa tggcgaactg tatagggtca tcggggtgaa caatgatctg 3000

ctgaaccgca ttgaagtgaa tatgattgac atcacttacc gagagtatct ggaaaacatg 3060

aatgataagc gcccccctcg aattatcaaa acaattgcct ctaagactca gagtatcaaa 3120

aagtactcaa ccgacattct gggaaacctg tatgaggtga agagcaaaaa gcaccctcag 3180

attatcaaaa agggc 3195

<210> 9

<211> 3195

<212> DNA

<213> 人工序列

<220>

<223> 合成核酸

<220>

<221> 尚未归类的特征

<222> (2212)..(2247)

<223> n为a、c、g或t

<400> 9

atgaaaagga actacattct ggggctggac atcgggatta caagcgtggg gtatgggatt 60

attgactatg aaacaaggga cgtgatcgac gcaggcgtca gactgttcaa ggaggccaac 120

gtggaaaaca atgagggacg gagaagcaag aggggagcca ggcgcctgaa acgacggaga 180

aggcacagaa tccagagggt gaagaaactg ctgttcgatt acaacctgct gaccgaccat 240

tctgagctga gtggaattaa tccttatgaa gccagggtga aaggcctgag tcagaagctg 300

tcagaggaag agttttccgc agctctgctg cacctggcta agcgccgagg agtgcataac 360

gtcaatgagg tggaagagga caccggcaac gagctgtcta caaaggaaca gatctcacgc 420

aatagcaaag ctctggaaga gaagtatgtc gcagagctgc agctggaacg gctgaagaaa 480

gatggcgagg tgagagggtc aattaatagg ttcaagacaa gcgactacgt caaagaagcc 540

aagcagctgc tgaaagtgca gaaggcttac caccagctgg atcagagctt catcgatact 600

tatatcgacc tgctggagac tcggagaacc tactatgagg gaccaggaga agggagcccc 660

ttcggatgga aagacatcaa ggaatggtac gagatgctga tgggacattg cacctatttt 720

ccagaagagc tgagaagcgt caagtacgct tataacgcag atctgtacaa cgccctgaat 780

gacctgaaca acctggtcat caccagggat gaaaacgaga aactggaata ctatgagaag 840

ttccagatca tcgaaaacgt gtttaagcag aagaaaaagc ctacactgaa acagattgct 900

aaggagatcc tggtcaacga agaggacatc aagggctacc gggtgacaag cactggaaaa 960

ccagagttca ccaatctgaa agtgtatcac gatattaagg acatcacagc acggaaagaa 1020

atcattgaga acgccgaact gctggatcag attgctaaga tcctgactat ctaccagagc 1080

tccgaggaca tccaggaaga gctgactaac ctgaacagcg agctgaccca ggaagagatc 1140

gaacagatta gtaatctgaa ggggtacacc ggaacacaca acctgtccct gaaagctatc 1200

aatctgattc tggatgagct gtggcataca aacgacaatc agattgcaat ctttaaccgg 1260

ctgaagctgg tcccaaaaaa ggtggacctg agtcagcaga aagagatccc aaccacactg 1320

gtggacgatt tcattctgtc acccgtggtc aagcggagct tcatccagag catcaaagtg 1380

atcaacgcca tcatcaagaa gtacggcctg cccaatgata tcattatcga gctggctagg 1440

gagaagaaca gcaaggacgc acagaagatg atcaatgaga tgcagaaacg aaaccggcag 1500

accaatgaac gcattgaaga gattatccga actaccggga aagagaacgc aaagtacctg 1560

attgaaaaaa tcaagctgca cgatatgcag gagggaaagt gtctgtattc tctggaggcc 1620

atccccctgg aggacctgct gaacaatcca ttcaactacg aggtcgatca tattatcccc 1680

agaagcgtgt ccttcgacaa ttcctttaac aacaaggtgc tggtcaagca ggaagagaac 1740

tctaaaaagg gcaataggac tcctttccag tacctgtcta gttcagattc caagatctct 1800

tacgaaacct ttaaaaagca cattctgaat ctggccaaag gaaagggccg catcagcaag 1860

accaaaaagg agtacctgct ggaagagcgg gacatcaaca gattctccgt ccagaaggat 1920

tttattaacc ggaatctggt ggacacaaga tacgctactc gcggcctgat gaatctgctg 1980

cgatcctatt tccgggtgaa caatctggat gtgaaagtca agtccatcaa cggcgggttc 2040

acatcttttc tgaggcgcaa atggaagttt aaaaaggagc gcaacaaagg gtacaagcac 2100

catgccgaag atgctctgat tatcgcaaat gccgacttca tctttaagga gtggaaaaag 2160

ctggacaaag ccaagaaagt gatggagaac cagatgttcg aagagaagca gnnnnnnnnn 2220

nnnnnnnnnn nnnnnnnnnn nnnnnnngcc gaatctatgc ccgaaatcga gacagaacag 2280

gagtacaagg agattttcat cactcctcac cagatcaagc atatcaagga tttcaaggac 2340

tacaagtact ctcaccgggt ggataaaaag cccaacagag agctgatcaa tgacaccctg 2400

tatagtacaa gaaaagacga taaggggaat accctgattg tgaacaatct gaacggactg 2460

tacgacaaag ataatgacaa gctgaaaaag ctgatcaaca aaagtcccga gaagctgctg 2520

atgtaccacc atgatcctca gacatatcag aaactgaagc tgattatgga gcagtacggc 2580

gacgagaaga acccactgta taagtactat gaagagactg ggaactacct gaccaagtat 2640

agcaaaaagg ataatggccc cgtgatcaag aagatcaagt actatgggaa caagctgaat 2700

gcccatctgg acatcacaga cgattaccct aacagtcgca acaaggtggt caagctgtca 2760

ctgaagccat acagattcga tgtctatctg gacaacggcg tgtataaatt tgtgactgtc 2820

aagaatctgg atgtcatcaa aaaggagaac tactatgaag tgaatagcaa gtgctacgaa 2880

gaggctaaaa agctgaaaaa gattagcaac caggcagagt tcatcgcctc cttttacaac 2940

aacgacctga ttaagatcaa tggcgaactg tatagggtca tcggggtgaa caatgatctg 3000

ctgaaccgca ttgaagtgaa tatgattgac atcacttacc gagagtatct ggaaaacatg 3060

aatgataagc gcccccctcg aattatcaaa acaattgcct ctaagactca gagtatcaaa 3120

aagtactcaa ccgacattct gggaaacctg tatgaggtga agagcaaaaa gcaccctcag 3180

attatcaaaa agggc 3195

<210> 10

<211> 1075

<212> PRT

<213> 人工序列

<220>

<223> 合成多肽

<220>

<221> 尚未归类的特征

<222> (13)..(22)

<223> Xaa可以是任何天然存在的氨基酸

<400> 10

Met Gly Pro Lys Lys Lys Arg Lys Val Glu Ala Ser Xaa Xaa Xaa Xaa

1 5 10 15

Xaa Xaa Xaa Xaa Xaa Xaa Met Lys Arg Asn Tyr Ile Leu Gly Leu Asp

20 25 30

Ile Gly Ile Thr Ser Val Gly Tyr Gly Ile Ile Asp Tyr Glu Thr Arg

35 40 45

Asp Val Ile Asp Ala Gly Val Arg Leu Phe Lys Glu Ala Asn Val Glu

50 55 60

Asn Asn Glu Gly Arg Arg Ser Lys Arg Gly Ala Arg Arg Leu Lys Arg

65 70 75 80

Arg Arg Arg His Arg Ile Gln Arg Val Lys Lys Leu Leu Phe Asp Tyr

85 90 95

Asn Leu Leu Thr Asp His Ser Glu Leu Ser Gly Ile Asn Pro Tyr Glu

100 105 110

Ala Arg Val Lys Gly Leu Ser Gln Lys Leu Ser Glu Glu Glu Phe Ser

115 120 125

Ala Ala Leu Leu His Leu Ala Lys Arg Arg Gly Val His Asn Val Asn

130 135 140

Glu Val Glu Glu Asp Thr Gly Asn Glu Leu Ser Thr Lys Glu Gln Ile

145 150 155 160

Ser Arg Asn Ser Lys Ala Leu Glu Glu Lys Tyr Val Ala Glu Leu Gln

165 170 175

Leu Glu Arg Leu Lys Lys Asp Gly Glu Val Arg Gly Ser Ile Asn Arg

180 185 190

Phe Lys Thr Ser Asp Tyr Val Lys Glu Ala Lys Gln Leu Leu Lys Val

195 200 205

Gln Lys Ala Tyr His Gln Leu Asp Gln Ser Phe Ile Asp Thr Tyr Ile

210 215 220

Asp Leu Leu Glu Thr Arg Arg Thr Tyr Tyr Glu Gly Pro Gly Glu Gly

225 230 235 240

Ser Pro Phe Gly Trp Lys Asp Ile Lys Glu Trp Tyr Glu Met Leu Met

245 250 255

Gly His Cys Thr Tyr Phe Pro Glu Glu Leu Arg Ser Val Lys Tyr Ala

260 265 270

Tyr Asn Ala Asp Leu Tyr Asn Ala Leu Asn Asp Leu Asn Asn Leu Val

275 280 285

Ile Thr Arg Asp Glu Asn Glu Lys Leu Glu Tyr Tyr Glu Lys Phe Gln

290 295 300

Ile Ile Glu Asn Val Phe Lys Gln Lys Lys Lys Pro Thr Leu Lys Gln

305 310 315 320

Ile Ala Lys Glu Ile Leu Val Asn Glu Glu Asp Ile Lys Gly Tyr Arg

325 330 335

Val Thr Ser Thr Gly Lys Pro Glu Phe Thr Asn Leu Lys Val Tyr His

340 345 350

Asp Ile Lys Asp Ile Thr Ala Arg Lys Glu Ile Ile Glu Asn Ala Glu

355 360 365

Leu Leu Asp Gln Ile Ala Lys Ile Leu Thr Ile Tyr Gln Ser Ser Glu

370 375 380

Asp Ile Gln Glu Glu Leu Thr Asn Leu Asn Ser Glu Leu Thr Gln Glu

385 390 395 400

Glu Ile Glu Gln Ile Ser Asn Leu Lys Gly Tyr Thr Gly Thr His Asn

405 410 415

Leu Ser Leu Lys Ala Ile Asn Leu Ile Leu Asp Glu Leu Trp His Thr

420 425 430

Asn Asp Asn Gln Ile Ala Ile Phe Asn Arg Leu Lys Leu Val Pro Lys

435 440 445

Lys Val Asp Leu Ser Gln Gln Lys Glu Ile Pro Thr Thr Leu Val Asp

450 455 460

Asp Phe Ile Leu Ser Pro Val Val Lys Arg Ser Phe Ile Gln Ser Ile

465 470 475 480

Lys Val Ile Asn Ala Ile Ile Lys Lys Tyr Gly Leu Pro Asn Asp Ile

485 490 495

Ile Ile Glu Leu Ala Arg Glu Lys Asn Ser Lys Asp Ala Gln Lys Met

500 505 510

Ile Asn Glu Met Gln Lys Arg Asn Arg Gln Thr Asn Glu Arg Ile Glu

515 520 525

Glu Ile Ile Arg Thr Thr Gly Lys Glu Asn Ala Lys Tyr Leu Ile Glu

530 535 540

Lys Ile Lys Leu His Asp Met Gln Glu Gly Lys Cys Leu Tyr Ser Leu

545 550 555 560

Glu Ala Ile Pro Leu Glu Asp Leu Leu Asn Asn Pro Phe Asn Tyr Glu

565 570 575

Val Asp His Ile Ile Pro Arg Ser Val Ser Phe Asp Asn Ser Phe Asn

580 585 590

Asn Lys Val Leu Val Lys Gln Glu Glu Asn Ser Lys Lys Gly Asn Arg

595 600 605

Thr Pro Phe Gln Tyr Leu Ser Ser Ser Asp Ser Lys Ile Ser Tyr Glu

610 615 620

Thr Phe Lys Lys His Ile Leu Asn Leu Ala Lys Gly Lys Gly Arg Ile

625 630 635 640

Ser Lys Thr Lys Lys Glu Tyr Leu Leu Glu Glu Arg Asp Ile Asn Arg

645 650 655

Phe Ser Val Gln Lys Asp Phe Ile Asn Arg Asn Leu Val Asp Thr Arg

660 665 670

Tyr Ala Thr Arg Gly Leu Met Asn Leu Leu Arg Ser Tyr Phe Arg Val

675 680 685

Asn Asn Leu Asp Val Lys Val Lys Ser Ile Asn Gly Gly Phe Thr Ser

690 695 700

Phe Leu Arg Arg Lys Trp Lys Phe Lys Lys Glu Arg Asn Lys Gly Tyr

705 710 715 720

Lys His His Ala Glu Asp Ala Leu Ile Ile Ala Asn Ala Asp Phe Ile

725 730 735

Phe Lys Glu Trp Lys Lys Leu Asp Lys Ala Lys Lys Val Met Glu Asn

740 745 750

Gln Met Phe Glu Glu Lys Gln Ala Glu Ser Met Pro Glu Ile Glu Thr

755 760 765

Glu Gln Glu Tyr Lys Glu Ile Phe Ile Thr Pro His Gln Ile Lys His

770 775 780

Ile Lys Asp Phe Lys Asp Tyr Lys Tyr Ser His Arg Val Asp Lys Lys

785 790 795 800

Pro Asn Arg Glu Leu Ile Asn Asp Thr Leu Tyr Ser Thr Arg Lys Asp

805 810 815

Asp Lys Gly Asn Thr Leu Ile Val Asn Asn Leu Asn Gly Leu Tyr Asp

820 825 830

Lys Asp Asn Asp Lys Leu Lys Lys Leu Ile Asn Lys Ser Pro Glu Lys

835 840 845

Leu Leu Met Tyr His His Asp Pro Gln Thr Tyr Gln Lys Leu Lys Leu

850 855 860

Ile Met Glu Gln Tyr Gly Asp Glu Lys Asn Pro Leu Tyr Lys Tyr Tyr

865 870 875 880

Glu Glu Thr Gly Asn Tyr Leu Thr Lys Tyr Ser Lys Lys Asp Asn Gly

885 890 895

Pro Val Ile Lys Lys Ile Lys Tyr Tyr Gly Asn Lys Leu Asn Ala His

900 905 910

Leu Asp Ile Thr Asp Asp Tyr Pro Asn Ser Arg Asn Lys Val Val Lys

915 920 925

Leu Ser Leu Lys Pro Tyr Arg Phe Asp Val Tyr Leu Asp Asn Gly Val

930 935 940

Tyr Lys Phe Val Thr Val Lys Asn Leu Asp Val Ile Lys Lys Glu Asn

945 950 955 960

Tyr Tyr Glu Val Asn Ser Lys Cys Tyr Glu Glu Ala Lys Lys Leu Lys

965 970 975

Lys Ile Ser Asn Gln Ala Glu Phe Ile Ala Ser Phe Tyr Asn Asn Asp

980 985 990

Leu Ile Lys Ile Asn Gly Glu Leu Tyr Arg Val Ile Gly Val Asn Asn

995 1000 1005

Asp Leu Leu Asn Arg Ile Glu Val Asn Met Ile Asp Ile Thr Tyr

1010 1015 1020

Arg Glu Tyr Leu Glu Asn Met Asn Asp Lys Arg Pro Pro Arg Ile

1025 1030 1035

Ile Lys Thr Ile Ala Ser Lys Thr Gln Ser Ile Lys Lys Tyr Ser

1040 1045 1050

Thr Asp Ile Leu Gly Asn Leu Tyr Glu Val Lys Ser Lys Lys His

1055 1060 1065

Pro Gln Ile Ile Lys Lys Gly

1070 1075

<210> 11

<211> 3225

<212> DNA

<213> 人工序列

<220>

<223> 合成核酸

<220>

<221> 尚未归类的特征

<222> (37)..(66)

<223> n为a、c、g或t

<400> 11

atgggaccga agaaaaagcg caaggtcgaa gcgtccnnnn nnnnnnnnnn nnnnnnnnnn 60

nnnnnnatga aaaggaacta cattctgggg ctggacatcg ggattacaag cgtggggtat 120

gggattattg actatgaaac aagggacgtg atcgacgcag gcgtcagact gttcaaggag 180

gccaacgtgg aaaacaatga gggacggaga agcaagaggg gagccaggcg cctgaaacga 240

cggagaaggc acagaatcca gagggtgaag aaactgctgt tcgattacaa cctgctgacc 300

gaccattctg agctgagtgg aattaatcct tatgaagcca gggtgaaagg cctgagtcag 360

aagctgtcag aggaagagtt ttccgcagct ctgctgcacc tggctaagcg ccgaggagtg 420

cataacgtca atgaggtgga agaggacacc ggcaacgagc tgtctacaaa ggaacagatc 480

tcacgcaata gcaaagctct ggaagagaag tatgtcgcag agctgcagct ggaacggctg 540

aagaaagatg gcgaggtgag agggtcaatt aataggttca agacaagcga ctacgtcaaa 600

gaagccaagc agctgctgaa agtgcagaag gcttaccacc agctggatca gagcttcatc 660

gatacttata tcgacctgct ggagactcgg agaacctact atgagggacc aggagaaggg 720

agccccttcg gatggaaaga catcaaggaa tggtacgaga tgctgatggg acattgcacc 780

tattttccag aagagctgag aagcgtcaag tacgcttata acgcagatct gtacaacgcc 840

ctgaatgacc tgaacaacct ggtcatcacc agggatgaaa acgagaaact ggaatactat 900

gagaagttcc agatcatcga aaacgtgttt aagcagaaga aaaagcctac actgaaacag 960

attgctaagg agatcctggt caacgaagag gacatcaagg gctaccgggt gacaagcact 1020

ggaaaaccag agttcaccaa tctgaaagtg tatcacgata ttaaggacat cacagcacgg 1080

aaagaaatca ttgagaacgc cgaactgctg gatcagattg ctaagatcct gactatctac 1140

cagagctccg aggacatcca ggaagagctg actaacctga acagcgagct gacccaggaa 1200

gagatcgaac agattagtaa tctgaagggg tacaccggaa cacacaacct gtccctgaaa 1260

gctatcaatc tgattctgga tgagctgtgg catacaaacg acaatcagat tgcaatcttt 1320

aaccggctga agctggtccc aaaaaaggtg gacctgagtc agcagaaaga gatcccaacc 1380

acactggtgg acgatttcat tctgtcaccc gtggtcaagc ggagcttcat ccagagcatc 1440

aaagtgatca acgccatcat caagaagtac ggcctgccca atgatatcat tatcgagctg 1500

gctagggaga agaacagcaa ggacgcacag aagatgatca atgagatgca gaaacgaaac 1560

cggcagacca atgaacgcat tgaagagatt atccgaacta ccgggaaaga gaacgcaaag 1620

tacctgattg aaaaaatcaa gctgcacgat atgcaggagg gaaagtgtct gtattctctg 1680

gaggccatcc ccctggagga cctgctgaac aatccattca actacgaggt cgatcatatt 1740

atccccagaa gcgtgtcctt cgacaattcc tttaacaaca aggtgctggt caagcaggaa 1800

gagaactcta aaaagggcaa taggactcct ttccagtacc tgtctagttc agattccaag 1860

atctcttacg aaacctttaa aaagcacatt ctgaatctgg ccaaaggaaa gggccgcatc 1920

agcaagacca aaaaggagta cctgctggaa gagcgggaca tcaacagatt ctccgtccag 1980

aaggatttta ttaaccggaa tctggtggac acaagatacg ctactcgcgg cctgatgaat 2040

ctgctgcgat cctatttccg ggtgaacaat ctggatgtga aagtcaagtc catcaacggc 2100

gggttcacat cttttctgag gcgcaaatgg aagtttaaaa aggagcgcaa caaagggtac 2160

aagcaccatg ccgaagatgc tctgattatc gcaaatgccg acttcatctt taaggagtgg 2220

aaaaagctgg acaaagccaa gaaagtgatg gagaaccaga tgttcgaaga gaagcaggcc 2280

gaatctatgc ccgaaatcga gacagaacag gagtacaagg agattttcat cactcctcac 2340

cagatcaagc atatcaagga tttcaaggac tacaagtact ctcaccgggt ggataaaaag 2400

cccaacagag agctgatcaa tgacaccctg tatagtacaa gaaaagacga taaggggaat 2460

accctgattg tgaacaatct gaacggactg tacgacaaag ataatgacaa gctgaaaaag 2520

ctgatcaaca aaagtcccga gaagctgctg atgtaccacc atgatcctca gacatatcag 2580

aaactgaagc tgattatgga gcagtacggc gacgagaaga acccactgta taagtactat 2640

gaagagactg ggaactacct gaccaagtat agcaaaaagg ataatggccc cgtgatcaag 2700

aagatcaagt actatgggaa caagctgaat gcccatctgg acatcacaga cgattaccct 2760

aacagtcgca acaaggtggt caagctgtca ctgaagccat acagattcga tgtctatctg 2820

gacaacggcg tgtataaatt tgtgactgtc aagaatctgg atgtcatcaa aaaggagaac 2880

tactatgaag tgaatagcaa gtgctacgaa gaggctaaaa agctgaaaaa gattagcaac 2940

caggcagagt tcatcgcctc cttttacaac aacgacctga ttaagatcaa tggcgaactg 3000

tatagggtca tcggggtgaa caatgatctg ctgaaccgca ttgaagtgaa tatgattgac 3060

atcacttacc gagagtatct ggaaaacatg aatgataagc gcccccctcg aattatcaaa 3120

acaattgcct ctaagactca gagtatcaaa aagtactcaa ccgacattct gggaaacctg 3180

tatgaggtga agagcaaaaa gcaccctcag attatcaaaa agggc 3225

<210> 12

<211> 11

<212> PRT

<213> 人工序列

<220>

<223> 合成多肽

<400> 12

Gly Pro Lys Lys Lys Arg Lys Val Glu Ala Ser

1 5 10

<210> 13

<211> 1307

<212> PRT

<213> 人工序列

<220>

<223> 合成多肽

<400> 13

Met Thr Gln Phe Glu Gly Phe Thr Asn Leu Tyr Gln Val Ser Lys Thr

1 5 10 15

Leu Arg Phe Glu Leu Ile Pro Gln Gly Lys Thr Leu Lys His Ile Gln

20 25 30

Glu Gln Gly Phe Ile Glu Glu Asp Lys Ala Arg Asn Asp His Tyr Lys

35 40 45

Glu Leu Lys Pro Ile Ile Asp Arg Ile Tyr Lys Thr Tyr Ala Asp Gln

50 55 60

Cys Leu Gln Leu Val Gln Leu Asp Trp Glu Asn Leu Ser Ala Ala Ile

65 70 75 80

Asp Ser Tyr Arg Lys Glu Lys Thr Glu Glu Thr Arg Asn Ala Leu Ile

85 90 95

Glu Glu Gln Ala Thr Tyr Arg Asn Ala Ile His Asp Tyr Phe Ile Gly

100 105 110

Arg Thr Asp Asn Leu Thr Asp Ala Ile Asn Lys Arg His Ala Glu Ile

115 120 125

Tyr Lys Gly Leu Phe Lys Ala Glu Leu Phe Asn Gly Lys Val Leu Lys

130 135 140

Gln Leu Gly Thr Val Thr Thr Thr Glu His Glu Asn Ala Leu Leu Arg

145 150 155 160

Ser Phe Asp Lys Phe Thr Thr Tyr Phe Ser Gly Phe Tyr Glu Asn Arg

165 170 175

Lys Asn Val Phe Ser Ala Glu Asp Ile Ser Thr Ala Ile Pro His Arg

180 185 190

Ile Val Gln Asp Asn Phe Pro Lys Phe Lys Glu Asn Cys His Ile Phe

195 200 205

Thr Arg Leu Ile Thr Ala Val Pro Ser Leu Arg Glu His Phe Glu Asn

210 215 220

Val Lys Lys Ala Ile Gly Ile Phe Val Ser Thr Ser Ile Glu Glu Val

225 230 235 240

Phe Ser Phe Pro Phe Tyr Asn Gln Leu Leu Thr Gln Thr Gln Ile Asp

245 250 255

Leu Tyr Asn Gln Leu Leu Gly Gly Ile Ser Arg Glu Ala Gly Thr Glu

260 265 270

Lys Ile Lys Gly Leu Asn Glu Val Leu Asn Leu Ala Ile Gln Lys Asn

275 280 285

Asp Glu Thr Ala His Ile Ile Ala Ser Leu Pro His Arg Phe Ile Pro

290 295 300

Leu Phe Lys Gln Ile Leu Ser Asp Arg Asn Thr Leu Ser Phe Ile Leu

305 310 315 320

Glu Glu Phe Lys Ser Asp Glu Glu Val Ile Gln Ser Phe Cys Lys Tyr

325 330 335

Lys Thr Leu Leu Arg Asn Glu Asn Val Leu Glu Thr Ala Glu Ala Leu

340 345 350

Phe Asn Glu Leu Asn Ser Ile Asp Leu Thr His Ile Phe Ile Ser His

355 360 365

Lys Lys Leu Glu Thr Ile Ser Ser Ala Leu Cys Asp His Trp Asp Thr

370 375 380

Leu Arg Asn Ala Leu Tyr Glu Arg Arg Ile Ser Glu Leu Thr Gly Lys

385 390 395 400

Ile Thr Lys Ser Ala Lys Glu Lys Val Gln Arg Ser Leu Lys His Glu

405 410 415

Asp Ile Asn Leu Gln Glu Ile Ile Ser Ala Ala Gly Lys Glu Leu Ser

420 425 430

Glu Ala Phe Lys Gln Lys Thr Ser Glu Ile Leu Ser His Ala His Ala

435 440 445

Ala Leu Asp Gln Pro Leu Pro Thr Thr Leu Lys Lys Gln Glu Glu Lys

450 455 460

Glu Ile Leu Lys Ser Gln Leu Asp Ser Leu Leu Gly Leu Tyr His Leu

465 470 475 480

Leu Asp Trp Phe Ala Val Asp Glu Ser Asn Glu Val Asp Pro Glu Phe

485 490 495

Ser Ala Arg Leu Thr Gly Ile Lys Leu Glu Met Glu Pro Ser Leu Ser

500 505 510

Phe Tyr Asn Lys Ala Arg Asn Tyr Ala Thr Lys Lys Pro Tyr Ser Val

515 520 525

Glu Lys Phe Lys Leu Asn Phe Gln Met Pro Thr Leu Ala Ser Gly Trp

530 535 540

Asp Val Asn Lys Glu Lys Asn Asn Gly Ala Ile Leu Phe Val Lys Asn

545 550 555 560

Gly Leu Tyr Tyr Leu Gly Ile Met Pro Lys Gln Lys Gly Arg Tyr Lys

565 570 575

Ala Leu Ser Phe Glu Pro Thr Glu Lys Thr Ser Glu Gly Phe Asp Lys

580 585 590

Met Tyr Tyr Asp Tyr Phe Pro Asp Ala Ala Lys Met Ile Pro Lys Cys

595 600 605

Ser Thr Gln Leu Lys Ala Val Thr Ala His Phe Gln Thr His Thr Thr

610 615 620

Pro Ile Leu Leu Ser Asn Asn Phe Ile Glu Pro Leu Glu Ile Thr Lys

625 630 635 640

Glu Ile Tyr Asp Leu Asn Asn Pro Glu Lys Glu Pro Lys Lys Phe Gln

645 650 655

Thr Ala Tyr Ala Lys Lys Thr Gly Asp Gln Lys Gly Tyr Arg Glu Ala

660 665 670

Leu Cys Lys Trp Ile Asp Phe Thr Arg Asp Phe Leu Ser Lys Tyr Thr

675 680 685

Lys Thr Thr Ser Ile Asp Leu Ser Ser Leu Arg Pro Ser Ser Gln Tyr

690 695 700

Lys Asp Leu Gly Glu Tyr Tyr Ala Glu Leu Asn Pro Leu Leu Tyr His

705 710 715 720

Ile Ser Phe Gln Arg Ile Ala Glu Lys Glu Ile Met Asp Ala Val Glu

725 730 735

Thr Gly Lys Leu Tyr Leu Phe Gln Ile Tyr Asn Lys Asp Phe Ala Lys

740 745 750

Gly His His Gly Lys Pro Asn Leu His Thr Leu Tyr Trp Thr Gly Leu

755 760 765

Phe Ser Pro Glu Asn Leu Ala Lys Thr Ser Ile Lys Leu Asn Gly Gln

770 775 780

Ala Glu Leu Phe Tyr Arg Pro Lys Ser Arg Met Lys Arg Met Ala His

785 790 795 800

Arg Leu Gly Glu Lys Met Leu Asn Lys Lys Leu Lys Asp Gln Lys Thr

805 810 815

Pro Ile Pro Asp Thr Leu Tyr Gln Glu Leu Tyr Asp Tyr Val Asn His

820 825 830

Arg Leu Ser His Asp Leu Ser Asp Glu Ala Arg Ala Leu Leu Pro Asn

835 840 845

Val Ile Thr Lys Glu Val Ser His Glu Ile Ile Lys Asp Arg Arg Phe

850 855 860

Thr Ser Asp Lys Phe Phe Phe His Val Pro Ile Thr Leu Asn Tyr Gln

865 870 875 880

Ala Ala Asn Ser Pro Ser Lys Phe Asn Gln Arg Val Asn Ala Tyr Leu

885 890 895

Lys Glu His Pro Glu Thr Pro Ile Ile Gly Ile Asp Arg Gly Glu Arg

900 905 910

Asn Leu Ile Tyr Ile Thr Val Ile Asp Ser Thr Gly Lys Ile Leu Glu

915 920 925

Gln Arg Ser Leu Asn Thr Ile Gln Gln Phe Asp Tyr Gln Lys Lys Leu

930 935 940

Asp Asn Arg Glu Lys Glu Arg Val Ala Ala Arg Gln Ala Trp Ser Val

945 950 955 960

Val Gly Thr Ile Lys Asp Leu Lys Gln Gly Tyr Leu Ser Gln Val Ile

965 970 975

His Glu Ile Val Asp Leu Met Ile His Tyr Gln Ala Val Val Val Leu

980 985 990

Ala Asn Leu Asn Phe Gly Phe Lys Ser Lys Arg Thr Gly Ile Ala Glu

995 1000 1005

Lys Ala Val Tyr Gln Gln Phe Glu Lys Met Leu Ile Asp Lys Leu

1010 1015 1020

Asn Cys Leu Val Leu Lys Asp Tyr Pro Ala Glu Lys Val Gly Gly

1025 1030 1035

Val Leu Asn Pro Tyr Gln Leu Thr Asp Gln Phe Thr Ser Phe Ala

1040 1045 1050

Lys Met Gly Thr Gln Ser Gly Phe Leu Phe Tyr Val Pro Ala Pro

1055 1060 1065

Tyr Thr Ser Lys Ile Asp Pro Leu Thr Gly Phe Val Asp Pro Phe

1070 1075 1080

Val Trp Lys Thr Ile Lys Asn His Glu Ser Arg Lys His Phe Leu

1085 1090 1095

Glu Gly Phe Asp Phe Leu His Tyr Asp Val Lys Thr Gly Asp Phe

1100 1105 1110

Ile Leu His Phe Lys Met Asn Arg Asn Leu Ser Phe Gln Arg Gly

1115 1120 1125

Leu Pro Gly Phe Met Pro Ala Trp Asp Ile Val Phe Glu Lys Asn

1130 1135 1140

Glu Thr Gln Phe Asp Ala Lys Gly Thr Pro Phe Ile Ala Gly Lys

1145 1150 1155

Arg Ile Val Pro Val Ile Glu Asn His Arg Phe Thr Gly Arg Tyr

1160 1165 1170

Arg Asp Leu Tyr Pro Ala Asn Glu Leu Ile Ala Leu Leu Glu Glu

1175 1180 1185

Lys Gly Ile Val Phe Arg Asp Gly Ser Asn Ile Leu Pro Lys Leu

1190 1195 1200

Leu Glu Asn Asp Asp Ser His Ala Ile Asp Thr Met Val Ala Leu

1205 1210 1215

Ile Arg Ser Val Leu Gln Met Arg Asn Ser Asn Ala Ala Thr Gly

1220 1225 1230

Glu Asp Tyr Ile Asn Ser Pro Val Arg Asp Leu Asn Gly Val Cys

1235 1240 1245

Phe Asp Ser Arg Phe Gln Asn Pro Glu Trp Pro Met Asp Ala Asp

1250 1255 1260

Ala Asn Gly Ala Tyr His Ile Ala Leu Lys Gly Gln Leu Leu Leu

1265 1270 1275

Asn His Leu Lys Glu Ser Lys Asp Leu Lys Leu Gln Asn Gly Ile

1280 1285 1290

Ser Asn Gln Asp Trp Leu Ala Tyr Ile Gln Glu Leu Arg Asn

1295 1300 1305

<210> 14

<211> 3921

<212> DNA

<213> 人工序列

<220>

<223> 合成核酸

<400> 14

atgacacagt tcgagggctt taccaacctg tatcaggtga gcaagacact gcggtttgag 60

ctgatcccac agggcaagac cctgaagcac atccaggagc agggcttcat cgaggaggac 120

aaggcccgca atgatcacta caaggagctg aagcccatca tcgatcggat ctacaagacc 180

tatgccgacc agtgcctgca gctggtgcag ctggattggg agaacctgag cgccgccatc 240

gactcctata gaaaggagaa aaccgaggag acaaggaacg ccctgatcga ggagcaggcc 300

acatatcgca atgccatcca cgactacttc atcggccgga cagacaacct gaccgatgcc 360

atcaataaga gacacgccga gatctacaag ggcctgttca aggccgagct gtttaatggc 420

aaggtgctga agcagctggg caccgtgacc acaaccgagc acgagaacgc cctgctgcgg 480

agcttcgaca agtttacaac ctacttctcc ggcttttatg agaacaggaa gaacgtgttc 540

agcgccgagg atatcagcac agccatccca caccgcatcg tgcaggacaa cttccccaag 600

tttaaggaga attgtcacat cttcacacgc ctgatcaccg ccgtgcccag cctgcgggag 660

cactttgaga acgtgaagaa ggccatcggc atcttcgtga gcacctccat cgaggaggtg 720

ttttccttcc ctttttataa ccagctgctg acacagaccc agatcgacct gtataaccag 780

ctgctgggag gaatctctcg ggaggcaggc accgagaaga tcaagggcct gaacgaggtg 840

ctgaatctgg ccatccagaa gaatgatgag acagcccaca tcatcgcctc cctgccacac 900

agattcatcc ccctgtttaa gcagatcctg tccgatagga acaccctgtc tttcatcctg 960

gaggagttta agagcgacga ggaagtgatc cagtccttct gcaagtacaa gacactgctg 1020

agaaacgaga acgtgctgga gacagccgag gccctgttta acgagctgaa cagcatcgac 1080

ctgacacaca tcttcatcag ccacaagaag ctggagacaa tcagcagcgc cctgtgcgac 1140

cactgggata cactgaggaa tgccctgtat gagcggagaa tctccgagct gacaggcaag 1200

atcaccaagt ctgccaagga gaaggtgcag cgcagcctga agcacgagga tatcaacctg 1260

caggagatca tctctgccgc aggcaaggag ctgagcgagg ccttcaagca gaaaaccagc 1320

gagatcctgt cccacgcaca cgccgccctg gatcagccac tgcctacaac cctgaagaag 1380

caggaggaga aggagatcct gaagtctcag ctggacagcc tgctgggcct gtaccacctg 1440

ctggactggt ttgccgtgga tgagtccaac gaggtggacc ccgagttctc tgcccggctg 1500

accggcatca agctggagat ggagccttct ctgagcttct acaacaaggc cagaaattat 1560

gccaccaaga agccctactc cgtggagaag ttcaagctga actttcagat gcctacactg 1620

gcctctggct gggacgtgaa taaggagaag aacaatggcg ccatcctgtt tgtgaagaac 1680

ggcctgtact atctgggcat catgccaaag cagaagggca ggtataaggc cctgagcttc 1740

gagcccacag agaaaaccag cgagggcttt gataagatgt actatgacta cttccctgat 1800

gccgccaaga tgatcccaaa gtgcagcacc cagctgaagg ccgtgacagc ccactttcag 1860

acccacacaa cccccatcct gctgtccaac aatttcatcg agcctctgga gatcacaaag 1920

gagatctacg acctgaacaa tcctgagaag gagccaaaga agtttcagac agcctacgcc 1980

aagaaaaccg gcgaccagaa gggctacaga gaggccctgt gcaagtggat cgacttcaca 2040

agggattttc tgtccaagta taccaagaca acctctatcg atctgtctag cctgcggcca 2100

tcctctcagt ataaggacct gggcgagtac tatgccgagc tgaatcccct gctgtaccac 2160

atcagcttcc agagaatcgc cgagaaggag atcatggatg ccgtggagac aggcaagctg 2220

tacctgttcc agatctataa caaggacttt gccaagggcc accacggcaa gcctaatctg 2280

cacacactgt attggaccgg cctgttttct ccagagaacc tggccaagac aagcatcaag 2340

ctgaatggcc aggccgagct gttctaccgc cctaagtcca ggatgaagag gatggcacac 2400

cggctgggag agaagatgct gaacaagaag ctgaaggatc agaaaacccc aatccccgac 2460

accctgtacc aggagctgta cgactatgtg aatcacagac tgtcccacga cctgtctgat 2520

gaggccaggg ccctgctgcc caacgtgatc accaaggagg tgtctcacga gatcatcaag 2580

gataggcgct ttaccagcga caagttcttt ttccacgtgc ctatcacact gaactatcag 2640

gccgccaatt ccccatctaa gttcaaccag agggtgaatg cctacctgaa ggagcacccc 2700

gagacaccta tcatcggcat cgatcggggc gagagaaacc tgatctatat cacagtgatc 2760

gactccaccg gcaagatcct ggagcagcgg agcctgaaca ccatccagca gtttgattac 2820

cagaagaagc tggacaacag ggagaaggag agggtggcag caaggcaggc ctggtctgtg 2880

gtgggcacaa tcaaggatct gaagcagggc tatctgagcc aggtcatcca cgagatcgtg 2940

gacctgatga tccactacca ggccgtggtg gtgctggcga acctgaattt cggctttaag 3000

agcaagagga ccggcatcgc cgagaaggcc gtgtaccagc agttcgagaa gatgctgatc 3060

gataagctga attgcctggt gctgaaggac tatccagcag agaaagtggg aggcgtgctg 3120

aacccatacc agctgacaga ccagttcacc tcctttgcca agatgggcac ccagtctggc 3180

ttcctgtttt acgtgcctgc cccatataca tctaagatcg atcccctgac cggcttcgtg 3240

gaccccttcg tgtggaaaac catcaagaat cacgagagcc gcaagcactt cctggagggc 3300

ttcgactttc tgcactacga cgtgaaaacc ggcgacttca tcctgcactt taagatgaac 3360

agaaatctgt ccttccagag gggcctgccc ggctttatgc ctgcatggga tatcgtgttc 3420

gagaagaacg agacacagtt tgacgccaag ggcacccctt tcatcgccgg caagagaatc 3480

gtgccagtga tcgagaatca cagattcacc ggcagatacc gggacctgta tcctgccaac 3540

gagctgatcg ccctgctgga ggagaagggc atcgtgttca gggatggctc caacatcctg 3600

ccaaagctgc tggagaatga cgattctcac gccatcgaca ccatggtggc cctgatccgc 3660

agcgtgctgc agatgcggaa ctccaatgcc gccacaggcg aggactatat caacagcccc 3720

gtgcgcgatc tgaatggcgt gtgcttcgac tcccggtttc agaacccaga gtggcccatg 3780

gacgccgatg ccaatggcgc ctaccacatc gccctgaagg gccagctgct gctgaatcac 3840

ctgaaggaga gcaaggatct gaagctgcag aacggcatct ccaatcagga ctggctggcc 3900

tacatccagg agctgcgcaa c 3921

<210> 15

<211> 22

<212> DNA

<213> 人工序列

<220>

<223> 合成核酸

<400> 15

aagctgcgtg agacatgtgt tt 22

<210> 16

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 合成核酸

<400> 16

agctatctgt agcatgctga 20

<210> 17

<211> 22

<212> DNA

<213> 人工序列

<220>

<223> 合成核酸

<400> 17

aaggctgtag cgatgctcac tg 22

<210> 18

<211> 22

<212> DNA

<213> 人工序列

<220>

<223> 合成核酸

<400> 18

gtgtgccagc tggcggtata gg 22

<210> 19

<211> 22

<212> DNA

<213> 人工序列

<220>

<223> 合成核酸

<400> 19

gtcaaaagct accggttacc tg 22

<210> 20

<211> 22

<212> DNA

<213> 人工序列

<220>

<223> 合成核酸

<400> 20

gttctgtcct cagtaaaagg ta 22

<210> 21

<211> 24

<212> DNA

<213> 人工序列

<220>

<223> 合成核酸

<400> 21

caatagggat aggtatgaga tact 24

Claims

1.一种编码RNA指导的核酸酶的经分离核酸，其包含真核核酸序列，其中该真核核酸序列的长度为至少17个核苷酸并且包含或者邻近由该RNA指导的核酸酶识别的原型间隔子邻近基序(PAM)。

2.如权利要求1所述的经分离核酸，其进一步编码指导RNA(gRNA)，该指导RNA包含与该真核核酸序列的邻近该PAM的一部分互补的靶向结构域。

3.如权利要求1或2所述的经分离核酸，其中该RNA指导的核酸酶是Cas9蛋白。

4.如权利要求1-3中任一项所述的经分离核酸，其中该gRNA的该靶向结构域的长度为16-24个核苷酸。

5.如权利要求1-4中任一项所述的经分离核酸，其中该真核核酸序列位于Cas9编码序列内。

6.如权利要求5所述的经分离核酸，其中该真核核酸序列编码该Cas9蛋白的经修饰部分。

7.如权利要求1-6中任一项所述的经分离核酸，其中该真核核酸序列位于该核酸的一部分内，该核酸的该部分在其3'端和5'端的每一端包括甘氨酸、丙氨酸或缬氨酸的至少一个密码子。

8.如权利要求7所述的经分离核酸，其中该核酸的包含该真核核酸序列的该部分编码包含G-(X)_6-10-G序列的多肽。

9.如权利要求3-8中任一项所述的经分离核酸，其中该Cas9蛋白包含相对于SEQ IDNO:2的选自由以下各项组成的组的氨基酸插入：

E271_N272insGX_6-10G；

L371_N372insGX_6-10G；和

Q737_A738insGX_6-10G。

10.如权利要求3-8中任一项所述的经分离核酸，其中该Cas9蛋白包含相对于SEQ IDNO:2的在该Cas9蛋白的N末端处或N末端附近的氨基酸插入。

11.如权利要求3-10中任一项所述的经分离核酸，其中该Cas9蛋白包含与选自由SEQID NO:3-5和10组成的组的序列具有至少95％序列同一性的氨基酸序列。

12.如权利要求3-8中任一项所述的经分离核酸，其包含相对于SEQ ID NO:6的选自由以下各项组成的组的插入：

c.813_814insN_24-36；

c.1113_1114insN_24-36；和

c.2211_2212insN_24-36。

13.如权利要求3-8中任一项所述的经分离核酸，其包含相对于SEQ ID NO:6的在Cas9蛋白编码序列的N末端处或N末端附近的插入。

14.如权利要求3-13中任一项所述的经分离核酸，其包含与选自由SEQ ID NO:7-9和11组成的组的序列具有至少95％序列同一性的核酸序列。

15.如权利要求1-14中任一项所述的经分离核酸，其中该核酸包含与SEQ ID NO:1具有至少约80％序列同一性并且包含c.157insN_19-36的插入的序列。

16.一种瞬时活性基因组编辑系统，其包含由如权利要求1-15中任一项所述的经分离核酸编码的RNA指导的核酸酶。

17.如权利要求16所述的瞬时活性基因组编辑系统，其中该系统改变细胞内源靶基因和该RNA指导的核酸酶表达二者。

18.如权利要求16或17所述的瞬时活性基因组编辑系统，其中该RNA指导的核酸酶具有野生型RNA指导的核酸酶蛋白的至少约80％的核酸酶活性。

19.如权利要求16-18中任一项所述的瞬时活性基因组编辑系统，其中该RNA指导的核酸酶是Cas9蛋白。

20.一种病毒载体，其包含如权利要求1-15中任一项所述的经分离核酸。

21.如权利要求20所述的病毒载体，其中该病毒载体用于改变细胞内源靶基因和该RNA指导的核酸酶表达二者。

22.如权利要求20或21所述的载体，其中该载体是腺相关病毒(AAV)载体。

23.如权利要求20-22中任一项所述的载体，其中该gRNA的靶位点是在该载体骨架内。

24.如权利要求22或23所述的载体，其包含与SEQ ID NO:1具有至少95％序列同一性的核酸序列。

25.一种瞬时活性基因组编辑系统，其包含：

指导RNA(gRNA)，该指导RNA包含与真核核酸序列互补的靶向结构域；和

由核酸编码的工程化RNA指导的核酸酶，该核酸包含该真核核苷酸序列和原型间隔子邻近基序(PAM)，其中该PAM是由该RNA指导的核酸酶识别并且在该真核核苷酸序列内或与该真核核苷酸序列相邻。

26.如权利要求25所述的瞬时活性基因组编辑系统，其中该RNA指导的核酸酶是Cas9蛋白。

27.如权利要求26所述的瞬时活性基因组编辑系统，其中该工程化Cas9蛋白和该gRNA形成Cas9/gRNA复合物。

28.如权利要求27所述的瞬时活性基因组编辑系统，其中该gRNA/Cas9复合物经改适以裂解该核酸。

29.如权利要求26-28中任一项所述的瞬时活性基因组编辑系统，其中该工程化Cas9蛋白包含至少部分由该真核核苷酸序列编码的氨基酸插入或取代。

30.如权利要求26-29中任一项所述的瞬时活性基因组编辑系统，其中该工程化Cas9蛋白具有野生型Cas9蛋白的至少约80％的核酸酶活性。

31.如权利要求29或30所述的瞬时活性基因组编辑系统，其包含具有G-(X)_6-10-G序列的氨基酸插入。

32.如权利要求31所述的瞬时活性基因组编辑系统，其中相对于SEQ ID NO:2的该氨基酸插入选自由以下各项组成的组：

E271_N272insGX_6-10G；

L371_N372insGX_6-10G；和

Q737_A738insGX_6-10G。

33.如权利要求32所述的瞬时活性基因组编辑系统，其中相对于SEQ ID NO:2的该氨基酸插入是在Cas9蛋白的N末端处或N末端附近。

34.如权利要求26-33中任一项所述的瞬时活性基因组编辑系统，其中该工程化Cas9蛋白包含与选自由SEQ ID NO:3-5和10组成的组的序列具有至少95％序列同一性的氨基酸序列。

35.如权利要求26-34中任一项所述的瞬时活性基因组编辑系统，其中该工程化Cas9蛋白是由核酸编码，该核酸包含相对于SEQ ID NO:6的选自由以下各项组成的组的插入：

c.813_814insN_24-36；

c.1113_1114insN_24-36；和

c.2211_2212insN_24-36。

36.如权利要求26-35中任一项所述的瞬时活性基因组编辑系统，其中该工程化Cas9蛋白是由核酸编码，该核酸包含相对于SEQ ID NO:6的在Cas9蛋白编码序列的N末端处或N末端附近的插入。

37.如权利要求26-36中任一项所述的瞬时活性基因组编辑系统，其中该工程化Cas9蛋白是由核酸编码，该核酸包含与选自由SEQ ID NO:7-9和11组成的组的序列具有至少95％序列同一性的序列。

38.如权利要求26-37中任一项所述的瞬时活性基因组编辑系统，其中该工程化Cas9蛋白是工程化的金黄色葡萄球菌Cas9。

39.一种用于改变细胞内源靶基因和RNA指导的核酸酶表达二者的瞬时活性基因组编辑系统，其包含：

40.如权利要求39所述的瞬时活性基因组编辑系统，其中该RNA指导的核酸酶是Cas9蛋白。

41.如权利要求40所述的瞬时活性基因组编辑系统，其中该工程化Cas9蛋白和该gRNA形成Cas9/gRNA复合物。

42.如权利要求41所述的瞬时活性基因组编辑系统，其中该Cas9/gRNA复合物经改适以裂解编码该工程化Cas9蛋白的核酸和编码该细胞内源靶基因的核酸二者。

43.如权利要求40-42中任一项所述的瞬时活性基因组编辑系统，其中该工程化Cas9蛋白包含至少部分由该真核核苷酸序列编码的氨基酸插入或取代。

44.如权利要求40-43中任一项所述的瞬时活性基因组编辑系统，其中该工程化Cas9蛋白具有野生型Cas9蛋白的至少约80％的核酸酶活性。

45.如权利要求43或44所述的瞬时活性基因组编辑系统，其包含具有G-(X)_6-10-G序列的氨基酸插入。

46.如权利要求45所述的瞬时活性基因组编辑系统，其中相对于SEQ ID NO:2的该氨基酸插入选自由以下各项组成的组：

E271_N272insGX_6-10G；

L371_N372insGX_6-10G；和

Q737_A738insGX_6-10G。

47.如权利要求45所述的瞬时活性基因组编辑系统，其中相对于SEQ ID NO:2的该氨基酸插入是在该Cas9蛋白的N末端处或N末端附近。

48.如权利要求40-47中任一项所述的瞬时活性基因组编辑系统，其中该工程化Cas9蛋白包含与选自由SEQ ID NO:3-5、10组成的组的序列具有至少95％序列同一性的氨基酸序列。

49.如权利要求40-48中任一项所述的瞬时活性基因组编辑系统，其中该工程化Cas9蛋白是由核酸编码，该核酸包含相对于SEQ ID NO:6的选自由以下各项组成的组的插入：

c.813_814insN_24-36；

c.1113_1114insN_24-36；和

c.2211_2212insN_24-36。

50.如权利要求40-48中任一项所述的瞬时活性基因组编辑系统，其中该工程化Cas9蛋白是由核酸编码，该核酸包含相对于SEQ ID NO:6的在Cas9蛋白编码序列的N末端处或N末端附近的插入。

51.如权利要求40-50中任一项所述的瞬时活性基因组编辑系统，其中该工程化Cas9蛋白是由核酸编码，该核酸包含与选自由SEQ ID NO:7-9和11组成的组的序列具有至少95％序列同一性的序列。

52.如权利要求40-51中任一项所述的瞬时活性基因组编辑系统，其中该工程化Cas9蛋白是工程化的金黄色葡萄球菌Cas9。

53.一种RNA指导的核酸酶蛋白，其包含至少部分由长度为至少17个核苷酸的真核核酸序列编码的氨基酸插入或取代。

54.如权利要求53所述的RNA指导的核酸酶，其中该RNA指导的核酸酶具有野生型RNA指导的核酸酶的至少约80％的核酸酶活性。

55.如权利要求54所述的RNA指导的核酸酶，其中该真核核酸序列是哺乳动物序列。

56.如权利要求53-55中任一项所述的RNA指导的核酸酶蛋白，其中该真核核酸序列包含或邻近由该工程化RNA指导的核酸酶蛋白识别的原型间隔子邻近基序(PAM)。

57.如权利要求56所述的RNA指导的核酸酶，其中该真核核酸序列包含邻近该PAM的至少17个核苷酸。

58.如权利要求53-57中任一项所述的RNA指导的核酸酶，其中该RNA指导的核酸酶是Cas9蛋白。

59.如权利要求58所述的Cas9蛋白，其包含具有G-(X)_6-10-G序列的插入。

60.如权利要求58或59所述的Cas9蛋白，其包含选自由以下各项组成的组的插入：

E271_N272insGX_6-10G；

L371_N372insGX_6-10G；和

Q737_A738insGX_6-10G。

61.如权利要求58或59所述的Cas9蛋白，其包含在该Cas9蛋白的N末端处或N末端附近的插入。

62.如权利要求58-61中任一项所述的Cas9蛋白，其包含相对于选自由SEQ ID NO:3-5和10组成的组的序列具有至少95％序列同一性的氨基酸序列。

63.一种经分离核酸，其编码如权利要求53-62中任一项所述的RNA指导的核酸酶。

64.一种改变细胞中的靶位点的方法，其包括向该细胞递送瞬时活性基因组编辑系统，该瞬时表达的基因组编辑系统包含：

由核酸编码的工程化RNA指导的核酸酶，该核酸包含该真核核苷酸序列和原型间隔子邻近基序(PAM)，其中该PAM是由该RNA指导的核酸酶识别并且在该真核核苷酸序列内或邻近该真核核苷酸序列。

65.如权利要求64所述的方法，其中该RNA指导的核酸酶是Cas9蛋白。

66.如权利要求65所述的方法，其中该工程化Cas9蛋白和该gRNA形成Cas9/gRNA复合物。

67.如权利要求66所述的方法，其中该gRNA/Cas9复合物经改适以裂解编码该工程化Cas9蛋白的核酸。

68.如权利要求65所述的方法，其中该gRNA/Cas9复合物经改适以裂解编码该工程化Cas9蛋白的核酸和该细胞中的该靶位点二者。

69.如权利要求65-68中任一项所述的方法，其中该工程化Cas9蛋白包含至少部分由该真核核苷酸序列编码的氨基酸插入或取代。

70.如权利要求65-69中任一项所述的方法，其中该工程化Cas9蛋白具有野生型Cas9蛋白的至少约80％的核酸酶活性。

71.如权利要求65-70中任一项所述的方法，其中该工程化Cas9蛋白包含具有G-(X)_6-10-G序列的氨基酸插入。

72.如权利要求65-71中任一项所述的方法，其中相对于SEQ ID NO:2的该氨基酸插入选自由以下各项组成的组：

E271_N272insGX_6-10G；

L371_N372insGX_6-10G；和

Q737_A738insGX_6-10G。

73.如权利要求65-71中任一项所述的方法，其中相对于SEQ ID NO:2的该氨基酸插入是在该Cas9蛋白的N末端处或N末端附近。

74.如权利要求65-73中任一项所述的方法，其中该工程化Cas9蛋白包含与选自由SEQID NO:3-5和10组成的组的序列具有至少95％序列同一性的氨基酸序列。

75.如权利要求65-74中任一项所述的方法，其中编码该工程化Cas9蛋白的核酸包含相对于SEQ ID NO:6的选自由以下各项组成的组的插入：

c.813_814insN_24-36；

c.1113_1114insN_24-36；和

c.2211_2212insN_24-36。

76.如权利要求65-74中任一项所述的方法，其中编码该工程化Cas9蛋白的核酸包含相对于SEQ ID NO:6的在Cas9蛋白编码序列的N末端处或N末端附近的插入。

77.如权利要求65-76中任一项所述的方法，其中编码该工程化Cas9蛋白的核酸包含与选自由SEQ ID NO:7-9和11组成的组的序列具有至少95％序列同一性的序列。

78.如权利要求65-77中任一项所述的方法，其中该Cas9是金黄色葡萄球菌Cas9。

79.一种编码Cpf1 RNA指导的核酸酶的经分离核酸，其包含真核核酸序列，其中该真核核酸序列的长度为至少17个核苷酸并且包含或邻近由该RNA指导的核酸酶识别的原型间隔子邻近基序(PAM)。

80.如权利要求79所述的经分离核酸，其进一步编码指导RNA(gRNA)，该指导RNA包含与该核酸序列的邻近该PAM的一部分互补的靶向结构域。

81.如权利要求79-80中任一项所述的经分离核酸，其中该gRNA的该靶向结构域的长度为16-24个核苷酸。

82.如权利要求79-81中任一项所述的经分离核酸，其中该真核核酸序列在Cpf1编码序列内。

83.如权利要求82所述的经分离核酸，其中该真核核酸序列编码该Cpf1蛋白的经修饰部分。

84.如权利要求79-83中任一项所述的经分离核酸，其中该真核核酸序列在该核酸的一部分内，该核酸的该部分在其3'端和5'端的每一端包括甘氨酸的至少一个密码子。

85.如权利要求84所述的经分离核酸，其中该核酸的包含该真核核酸序列的该部分编码包含G-(X)_6-10-G序列的多肽。

86.如权利要求79-85中任一项所述的经分离核酸，其中该Cpf1蛋白包含相对于SEQ IDNO:13的在选自由以下各项组成的组的位置处的氨基酸插入：

氨基酸位置147与148之间，

氨基酸位置484与492之间的任一位置，

氨基酸位置568与590之间的任一位置，

氨基酸位置795与855之间的任一位置，

氨基酸位置1131与1140之间的任一位置，和

氨基酸位置1160与1173之间的任一位置。

87.如权利要求79-85中任一项所述的经分离核酸，其中该Cpf1蛋白包含相对于SEQ IDNO:13的在该Cpf1蛋白的N末端处或N末端附近的氨基酸插入。

88.如权利要求79-87中任一项所述的经分离核酸，其中该Cpf1蛋白包含与SEQ ID NO:13具有至少95％序列同一性的氨基酸序列。

89.如权利要求79-85中任一项所述的经分离核酸，其包含相对于SEQ ID NO:14的在选自由以下各项组成的组的位置处的插入：

核酸位置441与442之间，

核酸位置1452与1474之间的任一位置，

核酸位置1704与1768之间的任一位置，

核酸位置2385与2563之间的任一位置，

核酸位置3393与3418之间的任一位置，和

核酸位置3480与3517之间的任一位置，

其中该插入不改变该经分离核酸的阅读框。

90.如权利要求79-85中任一项所述的经分离核酸，其包含相对于SEQ ID NO:14的在Cpf1蛋白编码序列的N末端处或N末端附近的插入。

91.如权利要求79-90中任一项所述的经分离核酸，其包含与SEQ ID NO:14具有至少95％序列同一性的核酸序列。

92.一种瞬时活性基因组编辑系统，其包含由如权利要求79-91中任一项所述的经分离核酸编码的RNA指导的核酸酶。

93.如权利要求92所述的瞬时活性基因组编辑系统，其中该系统改变细胞内源靶基因和该RNA指导的核酸酶表达二者。

94.如权利要求91或92所述的瞬时活性基因组编辑系统，其中该RNA指导的核酸酶具有野生型RNA指导的核酸酶蛋白的至少约80％的核酸酶活性。

95.一种病毒载体，其包含如权利要求79-91中任一项所述的经分离核酸。

96.一种改变细胞中的靶位点的方法，其包括向该细胞递送瞬时活性基因组编辑系统，该瞬时表达的基因组编辑系统包含：

由核酸编码的工程化Cpf1 RNA指导的核酸酶，该核酸包含该真核核苷酸序列和原型间隔子邻近基序(PAM)，其中该PAM是由该CpF1 RNA指导的核酸酶识别并且在该真核核苷酸序列内或邻近该真核核苷酸序列。

97.如权利要求96所述的方法，其中该工程化Cpf1蛋白和该gRNA形成Cpf1/gRNA复合物。

98.如权利要求97所述的方法，其中该Cpf1/gRNA复合物经改适以裂解编码该工程化Cpf1蛋白的核酸。

99.如权利要求96所述的方法，其中该Cpf1/gRNA复合物经改适以裂解编码该工程化Cpf1蛋白的核酸和该细胞中的该靶位点二者。

100.如权利要求96-99中任一项所述的方法，其中该工程化Cpf1蛋白包含至少部分由该真核核苷酸序列编码的氨基酸插入或取代。

101.如权利要求96-100中任一项所述的方法，其中该工程化Cpf1蛋白具有野生型Cpf1蛋白的至少约80％的核酸酶活性。

102.如权利要求96-101中任一项所述的方法，其中该核酸的包含该真核核酸序列的该部分编码包含G-(X)_6-10-G序列的多肽。

103.如权利要求96-102中任一项所述的方法，其中该Cpf1蛋白包含相对于SEQ ID NO:13的在选自由以下各项组成的组的位置处的氨基酸插入：

氨基酸位置147与148之间，

氨基酸位置484与492之间的任一位置，

氨基酸位置568与590之间的任一位置，

氨基酸位置795与855之间的任一位置，

氨基酸位置1131与1140之间的任一位置，和

氨基酸位置1160与1173之间的任一位置。

104.如权利要求96-102中任一项所述的方法，其中该Cpf1蛋白包含相对于SEQ ID NO:13的在该Cpf1蛋白的N末端处或N末端附近的氨基酸插入。

105.如权利要求79-87中任一项所述的经分离核酸，其中该Cpf1蛋白包含与SEQ IDNO:13具有至少95％序列同一性的氨基酸序列。

106.如权利要求96-102中任一项所述的方法，其包含相对于SEQ ID NO:14的在选自由以下各项组成的组的位置处的插入：

核酸位置441与442之间，

核酸位置1452与1474之间的任一位置，

核酸位置1704与1768之间的任一位置，

核酸位置2385与2563之间的任一位置，

核酸位置3393与3418之间的任一位置，和

核酸位置3480与3517之间的任一位置，

其中该插入不改变该经分离核酸的阅读框。

107.如权利要求96-102中任一项所述的方法，其包含相对于SEQ ID NO:14的在Cpf1蛋白编码序列的N末端处或N末端附近的插入。

108.如权利要求96-102中任一项所述的方法，其包含与SEQ ID NO:14具有至少95％序列同一性的核酸序列。