CN116867897A

CN116867897A - 碱基编辑酶

Info

Publication number: CN116867897A
Application number: CN202180076201.8A
Authority: CN
Inventors: 林俊良; 亚伦·布鲁克斯; 克里斯蒂娜·布特弗尔德; 克利斯多佛·布朗; 辛迪·卡斯泰勒
Original assignee: Macrogenomics
Current assignee: Macrogenomics
Priority date: 2020-09-11
Filing date: 2021-09-10
Publication date: 2023-10-10

Abstract

本公开提供了具有有区别的结构域特征的核酸内切酶以及使用此类酶或其变体的方法。

Description

碱基编辑酶

交叉引用

本申请要求2020年9月11日提交的标题为“碱基编辑酶(BASE EDITING ENZYMES)”的美国临时申请号63/077,057；和2021年7月15日提交的标题为“碱基编辑酶(BASEEDITING ENZYMES)”的美国临时申请号63/222,351的权益，其中的每一个申请均以其全文并入本文。

背景技术

Cas酶及其相关的簇状规则间隔短回文重复序列(Clustered RegularlyInterspaced Short Palindromic Repeat，CRISPR)向导核糖核酸(RNA)似乎是原核免疫系统中普遍存在的(约45％的细菌，约84％的古生菌)组分，用于通过CRISPR-RNA导向的核酸切割来保护此类微生物免受非自身核酸诸如传染性病毒和质粒的伤害。虽然编码CRISPRRNA元件的脱氧核糖核酸(DNA)元件在结构和长度上可能相对保守，但其CRISPR相关(Cas)蛋白具有高度多样性，含有多种核酸相互作用结构域。虽然早在1987年就已经观察到CRISPR DNA元件，但CRISPR/Cas复合物的可编程核酸内切酶切割能力直到最近才被认识到，这使得重组CRISPR/Cas系统在不同的DNA操纵和基因编辑应用中得到应用。

序列表

本申请包含序列表，其按ASCII格式以电子方式递交并且特此通过引用以其全文并入。所述ASCII副本创建于2021年9月9日，名称为55921-715_601_SL.txt并且大小为705,305字节。

发明内容

在一些方面，本公开提供了一种工程化核酸编辑系统，其包括：包含RuvC结构域和HNH结构域的核酸内切酶，其中所述核酸内切酶来源于非培养的微生物，其中所述核酸内切酶是2类II型Cas核酸内切酶，其中所述核酸内切酶被配置为缺乏核酸酶活性；与所述核酸内切酶偶联的碱基编辑器；和被配置为与所述核酸内切酶形成复合物的工程化向导核糖核酸结构，所述工程化向导核糖核酸结构包含：被配置为与靶脱氧核糖核酸序列杂交的向导核糖核酸序列；和被配置为与所述核酸内切酶结合的核糖核酸序列。在一些实施方案中，所述RuvC结构域缺乏核酸酶活性。在一些实施方案中，所述2类II型Cas核酸内切酶包含切口酶突变。在一些实施方案中，当最佳比对时，所述2类II型cas核酸内切酶相对于SEQ ID NO:70在残基9处、相对于SEQ ID NO:71、72或74在残基13处、相对于SEQ ID NO:73在残基12处、相对于SEQ ID NO:75在残基17处、相对于SEQ ID NO:76在残基23处或相对于SEQ ID NO:597在残基10处包含天冬氨酸向丙氨酸突变。在一些实施方案中，当最佳比对时，所述核酸内切酶相对于SEQ ID NO:70在残基9处、相对于SEQ ID NO:72在残基13处或相对于SEQ IDNO:75在残基17处包含天冬氨酸向丙氨酸突变。在一些实施方案中，所述核酸内切酶包含与SEQ ID NO:70-78或597中的任一个或其变体具有至少95％序列同一性的序列。在一些方面，本公开提供了一种工程化核酸编辑系统，其包括：与SEQ ID NO:70-78或597中的任一个或其变体具有至少95％序列同一性的核酸内切酶；与所述核酸内切酶偶联的碱基编辑器；和被配置为与所述核酸内切酶形成复合物的工程化向导核糖核酸结构，所述工程化向导核糖核酸结构包含：被配置为与靶脱氧核糖核酸序列杂交的向导核糖核酸序列；和被配置为与所述核酸内切酶结合的核糖核酸序列。在一些方面，本公开提供了一种工程化核酸编辑系统，其包括：被配置为与原间隔子相邻基序(PAM)序列结合的核酸内切酶，所述原间隔子相邻基序序列包含SEQ ID NO:360-368或598中的任一个或其变体，其中所述核酸内切酶是2类II型Cas核酸内切酶，并且其中所述核酸内切酶被配置为缺乏核酸酶活性；与所述核酸内切酶偶联的碱基编辑器；和被配置为与所述核酸内切酶形成复合物的工程化向导核糖核酸结构，所述工程化向导核糖核酸结构包含：被配置为与靶脱氧核糖核酸序列杂交的向导核糖核酸序列；和被配置为与所述核酸内切酶结合的核糖核酸序列。在一些实施方案中，所述核酸内切酶包含切口酶突变。在一些实施方案中，所述核酸内切酶被配置为切割双链靶脱氧核糖核酸的一条链。在一些实施方案中，当最佳比对时，所述2类II型cas核酸内切酶相对于SEQ ID NO:70在残基9处、相对于SEQ ID NO:71、72或74在残基13处、相对于SEQ IDNO:73在残基12处、相对于SEQ ID NO:75在残基17处、相对于SEQ ID NO:76在残基23处或相对于SEQ ID NO:597在残基10处包含天冬氨酸向丙氨酸突变。在一些实施方案中，所述碱基编辑器包含与SEQ ID NO:1-51、57-66、385-443、444-475或594-595中的任一个或其变体具有至少70％、80％、90％或95％同一性的序列。在一些实施方案中，所述碱基编辑器包含与SEQ ID NO:50-51或385-390中的任一个具有至少70％、80％、90％或95％同一性的序列。在一些实施方案中，所述RuvC结构域缺乏核酸酶活性。在一些实施方案中，所述核酸内切酶来源于非培养的微生物。在一些实施方案中，所述核酸内切酶与Cas9核酸内切酶具有小于80％的同一性。在一些实施方案中，所述核酸内切酶还包含HNH结构域。在一些实施方案中，所述工程化向导核糖核酸序列包含与SEQ ID NO:88-96或488-489中任一个或其变体的非简并核苷酸具有至少80％序列同一性的序列。在一些方面，本公开提供了一种工程化核酸编辑系统，其包括工程化向导核糖核酸结构，所述工程化向导核糖核酸结构包含：被配置为与靶脱氧核糖核酸序列杂交的向导核糖核酸序列；和被配置为与核酸内切酶结合的核糖核酸序列，其中所述工程化核糖核酸序列包含与SEQ ID NO:88-96或488-489中任一个或其变体的非简并核苷酸具有至少80％序列同一性的序列；被配置为与所述工程化向导核糖核酸结合的2类II型Cas核酸内切酶；和与所述核酸内切酶偶联的碱基编辑器。在一些实施方案中，所述碱基编辑器包含与SEQ ID NO:50-51或385-390中的任一个具有至少70％、80％、90％或95％同一性的序列。在一些实施方案中，所述核酸内切酶被配置为与原间隔子相邻基序(PAM)序列结合，所述原间隔子相邻基序序列选自SEQ ID NO:360-368或598。在一些实施方案中，所述碱基编辑器包含与SEQ ID NO:1-51、57-66、385-443、444-475或594-595中的任一个或其变体具有至少70％、80％、90％或95％同一性的序列。在一些实施方案中，所述碱基编辑器是腺嘌呤脱氨酶。在一些实施方案中，所述腺苷脱氨酶包含与SEQ ID NO:50-51、57、385-443、448-475或595中的任一个或其变体具有至少70％、80％、90％或95％同一性的序列。在一些实施方案中，所述碱基编辑器是胞嘧啶脱氨酶。在一些实施方案中，所述胞嘧啶脱氨酶包含与SEQ ID NO:1-49、444-447、594或58-66中的任一个或其变体具有至少70％、80％、90％或95％同一性的序列。在一些实施方案中，所述系统还包括与所述核酸内切酶或所述碱基编辑器偶联的尿嘧啶DNA糖基化酶抑制剂。在一些实施方案中，所述尿嘧啶DNA糖基化酶抑制剂包含与SEQ ID NO:52-56或SEQ ID NO:67中的任一个具有至少70％、80％、90％或95％同一性的序列。在一些实施方案中，所述工程化向导核糖核酸结构包含至少两种核糖核酸多核苷酸。在一些实施方案中，所述工程化向导核糖核酸结构包含一种核糖核酸多核苷酸，所述核糖核酸多核苷酸包含所述向导核糖核酸序列和所述tracr核糖核酸序列。在一些实施方案中，所述向导核糖核酸序列与原核、细菌、古细菌、真核、真菌、植物、哺乳动物或人类基因组序列互补。在一些实施方案中，所述向导核糖核酸序列的长度是15-24个核苷酸。在一些实施方案中，所述核酸内切酶包含在所述核酸内切酶的N或C末端近侧的一个或多个核定位序列(NLS)。在一些实施方案中，所述NLS包含与选自SEQ ID NO:369-384的序列或其变体具有至少90％同一性的序列。在一些实施方案中，所述核酸内切酶直接与所述碱基编辑器共价偶联或通过接头与所述碱基编辑器共价偶联。在一些实施方案中，当最佳比对时，所述核酸内切酶相对于SEQ ID NO:70在残基9处、相对于SEQ ID NO:71、72或74在残基13处、相对于SEQ ID NO:73或78在残基12处、相对于SEQ ID NO:75在残基17处、相对于SEQ ID NO:76在残基23处、相对于SEQ ID NO:77在残基8处或相对于SEQ ID NO:597在残基10处包含天冬氨酸向丙氨酸突变。在一些实施方案中，当最佳比对时，所述核酸内切酶相对于SEQ ID NO:70在残基9处、相对于SEQ ID NO:72在残基13处或相对于SEQ IDNO:75在残基17处包含天冬氨酸向丙氨酸突变。在一些实施方案中，多肽包含所述核酸内切酶和所述碱基编辑器。在一些实施方案中，所述核酸内切酶被配置为切割双链靶脱氧核糖核酸的一条链。在一些实施方案中，所述系统还包括Mg²⁺源。在一些实施方案中：(a)所述核酸内切酶包含与SEQ ID NO:70、71、73、74、76、78、77或78中的任一个或其变体具有至少70％、至少80％或至少90％同一性的序列；(b)所述向导RNA结构包含与SEQ ID NO:88、89、91、92、94、96、95或488中任一个的非简并核苷酸具有至少70％、至少80％或至少90％同一性的序列；(c)所述核酸内切酶被配置为与包含SEQ ID NO:360、361、363、365、367或368中的任一个的PAM结合；或者(d)所述碱基编辑器包含与SEQ ID NO:58或595或其变体具有至少70％、至少80％或至少90％同一性的序列。在一些实施方案中：(a)所述核酸内切酶包含与SEQ ID NO:70、71或78中的任一个或其变体具有至少70％、至少80％或至少90％同一性的序列；(b)所述向导RNA结构包含与SEQ ID NO:88、89或96中至少一个的非简并核苷酸具有至少70％、至少80％或至少90％同一性的序列；(c)所述核酸内切酶被配置为与包含SEQID NO:360、362或368中的任一个的PAM结合；或者(d)所述碱基编辑器包含与SEQ ID NO:594或其变体具有至少70％、至少80％或至少90％同一性的序列。在一些实施方案中，所述序列同一性通过BLASTP、CLUSTALW、MUSCLE、MAFFT或史密斯-沃特曼同源性搜索算法来确定。在一些实施方案中，所述序列同一性通过使用字长(W)为3、期望值(E)为10并且BLOSUM62评分矩阵设置缺口存在成本为11、延伸值为1的参数并且使用条件组成评分矩阵调整的所述BLASTP同源性搜索算法来确定。在一些实施方案中，所述核酸内切酶被配置为催化失活的。在一些实施方案中，所述核酸内切酶被配置为切割双链靶脱氧核糖核酸的一条链。

在一些方面，本公开提供了一种核酸，其包含被优化以用于在生物体中表达的工程化核酸序列，其中所述核酸编码与碱基编辑器偶联的2类II型Cas核酸内切酶，并且其中所述核酸内切酶来源于非培养的微生物。

在一些方面，本公开提供了一种核酸，其包含被优化以用于在生物体中表达的工程化核酸序列，其中所述核酸编码与碱基编辑器偶联的核酸内切酶，所述核酸内切酶与SEQID NO:70-78中的任一个具有至少70％序列同一性。在一些实施方案中，所述核酸内切酶包含编码在所述核酸内切酶的N或C末端近侧的一个或多个核定位序列(NLS)的序列。在一些实施方案中，所述NLS包含与选自SEQ ID NO:369-384的序列或其变体具有至少90％同一性的序列。在一些实施方案中，所述生物体是原核生物、细菌、真核生物、真菌、植物、哺乳动物、啮齿动物或人类。

在一些方面，本公开提供了一种载体，其包含核酸序列，所述核酸序列编码与碱基编辑器偶联的2类II型Cas核酸内切酶，其中所述核酸内切酶来源于非培养的微生物。

在一些方面，本公开提供了一种载体，其包含本文所述的方面或实施方案中任一个的核酸。在一些实施方案中，所述载体还包含核酸，所述核酸编码被配置为与所述核酸内切酶形成复合物的工程化向导核糖核酸结构，所述工程化向导核糖核酸结构包含：被配置为与靶脱氧核糖核酸序列杂交的向导核糖核酸序列；和被配置为与所述核酸内切酶结合的核糖核酸序列。在一些实施方案中，所述载体是质粒、微环、CELiD、腺相关病毒(AAV)来源的病毒粒子或慢病毒。

在一些方面，本公开提供了一种细胞，其包含本文所述的方面或实施方案中任一个的载体。

在一些方面，本公开提供了一种制造核酸内切酶的方法，所述方法包括培养本文所述的方面或实施方案中任一个的细胞。

在一些方面，本公开提供了一种用于修饰双链脱氧核糖核酸多核苷酸的方法，所述方法包括使所述双链脱氧核糖核酸多核苷酸与复合物接触，所述复合物包含：包含RuvC结构域和HNH结构域的核酸内切酶，其中所述核酸内切酶来源于非培养的微生物，其中所述核酸内切酶是2类II型Cas核酸内切酶，并且其中所述核酸内切酶被配置为缺乏核酸酶活性；与所述核酸内切酶偶联的碱基编辑器；和被配置为与所述核酸内切酶和所述双链脱氧核糖核酸多核苷酸结合的工程化向导核糖核酸结构；其中所述双链脱氧核糖核酸多核苷酸包含原间隔子相邻基序(PAM)。在一些实施方案中，所述包含RuvC结构域和HNH结构域的核酸内切酶直接与所述碱基编辑器共价偶联或通过接头与所述碱基编辑器共价偶联。在一些实施方案中，所述包含RuvC结构域和HNH结构域的核酸内切酶包含与SEQ ID NO:70-78或597中的任一个或其变体具有至少95％序列同一性的序列。

在一些方面，本公开提供了一种用于修饰双链脱氧核糖核酸多核苷酸的方法，所述方法包括使所述双链脱氧核糖核酸多核苷酸与复合物接触，所述复合物包含：2类II型Cas核酸内切酶，与所述核酸内切酶偶联的碱基编辑器，和被配置为与所述核酸内切酶和所述双链脱氧核糖核酸多核苷酸结合的工程化向导核糖核酸结构；其中所述双链脱氧核糖核酸多核苷酸包含原间隔子相邻基序(PAM)；并且其中所述PAM包含选自SEQ ID NO:70-78或597的序列。在一些实施方案中，所述2类II型Cas核酸内切酶与所述碱基编辑器共价偶联或通过接头与所述碱基编辑器偶联。在一些实施方案中，所述碱基编辑器包含与选自SEQ IDNO:1-51、57-66、385-443、444-475或594-595的序列或其变体具有至少70％、至少80％、至少90％或至少95％同一性的序列。在一些实施方案中，所述碱基编辑器包含腺嘌呤脱氨酶；所述双链脱氧核糖核酸多核苷酸包含腺嘌呤；并且修饰所述双链脱氧核糖核酸多肽包括将所述腺嘌呤转化为鸟嘌呤。在一些实施方案中，所述腺嘌呤脱氨酶包含与SEQ ID NO:50-51、57、385-443、448-475或595中的任一个或其变体具有至少70％、80％、90％或95％序列同一性的序列。在一些实施方案中，所述碱基编辑器包含胞嘧啶脱氨酶；所述双链脱氧核糖核酸多核苷酸包含胞嘧啶；并且修饰所述双链脱氧核糖核酸多肽包括将所述胞嘧啶转化为尿嘧啶。在一些实施方案中，所述胞嘧啶脱氨酶包含与SEQ ID NO:1-49、444-447、594或58-66中的任一个或其变体具有至少70％、80％、90％或95％序列同一性的序列。在一些实施方案中，所述复合物还包含与所述核酸内切酶或所述碱基编辑器偶联的尿嘧啶DNA糖基化酶抑制剂。在一些实施方案中，所述尿嘧啶DNA糖基化酶抑制剂包含与SEQ ID NO:52-56或SEQID NO:67中的任一个或其变体具有至少70％、80％、90％或95％同一性的序列。在一些实施方案中，所述双链脱氧核糖核酸多核苷酸包含第一链，所述第一链包含与所述工程化向导核糖核酸结构的序列互补的序列；和第二链，所述第二链包含所述PAM。在一些实施方案中，所述PAM直接与和所述工程化向导核糖核酸结构的所述序列互补的所述序列的3’末端相邻。在一些实施方案中，所述2类II型Cas核酸内切酶不是Cas9核酸内切酶、Cas14核酸内切酶、Cas12a核酸内切酶、Cas12b核酸内切酶、Cas 12c核酸内切酶、Cas12d核酸内切酶、Cas12e核酸内切酶、Cas13a核酸内切酶、Cas13b核酸内切酶、Cas13c核酸内切酶或Cas 13d核酸内切酶。在一些实施方案中，所述2类II型Cas核酸内切酶来源于非培养的微生物。在一些实施方案中，所述双链脱氧核糖核酸多核苷酸是真核、植物、真菌、哺乳动物、啮齿动物或人类双链脱氧核糖核酸多核苷酸。

在一些方面，本公开提供了一种修饰靶核酸基因座的方法，所述方法包括将本文所述的方面或实施方案中任一个的所述工程化核酸编辑系统递送至所述靶核酸基因座，其中所述核酸内切酶被配置为与所述工程化向导核糖核酸结构形成复合物，并且其中所述复合物被配置为使得在所述复合物与所述靶核酸基因座结合后，所述复合物修饰所述靶核酸基因座的核苷酸。在一些实施方案中，所述工程化核酸编辑系统包含腺嘌呤脱氨酶，所述核苷酸是腺嘌呤，并且修饰所述靶核酸基因座包括将所述腺嘌呤转化为鸟嘌呤。在一些实施方案中，所述工程化核酸编辑系统包含胞苷脱氨酶和尿嘧啶DNA糖基化酶抑制剂，所述核苷酸是胞嘧啶，并且修饰所述靶核酸基因座包括将所述腺嘌呤转化为尿嘧啶。在一些实施方案中，所述靶核酸基因座包含基因组DNA、病毒DNA或细菌DNA。在一些实施方案中，所述靶核酸基因座在体外。在一些实施方案中，所述靶核酸基因座在细胞内。在一些实施方案中，所述细胞是原核细胞、细菌细胞、真核细胞、真菌细胞、植物细胞、动物细胞、哺乳动物细胞、啮齿动物细胞、灵长类动物细胞或人类细胞。在一些实施方案中，所述细胞在动物内。在一些实施方案中，所述细胞在耳蜗内。在一些实施方案中，所述细胞在胚胎内。在一些实施方案中，所述胚胎是双细胞胚胎。在一些实施方案中，所述胚胎是小鼠胚胎。在一些实施方案中，将所述工程化核酸编辑系统递送至所述靶核酸基因座包括递送本文所述的方面或实施方案中任一个的核酸或本文所述的方面或实施方案中任一个的载体。在一些实施方案中，将所述工程化核酸编辑系统递送至所述靶核酸基因座包括递送包含编码所述核酸内切酶的开放阅读框的核酸。在一些实施方案中，所述核酸包含编码所述核酸内切酶的所述开放阅读框可操作地连接的启动子。在一些实施方案中，将所述工程化核酸编辑系统递送至所述靶核酸基因座包括递送含有编码所述核酸内切酶的所述开放阅读框的加帽mRNA。在一些实施方案中，将所述工程化核酸编辑系统递送至所述靶核酸基因座包括递送翻译的多肽。在一些实施方案中，将所述工程化核酸编辑系统递送至所述靶核酸基因座包括递送编码所述工程化向导核糖核酸结构的脱氧核糖核酸(DNA)，所述工程化向导核糖核酸结构可操作地连接至核糖核酸(RNA)pol III启动子。

在一些方面，本公开提供了一种工程化核酸编辑多肽，其包含：包含RuvC结构域和HNH结构域的核酸内切酶，其中所述核酸内切酶来源于非培养的微生物，其中所述核酸内切酶是2类II型Cas核酸内切酶，并且其中所述核酸内切酶被配置为缺乏核酸酶活性；和与所述核酸内切酶偶联的碱基编辑器。在一些实施方案中，所述核酸内切酶包含与SEQ ID NO:70-78或597中的任一个或其变体具有至少95％序列同一性的序列。

在一些方面，本公开提供了一种工程化核酸编辑多肽，其包含：与SEQ ID NO:70-78或597中的任一个或其变体具有至少80％、至少81％、至少82％、至少83％、至少84％、至少85％、至少86％、至少87％、至少88％、至少89％、至少90％、至少91％、至少92％、至少93％、至少94％、至少95％、至少96％、至少97％、至少98％、至少99％或100％序列同一性的核酸内切酶，其中所述核酸内切酶被配置为缺乏核酸酶活性；和与所述核酸内切酶偶联的碱基编辑器。在一些方面，本公开提供了一种工程化核酸编辑多肽，其包含：被配置为与原间隔子相邻基序(PAM)序列结合的核酸内切酶，所述原间隔子相邻基序序列包含SEQ IDNO:360-368或598中的任一个，其中所述核酸内切酶是2类II型Cas核酸内切酶，并且其中所述核酸内切酶被配置为缺乏核酸酶活性；和与所述核酸内切酶偶联的碱基编辑器。在一些实施方案中，所述核酸内切酶来源于非培养的微生物。在一些实施方案中，所述核酸内切酶与Cas9核酸内切酶具有小于80％的同一性。在一些实施方案中，所述核酸内切酶还包含HNH结构域。在一些实施方案中，所述tracr核糖核酸序列包含与选自SEQ ID NO:88-96、488和489中任一个的约60至90个连续核苷酸具有至少80％序列同一性的序列。在一些实施方案中，所述碱基编辑器包含与SEQ ID NO:1-51、57-66、385-443、444-475或594-595中的任一个或其变体具有至少70％、80％、90％或95％同一性的序列。在一些实施方案中，所述碱基编辑器是腺嘌呤脱氨酶。在一些实施方案中，所述腺苷脱氨酶包含与SEQ ID NO:50-51、57、385-443、448-475或595中的任一个或其变体具有至少70％、80％、90％或95％序列同一性的序列。在一些实施方案中，所述碱基编辑器是胞嘧啶脱氨酶。在一些实施方案中，所述胞嘧啶脱氨酶包含与SEQ ID NO:1-49、444-447、594或58-66中的任一个或其变体具有至少70％、80％、90％或95％序列同一性的序列。

在一些方面，本公开提供了一种工程化核酸编辑多肽，其包含：核酸内切酶，其中所述核酸内切酶被配置为缺乏核酸内切酶活性；和与所述核酸内切酶偶联的碱基编辑器，其中所述碱基编辑器包含与SEQ ID NO:1-51、385-386、387-443、444-447、488-475或595中的任一个或其变体具有至少70％、80％、90％或95％序列同一性的序列。在一些实施方案中，所述核酸内切酶被配置为切割双链靶脱氧核糖核酸的一条链。在一些实施方案中，所述核酸内切酶被配置为催化失活的。在一些实施方案中，所述核酸内切酶是Cas核酸内切酶。在一些实施方案中，所述Cas核酸内切酶是II类II型Cas核酸内切酶或II类V型Cas核酸内切酶。在一些实施方案中，所述核酸内切酶包含与SEQ ID NO:70-78或597中的任一个或其变体具有至少70％、80％、90％或95％序列同一性的序列。在一些实施方案中，所述Cas核酸内切酶包含切口酶突变。在一些实施方案中，当最佳比对时，所述Cas核酸内切酶相对于SEQID NO:70在残基9处、相对于SEQ ID NO:71、72或74在残基13处、相对于SEQ ID NO:73在残基12处、相对于SEQ ID NO:75在残基17处、相对于SEQ ID NO:76在残基23处或相对于SEQID NO:597在残基10处包含天冬氨酸向丙氨酸突变。在一些实施方案中，所述核酸内切酶被配置为与原间隔子相邻基序(PAM)序列结合，所述原间隔子相邻基序序列选自SEQ ID NO:360-368或598。在一些实施方案中，所述碱基编辑器是腺嘌呤脱氨酶。在一些实施方案中，所述腺苷脱氨酶包含与SEQ ID NO:50-51、385-443或448-475中的任一个或其变体具有至少80％、至少81％、至少82％、至少83％、至少84％、至少85％、至少86％、至少87％、至少88％、至少89％、至少90％、至少91％、至少92％、至少93％、至少94％、至少95％、至少96％、至少97％、至少98％、至少99％或100％序列同一性的序列。在一些实施方案中，所述腺苷脱氨酶包含与SEQ ID NO:50-51、385-390或595中的任一个或其变体具有至少70％、80％、90％或95％同一性的序列。在一些实施方案中，所述碱基编辑器是胞嘧啶脱氨酶。在一些实施方案中，所述胞嘧啶脱氨酶包含与SEQ ID NO:1-49、444-447中的任一个或其变体具有至少70％、80％、90％或95％同一性的序列。在一些实施方案中，所述多肽还包含与所述核酸内切酶或所述碱基编辑器偶联的尿嘧啶DNA糖基化酶抑制剂。在一些实施方案中，所述尿嘧啶DNA糖基化酶抑制剂包含与SEQ ID NO:52-56或SEQ ID NO:67中的任一个或其变体具有至少70％、80％、90％或95％同一性的序列。在一些实施方案中，所述核酸内切酶包含在所述核酸内切酶的N或C末端近侧的一个或多个核定位序列(NLS)。在一些实施方案中，所述NLS包含与选自SEQ ID NO:369-384的序列或其变体具有至少90％同一性的序列。在一些实施方案中，所述核酸内切酶直接与所述碱基编辑器共价偶联或通过接头与所述碱基编辑器共价偶联。

在一些方面，本公开提供了一种核酸，其包含被优化以用于在生物体中表达的工程化核酸序列，其中所述核酸编码与SEQ ID NO:1-51、385-386、387-443、444-447或488-475中的任一个或其变体具有至少70％、至少80％、至少81％、至少82％、至少83％、至少84％、至少85％、至少86％、至少87％、至少88％、至少89％、至少90％、至少91％、至少92％、至少93％、至少94％、至少95％、至少96％、至少97％、至少98％、至少99％或100％序列同一性的序列。在一些实施方案中，所述生物体是原核生物、细菌、真核生物、真菌、植物、哺乳动物、啮齿动物或人类。

在一些方面，本公开提供了一种载体，其包含本文所述的方面或实施方案中任一个的核酸。在一些实施方案中，所述载体是质粒、微环、CELiD、腺相关病毒(AAV)来源的病毒粒子或慢病毒。

在一些方面，本公开提供了一种制造碱基编辑器的方法，所述方法包括培养本文所述的方面或实施方案中任一个的所述细胞。

在一些方面，本公开提供了一种系统，其包括：(a)本文所述的方面或实施方案中任一个的核酸编辑多肽；和(b)被配置为与所述核酸编辑多肽形成复合物的工程化向导核糖核酸结构，所述工程化向导核糖核酸结构包含：被配置为与靶脱氧核糖核酸序列杂交的向导核糖核酸序列；和被配置为与所述核酸内切酶结合的核糖核酸序列。在一些实施方案中，所述工程化向导核糖核酸序列包含与SEQ ID NO:88-96或488-489中任一个的非简并核苷酸具有至少80％序列同一性的序列。

在一些方面，本公开提供了一种修饰靶核酸基因座的方法，所述方法包括将本文所述的方面或实施方案中任一个的所述工程化核酸编辑多肽或本文所述的方面或实施方案中任一个的所述系统递送至所述靶核酸基因座，其中所述复合物被配置为使得在所述复合物与所述靶核酸基因座结合后，所述复合物修饰所述靶核酸基因座的核苷酸。

在一些方面，本公开提供了一种工程化核酸编辑系统，其包括：(a)包含RuvC结构域和HNH结构域的核酸内切酶，其中所述核酸内切酶来源于非培养的微生物，其中所述核酸内切酶是2类II型Cas核酸内切酶，并且其中所述RuvC结构域缺乏核酸酶活性；(b)与所述核酸内切酶偶联的碱基编辑器；和(c)被配置为与所述核酸内切酶形成复合物的工程化向导核糖核酸结构，所述工程化向导核糖核酸结构包含：(i)被配置为与靶脱氧核糖核酸序列杂交的向导核糖核酸序列；和(ii)被配置为与所述核酸内切酶结合的tracr核糖核酸序列。在一些实施方案中，所述核酸内切酶包含与SEQ ID NO:70-78中的任一个具有至少95％序列同一性的序列。

在一些方面，本公开提供了一种工程化核酸编辑系统，其包括：(a)与SEQ ID NO:70-78中的任一个具有至少95％序列同一性的核酸内切酶，其中所述核酸内切酶包含缺乏核酸酶活性的RuvC结构域；与所述核酸内切酶偶联的碱基编辑器；和被配置为与所述核酸内切酶形成复合物的工程化向导核糖核酸结构，所述工程化向导核糖核酸结构包含：(i)被配置为与靶脱氧核糖核酸序列杂交的向导核糖核酸序列；和(ii)被配置为与所述核酸内切酶结合的tracr核糖核酸序列。

在一些方面，本公开提供了一种工程化核酸编辑系统，其包括：(a)被配置为与原间隔子相邻基序(PAM)序列结合的核酸内切酶，所述原间隔子相邻基序序列包含SEQ IDNO:360-368，其中所述核酸内切酶是2类II型Cas核酸内切酶，并且其中所述核酸内切酶包含缺乏核酸酶活性的RuvC结构域；和(b)与所述核酸内切酶偶联的碱基编辑器；和(c)被配置为与所述核酸内切酶形成复合物的工程化向导核糖核酸结构，所述工程化向导核糖核酸结构包含：(i)被配置为与靶脱氧核糖核酸序列杂交的向导核糖核酸序列；和(ii)被配置为与所述核酸内切酶结合的tracr核糖核酸序列。

在一些实施方案中，所述核酸内切酶来源于非培养的微生物。在一些实施方案中，所述核酸内切酶与Cas9核酸内切酶具有小于80％的同一性。在一些实施方案中，所述核酸内切酶还包含HNH结构域。在一些实施方案中，所述tracr核糖核酸序列包含与选自SEQ IDNO:88-96、488和489中任一个的约60至90个连续核苷酸具有至少80％序列同一性的序列。

在一些方面，本公开提供了一种工程化核酸编辑系统，其包括(a)工程化向导核糖核酸结构，所述工程化向导核糖核酸结构包含：(i)被配置为与靶脱氧核糖核酸序列杂交的向导核糖核酸序列；和(ii)被配置为与核酸内切酶结合的tracr核糖核酸序列，其中所述tracr核糖核酸序列包含与选自SEQ ID NO:88-96、488和489中任一个的约60至90个连续核苷酸具有至少80％序列同一性的序列；和被配置为与所述工程化向导核糖核酸结合的2类II型Cas核酸内切酶。

在一些实施方案中，所述核酸内切酶被配置为与原间隔子相邻基序(PAM)序列结合，所述原间隔子相邻基序序列选自SEQ ID NO:360-368。在一些实施方案中，所述碱基编辑器包含与SEQ ID NO:1-51和385-475中的任一个具有至少70％、80％、90％或95％同一性的序列。在一些实施方案中，所述碱基编辑器是腺嘌呤脱氨酶。在一些实施方案中，所述腺苷脱氨酶包含与SEQ ID NO:57具有至少95％同一性的序列。在一些实施方案中，所述碱基编辑器是胞嘧啶脱氨酶。在一些实施方案中，所述胞嘧啶脱氨酶包含与SEQ ID NO:58具有至少95％同一性的序列。在一些实施方案中，所述胞嘧啶脱氨酶包含与SEQ ID NO:59-66中的任一个具有至少95％同一性的序列。

在一些实施方案中，所述工程化核酸编辑系统还包括尿嘧啶DNA糖基化酶抑制剂。在一些实施方案中，所述尿嘧啶DNA糖基化酶抑制剂包含与SEQ ID NO:52-56或SEQ ID NO:67中的任一个具有至少70％、80％、90％或95％同一性的序列。

在一些实施方案中，所述工程化向导核糖核酸结构包含至少两种核糖核酸多核苷酸。在一些实施方案中，所述工程化向导核糖核酸结构包含一种核糖核酸多核苷酸，所述核糖核酸多核苷酸包含所述向导核糖核酸序列和所述tracr核糖核酸序列。在一些实施方案中，所述向导核糖核酸序列与原核、细菌、古细菌、真核、真菌、植物、哺乳动物或人类基因组序列互补。在一些实施方案中，所述向导核糖核酸序列的长度是15-24个核苷酸。在一些实施方案中，所述核酸内切酶包含在所述核酸内切酶的N或C末端近侧的一个或多个核定位序列(NLS)。在一些实施方案中，所述核酸内切酶直接与所述碱基编辑器共价偶联或通过接头与所述碱基编辑器共价偶联。在一些实施方案中，多肽包含所述核酸内切酶和所述碱基编辑器。在一些实施方案中，所述核酸内切酶被配置为切割双链靶脱氧核糖核酸的一条链。在一些实施方案中，所述核酸内切酶包含SEQ ID NO:370。在一些实施方案中，所述系统还包括Mg²⁺源。

在一些实施方案中，所述核酸内切酶包含与SEQ ID NO:70具有至少70％、至少80％或至少90％同一性的序列；所述向导RNA结构包含与SEQ ID NO:88具有至少70％、至少80％或至少90％同一性的序列；并且所述核酸内切酶被配置为与包含SEQ ID NO:360的PAM结合。

在一些实施方案中，所述核酸内切酶包含与SEQ ID NO:71具有至少70％、至少80％或至少90％同一性的序列；所述向导RNA结构包含与SEQ ID NO:89具有至少70％、至少80％或至少90％同一性的序列；并且所述核酸内切酶被配置为与包含SEQ ID NO:361的PAM结合。

在一些实施方案中，所述核酸内切酶包含与SEQ ID NO:73具有至少70％、至少80％或至少90％同一性的序列；所述向导RNA结构包含与SEQ ID NO:91具有至少70％、至少80％或至少90％同一性的序列；并且所述核酸内切酶被配置为与包含SEQ ID NO:363的PAM结合。

在一些实施方案中，所述核酸内切酶包含与SEQ ID NO:75具有至少70％、至少80％或至少90％同一性的序列；所述向导RNA结构包含与SEQ ID NO:93具有至少70％、至少80％或至少90％同一性的序列；并且所述核酸内切酶被配置为与包含SEQ ID NO:365的PAM结合。

在一些实施方案中，所述核酸内切酶包含与SEQ ID NO:76具有至少70％、至少80％或至少90％同一性的序列；所述向导RNA结构包含与SEQ ID NO:94具有至少70％、至少80％或至少90％同一性的序列；并且所述核酸内切酶被配置为与包含SEQ ID NO:366的PAM结合。

在一些实施方案中，所述核酸内切酶包含与SEQ ID NO:77具有至少70％、至少80％或至少90％同一性的序列；所述向导RNA结构包含与SEQ ID NO:95具有至少70％、至少80％或至少90％同一性的序列；并且所述核酸内切酶被配置为与包含SEQ ID NO:367的PAM结合。

在一些实施方案中，所述核酸内切酶包含与SEQ ID NO:78具有至少70％、至少80％或至少90％同一性的序列；所述向导RNA结构包含与SEQ ID NO:96具有至少70％、至少80％或至少90％同一性的序列；并且所述核酸内切酶被配置为与包含SEQ ID NO:368的PAM结合。

在一些实施方案中，所述碱基编辑器包含腺嘌呤脱氨酶。在一些实施方案中，所述腺嘌呤脱氨酶包含SEQ ID NO:57。在一些实施方案中，所述碱基编辑器包含胞嘧啶脱氨酶。在一些实施方案中，所述胞嘧啶脱氨酶包含SEQ ID NO:58。在一些实施方案中，本文所述的工程化核酸编辑系统还包括尿嘧啶DNA糖基化抑制剂。在一些实施方案中，所述尿嘧啶DNA糖基化抑制剂包含SEQ ID NO:67。

在一些实施方案中，所述序列同一性通过BLASTP、CLUSTALW、MUSCLE、MAFFT或史密斯-沃特曼同源性搜索算法来确定。在一些实施方案中，所述序列同一性通过使用字长(W)为3、期望值(E)为10并且BLOSUM62评分矩阵设置缺口存在成本为11、延伸值为1的参数并且使用条件组成评分矩阵调整的所述BLASTP同源性搜索算法来确定。

在一些方面，本公开提供了一种核酸，其包含被优化以用于在生物体中表达的工程化核酸序列，其中所述核酸编码与碱基编辑器偶联的核酸内切酶，所述核酸内切酶与SEQID NO:70-78中的任一个具有至少70％序列同一性。在一些实施方案中，所述核酸内切酶包含序列，所述序列编码在所述核酸内切酶的N或C末端近侧的一个或多个核定位序列(NLS)。在一些实施方案中，所述生物体是原核生物、细菌、真核生物、真菌、植物、哺乳动物、啮齿动物或人类。

在一些方面，本公开提供了一种载体，其包含核酸序列，所述核酸序列编码与碱基编辑器偶联的2类II型Cas核酸内切酶，其中所述核酸内切酶来源于非培养的微生物。在一些实施方案中，所述载体包含本文所述的核酸。在一些实施方案中，所述载体还包含核酸，所述核酸编码被配置为与所述核酸内切酶形成复合物的工程化向导核糖核酸结构，所述工程化向导核糖核酸结构包含：被配置为与靶脱氧核糖核酸序列杂交的向导核糖核酸序列；和被配置为与所述核酸内切酶结合的tracr核糖核酸序列。在一些实施方案中，所述载体是质粒、微环、CELiD、腺相关病毒(AAV)来源的病毒粒子或慢病毒。在一些方面，本公开提供了一种细胞，其包含本文所述的载体。在一些方面，本公开提供了一种制造核酸内切酶的方法，所述方法包括培养本文所述的细胞。

在一些方面，本公开提供了一种用于修饰双链脱氧核糖核酸多核苷酸的方法，所述方法包括使所述双链脱氧核糖核酸多核苷酸与复合物接触，所述复合物包含：包含RuvC结构域和HNH结构域的核酸内切酶，其中所述核酸内切酶来源于非培养的微生物，其中所述核酸内切酶是2类II型Cas核酸内切酶，并且其中所述RuvC结构域缺乏核酸酶活性；与所述核酸内切酶偶联的碱基编辑器；和被配置为与所述核酸内切酶和所述双链脱氧核糖核酸多核苷酸结合的工程化向导核糖核酸结构；其中所述双链脱氧核糖核酸多核苷酸包含原间隔子相邻基序(PAM)。

在一些实施方案中，所述包含RuvC结构域和HNH结构域的核酸内切酶直接与所述碱基编辑器共价偶联或通过接头与所述碱基编辑器共价偶联。在一些实施方案中，所述包含RuvC结构域和HNH结构域的核酸内切酶包含与SEQ ID NO:70-78中的任一个具有至少95％序列同一性的序列。

在一些方面，本公开提供了一种用于修饰双链脱氧核糖核酸多核苷酸的方法，所述方法包括使所述双链脱氧核糖核酸多核苷酸与复合物接触，所述复合物包含：2类II型Cas核酸内切酶，与所述核酸内切酶偶联的碱基编辑器，和被配置为与所述核酸内切酶和所述双链脱氧核糖核酸多核苷酸结合的工程化向导核糖核酸结构；其中所述双链脱氧核糖核酸多核苷酸包含原间隔子相邻基序(PAM)；并且其中所述PAM包含选自SEQ ID NO:360-368的序列。

在一些实施方案中，所述2类II型Cas核酸内切酶与所述碱基编辑器共价偶联或通过接头与所述碱基编辑器偶联。在一些实施方案中，所述碱基编辑器包含与选自SEQ IDNO:1-51和385-475的序列具有至少70％、至少80％、至少90％或至少95％同一性的序列。在一些实施方案中，所述碱基编辑器包含腺嘌呤脱氨酶；所述双链脱氧核糖核酸多核苷酸包含腺嘌呤；并且修饰所述双链脱氧核糖核酸多肽包括将所述腺嘌呤转化为鸟嘌呤。在一些实施方案中，所述腺嘌呤脱氨酶包含与SEQ ID NO:57具有至少95％同一性的序列。

在一些实施方案中，所述碱基编辑器包含胞嘧啶脱氨酶；所述双链脱氧核糖核酸多核苷酸包含胞嘧啶；并且修饰所述双链脱氧核糖核酸多肽包括将所述胞嘧啶转化为尿嘧啶。在一些实施方案中，所述胞嘧啶脱氨酶包含与SEQ ID NO:58具有至少95％同一性的序列。在一些实施方案中，所述胞嘧啶脱氨酶包含与SEQ ID NO:59-66中的任一个具有至少95％同一性的序列。

在一些实施方案中，所述复合物还包含尿嘧啶DNA糖基化酶抑制剂。在一些实施方案中，所述尿嘧啶DNA糖基化酶抑制剂包含与SEQ ID NO:52-56或SEQ ID NO:67中的任一个具有至少70％、80％、90％或95％同一性的序列。在一些实施方案中，所述双链脱氧核糖核酸多核苷酸包含第一链，所述第一链包含与所述工程化向导核糖核酸结构的序列互补的序列；和第二链，所述第二链包含所述PAM。在一些实施方案中，所述PAM直接与和所述工程化向导核糖核酸结构的所述序列互补的所述序列的3’末端相邻。

在一些实施方案中，所述2类II型Cas核酸内切酶不是Cas9核酸内切酶、Cas14核酸内切酶、Cas12a核酸内切酶、Cas12b核酸内切酶、Cas 12c核酸内切酶、Cas12d核酸内切酶、Cas12e核酸内切酶、Cas13a核酸内切酶、Cas13b核酸内切酶、Cas13c核酸内切酶或Cas 13d核酸内切酶。在一些实施方案中，所述2类II型Cas核酸内切酶来源于非培养的微生物。在一些实施方案中，所述双链脱氧核糖核酸多核苷酸是真核、植物、真菌、哺乳动物、啮齿动物或人类双链脱氧核糖核酸多核苷酸。

在一些方面，本公开提供了一种修饰靶核酸基因座的方法，所述方法包括将本文所述的工程化核酸编辑系统递送至所述靶核酸基因座，其中所述核酸内切酶被配置为与所述工程化向导核糖核酸结构形成复合物，并且其中所述复合物被配置为使得在所述复合物与所述靶核酸基因座结合后，所述复合物修饰所述靶核酸基因座的核苷酸。

在一些实施方案中，所述工程化核酸编辑系统包含腺嘌呤脱氨酶，所述核苷酸是腺嘌呤，并且修饰所述靶核酸基因座包括将所述腺嘌呤转化为鸟嘌呤。在一些实施方案中，所述工程化核酸编辑系统包含胞苷脱氨酶和尿嘧啶DNA糖基化酶抑制剂，所述核苷酸是胞嘧啶，并且修饰所述靶核酸基因座包括将所述腺嘌呤转化为尿嘧啶。在一些实施方案中，所述靶核酸基因座包含基因组DNA、病毒DNA或细菌DNA。在一些实施方案中，所述靶核酸基因座在体外。在一些实施方案中，所述靶核酸基因座在细胞内。在一些实施方案中，所述细胞是原核细胞、细菌细胞、真核细胞、真菌细胞、植物细胞、动物细胞、哺乳动物细胞、啮齿动物细胞、灵长类动物细胞或人类细胞。在一些实施方案中，所述细胞在动物内。

在一些实施方案中，所述细胞在耳蜗内。在一些实施方案中，所述细胞在胚胎内。在一些实施方案中，所述胚胎是双细胞胚胎。在一些实施方案中，所述胚胎是小鼠胚胎。在一些实施方案中，将所述工程化核酸编辑系统递送至所述靶核酸基因座包括递送本文所述的核酸或本文所述的载体。在一些实施方案中，将所述工程化核酸编辑系统递送至所述靶核酸基因座包括递送包含编码所述核酸内切酶的开放阅读框的核酸。

在一些实施方案中，所述核酸包含编码所述核酸内切酶的所述开放阅读框可操作地连接的启动子。在一些实施方案中，将所述工程化核酸编辑系统递送至所述靶核酸基因座包括递送含有编码所述核酸内切酶的所述开放阅读框的加帽mRNA。在一些实施方案中，将所述工程化核酸编辑系统递送至所述靶核酸基因座包括递送翻译的多肽。在一些实施方案中，将所述工程化核酸编辑系统递送至所述靶核酸基因座包括递送编码所述工程化向导核糖核酸结构的脱氧核糖核酸(DNA)，所述工程化向导核糖核酸结构可操作地连接至核糖核酸(RNA)pol III启动子。

在一些方面，本公开提供了一种工程化核酸编辑多肽，其包含：包含RuvC结构域和HNH结构域的核酸内切酶，其中所述核酸内切酶来源于非培养的微生物，其中所述核酸内切酶是2类II型Cas核酸内切酶，并且其中所述RuvC结构域缺乏核酸酶活性；和与所述核酸内切酶偶联的碱基编辑器。在一些实施方案中，所述核酸内切酶包含与SEQ ID NO:70-78中的任一个具有至少95％序列同一性的序列。

在一些方面，本公开提供了一种工程化核酸编辑多肽，其包含：与SEQ ID NO:70-78中的任一个具有至少95％序列同一性的核酸内切酶，其中所述核酸内切酶包含缺乏核酸酶活性的RuvC结构域；和与所述核酸内切酶偶联的碱基编辑器。

在一些方面，本公开提供了一种工程化核酸编辑多肽，其包含：被配置为与原间隔子相邻基序(PAM)序列结合的核酸内切酶，所述原间隔子相邻基序序列包含SEQ ID NO:360-368，其中所述核酸内切酶是2类II型Cas核酸内切酶，并且其中所述核酸内切酶包含缺乏核酸酶活性的RuvC结构域；和与所述核酸内切酶偶联的碱基编辑器。

在一些实施方案中，所述核酸内切酶来源于非培养的微生物。在一些实施方案中，所述核酸内切酶与Cas9核酸内切酶具有小于80％的同一性。在一些实施方案中，所述核酸内切酶还包含HNH结构域。在一些实施方案中，所述tracr核糖核酸序列包含与选自SEQ IDNO:88-96、488和489中任一个的约60至90个连续核苷酸具有至少80％序列同一性的序列。在一些实施方案中，所述碱基编辑器包含与SEQ ID NO:1-51和385-475中的任一个具有至少70％、80％、90％或95％同一性的序列。在一些实施方案中，所述碱基编辑器是腺嘌呤脱氨酶。在一些实施方案中，所述腺苷脱氨酶包含与SEQ ID NO:57具有至少95％同一性的序列。在一些实施方案中，所述碱基编辑器是胞嘧啶脱氨酶。在一些实施方案中，所述胞嘧啶脱氨酶包含与SEQ ID NO:58具有至少95％同一性的序列。在一些实施方案中，所述腺苷胞嘧啶脱氨酶包含与SEQ ID NO:59-66中的任一个具有至少95％同一性的序列。

根据以下具体实施方式，本公开的另外的方面和优点对于本领域技术人员将容易地变得清楚，在以下具体实施方式中仅示出和描述了本公开的说明性实施方案。如将会理解的，本公开能够具有其他的和不同的实施方案，并且其若干细节能够在各个明显的方面进行修改，所有这些都不背离本公开。因此，附图和说明书将在本质上被视为是说明性的而非限制性的。

援引并入

本说明书中所提及的所有出版物、专利和专利申请均通过引用并入本文，其程度犹如具体地且单独地指出每个单独的出版物、专利或专利申请均通过引用并入。

附图说明

本发明的新颖特征在所附权利要求书中具体阐述。通过参考阐述了利用本发明原理的说明性实施方案的以下具体实施方式和附图(在本文中也称为“图(Figure)”和“图(FIG.)”)将获得对本发明的特征和优点的更好的理解，在附图中：

图1描绘了不同类别和类型的CRISPR/Cas基因座的典型组织。

图2示出了含有驱动本文所述的系统表达的T7启动子的碱基编辑器质粒的结构。

图3示出了本文所述的系统的质粒图谱。MGA含有TadA*(来自ABE8.17m)-SV40NLS，并且MGC含有与尿嘧啶糖基化酶抑制剂连接的APOBEC1(来自BE3)和SV40 NLS。

图4示出了本文所述的所选核酸内切酶的RuvCI结构域中的预测催化残基，所述催化残基发生突变以破坏核酸酶活性，从而生成切口酶。

图5描绘了用于将单向导RNA表达盒克隆到本文所述的系统中的示例性方法。一个片段包含T7启动子加间隔子。另一个片段包含间隔子加单向导支架序列加双向终止子。将片段组装成表达质粒，从而产生可以同时表达sgRNA和碱基编辑器的功能构建体。

图6A和图6B示出了用于大肠杆菌中的lacZ靶向的sgRNA设计。用于本文所述的系统的间隔子长度是22个核苷酸。对于本文所述的所选系统，设计了三种靶向大肠杆菌中的lacZ的sgRNA来确定编辑窗口。

图7示出了所选突变效应子的切口酶活性。将在两个5’末端上用荧光团(6-FAM)标记的600bp双链DNA片段用补充其同源sgRNA的纯化酶温育。将反应产物在10％ TBE-尿素变性凝胶上拆分。双链切割产生400和200个碱基的条带。切口酶活动产生600和200个碱基的条带。

图8A、图8B和图8C示出了Sanger测序结果，其展示了本文所述的所选系统进行的碱基编辑。

图9示出了本文所述的系统如何用本文所述的核酸内切酶和碱基编辑器扩展碱基编辑能力。

图10A和图10B示出了包含TadA(ABE8.17m)和MG切口酶的腺嘌呤碱基编辑器(ABE)的碱基编辑效率。TadA是tRNA腺嘌呤脱氨酶，并且TadA(ABE8.17m)是大肠杆菌TadA的工程化变体。在大肠杆菌中构建并测试12种与TadA(ABE8.17m)融合的MG切口酶。设计三种向导物来靶向lacZ。框中所示的数字指示通过Edit R定量的A向G转化的百分比。使用ABE8.17m作为实验的阳性对照。

图11A和图11B示出了包含大鼠APOBEC1、MG切口酶和枯草芽孢杆菌噬菌体的尿嘧啶糖基化酶抑制剂(UGI(PBS1))的胞嘧啶碱基编辑器(CBE)的碱基编辑效率。APOBEC1是胞嘧啶脱氨酶。在大肠杆菌中构建并测试12种在其N末端上与rAPOBEC1融合并且在其C末端上与UGI融合的MG切口酶。设计三种向导物来靶向lacZ。框中所示的数字指示通过Edit R定量的C向T转化的百分比。使用BE3作为实验中的阳性对照。

图12示出了MG尿嘧啶糖基化酶抑制剂(UGI)对于CBE的碱基编辑活性的影响。图(a)描绘了示出MGC15-1和变体的碱基编辑活性的图，所述变体包含N末端APOBEC1、MG15-1切口酶和C末端UGI。针对大肠杆菌中胞嘧啶碱基编辑活性的改善测试了三种MG UGI。图(b)是示出BE3的碱基编辑活性的图，所述BE3包含N末端rAPOBEC1、SpCas9切口酶和C末端UGI。针对HEK293T细胞中胞嘧啶碱基编辑活性的改善测试了两种MG UGI。通过Edit R定量编辑效率。

图13A和图13B描绘了编辑位点的图谱，其示出了包含A0A2K5RDN7、MG切口酶和MGUGI的胞嘧啶碱基编辑器的编辑效率。所述构建体包含N末端A0A2K5RDN7、MG切口酶和C末端MG69-1。为简单起见，图中仅示出了MG切口酶的身份。使用BE3作为碱基编辑的阳性对照。使用空载体作为阴性对照。在不同的日子进行了三个独立实验。缩写：R，重复序列；NEG，阴性对照。

图14示出了用于大肠杆菌中的TadA表征的阳性选择方法。图(a)示出了用于TadA选择的一种质粒系统的图谱。所述载体包含CAT(H193Y)、靶向CAT的sgRNA表达盒和ABE表达盒。在此图中，示出了来自大肠杆菌的N末端TadA和来自化脓性链球菌的C末端SpCas9(D10A)。图(b)示出了测序迹线，其表明当引入/转化到大肠杆菌细胞中时，CAT(H193Y)模板链的A2位置被编辑，从而将H193Y突变体还原为野生型并恢复其活性。缩写：CAT，氯霉素乙酰转移酶。

图15示出了由TadA引起的突变实现对氯霉素(Cm)的高耐受性。图(a)示出了生长板的照片，其中使用不同浓度的氯霉素来选择大肠杆菌的抗生素抗性。在此实例中，测试了来自大肠杆菌(EcTadA)的TadA的野生型和两种变体。图(b)示出了结果总结表，其表明携带突变TadA的ABE显示比野生型更高的编辑效率。在这些实验中，从具有大于或等于0.5μg/mLCm的板中挑选菌落。为简单起见，表中仅示出了脱氨酶的身份。

图16A示出了生长板的照片，以研究MG TadA在阳性选择中的活性。针对0至2μg/mL的氯霉素测试8种MG68 TadA候选物(ABE包含N末端TadA变体和C末端SpCas9(D10A)切口酶)。为简单起见，仅示出了脱氨酶的身份。在此实验中，从具有大于或等于0.5μg/mL Cm的板中挑选菌落。

图16B总结了MG TadA候选物的编辑效率，并且表明MG68-3和MG68-4驱动腺嘌呤的碱基编辑。

图17示出了经由MG68-4上的D109N突变改善MG68-4_nSpCas9的碱基编辑效率。图(a)示出了生长板的照片，其中针对0至4μg/mL的氯霉素测试野生型MG68-4及其变体。为简单起见，仅示出了脱氨酶的身份。此实验中的腺嘌呤碱基编辑器包含N末端TadA变体和C末端SpCas9(D10A)切口酶。图(b)示出了总结表，其描绘了MG TadA候选物的编辑效率。图(b)表明MG68-4和MG68-4(D109N)显示腺嘌呤的碱基编辑，其中D109N突变体显示活性增加。在此实验中，从具有大于或等于0.5μg/mL Cm的板中挑选菌落。

图18示出了MG68-4(D109N)_nMG34-1的碱基编辑。图(a)示出了实验的生长板的照片，其中针对0至2μg/mL的氯霉素测试包含N末端MG68-4(D109N)和C末端SpCas9(D10A)切口酶的ABE。图(b)示出了总结表，其描绘了具有和没有sgRNA情况下的编辑效率。在此实验中，从具有大于或等于1μg/mL Cm的板中挑选菌落。

图19示出了用于改善MG68-4-nMG34-1碱基编辑活性(SEQ ID NO:448-475)而设计的28种MG68-4变体。针对靶向诱变选择12个残基以改善酶的编辑。

序列表的简要描述

随附的序列表提供了根据本公开的方法、组合物和系统中使用的示例性多核苷酸和多肽序列。下面是本文中的序列的示例性描述。

SEQ ID NO:1-47示出了适用于本文所述的工程化核酸编辑系统的MG66脱氨酶的全长肽序列。

SEQ ID NO:48-49示出了适用于本文所述的工程化核酸编辑系统的MG67脱氨酶的全长肽序列。

SEQ ID NO:50-51示出了适用于本文所述的工程化核酸编辑系统的MG68脱氨酶的全长肽序列。

SEQ ID NO:52-56示出了适用于本文所述的工程化核酸编辑系统的尿嘧啶DNA糖基化酶抑制剂的序列。

SEQ ID NO:57-66示出了参考脱氨酶的序列。

SEQ ID NO:67示出了参考尿嘧啶DNA糖基化酶抑制剂的序列。

SEQ ID NO:68示出了腺嘌呤碱基编辑器的序列。

SEQ ID NO:69示出了胞嘧啶碱基编辑器的序列。

SEQ ID NO:70-78示出了适用于本文所述的工程化核酸编辑系统的MG切口酶的全长肽序列。

SEQ ID NO:79-87示出了本文所述的体外切口酶测定中使用的原间隔子和PAM。

SEQ ID NO:88-96示出了本文所述的体外切口酶测定中使用的单向导RNA的肽序列。

SEQ ID NO:97-156示出了靶向大肠杆菌lacZ时间隔子的序列。

SEQ ID NO:157-176示出了进行定点诱变时引物的序列。

SEQ ID NO:177-178示出了用于lacZ测序的引物的序列。

SEQ ID NO:179-342示出了扩增期间使用的引物的序列。

SEQ ID NO:343-345示出了用于lacZ测序的引物的序列。

SEQ ID NO:346-359示出了扩增期间使用的引物的序列。

SEQ ID NO:360-368示出了适用于本文所述的工程化核酸编辑系统的原间隔子相邻基序。

SEQ ID NO:369-384示出了适用于本文所述的工程化核酸编辑系统的核定位序列(NLS)。

SEQ ID NO:385-443示出了适用于本文所述的工程化核酸编辑系统的MG68脱氨酶的全长肽序列。

SEQ ID NO:444-447示出了适用于本文所述的工程化核酸编辑系统的MG121脱氨酶的全长肽序列。

SEQ ID NO:448-475示出了适用于本文所述的工程化核酸编辑系统的MG68脱氨酶的全长肽序列。

SEQ ID NO:476和477示出了腺嘌呤碱基编辑器的序列。

SEQ ID NO:478-482示出了胞嘧啶碱基编辑器的序列。

SEQ ID NO:483-487示出了适用于编码本文所述的工程化核酸编辑系统的质粒的序列。

SEQ ID NO:488和489示出了MG15-1和MG34-1的sgRNA支架序列。

SEQ ID NO:490-522示出了用于靶向大肠杆菌和HEK293T细胞中的基因座的间隔子的序列。

SEQ ID NO:523-585示出了扩增和Sanger测序期间使用的引物的序列。

具体实施方式

尽管本文已经示出和描述了本发明的各个实施方案，但对于本领域技术人员显而易见的是，此类实施方案仅通过举例的方式提供。在不背离本发明的情况下，本领域技术人员可以想到多种变型、改变和替代。应理解，可以采用针对本文所述的本发明实施方案的各种可替代方案。

除非另外指示，否则本文公开的一些方法的实践采用免疫学、生物化学、化学、分子生物学、微生物学、细胞生物学、基因组学和重组DNA的技术。参见例如Sambrook和Green,Molecular Cloning:ALaboratory Manual,第4版(2012)；the series Current Protocolsin Molecular Biology(F.M.Ausubel等人编)；the series Methods In Enzymology(Academic Press,Inc.),PCR 2:A Practical Approach(M.J.MacPherson,B.D.Hames和G.R.Taylor编(1995)),Harlow和Lane编(1988)Antibodies,A Laboratory Manual,andCulture of Animal Cells:A Manual of Basic Technique and SpecializedApplications,第6版(R.I.Freshney编(2010))(其通过引用以其全文并入本文)。

如本文所用，除非上下文另外明确指示，否则单数形式“一个”、“一种”和“所述”旨在还包括复数形式。此外，在术语“包括”(“including”)、“包括”(“includes”)、“具有”(“having”)、“具有”(“has”)、“具有”(“with”)或其变体在具体实施方式和/或权利要求书中使用的程度上，此类术语旨在以与术语“包含”(“comprising”)相似的方式是包含性的。

术语“约”或“大约”意指由本领域普通技术人员确定的具体值处于可接受的误差范围内，这将部分取决于所述值的测量或确定方式，即测量系统的限制性。例如，根据本领域的实践，“约”可以意指在1个或多于1个标准偏差内。可替代地，“约”可以意指给定值的至多20％、至多15％、至多10％、至多5％或至多1％的范围。

如本文所用，“细胞”通常是指生物细胞。细胞可以是活生物体的基本结构、功能和/或生物单元。细胞可以源自具有一个或多个细胞的任何生物体。一些非限制性实例包括：原核细胞、真核细胞、细菌细胞、古细菌细胞、单细胞真核生物体的细胞、原生动物细胞、来自植物的细胞(例如来自植物作物、水果、蔬菜、谷物、大豆、玉米、玉蜀黍、小麦、种子、番茄、水稻、木薯、甘蔗、南瓜、干草、土豆、棉花、大麻、烟草、开花植物、针叶树、裸子植物、蕨类植物、石松、金鱼藻、地钱、苔藓的细胞)、藻细胞(例如，布朗葡萄藻(Botryococcusbraunii)、莱茵衣藻(Chlamydomonas reinhardtii)、微拟球藻(Nannochloropsisgaditana)、蛋白核小球藻(Chlorella pyrenoidosa)、展枝马尾藻(Sargassum patensC.Agardh)等)、海藻类(例如海带)、真菌细胞(例如酵母细胞、来自蘑菇的细胞)、动物细胞、来自无脊椎动物(例如果蝇、刺胞动物、棘皮动物、线虫等)的细胞、来自脊椎动物(例如鱼、两栖动物、爬行动物、鸟类、哺乳动物)的细胞、来自哺乳动物(例如，猪、奶牛、山羊、绵羊、啮齿动物、大鼠、小鼠、非人灵长类、人等)的细胞等等。有时，细胞并非源自天然生物体(例如，细胞可以是合成的，有时称为人工细胞)。

如本文所用，术语“核苷酸”通常是指碱基-糖-磷酸组合。核苷酸可以包括合成核苷酸。核苷酸可以包括合成核苷酸类似物。核苷酸可以是核酸序列(例如，脱氧核糖核酸(DNA)和核糖核酸(RNA))的单体单元。术语核苷酸可以包括核糖核苷三磷酸腺苷三磷酸(ATP)、尿苷三磷酸(UTP)、胞嘧啶三磷酸(CTP)、鸟苷三磷酸(GTP)和脱氧核糖核苷三磷酸，诸如dATP、dCTP、dITP、dUTP、dGTP、dTTP或其衍生物。此类衍生物可以包括例如[αS]dATP、7-脱氮-dGTP和7-脱氮-dATP，以及赋予含有它们的核酸分子以核酸酶抗性的核苷酸衍生物。如本文所用，术语核苷酸可以是指双脱氧核糖核苷三磷酸(ddNTP)及其衍生物。双脱氧核糖核苷三磷酸的说明性实例可以包括但不限于ddATP、ddCTP、ddGTP、ddITP和ddTTP。核苷酸可以是未标记的，或是可检测标记的，诸如使用包含光学可检测的部分(例如荧光团)的部分。也可以用量子点进行标记。可检测标记可以包括例如放射性同位素、荧光标记、化学发光标记、生物发光标记和酶标记。核苷酸的荧光标记可以包括但不限于荧光素、5-羧基荧光素(FAM)、2′7′-二甲氧基-4′5-二氯-6-羧基荧光素(JOE)、罗丹明、6-羧基罗丹明(R6G)、N,N,N′,N′-四甲基-6-羧基罗丹明(TAMRA)、6-羧基-X-罗丹明(ROX)、4-(4′二甲基氨基苯偶氮基)苯甲酸(DABCYL)、Cascade Blue、Oregon Green、Texas Red、青色素和5-(2′-氨基乙基)氨基萘-1-磺酸(EDANS)。荧光标记的核苷酸的具体实例可以包括[R6G]dUTP、[TAMRA]dUTP、[R110]dCTP、[R6G]dCTP、[TAMRA]dCTP、[JOE]ddATP、[R6G]ddATP、[FAM]ddCTP、[R110]ddCTP、[TAMRA]ddGTP、[ROX]ddTTP、[dR6G]ddATP、[dR110]ddCTP、[dTAMRA]ddGTP和[dROX]ddTTP，获自Perkin Elmer,Foster City,Calif；FluoroLink脱氧核苷酸、FluoroLink Cy3-dCTP、FluoroLink Cy5-dCTP、FluoroLink Fluor X-dCTP、FluoroLink Cy3-dUTP和FluoroLink Cy5-dUTP，获自Amersham,Arlington Heights,Ill.；荧光素-15-dATP、荧光素-12-dUTP、四甲基-罗丹明-6-dUTP、IR770-9-dATP、荧光素-12-ddUTP、荧光素-12-UTP和荧光素-15-2′-dATP，获自Boehringer Mannheim,Indianapolis,Ind.；以及染色体标记的核苷酸、BODIPY-FL-14-UTP、BODIPY-FL-4-UTP、BODIPY-TMR-14-UTP、BODIPY-TMR-14-dUTP、BODIPY-TR-14-UTP、BODIPY-TR-14-dUTP、Cascade Blue-7-UTP、Cascade Blue-7-dUTP、荧光素-12-UTP、荧光素-12-dUTP、Oregon Green 488-5-dUTP、罗丹明Green-5-UTP、罗丹明Green-5-dUTP、四甲基罗丹明-6-UTP、四甲基罗丹明-6-dUTP、Texas Red-5-UTP、TexasRed-5-dUTP和Texas Red-12-dUTP，获自Molecular Probes,Eugene,Oreg.。核苷酸也可以通过化学修饰来标记或标志。化学修饰的单核苷酸可以是生物素-dNTP。生物素化dNTP的一些非限制性实例可以包括生物素-dATP(例如，生物素-N6-ddATP、生物素-14-dATP)、生物素-dCTP(例如，生物素-11-dCTP、生物素-14-dCTP)和生物素-dUTP(例如，生物素-11-dUTP、生物素-16-dUTP、生物素-20-dUTP)。

术语“多核苷酸”、“寡核苷酸”和“核酸”可互换用于通常指任何长度的核苷酸的聚合物形式(脱氧核糖核苷酸或核糖核苷酸)或其类似物，无论呈单链、双链或多链形式。多核苷酸对于细胞可以是外源的或内源的。多核苷酸可以存在于无细胞环境中。多核苷酸可以是基因或其片段。多核苷酸可以是DNA。多核苷酸可以是RNA。多核苷酸可以具有任何三维结构，并且可以执行任何功能。多核苷酸可以包含一种或多种类似物(例如，改变的骨架、糖或核碱基)。如果存在，则可以在聚合物组装之前或之后赋予对核苷酸结构的修饰。类似物的一些非限制性实例包括：5-溴尿嘧啶、肽核酸、异种核酸、吗啉代、锁核酸、乙二醇核酸、苏阿糖核酸、双脱氧核苷酸、虫草素、7-脱氮-GTP、荧光团(例如，与糖连接的罗丹明或荧光素)、含硫醇的核苷酸、生物素连接的核苷酸、荧光碱基类似物、CpG岛、甲基-7-鸟苷、甲基化核苷酸、肌苷、硫尿苷、假尿苷、二氢尿苷、辫苷和怀俄苷。多核苷酸的非限制性实例包括基因或基因片段的编码或非编码区、由连锁分析所定义的基因座、外显子、内含子、信使RNA(mRNA)、转移RNA(tRNA)、核糖体RNA(rRNA)、短干扰RNA(siRNA)、短发夹RNA(shRNA)、微RNA(miRNA)、核酶、cDNA、重组多核苷酸、支链多核苷酸、质粒、载体、任何序列的分离的DNA、任何序列的分离的RNA、无细胞的多核苷酸包括无细胞DNA(cfDNA)和无细胞RNA(cfRNA)、核酸探针和引物。核苷酸的序列可以被非核苷酸组分中断。

术语“转染”或“转染的”通常是指通过基于非病毒或基于病毒的方法将核酸引入细胞中。核酸分子可以是编码完整蛋白质或其功能部分的基因序列。参见，例如Sambrook等人,1989,Molecular Cloning:ALaboratory Manual,18.1-18.88。

术语“肽”、“多肽”和“蛋白质”在本文中可互换用于通常指通过一个或多个肽键接合的至少两个氨基酸残基的聚合物。此术语不意味聚合物的特定长度，也不旨在暗示或区分肽是使用重组技术、化学或酶合成产生的，或天然存在的。所述术语适用于天然存在的氨基酸聚合物以及包含至少一个修饰氨基酸的氨基酸聚合物。在一些情况下，聚合物可以被非氨基酸中断。所述术语包括任何长度的氨基酸链，包括全长蛋白质，以及具有或没有二级和/或三级结构(例如，结构域)的蛋白质。所述术语还涵盖已例如通过二硫键形成、糖基化、脂化、乙酰化、磷酸化、氧化和任何其他操纵，诸如与标记组分的缀合来修饰的氨基酸聚合物。如本文所用，术语“氨基酸(amino acid)”和“氨基酸(amino acids)”通常是指天然氨基酸和非天然氨基酸，包括但不限于修饰氨基酸和氨基酸类似物。修饰氨基酸可以包括天然氨基酸和非天然氨基酸，它们被化学修饰成包括非天然存在于氨基酸上的基团或化学部分。氨基酸类似物可以是指氨基酸衍生物。术语“氨基酸”包括D-氨基酸和L-氨基酸。

如本文所用，“非原生”通常可以是指在原生核酸或蛋白质中未见到的核酸或多肽序列。非原生可以是指亲和标签。非原生可以是指融合物。非原生可以是指包含突变、插入和/或缺失的天然存在的核酸或多肽序列。非原生序列可以呈现和/或编码一种活性(如酶活性、甲基转移酶活性、乙酰转移酶活性、激酶活性、泛素化活性等)，而非原生序列所融合的核酸和/或多肽序列也可以呈现这种活性。非原生核酸或多肽序列可通过基因工程与天然存在的核酸或多肽序列(或其变体)连接，以生成编码嵌合核酸和/或多肽的嵌合核酸和/或多肽序列。

如本文所用，术语“启动子”通常是指DNA调控区域，其控制基因的转录或表达，并且可以位于核苷酸或核苷酸的起始RNA转录的区域附近或与其重叠。启动子可以含有结合通常被称为转录因子的蛋白质因子的特定DNA序列，所述蛋白质因子促进RNA聚合酶与DNA的结合，引起基因转录。‘基础启动子’，也被称为‘核心启动子’，通常可以是指含有促进可操作连接的多核苷酸的转录表达的所有基本必要元件的启动子。真核生物基础启动子通常但不一定含有TATA盒和/或CAAT盒。

如本文所用，术语“表达”通常是指核酸序列或多核苷酸从DNA模板转录(诸如转录成mRNA或其他RNA转录物)的过程和/或转录的mRNA随后翻译成肽、多肽或蛋白质的过程。转录物和编码的多肽可以统称为“基因产物”。如果多核苷酸衍生自基因组DNA，则在真核细胞中的表达可以包括mRNA的剪接。

如本文所用，“可操作连接的”、“可操作连接”、“可操作地连接的”或其语法等同词通常是指基因元件例如启动子、增强子、多腺苷酸化序列等的并置，其中各元件处于允许它们以预期方式操作的关系中。例如，调控元件可以包括启动子和/或增强子序列，如果调控元件帮助起始编码序列的转录，则调控元件可操作地连接到编码区。在调控元件与编码区之间可能存在间插残基，只要维持这种功能关系即可。

如本文所用，“载体”通常是指包含多核苷酸或与多核苷酸缔合并且可以用于介导多核苷酸向细胞的递送的大分子或大分子缔合物。载体的实例包括质粒、病毒载体、脂质体和其他基因递送媒介物。载体通常包括遗传元件，例如调控元件，它们可操作地连接到基因上，以促进基因在靶标中的表达。

如本文所用，“表达盒”和“核酸盒”可互换使用，通常是指一起表达或可操作连接以便表达的核酸序列或元件的组合。在一些情况下，表达盒是指调控元件与一个或多个同它们可操作连接以便表达的基因的组合。

DNA或蛋白质序列的“功能片段”通常是指保留生物活性(功能或结构)的片段，其生物活性与全长DNA或蛋白质序列的生物活性基本上相似。DNA序列的生物活性可能是它以一种已知的可归因于全长序列的方式影响表达的能力。

如本文所用，“工程化”对象通常表示所述对象已通过人为干预被修饰。根据非限制性实例：核酸可以通过将其序列改变成自然界中不存在的序列来修饰；核酸可以被修饰，方法是将其连接到与它在自然界中不相缔合的核酸上，使得所连接的产物具有原核酸中不存在的功能；工程化核酸可以在体外合成，其序列在自然界中不存在；蛋白质可以通过将其氨基酸序列改变成自然界中不存在的序列来进行修饰；工程化蛋白可以获得新的功能或性质。“工程化”系统包含至少一种工程化组分。

如本文所用，“合成的”和“人工的”可互换使用，是指与天然存在的人类蛋白质具有低序列同一性(例如，小于50％的序列同一性、小于25％的序列同一性、小于10％的序列同一性、小于5％的序列同一性、小于1％的序列同一性)的蛋白质或其结构域。例如，VPR和VP64结构域是合成的反式激活结构域。

如本文所用，术语“tracrRNA”或“tracr序列”通常可以是指与野生型示例性tracrRNA序列(例如，来自化脓性金黄色葡萄球菌等的tracrRNA)具有至少约5％、10％、20％、30％、40％、50％、60％、70％、80％、90％、95％或100％序列同一性和/或序列相似性的核酸。tracrRNA可以是指与野生型示例性tracrRNA序列(例如，来自化脓性金黄色葡萄球菌等的tracrRNA)具有至多约5％、10％、20％、30％、40％、50％、60％、70％、80％、90％或100％序列同一性和/或序列相似性的核酸。tracrRNA可以是指tracrRNA的修饰形式，其可以包括核苷酸的变化，诸如缺失、插入或取代、变体、突变或嵌合体。tracrRNA可以是指在至少6个连续核苷酸段上与野生型示例性tracrRNA(例如，来自化脓性金黄色葡萄球菌等的tracrRNA)序列具有至少约60％同一性的核酸。例如，tracrRNA序列可以在至少6个连续核苷酸段上与野生型示例性tracrRNA(例如，来自化脓性金黄色葡萄球菌等的tracrRNA)序列具有至少约60％同一性、至少约65％同一性、至少约70％同一性、至少约75％同一性、至少约80％同一性、至少约85％同一性、至少约90％同一性、至少约95％同一性、至少约98％同一性、至少约99％同一性或100％同一性。II型tracrRNA序列可以通过在相邻CRISPR阵列中鉴定与部分重复序列互补的区域在基因组序列上被预测。

如本文所用，“向导核酸”通常可以是指可以与另一核酸杂交的核酸。向导核酸可以是RNA。向导核酸可以是DNA。向导核酸可以被编程为与核酸序列以位点特异性的方式结合。待靶向的核酸或靶核酸可以包含核苷酸。向导核酸可以包含核苷酸。靶核酸的一部分可以与向导核酸的一部分互补。双链靶多核苷酸与向导核酸互补并杂交的链可以称为互补链。双链靶多核苷酸与互补链互补并且因此可能不与向导核酸互补的链可以称为非互补链。向导核酸可以包含一条多核苷酸链并且可以称为“单向导核酸”。向导核酸可以包含两条多核苷酸链并且可以称为“双向导核酸”。如果没有另外规定，则术语“向导核酸”可以是包含性的，指代单向导核酸和双向导核酸两者。向导核酸可以包含可以称为“核酸靶向区段”或“核酸靶向序列”的区段。核酸靶向区段可以包含可以称为“蛋白质结合区段”、或“蛋白质结合序列”、或“Cas蛋白结合区段”的子区段。

术语“序列同一性”或“同一性百分比”在两个或更多个核酸或多肽序列的背景下，通常是指在局部或全局比较窗口上进行最大对应性比较和比对时，两个(例如，在成对比对中)或更多个(例如，在多重序列比对中)相同或具有指定百分比的相同氨基酸残基或核苷酸的序列，如使用序列比较算法所测量。适用于多肽序列的序列比较算法包括例如BLASTP，使用以下参数：字长(W)为3，期望值(E)为10，并且BLOSUM62评分矩阵设置缺口存在成本为11，延伸值为1，并使用条件组成评分矩阵调整，针对大于30个残基的多肽序列；BLASTP，使用以下参数：字长(W)为2，期望值(E)为1000000，并且PAM30评分矩阵设置缺口成本对于开放缺口为9，而对于延伸缺口为1，针对小于30个残基的序列(这些是在https://blast.ncbi.nlm.nih.gov处获得的BLAST套件中BLASTP的默认参数)；CLUSTALW，采用史密斯-沃特曼同源性搜索算法参数：匹配值为2，错配值为-1，并且缺口为-1；采用默认参数的MUSCLE；MAFFT，采用的参数是retree为2且最大迭代次数为1000；采用默认参数的Novafold；采用默认参数的HMMER hmmalign。

如本文所用，术语“RuvC_III结构域”通常是指RuvC核酸内切酶结构域的第三不连续区段(RuvC核酸酶结构域包含三个不连续区段，即RuvC_I、RuvC_II和RuvC_III)。RuvC结构域或其区段通常可以通过与已知结构域序列的比对、与具有注释结构域的蛋白质的结构比对或通过与基于已知结构域序列(例如，RuvC_III的Pfam HMM PF18541)构造的HiddenMarkov模型(HMM)的比较来鉴定。

如本文所用，术语“HNH结构域”通常是指具有特征性组氨酸和天冬酰胺残基的核酸内切酶结构域。HNH结构域通常可以通过与已知结构域序列的比对、与具有注释结构域的蛋白质的结构比对或通过与基于已知结构域序列(例如，结构域HNH的Pfam HMM PF01844)构造的Hidden Markov模型(HMM)的比较来鉴定。

如本文所用，术语“碱基编辑器”通常是指催化一个靶碱基或碱基对转化为另一个碱基或碱基对(例如，A:T向G:C、C:G向T:A)而不需要产生和修复双链断裂的酶。在一些实施方案中，所述碱基编辑器是脱氨酶。

如本文所用，术语“脱氨酶”通常是指催化脱氨反应的蛋白质或酶。在一些实施方案中，所述脱氨酶是腺苷脱氨酶，其催化腺嘌呤或腺苷的水解脱氨(例如，使DNA中的腺苷脱氨的工程化腺苷脱氨酶)。在一些实施方案中，所述脱氨酶或脱氨酶结构域是胞苷(或胞嘧啶)脱氨酶，分别催化胞苷(或胞嘧啶)或脱氧胞苷水解脱氨为尿苷(或尿嘧啶)或脱氧尿苷。在一些实施方案中，所述脱氨酶或脱氨酶结构域是胞苷(或胞嘧啶)脱氨酶结构域，催化胞嘧啶(或胞嘧啶)水解脱氨为尿嘧啶(或尿苷)。在一些实施方案中，脱氨酶或脱氨酶结构域是来自生物体(诸如人、黑猩猩、大猩猩、猴、牛、狗、大鼠、小鼠或细菌(例如，大肠杆菌))的天然存在的脱氨酶。在一些实施方案中，脱氨酶或脱氨酶结构域是来自生物体的天然存在的脱氨酶的变体，其在自然界中不存在。

在两种或更多种核酸或多肽序列的背景下，术语“最佳比对”通常是指两个(例如，在成对比对中)或更多个(例如，在多序列比对中)序列已经比对到氨基酸残基或核苷酸的最大对应关系，例如，如通过产生最高或“优化”同一性百分比分数的比对确定。

本公开中包括具有一个或多个保守氨基酸取代的本文所述的任一种酶的变体。此类保守取代可以在多肽的氨基酸序列中进行，而不会破坏多肽的三维结构或功能。保守取代可以通过将疏水性、极性和R链长度相似的氨基酸相互取代来实现。另外或可替代地，通过比较来自不同物种的同源蛋白质的比对序列，可以在不改变所编码蛋白质的基本功能的情况下，通过定位在物种之间发生突变的氨基酸残基(例如，非保守残基)来鉴定保守取代。此类保守取代的变体可以包括与本文所述的任一种核酸内切酶蛋白质序列具有以下同一性的变体：至少约20％、至少约25％、至少约30％、至少约35％、至少约40％、至少约45％、至少约50％、至少约55％、至少约60％、至少约65％、至少约70％、至少约75％、至少约80％、至少约85％、至少约90％、至少约91％、至少约92％、至少约93％、至少约94％、至少约95％、至少约96％、至少约97％、至少约98％、至少约99％。在一些实施方案中，此类保守取代的变体是功能变体。此类功能变体可以涵盖以下序列，所述序列具有取代，使得核酸内切酶的一个或多个关键活性位点残基或向导RNA结合残基的活性不会被破坏。

本公开还包括了本文所述的任一种酶的变体，其具有一个或多个催化残基的取代以降低或消除酶的活性(例如，活性降低的变体)。在一些实施方案中，作为本文所述的蛋白质的活性降低的变体包含至少一个、至少两个或全部三个催化残基的破坏性取代。在一些实施方案中，本文所述的任一种核酸内切酶可以包含切口酶突变。在一些实施方案中，本文所述的任一种核酸内切酶可以包含缺乏核酸酶活性的RuvC结构域。在一些实施方案中，本文所述的任一种核酸内切酶可以被配置为切割双链靶脱氧核糖核酸的一条链。在一些实施方案中，本文所述的任一种核酸内切酶可以被配置为缺乏核酸内切酶活性或者是催化失活的。

提供功能相似的氨基酸的保守取代表可从多种参考文献中获得(参见，例如Creighton,Proteins:Structures and Molecular Properties(W H Freeman&Co.；第2版(1993年12月)))。以下八个组各自含有彼此为保守取代的氨基酸：

1)丙氨酸(A)、甘氨酸(G)；

2)天冬氨酸(D)、谷氨酸(E)；

3)天冬酰胺(N)、谷氨酰胺(Q)；

4)精氨酸(R)、赖氨酸(K)；

5)异亮氨酸(I)、亮氨酸(L)、甲硫氨酸(M)、缬氨酸(V)；

6)苯丙氨酸(F)、酪氨酸(Y)、色氨酸(W)；

7)丝氨酸(S)、苏氨酸(T)；以及

8)半胱氨酸(C)、甲硫氨酸(M)

概述

具有独特功能和结构的新Cas酶的发现可以提供进一步破坏脱氧核糖核酸(DNA)编辑技术的潜力，提高了速度、特异性、功能和易用性。相对于簇状规则间隔短回文重复序列(CRISPR)系统在微生物中的预测流行率和微生物物种的纯粹多样性，在文献中相对很少有功能特征的CRISPR/Cas酶存在。这在一定程度上是因为大量的微生物物种可能不容易在实验室条件下培养。从含有大量微生物物种的自然环境生态位中进行宏基因组测序，可能会大幅增加已知的新CRISPR/Cas系统的数量，并加速发现新的寡核苷酸编辑功能。2016年，通过对自然微生物群落的宏基因组分析，发现了CasX/CasY CRISPR系统，这是近期证明这种方法成果的一个实例。

CRISPR/Cas系统是RNA定向的核酸酶复合物，其被描述为充当微生物中的适应性免疫系统。在其自然背景下，CRISPR/Cas系统出现在CRISPR(簇状规则间隔短回文重复序列)操作子或基因座中，其通常包含两个部分：(i)一组短重复序列(30-40bp)，由同样短的间隔子序列隔开，其编码基于RNA的靶向元件；和(ii)编码Cas的ORF，所述Cas编码由基于RNA的靶向元件和辅助蛋白/酶指导的核酸酶多肽。特定的靶核酸序列的有效核酸酶靶向通常需要：(i)靶标(靶种子)的开头6-8个核酸与crRNA向导之间的互补杂交；以及(ii)在靶种子的限定范围内存在原间隔子相邻基序(PAM)序列(PAM通常是宿主基因组中不常见的序列)。取决于系统的确切功能和组织，CRISPR-Cas系统通常基于共享的功能特征和进化相似性分为2类、5型和16个亚型(参见图1)。

I类CRISPR-Cas系统具有大型多亚基效应子复合物，并且包括I型、III型和IV型。

I型CRISPR-Cas系统在组分方面被认为具有中等复杂性。在I型CRISPR-Cas系统中，RNA靶向元件的阵列被转录成长前体crRNA(crRNA前体)，所述前体在重复元件处被加工以释放出短的、成熟的crRNA，当它们后接有一个称为原间隔子相邻基序(PAM)的合适的短共有序列时，所述crRNA将核酸酶复合物导向核酸靶标。此加工通过称为级联的大型核酸内切酶复合物的核糖核酸内切酶亚基(Cas6)进行，所述复合物还包含crRNA定向核酸酶复合物的核酸酶(Cas3)蛋白组分。Cas I核酸酶主要充当DNA核酸酶。

III型CRISPR系统的特征可以是存在称为Cas10的中央核酸酶，以及包含Csm或Cmr蛋白亚基的重复相关神秘蛋白(RAMP)。就像在I型系统中一样，成熟的crRNA是使用Cas6样酶从crRNA前体加工而来。与I型和II型系统不同，III型系统似乎靶向并切割DNA-RNA双链体(诸如DNA链被用作RNA聚合酶的模板)。

IV型CRISPR-Cas系统具有效应子复合物，它是由高度还原的大亚基核酸酶(csf1)、Cas5(csf3)和Cas7(csf2)组的RAMP蛋白的两个基因组成的，并且在一些情况下，还有所预测的小亚基的基因；此类系统通常见于内源性质粒上。

II类CRISPR-Cas系统通常具有单多肽多结构域核酸酶效应子，并且包括II型、V型和VI型。

II型CRISPR-Cas系统在组分方面被认为是最简单的。在II型CRISPR-Cas系统中，将CRISPR阵列加工成成熟的crRNA不需要特殊的核酸内切酶亚基的存在，而是需要小的反式编码crRNA(tracrRNA)，其区域与阵列重复序列互补；tracrRNA与对应的效应子核酸酶(例如Cas9)和重复序列相互作用，以形成前体dsRNA结构，所述结构被内源性RNAse III切割，生成装载有tracrRNA和crRNA两者的成熟效应子酶。Cas II核酸酶被称为DNA核酸酶。2型效应子通常表现为一种结构，所述结构由采用RNase H折叠的RuvC样核酸内切酶结构域组成，其中不相关的HNH核酸酶结构域插入RuvC样核酸酶结构域的折叠内。RuvC样结构域负责(例如，crRNA互补的)靶DNA链的切割，而HNH结构域负责移位DNA链的切割。

V型CRISPR-Cas系统的特征是类似于II型效应子的核酸酶效应子(例如，Cas12)结构，包含RuvC样结构域。与II型类似，大多数(但不是所有)V型CRISPR系统都使用tracrRNA将crRNA前体加工成为成熟的crRNA；然而，与II型系统不同，II型系统需要RNAse III将crRNA前体切割成多个crRNA，而V型系统能够使用效应子核酸酶本身来切割crRNA前体。与II型CRISPR-Cas系统一样，V型CRISPR-Cas系统又被称为DNA核酸酶。与II型CRISPR-Cas系统不同，一些V型酶(例如，Cas12a)似乎具有强大的单链非特异性脱氧核糖核酸酶活性，其可以通过双链靶序列的第一crRNA定向切割来激活。

VI型CRIPSR-Cas系统具有RNA导向的RNA核酸内切酶。VI型系统的单一多肽效应子(例如Cas13)包含两个HEPN核糖核酸酶结构域，而不是RuvC样结构域。与II型和V型系统都不同的是，VI型系统似乎也不需要tracrRNA来将crRNA前体加工成crRNA。然而，与V型系统类似，一些VI型系统(例如C2C2)似乎具有强大的单链非特异性核酸酶(核糖核酸酶)活性，其通过靶RNA的第一crRNA定向切割来激活。

由于其更简单的构架，II类CRISPR-Cas已被最广泛地应用于设计核酸酶/基因组编辑应用的工程化和开发中。

这种系统在体外使用的早期改编之一可以见于Jinek等人(Science.2012年8月17日；337(6096):816-21，其通过引用以其全文并入本文)中。Jinek的研究首先描述了一种系统，其涉及(i)重组表达的、纯化的全长Cas9(例如，II类II型Cas酶)，从化脓性链球菌SF370中分离，(ii)纯化的成熟的约42nt crRNA，携带有与靶DNA序列互补的约20nt 5’序列，所述靶DNA序列在3’tracr-结合序列之后被切割(整个crRNA在体外从载有T7启动子序列的合成DNA模板中转录)；(iii)纯化的tracrRNA，其在体外从载有T7启动子序列的合成DNA模板中转录，以及(iv)Mg²⁺。Jinek后来描述了一种改进的工程化系统，其中(ii)的crRNA通过接头(例如GAAA)与(iii)的5’末端接合，以形成单一稠合的合成向导RNA(sgRNA)，其能够自行将Cas9导向靶标。

Mali等人(Science.2013年2月15日；339(6121):823–826.)(通过引用以其全文并入本文)后来通过提供编码以下的DNA载体改编此系统在哺乳动物细胞中的使用：(i)在具有C端核定位序列(例如，SV40 NLS)的合适的哺乳动物启动子和合适的多腺苷酸化信号(例如，TK pA信号)下编码密码子优化的Cas9(例如，II类II型Cas酶)的ORF；以及(ii)在合适的聚合酶III启动子(例如，U6启动子)下编码sgRNA(具有从G开始的5’序列、后面是与3’tracr-结合序列接合的20nt互补靶向核酸序列、接头和tracrRNA序列)的ORF。

碱基编辑

碱基编辑是一个靶碱基或碱基对转化为另一个碱基或碱基对(例如，A:T向G:C、C:G向T:A)而不需要产生和修复双链断裂。碱基编辑可以在DNA和RNA碱基编辑器的帮助下实现，所述编辑器允许在DNA或RNA中的特定位点处引入点突变。通常，DNA碱基编辑器可以包含催化无活性核酸酶和仅作用于单链DNA(ssDNA)的催化活性碱基修饰酶的融合物。RNA碱基编辑器可以由类似的RNA特异性酶组成。碱基编辑可以增加基因修饰的效率，同时减少DNA中的脱靶突变和随机突变。

DNA碱基编辑器是工程化的核糖核蛋白复合物，其充当细胞和生物体中单碱基取代的工具。它们可以通过将工程化碱基修饰酶和催化缺陷的Cas变体融合来产生，所述变体不能切割dsDNA，但它能够以原间隔子相邻基序(PAM)序列依赖性方式展开dsDNA，使得向导RNA可以找到其互补靶标来指示ssDNA断裂位点。向导RNA退火到互补的DNA，置换ssDNA的一个片段并将Cas‘剪刀’引导至碱基修饰位点。细胞修复机器将使用来自互补编辑模板的信息来修复切口的未编辑链。

到目前为止，已经开发了两种类型的DNA编辑器，胞嘧啶碱基(CBE)和腺嘌呤碱基编辑器(ABE)。它们显示出可以在最少脱靶DNA编辑的情况下有效且精确地编辑DNA中的点突变(参见Nat Biotechnol.2017；35:435-437,Nat Biotechnol.2017；35:438-440and NatBiotechnol.2017；35:475-480，其中的每一个通过引用以其全文并入本文)。然而，最近的发现指示脱靶修饰存在于DNA中，并且许多脱靶修饰也由DNA碱基编辑器引入RNA中。

MG碱基编辑器

在一些方面，本公开提供了一种工程化核酸编辑系统，其包括：(a)包含RuvC结构域和HNH结构域的核酸内切酶，其中所述核酸内切酶来源于非培养的微生物，其中所述核酸内切酶是2类II型Cas核酸内切酶，并且其中所述核酸内切酶被配置为缺乏核酸酶活性；(b)与所述核酸内切酶偶联的碱基编辑器；和(c)被配置为与所述核酸内切酶形成复合物的工程化向导核糖核酸结构，所述工程化向导核糖核酸结构包含：(i)被配置为与靶脱氧核糖核酸序列杂交的向导核糖核酸序列；和(ii)被配置为与所述核酸内切酶结合的核糖核酸序列。在一些实施方案中，所述核酸内切酶包含与SEQ ID NO:70-78或597中的任一个或其变体具有至少80％、至少81％、至少82％、至少83％、至少84％、至少85％、至少86％、至少87％、至少88％、至少89％、至少90％、至少91％、至少92％、至少93％、至少94％、至少95％、至少96％、至少97％、至少98％、至少99％或100％序列同一性的序列。在一些情况下，所述RuvC结构域缺乏核酸酶活性。在一些情况下，所述核酸内切酶包含切口酶突变。在一些情况下，所述核酸内切酶被配置为切割双链靶脱氧核糖核酸的一条链。在一些情况下，被配置为与所述核酸内切酶结合的所述核糖核酸序列包含tracr序列。

在一些方面，本公开提供了一种工程化核酸编辑系统，其包括：(a)与SEQ ID NO:70-78或597中的任一个或其变体具有至少80％、至少81％、至少82％、至少83％、至少84％、至少85％、至少86％、至少87％、至少88％、至少89％、至少90％、至少91％、至少92％、至少93％、至少94％、至少95％、至少96％、至少97％、至少98％、至少99％或100％序列同一性的核酸内切酶，其中所述核酸内切酶被配置为缺乏核酸酶活性；与所述核酸内切酶偶联的碱基编辑器；和被配置为与所述核酸内切酶形成复合物的工程化向导核糖核酸结构，所述工程化向导核糖核酸结构包含：(i)被配置为与靶脱氧核糖核酸序列杂交的向导核糖核酸序列；和(ii)被配置为与所述核酸内切酶结合的核糖核酸序列。在一些情况下，被配置为与所述核酸内切酶结合的所述核糖核酸序列包含tracr序列。在一些情况下，所述RuvC结构域缺乏核酸酶活性。在一些情况下，所述核酸内切酶包含切口酶突变。在一些情况下，所述核酸内切酶被配置为切割双链靶脱氧核糖核酸的一条链。

在一些方面，本公开提供了一种工程化核酸编辑系统，其包括：(a)被配置为与原间隔子相邻基序(PAM)序列结合的核酸内切酶，所述原间隔子相邻基序序列包含SEQ IDNO:360-368或598中的任一个，其中所述核酸内切酶是2类II型Cas核酸内切酶，并且所述核酸内切酶被配置为缺乏核酸酶活性；和(b)与所述核酸内切酶偶联的碱基编辑器；和(c)被配置为与所述核酸内切酶形成复合物的工程化向导核糖核酸结构，所述工程化向导核糖核酸结构包含：(i)被配置为与靶脱氧核糖核酸序列杂交的向导核糖核酸序列；和(ii)被配置为与所述核酸内切酶结合的核糖核酸序列。在一些情况下，被配置为与所述核酸内切酶结合的所述核糖核酸序列包含tracr序列。在一些情况下，所述核酸内切酶包含切口酶突变。在一些情况下，所述RuvC结构域缺乏核酸酶活性。在一些情况下，所述核酸内切酶被配置为切割双链靶脱氧核糖核酸的一条链。

在一些实施方案中，所述核酸内切酶来源于非培养的微生物。在一些实施方案中，所述核酸内切酶与Cas9核酸内切酶具有小于80％的同一性。在一些实施方案中，所述核酸内切酶还包含HNH结构域。在一些实施方案中，所述tracr核糖核酸序列包含与选自SEQ IDNO:88-96或488-489中的任一个或其变体的约60至90个连续核苷酸具有至少80％、至少81％、至少82％、至少83％、至少84％、至少85％、至少86％、至少87％、至少88％、至少89％、至少90％、至少91％、至少92％、至少93％、至少94％、至少95％、至少96％、至少97％、至少98％、至少99％或100％序列同一性的序列。在一些实施方案中，所述tracr核糖核酸序列包含与SEQ ID NO:88-96或488-489中任一个或其变体的非简并核苷酸具有至少80％、至少81％、至少82％、至少83％、至少84％、至少85％、至少86％、至少87％、至少88％、至少89％、至少90％、至少91％、至少92％、至少93％、至少94％、至少95％、至少96％、至少97％、至少98％、至少99％或100％序列同一性的序列。

在一些方面，本公开提供了一种工程化核酸编辑系统，其包括(a)工程化向导核糖核酸结构，所述工程化向导核糖核酸结构包含：(i)被配置为与靶脱氧核糖核酸序列杂交的向导核糖核酸序列；和(ii)被配置为与所述核酸内切酶结合的tracr核糖核酸序列，其中所述tracr核糖核酸序列包含与SEQ ID NO:88-96或488-489中任一个或其变体的非简并核苷酸具有至少80％、至少81％、至少82％、至少83％、至少84％、至少85％、至少86％、至少87％、至少88％、至少89％、至少90％、至少91％、至少92％、至少93％、至少94％、至少95％、至少96％、至少97％、至少98％、至少99％或100％序列同一性的序列；和被配置为与所述工程化向导核糖核酸结合的2类II型Cas核酸内切酶。

在一些实施方案中，所述核酸内切酶被配置为与原间隔子相邻基序(PAM)序列结合，所述原间隔子相邻基序序列包含SEQ ID NO:360、362或368中的任一个。在一些实施方案中，所述碱基编辑器包含与SEQ ID NO:1-51、57-66、385-443、444-475或594-595中的任一个或其变体具有至少80％、至少81％、至少82％、至少83％、至少84％、至少85％、至少86％、至少87％、至少88％、至少89％、至少90％、至少91％、至少92％、至少93％、至少94％、至少95％、至少96％、至少97％、至少98％、至少99％或100％序列同一性的序列。在一些实施方案中，所述碱基编辑器是腺嘌呤脱氨酶。在一些实施方案中，所述腺苷脱氨酶包含与SEQ ID NO:50-51、57、385-443、448-475或595或其变体具有至少80％、至少81％、至少82％、至少83％、至少84％、至少85％、至少86％、至少87％、至少88％、至少89％、至少90％、至少91％、至少92％、至少93％、至少94％、至少95％、至少96％、至少97％、至少98％、至少99％或100％序列同一性的序列。在一些实施方案中，所述碱基编辑器是胞嘧啶脱氨酶。在一些实施方案中，所述胞嘧啶脱氨酶包含与SEQ ID NO:1-49、444-447、594或58-66中的任一个或其变体具有至少80％、至少81％、至少82％、至少83％、至少84％、至少85％、至少86％、至少87％、至少88％、至少89％、至少90％、至少91％、至少92％、至少93％、至少94％、至少95％、至少96％、至少97％、至少98％、至少99％或100％序列同一性的序列。

在一些实施方案中，所述工程化核酸编辑系统还包括尿嘧啶DNA糖基化酶抑制剂。在一些实施方案中，所述尿嘧啶DNA糖基化酶抑制剂包含与SEQ ID NO:52-56或SEQ ID NO:67中的任一个或其变体具有至少80％、至少81％、至少82％、至少83％、至少84％、至少85％、至少86％、至少87％、至少88％、至少89％、至少90％、至少91％、至少92％、至少93％、至少94％、至少95％、至少96％、至少97％、至少98％、至少99％或100％序列同一性的序列。

在一些实施方案中，所述工程化向导核糖核酸结构包含至少两种核糖核酸多核苷酸。在一些实施方案中，所述工程化向导核糖核酸结构包含一种核糖核酸多核苷酸，所述核糖核酸多核苷酸包含所述向导核糖核酸序列和所述tracr核糖核酸序列。在一些实施方案中，所述向导核糖核酸序列与原核、细菌、古细菌、真核、真菌、植物、哺乳动物或人类基因组序列互补。在一些实施方案中，所述向导核糖核酸序列的长度是15-24个核苷酸。在一些实施方案中，所述核酸内切酶包含在所述核酸内切酶的N或C末端近侧的一个或多个核定位序列(NLS)。

所述NLS可以包含下表1中的任何序列或其组合：

表1：根据本公开可以与Cas效应子一起使用的示例性NLS序列

在一些实施方案中，所述核酸内切酶直接与所述碱基编辑器共价偶联或通过接头与所述碱基编辑器共价偶联。在一些实施方案中，接合本文所述的任一种酶或结构域的接头可以包含与SGGSSGGSSGSETPGTSESATPESSGGSSGGS、SGSETPGTSESATPESA、GSGGS、SGSETPGTSESATPES、SGGSS或GAAA或本文所述的任何其他接头序列具有至少80％、至少81％、至少82％、至少83％、至少84％、至少85％、至少86％、至少87％、至少88％、至少89％、至少90％、至少91％、至少92％、至少93％、至少94％、至少95％、至少96％、至少97％、至少98％、至少99％或100％序列同一性的序列的一个或多个拷贝。在一些实施方案中，多肽包含所述核酸内切酶和所述碱基编辑器。在一些实施方案中，所述核酸内切酶被配置为切割双链靶脱氧核糖核酸的一条链。在一些实施方案中，所述核酸内切酶包含与SEQ ID NO:70-78或597中的任一个或其变体具有至少80％、至少81％、至少82％、至少83％、至少84％、至少85％、至少86％、至少87％、至少88％、至少89％、至少90％、至少91％、至少92％、至少93％、至少94％、至少95％、至少96％、至少97％、至少98％、至少99％或100％序列同一性的序列。在一些实施方案中，所述系统还包括Mg²⁺源。

在一些实施方案中，所述核酸内切酶包含与SEQ ID NO:70或其变体具有至少70％、至少80％或至少90％同一性的序列；所述向导RNA结构包含与SEQ ID NO:88中的至少一个具有至少70％、至少80％或至少90％同一性的序列；并且所述核酸内切酶被配置为与包含SEQ ID NO:360的PAM结合。

在一些实施方案中，所述核酸内切酶包含与SEQ ID NO:71或其变体具有至少70％、至少80％或至少90％同一性的序列；所述向导RNA结构包含与SEQ ID NO:89中的至少一个具有至少70％、至少80％或至少90％同一性的序列；并且所述核酸内切酶被配置为与包含SEQ ID NO:361的PAM结合。

在一些实施方案中，所述核酸内切酶包含与SEQ ID NO:73或其变体具有至少70％、至少80％或至少90％同一性的序列；所述向导RNA结构包含与SEQ ID NO:91中的至少一个具有至少70％、至少80％或至少90％同一性的序列；并且所述核酸内切酶被配置为与包含SEQ ID NO:363的PAM结合。

在一些实施方案中，所述核酸内切酶包含与SEQ ID NO:75或其变体具有至少70％、至少80％或至少90％同一性的序列；所述向导RNA结构包含与SEQ ID NO:93中的至少一个具有至少70％、至少80％或至少90％同一性的序列；并且所述核酸内切酶被配置为与包含SEQ ID NO:365的PAM结合。

在一些实施方案中，所述核酸内切酶包含与SEQ ID NO:76或其变体具有至少70％、至少80％或至少90％同一性的序列；所述向导RNA结构包含与SEQ ID NO:94中的至少一个具有至少70％、至少80％或至少90％同一性的序列；并且所述核酸内切酶被配置为与包含SEQ ID NO:366的PAM结合。

在一些实施方案中，所述核酸内切酶包含与SEQ ID NO:77或其变体具有至少70％、至少80％或至少90％同一性的序列；所述向导RNA结构包含与SEQ ID NO:95中的至少一个具有至少70％、至少80％或至少90％同一性的序列；并且所述核酸内切酶被配置为与包含SEQ ID NO:367的PAM结合。

在一些实施方案中，所述核酸内切酶包含与SEQ ID NO:78或其变体具有至少70％、至少80％或至少90％同一性的序列；所述向导RNA结构包含与SEQ ID NO:96中的至少一个具有至少70％、至少80％或至少90％同一性的序列；并且所述核酸内切酶被配置为与包含SEQ ID NO:368的PAM结合。

在一些实施方案中，所述碱基编辑器包含腺嘌呤脱氨酶。在一些实施方案中，所述腺嘌呤脱氨酶包含SEQ ID NO:57或其变体。在一些实施方案中，所述碱基编辑器包含胞嘧啶脱氨酶。在一些实施方案中，所述胞嘧啶脱氨酶包含SEQ ID NO:58或其变体。在一些实施方案中，本文所述的工程化核酸编辑系统还包括尿嘧啶DNA糖基化抑制剂。在一些实施方案中，所述尿嘧啶DNA糖基化抑制剂包含SEQ ID NO:67或其变体。

在一些方面，本公开提供了一种核酸，其包含被优化以用于在生物体中表达的工程化核酸序列，其中所述核酸编码与SEQ ID NO:70-78或597中的任一个或其变体具有至少70％、至少80％、至少81％、至少82％、至少83％、至少84％、至少85％、至少86％、至少87％、至少88％、至少89％、至少90％、至少91％、至少92％、至少93％、至少94％、至少95％、至少96％、至少97％、至少98％、至少99％或100％序列同一性的核酸内切酶，所述核酸内切酶与碱基编辑器偶联。在一些实施方案中，所述核酸内切酶包含序列，所述序列编码在所述核酸内切酶的N或C末端近侧的一个或多个核定位序列(NLS)。在一些实施方案中，所述生物体是原核生物、细菌、真核生物、真菌、植物、哺乳动物、啮齿动物或人类。

在一些实施方案中，所述包含RuvC结构域和HNH结构域的核酸内切酶直接与所述碱基编辑器共价偶联或通过接头与所述碱基编辑器共价偶联。在一些实施方案中，所述包含RuvC结构域和HNH结构域的核酸内切酶包含与SEQ ID NO:70-78或597中的任一个或其变体具有至少80％、至少81％、至少82％、至少83％、至少84％、至少85％、至少86％、至少87％、至少88％、至少89％、至少90％、至少91％、至少92％、至少93％、至少94％、至少95％、至少96％、至少97％、至少98％、至少99％或100％序列同一性的序列。

在一些方面，本公开提供了一种用于修饰双链脱氧核糖核酸多核苷酸的方法，所述方法包括使所述双链脱氧核糖核酸多核苷酸与复合物接触，所述复合物包含：2类II型Cas核酸内切酶，与所述核酸内切酶偶联的碱基编辑器，和被配置为与所述核酸内切酶和所述双链脱氧核糖核酸多核苷酸结合的工程化向导核糖核酸结构；其中所述双链脱氧核糖核酸多核苷酸包含原间隔子相邻基序(PAM)；并且其中所述PAM包含选自SEQ ID NO:360-368或598的序列或其变体。

在一些实施方案中，所述2类II型Cas核酸内切酶与所述碱基编辑器共价偶联或通过接头与所述碱基编辑器偶联。在一些实施方案中，所述碱基编辑器包含与选自SEQ IDNO:1-51、57-66、385-443、444-475或594-595的序列或其变体具有至少80％、至少81％、至少82％、至少83％、至少84％、至少85％、至少86％、至少87％、至少88％、至少89％、至少90％、至少91％、至少92％、至少93％、至少94％、至少95％、至少96％、至少97％、至少98％、至少99％或100％序列同一性的序列。在一些实施方案中，所述碱基编辑器包含腺嘌呤脱氨酶；所述双链脱氧核糖核酸多核苷酸包含腺嘌呤；并且修饰所述双链脱氧核糖核酸多肽包括将所述腺嘌呤转化为鸟嘌呤。在一些实施方案中，所述腺嘌呤脱氨酶包含与SEQ ID NO:57或其变体具有至少95％同一性的序列。

在一些实施方案中，所述碱基编辑器包含胞嘧啶脱氨酶；所述双链脱氧核糖核酸多核苷酸包含胞嘧啶；并且修饰所述双链脱氧核糖核酸多肽包括将所述胞嘧啶转化为尿嘧啶。在一些实施方案中，所述胞嘧啶脱氨酶包含与SEQ ID NO:58或其变体具有至少95％同一性的序列。在一些实施方案中，所述胞嘧啶脱氨酶包含与SEQ ID NO:59-66中的任一个或其变体具有至少95％同一性的序列。

在一些实施方案中，所述复合物还包含尿嘧啶DNA糖基化酶抑制剂。在一些实施方案中，所述尿嘧啶DNA糖基化酶抑制剂包含与SEQ ID NO:52-56或SEQ ID NO:67中的任一个或其变体具有至少70％、80％、90％或95％同一性的序列。在一些实施方案中，所述双链脱氧核糖核酸多核苷酸包含第一链，所述第一链包含与所述工程化向导核糖核酸结构的序列互补的序列；和第二链，所述第二链包含所述PAM。在一些实施方案中，所述PAM直接与和所述工程化向导核糖核酸结构的所述序列互补的所述序列的3’末端相邻。

在一些方面，本公开提供了一种工程化核酸编辑多肽，其包含：包含RuvC结构域和HNH结构域的核酸内切酶，其中所述核酸内切酶来源于非培养的微生物，其中所述核酸内切酶是2类II型Cas核酸内切酶，并且其中所述核酸内切酶被配置为缺乏核酸酶活性。在一些实施方案中，所述核酸内切酶包含与SEQ ID NO:70-78或597中的任一个或其变体具有至少80％、至少81％、至少82％、至少83％、至少84％、至少85％、至少86％、至少87％、至少88％、至少89％、至少90％、至少91％、至少92％、至少93％、至少94％、至少95％、至少96％、至少97％、至少98％、至少99％或100％序列同一性的序列。

在一些方面，本公开提供了一种工程化核酸编辑多肽，其包含：与SEQ ID NO:70-78或597中的任一个或其变体具有至少80％、至少81％、至少82％、至少83％、至少84％、至少85％、至少86％、至少87％、至少88％、至少89％、至少90％、至少91％、至少92％、至少93％、至少94％、至少95％、至少96％、至少97％、至少98％、至少99％或100％序列同一性的核酸内切酶，其中所述核酸内切酶被配置为缺乏核酸酶活性；和与所述核酸内切酶偶联的碱基编辑器。

在一些方面，本公开提供了一种工程化核酸编辑多肽，其包含：被配置为与原间隔子相邻基序(PAM)序列结合的核酸内切酶，所述原间隔子相邻基序序列包含SEQ ID NO:360-368或598中的任一个，其中所述核酸内切酶是2类II型Cas核酸内切酶，并且其中所述核酸内切酶被配置为缺乏核酸酶活性；和与所述核酸内切酶偶联的碱基编辑器。

在一些实施方案中，所述核酸内切酶来源于非培养的微生物。在一些实施方案中，所述核酸内切酶与Cas9核酸内切酶具有小于80％的同一性。在一些实施方案中，所述核酸内切酶还包含HNH结构域。在一些实施方案中，被配置为结合所述核酸内切酶的所述核糖核酸序列包含与选自SEQ ID NO:88-96或488-489中的任一个或其变体的约60至90个连续核苷酸具有至少80％、至少81％、至少82％、至少83％、至少84％、至少85％、至少86％、至少87％、至少88％、至少89％、至少90％、至少91％、至少92％、至少93％、至少94％、至少95％、至少96％、至少97％、至少98％、至少99％或100％序列同一性的序列。在一些实施方案中，被配置为结合所述核酸内切酶的所述核糖核酸序列包含与选自SEQ ID NO:88-96或488-489中的任一个或其变体的非简并核苷酸具有至少80％、至少81％、至少82％、至少83％、至少84％、至少85％、至少86％、至少87％、至少88％、至少89％、至少90％、至少91％、至少92％、至少93％、至少94％、至少95％、至少96％、至少97％、至少98％、至少99％或100％序列同一性的序列。在一些实施方案中，所述碱基编辑器包含与SEQ ID NO:70-78或597中的任一个或其变体具有至少70％、至少80％、至少81％、至少82％、至少83％、至少84％、至少85％、至少86％、至少87％、至少88％、至少89％、至少90％、至少91％、至少92％、至少93％、至少94％、至少95％、至少96％、至少97％、至少98％、至少99％或100％序列同一性的序列。在一些实施方案中，所述碱基编辑器是腺嘌呤脱氨酶。在一些实施方案中，所述腺苷脱氨酶包含与SEQ ID NO:50-51、57、385-443、448-475或595中的任一个或其变体具有至少80％、至少81％、至少82％、至少83％、至少84％、至少85％、至少86％、至少87％、至少88％、至少89％、至少90％、至少91％、至少92％、至少93％、至少94％、至少95％、至少96％、至少97％、至少98％、至少99％或100％序列同一性的序列。在一些实施方案中，所述碱基编辑器是胞嘧啶脱氨酶。在一些实施方案中，所述胞嘧啶脱氨酶包含与SEQ ID NO:1-49、444-447、594或58-66中的任一个或其变体具有至少80％、至少81％、至少82％、至少83％、至少84％、至少85％、至少86％、至少87％、至少88％、至少89％、至少90％、至少91％、至少92％、至少93％、至少94％、至少95％、至少96％、至少97％、至少98％、至少99％或100％序列同一性的序列。

本公开的系统可以用于各种应用，例如像核酸编辑(例如，基因编辑)、与核酸分子的结合(例如，序列特异性结合)。此类系统可以用于例如解决(例如，去除或替换)可能引起对象疾病的基因遗传突变；使基因失活以确定其在细胞中的功能；作为检测致病基因元件的诊断工具(例如，经由逆转录病毒RNA或编码致病突变的扩增DNA序列的切割)；作为灭活酶与探针组合以靶向和检测特定的核苷酸序列(例如，编码细菌抗生素抗性int的序列)；通过靶向病毒基因组致使病毒失去活性或无法感染宿主细胞；添加基因或修改代谢途径以使生物体产生有价值的小分子、大分子或次级代谢物；建立进化选择的基因驱动元件；作为生物传感器检测外来小分子和核苷酸对细胞的干扰。

表2：本文中引用的蛋白质和核酸序列的序列表

实施例

实施例1.–碱基编辑器的质粒构建

为了产生利用CRISPR功能来靶向其碱基编辑的碱基编辑酶，将Cas效应酶以各种配置与本文所述的示例性脱氨酶融合。此过程涉及构建适用于生成融合酶的载体的第一阶段。首先构建两种进入质粒载体MGA和MGC。

为了构建含有T7启动子-His标签-TadA*(ABE8.17m)-SV40 NLS的MGA(Metagenomi腺嘌呤碱基编辑器)进入质粒，从pAL6扩增了三个DNA片段。为了构建含有T7启动子-His标签-APOBEC1(BE3)-UGI-SV40 NLS的MGC(Metagenomi胞嘧啶碱基编辑器)进入质粒，从pAL9扩增APOBEC1和UGI-SV40 NLS，并且从pAL6扩增两片载体骨架(参见图3)。

为了将突变引入效应子中，用并入适当突变的正向引物和反向引物，通过Q5 DNA聚合酶扩增含有MG1-4、MG1-6、MG3-6、MG3-7、MG3-8、MG4-5、MG14-1、MG15-1或MG18-1效应子基因序列的源质粒。然后将线性DNA片段磷酸化并连接。根据制造商的说明书，使用KLD酶混合物(New England Biolabs)用DpnI消化DNA模板。

为了生成pMGA和pMGC表达质粒，从携带突变效应子的质粒扩增基因，并且分别经由XhoI和SacII位点克隆到MGA和MGC进入质粒中。为了将包含T7启动子-sgRNA-双向终止子的sgRNA表达盒克隆到BE表达质粒中，使用一组引物(P366作为正向引物)扩增T7启动子-间隔子序列，同时使用另一组引物(P367作为反向引物)扩增间隔子序列-sgRNA支架-双向终止子，其中使用pTCM质粒作为模板(参见图2)。经由XbaI位点将两个片段组装到pMGA和pMGC中，从而分别产生pMGA-sgRNA和pMGC-sgRNA。

表3–针对本文所述的ABE筛选系统制成的构建体的总结

将所有扩增的DNA片段通过QIAquick凝胶提取试剂盒(Qiagen)纯化，经由NEBuilder HiFi DNA组件(New England Biolabs)组装，并且根据制造商的说明书，将所得的组装物经由Endura电感受态细胞(Lucergen)繁殖(参见图4和5)。在ELIM BIOPHARM处确认所有克隆基因的DNA序列。

表4–针对本文所述的所选系统解析出的保守催化残基

实施例2.–蛋白质表达和纯化

根据制造商的说明书(Thermo)，用以上实施例1中所述的每个相应质粒，通过转化在魔术培养基(Magic Media)中的大肠杆菌BL21(DE3)细胞中表达pMGA和pMGC质粒中的T7启动子驱动的突变效应子基因。在16℃下温育40小时之后，收获转化的细胞，悬浮在裂解缓冲液(HisTrap平衡缓冲液：20mM Tris(Sigma T2319-100 ML)、300mM氯化钠(VWRVWRVE529-500 ML)、5％甘油、10mM MgCl₂和10mM咪唑(Sigma 68268-100ML-F)；pH 7.5)和无EDTA的蛋白酶抑制剂(Pierce)中并在-80℃冷冻机中冷冻。然后将细胞在冰上解冻、超声处理、澄清化并过滤，然后进行亲和纯化。根据制造商的说明书，将蛋白质施加到AktaAvant FPLC上的Cytiva 5ml HisTrap FF柱中，并且将蛋白质在20mM Tris(Sigma T2319-100 ML)、300mM氯化钠(VWR VWRVE529-500 ML)、5％甘油、10mM MgCl₂和250mM咪唑(Sigma68268-100ML-F)；pH 7.5的等度洗脱液中洗脱。将含有His标记的效应蛋白的洗脱级分浓缩并缓冲交换到50mM Tris-HCl、300mM NaCl、1mM TCEP、5％甘油；pH 7.5中。通过二喹啉甲酸测定(Thermo)确定蛋白质浓度，并且在Image Lab(Bio-Rad)中通过SDS PAGE密度测量法确定相对纯度之后进行调整(参见图7)。

实施例3.–体外切口酶测定

使用Q5 DNA聚合酶，使用通过IDT合成的6-羧基荧光素(6-FAM)标记的引物P141和P146(SEQ ID NO:179和180)来扩增含有效应子靶向序列的LacZ线性片段。根据制造商的说明书，使用HiScribe T7High Yield RNA合成试剂盒(New England Biolabs)在体外转录含有T7启动子、后接含有20-bp或22-bp间隔子序列的sgRNA的DNA片段。根据用户手册，通过Monarch RNA清理试剂盒(New England Biolabs)纯化具有对应于序列表中命名的sgRNA的序列的合成sgRNA。

为了确定DNA切口酶活性，首先补充每个纯化突变效应子及其同源sgRNA。通过在含有10mM Tris pH 7.5、10mM MgCl₂和100mM NaCl、150nM酶、150nM RNA和15nM DNA的15μL反应混合物中添加线性DNA底物来开始反应。将反应在37℃下温育2小时。使用AMPure XPSPRI顺磁珠(Beckman Coulter)纯化消化的DNA，并且用6μL TE缓冲液(10mM Tris、1mMEDTA；pH 8.0)洗脱。将切口的DNA在10％ TBE-尿素变性凝胶(Biorad)上拆分并通过ChemiDoc(Bio-Rad)成像(参见图7，其显示所描绘的酶通过产生600和200个碱基的条带而展示出切口酶活性，而在野生型酶的情况下，则为400和200个碱基)。结果指示图7中所有测试的切口酶突变体都展示出预期的切口酶活性，而不是野生型切割活性，MG4-5(D17A)除外，它是不确定的。

实施例4.–将碱基编辑器引入大肠杆菌中

根据制造商的说明书，将质粒转化到Lucergen的电感受态BL21(DE3)细胞中。在电穿孔之后，在37℃下用表达恢复培养基将细胞恢复1小时，并铺展在含有100L/mg氨苄西林和0.1mM IPTG的LB板上。在37℃下过夜生长之后，挑选菌落并通过Q5 DNA聚合酶(NewEngland Biolabs)用引物P137和P360扩增lacZ基因。将所得的PCR产物纯化并在ELIMBIOPHARM处通过Sanger测序进行测序。通过检查胞嘧啶碱基编辑器或腺嘌呤碱基编辑器的靶向原间隔子区中是否分别存在C向T转化或A向G转化来确定碱基编辑。

为了评估在大肠杆菌中的编辑效率，将质粒转化到电感受态BL21(DE3)(Lucergen)中，并且在37℃下用表达恢复培养基将电穿孔细胞恢复1h。然后将10μL恢复的细胞接种到在96孔深孔板中的含有100μL/mg氨苄西林和0.1mM IPTG的990μL SOB中，并在37℃下生长20h。使用诱导用于碱基编辑器表达的1μL细胞在20μL PCR反应(Q5 DNA聚合酶)中用引物P137和P360扩增lacZ基因。将所得的PCR产物纯化并在ELIM BIOPHARM处通过Sanger测序进行测序。通过如实施例12中所述的Edit R处理编辑效率的定量。

表5–本文所述的MG碱基编辑器和相关联的PAM和脱氨酶

实施例5.–哺乳动物细胞中的蛋白质核转染和扩增子测序(预言性的)

根据制造商的建议，使用Lonza 4D核转染仪和Lonza SF细胞系4D-核转染仪X试剂盒S(目录号V4XC-2032)在哺乳动物细胞(例如，K-562、Neuro-2A或RAW264.7)中进行核转染。在配制SF核转染缓冲液之后，将200,000个细胞重悬浮在5μl缓冲液/核转染中。在剩余的15μl缓冲液/核转染中，将20pmol来自Synthego的化学修饰的sgRNA与18pmol碱基编辑器酶(例如，ABE8e)合并，并且在室温下温育5min至复合物。将细胞添加到20μl核转染比色皿中，接着添加蛋白质溶液，并且将混合物研磨以混合。将细胞用程序CM-130核转染，之后立即将80μl温热的培养基添加到每个孔中以进行恢复。在5min之后，将来自每个样品的25μl添加到在48孔聚-d-赖氨酸板(Corning)中的250μl新鲜培养基中。然后以与以上脂质体转染细胞相同的方式处理细胞，以便在培养超过三天之后进行基因组DNA提取。

在进行Illumina条形码化后，使用Monarch DNA凝胶提取试剂盒(New EnglandBiolabs)通过在2％琼脂糖凝胶中进行电泳将PCR产物汇集并纯化，用30μl H2O洗脱。根据制造商的方案，用Qubit dsDNA高灵敏度测定试剂盒(Thermo Fisher Scientific)定量DNA浓度并在Illumina MiSeq设备(双端读取，R1：250–280个循环，R2：0个循环)上测序。

使用MiSeq Reporter(Illumina)对测序读取进行解复用，并且使用CRISPResso2分析FASTQ文件。通过Python脚本分析单个等位基因中的双重编辑。碱基编辑值代表不同研究人员收集的n＝3个独立生物学重复，示出平均值±s.d.。将碱基编辑值报告为具有腺嘌呤诱变的读取数相对于总比对读取数的百分比。

实施例6.–哺乳动物细胞中的质粒核转染和全基因组测序(预言性的)

通过尿嘧啶特异性切除试剂(USER)克隆方法组装所有质粒。组装SpCas9、SaCas9和所有工程化变体的向导RNA质粒。使用ZymoPURE质粒中提试剂盒(Zymo Research公司)制备用于哺乳动物细胞转染的质粒。在补充有10％胎牛血清(ThermoFisher Scientific)的杜氏改良Eagle培养基(Corning)中培养HEK293T细胞(ATCC CRL-3216)并维持在37℃ 5％和CO2下。

将HEK293T细胞接种在同一培养基中的48孔聚-d-赖氨酸板(Corning)上。使用750ng碱基编辑器质粒、250ng向导RNA质粒和作为转染对照的10ng绿色荧光蛋白，在用1.5μl Lipofectamine 2000(ThermoFisher Scientific)铺板之后12–16h转染细胞。将细胞用第一天后交换的培养基培养3d，然后用～1 PBS(ThermoFisher Scientific)洗涤，接着通过将100μl新鲜制备的裂解缓冲液(10mM Tris-HCl，pH 7.5，0.05％ SDS，25μg ml-1蛋白酶K(ThermoFisher Scientific))直接添加到每个转染孔中来进行基因组DNA提取。将混合物在37℃下温育1h，然后在80℃下热失活30min。随后将基因组DNA裂解物立即用于高通量测序(HTS)。

对来自HEK293T细胞的基因组DNA进行HTS。在进行Illumina条形码化后，使用Monarch DNA凝胶提取试剂盒(NEB)通过在2％琼脂糖凝胶中进行电泳将PCR产物汇集并纯化，用30μl H2O洗脱。根据制造商的方案，用Qubit dsDNA高灵敏度测定试剂盒(ThermoFisher Scientific)定量DNA浓度并在Illumina MiSeq设备(双端读取，R1：250–280个循环，R2：0个循环)上测序。

实施例7.–确定编辑窗口(预言性的)

为了检查编辑窗口区域，将指定sgRNA中显示最高C–T转化频率的胞嘧啶归一化为1，并且随后对同一sgRNA的PAM序列上游30nt至下游10nt(总计43bp)的位置处的其他胞嘧啶进行归一化。然后对归一化的C–T转化频率进行分类，并且根据它们在指定碱基编辑器的所有测试sgRNA中的位置进行比较。将综合编辑窗口(CEW)定义为跨归一化之后平均C–T转化效率超过0.6的位置。

为了检查每种胞苷脱氨酶的底物偏好，初始根据其在sgRNA靶向区域中的位置对C位点进行分类，并且将含有至少一个C位点具有≥0.8归一化C–T转化频率的那些位置包括在后续分析中。然后根据编辑的胞嘧啶上游或下游(NC或CN)的碱基类型比较所选的C位点。对于在核酸内切酶的N末端和C末端均显示有效C–T转化的胞苷脱氨酶，通过将相应的NT-和CT-CBE整合在一起来评估底物偏好。对于统计分析，使用单向ANOVA并且p<0.05被认为是显著的

实施例8a.–在哺乳动物细胞中用全基因组测序和转录组学测试脱靶分析(预言性的)

将HEK293T细胞铺板在48孔聚-d-赖氨酸涂覆的板上16至20h，之后在没有抗生素的DMEM+GlutaMAX培养基(Thermo Fisher Scientific)中以每孔3.104个细胞的密度进行脂质体转染。将750ng切口酶或碱基编辑器表达质粒DNA与250ng sgRNA表达质粒DNA在15μlOpti-MEM+GlutaMAX中合并。将其与包含每孔1.5μlLipofectamine 2000和8.5μl Opti-MEM+GlutaMAX的10μl脂质混合物合并。在转染之后3d收获细胞，并且收获DNA或RNA。对于DNA分析，将细胞在PBS中洗涤一次，然后根据制造商的说明书在100μl快速提取缓冲液(Lucigen)中裂解。对于RNA收获，将MagMAX mirVana总RNA分离试剂盒(Thermo Fisher Scientific)与KingFisher Flex一起使用。

根据制造商的说明书，使用Nextera DNA Flex文库制备试剂盒(Illumina)，使用96孔板Nextera索引引物(Illumina)对来自哺乳动物细胞的基因组DNA进行片段化和适配物连接。通过片段分析仪(Agilent)确认文库大小和浓度，并且将DNA送到Novogene，以使用Illumina HiSeq系统进行WGS。

通过进行四个一般步骤来分析所有的靶向NGS数据：(1)比对；(2)重复标记；(3)变体调用；和(4)对变体进行背景过滤，以去除伪影和种系突变。突变参考和替代等位基因相对于参考基因组的正链报告。

对于全转录组测序，使用NEBNext Poly(A)mRNA磁分离模块(New EnglandBioLabs)进行mRNA选择。使用Illumina(New England BioLabs)的NEBNext Ultra II RNA文库制备试剂盒进行RNA文库制备。基于RNA输入量，以循环数为12进行适配物连接DNA的PCR富集。对于通过此方法进行的所有大小选择，全部使用NEBNext样品纯化珠(NewEngland BioLabs)。根据方案中概述的PCR配方，使用Illumina(New England BioLabs)的NEBNext Multiplex Oligo进行多重索引。在测序之前，在4200TapeStation系统(Agilent)上使用高灵敏度D1000 ScreenTape检查样品质量。将文库汇集并使用NovaSeq(Novogene)测序。然后进行靶向RNA测序。根据制造商的说明书，使用具有EZDnase的SuperScript IV一步RT-PCR系统(Thermo Fisher Scientific)从分离的RNA中通过逆转录PCR(RT-PCR)生成互补DNA。

使用以下程序：58℃，持续12min；98℃，持续2min；接着进行根据扩增子变化的PCR循环：用于CTNNB1和IP90；32个循环的(98℃，持续10s；60℃，持续10sec；72℃，持续30sec)。在组合的RT-PCR后，使用Illumina MiSeq测序仪对扩增子进行条形码化和测序，如上所述。将每个扩增子中的前125个核苷酸(从每个扩增子中正向引物结束之后的第一个碱基开始)与参考序列比对，并且用于分析每个扩增子中的最大A向I频率。脱靶DNA测序如下进行：使用引物，使用两步PCR和条形码化方法制备样品，以用于使用如上所述的Illumina MiSeq测序仪进行测序。

实施例8b.–通过全基因组测序和转录组学分析脱靶编辑(预言性的)

在3天之后收获如实施例8a中制备的转染细胞，并且根据制造商的说明书使用Agencourt DNAdvance基因组DNA分离试剂盒(Beckman Coulter)分离基因组DNA。用侧接HTS引物对，通过PCR扩增感兴趣的中靶和脱靶基因组区域。根据制造商的说明书，使用5ng基因组DNA作为模板，使用Phusion高保真DNA聚合酶(ThermoFisher)进行PCR扩增。针对每个引物对单独确定循环数，以确保反应停止在线性扩增范围内(EMX1、FANCF、HEK293位点2、HEK293位点3、HEK293位点4和RNF2引物分别为30、28、28、28、32和32个循环)。使用RapidTips(Diffinity Genomics)纯化PCR产物。用含有测序衔接子的引物，通过PCR扩增纯化的DNA。使用Quant-iT^TMPicoGreen dsDNA测定试剂盒(ThermoFisher)和KAPA文库定量试剂盒-Illumina(KAPA Biosystems)对产物进行凝胶纯化和定量。如先前所述在IlluminaMiSeq上对样品进行测序。

使用MiSeq Reporter(Illumina)自动对测序读取进行解复用，并且用自定义Matlab脚本分析单个FASTQ文件。使用史密斯-沃特曼算法将每个读取与适当的参考序列成对比对。将Q分数低于31的碱基调用替换为N，并且因此在计算核苷酸频率时被排除在外。这种处理产生的预期MiSeq碱基调用错误率为大约1/1,000。将读取序列和参考序列不含间隙的比对序列存储在比对表中，从中为每个基因座列出碱基频率。用自定义Matlab脚本定量插入缺失频率。

扫描测序读取是否与两个侧接可能发生插入缺失的窗口两侧的10-bp序列完全匹配。如果未找到完全匹配，则从分析中排除读取。如果此插入缺失窗口的长度与参考序列完全匹配，则将读取归类为不含插入缺失。如果插入缺失窗口比参考序列长或短两个或更多个碱基，则将测序读取分别分类为插入或删除。

实施例9.–小鼠编辑实验(预言性的)

设想通过在适当的疾病小鼠模型中进行测试，可以验证作为治疗候选物的由与新型脱氨酶结构域融合的新型DNA靶向核酸酶结构域组成的碱基编辑器。

适当模型的一个实例包括经工程化以表达人PCSK9蛋白的小鼠，例如，如由Herbert等人(10.1161/ATVBAHA.110.204040)描述。PCSK9蛋白调节LDL受体(LDLR)水平并影响血清胆固醇水平。表达人PCSK9蛋白的小鼠表现出升高的胆固醇水平和动脉粥样硬化的更快发展。PCSK9是一种经过验证的药物靶标，用于降低由于血浆脂质水平异常高而导致心血管疾病风险增加的人群的脂质水平(https://doi.org/10.1038/s41569-018-0107-8)。预期经由基因组编辑降低PCSK9的水平将在个体的一生中永久性降低脂质水平，从而终身降低心血管疾病风险。一种基因组编辑方法可以涉及靶向PCSK9基因的编码序列，目的是编辑序列以产生提前终止密码子，并且从而防止PCSK9 mRNA翻译为功能性蛋白。靶向接近编码序列5’末端的区域对于阻止大部分蛋白质的翻译是有用的。为了产生具有高效率和特异性的终止密码子(TGA、TAA、TAG)，需要靶向PCSK9编码序列的一个区域，其中编辑窗口将被放置在适当的序列上，使得最高频率编辑事件产生终止密码子。因此，具有宽范围的PAM的多个碱基编辑系统或具有简并PAM的碱基编辑系统的可用性对于访问PCSK9基因中的大量潜在靶位点是有用的。另外，在这种情况下，脱靶编辑频率低(例如，在中靶编辑事件的1％或更少的范围内)的另外编辑系统也可用于进行基因编辑。

治疗作用所需的碱基编辑效率在50％或更高的范围内，以实现血浆脂质水平的显著降低。使用碱基编辑器在PCSK9基因中产生终止密码子的一个实例可见于Carreras等人(https://doi.org/10.1186/s12915-018-0624-2)中，其中对10％与34％之间的PCSK9等位基因进行编辑以产生终止密码子。虽然这种编辑水平足以导致小鼠血浆脂质水平的可测量降低，但在人类中治疗使用需要更高的编辑效率。

为了鉴定最适合在PCSK9基因中引入终止密码子的碱基编辑(BE)系统和向导物，可以在小鼠肝细胞系(诸如Hepa1-6细胞)中进行筛选。可以首先使用计算机筛选来鉴定各种BE系统可用的靶向PCSK9基因的向导物。为了在大量可能的向导物中进行选择，可以进行计算机分析，以确定哪些向导物具有涵盖在编辑时可以产生终止密码子的序列的编辑窗口。然后可以优先考虑更接近编码序列的5’末端的那些向导物。所得的一组向导物和BE蛋白可以组合形成核糖核蛋白复合物(RNP)，并且可以核转染到Hepa1-6细胞中。在72h之后，可以通过NGS分析确定靶位点处的编辑效率。基于这些体外结果，可以选择一种或多种导致终止密码子形成频率最高的BE/向导物组合，以进行体内测试。

对于在人类治疗环境中的应用，需要一种安全有效的方法来递送包含碱基编辑器和向导RNA的碱基编辑组分。体内递送方法可以分为病毒法和非病毒法。在病毒载体中，腺相关病毒(AAV)由于其安全性记录、有效递送到多种组织和细胞类型以及既定的制造工艺而成为临床使用的首选病毒。碱基编辑器(BE)的大小较大超过了AAV的包装能力，这会干扰在单个腺相关病毒中的包装。虽然使用断裂内含肽技术将BE包装到两个AAV中的方法已被证明在小鼠中是成功的(https://doi.org/10.1038/s41551-019-0501-5)，但是需要2种病毒使开发和制造变得复杂。AAV的另一个缺点是虽然病毒没有促进整合到宿主细胞基因组中的机制，并且大多数AAV基因组仍然是游离型的，但一小部分AAV基因组确实在细胞中天然发生的随机双链断裂处发生整合(Curr Opin Mol Ther.2009年8月；11(4):442–447)。这可能导致表达BE的基因序列在生物体的一生中持续存在。此外，AAV基因组在转导细胞核内作为游离体持续存在，并且可以维持多年，这可能导致BE在这些细胞中长期表达并且从而增加脱靶作用的风险，因为发生脱靶事件的风险是编辑酶活跃时间的函数。腺病毒(Ad)诸如Ad5可以有效地将DNA有效载荷递送至哺乳动物的肝脏，并且可以包装高达45kb的DNA。然而，已知腺病毒会在哺乳动物中(http://dx.doi.org/10.1136/gut.48.5.733)，包括在可能导致严重不良事件(包括死亡)的患者中(https://doi.org/10.1016/j.ymthe.2020.02.010)诱导强免疫应答。

与病毒递送载体相比，包含脂质纳米颗粒和聚合物纳米颗粒的非病毒递送载体(在doi:10.1038/mt.2012.79中审查)具有若干优点，包括较低的免疫原性和核酸货物的瞬时表达。非病毒递送载体引发的瞬时表达特别适用于基因组编辑应用，因为预期它会使脱靶事件最小化。另外，与病毒载体不同，非病毒递送具有重复施用以达到治疗作用的潜力。可以包装在非病毒载体中的核酸分子的大小在理论上没有限制，尽管在实践中，在核酸大小增加并且粒径可能增加时，包装效率会降低。

通过将编码BE的合成mRNA与向导RNA一起封装到LNP中，使用非病毒载体(诸如脂质纳米颗粒(LNP))可以在体内递送BE。这可以使用本领域熟知的方法进行，例如由Finn等人(DOI:10.1016/j.celrep.2018.02.014)或Yin等人(doi:10.1038/nbt.3471)所述。通常，LNP将其货物主要递送至肝脏的肝细胞，当试图干扰PCSK9基因的表达时，肝细胞也是一种靶器官/细胞类型。为了证明这种方法的概念验证，我们设想包含与脱氨酶结构域融合的新型基因组编辑蛋白的BE可以在合成mRNA中编码，并且与靶向小鼠PCSK9基因中的所选位点的适当向导RNA一起包装在LNP中。在被工程化以表达人PCSK9基因的小鼠的情况下，所述向导物可以被设计来仅靶向人PCSK9基因或靶向人和小鼠PCSK9基因两者。在注射这些LNP后，可以通过扩增子测序或其他方法(诸如通过分解跟踪插入缺失)来分析肝细胞的基因组中中靶位点处的编辑效率(doi:10.1093/nar/gku936)。生理影响可以通过使用标准方法测量小鼠血液中的脂质水平(包括总胆固醇和甘油三酯水平)来确定。

可以在小鼠中建模以评估新型BE的另一个疾病的实例是原发性高草酸尿症I型。原发性高草酸尿症I型(PH1)是一种罕见的常染色体隐性遗传病，由编码丙氨酸-乙醛酸氨基转移酶的AGXT基因缺陷引起。这导致乙醛酸代谢缺陷和有毒代谢物草酸盐的积累。治疗这种疾病的一种方法是减少从乙醇酸产生乙醛酸的乙醇酸氧化酶(GO)的表达，并且从而减少可用于形成草酸盐的底物(乙醛酸)的量。PH1可以在AGXT基因的两个拷贝都被敲除，导致与野生型对照相比尿液中的草酸盐水平显著增加3倍的小鼠(agxt-/-小鼠)中进行建模。因此，agxt-/-小鼠可以用于评价新型碱基编辑器的功效，所述碱基编辑器被设计来在内源性小鼠GO基因的编码序列中产生终止密码子。为了鉴定最适合在GO基因中引入终止密码子的BE系统和向导物，可以在小鼠肝细胞系(诸如Hepa1-6细胞)中进行筛选。可以首先使用计算机筛选来鉴定各种BE系统可用的靶向GO基因的向导物。为了在大量可能的向导物中进行选择，可以进行计算机分析，以确定哪些向导物具有涵盖在编辑时可以产生终止密码子的序列的编辑窗口。然后可以优先考虑更接近编码序列的5’末端的那些向导物。所得的一组向导物和BE蛋白可以组合形成核糖核蛋白复合物(RNP)，并且可以核转染到Hepa1-6细胞中。在72h之后，可以通过NGS分析确定靶位点处的编辑效率。基于这些体外结果，可以选择一种或多种导致终止密码子形成频率最高的BE/向导物组合，以在小鼠中进行体内测试。

可以使用具有断裂内含肽系统以表达BE的AAV病毒来和递送向导物的第3种AAV来将BE和向导物递送到小鼠中。可替代地，由于腺病毒的>40Kb的包装容量，5型腺病毒可用于在单个病毒中递送BE和向导物。此外，BE可以作为mRNA与包装在适当LNP中的向导RNA一起递送。在将LNP静脉内注射到agxt-/-小鼠中之后，可以随着时间的推移监测尿液中的草酸盐水平，以确定草酸盐水平是否降低，这可以指示BE是活跃的并且具有预期的治疗作用。为了确定BE是否引入了终止密码子，可以从经处理和对照小鼠的肝脏中提取的基因组DNA对GO基因的适当区域进行PCR扩增。所得的PCR产物可以使用下一代测序进行测序，以确定序列变化的频率。

实施例10.–新脱氨酶的基因发现

挖掘来自不同环境(土壤、沉积物、地下水、嗜热、人类和非人类微生物组)的4Tbp(tera碱基对)的专有和公共组装宏基因组测序数据，以发现新型脱氨酶。使用HMMER3(hmmer.org)构建已知脱氨酶的HMM图谱并针对所有预测的蛋白质进行搜索，以从我们的数据库中鉴定脱氨酶。将预测和参考(例如，真核APOBEC1、细菌TadA)脱氨酶与MAFFT比对，并且使用FastTree2推断系统发育树。通过鉴定由本文公开的序列构成的分支来定义新型家族和亚家族。基于指示酶功能的关键催化残基的存在来选择候选物(参见例如，SEQ ID NO:1-51、385-386、387-443、444-447或488-475)。

实施例11.–质粒构建

在Twist Bioscience或Integrated DNA Technologies(IDT)处合成基因的DNA片段。在Endura电感受态细胞(Lucigen)中扩增质粒DNA并通过QIAprep旋转小提试剂盒(Qiagen)分离。通过限制性内切酶消化质粒来制备载体骨架。使用从Elim BIOPHARM或IDT订购的引物，通过Q5高保真DNA聚合酶(New England Biolabs)扩增插入物。使用凝胶DNA回收试剂盒(Zymo Research)，通过凝胶提取纯化载体骨架和插入物两者。通过NEBuilderHiFi DNA组件(New England Biolabs)将一个或多个DNA片段(SEQ ID NO.483-487)组装到载体中。

实施例12.–通过测序评价大肠杆菌中的碱基编辑效率

使用如实施例4中制备的5ng提取DNA作为模板，并且将引物(P137和P360)用于PCR扩增，并且提交所得的产物以在ELIM BIOPHARM处进行Sanger测序。用于测序的引物在表6和7中示出(Seq ID NO.523-531)。

表6–用于大肠杆菌中的lacZ基因的碱基编辑分析的引物

表7–用于尿嘧啶糖基化酶抑制剂(UGI)在大肠杆菌中的作用的碱基编辑分析的引物

图8示出了通过此实验询问的酶进行的示例性碱基编辑，如通过Sanger测序评价。

图10示出了使用TadA(ABE8.17m)(SEQ ID NO:596)和根据表3的MG切口酶的腺嘌呤碱基编辑器(ABE)的碱基编辑效率。TadA是tRNA腺嘌呤脱氨酶；TadA(ABE8.17m)是大肠杆菌TadA的工程化变体。在大肠杆菌中构建并测试12种与TadA(ABE8.17m)融合的MG切口酶。设计三种向导物来靶向lacZ。框中所示的数字指示每个位置处通过Edit R定量的A向G转化的百分比。使用ABE8.17m作为实验的阳性对照。

图11示出了包含大鼠APOBEC1、MG切口酶和枯草芽孢杆菌噬菌体的尿嘧啶糖基化酶抑制剂(UGI(PBS1))的胞嘧啶碱基编辑器(CBE)的碱基编辑效率。APOBEC1是胞嘧啶脱氨酶。在大肠杆菌中构建并测试12种在N末端上与rAPOBEC1融合并且在C末端上与UGI融合的MG切口酶。设计三种向导物来靶向lacZ。框中所示的数字指示通过Edit R定量的C向T转化的百分比。使用BE3作为实验中的阳性对照。

图12示出了在添加到CBE中时MG尿嘧啶糖基化酶抑制剂(UGI)对于碱基编辑活性的影响。(a)MGC15-1包含N末端APOBEC1、MG15-1切口酶和C末端UGI。针对大肠杆菌中胞嘧啶碱基编辑活性的改善测试了三种MG UGI。(b)BE3包含N末端rAPOBEC1、SpCas9切口酶和C末端UGI。针对HEK293T细胞中胞嘧啶碱基编辑活性的改善测试了两种MG UGI。通过Edit R定量编辑效率。

实施例13.–细胞培养、转染、下一代测序和碱基编辑分析

将HEK293T细胞在37℃和5％ CO₂下在补充有10％(v/v)胎牛血清(Gibco)的杜氏改良Eagle培养基加GlutaMAX(Gibco)中生长并传代。将5x 10⁴个细胞接种在针对细胞附着处理的96孔细胞培养板(Costar)上，生长20至24h，并且在即将转染之前向用过的培养基补充新培养基。根据制造商的说明书，每孔使用200ng表达质粒和1μLlipofectamine 2000(ThermoFisher Scientific)进行转染。将转染的细胞生长3天，收获，并且根据制造商的说明书用QuickExtract(Lucigen)提取gDNA。用表8和表9中列出的引物(SEQ ID NO.538-585)和提取的DNA作为模版，使用Q5高保真DNA聚合酶(New England Biolabs)扩增碱基编辑的靶向区域。

表8–用于UGI在HEK293T中的作用的碱基编辑分析的引物

表9a–用于扩增用A0A2K5RND7-MG切口酶-MG69-1转染的HEK293T细胞中的靶向区域的引物

根据制造商的说明书，使用HighPrep PCR清理系统(MAGBIO)纯化PCR产物。通过将PCR产物提交至Elim BIOPHARM进行Sanger测序来分析尿嘧啶糖基化酶抑制剂(UGI)对于候选酶的碱基编辑的影响，并且通过Edit R定量效率。为了分析A0A2K5RND7-MG切口酶-MG69-1的碱基编辑，通过使用KAPA HiFi HotStart ReadyMix PCR试剂盒(Roche)和与TruSeqDNA文库制备试剂盒(illumina)相容的引物进行后续PCR反应，将用于下一代测序(NGS)的适配物附加到PCR产物中。通过TapeStation(Agilent)定量所得产物的DNA浓度，并且将样品汇集在一起以制备用于NGS分析的文库。用Aria实时PCR系统(Agilent)通过qPCR对所得文库进行定量，并且根据制造商的说明书用Illumina Miseq设备进行高通测序。通过Cripresso2分析碱基编辑的测序数据。

图13示出了由碱基编辑器靶向的位点的图谱，其显示包含含有CMP/dCMP型脱氨酶结构域的蛋白质(uniprot登记号A0A2K5RDN7)、MG切口酶和MG UGI的胞嘧啶碱基编辑器的碱基编辑效率。所述构建体包含N末端A0A2K5RDN7、MG切口酶和C末端MG69-1。为简单起见，图中仅示出了MG切口酶的身份。使用BE3(APOBEC1)作为碱基编辑的阳性对照。使用空载体作为阴性对照。在不同的日子进行了三个独立实验。缩写：R，重复序列；NEG，阴性对照。

表9b：实施例13中的构建体中使用的蛋白质结构域

实施例14.–大肠杆菌中碱基编辑器突变体的阳性选择

将浓度为10ng/μL的1μL质粒溶液转化到25μL BL21(DE3)电感受态细胞(Lucigen)中，用975μL表达恢复培养基在37℃下恢复1h。将50μL所得细胞铺展在含有100μg/mL羧苄西林、0.1mM IPTG和适量氯霉素的LB琼脂板上。将板在37℃下温育，直至菌落可挑选。使用菌落PCR扩增含有碱基编辑的基因组区域，并且将所得产物提交给ELIM BIOPHARM进行Sanger测序。用于PCR和测序的引物在表10中列出(SEQ ID NO.532-537)。

表10–用于CAT(H193Y)的碱基编辑分析的引物

图15示出了由TadA引起的突变实现对氯霉素(Cm)的高耐受性。图(a)示出了生长板的照片，其中使用不同浓度的氯霉素来选择大肠杆菌的抗生素抗性。在此实例中，测试了来自大肠杆菌(EcTadA)的TadA的野生型和两种变体。图(b)示出了结果总结表，其表明携带突变TadA的ABE显示比野生型更高的编辑效率。在这些实验中，从具有大于或等于0.5μg/mLCm的板中挑选菌落。为简单起见，表中仅示出了脱氨酶的身份，但是在上图中示出了效应子(SpCas9)和构建体组织。

图16示出了阳性选择中的MG TadA活性的研究。图(a)示出了来自实验的生长板的照片，其中针对0至2μg/mL的氯霉素测试8种MG68 TadA候选物(ABE包含N末端TadA变体和C末端SpCas9(D10A)切口酶)。为简单起见，仅示出了脱氨酶的身份。图(b)示出了总结表，其描绘了MG TadA候选物的编辑效率。图(b)展示了MG68-3和MG68-4驱动的腺嘌呤碱基编辑。在此实验中，从具有大于或等于0.5μg/mL Cm的板中挑选菌落。

图19示出了用于改善MG68-4-nMG34-1碱基编辑活性而设计的28种MG68-4变体。针对靶向诱变选择12个残基以改善酶的编辑。

尽管本文已经示出和描述了本发明的各个实施方案，但对于本领域技术人员明显的是，此类实施方案仅通过举例的方式提供。本发明并不旨在受本说明书内提供的具体实施例的限制。虽然已经参考上述说明书描述了本发明，但本文的实施方案的描述和说明并不意味着以限制的意义来解释。在不背离本发明的情况下，本领域技术人员现在将想到多种变型、改变和替代。此外，应理解，本发明的所有方面不限于本文中所述的取决于各种条件和变量的具体的描绘、配置或相对比例。应理解，本文所述的本发明的实施方案的各种替代方案可以用于实践本发明。因此，设想本发明还应涵盖任何这种替代方案、修改、变型或等同方案。旨在以所附权利要求限定本发明的范围，并且由此涵盖这些权利要求范围内的方法和结构及其等同方案。

Claims

1.一种工程化核酸编辑系统，包括：

(a)包含RuvC结构域和HNH结构域的核酸内切酶，其中所述核酸内切酶来源于非培养的微生物，其中所述核酸内切酶是2类II型Cas核酸内切酶，其中所述核酸内切酶被配置为缺乏核酸酶活性；

(b)与所述核酸内切酶偶联的碱基编辑器；和

(c)被配置为与所述核酸内切酶形成复合物的工程化向导核糖核酸结构，所述工程化向导核糖核酸结构包括：

i.被配置为与靶脱氧核糖核酸序列杂交的向导核糖核酸序列；和

ii.被配置为与所述核酸内切酶结合的核糖核酸序列。

2.如权利要求1所述的工程化核酸编辑系统，其中所述RuvC结构域缺乏核酸酶活性。

3.如权利要求1所述的工程化核酸编辑系统，其中所述核酸内切酶被配置为切割双链靶脱氧核糖核酸的一条链。

4.如权利要求1或2所述的工程化核酸编辑系统，其中所述2类II型Cas核酸内切酶包含切口酶突变。

5.如权利要求1-4中任一项所述的工程化核酸编辑系统，其中所述核酸内切酶包含与SEQ ID NO:70-78或597中的任一个或其变体具有至少95％序列同一性的序列。

6.如权利要求1-5中任一项所述的工程化核酸编辑系统，其中当最佳比对时，所述2类II型cas核酸内切酶相对于SEQ ID NO:70在残基9处、相对于SEQ ID NO:71、72或74在残基13处、相对于SEQ ID NO:73在残基12处、相对于SEQ ID NO:75在残基17处、相对于SEQ IDNO:76在残基23处或相对于SEQ ID NO:597在残基10处包含天冬氨酸向丙氨酸突变。

7.如权利要求1-5中任一项所述的工程化核酸酶系统，其中当最佳比对时，所述核酸内切酶相对于SEQ ID NO:70在残基9处、相对于SEQ ID NO:72在残基13处或相对于SEQ IDNO:75在残基17处包含天冬氨酸向丙氨酸突变。

8.一种工程化核酸编辑系统，包括：

(a)与SEQ ID NO:70-78、596或597-598中的任一个或其变体具有至少95％序列同一性的核酸内切酶；

(b)与所述核酸内切酶偶联的碱基编辑器；和

ii.被配置为与所述核酸内切酶结合的核糖核酸序列。

9.一种工程化核酸编辑系统，包括：

(a)被配置为与原间隔子相邻基序(PAM)序列结合的核酸内切酶，所述原间隔子相邻基序序列包含SEQ ID NO:360-368或598中的任一个或其变体，

其中所述核酸内切酶是2类II型Cas核酸内切酶，并且

其中所述核酸内切酶被配置为缺乏核酸酶活性；

(b)与所述核酸内切酶偶联的碱基编辑器；和

ii.被配置为与所述核酸内切酶结合的核糖核酸序列。

10.如权利要求9所述的工程化核酸编辑系统，其中所述核酸内切酶包含切口酶突变。

11.如权利要求9所述的工程化核酸编辑系统，其中所述核酸内切酶被配置为切割双链靶脱氧核糖核酸的一条链。

12.如权利要求9所述的工程化核酸编辑系统，其中当最佳比对时，所述2类II型cas核酸内切酶相对于SEQ ID NO:70在残基9处、相对于SEQ ID NO:71、72或74在残基13处、相对于SEQ ID NO:73在残基12处、相对于SEQ ID NO:75在残基17处、相对于SEQ ID NO:76在残基23处或相对于SEQ ID NO:597在残基10处包含天冬氨酸向丙氨酸突变。

13.如权利要求9所述的工程化核酸编辑系统，其中所述碱基编辑器包含与SEQ ID NO:1-51、57-66、385-443、444-475或594-595中的任一个或其变体具有至少70％、80％、90％或95％同一性的序列。

14.如权利要求9所述的工程化核酸编辑系统，其中所述碱基编辑器包含与SEQ ID NO:50-51或385-390中的任一个具有至少70％、80％、90％或95％同一性的序列。

15.如权利要求8-14中任一项所述的工程化核酸编辑系统，其中所述核酸内切酶包含缺乏核酸酶活性的RuvC结构域。

16.如权利要求8-15中任一项所述的工程化核酸编辑系统，其中所述核酸内切酶来源于非培养的微生物。

17.如权利要求8-16中任一项所述的工程化核酸编辑系统，其中所述核酸内切酶与Cas9核酸内切酶具有小于80％的同一性。

18.如权利要求8-17中任一项所述的工程化核酸编辑系统，其中所述核酸内切酶还包含HNH结构域。

19.如权利要求1-18中任一项所述的工程化核酸编辑系统，其中所述工程化向导核糖核酸序列包含与SEQ ID NO:88-96或488-489中任一个或其变体的非简并核苷酸具有至少80％序列同一性的序列。

20.一种工程化核酸编辑系统，包括：

(a)工程化向导核糖核酸结构，其包括：

(i)被配置为与靶脱氧核糖核酸序列杂交的向导核糖核酸序列；和

(ii)被配置为与核酸内切酶结合的核糖核酸序列，

其中所述工程化核糖核酸序列包含与SEQ ID NO:88-96或488-489中任一个或其变体的非简并核苷酸具有至少80％序列同一性的序列；和

(b)被配置为与所述工程化向导核糖核酸结合的2类II型Cas核酸内切酶；以及

(c)与所述核酸内切酶偶联的碱基编辑器。

21.如权利要求20所述的工程化核酸编辑系统，其中所述核酸内切酶被配置为与原间隔子相邻基序(PAM)序列结合，所述原间隔子相邻基序序列选自SEQ ID NO:360-368或598。

22.如权利要求1-21中任一项所述的工程化核酸编辑系统，其中所述碱基编辑器包含与SEQ ID NO:1-51、57-66、385-443、444-475或594-595中的任一个或其变体具有至少70％、80％、90％或95％同一性的序列。

23.如权利要求1-22中任一项所述的工程化核酸编辑系统，其中所述碱基编辑器包含与SEQ ID NO:50-51或385-390中的任一个具有至少70％、80％、90％或95％同一性的序列。

24.如权利要求1-22中任一项所述的工程化核酸编辑系统，其中所述碱基编辑器是腺嘌呤脱氨酶。

25.如权利要求23所述的工程化核酸编辑系统，其中所述腺苷脱氨酶包含与SEQ IDNO:50-51、57、385-443、448-475或595中的任一个或其变体具有至少70％、80％、90％或95％同一性的序列。

26.如权利要求1-22中任一项所述的工程化核酸编辑系统，其中所述碱基编辑器是胞嘧啶脱氨酶。

27.如权利要求26所述的工程化核酸编辑系统，其中所述胞嘧啶脱氨酶包含与SEQ IDNO:1-49、444-447、594或58-66中的任一个或其变体具有至少70％、80％、90％或95％同一性的序列。

28.如权利要求1-27中任一项所述的工程化核酸编辑系统，其包括与所述核酸内切酶或所述碱基编辑器偶联的尿嘧啶DNA糖基化酶抑制剂(UGI)。

29.如权利要求28所述的工程化核酸编辑系统，其中所述尿嘧啶DNA糖基化酶抑制剂(UGI)包含与SEQ ID NO:52-56或SEQ ID NO:67中的任一个具有至少70％、80％、90％或95％同一性的序列。

30.如权利要求1-29中任一项所述的工程化核酸编辑系统，其中所述工程化向导核糖核酸结构包含至少两种核糖核酸多核苷酸。

31.如权利要求1-29中任一项所述的工程化核酸编辑系统，其中所述工程化向导核糖核酸结构包含一种核糖核酸多核苷酸，所述核糖核酸多核苷酸包含所述向导核糖核酸序列和所述被配置为与核酸内切酶结合的核糖核酸序列。

32.如权利要求1-31中任一项所述的工程化核酸编辑系统，其中所述向导核糖核酸序列与原核、细菌、古细菌、真核、真菌、植物、哺乳动物或人类基因组序列互补。

33.如权利要求1-32中任一项所述的工程化核酸编辑系统，其中所述向导核糖核酸序列的长度是15-24个核苷酸。

34.如权利要求1-33中任一项所述的工程化核酸编辑系统，其还包括在所述核酸内切酶的N或C末端近侧的一个或多个核定位序列(NLS)。

35.如权利要求34所述的工程化核酸编辑系统，其中所述NLS包含与选自SEQ ID NO:369-384的序列或其变体具有至少90％同一性的序列。

36.如权利要求1-35中任一项所述的工程化核酸编辑系统，其中所述核酸内切酶直接与所述碱基编辑器共价偶联或通过接头与所述碱基编辑器共价偶联。

37.如权利要求36所述的工程化核酸编辑系统，其中多肽包含所述核酸内切酶和所述碱基编辑器。

38.如权利要求1-37中任一项所述的工程化核酸编辑系统，其中所述核酸内切酶被配置为切割双链靶脱氧核糖核酸的一条链。

39.如权利要求1-38中任一项所述的工程化核酸编辑系统，其中所述系统还包括Mg²⁺源。

40.如权利要求1-39中任一项所述的工程化核酸编辑系统，其中：

a)所述核酸内切酶包含与SEQ ID NO:70、71、73、74、76、78、77或78中的任一个或其变体具有至少70％、至少80％或至少90％同一性的序列；

b)所述向导RNA结构包含与SEQ ID NO:88、89、91、92、94、96、95或488中任一个的非简并核苷酸具有至少70％、至少80％或至少90％同一性的序列；

c)所述核酸内切酶被配置为与包含SEQ ID NO:360、361、363、365、367或368中的任一个的PAM结合；或者

d)所述碱基编辑器包含与SEQ ID NO:58或595或其变体具有至少70％、至少80％或至少90％同一性的序列。

41.如权利要求1-39中任一项所述的工程化核酸编辑系统，其中：

a)所述核酸内切酶包含与SEQ ID NO:70、71或78中的任一个或其变体具有至少70％、至少80％或至少90％同一性的序列；

b)所述向导RNA结构包含与SEQ ID NO:88、89或96中至少一个的非简并核苷酸具有至少70％、至少80％或至少90％同一性的序列；

c)所述核酸内切酶被配置为与包含SEQ ID NO:360、362或368中的任一个的PAM结合；或者

d)所述碱基编辑器包含与SEQ ID NO:594或其变体具有至少70％、至少80％或至少90％同一性的序列。

42.如权利要求1-41中任一项所述的工程化核酸编辑系统，其中所述序列同一性通过BLASTP、CLUSTALW、MUSCLE、MAFFT或史密斯-沃特曼同源性搜索算法来确定。

43.如权利要求42所述的工程化核酸编辑系统，其中所述序列同一性通过使用字长(W)为3、期望值(E)为10并且BLOSUM62评分矩阵设置缺口存在成本为11、延伸值为1的参数并且使用条件组成评分矩阵调整的所述BLASTP同源性搜索算法来确定。

44.如权利要求1-43中任一项所述的工程化核酸编辑系统，其中所述核酸内切酶被配置为催化失活的。

45.一种核酸，其包含被优化以用于在生物体中表达的工程化核酸序列，其中所述核酸编码与碱基编辑器偶联的2类II型Cas核酸内切酶，并且其中所述核酸内切酶来源于非培养的微生物。

46.一种核酸，其包含被优化以用于在生物体中表达的工程化核酸序列，其中所述核酸编码与碱基编辑器偶联的核酸内切酶，所述核酸内切酶与SEQ ID NO:70-78中的任一个具有至少70％序列同一性。

47.如权利要求44-46中任一项所述的核酸，其中所述核酸内切酶包含编码在所述核酸内切酶的N或C末端近侧的一个或多个核定位序列(NLS)的序列。

48.如权利要求47所述的核酸，其中所述NLS包含与选自SEQ ID NO:369-384的序列或其变体具有至少90％同一性的序列。

49.如权利要求44-48中任一项所述的核酸，其中所述生物体是原核生物、细菌、真核生物、真菌、植物、哺乳动物、啮齿动物或人类。

50.一种载体，其包含核酸序列，所述核酸序列编码与碱基编辑器偶联的2类II型Cas核酸内切酶，其中所述核酸内切酶来源于非培养的微生物。

51.一种载体，其包含如权利要求44-49中任一项所述的核酸。

52.如权利要求50-51中任一项所述的载体，其还包含核酸，所述核酸编码被配置为与所述核酸内切酶形成复合物的工程化向导核糖核酸结构，所述工程化向导核糖核酸结构包含：

a)被配置为与靶脱氧核糖核酸序列杂交的向导核糖核酸序列；和

b)被配置为与所述核酸内切酶结合的核糖核酸序列。

53.如权利要求50-52中任一项所述的载体，其中所述载体是质粒、微环、CELiD、腺相关病毒(AAV)来源的病毒粒子或慢病毒。

54.一种细胞，其包含如权利要求50-53中任一项所述的载体。

55.一种制造核酸内切酶的方法，所述方法包括培养如权利要求54所述的细胞。

56.一种用于修饰双链脱氧核糖核酸多核苷酸的方法，所述方法包括使所述双链脱氧核糖核酸多核苷酸与复合物接触，所述复合物包括：

a.包含RuvC结构域和HNH结构域的核酸内切酶，其中所述核酸内切酶来源于非培养的微生物，其中所述核酸内切酶是2类II型Cas核酸内切酶，并且其中所述RuvC结构域缺乏核酸酶活性；

b.与所述核酸内切酶偶联的碱基编辑器；和

c.被配置为与所述核酸内切酶和所述双链脱氧核糖核酸多核苷酸结合的工程化向导核糖核酸结构；

其中所述双链脱氧核糖核酸多核苷酸包含原间隔子相邻基序(PAM)。

57.如权利要求56所述的方法，其中所述包含RuvC结构域和HNH结构域的核酸内切酶直接与所述碱基编辑器共价偶联或通过接头与所述碱基编辑器共价偶联。

58.如权利要求56或57所述的方法，其中所述包含RuvC结构域和HNH结构域的核酸内切酶包含与SEQ ID NO:70-78或597中的任一个或其变体具有至少95％序列同一性的序列。

59.如权利要求56-57中任一项所述的方法，其中当最佳比对时，所述核酸内切酶相对于SEQ ID NO:70在残基9处、相对于SEQ ID NO:71、72或74在残基13处、相对于SEQ ID NO:73或78在残基12处、相对于SEQ ID NO:75在残基17处、相对于SEQ ID NO:76在残基23处、相对于SEQ ID NO:77在残基8处或相对于SEQ ID NO:597在残基10处包含天冬氨酸向丙氨酸突变。

60.如权利要求56-57中任一项所述的方法，其中当最佳比对时，所述核酸内切酶相对于SEQ ID NO:70在残基9处、相对于SEQ ID NO:72在残基13处或相对于SEQ ID NO:75在残基17处包含天冬氨酸向丙氨酸突变。

61.一种用于修饰双链脱氧核糖核酸多核苷酸的方法，所述方法包括使所述双链脱氧核糖核酸多核苷酸与复合物接触，所述复合物包括：

2类II型Cas核酸内切酶，

与所述核酸内切酶偶联的碱基编辑器，和

被配置为与所述核酸内切酶和所述双链脱氧核糖核酸多核苷酸结合的工程化向导核糖核酸结构；

其中所述双链脱氧核糖核酸多核苷酸包含原间隔子相邻基序(PAM)；并且

其中所述PAM包含选自SEQ ID NO:70-78或597的序列。

62.如权利要求61所述的方法，其中所述2类II型Cas核酸内切酶与所述碱基编辑器共价偶联或通过接头与所述碱基编辑器偶联。

63.如权利要求61或62所述的方法，其中所述碱基编辑器包含与选自SEQ ID NO:1-51、57-66、385-443、444-475或594-595的序列或其变体具有至少70％、至少80％、至少90％或至少95％同一性的序列。

64.如权利要求61-63中任一项所述的方法，其中

所述碱基编辑器包含腺嘌呤脱氨酶；

所述双链脱氧核糖核酸多核苷酸包含腺嘌呤；并且

修饰所述双链脱氧核糖核酸多肽包括将所述腺嘌呤转化为鸟嘌呤。

65.如权利要求64所述的方法，其中所述腺嘌呤脱氨酶包含与SEQ ID NO:50-51、57、385-443、448-475或595中的任一个或其变体具有至少70％、80％、90％或95％序列同一性的序列。

66.如权利要求61-63中任一项所述的方法，其中

所述碱基编辑器包含胞嘧啶脱氨酶；

所述双链脱氧核糖核酸多核苷酸包含胞嘧啶；并且

修饰所述双链脱氧核糖核酸多肽包括将所述胞嘧啶转化为尿嘧啶。

67.如权利要求66所述的方法，其中所述胞嘧啶脱氨酶包含与SEQ ID NO:1-49、444-447、594或58-66中的任一个或其变体具有至少70％、80％、90％或95％序列同一性的序列。

68.如权利要求61-67中任一项所述的方法，其中所述复合物还包含与所述核酸内切酶或所述碱基编辑器偶联的尿嘧啶DNA糖基化酶抑制剂。

69.如权利要求68所述的方法，其中所述尿嘧啶DNA糖基化酶抑制剂包含与SEQ ID NO:52-56或SEQ ID NO:67中的任一个或其变体具有至少70％、80％、90％或95％同一性的序列。

70.如权利要求61-69中任一项所述的方法，其中所述双链脱氧核糖核酸多核苷酸包含第一链，所述第一链包含与所述工程化向导核糖核酸结构的序列互补的序列；和第二链，所述第二链包含所述PAM。

71.如权利要求70所述的方法，其中所述PAM直接与和所述工程化向导核糖核酸结构的所述序列互补的所述序列的3’末端相邻。

72.如权利要求61-71中任一项所述的方法，其中所述2类II型Cas核酸内切酶不是Cas9核酸内切酶、Cas14核酸内切酶、Cas12a核酸内切酶、Cas12b核酸内切酶、Cas 12c核酸内切酶、Cas12d核酸内切酶、Cas12e核酸内切酶、Cas13a核酸内切酶、Cas13b核酸内切酶、Cas13c核酸内切酶或Cas 13d核酸内切酶。

73.如权利要求61-72中任一项所述的方法，其中所述2类II型Cas核酸内切酶来源于非培养的微生物。

74.如权利要求61-73中任一项所述的方法，其中所述双链脱氧核糖核酸多核苷酸是真核、植物、真菌、哺乳动物、啮齿动物或人类双链脱氧核糖核酸多核苷酸。

75.一种修饰靶核酸基因座的方法，所述方法包括将如权利要求1-44中任一项所述的工程化核酸编辑系统递送至所述靶核酸基因座，其中所述核酸内切酶被配置为与所述工程化向导核糖核酸结构形成复合物，并且其中所述复合物被配置为使得在所述复合物与所述靶核酸基因座结合后，所述复合物修饰所述靶核酸基因座的核苷酸。

76.如权利要求75所述的方法，其中所述工程化核酸编辑系统包含腺嘌呤脱氨酶，所述核苷酸是腺嘌呤，并且修饰所述靶核酸基因座包括将所述腺嘌呤转化为鸟嘌呤。

77.如权利要求75所述的方法，其中所述工程化核酸编辑系统包含胞苷脱氨酶和尿嘧啶DNA糖基化酶抑制剂，所述核苷酸是胞嘧啶，并且修饰所述靶核酸基因座包括将所述腺嘌呤转化为尿嘧啶。

78.如权利要求75-77中任一项所述的方法，其中所述靶核酸基因座包含基因组DNA、病毒DNA或细菌DNA。

79.如权利要求75-78中任一项所述的方法，其中所述靶核酸基因座在体外。

80.如权利要求75-78中任一项所述的方法，其中所述靶核酸基因座在细胞内。

81.如权利要求80所述的方法，其中所述细胞是原核细胞、细菌细胞、真核细胞、真菌细胞、植物细胞、动物细胞、哺乳动物细胞、啮齿动物细胞、灵长类动物细胞或人类细胞。

82.如权利要求80-81中任一项所述的方法，其中所述细胞在动物内。

83.如权利要求82所述的方法，其中所述细胞在耳蜗内。

84.如权利要求80-81中任一项所述的方法，其中所述细胞在胚胎内。

85.如权利要求84所述的方法，其中所述胚胎是双细胞胚胎。

86.如权利要求84所述的方法，其中所述胚胎是小鼠胚胎。

87.如权利要求75-86中任一项所述的方法，其中将所述工程化核酸编辑系统递送至所述靶核酸基因座包括递送如权利要求46-49中任一项所述的核酸或如权利要求50-53中任一项所述的载体。

88.如权利要求75-87中任一项所述的方法，其中将所述工程化核酸编辑系统递送至所述靶核酸基因座包括递送包含编码所述核酸内切酶的开放阅读框的核酸。

89.如权利要求88所述的方法，其中所述核酸包含编码所述核酸内切酶的所述开放阅读框可操作地连接的启动子。

90.如权利要求75-89中任一项所述的方法，其中将所述工程化核酸编辑系统递送至所述靶核酸基因座包括递送包含编码所述核酸内切酶的所述开放阅读框的加帽mRNA。

91.如权利要求75-86中任一项所述的方法，其中将所述工程化核酸编辑系统递送至所述靶核酸基因座包括递送多肽。

92.如权利要求75-86中任一项所述的方法，其中将所述工程化核酸编辑系统递送至所述靶核酸基因座包括递送编码所述工程化向导核糖核酸结构的脱氧核糖核酸(DNA)，所述工程化向导核糖核酸结构可操作地连接至核糖核酸(RNA)polIII启动子。

93.一种工程化核酸编辑多肽，其包含：

包含RuvC结构域和HNH结构域的核酸内切酶，其中所述核酸内切酶来源于非培养的微生物，其中所述核酸内切酶是2类II型Cas核酸内切酶，并且

其中所述RuvC结构域缺乏核酸酶活性；和

与所述核酸内切酶偶联的碱基编辑器。

94.如权利要求93所述的工程化核酸编辑多肽，其中所述核酸内切酶包含与SEQ IDNO:70-78或597中的任一个或其变体具有至少95％序列同一性的序列。

95.一种工程化核酸编辑多肽，其包含：

与SEQ ID NO:70-78或597中的任一个或其变体具有至少95％序列同一性的核酸内切酶，

其中所述核酸内切酶包含缺乏核酸酶活性的RuvC结构域；和

与所述核酸内切酶偶联的碱基编辑器。

96.一种工程化核酸编辑多肽，其包含：

被配置为与原间隔子相邻基序(PAM)序列结合的核酸内切酶，所述原间隔子相邻基序序列包含SEQ ID NO:360-368或598中的任一个，

其中所述核酸内切酶是2类II型Cas核酸内切酶，并且

其中所述核酸内切酶包含缺乏核酸酶活性的RuvC结构域；和

与所述核酸内切酶偶联的碱基编辑器。

97.如权利要求95或96所述的工程化核酸编辑多肽，其中所述核酸内切酶来源于非培养的微生物。

98.如权利要求93-97中任一项所述的工程化核酸编辑多肽，其中所述核酸内切酶与Cas9核酸内切酶具有小于80％的同一性。

99.如权利要求95-98中任一项所述的工程化核酸编辑多肽，其中所述核酸内切酶还包含HNH结构域。

100.如权利要求95-99中任一项所述的工程化核酸编辑多肽，其中所述tracr核糖核酸序列包含与选自SEQ ID NO:88-96、488和489中任一个的约60至90个连续核苷酸具有至少80％序列同一性的序列。

101.如权利要求93-100中任一项所述的工程化核酸编辑多肽，其中所述碱基编辑器包含与SEQ ID NO:1-51、57-66、385-443、444-475或594-595中的任一个或其变体具有至少70％、80％、90％或95％同一性的序列。

102.如权利要求93-101中任一项所述的工程化核酸编辑多肽，其中所述碱基编辑器是腺嘌呤脱氨酶。

103.如权利要求102所述的工程化核酸编辑多肽，其中所述腺苷脱氨酶包含与SEQ IDNO:50-51、57、385-443、448-475或595中的任一个或其变体具有至少70％、80％、90％或95％序列同一性的序列。

104.如权利要求93-101中任一项所述的工程化核酸编辑多肽，其中所述碱基编辑器是胞嘧啶脱氨酶。

105.如权利要求104所述的工程化核酸编辑多肽，其中所述胞嘧啶脱氨酶包含与SEQID NO:1-49、444-447、594或58-66中的任一个或其变体具有至少70％、80％、90％或95％序列同一性的序列。

106.一种工程化核酸编辑多肽，其包含：

核酸内切酶，其中所述核酸内切酶被配置为缺乏核酸内切酶活性；和

与所述核酸内切酶偶联的碱基编辑器，

其中所述碱基编辑器包含与SEQ ID NO:1-51、385-386、387-443、444-447、488-475或595中的任一个或其变体具有至少70％、80％、90％或95％序列同一性的序列。

107.如权利要求106所述的工程化核酸编辑多肽，其中所述核酸内切酶被配置为切割双链靶脱氧核糖核酸的一条链。

108.如权利要求106所述的工程化核酸编辑多肽，其中所述核酸内切酶被配置为催化失活的。

109.如权利要求106-108中任一项所述的工程化核酸编辑多肽，其中所述核酸内切酶是Cas核酸内切酶。

110.如权利要求109所述的工程化核酸编辑多肽，其中所述Cas核酸内切酶是II类II型Cas核酸内切酶或II类V型Cas核酸内切酶。

111.如权利要求106所述的工程化核酸编辑多肽，其中所述核酸内切酶包含与SEQ IDNO:70-78或597中的任一个或其变体具有至少70％、80％、90％或95％序列同一性的序列。

112.如权利要求109-111中任一项所述的工程化核酸编辑多肽，其中所述Cas核酸内切酶包含切口酶突变。

113.如权利要求112所述的工程化核酸编辑多肽，其中所述Cas核酸内切酶相对于SEQID NO:70在残基9处、相对于SEQ ID NO:71、72或74在残基13处、相对于SEQ ID NO:73在残基12处、相对于SEQ ID NO:75在残基17处、相对于SEQ ID NO:76在残基23处或相对于SEQID NO:597在残基10处包含天冬氨酸向丙氨酸突变。

114.如权利要求109-113中任一项所述的工程化核酸编辑多肽，其中所述核酸内切酶被配置为与原间隔子相邻基序(PAM)序列结合，所述原间隔子相邻基序序列选自SEQ IDNO:360-368或598。

115.如权利要求106-114中任一项所述的工程化核酸编辑多肽，其中所述碱基编辑器是腺嘌呤脱氨酶。

116.如权利要求115所述的工程化核酸编辑多肽，其中所述腺苷脱氨酶包含与SEQ IDNO:50-51、385-443、448-475或595中的任一个或其变体具有至少80％、至少81％、至少82％、至少83％、至少84％、至少85％、至少86％、至少87％、至少88％、至少89％、至少90％、至少91％、至少92％、至少93％、至少94％、至少95％、至少96％、至少97％、至少98％、至少99％或100％序列同一性的序列。

117.如权利要求116所述的工程化核酸编辑多肽，其中所述腺苷脱氨酶包含与SEQ IDNO:50-51、385-390或595中的任一个或其变体具有至少70％、80％、90％或95％同一性的序列。

118.如权利要求106-114中任一项所述的工程化核酸编辑多肽，其中所述碱基编辑器是胞嘧啶脱氨酶。

119.如权利要求118所述的工程化核酸编辑多肽，其中所述胞嘧啶脱氨酶包含与SEQID NO:1-49、444-447中的任一个或其变体具有至少70％、80％、90％或95％同一性的序列。

120.如权利要求106-119中任一项所述的工程化核酸编辑多肽，其还包含与所述核酸内切酶或所述碱基编辑器偶联的尿嘧啶DNA糖基化酶抑制剂(UGI)。

121.如权利要求120所述的工程化核酸编辑多肽，其中所述尿嘧啶DNA糖基化酶抑制剂包含与SEQ ID NO:52-56或SEQ ID NO:67中的任一个或其变体具有至少70％、80％、90％或95％同一性的序列。

122.如权利要求106-121中任一项所述的工程化核酸编辑多肽，其中包含所述核酸内切酶的多肽包含在所述核酸内切酶的N或C末端近侧的一个或多个核定位序列(NLS)。

123.如权利要求122所述的工程化核酸编辑多肽，其中所述NLS包含与选自SEQ ID NO:369-384的序列或其变体具有至少90％同一性的序列。

124.如权利要求106-123中任一项所述的工程化核酸编辑多肽，其中所述核酸内切酶直接与所述碱基编辑器共价偶联或通过接头与所述碱基编辑器共价偶联。

125.一种核酸，其包含被优化以用于在生物体中表达的工程化核酸序列，其中所述核酸编码与SEQ ID NO:1-51、385-386、387-443、444-447、488-475或595中的任一个或其变体具有至少80％、至少81％、至少82％、至少83％、至少84％、至少85％、至少86％、至少87％、至少88％、至少89％、至少90％、至少91％、至少92％、至少93％、至少94％、至少95％、至少96％、至少97％、至少98％、至少99％或100％序列同一性的序列。

126.如权利要求125所述的核酸，其中所述生物体是原核生物、细菌、真核生物、真菌、植物、哺乳动物、啮齿动物或人类。

127.一种载体，其包含如权利要求125-126中任一项所述的核酸。

128.如权利要求127所述的载体，其中所述载体是质粒、微环、CELiD、腺相关病毒(AAV)来源的病毒粒子或慢病毒。

129.一种细胞，其包含如权利要求127-128中任一项所述的载体。

130.一种制造碱基编辑器的方法，所述方法包括培养如权利要求129所述的细胞。

131.一种系统，其包括：

(a)如权利要求106-124中任一项所述的核酸编辑多肽；和

(b)被配置为与所述核酸编辑多肽形成复合物的工程化向导核糖核酸结构，所述工程化向导核糖核酸结构包含：

ii.被配置为与所述核酸内切酶结合的核糖核酸序列。

132.如权利要求131所述的系统，其中所述工程化向导核糖核酸序列包含与SEQ IDNO:88-96或488-489中任一个的非简并核苷酸具有至少80％序列同一性的序列。

133.一种修饰靶核酸基因座的方法，所述方法包括将如权利要求106-124中任一项所述的工程化核酸编辑多肽或如权利要求131-132中任一项所述的系统递送至所述靶核酸基因座，其中所述复合物被配置为使得在所述复合物与所述靶核酸基因座结合后，所述复合物修饰所述靶核酸基因座的核苷酸。