ES3011849T3

ES3011849T3 - Rna-guided nucleases and active fragments and variants thereof and methods of use

Info

Publication number: ES3011849T3
Application number: ES19732821T
Authority: ES
Inventors: Tyson D Bowen; Tedd D Elich; Alexandra Briner Crawley; Rodolphe Barrangou; Michael Coyle
Original assignee: Life Edit Therapeutics Inc
Current assignee: Life Edit Therapeutics Inc
Priority date: 2018-06-05
Filing date: 2019-06-04
Publication date: 2025-04-08
Anticipated expiration: 2039-06-04
Also published as: SG11202011975WA; PL3802807T3; US20190367949A1; JP2025133875A; IL321042A; ZA202008045B; EP4512900A3; CA3102840A1; EP3802807A1; CN113015797A; JP7708660B2; IL279222B1; US11162114B2; AU2019282149A1; US20220002756A1; TW202010843A; AU2019282149B2; EP3802807B1; IL279222A; EP4512900A2

Abstract

Se proporcionan composiciones y métodos para la unión a una secuencia diana de interés. Estas composiciones se utilizan para la escisión o modificación de una secuencia diana de interés, la visualización de dicha secuencia y la modificación de su expresión. Las composiciones comprenden polipéptidos de nucleasa guiados por ARN, ARN CRISPR, ARN CRISPR transactivadores, ARN guía y moléculas de ácido nucleico que los codifican. También se proporcionan vectores y células hospedadoras que comprenden las moléculas de ácido nucleico. Además, se proporcionan sistemas CRISPR para la unión a una secuencia diana de interés, donde el sistema CRISPR comprende un polipéptido de nucleasa guiado por ARN y uno o más ARN guía. (Traducción automática con Google Translate, sin valor legal)

Description

DESCRIPCIÓN

Nucleasas guiadas por ARN y fragmentos activos y variantes de las mismas y métodos de uso

Campo de la invención

La presente invención se refiere al campo de la biología molecular y la edición génica, en particular a polipéptidos de nucleasa guiada por ARN (RGN, por sus siglas en inglés) que comprenden una secuencia de aminoácidos que tiene al menos un 95 % de identidad de secuencia con las SEQ ID NO: 11 o 27.

Antecedentes de la invención

La edición o modificación genómica dirigida se está convirtiendo rápidamente en una herramienta importante para la investigación básica y aplicada. Los métodos iniciales implicaban modificar por ingeniería genética nucleasas tales como meganucleasas, proteínas de fusión con dedos de cinc o TALEN, lo que requería la generación de nucleasas quiméricas con dominios de unión a ADN programables, específicos de secuencia y modificados por ingeniería genética para cada secuencia diana particular. Las nucleasas guiadas por ARN, tales como las proteínas asociadas a Repeticiones palindrómicas cortas agrupadas regularmente interespaciadas (CRISPR, por sus siglas en inglés) (cas) del sistema bacteriano CRISPR-cas, permiten el direccionamiento de secuencias específicas mediante la formación de complejos de las nucleasas con ARN guía que se hibrida específicamente con una secuencia diana particular. Producir ARN guía específicos de diana es menos costoso y más eficiente que generar nucleasas quiméricas para cada secuencia diana. Dichas nucleasas guiadas por ARN pueden usarse para editar genomas a través de la introducción de una rotura bicatenaria, específica de secuencia, que se repara mediante unión de extremos no homólogos propensa a errores (NHEJ, por sus siglas en inglés) para introducir una mutación en una ubicación genómica específica. Como alternativa, puede introducirse ADN heterólogo en el sitio genómico mediante reparación dirigida por homología.

El documento WO 2017/155714 A1 describe sistemas y composiciones de endonucleasas de Cas9 guiados y métodos para alterar el genoma de una célula.

Breve sumario de la invención

En un primer aspecto, la invención proporciona una molécula de ácido nucleico que comprende un polinucleótido que codifica un polipéptido de nucleasa guiada por ARN (RGN), en donde dicho polinucleótido comprende una secuencia de nucleótidos que codifica un polipéptido de RGN que comprende una secuencia de aminoácidos que tiene al menos un 95 % de identidad de secuencia con las SEQ ID NO: 11 o 27;

en donde dicho polipéptido de RGN se une a una secuencia de ADN diana de una manera específica de secuencia guiada por ARN cuando se une a un ARN guía (ARNg) capaz de hibridarse con dicha secuencia de ADN diana.

En una realización, dicho polinucleótido que codifica el polipéptido de RGN está unido operativamente a un promotor heterólogo.

En una realización, dicho polipéptido de RGN es una nucleasa muerta o actúa como una nicasa, opcionalmente en donde el polipéptido de RGN está fusionado operativamente con un polipéptido de edición de bases, por ejemplo, un polipéptido de desaminasa.

En una realización, dicha secuencia de ADN diana se ubica adyacente a un motivo adyacente al protoespaciador (PAM) de NNNNCC (SEQ ID NO: 6) o NNRNCC (SEQ ID NO: 32).

En un segundo aspecto, la invención proporciona un vector que comprende la molécula de ácido nucleico del primer aspecto.

En una realización, dicho vector comprende además al menos una secuencia de nucleótidos que codifica dicho ARN guía, y en donde el ARN guía comprende un ARN de CRISPR que comprende una secuencia de repetición de CRISPR que tiene al menos un 95 % de identidad de secuencia con las SEQ ID NO: 12 o 28.

En una realización, el ARN guía comprende un ARNcrtra que tiene al menos un 95 % de identidad de secuencia con las SEQ ID NO: 13 o 29.

En un tercer aspecto, la invención proporciona una célula que comprende la molécula de ácido nucleico del primer aspecto o el vector del segundo aspecto.

En un cuarto aspecto, la invención proporciona un polipéptido de nucleasa guiada por ARN (RGN) que comprende una secuencia de aminoácidos que tiene al menos un 95 % de identidad de secuencia con las SEQ ID NO: 11 o 27.

En una realización, dicho polipéptido de RGN comprende la secuencia de aminoácidos de la SEQ ID NO: 11 o 27. En una realización, dicho polipéptido de RGN es una nucleasa muerta o actúa como una nicasa, y opcionalmente en donde el polipéptido de RGN está unido operativamente a un polipéptido de edición de bases, por ejemplo, un polipéptido de desaminasa.

En un quinto aspecto, la invención proporciona un sistema para unir una secuencia de ADN diana, comprendiendo dicho sistema:

(a) uno o más ARN guía capaces de hibridarse con dicha secuencia de ADN diana o una o más secuencias de nucleótidos que codifican el uno o más ARN guía (ARNg); y

(b) el polipéptido de RGN del cuarto aspecto o una secuencia de nucleótidos que codifica el polipéptido de RGN; en donde dichas secuencias de nucleótidos que codifican el uno o más ARN guía y que codifican el polipéptido de RGN están unidas operativamente cada una a un promotor heterólogo a cada una de dichas secuencias de nucleótidos;

en donde el uno o más ARN guía se hibridan con la secuencia de ADN diana, y

en donde el uno o más ARN guía forman un complejo con el polipéptido de RGN, dirigiendo de este modo dicho polipéptido de RGN para que se una a dicha secuencia de ADN diana.

En una realización, la secuencia de ADN diana está dentro de una célula eucariota.

En una realización, dicho sistema comprende además uno o más polinucleótidos donantes o una o más secuencias de nucleótidos que codifican el uno o más polinucleótidos donantes, en donde dichas secuencias de nucleótidos que codifican el uno o más polinucleótidos donantes están unidas operativamente cada una a un promotor heterólogo a cada una de dichas secuencias de nucleótidos.

En un sexto aspecto, la invención proporciona el sistema del quinto aspecto para su uso como medicamento.

En un séptimo aspecto, la invención proporciona el sistema del quinto aspecto para su uso en un métodoin vitropara tratar una enfermedad heredada genéticamente, comprendiendo dicho método suministrar el sistema a dicha secuencia de ADN diana o una célula que comprende la secuencia de ADN diana.

En un octavo aspecto, la invención proporciona un métodoin vitropara unir una secuencia de ADN diana que comprende suministrar un sistema de acuerdo con el quinto aspecto, a dicha secuencia de ADN diana o una célula que comprende la secuencia de ADN diana.

En un noveno aspecto, la invención proporciona un métodoin vitropara escindir y/o modificar una secuencia de ADN diana, que comprende poner en contacto la secuencia de ADN diana con:

(a) el polipéptido de RGN del cuarto aspecto; y

(b) uno o más ARN guía capaces de dirigir la RGN de (a) a la secuencia de ADN diana;

en donde el uno o más ARN guía se hibridan con la secuencia de ADN diana, dirigiendo de este modo dicho polipéptido de RGN para que se una a dicha secuencia de ADN diana y se produzca la escisión y/o modificación de dicha secuencia de<a>D<n>diana.

En una realización, dicha secuencia de ADN diana modificada comprende la inserción de ADN heterólogo en la secuencia de ADN diana, o en donde dicha secuencia de ADN diana modificada comprende la supresión de al menos un nucleótido de la secuencia de ADN diana, o en donde dicha secuencia de ADN diana modificada comprende la mutación de al menos un nucleótido en la secuencia de ADN diana.

En una realización, la secuencia de ADN diana está dentro de una célula, tal como una célula eucariota.

En una realización, el método comprende además cultivar la célula en condiciones en las que el polipéptido de RGN se expresa y escinde la secuencia de ADN diana para producir una secuencia de ADN modificada; y seleccionar una célula que comprende dicha secuencia de ADN modificada.

Se posibilitan composiciones y métodos para unir una secuencia diana de interés. Las composiciones encuentran uso en la escisión o modificación de una secuencia diana de interés, la detección de una secuencia diana de interés y la modificación de la expresión de una secuencia de interés. Las composiciones comprenden polipéptidos de nucleasa guiada por ARN<( R g N ) ,>ARN de CRISPR (ARNcr), ARN de<C R I S p R>transactivadores (ARNcrtra), ARN guía (ARNg), moléculas de ácido nucleico que codifican los mismos, y vectores y células hospedadoras que comprenden las moléculas de ácido nucleico. También se posibilitan sistemas CRISPR para unir una secuencia diana de interés, en donde el sistema CRISPR comprende un polipéptido de nucleasa guiada por ARN y uno o más ARN guía. Por lo tanto, los métodos divulgados en el presente documento se dirigen a unir una secuencia diana de interés y, en algunas realizaciones, escindir o modificar la secuencia diana de interés. La secuencia diana de interés puede modificarse, por ejemplo, como resultado de la unión de extremos no homólogos o la reparación dirigida por homología con una secuencia donante introducida.

Las referencias a métodos de tratamiento mediante terapia con una composición, sistema u otro agente han de interpretarse como referencias a la composición, sistema u otro agente para su uso en esos métodos.

Descripción detallada

A la mente de un experto en la materia a la que pertenecen estos aspectos de la invención vendrán muchas modificaciones y otras realizaciones de los aspectos de la invención expuestos en el presente documento que tengan el beneficio de las enseñanzas presentadas en las descripciones anteriores y los dibujos asociados. Por lo tanto, ha de entenderse que los aspectos de la invención no han de limitarse a las realizaciones específicas divulgadas y que se prevé incluir modificaciones y otras realizaciones dentro del alcance de las reivindicaciones adjuntas.

I. Descripción general

Las nucleasas guiadas por ARN (RGN) permiten la manipulación dirigida de un único sitio dentro de un genoma y son útiles en el contexto del direccionamiento génico para aplicaciones terapéuticas y de investigación. En diversos organismos, incluyendo mamíferos, se han utilizado nucleasas guiadas por ARN para la modificación por ingeniería genómica estimulando la unión de extremos no homólogos y la recombinación homóloga, por ejemplo. Las composiciones y métodos descritos en el presente documento son útiles para crear roturas monocatenarias o bicatenarias en polinucleótidos, modificar polinucleótidos, detectar un sitio particular dentro de un polinucleótido o modificar la expresión de un gen particular.

Las nucleasas guiadas por ARN divulgadas en el presente documento pueden alterar la expresión génica mediante la modificación de una secuencia diana. En realizaciones específicas, las nucleasas guiadas por ARN se dirigen a la secuencia diana mediante un ARN guía (ARNg) como parte de un sistema de nucleasas guiadas por ARN de Repeticiones palindrómicas cortas agrupadas regularmente interespaciadas (CRISPR). Los ARN guía forman un complejo con las nucleasas guiadas por ARN para dirigir la nucleasa guiada por ARN para que se una a una secuencia diana y, en algunas realizaciones, introducir una rotura monocatenaria o bicatenaria en la secuencia diana. Después de que se haya escindido la secuencia diana, la rotura puede repararse de manera que la secuencia de ADN de la secuencia diana se modifique durante el proceso de reparación. Por lo tanto, en el presente documento se proporcionan métodos para usar las nucleasas guiadas por ARN para modificar una secuencia diana en el ADN de las células hospedadoras. Por ejemplo, pueden usarse nucleasas guiadas por ARN para modificar una secuencia diana en un locus genómico de células eucariotas o células procariotas.

II. Nucleasas guiadas por ARN

En el presente documento se proporcionan nucleasas guiadas por ARN. La expresión nucleasa guiada por ARN (RGN) se refiere a un polipéptido que se une a una secuencia de nucleótidos diana particular de una manera específica de secuencia y se dirige a la secuencia de nucleótidos diana mediante una molécula de ARN guía que forma complejo con el polipéptido y se hibrida con la secuencia diana. Aunque una nucleasa guiada por ARN puede ser capaz de escindir la secuencia diana tras la unión, la expresión nucleasa guiada por ARN también abarca nucleasas guiadas por ARN de nucleasa-muerta que son capaces de unirse a, pero no escindir, una secuencia diana. La escisión de una secuencia diana por una nucleasa guiada por ARN puede dar como resultado una rotura monocatenaria o bicatenaria. Las nucleasas guiadas por ARN que sólo pueden escindir una cadena única de una molécula de ácido nucleico bicatenario se denominan en el presente documento nicasas.

Las nucleasas guiadas por ARN divulgadas en el presente documento de acuerdo con aspectos de la invención incluyen las nucleasas guiadas por ARN APG07433.1 y APG08290.1, cuyas secuencias de aminoácidos se exponen, respectivamente, como las SEQ ID NO: 11 y 27, y fragmentos activos o variantes de los mismos que conservan la capacidad de unirse a una secuencia de nucleótidos diana de una manera específica de secuencia guiada por ARN. En algunas de estas realizaciones, el fragmento activo o variante de las RGN APG07433.1 y APG08290.1 es capaz de escindir una secuencia diana monocatenaria o bicatenaria. Una variante activa de la RGN APG07433.1 o APG08290.1 comprende una secuencia de aminoácidos que tiene al menos un 95 %, 96 %, 97 %, 98 %, 99 % o más de identidad de secuencia con la secuencia de aminoácidos expuesta como las SEQ ID NO: 11 o 27. En determinadas realizaciones, un fragmento activo de la RGN APG07433.1 o APG08290.1 comprende al menos 50, 100, 150, 200, 250, 300, 350, 400, 450, 500, 550, 600, 650, 700, 750, 800, 850, 900, 950, 1000, 1050 o más restos de aminoácidos contiguos de la secuencia de aminoácidos expuesta como las SEQ ID NO: 11 o 27. Las nucleasas guiadas por ARN proporcionadas en el presente documento pueden comprender al menos un dominio nucleasa (por ejemplo, dominio ADNasa, ARNasa) y al menos un dominio de reconocimiento de ARN y/o unión de ARN para interactuar con los ARN guía. Otros dominios que pueden encontrarse en las nucleasas guiadas por ARN proporcionadas en el presente documento incluyen, pero sin limitación: dominios de unión a ADN, dominios helicasa, dominios de interacción proteína-proteína y dominios de dimerización. En realizaciones específicas, las nucleasas guiadas por ARN proporcionadas en el presente documento pueden comprender al menos un 70 %, 75 %, 80 %, 85 %, 90 %, 91 %, 92 %, 93 %, 94 %, 95 %, 96 %, 97 %, 98 %, 99 % con uno o más de dominios de unión a ADN, dominios helicasa, dominios de interacción proteína-proteína y dominios de dimerización.

Una secuencia de nucleótidos diana se une por una nucleasa guiada por ARN proporcionada en el presente documento y se hibrida con el ARN guía asociado a la nucleasa guiada por ARN. Entonces, la secuencia diana puede escindirse posteriormente por la nucleasa guiada por ARN si el polipéptido posee actividad nucleasa. Los términos "escindir" o "escisión" se refieren a la hidrólisis de al menos un enlace fosfodiéster dentro de la cadena principal de una secuencia de nucleótidos diana que puede dar como resultado roturas monocatenarias o bicatenarias dentro de la secuencia diana. Las RGN divulgadas en el presente documento pueden escindir nucleótidos dentro de un polinucleótido, actuando como una endonucleasa, o pueden ser una exonucleasa, eliminando nucleótidos sucesivos del extremo (el extremo 5' y/o el extremo 3') de un polinucleótido. En otras realizaciones, las RGN divulgadas pueden escindir nucleótidos de una secuencia diana dentro de cualquier posición de un polinucleótido y, por lo tanto, actúan como una endonucleasa y como una exonucleasa. La escisión de un polinucleótido diana por las RGN divulgadas en el presente documento puede dar como resultado roturas escalonadas o extremos romos.

Las nucleasas guiadas por ARN divulgadas en el presente documento pueden ser secuencias de tipo silvestre derivadas de especies bacterianas o de arqueas. Como alternativa, las nucleasas guiadas por ARN pueden ser variantes o fragmentos de polipéptidos de tipo silvestre. La RGN de tipo silvestre puede modificarse para alterar la actividad nucleasa o alterar la especificidad de PAM, por ejemplo. En algunas realizaciones, la nucleasa guiada por ARN no es de origen natural.

En determinadas realizaciones, la nucleasa guiada por ARN actúa como una nicasa, escindiendo únicamente una única cadena de la secuencia de nucleótidos diana. Dichas nucleasas guiadas por ARN tienen un único dominio nucleasa funcional. En algunas de estas realizaciones, se han mutado dominios nucleasa adicionales de manera que la actividad nucleasa se reduce o elimina.

En otras realizaciones, la nucleasa guiada por ARN carece por completo de actividad nucleasa o muestra una actividad nucleasa reducida, y se denomina en el presente documento nucleasa-muerta. Cualquier método conocido en la técnica para introducir mutaciones en una secuencia de aminoácidos, tal como mutagénesis mediada por PCR y mutagénesis dirigida al sitio, puede usarse para generar nicasas o RGN de nucleasa-muerta. Véase, por ejemplo, la Publicación de los EE. UU. N.° 2014/0068797 y la Patente de los EE. UU. N.° 9.790.490.

Las nucleasas guiadas por ARN que carecen de actividad nucleasa pueden usarse para suministrar un polipéptido fusionado, polinucleótido o carga útil de molécula pequeña a una ubicación genómica particular. En algunas de estas realizaciones, el polipéptido de RGN o el ARN guía pueden fusionarse con un marcador detectable para permitir la detección de una secuencia particular. Como ejemplo no limitante, una RGN de nucleasa-muerta puede fusionarse con un marcador detectable (por ejemplo, proteína fluorescente) y dirigida a una secuencia particular asociada a una enfermedad para permitir la detección de la secuencia asociada a enfermedad.

Como alternativa, las RGN de nucleasa-muerta pueden dirigirse a ubicaciones genómicas particulares para alterar la expresión de una secuencia deseada. En algunas realizaciones, la unión de una nucleasa guiada por ARN de nucleasa-muerta a una secuencia diana da como resultado la represión de la expresión de la secuencia diana o un gen bajo control transcripcional por la secuencia diana al interferir con la unión de la ARN polimerasa o factores de transcripción dentro de la región genómica diana. En otras realizaciones, la RGN (por ejemplo, una RGN de nucleasamuerta) o su ARN guía complejado comprende además un modulador de la expresión que, tras la unión a una secuencia diana, sirve para reprimir o activar la expresión de la secuencia diana o un gen bajo control transcripcional por la secuencia diana. En algunas de estas realizaciones, el modulador de la expresión modula la expresión de la secuencia diana o gen regulado a través de mecanismos epigenéticos.

En otras realizaciones, las RGN de nucleasa-muerta o una RGN con actividad nicasa solamente pueden dirigirse a ubicaciones genómicas particulares para modificar la secuencia de un polinucleótido diana a través de la fusión a un polipéptido de edición de bases, por ejemplo, un polipéptido de desaminasa o variante activa o fragmento del mismo que desamina una base de nucleótido, dando como resultado la conversión de una base de nucleótido a otra. El polipéptido de edición de bases puede fusionarse con la RGN en su extremo N-terminal o C-terminal. Adicionalmente, el polipéptido de edición de bases puede fusionarse con la RGN a través de un enlazador peptídico. Un ejemplo no limitante de un polipéptido de desaminasa que es útil para dichas composiciones y métodos incluye citidina desaminasa o el editor de bases de adenosina desaminasa descrito en Gaudelliet al.(2017)Nature551:464-471, las Publicaciones de los EE. UU. N.° 2017/0121693 y 2018/0073012, y la Publicación internacional N.° WO/2018/027078.

Las nucleasas guiadas por ARN que se fusionan con un polipéptido o dominio pueden separarse o unirse mediante un enlazador. El término "enlazador", como se usa en el presente documento, se refiere a un grupo químico o una molécula que une dos moléculas o restos, por ejemplo, un dominio de unión y un dominio de escisión de una nucleasa. En algunas realizaciones, un enlazador se une a un dominio de unión de ARNg de una nucleasa guiada por ARN y un polipéptido de edición de bases, tal como una desaminasa. En algunas realizaciones, un enlazador une una RGN de nucleasa-muerta y una desaminasa. Normalmente, el enlazador se sitúa entre, o está flanqueado por, dos grupos, moléculas u otros restos, y se conecta a cada uno mediante un enlace covalente, conectando de este modo los dos. En algunas realizaciones, el enlazador es un aminoácido o una pluralidad de aminoácidos (por ejemplo, un péptido o proteína). En algunas realizaciones, el enlazador es una molécula, un grupo, un polímero o un resto químico orgánicos. En algunas realizaciones, el enlazador tiene 5-100 aminoácidos de longitud, por ejemplo, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 30-35, 35-40, 40-45, 45-50, 50-60, 60-70, 70-80, 80 90, 90-100, 100-150 o 150-200 aminoácidos de longitud. También se contemplan enlazadores más largos o más cortos.

Las nucleasas guiadas por ARN divulgadas en el presente documento pueden comprender al menos una señal de localización nuclear (NLS) para potenciar el transporte de la RGN al núcleo de una célula. Las señales de localización nuclear se conocen en la técnica y generalmente comprenden un tramo de aminoácidos básicos (véase, por ejemplo, Langeet al., J. Biol. Chem.(2007) 282:5101-5105). En realizaciones particulares, la RGN comprende 2, 3, 4, 5, 6 o más señales de localización nuclear. La señal o señales de localización nuclear pueden ser una NLS heteróloga. Son ejemplos no limitantes de señales de localización nuclear útiles para las RGN divulgadas en el presente documento las señales de localización nuclear del antígeno T grande de SV40, nucleopasmina, y c-Myc (véase, por ejemplo, Rayet al.(2015)Bioconjug Chem26(6):1004-7). En realizaciones particulares, la RGN comprende la secuencia de NLS expuesta como la SEQ ID NO: 67. La RGN puede comprender una o más secuencias de NLS en su extremo N, en su extremo C, o tanto en su extremo N como en su extremo C. Por ejemplo, la RGN puede comprender dos secuencias de NLS en la región N-terminal y cuatro secuencias de NLS en la región C-terminal.

También pueden usarse otras secuencias de señal de localización conocidas en la técnica que localizan polipéptidos en una o más ubicaciones subcelulares particulares para dirigir las RGN, incluyendo, pero sin limitación, secuencias de localización en plástidos, secuencias de localización mitocondrial y secuencias de señal de direccionamiento doble que se dirigen tanto a los plástidos como a las mitocondrias (véase, por ejemplo, Nassoury y Morse (2005)Biochim Biophys Acta1743:5-19; Kunze y Berger (2015)Front Physioldx.doi.org/10.3389/fphys.2015.00259; Herrmann y Neupert (2003)IUBMB Life55:219-225; Soll (2002)Curr Opin Plant Biol5:529-535; Carrie y Small (2013)Biochim Biophys Acta1833:253-259; Carrieet al.(2009)FEBSJ276:1187-1195; Silva-Filho (2003)Curr Opin Plant Biol6:589-595; Peeters y Small (2001)Biochim Biophys Acta1541:54-63; Murchaet al.(2014)J Exp Bot65:6301-6335; Mackenzie (2005)Trends Cell Biol15:548-554; Glaseret al.(1998)Plant Mol Biol38:311-338).

En determinadas realizaciones, las nucleasas guiadas por ARN divulgadas en el presente documento comprenden al menos un dominio de penetración celular que facilita la captación celular de la RGN. Los dominios de penetración celular se conocen en la técnica y generalmente comprenden tramos de restos de aminoácidos con carga positiva (es decir, dominios de penetración celular policatiónicos), restos de aminoácidos polares y restos de aminoácidos no polares alternos (es decir, dominios de penetración celular anfipáticos) o restos de aminoácidos hidrófobos (es decir, dominios de penetración celular hidrófobos) (véase, por ejemplo, Milletti F. (2012)Drug Discov Today17:850-860). Un ejemplo no limitante de un dominio de penetración celular es el activador transcripcional de transactivación (TAT) del virus de la inmunodeficiencia humana 1.

La señal de localización nuclear, la señal de localización en plástidos, la señal de localización mitocondrial, la señal de localización de direccionamiento dual y/o el dominio de penetración celular pueden ubicarse en el extremo amino (extremo N), el extremo carboxilo (extremo C) o en una ubicación interna de la nucleasa guiada por ARN.

Las RGN divulgadas en el presente documento pueden fusionarse a un dominio efector, tal como un dominio de escisión, un dominio desaminasa o un dominio modulador de la expresión, ya sea directa o indirectamente a través de un péptido enlazador. Un dominio de este tipo puede ubicarse en el extremo N, el extremo C o una ubicación interna de la nucleasa guiada por ARN. En algunas de estas realizaciones, el componente de RGN de la proteína de fusión es una RGN de nucleasa-muerta.

En algunas realizaciones, la proteína de fusión de RGN comprende un dominio de escisión, que es cualquier dominio que sea capaz de escindir un polinucleótido (es decir, ARN, ADN o híbrido de ARN/ADN) e incluye, pero sin limitación, endonucleasas de restricción y endonucleasas autodirigidas, tales como las endonucleasas de tipo IIS (por ejemplo,FokI)(véase, por ejemplo, Belfortet al.(1997)Nucleic Acids Res.25:3379-3388; Linnet al.(eds.)Nucleases,Cold Spring Harbor Laboratory Press, 1993).

En otras realizaciones, la proteína de fusión de RGN comprende un dominio desaminasa que desamina una base de nucleótido, dando como resultado la conversión de una base de nucleótido en otra, e incluye, pero sin limitación, un editor de bases de citidina desaminasa o adenosina desaminasa (véase, por ejemplo, Gaudelliet al.(2017)Nature551:464-471, las Publicaciones de los EE. UU. N.° 2017/0121693 y 2018/0073012, la Patente de los EE. UU. N.° 9.840.699 y la Publicación internacional N.° WO/2018/027078.

En algunas realizaciones, el dominio efector de la proteína de fusión de RGN puede ser un dominio modulador de la expresión, que es un dominio que sirve para regular positivamente o negativamente la transcripción. El dominio modulador de la expresión puede ser un dominio de modificación epigenética, un dominio represor transcripcional o un dominio de activación transcripcional.

En algunas de estas realizaciones, el modulador de la expresión de la proteína de fusión de RGN comprende un dominio de modificación epigenética que modifica covalentemente el a Dn o las proteínas histonas para alterar la estructura de las histonas y/o la estructura cromosómica sin alterar la secuencia del ADN, conduciendo a cambios en la expresión génica (es decir, regulación positiva o regulación negativa). Los ejemplos no limitantes de modificaciones epigenéticas incluyen la acetilación o metilación de restos lisina, metilación de arginina, fosforilación de serina y treonina, y ubiquitinación y sumoilación de lisina de proteínas histonas, y metilación e hidroximetilación de restos citosina en el ADN. Los ejemplos no limitantes de dominios de modificación epigenética incluyen dominios de histona acetiltransferasa, dominios de histona desacetilasa, dominios de histona metiltransferasa, dominios de histona desmetilasa, dominios de ADN metiltransferasa y dominios de ADN desmetilasa.

En otras realizaciones, el modulador de la expresión de la proteína de fusión comprende un dominio represor transcripcional, que interactúa con elementos de control transcripcional y/o proteínas reguladoras transcripcionales, tales como ARN polimerasas y factores de transcripción, para reducir o terminar la transcripción de al menos un gen. Los dominios represores transcripcionales se conocen en la técnica e incluyen, pero sin limitación, represores similares a Sp1, I<k>B y dominios de caja asociados a Kriippel (KRAB).

En otras realizaciones más, el modulador de la expresión de la proteína de fusión comprende un dominio de activación transcripcional, que interactúa con elementos de control transcripcional y/o proteínas reguladoras transcripcionales, tales como ARN polimerasas y factores de transcripción, para aumentar o activar la transcripción de al menos un gen. Los dominios de activación transcripcional se conocen en la técnica e incluyen, pero sin limitación, un dominio de activación VP16 del virus del herpes simple y un dominio de activación NFAT.

Los polipéptidos de RGN divulgados en el presente documento pueden comprender un marcador detectable o un marcador de purificación. El marcador detectable o marcador de purificación puede ubicarse en el extremo N-terminal, el extremo C o una ubicación interna de la nucleasa guiada por ARN, ya sea directa o indirectamente a través de un péptido enlazador. En algunas de estas realizaciones, el componente de RGN de la proteína de fusión es una RGN de nucleasa-muerta. En otras realizaciones, el componente de RGN de la proteína de fusión es una RGN con actividad nicasa.

Un marcador detectable es una molécula que puede visualizarse u observarse de otro modo. El marcador detectable puede fusionarse con la RGN como una proteína de fusión (por ejemplo, proteína fluorescente) o puede ser una molécula pequeña conjugada con el polipéptido de RGN que puede detectarse visualmente o por otros medios. Los marcadores detectables que pueden fusionarse con las RGN divulgadas en el presente documento como una proteína de fusión incluyen cualquier dominio de proteína detectable, incluyendo, pero sin limitación, una proteína fluorescente o un dominio de proteína que puede detectarse con un anticuerpo específico. Los ejemplos no limitantes de proteínas fluorescentes incluyen proteínas fluorescentes verdes (por ejemplo, GFP, EGFP, ZsGreenl) y proteínas fluorescentes amarillas (por ejemplo, YFP, EYFP, ZsYellowl). Los ejemplos no limitantes de marcadores detectables de molécula pequeña incluyen marcadores radiactivos, tales como 3H y 35S.

Los polipéptidos de RGN también pueden comprender un marcador de purificación, que es cualquier molécula que pueda utilizarse para aislar una proteína o proteína fusionada de una mezcla (por ejemplo, muestra biológica, medio de cultivo). Los ejemplos no limitantes de marcadores de purificación incluyen biotina, myc, proteína de unión a maltosa (MBP) o glutatión S-transferasa (GST).

II. ARN guía

La presente divulgación proporciona ARN guía y polinucleótidos que codifican los mismos. La expresión "ARN guía" se refiere a una secuencia de nucleótidos que tiene suficiente complementariedad con una secuencia de nucleótidos diana para hibridarse con la secuencia diana y la unión específica de secuencia directa de una nucleasa guiada por ARN asociada a la secuencia de nucleótidos diana. Por lo tanto, el ARN guía respectivo de una RGN es una o más moléculas de ARN (generalmente, una o dos), que pueden unirse a la RGN y guiar a la RGN para que se una a una secuencia de nucleótidos diana particular, y en aquellos casos en donde la RGN tiene actividad nicasa o nucleasa, también escinde la secuencia de nucleótidos diana. En general, un ARN guía comprende un ARN de CRISPR (ARNcr) y un ARN de CRISPR de transactivación (ARNcrtra). Los ARN guía nativos que comprenden tanto un ARNcr como un ARNcrtra generalmente comprenden dos moléculas de ARN separadas que se hibridan entre sí a través de la secuencia de repetición del ARNcr y la secuencia anti-repetición del ARNcrtra.

Las secuencias de repetición directas nativas dentro de una matriz de CRISPR generalmente varían en longitud de 28 a 37 pares de bases, aunque la longitud puede variar entre aproximadamente 23 pb y aproximadamente 55 pb. Las secuencias espaciadoras dentro de una matriz de CRISpR generalmente varían de aproximadamente 32 a aproximadamente 38 pb de longitud, aunque la longitud puede ser de entre aproximadamente 21 pb y aproximadamente 72 pb. Cada matriz de CRISPR generalmente comprende menos de 50 unidades de la secuencia de repetición-espaciadoras de CRISPR. Las CRISPR se transcriben como parte de un transcrito largo denominado transcrito de CRISPR primario, que comprende gran parte de la matriz de CRISPR. El transcrito de CRISPR primario es escindido por proteínas Cas para producir ARNcr o, en algunos casos, para producir pre-ARNcr que se procesan adicionalmente por proteínas Cas adicionales en ARNcr maduros. Los ARNcr maduros comprenden una secuencia espaciadora y una secuencia de repetición de CRISPR. En algunas realizaciones en las que los pre-ARNcr se procesan en ARNcr maduros (o procesados), la maduración implica la eliminación de aproximadamente uno a aproximadamente seis o más nucleótidos 5', 3' o 5' y 3'. Para los fines de la edición del genoma o el direccionamiento de una secuencia de nucleótidos diana particular de interés, estos nucleótidos que se eliminan durante la maduración de la molécula de pre-ARNcr no son necesarios para generar o diseñar un ARN guía.

Un ARN de CRISPR (ARNcr) comprende una secuencia espaciadora y una secuencia de repetición de CRISPR. La "secuencia espaciadora" es la secuencia de nucleótidos que se hibrida directamente con la secuencia de nucleótidos diana de interés. La secuencia espaciadora se modifica por ingeniería genética para que sea total o parcialmente complementaria con la secuencia diana de interés. En diversas realizaciones, la secuencia espaciadora puede comprender de aproximadamente 8 nucleótidos a aproximadamente 30 nucleótidos, o más. Por ejemplo, la secuencia espaciadora puede tener aproximadamente 8, aproximadamente 9, aproximadamente 10, aproximadamente 11, aproximadamente 12, aproximadamente 13, aproximadamente 14, aproximadamente 15, aproximadamente 16, aproximadamente 17, aproximadamente 18, aproximadamente 19, aproximadamente 20, aproximadamente 21, aproximadamente 22, aproximadamente 23, aproximadamente 24, aproximadamente 25, aproximadamente 26, aproximadamente 27, aproximadamente 28, aproximadamente 29, aproximadamente 30 o más nucleótidos de longitud. En algunas realizaciones, la secuencia espaciadora tiene de aproximadamente 10 a aproximadamente 26 nucleótidos de longitud, o de aproximadamente 12 a aproximadamente 30 nucleótidos de longitud. En realizaciones particulares, la secuencia espaciadora tiene una longitud de aproximadamente 30 nucleótidos. En algunas realizaciones, el grado de complementariedad entre una secuencia espaciadora y su correspondiente secuencia diana, cuando se alinean de manera óptima usando un algoritmo de alineación adecuado, es de aproximadamente o más de aproximadamente el 50 %, aproximadamente el 60 %, aproximadamente el 70 %, aproximadamente el 75 %, aproximadamente el 80 %, aproximadamente el 81 %, aproximadamente el 82 %, aproximadamente el 83 %, aproximadamente el 84 %, aproximadamente el 85 %, aproximadamente el 86 %, aproximadamente el 87 %, aproximadamente el 88 %, aproximadamente el 89 %, aproximadamente el 90 %, aproximadamente el 91 %, aproximadamente el 92 %, aproximadamente el 93 %, aproximadamente el 94 %, aproximadamente el 95 %, aproximadamente el 96 %, aproximadamente el 97 %, aproximadamente el 98 %, aproximadamente el 99 % o más. En realizaciones particulares, la secuencia espaciadora está exenta de estructura secundaria, que puede predecirse usando cualquier algoritmo de plegamiento de polinucleótidos adecuado conocido en la técnica, incluyendo, pero sin limitación, mFold (véase, por ejemplo, Zuker y Stiegler (1981)Nucleic Acids Res.9:133-148) y RNAfold (véase, por ejemplo, Gruberet al.(2008)Cell106(1):23-24).

Las proteínas de RGN pueden tener una sensibilidad variable a los emparejamientos erróneos entre una secuencia espaciadora en un ARNg y su secuencia diana que afecta a la eficiencia de la escisión. Como se analiza en el Ejemplo 5, la RGN APG05459.1 tiene una sensibilidad inusual a los emparejamientos erróneos entre la secuencia espaciadora y la secuencia diana, prolongándose al menos 15 nucleótidos en dirección 5' del sitio de PAM. Por lo tanto, APG05459.1 tiene el potencial para dirigirse más finamente (es decir, específicamente) a secuencias particulares con mayor precisión que otras RGN con menos sensibilidad a emparejamientos erróneos entre la secuencia espaciadora y la secuencia diana.

La secuencia de repetición de ARN de CRISPR comprende una secuencia de nucleótidos que comprende una región con suficiente complementariedad para hibridarse con un ARNcrtra. En diversas realizaciones, la secuencia de repetición de ARN de CRISPR puede comprender de aproximadamente 8 nucleótidos a aproximadamente 30 nucleótidos, o más. Por ejemplo, la secuencia de repetición de CRISPR puede tener aproximadamente 8, aproximadamente 9, aproximadamente 10, aproximadamente 11, aproximadamente 12, aproximadamente 13, aproximadamente 14, aproximadamente 15, aproximadamente 16, aproximadamente 17, aproximadamente 18, aproximadamente 19, aproximadamente 20, aproximadamente 21, aproximadamente 22, aproximadamente 23, aproximadamente 24, aproximadamente 25, aproximadamente 26, aproximadamente 27, aproximadamente 28, aproximadamente 29, aproximadamente 30 o más nucleótidos de longitud. En algunas realizaciones, la secuencia de repetición de CRISPR tiene aproximadamente 21 nucleótidos de longitud. En algunas realizaciones, el grado de complementariedad entre una secuencia de repetición de CRISPR y su correspondiente secuencia de ARNcrtra, cuando se alinean de manera óptima usando un algoritmo de alineación adecuado, es de aproximadamente o más de aproximadamente el 50 %, aproximadamente el 60 %, aproximadamente el 70 %, aproximadamente el 75 %, aproximadamente el 80 %, aproximadamente el 81 %, aproximadamente el 82 %, aproximadamente el 83 %, aproximadamente el 84 %, aproximadamente el 85 %, aproximadamente el 86 %, aproximadamente el 87 %, aproximadamente el 88 %, aproximadamente el 89 %, aproximadamente el 90 %, aproximadamente el 91 %, aproximadamente el 92 %, aproximadamente el 93 %, aproximadamente el 94 %, aproximadamente el 95 %, aproximadamente el 96 %, aproximadamente el 97 %, aproximadamente el 98 %, aproximadamente el 99 % o más. En realizaciones particulares, la secuencia de repetición de CRISPR comprende la secuencia de nucleótidos de la SEQ ID NO: 2, 12, 20, 28, 37, 46 o 55, o una variante activa o fragmento de la misma que cuando está comprendida dentro de un ARN guía, es capaz de dirigir la unión específica de secuencia de una nucleasa guiada por ARN asociada proporcionada en el presente documento a una secuencia diana de interés. En determinadas realizaciones, una variante de secuencia de repetición de CRISPR activa de una secuencia de tipo silvestre comprende una secuencia de nucleótidos que tiene al menos un 40 %, 45 %, 50 %, 55 %, 60 %, 65 %, 70 %, 75 %, 80 %, 85 %, 90 %, 91 %, 92 %, 93 %, 94 %, 95 %, 96 %, 97 %, 98 %, 99 % o más de identidad de secuencia con la secuencia de nucleótidos expuesta como las SEQ ID NO: 2, 12, 20, 28, 37, 46 o 55. En determinadas realizaciones, un fragmento de secuencia de repetición de CRISPR activa de una secuencia de tipo silvestre comprende al menos 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19 o 20 nucleótidos contiguos de la secuencia de nucleótidos expuesta como las SEQ ID NO: 2, 12, 20, 28, 37, 46 o 55.

En determinadas realizaciones, el ARNcr no es de origen natural. En algunas de estas realizaciones, la secuencia de repetición de CRISPR específica no está unida a la secuencia espaciadora moddificada por ingeniería genética en la naturaleza y la secuencia de repetición de CRISPR se considera heteróloga a la secuencia espaciadora. En determinadas realizaciones, la secuencia espaciadora es una secuencia modificada por ingenería genética que no se produce de forma natural.

Una molécula de ARN de CRISPR de transactivación o ARNcrtra comprende una secuencia de nucleótidos que comprende una región que tiene suficiente complementariedad para hibridarse con una secuencia de repetición de CRISPR de un ARNcr, que se denomina en el presente documento como la región anti-repetición. En algunas realizaciones, la molécula de ARNcrtra comprende además una región con estructura secundaria (por ejemplo, tallobucle) o forma una estructura secundaria tras la hibridación con su ARNcr correspondiente. En realizaciones particulares, la región del ARNcrtra que es total o parcialmente complementaria a una secuencia de repetición de CRISPR está en el extremo 5' de la molécula y el extremo 3' del ARNcrtra comprende una estructura secundaria. Esta región de estructura secundaria generalmente comprende varias estructuras de horquilla, incluyendo la horquilla de nexo, que se encuentra adyacente a la secuencia anti-repetición. La horquilla de nexo con frecuencia tiene una secuencia de nucleótidos conservada en la base del tallo de la horquilla, con el motivo UNANNG, UNANNU o UNANNA (SEQ ID NO: 68, 557 y 558, respectivamente) que se encuentran en muchas horquillas de nexo en ARNcrtra. Con frecuencia hay horquillas terminales en el extremo 3' del ARNcrtra que pueden variar en estructura y número, pero con frecuencia comprenden una horquilla de terminador transcripcional independiente de Rho rica en GC seguida de una cadena de U en el extremo 3'. Véase, por ejemplo, Brineret al.(2014)Molecular Cell56:333-339, Briner y Barrangou (2016)Cold Spring Harb Protoc;doi: 10.1101/pdb.top090902 y la Publicación de los EE. UU. N.° 2017/0275648.

En diversas realizaciones, la región anti-repetición del ARNcrtra que es total o parcialmente complementaria a la secuencia de repetición de CRISPR comprende de aproximadamente 8 nucleótidos a aproximadamente 30 nucleótidos, o más. Por ejemplo, la región de emparejamiento de bases entre la secuencia anti-repetición de ARNcrtra y la secuencia de repetición de CRISPR puede ser de aproximadamente 8, aproximadamente 9, aproximadamente 10, aproximadamente 11, aproximadamente 12, aproximadamente 13, aproximadamente 14, aproximadamente 15, aproximadamente 16, aproximadamente 17, aproximadamente 18, aproximadamente 19, aproximadamente 20, aproximadamente 21, aproximadamente 22, aproximadamente 23, aproximadamente 24, aproximadamente 25, aproximadamente 26, aproximadamente 27, aproximadamente 28, aproximadamente 29, aproximadamente 30 o más nucleótidos de longitud. En realizaciones particulares, la región anti-repetición del ARNcrtra que es total o parcialmente complementaria a una secuencia de repetición de CRISPR tiene una longitud de aproximadamente 20 nucleótidos. En algunas realizaciones, el grado de complementariedad entre una secuencia de repetición de CRISPR y su secuencia anti-repetición de ARNcrtra correspondiente, cuando se alinean de manera óptima usando un algoritmo de alineación adecuado, es de aproximadamente o más de aproximadamente el 50 %, aproximadamente el 60 %, aproximadamente el 70 %, aproximadamente el 75 %, aproximadamente el 80 %, aproximadamente el 81 %, aproximadamente el 82 %, aproximadamente el 83 %, aproximadamente el 84 %, aproximadamente el 85 %, aproximadamente el 86 %, aproximadamente el 87 %, aproximadamente el 88 %, aproximadamente el 89 %, aproximadamente el 90 %, aproximadamente el 91 %, aproximadamente el 92 %, aproximadamente el 93 %, aproximadamente el 94 %, aproximadamente el 95 %, aproximadamente el 96 %, aproximadamente el 97 %, aproximadamente el 98 %, aproximadamente el 99 % o más.

En diversas realizaciones, el ARNcrtra completo puede comprender de aproximadamente 60 nucleótidos a más de aproximadamente 140 nucleótidos. Por ejemplo, el ARNcrtra puede tener aproximadamente 60, aproximadamente 65, aproximadamente 70, aproximadamente 75, aproximadamente 80, aproximadamente 85, aproximadamente 90, aproximadamente 95, aproximadamente 100, aproximadamente 105, aproximadamente 110, aproximadamente 115, aproximadamente 120, aproximadamente 125, aproximadamente 130, aproximadamente 135, aproximadamente 140 o más nucleótidos de longitud. En realizaciones particulares, el ARNcrtra tiene de aproximadamente 80 a aproximadamente 90 nucleótidos de longitud, incluyendo aproximadamente 80, aproximadamente 81, aproximadamente 82, aproximadamente 83, aproximadamente 84, aproximadamente 85, aproximadamente 86, aproximadamente 87, aproximadamente 88, aproximadamente 89 y aproximadamente 90 nucleótidos de longitud. En determinadas realizaciones, el ARNcrtra tiene aproximadamente 85 nucleótidos de longitud.

En realizaciones particulares, el ARNcrtra comprende la secuencia de nucleótidos de las SEQ ID NO: 3, 13, 21, 29, 38, 47 o 56, o una variante activa o fragmento de la misma que cuando está comprendida dentro de un ARN guía es capaz de dirigir la unión específica de secuencia de una nucleasa guiada por ARN asociada proporcionada en el presente documento a una secuencia diana de interés. En determinadas realizaciones, una variante de secuencia de ARNcrtra activa de una secuencia de tipo silvestre comprende una secuencia de nucleótidos que tiene al menos un 40 %, 45 %, 50 %, 55 %, 60 %, 65 %, 70 %, 75 %, 80 %, 85 %, 90 %, 91 %, 92 %, 93 %, 94 %, 95 %, 96 %, 97 %, 98 %, 99 % o más de identidad de secuencia con la secuencia de nucleótidos expuesta como las SEQ ID NO: 3, 13, 21,29, 38, 47 o 56. En determinadas realizaciones, un fragmento de secuencia de ARNcrtra activo de una secuencia de tipo silvestre comprende al menos 5, 10, 15, 20, 25, 30, 35, 40, 45, 50, 55, 60, 65, 70, 75, 80 o más nucleótidos contiguos de la secuencia de nucleótidos expuesta como las SEQ ID NO: 3, 13, 21, 29, 38, 47 o 56.

Se puede considerar que dos secuencias de polinucleótidos son sustancialmente complementarias cuando las dos secuencias se hibridan entre sí en condiciones estrictas. Asimismo, se considera que una RGN se une a una secuencia diana particular de una manera específica de secuencia si el ARN guía unido a la RGN se une a la secuencia diana en condiciones estrictas. Por "condiciones estrictas" o "condiciones de hibridación estrictas" se entienden condiciones en las que las dos secuencias de polinucleótidos se hibridarán entre sí en un grado detectablemente mayor que con otras secuencias (por ejemplo, al menos 2 veces sobre el fondo). Las condiciones rigurosas dependen de la secuencia y serán distintas en circunstancias distintas. Normalmente, las condiciones rigurosas serán aquellas en las que la concentración de sal es inferior a aproximadamente 1,5 M de ion de Na, normalmente de aproximadamente 0,01 a 1,0 M de concentración de iones de Na (u otras sales) a pH de 7,0 a 8,3, y la temperatura es de al menos aproximadamente 30 °C para secuencias cortas (por ejemplo, de 10 a 50 nucleótidos) y al menos aproximadamente 60 °C para secuencias largas (por ejemplo, de más 50 nucleótidos). También pueden conseguirse condiciones rigurosas con la adición de agentes desestabilizantes, tales como formamida. Las condiciones de baja rigurosidad de ejemplo incluyen la hibridación con una solución tampón de formamida del 30 al 35%, NaCl 1 M, SDS al 1 % (dodecilsulfato de sodio) a 37 °C y un lavado en SSC de 1X a 2X (SSC 20X = NaCl 3,0 M/citrato trisódico 0,3 M) a 50 a 55 °C. Las condiciones de rigurosidad moderada ilustrativas incluyen la hibridación en formamida del 40 al 45 %, NaCl 1,0 M, SDS al 1 % a 37 °C y un lavado en SSC de 0,5X a 1X a de 55 a 60 °C. Las condiciones de alta rigurosidad de ejemplo incluyen hibridación en formamida al 50 %, NaCl 1 M, SDS al 1 % a 37 °C y un lavado en SSC 0,1 X a 60 a 65 °C. Opcionalmente, los tampones de lavado pueden comprender de aproximadamente el 0,1% a aproximadamente el 1 % de SDS. La duración de la hibridación es generalmente inferior a aproximadamente 24 horas, normalmente de aproximadamente 4 a aproximadamente 12 horas. La duración del tiempo de lavado será de al menos una duración de tiempo suficiente para alcanzar el equilibrio.

La Tf es la temperatura (bajo una fuerza iónica y un pH definidos) a la que el 50 % de una secuencia diana complementaria se hibrida con una secuencia perfectamente emparejada. Para los híbridos de ADN-ADN, la Tf puede aproximarse a partir de la ecuación de Meinkoth y Wahl (1984)Anal. Biochem.138:267-284: Tf = 81,5 °C 16,6 (log M) 0,41 (% de GC) - 0,61 (% de form) - 500/l; donde M es la molaridad de los cationes monovalentes, % de GC es el porcentaje de nucleótidos de guanosina y citosina en el ADN, % de form es el porcentaje de formamida en la solución de hibridación y L es la longitud del híbrido en pares de bases. Generalmente, las condiciones rigurosas se seleccionan para que sean aproximadamente 5 °C inferiores al punto de fusión térmico (Tf) para la secuencia específica y su complemento en condiciones de fuerza iónica y pH definidas. Sin embargo, las condiciones muy estrictas pueden utilizar una hibridación y/o lavado a 1, 2, 3 o 4 °C por debajo del punto de fusión térmica (Tf); las condiciones moderadamente estrictas pueden utilizar una hibridación y/o lavado a 6, 7, 8, 9 o 10 °C por debajo del punto de fusión térmica (Tf); las condiciones de baja rigurosidad pueden utilizar una hibridación y/o lavado a 11, 12, 13, 14, 15 o 20 °C por debajo del punto de fusión térmica (Tf). Usando la ecuación, las composiciones de hibridación y lavado y la Tf deseada, los expertos habituales en la materia entenderán que se describen inherentemente variaciones en la rigurosidad de las soluciones de hibridación y/o lavado. Una guía extensa para la hibridación de ácidos nucleicos se encuentra en Tijssen (1993)Laboratory Techniques in Biochemistry and Molecular Biology-Hybridization with Nucleic Acid Probes,Parte I, Capítulo 2 (Elsevier, Nueva York); y Ausubelet al.,eds. (1995)Current Protocols in Molecular Biology,Capítulo 2 (Greene Publishing y Wiley-Interscience, Nueva York). Vése Sambrooket al.(1989) Molecular Cloning:A Laboratory Manual(2.a ed., Cold Spring Harbor Laboratory Press, Plainview, Nueva York).

El ARN guía puede ser un ARN guía único o un sistema de ARN guía doble. Un ARN guía único comprende el ARNcr y el ARNcrtra en una única molécula de ARN, mientras que un sistema de ARN guía doble comprende un ARNcr y un ARNcrtra presentes en dos moléculas de ARN distintas, hibridadas entre sí a través de al menos una porción de la secuencia de repetición de CRISPR del ARNcr y al menos una porción del ARNcrtra, que puede ser total o parcialmente complementaria a la secuencia de repetición de CRISPR del ARNcr. En algunas de esas realizaciones en donde el ARN guía es un ARN guía único, el ARNcr y el ARNcrtra se separan por una secuencia de nucleótidos enlazadora. En general, la secuencia de nucleótidos enlazadora es una que no incluye bases complementarias con el fin de evitar la formación de una estructura secundaria dentro o que comprende nucleótidos de la secuencia de nucleótidos enlazadora. En algunas realizaciones, la secuencia de nucleótidos enlazadora entre el ARNcr y el ARNcrtra tiene al menos 3, al menos 4, al menos 5, al menos 6, al menos 7, al menos 8, al menos 9, al menos 10, al menos 11, al menos 12 o más nucleótidos de longitud. En realizaciones particulares, la secuencia de nucleótidos enlazadora de un ARN guía único tiene al menos 4 nucleótidos de longitud. En determinadas realizaciones, la secuencia de nucleótidos enlazadora es la secuencia de nucleótidos expuesta como la SEQ ID NO: 63, 64 o 65. En otras realizaciones, la secuencia de nucleótidos enlazadora tiene al menos 6 nucleótidos de longitud. En determinadas realizaciones, la secuencia de nucleótidos enlazadora es la secuencia de nucleótidos expuesta como la SEQ ID NO: 65.

El ARN guía único o el ARN guía doble pueden sintetizarse químicamente o mediante transcripciónin vitro.Los ensayos para determinar la unión específica de secuencia entre una RGN y un ARN guía se conocen en la técnica e incluyen, pero sin limitación, ensayos de uniónin vitroentre una RGN expresada y el ARN guía, que pueden marcarse con un marcador detectable (por ejemplo, biotina) y usarse en un ensayo de detección desplegable en el que el complejo ARN guía:RGN se captura mediante el marcador detectable (por ejemplo, con perlas de estreptavidina). Un ARN guía de control con una secuencia o estructura no relacionada con el ARN guía puede usarse como un control negativo para la unión no específica de la RGN al ARN. En determinadas realizaciones, el ARN guía es la SEQ ID NO: 10, 18, 26, 35, 44, 53 o 62 , en donde la secuencia espaciadora puede ser cualquier secuencia y se indica como una secuencia de poli-N.

Como se describe en el Ejemplo 8 , determinadas RGN pueden compartir determinados ARN guía. APG05083.1, APG07433.1, APG07513.1 y a Pg 08290.1 pueden actuar cada uno usando ARN guía que comprenden un ARNcr que comprende la secuencia de nucleótidos de las SEQ ID NO: 2, 12, 20 o 28, con el ARNcrtra correspondiente que comprende la secuencia de nucleótidos de las SEQ ID NO: 3, 13, 21 o 29, respectivamente. Además, APG04583.1 y APG01688.1 pueden actuar cada uno usando ARN guía que comprenden un ARNcr que comprende la secuencia de nucleótidos de las SEQ ID NO: 46 o 55, comprendiendo el ARNcrtra correspondiente la secuencia de nucleótidos de la SEQ 47 o 56, respectivamente.

En determinadas realizaciones, el ARN guía puede introducirse en una célula, orgánulo o embrión no humano diana como una molécula de ARN. El ARN guía puede transcribirsein vitroo sintetizarse químicamente. En otras realizaciones, una secuencia de nucleótidos que codifica el ARN guía se introduce en la célula, orgánulo o embrión no humano.

En algunas de estas realizaciones, la secuencia de nucleótidos que codifica el ARN guía está unida operativamente a un promotor (por ejemplo, un promotor de ARN polimerasa III). El promotor puede ser un promotor nativo o heterólogo a la secuencia de nucleótidos que codifica el a Rn guía.

En diversas realizaciones, el ARN guía puede introducirse en una célula, orgánulo o embrión no humano diana como un complejo de ribonucleoproteína, como se describe en el presente documento, en donde el ARN guía se une a un polipéptido de nucleasa guiada por ARN.

El ARN guía dirige una nucleasa guiada por ARN asociada a una secuencia de nucleótidos diana particular de interés a través de la hibridación del ARN guía con la secuencia de nucleótidos diana. Una secuencia de nucleótidos diana puede comprender ADN, ARN o una combinación de ambos y puede ser monocatenaria o bicatenaria. Una secuencia de nucleótidos diana puede ser ADN genómico (es decir, ADN cromosómico), ADN plasmídico o una molécula de ARN (por ejemplo, ARN mensajero, ARN ribosómico, ARN de transferencia, microARN, ARN interferente pequeño). La secuencia de nucleótidos diana puede unirse (y en algunas realizaciones, escindirse) por una nucleasa guiada por ARNin vitroo en una célula. La secuencia cromosómica dirigida por la RGN puede ser una secuencia cromosómica nuclear, de plástidos o mitocondrial. En algunas realizaciones, la secuencia de nucleótidos diana es única en el genoma diana.

La secuencia de nucleótidos diana es adyacente a un motivo adyacente al protoespaciador (PAM). Un motivo adyacente al protoespaciador está generalmente dentro de aproximadamente 1 a aproximadamente 10 nucleótidos de la secuencia de nucleótidos diana, incluyendo aproximadamente 1, aproximadamente 2, aproximadamente 3, aproximadamente 4, aproximadamente 5, aproximadamente 6 , aproximadamente 7, aproximadamente 8 , aproximadamente 9 o aproximadamente 10 nucleótidos de la secuencia de nucleótidos diana. El PAM puede estar en 5' o 3' de la secuencia diana. En algunas realizaciones, el PAM está en 3' de la secuencia diana para las RGN divulgadas en el presente documento. Generalmente, el PAM es una secuencia de consenso de aproximadamente 3 4 nucleótidos, pero en realizaciones particulares, puede tener 2, 3, 4, 5, 6 , 7, 8 , 9 o más nucleótidos de longitud. En diversas realizaciones, la secuencia de PAM reconocida por las RGN de acuerdo con los aspectos de la invención comprende la secuencia de consenso expuesta como las SEQ ID NO: 6 o 32. Las secuencias de PAM de ejemplo no limitantes son las secuencias de nucleótidos expuestas como las SEQ ID NO: 7, 69, 70, 71 y 72.

En realizaciones particulares, una nucleasa guiada por ARN que tiene las SEQ ID NO: 11 o 27 o una variante activa o fragmento de la misma de acuerdo con los aspectos de la invención se une respectivamente a una secuencia de nucleótidos diana adyacente a una secuencia de PAM expuesta como las SEQ ID NO: 6 o 32. En algunas de estas realizaciones, la RGN se une a una secuencia guía que comprende una secuencia de repetición de CRISPR expuesta en las SEQ ID NO: 2, 12, 20, 28, 37, 46 o 55, respectivamente, o una variante activa o fragmento de la misma, y una secuencia de ARNcrtra expuesta en las SEQ ID NO: 3, 13, 21,29, 38, 47 o 56, respectivamente, o una variante activa o fragmento de la misma. Los sistemas de RGN se describen adicionalmente en el Ejemplo 1 y la Tabla 1 de la presente memoria descriptiva.

Es bien sabido en la técnica que la especificidad de secuencia de PAM para una enzima nucleasa dada se ve afectada por la concentración de enzima (véase, por ejemplo, Karveliset al.(2015)Genome Biol16:253), que puede modificarse alterando el promotor utilizado para expresar la RGN, o la cantidad de complejo de ribonucleoproteína suministrado a la célula, orgánulo o embrión no humano.

Tras reconocer su secuencia de PAM correspondiente, la RGN puede escindir la secuencia de nucleótidos diana en un sitio de escisión específico. Como se usa en el presente documento, un sitio de escisión se compone de los dos nucleótidos particulares dentro de una secuencia de nucleótidos diana entre los que se escinde la secuencia de nucleótidos por una RGN. El sitio de escisión puede comprender el 1.er y el 2.do, el 2.de y el 3.er, el 3.er y el 4.to, el 4.to y el 5.to, el 5.to y el 6.to, el 7.mo y el 8.vo o el 8.vo y el 9.no nucleótidos del PAM en la dirección 5' o 3'. En algunas realizaciones, el sitio de escisión puede estar a más de 10, 11, 12, 13, 14, 15, 16, 17, 18, 19 o 20 nucleótidos del PAM en la dirección 5' o 3'. En algunas realizaciones, el sitio de escisión está a 4 nucleótidos del PAM. En otras realizaciones, el sitio de escisión está al menos a 15 nucleótidos del PAM. Como las RGN pueden escindir una secuencia de nucleótidos diana dando como resultado extremos escalonados, en algunas realizaciones, el sitio de escisión se define basándose en la distancia de los dos nucleótidos desde el PAM en la cadena positiva (+) del polinucleótido y la distancia de los dos nucleótidos desde el PAM en la cadena negativa (-) del polinucleótido.

III. Nucleótidos que codifican nucleasas guiadas por ARN, ARN de CRISPR y/o ARNcrtra

La presente divulgación proporciona polinucleótidos que comprenden los ARN de CRISPR, ARNcrtra y/o ARNgu desvelados en el presente documento y polinucleótidos que comprenden una secuencia de nucleótidos que codifica las nucleasas guiadas por ARN, ARN de CRISPR, ARNcrtra y/o ARNgu desvelados en el presente documento. Los polinucleótidos divulgados en el presente documento incluyen aquellos que comprenden o que codifican una secuencia de repetición de CRISPR que comprende la secuencia de nucleótidos de las SEQ ID NO: 2, 12, 20, 28, 37, 46 o 55, o una variante activa o fragmento de la misma que cuando está comprendida dentro de un ARN guía es capaz de dirigir la unión específica de secuencia de una nucleasa guiada por ARN asociada a una secuencia diana de interés. También se divulgan polinucleótidos que comprenden o que codifican un ARNcrtra que comprende la secuencia de nucleótidos de las SEQ ID NO: 3, 13, 21, 29, 38, 47 o 56, o una variante activa o fragmento de la misma que cuando está comprendida dentro de un ARN guía es capaz de dirigir la unión específica de secuencia de una nucleasa guiada por ARN asociada a una secuencia diana de interés. De acuerdo con aspectos de la invención, también se proporcionan polinucleótidos que codifican una nucleasa guiada por ARN que comprende la secuencia de aminoácidos expuesta como las SEQ ID NO: 11 o 27, y fragmentos activos o variantes de los mismos que conservan la capacidad de unirse a una secuencia de nucleótidos diana de una manera específica de secuencia guiada por ARN.

No se pretende que el uso del término "polinucleótido" limite la presente divulgación a polinucleótidos que comprenden ADN. Los expertos habituales en la materia reconocerán que los polinucleótidos pueden comprender ribonucleótidos (ARN) y combinaciones de ribonucleótidos y desoxirribonucleótidos. Dichos desoxirribonucleótidos y ribonucleótidos incluyen moléculas tanto de origen natural como análogos sintéticos. Estos incluyen ácidos nucleicos peptídicos (PNA), quimeras de PNA-ADN, ácidos nucleicos bloqueados (LNA) y secuencias unidas a fosfotiorato. Los polinucleótidos divulgados en el presente documento también abarcan todas las formas de secuencias que incluyen, pero sin limitación, formas monocatenarias, formas bicatenarias, híbridos de ADN-ARN, estructuras tríples, estructuras de tallo y bucle, y similares.

Se pueden optimizar los codones de las moléculas de ácido nucleico que codifican las RGN para su expresión en un organismo de interés. Una secuencia codificante "de codones optimizados" es una secuencia codificante de polinucleótidos que tiene su frecuencia de uso de codones diseñada para imitar la frecuencia de uso de codones preferido o las condiciones de transcripción de una célula hospedadora particular. La expresión en la célula o el organismo hospedadores particulares se potencia como resultado de la alteración de uno o más codones al nivel de ácido nucleico de manera que la secuencia de aminoácidos traducida no cambie. Se pueden optimizar los codones de las moléculas de ácido nucleico, ya sea total o parcialmente. Las tablas de codones y otras referencias que proporcionan información de preferencia para una amplia gama de organismos están disponibles en la técnica (véase, por ejemplo, Campbell y Gowri (1990)Plant Physiol.92:1-11 para consultar un análisis del uso de codones preferidos por plantas). Se encuentran disponibles en la técnica métodos para sintetizar genes preferidos para plantas. Véanse, por ejemplo, las Patentes de los EE. UU. N.° 5.380.831 y 5.436.391, y Murrayet al.(1989)Nucleic Acids Res.17:477-498.

Pueden proporcionarse polinucleótidos que codifican las RGN, ARNcr, ARNcrtra y/o ARNgu proporcionados en el presente documento en casetes de expresión para la expresiónin vitroo la expresión en una célula, orgánulo, embrión no humano u organismo de interés. El casete incluirá secuencias reguladoras 5' y 3' unidas operativamente a un polinucleótido que codifica una RGN, ARNcr, ARNcrtra y/o ARNgu proporcionados en el presente documento que permiten la expresión del polinucleótido. El casete puede contener además al menos un gen o elemento genético adicional para cotransformarse en el organismo. Cuando se incluyen genes o elementos adicionales, los componentes están unidos operativamente. La expresión "unido operativamente" pretende significar una unión funcional entre dos o más elementos. Por ejemplo, una unión operativa entre un promotor y una región codificante de interés (por ejemplo, región que codifica para una RGN, ARNcr, ARNcrtra y/o ARNgu) es una unión funcional que permite la expresión de la región codificante de interés. Los elementos unidos operativamente pueden ser contiguos o no contiguos. Cuando se usa para hacer referencia a la unión de dos regiones codificantes de proteína, por unido operativamente se entiende que las regiones codificantes están en el mismo marco de lectura. Como alternativa, los genes o elementos adicionales pueden proporcionarse en múltiples casetes de expresión. Por ejemplo, la secuencia de nucleótidos que codifica una RGN divulgada en el presente documento puede estar presente en un casete de expresión, mientras que la secuencia de nucleótidos que codifica un ARNcr, ARNcrtra o ARN guía completo puede estar en un casete de expresión separado. Un casete de expresión de este tipo está provisto de una pluralidad de sitios de restricción y/o sitios de recombinación para la inserción de los polinucleótidos que están bajo la regulación transcripcional de las regiones reguladoras. El casete de expresión puede contener además un gen marcador seleccionable.

El casete de expresión incluirá en la dirección 5'-3' de transcripción, una región de inicio transcripcional (y, en algunas realizaciones, traduccional) (es decir, un promotor), un polinucleótido que codifica RGN, ARNcr, ARNcrtra y/o ARNgu de acuerdo con aspectos de la invención, y una región de terminación transcripcional (y en algunas realizaciones, traduccional) (es decir, región de terminación) funcional en el organismo de interés. Los promotores son capaces de dirigir o impulsar la expresión de una secuencia codificante en una célula hospedadora. Las regiones reguladoras (por ejemplo, promotores, regiones reguladoras transcripcionales y regiones de terminación de la traducción) pueden ser endógenas o heterólogas de la célula hospedadora o entre sí. Como se usa en el presente documento, "heteróloga" en referencia a una secuencia es una secuencia que se origina a partir de una especie extraña o, si es de la misma especie, está sustancialmente modificada con respecto a su forma nativa en cuanto a su composición y/o locus genómico mediante intervención humana deliberada. Como se usa en el presente documento, un gen quimérico comprende una secuencia codificante unida operativamente a una región de inicio de la transcripción que es heteróloga con respecto a la secuencia codificante.

Se encuentran disponibles regiones de terminación convenientes del plásmido Ti deA. tumefaciens,tales como las regiones de terminación de octopina sintasa y nopalina sintasa. Véase también Guerineauet al.(1991)Mol. Gen. Genet.262:141-144; Proudfoot (1991)Cell64:671-674; Sanfaconet al.(1991)Genes Dev.5:141-149; Mogenet al.(1990)Plant Cell2:1261-1272; Munroeet al.(1990)Gene91:151-158; Ballaset al.(1989)Nucleic Acids Res.17:7891-7903; y Joshiet al.(1987)Nucleic Acids Res.15:9627-9639.

Las señales reguladoras adicionales incluyen, pero sin limitación, sitios de inicio de la transcripción, operadores, activadores, potenciadores, otros elementos reguladores, sitios de unión a ribosoma, un codón de inicio, señales de terminación y similares. Véanse, por ejemplo, las Pat. de los EE.UU. N.° 5.039.523 y 4.853.331; el documento EPO 0480762A2; Sambrooketal. (1992)Molecular Cloning: A Laboratory Manual,ed. Maniatiset al.(Cold Spring Harbor Laboratory Press, Cold Spring Harbor, N.Y.), en lo sucesivo en el presente documento "Sambrook 11"; Daviset al.,eds. (1980)Advanced Bacterial Genetics(Cold Spring Harbor Laboratory Press), Cold Spring Harbor, Nueva York., y las referencias citadas en los mismos.

En la preparación del casete de expresión, los diferentes fragmentos de ADN pueden manipularse, para proporcionar las secuencias de ADN en la orientación adecuada y, según sea adecuado, en la fase de lectura adecuada. Para este fin, pueden emplearse adaptadores o enlazadores para unir los fragmentos de ADN o pueden estar implicadas otras manipulaciones para proporcionar sitios de restricción convenientes, eliminación de ADN superfluo, eliminación de sitios de restricción, o similares. Para este fin, puede estar implicada la mutagénesisin vitro,la reparación de cebadores, la restricción, la hibridación, resustituciones, por ejemplo, transiciones y transversiones.

Pueden usarse varios promotores en la práctica de los aspectos de la invención. Los promotores pueden seleccionarse basándose en el resultado deseado. Los ácidos nucleicos se pueden combinar con promotores constitutivos, inducibles, específicos de la fase de crecimiento, específicos del tipo celular, preferidos por tejido, específicos de tejido u otros promotores para la expresión en el organismo de interés. Véanse, por ejemplo, los promotores expuestos en el documento WO 99/43838 y en las Patentes de los EE. UU. N.°: 8.575.425; 7.790.846; 8.147.856; 8,586832; 7.772.369; 7.534.939; 6.072.050; 5.659.026; 5.608.149; 5.608.144; 5.604.121; 5.569.597; 5.466.785; 5.399.680; 5.268.463; 5.608.142; y 6.177.611.

Para la expresión en plantas, los promotores constitutivos también incluyen el promotor 35S de CaMV (Odellet al. (1985)Nature313:810-812); actina de arroz (McElroyet al.(1990)Plant Cell2:163-171); ubiquitina (Christensenet al.(1989)Plant Mol. Biol.12:619-632 y Christensenet al.(1992)Plant Mol. Biol.18:675-689); pEMU (Lastet al.(1991)Theor. Appl. Genet.81:581-588); y MAS (Veltenet al.(1984)EMBO J.3:2723-2730).

Son ejemplos de promotores inducibles el promotor Adh1 que es inducible por hipoxia o estrés por el frío, el promotor Hsp70 que es inducible por el estrés térmico, el promotor de PPDK y el promotor de pepcarboxilasa que son ambos inducibles por la luz. También son útiles los promotores que son químicamente inducibles, tales como el promotor In2-2 que es inducido por protector (Patente de los EE. UU. N.° 5.364.780), el promotor Axig1 que es inducido por auxina y específico de tapetum pero también activo en callos (documento PCT US01/22169), los promotores sensibles a esteroides (véase, por ejemplo, el promotor ERE que es inducido por estrógenos, y el promotor inducible por glucocorticoides en Schenaet al.(1991)Proc. Natl. Acad. Sci. USA88:10421-10425 y McNelliset al.(1998)Plant J.

14(2):247-257) y promotores inducibles por tetraciclina y reprimibles por tetraciclina (véanse, por ejemplo, Gatzet al.(1991)Mol. Gen. Genet.227:229-237 y las Patentes de los EE. UU. N.° 5.814.618 y 5.789.156).

Pueden utilizarse promotores específicos de tejido o preferidos por tejido para dirigir la expresión de una construcción de expresión dentro de un tejido particular. En determinadas realizaciones, los promotores específicos de tejido o preferidos por tejido son activos en tejido vegetal. Los ejemplos de promotores bajo control del desarrollo en plantas incluyen promotores que inician la transcripción preferentemente en determinados tejidos, tales como hojas, raíces, frutos, semillas o flores. Un promotor "específico de tejido" es un promotor que inicia la transcripción sólo en determinados tejidos. A diferencia de la expresión constitutiva de genes, la expresión específica de tejido es el resultado de varios niveles de regulación génica que interactúan. Como tales, pueden ser preferibles los promotores de especies de plantas homólogas o estrechamente relacionadas para lograr una expresión eficiente y fiable de transgenes en tejidos particulares. En algunas realizaciones, la expresión comprende un promotor preferido por tejido. Un promotor "preferido por tejido" es un promotor que inicia la transcripción preferentemente, pero no necesariamente, en su totalidad o únicamente en determinados tejidos.

En algunas realizaciones, las moléculas de ácido nucleico que codifican una RGN, ARNcr y/o ARNcrtra comprenden un promotor específico de tipo celular. Un promotor "específico de tipo de célula" es un promotor que impulsa principalmente la expresión en determinados tipos celulares en uno o más órganos. Algunos ejemplos de células vegetales en las que los promotores específicos de tipo celular funcionales en plantas pueden ser principalmente activos incluyen, por ejemplo, células BETL, células vasculares en raíces, hojas, células de tallos y células del tallo principal. Las moléculas de ácido nucleico también pueden incluir promotores preferidos por tipo celular. Un promotor de "preferido por tipo celular" es un promotor que impulsa principalmente la expresión sobre todo, pero no necesariamente, en su totalidad o únicamente en determinados tipos celulares en uno o más órganos. Algunos ejemplos de células vegetales en las que los promotores preferidos por tipo celular funcionales en plantas pueden ser preferentemente activos incluyen, por ejemplo, células BETL, células vasculares en raíces, hojas, células de tallos y células del tallo principal.

Las secuencias de ácido nucleico que codifican las RGN, ARNcr, ARNcrtra y/o ARNgu pueden unirse operativamente a una secuencia promotora que es reconocida por una ARN polimerasa de fago, por ejemplo, para la síntesis de ARNmin vitro.En dichas realizaciones, el ARN transcritoin vitropuede purificarse para su uso en los métodos descritos en el presente documento. Por ejemplo, la secuencia promotora puede ser una secuencia promotora T7, T3 o SP6 o una variación de una secuencia promotora T7, T3 o SP6. En dichas realizaciones, la proteína y/o los ARN expresados pueden purificarse para su uso en los métodos de modificación del genoma descritos en el presente documento.

En determinadas realizaciones, el polinucleótido que codifica la RGN, ARNcr, ARNcrtra y/o ARNgu también puede unirse a una señal de poliadenilación (por ejemplo, señal poliA de SV40 y otras señales funcionales en plantas) y/o al menos una secuencia de terminación transcripcional. Adicionalmente, la secuencia que codifica la RGN también puede unirse a una secuencia o secuencias que codifican al menos una señal de localización nuclear, al menos un dominio de penetración celular y/o al menos un péptido señal capaz de traficar proteínas a ubicaciones subcelulares particulares, como se describe en otra parte del presente documento.

El polinucleótido que codifica la RGN, ARNcr, ARNcrtra y/o ARNgu puede estar presente en un vector o múltiples vectores. Un "vector" se refiere a una composición de polinucleótidos para transferir, suministrar o introducir un ácido nucleico en una célula hospedadora. Algunos vectores adecuados incluyen vectores plasmídicos, fagémidos, cósmidos, artificiales/minicromosomas, transposones y vectores víricos (por ejemplo, vectores lentivíricos, vectores víricos adenoasociados, vector baculovírico). El vector puede comprender secuencias de control de la expresión adicionales (por ejemplo, secuencias potenciadoras, secuencias de Kozak, secuencias de poliadenilación, secuencias de terminación transcripcional), secuencias marcadoras seleccionables (por ejemplo, genes de resistencia a antibióticos), orígenes de replicación y similares. Puede encontrarse información adicional en"Current Protocols in Molecular BiologyAusubelet al.,John Wiley & Sons, Nueva York, 2003 o"Molecular Cloning: A Laboratory Manual"Sambrook & Russell, Cold Spring Harbor Press, Cold Spring Harbor, N.Y., 3.a edición, 2001.

El vector también puede comprender un gen marcador seleccionable para la selección de células transformadas. Se utilizan genes marcadores seleccionables para la selección de células o tejidos transformados. Los genes marcadores incluyen genes que codifican resistencia a antibióticos, tales como los que codifican neomicina fosfotransferasa II (NEO) e higromicina fosfotransferasa (HPT), así como genes que confieren resistencia a compuestos herbicidas, tales como glufosinato de amonio, bromoxinil, imidazolinonas y 2,4-diclorofenoxiacetato (2,4-D).

En algunas realizaciones, el casete o vector de expresión que comprende la secuencia que codifica el polipéptido de RGN puede comprender además una secuencia que codifica un ARNcr y/o un ARNcrtra, o el ARNcr y el ARNcrtra combinados para crear un ARN guía. La secuencia o secuencias que codifican el ARNcr y/o ARNcrtra pueden unirse operativamente a al menos una secuencia de control transcripcional para la expresión del ARNcr y/o ARNcrtra en el organismo no humano o célula hospedadora de interés. Por ejemplo, el polinucleótido que codifica el ARNcr y/o ARNcrtra puede unirse operativamente a una secuencia promotora que es reconocida por la ARN polimerasa III (Pol III). Los ejemplos de promotores de la Pol III adecuados incluyen, pero sin limitación, los promotores de ARN U6 , U3, H1 y 7SL de mamífero y los promotores U6 y U3 de arroz.

Como se ha indicado, pueden usarse construcciones de expresión que comprenden secuencias de nucleótidos que codifican las RGN, ARNcr, ARNcrtra y/o ARNgu para transformar organismos de interés. Los métodos para la transformación implican introducir una construcción de nucleótidos en un organismo de interés no humano. Por "introducir" se entiende introducir la construcción de nucleótidos en la célula hospedadora de manera que la construcción obtenga acceso al interior de la célula hospedadora. Los métodos de la invención no requieren un método particular para introducir una construcción de nucleótidos en un organismo hospedador no humano, sólo que la construcción de nucleótidos obtenga acceso al interior de al menos una célula del organismo hospedador. La célula hospedadora puede ser una célula eucariota o procariota. En realizaciones particulares, la célula hospedadora eucariota es una célula vegetal, una célula de mamífero o una célula de insecto. Los métodos para introducir construcciones de nucleótidos en plantas y otras células hospedadoras se conocen en la técnica, incluyendo, pero sin limitación, métodos de transformación estable, métodos de transformación transitoria y métodos mediados por virus.

Los métodos dan como resultado un organismo transformado, tal como una planta, incluyendo plantas enteras, así como órganos de plantas (por ejemplo, hojas, tallos, raíces, etc.), semillas, células vegetales, propágulos, embriones de plantas y progenie de las mismas. Las células vegetales pueden ser diferenciadas o indiferenciadas (por ejemplo, callo, células en cultivo en suspensión, protoplastos, células foliares, células de la raíz, células de floema, polen).

"Organismos transgénicos" u "organismos transformados" u organismos o células o tejidos "transformados de manera estable" se refiere a organismos no humanos que han incorporado o integrado un polinucleótido que codifica una RGN de acuerdo con la invención, ARNcr y/o ARNcrtra. Se reconoce que también pueden incorporarse en la célula hospedadora otras secuencias de ácido nucleico exógenas o endógenas o fragmentos de ADN. La transformación mediada porAgrobacteriumy biolística siguen siendo los dos enfoques predominantemente empleados para la transformación de células vegetales. Sin embargo, la transformación de una célula hospedadora puede realizarse mediante infección, transfección, microinyección, electroporación, microproyección, biolística o bombardeo de partículas, electroporación, fibras de sílice/carbono, mediada por ultrasonidos, mediada por PEG, coprecipitación de fosfato de calcio, técnica de DMSO de policationes, procedimiento de DEAE dextrano y mediada por virus, mediada por liposomas y similares. La introducción mediada por virus de un polinucleótido que codifica una RGN, ARNcr y/o ARNcrtra incluye la introducción y expresión mediada por retrovirus, lentivirus, adenovirus y virus adenoasociados, así como el uso deCaulimovirus, Geminivirusy virus de plantas de ARN.

Los protocolos de transformación, así como los protocolos para introducir polipéptidos o secuencias de polinucleótidos en plantas, pueden variar dependiendo del tipo de célula hospedadora (por ejemplo, célula vegetal monocotiledónea o dicotiledónea) diana de la transformación. Los métodos de transformación son conocidos en la técnica e incluyen los expuestos en las Patentes de los EE. UU. N.°: 8.575.425; 7.692.068; 8.802.934; 7541517. Véase, además, Rakoczy-Trojanowska, M. (2002)Cell Mol Biol Lett.7:849-858; Joneset al.(2005)Plant Methods1:5; Riveraet al.(2012)Physics of Life Reviews9:308-345; Bartlettet al.(2008)Plant Methods4:1-12; Bates, G.W. (1999)Methods in Molecular Biology111:359-366; Binns y Thomashow (1988)Annual Reviews in Microbiology42:575-606; Christou, P. (1992)The Plant Journal2:275-281; Christou, P. (1995)Euphytica85:13-27; Tzfiraet al.(2004)TRENDS in Genetics20:375-383; Yaoet al.(2006)Journal of Experimental Botany57:3737-3746; Zupan y Zambryski (1995)Plant Physiology107:1041-1047; Joneset al.(2005)Plant Methods1:5;

La transformación puede dar como resultado una incorporación estable o transitoria del ácido nucleico en la célula. "Transformación estable" pretende significar que la construcción de nucleótidos introducida en una célula hospedadora se integra en el genoma de la célula hospedadora y es capaz de ser heredada por la progenie de la misma. "Transformación transitoria" pretende significar que un polinucleótido se introduce en la célula hospedadora y no se integra en el genoma de la célula hospedadora.

Se conocen en la técnica métodos para la transformación de cloroplastos. Véase, por ejemplo, Svabet al.(1990)Proc. Nail. Acad. Sci. USA87:8526-8530; Svab y Maliga (1993)Proc. Natl. Acad. Sci. USA90:913-917; Svab y Maliga (1993)EMBO J.12:601-606. El método se basa en el suministro con un cañón de partículas de ADN que contiene un marcador de selección y en el direccionamiento del ADN al genoma plastídico mediante recombinación de homólogos. Adicionalmente, la transformación de plástidos puede lograrse mediante la transactivación de un transgén silente portado por el plástido mediante la expresión preferida en tejidos de una ARN polimerasa codificada nuclearmente y dirigida al plástido. Un sistema de este tipo se ha pubicado en McBrideet al.(1994)Proc. Natl. Acad. Sci. USA91:7301-7305.

Las células que se han transformado pueden cultivarse en un organismo transgénico, tal como una planta, de acuerdo con formas convencionales. Véase, por ejemplo, McCormicket al.(1986)Plant Cell Reports5:81-84. Después, estas plantas pueden cultivarse y polinizarse con la misma cepa transformada o diferentes cepas, y el híbrido resultante tiene expresión constitutiva de la característica fenotípica deseada identificada. Pueden cultivarse dos o más generaciones para garantizar que la expresión de la característica fenotípica deseada se mantenga de forma estable y se herede y después se recolectan semillas para garantizar que se ha conseguido la expresión de la característica fenotípica deseada. De esta manera, la presente invención posibilita que la semilla transformada (también denominada "semilla transgénica") tenga una construcción de nucleótidos de acuerdo con aspectos de la invención, por ejemplo, un casete de expresión, incorporado de forma estable en su genoma.

Como alternativa, las células que se han transformado pueden introducirse en un organismo no humano. Estas células podrían haberse originado a partir del organismo, en donde las células se transforman en un enfoqueex vivo.

Las secuencias proporcionadas en el presente documento pueden usarse para la transformación de cualquier especie vegetal, incluyendo, pero sin limitación, monocotiledóneas o dicotiledóneas. Los ejemplos de plantas de interés incluyen, pero sin limitación, cereal (maíz), sorgo, trigo, girasol, tomate, crucíferas, pimientos, patata, algodón, arroz, soja, remolacha azucarera, caña de azúcar, tabaco, cebada y colza oleaginosa,Brassicasp., alfalfa, centeno, mijo, cártamo, cacahuetes, batata, mandioca, café, coco, piña, árboles de cítricos, cacao, té, plátano, aguacate, higo, guayaba, mango, aceituna, papaya, anacardo, macadamia, almendra, avena, hortalizas, plantas ornamentales y coníferas.

Las hortalizas incluyen, pero sin limitación, tomates, lechuga, judías verdes, habas de Lima, guisantes y miembros del géneroCurcumistales como pepino, cantalupo y melón almizclero. Las plantas ornamentales incluyen, pero sin limitación, azalea, hortensia, hibisco, rosas, tulipanes, narcisos, petunias, clavel, poinsettia y crisantemo. Preferentemente, las plantas posibilitadas por aspectos de la presente invención son plantas de cultivo (por ejemplo, maíz, sorgo, trigo, girasol, tomate, crucíferas, pimientos, patata, algodón, arroz, soja, remolacha azucarera, caña de azúcar, tabaco, cebada, colza oleaginosa, etc.).

Como se usa en el presente documento, el término planta incluye células vegetales, protoplastos vegetales, cultivos de tejido de células vegetales a partir de los que pueden regenerarse plantas, callos de plantas, grupos de plantas y células vegetales que están intactas en plantas o partes de plantas tales como embriones de plantas, polen, óvulos, semillas, hojas, flores, ramas, frutos, nueces, espigas, mazorcas, vainas, pedúnculos, raíces, puntas de raíces, anteras y similares. Se entiende que grano significa la semilla madura producida por cultivadores comerciales para fines distintos del cultivo o la reproducción de las especies. Aspectos de la invención también posibilitan progenie, variantes y mutantes de las plantas regeneradas, siempre que estas partes comprendan los polinucleótidos introducidos. Se proporciona además un producto o subproducto vegetal procesado que conserva las secuencias divulgadas en el presente documento, incluyendo, por ejemplo, harina de soja.

Los polinucleótidos que codifican las RGN, los ARNcr y/o los ARNcrtra también pueden usarse para transformar cualquier especie procariota, incluyendo, pero sin limitación, arqueas y bacterias (por ejemplo,Bacillussp.,Klebsiellasp.Streptomycessp.,Rhizobiumsp.,Escherichiasp.,Pseudomonassp.,Salmonellasp.,Shigellasp.,Vibriosp.,Yersiniasp.,Mycoplasmasp.,Agrobacterium, Lactobacillussp.).

Los polinucleótidos que codifican las RGN, los ARNcr y/o los ARNcrtra pueden usarse para transformar cualquier especie eucariota, incluyendo, pero sin limitación, animales (por ejemplo, mamíferos, insectos, peces, aves y reptiles), hongos, amebas, algas y levaduras.

Pueden usarse métodos convencionales de transferencia de genes no víricos o basados en virus para introducir ácidos nucleicos en células o tejidos diana de mamíferos. Dichos métodos pueden usarse para administrar ácidos nucleicos que codifican componentes de un sistema CRISPR a células en cultivo o en un organismo hospedador. Los sistemas de suministro de vectores no víricos incluyen plásmidos de ADN, ARN (por ejemplo, un transcrito de un vector descrito en el presente documento), ácido nucleico desnudo y ácido nucleico en forma de complejo con un vehículo de suministro, tal como un liposoma. Los sistemas de suministro de vectores víricos incluyen virus de ADN y ARN, que tienen genomas episómicos o integrados después del suministro a la célula. Para una revisión de los procedimientos de terapia génica, véanse Anderson,Science256: 808- 813 (1992); Nabel y Feigner,TIBTECH11:211-217 (1993); Mitani y Caskey,TIBTECH11:162-166 (1993); Dillon,TIBTECH11:167-175 (1993); Miller,Nature357:455-460 (1992); Van Brunt,Biotechnology6(10): 1149-1154 (1988); Vigne,Restorative Neurology and Neuroscience8:35-36 (1995); Kremer y Perricaudet,British Medical Bulletin51(1):31-44 (1995); Haddadaet al.,enCurrent Topics in Microbiology and Immunology,Doerfler y Bohm (eds) (1995); y Yuet al., Gene Therapy1:13-26 (1994).

Los métodos de suministro no vírico de ácidos nucleicos incluyen lipofección, nucleofección, microinyección, biolística, virosomas, liposomas, inmunoliposomas, policatión o lípido: conjugados de ácido nucleico, ADN desnudo, viriones artificiales y captación de ADN reforzada con un agente. La lipofección se describe en, por ejemplo, las Patentes de los EE. UU. N.° 5.049.386, 4.946.787; y 4.897.355) y los reactivos de lipofección se comercializan (por ejemplo, Transfectam ™ y Lipofectin™). Los lípidos catiónicos y neutros que son adecuados para la lipofección de polinucleótidos con reconocimiento de receptor eficiente incluyen los de Feigner, documento WO 91/17424; documento WO 91/16024. El suministro puede ser a células (por ejemplo, administraciónin vitrooex vivo)o tejidos diana (por ejemplo, administraciónin vivo).La preparación de los complejos lípido:ácido nucleico, incluyendo los liposomas dirigidos tales como los complejos de inmunolípidos, es bien conocida por un experto en la materia (véase, por ejemplo, Crystal,Science270:404-410 (1995); Blaeseet al., Cancer Gene Ther.2:291-297 (1995); Behret al., Bioconjugate Chem.

5:382-389 (1994); Remyet al., Bioconjugate Chem.5:647-654 (1994); Gaoet al., Gene Therapy2:710-722 (1995); Ahmadet al., Cancer Res.52:4817-4820 (1992); la Pat. de los EE. UU. N.° 4.186.183, 4.217.344, 4.235.871, 4.261.975, 4.485.054, 4.501.728, 4.774.085, 4.837.028 y 4.946.787).

El uso de sistemas basados en virus de ARN o ADN para el suministro de ácidos nucleicos aprovecha procesos altamente evolucionados para dirigir un virus a células específicas en el cuerpo y traficar la carga útil vírica al núcleo. Los vectores víricos pueden administrarse directamente a pacientes (in vivo) o pueden usarse para tratar célulasin vitro,y las células modificadas pueden administrarse opcionalmente a pacientes(ex vivo).Los sistemas basados en virus convencionales podrían incluir vectores retrovíricos, lentivirus, adenovíricos, de virus adenoasociados y de hérpes simple para la transferencia génica. La integración en el genoma del hospedador es posible con los métodos de transferencia génica de retrovirus, lentivirus, y virus adenoasociados, lo que con frecuencia tiene como resultado la expresión a largo plazo del transgén insertado. Adicionalmente, se han observado altas eficiencias de transducción en muchos tipos diferentes de células y tejidos diana.

El tropismo de un retrovirus puede alterarse incorporando proteínas de la envoltura extrañas, expandiendo la población diana potencial de células diana. Los vectores lentivíricos son vectores retrovíricos que son capaces de transducir o infectar células que no se dividen y normalmente producen altos títulos víricos. Por lo tanto, la selección de un sistema de transferencia génica retrovírico dependería del tejido diana. Los vectores retrovíricos están compuestos por repeticiones terminales largas que actúan en cis con capacidad de empaquetamiento de hasta 6 -10 kb de secuencia extraña. Las LTR que actúan en cis mínimas son suficientes para la replicación y el empaquetamiento de los vectores, que después se usan para integrar el gen terapéutico en la célula diana para proporcionar una expresión transgénica permanente. Los vectores retrovíricos ampliamente utilizados incluyen aquellos basados en el virus de la leucemia murina (MuLV), el virus de leucemia del gibón (GaLV), el virus de la inmunodeficiencia de simios (SIV), el virus de la inmunodeficiencia humana (VIH) y combinaciones de los mismos (véase, por ejemplo, Buchscheret al., J. Viral.

66:2731-2739 (1992); Johannet al., J. Viral.66:1635-1640 (1992); Sommnerfeltet al., Viral.176:58-59 (1990); Wilsonet al., J. Viral.63:2374-2378 (1989); Milleret al.,1.Viral.65:2220-2224 (1991); documento PCT/US94/05700).

En aplicaciones donde se prefiere la expresión transitoria, pueden usarse sistemas basados en adenovirus. Los vectores basados en adenovirus son capaces de una eficiencia de transducción muy alta en muchos tipos de células y no requieren división celular. Con dichos vectores, se han obtenido altos títulos y niveles de expresión. Este vector se puede producir en grandes cantidades en un sistema relativamente simple. Los vectores de virus adenoasociados ("AAV") también pueden usarse para transducir células con ácidos nucleicos diana, por ejemplo, en la producciónin vitrode ácidos nucleicos y péptidos, y para procedimientos de terapia génicain vivoyex vivo(véase, por ejemplo, Westet al., Virology160:38-47 (1987); la Patente de los EE. UU. N.° 4.797.368; el documento WO 93/24641; Katin,Human Gene Therapy5:793-801 (1994); Muzyczka, 1.Clin. Invest.94:1351 (1994). La construcción de vectores de AAV recombinantes se describe en varias publicaciones, incluyendo la Patente de los EE. UU. N.° 5.173.414; Tratschinet al., Mol. Cell. Biol.5:3251-3260 (1985); Tratschin,et al,, Mol. Cell. Biol.4:2072-2081 (1984); Hermonat y Muzyczka,PNAS81:6466-6470 (1984); y Samulskiet al.,1.Viral.63:03822-3828 (1989). Las células de empaquetamiento se usan normalmente para formar partículas de virus que son capaces de infectar una célula hospedadora. Dichas células incluyen células 293, que empaquetan adenovirus, y células ^J2 o células PA317, que empaquetan retrovirus.

Los vectores víricos utilizados en terapia génica por lo general se generan produciendo una estirpe celular que empaqueta un vector de ácido nucleico en una partícula vírica. Los vectores contienen normalmente las secuencias víricas mínimas requeridas para el empaquetamiento y la posterior integración en un hospedador, siendo reemplazadas otras secuencias víricas por un casete de expresión para el polinucleótido o polinucleótidos que se han de expresar. Las funciones víricas que faltan se suministran normalmente en trans por la estirpe celular de empaquetamiento. Por ejemplo, los vectores de AAV utilizados en la terapia génica normalmente sólo poseen secuencias de ITR del genoma de AAV que se requieren para el empaquetamiento y la integración en el genoma del hospedador. El ADN vírico se empaqueta en una estirpe celular, que contiene un plásmido auxiliar que codifica los otros genes de AAV, concretamente rep y cap, pero que carece de las secuenciasT<r>.

La estirpe celular también puede infectarse con adenovirus como auxiliar. El virus auxiliar promueve la replicación del vector AAV y la expresión de genes de AAV a partir del plásmido auxiliar. El plásmido auxiliar no está empaquetado en cantidades significativas debido a la falta de secuencias ITR. La contaminación con adenovirus puede reducirse mediante, por ejemplo, tratamiento térmico al que el adenovirus es más sensible que el AAV. Los expertos en la materia conocen métodos adicionales para el suministro de ácidos nucleicos a las células. Véase, por ejemplo, el documento US20030087817.

En algunas realizaciones, una célula hospedadora se transfecta de forma transitoria o no transitoria con uno o más vectores descritos en el presente documento. En algunas realizaciones, una célula se transfecta como ocurre de forma natural en un sujeto. En algunas realizaciones, una célula que se transfecta se toma de un sujeto. En algunas realizaciones, la célula deriva de células tomadas de un sujeto, tales como una estirpe celular. Se conoce en la técnica una amplia diversidad de estirpes celulares para el cultivo de tejidos. Los ejemplos de estirpes celulares incluyen, pero sin limitación, C8161, CCRF-CEM, MOLT, mIMCD-3, NHDF, HeLaS3, Huhl, Huh4, Huh7, HUVEC, HASMC, HEKn, HEKa, MiaPaCell, Panel, PC-3, TFl, CTLL-2, CIR, Rat6 , CVI, RPTE, AlO, T24, 182, A375, ARH-77, Calul, SW480, SW620, SKOV3, SK-UT, CaCo2, P388Dl, SEM-K2, WEHI-231, HB56, TIB55, lurkat,145.01,LRMB, Bcl-1, BC-3, IC21, DLD2, Raw264.7, NRK, NRK-52E, MRC5, MEF, Hep G2, HeLa B, HeLa T4. COS, COS-1, COS-6 , COS-M6A, BS-C-1 epitelial de riñón de mono, BALB/3T3 de fibroblasto de embrión de ratón, 3T3 Swiss, 3T3-L1, 132-d5 de fibroblastos fetales humanos; 10.1 de fibroblastos de ratón, 293-T, 3T3, 721, 9L, A2780, A2780ADR, A2780cis, A172, A20, A253, A431, A-549, ALC, B16, B35, células BCP-I, BEAS-2B, bEnd.3, BHK-21, BR293, BxPC3, C3H-10Tl/2, C6/36, Cal-27, CHO, CHO-7, CHO-IR, CHO-Kl, CHO-K2, CHO-T, CHO Dhfr-/-, COR-L23, COR-L23/CPR, COR-L235010, CORL23/ R23, COS-7, COV-434, CML Tl, CMT, CT26, D17, DH82, DU145, DuCaP, EL4, EM2, EM3, EMT6/AR1, EMT6/AR10.0, FM3, H1299, H69, HB54, HB55, HCA2, HEK-293, HeLa, Hepalclc7, HL-60, HMEC, HT-29, lurkat, célulasIY,células K562, Ku812, KCL22, KGl, KYOl, LNCap, Ma-Mel 1-48, MC-38, MCF-7, MCF-l0A, MDA-MB-231, MDA-MB-468, MDA-MB-435, MDCKII, MDCKII, MOR/ 0.2R, MONO-MAC 6 , MTD-lA, MyEnd, NCI-H69/CPR, NCI-H69/LX10, NCI-H69/LX20, NCI-H69/LX4, NIH-3T3, NALM-1, NW-145, estirpes celulares OPCN/OPCT, Peer, PNT-lA/ PNT 2, RenCa, RIN-5F, RMA/RMAS, células Saos-2, Sf-9, SkBr3, T2, T-47D, T84, estirpe celular THPl, U373, U87, U937, VCaP, células Vero, WM39, WT-49, X63, YAC-1, YAR y variantes transgénicas de las mismas. Las estirpes celulares están disponibles en diversas fuentes conocidas por los expertos en la materia (véase, por ejemplo, the American Type Culture Collection (ATCC) (Manassas, Virginia)).

En algunas realizaciones, una célula transfectada con uno o más vectores descritos en el presente documento se usa para establecer una nueva estirpe celular que comprende una o más secuencias procedentes de vectores. En algunas realizaciones, una célula transfectada transitoriamente con los componentes de un sistema CRISPR como se describe en el presente documento (tal como mediante transfección transitoria de uno o más vectores, o transfección con ARN), y modificada a través de la actividad de un complejo de CRISPR, se usa para establecer una nueva estirpe celular que comprende células que contienen la modificación pero que carecen de cualquier otra secuencia exógena. En algunas realizaciones, las células transfectadas de forma transitoria o no transitoria con uno o más vectores descritos en el presente documento, o las estirpes celulares derivadas de dichas células se usan para evaluar uno o más compuestos de ensayo.

En algunas realizaciones, uno o más vectores descritos en el presente documento se usan para producir un animal transgénico no humano o una planta transgénica. En algunas realizaciones, el animal transgénico es un mamífero, tal como un ratón, rata o conejo.

IV. Variantes y fragmentos de polipéptidos y polinudeótidos

La presente divulgación proporciona, de acuerdo con los aspectos de la invención, variantes activas y fragmentos de una nucleasa guiada por ARN de origen natural (es decir, de tipo silvestre), cuya secuencia de aminoácidos se expone como las SEQ ID NO: 11 o 27, así como variantes activas y fragmentos de repeticiones de CRISPR de origen natural, tales como la secuencia expuesta como las SEQ ID NO: 2, 12, 20, 28, 37, 46 o 55, y variantes activas y fragmentos de ARNcrtra de origen natural, tales como la secuencia expuesta como las SEQ ID NO: 3, 13, 21, 29, 38, 47 o 56, y polinucleótidos que codifican los mismos.

Aunque la actividad de una variante o fragmento puede alterarse en comparación con el polinucleótido o polipéptido de interés, la variante y el fragmento deben conservar la funcionalidad del polinucleótido o polipéptido de interés. Por ejemplo, una variante o fragmento puede tener una actividad aumentada, una actividad disminuida, un espectro de actividad diferente o cualquier otra alteración en la actividad en comparación con el polinucleótido o polipéptido de interés.

Los fragmentos y variantes de polipéptidos de RGN de origen natural, tales como los divulgados en el presente documento, conservarán la actividad de unión a ADN guiada por ARN específica de secuencia. En realizaciones particulares, los fragmentos y variantes de polipéptidos de RGN de origen natural, tales como los divulgados en el presente documento, conservarán la actividad nucleasa (monocatenaria o bicatenaria).

Los fragmentos y variantes de repeticiones de CRISPR de origen natural, tales como los divulgados en el presente documento, conservarán la capacidad, cuando sean parte de un ARN guía (que comprende un ARNcrtra), para unirse y guiar una nucleasa guiada por ARN (complejada con el ARN guía) a una secuencia de nucleótidos diana de una manera específica de secuencia.

Los fragmentos y variantes de ARNcrtra de origen natural, tales como los divulgados en el presente documento, conservarán la capacidad, cuando sean parte de un ARN guía (que comprende un ARN de CRISPR), para guiar una nucleasa guiada por ARN (complejada con el ARN guía) a una secuencia de nucleótidos diana de una manera específica de secuencia.

El término "fragmento" se refiere a una porción de una secuencia polinucleotídica o polipeptídica de la invención. Los "fragmentos" o "porciones biológicamente activas" incluyen polinucleótidos que comprenden un número suficiente de nucleótidos contiguos para conservar la actividad biológica (es decir, unirse a y dirigir una RGN de una manera específica de secuencia a una secuencia de nucleótidos diana cuando está comprendida dentro de un ARN guía). Los "fragmentos" o "porciones biológicamente activas" incluyen polipéptidos que comprenden un número suficiente de restos de aminoácidos contiguos para conservar la actividad biológica (es decir, que se une a una secuencia de nucleótidos diana de una manera específica de secuencia cuando forma un complejo con un ARN guía). Los fragmentos de las proteínas de RGN incluyen aquellos que son más cortos que las secuencias de longitud completa debido al uso de un sitio de inicio en dirección 3' alternativo. Una porción biológicamente activa de una proteína de RGN puede ser un polipéptido que comprende, por ejemplo, 10, 25, 50, 100, 150, 200, 250, 300, 350, 400, 450, 500, 550, 600 , 650, 700, 750, 800 , 850, 900, 950, 1000, 1050 o más restos de aminoácidos contiguos de las SEQ ID NO: 1, 11, 19, 27, 36, 45 o 54. Dichas porciones biológicamente activas pueden prepararse mediante técnicas recombinantes y evaluarse para determinar la actividad de unión a ADN guiada por ARN específica de secuencia. Un fragmento biológicamente activo de una secuencia de repetición de CRISPR puede comprender al menos 8 aminoácidos contiguos de las SEQ ID NO: 2, 12, 20, 28, 37, 46 o 55. Una porción biológicamente activa de una secuencia de repetición de CRISPR puede ser un polinucleótido que comprende, por ejemplo, 8 , 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19 o 20 nucleótidos contiguos de las SEQ ID NO: 2, 12, 20, 28, 37, 46 o 55. Una porción biológicamente activa de un ARNcrtra puede ser un polinucleótido que comprende, por ejemplo, 8 , 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 35, 40, 45, 50, 55, 60, 65, 70, 75, 80 o más nucleótidos contiguos de las SEQ ID NO: 3, 13, 21, 29, 38, 47 o 56.

En general, "variantes" pretende significar secuencias sustancialmente similares. Para los polinucleótidos, una variante comprende una supresión y/o adición de uno o más nucleótidos en uno o más sitios internos en el polinucleótido nativo y/o una sustitución de uno o más nucleótidos en uno o más sitios en el polinucleótido nativo. Como se usa en el presente documento, un polinucleótido o polipéptido "nativo" o "de tipo silvestre" comprende una secuencia de nucleótidos o secuencia de aminoácidos de origen natural, respectivamente. Para los polinucleótidos, las variantes conservadoras incluyen aquellas secuencias que, debido a la degeneración del código genético, codifican la secuencia de aminoácidos nativa del gen de interés. Las variantes alélicas de origen natural tales como estas pueden identificarse con el uso de técnicas de biología molecular bien conocidas, como, por ejemplo, con técnicas de reacción en cadena de la polimerasa (PCR) e hibridación como se esboza a continuación. Los polinucleótidos variantes también incluyen polinucleótidos derivados sintéticamente, tales como los generados, por ejemplo, mediante el uso de mutagénesis dirigida al sitio, pero que aún codifican el polipéptido o el polinucleótido de interés. Generalmente, las variantes de un polinucleótido particular divulgado en el presente documento tendrán al menos aproximadamente un 40 %, 45 %, 50 %, 55 %, 60 %, 65 %, 70 %, 75 %, 80 %, 85 %, 90 %, 91 %, 92 %, 93 %, 94 %, 95 %, 96 %, 97 %, 98 %, 99 % o más de identidad de secuencia con ese polinucleótido particular según lo determinado por los programas y parámetros de alineación de secuencia descritos en otra parte en el presente documento.

Las variantes de un polinucleótido particular divulgado en el presente documento (es decir, el polinucleótido de referencia) también puede evaluarse mediante la comparación del porcentaje de identidad de secuencia entre el polipéptido codificado por un polinucleótido variante y el polipéptido codificado por el polinucleótido de referencia. Puede calcularse el porcentaje de identidad entre dos polipéptidos cualesquiera usando programas y parámetros de alineación de secuencia descritos en otra parte en el presente documento. Cuando cualquier par dado de polinucleótidos divulgados en el presente documento se evalúa mediante la comparación del porcentaje de identidad de secuencia compartida por los dos polipéptidos que codifican, el porcentaje de identidad de secuencia entre los dos polipéptidos codificados es de al menos aproximadamente un 40 %, 45 %, 50 %, 55 %, 60 %, 65 %, 70 %, 75 %, 80 %, 85 %, 90 %, 91 %, 92 %, 93 %, 94 %, 95 %, 96 %, 97 %, 98 %, 99 % o más de identidad de secuencia.

De acuerdo con los aspectos de la invención, los polinucleótidos divulgados en el presente documento codifican un polipéptido de nucleasa guiada por ARN que comprende una secuencia de aminoácidos que tiene al menos un 95 %, 96 %, 97 %, 98 %, 99 % o más de identidad con una secuencia de aminoácidos de las s Eq ID NO: 11 o 27.

Una variante biológicamente activa de un polipéptido de RGN de acuerdo con aspectos de la invención puede diferir en tan sólo aproximadamente 1-15 restos de aminoácidos, tan sólo aproximadamente 1-10, tal como aproximadamente 6-10, tan sólo 5, tan sólo 4, tan sólo 3, tan sólo 2 o tan sólo 1 resto de aminoácido. En realizaciones específicas, los polipéptidos pueden comprender un truncamiento N-terminal o C-terminal, que puede comprender al menos una supresión de 10, 15, 20, 25, 30, 35, 40, 45, 50, 55, 60, 65, 70, 75, 80, 85, 90, 95, 100, 150, 200, 250, 300, 350, 400, 450, 500, 550, 600, 650, 700, 750, 800, 850, 900, 950, 1000, 1050 aminoácidos o más del extremo N o C del polipéptido.

En determinadas realizaciones, los polinucleótidos divulgados en el presente documento comprenden o codifican una repetición de CRISPR que comprende una secuencia de nucleótidos que tiene al menos un 40 %, 45 %, 50 %, 55 %, 60 %, 65 %, 70 %, 75 %, 80 %, 81 %, 82 %, 83 %, 84 %, 85 %, 86 %, 87 %, 88 %, 89 %, 90 %, 91 %, 92 %, 93 %, 94 %, 95 %, 96 %, 97 %, 98 %, 99 % o más de identidad con la secuencia de nucleótidos expuesta como las SEQ ID NO: 2, 12, 20, 28, 37, 46 o 55.

Los polinucleótidos divulgados en el presente documento pueden comprender o codificar un ARNcrtra que comprende una secuencia de nucleótidos que tiene al menos un 40 %, 45 %, 50 %, 55 %, 60 %, 65 %, 70 %, 75 %, 80 %, 81 %, 82 %, 83 %, 84 %, 85 %, 86 %, 87 %, 88 %, 89 %, 90 %, 91 %, 92 %, 93 %, 94 %, 95 %, 96 %, 97 %, 98 %, 99 % o más de identidad con la secuencia de nucleótidos expuesta como las SEQ ID NO: 3, 13, 21, 29, 38, 47 o 56.

Las variantes biológicamente activas de una repetición de CRISPR o ARNcrtra pueden diferir en tan sólo aproximadamente 1-15 nucleótidos, tan sólo aproximadamente 1-10, tal como aproximadamente 6-10, tan sólo 5, tan sólo 4, tan sólo 3, tan sólo 2 o tan sólo 1 nucleótido. En realizaciones específicas, los polinucleótidos pueden comprender un truncamiento 5' o 3', que puede comprender al menos una supresión de 10, 15, 20, 25, 30, 35, 40, 45, 50, 55, 60, 65, 70, 75, 80 nucleótidos o más del extremo 5' o 3' del polinucleótido.

Se reconoce que pueden realizarse modificaciones en los polipéptidos de RGN, repeticiones de CRISPR y ARNcrtra proporcionados en el presente documento creando polinucleótidos y proteínas variantes. Los cambios diseñados por el hombre pueden introducirse mediante la aplicación de técnicas de mutagénesis dirigida al sitio. Como alternativa, los polinucleótidos y/o polipéptidos nativos, aún desconocidos, o aún no identificados relacionados estructural y/o funcionalmente con las secuencias divulgadas en el presente documento también pueden identificarse como que caen dentro del alcance de los aspectos de la presente invención. Pueden hacerse sustituciones de aminoácidos conservadoras en regiones no conservadas que no alteren la función de las proteínas de RGN. Como alternativa, pueden realizarse modificaciones que mejoren la actividad de la RGN.

Los polinucleótidos y proteínas variantes abarcan también secuencias y proteínas derivadas de un procedimiento mutagénico y recombinogénico tal como la transposición del ADN. Con un procedimiento de este tipo, una o más proteínas de RGN diferentes divulgadas en el presente documento (por ejemplo, SEQ ID NO: 11 o 27) se manipula para crear una nueva proteína de RGN que posea las propiedades deseadas. De esta manera, se generan bibliotecas de polinucleótidos recombinantes a partir de una población de polinucleótidos de secuencias relacionadas que comprenden regiones de secuencias que tienen una identidad de secuencia sustancial y pueden recombinarse homólogamentein vitrooin vivo.Por ejemplo, usando esta estrategia, los motivos de secuencia que codifican un dominio de interés pueden mezclarse entre las secuencias de RGN proporcionadas en el presente documento y otros genes de RGN conocidos para obtener un nuevo gen que codifica una proteína con una propiedad de interés mejorada, tal como una Km aumentada en el caso de una enzima. Se conocen en la técnica estrategias para dicha transposición de ADN. Véase, por ejemplo, Stemmer (1994)Proc. Natl. Acad. Sci. USA91:10747-10751; Stemmer (1994)Nature370:389-391; Crameriet al.(1997)Nature Biotech.15:436-438; Mooreet al.(1997)J. Mol. Biol.272:336-347; Zhanget al.(1997)Proc. Natl. Acad. Sci. USA94:4504-4509; Crameriet al.(1998)Nature391:288-291; y las Patentes de los EE. UU. N.° 5.605.793 y 5.837.458. Un ácido nucleico "mezclado" es un ácido nucleico producido mediante un procedimiento de mezcla tal como cualquier procedimiento de reorganización expuesto en el presente documento. Los ácidos nucleicos mezclados se producen recombinando (física o virtualmente) dos o más ácidos nucleicos (o cadenas de caracteres), por ejemplo, de forma artificial y opcionalmente recursiva. Generalmente, se usan una o más etapas de selección en procesos de mezcla para identificar ácidos nucleicos de interés; esta etapa de cribado puede realizarse antes o después de cualquier etapa de mezcla. En algunas (pero no en todas) las realizaciones de mezcla, es deseable realizar múltiples rondas de recombinación antes de la selección para aumentar la diversidad del conjunto que se ha de cribar. El proceso global de recombinación y selección se repite opcionalmente de forma recursiva. Dependiendo del contexto, mezclar puede referirse a un proceso general de recombinación y selección, o, como alternativa, puede referirse simplemente a las porciones recombinatorias del proceso general.

Como se usa en el presente documento, la "identidad de secuencia" o "identidad" en el contexto de dos secuencias polinucleotídicas o polipeptídicas hacen referencia a los restos en las dos secuencias que son iguales cuando se alinean para máxima correspondencia a lo largo de una ventana de comparación específica. Cuando se usa el porcentaje de identidad de secuencia en referencia a proteínas, se reconoce que las posiciones de restos que no son idénticas normalmente difieren por sustituciones de aminoácidos conservadoras, donde los restos de aminoácidos se sustituyen por otros restos de aminoácidos con propiedades químicas similares (por ejemplo, carga o hidrofobia) y, por lo tanto, no cambian las propiedades funcionales de la molécula. Cuando las secuencias difieren en sustituciones conservadoras, el porcentaje de identidad de secuencia se puede ajustar por exceso para corregir la naturaleza conservadora de la sustitución. Se dice que las secuencias que difieren en dichas sustituciones conservadoras tienen "similitud de secuencia" o "similitud". Los medios para hacer este ajuste son bien conocidos por los expertos en la materia. Normalmente, esto implica puntuar una sustitución conservadora como un emparejamiento erróneo parcial en lugar de completo, aumentando de este modo el porcentaje de identidad de secuencia. Por lo tanto, por ejemplo, cuando se asigna a un aminoácido idéntico una puntuación de 1 y se asigna a una sustitución no conservadora una puntuación de cero, se asigna a una sustitución conservadora una puntuación entre cero y 1. La puntuación de sustituciones conservadoras se calcula, por ejemplo, como se implementa en el programa PC/GENE (Intelligenetics, Mountain View, California).

Como se usa en el presente documento, el "porcentaje de identidad de secuencia" significa el valor determinado comparando dos secuencias alineadas de manera óptima a lo largo de una ventana de comparación, en donde la porción de la secuencia polinucleotídica en la ventana de comparación puede comprender adiciones o supresiones (es decir, huecos) en comparación con la secuencia de referencia (que no comprende adiciones o supresiones) para la alineación óptima de las dos secuencias. El porcentaje se calcula determinando el número de posiciones en las cuales se encuentran la base de ácido nucleico o el resto de aminoácido idénticos en ambas secuencias para producir el número de posiciones emparejadas, dividiendo el número de posiciones emparejadas entre el número total de posiciones en la ventana de comparación y multiplicando el resultado por 100 para producir el porcentaje de identidad de secuencia.

A menos que se indique lo contrario, los valores de identidad/similitud de secuencia proporcionados en el presente documento se refieren al valor obtenido usando GAP Versión 10 usando los siguientes parámetros: % de identidad y % de similitud para una secuencia de nucleótidos usando una ponderación de GAP de 50 y una ponderación de la longitud de 3 y la matriz de puntuación nwsgapdna.cmp; % de identidad y % de similitud para una secuencia de aminoácidos usando una ponderación de GAP de 8 y una ponderación de la longitud de 2 y la matriz de puntuación BLOSUM62; o cualquier programa equivalente de los mismos. Por "programa equivalente" se entiende cualquier programa de comparación de secuencias que, para dos secuencias cualquiera en cuestión, genera una alineación que tiene emparejamientos de restos de nucleótidos o aminoácidos idénticos y un porcentaje de identidad de secuencia idéntico en comparación con la alineación correspondiente generada por GAP Versión 10.

Dos secuencias están "óptimamente alineadas" cuando se alinean para la puntuación de similitud usando una matriz de sustitución de aminoácidos definida (por ejemplo, BLOSUM62), penalización por existencia de hueco y penalización por extensión de hueco para llegar a la puntuación más alta posible para ese par de secuencias. Las matrices de sustitución de aminoácidos y su uso para cuantificar la similitud entre dos secuencias son bien conocidas en la técnica y se describen, por ejemplo, en Dayhoffet al.(1978) "Amodel of evolutionary change in proteins."En"Atlas of ProteinSequence and Structure",Vol. 5, Supl. 3 (ed. M. O. Dayhoff), págs. 345-352.Natl. Biomed. Res. Found.,Washington, D.C. y Henikoffet al.(1992)Proc. Natl. Acad. Sci. USA89:10915-10919. La matriz BLOSUM62 se usa con frecuencia como una matriz de sustitución de puntuación por defecto en protocolos de alineación de secuencia. La penalización por existencia de hueco se impone para la introducción de un único hueco de aminoácido en una de las secuencias alineadas, y la penalización por extensión de hueco se impone para cada posición de aminoácido vacía adicional insertada en un hueco ya abierto. La alineación se define por las posiciones de aminoácidos de cada secuencia en la que comienza y termina la alineación y, opcionalmente, por la inserción de un hueco o múltiples huecos en una o ambas secuencias, para llegar a la puntuación más alta posible. Aunque la alineación y la puntuación óptimas pueden lograrse manualmente, el proceso se facilita mediante el uso de un algoritmo de alineación implementado por ordenador, por ejemplo, B<l>A<s>T 2.0 con huecos, descrito en Altschulet al.(1997)Nucleic Acids Res.25:3389-3402, y puesto a disposición del público en el sitio web del National Center for Biotechnology Information (www.ncbi.nlm.nih.gov). Pueden prepararse alineaciones óptimas, incluyendo múltiples alineaciones, usando, por ejemplo, PSI-BLAST, disponible a través de www.ncbi.nlm.nih.gov y descrito por Altschulet al.(1997)Nucleic Acids Res.25:3389-3402.

Con respecto a una secuencia de aminoácidos que está alineada de manera óptima con una secuencia de referencia, un resto de aminoácido "corresponde a" la posición en la secuencia de referencia con la que el resto está emparejado en la alineación. La "posición" se indica mediante un número que identifica secuencialmente cada aminoácido en la secuencia de referencia basándose en su posición con respecto al extremo N. Debido a las supresiones, inserción, truncamientos, fusiones, etc., que debe tenerse en cuenta al determinar una alineación óptima, en general, el número de restos de aminoácidos en una secuencia de ensayo como se determina simplemente contando desde el extremo N no será necesariamente el mismo que el número de su posición correspondiente en la secuencia de referencia. Por ejemplo, en el caso de que haya una supresión en una secuencia de ensayo alineada, no habrá ningún aminoácido que corresponda a una posición en la secuencia de referencia en el sitio de la supresión. Cuando haya una inserción en una secuencia de referencia alineada, esa inserción no corresponderá a ninguna posición de aminoácido en la secuencia de referencia. En el caso de truncamientos o fusiones, puede haber tramos de aminoácidos en la secuencia de referencia o alineada que no correspondan a ningún aminoácido en la secuencia correspondiente.

V. Anticuerpos

Los anticuerpos contra los polipéptidos de RGN o las ribonucleoproteínas que comprenden los polipéptidos de RGN del cuarto aspecto de la presente invención, incluyendo aquellos que tienen la secuencia de aminoácidos expuesta como las SEQ ID NO: 11 o 27 o variantes activas o fragmentos de las mismas, también se posibilitan. Los métodos para producir anticuerpos son bien conocidos en la técnica (véase, por ejemplo, Harlow y Lane (1988)Antibodies: A Laboratory Manual,Cold Spring Harbor Laboratory, Cold Spring Harbor, Nueva York.; y la Patente de los EE. UU. N.° 4.196.265). Estos anticuerpos pueden usarse en kits para la detección y el aislamiento de polipéptidos o ribonucleoproteínas de RGN. Por lo tanto, esta divulgación proporciona kits que comprenden anticuerpos que se unen específicamente a los polipéptidos o ribonucleoproteínas descritos en el presente documento, incluyendo, por ejemplo, polipéptidos que tienen la secuencia de las SEQ ID NO: 11 o 27.

VI. Sistemas y complejos de ribonucleoproteína para unir una secuencia diana de interés y métodos de fabricación de los mismos

De acuerdo con el quinto aspecto de la invención, la presente divulgación proporciona un sistema para unir una secuencia diana de interés, en donde el sistema comprende al menos un ARN guía o una secuencia de nucleótidos que codifica el mismo, y al menos una nucleasa guiada por ARN o una secuencia de nucleótidos que codifica la misma. El ARN guía se hibrida con la secuencia diana de interés y también forma un complejo con el polipéptido de RGN, dirigiendo de ese modo al polipéptido de RGN para que se una a la secuencia diana. La RGN comprende una secuencia de aminoácidos de las SEQ ID NO: 11 o 27 o una variante activa o fragmento de la misma de acuerdo con el cuarto aspecto de la invención. En diversas realizaciones, el ARN guía comprende una secuencia de repetición de CRISPR que comprende la secuencia de nucleótidos de las SEQ ID NO: 2, 12, 20, 28, 37, 46 o 55, o una variante activa o fragmento de la misma. En realizaciones particulares, el ARN guía comprende un ARNcrtra que comprende una secuencia de nucleótidos de las SEQ ID NO: 3, 13, 21, 29, 38, 47 o 56, o una variante activa o fragmento de la misma. El ARN guía del sistema puede ser un ARN guía único o un ARN guía doble. En realizaciones particulares, el sistema comprende una nucleasa guiada por ARN que es heteróloga al ARN guía, en donde la RGN y el ARN guía no forman complejo de forma natural en la naturaleza.

El sistema para unir una secuencia diana de interés proporcionada en el presente documento puede ser un complejo de ribonucleoproteína, que es al menos una molécula de un ARN unida a al menos una proteína. Los complejos de ribonucleoproteína proporcionados en el presente documento comprenden al menos un ARN guía como componente de ARN y una nucleasa guiada por ARN como componente proteico. Dichos complejos de ribonucleoproteína pueden purificarse a partir de una célula u organismo que expresa de forma natural un polipéptido de RGN y se ha modificado por ingeniería genética para expresar un ARN guía particular que es específico para una secuencia diana de interés. Como alternativa, el complejo de ribonucleoproteína puede purificarse a partir de una célula u organismo que se ha transformado con polinucleótidos que codifican un polipéptido de RGN y un ARN guía y cultivarse en condiciones que permitan la expresión del polipéptido de RGN y el ARN guía. Por lo tanto, se proporcionan métodos para fabricar un polipéptido de RGN o un complejo de ribonucleoproteína de RGN. Dichos métodos comprenden cultivar una célula que comprende una secuencia de nucleótidos que codifica un polipéptido de RGN y, en algunas realizaciones, una secuencia de nucleótidos que codifica un ARN guía, en condiciones en las que se expresa el polipéptido de RGN (y en algunas realizaciones, el ARN guía). Después, el polipéptido de RGN o la ribonucleoproteína de RGN pueden purificarse a partir de un lisado de las células cultivadas.

Los métodos para purificar un polipéptido de RGN o un complejo de ribonucleoproteína de RGN a partir de un lisado de una muestra biológica se conocen en la técnica (por ejemplo, cromatografía de exclusión por tamaño y/o de afinidad, 2D-PAGE, HPLC, cromatografía de fase inversa, inmunoprecipitación). En métodos particulares, el polipéptido de RGN se produce de forma recombinante y comprende un marcador de purificación para ayudar en su purificación, incluyendo, pero sin limitación, glutatión-S-transferasa (GST), proteína de unión a quitina (CBP), proteína de unión a maltosa, tiorredoxina (TRX), poli(NANP), marcador de purificación por afinidad en tándem (TAP), myc, AcV5, AU1, AU5, E, ECS, E2, FLAG, HA, nus, Softag 1, Softag 3, Estrep, SBP, Glu-Glu, HSV, KT3, S, S1, T7, V5, VSV-G, 6xHis, 10xHis, proteína transportadora de biotina carboxilo (BCCP) y calmodulina. Generalmente, el polipéptido de RGN marcadordo o el complejo de ribonucleoproteína de RGN se purifican usando cromatografía de afinidad de metal inmovilizado. Se apreciará que pueden usarse otros métodos similares conocidos en la técnica, incluyendo otras formas de cromatografía o, por ejemplo, inmunoprecipitación, ya sea sola o en combinación.

Un polipéptido "aislado" o "purificado", o una porción biológicamente activa del mismo, está sustancialmente o esencialmente libre de componentes que normalmente acompañan o interactúan con el polipéptido tal como se encuentra en su entorno natural. Por lo tanto, un polipéptido aislado o purificado están sustancialmente libres de otro material celular o medio de cultivo cuando se producen mediante técnicas recombinantes, o sustancialmente libres de precursores químicos u otras sustancias químicas cuando se sintetizan químicamente. Una proteína que está sustancialmente libre de material celular incluye preparaciones de proteína que tienen menos de aproximadamente el 30 %, 20 %, 10 %, 5 % o 1 % (en peso seco) de proteína contaminante. Cuando la proteína del cuarto aspecto de la invención o la porción biológicamente activa de la misma se produce de forma recombinante, de manera óptima, el medio de cultivo representa menos de aproximadamente el 30%, 20%, 10%, 5% o 1 % (en peso seco) de precursores químicos o sustancias químicas distintas de proteínas de interés.

Los métodos particulares proporcionados en el presente documento para unir y/o escindir una secuencia diana de interés implican el uso de un complejo de ribonucleoproteína de RGN ensambladoin vitro.El ensamblajein vitrode un complejo de ribonucleoproteína de RGN puede realizarse usando cualquier método conocido en la técnica en el que un polipéptido de RGN se pone en contacto con un ARN guía en condiciones para permitir la unión del polipéptido de RGN al a Rn guía. Como se usa en el presente documento, "contacto", "poner en contacto", "contactar", se refieren a colocar los componentes de una reacción deseada juntos en condiciones adecuadas para realizar la reacción deseada. El polipéptido de RGN puede purificarse a partir de una muestra biológica, lisado celular o medio de cultivo, producirse a través de traducciónin vitro,o sintetizarse químicamente. El ARN guía puede purificarse a partir de una muestra biológica, lisado celular o medio de cultivo, transcribirsein vitroo sintetizarse químicamente. El polipéptido de RGN y el ARN guía pueden ponerse en contacto en solución (por ejemplo, solución salina tamponada) para permitir el ensamblajein vitrodel complejo de ribonucleoproteína de RGN.

VII. Métodos de unión, escisión o modificación de una secuencia diana

La presente divulgación proporciona métodos para unir, escindir y/o modificar una secuencia de nucleótidos diana de interés de acuerdo con aspectos de la invención. Los métodos incluyen suministrar un sistema que comprende al menos un ARN guía o un polinucleótido que codifica el mismo, y al menos un polipéptido de RGN o un polinucleótido que codifica el mismo a la secuencia diana o una célula, orgánulo o embrión no humano que comprende la secuencia diana. La RGN comprende la secuencia de aminoácidos de las SEQ ID NO: 11 o 27, o una variante activa o fragmento de la misma, de acuerdo con el cuarto aspecto de la invención. En diversas realizaciones, el ARN guía comprende una secuencia de repetición de CRISPR que comprende la secuencia de nucleótidos de las SEQ ID NO: 2, 12, 20, 28, 37, 46 o 55, o una variante activa o fragmento de la misma. En realizaciones particulares, el ARN guía comprende un ARNcrtra que comprende la secuencia de nucleótidos de las SEQ ID NO: 3, 13, 21, 29, 38, 47 o 56, o una variante activa o fragmento de la misma. El ARN guía del sistema puede ser un ARN guía único o un ARN guía doble. La RGN del sistema puede ser una RGN de nucleasa-muerta, tener actividad nicasa o puede ser un polipéptido de fusión. En algunas realizaciones, el polipéptido de fusión comprende un polipéptido de edición de bases, por ejemplo, una citidina desaminasa o una adenosina desaminasa. En realizaciones particulares, la RGN y/o el ARN guía son heterólogos a la célula, orgánulo o embrión no humano en el que se introducen la RGN y/o el ARN guía (o polinucleótido o polinucleótidos que codifican al menos uno de la<r>G<n>y el ARN guía).

En aquellas realizaciones en donde el método comprende suministrar un polinucleótido que codifica un ARN guía y/o un polipéptido de RGN, la célula o el embrión no humano pueden cultivarse en condiciones en las que se expresan el ARN guía y/o el polipéptido de RGN. En diversas realizaciones, el método comprende poner en contacto una secuencia diana con un complejo de ribonucleoproteína de RGN. El complejo de ribonucleoproteína de RGN puede comprender una RGN que es de nucleasa-muerta o tiene actividad nicasa. En algunas realizaciones, la RGN del complejo de ribonucleoproteína es un polipéptido de fusión que comprende un polipéptido de edición de bases. En determinadas realizaciones, el método comprende introducir en una célula, orgánulo o embrión no humano que comprende una secuencia diana de un complejo de ribonucleoproteína de RGN. El complejo de ribonucleoproteína de RGN puede ser uno que se haya purificado a partir de una muestra biológica, producido de forma recombinante y posteriormente purificado, o ensambladoin vitrocomo se describe en el presente documento. En aquellas realizaciones en donde se ha ensamblado el complejo de ribonucleoproteína de RGN que se pone en contacto con la secuencia diana o un orgánulo celular, o un embrión no humanoin vitro,el método puede comprender además el ensamblajein vitrodel complejo antes del contacto con la secuencia diana, célula, orgánulo o embrión no humano

Un complejo de ribonucleoproteína de RGN purificado o ensambladoin vitropuede introducirse en una célula, orgánulo o embrión no humano usando cualquier método conocido en la técnica, incluyendo, pero sin limitación, electroporación. Como alternativa, un polipéptido y/o polinucleótido de RGN que codifica o comprende el ARN guía puede introducirse en una célula, orgánulo o embrión no humano usando cualquier método conocido en la técnica (por ejemplo, electroporación).

Tras el suministro o el contacto con la secuencia diana o célula, orgánulo o embrión no humano que comprende la secuencia diana, el ARN guía dirige la RGN para que se una a la secuencia diana de una manera específica de secuencia. En aquellas realizaciones en donde la RGN tiene actividad nucleasa, el polipéptido de RGN escinde la secuencia diana de interés tras la unión. La secuencia diana puede modificarse posteriormente a través de mecanismos de reparación endógenos, tal como la unión de extremos no homólogos o la reparación dirigida por homología con un polinucleótido donante proporcionado.

Los métodos para medir la unión de un polipéptido de RGN a una secuencia diana se conocen en la técnica e incluyen ensayos de inmunoprecipitación de cromatina, ensayos de cambio de movilidad en gel, ensayos desplegables de ADN, ensayos de indicadores, ensayos de captura y detección en microplacas. Asimismo, los métodos para medir la escisión o modificación de una secuencia diana son conocidos en la técnica e incluyen ensayos de escisiónin vitrooin vivoen donde la escisión se confirma usando PCR, secuenciación o electroforesis en gel, con o sin la fijación de un marcador adecuado (por ejemplo, radioisótopo, sustancia fluorescente) a la secuencia diana para facilitar la detección de productos de degradación. Como alternativa, puede usarse el ensayo de reacción de amplificación exponencial desencadenada por mellas (NTEXPAR) (véase, por ejemplo, Zhanget al.(2016)Chem. Sci.7:4951-4957). La escisiónin vivopuede evaluarse usando el ensayo Surveyor (Guschinet al.(2010)Methods Mol Biol649:247-256).

En algunas realizaciones, los métodos implican el uso de un único tipo de RGN complejada con más de un ARN guía. El más de un ARN guía puede dirigirse a diferentes regiones de un único gen o puede dirigirse a múltiples genes.

En aquellas realizaciones en donde no se proporciona un polinucleótido donante, una rotura bicatenaria introducida por un polipéptido de RGN puede repararse mediante un proceso de reparación de unión de extremos no homólogos (NHEJ). Debido a la naturaleza propensa a errores de la NHEJ, la reparación de la rotura bicatenaria puede dar como resultado una modificación de la secuencia diana. Como se usa en el presente documento, una "modificación" en referencia a una molécula de ácido nucleico se refiere a un cambio en la secuencia de nucleótidos de la molécula de ácido nucleico, que puede ser una supresión, inserción o sustitución de uno o más nucleótidos, o una combinación de los mismos. La modificación de la secuencia diana puede dar como resultado la expresión de un producto proteico alterado o la inactivación de una secuencia codificante.

En aquellas realizaciones en donde hay presente un polinucleótido donante, la secuencia donante en el polinucleótido donante puede integrarse o intercambiarse con la secuencia de nucleótidos diana durante el curso de la reparación de la rotura bicatenaria introducida, dando como resultado la introducción de la secuencia donante exógena. Un polinucleótido donante comprende, por lo tanto, una secuencia donante que se desea introducir en una secuencia diana de interés. En algunas realizaciones, la secuencia donante altera la secuencia de nucleótidos diana original de manera que la secuencia donante recién integrada no será reconocida y escindida por la RGN. La integración de la secuencia donante puede potenciarse mediante la inclusión dentro del polinucleótido donante de secuencias flanqueantes que tengan una identidad de secuencia sustancial con las secuencias que flanquean la secuencia de nucleótidos diana, permitiendo un proceso de reparación dirigido por homología. En aquellas realizaciones en donde el polipéptido de RGN introduce roturas escalonadas bicatenarias, el polinucleótido donante puede comprender una secuencia donante flanqueada por salientes compatibles, permitiendo la ligadura directa de la secuencia donante a la secuencia de nucleótidos diana escindida que comprende salientes mediante un proceso de reparación no homólogo durante la reparación de la rotura bicatenaria.

En aquellas realizaciones en donde el método implica el uso de una RGN que es una nicasa (es decir, sólo es capaz de escindir una única cadena de un polinucleótido bicatenario), el método puede comprender introducir dos nicasas de RGN que se dirigen a secuencias diana idénticas o superpuestas y escinden diferentes cadenas del polinucleótido. Por ejemplo, puede introducirse una nicasa de RGN que sólo escinda la cadena positiva (+) de un polinucleótido bicatenario junto con una segunda nicasa de RGN que sólo escinda la cadena negativa (-) de un polinucleótido bicatenario.

En diversas realizaciones, se posibilita un método para unir una secuencia de nucleótidos diana y detectar la secuencia diana, en donde el método comprende introducir en una célula, orgánulo o embrión no humano al menos un ARN guía o un polinucleótido que codifica el mismo, y al menos un polipéptido de RGN o un polinucleótido que codifica el mismo, que expresa el ARN guía y/o el polipéptido de RGN (si se introducen secuencias codificantes), en donde el polipéptido de RGN es una RGN de nucleasa-muerta y comprende además un marcador detectable, y el método comprende además detectar el marcador detectable. El marcador detectable puede fusionarse con la RGN como una proteína de fusión (por ejemplo, proteína fluorescente) o puede ser una molécula pequeña conjugada con o incorporada dentro del polipéptido el polipéptido de RGN que puede detectarse visualmente o por otros medios.

En el presente documento también se posibilitan métodos para modular la expresión de una secuencia diana o un gen de interés bajo la regulación de una secuencia diana. Los métodos comprenden introducir en una célula, orgánulo o embrión no humano al menos un ARN guía o un polinucleótido que codifica el mismo, y al menos un polipéptido de RGN o un polinucleótido que codifica el mismo, que expresa el ARN guía y/o el polipéptido de RGN (si se introducen secuencias codificantes), en donde el polipéptido de RGN es una RGN de nucleasa-muerta. En algunas de estas realizaciones, la RGN de nucleasa-muerta es una proteína de fusión que comprende un dominio modulador de la expresión (es decir, dominio de modificación epigenética, dominio de activación transcripcional o un dominio represor transcripcional) como se describe en el presente documento.

La presente divulgación también posibilita métodos para unir y/o modificar una secuencia de nucleótidos diana de interés. Los métodos incluyen suministrar un sistema que comprende al menos un ARN guía o un polinucleótido que codifica el mismo, y al menos un polipéptido de fusión comprende una RGN de la invención y un polipéptido de edición de bases, por ejemplo, una citidina desaminasa o una adenosina desaminasa, o un polinucleótido que codifica el polipéptido de fusión, a la secuencia diana o a una célula, orgánulo o embrión no humano que comprende la secuencia diana.

Un experto en la materia apreciará que cualquiera de los métodos divulgados en el presente documento puede usarse para dirigirse a una única secuencia diana o múltiples secuencias diana. Por lo tanto, los métodos comprenden el uso de un único polipéptido de RGN en combinación con múltiples ARN guía distintos, que pueden dirigirse a múltiples secuencias distintas dentro de un único gen y/o múltiples genes. En el presente documento también se incluyen métodos en donde se introducen múltiples a Rn guía distintos en combinación con múltiples polipéptidos de RGN distintos. Estos ARN guía y sistemas de polipéptido de ARN guía/RGN pueden dirigirse a múltiples secuencias distintas dentro de un único gen y/o múltiples genes.

En un aspecto, la invención posibilita kits que contienen uno cualquiera o más de los elementos divulgados en los métodos y composiciones anteriores. En algunas realizaciones, el kit comprende un sistema vector e instrucciones para usar el kit. En algunas realizaciones, el sistema vector comprende (a) un primer elemento regulador unido operativamente a una secuencia de pareja de tracr y uno o más sitios de inserción para insertar una secuencia guía en dirección 5' de la secuencia de pareja de tracr, en donde cuando se expresa, la secuencia guía dirige la unión específica de secuencia de un complejo de CRISPR a una secuencia diana en una célula eucariota, en donde el complejo de CRISPR comprende una enzima de CRISPR complejada con (1) la secuencia guía que se hibrida con la secuencia diana, y (2) la secuencia de pareja de tracr que se hibrida con la secuencia de tracr; y/o (b) un segundo elemento regulador unido operativamente a una secuencia codificante de enzima que codifica dicha enzima de CRISPR que comprende una secuencia de localización nuclear. Los elementos pueden proporcionarse individualmente o en combinaciones, y pueden proporcionarse en cualquier recipiente adecuado, tal como un vial, un frasco o un tubo.

En algunas realizaciones, el kit incluye instrucciones en uno o más idiomas. En algunas realizaciones, un kit comprende uno o más reactivos para su uso en un proceso que utiliza uno o más de los elementos descritos en el presente documento. Los reactivos pueden proporcionarse en cualquier recipiente adecuado. Por ejemplo, un kit puede proporcionar uno o más tampones de reacción o almacenamiento. Los reactivos pueden proporcionarse en una forma que sea utilizable en un ensayo particular, o en una forma que requiera la adición de uno o más otros componentes antes de su uso (por ejemplo, en forma concentrada o liofilizada). Un tampón puede ser cualquier tampón, incluyendo, pero sin limitación, un tampón de carbonato de sodio, un tampón de bicarbonato de sodio, un tampón de borato, un tampón de Tris, un tampón de MOPS, un tampón de HEPES y combinaciones de los mismos. En algunas realizaciones, el tampón es alcalino. En algunas realizaciones, el tampón tiene un pH de aproximadamente 7 a aproximadamente 10.

En algunas realizaciones, el kit comprende uno o más oligonucleótidos que corresponden a una secuencia guía para su inserción en un vector para unir operativamente la secuencia guía y un elemento regulador. En algunas realizaciones, el kit comprende un polinucleótido molde de recombinación homóloga. En un aspecto, la invención posibilita métodos para usar uno o más elementos de un sistema CRISPR. El complejo de CRISPR que comprende una RGN de acuerdo con aspectos de la invención proporciona un medio eficaz para modificar un polinucleótido diana. El complejo de CRISPR tiene una amplia diversidad de utilidades, incluyendo la modificación (por ejemplo, supresión, inserción, translocación, inactivación, activación) de un polinucleótido diana en una multiplicidad de tipos celulares. Como tal, el complejo de CRISPR tiene un amplio espectro de aplicaciones en, por ejemplo, genoterapia, cribado de fármacos, diagnóstico de enfermedades y pronóstico. Un complejo de CRISPR de ejemplo comprende una enzima de CRISPR complejada con una secuencia guía hibridada con una secuencia diana dentro del polinucleótido diana.

VIII. Polinucleótidos diana

De acuerdo con los aspectos de la invención, la invención proporciona métodosin vitrode modificación de un polinucleótido diana en una célula eucariota. En algunas realizaciones, el método comprende muestrear una célula o población de células de un animal humano o no humano o planta (incluyendo microalgas) y modificar la célula o células. El cultivo puede tener lugar en cualquier faseex vivo.La célula o células pueden incluso reintroducirse en el animal no humano o planta (incluyendo microalgas).

Usando la variabilidad natural, los fitomejoradores combinan los genes más útiles para obtener cualidades deseables, tales como rendimiento, calidad, uniformidad, rusticidad y resistencia contra plagas. Estas cualidades deseables también incluyen crecimiento, preferencias de duración del día, requisitos de temperatura, fecha de inicio del desarrollo floral o reproductivo, contenido de ácidos grasos, resistencia a insectos, resistencia a enfermedades, resistencia a nematodos, resistencia a hongos, resistencia a herbicidas, tolerancia a diversos factores ambientales, incluyendo sequía, calor, humedad, frío, viento y condiciones adversas del suelo, incluyendo salinidad alta. Las fuentes de estos genes útiles incluyen variedades nativas o extranjeras, variedades de reliquia, parientes de plantas silvestres y mutaciones inducidas, por ejemplo, tratar material vegetal con agentes mutagénicos. Mediante el uso de la presente invención, se proporciona a los fitomejoradores una nueva herramienta para inducir mutaciones. En consecuencia, un experto en la materia puede analizar el genoma en busca de fuentes de genes útiles y, en variedades que tienen características o rasgos deseados, emplear la presente invención para inducir el aumento de genes útiles, con más precisión que los agentes mutagénicos anteriores y, por lo tanto, acelerar y mejorar los programas de fitomejoramiento.

El polinucleótido diana de un sistema de RGN puede ser cualquier polinucleótido endógeno o exógeno a la célula eucariota. Por ejemplo, el polinucleótido diana puede ser un polinucleótido que reside en el núcleo de la célula eucariota. El polinucleótido diana puede ser una secuencia que codifica un producto génico (por ejemplo, una proteína) o una secuencia no codificante (por ejemplo, un polinucleótido regulador o un ADN basura). Sin desear quedar ligados a teoría alguna, se cree que la secuencia diana debe asociarse a un PAM (motivo adyacente al protoespaciador); es decir, una secuencia corta reconocida por el complejo de CRISPR. La secuencia precisa y los requisitos de longitud para el PAM difieren dependiendo de la enzima de CRISPR utilizada, pero los PAM son normalmente secuencias de 2-5 pares de bases adyacentes al protoespaciador (es decir, la secuencia diana).

El polinucleótido diana de un complejo de CRISPR puede incluir una serie de genes y polinucleótidos asociados a enfermedades, así como genes y polinucleótidos asociados a vías bioquímicas de señalización. Los ejemplos de polinucleótidos diana incluyen una secuencia asociada a una vía bioquímica de señalización, por ejemplo, un gen o polinucleótido asociado a vías bioquímicas de señalización. Los ejemplos de polinucleótidos diana incluyen un gen o polinucleótido asociado a enfermedad. Un gen o polinucleótido "asociado a una enfermedad" se refiere a cualquier gen o polinucleótido que produce productos de transcripción o traducción a un nivel anormal o en una forma anormal en células derivadas de tejidos afectados por una enfermedad en comparación con tejidos o células de un control no afectado por la enfermedad. Puede ser un gen que se expresa en un nivel anormalmente alto; puede ser un gen que se expresa en un nivel anormalmente bajo, donde la expresión alterada se correlaciona con la aparición y/o la progresión de la enfermedad. Un gen asociado a una enfermedad también se refiere a un gen que posee una o más mutaciones o variación genética que es directamente responsable o está en desequilibrio de unión con un gen o genes que son responsables de la etiología de una enfermedad (por ejemplo, una mutación causal). Los productos transcritos o traducidos pueden ser conocidos o desconocidos, y además pueden estar a un nivel normal o anormal. Existen ejemplos de genes y polinucleótidos asociados a enfermedad disponibles en el McKusick-Nathans Institute of Genetic Medicine, Universidad Johns Hopkins (Baltimore, Maryland) y en el National Center for Biotechnology Information, National Library of Medicine (Bethesda, Md.), disponible en Internet.

Aunque los sistemas CRISPR son particularmente útiles por su relativa facilidad para dirigirse a secuencias genómicas de interés, aún queda un problema de lo que puede hacer la RGN para abordar una mutación causal. Un enfoque es producir una proteína de fusión entre una<r>G<n>(preferentemente una variante inactiva o nicasa de la RGN) y una enzima de edición de bases o el dominio activo de una enzima de edición de bases, tal como una citidina desaminasa o un editor de bases de adenosina desaminasa (Patente de los EE. UU. N.° 9.840.699). En algunas realizaciones, los métodos comprenden poner en contacto una molécula de ADN con (a) una proteína de fusión que comprende una RGN de acuerdo con aspectos de la invención y un polipéptido de edición de bases tal como una desaminasa; y (b) un ARNg que dirige la proteína de fusión de (a) a una secuencia de nucleótidos diana de la cadena de ADN; en donde la molécula de ADN se pone en contacto con la proteína de fusión y el ARNg en una cantidad eficaz y en condiciones adecuadas para la desaminación de una base de nucleótido. En algunas realizaciones, la secuencia de ADN diana comprende una secuencia asociada a una enfermedad o trastorno, y en donde la desaminación de la base de nucleótido da como resultado una secuencia que no se asocia a una enfermedad o trastorno. En algunas realizaciones, la secuencia de ADN diana reside en un alelo de una planta de cultivo, en donde el alelo particular del rasgo de interés da como resultado una planta de menor valor agronómico. La desaminación de la base de nucleótido da como resultado un alelo que mejora el rasgo y aumenta el valor agronómico de la planta.

En algunas realizaciones, la secuencia de ADN comprende una mutación puntual T ^ C o A^-G asociada a una enfermedad o trastorno, y en donde la desaminación de la base C o G mutante da como resultado una secuencia que no se asocia a una enfermedad o trastorno. En algunas realizaciones, la desaminación corrige una mutación puntual en la secuencia asociada a la enfermedad o trastorno.

En algunas realizaciones, la secuencia asociada a la enfermedad o trastorno codifica una proteína, y en donde la desaminación introduce un codón de parada en la secuencia asociada a la enfermedad o trastorno, dando como resultado un truncamiento de la proteína codificada. En algunas realizaciones, el contacto se realizain vivoen un sujeto susceptible de tener, que tiene o que se ha diagnosticado que tiene la enfermedad o trastorno. En algunas realizaciones, la enfermedad o trastorno es una enfermedad asociada a una mutación puntual, o una mutación de base única, en el genoma. En algunas realizaciones, la enfermedad es una enfermedad genética, un cáncer, una enfermedad metabólica o una enfermedad de almacenamiento lisosómico.

Otros ejemplos de locus que son causales para determinadas enfermedades genéticas, particularmente locus que pueden ser fácilmente dirigidos por RGN o proteínas de fusión editoras de bases de RGN de los aspectos de la invención, pueden encontrarse en el Ejemplo 9 y la Tabla 12 correspondientes.

Síndrome de Hurler

Un ejemplo de una enfermedad heredada genéticamente que podría corregirse usando un enfoque que se basa en una proteína de fusión editora de bases de RGN de acuerdo con aspectos de la invención es el síndrome de Hurler. El síndrome de Hurler, también conocido como MPS-1, es el resultado de una deficiencia de a-L-iduronidasa (IDUA) que da como resultado una enfermedad de almacenamiento lisosómico caracterizada a nivel molecular por la acumulación de dermatán sulfato y heparán sulfato en los lisosomas. Esta enfermedad es generalmente un trastorno genético hereditario provocado por mutaciones en el gen IDUA que codifica la a-L-iduronidasa. Las mutaciones de IDUA comunes son W402X y Q70X, ambas mutaciones sin sentido dan como resultado una terminación prematura de la traducción. Dichas mutaciones se abordan bien mediante enfoques de edición precisa del genoma (PGE), puesto que la reversión de un único nucleótido, por ejemplo, mediante un enfoque de edición de bases, restauraría la secuencia codificante de tipo silvestre y daría como resultado una expresión de proteína controlada por los mecanismos reguladores endógenos del locus genético. Adicionalmente, puesto que se sabe que los heterocigotos son asintomáticos, una terapia de PGE que se dirija a una de estas mutaciones sería útil para una gran proporción de pacientes con esta enfermedad, ya que sólo es necesario corregir uno de los alelos mutados (Bungeet al.(1994)Hum. Mol. Genet.3(6): 861-866).

Los tratamientos actuales para el síndrome de Hurler incluyen terapia de reemplazo enzimático y trasplantes de médula ósea (Vellodiet al.(1997)Arch. Dis. Child.76(2): 92-99; Peterset al.(1998)Blood91(7): 2601-2608). Aunque la terapia de reemplazo enzimático ha tenido un efecto drástico en la supervivencia y la calidad de vida de los pacientes con síndrome de Hurler, este enfoque requiere infusiones semanales caras y que consumen mucho tiempo. Los enfoques adicionales incluyen el suministro del gen IDUA en un vector de expresión o la inserción del gen en un locus altamente expresado, tal como el de la albúmina sérica (Patente de los EE. UU. N.° 9.956.247). Sin embargo, estos enfoques no restauran el locus de IDUA original a la secuencia codificante correcta. Una estrategia de edición genómica tendría una serie de ventajas, más notablemente que la regulación de la expresión génica estaría controlada por los mecanismos naturales presentes en individuos sanos. Adicionalmente, el uso de la edición de bases no requiere provocar roturas de a Dn bicatenarias, lo que podría conducir a grandes reordenamientos cromosómicos, muerte celular u oncogeneidad por la interrupción de los mecanismos de supresión tumoral. En el Ejemplo 10 se proporciona la descripción de un método para corregir la mutación causal de esta enfermedad. Los métodos descritos son un ejemplo de una estrategia general dirigida hacia el uso de proteínas de fusión editoras de bases de RGN de acuerdo con aspectos de la invención para dirigirse y corregir determinadas mutaciones causantes de enfermedades en el genoma humano. Se apreciará que también pueden perseguirse enfoques similares para enfermedades diana tales como las descritas en la Tabla 12. Se apreciará además que también pueden implementarse enfoques similares para dirigirse a mutaciones causantes de enfermedades en otras especies, en particular mascotas domésticas o ganado comunes, usando las RGN de acuerdo con aspectos de la invención. Las mascotas domésticas y el ganado comunes incluyen perros, gatos, caballos, cerdos, vacas, ovejas, pollos, burros, serpientes, hurones, pescado, incluyendo el salmón, y gambas.

Ataxia de Friedreich

Las RGN de acuerdo con aspectos de la invención también podrían ser útiles en enfoques terapéuticos humanos donde la mutación causal es más complicada. Por ejemplo, algunas enfermedades tales como la ataxia de Friedreich y la enfermedad de Huntington son el resultado de un aumento significativo en las repeticiones de un motivo de tres nucleótidos en una región particular de un gen, que afecta a la capacidad de la proteína expresada para actuar o expresarse. La ataxia de Friedreich (FRDA) es una enfermedad autosómica recesiva que da como resultado una degeneración progresiva del tejido nervioso en la médula espinal. Los niveles reducidos de la proteína frataxina (FXN) en las mitocondrias provocan daños oxidativos y deficiencias de hierro a nivel celular. La expresión reducida de FXN se ha relacionado con una expansión de triplete de GAA dentro del intrón 1 del gen de FXN somático y de estirpe germinal. En pacientes con FRDA, la repetición de GAA consiste frecuentemente en más de 70, en ocasiones incluso más de 1000 (más habitualmente 600-900) tripletes, mientras que los individuos no afectados tienen aproximadamente 40 repeticiones o menos (Pandolfoet al.(2012)Handbook of Clinical Neurology103: 275-294; Campuzanoet al.(1996)Science271: 1423-1427; Pandolfo (2002) Adv.Exp. Med. Biol.516: 99-118).

La expansión de la secuencia de repetición de trinucleótidos que provoca la ataxia de Friedreich (FRDA) se produce en un locus genético definido dentro del gen FXN, denominado región de inestabilidad de FRDA. Las nucleasas guiadas por ARN (RGN) pueden usarse para extirpar la región de inestabilidad en células de paciente con FRDA. Este enfoque requiere 1) una RGN y una secuencia de ARN guía que puede programarse para dirigirse al alelo en el genoma humano; y 2) un enfoque de suministro para la RGN y la secuencia guía. Muchas nucleasas utilizadas para la edición del genoma, tales como la nucleasa Cas9 habitualmente utilizada de S.pyogenes(SpCas9), son demasiado grandes para empaquetarse en vectores víricos adenoasociados (AAV), especialmente cuando se considera la longitud del gen SpCas9 y el ARN guía además de otros elementos genéticos requeridos para casetes de expresión funcional. Esto hace que un enfoque que usa SpCas9 sea más difícil.

Las nucleasas guiadas por ARN compactas de acuerdo con aspectos de la invención, en particular, APG07433.1 y APG08290.1, son especialmente adecuadas para la escisión de la región de inestabilidad de FRDA. Cada RGN tiene un requisito de PAM que está en las proximidades de la región de inestabilidad de FRDA. Adicionalmente, cada una de estas RGN puede empaquetarse en un vector de AAV junto con un ARN guía. El empaquetamiento de dos ARN guía probablemente requeriría un segundo vector, pero este enfoque aún se compara favorablemente con lo que se requeriría de una nucleasa más grande como SpCas9, que puede requerir dividir la secuencia de proteína entre dos vectores. En el Ejemplo 11 se proporciona la descripción de un método para corregir la mutación causal de esta enfermedad. Los métodos descritos abarcan una estrategia que usa RGN de la invención en la que se elimina una región de inestabilidad genómica. Una estrategia de este tipo es aplicable a otras enfermedades y trastornos que tienen una base genética similar, tales como la enfermedad de Huntington. También pueden ser aplicables estrategias similares que usan RGN de acuerdo con aspectos de la invención a enfermedades y trastornos similares en animales no humanos de importancia agronómica o económica, incluyendo perros, gatos, caballos, cerdos, vacas, ovejas, pollos, burros, serpientes, hurones, pescado, incluyendo el salmón, y gambas.

Hemoglobinopatías

Las RGN de acuerdo con aspectos de la invención también podrían introducir mutaciones disruptivas que pueden dar como resultado un efecto beneficioso. Los defectos genéticos en los genes que codifican la hemoglobina, particularmente la cadena de globina beta (el gen HBB), pueden ser responsables de una serie de enfermedades conocidas como hemoglobinopatías, incluyendo la anemia drepanocítica y las talasemias.

En seres humanos adultos, la hemoglobina es un heterotetrámero que comprende dos cadenas de globina similares a alfa (a) y dos cadenas de globina similares a beta (p) y 4 grupos hemo. En adultos, el tetrámero a2p2 se denomina hemoglobina A (HbA) o hemoglobina adulta. Normalmente, las cadenas de globina alfa y beta se sintetizan en una relación aproximada de 1:1 y esta relación parece ser crítica en términos de estabilización de hemoglobina y glóbulos rojos (GR). En un feto en desarrollo, se produce una forma diferente de hemoglobina, la hemoglobina fetal (HbF), que tiene una mayor afinidad de unión por el oxígeno que la Hemoglobina A, de manera que el oxígeno pueda suministrarse al sistema del bebé a través del torrente sanguíneo de la madre. La hemoglobina fetal también contiene dos cadenas de globina a, pero en lugar de las cadenas de globina p adultas, tiene dos cadenas de globina gamma (y) fetal (es decir, la hemoglobina fetal es a2y2). La regulación del cambio de producción de globina gamma a globina beta es bastante compleja, e implica principalmente una regulación negativa de la transcripción de globina gamma con una regulación positiva simultánea de la transcripción de globina beta. Aproximadamente a las 30 semanas de gestación, la síntesis de globina gamma en el feto comienza a disminuir mientras que la producción de globina beta aumenta. Aproximadamente a los 10 meses de edad, la hemoglobina del recién nacido es casi toda a2p2, aunque algo de HbF persiste hasta la edad adulta (aproximadamente el 1-3 % de la hemoglobina total). En la mayoría de los pacientes con hemoglobinopatías, los genes que codifican la globina gamma permanecen presentes, pero la expresión es relativamente baja debido a la represión génica normal que se produce alrededor del parto como se ha descrito anteriormente.

La enfermedad de células falciformes está provocada por una mutación V6E en el gen de la globina p (HBB) (un GAG a GTG a nivel de ADN), donde la hemoglobina resultante se denomina "hemoglobinas" o "HbS". En condiciones de oxígeno más bajas, las moléculas de HbS se agregan y forman precipitados fibrosos. Estos agregados provocan la anomalía o "drepanocitosis" de los GR, dando como resultado una pérdida de flexibilidad de las células. Los GR drepanocíticos ya no pueden comprimirse en los lechos capilares y pueden provocar una crisis vasooclusiva en pacientes con drepanocitos. Además, los GR drepanocíticos son más frágiles que los glóbulos rojos normales y tienden a la hemólisis, conduciendo en última instancia a la anemia en el paciente.

El tratamiento y manejo de pacientes con drepanocitos es una propuesta de por vida que implica el tratamiento con antibióticos, el manejo del dolor y transfusiones durante episodios agudos. Un enfoque es el uso de hidroxiurea, que ejerce sus efectos en parte aumentando la producción de globina gamma. Los efectos secundarios a largo plazo de la terapia crónica con hidroxiurea aún se desconocen, sin embargo, el tratamiento produce efectos secundarios no deseados y puede tener una eficacia variable de un paciente a otro. A pesar de un aumento en la eficacia de los tratamientos de drepanocitos, la esperanza de vida de los pacientes sigue siendo sólo de mediados a finales de los 50 años y las morbilidades asociadas de la enfermedad tienen un impacto profundo en la calidad de vida del paciente.

Las talasemias (talasemias alfa y talasemias beta) también son enfermedades relacionadas con la hemoglobina y normalmente implican una expresión reducida de cadenas de globina. Esto puede ocurrir a través de mutaciones en las regiones reguladoras de los genes o a partir de una mutación en una secuencia codificante de globina que da como resultado una expresión reducida o niveles reducidos o proteína globina funcional. El tratamiento de las talasemias por lo general implica transfusiones de sangre y terapia de quelación de hierro. También se están usando trasplantes de médula ósea para el tratamiento de personas con talasemias graves si puede identificarse un donante adecuado, pero este procedimiento puede tener riesgos significativos.

Un enfoque que se ha propuesto para el tratamiento tanto de la anemia drepanocítica como de la beta talasemia es aumentar la expresión de globina gamma de manera que la HbF reemplace funcionalmente la hemoglobina adulta aberrante como se ha mencionado anteriormente, se cree que el tratamiento de pacientes que padecen anemia drepanocítica con hidroxiurea es exitoso en parte debido a su efecto sobre el aumento de la expresión de globina gamma (DeSimone (1982)Proc Nat'l Acad Sci USA79(14):4428-31; Ley,et al.,(1982)N. Engl. J. Medicine,307: 1469 1475; Ley,et al.,(1983)Blood62: 370-380; Constantoulakiset al.,(1988)Blood72(6):1961-1967). El aumento de la expresión de HbF implica la identificación de genes cuyos productos desempeñan una función en la regulación de la expresión de globina gamma. Un gen de este tipo es BCL11A. BCL11A codifica una proteína con dedos de cinc que se expresa en células precursoras eritroides adultas y la regulación negativa de su expresión conduce a un aumento en la expresión de globina gamma (Sankaranet al.(2008)Science322: 1839). Se ha propuesto el uso de un ARN inhibidor dirigido al gen BCL11A (por ejemplo, Publicación de Patente de los E<e>. UU. N.° 2011/0182867) pero esta tecnología tiene varios inconvenientes potenciales, incluyendo que es posible que no se logre una inactivación completa, el suministro de dichos ARN puede ser problemático, y los ARN deben estar presentes de forma continua, lo que requiere múltiples tratamientos de por vida.

Las RGN de acuerdo con aspectos de la invención pueden usarse para dirigirse a la región potenciadora de BCL11A para interrumpir la expresión de BCL11A, aumentando de este modo la expresión de globina gamma. Esta interrupción dirigida puede lograrse mediante la unión de extremos no homólogos (NHEJ), por lo que una RGN de la invención se dirige a una secuencia particular dentro de la región potenciadora de BCL11A, hace una rotura bicatenaria y la maquinaria de la célula repara la rotura, normalmente introduciendo simultáneamente mutaciones perjudiciales. De manera similar a lo que se describe para otras dianas de enfermedad, las RGN de la invención tienen ventajas sobre otras RGN conocidas debido a su tamaño relativamente pequeño, que permite empaquetar casetes de expresión para la RGN y su ARN guía en un único vector de AAV para el suministroin vivo.En el Ejemplo 12 se proporciona una descripción de este método. También pueden ser aplicables estrategias similares que usan las RGN de la invención a enfermedades y trastornos similares tanto en seres humanos como en animales no humanos de importancia agronómica o económica.

IX. Células que comprenden una modificación genética de polinucleótidos

Se posibilitan células y organismos que comprenden una secuencia diana de interés que se ha modificado usando un proceso mediado por una RGN, ARNcr y/o ARNcrtra como se describe en el presente documento. La RGN comprende la secuencia de aminoácidos de las SEQ ID NO: 11 o 27, o una variante activa o fragmento de la misma, de acuerdo con aspectos de la invención. En diversas realizaciones, el ARN guía comprende una secuencia de repetición de CRISPR que comprende la secuencia de nucleótidos de las SEQ ID NO: 2, 12, 20, 28, 37, 46 o 55, o una variante activa o fragmento de la misma. En realizaciones particulares, el ARN guía comprende un ARNcrtra que comprende la secuencia de nucleótidos de las SEQ ID NO: 3, 13, 21, 29, 38, 47 o 56, o una variante activa o fragmento de la misma. El ARN guía del sistema puede ser un ARN guía único o un ARN guía doble.

Las células modificadas pueden ser eucariotas (por ejemplo, célula de mamífero, planta, insecto) o procariotas. También se posibilitan orgánulos y embriones no humanos que comprenden al menos una secuencia de nucleótidos que se ha modificado mediante un proceso que utiliza una<r>G<n>, ARNcr y/o ARNcrtra como se describe en el presente documento. Las células, los organismos, los orgánulos y los embriones no humanos modificados genéticamente pueden ser heterocigotos u homocigotos para la secuencia de nucleótidos modificada.

La modificación cromosómica de la célula, el organismo, el orgánulo o el embrión no humano puede dar como resultado la expresión alterada (regulación positiva o regulación negativa), la inactivación o la expresión de un producto proteico alterado o una secuencia integrada. En aquellos casos en donde la modificación cromosómica da como resultado la inactivación de un gen o la expresión de un producto proteico no funcional, la célula, el organismo, el orgánulo o el embrión no humano modificados genéticamente se denominan "inactivados". El fenotipo de inactivación puede ser el resultado de una mutación de supresión (es decir, supresión de al menos un nucleótido), una mutación de inserción (es decir, insertar el ion de al menos un nucleótido) o una mutación sin sentido (es decir, sustitución de al menos un nucleótido de manera que se introduzca un codón de parada).

Como alternativa, la modificación cromosómica de una célula, organismo, orgánulo o embrión no humano puede producir una "inactivación", que es resultado de la integración cromosómica de una secuencia de nucleótidos que codifica una proteína. En algunos de estos ejemplos, la secuencia codificante se integra en el cromosoma de manera que la secuencia cromosómica que codifica la proteína de tipo silvestre se inactiva, pero la proteína introducida exógenamente se expresa.

En otros ejemplos, la modificación cromosómica da como resultado la producción de un producto proteico variante. El producto proteico variante expresado puede tener al menos una sustitución de aminoácido y/o la adición o supresión de al menos un aminoácido. El producto proteico variante codificado por la secuencia cromosómica alterada puede presentar características o actividades modificadas en comparación con la proteína de tipo silvestre, incluyendo, pero sin limitación, actividad enzimática alterada o especificidad de sustrato.

En otros ejemplos más, la modificación cromosómica puede dar como resultado un patrón de expresión alterado de una proteína. Como ejemplo no limitante, las alteraciones cromosómicas en las regiones reguladoras que controlan la expresión de un producto proteico pueden dar como resultado la sobreexpresión o regulación negativa del producto proteico o un patrón de expresión tisular o temporal alterado.

Los artículos "un" y "una" se usan en el presente documento para referirse a uno o más de uno (es decir, a al menos uno) del objeto gramatical del artículo. A modo de ejemplo, "un polipéptido" significa uno o más polipéptidos.

Todas las publicaciones y solicitudes de patente mencionadas en la memoria descriptiva son indicativas del nivel de los expertos en la materia a la que pertenece esta divulgación.

Aunque la invención anterior se ha descrito con cierto detalle a modo de ilustración y ejemplo con fines de claridad de comprensión, será obvio que pueden ponerse en práctica determinados cambios y modificaciones dentro del alcance de las reivindicaciones adjuntas.

Los siguientes ejemplos se ofrecen a modo de ilustración y no a modo de limitación.

PARTE EXPERIMENTAL

Ejemplo 1. Identificación de la nucleasa guiada por ARN

Se identificaron siete nucleasas guiadas por ARN (RGN) distintas asociadas a CRISPR y se describen en la Tabla 1 a continuación. La Tabla 1 proporciona el nombre de cada RGN, su secuencia de aminoácidos, la fuente de la que se derivó y secuencias de ARNcr y ARNcrtra procesadas. La Tabla 1 proporciona además una secuencia de ARN guía único (ARNgu) genérica, donde la poli-N indica la ubicación de la secuencia espaciadora que determina la secuencia diana de ácido nucleico del ARNgu. Los sistemas de RGN sistemas de APG APG05083.1, APG07433.1, APG08290.1 y APG08290.1 tenían una secuencia conservada en la base del tallo de horquilla del ARNcrtra, UNANNG (SEQ ID NO: 68). Para el sistema AP05459.1, la secuencia en la misma ubicación es UNANNU (SEQ ID NO: 557). Para los sistemas APG04583.1 y APG01688.1, la secuencia es UNANNA (SEQ ID NO: 558).

Tabla 1: Resumen de SEQ ID sistemas asociados a CRISPR

Ejemplo 2: Guía de identificación de ARN y construcción de ARNgu

Los cultivos de bacterias que expresaban de forma nativa el sistema de nucleasa guiada por ARN en investigación se cultivaron hasta la fase logarítmica media (DO600 de ~ 0,600), se sedimentaron y se congelaron instantáneamente. El ARN se aisló de los sedimentos usando un kit de aislamiento de miARN mirVANA (Life Technologies, Carlsbad, CA) y se prepararon bibliotecas de secuenciación a partir del ARN aislado usando un kit de preparación de bibliotecas de ARN pequeño NEBNext (NEB,

Beverly, MA). La preparación de bibliotecas se fraccionó en un gel de poliacrilamida al 6 % en fracciones de 2 tamaños correspondientes a especies de ARN de 18-65 nt y 90-200 nt para detectar ARNcr y ARNcrtra, respectivamente. Se realizó una secuenciación profunda (extremo emparejado de 40 pb para la fracción más pequeña y extremo emparejado de 80 pb para la fracción más grande) en un kit Next Seq 500 (High Output) por un proveedor de servicios (MoGene, St. Louis, MO). Las lecturas se recortaron en calidad usando Cutadapt y se mapearon a genomas de referencia usando Bowtie2. Se escribió un sistema de líneas canalizadas de RNAseq personalizado en python para detectar las transcripciones de ARNcr y ARNcrtra. Los límites del ARNcr procesado se determinaron mediante la cobertura de secuencia de la matriz de espaciadores de repetición nativa. La porción anti-repetición del ARNcrtra se identificó usando parámetros de BLASTn permisivos. La profundidad de la secuenciación de ARN confirmó los límites del ARNcrtra procesado al identificar la transcripción que contenía la anti-repetición. La curación manual de los ARN se realizó usando la predicción de estructura secundaria de NUPACK, un software de plegamiento de ARN. Se prepararon casetes de ARNgu mediante síntesis de ADN y generalmente se diseñaron de la siguiente manera (5'->3'): secuencia espaciadora de 20-30 pb -- porción de repetición procesada del ARNcr -- enlazador no complementario de 4 pb (AAAG; SEQ ID NO: 63) --ARNcrtra procesado. También pueden usarse otros enlazadores no complementarios de 4 pb, por ejemplo, GAAA (SEQ ID NO: 64) o ACUU (SEQ ID No : 65). En algunos casos, puede usarse un enlazador de nucleótidos de 6 pb, por ejemplo, CAAAGG (SEQ ID NO: 66). Para ensayosin vitro,se sintetizaron ARNgu por transcripciónin vitrode los casetes de ARNgu con un kit de síntesis de ARNg de precisión GeneArt™ (ThermoFisher). Las secuencias de ARNcr y ARNcrtra procesadas para cada uno de los polipéptidos de RGN se identifican y se exponen en la Tabla 1. Véanse a continuación los ARNgu construidos para las bibliotecas de PAM 1 y 2.

Ejemplo 3: Determinación de requisitos de PAM para cada RGN

Los requisitos de PAM para cada RGN se determinaron usando un ensayo de agotamiento de PAM esencialmente adaptado de Kleinstiveret al.(2015)Nature523:481-485 y Zetscheet al.(2015)Cell163:759-771. Brevemente, se generaron dos bibliotecas de plásmidos (L1 y L2) en una cadena principal de pUC18 (ampR), conteniendo, cada una, una secuencia protoespaciadora (diana) de 30 pb distinta flanqueada por 8 nucleótidos aleatorios (es decir, la región de PAM). La secuencia diana y la región deA<m>flanqueante de la biblioteca 1 y la biblioteca 2 para cada RGN se exponen en la Tabla 2.

Las bibliotecas se electroporaron por separado en células de E.coliBL21(DE3) que albergaban vectores de expresión de pRSF-1b que contenían una RGN de la invención (codones optimizados para E.coli)junto con un ARNgu afín que contenía una secuencia espaciadora correspondiente al protoespaciador en L1 o L2. Se usó suficiente plásmido de biblioteca en la reacción de transformación para obtener >10A6 ufc. Tanto la RGN como el ARNgu en la cadena principal de pRSF-1b estaban bajo el control de los promotores T7. Se permitió que la reacción de transformación se recuperase durante 1 h, después de lo cual se diluyó en medio LB que contenía carbenicilina y kanamicina y se cultivó durante la noche. Al día siguiente, la mezcla se diluyó en medio Overnight Express™ Instant TB Medium (Millipore Sigma) autoinductor para permitir la expresión de la r Gn y ARNgu, y se cultivó durante 4 h o 20 h adicionales, después de lo cual las células se centrifugaron y el ADN plasmídico se aisló con un kit Mini-prep (Qiagen, Germantown, MD). En presencia del ARNgu adecuado, los plásmidos que contienen un PAM que es reconocible por la RGN se escindirán dando como resultado su eliminación de la población. Los plásmidos que contienen PAM que no son reconocibles por la RGN o que se transforman en bacterias que no contienen un ARNgu adecuado, sobrevivirán y se replicarán. Las regiones de PAM y protoespaciadoras de plásmidos no escindidos se amplificaron por PCR y se prepararon para la secuenciación siguiendo los protocolos publicados (guía de preparación de biblioteca metagenómica 16s 15044223B, Illumina, San Diego, CA). Se realizó secuenciación profunda (lecturas de extremo único de 80 pb) en un MiSeq (Illumina) por un proveedor de servicios (MoGene, St. Louis, MO). Normalmente, se obtuvieron 1-4 M de lecturas por amplicón. se extrajeron regiones de PAM, se contaron y se normalizaron a las lecturas totales para cada muestra. Los PAM que conducen a la escisión del plásmido se identificaron por estar infrarrepresentados en comparación con los controles (es decir, cuando la biblioteca se transforma en E.colique contiene la RGN pero que carece de un ARNgu adecuado). Para representar los requisitos de PAM para una RGN novedosa, las relaciones de agotamiento (frecuencia en la muestra/frecuencia en el control) para todas las secuencias en la región en cuestión se convirtieron en valores de enriquecimiento con una transformación -log base 2. Se definieron suficientes PAM como aquellos con valores de enriquecimiento >2,3 (que correspondían a relaciones de agotamiento < ~ 0,2). Los PAM por encima de este umbral en ambas bibliotecas se recogieron y se usaron para generar logotipos web, que, por ejemplo, puede generarse usando un servicio basado en web en Internet conocido como "weblogo". Las secuencias deA<m>se identificaron y se informaron cuando hubo un patrón coherente en los PAM enriquecidos superiores. En la Tabla 2 se proporciona un PAM (que tenía un factor de enriquecimiento (EF) >2,3) para cada RGN. Para algunas RGN, también se identificaron PAM de ejemplo no limitantes (que tenían un EF>3,3). Para APG005083.1, el PAM ilustrativo es NNRNCC (SEQ ID NO: 69). Para APG007433.1, el PAM ilustrativo es NNNNCCR (SEQ ID NO: 70). Para APG007513.1, el PAM ilustrativo es NNRNCC (SEQ ID NO: 71). Para APG001688.1, el PAM ilustrativo es NNRANC (SEQ ID NO: 72).

Tabla 2: Determinación de PAM

Ejemplo 4: Determinación de escisión

Los sitios de escisión se determinaron a partir de reacciones de escisiónin vitrousando RNP (ribonucleoproteínas). Los plásmidos de expresión que contenían una RGN fusionada a un marcador de His6 o His 10 se construyeron y transformaron en cepas de BL21 (DE3) deE. coli.La expresión se realizó usando medios autoinductores o con inducción de IPTG. Después de la lisis y la el aclaramiento, las proteínas se purificaron mediante cromatografía de afinidad de metal inmovilizado.

Los complejos de ribonucleoproteína (que comprenden nucleasa y un ARNgu o un dúplex de ARNcr y ARNcrtra) se formaron mediante la incubación de la nucleasa y el ARN en una solución tamponada durante 20 min a temperatura ambiente. El complejo se transfirió a un tubo que contenía tampón de digestión y una diana amplificada por PCR, denominado "Secuencia 1". La Secuencia 1 comprendía una secuencia de nucleótidos (SEQ ID NO: 73) unida directamente en su extremo 3' a la secuencia de PAM correspondiente para cada RGN. Cada RGN como un complejo de ribonucleoproteína se incubó con su polinucleótido diana respectivo a 25 °C (APG04583.1) o 37 °C (todos los demás) durante 30 min o 60 min (APG05459.1 y APG01688.1 únicamente). La reacción de digestión se inactivó por calor y se ejecutó en un gel de agarosa. Las bandas de producto de escisión se extrajeron y se secuenciaron usando secuenciación de Sanger. Los sitios de escisión se identificaron alineando los resultados de secuenciación con la secuencia esperada del producto de PCR. Los resultados se muestran en la Tabla 3. Como se muestra en la tabla 3, La RGN APG007433.1 también puede producir un corte romo con una secuencia diana diferente.

El sitio de escisión para la Secuencia 2 (SEQ ID NO: 559, fusionada operativamente en su extremo 3' a una secuencia de PAM para RGN APG0733.1) se determinó mediante el siguiente enfoque para la nucleasa APG07433.1. Después de la digestión, los productos de ADN purificados en gel se trataron con un kit de reparación de extremos de ADN (Thermo Scientific K0771), se ligaron en un vector romo linealizado y el ADN circular resultante se transformó en células competentes deE. coli.Un corte escalonado con un saliente en 5' daría como resultado la detección de secuencias superpuestas en los clones de ambos productos de escisión. Un saliente en 3' daría como resultado una secuencia faltante, y un corte romo daría como resultado que se detectase toda la secuencia original sin superposición. Este experimento también verificó el hallazgo del método descrito anteriormente para la secuencia 1: se detectó que la mayoría de los clones se habían originado a partir de un corte con una superposición en 5', por lo que no se espera que el hallazgo de un corte romo sea un artefacto de la utilización de este método.

Tabla 3: Sitios de escisión de RGN

Ejemplo 5: Ensayo de sensibilidad de emparejamiento erróneo

Los plásmidos se diseñaron y se obtuvieron con una secuencia diana (SEQ ID NO: 73) inmediatamente en 5' a un motivo PAM adecuado para la nucleasa que se está evaluando. También se generaron secuencias de emparejamiento erróneo único con una secuencia alterada en la posición indicada (Tabla 4). Se formaron complejos de RNP de nucleasa purificada (APG08290.1 o APG05459.1) y ARN guía y se incubaron con ADN lineal amplificado por PCR de los plásmidos diseñados. Después de la incubación durante un período de tiempo designado y la inactivación de la nucleasa, las muestras se analizaron mediante electroforesis en gel de agarosa para determinar la fracción restante del producto de PCR lineal. El porcentaje de la banda intacta escindida se muestra en la Tabla 5 para los emparejamientos erróneos en cada posición.

Tabla 4: Secuencias sometidas a ensayo para el ensayo de sensibilidad de emparejamiento erróneo para

APG08290.1 APG05459.1

Tabla : n i ili m r mi n rr n r R N AP 2 .1 R N AP 459.1

Se realizó un experimento de sensibilidad de emparejamiento erróneo similar para RGN APG07433.1. Este experimento fue similar al descrito anteriormente, excepto por que la base alternativa se introdujo en la guía de ARN en lugar de la diana de ADN. Las secuencias de ADN para la síntesis de ARNgu con emparejamiento erróneo se muestran en la Tabla 6. Los resultados del ensayo de sensibilidad de emparejamiento erróneo se muestran en la Tabla 7.

Tabla 6: Secuencias sometidas a ensayo para el ensayo de sensibilidad de emparejamiento erróneo para RGN

APG07433.1

continuación

Tabla 7: n i ili m r mi n rr n r R N AP 07433.1

Las RGN APG07433.1 y APG08290.1 muestran una sensibilidad significativa a los emparejamientos erróneos en las posiciones 1-10 en 5' del PAM con unas pocas excepciones (Tabla 5 y Tabla 7). RGN APG05459.1 también es sensible a emparejamientos erróneos en esta región, pero su capacidad para escindir ADNbc también está fuertemente anulada por emparejamientos erróneos distantes del sitio de PAM (Tabla 5). El número total de sitios con una influencia significativa sobre si se produce o no la escisión es de al menos 15 posiciones en la secuencia espaciadora. Esto se compara favorablemente con otras herramientas de edición del genoma, tales como la nucleasa Cas9 bien estudiada de S.pyogenes,que es generalmente sensible a entre 10-13 pares de bases (Hsuet al., Nat Biotechnol(2013) 31(9): 827-832). Adicionalmente, muchos de los sitios críticos que anulan la escisión mediada por RGN APG05459.1 están muy lejos de la secuencia de PAM, notablemente en el intervalo de 13-20 pb, donde muchas otras nucleasas muestran poca o ninguna sensibilidad a los emparejamientos erróneos. Esta propiedad podría ser extraordinariamente útil para el direccionamiento a locus genéticos que tienen una similitud de secuencia cercana a otros sitios en el organismo de interés.

Ejemplo 6: Demostración de actividad de edición génica en células de mamífero

Se produjeron casetes de expresión de RGN y se introdujeron en vectores para la expresión en mamíferos. Se optimizaron los codones de cada RGN para la expresión humana (SEQ ID NO 127-133) y se fusionó operativamente en el extremo 5' a una secuencia de localización nuclear de SV40 (NLS; SEQ ID NO 134) y a marcadores 3xFLAG (SEQ ID NO: 135), y se fusionaron operativamente en el extremo 3' a secuencias de NLS de nucleoplasmina (SEQ ID NO: 136). Cada casete de expresión estaba bajo el control de un promotor de citomegalovirus (CMV) (SEQ ID NO: 137). Se sabe en la técnica que el potenciador de la transcripción de CMV (SEQ ID NO: 138) también puede incluirse en construcciones que comprenden el promotor de CMV. Se produjeron construcciones de expresión de ARN guía que codificaban un ARNg único, cada una bajo el control de un promotor U6 de ARN polimerasa III humana (SEQ ID N<o>. 139) y se introdujeron en el vector pTwist High Copy Amp. Las secuencias para las secuencias diana para cada guía están en la Tabla 9.

Las construcciones descritas anteriormente se introdujeron en células de mamífero. Un día antes de la transfección, se sembraron 1*105 células HEK293T/pocillo (Sigma) en placas de 24 pocillos en medio Eagle modificado de Dulbecco (DMEM) más suero bovino fetal al 10%(vol/vol) (Gibco) y penicilina-estreptomicina al 1%(Gibco). Al día siguiente, cuando las células estaban al 50-60 % de confluencia, se cotransfectaron 500 ng de un plásmido de expresión de RGN más 500 ng de un plásmido de expresión de ARNg usando 1,5 j l de Lipofectamine 3000 (Thermo Scientific) por pocillo, siguiendo las instrucciones del fabricante. Después de 48 horas de crecimiento, el ADN genómico total se recogió usando un kit de aislamiento de ADN genómico (Machery-Nagel) de acuerdo con las instrucciones del fabricante.

Después, el ADN genómico total se analizó para determinar la tasa de edición para cada RGN para cada diana genómica. En primer lugar, se produjeron oligonucleótidos para su uso para la amplificación porC<r>y el posterior análisis del sitio diana genómico amplificado. Las secuencias de oligonucleótidos utilizadas se enumeran en las Tablas 8.1 a 8.5.

Todas las reacciones de PCR se realizaron usando 10 j l de ADN polimerasa Master Mix Phusion High-Fidelity 2X (Thermo Scientific) en una reacción de 20 j l que incluía 0,5 jM de cada cebador. Se amplificaron primero regiones genómicas grandes que abarcaban cada gen diana usando cebadores de PCR N.° 1, usando un programa de: 98 °C, 1 min; 30 ciclos de [98 °C., 10 s; 62 °C, 15 s; 72 °C, 5 min]; 72 °C, 5 min; 12 °C, para siempre. Después, se amplificó adicionalmente un microlitro de esta reacción de PCR usando cebadores específicos para cada guía (cebadores de PCR N.° 2), usando un programa de: 98 °C, 1 min; 35 ciclos de [98 °C., 10 s; 67 °C, 15 s; 72 °C, 30 s]; 72 °C, 5 min; 12 °C, para siempre. Los cebadores para la PCR N.° 2 incluyen las secuencias salientes del adaptador de transposasa de Lectura 1 y Lectura 2 de Nextera para la secuenciación de Illumina.

Tabla 8.1: Oligon mífero, PCR N.° 1

Tabla 8.2: Oligonucleótidos para la detección de actividad de edición génica en células de mamífero, PCR N.° 2 para

APG05083.1 APG07433.1 APG07513.1 APG08290.1

Tabla 8.3: Oligonucleótidos para la detección de actividad de edición génica en células de mamífero, PCR N.° 2 para

APG005459.1

continuación

Tabla 8.4: Oligonucleótidos para la detección de actividad de edición génica en células de mamífero, PCR N.° 2 para

APG004583.1

Tabla 8.5: Oligonucleótidos para la detección de actividad de edición génica en células de mamífero, PCR N.° 2 para

APG01988.1

El ADN genómico purificado se sometió a PCR N.° 1 y PCR N.° 2 como anteriormente. Después de la segunda amplificación porC<r>, el ADN se limpió usando un kit de limpieza por PCR (Zymo) de acuerdo con las instrucciones del fabricante y se eluyó en agua. Se combinaron 200-500 ng de producto de PCR N.° 2 purificado con 2 pl de tampón 2 de NEB 10X y agua en una reacción de 20 pl y se hibridaron para formar ADN heterodúplex usando un programa de: 95 °C, 5 min; 95-85 °C, enfriado a una velocidad de 2 °C/s; 85-25 °C, enfriado a una velocidad de 0. 1 °c /s.; 12 °C, para siempre. Después de la hibridación, se retiraron 5 pl de ADN como control sin enzima, y se añadió 1 pl de endonucleasa I de T7 (NEB) y la reacción se incubó a 37 °C durante 1 h. Después de la incubación, se añadió el colorante de carga FlashGel 5x (Lonza) y se analizaron 5 j l de cada reacción y los controles mediante un FlashGel de agarosa al 2,2 % (Lonza) usando electroforesis en gel. Después de la visualización del gel, el porcentaje de unión de extremos no homólogos (NHEJ) se determinó usando la siguiente ecuación: % de eventos de NHEJ = 100 * [1-(1-fracción escindida)A(1^)], donde (fracción escindida) se define como: (densidad de productos digeridos)/(densidad de productos digeridos banda parental no digerida).

Para algunas muestras, se usó SURVEYOR® para analizar los resultados después de la expresión en células de mamífero. Las células se incubaron a 37 °C durante 72 h después de la transfección antes de la extracción de ADN genómico. El ADN genómico se extrajo usando la solución de extracción de ADN QuickExtract (Epicentre) siguiendo el protocolo del fabricante. La región genómica que flanquea el sitio diana de RGN se amplificó por PCR y los productos se purificaron usando una columna de centrifugación QiaQuick (Qiagen) siguiendo el protocolo del fabricante. Se mezclaron 200-500 ng en total de los productos de PCR purificados con 1 j l de tampón de PCR de ADN polimerasa Taq 10* (Enzymatics) y agua ultrapura hasta un volumen final de 10 jl, y se sometieron a un proceso de reasociación para permitir la formación de heterodúplex: 95 °C durante 10 min, 95 °C a 85 °C rampa a -2 °C/s, 85 °C a 25 °C a -0,25 °C/s, y 25 °C mantenido durante 1 min.

Después de la hibridación, los productos se trataron con nucleasa SURVEYOR® y potenciador S SURVEYOR® (Integrated DNA Technologies) siguiendo el protocolo recomendado por el fabricante y se analizaron en geles de poliacrilamida Novex TBE al 4-20 % (Life Technologies). Los geles se tiñeron con tinción de ADN SYBR Gold (Life Technologies) durante 10 min y se tomaron imágenes con un sistema de formación de imágenes en gel Gel Doc (Biorad). La cuantificación se basó en intensidades de banda relativas. El porcentaje de Indel se determinó mediante la fórmula, 100*(1-(1-(b+c)/(a+b+c))A^), donde a es la intensidad integrada del producto de PCR no digerido, y b y c son las intensidades integradas de cada producto de escisión.

Adicionalmente, los productos de la PCR N.° 2 que contenían secuencias salientes de Illumina se sometieron a la preparación de la biblioteca siguiendo el protocolo de la biblioteca de secuenciación metagenómica 16S de Illumina. Se realizó secuenciación profunda en una plataforma Illumina Mi-Seq por un proveedor de servicios (MOGene). Normalmente, se generan 200.000 de lecturas de extremo emparejado de 250 pb (2 * 100.000 lecturas) por amplicón. Las lecturas se analizaron usando CRISPResso (Pinello,et al.2016Nature Biotech,34:695-697) para calcular las tasas de edición. Se seleccionaron manualmente alineaciones de salida para confirmar los sitios de inserción y supresión, así como para identificar los sitios de microhomología en los sitios de recombinación. Las tasas de edición se muestran en la Tabla 9. Todos los experimentos se realizaron en células humanas. La "secuencia diana" es la secuencia dirigida dentro del gen diana. Para cada secuencia diana, el ARN guía comprendía la secuencia diana de ARN complementaria y el ARNgu adecuado dependiendo de la RGN utilizada. En las Tablas 10.1-10.9 se muestra un desglose seleccionado de experimentos por ARN guía.

T l : T n r l i i n

continuación

Las inserciones y supresiones específicas para las respectivas guías se muestran en las Tablas 10.1-10.7. En estas tablas, la secuencia diana se identifica con letras mayúsculas en negrita. Las regiones de PAM de 8 monómeros están subrayadas doblemente, con los nucleótidos principales reconocidos en negrita. Las inserciones se identifican con letras minúsculas. Las supresiones se indican con guiones (—). La ubicación de INDEL se calcula a partir del borde proximal de PAM de la secuencia diana, siendo el borde la ubicación 0. La ubicación es positiva (+) si la ubicación está en el lado diana del borde; la ubicación es negativa (-) si la ubicación está en el lado de PAM del borde.

��

�� Ejemplo 7: Demostración de actividad de edición génica en células vegetales

La actividad nucleasa guiada por ARN de las RGN de la invención se demuestra en células vegetales usando protocolos adaptados de Li,et al.(2013)Nat. Biotech.31:688-691. Brevemente, se clonan versiones con codones optimizados de cada RGN (SEQ ID NO: 169-182) que contienen una señal de localización nuclear de SV40 N-terminal detrás del promotor 35S constitutivo fuerte en un vector de transformación transitoria. Los ARNgu que se dirigen a uno o más sitios en el gen de PDS vegetal que flanquean una secuencia de PAM adecuada se clonan detrás de un promotor U6 vegetal en un segundo vector de expresión transitorio. Los vectores de expresión se introducen en protoplastos de mesófilo deNicotiana benthamianausando transformación mediada por PEG. Los protoplastos transformados se incuban en la oscuridad durante hasta 36 h. El ADN genómico se aísla de los protoplastos usando un mini kit DNeasy Plant (Qiagen). La región genómica que flanquea el sitio diana de RGN se amplifica por PCR y los productos se purifican usando una columna de centrifugación QiaQuick (Qiagen) siguiendo el protocolo del fabricante. Se mezclan 200-500 ng en total de los productos de PCR purificados con 1 pl de tampón de PCR de ADN polimerasa Taq 10* (Enzymatics) y agua ultrapura hasta un volumen final de 10 pl, y se someten a un proceso de reasociación para permitir la formación de heterodúplex: 95 °C durante 10 min, 95 °C a 85 °C rampa a -2 °C/s, 85 °C a 25 °C a -0,25 °C/s, y 25 °C se mantienen durante 1 min. Después de la hibridación, los productos se tratan con nucleasa SURVEYOR y potenciador S SURVEYOR (Integrated DNA Technologies) siguiendo el protocolo recomendado por el fabricante y se analizaron en geles de poliacrilamida Novex TBE al 4-20 % (Life Technologies). Los geles se tiñen con tinción de ADN SYBR Gold (Life Technologies) durante 10 min y se toman imágenes con un sistema de formación de imágenes en gel Gel Doc (Bio-rad). La cuantificación se basa en intensidades de banda relativas. El porcentaje de Indel se determina por la fórmula, 100*(1-(1-(b+c)/(a+b+c))1^), donde a es la intensidad integrada del producto de PCR no digerido, y b y c son las intensidades integradas de cada producto de escisión.

Como alternativa, los productos de PCR derivados de la secuencia genómica dirigida pueden someterse a una PCR similar a la descrita en el Ejemplo 6, para que los productos de PCR contengan secuencias salientes de Illumina y puedan experimentar preparación de bibliotecas y secuenciación profunda. Este método permite la determinación de las tasas de edición como se muestra en la Tabla 9.

Ejemplo 8: Guía de compatibilidad cruzada

Para determinar la compatibilidad cruzada de los ARN guía entre las RGN, se realizó un experimento de interferencia de dos plásmidos (Esveltet al.(2013),Nat. Methods10(11): 1116-21). El primer plásmido contenía la RGN con varias dianas que contenían PAM definidos en una cadena principal resistente a la kanamicina. Estos plásmidos se transformaron enE. coliBL21, y las cepas transformadas se hicieron químicamente competentes. Después, se introdujo un segundo plásmido que contenía un ARN guía en una cadena principal de resistencia a ampicilina. Las células se sembraron en medios que contenían ambos antibióticos. Si una RGN puede usar la guía en el segundo plásmido, el plásmido de resistencia a la kanamicina se escinde y linealiza, dando como resultado poca o ninguna formación de colonias. Si una RGN no puede usar la guía en el segundo plásmido, el plásmido de resistencia a la kanamicina no se escinde, dando como resultado niveles altos de formación de colonias. También se incluyeron ARN guía para Cas9 deStreptococcus pyogenes(SpyCas9) y Cas9 deStaphylococcus aureus(SauCas9) para determinar la compatibilidad cruzada con esos ARN guía.

Para calcular el porcentaje de agotamiento, el número de colonias para cada transformación guía se compara con la eficiencia de transformación usando un control positivo. Basándose en esta comparación, si una RGN puede usar una guía, el porcentaje de agotamiento debe ser 0, ya que ninguna colonia puede sobrevivir. Si una RGN no puede usar una guía, el porcentaje de agotamiento debe ser 1 ya que todos los plásmidos permanecen intactos. Los resultados se muestran en la Tabla 11 a continuación. "sg" indica el ARN guía para la RGN citada.

Tabla 11: Ensa o de com atibilidad cruzada

________

Como indica la Tabla 11, existen cuatro grupos de sistemas ortogonales. Las RGN pueden reconocer guías de otros sistemas en sus grupos, pero no puede usar guías de otros grupos. El primer grupo contiene APG05083.1, APG07433.1, APG07513.1 y APG08290.1. El segundo grupo contiene SpyCas9 y APG05459.1. El tercer grupo contiene APG04583.1 y APG01688.1. El cuarto grupo contiene SauCas9.

Ejemplo 9: Identificación de dianas de enfermedad

Se obtuvo una base de datos de variantes clínicas de la base de datos NCBI ClinVar, que está disponible a través de Internet en el sitio web de NCBI ClinVar. Se identificaron polimorfismos de nucleótido único (SNP) patógenos a partir de esta lista. Usando la información del locus genómico, se identificaron dianas de CRISPR en la región que se superponen y rodean cada SNP. En la Tabla 12 se enumera una selección de SNP que pueden corregirse usando la edición de bases en combinación con las RGN de la invención para dirigirse a la mutación causal. En la Tabla 12, sólo se enumera un alias de cada enfermedad. El "N.° de RS" corresponde al número de acceso de RS a través de la base de datos de SNP en el sitio web de NCBI. El ID de alelo corresponde a un número de acceso de alelo causal y el número de acceso de cromosoma también proporciona información de referencia de acceso encontrada a través del sitio web de NCBI. La Tabla 12 también proporciona información de secuencia diana genómica adecuada para la RGN enumerada para cada enfermedad. La información de secuencia diana también proporciona una secuencia protoespaciadora para la producción del ARNgu necesario para la RGN correspondiente de la invención.

60

Ejemplo 10: Mutaciones de direccionamiento responsables del síndrome de Hurler

A continuación se describe un tratamiento potencial para el síndrome de Hurler, también denominado MPS-1, usando un sistema de edición de bases dirigido por ARN que corrige una mutación responsable del síndrome de Hurler en una gran proporción de pacientes con la enfermedad. Este enfoque utiliza una proteína de fusión de edición de bases que está guiada por ARN y que puede empaquetarse en un único vector de AAV para su suministro a una amplia gama de tipos de tejido. Dependiendo de los elementos reguladores exactos y el dominio de editor de bases utilizado, también puede ser posible diseñar un único vector que codifique tanto la proteína de fusión de edición de bases como un ARN guía único para dirigirse al locus enfermo.

Ejemplo 10.1: Identificación de RGN con PAM ideal

La enfermedad genética MPS-1 es una enfermedad de almacenamiento lisosómico caracterizada a nivel molecular por la acumulación de dermatán sulfato y heparán sulfato en los lisosomas. Esta enfermedad es generalmente un trastorno genético hereditario provocado por mutaciones en el gen IDUA (secuencia de referencia NCBI NG_008103.1), que codifica a-L-iduronidasa. La enfermedad es el resultado de una deficiencia de a-L-iduronidasa. Las mutaciones de IDUA más comunes encontradas en estudios de individuos de origen del norte de Europa son W402X y Q70X, ambas mutaciones sin sentido dando como resultado una terminación prematura de la traducción (Bungeet al.(1994),Hum. Mol. Genet,3(6): 861-866). La inversión de un nucleótido único restauraría la secuencia codificante de tipo silvestre y daría como resultado una expresión de proteína controlada por los mecanismos reguladores endógenos del locus genético.

La mutación W402X del gen Idua humano representa una alta proporción de casos de MPS-1H. Los editores de bases pueden dirigirse a una ventana de secuencia estrecha con respecto al sitio de unión del componente protoespaciador del ARN guía y, por lo tanto, la presencia de una secuencia de PAM a una distancia específica del locus diana es esencial para el éxito de la estrategia. Dadas las restricciones de que la mutación diana debe estar en la cadena no diana expuesta (NTS) durante la interacción de la proteína de edición de bases y que la huella del dominio RGN bloqueará el acceso a la región cerca del PAM, se cree que un locus accesible está a 10-30 pb del PAM. Para evitar la edición y mutagénesis de otras bases de adenosina cercanas en esta ventana, se criban diferentes enlazadores. La ventana ideal es de 12-16 pb del PAM.

Una secuencia de PAM compatible con APG07433.1 y APG08290.1 es fácilmente evidente en el locus genético y dentro de la ventana de edición de bases ideal como se ha definido anteriormente. Estas nucleasas tienen una secuencia PAM de NNNNCC (SEQ ID NO: 6) y NNRNCC (SEQ ID NO: 32), respectivamente, y son de tamaño compacto, lo que permite potencialmente el suministro a través de un único vector de AAV. Este enfoque de suministro otorga múltiples ventajas con respecto a otros, como el acceso a una amplia gama de tejidos (hígado, músculo, SNC) y un perfil de seguridad y técnicas de fabricación bien establecidos.

Cas9 de S.pyogenes(SpyCas9) requiere una secuencia de PAM de NGG (SEQ ID NO: 448), que está presente cerca del locus W402X, pero el tamaño de SpyCas9 evita el empaquetamiento de un gen que codifica una proteína de fusión de un dominio de edición de bases y la nucleasa SpyCas9 en un único vector de AAV y, por lo tanto, renuncia a las ventajas mencionadas anteriormente de este enfoque. Incluir una secuencia codificante de ARN guía en este vector sería incluso menos factible, incluso si ha de haber mejoras tecnológicas significativas que reduzcan el tamaño de los elementos reguladores de genes o aumenten los límites de empaquetamiento de los vectores de AAV. Aunque puede emplearse una estrategia de suministro doble (por ejemplo, Ryuet al,(2018),Nat. Biotechnol.,36(6): 536-539), añadiría una complejidad y un coste de fabricación significativos. Adicionalmente, el suministro de vector vírico doble disminuye significativamente la eficiencia de la corrección génica, puesto que una edición exitosa en una célula dada requiere la infección con ambos vectores y el ensamblaje de la proteína de fusión en la célula.

Un ortólogo Cas9 habitualmente utilizado de S.aureus(SauCas9) es considerablemente más pequeño en tamaño con respecto a SpyCas9, pero tiene un requisito de PAM más complejo - NGRRT (SEQ ID NO: 449). Esta secuencia, sin embargo, no está dentro de un intervalo que se espera que sea útil para la edición de bases del locus causante.

Ejemplo 10.2: Construcciones de fusión de RGN y secuencias de ARNgu

Se produce una secuencia de ADN que codifica una proteína de fusión con los siguientes dominios usando técnicas de biología molecular convencionales: 1) un dominio de RGN con mutaciones que inactivan la actividad de escisión de ADN ("muerta" o "nicasa"); 2) una adenosina desaminasa útil para la edición de bases. Todas las construcciones descritas en la tabla a continuación comprenden una proteína de fusión con el dominio activo de edición de bases, en este ejemplo, ADAT (SEQ ID NO: 450) fusionada operativamente al extremo N-terminal de la RGN APG08290.1. Se sabe en la técnica que también podría fabricarse una proteína de fusión con la enzima de edición de bases en el extremo C-terminal de la RGN. Adicionalmente, la RGN y el editor de bases de la proteína de fusión normalmente están separados por una secuencia amino enlazadora. Se sabe en la técnica que las longitudes de los enlazadores convencionales varían entre 15-30 aminoácidos. Además, se sabe en la técnica que determinadas proteínas de fusión entre una RGN y una enzima de edición de bases, por ejemplo, una citidina desaminasa, también pueden comprender al menos un dominio inhibidor de uracil glicosilasa (UGI), lo que puede aumentar la eficiencia de edición de bases (Patente de los EE. UU. N.° 10.167.457). Por lo tanto, una proteína de fusión puede comprender APG08290.1, una enzima modificadora de bases y al menos un UGI.

T l 1 : n r i n r l i i n iri i r ARN

Los sitios de edición accesibles de una RGN están determinados por la secuencia de PAM. Cuando se combina una RGN con un dominio de edición de bases, el resto diana para la edición debe residir en la cadena no diana (NTS), puesto que el NTS es monocatenario mientras que la RGN se asocia al locus. La evaluación de una serie de nucleasas y los correspondientes ARN guía permite la selección de la herramienta de edición génica más adecuada para este locus particular. Varias secuencias de PAM potenciales que pueden ser la diana de las construcciones descritas anteriormente en el gen Idua humano están en la proximidad del nucleótido mutante responsable de la mutación W402X. Una secuencia que codifica un transcrito de ARN guía que contiene 1) un "espaciador" que es complementario a la cadena de ADN no codificante en el locus de enfermedad; y 2) también se produce la secuencia de ARN requerida para la asociación del ARN guía con la RGN. Las secuencias de ARN guía (ARNgu) útiles se muestran en la Tabla 14 a continuación. Estas secuencias de ARN guía pueden evaluarse por su eficacia al dirigir los editores de bases anteriores al locus de interés.

T l 14: n i ARN í

Ejemplo 10.3: Ensayo para determinar la actividad en células de pacientes con enfermedad de Hurler

Para verificar la estrategia de genotipo y evaluar las construcciones descritas anteriormente, se usan fibroblastos de pacientes con enfermedad de Hurler. Se diseña un vector que contiene promotores adecuados en dirección 5' de la secuencia codificante de la proteína de fusión y la secuencia codificante de ARNgu para la expresión de estos en células humanas, similares a los vectores descritos en el Ejemplo 5. Se reconoce que también pueden usarse promotores y otros elementos de ADN (por ejemplo, potenciadores o terminadores) que se conocen por altos niveles de expresión en células humanas o que pueden expresarse específicamente bien en células de fibroblastos. El vector se transfecta en los fibroblastos usando técnicas convencionales, por ejemplo, una transfección similar a la que se describe en el Ejemplo 6. Como alternativa, puede usarse electroporación. Las células se cultivan durante 1 - 3 días. El ADN genómico (ADNg) se aísla usando técnicas convencionales. La eficiencia de edición se determina realizando un ensayo de genotipado por qPCR y/o secuenciación de última generación en el ADNg purificado, como se describe adicionalmente a continuación.

El análisis por qPCR Taqmán™ utiliza sondas específicas para el alelo de tipo silvestre y mutante. Estas sondas portan fluoróforos que se resuelven por sus propiedades de excitación y/o emisión espectrales usando un instrumento de qPCR. Un kit de genotipado que contiene cebadores y sondas de PCR puede obtenerse comercialmente (es decir, ensayo de genotipado de SNP ID C_27862753_10 para SNP ID rs121965019 Thermo Fisher Taqman™) o diseñarse. En la Tabla 15 se muestra un ejemplo de un conjunto de cebador y sonda diseñado.

Tabla 15: Cebadores sondas de RT-PCR

Después del experimento de edición, el ADNg se somete a análisis por qPCR usando métodos convencionales y los cebadores y sondas descritos anteriormente. Los resultados esperados se muestran en la Tabla 16. Este sistemain vitropuede usarse para evaluar convenientemente construcciones y elegir una con alta eficiencia de edición para estudios adicionales. Los sistemas se evaluarán en comparación con células con y sin la mutación W402X, y preferentemente con algunas que son heterocigotas para esta mutación. Los valores de Ct se compararán con un gen de referencia o con la amplificación total del locus usando un colorante tal como verde Sybr.

Tabla 16: Resultados de PCR es erados

Los tejidos también pueden analizarse mediante secuenciación de última generación. Pueden usarse sitios de unión de cebadores tales como los que se muestran a continuación (Tabla 17) u otros sitios de unión de cebadores adecuados que pueden identificarse por un experto en la materia. Después de la amplificación por PCR, los productos que contienen secuencias salientes de Illumina Nextera XT se someten a la preparación de la biblioteca siguiendo el protocolo de la biblioteca de secuenciación metagenómica 16S de Illumina. Se realiza secuenciación profunda en una plataforma Illumina Mi-Seq. Normalmente, se generan 200.000 de lecturas de extremo emparejado de 250 pb (2 * 100.000 lecturas) por amplicón. Las lecturas se analizan usando CRISPResso (Pinelloet al.,2016) para calcular las tasas de edición. Se seleccionan manualmente alineaciones de salida para confirmar los sitios de inserción y supresión, así como para identificar los sitios de microhomología en los sitios de recombinación.

Tabla 17: Sitios de unión de cebadores de NGS

Se realiza transferencia de Western del lisado celular de células transfectadas y células de control usando un anticuerpo anti-IDUA para verificar la expresión de la proteína de longitud completa y un ensayo de actividad enzimática en el lisado celular usando sustrato a-L-idurónido de 4-metilumbeliferilo verifica que la enzima es catalíticamente activa (Hopwoodet al., Clin. Chim. Acta(1979), 92(2): 257-265). Estos experimentos se realizan en comparación con la estirpe celular IduaW402X/W402X original (sin transfección), la estirpe celular IduaW402X/W402X transfectada con la construcción de edición de bases y una secuencia guía aleatoria, y una estirpe celular que expresa IDUA de tipo silvestre.

Ejemplo 10.4: Validación de tratamiento de enfermedad en un modelo murino

Para verificar la eficacia de este enfoque terapéutico, se usa un modelo de ratón con una mutación sin sentido en el aminoácido análogo. La cepa de ratón porta una mutación W392X en su gen Idua (ID del gen: 15932) que corresponde a la mutación homóloga en pacientes con síndrome de Hurler (Bungeet al.,(1994),Hum. Mol. Genet.3(6): 861-866). Este locus comprende una secuencia de nucleótidos distinta con respecto a la de los seres humanos, que carece de la secuencia de PAM necesaria para la corrección con los editores de bases descritos en los ejemplos anteriores y, por lo tanto, requiere el diseño de una proteína de fusión distinta para realizar la corrección de nucleótidos. La mejora de la enfermedad en este animal puede validar el enfoque terapéutico de corregir la mutación en tejidos accesibles por un vector de suministro de genes.

Los ratones homocigotos para esta mutación muestran una serie de características fenotípicas similares a las de los pacientes con síndrome de Hurler. Una proteína de fusión de edición de bases-RGN como se ha descrito anteriormente (Tabla 13) junto con una secuencia guía de ARN se incorporan en un vector de expresión que permite la expresión de proteínas y la transcripción de ARN en ratones. Un diseño de estudio se muestra a continuación en la Tabla 18. El estudio incluye grupos que se tratan con una dosis alta del vector de expresión que comprende la proteína de fusión de edición de bases y la secuencia guía de ARN, una dosis baja del mismo vector de expresión, control que es el ratón modelo tratado con un vector de expresión que no comprende la proteína de fusión de edición de bases o el ARN guía, y un segundo control que es un ratón de tipo silvestre tratado con el mismo vector vacío.

Tab rino

Los criterios de valoración que se han de evaluar incluyen el peso corporal, la excreción de GAG en orina, la actividad enzimática de IDUA sérica, la actividad de IDUA en tejidos de interés, la patología tisular, el genotipado de tejidos de interés para verificar la corrección del SNP y l evaluación conductual y neurológica. Puesto que algunos criterios de valoración son terminales, pueden añadirse grupos adicionales para la evaluación de, por ejemplo, patología tisular y actividades de IDUA tisular antes del final del estudio. Pueden encontrarse ejemplos adicionales de criterios de valoración en artículos publicados que establecen modelos animales del síndrome de Hurler (Shullet al.(1994),Proc. Natl. Acad. Sci. U.S.A.,91(26): 12937-12941; Wanget al.(2010),Mol. Genet. Metab,99(1): 62-71; Hartunget al.(2004),Mol. Ther,9(6): 866-875; Liuet al.(2005),Mol. Ther,11(1): 35-47; Clarkeet al.(1997),Hum. Mol. Genet.

6(4): 503-511).

Un posible vector de suministro utiliza el virus adenoasociado (AAV). Se produce un vector para incluir una secuencia codificante de proteína de fusión de editor de bases-dRGN (por ejemplo, SEQ ID NO: 452) precedida por un potenciador de CMV (SEQ ID NO: 138) y promotor (SEQ ID NO: 137), u otra combinación adecuada de potenciador y promotor), opcionalmente una secuencia de Kozak, y fusionada operativamente en el extremo 3' a una secuencia terminadora y una secuencia de poliadenilación tal como la secuencia mínima descrita en Levitt, N.; Briggs, D.; Gil, A.; Proudfoot, N. J.Definition of an Efficient Synthetic Poly(A) Site. Genes Dev.1989, 3 (7), 1019-1025. El vector puede comprender además un casete de expresión que codifica un ARN guía único unido operativamente en su extremo 5' a un promotor U6 humano (SEQ ID NO: 139), u otro promotor adecuado para la producción de ARN pequeños no codificantes, y que comprende además secuencias de repetición terminales invertidas (ITR) necesarias y bien conocidas en la técnica para empaquetar en la cápside de AAV. La producción y el empaquetamiento víricos se realizan mediante métodos convencionales, tales como los descritos en la Patente de los EE. U. N.° 9.587.250.

Otros posibles vectores víricos incluyen vectores de adenovirus y lentivirus, que se usan habitualmente y contendrían elementos similares, con diferentes capacidades y requisitos de envasado. También pueden usarse métodos de suministro no víricos, tales como ARNm y ARNgu encapsulados por nanopartículas lipídicas (Cullis, P. R. y Allen, T. M. (2013),Adv. Drug Deliv. Rev.65(1): 36-48; Finnet al.(2018),Cell Rep. 22(9):2227-2235) inyección hidrodinámica de ADN plasmídico (Suda T y Liu D, )2007)Mol. Ther. 15(12):2063-2069) o complejos de ribonucleoproteína de ARNgu y asociados a nanopartículas de oro (Lee, K.;Conboy, M.; Park, H. M.; Jiang, F.; Kim, H. J.; Dewitt, M. A.; Mackley, V. A.; Chang, K.; Rao, A.; Skinner, C.; et al. Nanoparticle Delivery of Cas9 Ribonucleoprotein and Donor DNA in Vivo Induces Homology-Directed DNA Repair. Nat. Biomed. Eng.2017, 1 (11), 889-90).

Ejemplo 10.5: Corrección de enfermedad en un modelo murino con un locus humanizado

Para evaluar la eficacia de una construcción de editor de bases idéntica a la que se usaría para la terapia humana, se necesita un modelo de ratón en el que los nucleótidos cerca de W392 se alteren para coincidir con la secuencia en seres humanos alrededor de W402. Esto se puede lograr mediante una diversidad de técnicas, incluyendo el uso de una RGN y un molde de HDR para cortar y reemplazar el locus en embriones de ratón.

Debido al alto grado de conservación de aminoácidos, la mayoría de los nucleótidos en el locus de ratón pueden alterarse a los de la secuencia humana con mutaciones silenciosas como se muestra en la Tabla 19. Los únicos cambios de bases que dan como resultado una secuencia codificante alterada en el genoma de ratón modificado por ingeniería genética resultante se producen después del codón de parada introducido.

T l 1 : M i n n l i r n r r n l r n h m niz

continuación

Tras la ingeniería genética de esta cepa de ratón, se realizarán experimentos similares como se describe en el Ejemplo 10.4.

Ejemplo 11: Mutaciones de direccionamiento responsables de la ataxia de Friedreich

La expansión de la secuencia de repetición de trinucleótidos que provoca la ataxia de Friedreich (FRDA) se produce en un locus genético definido dentro del gen FXN, denominado región de inestabilidad de FRDA. Las nucleasas guiadas por ARN (RGN) pueden usarse para extirpar la región de inestabilidad en células de paciente con FRDA. Este enfoque requiere 1) una RGN y una secuencia de ARN guía que puede programarse para dirigirse al alelo en el genoma humano; y 2) un enfoque de suministro para la RGN y la secuencia guía. Muchas nucleasas utilizadas para la edición del genoma, tales como la nucleasa Cas9 habitualmente utilizada de S.pyogenes(SpCas9), son demasiado grandes para empaquetarse en vectores víricos adenoasociados (AAV), especialmente cuando se considera la longitud del gen SpCas9 y el ARN guía además de otros elementos genéticos requeridos para casetes de expresión funcional. Esto hace que un enfoque viable usando SpCas9 sea poco probable.

Las nucleasas guiadas por ARN compactas de la invención, en particular, APG07433.1 y APG08290.1, son especialmente adecuadas para la escisión de la región de inestabilidad de FRDA. Cada RGN tiene un requisito de PAM que está en las proximidades de la región de inestabilidad de FRDA. Adicionalmente, cada una de estas RGN puede empaquetarse en un vector de AAV junto con un ARN guía. El empaquetamiento de dos ARN guía probablemente requeriría un segundo vector, pero este enfoque aún se compara favorablemente con lo que se requeriría de una nucleasa más grande como SpCas9, lo que requeriría dividir la secuencia de proteína entre dos vectores.

La Tabla 20 muestra la ubicación de secuencias diana genómicas adecuadas para dirigir APG07433.1 o APG08290.1 a los flancos 5' y 3' de la región de inestabilidad de FRDA. Una vez en el locus, la RGN cortaría la región de inestabilidad de FA. La escisión de la región puede verificarse con secuenciación Illumina del locus.

T l 2 : n i i n n mi r i m R N

Ejemplo 12: Mutaciones de direccionamiento responsables de enfermedades drepanocíticas

Las secuencias de direccionamiento dentro de la región potenciadora de BCL11A (SEQ ID NO: 472) pueden proporcionar un mecanismo para aumentar la hemoglobina fetal (HbF) para curar o aliviar los síntomas de las enfermedades drepanocíticas. Por ejemplo, los estudios de asociación de todo el genoma han identificado un conjunto de variaciones genéticas en BCL11A que se asocian a niveles aumentados de HbF. Estas variaciones son una colección de SNP que se encuentran en regiones no codificantes de BCL11A que actúan como una región potenciadora restringida por linaje específica de fase. Una investigación adicional reveló que este potenciador de BCL11A se requiere en las células eritroides para la expresión de BCL11A (Baueret al,(2013)Science343:253-257). La región potenciadora se encontró dentro del intrón 2 del gen BCL11A, y se identificaron tres áreas de hipersensibilidad a DNAseI (con frecuencia indicativas de un estado de cromatina que se asocia al potencial regulador) en el intrón 2. Estas tres áreas se identificaron como "+62", "+58" y "+55" de acuerdo con la distancia en kilobases desde el sitio de inicio de la transcripción de BCL11A. Estas regiones potenciadoras tienen aproximadamente 350 (+55); 550 (+58); y 350 (+62) nucleótidos de longitud (Baueret al.,2013).

Ejemplo 12.1: Identificación de sistemas de RGN preferidos

En el presente documento se describe un tratamiento potencial para las hemoglobinopatías beta usando un sistema de RGN que interrumpe la unión de BCL11A a su sitio de unión dentro del locus de HBB, que es el gen responsable de producir globina beta en la hemoglobina adulta. Este enfoque usa NHEJ que es más eficiente en células de mamífero. Además, este enfoque usa una nucleasa de tamaño suficientemente pequeño que puede empaquetarse en un único vector de AAV para el suministroin vivo.

El motivo potenciador de GATA1 en la región potenciadora de BCL11A humana (SEQ ID NO: 472) es una diana ideal para la interrupción usando nucleasas guiadas por ARN (RGN) para reducir la expresión de BCL11A con reexpresión simultánea de HbF en eritrocitos humanos adultos (Wuet al.(2019)Nat Med387:2554). Varias secuencias de PAM compatibles con APG07433.1 y APG08290.1 son fácilmente evidentes en el locus genético que rodea este sitio GATA1. Estas nucleasas tienen una secuencia de PAM de 5-NNNNCC-3' (SEQ ID NO: 6) y son de tamaño compacto, permitiendo potencialmente su suministro junto con un ARN guía adecuado en un único AAV o vector adenovírico. Este enfoque de suministro otorga múltiples ventajas con respecto a otros, tales como el acceso a células madre hematopoyéticas y un perfil de seguridad y técnicas de fabricación bien establecidos.

La nucleasa Cas9 habitualmente utilizada de S.pyogenes(SpyCas9) requiere una secuencia de PAM de 5-NGG-3', (SEQ ID NO: 448) varias de las cuales están presentes cerca del motivo GATA1. Sin embargo, el tamaño de SpyCas9 evita el empaquetamiento en un único AAV o vector adenovírico y, por lo tanto, renuncia a las ventajas mencionadas anteriormente de este enfoque. Aunque puede emplearse una estrategia de suministro doble, añadiría una complejidad y un coste de fabricación significativos. Adicionalmente, el suministro de vector vírico doble disminuye significativamente la eficiencia de la corrección génica, puesto que una edición exitosa en una célula dada requiere infección con ambos vectores.

Se produce un casete de expresión que codifica APG07433.1 (SEQ ID NO: 128) o APG08290.1 (SEQ ID NO: 130) humana con codones optimizados, similar a los descritos en el Ejemplo 6. También se producen casetes de expresión que expresan ARN guía para las RGN APG07433.1 y APG08290.1. Estos ARN guía comprenden 1) una secuencia protoespaciadora que es complementaria a la cadena de ADN codificante o no codificante dentro del locus potenciador de BCL11A (la secuencia diana) y 2) una secuencia de ARN requerida para la asociación del ARN guía con la RGN (SEQ ID NO. 18 para APG07433.1 y SEQ ID NO: 35 para APG08290.1). Debido a que varias secuencias de PAM potenciales para la direccionamiento por APG07433.1 o APG08290.1 rodean el motivo potenciador GATA1 de BCL11A, se producen varias construcciones de ARN guía potenciales para determinar la mejor secuencia protoespaciadora que produce una escisión robusta y una interrupción mediada por NHEJ de la secuencia potenciadora de GATA1 BCL11A. Las secuencias genómicas diana en la tabla a continuación (Tabla 21) se evalúan para dirigir la RGN a este locus.

Para evaluar la eficiencia con la que APG07433.1 o APG08290.1 genera inserciones o supresiones que interrumpen la región potenciadora de BCL11A, se usan estirpes celulares humanas tales como células de riñón embrionario humano (células HEK). Se produce un vector de ADN que comprende un casete de expresión de RGN (por ejemplo, como se describe en el Ejemplo 6). También se produce un vector separado que comprende un casete de expresión que comprende una secuencia codificante para una secuencia de ARN guía de la Tabla 21. Un casete de expresión de este tipo puede comprender además un promotor U6 de ARN polimerasa III humana (SEQ ID NO: 139), como se describe en el Ejemplo 6. Como alternativa, puede usarse un único vector que comprende casetes de expresión tanto de la RGN como del ARN guía. El vector se introduce en células HEK usando técnicas convencionales tales como las descritas en el Ejemplo 6, y las células se cultivan durante 1-3 días. Después de este período de cultivo, se aísla ADN genómico y se determina la frecuencia de inserciones o supresiones usando digestión con endonucleasa I de T7 y/o secuenciación directa de ADN, como se describe en el Ejemplo 6.

Una región de ADN que abarca la región BCL11A diana se amplifica por PCR con cebadores que contienen secuencias salientes de Illumina Nextera XT. Estos amplicones de PCR se examinan para la formación de NHEJ usando digestión con endonucleasa I de T7, o se someten a preparación de biblioteca siguiendo el protocolo de biblioteca de secuenciación metagenómica 16S de Illumina o una preparación de biblioteca de secuenciación de última generación (NGS) similar. Después de la secuenciación profunda, las lecturas generadas se analizan mediante CRISPResso para calcular tasas de edición. Las alineaciones de salida se seleccionan a mano para confirmar los sitios de inserción y supresión. Este análisis identifica la RGN preferida y el ARN guía preferido correspondiente (ARNgu). El análisis puede dar como resultado que tanto APG07433.1 como APG08290.1 sean igualmente preferidos. Adicionalmente, el análisis puede determinar que hay más de un ARN guía preferido o que todas las secuencias genómicas diana en la Tabla 21 se prefieren igualmente.

Ejemplo 12.2: Ensayo para la expresión de hemoglobina fetal

En este ejemplo, Las inserciones o supresiones generadas por APG07433.1 o APG08290.1 que interrumpen la región potenciadora de BCL11A se someten a ensayo para determinar la expresión de hemoglobina fetal. Se usan células madre hematopoyéticas (HSC) CD34+ de donante humano sano. Estas HSC se cultivan y el vector o vectores que comprenden casetes de expresión que comprenden las regiones codificantes de la RGN preferida y el ARNgu preferido se introducen usando métodos similares a los descritos en el Ejemplo 11.1. Después de la electroporación, estas células se diferencianin vitroen eritrocitos usando protocolos establecidos (por ejemplo, Giarratanaet al.(2004)Nat Biotechnology23:69-74). Después se mide la expresión de HbF usando transferencia Western con un anticuerpo anti-HbF humana, o se cuantifica mediante cromatografía de líquidos de alta resolución (HPLC). Se espera que la interrupción exitosa del locus potenciador de eBCL11A conduzca a un aumento en la producción de HbF en comparación con las HSC electroporadas sólo con la RGN pero no guía.

Ejemplo 12.3: Ensayo para la disminución de la formación de drepanocitos

En este ejemplo, Se someten a ensayo inserciones o supresiones generadas por APG07433.1 o APG08290.1 que interrumpen la región potenciadora de BCL11A para determinar la disminución de la formación de drepanocitos. Se usan células madre hematopoyéticas (HSC) CD34+ donantes de pacientes afectados por la enfermedad drepanocítica. Estas HSC se cultivan y el vector o vectores que comprenden casetes de expresión que comprenden las regiones codificantes de la RGN preferida y el ARNgu preferido se introducen usando métodos similares a los descritos en el Ejemplo 11.1. Después de la electroporación, estas células se diferencianin vitroen eritrocitos usando protocolos establecidos (Giarratanaet al.(2004)Nat Biotechnology23:69-74). Después se mide la expresión de HbF usando transferencia Western con un anticuerpo anti-HbF humana, o se cuantifica mediante cromatografía de líquidos de alta resolución (HPLC). Se espera que la interrupción exitosa del locus potenciador de eBCL11A conduzca a un aumento en la producción de HbF en comparación con las HSC electroporadas sólo con la RGN pero no guía.

La formación de drepanocitos se induce en estos eritrocitos diferenciados mediante la adición de metabisulfito. El número de drepanocitos frente a eritrocitos normales se cuenta usando un microscopio. Se espera que el número de drepanocitos sea menor en las células tratadas con APG07433.1 o APG08290.1 más ARNgu que en las células sin tratar o tratadas sólo con RGN.

Ejemplo 12.4: Validación de tratamiento de enfermedad en un modelo murino

Para evaluar la eficacia de usar la interrupción APG07433.1 o APG08290.1 del locus de BCL11A, se usan modelos de ratón humanizados adecuados de anemia drepanocítica. Los casetes de expresión que codifican la RGN preferida y el ARNgu preferido se empaquetan en vectores de AAV o vectores de adenovirus. En particular, el adenovirus de tipo Ad5/35 es eficaz para dirigirse a las HSC. Se elige un modelo de ratón adecuado que contiene un locus de HBB humanizado con alelos de drepanocitos, tales como B6;FVB-Tg(LCR-HBA2,LCR-HBB*E26K)53Hhb/J o B6.Cg-Hbatm1Paz Hbbtm1TowTg(HBA-HBBs)41Paz/HhbJ. Estos ratones se tratan con factor estimulante de colonias de granulocitos sólo o en combinación con plerixafor para movilizar las HSC a la circulación. Después, los AAV o adenovirus que llevan la RGN y el plásmido guía se inyectan por vía intravenosa, y se permite que los ratones se recuperen durante una semana. La sangre obtenida de estos ratones se analiza en un ensayo de formación de drepanocitosin vitrousando metabisulfito, y los ratones se siguen longitudinalmente para controlar las tasas de mortalidad y la función hematopoyética. Se espera que el tratamiento con AAV o adenovirus que portan una RGN y un ARN guía reduzca la formación de drepanocitos, la mortalidad, y mejore la función hematopoyética en comparación con ratones tratados con virus que carecen de ambos casetes de expresión, o con virus que portan sólo el casete de expresión de RGN.

Claims

REIVINDICACIONES

1. Una molécula de ácido nucleico que comprende un polinucleótido que codifica un polipéptido de nucleasa guiada por ARN (RGN), en donde dicho polinucleótido comprende una secuencia de nucleótidos que codifica un polipéptido de RGN que comprende una secuencia de aminoácidos que tiene al menos un 95 % de identidad de secuencia con las SEQ ID NO: 11 o 27;

2. La molécula de ácido nucleico de la reivindicación 1, en donde dicho polinucleótido que codifica el polipéptido de RGN está unido operativamente a un promotor heterólogo.

3. La molécula de ácido nucleico de las reivindicaciones 1 o 2, en donde dicho polipéptido de RGN es nucleasa muerta o actúa como una nicasa.

4. La molécula de ácido nucleico de una cualquiera de las reivindicaciones 1-3, en donde el polipéptido de RGN está fusionado operativamente con un polipéptido de edición de bases.

5. La molécula de ácido nucleico de la reivindicación 4, en donde el polipéptido de edición de bases es un polipéptido de desaminasa.

6. La molécula de ácido nucleico de una cualquiera de las reivindicaciones 1-5, en donde dicha secuencia de ADN diana se ubica adyacente a un motivo adyacente al protoespaciador (PAM) de NNNNCC (SEQ ID NO: 6) o NNRNCC (SEQ ID NO: 32).

7. Un vector que comprende la molécula de ácido nucleico de una cualquiera de las reivindicaciones 1-6.

8. El vector de la reivindicación 7, en donde dicho vector comprende además al menos una secuencia de nucleótidos que codifica dicho ARN guía, y en donde el ARN guía comprende un ARN de CRISPR que comprende una secuencia de repetición de CRISPR que tiene al menos un 95 % de identidad de secuencia con las SEQ ID NO: 12 o 28.

9. El vector de las reivindicaciones 7 u 8, en donde el ARN guía comprende un ARNcrtra que tiene al menos un 95 % de identidad de secuencia con las SEQ ID NO: 13 o 29.

10. Una célula que comprende la molécula de ácido nucleico de una cualquiera de las reivindicaciones 1-6 o el vector de una cualquiera de las reivindicaciones 7-9.

11. Un polipéptido de nucleasa guiada por ARN (RGN) que comprende una secuencia de aminoácidos que tiene al menos un 95 % de identidad de secuencia con las SEQ ID NO: 11 o 27.

12. El polipéptido de RGN de la reivindicación 11, en donde dicho polipéptido de RGN comprende la secuencia de aminoácidos de la SEQ ID NO: 11 o 27.

13. El polipéptido de RGN de la reivindicación 11, en donde dicho polipéptido de RGN es nucleasa muerta o actúa como una nicasa.

14. El polipéptido de RGN de una cualquiera de las reivindicaciones 11-13, en donde el polipéptido de RGN está fusionado operativamente con un polipéptido de edición de bases.

15. El polipéptido de RGN de la reivindicación 14, en donde el polipéptido de edición de bases es un polipéptido de desaminasa.

16. Un sistema para unir una secuencia de ADN diana, comprendiendo dicho sistema:

(b) el polipéptido de RGN de una cualquiera de las reivindicaciones 11-15 o una secuencia de nucleótidos que codifica el polipéptido de RGN;

en donde dichas secuencias de nucleótidos que codifican el uno o más ARN guía y que codifican el polipéptido de RGN están unidas operativamente cada una a un promotor heterólogo a cada una de dichas secuencias de nucleótidos;

en donde el uno o más ARN guía se hibridan con la secuencia de ADN diana, y

17. El sistema de la reivindicación 16, en donde la secuencia de ADN diana está dentro de una célula eucariota.

18. El sistema de una cualquiera de las reivindicaciones 16-17, en donde dicho sistema comprende además uno o más polinucleótidos donantes o una o más secuencias de nucleótidos que codifican el uno o más polinucleótidos donantes, en donde dichas secuencias de nucleótidos que codifican el uno o más polinucleótidos donantes están unidas operativamente cada una a un promotor heterólogo a cada una de dichas secuencias de nucleótidos.

19. El sistema de una cualquiera de las reivindicaciones 16-18, en donde dicha secuencia de ADN diana se ubica adyacente a un motivo adyacente al protoespaciador (PAM) de NNNNCC (SEQ ID NO: 6) o NNRNCC (SEQ ID NO: 32).

20. El sistema de una cualquiera de las reivindicaciones 16-19 para su uso como medicamento.

21. El sistema de una cualquiera de las reivindicaciones 16-19 para su uso en un método de tratamiento de una enfermedad heredada genéticamente, comprendiendo dicho método suministrar el sistema a dicha secuencia de ADN diana o a una célula que comprende la secuencia de ADN diana.

22. Un métodoin vitropara unir una secuencia de ADN diana que comprende suministrar un sistema de acuerdo con una cualquiera de las reivindicaciones 16-19, a dicha secuencia de ADN diana o a una célula que comprende la secuencia de ADN diana.

23. Un métodoin vitropara escindir y/o modificar una secuencia de ADN diana, que comprende poner en contacto la secuencia de ADN diana con:

(a) el polipéptido de RGN de una cualquiera de las reivindicaciones 11-15; y

en donde el uno o más ARN guía se hibridan con la secuencia de ADN diana, dirigiendo de este modo dicho polipéptido de RGN para que se una a dicha secuencia de ADN diana y se produzca la escisión y/o modificación de dicha secuencia de a Dn diana.

24. El método de la reivindicación 23, en donde dicha secuencia de ADN diana modificada comprende la inserción de ADN heterólogo en la secuencia de ADN diana, o en donde dicha secuencia de ADN diana modificada comprende la supresión de al menos un nucleótido de la secuencia de ADN diana, o en donde dicha secuencia de ADN diana modificada comprende la mutación de al menos un nucleótido en la secuencia de ADN diana.

25. El método de las reivindicaciones 23 o 24, en donde la secuencia de ADN diana está dentro de una célula, tal como una célula eucariota.

26. El método de la reivindicación 25, que comprende además cultivar la célula en condiciones en las que el polipéptido de RGN se expresa y escinde la secuencia de ADN diana para producir una secuencia de ADN modificada; y seleccionar una célula que comprende dicha secuencia de ADN modificada.

27. El método de una cualquiera de las reivindicaciones 23-26, en donde dicha secuencia de ADN diana se ubica adyacente a un motivo adyacente al protoespaciador (PAM) de NNNNCC (SEQ ID NO: 6) o NNRNCC (SEQ ID NO: 32).