附图简述
下面的附图举例说明本发明的实施例,并不意味着限制本发明的范围,本发明的范围是如权利要求所包括的范围。
图1是计算机系统的结构图。
图2是流程图,举例说明方法的一个实施方案,将新的核苷酸或蛋白序列与数据库序列比较以确定新序列与数据库序列之间的同源性水平。
图3是举例说明计算机中方法的一个实施方案的流程图,以鉴定两个序列是否是同源的。
图4是举例说明识别器程序300的一个实施方案的流程图,以检测序列中存在的特征。
图5显示本发明多肽序列的排列。A=SEQ ID NO:4;B=SEQ IDNO:2;C=SEQ ID NO:6;rhod2=SEQ ID NO:40;myco4=SEQ ID NO:42。
图6显示本发明序列(SEQ ID No:9-38和43-48)。
图7显示用本发明的脱卤素酶形成甘油的实例,以及用本发明的脱卤素酶形成1,2-丙二醇或1,3-丙二醇的实例。
图8显示用本发明的脱卤素酶对卤素取代的环烃基的脱卤素作用的实例。
发明详述
本发明涉及卤烷脱卤素酶多肽和编码它们的多核苷酸,以及应用这些多核苷酸和多肽的方法。如这里所使用的,术语“卤烷脱卤素酶”包括具有水解酶活性的酶,例如能够经烷基酶中间体催化卤烷水解的酶。
本发明的多核苷酸已被确定编码具有脱卤素酶活性的多肽,在特定的实施例中编码具有卤烷脱卤素酶活性的多肽。
本发明的脱卤素酶和编码脱卤素酶的多核苷酸被用于许多工艺、方法和组合物中。例如,如上所讨论的,脱卤素酶可以被用来补救脂族有机氯污染的环境,降解除草剂茅草枯,降解卤化有机酸以及土壤和水的补救,并通过降解作用处理土壤和水中的有机酸。而且,本发明的脱卤素酶可以被用来在工业加工、环境和药物中去除杂质。例如,脱卤素酶可以被用来分解各种样本中的卤代链烷酸杂质,包括例如表面活性剂、羧甲基纤维素或巯基乙酸盐。又在另一个方面,本发明的脱卤素酶可通过特异的1,2-二醇或外消旋卤醇的氧化脱卤素作用被用于制造药物、农用化学品和铁电液体。例如,通过用脱卤素酶处理α,β-二卤丙酸(如二氯丙酸),脱卤素酶可被用于合成旋光缩水甘油酸和乳酸(如β卤代乳酸)。本发明的脱卤素酶也可被用于从1,3-二卤代-2-丙醇中产生活性(S)-(+)-3-卤代-1,2-丙二醇或(R)-(-)-3卤代-1,2丙二醇。(S)-(+)-3-卤代-1,2-丙二醇被用作生理和医学治疗和药物的原料。例如,本发明的脱卤素酶可以与三氯丙二醇(TCP)或二氯丙二醇(DCP)在足以进行氧化脱卤素作用的条件和时间下接触,以形成例如甘油(如DCP或TCP到甘油)(例如参见图7)。用本发明的方法和酶可以产生各种二醇。此外,本发明的方法和合成物可被用于卤化的芳香化合物。例如,本发明的组合物可被用来对卤素取代的环烃基脱卤素,如图8所描绘的。环烃基化合物的实例包括环烷基,环烯基,环二烯烃基,环三烯烃基,环炔基,环链二炔,芳香化合物类,螺环烃,其中螺环烃中的两个环由一个两环唯一的共同原子连接(如螺[3,4]辛烷基等),双环烃,其中两个环连接着并至少有两个共同的原子(如双环[3.2.1]辛烷、双环[2.2.1]七-2-烯等),环的集合,其中两个或多个环系统(即单环或融合的系统)直接通过一个或两个键相互连接且这种环连接的数量少于涉及的环系统的数量(如联苯基、联苯烯、游离基或p-三联苯、环己苄基,等),多环类,或类似物。
卤烷脱卤素酶
整体结构
来自自养黄色杆菌的卤烷脱卤素酶由310个氨基酸组成,并包括分子量36,000的单一多肽链。单体的酶是球形的并由两个部分组成。主结构域是具有8股顺序12435678的混合β层的α/β水解酶折叠结构;第2股与其它部分是反平行的。第二个结构域是位于主结构域顶端的α-螺旋帽(Keuning等人,J Bacteriol163(2):635-639,1985)。如这里进一步详细描述的,进行了诱变以修饰酶的活性,例如,通过帽状部分特定残基的突变(Krooshof等人,Biochemistry36(31):9571-9580,1997)。
自养黄色杆菌中酶的活性部位包括3个催化残基(Asp 124,His 289和Asp 260),介于内部疏水空穴中的两个结构域之间。分别位于第5和第8β股后的亲核Asp 124和普通碱性His 289在α/β水解酶家族中是完全保守的,而Asp 260则不是。活性部位是线状的并具有10个疏水残基:4个苯基丙氨酸,2个色氨酸,2个亮氨酸,1个缬氨酸和1个脯氨酸。(Schanstra等人,J Biol Chem271(25):14747-14753,1996)。
在底物的酶水解过程中,卤烷脱卤素酶形成了共价中间体,是通过Asp124的亲核取代形成的,它通过水分子水解,通过His289活化。(Verschueren等人,Nature 363(6431):693-698,1993)。作为脱卤素酶类常见的催化三联体的第三个成员,Asp260的作用通过定点诱变得以研究。Asp260突变为天冬氨酸得到无催化活性的D260N突变体,这表明在野生型酶中三联体酸Asp260对于脱卤素酶活性是必需的。此外,Asp260具有重要的结构作用,这是因为D260N酶主要在表达过程中的内含体中聚积,底物或产物均不能结合进活性部位的空穴中。通过用天冬氨酸或谷氨酸置换Asn148,D260N对溴化底物的活性恢复。与野生型酶相比,双重突变体D260N+N148D和D260N+N148E对于1,2-二溴乙烷均减少10倍kcat和增高40倍Km值。D260N+N148E双重突变体的前稳态动力学分析显示,kcat的下降主要是由于碳-溴键裂解的速度减少220倍,且烃基酶中间体的水解速度下降10倍。另一方面,同野生型酶相比,溴释放加快12倍并经过不同的途径。突变体的分子建模显示,Glu148确实能够承担与His289的相互作用,并在连接活性部位和溶剂的通道区域有电荷分布的改变(Krooshof等人,Biochemistry36(31):9571-9580,1997)。
降解有害卤化化合物的第一步应用了卤烷脱卤素酶。脱卤素酶的催化作用作为涉及酯中间体的第二步机制发生。水解性脱卤素酶不需要能量;因此,因丢失产生毒性的卤素而解毒有机物质是简单的方式。催化三联体(Asp-His-Asp)以及天冬氨酸羧酸酯(Asp124)是反应的焦点。底物结合到活性部位空穴中,且Cl-α复合体与Trp172和Trp175的侧链NH基团反应。作为第一步骤,来自底物的卤素被亲核天冬氨酸代替,得到中间体共价酯。然后His289激活水解酯的水分子。其结果是醇和卤化物被从活性部位代替。涉及亲核Asp124和酯中间体水解的两步机制与其它α/β水解折叠酶是一致的。
卤烷脱卤素酶断裂脂肪族化合物的碳-卤素键。结果显示,对C-Cl键的酶反应慢于对其它C-卤化物键,如C-Br键。离去基团的能力是其差异的解释。1,2-二氯乙烷和1,2-二溴乙烷的限速步骤不是碳-卤素键的裂解,而是离子从活性部位的释放。
生物补救
本发明提供了许多用于生物补救的具有改善的酶特性的脱卤素酶。本发明的多核苷酸和多核苷酸产物被用于例如,涉及含本发明多核苷酸或多肽的转化宿主细胞(如细菌自养黄色杆菌)和卤烷1,2-二氯乙烷的地下水处理,以及从土壤沉淀物中去除多氯化联苯(PCB)。
本发明的卤烷脱卤素酶被用于减少碳-卤化物的努力中。本发明的酶启动卤烷的降解。可选择地,含本发明脱卤素酶多核苷酸或多肽的宿主细胞可以在卤烷上培养,并产生解毒酶。
定义
如这里所用的,短语“核酸”或“核酸序列”指寡核苷酸、核苷酸、多核苷酸,或指它们中任一的片段,指基因组或合成来源的DNA或RNA,它们可以是单链的或双链的,可以表现为有义或反义链,指肽核酸(PNA)或指任何天然或合成来源的DNA样或RNA样物质。在一个实施例中,本发明的“核酸序列”包括,例如,编码B组氨基酸序列中所列多肽及其变异体的序列。在另一个实施例中,本发明的“核酸序列”包括,例如,A组核酸序列中所列的序列,与其互补的序列,上述序列的片段及其变异体。
特定多肽或蛋白的“编码序列”或“编码特定多肽或蛋白的核苷酸序列”是当置于适当调节序列控制下时被转录和翻译成多肽或蛋白的核酸序列。
术语“基因”是指涉及产生多肽链的DNA片段;它包括密码区之前和之后的区域(前导区和非转录尾区),以及在可适用时,包括单个编码片段(外显子)之间的间插序列(内含子)。
如这里所用,“氨基酸”或“氨基酸序列”指寡肽、肽、多肽或蛋白序列,或指它们中任一的片段、部分或亚单位,并指天然存在或合成的分子。在一个实施例中,本发明的“氨基酸序列”或“多肽序列”包括例如,B组氨基酸序列中所列的序列,上述序列的片段及其变异体。在另一个实施例中,本发明的“氨基酸序列”包括例如,由具有B组核酸序列中所列序列的多核苷酸编码的序列,与它们互补的序列,前述序列的片段及其变异体。
如这里所用的,术语“多肽”指相互被肽键或修饰的肽键连接起来的氨基酸,即肽等排体,可含有除20个基因编码的氨基酸以外的修饰的氨基酸。这些多肽可以被任意一种自然过程修饰,如翻译后处理,或通过本领域熟知的化学修饰技术。修饰可以发生在多肽的任何地方,包括肽骨架、氨基酸侧链和氨基或羧基末端。应当理解到,同一类型的修饰可以在给定多肽的数个部位表现为相同或不同的程度。而且给定的多肽可有许多类型的修饰。修饰包括乙酰化作用,酰化作用,ADP-核糖基化作用,酰胺化作用,核黄素共价附着,血红素部分共价附着,核苷酸或核苷酸衍生物共价附着,脂质或脂质衍生物共价附着,磷脂酰肌醇(phosphytidylinositol)共价附着,交联环化作用,二硫键形成,脱甲基作用,形成共价交联,形成半胱氨酸、形成焦谷氨酸酯,甲酰化作用,γ-羧化作用,糖基化作用,糖基磷脂酰肌醇(GPI)固着物形成,羟基化作用,碘化作用,甲基化作用,肉豆蔻化作用,氧化作用,pergylation,蛋白水解过程,磷酸化作用,异戊二烯化作用,外消旋作用,硒化作用,硫酸化作用,和转运-RNA介导的氨基酸加入蛋白如精氨酰化作用。(见Creighton,T.E.,蛋白-结构和分子特性(Proteins-Structure and Molecular Properties)第二版,W.H.Freeman andCompany,New York(1993);蛋白的翻译后共价修饰(PosttranslationalCovalent Modification of Proteins),B.C.Johnson编著,Academic Press,New York,1-12页(1983))。
如这里所用的,术语“分离的”是指物质从其来源环境(如,假如是天然存在的,则是自然环境)中被移除。例如,在活体动物中天然存在的多核苷酸或多肽不是分离的,但从天然系统的某些或全部共存物质中分离的同样的多核苷酸或多肽则是分离的。这样的多核苷酸可以是载体的一部分和/或这样的多核苷酸或多肽可以是组合物的一部分,它仍然是分离的,这是因为这样的载体或组合物不是自然环境的一部分。
如这里所用的,术语“纯化的”不需要绝对的纯度;而是要作为相对的定义。从文库中获得的单个核酸已经被常规地纯化为电泳均一性。从这些克隆中获得的序列不能直接从文库或总人DNA中获得。本发明的纯化核酸已经从生物体基因组DNA的剩余物中纯化至少104-106倍。但是,术语“纯化的”还包括已经从基因组DNA的剩余物中,或从文库的其它序列或其它环境中,以至少一个数量级的大小,典型地二或三个数量级,更典型地四或五个数量级大小,纯化的核酸。
如这里所用的,术语“重组”是指邻近“骨架”核酸的核酸,在天然环境下,它不与其相邻。此外,将被“富集”的核酸会表现为在核酸骨架分子群中插入5%或以上数目的核酸。按照本发明的骨架分子包括,如表达载体、自我复制核酸、病毒、整合型核酸,和其它载体或用于保持或操作目的核酸插入物的核酸。典型地,被富集的核酸表现为在重组骨架分子群中插入15%或以上数目的核酸。更典型地,被富集的核酸表现为在重组骨架分子群中插入50%或以上数目的核酸。在一个实施例中,被富集的核酸表现为在重组骨架分子群中插入90%或以上数目的核酸。
“重组”多肽或蛋白指通过重组DNA技术产生的多肽或蛋白;即由编码所需多肽或蛋白的外源DNA构建物转化的细胞产生。“合成的”多肽或蛋白是通过化学合成制备的。固相化学肽合成法也可以用来合成本发明的多肽或片段。这种方法自从20世纪60年代早期就已经为本领域所知(Merrifield,R.B.,J.Am.Chem.Soc.,85:2149-2154,1963)(又见Stewart,J.M.和Young,J.D.,固相肽合成(Solid PhasePeptide Synthesis),第二版,Pierce Chemical Co.,Rockford,Ill.,11-12页)),且最近已被用于市售实验室肽设计和合成试剂盒中(CambridgeResearch Biochemicals)。这种市售实验室试剂盒已一般地采用H.M.Geysen等人,Proc.Natl.Acad.Sci.,USA,81:3998(1984)的教导,供在多个“杆”或“插脚”的尖端上合成肽,所有“杆”或“插脚”与一个平板相连。当使用这种系统时,倒转一盘杆或插脚并将其插入到第二个盘相应孔或池中,后者含有溶液以便将适合的氨基酸到杆或插脚附着或锚着到杆或插脚的尖端上。通过重复这种工序,即将杆或插脚的尖端倒转和插入到适合的溶液中,氨基酸被构建成所需的肽。此外,可以得到数种可用的FMOC肽合成系统。例如,用Applied Biosystems,Inc.431A型自动肽合成仪可以在固体支持物上进行多肽或片段的装配。这种设备通过直接合成或通过合成一系列可用其它已知技术连接的片段,提供了获得本发明肽的现成通路。
当在启动子上启动转录的RNA聚合酶将编码序列转录成mRNA时,启动子序列被“可操作地连接到”编码序列上。
“质粒”以一个小写字母“p”在前和/或后接大写字母和/或数字方式命名。这里的起始质粒可以从商业渠道购买,在非受限基础上公开获取,或可以按照公开的方法从可利用的质粒中构建。此外,与这里所述相当的那些质粒为本领域已知,对普通专业技术人员是很显然的。
DNA的“消化”指用仅在DNA中某些序列上起作用的限制性酶催化裂解DNA。这里所用的各种限制性酶是从商业渠道获得的,其反应条件、辅因子和其它要求通常会为普通专业技术人员所知。为了分析目的,典型地1μg质粒或DNA片段与大约2个单位的酶在大约20μl缓冲溶液中一起使用。为分离DNA片段以构建质粒,典型地5至50μgDNA用20至250单位的酶在较大容积内消化。对特定限制性酶合适的缓冲液和底物的量由制造商详细说明。通常使用37℃大约1小时的孵育时间,但可以按照供应商说明书而变化。消化后,可以进行凝胶电泳来分离所需的片段。
“寡核苷酸”指单链聚脱氧核苷酸或两个互补的聚脱氧核苷酸链,它们可以是化学合成的。这样合成的寡核苷酸没有5’磷酸盐,因此在有激酶存在的情况下,不添加带ATP的磷酸盐,不会与另一个寡核苷酸连接。合成的寡核苷酸将与没有脱磷酸化的片段连接。
在提到两个核酸或多肽时,短语“基本上相同的”指当比较和排列最大对应时,两个或多个序列具有至少50%、55%、60%、65%、70%、75%、80%、85%和在某些方面90-95%的核苷酸或氨基酸残基同一性,正如用已知的序列比较算法之一或通过目测而确定的。典型地,基本上同一性存在于至少大约100个残基区域内,最常见地,序列在至少大约150-200个残基区域内基本上相同。在某些实施例中,序列在编码区的全长区域内基本上相同。
另外,“基本上相同”的氨基酸序列是通过一个或多个保守的或非保守的氨基酸取代、删除或插入而不同于参考序列的序列,特别是当这种取代发生在不是分子活性部位的部位,并假设多肽基本上保留其功能特性时。保守的氨基酸取代,例如,用一个氨基酸取代另一个同类的氨基酸(如,用一个疏水的氨基酸如异亮氨酸、缬氨酸、亮氨酸或甲硫氨酸取代另一个,或用一个极性氨基酸来取代另一个,如用精氨酸取代赖氨酸,用谷氨酸取代天冬氨酸或谷氨酰胺取代天冬酰胺)。一个或多个氨基酸可以被删除,例如从脱卤素酶多肽中删除,引起多肽结构的修饰而不显著改变其生物学活性。例如,可以去除对脱卤素酶生物活性不需要的氨基或羧基末端氨基酸。可以用许多方法检测本发明的修饰的多肽序列的脱卤素酶生物活性,包括将修饰的多肽序列与脱卤素酶底物接触,并测定修饰的多肽是否降低试验中特异底物的量,或增加功能性脱卤素酶多肽与底物进行酶反应的生物产物。
这里所用的“片段”是天然存在蛋白的一部分,它可以以至少两种不同的构象存在。这些片段可以与天然存在的蛋白具有相同或基本上相同的氨基酸序列。“基本上相同”是指氨基酸序列很大程度上,但不是完全地相同,但保留了它所涉及的序列的至少一个功能活性。一般而言,如果两个氨基酸序列至少大约85%相同,则它们是“基本上相同”或“基本上同源”的。与天然存在的蛋白具有不同三维结构的片段也包括在内。对此的一个例子是“原-形”分子,如低活性的原蛋白,它可以通过裂解被修饰,以产生具有显著高活性的成熟酶。
“杂交”指核酸链与互补链通过碱基对结合的过程。杂交反应可以是敏感的和选择性的,这样即使在以低浓度存在的样本中,特定的目的序列也可以被识别。适合的严格条件可以通过以下因素确定,例如,在预杂交和杂交溶液中盐或甲酰胺的浓度,或杂交温度,这些是本领域熟知的。特别是,通过降低盐浓度、增加甲酰胺浓度、或升高杂交温度可以提高严格性。
例如,在大约50%甲酰胺中,大约37℃至42℃可以发生高度严格条件下的杂交。在大约35%至25%的甲酰胺中,大约30℃至35℃可以发生降低严格条件下的杂交。特别地,在42℃50%甲酰胺、5X SSPE、0.3%SDS和200n/ml剪切和变性的鲑精DNA中,杂交可能在高度严格条件下发生。如上所述,杂交可能在降低的严格条件下发生,但是在35%甲酰胺,降低的35℃温度下。对应于特定严格水平的温度范围可以通过计算目的核酸的嘌呤对嘧啶的比率而进一步缩小,并依此调节温度。上述范围和条件的变化是本领域熟知的。
术语“变异体”指在一个或多个碱基对、密码子、内含子、外显子或氨基酸残基上(分别地)被修饰但仍保留本发明脱卤素酶生物活性的本发明的多核苷酸或多肽。本发明的多核苷酸或多肽也可以通过导入修饰的碱基如次黄嘌呤核苷而被修饰。另外,这些修饰可以任选地被重复一或多次。这些变异体可以通过许多方法产生,例如,包括易错聚合酶链式反应(易错PCR)、改组(Shuffling)、寡核苷酸定位诱变(oligonucleotide-directed mutagenesis)、装配PCR、有性PCR诱变、体内诱变、盒式诱变、循环系综诱变、指数系综诱变、位点特异性诱变、基因再装配、基因位点饱和诱变(GSSM)或它们的任何组合、排列或反复步骤。
酶是高度选择性的催化剂。它们的特点是能够以传统合成化学无法比拟的空前灵敏的立体、区域和化学选择性催化反应。而且,酶有非常多方面的能力。它们可以被修改以在有机溶剂中起作用,在极端pH(例如,高pH和低pH)、极端温度(例如,高温度和低温度)和极端盐水平(例如,高盐度和低盐度)下工作,并催化结构上与其天然的生理学底物无关的化合物的反应。
酶对大范围的天然和非天然底物起作用,因此实际上使任何有机的前导化合物能够被修饰。而且,与传统的化学催化剂不同,酶是高度对抗选择和区域选择的。酶所具有的高度功能基团特异性使人们能够明了产生新活性化合物的合成序列中的每一个反应。酶还能够催化许多与其天然生理学功能无关的不同反应。例如,过氧化物酶催化过氧化氢对苯酚的氧化作用。过氧化物酶也可以催化与其天然酶功能无关的羟基化反应。其它的例子是催化多肽分解的蛋白酶类。在有机溶液中,一些蛋白酶类还可以酰化糖类,此作用与这些酶的天然功能无关。
本发明开发了酶的独特催化特性。尽管在化学转化作用中使用生物催化剂(即纯化酶或粗制酶,非活细胞或活细胞)通常需要确定与特定的起始化合物相互作用的特定生物催化剂,但本发明使用了对许多起始化合物中存在的功能基团特异的选择的生物催化剂和反应条件。
每个生物催化剂对一个或数个相关的功能基团特异,并能够与许多含此功能基团的起始化合物相互作用。
生物催化反应从单一的起始化合物产生一群衍生物。这些衍生物可以接受另一轮生物催化反应以产生第二群衍生物化合物。生物催化的衍生作用的每一次重复可以产生起始化合物的数千个变异体。
酶在起始化合物的特异位置起作用而不影响其余的分子,这一过程采用传统的化学方法是很难达到的。这种高度的生物催化特异性提供了在文库中鉴定单一活性化合物的方法。该文库的特征是用来产生它的生物催化反应系列,即所谓的“生物合成历史记录”。筛选文库的生物活性和追踪生物合成历史确定了产生活性化合物的特异性反应序列。重复反应序列,并确定合成的化合物的结构。这个鉴定模式与其它合成和筛选方法不同,不需要固定技术,而且化合物可以游离在溶液中采用实际上任何类型的筛选试验而被合成和检测。重要的是要注意,酶对功能基团反应的高度特异性可以“追踪”特异性酶反应,它可制备生物催化产生的文库。
采用机械自动操作进行许多程序性步骤,该自动操作能够每天完成数千的生物催化反应和筛选试验,并保证高水平的精确性和再现性。其结果是,衍生化合物文库可以在大约数周内产生,而采用通用的化学方法会需要数年。(对进一步分子的修饰,包括小分子的教导,见PCT/US94/09174,在此整体加入作为参考)。
在一个方面,本发明提供了称为合成基因再装配的非随机方法,它与随机的改组有些相关,只是核酸构建模块不随机地改组或链接或嵌合,而是非随机地装配。
合成基因再装配法不依赖于要改组的多核苷酸间存在高水平的同源性。本发明可被用于非随机地产生包括超过10100的不同嵌合体的后代分子文库(或集合)。可以想到的,合成基因再装配甚至可以被用于产生包括超过101000的不同后代嵌合体的文库。
因此,在一个方面,本发明提供了产生一批终定核酸分子的非随机方法,这些分子具有由设计选定的整体装配顺序,该方法包括以下步骤:通过设计产生众多具有有用的相互兼容可连接末端的特异核酸构建模块,并装配这些核酸构建模块,这样获得了设计的整体装配顺序。
如果能够使构建模块以预定的顺序连接,要装配的核酸构建模块的相互兼容可连接末端被认为对于此型有序装配是“有用的”。因此,在一个方面,通过设计可连接末端,可以连接核酸构建模块的整体装配顺序是特异的,如果需要使用超过一个的装配步骤,那么通过装配步骤的连续顺序,可以连接构建模块的整体装配顺序也是特异的。在本发明的一个实施方案中,用酶如连接酶(如T4DNA连接酶)处理退火的构件以获得构件的共价结合。
在另一个实施方案中,根据一批原始核酸模板的序列分析获得了核酸构建模块的设计,该模板作为产生终定嵌合核酸分子的子集的分子基础。因而,这些原始核酸模板作为序列信息的来源,帮助设计要诱变的,即嵌合的或滑动的核酸构建模块。
在一个范例中,本发明提供相关基因家族及其相关产物编码家族的嵌合作用。在特别范例中,编码的产物是酶。本发明的脱卤素酶可以按照这里描述的方法诱变。
因此,按照本发明的一个方面,众多原始核酸模板(如A组核酸序列的多核苷酸)被排列以选择一个或多个分界点,该分界点可以位于同源区域。分界点可被用于描绘要产生的核酸构建模块的边界。这样,在原始分子中识别和选择的分界点作为后代分子装配中潜在的嵌合作用点。
典型地,有用的分界点是由至少两个原始模板共享的同源区域(包括至少一个同源的核苷酸碱基),但分界点可以是由原始模板的至少一半、原始模板的至少三分之二、原始模板的至少四分之三共享的同源区,优选地几乎所有原始模板共享。还更优选地,有用分界点是由所有原始模板共享的同源区。
在一个实施方案中,为产生详尽的文库,彻底地进行了基因再装配过程。换言之,所有可能排列的核酸构建模块组合都描绘在终定嵌合核酸分子的集合中。同时,每个组合的装配顺序(即,以每个终定嵌合核酸的5’至3’序列上的每一构建模块的装配顺序)是有意设计的(或非随机的)。由于本方法的非随机性质,不需要的副产物的可能性大大减低。
在另一个实施方案中,本方法提供了系统地进行的基因装配步骤,例如,以系统地产生区室化文库,具有能够被系统地如一个接一个地筛选的区室。换言之,本发明提供了以下的方法,即经过选择性和明智的使用特异的核酸构建模块,加上选择性和明智的使用顺序步骤的装配反应,可以获得在每个单独的反应容器中制造特异的子产物集合的实验设计。这使得系统性检测和筛选过程得以进行。因此,它使潜在的非常大量的后代分子能够以较小的批组被系统地检测。
因其以高度灵活但彻底而且系统的方式运行,特别是当原始分子间同源性水平低时,本发明提供了用于产生由大量后代分子组成的文库(或集合)。由于本基因再装配发明的非随机性质,产生的后代分子优选地包括终定嵌合核酸分子文库,后者具有由设计选定的整体装配顺序。在特殊实施例中,这种产生的文库包括超过103至超过101000的不同后代分子种类。
在一个方面,如所述产生的终定嵌合核酸分子集合包括编码多肽的多核苷酸。根据一个实施方案,此多核苷酸可能是一个人造的基因。根据另一个实施方案,此多核苷酸可能是人造的基因通路。本发明提供了以下的方法,即由本发明产生的一个或多个人造基因可能并入人造基因通路中,如可在真核生物(包括植物)中操作的通路。
在另一个范例中,产生构建模块的步骤的合成性质可以设计和导入核苷酸(如可能是例如密码子或内含子或调节序列的一个或多个核苷酸),它们可以随后被任选地移到体外过程(如通过诱变)或体内过程(如通过应用宿主生物体的基因剪接能力)中。应当理解,在许多情况下,除产生有用分界点的潜在益处外,导入这些核苷酸也可是由于许多其它的原因所需要的。
因此,根据另一个实施方案,本发明提供了以下方法,即核酸构建模块可被用于引入外显子。这样,本发明提供了以下方法,即功能性内含子可被导入本发明的人造基因中。本发明还提供了以下方法,即功能性内含子可以被导入本发明的人造基因通路中。因此,本发明供产生嵌合多核苷酸使用,即含一个(或多个)人工导入的内含子的人造基因。
因此,本发明还供产生嵌合多核苷酸使用,即含一个(或多个)人工导入的内含子的人造基因通路。优选地,人工导入的内含子在一个或多个宿主细胞中,以天然存在的内含子在基因剪接中起作用的方式对基因剪接起更大的作用。本发明提供了产生人造的含内含子的多核苷酸的方法,该多核苷酸将被导入宿主生物体以重组和/或剪接。
用本发明产生的人造基因还可以作为与另一个核酸重组的底物。同样地,用本发明产生的人造基因通路也可以作为与另一个核酸重组的底物。在优选的实例中,重组是由人造的含内含子的基因与作为重组伙伴的核酸之间的同源区所促进,或发生在该区域上。在一个特别优选的实例中,重组伙伴也可以是本发明产生的核酸,包括人造基因或人造基因通路。重组可以由存在于人造基因中的一个(或多个)人工导入的内含子上的同源区所促进,或可发生在该区上。
本发明的合成基因装配方法应用众多核酸构建模块,每一个优选地具有两个可连接的末端。每个核酸构建模块上的两个可连接末端可能是两个钝末端(即每个末端上没有突出的核苷酸),或优选地一个钝末端和一个突出端,或更优选地仍是两个突出端。
为此目的有用的突出端可以是3’突出或5’突出。因此,核酸构建模块可具有一个3’突出端或可选择地一个5’突出端,或可选择地两个3’突出端或可选择地两个5’突出端。装配核酸构建模块以形成终定嵌合核酸分子的整体顺序,是通过有目的的实验设计而确定的,不是随机的。
根据一个优选的实施方案,核酸构建模块是如下产生的:化学合成两个单链核酸(也称作单链寡聚体),并将它们接触使其退火以形成双链的核酸构建模块。
双链核酸构建模块可以是不固定大小的。这些构建模块的尺寸可以是小的或大的。优选的构建模块大小范围从1个碱基对(不包括任何突出端)至100,000个碱基对(不包括任何突出端)。也提供了其它优选的大小范围,它具有从1bp至10,000bp的下限(包括其间的每一个整数值),和从2bp至100,000bp的上限(包括其间的每一个整数值)。
存在许多对本发明有用的、可以产生双链核酸构建模块的方法;这些方法为本领域已知并可以由熟练的专业技术人员容易地进行。
根据一个实施方案,双链核酸构建模块是通过首先产生两个单链核酸,并令其退火以形成双链核酸构建模块而产生的。除任何形成突出端者以外,双链核酸构建模块的两条链可以在每个核苷酸上互补,因此除任何突出端以外不含错配。根据另一个实施方案,除任何形成突出端者以外,双链核酸构建模块两条链不足以在每一个核苷酸上互补。因此,根据此实施方案,双链核酸构建模块可被用于引导密码子简并。优选地,密码子简并用这里描述的位点饱和诱变引导,采用一个或多个N,N,G/T盒或可选择地采用一个或多个N,N,N盒。
本发明的体内重组方法可以在特定多核苷酸或序列的未知杂交物或等位基因池上盲目地进行。但不必知道特定多核苷酸的实际DNA或RNA序列。
在混合的基因群内应用重组的方法可用于产生任何有用的蛋白,例如,白介素I、抗体、tPA和生长激素。此方法可用于产生特异性或活性改变的蛋白。该方法也可用于产生杂交核酸序列,例如,启动子区、内含子、外显子、增强子序列、基因的3’非翻译区或5’非翻译区。因此,此方法可用于产生表达率升高的基因。此方法还可用于重复性DNA序列研究。最后,此方法可用于突变核糖酶或相似法则。
在一个方面,这里描述的发明专注于使用简化重排、重组和选择的重复循环,它可使高度复杂的线性序列定向地分子进化,如DNA、RNA或蛋白彻底重组。
分子的体内滑动用于提供变异体,并可以应用细胞的天然特性进行以重组多聚体。虽然体内重组提供了分子多样性的主要天然途径,基因重组依然是相对复杂的过程,涉及1)识别同源性;2)链裂解,链侵入和导致产生重组交叉的代谢步骤;和最后3)将交叉转变成分离的重组分子。交叉的形成需要识别同源序列。
在另一个实施方案中,本发明包括从至少第一个多核苷酸和第二个多核苷酸产生杂交多核苷酸的方法。本发明可被用于通过引导至少第一个多核苷酸和第二个多核苷酸进入适合的宿主细胞产生杂交多核苷酸,两个多核苷酸共享部分序列的至少一个区域同源(如3,5,7,9,11,13,15,17,19,21,23,25,27,29,31,33,35,37,43,45,47,及其组合)。部分序列的区域同源可促进这个过程,即导致产生杂交的多核苷酸的序列重组。如这里所用,术语“杂交的多核苷酸”是从本发明方法得到的任何核苷酸序列,包含来自至少两个原始多核苷酸序列的序列。这样的杂交的多核苷酸可以来自于分子之间的重组事件,它促进DNA分子间的序列整合。此外,这样的杂交的多核苷酸可以来自于分子内简化重配(reductive reassortment)过程,它应用重复的序列来改变DNA分子内的核苷酸序列。
本发明提供了产生杂交多核苷酸的方法,该杂交多核苷酸可编码生物学活性的杂交多肽(如杂交的卤烷脱卤素酶)。在一个方面,原始的多核苷酸编码生物学活性的多肽。本发明的方法通过应用细胞方法产生新的杂交多肽,该细胞方法整合了原始多核苷酸的序列,以便所得到的杂交多核苷酸编码多肽,其中多肽显示来自于原始生物学活性多肽的活性。例如,原始的多核苷酸可从不同的微生物编码特定的酶。由来自一个生物体的第一个多核苷酸或变异体编码的酶,例如,可在特定的环境条件,如高盐度下有效地起作用。由来自不同生物体的第二个多核苷酸或变异体编码的酶,可在不同的环境条件,如超高温下有效地起作用。杂交的多核苷酸含有来自第一和第二个原始多核苷酸的序列,可编码具有两个酶特性的酶,这两个酶是由原始多核苷酸编码的。因此,由杂交多核苷酸编码的酶可在第一和第二个多核苷酸编码的每个酶所具有的环境条件下,如高盐度和超高温下,有效地起作用。
由本发明多核苷酸编码的酶包括但不限于:水解酶,脱卤素酶和卤烷脱卤素酶。来自于本发明方法的杂交多肽可具有原始酶不显示的特殊酶活性。例如,在编码水解酶活性的多核苷酸重组和/或简化重配后,所得到的由杂交多核苷酸编码的杂交多肽被筛选来自每一个原始酶的特殊水解酶活性,即水解酶作用的键的类型和水解酶起作用的温度。因此,例如,可筛选水解酶以确定区别杂交水解酶与原始水解酶的化学功能性,如:(a)氨基化合物(肽键),即蛋白酶;(b)酯键,即酯酶和脂肪酶;(c)乙缩醛即糖苷酶,和例如杂交多肽发挥作用的温度、pH或盐浓度。
原始多核苷酸的来源可以分离自单个的生物体(“分离”)、在限定的培养基中生长的生物体集合(“富集培养”)、或未培养的生物体(“环境样本”)。使用不依赖培养的方法从环境样本中得到编码新生物活性的多核苷酸是最优选的,这是因为它使人们可以得到未使用的生物多样性来源。
“环境文库”是从环境样本中产生的,并代表在克隆载体中获得的天然存在生物体的基因组集合,克隆载体可以在适合的原核宿主中繁殖的。由于克隆的DNA最初是直接从环境样本中提取的,所以文库并不限于可以在纯系培养中生长的小部分原核细胞。此外,这些样本中存在的环境DNA的标准化,能使原始样本中存在的所有种属的DNA更平等地表示。这可以显著地提高从样本的较小组分中发现目的基因的效率,同优势种属相比,这些较小组分的表现幅度可以低数个量级。
例如,筛选从一个或多个未培养的微生物中产生的基因文库的目的活性。编码目的生物活性分子的潜在通路首先在原核细胞中以基因表达文库的形式被捕获。编码目的活性的多核苷酸从这种文库中分离并导入宿主细胞中。宿主细胞在促进重组和/或潜在地产生活性生物分子的简化重配条件下生长,该生物分子具有新的或增高的活性。
可以从中制备多核苷酸的微生物包括,原核微生物如真细菌和古细菌,低等真核微生物如霉菌,某些藻类和原生动物。多核苷酸可以从环境样本中分离,在此情况下,核酸可以不培养生物体而回收,或从一个或多个培养的生物体中分离。在一个方面,这种微生物可以是嗜极端环境的微生物(extremophiles)如嗜超高温生物、嗜寒生物、嗜冷生物、嗜盐生物、嗜压微生物和嗜酸生物。从嗜极性微生物中分离的编码酶的多核苷酸是特别优选的。这种酶可在以下条件下工作:超过100℃温度的陆地温泉和深海热火山口中,低于0℃温度的北极水中,在死海的饱和盐环境中,pH值为0左右的煤沉积层和地热富硫磺泉水中,或pH值超过11的污水淤泥中。例如,从嗜极性微生物中克隆和表达的几种酯酶和脂肪酶在宽范围温度和pH中显示了高活性。
如以上所描述选择和分离的多核苷酸被导入适合的宿主细胞中。适合的宿主细胞是能够促进重组和/或简化重配的任何细胞。所选择的多核苷酸优选已经存在于包含适当控制序列的载体中。宿主细胞可以是高等真核细胞如哺乳动物细胞,或低等真核细胞如酵母细胞,或优选地,宿主细胞可以是原核细胞如细菌细胞。将构建物导入宿主细胞可以通过磷酸钙转染、DEAE-葡聚糖介导的转染、或电穿孔法实现(Davis等人,1986)。
作为合适宿主的代表性实例,可能提及:细菌细胞如大肠杆菌、链霉菌、鼠伤寒沙门氏菌;真菌细胞如酵母;昆虫细胞如果蝇S2和草地夜蛾Sf9;动物细胞如中国仓鼠卵巢细胞(CHO)、被含有缺陷性病毒复制起点的猴肾病毒SV40DNA所转化的猴细胞(COS)或Bowes恶性黑素瘤;腺病毒类;和植物细胞。从这里的教导,相信合适宿主的选择在本领域专业技术人员的知识范围内。
特别是根据能够用于表达重组蛋白的各种哺乳动物细胞培养系统,哺乳动物表达系统的实例包括,猴肾成纤维细胞的COS-7系,描述于“SV40-转化的猿细胞支持早期SV40突变体的复制”(Gluzman,1981);和能够表达兼容载体的细胞系,例如C127、3T3、CHO、HeLa和叙利亚幼年仓鼠肾细胞系(BHK细胞系)。哺乳动物表达载体包括复制起点、适合的启动子和增强子,还包括任何必要的核糖体结合位点、聚腺苷酸化位点、剪接供体和受体位点、转录终止序列、和5′侧翼非转录序列。来自SV40剪接的DNA序列和聚腺苷酸化位点可用于提供所需的非转录基因元件。
含目的多核苷酸的宿主细胞可以在为适于激活启动子、选择转化体或扩增基因被修饰的传统营养培养基中培养。培养条件,如温度、pH等,是以前选做表达的宿主细胞所用的条件,并对普通专业技术人员是显而易见的。然后,可以对被确定具有特异酶活性的克隆测序,以确定编码活性增强的酶的多核苷酸序列。
在另一个方面,可以预想到本发明的方法可被用于,从一个或多个操纵子或基因簇或其部分产生新的编码生物化学通路的多核苷酸。例如,细菌和许多真核细胞对于调节基因具有同等的机制,基因产物涉及相关的过程。基因是成簇的,在结构上称作一个单一染色体上的“基因簇”,并在一个单一调节序列的控制下一起转录,调节序列包括启动整个基因簇转录的单个启动子。因此,基因簇是一组相邻的基因,其功能通常是相同或相关的。由基因簇编码的生物化学通路的实例是聚酮化合物。聚酮化合物是极富生物活性来源的分子,包括抗生素类(如四环素和红霉素)、抗癌剂(道诺霉素)、免疫抑制剂(FK506和雷帕霉素),和兽医产品(莫能菌素)。许多聚酮化合物(由聚酮合成酶产生)是有价值的治疗药物。聚酮合成酶是多功能的酶,催化大量的长度、功能型和环化作用不同的多种碳链的生物合成。聚酮合成酶基因属于基因簇,且至少一个聚酮合成酶的类型(命名为I型)具有大尺寸的基因和酶,使这些基因/蛋白的基因操控和体外研究变得复杂化。
基因簇DNA可以从不同的生物体分离并被连接进载体,特别是含表达调节序列的载体,表达调节序列可以控制和调节可检测蛋白的产生或来自连接的基因簇的蛋白相关排列活性。可进行外源DNA引导的能力异常大的载体特别适合于这种基因簇,并在这里通过实例的方式进行描述,包括大肠杆菌的f-因子(或致育因子)。此大肠杆菌的f-因子是质粒,它在结合过程中影响其自身的高频转运,对于完成和稳定地繁殖大的DNA片段,如来自混合微生物样本的基因簇,是理想的。特别优选的实施方案使用克隆载体,称作含F因子嗜菌粒(“fosmids”)或细菌人工染色体(BAC)载体。衍生自大肠杆菌的f-因子的载体能够稳定地整合基因组DNA的大片段。当与来自混合的未培养环境样本的DNA整合时,可能以稳定的“环境DNA文库”的形式获得大基因组片段。另一类型用于本发明的载体是粘粒载体。粘粒载体最初是设计来克隆和繁殖基因组DNA的大片段。克隆进粘粒载体详细描述于Sambrook等人,分子克隆:实验室指南,第二版,Cold Spring HarborLaboratory Press(1989)。一旦连接进合适的载体,两个或多个含不同聚酮合成酶基因簇的载体可以被导入适合的宿主细胞。基因簇共有的部分序列同源区域会促进引起序列重组的过程,导致产生杂交基因簇。然后,新的杂交基因簇被筛选在原始基因群中没有发现的增强活性。
因此,在一个实施方案中,本发明涉及一种方法,用于产生一种生物学活性的杂交多肽,并通过以下步骤筛选具有增强活性的这种多肽:
1)将在可操作连接中的至少第一个多核苷酸和可操作连接中的第二个多核苷酸引入至合适的宿主细胞中,所述的至少第一个多核苷酸和第二个多核苷酸共享至少一个部分序列同源性的区域。
2)在促进序列重组的条件下培养宿主细胞,产生可操作连接中的杂交多核苷酸;
3)表达由杂交的多核苷酸编码的杂交多肽;
4)在促进鉴定增强的生物学活性的条件下筛选杂交多肽;和
5)分离编码杂交多肽的多核苷酸。
筛选各种酶活性的方法为本领域的专业技术人员已知,并通过本说明书进行讨论。当分离本发明的多肽和多核苷酸时,可应用这些方法。
作为可使用的表达载体的代表性实例,可能提到病毒颗粒,杆状病毒,噬菌体,质粒,噬菌粒,粘粒,含F因子嗜菌粒(fosmids),细菌人工染色体,病毒DNA(如牛痘,腺病毒,禽痘病毒,假狂犬病和SV40的衍生体),P1-为基础的人工染色体,酵母质粒,酵母人工染色体,和对特殊目标宿主特异的任何其他载体(如杆菌,曲霉菌和酵母)。因此,例如,DNA可包含在表达多肽的各种表达载体中的任何一种中。这样的载体包括染色体的,非染色体的和合成的DNA序列。大量的合适载体是本领域专业技术人员已知的,并可从商业渠道获得。下面提供了载体的实例;细菌的:pQE载体(Qiagen),pBluescript质粒,pNH载体,(λ-ZAP载体(Stratagene);ptrc99a,pKK223-3,pDR540,pRIT2T(Pharmacia);真核的:pXT1,pSG5(Stratagene),pSVK3,pBPV,pMSG,pSVLSV40(Pharmacia)。但是,可以使用任何其他的质粒或其他的载体,只要它们在宿主中是可复制的和有活力的。低拷贝数或高拷贝数的载体可在本发明中应用。
表达载体中的DNA序列可操作地与合适的表达控制序列(启动子)连接以引导RNA合成。特殊命名的细菌启动子包括lacI,lacZ,T3,T7,gpt,λPR,PL和trp。真核细胞启动子包括CMV立即早期,HSV胸苷激酶,早期和晚期SV40,来自逆转录酶病毒的LTRs,和小鼠金属硫蛋白-I。合适载体和启动子的选择很容易地包含在本领域普通专业技术人员水平之内。表达载体也含有一个翻译起始的核糖体结合位点和一个转录终止子。载体也可包含扩增表达的合适序列。启动子区可采用氯霉素转移酶(CAT)载体或其他含有选择性标记物的载体从任何所需的基因中选择出来。另外,表达载体优选含有一个或多个选择性标记物基因以便为选择转化宿主细胞提供显型特征,如为真核细胞培养使用的二氢叶酸还原酶或新霉素抗性,或如在大肠杆菌中使用的四环素或氨苄青霉素抗性。
体内重配集中在总称为“重组”的“分子间”过程,在细菌中一般被认为是“RecA依赖”的现象。本发明可以依靠宿主细胞的重组过程来重组和重配序列,或是依靠细胞介导简化过程的能力来通过删除作用减少细胞中类似重复序列的复杂性。“简化重配”过程可通过“分子内的”RecA不依赖过程而发生。
因此,在本发明的另一个方面,通过简化重配的过程可以产生新的多核苷酸。该法涉及:产生含有连续序列(原始编码序列)的构建物,将它们插入至一个合适的载体中,随后引导它们进入一个合适的宿主细胞中。单个分子同一性的重配通过具有同源区的构建物中的连续序列之间,或类似重复单位之间的组合过程而发生。重配过程重组和/或减少了重复序列的复杂性和程度,导致产生新的分子种类。可采用各种处理方法来增强重配的速度。这些方法可包括用紫外光,或破坏DNA的化学物质处理,和/或使用显示“基因不稳定性”水平增强的宿主细胞系。因此重配过程可涉及同源性重组或类似重复序列的天然特性以控制其自身的进化。
重复的或“准重复的”序列在基因不稳定性中具有作用。在本发明中,“准重复”是不限于其原始单位结构的重复。准重复单位可以表现为:构建物中的序列阵列;相似序列的连续单位。一旦交连后,连续序列之间的连接基本上消失了,得到的构建物的类似重复特性在分子水平上现在是连续的。细胞为减少所得构建物的复杂性而进行的删除过程在准重复序列之间进行。准重复单位提供了实际上无限的模板集合,在其上可发生滑动现象。含有准重复区的构建物因此可有效地提供足够的分子灵活性,使删除作用(和潜在的插入作用)可实际上地发生在准重复单位内的任何地方。
当准重复序列都以同一方向交连时,例如从头至尾,或反之,细胞不能区分单个的单位。因此,简化过程可发生在序列全程中。相反,例如当单位以头至头而不是头至尾的形式出现时,倒位可描绘出邻近单位的终点,使得缺失的形成将倾向于丢失不连续单位。因此,本方法优选序列处于同一方向。准重复序列的随机方向将导致丧失重排效率,而序列方向一致将提供最高的效率。但是,当在同一方向中含有较少的邻近序列而降低效率时,对新分子的有效回收仍可提供足够的灵活性。可在同一方向上用准重复序列制备构建物以获得更高的效率。
序列可以头至尾的方向采用任何方法来进行装配,包括下列方法:
a)当制备的单链可提供方向时,可使用包括聚腺苷酸头部和聚胸腺嘧啶核苷酸尾部的引物。这是通过具有从RNA制备的引物的前几个碱基而实现,因此可很容易的去除RNAseH。
b)可使用含有独特限制性切割位点的引物。将需要多个位点,一组独特序列,和重复的合成和连接步骤。
c)引物的内部几个碱基可以是硫醇盐的和用来产生正确带尾分子的核酸外切酶。
重配序列的回收依赖于用简化重复指数(RI)鉴定克隆载体。然后重排编码序列可通过扩增来回收。产物被再克隆和表达。用简化RI回收克隆载体可受以下因素影响:
1)仅在构建物复杂性降低时可稳定地维持载体的使用。
2)通过物理步骤物理性回收缩短的载体。在此情况下,采用标准的质粒分离步骤,和在琼脂糖凝胶或采用标准步骤切去低分子量的柱上进行大小分馏,将会回收克隆载体。
3)含有中断基因的载体的回收,其中的基因在插入大小减少时被选择。
4)采用使用表达载体以及适当的选择的直接选择技术。
来自相关生物体的编码序列(例如,基因)可显示高度的同源性,并编码十分不同的蛋白产物。这些类型的序列在本发明中特别地用作准重复序列。但是,当下面所描述的实例证实几乎相同的原始编码序列(准重复)的重配时,这个过程并不限于这样的几乎相同的重复序列。
下面的实例说明了本发明的一种方法。描述了来自三个独特种属的编码核酸序列(准重复序列)。每个序列编码一个具有不同特性组的蛋白。每个序列在序列的独特位点上有单个或几个碱基对不同。准重复序列被单独或共同扩增,并连接进任意的装配物中,这样在连接的分子群中具有所有可能的排列组合。准重复序列的数目可通过装配的条件控制。在一个构建物中准重复单位的平均数目被定义为重复指数(RI)。
一旦形成,构建物可以在琼脂糖凝胶上根据公开的协议进行或不进行大小分馏,插入进一个克隆载体,并转染进一个合适的宿主细胞中。然后细胞被繁殖,“简化重配”起作用了。如果需要,简化重配过程的速度可通过引入DNA损害来加速。RI的减少是通过在重复序列之间的缺失形成以“分子内”机制介导的,还是以“分子间”机制通过重组样事件来介导的并不重要。最终的结果是分子的重配进入所有可能的组合中。
任选地,这种方法包括筛选改组池的文库成员的其他步骤以便鉴定单个的改组文库成员,该成员具有与预先确定的大分子结合或相反与之相互作用,或催化与其的特殊反应(例如,如酶的催化结构域)的能力,所述的大分子例如蛋白质受体,寡糖,病毒颗粒(viron),或其他预先确定的化合物或结构。
从这种文库中鉴定的多肽可用于治疗,诊断,研究和相关的目的(如催化剂,增加一种水溶液摩尔渗透压浓度的溶质,和类似物),和/或可以进行一个或多个循环的改组和/或选择。
在另一个方面,可以想象到,重组或重配之前或期间,由本发明方法产生的多核苷酸可接触促进突变体导入原始多核苷酸中的试剂或过程。这种突变体的导入将增加所产生的杂交多核苷酸和编码它的多肽的多样性。促进诱变的试剂或过程包括但不限于:(+)-CC-1065,或一个合成类似物如(+)-CC-1065-(N3-腺嘌呤(见Sun和Hurley,(1992);能够抑制DNA合成的N-乙酰化或去乙酰化4′-氟-4-氨基联苯加合物(例如参见van de Poll等人(1992));或能够抑制DNA合成的N-乙酰化或去乙酰化4-氨基联苯加合物(也见,van de Poll等人(1992),751-758页);三价铬,三价铬盐,能够抑制DNA复制的多环芳香烃(PAH)DNA加合物,如7-溴甲基-苯[a]蒽(“BMA”),三(2,3-二溴丙基)磷酸盐(“Tris-BP”),1,2-二溴-3-氯丙烷(“DBCP”),2-溴丙稀醛(2BA),苯[a]芘-7,8-二氢二酚-9-10-环氧化物(“BPDE”),铂(II)卤素盐,N-羟基-2-氨基-3-甲基咪唑[4,5-f]-喹啉(“N-羟基-IQ”),和N-羟基-2-氨基-1-甲基-6-苯基咪唑[4,5-f]-吡啶(“N-羟基-PhIP”)。延缓或中止PCR扩增的特别优选的手段包括紫外光(+)-CC-1065和(+)-CC-1065-(N3-腺嘌呤)。特殊包含的手段是DNA加合物或含有来自多核苷酸或多核苷酸池中的DNA加合物的多核苷酸,它们可通过包括在进一步处理前加热含有多核苷酸的溶液的过程而被释放或去除。
在另一个方面,本发明涉及一种方法,用于在根据本发明为产生杂交或重配多核苷酸所提供的条件下,通过处理一个含有编码野生型蛋白的双链模板多核苷酸而产生具有生物活性的重组蛋白。
本发明也提供了使用专利密码子引物(含有一个简并的N,N,N序列)在多核苷酸中导入点突变,以便产生一组后代多肽,其中在每个氨基酸位点上都表现有全范围的单氨基酸替代(基因位点饱和诱变(GSSM))。所使用的寡链包含有连续的首个同源序列,一个简并的N,N,N序列和优选但不是必须的第二条同源序列。使用这样的寡链得到的下游后代翻译产物包括所有可能的沿多肽的每个氨基酸位点上的氨基酸改变,这是因为N,N,N序列的简并性包括所有20个氨基酸的密码子。
在一个方面,一个这样的简并寡链(包括一个简并的N,N,N盒)用来将每个亲代多核苷酸模板中的初始密码子进行全长的密码子替代。在另一个方面,使用至少两个简并的N,N,N盒-在同一个寡链中,或不再同一个寡链中,将亲代多核苷酸模板中的至少两个初始密码子进行全长的密码子替代。因此,一个以上的N,N,N序列可包含在一个寡链中以便在一个以上的位点上引入氨基酸突变。这种多个N,N,N序列可以是直接连续的,或通过一个或多个其他的核苷酸序列分离的。在另一个方面,适用于引入加入和删除的寡链可单独使用或与含有N,N,N序列的密码子联合使用,以便引入任何排列或组合的氨基酸加入,删除和/或替代。
在一个特殊的范例中,可能同时采用一个寡链来诱变两个或更多的邻近的氨基酸位点,该寡链含有相连的N,N,N三联体,即简并的(N,N,N)n序列。
在另一个方面,本发明提供了使用具有比N,N,N序列的简并性更小的简并盒。例如,需要在一些情况下使用(如在一个寡链中)一个仅含有一个N的简并三联体序列,其中所述的N可位于三联体的第一个,第二个或第三个位点上。任何其他包含任何排列组合的碱基可用在三联体的剩余两个位点上。可以选择的是,在有些情况下可使用(如在一个寡链中)一个简并的N,N,N三联体序列,N,N,G/T,或一个N,N,G/C三联体序列。
但可以理解的是,在本发明中公开的简并三联体(如N,N,G/T或N,N,G/C三联体序列)的使用由于数个原因是有益的。在一个方面,本发明提供了一种手段来系统地和相当容易地在一个多肽中的每个和任意一个氨基酸位点中产生可能的氨基酸的全长替代(总共为20个氨基酸)。因此,对于100个氨基酸的多肽,本发明提供了一种方法,可系统地和相当容易地产生2000个不同的种类(即,每个位点20个可能的氨基酸乘100个氨基酸位点)。可以理解的是通过使用含有简并N,N,G/T或N,N,G/C三联体序列的寡链,提供了32个单独的序列,可编码20个可能的氨基酸。因此,在一个反应容器内,其中亲代多核苷酸序列采用一个这样的寡链进行饱和诱变,产生了32个不同的编码20个不同多肽的后代多核苷酸。相比,在定点诱变中使用非简并寡链仅可导致在每个反应容器中产生一个后代多肽产物。
本发明也提供了非简并寡链的使用,可以任选地与公开的简并引物联合使用。可以理解的是在一些情况下,使用非简并寡链来在一个工作多核苷酸中产生特异的点突变是有益的。这提供了一种方法,来产生特异的沉默点突变,可引起相应氨基酸改变的点突变,和引起产生终止密码子和相应多肽片段表达的点突变。
因此,在本发明的一个优选实施方案中,每个饱和诱变反应容器中含有编码至少20个后代多肽分子的多核苷酸,因此所有20个氨基酸都可表现在与亲代多核苷酸中诱变的密码子位置对应的一个特异氨基酸位点上。从每个饱和诱变反应容器中产生的32倍简并后代多肽可进行克隆扩增(如采用一个表达载体克隆进一个合适的大肠杆菌宿主中),并进行表达筛选。当一个单独的后代多肽通过筛选被鉴定,显示在属性上发生有益的改变时(当与亲代多肽比较时),它可被测序以鉴定包含在其中的相应有益的氨基酸替代。
可以理解的是在诱变过程中,如在此所公开的,在亲代多肽中采用饱和诱变的每一个和任一个氨基酸位点,有益的氨基酸改变均可在一个以上的氨基酸位点上被鉴定。可产生一个或更多的新的后代分子,含有所有或部分这些有益的氨基酸替代的组合。例如,如果2个特殊的有益的氨基酸改变在一个多肽中的3个氨基酸位点的每一个中都被鉴定出来,则在每个位点(与原始的氨基酸无变化,两种有益的改变各一个)和3个位点上的排列包括3种可能性。因此,有3×3×3或总共27种可能性,包括7种以前检测过的-6个单一的点突变(即,在3个位点的每一个上有两个)和在任何位点上没有改变。
仍然在另一个方面,位点饱和诱变可与改组,嵌合,重组和其他诱变过程连同筛选一起应用。本发明提供了以重复的方式应用任何诱变过程,包括饱和诱变。在一个范例中,任何诱变过程可与筛选一起组合来反复应用。
因此,在一个非限制性的范例中,本发明提供了与其他诱变过程组合的饱和诱变的应用,如这样的过程,即其中两个或多个相关的多核苷酸被导入进一个合适的宿主中,以便可通过重组和简化重配产生杂交多核苷酸。
为了沿整个基因序列进行诱变,本发明提供了诱变可用来替代多核苷酸序列中的许多碱基中每一个碱基,其中要诱变的碱基数目优选是从15至100,000的每一个个整数。因此可对每一个或不同数目的碱基(优选亚群总数从15至100,000)进行诱变,而不是沿着一个分子诱变每一个位点。优选地,一个单独的核苷酸用来诱变每个位点或沿多核苷酸序列的每组位点诱变。要诱变的一组3个位点可以是一个密码子。突变可优选采用诱变引物来引入,含有一个异源性盒,也被称为是一个诱变盒。优选的盒具有1至500个碱基。在这样的异源性盒中每个核苷酸位点可以是N,A,C,G,T,A/C,A/G,A/T,C/G,C/T,G/T,C/G/T,A/G/T,A/C/T,A/C/G,或E,其中E是任何碱基,不是A,C,G或T(E可被作为一个设计寡链)。
通常来说,饱和诱变包括在要被突变的特定多核苷酸序列中(其中要被突变的序列优选长度为大约15至100,000个碱基)诱变一整组诱变盒(其中每个盒优选大约1-500碱基长度)。因此,一组突变(范围是从1至100个突变)可被引入至要被突变的盒中。在应用一轮饱和诱变的过程中,要被引入至一个盒中的一组突变可以是与要被引入至第二个盒中的第二组突变不同或相同的。这种定组的实例是删除,加入,特殊密码子的定组,和特殊核苷酸盒的定组。
要突变的特定序列包括一整条基因,通路,cDNA,一整个开放可读框(ORF),和整个启动子,增强子,阻遏物/超激活物,复制起点,内含子,操纵子,或任何多核苷酸功能基团。通常,为此目的而“确定的序列”可以是任何多核苷酸,它是一个15个碱基的多核苷酸序列,和长度为15个碱基和15,000个碱基之间的多核苷酸序列(本发明特别地命名两者之间的每一个整数)。选择密码子分组时的考虑包括由简并诱变盒编码的氨基酸类型。
在一个特别优选的范例中,可被引入至一个诱变盒中的一组突变中,本发明特别提供了编码每个位点上2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,和20个氨基酸的简并密码子替代(采用简并寡链),和一个被它们编码的多肽文库。
本发明的一个方面是一个分离的核酸,它包含了A组核酸序列和基本上与它们一致的序列中的一个序列,与其互补的序列,或含有A组核酸序列(或其互补序列)其中之一的至少10,15,20,25,30,35,40,50,75,100,150,200,300,400,或500个连续碱基的片段。分离的核酸可包含DNA,包括cDNA,基因组DNA,和合成DNA。DNA可以是双链或单链,如果是单链,可以是编码链或非编码(反义)链。可选择地,分离的核酸可包含RNA。
如在下面更详细讨论的,A组核酸序列之一的分离核酸,和基本上与它们一致的序列,可被用来制备B组氨基酸序列和基本上与它们一致的序列的多肽的其中之一,或含有B组氨基酸序列的其中一个多肽的至少5,10,15,20,25,30,35,40,50,75,100,或150个连续氨基酸的片段,和基本上与它们一致的序列。
因此,本发明的另一个方面是一个分离的核酸,它编码B组氨基酸序列和基本上与它们一致的序列的其中一个多肽,或含有B组氨基酸序列的其中一个多肽的至少5,10,15,20,25,30,35,40,50,75,100,或150个连续氨基酸的片段。作为基因编码冗余或简并的结果,这些核酸的编码序列与A组核酸序列的其中一个核酸的编码序列之一,或其片段相同,或可能是不同的编码序列,它们编码B组氨基酸序列和基本上与它们一致的序列的其中一个多肽,和含有B组氨基酸序列的其中一个多肽的至少5,10,15,20,25,30,35,40,50,75,100,或150个连续氨基酸的片段。基因的编码可被本领域的专业技术人员所熟知,并获得,例如在B.Lewin,Genes VI第214页,牛津大学出版社,1997,其公开的内容在此加入作为参考。
编码B组氨基酸序列的其中一个多肽,和基本上与它们一致的序列的分离核酸,可包括但不限于:仅A组核酸序列之一的编码序列,和基本上与它们一致的序列,和其他的编码序列,如前导序列或蛋白原序列,和非编码序列如内含子或编码序列的5’和/或3’端非编码序列。因此,如在此所使用的,术语“编码多肽的多核苷酸”包括仅含有多肽编码序列的多核苷酸,以及包含其他编码和/或非编码序列的多核苷酸。
可选择地,A组核酸序列的核酸序列,和基本上与它们一致的序列,可采用常规的技术进行诱变,如定点诱变,或其他对本领域专业技术人员所熟悉的技术,将沉默性变化引入至A组核酸序列和基本上与它们一致的序列中的多核苷酸中。如在此所使用的,“沉默性变化”包括,例如,不改变由多核苷酸编码的氨基酸序列的变化。需要这样的变化以便通过引入在宿主生物体内经常发生的密码子或密码子对,来增加宿主细胞产生的多肽水平,该宿主细胞中含有编码多肽的载体。
本发明也涉及了含有核苷酸变化的多核苷酸,这种变化在B组氨基酸序列和基本上与它们一致的序列的多肽中产生了氨基酸替代,删除,融合和截断。这样的核苷酸变化可采用常规的技术来引入,如定点诱变,随机化学诱变,核酸外切酶III删除,和其他重组DNA技术。可选择地,这样的核苷酸变化可以是天然存在的等位基因变异,可在此所提供的高度、中度和低度严格性下,通过鉴别与探针特异性杂交的核酸而分离出来,该探针含有A组核酸序列的其中一个序列的至少10,15,20,25,30,35,40,50,75,100,150,200,300,400,或500个连续碱基,和基本上与它们一致的序列(或其互补序列)。
A组核酸序列的分离核酸,和基本上与它们一致的序列,其互补序列,或含有A组核酸序列的其中一个序列的至少10,15,20,25,30,35,40,50,75,100,150,200,300,400,或500个连续碱基的片段,和基本上与它们一致的序列,或其互补序列也可用作探针来确定一个生物样品,如一个土样,是否含有具有本发明的核酸序列的生物体,或获取核酸的生物体。在这样的方法中,获取可能潜藏了生物体的生物样品,从该生物体中可分离核酸,并从样品中获得核酸。核酸可在允许探针与存在其中的任何互补序列特异性杂交的条件下与探针接触。
当需要时,允许探针与互补序列特异性杂交的条件,可通过将探针与从已知含有互补序列的样品中的互补序列,以及不含有互补序列的对照序列接触而确定。杂交条件,如杂交缓冲液的盐浓度,杂交缓冲液的甲酰胺浓度,可进行变化以确定允许探针与互补核酸特异性杂交的条件。
如果样品含有可分离出核酸的生物体,就接着检测探针的特异杂交。通过使用可检测的试剂如放射性同位素,荧光染料或能够催化形成可检测产物的酶标记探针,可对杂交作用进行检测。
采用标记的探针检测样品中互补核酸存在的许多方法是本领域专业技术人员所熟悉的。这些方法包括Southern印迹,Northern印迹,菌落杂交法,和点印迹。每一种这些方法的步骤在Ausubel等人,分子 生物学现代方法,John Wiley 503 Sons公司(1997)和Sambrook等人,分子克隆:实验室手册,第二版,Cold Spring Harbor Laboratory Press(1989)中被提供,这些文献的整个公开内容在此引用作为参考。
可选择地,一个以上的探针(其中至少一个能够特异地与存在于核酸样品中的任何互补序列杂交),可在扩增反应中使用,以确定样品中是否含有生物体,该生物体含有本发明的核酸序列(如,可分离出核酸的生物体)。典型地,探针含有寡核苷酸。在一个实施方案中,扩增反应包含PCR反应。PCR法描述在前面Ausubel和Sambrook的文献中。可选择地,扩增可包含连接酶链式反应,3SR,或链置换反应。(见Barany,F.,“PCR世界中的连接酶链式反应”,PCR Methods and Applications1:5-16,1991;E.Fahy等人,“自身不变的序列复制(3SR):可替代PCR的等温转录为基础的扩增”,PCR Methods and Applications1:25-33,1991;和Walker G.T.等人,“链置换扩增-一种等温的体外DNA扩增技术”,NucleicAcidResearch20:1691-1696,1992,其中公开的内容在此全部引用作为参考)。在这些方法中,样品中的核酸与探针接触,进行扩增反应,并检测任何得到的扩增产物。扩增产物的检测可通过在反应产物上进行凝胶电泳,并用interculator如嗅乙啡啶对凝胶染色。可选择地,一个或多个探针可用放射线同位素标记,放射性扩增产物的存在可通过凝胶电泳后的放射自显影检测到。
来自A组核酸序列末端附近的序列和基本上与它们一致的序列的探针也可用在染色体步移法中,以鉴定含有基因组序列的克隆,该序列的位置邻近A组核酸序列和基本上与它们一致的序列附近。这种方法可分离编码来自宿主机体的其他蛋白质的基因。
A组核酸序列的分离核酸,和基本上与它们一致的序列,其互补序列,或含有A组核酸序列的其中一个序列的至少10,15,20,25,30,35,40,50,75,100,150,200,300,400,或500个连续碱基的片段,和基本上与它们一致的序列,或其互补序列可用作探针来鉴定和分离相关的核酸。在一些实施方案中,相关的核酸可以是来自生物体的cDNA或基因组DNA而不是来自分离出核酸的生物体。例如,其他的生物体可以是相关的生物体。在这些方法中,核酸样品与探针在可允许探针与相关序列特异杂交的条件下接触。然后采用上述的任何一种方法来检测探针与来自相关生物体的核酸的杂交。
在核酸杂交反应中,根据被杂交的核酸的特性,用来达到特殊严格性水平的条件可发生变化。例如,可在选择杂交条件时考虑核酸杂交区的长度,互补程度,核酸序列成分(如GC相对AT的含量),和核酸的类型(如RNA对DNA)。其他的考虑是一种核酸是否被固定,例如,固定在滤膜上。
杂交可在低度严格性,中度严格性或高度严格性下进行。如核酸杂交的一个实例,含有固定变性核酸的聚合膜首先在含有0.9M NaCl,50mM NaH2PO4,pH7.0,5.0mM Na2EDTA,0.5%SDS,10X Denhardt’s,和0.5mg/ml聚核糖腺苷酸的溶液中在45℃下预杂交30分钟。然后向该溶液中加入大约2×107cpm(比活性为4-9×108cpm/μg)的32p末端标记的寡核苷酸探针。孵育12-16小时后,膜在室温下在含有0.5%SDS的1X SET(150mM NaCl,20mM Tris氢氯化物,pH7.8,1mM Na2EDTA)中冲洗30分钟,然后在新鲜的1X SET中在Tm-10℃下冲洗30分钟去掉寡核苷酸探针。然后将膜暴露在放射自显影胶片上检测杂交信号。
通过改变用来鉴定与可检测的探针杂交的核酸如cDNA或基因组DNA的杂交条件的严格性,可以鉴定并分离与探针具有不同水平同源性的核酸。通过在探针解链温度以下的温度变化进行杂交可改变严格性。解链温度,Tm是50%靶序列完全与互补的探针杂交时的温度(在已确定的离子强度和pH下)。对于特殊的探针可选择与Tm相同或比Tm低大约5℃的非常严格条件。探针的解链温度可采用下列的公式计算:
对于长度在14到70个核苷酸的探针,解链温度(Tm)可采用下列的公式计算:Tm=81.5+16.6(log[Na+])+0.41(G部分+C)-(600/N),其中N是探针的长度。
如果杂交是在含有甲酰胺的溶液中进行的,解链温度可采用如下方程来计算:Tm=81.5+16.6(log[Na+])+0.41(G部分+C)-(0.63%甲酰胺)-(600/N),其中N是探针的长度。
预杂交可在6X SSC,5K Denhardt′s试剂,0.5%SDS,100μg变性的片段鲑精DNA或6X SSC,5X Denhardt′s试剂,0.5%SDS,100μg变性的片段鲑精DNA,50%甲酰胺中进行。SSC和Denhardt’s溶液的公式列在前面Sambrook等人的文献中。
通过向上面所列的预杂交溶液中加入可检测的探针进行杂交。当探针含有双链DNA时,它在加入至杂交溶液前被变性。滤膜与杂交溶液接触足够的时间以便让探针与含有与其互补的或同源的序列的cDNA或基因组DNA杂交。对于长度在200个以上核苷酸的探针,杂交在Tm下15-25℃进行。对于更短的探针,如寡核苷酸探针,杂交可在Tm下5-10℃进行。典型地,为了在6X SS中杂交,杂交作用在大约68℃下进行。通常,为在含有50%甲酰胺的溶液中进行杂交,杂交作用在大约42℃进行。
所有前面的杂交作用将可考虑在高度严格性的条件下。
在杂交后,冲洗滤膜取出任何非特异性结合的可检测探针。用来冲洗滤膜的严格性也可根据被杂交的核酸特性,杂交核酸的长度,互补的程度,核酸序列的成分(如,GC相对AT的含量),和核酸类型(如RNA对DNA)来变化。逐渐增高的更高严格性冲洗条件的实例如下:2X SSC,0.1%SDS室温下15分钟(低度严格性);0.1X SSC,0.5%SDS室温下30分钟至1小时(中度严格性);0.1X SSC,0.5%SDS在杂交温度和68℃之间15至30分钟(高度严格性);和0.15M NaCl在72℃下15分钟(非常高的严格性)。最终的低度严格性冲洗可在0.1X SSC中在室温下进行。上述的实例仅是对一组用来冲洗滤膜的条件进行的例证性描述。本领域的专业技术人员可了解,对于不同严格性的冲洗有大量的方案。一些其他的实例如下。
与探针已经杂交的核酸通过放射自显影或其他常规的技术进行鉴定。
上述方法可被修饰以鉴定与探针序列的同源性水平降低的核酸。例如,为获得与可检测的探针同源性降低的核酸,可使用严格性较低的条件。例如,杂交温度可在含有大约为1M Na+浓度的杂交缓冲液中从68℃至42℃以5℃的增量被降低。在杂交后,滤膜在杂交温度下用2X SSC,0.5%SDS冲洗。这些条件可被认为50℃以上为“中度”条件,50℃以下为“低度”条件。“中度”杂交条件的特殊实例是当上述的杂交在55℃进行时。“低度严格性”杂交条件的特殊实例是当上述杂交在45℃进行时。
可选择地,杂交在缓冲液中,如6X SSC,含有甲酰胺,在42℃进行。在这种情况下,在杂交缓冲液中的甲酰胺浓度可从50%至0%以5%的增量被减少,以鉴定含有与探针同源性水平降低的克隆。在杂交后,滤膜用6X SSC,0.5%SDS在50℃下冲洗。这些条件被认为是25%甲酰胺以上为“中度”条件,25%甲酰胺以下为“低度”条件。“中度”杂交条件的特殊实例是当上述杂交在30%甲酰胺中进行时。“低度严格性的”杂交条件的一个特殊实例是上述杂交在10%甲酰胺中进行时。
例如,前面的方法用来分离含有与选自下列组别的核酸序列具有至少大约97%,至少95%,至少90%,至少85%,至少80%,至少75%,至少70%,至少65%,至少60%,至少55%或至少50%同源性的序列的核酸,上述的组别包括A组核酸序列和基本上与它们一致的序列的其中一个序列,或含有其至少大约10,15,20,25,30,35,40,50,75,100,150,200,300,400,或500个连续碱基的片段,和与其互补的序列。同源性可采用对准算法来测定。例如,同源的多核苷酸含有一个编码序列,它是在此所述的编码序列之一的天然存在的等位基因变异体。当与A组核酸序列的核酸或与其互补的序列比较时,这种等位基因变异体具有一个或多个核苷酸的替代,删除或添加。
可选择地,上述方法可用来分离编码多肽的核酸,该多肽经序列对比算法(如FASTA3.0t78版算法采用缺省参数)确定含有与一种多肽具有至少大约99%,95%,至少90%,至少85%,至少80%,至少75%,至少70%,至少65%,至少60%,至少55%或至少50%的同源性,后者多肽含有B组氨基酸序列和基本上与它们一致的序列其中之一的序列,或包含其至少5,10,15,20,25,30,35,40,50,75,100,或150个连续氨基酸的片段。
本发明的另一个方面是一个分离的或纯化的多肽,其含有A组核酸序列和基本上与它们一致的序列的其中一个序列,或含有其中至少大约5,10,20,25,30,35,40,50,75,100,或150个连续氨基酸的片段。如上所述,这种多肽可通过将编码多肽的核酸插入到一个载体中而获得,因此编码序列可操作性地与能驱动编码多肽在一个合适的宿主细胞中表达的序列连接。例如,表达载体可包含一个启动子,一个翻译起始的核糖体结合位点,和一个转录终止子。载体也可包括扩增表达的合适序列。
适合在细菌中表达多肽或其片段的启动子包括大肠杆菌lac或trp启动子,lacI启动子,lacZ启动子,T
3启动子,T7启动子,gpt启动子,λP
R启动子,λP
L启动子,来自编码糖酵解酶如3-磷酸甘油酸激酶(PGK)的操纵子的启动子,和酸性磷酸酶启动子。真菌启动子包括
因子启动子。真核启动子包括CMV立即早期启动子,HSV胸苷激酶启动子,热休克启动子,早期和晚期SV40启动子,来自逆转录病毒的LTRs和小鼠金属硫蛋白-I启动子。也可使用其他已知可在原核或真核细胞中控制基因表达的启动子或其病毒。
哺乳动物表达载体也包含复制起点,任何需要的核糖体结合位点,聚腺苷酸化位点,剪接的供体和受体位点,转录终止序列,和5’侧翼非转录序列。在一些实施方案中,来自SV40剪接和聚腺苷酸化位点的DNA序列可用来提供所需的非转录基因元件。
在真核细胞中表达多肽或其片段的载体也含有增加表达水平的增强子。增强子是DNA的顺式作用元件,一般长度为大约10至大约300bp,可作用于启动子以增强其转录。实例包括在复制起点后侧100至270bp的SV40增强子,巨细胞病毒早期启动子增强子,在复制起点后侧上的多形瘤增强子,以及腺病毒增强子。
另外,表达载体一般含有一个或多个选择性标记物基因以便可以筛选含有载体的宿主细胞。这样的选择性标记物包括编码二氢叶酸还原酶的基因或被在真核细胞培养中赋予了新霉素抗性的基因,在大肠肝菌中赋予了四环素或氨苄青霉素抗性的基因,和酿酒酵母TRP1基因。
表达文库已经产生后,可以在通过细胞分选之前包括另一个“生物淘选”的步骤。“生物淘选”步骤是指一个通过在克隆的文库中筛选序列同源性来鉴定含有特定生物学活性的克隆的过程,该克隆文库是如下制备的:(i)选择性从来自至少一个微生物体的DNA中通过使用至少一个探针DNA分离靶DNA,该探针DNA含有编码一个具有特定生物活性的生物学蛋白的DNA序列的至少一部分;和(ii)任选地使用已分离的靶DNA转化宿主产生用来筛选特定生物活性的克隆文库。
用来选择性的从来自至少一个微生物的DNA中分离目标靶DNA的探针可以是一个已知活性酶DNA的全长编码区序列或部分编码区序列。原始的DNA文库可优选使用探针混合物来探测,该混合物中含有至少一部分编码具有特定酶活性的酶的DNA序列。这些探针或探针文库优选是单链,且被探测的微生物DNA优选地已经被转换成为单链形式。特别合适的探针来自编码具有与被筛选的特定酶活性相似或相同活性的酶的DNA。
探针DNA应该是至少大约10个碱基,并优选至少15个碱基。在一个实施方案中,全部编码区可用作探针。杂交条件可设计为可提供至少大约50%序列同一性的杂交严格性,更特别地是为至少大约70%序列同一性提供严格性,在该条件中,靶DNA选择性的通过使用至少一个DNA探针来分离。
在核酸杂交反应中,用来达到特殊严格性水平的条件将依靠被杂交的核酸特性而变化。例如,核酸杂交区的长度,互补程度,核酸序列成分(如,GC相对AT的含量),核酸类型(如RNA对DNA)可在选择杂交条件时被考虑。其他的考虑是,例如其中一个核酸是否被固定在滤膜上。
逐渐增加的更高的严格条件的实例如下:在大约室温下2xSSC/0.1%SDS(杂交条件);在大约室温下0.2x SSC/0.1%SDS(低度严格条件);在大约42℃下0.2x SSC/0.1%SDS(中度严格条件);和在大约68℃下0.1x SSC(高度严格条件)。仅采用这些条件中的一种进行冲洗,如高度严格条件,或可采用每一种条件,如以上述所列的顺序每一个进行10-15分钟,重复任一个或所有的所列步骤。但是,如上所述,最佳的条件将根据涉及的特定杂交反应而变化,并可通过经验来确定。
探测微生物DNA文库以分离潜在的目的靶DNA的杂交技术在本领域中是为人熟知的,在文献中所描述的任何一个均适合在此使用,特别是那些采用固相结合的,直接或间接结合的,便于从微生物DNA剩余物中分离的探针DNA。
优选地探针DNA用特异结合对(即配体)的一个伴侣“标记”,结合对的另一个伴侣则结合在固体基质上以便从其来源中很方便的分离靶标。配体和特异的结合伴侣可以任何一个方面,选自以下:(1)抗原或半抗原和与其结合的抗体或特异结合片段,(2)生物素或亚氨生物素和亲和素或抗生蛋白链菌素;(3)糖和其特异的凝集素;(4)酶和其抑制剂;(5)脱辅基酶和辅因子,(6)互补的同聚寡核苷酸;和(7)激素和其受体。固相优选地选自:(1)玻璃或聚合物表面;(2)聚合珠的包裹柱;和(3)磁性和顺磁颗粒。
此外,任选地但期望的是,对已经分离的靶DNA进行扩增。在本实施方案中靶DNA是在分离后从探针DNA中分离的。然后在被用来转化宿主前被扩增。选择包含有预先确定的DNA序列至少一部分的双链DNA可被变为单链,进行扩增,并重新退火以提供已扩增数目的选择双链DNA。大量的扩增方法学在本领域中现在是为人熟知的。
选择的DNA然后通过转化合适的生物体来制备筛选的文库。宿主,特别是那些在此特别地被鉴定的宿主是优选的,在益于进行这种转化的条件下通过接种人为地引入含有靶DNA的载体而被转化。
得到的转化克隆的文库然后被筛选以寻找显示有目的酶活性的克隆。
已经制备了选择性地从一个生物体中分离的DNA中的多种克隆,这些克隆被筛选特异的酶活性,并鉴定具有特异酶特性的克隆。
酶活性的筛选可作用在单个表达克隆上,或最初作用在表达克隆的混合物上以确定混合物是否具有一个或多种特异的酶活性。如果混合物具有特异的酶活性,则单个克隆被使用FACS仪器再次筛选这种酶活性或更多的特异活性。可选择地,包裹技术如凝胶微滴,可用来将多个克隆定位在一个位置上,以便在FACS仪器上在一组克隆中被筛选阳性表达克隆,该组克隆可被分为单个克隆以便再次在FACS仪器上被筛选以鉴定阳性的单个克隆。因此,例如如果克隆混合物具有水解酶活性,则单个克隆被回收,并采用FACS仪器筛选来确定那一个克隆具有水解酶活性。如在此所使用的,“小插入文库”的含义是一个包含具有高达大约5000个碱基对的随机小尺寸核酸插入物的克隆的基因文库。如在此所使用的,“大插入文库”是指包含具有大约5000至几十万个碱基对或更多碱基对的随机大尺寸核酸插入物的克隆的基因文库。
就上述方面之一所描述的,本发明提供了酶活性筛选含有已选择的微生物DNA的克隆的过程,该过程包括:筛选文库中特异的酶活性,所述的文库包括大多数克隆,所述的克隆通过从所选择DNA的微生物的基因组DNA中回收而制备,其中DNA通过与至少一个DNA序列杂交而被选择,该DNA序列是编码特异活性酶的DNA序列的所有或一部分;和用所选择的DNA转化宿主以产生被筛选特异酶活性的克隆。
在一个实施方案中,来自微生物的DNA文库进行选择步骤以从中选择与一个或多个探针DNA序列杂交的DNA,该探针DNA序列是编码特异活性酶的DNA序列的所有或一部分,通过:
(a)使双链基因组DNA群体变成单链DNA群体;
(b)将(a)的单链DNA群体与结合于一个配体的DNA探针在允许杂交的条件下接触,以便产生探针和与其杂交的基因组DNA群体成员的双链复合体;
(c)将(b)的双链复合体与一个所述配体的固相特异结合伴侣接触以便产生一个固相复合体;
(d)将固相复合体从(b)的单链DNA群体中分离出来;
(e)从探针中释放与固相结合探针结合的基因组群体的成员;
(f)从(e)的基因组群体的成员中形成双链DNA;
(g)将(f)的双链DNA引入至合适的宿主中以形成包括大多数克隆的文库,该克隆含有所选择的DNA;和
(h)在文库中筛选特异的酶活性。
在另一个方面,该过程包括预先选择以回收含有信号或分泌序列的DNA。以这种方式,可能如上述从基因组DNA群体中通过杂交仅选择出含有信号或分泌序列的DNA。下面段落描述了本发明的这个实施例的步骤,一般分泌信号序列的特性和功能,和将这种序列应用于一个测定实验或选择过程中的特殊实例。
这个方面的特殊实施方案进一步在上述的(a)之后但在(b)之前包括如下步骤:
(ai)将(a)的单链DNA群体与一个配体结合的寡核苷酸探针在允许杂交形成双链复合体的条件下接触,该探针与指定类型蛋白质的分泌信号序列互补;
(aii)将(ai)中的双链复合体与一个所述配体的固相特异结合伴侣接触以便产生固相复合体;
(aiii)将固相复合体从(a)的单链DNA群体中分离出来;
(aiv)将已经与所述的固相结合探针的基因组群体的成员释放出来;和
(av)将已经与基因组群体成员结合的固相结合探针分离出来。
然后将已经被选择和分离含有信号序列的DNA进行上述的选择步骤以选择和分离其中的DNA,该DNA与来自编码特异酶活性的酶的DNA的一个或多个探针DNA序列结合。
该步骤被描述并例证在于1996年8月2日提出申请的美国序列号08/692,002中,,在此引用作为参考。
体内的生物淘选可应用FACS为基础的仪器执行。复合体基因文库用含有可稳定所转录RNA的元件的载体构建。例如,包含可形成二级结构如发夹结构的序列可有助于增强其稳定性,该二级结构可设计为侧向RNA的被转录区,因此增加了其在细胞中的半衰期。用于生物淘选过程的探针分子包括用报道分子标记的寡核苷酸,该报道分子仅在探针与靶分子结合中发出荧光。这些探针从文库中采用几种转化方法的一种被引入至重组细胞中。探针分子与所转录的可产生DNA/RNA异源双链分子的靶mRNA结合。探针与靶标的结合将产生荧光信号,可被FACS仪器在淘选的过程中检测和分选到。
在一些实施方案中,编码B组氨基酸序列和基本上与它们一致的序列的多肽之一的核酸,或含有其至少大约5,10,15,20,25,30,35,40,50,75,100,或150个连续氨基酸的片段以合适的状态与一个能够引导所翻译的多肽或其片段分泌的前导序列组合在一起。可任选地,核酸可编码一个融合多肽,其中B组氨基酸序列和基本上与它们一致的序列的多肽之一,或含有其至少5,10,15,20,25,30,35,40,50,75,100,或150个连续氨基酸的片段与异源的肽或多肽融合,其中这些肽如N-末端识别肽类,它们可获得所需的特性,如增加的稳定性或简化的纯化过程。
合适的DNA序列可通过许多步骤被插入至载体中。通常,DNA序列在用合适的限制性内切酶消化插入物和载体后,被连接到载体中的所需位置。可选择地,在插入物和载体的钝端可被连接。许多克隆技术公开在Ausubel等人,分子生物学现代方法,John Wiley 503Sons,Inc.1997和Sambrook等人,分子克隆:实验室手册第二版,ColdSpring Harbor Laboratory Press(1989),在此将其公开内容完整引用于此作为参考。这些或其他步骤被认为包括在本领域专业技术人员的范围之内。
载体可以是例如,质粒,病毒颗粒或噬菌体的形式。其他载体包括染色体,非染色体和合成DNA序列,SV40的衍生体;细菌质粒,噬菌体DNA,杆状病毒,酵母质粒,来自质粒和噬菌体DNA组合的载体,病毒DNA如疫苗,腺病毒,禽痘病毒,和假狂犬病。用于原核和真核宿主的多种克隆和表达载体的描述见Sambrook等人,分子克隆: 实验室手册第二版,Cold Spring Harbor,N.Y.,(1989),将其公开内容引用在此作为参考。
可使用的特殊细菌载体包括商业渠道可获得的质粒,包括熟知的克隆载体pBR322(ATCC37017),pKK223-3(Pharmacia Fine Chemicals,Uppsala,Sweden),GEM1(Promega Biotec,Madison,WI,USA)pQE70,pQE60,pQE-9(Qiagen),pD10,psiX174pBluescript II KS,pNH8A,pNH16a,pNH18A,pNH46A(Stratagene),ptrc99a,pKK223-3,pKK233-3,pDR540,pRIT5(Pharmacia),pKK232-8and pCM7的基因元件。特殊的真核载体包括pSV2CAT,pOG44,pXT1,pSG(Stratagene)pSVK3,pBPV,pMSG,和pSVL(Pharmacia)。但是,任何其他的载体只要在宿主细胞中是可复制的和有活力的就可使用。
宿主细胞可以是为本领域专业技术人员所熟悉的任何宿主细胞,包括原核细胞,真核细胞,哺乳动物细胞,昆虫细胞或植物细胞。作为合适宿主的代表性实例,可以提到:细菌细胞,如大肠杆菌,链霉菌,枯草芽孢杆菌,鼠伤寒杆菌和在假单胞菌属中的许多种属,链霉菌属,和葡萄球菌属,真菌细胞如酵母,昆虫细胞如果蝇属S2和草地夜蛾Sf9,动物细胞如CHO,COS或Bowes黑色素瘤,和腺病毒。合适宿主的选择包括在本领域专业技术人员的能力范围内。
载体可使用多种技术被导如到宿主细胞中,包括转化,转染,转导,病毒感染,基因枪,或Ti介导的基因转移。特殊的方法包括磷酸钙转染,DEAE-葡聚糖介导的转染,脂质转染,或电穿孔(Davis,L,Dibner,M.,Battey,I,分子生物学基本方法,(1986))。
当合适时,基因工程改造的宿主细胞可在常规的限制营养培养基中培养,该培养基可适合激活启动子,选择转化体或扩增本发明的基因。在将合适的宿主株转化和宿主株生长至合适的细胞密度后,所选择的启动子可通过合适的方法诱导(如,温度转变或化学诱导),且细胞另外培养一段时间以使其产生所需的多肽或其片段。
细胞典型地用离心来收获,用物理或化学的方法来破碎,得到的粗提取物被保留以进行进一步纯化。用于蛋白表达的微生物细胞可用常规的方法破碎,包括冷冻-融化循环,超声,机械破坏,或使用细胞溶解剂。这些方法对于本领域专业技术人员是熟知的。表达的多肽或其片段可从重组细胞培养物中回收或纯化,其方法包括硫酸铵或乙醇沉淀,酸提取,阴离子或阳离子交换色谱,磷酸纤维素色谱,疏水作用色谱,亲合色谱,羟磷灰石色谱和凝集素色谱。如果需要可使用蛋白质重构步骤用于完成多肽的构型。如果需要,可在最后的纯化步骤中使用高效液相色谱(HPLC)。
也可采用多种哺乳动物细胞培养系统来表达重组蛋白。哺乳动物表达系统的实例包括猴肾成纤维细胞的COS-7系(描述在Gluzman,Cell,23:175,1981),和其他能够从相容的载体中表达蛋白的细胞系,如Cl27,3T3,CHO,HeLa和BHK细胞系。
在宿主细胞中的构建物可以常规的方式用来产生由重组序列编码的基因产物。依靠在重组生产步骤中使用的宿主,含有载体的宿主细胞产生的多肽可以是糖基化的,或非糖基化的。本发明的多肽也可或不包括起始的甲硫氨酸氨基酸残基。
可选择地,B组氨基酸序列,和基本上与它们一致的序列的多肽,或含有其至少5,10,15,20,25,30,35,40,50,75,100,或150个连续氨基酸的片段可通过常规的肽合成仪来合成。在另一个实施方案中,可使用多肽的片段或部分以通过肽合成产生相应的全长多肽;因此,可使用这些片段作为中间体产生全长的多肽。
无细胞翻译系统也可用于产生B组氨基酸序列,和基本上与它们一致的序列的多肽,或含有其至少5,10,15,20,25,30,35,40,50,75,100,或150个连续氨基酸的片段,采用从含有与编码多肽或其片段的核酸可操作连接的启动子的DNA构建物转录的mRNA。在一些实施方案中,DNA构建物可在进行体外转录反应前被线性化,转录的mRNA然后与合适的无细胞翻译提取物如兔网织红细胞提取物孵育,产生所需的多肽或其片段。
本发明也涉及B组氨基酸序列,和基本上与它们一致的序列的多肽,或含有其至少5,10,15,20,25,30,35,40,50,75,100,或150个连续氨基酸的片段的变异体。术语“变异体”包括这些多肽的衍生体或类似物。特别的是,通过替代,添加,删除,融合和截断中的一个或多个,也可以是它们的组合,这些变异体在氨基酸序列上可与B组氨基酸序列,和基本上与它们一致的序列的多肽有所差别。
变异体可以是天然产生的或在体外建立的。特别的是,这些变异体可采用基因工程技术如定点诱变,随机化学诱变,核酸外切酶III删除法,和标准的克隆技术来建立。可选择的是,这些变异体,片段,类似物,或衍生体可采用化学合成或修饰的方法来建立。
制备变异体的其他方法对本领域的专业技术人员也是熟悉的。这些方法包括被修饰以产生编码多肽的核酸的方法,其中多肽具有在工业或实验室应用中可增加其价值的特性,核酸序列从天然的分离物中获得。在这些方法中,就从天然分离物中获取的序列而言,可产生并表征大量具有一个或多个核苷酸差异的变异体序列。典型地,就来自天然分离物的核酸编码的多肽而言,这些核苷酸差异可导致氨基酸变化。
例如,可采用易错PCR(error prone PCR)建立变异体。在易错PCR中,执行PCR的条件中,DNA聚合酶的拷贝精度很低,这样在沿PCR产物的全长中可获得很高的点突变率。易错PCR的描述见Leung,D.W.等人,Technique,1:11-15,1989)和Caldwell,R.C.&JoyceG.F.,PCR Methods Applic.,2:28-33,1992,其公开内容在此整体引用作为参考。简言之,在这些方法中,要诱变的核酸与PCR引物,反应缓冲液,MgCl2,MnCl2,Taq聚合酶和合适浓度的dNTP混合以便产生沿PCR产物全长的高点突变率。例如,反应可采用20fmole要诱变的核酸,30pmole每种PCR引物,含有50mM KCl,10mM Tris HCI(pH8.3)和0.01%明胶,7mM MgCI2,0.5mM MnCl2,5单位Taq聚合酶,0.2mMdGTP,0.2mM dATP,1mM dCTP和1mM dTTP的反应缓冲液进行。PCR的执行可在94℃1分钟,45℃1分钟和72℃1分钟进行30个循环。但是可以理解的是,这些参数可适当变化。诱变的核酸可被克隆仅合适的载体中,并评价由诱变的核酸编码的多肽的活性。
变异体也可采用寡核苷酸定向诱变(oligonucleotide directedmutagenesis)来建立以在任何已克隆的目的DNA中产生位点特异性突变。寡核苷酸诱变的描述见Reidhaar-Olson,J.F.&Sauer,R.T.等人,Science,241:53-57,1988,其公开内容在此整体引用作为参考。简言之,在这种方法中,合成了大量要被导入至已克隆DNA中的含有一个或多个突变的双链寡核苷酸,并将其插入至要被诱变的已克隆DNA中。含有诱变DNA的克隆被回收,并评价它们所编码的多肽的活性。
产生变异体的另一种方法是装配PCR(assembly PCR)。装配PCR涉及装配来自小DNA片段混合物中的PCR产物。大多数不同的PCR反应在同一个瓶中并行发生,一个反应的产物触发另一个反应的产物。装配PCR的描述见于1996年7月9日提出申请的美国专利5,965,408,题为“通过中断合成进行的DNA再组装法”,其公开内容在此整体引用作为参考。
产生变异体的还有另一个方法是有性PCR诱变(sexual PCRmutagenesis)。在有性PCR诱变中,在体外不同但高度相关的DNA序列的DNA分子之间发生强制的同源重组,它是根据序列同源性的DNA分子随机断裂的结果,然后通过在PCR反应中的引物延伸固定交换体。有性PCR诱变的描述见Stemmer,W.P.,PNAS,USA,91:10747-10751,1994,其公开内容在此引用作为参考。简言之,在这种方法中,大多数要被重组的核酸被DNAse消化产生含有平均大小为50-200个核苷酸的片段。所需平均大小的片段被纯化,并在PCR混合物中再悬浮。在可促进核酸片段之间重组的条件下进行PCR。例如,可通过在10-30ng/:1的浓度下在含有0.2mM每种dNTP,2.2mM MgCl2,50mM KCL,10mMTris HCl,pH9.0,和0.1%Triton X-100的溶液中再悬浮纯化片段来进行PCR。每100∶1的反应混合物中加入2.5单位Taq聚合酶,并按照如下的方案进行PCR:94℃60秒,94℃30秒,50-55℃30秒,72℃30秒(30-45次)和72℃5分钟。但可以理解的是,这些参数可适当变化。在一些实施方案中,寡核苷酸可包含在PCR反应中。在另一些实施方案中,可在第一组PCR反应中使用DNA聚合酶I的Klenow片段,在随后的一组PCR反应中可使用Taq聚合酶。分离重组的序列,并评价它们编码的多肽的活性。
也可通过体内诱变来产生变异体。在一些实施方案中,在目的序列上的随机突变的产生可通过将目的序列传递至细菌菌株,如大肠杆菌菌株中,后者在一个或多个DNA修复通路中携带突变。这些“突变基因”较野生型的亲代有更高的随机突变率。在这些菌株之一中传递DNA最终将在DNA中产生随机的突变。适合用于体内诱变的突变基因菌株的描述见PCT出版物WO91/16427,1991年10月31日出版,题为“从多个基因群中建立显型的方法”,其公开内容在此整体引用作为参考。
也可采用盒式诱变(cassette mutagenesis)产生变异体。在盒诱变中,双链DNA分子的一个小区域被合成的不同于天然序列的寡核苷酸“盒”替代。寡核苷酸通常含有全部和/或部分随机化的天然序列。
也可使用循环系综诱变(recursive ensemble mutagenesis)来产生变异体。循环系综诱变是蛋白质工程(蛋白质诱变)的一种算法,开发用来产生基因型相关的在氨基酸序列上有差异的突变体的多种群体。这种方法采用反馈机制来控制组合的盒式诱变的连续次数。循环系综诱变的描述见Arkin,A.P.和Youvan,D.C.,PNAS,USA,89:7811-7815,1992,其公开内容在此整体引用作为参考。
在一些实施方案中,可采用指数系综诱变(exponential ensemblemutagenesis)来建立变异体。指数系综诱变是一个产生具有高比例独特和功能性突变体的组合文库的方法,其中残基的小基团被平行随机化以在每个改变的位置上鉴定可产生功能性蛋白的氨基酸。指数系综诱变的描述见Delegrave,S.和Youvan,D.C.,Biotechnology Research,11:1548-1552,1993,其公开的内容在此整体引用作为参考文献。随机和定点诱变的描述见Arnold,F.H.,Current Opinion in Biotechnology,4:450-455,1993,其公开内容在此整体引用作为参考文献。
在一些实施方案中,采用改组(shaffling)的方法来建立变异体,其中大多数编码不同多肽的核酸的一部分被融合在一起以建立编码嵌合多肽的嵌合核酸序列,其描述见于1996年7月9日提出申请的美国专利5,965,408,,题为“通过中断合成进行的DNA再组装法”,和于1996年5月22日提出申请的美国专利第5,939,250,题为“通过诱变产生具有所需活性的酶”,两者均在此引用作为参考。
B组氨基酸序列的多肽变异体是可以一些变异体,其中B组氨基酸序列多肽的一个或多个氨基酸残基被替代为保守的或非保守的氨基酸残基(优选保守的氨基酸残基),这种被替代的氨基酸残基是或不是由遗传密码编码的。
保守的替代作用是在一个多肽内一个特定的氨基酸被另一个类似特性的氨基酸替代。典型可见到的保守替代作用是下列的取代:用另一个脂肪族氨基酸取代脂肪族氨基酸如丙氨酸,缬氨酸,亮氨酸和异亮氨酸;用苏氨酸取代丝氨酸或反之;用另一个酸性残基取代酸性残基如天冬氨酸和谷氨酸;用另一个含有酰胺基团的残基取代含有酰胺基团的残基,如天冬酰胺和谷氨酰胺;用另一个碱性残基交换一个碱性残基如赖氨酸和精氨酸;用另一个芳香族残基取代芳香族残基如苯丙氨酸,酪氨酸。
其他的变异体是其中B组氨基酸序列的多肽的一个或多个氨基酸残基中含有取代基团的变异体。
还有其他的变异体是其中多肽与另一个化合物,如增加多肽半衰期的化合物(例如,聚乙二醇)结合的变异体。
其他的变异体是,其中其他的氨基酸与多肽融合,如前导序列,分泌序列,蛋白原序列或可促进多肽的纯化,富集或稳定的序列。
在一些实施方案中,片段,衍生物和类似物保留了与B组氨基酸序列和基本上与它们一致的序列的多肽相同的生物学功能或活性。在其他的实施方案中,片段,衍生体或类似物包括原蛋白,这样片段,衍生物或类似物可通过切断原蛋白部分而被激活,产生一个活性多肽。
本发明的另一个方面是一些多肽或其片段,它们与B组氨基酸序列和基本上与它们一致的序列的多肽,或含有其至少5,10,15,20,25,30,35,40,50,75,100,或150个连续氨基酸的片段具有至少大约50%,至少大约55%,至少大约60%,至少大约65%,至少大约70%,至少大约75%,至少大约80%,至少大约85%,至少大约90%,至少大约95%,或超过大约95%的同源性。可采用上述的任何一种程序确定同源性,该程序可排列要比较的多肽或片段,并确定在它们之间的氨基酸同一性或相似性的程度。可以理解的是氨基酸“同源性”包括连续的氨基酸替代作用如上述的那些替代。
与B组氨基酸序列和基本上与它们一致的序列的多肽之一,或含有其至少大约5,10,15,20,25,30,35,40,50,75,100,或150个连续氨基酸的片段有同源性的多肽或片段可通过采用上述的技术分离编码它们的核酸而获得。
可选择地,同源的多肽或片段可通过生物化学富集或纯化步骤来获得。潜在同源的多肽或片段的序列可通过蛋白水解消化,凝胶电泳和/或微序列测定而确定。预期同源的多肽或片段的序列可采用上述的任何一个程序与B组氨基酸序列和基本上与它们一致的序列的多肽,或含有其至少大约5,10,15,20,25,30,35,40,50,75,100,或150个连续氨基酸的片段进行比较。
本发明的另一个方面是鉴定B组氨基酸序列和基本上与它们一致的序列的片段或变异体的测定法,该片段或变异体保留了B组氨基酸序列和基本上与它们一致的序列的酶功能。例如,所述多肽的片段或变异体可被用来催化生化反应,这表明该片段或变异体保留了B组氨基酸序列中多肽的酶活性。
确定变异体的片段是否保留B组氨基酸序列和基本上与它们一致的序列的多肽的酶活性的测定实验包括以下步骤:将多肽片段或变异体与一个底物分子在允许多肽片段或变异体发挥作用的条件下进行接触,并检测底物水平是否降低或在多肽和底物之间反应的特异反应产物水平是否增加。
B组氨基酸序列和基本上与它们一致的序列的多肽或含有其至少5,10,15,20,25,30,35,40,50,75,100,或150个连续氨基酸的片段可用在多种应用中。例如,其多肽或片段可用于催化生化反应。根据本发明的一个方面,提供了利用B组氨基酸序列和基本上与它们一致的序列或编码这些多肽的多核苷酸进行水解糖苷键的方法。在这种方法中,含有糖苷键的物质(如淀粉)与B组氨基酸序列,或基本上与它们一致的序列的其中一个多肽在可促进糖苷键水解的条件下接触。
B组氨基酸序列和基本上与它们一致的序列的多肽或含有其至少5,10,15,20,25,30,35,40,50,75,100,或150个连续氨基酸序列的片段,也可用于产生与多肽或片段特异结合的抗体。得到的抗体可用于免疫亲合色谱法以分离或纯化多肽或确定多肽是否存在于生物样品中。在这样的方法中,蛋白质制剂如提取物,或生物样品与能特异结合B组氨基酸序列和基本上与它们一致的序列的其中一个多肽,或含有其至少5,10,15,20,25,30,35,40,50,75,100,或150个连续氨基酸的片段的抗体接触。
在免疫亲合法中,抗体吸附在一个固体支持物上,如珠子或其他的柱基质。蛋白制剂被置入,在抗体可特异结合B组氨基酸序列和基本上与它们一致的序列的其中一个多肽,或其片段的条件下与抗体接触。冲洗去除非特异结合蛋白后,洗脱特异结合的多肽。
生物样品中蛋白质结合抗体的能力可采用本领域专业技术人员所熟悉的多种方法的任何一种来测定。例如,可通过用可检测到的标记物如荧光剂,酶标记,或放射线同位素来标记抗体以测定结合。可选择地,抗体与样品的结合可采用具有这些可检测标记物的二级抗体来检测。特殊的测定包括ELISA测定,夹心测定,放射免疫测定和Western印迹。
产生的针对B组氨基酸序列和基本上与它们一致的序列或含有其至少5,10,15,20,25,30,35,40,50,75,100,或150个连续氨基酸的片段的多克隆抗体可通过将多肽直接注射到动物体内或将多肽给予动物,如非人的动物而获得。这样获得的抗体然后与多肽本身结合。以这种方式,即使仅编码多肽的一个片段的序列也可用于产生可与整个天然多肽结合的抗体。然后这样的抗体可用于从表达这种多肽的细胞中分离多肽。
为了制备单克隆抗体,可以使用任何可提供抗体的技术,所述抗体由连续细胞系培养产生。实例包括杂交瘤技术(Kohler和Milstein,Nature,256:495-497,1975,其公开内容在此引用作为参考),三系杂交瘤(trioma)技术,人B-细胞杂交瘤技术(Kozbor等人,Immunology Today4:72,1983,其公开内容在此引用作为参考),和EBV-杂交瘤技术(Cole等人,1985,单克隆抗体和癌症治疗,Alan R.Liss,Inc.,77-96页,其公开内容在此引用作为参考)。
描述用来产生单链抗体(美国专利第4,946,778,其公开内容在此引用作为参考)的技术适合产生B组氨基酸序列,和基本上与它们一致的序列的多肽,或含有其至少5,10,15,20,25,30,35,40,50,75,100,或150个连续氨基酸的片段的单链抗体。可选择地,转基因鼠可用来表达这些多肽或其片段的人源化抗体。
针对B组氨基酸序列和基本上与它们一致的序列的多肽,或含有其至少5,10,15,20,25,30,35,40,50,75,100,或150个连续氨基酸的片段产生的抗体可用于筛选其他生物体和样品中的相似多肽。在这些技术中,生物体的多肽与抗体接触,与抗体特异结合的多肽被检测。上述的任何一种方法可用来检测抗体结合。一种这样的筛选实验描述在“测定纤维素酶活性的方法”中,Methods in Enzymology,160卷,87-116页,在此整体引用作为参考。
如在此所使用的,术语“在SEQ ID NO:3,5,7,9,11,13,15,17,19,21,23,25,27,29,31,33,35,37,43,45和47中列出的核酸序列”包括A组核酸序列,和基本上与它们一致的序列的核苷酸序列,以及与A组核酸序列和其片段同源的序列和所有前述序列的互补序列。片段包括SEQ ID NO:3,5,7,9,11,13,15,17,19,21,23,25,27,29,31,33,35,37,43,45和47的部分,含有A组核酸序列和基本上与它们一致的序列中至少10,15,20,25,30,35,40,50,75,100,150,200,300,400,或500个连续核苷酸。同源序列和A组核酸序列和基本上与它们一致的序列的片段,是指具有与这些序列有至少99%,98%,97%,96%,95%,90%,85%,80%,75%,70%,65%,60%,55%或50%同源性的序列。同源性可采用任何一种计算机程序和在此所描述的参数来测定,包括以缺省参数的FASTA3.0t78版。同源序列也包括RNA序列,其中在A组核酸序列中列出的核酸序列中尿嘧啶代替了胸腺嘧啶。同源序列可采用任何一个在此描述的方法获得或通过矫正测序错误而得到。将可以理解的是如在A组核酸序列和基本上与它们一致的序列中所列出的核酸序列可以以传统的单字符格式来代表(见Stryer,Lubert.生物化学,第三版,W.HFreeman & Co.,New York.的内部背面)或以任何其他可记录核苷酸在序列中同一性的格式。
如在此所使用的术语“在SEQ ID NO:4,6,8,10,12,14,16,18,20,22,24,26,28,30,32,34,36,38,44,46和48中列出的多肽序列”包括B组氨基酸序列和基本上与它们一致的序列的多肽序列,其中它们由SEQ ID NO:3,5,7,9,11,13,15,17,19,21,23,25,27,29,31,33,35,37,43,45和47中列出的序列,与B组氨基酸序列和基本上与它们一致的序列同源的多肽序列,或任何前述序列的片段编码。同源多肽序列是指具有与B组氨基酸序列的其中一个多肽序列至少有99%,98%,97%,96%,95%,90%,85%,80%,75%,70%,65%,60%,55%或50%同源性的多肽序列。同源性可采用在此描述的任何一个计算机程序和参数,包括缺省参数或任何修改的参数的FASTA3.0t78版来测定。同源序列可采用在此所描述的任何一种方法获得或通过矫正测序错误而得到。含有B组氨基酸序列和基本上与它们一致的序列的多肽中至少5,10,15,20,25,30,35,40,50,75,100,或150个连续氨基酸的多肽片段可用传统的单字符格式或三字母格式来表示(见Stryer,Lubert.生物化学,第三版,W.H Freeman & Co.,New York.的内部背面)或以任何其他涉及序列中多肽同一性的格式。
本领域专业技术人员可以理解的是在SEQ ID NO:3,5,7,9,11,13,15,17,19,21,23,25,27,29,31,33,35,37,43,45和47中列出的核酸序列,和在SEQ ID NO:4,6,8,10,12,14,16,18,20,22,24,26,28,30,32,34,36,38,44,46和48中列出的多肽序列可被储存,记录,在任何可被计算机读取和存取的介质中处理。如在此所使用的,词语“记录”和“储存”是指在计算机介质中储存信息的过程。专业技术人员可很容易的采用任何一种现在已知的方法,在计算机可读介质上记录信息以产生一些制品,它们含有A组核酸序列和基本上与它们一致的序列中列出的一个或多个核酸序列,B组氨基酸序列和基本上与它们一致的序列中列出的一个或多个多肽序列。本发明的另一个方面是已经记录了A组核酸序列和基本上与它们一致的序列中列出的至少2,5,10,15,或20个核酸序列的一个计算机可读介质。
本发明的另一个方面是已经记录了A组核酸序列和基本上与它们一致的序列中的一个或多个核酸序列的一个计算机可读介质。本发明的另一个方面是已经记录了B组氨基酸序列和基本上与它们一致的序列中的一个或多个多肽序列的一个计算机可读介质。本发明的另一个方面是已经记录了上述列出的序列中至少2,5,10,15或20个序列的一个计算机可读介质。
计算机可读介质包括磁性可读介质,光学可读介质,电子可读介质和磁性/光学介质。例如,计算机可读介质可以是硬盘,软盘,磁带,CD-ROM,数据通用磁盘(DVD),随机存取存储器(RAM),或只读存储器(ROM)以及其他本领域专业技术人员了解的其他类型的其他介质。
本发明的实施方案包括系统(如基于因特网的系统),特殊的是可储存和处理在此所描述的序列信息的计算机系统。在图1中以结构图的形式说明了计算机系统100的一个实例。如在此所使用的,“计算机系统”是指硬件部分,软件部分,和用来分析A组核酸序列和基本上与它们一致的序列中列出的核酸序列的核苷酸序列,或B组氨基酸序列中列出的多肽序列的数据储存部件。计算机系统100典型地包括加工,存取和处理序列数据的处理器。处理器105可以是熟知的任何类型的中央处理器,如英特尔公司的奔腾III,或太阳,摩托罗拉,康柏,AMD或国际商业机器公司的相似处理器。
典型地计算机系统100是一个普通用途的系统,包括处理器105和用来储存数据的一个或多个内部数据储存部件110,和用来获取储存在数据储存部件中的数据的一个或多个数据获取装置。专业技术人员可很容易的理解,任何一个目前可获得的计算机系统均是合适的。
在一个特殊的实施例中,计算机系统100包括与总线连接的处理器105,其中总线是与主存储器115(优选以RAM实现)相连的,和一个或多个内部数据储存装置110,如硬磁盘机和/或其他已经记录数据的计算机可读介质。在一些实施方案中,计算机系统100进一步包括一个或多个从内部数据储存装置110上读取数据的数据获取装置。
数据获取装置118可代表,例如软盘驱动器,光盘驱动器,磁带驱动器,或能够连接远程数据储存系统(如,经互联网)的调制解调器等。在一些实施方案中,内部数据储存装置110是一个可移动的计算机可读介质,如软盘,光盘,磁带等,含有控制逻辑和/或记录在上面的数据。一旦插入至数据获取装置中,计算机系统100可方便地包括或通过合适的软件编程以读取控制逻辑和/或从数据储存部件中读取数据。
计算机系统100包括显示器120,后者可用来对计算机用户进行显示输出。也应该注意的是计算机系统100可与网络或广域网中的其他计算机系统125a-c相连接,以便提供对计算机系统100的集中存取。
存取和处理A组核酸序列和基本上与它们一致的序列中列出的核酸序列的核苷酸序列,或B组氨基酸序列和基本上与它们一致的序列的多肽序列的软件(如搜索工具,比较工具,和构型工具等)可在执行过程中驻留在主存储器115中。
在一些实施方案中,计算机系统100可进一步包括序列比较算法,用于对储存在计算机可读介质上的A组核酸序列和基本上与它们一致的序列中列出的核酸序列,或B组氨基酸序列和基本上与它们一致的序列中列出的多肽序列与储存在计算机可读介质上的参考核苷酸或多肽序列进行比较。“序列比较算法”是指一个或多个可在计算机系统100中执行(本地或远程)以对储存在一个数据储存装置中的核苷酸序列和其他核苷酸序列和/或化合物进行比较。例如,序列比较算法可对储存在一个计算机可读介质上的A组核酸序列和基本上与它们一致的序列中列出的核酸序列的核苷酸序列,或B组氨基酸序列和基本上与它们一致的序列中列出的多肽序列,与储存在一个计算机可读介质上的参考序列进行比较,以鉴定同源性或结构基序。在此专利说明书中在其他地方鉴定的多种序列比较程序可特殊地被考虑用于本发明的这个方面。蛋白质和/或核酸序列同源性可采用本领域已知的任何一种序列比较算法和程序来评价。这种算法和程序包括但不限于,TBLASTN,BLASTP,FASTA,TFASTA,和CLUSTALW(Pearson Lipman,Proc.Natl.Acad.Sci.USA85(8):2444-2448,1988;Altschul等人,J.Mol.Biol.215(3):403-410,1990;Thompson等人,Nucleic Acids Res.22(2):4673-4680,1994;Higgins等人,Methods Enzymol.266:383-402,1996;Altschul等人,J.MoL Biol.215(3):403-410,1990;Altschul等人,NatureGenetics3:266-272,1993)。
同源性或同一性经常采用序列分析软件来进行测定(如,GeneticsComputer Group的序列分析软件包,威斯康星大学生物技术中心,1710University Avenue,Madison,W153705)。该软件可通过指定同源性的程度来对多个删除,替代和其他修饰来匹配相似序列。术语“同源性”和“同一性”在两个或多个核酸或多肽序列的情况下,是指当在对比窗或指定区域被比较和排列时,两个或多个相同的或特定比例氨基酸残基或核苷酸是相同的序列或子序列,其测定可采用任何数量的序列比较算法或通过人工排列和目测。
为了序列比较,典型地一个序列可作为参考序列,检测序列可与之比较。当使用序列比较算法时,检测和参考序列输入至计算机中,顺序坐标被指定,如果需要,序列算法程序参数可被指定。可使用缺省的程序参数,或可指定可选择的参数。然后序列比较算法基于程序参数,计算检测序列相对参考序列的序列同一性百分比。
如在此所使用的,“比较窗”,包括任何数目连续位点片段的坐标,该位点包括从20至600,通常大约50至大约200,更普遍的大约100至大约150,其中序列可在两个序列最佳对准后,与相同数目连续位点的参考序列相比较。为比较进行序列对准的方法在本领域中是为人熟知的。可通过如下算法进行为比较进行的最佳序列对准,例如Smith&Waterman的局部同源性算法,Adv.Appl.Math.2:482,1981,Needleman&Wunsch的同源性对准算法,J.Mol.Biol48:443,1970,person&Lipman的相似性检索法,Proc.Nat’l.Acad.Sci.USA85:2444,1988,这些算法的计算机化工具(Wisconsin Genetics Software Package中的GAP,BESTFIT,FASTA,和TFASTA,Genetics Computer Group,575ScienceDr.,Madison,WI),或人工排列和目测。其他确定同源性或同一性的算法,包括,例如,除BLAST程序外(国家生物学信息中心的碱基局部对准搜索工具),ALIGN,AMAS(多重对准序列分析),AMPS(蛋白质多重序列对准),ASSET(对准片段统计评价工具),BANDS,BESTSCOR,BIOSCAN(生物学序列比较分析节点),BLIMPS(BLocks IMProvedSearcher),FASTA,Intervals&Points,BMB,CLUSTAL V,CLUSTAL W,CONSENSUS,LCONSENSUS,WCONSENSUS,Smith-Waterman算法,DARWIN,Las Vegas算法,FNAT(强制核苷酸对准工具),Framealign,Framesearch,DYNAMIC,FILTER,FSAP(Fristensky序列分析包),GAP(通用对准程序),GENAL,GIBBS,GenQuest,ISSC(敏感性序列比较),LALIGN(局部序列对准),LCP(局部容量程序),MACAW(多重对准构建和分析工作台),MAP(多重对准程序),MBLKP,MBLKN,PIMA(模式感应的多重序列对准),SAGA(遗传算法的序列对准)和WHAT-IF。这样的对准程序也用于筛选基因组数据库以鉴定含有基本上相同序列的多核苷酸。许多基因组数据库是可以获得的,例如,人类基因组的重要部分可作为人类基因组测序项目的一部分而获得(J.Roach,http://weber.u.Washington.edu/~roach/human_genome_progress2.html)(Gibbs,1995)。至少21个其他的基因组已经被测序,例如包括,生殖器支原体(M.genitalium)(Fraser等人,1995),甲烷球菌(M.jannaschii)(Bult等人,1996),流行性感冒嗜血杆菌(H.influenzae)(Fleischmann等人,1995),大肠杆菌(Blattner等人,1997),和酵母(酿酒酵母)(Mewes等人,1997),和果蝇(D.melanogaster)(Adams等人,2000)。在生物体模型基因组的测序上已经获得了显著的进展,如小鼠,线虫(C.elegans),和拟南芥(Arabadopsis sp)。含有基因组信息和一些功能性信息的几个数据库可通过不同的组织获得,可经互联网获得,例如http://wwwtigr.org/tdb;http://www.genetics.wisc.edu;ttp://genome-www.stanford.edu/~ball;http://hiv-web.lanl.gov;http://www.ncbi.nlm.nih.gov;http://www.ebi.ac.uk;http://Pasteur.fr/other/biology;和http://www.genome.wi.mit.edu。
有用的算法的实例是BLAST和BLAST2.0算法,它们的描述分别分别见Altschul等人,Nuc.Acids Res.25:3389-3402,1977,和Altschul等人,J.Mol.Biol.215:403-410,1990。执行BLAST分析的软件可通过国家生物学信息中心(http://www.ncbi.nlm.Nih.gov/)公开获得。这种算法涉及首先通过在查询序列中鉴定长度为W的短字节而鉴定高积分片段配对(HSPs),当与数据库序列中相同长度的字节对准时,可匹配或满足一些阳性意义的临界值分值T。T是指邻近的字节分数临界值(Altschul等人,见上文)。这些初始的邻近字节采样可作为启动寻找含有它们的更长HSPs的搜索的种子。字节采样沿着每个序列的两个方向延伸直至累计的对准分值增加。核苷酸序列累计的分值采用参数M(对一对匹配残基的回馈分值;一般>0)来计算。对于氨基酸序列,评分矩阵用来计算累计分值。在每个方向字节采样的延伸当以下情况时中止:累计对准分值从最大值降低数量X;由于积累了一个或多个阴性分值的残基对准,累计分值到达0或以下;或到达每条序列的终点。BLAST算法参数W,T和X确定了对准的敏感性和速度。BLASTN程序(对于核苷酸序列)使用的缺省字节长度(W)为11,期望值(E)为10,M=5,N=-4,并比较两条链。对于氨基酸,BLASTP程序使用的缺省字节长度为3,和期望值(E)为10,BLOSUM62评分矩阵(见Henikoff & Henikoff,Proc.Natl.Acad.Sci.USA89:10915,1989)对准(B)为50,期望值(E)为10,M=5,N=-4,并比较两条链。
BLAST算法也在两个序列之间进行相似性的统计学分析(见,如Karlin&Altschul,Proc.Natl.Acad.Sci.USA90:5873,1993)。BLAST算法提供的相似性测定是最小的总和概率(P(N)),它提供了两个核酸或氨基酸序列间的匹配偶然发生的可能性的指征。例如,如果在检测核酸与参考核酸比较的最小总和概率小于大约0.2,更优选的小于大约0.01,和最优选的小于大约0.001,核酸被认为与参考序列相似。
在一个实施方案中,蛋白和核酸序列同源性可采用碱基局部对准搜索工具(“BLAST”)来评价。特别的是,5个特殊的BLAST程序可用来进行下面的工作:
(1)BLASTP和BLASTP3比较一个氨基酸查询序列和蛋白质序列数据库;
(2)BLASTN比较一个核苷酸查询序列和一个核苷酸序列数据库;
(3)BLASTX比较查询核苷酸序列(两股)的6框概念翻译产物和蛋白质序列数据库;
(4)TBLASTN比较一个查询蛋白质序列和一个在所有6种可读框架内(两股)翻译的核苷酸序列数据库;和
(5)TBLASTX比较一个核苷酸查询序列的6框翻译和一个核苷酸序列数据库的6框翻译。
BLAST程序可通过鉴别相似的片段而鉴定同源性序列,相似片段在此是指在查询氨基酸或核酸序列和优选从蛋白质或核酸序列数据库中获得的检测序列之间的“高积分片段配对”。高积分片段配对优选通过评分矩阵的方法来鉴定(即对准),其中许多方法在本领域中是已知的。优选地,可使用的评分矩阵是BLOSUM62矩阵(Gonnet等人,Science256:1443-1445,1992;Henikoff和Henikoff,Proteins17:49-61,1993)。不太优选地,也可使用PAM或PAM250矩阵(见,如,Schwartz和Dayhoff主编,1978,检测距离关系的矩阵:蛋白质序列和结构图集,华盛顿:国家生物医学研究基金会)。BLAST程序可通过美国国家医学图书馆获得,如在www.ncbi.nlm.nih.gov。
用在上述算法中的参数可根据要研究的序列长度和同源性的程度而改变。在一些实施方案中,在缺少用户的说明时可使用算法的缺省参数。
图2是描述为确定新序列和数据库中的序列之间的同源性,将新核苷酸或蛋白质序列与序列数据库比较的程序200的一个实施方案的流程图。序列的数据库可是在计算机系统100中储存的一个私人数据库,或是公共数据库如通过互联网可获得的GENBANK。
程序200在起始状态201开始,然后进展至状态202,其中要被比较的新序列被储存在计算机系统100中的存储器中。如上所述,存储器可以是任何类型的存储器,包括RAM或内部存储装置。
程序200然后进展至状态204,其中序列的数据库为分析和比较而开放。程序200然后进展至状态206,其中在数据库中储存的第一条序列被读入计算机的存储器中。然后在状态210进行比较以确定第一条序列是否与第二条序列相同。重要的是要注意这个步骤不限于在新序列和数据库中的第一条序列进行精确的比较。比较两个核苷酸或蛋白质序列的方法是本领域专业技术人员熟知的,即使它们不完全相同。例如,空位可被引入到一个序列中以便提高两个检测序列之间的同源性水平。控制是否在比较的过程中向一个序列中引入空位或其他特征的参数一般可由计算机系统的用户输入。
一旦两个序列的比较在状态210已经被执行,则在判定状态210获得判定值,两个序列是否是相同的。当然,术语“相同”并不限于序列完全相同。在由用户输入的同源性参数内的序列将在程序200中被标记为“相同的”。
如果获得了两个序列是相同的判定值,程序200则进展至状态214,其中来自数据库的序列名称显示给用户。该状态通知用户显示名称的序列满足所输入的同源性限制。一旦储存的序列名称显示给用户,程序200进展至判定状态218,其中可获得判定值,是否更多的序列存在于数据库中。如果在数据库中不存在更多的序列,程序200则在终止状态220中止。但如果有更多的序列存在于数据库中,程序200则进展至状态224,其中指示器移动至数据库中的下一个序列,以便与新的序列比较。以这种方式,新的序列被与数据库中的每一个序列进行对准和比较。
应该注意的是如果在判定状态212已经获得序列不同源的判定值,,程序200则将立即进展至判定状态218以确定数据库中是否有任何其他的序列要比较。
因此,本发明的一个方面是一个计算机系统,该系统包括:一个处理器;一个数据存储装置,其上已经储存了A组核酸序列和基本上与它们一致的序列中列出的核酸序列,或在B组氨基酸序列和基本上与它们一致的序列中列出的多肽序列;一个数据存储装置,其上已经储存了可获取的要与A组核酸序列和基本上与它们一致的序列中列出的核酸序列,或B组氨基酸序列和基本上与它们一致的序列中列出的多肽序列进行比较的参考核苷酸序列或多肽序列;和一个进行比较的序列比较仪。序列比较仪可指示比较的序列之间的同源性水平,或者在上述A组核酸序列和基本上与它们一致的序列的核酸密码或B组氨基酸序列和基本上与它们一致的序列中列出的多肽序列中鉴定结构基序,或者可在与这些核酸密码和多肽密码比较的序列中鉴定结构基序。在一些实施方案中,数据储存装置可在其中储存A组核酸序列和基本上与它们一致的序列中列出的核酸序列中,或B组氨基酸序列和基本上与它们一致的序列中列出的多肽序列中的至少2,5,10,15,20,25,30,或40个序列。
本发明的另一个方面是在A组核酸序列和基本上与它们一致的序列中列出的核酸序列或在B组氨基酸序列和基本上与它们一致的序列中列出的多肽序列,和参考核苷酸序列之间确定同源性水平的一种方法。该方法包括通过使用可确定同源性水平的计算机程序读取核酸密码或多肽密码和参考核苷酸或多肽序列,并在核酸密码或多肽密码和参考核苷酸或多肽序列之间用计算机程序来确定同源性。计算机程序可以是任何一个可确定同源性水平的计算机程序,包括那些在此特别列举的程序(如,BLAST2N,使用缺省参数或使用任何修改的参数)。该方法可采用上述的计算机系统来实现。该方法也可如下进行,即通过使用计算机程序读取A组核酸序列中列出的上述核酸序列中,或B组氨基酸序列中列出的多肽序列中的至少2,5,10,15,20,25,30,或40或更多的序列,并在核酸密码或多肽密码和参考核苷酸序列或多肽序列之间确定同源性。
图3是描述在一个计算机中为确定两条序列是否同源的程序250的一个实施方案的流程图。程序250从起始状态252开始,然后进展至状态254,其中第一条要比较的序列存储在存储器中。要比较的第二条序列然后在状态256时被储存在存储器中。然后程序250进展至状态260,其中在第一条序列中的第一个字符被读取,然后进展至状态262,其中第二条序列的第一个字符被读取。应该理解的是,如果序列是核苷酸序列,正常情况下参数将是A,T,C,G或U中的一个。如果序列是蛋白质序列,则优选单一字母的氨基酸编码,以便第一条和第二条序列可被很容易的比较。
然后在判定状态264判定两个字符是否相同。如果它们是相同的,程序250则进展至状态268,其中第一条和第二条序列中的下一个字符被读取。然后判定下一个字符是否相同。如果相同,程序250则继续此循环直至两个字符不相同为止。如果判定下两个字符不相同,程序250则进展至判定状态274以确定每条序列的其他任何字符是否要读取。
如果没有其他任何字符要读取,程序250则进展至状态276,其中第一条和第二条序列间同源性的水平显示给用户。通过计算相同序列间的字符与第一条序列中序列总数的比例可确定同源性水平。因此,如果第一条100个核苷酸序列的每个字符与第二条序列中的每一个字符对准时,同源性水平将为100%。
可选择的是,计算机程序可以是这样一个计算机程序,即将在本发明中产生的核酸序列的核苷酸序列与一条或多条参考核苷酸序列比较,以便确定A组核酸序列和基本上与它们一致的序列的核酸编码是否与在一个或多个位置上不同于参考核酸序列。可任选的,这样一个程序可记录关于在A组核酸序列中列出的参考多核苷酸或核酸序列,及基本上与它们一致的序列的插入,删除或替代核苷酸。在一个实施方案中,计算机程序可以是这样一个计算机程序,即可确定在A组核酸序列中列出的核酸序列和基本上与它们一致的序列是否含有关于参考核苷酸序列的单核苷酸多态性(SNP)。
因此,本发明的另一个方面是一种方法,用于确定在A组核酸序列中列出的核酸序列,和基本上与它们一致的序列在一个多个核苷酸上是否与参考核苷酸序列不同,所述方法的步骤包括使用可鉴别核酸序列间差异的计算机程序来读取核酸编码和参考核苷酸序列,并采用计算机程序鉴别核酸编码和参考核苷酸序列之间的差异。在一些实施方案中,计算机程序是一个可鉴别单核苷酸多态性的程序。该方法可通过上述的计算机程序来实现,该法在图3中图解说明。该方法的执行也可通过使用计算机程序在A组核酸序列中列出的核酸序列和基本上与它们一致的序列,以及参考核苷酸序列中读取至少2,5,10,15,20,25,30或40或更多的序列,并采用计算机程序鉴别核酸编码和参考核苷酸序列之间的差异。
在其他的实施方案中,计算机化的系统可进一步包括在A组核酸序列中列出的核酸序列或在B组氨基酸序列中列出的多肽序列,及基本上与它们一致的序列中鉴别特征的标识符。
“标识符”是指一个或多个可在A组核酸序列中列出的核酸序列和基本上与它们一致的序列,或在B组氨基酸序列中列出的多肽序列,和基本上与它们一致的序列中鉴别某种特征的程序。在一个实施方案中,标识符可包含一个可在A组核酸序列中列出的核酸序列,和基本上与它们一致的序列中鉴别一个开放阅读框的程序。
图5是一个描述在一个序列中检测一种特征存在的标识符程序300的一个实施例的流程图。程序300在起始状态302开始,然后进展至状态304,其中要被检查特征的第一条序列被储存在计算机系统100中的存储器115中。程序300然后进展至状态306,其中序列特征数据库是开放的。这样一个数据库将包括一个与特征名称并列的每个特征属性的列表。例如,一个特征名称可能是“初始密码子”,属性将是“ATG”。另一个实例是特征名称为“TAATAA盒”,特征属性为“TAATAA”。这样一个数据库的实例是由Wisconsin Genetics ComputerGroup(www.gcg.com)大学所开发的。可选择地,特征可以是结构性多肽基序如α螺旋,β片层或功能性的多肽基序如酶活性位点,螺旋-转角-螺旋基序或其他本领域专业技术人员已知的基序。
一旦特征数据库在状态306开放,程序300则进展至状态308,其中第一个特征从数据库中读取。然后在状态310进行第一个特征属性与第一个序列的比较。在判定状态316获得判定结果是否在第一条序列中能发现特征的属性。如果发现了属性,程序300则转移至状态318,其中所发现特征的名称显示给用户。
程序300然后进展至判定状态320,其中得出结果是否更多的特征仍然存在于数据库中。如果不存在更多的特征,程序300将在终止状态324处结束。但是,如果更多的特征存在于数据库中,程序300将在状态326读取下一个序列特征,并循环回到状态310,其中下一个特征的属性与第一条序列相比较。
应该注意的是,如果特征属性在判定状态316处的第一条序列中没有被发现,程序300会直接进展到判定状态320以便确定是否有更多的特征存在于数据库中。
相应地,本发明的另一方面是一种方法,用于在如在A组核酸序列中列出的核酸序列,和基本上与它们一致的序列内,或如在B组氨基酸序列内列出的多肽序列和基本上与它们一致的序列内鉴别一种特征,所述方法包括通过使用一种计算机程序读取核酸编码或多肽编码,并采用计算机程序在核酸编码中鉴别这些特征,其中所述的计算机程序可在其中鉴别特征。在一个实施方案中,计算机程序包含鉴别开放阅读框的计算机程序。该方法的执行是通过使用计算机程序读取一个单一序列或如在A组核酸序列中列出的核酸序列,和基本上与它们一致的序列,或如在B组氨基酸序列中列出的多肽序列和基本上与它们一致的序列内至少2,5,10,15,20,25,30,或40个序列,并用计算机程序鉴定核酸编码或多肽编码中的特征。
如在A组核酸序列中列出的核酸序列和基本上与它们一致的序列或如在B组氨基酸序列中列出的多肽序列,和基本上与它们一致的序列可被储存,并以多种格式在多个数据处理器程序中进行处理。例如,如在A组核酸序列中列出的核酸序列,和基本上与它们一致的核酸序列,或如在B组氨基酸序列中列出的多肽序列,和基本上与它们一致的序列,可作为文本在一个文字处理文件,如微软的WORD或WORDPERFECT中被储存起来,或以本领域专业技术人员所熟悉的多种数据库程序如DB2,SYBASE,或ORACLE中的ASCII文件被储存。另外,可使用许多计算机程序和数据库作为序列比较算法,标识符或与如在A组核酸序列中列出的核酸序列,和基本上与它们一致的序列,或如在B组氨基酸序列中列出的多肽序列,和基本上与它们一致的序列进行比较的参考核酸序列或多肽序列的来源。下面的列表并不打算限制本发明,而是提供程序和数据库的指南,它们可用于如在A组核酸序列中列出的核酸序列,和基本上与它们一致的序列,或如在B组氨基酸序列中列出的多肽序列,和基本上与它们一致的序列。
可使用的程序和数据库包括但不限于:MacPattern(EMBL),DiscoveryBase(Molecular Applications Group),GeneMine(MolecularApplications Group),Look(Molecular Applications Group),MacLook(Molecular Applications Group),BLAST和BLAST2(NCBI),BLASTN和BLASTX(Altschul等人,J.Mol.Biol.215:403,1990),FASTA(Pearson和Lipman,Proc.Natl.Acad.Sci.USA85:2444,1988),FASTDB(Brutlag等人,Comp.App.Biosci.6:237-245,1990),Catalyst(Molecular Simulations Inc.),Catalyst/SHAPE(Molecular Simulations Inc.),Cerius2.DBAccess(Molecular Simulation Inc.),HypoGen(Molecular Simulations Inc.),Insight II,(Molecular Simulations Inc.),Discover(Molecular SimulationsInc.),CHARMm(Molecular Simulations Inc.),Felix(MolecularSimulations Inc.),DelPhi,(Molecular Simulations Inc.),QuanteMM,(Molecular Simulations,Inc.),Homology(Molecular Simulations,Inc.),Modeler(Molecular Simulations,Inc.),ISIS(Molecular Simulations,Inc.),Quanta/Protein Design(Molecular Simulations,Inc.),WebLab(MolecularSimulations Inc.),WebLab Diversity Explorer(Molecular Simulations Inc.),Gene Explorer(Molecular Simulations,Inc.),SeqFold(MolecularSimulations,Inc.),MDL通用化学药品目录数据库(MDL AvailableChemicals Directory database),MDL药物数据报告数据库(MDL DrugData Report data base),综合医学化学数据库(Compreshensive MedicinalChemistry database),Derwent’s世界药物索引数据库(Derwent’s WorldDrug Index database),BioByteMasterFile数据库,Genbank数据库,和Genseqn数据库。许多其他的程序和数据库对在本公开书中特定领域中的专业技术人员是很明显的。
采用上述程序可检测的基序包括编码亮氨酸拉链,螺旋-转角-螺旋基序,糖基化位点,泛素化位点,α-螺旋,β-片层的序列,编码可引导编码蛋白分泌的信号肽的信号序列,涉及转录调节中的序列如同源框,酸性分支,酶活性位点,底物结合位点和酶切割位点。
本发明开发了酶的独特催化特性。鉴于在化学转化反应中使用生物催化剂(即,纯化或天然酶,非活或活细胞)一般需要鉴别与特殊起始化合物反应的特殊生物催化剂,本发明采用了选择性的生物催化剂和在许多起始化合物,如小分子中存在的功能基团特异的反应条件。每个生物催化剂对一个功能基团或几个相关的功能基团是特异的,可与含有这种功能基团的许多起始化合物反应。
生物催化反应可从一个单一的起始化合物产生一组衍生物。这些衍生物可进行另一轮生物催化反应,产生第二组衍生化合物。原始小分子或化合物的上千种变异可在生物催化衍生作用的每次重复中产生。
酶在起始化合物的特异位点上反应,而不影响其他分子,该过程采用传统的化学方法很难达到。这种高度的生物催化的特异性提供了在文库内鉴别一个单一的活性化合物的手段。该文库的特征在于用来产生其的系列生物催化反应,称为“生物合成过程”。为生物学活性筛选文库并追踪生物合成过程可鉴别产生活性化合物的特异反应序列。重复反应序列,确定合成化合物的结构。这种鉴定模式,不象其他的合成和筛选方式,并不需要固定技术,可采用实际上任何类型的筛选实验来合成和检测游离在溶液中的化合物。重要的是要注意在功能基团上的酶反应的高度特异性可允许追踪特异酶反应,该反应可制造生物催化产生的文库。
许多程序化的步骤可采用机械自动化来进行,每天可执行上千种催化反应和筛选实验,并确保高水平的准确度和可重复性。结果,衍生化合物的文库可在大概几周内产生,采用常规的化学方法则需要几年的时间来产生。
在一个特殊的实施方案中,本发明提供了一种修饰小分子的方法,所述方法包括将由在此描述的多核苷酸编码或其酶学活性片断与小分子接触,产生一个修饰的小分子。修饰小分子的文库可被检测以确定修饰的小分子是否存在于显示有所需活性的文库中。可产生具有所需活性的修饰小分子的特异生物催化反应的鉴别可通过系统性的去除每一个用来产生部分文库的生物催化反应,然后检测在部分文库中产生的小分子中是否存在具有所需活性的修饰小分子。可产生具有所需活性的修饰小分子的特异生物催化反应可随意地被重复。生物催化反应可采用一组可与在小分子结构中发现的不同结构部分反应的生物催化剂来进行,每种生物催化剂对一个结构部分或一组相关的结构部分是特异的;每种生物催化剂可与含有不同结构部分的许多不同的小分子反应。
本发明将参考以下的实例进一步描述;但是,可以理解的是本发明并不限于这些实例。