CN1468304A

CN1468304A - 蛋白质功能域的制备方法

Info

Publication number: CN1468304A
Application number: CNA018166571A
Authority: CN
Inventors: G��³˹; G·德鲁卡; L·法尔乔拉
Original assignee: Applied Research Systems ARS Holding NV
Current assignee: Merck Serono SA
Priority date: 2000-08-01
Filing date: 2001-08-01
Publication date: 2004-01-14
Anticipated expiration: 2021-08-01
Also published as: ATE398174T1; US8048645B2; NO20030443D0; JP2004504840A; US20040053362A1; NO330897B1; EP1305411A1; AU7573901A; CY1110431T1; CA2415768A1; ES2305091T3; AR031717A1; DK1305411T3; WO2002010372A1; EP1305411B1; HK1059281A1; BR0112979A; JP5068916B2; SI1305411T1; IL154212A0

Abstract

本发明提供一种蛋白质功能域的制备方法，这些蛋白质功能域是初级翻译产物片段，由一个或多个由外显子序列特异性亚基(subset)编码的不同的蛋白质结构域组成。该方法基于单次同源重组事件在紧挨编码蛋白质功能域的外显子序列的内含子基因组区水平上，将调节单位整合到编码初级翻译产物的真核细胞基因中。

Description

蛋白质功能域的制备方法

技术领域

本发明涉及一种蛋白质的制备方法，具体地说，涉及蛋白质功能域的制备方法。

背景技术

蛋白质的功能性与其结构性质密切相关，结构分不同水平：初级结构(对应由基因编码的氨基酸序列)、二级结构(按顺序连续排列的残基优选的相对主链位置)、三级结构(多肽链所有原子的相对位置)、以及四级结构(不同蛋白质亚基排列成一个复合物，每个排列对应不同多肽链)。

除了这些组织水平外，相关多肽也可能对应蛋白质结构域，蛋白质的定义有两种方式。从结构上看，域是含有一个或多个二级和/或三级结构、并紧密折叠的多肽区。小蛋白质(少于100个氨基酸)通常由单个蛋白质结构域组成，而大蛋白质则一般由多个蛋白质结构域组成。在蛋白质的三维结构中，一个蛋白质结构域看成一个独立折叠的多肽单位，与蛋白质的其它部分截然不同。与此结构定义相关的是，再仔细观察蛋白质结构域，发现它是蛋白质保留功能的最小部分，是蛋白质结构域与一个或多个蛋白质、核酸、糖类、脂质、或其它任何有机或无机化合物相互作用而产生的。功能性结构域通常由50-350个氨基酸组成，所以可包括一个或多个结构域。

实际上，蛋白质可包含一个或多个蛋白质功能域，相互间按顺序连接，按三维方向排列。特定氨基酸序列经核磁共振或X光结晶学技术可转为一类结构域，在所谓的结构-活性或结构-功能的研究中进行的有关生化或生物试验中识别已知蛋白质功能域的序列同源性和/或使要测试的原始蛋白质生成替换型，得到的主要结论是蛋白质序列与功能有关。

许多蛋白质共有高度同源蛋白质功能和/或结构域，可能是所谓的“外显子改组”(exon shuffling)过程的结果。根据这一进化理论，通过一系列复制、内含子重组、联合装配以及编码蛋白质“模板”的现有外显子突变都可以产生一定量的基因(Patthy L，Gene，1999；238(1)：103-114)。

真核细胞的蛋白质进化也通过亲代基因组的有性内含子同源重组调节，从与特异性蛋白质结构域相关的外显子组合中产生新基因的理论现在已经被广泛接受，这也因为一系列研究证实了在蛋白质结构域之间结构界面的内含子相位和位置之间的关系(de Souza SJ等人，Proc Natl Acad Sci USA，1996；93(25)：14632-6)。在大多数情况中，蛋白质模板与一个或多个外显子相关，而外显子受具有零相位(内含子不断开密码子)或由始至终具有相同相位的内含子限制。以这种方式，编码这些“可移动”结构域的外显子更容易与由这些蛋白质模板的嵌合体组成的新蛋白质结合，不会出现任何读框问题(de SouzaSJ等人，Proc Natl Acad Sci USA，1998；95(9)：5094-9；Kolkman JA和StemmerWP，Nat Biotechnol.，2001；19(5)：423-8)。

然而，也发现当蛋白质功能域与初级翻译产物的其余部分物理分离后，也就是说，直接翻译自基因转录的mRNA而获得的蛋白质，它的生物活性与完全蛋白前后序列中的截然不同。用由编码初级翻译产物的细胞本身，或者由其它细胞，例如当分泌初级翻译产物或将初级翻译产物与细胞膜接触时产生的内肽酶，进行蛋白水解分裂后在体内得到这样一些蛋白质功能域。关于这些事件的表征越来越多，很明显，这样制备的蛋白质功能域可能具有重要生理活性(Kiessling LL和Gordon EJ，Chem Biol.，1998；5(3)：R49-R62；Halim NS，The Scientist，2000；1(16)；20；Blobel CP，Curr.Opin.Cell Biol.，2000；12(5)：606-612)。

许多有商业价值的真核蛋白质对应这些蛋白质功能域，它们大部分由组成完全基因的编码外显子亚基编码。

一个例子是内抑制素(endosfatin)，它是一种血管生成和肿瘤生长的内源抑制剂，对应一种细胞外基质的胶原蛋白-胶原XVIII 1α的C端蛋白酶片段。内抑制素基本上由3个在胶原XVIII 1α(COL18A1)基因3’端的外显子编码，但它只有从初级翻译产物胶原XVIII 1α，经蛋白水解后释放出来才具有全部功能(O’Reilly MS等人，Cell，1997；88(2)：277-285)。

另一个例子是与肿瘤坏死因子(TNF)有关的、具有诱导活性的细胞因子(也称TRANCE，RANKL，OPGL或ODF)，它是一种II型跨膜蛋白质，存在于激活基因迅速诱导的信号通道上，所激活的基因用于触发破骨细胞的发育。TRANCE当作锚定膜的初级翻译产物，由金属蛋白酶分解蛋白(metalloprotease-disintegrin)TNF-α转化酶(TACE)分裂而成，分裂产生的可溶性TRANCE是一种能够使树突细胞存活和具有破骨细胞基因(osteoclastogenic)活性的全功能蛋白质。这种可溶性蛋白质的序列对应由TRANCE基因最后3个外显子编码的蛋白质(Lum L等人，J.Biol.Chem.，1999；274(19)：13613-8)。

以工业规模生产蛋白质功能域有两种主要方法，但各有缺点。

人们尝试仿效自然，首先制备初级翻译产物，之后经蛋白水解处理得到所需蛋白质。

这在技术上需要以重组DNA技术进行整个过程。不但初级翻译产物要得到表达，而且所需蛋白质功能域的特异性蛋白水解酶也要被识别和表达，以便在细胞模型或体内系统中与初级翻译产物互相作用，确保在进一步处理前进行适当分裂。

第二种方法可制备一种表达构造体(expression construct)，构造体只包含DNA编码序列，而这些序列都是与原始mRNA或基因分离的蛋白质功能域。即使是这种最常用的技术也需要一系列可能明显延迟重组产物发育的操作(Makrides SC，Protein Expr. Purif.1999；17(2)：183-202；Kaufman RJ，Mol.Biotechnol.，2001；16(2)：151-60)。相关编码序列需要与完全cDNA序列分离，修饰此编码序列，以便它能进一步亚克隆为表达载体，其含有在宿主细胞中正确表达所需的全部转录和翻译调控元件。再用该构造体转化宿主细胞，最后，筛选转化体，以使表达外源蛋白质的克隆正确地在高水平上分离出来。

有关克隆的分离十分费时，这是因为除了以上列出的要求外，普通表达载体还要与宿主细胞的基因组序列重组。保持在染色体外的表达构造体不够稳定，使蛋白质只能瞬时表达，通常不足以应付工业规模的生产。

所以，涉及编码和非编码外源DNA以及宿主细胞基因组DNA的重组是将表达构造体转移到全部细胞的必要条件，这些细胞通过以后DNA复制循环和原来已转化的细胞进行有丝分裂而产生。由于表达载体没有特异性特征可以促使外源序列与宿主细胞基因组完全合并，所以这一过程是完全随意的，容易出错。故用于非同源重组事件的细胞可以是它的任何部分，其与任何内源序列的同源性较低，众所周知，非同源重组发生的频率比同源重组多得多，往往导致必需的外源序列不完全整合。

这些问题导致基因富集和选择步骤的开发，目的就在于消除以不完全的方式整合表达构造体的转化体。由于外源序列一些不可缺少的部分在重组过程中可能失去或者改变，因此相关编码序列可能会突变、截短、或根本没有得到表达。无论如何，不管采用何种技术导入DNA和挑选细胞，绝大多数转化体都无法制备所希望的蛋白质。

最后，有关文献已经确定，真核细胞中重组蛋白质的正确表达取决于与特定宿主细胞相关的许多因素。如重组蛋白质的毒性、mRNA的加工和稳定性、以及其它翻译后事件等特征与产物本身、表达载体编码和非编码序列、以及外源序列与宿主细胞的基因组本底相互作用有很大关联。事实上，随意插入可能含有很多DNA千碱基的完全重组基因可能严重干扰宿主细胞的基因组，使其稳定性和生存力受到损害。所以，即使外源序列已经被全部整合，每当这些序列分裂为对细胞代谢和/或复制至关重要的基因组序列时，也不能用一些克隆来制备蛋白质。因为在细胞培养中选择的压力不同，或它们复制得很慢，这些克隆都可能会丧失，以致很难有效获得能稳定表达所需蛋白质的足够多的细胞。

为了将基本上不受调控的外源基因整合的缺点(drawback)减至最小，人们已研究出可供选择的策略。它们主要基于同源重组，一种使特异性外源序列插入到哺乳动物细胞预定基因组序列的唯一技术。该技术主要通过修饰动物和细胞模型中的基因或调节序列，产生间断、不具有功能的或嵌合型基因而对它们进行表征，参见最新评论(Muller U，Mech.Dev.，1999；82(1-2)：3-21；Sedivy JM and Dutriaux A，Trends Genet.，1999；15(3)：88-90)。例如，将各种载体和选择标记基因导入小鼠胚胎干(ES)细胞的基因组，以便研究基因改变对各种表型特征的作用，如激素调节、生育、免疫应答、器官的发育等。

基于同源重组技术制备重组蛋白质的可行性在全部初级翻译产物的水平上已得到论证(WO 91/09955、WO 95/31560)，用外源转录调节序列调控完全内源基因就可以得到这些初级翻译产物。另外，一旦转染到细胞的反义寡核苷酸可与阻断核糖体经过全部编码序列的内源mRNA配对，也可以得到截短型蛋白质(WO 97/23244)。然而，没有任何文献提及用同源重组来选择性表达内源目的基因的一个或多个外显子，内源目的基因编码通过整合外源调节序列而包含在初级翻译产物的蛋白质功能域中。

发明内容

业已发现，当蛋白质功能域对应于，例如，至少分别由包含内含子的基因最5’或3’外显子编码的初级翻译产物N或C端时，还有另一种方法可以制备蛋白质功能域。

所以，本发明的第一个目的是提供一种蛋白质的制备方法，该蛋白质是对应基因初级翻译产物N或C端的蛋白质功能域，其中蛋白质的生物活性与初级翻译产物截然不同，所述方法包括：

(i)使以DNA构造体转染的宿主细胞生长，而DNA构造体包括：

(a)调节DNA序列，其能够启动或终止编码蛋白质的DNA转录和翻译；

及

(b)DNA定向区(targeting region)，其包括分别与编码蛋白质的序列的基

因组区5’或3’同源的序列，该构造体在宿主细胞基因组DNA中整合，

整合的位置由DNA定向片段确定，使蛋白质的表达受调节DNA的调

控；

(ii)培养该同源重组细胞；以及

(iii)收集蛋白质功能域。

本发明用于制备在细胞中形成蛋白质功能域的蛋白质，其中一个或多个编码外显子一端缺少调节DNA序列，该序列是表达和直接翻译性质完全不同的整个分子，而不是初级翻译产物片段必不可少的条件。术语蛋白质包括短肽、寡肽(例如包含的氨基酸残基不超过30个)以及长肽(包含的氨基酸残基超过30个)。用本发明可制备的肽和多肽包括由初级翻译产物经蛋白水解突变而制成的肽和多肽。

本发明还揭示了一种选择性地表达编码蛋白质功能域的外显子的方法，这些蛋白质功能域的序列对应基因初级翻译产物C或N端序列，其中由所述外显子编码的蛋白质的生物活性与初级翻译产物截然不同，所述方法包括使以DNA构造体转染的宿主细胞生长，而DNA构造体包括：

(a)调节DNA序列，调节DNA序列，其能够启动编码蛋白质的外显子的

转录和翻译或终止编码蛋白质的外显子的转录和翻译，而该蛋白质对

应于蛋白质功能域；及

(b)DNA定向区，其包括分别与编码蛋白质的外显子的基因组区5’或3’

同源的序列，该构造体在宿主细胞基因组DNA中整合，整合的位置

由DNA定向片段确定，使该外显子的表达受调节DNA的调控。

用本发明方法修饰的宿主细胞选择性地表达外显子序列，其以新mRNA分子存在于编码蛋白质功能域的基因组中，该mRNA分子被直接翻译为蛋白质功能域，不需要用任何特异性细胞或组织型蛋白水解修饰。

在优选实施例中，形成蛋白质功能域的肽或多肽至少由带有内含子的基因最5’或3’外显子编码。故第一优选实施例提供一种蛋白质的制备方法，该蛋白质是对应目的基因初级翻译产物C端的蛋白质功能域，并至少由带有内含子的目的基因最3’外显子编码，所述方法包括：

(i)使以DNA构造体转染的宿主细胞生长，而DNA构造体通过同源重

组在宿主细胞基因组中整合后，操作时与所述外显子连接，所述构

造体包括：

(a)DNA定向区，其包括与编码所述蛋白质的外显子的基因组区5’同源

的序列；

(b)转录模板，其包括DNA序列，该序列能够激活编码蛋白质功能域的

DNA转录；

(c)翻译模板，其包括能够启动蛋白质功能域的翻译的DNA序列；以及

可选择地

(d)剪接模板，其包括不成对5’剪接供体位点，该位点与编码蛋白质功能

域N端的内源外显子中不成对3’剪接受体位点互补，可剪接初级转

录，结果使翻译模板与编码蛋白质功能域的序列符合读框地(in the

“in-frame”并列；

(ii)培养同源重组细胞；以及

(iii)收集蛋白质功能域。

相应地，在本发明的该实施例中，构造体应提供形成调节单位的外源序列，而调节单位使编码蛋白质功能域的外显子启动正确转录和翻译。DNA定向区由一些序列单独或与属于编码蛋白质功能域的外显子序列一起形成，这些序列属于编码蛋白质功能域的序列基因组5’(如位于其5’端的目的基因相邻内含子)。若需要提高同源区的长度，还可包括属于目的基因相邻编码和/或非编码序列(或最后是相邻基因)的DNA序列。

启动翻译所需的甲硫氨酸(ATG)密码子必须在适当Kozak序列前后，它可由编码蛋白质功能域的外显子的内含子5’、包含蛋白质功能域N端的外显子，或通过加入一个或多个插在编码蛋白质功能域的外显子之间的天然或合成外显子而在操作时与内源编码序列连接的外显子、以及包含在调节单位内启动转录的外源序列提供。如果翻译起始密码子是内源性的，该转录模板会包括适合的5’非翻译区。

包含不成对剪接供体位点的剪接模板与天然或合成外显子相关，这些外显子邻接编码蛋白质功能域N端的外显子。一旦甲硫氨酸密码子的读框与经剪接后的蛋白质功能域相同，剪接模板就会使甲硫氨酸密码子成为蛋白质功能域N端残基。在此实施例中，编码初级翻译产物的目的基因可能已经在显著水平上得到表达，或者不然，但外源调节序列应该在编码蛋白质功能域的外显子5’上有新的转录和翻译起始位点。

图1A-F所示为本发明实施此实施例的一些例子。

本发明的第二优选实施例提供一种蛋白质的制备方法，该蛋白质是对应目的基因初级翻译产物N端的蛋白质功能域，并至少由带有内含子的目的基因最5’外显子编码，所述方法包括：

造体包括：

(a)DNA定向区，其包括与编码该蛋白质的外显子的基因组区3’端同源

的序列；

(b)转录模板，其包括能够终止该基因组DNA转录的DNA序列；

(c)翻译模板，其包括能够终止该蛋白质功能域翻译的DNA序列；以及

可选择地

(d)剪接模板，其包括不成对3’剪接受体位点，该位点与编码该蛋白质功

能域C端的内源性外显子不成对5’剪接供体位点互补，可剪接初级转

录，结果使翻译模板与编码该蛋白质功能域的该序列符合读框地并

列；

(ii)培养该同源性重组细胞；以及

(iii)收集该蛋白质功能域。

相应地，在本发明的该实施例中，构造体应提供终止外显子正确转录和翻译的外源性序列，这些外显子编码形成蛋白质功能域的蛋白质。DNA定向区由一些序列单独或与属于编码蛋白质C端的外显子或其3’端的内含子，或二者的序列一起形成，这样一些序列属于编码蛋白质功能域蛋白质的序列基因组区3’(如位于其3’端的目的基因相邻内含子)。若需要提高同源区的长度，还可包括属于目的基因相邻编码和/或非编码序列(或最后是相邻基因)的DNA序列。

终止翻译所需的密码子可由编码蛋白质功能域，或通过加入插在编码蛋白质功能域的外显子之间的天然或合成外显子而在操作时与内源编码序列连接的外显子的内含子3’、以及通过同源重组导入终止转录的外源序列提供，如翻译终止密码子是内源性的，由该转录模板包括适合的3’非翻译区。

包含不成对剪接受体位点的剪接模板与天然或合成外显子相关，这些外显子邻接编码蛋白质功能域C端的外显子。一旦终止密码子的读框与经剪接后的蛋白质功能域相同，剪接模板就会使终止密码子成为蛋白质功能域终止密码子。在此实施例中，编码初级翻译产物的目的基因必须在显著水平上得到表达，而外源序列只用于终止不同位置的转录和翻译。

图1G-L所示为实施此实施例的一些例子。

本发明的另一个目的是提供一些构造体，一旦通过同源重组将宿主细胞正确整合在基因组中，这些构造体就可以使宿主细胞表达新mRNA，在所有包含在编码初级翻译产物的目的基因的外显子中，新mRNA只包括编码蛋白质功能域的外显子。

同源重组策略的选择影响目的基因的最终结构，这是因为调节单位可插在相邻内含子中或成为该内含子和属于同一个基因但不编码蛋白质功能域的基因组区的全部或部分的替换部分。

调节单位通过同源重组整合在包括编码蛋白质功能域的外显子的基因中，它包含外源序列，外源序列则包括转录模板、翻译模板、以及可选择性包括剪接模板。这样一些外源序列用于提供与包围蛋白质功能域的内源序列结合所需的序列。因此，在宿主细胞的基因组内要有新的重组基因，其一端包含内源转录和翻译调控元件，中间包含与蛋白质功能域相关的内源外显子和内含子，另一端包含外源转录和翻译调控元件。

本发明提供一种蛋白质功能域的制备方法，这些蛋白质功能域是由一个或多个由外显子序列特异性亚(subsets)基编码的不同蛋白质结构域组成的初级翻译产物片段。该方法基于单次同源重组事件在内含子基因组区水平上将编码初级翻译产物的调节单位整合到真核基因中，内含子基因组区又紧挨编码蛋白质功能域的外显子序列。取决于目的基因中有关外显子序列的位置，当蛋白质功能域分别在初级翻译产物C或N端时，这些内含子紧挨外显子序列的5’或3’。

本发明相对本领域的现有技术具有一些重要优点。利用本领域已知方法，使蛋白质功能域，其在位于末端的调节序列调控下得到表达，或者初级翻译产物和产生蛋白质功能域的特异性蛋白酶，二者都得到表达，的编码序列分离，制备蛋白质功能域。

本发明提供一种蛋白质功能域的制备方法，这些功能域是初级翻译产物C端或N端片段，对应基因组DNA的外显子/内含子结构是已知的。该方法涉及在编码基因组DNA的这些蛋白质结构域的外显子5’(如果蛋白质功能域对应C端片段)或3’(如果蛋白质功能域对应N端片段)上整合外源调节序列。本发明的方法可以产生重组基因，重组基因通过细胞直接转录和翻译为蛋白质功能域，与编码初级翻译产物的基因刚好相反。

本发明的方法基于同源重组的性质调控宿主细胞基因组，并使其准确修饰就可以制备蛋白质功能域。在宿主细胞基因组内要进行整合的外源序列的数量非常有限，这是因为宿主细胞基因组存在的原始编码序列本身用作编码序列。而且，实际上只有那些附加元件是需要整合的，如转录和/或翻译调控元件。

使用编码蛋白质功能域的宿主细胞序列还有两个优点，一方面能消除这些编码序列因重组衍生的任何变化，另一方面能利用同样的转录(如剪接)和/或翻译后(如糖基化、磷酸化)使蛋白质功能域实际上在体内成熟的过程。使用单个调节单位时不必操纵编码初级翻译产物的互补DNA来分离编码蛋白质功能域的的片段，和将它接合在表达载体上。

最后，已证明，由于剪接过程，基因组表达构造体(即含有一个或多个合成和/或天然内含子)比缺失内含子的相同构造体(即通常由文献公开的技术所制备的构造体)得到更有效的表达。本发明的方法采用自然断开编码蛋白质功能域的序列的内含子，可避免导入外源内含子序列。发明的详细描述

在以下章节中，本发明的基本元件可参考有关同源重组技术(Muller U，Mech.Dev.，1999；82(1-2)：3-21；Hasty P等人，in“Gene targeting：a practicalapproach”，ed.Joyner AL，pub.Oxford Univ.Press，1999；1-35)和蛋白质表达技术(Makrides SC.，Protein Expr.Purif.1999；17(2)：183-202；Kaufman RJ，Mol Biotechnol.，2001；16(2)：151-160)等文献的适当叙述。蛋白质功能域

表达“蛋白质功能域”(FPD)指具有生物功能的基因初级翻译产物的蛋白质片段。蛋白质功能域可由一个或多个蛋白质结构域(彼此相同或不同)组成，应包含作为独立折叠单位适当折叠所需的全部生物特征，而且具有预定生物活性。

在细胞基因组DNA的前后序列中，蛋白质功能域由一部分基因完整编码区编码，而初级翻译产物由整个基因编码序列编码。编码蛋白质功能域的基因组序列一端或两端缺失适当设置的调节序列，这些序列由细胞的表达装置(machinery)识别以产生初级转录和翻译产物。结果是，蛋白质功能域对应包含在由细胞转录的mRNA中的部分翻译区，替换剪接事件需要两端具有活性的调节序列，但通过替换剪接事件无法得到这样的蛋白质功能域。

所以，完全和功能读框受两端的转录和翻译调节序列制约，具有这样一种读框的基因或编码蛋白质功能域的mRNA是不存在的，这是因为没有一种基因组DNA可直接被转录和翻译为对应蛋白质功能域的蛋白质。细胞从包含在其自身基因组内的基因开始，可制备蛋白质功能域，其中只有在基因转录和翻译为初级翻译产物之后，经特异性蛋白水解修饰后，才嵌入这样一种蛋白质的编码序列。

在本发明的意义上，源自蛋白质功能域的蛋白水解不是简单地确定蛋白质的位置，如当在细胞外或跨膜内蛋白内识别和消除信号肽时。源自蛋白质功能域的蛋白水解更多是用作使蛋白质功能域与初级翻译产物分离，以执行一种或多种其生理效应与初级翻译产物生理效应截然不同的生物活性。类似的蛋白水解活性得不到任何一个细胞的组成型表达，例如消除信号肽的酶，只有在一些细胞型或只有在一定新陈代谢条件下才能得到特异性表达。

假定蛋白质序列的功能是由于与其它蛋白质、核苷酸、脂质、糖或其它任何有机或无机配体相互作用而产生，在本发明的意义上说，蛋白质功能域以具有与相互作用性质有关的独特性质来明确，称为三种碱基团。

蛋白质功能域第一种碱基团的独特效应基于以下事实：分离出来或在初级翻译产物前后序列中的蛋白质功能域由于配体的特异性和亲和力，得以保持相同的相互作用性质，但当与初级翻译产物其余部分分离时，其即不能让细胞或有机体识别这些配体的存在。例如，膜受体的细胞外结合结构域当用细胞外蛋白酶进行蛋白水解与受体的跨膜及细胞内部分分离时，会扣除膜受体的配体，阻断细胞内信号通道后来活化。

释放细胞外结构域在本发明的意义上是蛋白质功能域，这是因为它们具有诱捕配体和使信号通道沉默的效应，例如，当它们与初级翻译产物的其余部分连接时，阻止特异性细胞应答，不会向细胞发出配体存在的信号。这些蛋白质功能域通常称为诱骗受体(decoy receptors)，由于能精细地调节生物体，例如，循环的趋化因子和细胞因子效应，所以起着重要的生理子作用(Mantovani A等人，Trends Immunol.，2001；22(6)：328-336)。

蛋白质功能域第二种碱基团的独特效应基于以下事实：当蛋白质功能域与初级翻译产物前后序列分离时，用高亲和力识别与初级翻译产物不结合或结合得较弱的配体，测定意想不到的生理效应。具有重要生理效应的蛋白质功能域，如具有强抗生血管性质的细胞外结构基质蛋白质的蛋白水解片段在文献中的叙述越来越多(Cao Y，Int.J.Biochem.Cell.Biol.，2001；33(4)：357-69)，这表明蛋白质作为蛋白质功能域的储存器也具有功能，它们隐藏在初级翻译产物中直到在特异性生理机制的框架中进行蛋白水解，分离成具有功能的型式。

蛋白质功能域的第三种碱基团以经蛋白水解从非活性前体蛋白质释放出来的蛋白质表示。许多信号和分泌蛋白质只有与初级翻译产物分离之后才能发挥他们生理功能，如发炎前的细胞因子(Dinarello CA，Chest，2000；118(2)：503-508)。

识别蛋白质功能域可使用不同的方法。惯常做法是将蛋白质与一系列具有不同特异性的蛋白酶接触，并测试所得片段的活性就可以识别蛋白质功能域(Carrey E.，in“Protein Struture：a practical approach”，ed.Creighton T.，Oxford Univ.Press，117-144页，(1989))。这个方法的优点是快捷、简单及灵敏，但它受到要进行消化的完整天然蛋白质数量、蛋白酶特异性、以及用于证实蛋白水解片段是蛋白质功能域的测试灵敏度制约。

而且，在蛋白质分离和测序领域上取得的进展以及在生物信息学上取得的进展，可以平行分析许多蛋白质样本，即使表示得较少的分子物种也可得到同一性和数量信息(Lottspeich F.，Angew.Chem.Int.Ed.Engl.，1999；38(17)：2476-2492)。例如，现在已经可以识别和分离大部分，如果不是全部，存在于甚至没有初步分级分离(fraofionation)的蛋白质混合物的蛋白质，这些蛋白质混合物未被片段化，或在生物样本中用全部蛋白质的特异性蛋白水解酶控制消化后得到(Spahr CS等人，Proteomics，1(1)：93-107页，2001年)。将蛋白质消化、检测、分离、序列比较，与基于适当细胞生物或生化的高流通量测定的分析相结合(Kuhlmann J，Int.J.Clin.Pharm.and Ther.，1997；35(12)：541-552)，可识别新的蛋白质功能域。

业已发现，通过蛋白酶，如金属蛋白酶(Raza SL Cornelius LA，J.Investig.Dermatol.Symp.Proc.，2000；5(1)：47-54)、半胱氨酸蛋白酵(caspase)(Los M等人，Trends Immunol.，2001；22(1)：31-4)等发挥蛋白水解活性可以精确调节重要生理活性，远远高于只进行简单的蛋白质降解。而且，由于蛋白酶占人体基因总量的1.5-2％(Southan C，J.Pept Sci.，2000；6(9)：453-8)，识别与特异性蛋白质相关的蛋白酶剪切位点(clcavage site)基序越来越容易(TurkBE，Nat.Biotech.，2001；19(7)：661-7)，而且可测试的蛋白酶和蛋白质种类也不断增加，所以识别治疗和具有商业用途的蛋白质功能域是可能的。

根据本发明的方法，一旦识别出一种功能蛋白质是初级翻译产物的N或C端，并找到蛋白质结构域组织与对应基因的外显子/内含子组织之间的关系，就可以用带有调节单位和适合定向区的构造体来产生表达这些蛋白质物种的细胞。

分析断裂或未断裂蛋白质样本所提供的证据，并将已算出的蛋白质三维结构、与其它已知蛋白质功能域的同源性、突变发生以及结构-功能的研究、或者其它模拟及计算机模拟的信息结合所得的证据，都会影响表达蛋白质功能域的外显子的选择。

即使蛋白质功能域开始在体内外表征时不完全对应外显子的离散数，但蛋白质序列的结构和/或同源性本身使得蛋白质功能域的主要元件被识别出是由特异性N或C端外显子编码。按本发明方法制备的蛋白质功能域N或C端残基不必与开始时在体内外识别的那些蛋白质功能域一致，但需有可比活性。

要进一步证实和表征蛋白水解片段是蛋白质功能域，可通过其它功能性筛选方法来进行，包括分子生物技术，如随机PCR/缺失诱变、蛋白水解剪切位点作图、噬菌体展示、双杂交系统等(WO 96/31625；WO 90/04788；Parry S等人，Biochem Biophys Res Commun.，2001；283(3)：715-20；Kawasaki M，和Inagaki F，Biochem Biophys Res Commun.，2001；280(3)：842-4)，或者包括基于非同源性的方法(Marcotte EM，Curr Opin Struct Biol.，2000；10(3)：359-65；WO 00/11206)。在使用本发明的方法大量制备功能性结构域之前，用常规表达技术制备小量属于初级翻译产物不同长度的片段，并在测定方法中测试，标出对应蛋白质功能域的最小或充足蛋白质序列。

最后，互联网提供越来越多算法和软件(Teichmann SA等人，Curr.Opin.Struct Biol.，2001；11(3)：354-63；Skolnick J和Fetrow JS，Trends Biotechnol.，2000；18(1)：34)，它们可分开或结合使用，并借助具有已知结构和/或生物活性的蛋白质或DNA序列数据库，比较未知功能的蛋白质或DNA序列(如通过翻译ESTs获得的蛋白质或DNA序列或通过基因组排序程序得到的输出)。这种利用计算机数据综合分析的方法(in silico)可以较好地近似包含在未知功能的蛋白质内或包含到还未克隆的基因内的蛋白质结构域的位置及功能。所以，这些生物信息学的工具有助识别由本发明方法表达的蛋白质功能域。

在有商业价值的蛋白质功能域中，优选团是具有治疗功效的蛋白质功能域。大多数有治疗功效的蛋白质可分成三类：调节因子(包括激素、细胞因子、淋巴因子、趋化因子、受体及其它细胞生长及代谢的调节因子)、血液产物(包括由血清衍生而来的血液因子及酶纤维蛋白原活化因子)以及单克隆抗体。含有蛋白质功能域的初级翻译产物由属于这三类的基因编码，用这些基因作为目的基因，用内源外显子通过本发明的方法制备蛋白质功能域。

然而，本发明的背景技术和实施例所参考的科学文献显示，具有治疗功效的蛋白质功能域被识别为开始时没有被划为属于这些三类组别(如与膜结合的蛋白质、跨膜蛋白质、酶、细胞外基质蛋白质、细胞内信号、结构蛋白质及细胞核蛋白)的初级翻译产物，但也包含有治疗功效的蛋白质功能域。所以，对应这些初级翻译产物的基因也可作为目的基因，用内源外显子通过本发明的方法制备蛋白质功能域。宿主细胞

本发明一般适用于真核生物源的蛋白质序列，这是因为基本上只有真核生物的基因才有内含子。为此，尽管也可用自植物、昆虫、酵母及真菌等衍生而来的其他真核生物的细胞，但宿主细胞通常是真核生物的细胞，如哺乳动物细胞。假定大多数相关蛋白质功能域属于人蛋白质，最好用人宿主细胞。

可使用任何真核生物的细胞，这些细胞至少包括一个拷贝编码含有相关蛋白质功能域的初级翻译产物、又带有内含子的基因，但真核生物的细胞最好是已分化的和/或无限增殖化的(immortalized)免疫哺乳动物细胞，特别是源自人、猿猴及啮齿目动物的细胞，如SV40转化的非洲绿猴肾CV1细胞(俗称COS细胞)、中国仓鼠卵细胞(CHO)、人胚肾(HEK)-293、幼仓鼠肾细胞(BHK)、犬肾上皮细胞(Madin-Darby Canine Kidney cells，MDCK)、以及其它干细胞、已分化或未分化的真核生物细胞系，它们都有编码相关蛋白质功能域的外显子。

在使用本发明的方法之前，这些细胞已经用其它病毒或非病毒构造体在基因组水平上通过同源或非同源重组整合修饰过，这可能会改变目的基因或其它基因的表达和/或构造体。对于带有两个拷贝以上目的基因的转化或无限增殖化细胞系，可通过连续进行的同源重组使调节单位插入到一个或多个可能位点上。

选择宿主细胞还必须考虑到整合在有关外显子5’或3’端的外源调节单位，以便在结构上或通过诱导方式使这些序列完全发挥活性。例如，本发明的方法可用于无限增殖化细胞的体细胞杂交，这对于特异性蛋白质功能域的表达，特别是由免疫球蛋白衍生的功能肽或多肽，或者对用本发明的方法使其转录受免疫球蛋白特异性启动子和/或增强子元件调控的任何其它蛋白质功能域十分有用。

由于初级细胞用无限增殖化细胞系的可比频率在培养基中通过同源重组得到修饰(Hatada S等人，Proc Natl Acad Sci USA，2000；97(25)：13807-11)，所以，每当蛋白质功能域的制备必须在类似的细胞环境中进行时，例如用于基因治疗目的，本发明的方法也适用于初级细胞。显然，制备源自人的蛋白质功能域，宿主细胞是人细胞。

选择本发明方法所用的宿主细胞型时，套用的另一个标准是宿主细胞型可进行同源重组的固有容量，以及目的基因的实际转录状态两者。初步评估候选细胞型的这些特征，有助选择细胞型，该方法可使制备所需蛋白质功能域的克隆分离得更快、更直接。

测试比较了灵长类和小鼠成纤维细胞系的同源重组频率，发现它们有重大差异(Taghian DG和Nickoloff JA，Mol.Cell.Biol.，1997；17(11)：6386-93)。基于核抽提和/或转化使用标准同源重组载体进行类似的测试，有助定量测定特异性细胞型的重组活性。

在刺激定向位点转录的介质存在和不存在的情况下，比较不同基因座的基因定向效应来评估培养人细胞中目的基因转录对基因定向的影响(Thyagarajan B等人，Nucleic Acids Res.，1995；23(14)：2784-90)。一般而言，通过定向位点的转录使基因定向显著增强。

最后，宿主细胞应表达修饰翻译后的蛋白质功能域的酶，而不是表达由目的基因初级翻译产物生成蛋白质功能域所需的酶。例如，如果蛋白质功能域对应分泌初级翻译产物N端，宿主细胞应该允许信号肽加工。在其它特定情形中，宿主细胞应允许蛋白质功能域正确糖基化或磷酸化。如果细胞型在细胞培养条件下表达目的基因，但不表达生成蛋白质功能域所需的蛋白水解活性，和/或在足以进行商业开发的水平上不表达这个基因，本发明的方法可以使细胞型更有效地产生制备蛋白质功能域的克隆。转录模板

转录模板是包含在外源调节单位的第一个DNA序列，它提供在定向外显子一端上缺失的转录调节元件以获得初级转录，在属于目的基因的全部外显子中，初级转录只包括编码蛋白质功能域的那些外显子。转录模板要整合在编码蛋白质功能域的较长5’外显子5’端(如果是对应初级翻译产物C端的蛋白质功能域，图1A-F)，或在较长3’外显子3’端(如果是对应初级翻译产物N端的蛋白质功能域，图1G-L)。

取决于蛋白质功能域的位置和序列，各种DNA序列可包含在目的基因中要进行整合的转录模板中，方向一致，所述DNA序列包括：启动子、增强子、转录因子的识别位点、聚腺苷酸化位点、及任何其它一种能够将调节DNA转录为mRNA模板的DNA序列，包括包含在最终加于构造体的内含子中的序列。

在功能上启动子定义为RNA聚合酶II蛋白复合物开始时基因转录的位点。增强子和其它转录因子的识别位点与辅助蛋白相互作用，促使具有活性的转录复合物聚集，可以提高启动子的活性。当蛋白质功能域位于初级翻译产物C端，不论是否有增强子，启动子都是插入DNA构造体不可缺少的元件。

众所周知，最好采用启动子和增强子的结合，在结构上或诱导后启动进行同源重组的宿主细胞系内的基因表达。例如，如果宿主细胞系包括天然表达诸如生长激素和促乳素等蛋白质的垂体细胞，就可以使用其中一种基因的启动子。另外，在大多数细胞型，如罗斯肉瘤病毒(Rous Sarcoma Virus，RSV)、猿猴病毒40(Simian Virus 40，SV40)、小鼠乳头瘤病毒(Mouse MammaryTumor，MMTV)、莫洛尼鼠类白血病毒(Moloney Murine Leukaemia Virus，MoMLV)、巨细胞病毒(Cytomegalovirus，CMV)、仙台病毒(Sindbis，SG)中起作用的混杂或组成型DNA调节片段也适用。另外一些启动子的例子是调节人基因转录的启动子，如干扰素-α(IFN-α)、热休克蛋白(HSP)、延伸因子-1.α(EF-1.α)、金属硫蛋白-I/-II(MT-I/-II)、乏蛋白质C(UbC)、白细胞唾液酸蛋白(LS)。这些后面的启动子在宿主细胞如T细胞(其LS启动子是活化的)为高度分化时特别有用。

由于蛋白质功能域因任何原因可能有毒和/或抑制宿主细胞的生长，因此迫切需要制备蛋白质功能域的诱导启动子。诱导启动子的例子是金属硫蛋白-I/-II(其包含多个在重金属存在下活化的金属应答元件)以及Lac(一种由异丙基硫代半乳糖苷(IPTG)诱导的细菌操纵基因-阻抑蛋白系统，适合用于哺乳动物细胞)。

当蛋白质功能域位于初级翻译产物N端，转录模板应包含使其3’端的mRNA正确终止和修饰的序列，这是一个涉及初级转录和偶联聚腺苷酸化反应的复合过程。大多数哺乳动物的mRNA都有聚腺苷酸序列，其对mRNA的稳定性及翻译效率至关重要。聚腺苷酸化信号由位于聚腺苷酸化位点上游20-30个核苷酸处的AATAAA序列、位于聚腺苷酸化位点紧邻下游富含GT的片段组成。一些在真核生物的(牛生长激素、小鼠β珠蛋白)或病毒基因(SV40早期转录单位、单纯疱疹病毒胸苷激酶)分离出来的有效聚腺苷酸(poly(A))信号已经用在表达载体中和亦可用在调节单位中。

显然，由于基因表达水平主要取决于基因5’的启动子和其它转录调节区，所以用含有转录和翻译终止位点的构造体修饰的目的基因必须已得到宿主细胞的充分表达。在这样的情况中，选择的宿主细胞必须是那些已经强表达编码初级翻译产物的基因的细胞。

一种称为转录终止子的附加序列与聚腺苷酸信号相关，它可存在于转录模板中以确保转录不会转至与蛋白质功能域无关的3’相邻基因组序列。该事件可能导致两种可能结果：在初级转录中导入不必要的序列，使所希望的蛋白质功能域的翻译减少或改变；以及抑制下游启动子的活性，可调控对宿主细胞的复制或代谢非常重要的基因。即使分析几种mRNA也无法得到一个清晰的共有序列，但这些序列中有部分已经在文献中得到清楚表征(Petitclerc D等人，J.Biotechnol.，1995；40(3)：169-78)。

DNA构造体还包括影响转录的其它DNA序列。例如，称为染色质开放结构域(UCOE)的DNA序列，若插在基因的近端，使其与接近目的基因的推定(putative)负调节序列隔开或强迫相邻染色质结构域打开，都可使表达不好或沉默基因表达得更好。据报道，这些元件中有一部分以依赖于组织或不依赖于组织的方式在转基因小鼠或培养细胞系中提高异种(heterologuos)启动子的基因表达(WO 00/05393)。翻译模板

翻译模板是包含在外源调节单位内的第二个DNA序列，它在正确读框中提供定向外显子一端缺失的翻译调控元件以使初级转录正确、高效地翻译为蛋白质功能域。翻译模板应在转录模板与编码同一方向的蛋白质功能域的较长5’外显子之间(如果是对应初级翻译产物C端的蛋白质功能域)或在转录模板与较长3’外显子之间(如果是对应初级翻译产物N端的蛋白质功能域)整合。

取决于蛋白质功能域的位置和序列，翻译模板可包括各种DNA序列：翻译起始密码子(其与周围核苷酸前后序列一起形成Kozak序列)、翻译终止密码子、5’-/3’非翻译区、及任何其它一种能够调节mRNA翻译为蛋白质的DNA序列。

翻译起始密码子通常是ATG(编码甲硫氨酸)，每当蛋白质功能域位于初级翻译产物C端，而且内源序列(内含子或外显子)在正确翻译蛋白质功能域的适当位点上不包含ATG时，必须将翻译起始密码子导入翻译模板。在这样的情况下，翻译模板应包含嵌入一序列的外源ATG密码子，该序列包含在一组由Kozak序列限定的共有序列群内，从而获得最佳翻译起始效率。从几百种mRNA的翻译起始序列的分析中发现了这些共有序列(CC(A/G)C CATGG)，但并非全部核苷酸都同样重要：一个或多个胞嘧啶可被另一个核苷酸取代，但必须保留嘌呤(A/G)(Kozak M，Gene，1999；234(2)：187-208)。

5’非翻译区(5’UTR)与翻译起始密码子有关，这是因为它是属于翻译起始密码子初级转录5’的序列。在物理上，它是转录起始位点(通常位于启动子下游20-30个核苷酸处，由被带“帽”酶(capping enzymes)修饰的G核苷酸构建)与翻译起始密码子之间的序列。取决于同源重组定向内含子和编码蛋白质功能域相邻外显子的序列，这个序列可由全部(若ATG也通过同源重组导入)或只由部分外源序列构建。5’非翻译区的特定长度或共有序列还未在文献中有叙述，但为了将对蛋白质功能域正确及高效翻译的干扰减至最小，它不应多于100-200个核苷酸。而且，它也不应带有附加ATG或其它在翻译时可配对及产生可延迟或终止核糖体加工的二级结构序列(如富含GC的区)。在一些情形中，例如，若5’非翻译区特别长，内部核糖体进入位点(IRES)，或者翻译增强元件可能要并入5’非翻译区，以利于初级转录和核糖体蛋白互相作用，提高翻译效率，如一些哺乳动物细胞型中已经显示了不同的mRNA(Liu X等人，Anal Biochem.，2000；280(1)20-8)。

当蛋白质功能域位于初级翻译产物N端时，翻译模板应包括能正确终止翻译的序列，如终止密码子和3’非翻译区(3’UTR)。如上所述，取决于同源重组定向内含子和编码蛋白质功能域相邻外显子的序列，这些序列可由全部或只由部分外源序列构建，但多数情况是，翻译模板会提供这两种元件。与已构建好的终止密码子(TGA、TAA、TAG)不同，包围该三联体的序列对翻译终止效率有一定的影响。例如，如果紧挨终止密码子的核苷酸是A或G，则终止会更有效。

如关于5’非翻译区所述那样，3’非翻译区在翻译终止密码子和聚腺苷酸化位点之间也包括初级转录片段，也没有文献提及其特定长度或共有序列。然而，要获得最高转录效率，它应包含不稳定区，如富含AT的序列。

翻译起始或终止密码子的读框必须与蛋白质功能域编码序列的读框相同。如果内含子接近编码蛋白质功能域的外显子，该内含子在正确读框中和加入许多与蛋白质功能域活性相容的氨基酸的位置上包含对应终止或启动密码子的三核苷酸，那么适当转录模板与只包含适当非翻译区的翻译模板的整合可直接正确表达蛋白质功能域。以此方式，这些三核苷酸、其间所包含的内含子序列以及相邻外显子的较近端由于成为该外显子的一部分而具有全功能。

所得融合于功能蛋白N或C端的肽序列不应干扰这些蛋白序列的功能性，若它真有干扰，也应较易在纯化过程中除去或灭活。对于对应初级翻译产物C端的蛋白质功能域，如果较长5’外显子含有通常编码内部甲硫氨酸的ATG，而ATG与蛋白质功能域符合读框，也可使用同样的方法限制其N端。激活这样一个ATG 5’转录的转录模板，其整合应允许蛋白质功能域的正确转录和翻译。

然而，一般情况下，由于三核苷酸在剪接过程中除去(若包含在内含子中)，他们作为翻译起始或终止位点是失活的，或被其它翻译起始位点超前(若包含在外显子中)，所以三核苷酸只存在于少量基因中。故翻译起始或终止密码子应包含在合成或天然外显子中，成为翻译模板的一部分。该模板可包括一个或多个外源外显子(由天然或合成内含子序列分隔)，其可另外编码与包含在由目的基因编码的初级翻译产物蛋白质序列同源或异源的蛋白质序列。

然而，与上述情形一样，该融合在功能蛋白质上的蛋白质序列不应干扰蛋白质功能域，若它们真有干扰，最后也应较易由宿主细胞自身产生的酶活性除去或灭活。例如，如果蛋白质功能域是初级翻译产物C端片段，外显子可编码信号肽(或信号肽N端)，而信号肽一旦置于翻译起始位点与内源外显子序列之间的正确读框中，培养基就可以分泌蛋白质功能域。

此外，该附加蛋白质序列可以是简单的物间隔或连接肽，最后对蛋白质功能域的纯化和/或收集有利。附加蛋白质序列也可编码蛋白水解酶的识别位点，以致于如果用固定在载体上底物的附加序列亲和力纯化蛋白质功能域，以后用市售蛋白酶就可以将附加蛋白质序列除去。剪接模板

如上所述，如果属于目的基因的内源序列在所用的适当位置(即编码蛋白质功能域、而且其读框与蛋白质功能域相同的密码子附近或内部)上不包含翻译终止或起始密码子，但用于同源重组的构造体的天然或合成外源外显子要有终止或起始密码子之一。

然而，属于翻译模板的外源外显子必须符合内源外显子的读框。利用与较近端外显子(图A、D、G、J)剪接位点互补的剪接位点或挑选外显子与较近端外显子(图B、E、H、K)精确融合的定向序列均可实现这种排列。

故当外源外显子包含翻译起始密码子时，剪接模板是位于翻译模板3’端的5’供体剪接位点(图1A、D)，与3’剪接受体位点互补，3’剪接受体位点与编码蛋白质功能域的近端内源外显子相关。此外，当合成外显子包含翻译终止密码子时，剪接模板是位于翻译模板5’端的3’受体剪接位点(图1G、J)，与5’剪接供体位点互补，5’剪接供体位点与编码蛋白质功能域的近端内源外显子相关。

所以，调节单位可包括剪接模板，每当整合调节单位后，其余内含子序列使翻译模板与编码蛋白质功能域的外显子分离，该剪接模板就会发生编码蛋白质功能域的转录。内源剪接序列，其通常促使不同于编码蛋白质功能域的外显子的外显子与受外源调节单位调控的外显子融合，使目的基因不能在宿主细胞内重构剪接。这是基于以下事实：调节单位取代这些剪接序列和/或调节单位的位置较远，不能有效发挥其活性，因而保持不成对状态。

5’/3’剪接位点是基因表达的基本元件，这是因为它们能适当剪接由内含子断裂的基因产生的初级转录。这些序列在很多脊椎动物基因中都保存得很好，特别在内含子5’及3’端。高级真核生物中大部分5’剪接供体位点符合共有序列AG][ GTRAGT，其中AG是在外显子3’端保存的二核苷酸基序，][表示剪接位点， GT是在内含子5’端高度保存的二核苷酸基序，R是嘌呤。3’剪接受体位点基本上由共有序列Y AG][G组成，其中AG是在内含子3’端高度保存的二核苷酸基序(一般前面是一段嘧啶(Y))，][表示剪接位点，G是在外显子5’端保存的核苷酸。

与适当共有剪接序列不同的是，剪接模板后面是来自相邻定向区的内含子序列和加在剪接位点与定向区之间构造体中的天然或合成内含子序列。例如，这些内含子序列可包含另一个称为分支位点的序列元件，其通常位于3’剪接位点上游18-40个核苷酸处。该位点展示了序列CTR ACT，其中N是任何核苷酸， A是带有-OH基的核苷酸，而-OH基在mRNA剪接催化步骤中在内含子5’端能与G核苷酸的磷酯基团互相作用。已经有人对共有序列、机制、因子及其它有关参与哺乳动物mRNA前体剪接的调节序列如外显子剪接增强子进行了评论，(Long M等人，Proc.Natl Acad.Sci USA，1998；95(1)：219-223；Blencowe BJ，Trends Biochem.Sci.，2000；25(3)：106)。

在剪接机制研究上的进展，就算未能对通用共有序列有较准确的定义，但也得出通过同源重组挑选与要修饰的细胞型相关的特异性剪接模板的结论。例如，业已发现，一系列序列特征和基序对脑特异性剪接基因是通用的，这表明通过挑选这些序列可调节细胞型特异性剪接(Brudno M等人，NucleicAcids Res.，2001；29(11)：2338-48)。

通过包含完全内源、完全外源或内源与外源杂交序列的内含子，剪接模板与内源剪接调控元件分离，后者存在于目的基因中编码蛋白质功能域的相邻外显子近端。由于该序列最后被切除，所以只要它不会反过来干扰所希望的蛋白质功能域正确表达，序列是否精确并不重要。DNA定向序列

由于DNA定向序列负责细胞基因组中外源序列(调节单位、正标记基因)的正确整合和定位，所以它是构造体不可缺少的元件。这些序列通常是自基因组DNA克隆或通过PCR扩增而来，在功能上确定为其与内源DNA的同源性水平足以在特异性基因组区中促使引起同源重组(链配对和置换)的分子过程。

DNA定向序列可由单段DNA片段组成或分裂为两段DNA片段，它通过对应调节单位的外源序列，以及最后通过正标记基因在构造体中分离。为了提高整合的效率和准确性，最好用两段定向片段，本发明也包括使用单段定向片段。本发明使用DNA的最简单形式为环状片段，其沿着定向片段包含调节单位。这样，同源定向片段与其基因组相应片段杂交，交换后调节单位就插入到目的基因。

虽然同源区越短，它们找到适当同源区及在所希望的场所重组的可能性越低，但关键的不是每段定向片段的大小(长度)(即同源区)。故同源区越短，同源重组的效率越低，即成功重组克隆的百分比越小。有人建议，序列同源性的最低要求是25对碱基对(Ayares D等人，Proc Natl Acad Sci USA，1986；83(14)：5199-203)。当整个同源区包括两个定向区较大时，例如一个至五个千碱基或更多，所得的结果最好。只要调节单位可导入在基因组的适当位点，如果它不影响载体的稳定性，定向片段的大小(长度)就没有限制。

很多情况中，DNA定向序列包含内含子5’(若蛋白质功能域位于初级翻译产物C端)或编码蛋白质功能域的外显子3’(若蛋白质功能域位于初级翻译产物N端)(图1A、D、G、J)的全部序列或片段。定向区除了该特异性内含子，还包括目的基因的其它部分，包括编码蛋白质功能域的外显子(图1B、E、H、K)。在另一些情况中，利用位于相邻基因的序列或多或少几乎可完全除去在编码蛋白质功能域的外显子近端的内含子和外显子或以外源调节单位取代(图1C、F、I、L)。如果DNA定向序列由单段DNA片段组成，它应与一段目的基因片段，其只包含在包括编码蛋白质功能域的外显子的部分目的基因内、与另一段目的基因片段，其只包含在包括内含子的部分目的基因内，而内含子位于编码蛋白质功能域的外显子近端、或者与一段目的基因片段，其包括属于这两个区的序列，同源。任何情况下，在宿主细胞基因组DNA中通过在由DNA定向片段确定的位点上同源重组整合构造体，可以使蛋白质功能域在调节单位的调控下得到表达。

只要构造体的整合不修饰编码蛋白质功能域的基因组元件或其它细胞生存或代谢所需的基因组序列的顺序(order)和/或序列，这样的定向策略是可行的。如果目的基因自身的初级翻译产物对细胞存活或代谢是不可缺少的，这些不经同源重组修饰的基因复制具有的表达水平通常足以维持细胞的代谢活性。

从启动子到聚腺苷酸化位点，知道完全基因序列和结构会有助选择更合适的定向策略，但可能产生只始于序列的构造体以及与蛋白质功能域相关的外显子和内含子结构。人基因特别容易发生这种情况，这是由于5’或3’端只含有适当候选序列的基因组克隆，特别当与已排序及表征的对应小鼠基因比较时。根据同一种或其它有机体中与其它基因的同源性以及计算机预测(RogicS等人，Genome Res.，2001；11(5)：817-32)，有关外显子/内含子的连接与限于蛋白质功能域一端的周边序列(surrounding sequence)一起，被限定在基因组克隆上。因为基因组片段的长度足以在基因组正确位置上产生引导调节单位所需的定向序列，由此可以选择基因克隆片段。

DNA定向序列可包含与定向基因组中相邻或不相邻目的基因同源的序列。在第一实施例中，在编码蛋白质功能域的外显子近端的内含子内部或一端简单插入外源序列(图1A、B、D、E、G、H、J、K)。在第二实施例中，部分目的基因，其用于分离在编码蛋白质功能域(外显子和/或内含子)的外显子近端的不相邻序列，由于同源重组而缺失或被外源序列所取代(图1C、F、I、L)。在两种载体中同源重组都由新的外源DNA驱动，而新的外源DNA可与编码蛋白质功能域的目的基因中同源序列直接进行序列对比(aligned)。外源DNA同源序列的特定线性排列将确定调节单位在编码蛋白质功能域的外显子近端的内含子区水平上的位置和方向。

每当定向片段通过PCR技术和/或由与宿主细胞非等基因的(isogenic)细胞衍生而来，而制备的构造体是用来识别可显著改变预定序列和蛋白质功能域表达的任何序列差异(由于来源于定向区)时，就要对这些定向片段进行排序。

当选择的定向结构型是用来确定目的基因的基因组修饰本质，产生编码蛋白质功能域的重组基因时，用预定构造体制备定向细胞系的实际效率主要取决于定向构造体。

具体地说，业已发现，用构造体获得的绝对定向频率取决于许多因素，包括定向构造体中同源序列的长度、定向构造体中序列与目的基因之间的同源程度、要进行定向的特定的基因组区。又发现，定向频率随着定向载体与基因座之间序列同源性长度的增加而提高，直至定向频率峰值达到10-14kb之间，与插入和取代载体之间的频差不一致(Deng C和Capecchi MR，MolCell Biol.，1992；12(8)：3365-71)。此峰值可反映导入细胞的完整DNA片段大小是有限制的，而不是反映同源性长度对定向频率影响的制约。

关于通过同源重组促使构造体正确整合所需的同源水平，DNA定向序列必须在文献所述的严格杂交条件下与内源序列杂交(Sambrook等，“MolecularCloning：A Laboratory Manual”，Cold Spring Harbor Press，1989年)，例如，用下列洗涤条件：在室温下用2X SCC、0.1％SDS洗两次，每次30分钟；再于50℃用2X SCC、0.1％SDS洗一次，时间为30分钟，最后在室温下用2X SCC洗两次，每次10分钟。

可识别包含至多约25-30％碱基对错配(mismatches)的同源序列。同源核酸链更优选是包含15-25％碱基对错配，特别优选是包含5-15％碱基对错配。同源程度的选择要使用更严格的洗涤条件以识别来自基因库(或来自其它基因材料)的克隆，这已为本领域技术人员所公知。选择标记基因

构造体也可包含以下一种或多种基因：正选择基因、扩增基因及负选择基因。用于同源重组的构造体可包含不同于构成调节单位的序列的外源序列。具体地说，将一种或多种正选择基因、扩增基因或负选择基因加在构造体上，以利于识别已转化的具有正确整合于基因组调节单位的克隆。为此，将扩增和/或标记基因置于定向区之间，通常是在转录模板与其中一个定向区之间的构造体(图1D-F、J-L)。无论使用何种选择标记物，它组成的转录和翻译单位与蛋白质功能域的转录和翻译单位不同，避免对后者造成任何干扰，通过回避任何“连读”事件的序列，如上述转录终止子，它与调节单位分离。最后，正标记基因的一端可能缺失转录和/或翻译信号序列，这将由适当整合的目的基因提供，产生融合基因。

正选择标记基因能够使转染宿主细胞抵抗正常毒性环境。这些基因的例子是腺嘌呤核苷脱氨酶(ADA)、氨基糖苷磷酸转移酶(neo)、二氢叶酸还原酶(DHFR)、潮霉素B磷酸转移酶(HPH)、胸腺嘧啶核苷激酶(tk)、黄嘌呤-鸟嘌呤磷酸核糖转移酶(gpt)、多重抗药性基因(MDR)、鸟氨酸脱羧酶(ODC)及N-(磷乙酰基)-L-天冬氨酸抗性(CAD)。

另外，或者作为正选择标记基因的替换，扩增基因也可选择性地包含在构造体中。扩增基因是在当处于选择压力下复制数目会增加的基因。包括编码蛋白质功能域的新基因在内位于扩增基因附近的基因，其复制数目也会增加。可用的扩增基因包括DHFR、MDR、ODC、ADA及CAD。正选择标记基因组的成员与扩增基因组的成员重迭，理论上无需用两种基因，其中一个用于正选择，另一个用于扩增，只用一个基因就可以达到这两个目的。然而，由于大多数细胞系含有这些扩增基因的内源复制，所以这些细胞对选择条件已经具有一定程度的抗性，因而较难将带有转染DNA的细胞与没有接纳转染DNA的细胞区别开来。因此，当需要扩增基因时，诸如HPH、gpt、neo、tk(在tk细胞中)等正选择基因处于主导地位，它们也应包含在构造体中。在一些应用中，可以或最好忽略扩增标记物，即使增加编码蛋白质功能域的新基因的复制数目最后会提供大量这种蛋白质。例如，当调节单位很难驱动蛋白质功能域转录和翻译时，就不需要进行扩增。要除去正选择基因和选择细胞，也可只筛选制备所需的蛋白质或mRNA。但大多数情况最好至少包括正选择基因。

负选择标记基因也可存在于定向序列外部的构造体中。在通过同源重组适当插入DNA构造体的细胞中，这样一种基因由于已被除去而得不到表达，但在不适当插入DNA构造体如随机整合的细胞中则得到表达。如果载体通过同源重组正确插入，它就会在同源区重组，导致同源区外部序列的丧失。一种这样的基因是单纯疱疹病毒胸腺嘧啶核苷激酶(HSVtk)。HSVtk对核苷酸的要求较低，能够使正常哺乳动物细胞不能磷酸化的核苷酸类似物磷酸化。如果HSVtk存在于细胞中，如无环鸟苷和9-[1，3-二羟-2-丙氧甲基]鸟嘌呤(ganciclovir)等核苷酸类似物就会发生磷酸化，并合并在宿主细胞的DNA中，以致杀死细胞。

无论使用何种标记基因，一般文献中认为用位点特异性重组酶(如Flp或Cre)可以在以后除去这样的基因，位点特异性重组酶已存在于细胞基因组中与构造体共同转染用于同源重组，或经转变或任何一种重组技术以后被导入。有些文献叙述了这些步骤，当标记基因影响附近基因的转录时，它们可能是必不可少的条件，最后可用于激活或灭活调节单位的元件(Gorman C和Bullock C，Curr Opin Biotechnol.，2000；11(5)455-60；Kuhn R和Schwenk F，Curr.Opin.Immunol.，1997；9(2)：183-8)。构造体

如上所述，将包含DNA序列的直线或环状构造体或定向载体导入宿主细胞中，使DNA定向区可与同源基因组序列杂交，并使内源和外源之间进行同源重组，这样，构造体或定向载体就可稳定地整合在宿主细胞的基因组中。

构造体的装配应考虑到编码蛋白质功能域的外显子的方向。所以定向序列要在构造体内克隆，以便通过同源重组在同一个方向整合包含在调节单位内的元件，测定在外源调节单位与包括编码蛋白质功能域的外显子的内源基因区之间的操纵连接。与此相反的是，选择标记基因的方向是任意的，但如前所述，它们不应干扰外源调节单位的活性，因而通常位于转录模板和较远端定向序列中(图1D-F、J-L)。

属于构造体而不属于调节单位和选择标记基因的DNA序列最后通过同源重组而整合(例如，与在细菌细胞中的复制或选择有关)，它们也不应影响蛋白质功能域的转录或翻译。蛋白质功能域的制备

一旦已知蛋白质功能域的氨基酸序列和基因结构，就可以用本发明的方法用下列步骤得到它的产品：·识别目的基因区，其中调节单位的整合(通过插入或取代)可以准确、高效地表达蛋白质功能域；·构建定向载体，其包含定向序列、调节单位以及可选择性地包括扩增和/或选择标记基因；·选择适当宿主细胞，其包含定向序列和编码蛋白质功能域的外显子；·用已知技术(脂质转染法、电穿孔法、磷酸钙沉淀法)转化带有构造体的宿主细胞；·用以下技术识别包含同源重组后所希望的重组基因的转化体：正和/负选择、扩增、限制酶切位点分析、基因组/逆转录PCR、DNA印迹或DNA排序；·用常规分离技术(细胞溶解/分裂、提取、沉淀、层析法)收集和加工来自培养细胞和/或培养基的样本，利用mRNA分析技术(引物延伸、RNA印迹)和蛋白质分析(蛋白质印迹、ELISA、蛋白质排序、表位作图、二维聚丙烯酰胺凝胶、亲和纯化、酶测试、CD/核磁共振光谱分析、高效液相色谱凝胶过滤、质谱法)扩展所选择的转化体以及挑选正确表达蛋白质功能域的克隆；·进一步扩展培养基中的克隆，以便定量分析选择用于工业生产的同源重组克隆，以及产生用于表达和纯化自扩展细胞培养基采集的蛋白质功能域的有效方案。附图说明

图1A-L所示为一些适合用本发明的DNA构造体与目的基因进行同源重组以制备表达编码蛋白质功能域的外显子新基因的可能途径。

HS1和HS2是与含有编码蛋白质功能域的外显子的目的基因同源的构造体片段，其用作DNA定向序列。在此示意图中，目的基因含有四个外显子(EX1、EX2、EX3、EX4)和三个内含子(IN1、IN2、IN3)。编码蛋白质功能域的外显子用黑色条带(bar)表示，位于目的基因的3’端(在图1A-F中)或5’端(在图1G-L中)。构造体在图1D-F和J-L中也包含标记基因(MK)。

调节单位由转录模板(TS)和翻译模板(TL)组成，每当需要时要切除翻译模板与编码蛋白质功能域的较近端外显子之间的内含子序列，调节单位还包括外源剪接模板，其带有剪接供体位点(在图1A和D中是SD)或剪接受体位点(在图1G和J中是SA)。

DNA构造体可使调节单位，选择性还使标记基因插入在与编码蛋白质功能域的外显子相邻的内含子区中，以便启动(在图1A-F中以表示)或终止(在图1G-L中以符号

表示)蛋白质功能域的转录及翻译。内源和标记基因转录/翻译的起始和终止调节元件分别以符号和

表示。

剪接模板可位于翻译模板的3’端(图1A和D)或5’端(图1G和J)。例如，若插入外源调节单位就会使内含子(IN2)分裂为两部分(IN2’和IN2”)，利用剪接模板将间插内含子序列(在图1A和D中是IN2”；在图1G和J中是IN2’)切除，以便选择性转录和翻译EX3/EX4(在图1A和D中)或EX1/EX2(在图1G和J中)，制成蛋白质功能域。此外，DNA构造体还使调节单位，选择性使标记基因插入在所述内含子和外显子(在图1B和E中是IN2和EX3；在图1H和K中是IN2和EX2)之间，但不会分裂内含子，以便选择性地转录和翻译EX3/EX4(在图1B和E中)或EX1/EX2(在图1H和K中)，制成蛋白质功能域。

另外，DNA构造体可使外源调节单位，选择性还使标记基因取代在编码蛋白质功能域的外显子相邻的内源基因片段。如上述情况中，一个定向序列必须属于编码蛋白质功能域的外显子(在图1B、C、E和F中是EX3；在图1H、I、K和L中是EX2)，而其它定向序列对应于不包含在蛋白质功能域的基因组区中的内源序列。结果是外源调节序列取代两个同源区之间的片段(在图1C和F中是IN2和部分EX2；在图1I和L中是IN2和部分EX3)，产生新的内含子序列(在图1C和F中是IN1/EX2；在图1I和L中是EX3/IN3)。

图2所示为人和小鼠TRNACE蛋白质(SEQ ID NO：1和SEQ ID NO：2)在经蛋白水解加工产生sTRANCE的区中进行序列对比(＝指同一性，+指同源性)。称之小鼠sTRANCE可能N端的残基(Schlondorff J等人，J Biol chem..，2001；276(18)：14665-74)以§表示。相应sTRANCE N端、小鼠TRANCE蛋白质(IC、TM和EC分别表示细胞内、跨膜及细胞外的结构区)、小鼠TRANCE基因(EX表示外显子，IN表示内含子，后面是相关编号)、以及人染色体13(核苷酸编号相对GenBank版本NT 009935.3)以虚线表示。人和小鼠蛋白质序列的编号对应原始公开的文献(Anderson DM等人，Nature，1997；390(6656)：175-9；Wong BR等人，J Biol Chem.，1997；272(40)：25190-4)。

图3所示为带有相应编码外显子(SQE ID NO：3)的人胶原XVIII 1α NC1结构域的蛋白序列。编号对应已公开的完全变异型长序列(Oh SP等人，Genomics.19(3)：494-9页，1994年2月)。文献表述的残基作为小鼠或人内抑制素(endsfatin)的蛋白质功能域的可能N端，以§表示。

图4A所示为用于在人COL18A1基因上构建pEnd-HR#1和pEnd-HR#2的5’和3’定向序列的位置。图中也显示了用于扩增COL18A1基因组序列的引物，所述引物是用原始AL163302 GenBank克隆构建定向载体的必要条件，以及显示了外显子和扩增序列的长度。图4B所示为pEnd-HR#1和pEnd-HR#2的简图，其显示调节单位、定向序列(虚线)、正和负标记基因的有关位置。方框所示为编码小鼠Ig信号肽(mIgSP；GenBank记录M13329的核苷酸1-56)，后面是剪接供体位点(SD；下划线序列)，其包括该编码序列的最后一个核苷酸和内含子开头的第六个核苷酸，它们选自刺激(剪接)(stimulating splicing)的基序(SEQ ID NO：4)。该剪接位点用符号][表示。原始小鼠Ig信号肽最后一个密码子TCA被修饰为TCG，使其正确剪接得到更好的mIgSP3’端，但这种突变不会改变相应的氨基酸(丝氨酸)。

图5所示为具有有关限制性酶切位点的质粒pBS-EF1α-mIgSP-SD的简图。

图6所示为具有有关限制性酶切位点的质粒pGEM-3Z-mPGK-TK-HR的简图。

图7所示为质粒pEnd-HR#1的简图。它也显示了含有EF1-α启动子、小鼠Ig信号肽和剪接供体位点的5’和3’定向区(5’HR和3’HR)、用于正选择(SEL+)和负选择(SEL-)基因及调节单位(RU)的有关位置。使质粒转染前线性化的NotI独特限制性酶切位点位于3’HR端。质粒pEnd-HR#2的长度水平和在定向序列基因组DNA上的位置与pEnd-HR#1不同(图4A)，它稍微大些(16.9Kb)。

图8所示为在细胞中得到表达的新mRNA序列，其中质粒pEnd-HR#1正确整合在人COL18A1基因中，特别是mIgSP外显子和外源编码序列。起始和终止密码子以粗线表示。完全mRNA序列包含2210个核苷酸(只示出外显子41的编码部分)，而蛋白质功能域被编码为带有275个氨基酸的蛋白质(其中19个属于mIgSP外显子，256个属于人COL18A1外显子38-41编码序列)。

图9所示为在细胞中得到表达的新mRNA序列，其中质粒pEnd-HR#2正确整合在人COL18A1基因中，特别是mIgSP外显子和内源编码序列。起始和终止密码子以粗线表示。完全mRNA序列包含1964个核苷酸(只示出外显子41的编码部分)，而蛋白质功能域被编码为带有193个氨基酸的蛋白质(其中19个属于mIgSP外显子，174个属于人COL18A1外显子39-41编码序列)。

图10A所示为pEAK-HR#2片段的简图。COL18A1内含子37和外显子39-41编码序列融合在旗表位(FLAG epitope)和聚腺苷酸化位点上。pEAK-HR#1包含内含子37而不是内含子38，还包含在内含子37与外显子39-41之间的外显子38。图10B所示为用全部细胞提取物所进行的蛋白质印迹，而细胞提取物用抗1∶100稀释的人内抑制素的兔多克隆抗体测试过(ChemiconAB 1878)。图10C所示为用1.5毫升来自同一转染细胞的条件培养基所进行的蛋白质印迹，而培养基用1∶1000稀释的小鼠单克隆抗FLAG-M2抗体(Sigma F3165)和20微升M2-FLAG-琼脂糖(Sigma A1205)经免疫沉淀法测试过。第二抗体连接在以辣根过氧化物酶标记的抗山羊抗兔或抗山羊抗小鼠的抗体上，稀释为1∶1 0000(Amersham-Pharmacia)，并用ECL Western Pico试剂检测(Pierce)。pEnd-HR#1和pEnd-HR#2的蛋白质功能域的预定分子量分别是31Kd和22Kd(除去信号肽前，如图10B所示)或29Kd和19Kd(除去信号肽后和在培养基分泌后，如图10C所示)。分子量转移是由于在由外显子38编码的序列水平上发生糖基化。

图11A所示为长1.0Kb的编码区简图，该编码区在pEnd-HR#1整合后包含在人293EBNA表达细胞中。图中示出用于识别转录的引物位置。图11B所示为长2.4Kb的COL18A1基因组区简图，该基因组区在pEnd-HR#1整合后存在于人293EBN细胞中。图中示出用于表征克隆的引物位置和限制性酶切位点。

图12所示为扩增产物的琼脂糖，扩增产物是用o-1165和o-1175作为引物扩增选择细胞的cDNA扩增而得到的。每个库对应由单个平板得到的细胞。

图13所示为对取自pEnd-HR#1阳性克隆库4的两段扩增节段FragA和FragB所进行的限制性酶切分析。来自FragA的扩增片段的预定长度是501(A)、577(B)、618(C)和851(D)个碱基。来自FragB的扩增片段的预定长度是255(A)、331(B)、372(C)和605(D)个碱基。

图14A所示为使用从以pEnd-HR#1转染的293-EBNA细胞原始库4(1)、从后一个库进一步分离的克隆库(2-4)或从没有转染的293-EBNA细胞(5)提取的基因组DNA，用o-1165和o-1166外显子特异性引物扩增的DNA片段。图14B所示为使用从以pEnd-HR#1转染的293-EBNA细胞原始库4分离出来的不同克隆库(2-4)、或从没有转染的293-EBNA细胞(5)提取的基因组DNA，用o-1121和o-1168内含子特异性引物扩增的DNA片段。

图15A所示为用来自293-EBNA细胞的基因组DNA和存在于内含子37的序列特异性引物(1)或者用已通过RT-PCR技术识别的克隆pEnd-HR#1阳性库的基因组DNA和在mIgSP外显子和外显子38中杂交的引物(2)，与用一系列限制性内切酶从两段片段中的每一段得到的模式一起扩增后的DNA片段。图15B所示的表列出DNA的预定长度。

现在，结合以下实施例对本发明进行叙述，但不应以任何方式构成对本发明的限制。具体实施方式可溶性TRANCE

小鼠TRANCE基因包含5个外显子，第一个外显子基本上编码蛋白质的细胞内和跨膜结构域，而大部分细胞外结构域由其余4个外显子编码。具体地说，特异性编码体内蛋白质功能域的片段(可溶性TRANCE或sTRANCE)全部由第3、第4和第5个外显子编码(Lum L.等人，J Biol Chem.，1999；274(19)：13613-8；Kodaira K.等人，Gene，1999；230(1)121-127)。相应的人类基因结构还不清楚，但确定与人染色体13相关的人类基因组片段(GenBank记录NT_009935)包含人TRANCE蛋白质的编码序列，而人TRANCE蛋白质分裂为序列和长度都与小鼠TRANCE基因的外显子极度相似的片段。两个基因的内含子序列的长度看起来也很相似(图2)。

最近，有人对N端序列略微不同的sTRANCE型式进行了表征(SchlondorffJ等人，J Biol Chem.，2001；276(18)：14665-74)，表明蛋白质功能域可被还原(reduced)为外显子4-5的编码序列。有趣的是，我们注意到小鼠和人TRANCE之间的同源性在sTRANCE可能N端序列周围的区域中较低。

如果想制备对应可溶性TRANCE的蛋白质功能域，例如，用内含子2(长20Kb)的两段相邻或不相邻片段作为同源重组的定向序列，修饰小鼠或人宿主细胞，表达外显子3-5。调节单位包含转录模板，其含有在人细胞中具有活性的启动子和增强子序列，以及翻译模板，其含有合成外显子、并带适当的5’非翻译区、Met密码子和5’剪接供体位点。

此外，考虑到人和小鼠TRNACE的cDNA与蛋白质序列之间的同源性以及最近已识别的sTRANCE型式，对应内含子3的序列也可被定向于小鼠或人细胞中，只表达外显子4和5。构造体可有调节单位，其与用于表达外显子3-5的调节单位相似，当然也可使用简化构造体，其只包括作为转录模板的适当转录模板和5’非翻译区，不包括剪接模板，这是因为在人和小鼠TRANCE基因组序列两者的外显子4的起点就有保存的甲硫氨酸。

本发明的方法可用于制备基因结构相似的属于TNF家族，如CD40L、CD70、FasL等，的其它蛋白质的细胞外结构域(Kodaira K等人，Gene，1999；230(1)：121-127；Locksley RM等人，Cell.，2001；104(4)487-501)。自胶原XVIII 1α(内抑制素)衍生的抗血管生成因子a)定向策略

内抑制素属于日渐增多的与血管生成相关的蛋白质功能域，这些功能域作为被分泌初级翻译产物的蛋白水解片段在体内产生，但不具有任何与血管生成相关的活性。如最近的评论认为(Cao Y，Int.J.Biochem.Cell Biol.，2001；33(4)：357-69)，已知的血管生成抑制剂，如PEX、内抑制素、或静息蛋白(Restin)分别是MMP-2、胶原XVIII 1α和胶原XV的C端片段，而Fn-f和Vasostatin分别是纤连蛋白维结合素和钙网蛋白N端片段。

具体地说，许多属于胶原蛋白家族，并用作细胞外基质结构元件起作用的蛋白质经蛋白水解修饰得到血管生成抑制因子，在对它们的大部分研究中是称为内抑制素。该蛋白质功能域由胶原XVIII 1α(COL18A1)基因编码，与由胶原XV(COL15)基因编码称之静息蛋白的片段高度相似，代表初级翻译产物的非胶原结构域(NC1)C端(John H等人，Biochemistry，1999；38(32)：10217-24；Sasaki T等人，J Mol Biol.，2000；301(5)：1179-90)。

人COL18A1基因包含41个外显子，而小鼠COL18AL1基因包含43个外显子，但两种生物体的非胶原结构域都是由最后6个外显子编码。另一个差异在于编码非胶原结构域的人COL18A1基因的外显子，这些外显子与多聚化结构域(外显子36-37)、铰链区(外显子38)和内抑制素核心结构域(外显子39-41)有关。

内抑制素在小鼠中的最初特征描述为含有183个氨基酸的片段，对应由外显子40编码的最后9个氨基酸，以及由外显子41-43编码的氨基酸(O’Reilly MS等人，Cell，1997；88(2)：277-285)。然而，含有由外显子38编码的最后9个氨基酸和由外显子39-41编码的氨基酸的相应片段还未在人样本中发现。一些研究已经显示，铰链区对各种蛋白酶特别敏感(Felbor U等人，EMBO J.，2000；19(6)：1187-94；Ferreras M等人，FEBS Lett.，2000；486(3)L247-51；John H等人，Biochemistry，1999；38(32)：10217-24；Wen W等人，Cancer Res.，1999；59(24)：6052-6056)，导致产生一系列带有由外显子38编码的不同N端序列片段(图3)。文献还显示，由外显子39编码的第一个氨基酸已经构建出来(Hohenester E等人，EMBO J.，1998；17(6)：1656-64)，而且N端至少有4个氨基酸比由外显子39-41编码的蛋白质N端长或短的蛋白质分别表现为有活性和无活性(Yamaguchi N等人，EMBO J.，1999；18(16)：4414-4423；Standker L等人，FEBS Lett.，1997；420(2-3)：129-133)。最后，从由外显子39-41编码的不同序列衍生的分离或镶嵌型片段，在与细胞移动和增殖的有关方面的性质各异(WO 00/63249，WO00/667771)。

结论是，人COL18A1外显子39-41编码人胶原XVIII 1α蛋白质的自发折叠单位，该折叠单位对应真正核心蛋白质功能域，后者提供天然内抑制素的抗血管生成特性。而且，文献还显示，属于外显子36-38的序列或者甚至是最后加入到这些蛋白质功能域N端上的异源序列，如果其长度有限(YamaguchiN等人，EMBO.，1999；18(16)：4414-4423；Blezinger P等人，Nat.Biotechnol.，1999；17(4)：343-348)，就不会干扰与这些类内抑制素的蛋白质功能域相关的抗血管生成特性。

人COL18A1基因的基因组DNA序列位于染色体21上(Hattori M等人，Nature，2000；405(6784)：311-9)，该序列包含在带有340个千碱基、在GenBank容易查到(查询号为AL163302)的基因组克隆中，而且，包含在这个克隆中也使片段特异性扩增的引物较易设计。因此，根据本发明，用含有调节单位和定向序列的载体，而定向序列通过同源重组可在人COL18A1基因的内含子37或内含子38水平上整合调节单位来修饰人细胞，可以制备具有人内抑制素的抗血管生成特性的蛋白质功能域。

用同一个调节单位和属于人COL18A1基因的不同定向序列装配两种不同构造体(pEnd-HR#1和pEnd-HR#2)(图4A)。构造体pEnd-HR#1通过同源重组可用启动外显子38-41表达的调节单位来取代内含子36的3’端、完全外显子37及内含子37的5’端。构造体pEnd-HR#2通过同源重组可用启动外显子39-41表达的调节单位来取代内含子37的3’端和完全外显子38。

用文献所述的标准技术克隆DNA片段、构建和转染质粒以及选择和分析细胞(Ausubel FM等人，”Current Protocols in Molecular Biology”出版社为JohnWiley & Sons Inc.，1999年；Sambrook等人，”Molecular Cloning：A LaboratoryManual”，出版社为Cold Spring Harbor Press，1989年；Hasty P等人，in”Genetargeting：a practical approach”，ed.Joyner AL，出版社为Oxford Univ.Press，1-35页，1999年)。用常用的大肠杆菌(E.Coli)株DH5α或XL1蓝(XL blue)保持和繁殖转染到人细胞之前的全部质粒。b)定向载体的构建

利用PCR技术扩增GenBank克隆AL163302的适当同源区，特别是包含在外显子32与外显子41的3’非翻译区之间具有9.7个千碱基的片段内部，可克隆产生定向载体所需的COL18A1基因组片段(图4A)。

长37个碱基的引物o-1124(SEQ ID NO：5)在5’端含有一长10个碱基的序列，其包括SalI限制性酶切位点，而3’端的27个碱基对应克隆AL163302的核苷酸202790-202816。后一个序列允许o-1124在人COL18AL基因的外显子32中杂交，它用作扩增两种构造体5’定向区的正向引物。

长36个碱基的引物o-1125(SEQ ID NO：6)在5’端含有一长9个碱基的序列，其包括Bam HI限制性酶切位点，而3’端的27个碱基与克隆AL163302的核苷酸206301-206327互补。后一个序列允许o-1125在人COL18AL基因的内含子36中杂交，它用作扩增构造体pEnd-HR#1的5’定向区的逆向引物。

长35个碱基的引物o-1121(SEQ ID NO：7)在5’端含有一长9个碱基的序列，其包括Bam HI限制性酶切位点，而3’端的26个碱基与克隆AL163302的核苷酸208099-208125互补。后一个序列允许o-1121在人COL18AL基因的内含子37中杂交，它用作扩增构造体pEnd-HR#2的5’定向区的逆向引物。

长35个碱基的引物o-1116(SEQ ID NO：8)在5’端含有一长10个碱基的序列，其包括XbaI限制性酶切位点，而3’端的25个碱基对应克隆AL163302的核苷酸206382-206406。后一个序列允许o-1116在人COL18AL基因的内含子37中杂交，它用作扩增构造体pEnd-HR#1的3’定向区的正向引物。

长40个碱基的引物o-1117(SEQ ID NO：9)在5’端含有一长16个碱基的序列，其包括Not I限制性酶切位点，而3’端的24个碱基与克隆AL163302的核苷酸208098-208121互补。后一个序列允许o-1117在人COL18AL基因的内含子37中杂交，它用作扩增构造体pEnd-HR#1的3’定向区的逆向引物。

长34个碱基的引物o-1126(SEQ ID NO：10)在5’端含有一长9个碱基的序列，其包括XbaI限制性酶切位点，而3’端的25个碱基对应克隆AL163302的核苷酸208381-208405。后一个序列允许o-1126在人COL18AL基因的内含子38中杂交，它用作扩增构造体pEnd-HR#2的3’定向区的正向引物。

长43个碱基的引物o-1123(SEQ ID NO：11)在5’端含有一长17个碱基的序列，其包括NotI限制性酶切位点，而3’端的26个碱基与克隆AL163302的核苷酸209828-209853互补。后一个序列允许o-1123在人COL18AL基因的内含子39中杂交，它用作扩增构造体pEnd-HR#2的3’定向区的逆向引物。

用基因组克隆AL163302作为模板，o-1124和o-1125作为引物，通过PCR技术可制备构造体pEnd-HR#1的5’定向DNA片段。这段长3.5Kb的片段在5’端和3’端分别包括外显子32的3’端、完全内含子32-35和外显子33-36以及内含子36的5’端和独特SalI和BamHI限制性酶切位点。

用基因组克隆AL163302作为模板，o-1124和o-1121作为引物，通过PCR技术可制备构造体pEnd-HR#2的5’定向DNA片段。这段带有5354对碱基对的片段在5’端和3’端分别包括外显子32的3’端、完全内含子32-36和外显子33-37以及内含子37的5’端和独特SalI和BamHI限制性酶切位点。

用基因组克隆AL163302作为模板，o-1116和o-1117作为引物，通过PCR技术可制备构造体pEnd-HR#1的3’定向DNA片段。这段长1.7Kb的片段在5’端和3’端分别包括内含子37中间区以及独特XbaI和NotI限制性酶切位点。

用基因组克隆AL163302作为模板，o-1126和o-1123作为引物，通过PCR技术可制备构造体pEnd-HR#2的3’定向DNA片段。这段长1.5Kb的片段在5’端和3’端分别包括完全内含子38和外显子39以及内含子39的5’端和XbaI和NotI独特限制性酶切位点。

由于PCR产物特别长，故最好选用本领域技术已知的特异性酶和步骤来扩增制备定向载体所需的片段。在市场上可买到保真度高的试剂盒和长限PCR，如Herculase试PCR剂盒(Stratagene)。

在质粒pBluescript-KS II(pBS-KS II；Stratagene)的BamHI和SalI位点以及XbaI和NotI位点之间分别克隆每一已扩增的5’和3’同源区。再用限制性酶切作图和部分DNA序列测定已扩增和克隆的基因组片段以确定它们的同一性。

通过装配文献公开的DNA序列构建调节单位(图4B)。在人培养细胞内具有高水平的组构活性的人或非人启动子中选择转录模板。其中一个例子是已被克隆的人延伸因子-1(EF-1)α基因，(Uetsuki T等人，J Biol chem.，1989；164(10)：5791-8)，业已证明，它在很宽的宿主细胞范围均十分有效(Mizushima S和Nagata S，Nucleic Acids Res.，1990；18(17)：5322)。在几种市售可用质粒(In Vitrogen公司)中，长1.2Kb的启动子包含一个TATA盒，后面为转录起始位点，该位点使具有22个碱基长的非翻译外显子和长0.9Kb、由于带有几个Sp1和Ap1序列而具有转录增强效应的内含子发生转录。

使包含翻译起始位点的翻译模板与包含剪接供体位点共有序列的剪接模板结合。另外，为了有利于位于基因3’端上的蛋白质功能域分离，在翻译起始位点和剪接共有序列之间包括一编码信号肽的序列，其读框与编码蛋白质功能域的外显子相同。由于选择的信号肽是小鼠Ig信号肽(mIgSP)序列(GenBank查询号为M13329)，所以剪接用的合适共有序列是在最近发现的具有功能的人细胞序列中选择(Long M等人，Proc Natl Acad Sci USA，1998；95(1)：219-223；Blencowe BJ，Trends Biochem.Sci.，2000；25(3)：106-110)。

在产生载体pBS-EF1α的pBS-KS II的ClaI和NheI之间克隆人EF-1α启动子片段(对应GenBank记录J04617的核苷酸373-1561)。编码mIgSP和剪接供体位点的外显子在长0.2Kb的合成DNA片段中结合，该片段的5’端有XbaI限制性酶切位点，3’端有NheI和NotI限制性酶切位点。该片段克隆到pBS-EF1α的XbaI和NotI位点之间，这样它定位人EF1α启动子的3’端，产生质粒pBS-EF1α-mIgSP-SD(图5)。

同源重组载体主链的构建始于质粒pGEM-3Z(Promega)，将正和负选择标记物、定向区、转录、翻译和剪接模板按以下方式加到质粒上。

在遍在活性小鼠磷酸甘油酸激酶(mPGK)启动子和聚腺苷酸化信号(由以保藏号X76683保藏在GenBank的质粒分别衍生的具有508和480个碱基的片段)的调控下，用于同源重组负选择的基因是HSV-1胸苷激酶(HSV-TK；这是一段由人疱疹病毒1完全基因组衍生、长1.8Kb的片段，保藏在GenBank，保藏号为NC_001806)。

修饰HSV-TK 3’端的多重克隆位点，可使所有其它元件克隆。通过克隆两种退火寡核苷酸而导入两个新的独特限制性酶切位点NotI和ClaI，而随后进行的消化和重新连接可除去邻近mPGK启动子和聚腺苷酸化位点的两个XbaI位点，生成质粒pGEM-3Z-mPGK-TK-HR(图6)。后一个质粒用于克隆每种构造体的第一个5’定向区，然后是正选择标记物，最后是3’定向区以及转录/翻译模板在一起。

用BamH和SalI限制性酶切位点从pBS-KS II载体切除每种构造体的5’定向区，再亚克隆至BamH和XhoI位点之间的pGEM-3Z-PGK-TK-HR，产生质粒pGEM-3Z-PGK-TK-5’HR#1和pGEM-3Z-mPGK-TK-5’HR#2。选择潮霉素抗性基因作为正选择基因，它是自质粒pHygEGFP(Clontech)制备而成的，其中抗性基因在病毒启动子(CMV)的调控下表达为带绿荧光蛋白(GFP)的融合蛋白。通过剪断NotI和用克列诺酶(Klenow enzyme)(Life Technologies)填补来修饰市售质粒，除去两个相邻NotI位点。再用ClaI和BamHI限制性酶切位点将CMV-HygEGFP-polyA盒作为ClaI-BglII片段克隆到质粒pGEM-3Z-PGK-TK-5’HR#1和pGEM-3Z-mPGK-TK-5’HR#2中，产生质粒pGEM-3Z-PGK-TK-HYG-5’HR#1和pGEM-3Z-mPGK-TK-HYG-5’HR#2。

用编码mIgSP信号肽的外显子下游共有剪接供体位点前面的Nhe I和NotI位点从pBS-KS II载体切除每种构造体的3’定向区，作为XbaI-Not I片段被克隆到质粒pBS-EF1α-mIgSP-SD中。所产生的质粒pBS-EF1α-mIgSP-SD-3’HR#1和pBS-EF1α-mIgSP-SD-3’HR#2含有与ClaI和NotI位点之间的3’定向区融合的EF1-mIgSP片段。这些ClaI-NotI片段最后会导入正选择盒下游pGEM-3Z-PGK-TK-HYG-5’HR#1和pGEM-3Z-PGK-TK-HYG-5’HR#2的ClaI-NotI位点之间，最终得到pEnd-HR#1(图7)和pEnd-HR#2载体。这些质粒在转染到用于使外源序列定向到人COL18A1基因的特异性位置的细胞之前，要在位于3’定向区3’端的独特NotI位点上线性化。一旦整合后，调节单位会促使编码mIgSP的mRNA发生转录，而mIgSP与pEnd-HR#1(SEQ ID NO：12；SEQ ID NO：13；图8)的COL18A1外显子38-41，或者与pEnd-HR#2(SEQ IDNO：14；SEQ ID NO：15；图9)的COL18A1外显子39-41符合读框地融合。

通过瞬时转染含有内抑制素编码序列(Edge BioSystems)的pEAK质粒，初步测试包含在pEnd-HR#1和pEnd-HR#2中的外源调节单位活性。调节单位在带有内含子序列的DNA片段5’中克隆，在人COL18A1基因中同源重组后，它可被转录和剪接，而位于与异源表位符合读框地融合的人COL18A1基因的下游外显子中的编码序列，有助识别即使是小量的蛋白质、终止密码子、和存在于载体的聚腺苷酸化位点(图10A)。两种构造体(pEAK-pEnd-HR#1和pEAK-pEnd-HR#1)在人293-EBNA细胞(后来用于同源重组)中转染，其不表达COL18A1基因(Yamaguchi N等人，EMBO J.，1999；18(16)：4414-4423)。

测试转染细胞的mRNA与分泌及细胞内蛋白质，以证实构造体是否正确转录、剪接和翻译。

首先，以RT-PCR技术进行分析，扩增由转染细胞得到的cDNA，再用市售得到内抑制素(Chemicon Inc.)和旗表位(Amersham-Pharmacia)的抗体进行蛋白质印迹分析。具体地说，蛋白质分析显示，EF-1α启动子很容易进入293-EBNA，然后转录和剪接，该最终的mRNA翻译为预定大小的蛋白质功能域(图10B)。随后，利用外源信号肽的作用(图10C)在培养基分泌该蛋白质，例如有文献叙述了只含有COL18A1外显子序列的构造体(Blezinger P等人，Nat.Biotechnol.，1999；17(4)：343-348)。c)定向载体的转染和克隆选择

pEnd-HR#1和pEnd-HR#2载体可用于转染人细胞型，其中外源调节序列具有活性或诱导性，与内源COL18A1基因是否已得到表达无关。这种基因在肝脏、心脏和肾血管组织以及肝细胞中得到高度表达(Saarrela J等人，Am.J.Pathol.，1998；153(2)：611-626)。所以，从这些细胞型衍生的细胞系可适用于本发明的方法，但本发明也使用其它不表达COL18A1的细胞型，这是因为，即使该基因座的染色质结构最后可阻抑转录，但其足够强和遍布的具有活性和诱导性的调节序列能够克服这些限制。故细胞型的选择可扩展至容易转染和扩展的无限增殖化人细胞系，如HT1080、WI38、HepG2或293细胞。

如前所示，以自人胚胎肾衍生的细胞293-EBNA作为人无限增殖化人细胞系的例子，通过本发明的方法对该细胞系进行有效修饰，以便选择性地表达人COL18A1基因中编码抗血管生成蛋白质功能域的外显子。这些细胞通常在市场上买得到(InVitrogen)，它们表达EB病毒核抗原1(ENBA-1)，用电穿孔就可以有效地转染，并且在含有10％胎牛血清、4.5克/升葡萄糖以及抗生素(100微克/毫升青霉素和链霉素；Gibco-BRL)的标准DMEM培养基(Dulbecco’s Modified Eagle’s Medium)中生长。

用带有4毫米间隔的电极的多孔装置(Eppendorf)在推荐条件(导电值为60microSiemens，电压为500V)下，以制造商提供的哺乳动物最佳低渗缓冲液进行电穿孔转染。用12微克pEnd-HR#1或pEnd-HR#2的NotI线性质粒在800微升缓冲液中使八等分生长293-EBNA细胞的指数生长期试样(每份试样有2.5×10⁶个细胞)电穿孔。施加脉冲后，以同一种线性载体转染的全部2×10⁷个细胞接种在四块已用D聚赖氨酸(SIGMA)涂覆，直径为150毫米(NUNC)的组织培养平板上。72小时后，用250微克/毫升潮霉素(Life Technology)开始选择，每两天改换培养基。选择多4天后，使细胞与含加有10微摩尔9-[1，3-二羟-2-丙氧甲基]鸟嘌呤(Gancyclovir)(Cymevene；Roche)的潮霉素的组织培养基一起培养，进行同源重组的负选择。

转染后大约25天，在显微镜下用移液管吸头尖端将选择细胞作为单克隆分离出来。每块平板产生一个克隆库(每库大约有300个克隆)，使4个库保持在正选择4至5个星期，以便扩展得到足够材料，在继续选择更小克隆库之前能作进一步分析。d)表达内抑制素的克隆的识别和分析

正-负选择后所得到的克隆可以用许多方法来识别细胞，在这些细胞中，抗血管生成蛋白质功能域由于同源重组使外源调节单位整合在人COL18A1基因中而得到表达。以下进行的实验是为了确定调节单位的正确整合和编码抗血管生成蛋白质功能域的外显子的特异性表达。

利用本技术领域人员已知的文献所述的技术，在自阳性细胞库提取的基因组DNA和mRNA上分析所选克隆中人COL18A1基因和转录结构。要识别在正确定向和剪接之后基因组DNA和mRNA包含的序列(图11A-B)，首选方法是用DNA引物(PCR)选择性扩增DNA片段，这是因为这种方法快速、要求的生物材料较少。也可克隆扩增片段中某些，并进行DNA排序以进一步确定序列同一性。

用HotStarTAQ PCR(当原料是基因组DNA或cDNA时)或OneStep HotStarRT-PCR(当原料是完全RNA时)的市售试剂盒(Qiagen)，基本上按照制造商提供的使用说明，在应用生物系统9700热循环(Applied Biosystem 9700thermocycler)上进行多聚酶链式反应(PCR)。反应的终体积是25或50微升。PCR反应完成后，取10或20微升反应混合物在琼脂糖凝胶上洗脱，筛选到存在预定的PCR片段，这表示外源序列在COL18A1基因的定向位置上得到适当整合，或筛选到存在编码抗血管生成蛋白质功能域的预定剪接mRNA。

首先筛选以pEnd-HR#1或pEnd-HR#2转染的克隆库，以发现有新的转录。自克隆提取的mRNA先进行逆转录，再通过PCR扩增(二步法)或直接在同一支试管中进行逆转录和扩增(一步法)。引物设计成与不同外显子序列的模板杂交，使同一种正向引物始终在mIgSP外显子中杂交，采用不同逆向引物与人内源性COL18A1外显子杂交(图11A)

对于两步法，按制造商的使用说明，用Superscript-II cDNA试剂盒(Lifetechnologies)和5单位MMLV逆转录酶(Promega Biotech)，以oligo-dT₁₈引物逆转录1微克完全RNA。于37℃培养45分钟后，加入(1单位)RNA酶H除去RNA，该RNA与自寡核苷酸延伸的DNA配对，再在37℃培养延长多15分钟。最后，将所得的互补DNA(cDNA)用不含RNA酶的水稀释至浓度10纳克/微升。再用20纳克oligo-dT引物cDNA进行PCR，每种引物取0.5微摩尔，步骤如下：

95℃扩增15分钟，1次循环；

95℃扩增45秒，60℃至56℃(每次循环温度降低1℃)、72℃扩增1分钟，5次循环；

95℃扩增45秒，54℃扩增30秒、72℃扩增1分钟，35次循环；

72℃扩增10分钟，1次循环。

对于一步法，用500纳克总RNA进行OneStep HotStar RT-PCR，每种引物取0.5微摩尔。根据制造商给定的条件，使逆转录反应于50℃进行30分钟，再进行如下步骤：

95℃扩增15分钟，1次循环；

95℃扩增30秒，57℃扩增30秒、72℃扩增1分钟，35次循环；

72℃扩增10分钟，1次循环。

开始时使用在外源mIgSP外显子(o-1165；SEQ ID NO：16)编码区内杂交的寡核苷酸与在内源COL18A1外显子40(o-1175；SEQ ID NO：17)杂交的引物，它们在人COL18A1基因两种构造体的任何一种整合后应该得到表达。用mRNA扩增可产生的该cDNA，该mRNA是自以pEnd-HR#1或pEnd-HR#2转染的选择克隆库提取而来，通过这种方法扩增的cDNA可以识别每种定向构造体的克隆库(库4包含pEnd-HR#1和库3包含pEnd-HR#2)，其表达带有外源和内源外显子序列的mRNA分子，在正确定向、转录和剪接后(pEnd-HR#1有577个碱基，pEnd-HR#2有331个碱基)，按预定核苷酸的数目分离该mRNA分子。对于没有转染的细胞(图12)PCR结果是阴性的。

在pEnd-HR#1阳性克隆库中，可以清楚识别对应pEnd-HR#2预定大小的较弱信号带。所以，用较外端引物o-1165(SEQ ID NO：16)和o-1131(SEQ IDNO：18)以及pEnd-HR#1阳性克隆库4对两种分子物种中的每一种都进行详细PCR分析，用较内端逆向引物o-1175扩增两条较大信号带(FragA和FragB)，发现在长度上有相同差异。以o-1165为正向引物，其它寡核苷酸为逆向嵌套引物：o-1164(SEQ ID NO：19)、o-1175(SEQ ID NO：17)o-1179(SEQ ID NO：20)，使这些片段从凝胶分离、克隆，独立地用作模板。

如果较弱信号带是替换剪接引起的，用FragA和FragB为模板得到的扩增片段应该不同于对应缺失外显子长度的片段。由于所有引物对扩增的是在FragA和FragB之间大约有250对碱基对不同的片段，故可得出如下结论：最初在库4中识别的较弱信号带实际上对应转录，而转录的外显子38(带有246个碱基)包含在全部片段中，由于替换剪接而被切除(图13)。这种正常剪接后来被排序克隆片段所证实，然而，因为外显子38和39的读框相同，导致发生的转录与用pEnd-HR#2转染的细胞所发生的转录完全一样(图8)。

最后，用mIgSP特异性引物o-1165和外显子41的5’非翻译区特异性引物o-1193(SEQ IDNO：21)通过RT-PCT技术在来自以pEnd-HR#1转染的细胞库4的mRNA上，得到长0.9Kb的片段。使片段克隆和排序。该序列与预定序列相对应(图8)，这进一步证实了DNA构造体得到正确整合，促使内抑制素特异性定向COL18A1外显子发生转录。

用与外显子序列，如o-1165(SEQ ID NO：16)和o-1166(SEQ ID NO：22)，或内含子序列，如o-1168(SEQ ID NO：23)或o-1121(SEQ ID NO：7)的例子中(图11B)杂交的寡核苷酸，通过PCR技术在基因组水平上进一步分析以pEnd-HR#1转染，并表达正确转录的克隆库。

用200纳克基因组DNA(从经RT-PCT识别过的pEnd-HR#1阳性克隆库，或者从293-EBNA非转化的细胞中分离出来)，每种引物取0.5微摩尔进行PCR，步骤如下：

95℃扩增15分钟，1次循环；

95℃扩增30秒，65℃至58℃扩增30秒(每次循环温度降低1℃)、72℃扩增2分15秒，5次循环；

95℃扩增30秒，57℃扩增30秒、72℃扩增2分15秒，25次循环；

72℃扩增10分钟，1次循环。

外显子区杂交的引物(一种引物通过同源重组插入，另一种是内源引物)能够在由原始阳性库产生的全部克隆库中扩增预定长度(1820个碱基)的片段，但在非转染细胞则不行(图14A)，这证实了mIgSP外显子的整合。内含子区杂交的引物能够在转染和非转染克隆中扩增预定长度(1784个碱基)的片段(图14B)，这证实了该基因结构的完整性。

另一个证据是基因结构就是通过消化用外显子和内含子特异性引物与一系列限制性酶产生的片段来整合包含在定向载体pEnd-HR#1中的调节单位后得到所希望的结构，此证据证实了所得的亚片段具有预定长度。所有测试酶提供预定限制型式(图15A、B)。

从经过本发明方法修饰过的细胞提取mRNA和基因组DNA，对它们进行PCR分析可以识别一些克隆，而克隆的调节单位整合在人COL18A1基因中，引致编码具有决定内抑制素抗血管生成性质的蛋白质功能域的外显子特异性表达。所以，这种分析能进一步分离和表征最佳表达所需蛋白功能域的克隆。这种附加分析还可以在内抑制素特异性探针与这些克隆充分扩展后得到的全RNA(RNA印迹)或基因组DNA(DNA印迹)杂交的水平上进行。例如，DNA印迹可识别分别从以pEnd-HR#1或pEnd-HR#2转染的克隆分离出来的RNA中长2.2Kb或1.9Kb的信号带。如果阳性细胞和非转染细胞的基因组DNA用NheI和SpeI消化，在琼脂糖凝胶上分离，转移到过滤器上，用对应人COL18A1基因组区，包括外显子32-36和内含子32-36，的放射活性片段探查，发现杂交型式有所不同，这是因为在非转染细胞中看得见的12.4Kb片段，包括从内含子31至末端的人COL18A1，由于正选择的基因中还有额外的NheI和SpeI位点而被阳性细胞(在pEnd-HR#1转染细胞中是4.4Kb)中较短的片段所取代。

为了识别具有更高生产水平的克隆，在抗血管生成蛋白质功能域进一步扩展、收集和纯化之前，以基于抗体的技术(ELISA、蛋白质印迹、免疫沉淀法)在蛋白质水平上进行筛选。

进一步纯化后的蛋白质功能域的抗血管生成活性可通过文献所述的一些方法中的一种基于内皮细胞来确定。以重组或纯化人内抑制素为标准，在内皮细胞移动试验中测试由阳性克隆得到的蛋白质提取物、纯化制剂或培养基。较常用的其中一个试验采用市场有售(clonetics)的人脐静脉内皮细胞(HUVECs)，经过培养能够建立可靠的移动试验(Yamaguchi N等人，EMBO J.，1999；18(16)：4414-4423)。Trx80

人硫氧还蛋白(Trx)是催化细胞内二硫化物还原的酶。截短型硫氧还蛋白(Trx80)带有80-84个N端残基，不具有任何酶活性，由单核细胞系断裂和分泌而来，它本身是一种刺激静止的人外周血液单核细胞生长的强力的有丝分裂细胞因子(Pekkari K等人，J Bio Chem.，2000；275(48)：37474--80)。而且，由于测量到CD14、CD40、CD54、CD86的表达提高，纯化的人CD14(+)单核细胞培养基被Trx80特异性激活至分化。Trx80也诱导IL-12从人外周血液单核细胞培养基的CD40(+)单核细胞中分泌出来，这是一种由诱导干扰素-γ在PBMC培养基分泌的IL-2增强的效应(Pekkari K等人，Blood，97(10)：3184-90页，2001年5月15日)。即使硫氧还蛋白在非前导(leaderless)分泌后可能有与白介素形成共同细胞因子(co-cytokine)活性(Bertini R等人，J ExpMed.，1999；189(11)：1783-9)，但用完全蛋白质不能重现用Trx80得到的效应。

人硫氧还蛋白基因(Genbank记录X54539和X54540)带有5个编码含有105个残基的蛋白质的外显子(Kaghad M等人，Gene，1994；140(2)：273-8)。前4个外显子都有读框零，编码全部85个残基，基本上对应Trx80。1.3Kb序列带有内含子4、外显子4-5及部分内含子3(Genbank记录X70288)，该序列可用于构建定向载体，与剪接受体位点一起使调节单位在内含子4的水平上整合以终止转录和翻译。由人酪氨酸-tRNA合成酶衍生的细胞因子

氨酰基-tRNA合成酶催化转移RNA(tRNA)的氨基酰化作用。当天然人酪氨酸-tRNA合成酶作为细胞信号分子无活性时，它可能通过一种细胞外蛋白酶-白细胞弹性蛋白酶(leukocyfe elasfase)，在凋亡条件下被分泌出来，并分裂为两种不同细胞因子(Wakasugi K和Schimmel P，Science，1999；284(5411)：147-51)。隐藏在催化位点的N端片段用作类白介素8的细胞因子。C端结构域是类内皮细胞-单核细胞-激活性多肽II(EMAP II)的细胞因子，其具有强大的白细胞和单核细胞趋化活性，而且刺激髓过氧化物酶和肿瘤坏死因子α的产生。

含有528个残基的蛋白质推定分裂位点位于残基360处，但在残基344处分裂而得到的片段也具有活性。利用酪氨酸-tRNA合成酶的已知编码序列(Genbank记录BC001933)探查人基因组，可以发现一基因组克隆，其含有对应人酪氨酸-tRNA合成酶编码序列的间断序列(Genbank记录AL356780)。具体地说，编码氨基酸303-348和349-380的序列分别对应编号方向相反的人克隆序列98110-97970和96712-96615。

在此情况下，取决于是否需要N端(氨基酸1-348)或C端(氨基酸349-528)细胞因子的表达，包含在98110-96615之间的克隆片段以及在该克隆中其它周围的可用的序列可用于使调节单位定向，该调节单位可启动或终止在97970和96712之间的转录和翻译。免疫球蛋白重链的抗原结合位点

在一些实施例中，调节单位可包含能够在对应蛋白质功能域5’端的位置上终止转录和翻译的序列。只要有关蛋白质功能域位于目的基因的第一个外显子上，就可以应用这样一种方法，而该目的基因即可在组成上，或经诱导后，在采用该方法的细胞中得到高度表达。

一个例子是位于免疫球蛋白分子N端的抗体结合位点。常用抗体的抗原结合位点主要由重链和轻链可变区两者的高变环形成。然而，功能性抗原结合位点也可只由重链可变区(VH)形成，如骆驼和骆驼科动物，其中抗体只含有两个重链可变区，没有轻链。分析这些只带有重链的骆驼抗体VH与常用人抗体VH区之间氨基酸序列的差异，有助设计可替换的人重链可变区。诸如骆驼VH等的骆驼化VH已被证实是由单个免疫球蛋白(Ig)区形成的稳健和有效小识别单位(Riechmann L.等人，J Immunol Methods.，231(1-2)25-38页，1999年12月10日；Davies J.等人，Biotechnology(NY)，13(5)：475-9页，1995年5月)

编码IgG的VH区的外显子是由于在B细胞发育期间发生重排和突变而产生的。一旦人骨髓瘤细胞与编码对抗原具有高亲和力的抗体的B细胞融合，所得的杂交瘤细胞就会主动转录和翻译完全IgG基因，但这些细胞也可通过同源重组高效地整合外源序列(Shulman MJ等人，Mol Cell Biol.，1990；10(9)：4466-4472)。如果只希望获得VH区作为蛋白质功能域，那么用本发明的方法，通过同源重组在有关外显子后面的内含子上整合含有转录和翻译终止模板的调节单位，就可以对IgG基因进行修饰。

Claims

1.一种蛋白质的制备方法，该蛋白质是基因初级翻译产物N或C端的蛋白质功能域，其中蛋白质有生物活性，其生物活性与所述初级翻译产物截然不同，其特征在于：所述方法包括：

(i)使以DNA构造体转染的宿主细胞生长，而DNA构造体包括：

(a)调节DNA，其能够启动编码蛋白质的DNA转录和翻译或终止编码蛋

白质的DNA转录和翻译；及

(b)DNA定向片段，其包括分别与编码蛋白质的序列的目的基因区5’或3’

由DNA定向片段确定，使蛋白质的表达受调节DNA的调控；以及可

选择地

(ii)培养同源重组细胞；以及可选择地

(iii)收集蛋白质功能域。

2.一种选择性地表达编码蛋白质的外显子的方法，所述蛋白质是基因初级翻译产物C或N端的蛋白质功能域，其中由所述外显子编码的蛋白质有生物活性，它的生物活性与初级翻译产物截然不同，所述方法包括使以DNA构造体转染的宿主细胞生长，其特征在于：所述DNA构造体包括：

(a)调节DNA序列，其能够启动编码蛋白质的外显子的转录和翻译或终

止编码蛋白质的外显子的转录和翻译，而该蛋白质对应于蛋白质功能

域；及

(b)DNA定向片段，其包括分别与编码该蛋白质的外显子的基因组区5’

或3’同源的序列，该构造体在宿主细胞基因组DNA中整合，整合的

位置由DNA定向片段确定，使外显子的表达受调节DNA的调控。

3.一种蛋白质的制备方法，该蛋白质是对应目的基因的初级翻译产物C端的蛋白质功能域，并至少由带有内含子的目的基因的最3’端外显子编码，其特征在于：所述方法包括：

(i)使具有DNA构造体的宿主细胞生长，而DNA构造体通过同源重组

在该宿主细胞基因组中整合后，操作时与所述外显子连接，所述构

造体包括：

(a)DNA定向区，其包括与编码该蛋白质的该外显子的基因组区5’同源

的序列；

(b)转录模板，其包括DNA序列，该序列能够激活编码该蛋白质功能域

的DNA发生转录；

(c)翻译模板，其包括能够启动该蛋白质功能域翻译的DNA序列；以及

可选择地

(d)剪接模板，其包括不成对5’剪接供体位点，该位点与编码该蛋白质功

能域N端的内源外显子不成对3’剪接受体位点互补，可剪接初级转

录，结果使翻译模板与编码该蛋白质功能域的序列符合读框地并列；

以及可选择地

(ii)培养同源重组细胞；以及可选择地

(iii)收集蛋白质功能域。

4.如权利要求3所述的方法，其特征在于：翻译模板包括5’非翻译区，而翻译启动密码子包含在编码蛋白质功能域N端的外显子中或者在编码蛋白质功能域N端的外显子的内含子5’中。

5.如权利要求3所述的方法，其特征在于：翻译模板包含一个或多个天然或合成外显子，所述外显子含有5’非翻译区和翻译起始密码子，后者通过剪接模板与编码蛋白质功能域的序列符合读框，成为蛋白质功能域N端残基。

6.如权利要求5所述的方法，其特征在于：所述天然或合成外显子编码信号肽或信号肽N端。

7.一种蛋白质的制备方法，该蛋白质是对应目的基因的初级翻译产物N端的蛋白质功能域，并至少由带有内含子的目的基因最5’外显子编码，其特征在于：所述方法包括：

(i)使以DNA构造体转染的宿主细胞生长，而所述的DNA构造体通过

同源重组在宿主细胞基因组中整合后，操作时与所述外显子连接，

所述构造体包括：

(a)DNA定向区，其包括与编码蛋白质的外显子的基因组区3’端同源的

序列；

(b)转录模板，其包括能够终止基因组DNA转录的DNA序列；

(c)翻译模板，其包括能够终止蛋白质功能域翻译的DNA序列；以及可

选择地

(d)剪接模板，其包括不成对3’剪接受体位点，该位点与编码蛋白质功能

域C端的内源性外显子5’不成对剪接供体位点互补，可正确剪接初级

转录，结果使翻译模板与编码蛋白质功能域的序列符合读框地并列；

以及可选择地

(ii)培养同源重组细胞；以及可选择地

(iii)收集蛋白质功能域。

8.如权利要求7所述的方法，其特征在于：翻译模板包括3’非翻译区，而该翻译终止密码子包含在编码蛋白质功能域C端的外显子的内含子5’中。

9.如权利要求7所述的方法，其特征在于：翻译模板包含一个或多个天然或合成外显子，所述外显子含有3’非翻译区和翻译终止密码子，后者通过剪接模板与编码蛋白质功能域的序列符合读框，成为蛋白质功能域的翻译终止密码子。

10.如权利要求5、6或9所述的方法，其特征在于：所述天然或合成外显子当与编码蛋白质功能域的外显子符合读框时，编码一蛋白质序列，其与包含在由目的基因编码的初级翻译产物中的蛋白质序列异源。

11.如权利要求5、6或9所述的方法，其特征在于：所述天然或合成外显子当与编码蛋白质功能域的外显子符合读框时，编码一蛋白质序列，其与包含在由目的基因编码的初级翻译产物中的蛋白质序列同源。

12.如权利要求10或11所述的方法，其特征在于：所述天然或合成外显子还编码蛋白水解酶的识别位点。

13.如权利要求12所述的方法，其特征在于：所述蛋白水解酶由宿主细胞表达。

14.如权利要求12所述的方法，其特征在于：所述蛋白水解酶是市售可用的蛋白酶。

15.一种如权利要求1至14中任何一项所述的方法，其特征在于：定向区包括两段定向片段。

16.一种如权利要求1至15中任何一项所述的方法，其特征在于：构造体还包括一个或多个选择和/或扩增标记基因。

17.一种如权利要求1至16中任何一项所述的方法，其特征在于：含有编码蛋白质功能域的外显子的目的基因的初级翻译产物是激素、细胞因子、淋巴因子、趋化因子、与膜结合的蛋白质、跨膜蛋白质、细胞外基质蛋白质、细胞内蛋白质、核蛋白质、细胞生长及代谢的调节因子、酶、受体、血液产品或单克隆抗体。

18.如权利要求17所述的方法，其特征在于：蛋白质功能域对应可溶性TRANCE、内抑制素、Trx80、由酪氨酸-tRNA合成酶衍生的细胞因子、或免疫球蛋白的抗原结合位点。

19.一种整合到真核细胞基因组的重组基因，其特征在于：所述重组基因一端含有内源性转录和翻译调控元件，中间有与蛋白质功能域相关的内源性外显子和内含子，另一端有外源性转录和翻译调控元件。

20.一种制备蛋白质的DNA构造体，该蛋白质是对应目的基因初级翻译产物的N端的蛋白质功能域，并至少由带有内含子的目的基因的最5’端外显子编码，其特征在于：

(a)DNA定向区，其包括与编码蛋白质的外显子的基因组区3’同源的序

列；

(b)转录模板，其包括DNA序列，该序列能够终止编码蛋白质功能域的

DNA转录；

选择地

(d)剪接模板，其包括不成对3’剪接受体位点。

21.一种制备蛋白质的DNA构造体，该蛋白质是对应目的基因的初级翻译产物的C端的蛋白质功能域，并至少由带有内含子的目的基因的最3’端外显子编码，其特征在于：

(a)DNA定向区，其包括与编码蛋白质的外显子的基因组区5’同源的序

列；

DNA转录；

(c)翻译模板，其包括能够启动蛋白质功能域翻译的DNA序列；以及可

选择地

(d)剪接模板，其包括不成对5’剪接供体位点。

22.如权利要求20或21所述的构造体，其特征在于：翻译模板包含一个或多个合成或天然外显子。

23.如权利要求20至22中任何一项所述的构造体，其特征在于：定向区包括两段定向片段。

24.一种如权利要求1至18中任何一项所述方法制备的同源重组细胞。

25.如权利要求24所述的细胞，其特征在于：所述细胞是人细胞。