HK1018480A

HK1018480A - Human semaphorin l (h-semal) and corresponding in other species

Info

Publication number: HK1018480A
Application number: HK99103400.0A
Authority: HK
Inventors: B‧弗莱肯斯汀; A‧恩塞尔
Original assignee: 阿文蒂斯药物德国有限公司
Priority date: 1997-07-09
Filing date: 1999-08-06
Publication date: 1999-12-24

Description

Human pheromone L and corresponding pheromones in other species

The present invention relates to novel pheromones (semaphorins) and derivatives thereof, which are recognized by a specific domain structure, to nucleic acids (DNA, RNA, cDNA) and derivatives thereof encoding these pheromones, and to their preparation and use.

Kolodkin described pheromones for the first time as members of a conserved gene family { Kolodkin et al (1993) cell 75:1389-1399 }.

Genes or portions of genes for other pheromones have now been cloned (and in some cases delineated). Up to now, a total of 5 human-type pheromones (H-Sema III, H-Sema V, H-Sema IV, H-Sema B and H-Sema E) { (Kolodkin et al (1993); Poche et al (1996) oncogene 12: 1289-1297; Sekido et al (1996) Proc. Natl. Acad. Sci. Acad. USA 93: 4120-4125; Xiang et al (1996) genome 32: 39-48; Hall et al (1996) Proc. Acad. Sci. USA 39: 11780-11785; Yamada et al (1997) (GenBank accession No. AB000220) },8 murine-type pheromones (murine gene; M-Sema A to M-Sema-H) { (P ü schel et al (1995) neuron 14: 941-948; Messessmid et al (1995) neuron 14: 949: invert et al (1995) neuron 959; Dev. Ak. Aca. Sema-H.) (1996) communications 57: 1996; Genisten. Aca. Acad. No. 76; Gen. Acad. 1996) communications 57; communications 57: 9445, 5 Chicken protamine (chick) collapsin-1 to-5) { Luo et al (1993); luo et al (1995) neurons 14: 1131-. In addition, two poxviruses (vaccinia (ORF-A39) and smallpox (ORFA 39-homolog)) { Kolodkin et al (1993) } and alcelaphine herpes virus type 1 (AHV-1) (AHV-Sema) { Ensser and Fleckenstein (1995) general virology 76: 1063-.

Table-1 summarizes pheromones identified so far in various species. Table 1 shows the name of the pheromone (column 1), the synonyms used (column 2), the species from which the particular pheromone was isolated (column 3); and data on the structure of the domain encoding the protein and data on the chromosomal location known therein (column 4 of Table 1), the accession numbers of the gene sequences stored in gene databases (e.g., EST (expressed sequence tag) database, EMBL (European molecular biology laboratory, Heidelberg) database or NCBI (national center for Biotechnology information, Maryland, USA), and references published by these data (column 5 of Table 1).

To date, all the gene products of the disclosed pheromone genes (the encoded pheromones) have an N-terminal signal peptide. It has a characteristic Sema domain at the C-terminus of about 450 to 500 amino acids in length. Highly conserved amino acid motifs and some highly conserved cysteine residues have been found in the Sema domain. The gene products (pheromones) differ in the C-terminal sequences, which follow the Sema domain and consist of one or more domains. For example, among these C-terminal amino acid sequences are the transmembrane domain (TM), immunoglobulin-like domain (Ig) (immunoglobulin constant region), cytoplasmic sequence (CP), processing signal (P) (e.g., with consensus sequence (RXR) where R is arginine and X is any amino acid) and/or hydrophilic C-terminus (HPC). The pheromones disclosed so far can be divided into 5 different subgroups (i to v) depending on the domain structure at the C-terminus: i secretory, without other domains (e.g., ORF-A49) IIlg secretory (without transmembrane structure, e.g., AHV-Sema) IIIlg, TM, CP having cytoplasmic sequence, membrane anchored (e.g., CD100) IVlg, (P), HPC with hydrophilic C-terminus, secretory (e.g., H-Sema III, M-SemaD, collapsin-l) Vlg, TM, CP with C-terminal 7 thrombospondin motif. Membrane anchoring (e.g. M-SemaF and G)

To date, pheromone receptors or extracellular ligands have not been described. Intracellular hybrid trimeric GTP-binding protein complexes have been disclosed in association with pheromone-mediated effects. A component of these protein complexes that has been identified in chickens is called CRMP (collapsin response mediating protein) and is assumed to be a component of the pheromone-induced intracellular signaling cascade (Goshima et al (1995) Nature 376: 509-514). For example, CRMP62 shares homology with unc-33, and with nematode proteins (important for axon-directed growth). Similarly, 98% of the amino acids of the human protein are known to have identity with CRMP62 (Hamajima et al (1996) Gene 180: 157-163). Several CRMP-related genes in rats have been similarly described (Wang et al (1996) neuroscience 16: 6197-.

The secreted or transmembrane pheromones communicate rejection signals to the growing nerve bud. They play an important role in the development of the nervous system (CNS), and are expressed in particular in muscle and nervous tissue (Kolodkin et al (1993); Luo et al (1993) cells 75: 217-227).

In contrast to the closely related M-SemaF, significant expression of M-SemaG has been observed not only in the CNS but also in cells of the lymphoid and hematopoietic systems (Furuyima et al (1996) J. Biochem.271: 33376-33381).

Two other human pheromones, H-Sema IV and H-Sema V (particularly in the region of chromosome 3p 21.3), have recently been identified, the deletion of which is associated with various types of bronchial carcinomas. H-Sema IV { (Roche et al (1996), Xiang et al (1996), Sekido et al (1996) } is approximately 50% identical at the amino acid level to M-SemaE, while H-Sema V { Sekido et al (1996) } is a direct homolog of M-SemaA (86% amino acid identity). since these genes (H-Sema IV and V) were found during DNA sequencing engineering at the excised 3p21.3 locus, the intron-exon structure of these two gene complexes is known.

Also only shortly before, the cell surface molecule CD100 (human), expressed and induced on activated T cells, has been identified as a pheromone (also listed in table 1). It helps interact with B cells through the CD40 receptor and the corresponding ligand CD 40L. CD100 is a150 kd (kilodalton) membrane-anchored glycoprotein dimer. The binding of the outer cytoplasmic C-terminus of CD100 to a hitherto unknown kinase has been described { Hall et al (1996) }. This means that CD100 is the first and so far the only pheromone that has been demonstrated to be expressed in cells of the immune system.

In the "transformation gene of rhadinoviruses" protocol, the complete genome of alcelaphine herpesvirus type 1 (AHV-1) { Ensser et al (1995) }. AHV-1 is an inducer (and often fatal) of malignant catarrhal fever, various ruminant diseases associated with lymphoproliferative syndromes. By analysis, an open reading frame was found which has a remote but significant homology to the vaccinia virus gene at one end of the viral genome (ORF-A39 corresponds to VAC-A39 of Ensser et al (1995) general virology 76:1063-1067), which has been assigned to the pheromone gene family. Whereas the AHV-1 pheromone (AHV-Sema) has a very conserved pheromone structure, the poxvirus genes (ORF-A39 and ORF-A39-homologues, see Table 1) have a C-terminal truncation. I.e., where only the conserved Sema domain is incompletely present.

Comparison of the AHV-Sema found with the database of dbEST (EST (expressed sequence tag) database (db)) it was suggested that 2 independent cDNA clones from human placenta provided both EST sequences (accession numbers H02902, H03806 (clone 151129), accession numbers R33439 and R33537 (clone 135941)). Compared to the neuronal information described so far. These clearly show greater homology to the pheromone of AHV-1.

The invention relates to pheromones which have novel, hitherto unpublished and unanticipated domain structures and which have biochemical functions in the immune system (immunomodulating pheromones). These new pheromones are called L-type pheromones (SemaL). They contain an N-terminal signal peptide. A characteristic Sema domain. And includes an immunoglobulin-like domain and a hydrophobic domain representing a potential transmembrane domain in the C-terminal region of the protein.

The amino acid sequence of the signal peptide may be less than 70 amino acids, preferably less than 60, and more than 20, more preferably more than 30 amino acids, and particularly preferred is about 40 to 50 amino acids in length, in a particular embodiment of the invention said signal peptide is 44 amino acids in length, i.e.the cleavage site of the signal peptidase is positioned between 44 and 45 amino acids.

The Sema domain may be from 300 to 700 or more amino acids in length, preferably about 400 to 600 amino acids in length, more preferably the Sema domain is 450 to 550 amino acids in length, preferably about 500 amino acids in length, in a more preferred embodiment of the invention the Sema domain is added with a signal peptide, in which case the Sema domain preferably amounts to 545 amino acids.

Immunoglobulin-like domains may be about 30 to 110 or more amino acids in length, and are preferably between 50 and 90, with about 70 being particularly preferred.

The transmembrane domain may be about 10 to 35 amino acids in length, preferably about 15 to 30, particularly preferably about 20 to 25 amino acids in length.

The present invention relates to L-type pheromones from different species, in particular vertebrates, such as birds and/or fish, preferably mammals, such as primates, rats, rabbits, dogs, cats, sheep, goats, cows, horses, pigs, particularly preferably humans and mice. The invention also relates to corresponding pheromones from microorganisms, in particular pathogenic microorganisms, such as bacteria, yeasts and/or viruses, such as retroviruses, in particular human-pathogenic microorganisms.

One embodiment of the invention is the corresponding human pheromone (H-Semal) having a signal peptide, the Sema domain. An immunoglobulin-like domain and a transmembrane domain. A particular embodiment is the pheromone given by the amino acid sequence shown in table 4.

Another embodiment of the invention comprises corresponding pheromones in other species which have more than 40%, preferably more than 50%, particularly preferably more than 60% amino acid identity in the Sema domain region compared to the Sema domain of H-Senal (45 to 545 amino acids in the sequence in Table 4). . The corresponding pheromones may ideally have an amino acid identity of more than 70%, preferably more than 80%, particularly preferably more than 90% in closely related species (e.g. primates, mice). Percent homology can be determined or calculated, for example, using the GAP program (GCG Package. genetic computer group (1991)).

Such an embodiment of the invention is the corresponding mouse pheromone (murine pheromone (M-Semal)). For example, it contains a partial amino acid sequence shown in Table 5 (murine pheromone (M-Semal)).

The invention also relates to corresponding pheromones which, in less relevant species (phylogenetically quite distant from each other), have only about 15 to 20% amino acid identity (considered over the entire length of the protein amino acid sequence), preferably 25 to 30%, particularly preferably 35 to 40%, or more identity, compared to the H-Semal complete amino acid sequence shown in Table 4.

The gene encoding the L-type pheromone has an exon-intron structure. For example, these genes may have 10 to 20 exons, preferably approximately 11 to 18 exons, particularly preferably 12 to 16 exons and a corresponding number of introns. However, they may have the same number of exons and introns (13 or 15 exons, preferably 14 exons) as the H-Semal gene. A particular embodiment of the invention relates to the H-Semal gene. The length of this gene is preferably 8888 to 10,000 or more nucleotides. The human pheromone gene preferably comprises the nucleotide sequence given in element 14 or in GenBank^_The nucleotide sequence of accession number AF030697 stored in the database. These nucleotidesThe sequence contains at least 13 introns. In addition, the human pheromone gene has an additional sequence region at the 5' end. Where appropriate this region may further contain coding and non-coding sequences, for example one or two additional introns or exons.

Attempts to map the human L-type pheromone to the chromosome revealed that the corresponding gene was mapped to position 15q 22.3-23. For the gene of M-Semal, position 9A3.3-B was located accordingly.

Splicing of the pheromone mRNA primary transcript may be altered as a result of the intron-exon complex structure. The result will be different splice variants of pheromone. The proteins translated by these splice variants are derivatives of the pheromone of the present invention. Their amino acid sequences, in essence, correspond in domain structure to the L-form pheromones described in the present invention, but are truncated where appropriate compared to the latter. For example, splice variants may be formed that are completely or partially deleted of the transmembrane domain. Pheromone derivatives that contain an incomplete (or no) transmembrane domain but contain a signal peptide may be secreted and in this way act on the outside of the cell, locally or at other relatively large distances, for example on other cells. For example, another splice variant may no longer contain a sequence encoding a signal peptide, and, where appropriate, no sequence encoding a hydrophobic amino acid sequence representing a potential transmembrane domain. One consequence would be that the pheromone derivative cannot be incorporated into the membrane, nor secreted (except through the secretory vacuole). Such pheromone derivatives may enter into intracellular processes, such as signal transduction processes. It is thus possible to control and/or coordinate various intracellular and extracellular processes with the same basic molecule (L-type pheromone) and its derivatives (e.g.splice variants).

A particular embodiment of the invention relates to pheromone derivatives produced from the L-form pheromones of the invention, but which contain an incomplete (or no) transmembrane domain.

Another embodiment of the invention relates to a pheromone derivative produced from the L-form pheromone of the invention, but which does not contain a signal peptide.

The signal peptide may also be cleaved post-translationally. This results in the formation of membrane-bound (TM domain) or secreted (splice variant without TM domain) pheromone derivatives in a truncated domain structure. A pheromone derivative which has been post-translationally processed in this way now contains only the Sema domain. 1g domain. With transmembrane domains as appropriate. The signal peptide cleavage site may be located just at the end of the signal peptide, but may also be located, for example, 40 to 50 amino acids or more from the amino terminus.

"truncated" (i.e., containing fewer domains) pheromone L derivatives can be distinguished from other pheromones not derived from L-type pheromones by having a large (> 90%) amino acid identity or identical amino acid sequence to L-type pheromones in the domains present.

The pheromones according to the invention may also be post-translationally modified in other ways. For example, they may be glycosylated (N-and/or O-glycosylated) once, twice, three times, four times, five times, six times, seven times, eight times, nine times, ten times or more. Thus, the amino acid sequence of the pheromone may have a consensus sequence of equal or greater numbers of potential glycosylation sites, preferably 5 such sites. One embodiment of the present invention relates to such pheromones wherein the glycosylation sites are located at positions 105,157,258,330 and 602 which are identical to the H-Semal amino acid sequence (Table 4).

In addition, the pheromones may be in the form of their phosphorylated derivatives. The pheromone may be a substrate for different kinases, for example the amino acid sequence may be a consensus sequence for protein kinase C, tyrosine kinase and/or creatine kinase. In addition, the amino acid sequence of the pheromone may have a consensus sequence of potential myristoylation sites. The corresponding pheromone derivative can be esterified with myristic acid at these sites.

The L-type pheromones and their derivatives of the present invention may be in the form of monomers, dimers and/or multimers. For example, two or more pheromones or their derivatives may be linked together using intermolecular disulfide bonds. Intramolecular disulfide bond formation is also possible.

Other derivatives of the pheromones of the invention are fusion proteins. This type of fusion protein contains, on the one hand, the L-form pheromone or a part thereof, and, in addition, other peptides or proteins or parts thereof. For example, the peptide or protein or portion thereof may be an epitope tag (e.g., His tag (6X histidine), Myc tag. influenza tag) and thus may be utilized, e.g., for purification of the fusion protein, or they may also be used to tag the fusion protein, e.g., GFP (green fluorescent protein). For example, examples of L-type pheromone derivatives have been illustrated in the constructs of the examples. These construct sequences can be found in tables 7 to 15 and are explained with the annotation of plasmids in mind, where appropriate.

The invention further relates to nucleic acid sequences, preferably DNA and RNA sequences, encoding the L-form pheromones of the invention and/or their derivatives, e.g.the corresponding genes, different splice variants of mRNA, the corresponding cDNA, and derivatives thereof (e.g.salts of DNA or RNA). The derivatives of the invention are sequences or sequence fragments which have been modified, for example by molecular biological methods, and adapted to the particular requirements, such as truncated genes or gene fragments (e.g.promoter sequences, terminator sequences), cDNA or chimeras thereof, constructs for expression and cloning and salts thereof.

One embodiment relates to the genomic sequence (gene) of the L-type pheromone. The present invention relates to intron and exon sequences, as well as gene regulatory sequences, such as promoter, enhancer and silencer sequences.

One aspect of this embodiment relates to the gene for H-Semal or a derivative thereof. One aspect of the invention relates to a gene comprising a nucleotide sequence given in table 14. The invention further relates to a gene comprising the nucleotide sequence as deposited in the GenBank database under accession number AF 030697.

This embodiment further relates to the gene for M-Semal and its derivatives.

The invention further relates to the cDNA of H-Semal or its derivatives (e.g., cDNA fragments). A particular embodiment is a cDNA according to the nucleotide sequence H-Semal in Table 2. The invention further relates to the cDNA of H-Semal deposited in the GenBank database under accession number AF 030698. The invention also relates to the mRNA corresponding to these cDNAs or to fragments thereof.

The invention further relates to the cDNA of M-Semal or a derivative (e.g., a cDNA fragment) thereof. A specific embodiment is the partial cDNA sequence of M-Semal shown in Table 3, and the cDNA sequence comprising this partial cDNA sequence. Another embodiment of the present invention relates to the cDNA of M-Semal as deposited in the GenBank database under accession number AF 030699. The invention also relates to the mRNA or parts thereof corresponding to these cDNAs.

The invention also encompasses the individual expression forms (further examples of derivatives) of alleles and/or genes/mRNAs/cDNAs which differ only slightly from the above-mentioned pheromone sequence and which code for the same or only slightly modified proteins (differing by less than or equal to 10% in amino acid sequence). The constructs indicated in the examples provide further examples of derivatives thereof. The sequences of these constructs are described in tables 7 to 14 and can be explained with regard to the annotation of the plasmids.

The invention further relates to a plasmid comprising a DNA encoding an L-type pheromone or a derivative thereof. For example, this type of plasmid may be a plasmid with a high replication rate suitable for DNA amplification, e.g. in e.

A particular embodiment is an expression plasmid with a pheromone or a fragment or derivative thereof that can be expressed in prokaryotic and/or eukaryotic expression systems. Both constitutive expression plasmids and those containing inducible promoters are suitable.

The invention also relates to a method for preparing a nucleic acid encoding an L-form pheromone or a derivative thereof. These nucleic acids (e.g., DNA or RNA) may be synthesized, for example, by chemical means. In particular, it is possible for these nucleic acids (for example the corresponding genes or cDNAs or fragments thereof) to be amplified by PCR using specific amplification primers and suitable starting materials as templates. (e.g., cDNA from suitable tissue or genomic DNA). Specific methods for preparing the pheromone LcDNA and H-Semal gene are described in the examples.

The invention also relates to a method for preparing the L-form pheromone. For example, pheromone L or its derivatives can be prepared by cloning the corresponding nucleic acid sequence encoding the L-type pheromone or its derivative into an expression vector and transforming appropriate cells with the latter recombinant vector. For example, it is possible to use prokaryotic or eukaryotic cells. The L-form pheromones or derivatives thereof may also be prepared by chemical means where appropriate.

Furthermore, L-type pheromones and derivatives thereof may be expressed as fusion proteins with, for example, proteins or peptides which allow the expressed fusion proteins to be detected, for example, as fusion proteins with GFP (green fluorescent protein). Pheromones can also be expressed as fusion proteins with one, two, three or more epitope tags, e.g. with Myc and/or His (6 × histidine) and/or influenza tags. It is possible to utilize or prepare plasmids containing the DNA sequences encoding these fusion proteins accordingly. For example, a sequence encoding a pheromone may be cloned into a plasmid containing a DNA sequence encoding a GFP and/or epitope tag (e.g., Myc tag. His tag. influenza tag). Specific examples thereof are given in the examples and sequences listed in the table, where appropriate with reference to the comments on the plasmids.

The invention further relates to antibodies, in particular. These antibodies bind or recognize type L pheromone, its derivatives or portions. Possible examples thereof are polyclonal or monoclonal antibodies which can be produced, for example, in mice, rabbits, goats, sheep, chickens and the like.

Particular embodiments of this subject matter of the invention comprise antibodies directed against epitopes corresponding to the amino acid sequences at positions 179 to 378 or 480 to 666 of the H-Semal sequence shown in Table 4. The invention also relates to a method for preparing specific anti-pheromone L antibodies using an antigen comprising said epitope.

The invention also relates to a method for producing antibodies, for which purpose preferably fusion proteins are used which comprise a unique ghrelin epitope and an epitope tag which can be used for subsequent purification of the recombinant fusion protein. The purified fusion protein can be used for subsequent immunization. To prepare a recombinant fusion protein, a corresponding recombinant expression vector should be prepared and then used to transform a suitable cell. Recombinant fusion proteins can be isolated from such cells. For example, the method may be as described in example 8.

These antibodies can be used to purify the corresponding pheromones, such as H-Semal and its derivatives, for example on affinity columns, or for the immunodetection of proteins, for example using ELISA, Western blotting and/or immunohistochemistry. These antibodies can also be used to assay H-Semal expression, for example, in different cell types or cell lines.

The H-Semal cDNA was 2636 nucleotides in length (Table 2). The gene product of H-SemalacDNA is approximately 666 amino acids in length (Table 4) and shows a typical L-type pheromone domain structure. The gene product has an N-terminal signal peptide (amino acids 1 to 44), a Sema domain (amino acids 45 to about 545), and an Ig (immunoglobulin) domain (about amino acids 550 to 620); also, there is a hydrophobic amino acid sequence at the C-terminus representing a potential transmembrane domain. This domain structure has never been described before for pheromones. It involves membrane-bound glycoproteins that may be localized on the cell surface and belong to a new subgroup. Based on this previously unknown domain structure, pheromones can now be divided into VI subgroups:

i secretory, without other domains (e.g. ORF-A49)

IIlg secretory, (without transmembrane domain) (e.g., AHV-Sema)

IIIlg, TM, CP have cytoplasmic sequences, membrane anchored (e.g., CD100)

IV Ig, (P), HPC has a hydrophilic C-terminus, secretory (e.g., H-Sema-III, M-SemaD, collapsin-l)

V Ig, TM, CP having a C-terminal 7 thrombospondin motif, membrane anchored (e.g., M-SemaF and G)

VI Ig, TM membrane anchoring (e.g. H-Semal, M-Semal)

The calculated molecular weight of an unglycosylated unprocessed form of H-Semal was approximately 74.8kd (74823 daltons) (calculated using the Peptide-sorting program (Peptide-Sort), GCG package). The calculated isoelectric point was pH = 7.56. One possible signal peptide cleavage site was located between 44 and 45 amino acids (Table 3; calculated as SignalP (http.// www.cbs.dtu.dk/services/Signal. P), a neural network-based procedure for analyzing signal sequences { Niesen H. et al (1997) protein engineering 10:1-6}), which gave a processed protein (without signal peptide) with a Molecular Weight (MW) of 70.3kd (70323 daltons) and an isoelectric point of pH = 7.01.

The structure of the genome is also elucidated in practice. The H-Semal gene has 13 or 15 or more exons, preferably 14 exons, and 12 or 14 introns, preferably 13 introns. Due to this exon-intron complex structure, different splice variants are possible. The mRNA of the transcribed H-Semal gene was found in northern blotting, particularly in the placenta, gonad, thymus and spleen. No mRNA is found in nerve tissue or muscle tissue. There is evidence for epigenetic regulated expression in endothelial cells.

Variant splicing can also result in a form of H-Semal (e.g., similar to CD100) with intracytoplasmic sequences involved in intracellular signal transduction. Likewise, it would be possible that alternative splicing would result in a secreted H-Semal form (similar to the viral AHV-Sema).

Sequence analysis of nucleotides and amino acids was done with the aid of the GCG program package (genetics computer group (1991) the program Manual of the GCG package, version 7,575Science Drive, Wisconsin, USA 53711), FASTA (Pearson and Lipman (Proc. Natl. Acad. Sci.85,2444-2448) and BLAST programs (Gish and States (1993) nat. Genet.3, 266-272; Altschul et al (1990) J. Mel. biol.215, 403-410). these programs were also used for sequence comparisons with GenBank (version 102.0) and Swiss Prot (version 34.0).

Glycosylation and myristoylation post-translational modifications such as H-Semal are also possible. By means of the Prosite program (GCG package), consensus sequences for the N-glycosylation sites were found at positions 105,157,258,330 and 602 of the amino acid sequence of H-Semal (shown in Table 4), while consensus sequences for the myristoylation sites were found at positions 114,139,271,498,499,502 and 654 (consensus sequences: G to (E, D, R, K, H, P, F, Y, W) x (S, T, A, G, C, N to P)). In addition, the amino acid sequence of H-Semal contains a consensus sequence of potential phosphorylation of several different kinases. Thus, it is believed that H-SemaL may be a substrate for different kinases, such as creatine kinase 2, protein kinase C and the phosphorylation site of tyrosine kinase.

The phosphorylation site of creatine kinase 2 (consensus Ck2 (S, T) x2(D, E)) (Prosite, GCG) is presumed to be at positions 119,131,173,338,419 and 481 of the amino acid sequence. The phosphorylation sites of protein kinase C (consensus PkC (S, T) x (R, K)) (Prosite, GCG) are presumed to be at positions 107,115,190,296,350,431,524 and 576 of the amino acid sequence. The phosphorylation site (consensus: (R, K) x {2,3} (D, E) {2,3} Y) (Prosite, GCG) of the tyrosine kinase is presumed to be at position 205 of the amino acid sequence.

The consensus sequence is indicated in the single letter code for amino acids.

The "RGD" motif characteristic of integrins (arginine-glycine-aspartic acid) is located at position 267. The glycosylation sites are highly conserved between the viruses AHV-Sema, H-Semal and (as is currently known) M-Semal.

Di-or multimerization of H-Semal is possible and has been described for other pheromones (e.g., CD100) { Hall et al (1996) }. Similarly, the CD100 molecule is a150 kd membrane-anchored glycoprotein dimer. However, CD100 is not closely related to the human pheromone (H-Semal) of the present invention.

The partial cDNA sequence of M-Semal was 1195 nucleotides in length. This protein-encoding sequence has 394 amino acids. These 394 amino acids correspond to 1 to 396 amino acids of H-Semal. The signal peptide in M-Semal is from 1 to 44 amino acids (just as in H-Semal). The Sema domain starts at amino acid 45 and extends to the end or possibly beyond the end of the sequence shown in table 4.

Multiple sequence alignments were performed using the Clustal W program (Thompson et al (1994)). Further sequence alignments were performed using an artificial SEAVIEW (Galtier et al (1996) Compout. appl Biosci 12, 543-. Phylogenetic distance was determined using Clustal W (Thompson et al (1994)).

Comparison of the known protein sequences with the novel pheromone sequences and phylogenetic analysis of these sequences revealed that genes can be classified according to their phylogenetic relationship. Of course, in general, the C-terminal domain structure of the corresponding pheromone sub-group is a factor involved in determining why pheromones of the same sub-group are phylogenetically more closely related than pheromones of different sub-groups. The species from which the pheromone is isolated also has an effect, i.e. whether the corresponding species are phylogenetically closely related to each other.

Phylogenetic analysis of the known pheromone amino acid sequences (full and/or partial sequences, using the amino acid sequences of H-Semal and M-Semal shown in tables 4 and 5 and all other sequences deposited with the accession numbers or encoded amino acid sequences derived from these sequences) was carried out using the CLUSTALW program { Thompson J.D. (1994) nucleic acid research 22:4673-4680} (compare FIG. 3), showing that the amino acid sequences of H-Semal and M-Semal are phylogenetically very close to each other and form an independent phylogenetic group. H-Semal and M-Semal, in turn, are phylogenetically most closely related to AHV-Sema and Vac-A39. They are clearly more closely related to each other than any other previously disclosed pheromone. This analysis also shows that other pheromones are also phylogenetically closely related to each other and form independent clusters with pheromones. For example, secreted pheromones (e.g., H-Sema III, -IV, -V, and-E) belong to a phylogenetic group. Their homologues in other species also belong to this subfamily, whereas human (transmembrane) CD100 belongs to a phylogenetic group together with the corresponding mouse homologue (M-Semag2) and collapsin 4.

With respect to the complete amino acid sequence, the homologies observed within the phylogenetic group for very closely related genes (e.g., H-and M-SemaE or-III/D) are approximately between 90% and 80% amino acid identity, and less than 40% in the case of low-related pheromone genes. Within the Sema domain, the percentage of amino acid identity observed is slightly higher and this significantly affects the overall identity due to its high contribution to the amino acid sequence of the entire protein (50-80% of the protein belongs to the Sema domain).

For the complete protein calculation, H-Semal and AHV-Sema has 46% of the same sex, but if only considering the Sema domain itself, then the amino acid equality is 53%. For example, this is higher than the relevant M-Sema-B-and-C (37% identity for the complete protein, 43% identity for the Sema domain), similar to M-SemaA and-E (43% for the complete protein, 53% for the Sema domain). Amino acid identity between the partial M-Semal sequence (Table 6) and H-Semal (Table 5) in the Sema domain region was 93%, and it can be assumed that the corresponding homologous mouse genes were involved.

Pheromones corresponding to H-Semal and M-Semal in other species may have amino acid identity within more than 40% of the Sema domain compared to H-Semal. In closely related vertebrates (mammals, birds), amino acid identity is found to be higher than 70%.

The pheromone belongs to a new subfamily with greater amino acid identity to the viral AHV-Sema than to previously disclosed human and murine pheromones, and has a C-terminal structure not previously disclosed for human pheromones. These novel pheromones (subfamilies) are identified, owing to their domain structure, by whether they belong to subgroup IV and/or are of the same phylogenetic group as H-Semal and M-Semal, and/or have at least 30 to 40% amino acid identity, preferably 50 to 60%, particularly preferably 70 to 80%, or greater identity, with H-Semal for the complete amino acid sequence, and/or have at least 70% amino acid identity, preferably greater than 80%, particularly preferably greater than 90%, with H-Semal for the Sema domain.

L-type pheromones also have a different type of biochemical function. One new function of these pheromones is to modulate the immune system.

The most closely related to H-Semal is the viral AHV pheromone (AHV-Sema). The latter is of similar size, however, in contrast to H-Semal, it does not have any transmembrane domain. In the natural host (blue willeest), the virus infects cells presumably to secrete AHV-Sema to block the equivalent receptor of H-SemaL (L-type pheromone in blue willeest) and thus evade attack by the immune system. It is also conceivable for cells of the immune system. One of its functions is as a repellent (chemical repellant).

In general, the biochemical functions of the novel L-type pheromones and derivatives thereof will be considered to have immunomodulatory and/or inflammatory regulatory functions. On the one hand, they can

A) As molecules that suppress the immune response, they may show their effect on cells as chemical rejections and/or immunosuppressants, acting locally or remotely, e.g. as transmembrane proteins on the cell surface, e.g. if they are secreted due to processing (e.g. proteolytic enzymes) or alternative splicing, e.g. by tissue diffusion. For example, expression of these novel L-type pheromones (e.g., on the surface of vascular endothelial cells) can prevent leukocyte adsorption and migration through the vessel walls. The novel pheromones may play an important role in maintaining barrier functions, such as preventing infection in particularly "important" or exposed organs, such as maintaining the blood-brain barrier, the placental circulation and/or other immune privileged sites (e.g. pancreatic islets) and/or preventing autoimmune diseases. Furthermore, the novel pheromones and/or their derivatives may also be involved in rejection signals of various tissues, for example for cells of the immune system (e.g. leukocytes), preventing the unintended activation of defence mechanisms.

B) In addition, the novel pheromones and/or derivatives thereof may have an accessory molecular function. For example, they are expressed on the cell surface and may participate in interactions with cells of the immune system as part of activation of defense mechanisms, for example in the case of viral infections.

This reveals several possible uses of novel L-type pheromones and derivatives thereof, as well as nucleic acids encoding these proteins.

Function a): this includes immunosuppressive and/or anti-inflammatory principles: there are many potential possibilities for utilization in the fields of organ transplantation, burn treatment, immunotherapy and gene therapy.

For example, non-human transgenic animals can be produced with the aid of pheromone-encoding DNA or derivatives thereof. One possible application for these animals is the inhibition of transplant rejection in transgenic models of organ transplantation. For example, transgenic animal organs capable of producing rejection-inhibiting cells are used for xenotransplantation. For example, it should also be possible with other transgenes (e.g., complement regulators such as DAF or CD 59). Another application is the generation of non-human "knock-out" animals, such as "knock-out" mice ("Gene-oriented laboratory rules", Torres and Kiihn (1997) Oxford university Press, ISBN 0-19-963677-X): for example, it is possible to find other functions of the mouse M-Semal gene by knocking out the gene. If mice do not have the pheromone gene to survive, they also demonstrate a potential model system for inflammatory disease. If M-Semal is important for immune regulation, then a large number of such mice would be expected. In addition, non-human knock-in animals (e.g., mice) can be generated. This enables, for example, replacement of M-Semal with normal/modified H-Semal or modified M-Semal (e.g., integration of a new pheromone subtype under the control of a constitutive and/or inducible promoter). For example, this type of animal can be used, or for the identification and characterization of immunomodulators, in order to further look for new pheromone functions (e.g., of human genes or derivatives of these genes).

For example, nucleic acids encoding L-type pheromones or derivatives thereof can be used to produce, e.g., recombinant immunosuppressive agents, other soluble proteins or peptides derived from the amino acid sequence of L-type pheromones (e.g., H-Semal or corresponding nucleic acids, e.g., genes). In a similar manner, it is possible to generate agonists with structural similarity. These immunosuppressive or agonist agents may also be used in autoimmune and inflammatory diseases and/or organ transplantation.

Gene therapy using L-type pheromones, for example, with nucleic acids encoding H-Semal or derivatives thereof, for example, using viral or non-viral methods. Used for organ metastasis and pre/inter/post-transplantation to prevent transplant rejection in autoimmune and inflammatory diseases.

In particular, it is possible to use the novel pheromones and/or the nucleic acids coding for these pheromones, and derivatives thereof (in particular H-Semal, DNA coding for H-Semal, and derivatives thereof) for drug screening (in particular for the identification and characterization of immunomodulators).

Function B): H-SemaL is an accessory molecule expressed on the cell surface and involved in interactions with cells (e.g. cells of the immune system), e.g. as an accessory molecule in the activation of signaling pathways. For example, a viral gene or viral gene product or other pathogenic gene (e.g., of microbial origin) can act as a competitive inhibitor of the accessory molecule. The novel pheromones having such a function are similarly used in the fields of organ transplantation, inflammation therapy, immunotherapy and/or gene therapy.

For example, the novel pheromones may be used in the screening of antagonists or inhibitors. Agents identified in this way may be used, for example, to block pheromone receptors. The soluble and/or secretory H-SemaL antagonist or inhibitor may be, for example, a chemical substance or a novel pheromone or a derivative thereof per se (e.g., a portion/truncated form thereof suitable for blocking the corresponding receptor; e.g., without a membrane domain or as an Ig fusion protein or a peptide derived from the latter). Specific antagonists and/or inhibitors identified in this way may, for example, have a competitive effect and are useful for inhibiting rejection (e.g., in transgenic models of organ transplantation), as well as for autoimmune diseases, inflammation and organ transplantation. Nucleic acids (e.g.DNA) which code for the novel pheromones or derivatives thereof which are produced by means of molecular biological methods may be used, for example, for the production of transgenic non-human animals. In these transgenic animals, overexpression of H-Semal can result in increased susceptibility to autoimmune disease and/or inflammation. Such transgenic animals are then suitable for screening for novel specific immunomodulators.

Likewise, such nucleic acids can be used to generate non-human "knockout" animals, e.g., "knockout" mice, in which the mouse M-Semal gene is lost. Further biochemical functions of the gene can be found using such "knock out" animals. Mice without the M-Semal gene also provide a potential model system for inflammation if they survive.

This DNA can also be used to produce non-human knock-in animals, such as mice. This allows the replacement of the M-Semal gene with a modified M-Semal gene/cDNA or an optionally modified (e.g., mutated) L-type pheromone gene/cDNA of another species (e.g., H-Semal). Such transgenic animals are used to find further functions of the pheromones of the invention.

The invention also relates to the use of L-type pheromones and derivatives thereof and nucleic acids encoding these proteins (e.g. genes/cdnas and derivatives thereof) and/or agents identified by means of these pheromones in the manufacture of a medicament. For example, it is possible to produce medicaments which can be used in gene therapy and which comprise agonists and/or antagonists of the expression of L-type pheromones (e.g.H-Semal). For this purpose, for example, also viral and/or non-viral methods are used. These drugs can be used, for example, in autoimmune diseases and inflammation, after and/or during and/or before transplantation, to prevent organ transplant rejection.

Nucleic acids (e.g., genes, cdnas and derivatives thereof) encoding novel pheromones are also useful as tool reagents in molecular biology.

In addition, novel pheromones, particularly H-Semal and nucleic acids (e.g., its gene/cDNA) can be used to screen for novel agents. For example, modified proteins and/or peptides derived from H-Semal and/or M-Semal can be used in functional assays to find the corresponding receptor and/or its antagonist or agonist, e.g., using expression constructs of H-Semal and homologs.

The invention also relates to the use of L-type pheromones or nucleic acid sequences encoding L-type pheromones in methods of identifying an agent, particularly an immunomodulator.

The invention also relates to methods of identifying agents using L-type pheromones or derivatives thereof or nucleic acid sequences encoding L-type pheromones or derivatives thereof to identify pharmacologically active agents, such as immunomodulators. For example, the invention relates to a method wherein an L-type pheromone is incubated with a test agent under specific conditions, in parallel, in a second batch of incubations without test agent but otherwise identical, and the inhibitory or activating effect of the test agent is determined.

For example, the present invention also relates to a method for identifying an agent, wherein a nucleic acid sequence encoding an L-type pheromone or a derivative thereof is expressed in the presence of an agent to be detected under specific conditions, and the degree of expression thereof is determined. It is also possible, where appropriate, to carry out two or more tests in this process under the same parallel conditions but with different amounts of the agent to be tested.

For example, the agent to be tested is capable of preventing or activating transcription and/or translation.

Like its viral homolog, type L pheromones bind to the newly described receptor molecule VESPR (Comeau et al, (1998) immunization, Vol. 8,473-482) and, in monocytes, are presumed to cause induction of cell adhesion molecules (such as ICAM-1) and cytokines (such as interleukin-6 and interleukin-8), which can lead to their activation and cell aggregation. The expression pattern of the VESPR receptor shows some interesting similarities to H-SemaL, e.g. strong expression in placenta and significant expression in spleen tissue. Other receptors or interactions of other receptors not known to date of the plexin family are possible. It can also interact with itself or other pheromone-like molecules. The interaction of the L-type pheromones may occur, inter alia, through the conserved domain of the C-terminal region of the Sema domain.

Comments on plasmids:

pMeIBacA-H-Semal (6622bp) in pMeIBAC (Invitrogen, De Schelp, NL) (SEQ ID NO. 42). Nucleotides 96-98ATG as the initiation codon, nucleotides 96-168 as the melittin signal sequence, nucleotides 168-173 as the BamHI cleavage site (PCR/clone), nucleotides 171-1998 as the reading frame SEMA-L amino acids 42-649 (without self signal sequence and transmembrane sequence), nucleotides 1993-1998 as the EcoRI cleavage site (PCR/clone) and nucleotides 1992-1994 as the stop codon

Plasmid pCDNA3.1-H-Semal-MychisA (7475bp) (SEQ ID NO. 35): nucleotides 954-959 are BamHI cleavage sites (clones), nucleotides 968-970 are ATG SEMAL, nucleotides 968-2965 are reading frame SEMAL, nucleotides 2963-2968 are PmlI cleavage sites, nucleotides 2969-2974 are Hind III cleavage sites, and nucleotides 2981-3013 are Myc tags. Nucleotide 3026-3033 is the 6XHis marker, and nucleotide 3034-3036 is the stop codon

Plasmid pCDNA3.1-H-Semal-EGF P-MychisA (8192bp) (SEQ ID NO. 36): nucleotides 954-959 are BamHI cleavage sites (clones), nucleotides 968-970 are ATG SEMA-L, nucleotides 968-2965 are reading frame SEMA-L, nucleotides 2963-2965 are half Pml I cleavage sites, nucleotides 2966-3682 are reading frame EGFP (clones at Pml I), nucleotides 3683-3685 are half Pml I cleavage sites, nucleotides 3685-3691 are Hind III, and nucleotides 3698-3730 are Myc labels. The 6XHis tag at 3743-3760 and the stop codon at 3761-3763

Plasmid pIND-H-Semal-EA (7108bp) in vector pIND (Invitrogen, De Schelp, NL) (SEQ ID NO. 38): the nucleotide was 533-538 BamHI cleavage site (clone), the nucleotide was 546-548ATG SEMA-L, the nucleotide 546-reading frame SEMA-L, the nucleotide 2542-2547 Pml I cleavage site, the nucleotide 2548-2553-HindIII cleavage site and the nucleotide 2563-2565-stop codon.

Plasmid pIND-H-Semal-EE (full length 7102bp) in vector pIND (Invitrogen, De Schelp, NL) (SEQ ID No. 37): nucleotide 533-538 is the BamHI cleavage site (clone), nucleotide 546-548 is ATG SEMA-L, nucleotide 546-is the reading frame SEMA-L, nucleotide 2542-2547 is the PmlI cleavage site, nucleotide 2548-2553 is the HindIII cleavage site, nucleotide 2560-2592 is the Myc tag, nucleotide 2605-2622 is the 6XHis tag and nucleotide 2623-2625 is the stop codon.

Plasmid pQE30-H-Semal L-179-378.SEQ (4019bp) in vector pQE31(Qiagen, Hilden) corresponding to pQE30-H-SemalBH (SEQ ID No. 39): nucleotide 115-117 is ATG, nucleotide 127-144 is 6XHis tag, nucleotide 145-750 is the BamHI-HindIII PCP fragment SEMA-L amino acid (aa)179-378 and nucleotide 758-760 is the stop codon.

In the vector pQE31(Qiagen, Hilden), plasmid pQE31-H-SemaL- (SH (3999bp) (SEQ ID No. 40), nucleotides 115-117 as ATG, nucleotides 127-144 as 6XHis tag, nucleotides 147-152 as BamHI site, nucleotides 159-729 as Sacl-HindIII fragment SEMA-L (C-terminal) aa480-666 and nucleotides 734-736 as stop codons.

Examples

Experimental conditions used in the examples:

the PCR procedure used:

Taq52-60(Ampli-Taq^Rpolymerase, Perkin Elmer, Weil der Stadt, Germany)

96 ℃/60s 1 cycle

40 cycles of 96 ℃/15s-52 ℃/20s-70 ℃/60s

70 ℃/60s 1 cycle

Taq60-30

96 ℃/60s 1 cycle

35 cycles of 96 ℃/15s-60 ℃/20s-70 ℃/30s

70 ℃/60s 1 cycle

Taq60-60

96 ℃/60s 1 cycle

35 cycles of 96 ℃/15s-60 ℃/20s-70 ℃/60s

70 ℃/60s 1 cycle

Taq62-40

96 ℃/60s 1 cycle

35 cycles of 96 ℃/15s-62 ℃/20s-70/40s

70 ℃/60s 1 cycle

PCR conditions with Taq polymerase:

50 μ l of the reaction mixture had 100-200ng template, 200 μ M dNTP,0.2-0.4 μ M each primer, 2.5U Ampli-Taq^R5. mu.l of reaction buffer 10x

The procedure used was: XL62-6 (extended template PCR System)^RBoehringer Mannheim, Germany) 94 ℃/60s 1 cycle 94 ℃/15s-62 ℃/30s-68 ℃/6min 10 cycles 94 ℃/15s-62 ℃/30s-68 ℃/6min 25 cycles 68 ℃/7min 1 cycle 2. XL62-12 (extended template PCR System)^RBoehringer Mannheim, Germany) 94 ℃/60s 1 cycle 94 ℃/15s-62 ℃/30s-68 ℃/12min 10Each cycle 94 ℃/15s-62 ℃/30s-68 ℃/(12min +5 s/cycle) 25 cycles 68 ℃/7min 1 cycle

PCR reaction conditions with extended template PCR System

Mu.l of the reaction mixture had 100-200ng template, 500. mu.M dNTP, 0.2-0.4. mu.M of each primer, 0.75. mu.l of the enzyme mixture, and 5. mu.l of the No.2 reaction buffer supplied with 10 x.

Example 1:

PCR and RACE-PCR were performed starting from the AHV-Sema sequence (Ensser and Fleckenstein (1995), J.Gen.Virol 76: 1063-. The starting material used here was human cDNA from placental tissue to which adapters had been ligated for RACE amplification (Marathon)^TMcDNA amplification kit, Clontech Laboratories GmbH, Tullastra. beta. e4,69126Heidelberg, Germany). Initial specific primers (No.121234+ No.121236, Table 6) were used to amplify PCR fragments of approximately 800bp (base pairs) in length (PCR program: (Taq 60-60)). This fragment was cloned and sequenced (Taq dye-labelled deoxyterminator sequencing kit, applied biosystems Foster City, CA, USA/Brunneenweg 13, Weil der Stadt). Sequencing of the PCR products revealed a sequence with high homology to the DNA sequence of AHV-Sema, identical to the two EST sequences.

A600 bp PCR fragment was identified using the primer pair (No.121237+ No.121239, Table 6). This indicates that they are clones of DNA sequences from the same gene.

Example 2:

the 800bp PCR fragment of example 1 was radiolabeled (random priming with 32P-. alpha. -dCTP by { Feinberg (1983) anal. biochem 132:6-13 }) and used as a probe for multi-tissue northern blotting (human Multi-tissue northern blotting II, Clontech, Heidelberg, Germany), which included mRNA samples from spleen, thymus, prostate, testis, ovary, small intestine, large intestine and white blood cells (PBL). This clearly shows the expression of an mRNA of approximately 3.3kb in length in the spleen and gonads (testis, ovary) and weaker in the thymus and intestinal tract. Master blot hybridization (dot blot of RNA from many tissues (Human RNA Master BlottTM, Clontech)) confirmed this result and also showed strong expression in placental tissues.

Hybridization was carried out at 42 ℃ for 16 hours under stringent conditions (5XSSC,50mM sodium phosphate pH6.8, 50% formamide, 100. mu.g/ml yeast RNA). The blot was washed rigorously (65 ℃,0.2 × SSC, 0.1% SDS) and exposed to Fuji BAS2000 phosphoimager (TM).

Example 3:

this probe was used to screen a cDNA library from human spleen cloned in phage lambda gt10 (human spleen 5' STRETCHPLUScDNA, Clontech) and one lambda clone was identified. The 1.6kb cDNA inserted into this clone was amplified by PCR (expanded) using vector specific primers No.207608+ No.207609 (Table 6) (flanking the EcoRI cloning site)^TMLong template PCR system, Boehringer Mannhein GmbH, Sandhofer Stra β e116,68305mannhein) was amplified while sequencing the resulting PCR fragments. This clone contained the 5 'end of the cDNA and also extended the known cDNA sequence in the 3' direction. Starting from the new cDNA partial sequence, new primers for RACE-PCR were designed (No.232643, No.232644, No.233084, Table 6). The 3' RACE-PCR product was amplified using a modified thermal cycling technique (MJ-Research, PTC-200.Oldendorf from Biozym diagnostic GmbH,31833 Hess) with significantly more efficient operating parameters (heating and cooling rates), using primers No.232644 and No.232643 and AP1 and cloned into the vector pCR2.1(Invitrogen, De Schelp12,9351NVLeek, Netherlands). The 3 'RACE-PCR product was sequenced and the 3' end of the cDNA was determined in this way. RACE amplification in the 5 'direction (primers No.31990 and No.233084 and AP1) extended by a few nucleotides beyond the cDNA 5' end and confirmed the amino terminus of H-Semal found in the identified lambda clones.

Example 4:

a DNA fragment of murine cDNA of about 840bp in length was amplified by PCR (conditions: Taq52-60) starting from a short murine EST (accession number 260340) with the primer No.260813 (Table 6) and the H-Semal specific primer No.121234 (Table 6) generated therefrom, and subsequently cloned into the vector pCR2.1. The gene containing this DNA fragment was designated M-Semal. The resulting M-Semal DNA fragment was used to investigate cDNA pools from mouse spleens (mouse spleen 5' STRETCH cDNA, Clontech) and it was possible to identify several clones.

PCR (Taq60-30) from murine endothelial cDNA using primers No.260812 and No.260813 provided a PCR fragment of 244 base pairs in length. PCR results showed significant baseline expression in murine endothelial cells, which was decreased following stimulation with cytokine interferon-gamma and lipopolysaccharide.

Example 5:

fluorescence In Situ Hybridization (FISH) was used to investigate the location of the chromosomes. For this purpose, human and murine metaphase chromosomes were prepared starting from human blood samples and the mouse cell line BINE4.8 (Keyna et al (1995) J. Immunol 155, 5536-. Slides were treated with RNase and pepsin (Liehr et al (1995) applied cytogenetics 21, 185-188). For hybridization, 120mg human nicks were used to translate the pheromone sample and 200mg corresponding mouse samples. In each case, hybridization was carried out at37 ℃ in the presence of 20. mu.g of STD and 4.0. mu.g of COT1-DNA in a wet chamber for 3 days.

The slides were washed with 50% formamide/2 XSSC (3 times 5min each at 45 ℃), then with 2XSSC (3 times 5min each at37 ℃), and the biotinylated samples were detected using the FITC-avidin system (Liehr et al (1995)). The slides were evaluated using a fluorescence microscope. Each experiment was performed in duplicate and 25 metaphases/sample were determined. Indicating that H-Semal is located on chromosome 15q 23. Located adjacent to the chromosome is the locus of Bardet-Biedls syndrome and Tay-Sachs disease (aminoglycoside).

Example 6:

most of the genomic intron-exon structure of the H-Semal gene has been elucidated.

Genomic DNA fragment amplification began with 250mg of human genomic DNA that had been isolated from PHA-stimulated peripheral lymphocytes (blood). Is shorterFragment of (4) was amplified using Ampli Taq^R(Perkin Elmer) and longer fragments were amplified using a lengthened template PCR System^R(Boehringer Mannheim) was used for the amplification.

To date, it has been possible to clone and identify the almost complete genomic locus of H-Semal by PCR amplification. It has now been possible to identify genomic sequences which exceed 8888bp in total, thus essentially elucidating the intron-exon structure of the gene.

Example 7:

expression cloning:

since complete clones of the pheromone gene could not be isolated from the lambda-gt10cDNA pool and could not be obtained by PCR, the coding region of the cDNA was amplified on 2 overlapping subfragments by PCR (XL62-6) using primers No.240655 and No.121339 for the N-terminal DNA fragment and primers No.240656 (containing HindIII and pmei cleavage sites) and No.121234 for the C-terminal DNA fragment. The resulting DNA fragment (subfragment) was cloned into the vector pCR 21. Both subfragments were completely sequenced and finally a complete H-Semal cDNA was prepared by inserting a 0.6kb C-terminal Sstl-HindIII restriction fragment into a plasmid (containing the N-terminal DNA fragment and having been digested with the restriction enzymes Sst I and HindIII). The complete gene was excised from plasmid pCR2.1-H-Semal (sequence shown in Table 7, SEQ ID NO.34) using the EcoRI cleavage site (in pCR2.1) and the HindII cleavage site (in primer No.240656 of Table 6) and ligated to the correspondingly cleaved constitutive expression vector pCDNA3.1(-) MycHisA (Invitrogen). The EcoRI-ApaI fragment (without the Myc-His tag) was excised from the resulting recombinant plasmid pCDNA3.1(-) H-Semal L-MycHisA (sequence shown in Table 8) and ligated to the inducible vector pIND (which has likewise been cut with EcoRI-ApaI) (ecdysone-inducible mammalian expression System, Invitrogen). The recombinant plasmid was named pIND-H-SemalEA (sequence shown in Table 11). The EcoRI-Pmel fragment (with Myc-His tag) of pCDNA3.1(-) H-Semal-Myc-HisA (sequence shown in Table 9) was inserted into the EcoRI-EcoRV-cut vector pIND. The recombinant plasmid was named pIND-H-Semal-EE (sequence shown in Table 10).

The H-Semal fusion gene with Enhanced Green Fluorescent Protein (EGFP) was prepared by ligating the PCR-amplified EGFP reading frame (from vector pEGFP-Cl (Clontech) using primers No.243068+ No.243069, Taq52-60) to the Pmel cleavage site of pCDNA3.1(-) H-Semal-MycHisA, resulting in plasmid pCDNA3.1(-) H-Semal-EGFP-MycHisA (sequences shown in Table 9).

The sequences of H-Semal, its partial fragments or derivatives are indicated in tables 7 to 13 by lower case letters, while the plasmid sequences are indicated in upper case letters.

Example 8:

for the preparation of H-Semal-specific antibodies, the cDNA fragment of H-Semal was integrated into a prokaryotic expression vector and expressed in E.coli, and the pheromone derivative was purified. The pheromone derivative is expressed as a fusion protein with a His tag. Thus, a vector containing the His tag sequence and allowing the pheromone cDNA fragment to be integrated into the reading frame was used. For example, N-terminal 6 × histidine tag purification using nickel chelate affinity chromatography was possible (Qiagen GmbH, Max-Volmer Stra β e4, 40724Hilden):

1. a portion of the H-SemalcDNA encoding the 179-through 378 amino acids was amplified by PCR using primers No.150788 and No.150789, and this DNA fragment was ligated into vector pQE30 (which had been cleaved with restriction enzymes BamHI and hindIII) (Qiagen) (construct pQE30-H-SemaL-BH (sequence shown in Table 12)).

2. The H-Semamc DNA portion coding for amino acids 480-666 of the C-terminus was excised from plasmid pCR2.1 with the restriction enzymes Sst I and Hind III and ligated to vector pQE3l (which had been excised with Sst I and Hind III) (Qiagen) (construct pQE 31-H-Semam L-SH (sequence shown in Table 13).

Correct integration of the sequence in the correct reading frame was checked by DNA sequencing. By Ni²⁺Affinity chromatography purified fusion protein consisting of an N-terminal 6 × histidine tag and a portion of the pheromone H-Semal. The purified fusion protein was used for immunization of various animals (rabbits, chickens, mice).

Example 9:

FACS analysis of various cell types (FIGS. 4 and 5)

Cells were washed in FACS buffer (phosphate buffered saline (PBS) containing 5% Fetal Calf Serum (FCS) and 0.1% Na sodium azide) (approximately 0.2-0.5X 10)⁶) Then incubated with antiserum (on ice) for 1 hour in each case. The primary antibody used for control (pre-immune serum (1: 5) of the upper chicks) and specific detection (specific staining) was H-Semal-specific chick antiserum (1: 50). Immunization of chickens with proteins purified by nickel chelate affinity chromatography (as described in example 8) produced specific antisera containing anti-H-Semal amino acid (Aa)179-378 (with an N-terminal His tag) antibody. The secondary antibody used was FITC-labeled anti-chicken F (ab') antibody from rabbit (Dianova Jackson laboratory, Order No.303-095-006, Hamburg, Germany) (1 mg/ml). FITC-labeled rabbit anti-mouse IgG was used for CD100 staining. The secondary antibodies were diluted 1: 50 in FACS buffer in each case.

Cells were then washed, resuspended in PBS, and analyzed in FACS. FACS analysis was performed using a FACS-tracker (Becton-Dickinson). The principle is as follows: the single cell suspension passes through a measurement channel where the cells are irradiated with 488nm laser light to excite fluorescent dye (FITC). Scattered forward light (forward scatter, FSC: correlation with cell size) and its side light (side scatter, SSC: correlation with particle amount: difference between different cell types) and fluorescence of channel 1 (FL1) (wavelength of FITC emission range, maximum at 530 nm) were measured. In this way, 10,000 pieces (thin breast) are measured at a time.

Dot blot (fig. 4a-k) (left panel): SSC versus FSC (size versus particle amount/scatter), the (homogeneous) cell population of similar size and particle content was analyzed (within the border line) in the right window. . The right window shows the intensity (X-axis) of FL1 versus the number of events (Y-axis), i.e., the frequency distribution.

In each such graph, the results for the control serum (non-smooth curve) are superimposed on the results for the specific staining (smooth curve). The right shift of the curve for specific staining compared to the control corresponds to the expression of H-Semal in the corresponding cells. A larger one of the shifts means a stronger expression.

Cell lines used for FACS analysis: a) u937 cell line

American type culture Collection ATCC; ATCC number CRL-1593

Name U-937

Organizing: lymphoma; tissue cells; single cell sample

Species: a human;

the depositor: korenb) THP-1 cell line

ATCC accession no: TIE-202

Organizing: (ii) a monocyte; acute monocytic leukemia

Species: human being

The depositor: tsuchiyac) K-562 cell line

ATCC accession no: CCL-243

Organizing: chronic myelogenous leukemia

Species: a human;

the depositor: H.T.Holded) L-428 cell line

DSMZ-Deutsche Sammlung von Mikroorganismen und Zellkulturen GmbH, DSMZ No: ACCl97

Cell type: human Hodgkin lymphoma e) Jurkat cell line

DSMZ-Deutsche Sammlung von Mikroorganismen und Zellkulturen GmbH, DSMZ No: ACC282

Cell type: human T cell leukemia

f) Daudi cell line

ATCC accession number CCL-213

Organizing: burkitt's lymphoma; b lymphoblast cells; b cell

Species: a human;

the depositor: klein

g) The LCL cell line EBV-transformed lymphoblastoid B-cell line. h) Jiyoye (P-2003) cell line

ATCC accession number CCL-87 tissue: burkitt's lymphoma; b cells, B lymphocyte species: human depositor: henlei) CBL-Mix57

Human T-cell line transformed with recombinant h.saimiri (wild type without deletion) (isolated from blood) j) CBL-Mix59 human T-cell line transformed with h.saimiri (ORF71 deleted) (isolated from blood).

Example 10: protein gel and western blotting method

The secretable human SEMA-L (amino acids 42-649 of Table 4 (without signal peptide and transmembrane domain)) was cloned into the plasmid pMelBac-A (Invitrogen De Schelp, Leck, the Netherlands, Cv1950-20), thus generating the plasmid pMeIBaA-H-Semal (length 6622bp) (FIG. 8). The H-Semal derivative was expressed in a baculovirus system (Bac-N-Blue, Invitrogen). In the field of insect egg cells Sf9 (from Spodoptera rugigerata) and High Five^TM(from Trichoplusia ni U.S. Pat. No.5,300,435, available from Invitrogen) by infection with recombinant, plaque-purified baculovirus.

Expressed according to the manufacturer's instructions.

The proteins were then fractionated in a gel and the H-Semal derivatives were detected by Western blotting. Detection was performed with H-Semal-specific chicken antiserum (comparative example 8 and FIG. 7) (dilution 1: 100). Specific chicken antibodies were detected using anti-IgY-HRP conjugate (dilution: 1: 3000 from donkey; Dianova Jackson laboratory) according to the manufacturer's instructions.

Example 11 preparation of pMeIBacA-H-SEMAL

A recombinant vector (pMeBacA-H-SEMAL, 6622bp) was prepared by cloning the appropriate DNA fragment encoding amino acids 42-649 of H-Semal into the vector pMeBacA (4.8kb Invitrogen) (compare the annotations for pMeBacA-H-SEMAL). Cloning takes place in frame after the signal sequence in the vector ("bee melittin signal sequence") by means of BamHI and EcoRI. And amplifying the corresponding H-semaLDNA fragment by using the primer pair H-sema-l baculovirus 5 'and H-sema-l baculovirus 3'.

Amplification (TaKaRa exata 9 labeled polymerase) and cloned primers: "h-sema-l baculovirus 5 '" 5'-CCGGATCCGCCCAGGGCCACCTAAGGAGCGG-3'(SEQ ID NO.43) for amplification without signal sequence and incorporating a BamHI cleavage site, and "h-sema-l baculovirus 3'" 5'-CTGAATTCAGGAGCCAGGGCACAGGCATG-3' (SEQ ID NO.44) for amplification without a transmembrane domain and incorporating an EcoRI cleavage site. The attached drawings are as follows:

FIG. 1 tissue-specific expression of H-Sema-L

A) Multiple tissue northern blots (Clontech, Heidelberg, Germany). Loading from left to right: 20 μ g per lane are from spleen, thymus, prostate, testis. Poly-A-RNA of ovary, small intestine, large intestine mucosa, peripheral (blood) leukocytes. The mark size is standard.

The blot was hybridized with an 800 base pair long H-Semal probe under stringent conditions.

FIG. 2 cloning of H-SemalcDNA and schematic representation of the genomic structure of the coding sequence H-Semal (H-Semal gene).

The method comprises the following steps: the location of the EST sequences (accession numbers; location of EST sequences is shown in relation to the AHV-Sema sequence.

The following: amplified PCR and RACE products and the location of the relevant cDNA clones in the complete H-SemalacDNA and the Open Reading Frame (ORF) encoding the protein.

Bottom: relative positioning of exons related to genomic sequence in the H-Semal gene. The positions of the oligonucleotide primers are indicated by arrows.

FIG. 3: phylogenetic tree: obtained from multiple alignments of the pheromone sequences listed. The phylogenetic relationship of the pheromones can be deduced from their clusters in the phylogenetic tree.

FIG. 4: FACS analysis of H-Semal expression in various cell lines and various cell types (comparative example 8).

FIG. 5: comparative analysis of CD100 and H-Semal expression (comparative example 9).

FIG. 6: expression of secreted SEMA-L (H-Semal) in Hifive and Sf9 cells (comparative example 10).

Aa 42-649 of pMelBac-A (Invitrogen) in the baculovirus System (Bac-N-Blue, Invitrogen)

Detection with specific chick antiserum 1 (1: 100) and anti-IgY-HRP conjugate (1: 3000, from Rabbit Jackson Lab.)

1,4,6 uninfected HiFive cells (serum free)

2,3,5,7,8 HiFive cells (serum free) infected with recombinant baculovirus

MRainbow molecular weight marker (Amersham RPN756)

9,10 infected Sf9 cells (serum-containing media).

FIG. 7: specificity of antiserum

Lanes 1-3: 1, chicken; lanes 4-6: chicken 2

Lane 1 and lane 4: preimmune serum

Lanes 2 and 5: serum for 60 days of immunization

Lanes 4 and 6: serum for 105 days of immunization

Immunization was performed with amino acids 179-378 of H-Semal (with an amino-terminal His tag) (comparative example 8, part 1).

FIG. 8: and (3) describing a plasmid map of pMeIBAA-H-SEMAL.

Recombinant plasmids were prepared as described in example 11.

TABLE 1 different subtypes of pheromones from different species

Name (R)	Alias name	Species (II)		Reference to the literature
Name (R)	Alias name	Species (II)		Reference to the literature	H-SemaⅢ	(H-SemaD)	Human being	Sec.	(Kolodkin et al, 1993)
CD-100		Human being	TM, IC; linked to CD45 for expression in T cells	(Hall et al, 1996)	H-SemaⅢ	(H-SemaD)	Human being	Sec.	(Kolodkin et al, 1993)
CD-100		Human being	TM, IC; linked to CD45 for expression in T cells	(Hall et al, 1996)	H-SemaⅤ	(H-SemaA)	Human being	Sec.; locus 3p21.3	(Sekido et al, 1996; Roche et al, 1996)
H-SemaⅣ	(H-Sema3F)	Human being	Sec.; locus 3p21.3	(Xiaoang et al, 1996; Sekido et al, 1996)	H-SemaⅤ	(H-SemaA)	Human being	Sec.; locus 3p21.3	(Sekido et al, 1996; Roche et al, 1996)
H-SemaⅣ	(H-Sema3F)	Human being	Sec.; locus 3p21.3	(Xiaoang et al, 1996; Sekido et al, 1996)	H-SemaE		Human being	Sec.; different from the 3' end of M-Sema-E (reading frame contrast is improved)	AB000220(Yamada1997 unpublished)
H-SemaK	KIAA0311	Human being	Sec.；	(Nagase et al, 1997)	H-SemaE		Human being		AB000220(Yamada1997 unpublished)
H-SemaK	KIAA0311	Human being	Sec.；	(Nagase et al, 1997)	H-SemaL	SEMAL	Human being	TM, no IC	This application
M-SemaA		Mouse	Sec.	(Tuschel et al, 1995)	H-SemaL	SEMAL	Human being	TM, no IC	This application
M-SemaA		Mouse	Sec.	(Tuschel et al, 1995)	M-SemaB		Mouse	TM,IC	(Tuschel et al, 1995)
M-SemaC		Mouse	TM,IC	(Tuschel et al, 1995)	M-SemaB		Mouse	TM,IC	(Tuschel et al, 1995)
M-SemaC		Mouse	TM,IC	(Tuschel et al, 1995)	M-SemaD	M-SemaⅢ	Mouse	Sec.	(Messersmith et al, 1995; Tuschel et al, 1995)
M-SemaE		Mouse	Sec,; 5' partial sequence	(Tuschel et al, 1995)	M-SemaD	M-SemaⅢ	Mouse	Sec.	(Messersmith et al, 1995; Tuschel et al, 1995)
M-SemaE		Mouse	Sec,; 5' partial sequence	(Tuschel et al, 1995)	M-SemaF1	M-SemaF	Mouse	TM,IC	(Inagaki et al, 1995)
M-SemaG2	M-SemaG	Mouse	TM, IC; mouse homolog of CD100 expressed in lymphocytes	(Furuyama et al, 1996)	M-SemaF1	M-SemaF	Mouse	TM,IC	(Inagaki et al, 1995)
M-SemaG2	M-SemaG	Mouse	TM, IC; mouse homolog of CD100 expressed in lymphocytes	(Furuyama et al, 1996)	M-SemaF2	M-SemaF	Mouse	TM, IC; thrombomodulin motifs	(Adams et al, 1996)
M-SemaG1	M-SemaG	Mouse	TM, IC; thrombomodulin motifs	(Adams et al, 1996)	M-SemaF2	M-SemaF	Mouse	TM, IC; thrombomodulin motifs	(Adams et al, 1996)
M-SemaG1	M-SemaG	Mouse	TM, IC; thrombomodulin motifs	(Adams et al, 1996)	M-SemaH		Mouse	Sec.	(Christensen1996 not published) Z80941
M-SemaⅥa		Mouse	TM,IC	(Zhou et al, 1997)	M-SemaH		Mouse	Sec.	(Christensen1996 not published) Z80941
M-SemaⅥa		Mouse	TM,IC	(Zhou et al, 1997)	M-SemaL	Semal	Mouse	Partial sequence	This application
Collapsin-1		Chicken	Sec.	(Luo et al, 1993)	M-SemaL	Semal	Mouse	Partial sequence	This application
Collapsin-1		Chicken	Sec.	(Luo et al, 1993)	Collapsin-2		Chicken	Sec.	(Luo et al, 1995)
Collapsin-3		Chicken	Sec.	(Luo et al, 1995)	Collapsin-2		Chicken	Sec.	(Luo et al, 1995)
Collapsin-3		Chicken	Sec.	(Luo et al, 1995)	Collapsin-4		Chicken	Partial sequence	(Luo et al, 1995)
Collapsin-5		Chicken	Sec.	(Lou et al, 1995)	Collapsin-4		Chicken	Partial sequence	(Luo et al, 1995)
Collapsin-5		Chicken	Sec.	(Lou et al, 1995)	R-SemaⅢ		Rat	Sec.	(Giger et al, 1996)
T-SemaⅠ		Tribolumoonfusum	TM,IC	(Kolodkin et al, 1993)	R-SemaⅢ		Rat	Sec.	(Giger et al, 1996)
T-SemaⅠ		Tribolumoonfusum	TM,IC	(Kolodkin et al, 1993)	Ce-SemaⅠ		C.elegans	TM,IC	U15667(Roy1994 unpublished)
G-SemaⅠ	Fasciclin-Ⅳ	Grasshoppers	TM,IC	(Kolodkin et al, 1993)	Ce-SemaⅠ		C.elegans	TM,IC	U15667(Roy1994 unpublished)
G-SemaⅠ	Fasciclin-Ⅳ	Grasshoppers	TM,IC	(Kolodkin et al, 1993)	D-SemaⅠ		Drosophila	TM,IC	(Kolodkin et al, 1993)
D-SemaⅡ		Drosophila	Sec.	(Kolodkin et al, 1993)	D-SemaⅠ		Drosophila	TM,IC	(Kolodkin et al, 1993)
D-SemaⅡ		Drosophila	Sec.	(Kolodkin et al, 1993)	AHV-Sema		AHV-1	Sec.	(Ensser and Fleckenstein,1995)
ORF-A39		Whelk	Sec.	(Kolodkin et al, 1993)	AHV-Sema		AHV-1	Sec.	(Ensser and Fleckenstein,1995)
ORF-A39		Whelk	Sec.	(Kolodkin et al, 1993)	ORF-A39 homologue		Ceiling (ceiling)	Sec.；	(Kolodkin et al, 1993)

TM: transmembrane region Sec: secretory IC: putative intracellular cytoplasmic sequence motifs table 2: cDNA sequence of H-Semal (2636 nucleotides) (SEQ ID NO: 1)

1 cggggccacg ggatgacgcc tcctccgccc ggacgtgccg cccccagcgc

51 accgcgcgcc cgcgtccctg gcccgccggc tcggttgggg cttccgctgc

101 ggctgcggct gctgctgctg ctctgggcgg ccgccgcctc cgcccagggc

151 cacctaagga gcggaccccg catcttcgcc gtctggaaag gccatgtagg

201 gcaggaccgg gtggactttg gccagactga gccgcacacg gtgcttttcc

251 acgagccagg cagctcctct gtgtgggtgg gaggacgtgg caaggtctac

301 ctctttgact tccccgaggg caagaacgca tctgtgcgca cggtgaatat

351 cggctccaca aaggggtcct gtctggataa gcgggactgc gagaactaca

401 tcactctcct ggagaggcgg agtgaggggc tgctggcctg tggcaccaac

451 gcccggcacc ccagctgctg gaacctggtg aatggcactg tggtgccact

501 tggcgagatg agaggctacg cccccttcag cccggacgag aactccctgg

551 ttctgtttga aggggacgag gtgtattcca ccatccggaa gcaggaatac

601 aatgggaaga tccctcggtt ccgccgcatc cggggcgaga gtgagctgta

651 caccagtgat actgtcatgc agaacccaca gttcatcaaa gccaccatcg

701 tgcaccaaga ccaggcttac gatgacaaga tctactactt cttccgagag

751 gacaatcctg acaagaatcc tgaggctcct ctcaatgtgt cccgtgtggc

801 ccagttgtgc aggggggacc agggtgggga aagttcactg tcagtctcca

851 agtggaacac ttttctgaaa gccatgctgg tatgcagtga tgctgccacc

901 aacaagaact tcaacaggct gcaagacgtc ttcctgctcc ctgaccccag

951 cggccagtgg agggacacca gggtctatgg tgttttctcc aacccctgga

1001 actactcagc cgtctgtgtg tattccctcg gtgacattga caaggtcttc

1051 cgtacctcct cactcaaggg ctaccactca agccttccca acccgcggcc

1101 tggcaagtgc ctcccagacc agcagccgat acccacagag accttccagg

1151 tggctgaccg tcacccagag gtggcgcaga gggtggagcc catggggcct

1201 ctgaagacgc cattgttcca ctctaaatac cactaccaga aagtggccgt

1251 tcaccgcatg caagccagcc acggggagac ctttcatgtg ctttacctaa

1301 ctacagacag gggcactatc cacaaggtgg tggaaccggg ggagcaggag

1351 cacagcttcg ccttcaacat catggagatc cagcccttcc gccgcgcggc

1401 tgccatccag accatgtcgc tggatgctga gcggaggaag ctgtatgtga

1451 gctcccagtg ggaggtgagc caggtgcccc tggacctgtg tgaggtctat

1501 ggcgggggct gccacggttg cctcatgtcc cgagacccct actgcggctg

1551 ggaccagggc cgctgcatct ccatctacag ctccgaacgg tcagtgctgc

1601 aatccattaa tccagccgag ccacacaagg agtgtcccaa ccccaaacca

1651 gacaaggccc cactgcagaa ggtttccctg gccccaaact ctcgctacta

1701 cctgagctgc cccatggaat cccgccacgc cacctactca tggcgccaca

1751 aggagaacgt ggagcagagc tgcgaacctg gtcaccagag ccccaactgc

1801 atcctgttca tcgagaacct cacggcgcag cagtacggcc actacttctg

1851 cgaggcccag gagggctcct acttccgcga ggctcagcac tggcagctgc

1901 tgcccgagga cggcatcatg gccgagcacc tgctgggtca tgcctgtgcc

1951 ctggctgcct ccctctggct gggggtgctg cccacactca ctcttggctt

2001 gctggtccac tagggcctcc cgaggctggg catgcctcag gcttctgcag

2051 cccagggcac tagaacgtct cacactcaga gccggctggc ccgggagctc

2101 cttgcctgcc acttcttcca ggggacagaa taacccagtg gaggatgcca

2151 ggcctggaga cgtccagccg caggcggctg ctgggcccca ggtggcgcac

2201 ggatggtgag gggctgagaa tgagggcacc gactgtgaag ctggggcatc

2251 gatgacccaa gactttatct tctggaaaat atttttcaga ctcctcaaac

2301 ttgactaaat gcagcgatgc tcccagccca agagcccatg ggtcggggag

2351 tgggtttgga taggagagct gggactccat ctcgaccctg gggctgaggc

2401 ctgagtcctt ctggactctt ggtacccaca ttgcctcctt cccctccctc

2451 tctcatggct gggtggctgg tgttcctgaa gacccagggc taccctctgt

2501 ccagccctgt cctctgcagc tccctctctg gtcctgggtc ccacaggaca

2551 gccgccttgc atgtttattg aaggatgttt gctttccgga cggaaggacg

2601 gaaaaagctc tgaaaaaaaa aaaaaaaaaa aaaaaa table 3: nucleotide sequence (partial, 1195 nucleotides) of cDNA of M-Semal (SEQ ID NO.:2)

1 cggggctgcg ggatgacgcc tcctcctccc ggacgtgccg cccccagcgc

51 accgcgcgcc cgcgtcctca gcctgccggc tcggttcggg ctcccgctgc

101 ggctgcggct tctgctggtg ttctgggtgg ccgccgcctc cgcccaaggc

151 cactcgagga gcggaccccg catctccgcc gtctggaaag ggcaggacca

201 tgtggacttt agccagcctg agccacacac cgtgcttttc catgagccgg

251 gcagcttctc tgtctgggtg ggtggacgtg gcaaggtcta ccacttcaac

301 ttccccgagg gcaagaatgc ctctgtgcgc acggtgaaca tcggctccac

351 aaaggggtcc tgtcaggaca aacaggactg tgggaattac atcactcttc

401 tagaaaggcg gggtaatggg ctgctggtct gtggcaccaa tgcccggaag

451 cccagctgct ggaacttggt gaatgacagt gtggtgatgt cacttggtga

501 gatgaaaggc tatgccccct tcagcccgga tgagaactcc ctggttctgt

551 ttgaaggaga tgaagtgtac tctaccatcc ggaagcagga atacaacggg

601 aagatccctc ggtttcgacg cattcggggc gagagtgaac tgtacacaag

651 tgatacagtc atgcagaacc cacagttcat caaggccacc attgtgcacc

701 aagaccaagc ctatgatgat aagatctact acttcttccg agaagacaac

751 cctgacaaga accccgaggc tcctctcaat gtgtcccgag tagcccagtt

801 gtgcaggggg gaccagggtg gtgagagttc gttgtctgtc tccaagtgga

851 acaccttcct gaaagccatg ttggtctgca gc gatgcagc caccaacagg

901 aacttcaatc ggctgcaaga tgtcttcctg ctccctgacc ccagtggcca

951 gtggagagat accagggtct atggcgtttt ctccaacccc tggaactact

1001 cagctgtctg cgtgtattcg cttggtgaca ttgacagagt cttccgtacc

1051 tcatcgctca aaggctacca catgggcctt tccaaccctc gacctggcat

1101 gtgcctccca aaaaagcagc ccatacccac agaaaccttc caggtagctg

1151 atagtcaccc agaggtggct cagagggtgg aacctatggg gcccc table 4: amino acid sequence (666 amino acids) of H-Semal (SEQ ID NO.:3)1 MTPPPPGRAA PSAPRARVPG PPARLGLPLR LRLLLLLWAA AASAQGHLRS51 GPRIFAVWKG HVGQDRVDFG QTEPHTVLFH EPGSSSVWVG GRGKVYLFDF101 PEGKNASVRT VNIGSTKGSC LDKRDCENYI TLLERRSEGL LACGTNARHP151 SCWNLVNGTV VPLGEMRGYA PFSPDENSLV LFEGDEVYST IRKQEYNGKI201 PRFRRIRGES ELYTSDTVMQ NPQFIKATIV HQDQAYDDKI YYFFREDNPD251 KNPEAPLNVS RVAQLCRGDQ GGESSLSVSK WNTFLKAMLV CSDAATNKNF NRLQDVFLLP DPSGQWRDTR VYGVFSNPWN YSAVCVYSLG DIDKVFRTSS351 LKGYHSSLPN PRPGKCLPDQ QPIPTETFQV ADRHPEVAQR VEPMGPLKTP401 LFHSKYHYQK VAVHRMQASH GETFHVLYLT TDRGTIHKVV EPGEQEHSFA451 FNIMEIQPFR RAAAIQTMSL DAERRKLYVS SQWEVSQVPL DLCEVYGGGC HGCLMSRDPY CGWDQGRCIS IYSSERSVLQ SINPAEPHKE CPNPKPDKAP551 LQKVSLAPNS RYYLSCPMES RHATYSWRHK ENVEQSCEPG HQSPNCILFI601 ENLTAQQYGH YFCEAQEGSY FREAQHWQLL PEDGIMAEHL LGHACALAAS651 LWLGVLPTLTLGLLVH Table 5: (partial) amino acid sequence of M-Semal (394 amino acids, corresponding to positions 1-396 of H-Semal) (SEQ ID No.:4)

1 MTPPPPGRAA PSAPRARVLS LPARFGLPLR LRLLLVFWVA AASAQGHSRS

51 GPRISAVWKG QDHVDFSQPE PHTVLFHEPG SFSVWVGGRG KVYHFNFPEG

101 KNASVRTVNI GSTKGSCQDK QDCGNYITLL ERRGNGLLVC GTNARKPSCW

151 NLVNDSVVMS LGEMKGYAPF SPDENSLVLF EGDEVYSTIR KQEYNGKIPR

201 FRRIRGESEL YTSDTVMQNP QFIKATIVHQ DQAYDDKIYY FFREDNPDKN

251 PEAPLNVSRV AQLCRGDQGG ESSLSVSKWN TFLKAMLVCS DAATNRNFNR

301 LQDVFLLPDP SGQWRDTRVY GVFSNPWNYS AVCVYSLGDI DRVFRTSSLK

351 GYHMGLSNPR PGMCLPKKQP IPTETFQVAD SHPEVAQRVE PMGP table 6: nucleotide sequence of the number/name primer (synthetic oligonucleotide) of the synthetic oligonucleotide (Eurogentec, Seraing, Belgium) primer

91506/AP2 actcactatagggctcgagcggc (SEQ ID NO.:5)

121234 agccgcacacggtgcttttc (SEQ ID NO.:6)

121235/Est2 gcacagatgcgttcttgccc (SEQ ID NO.:7)

121236/Est3 accatagaccctggtgtccc (SEQ ID NO.:8)

121237/Est4 gcagtgatgctgccaccaac (SEQ ID NO.:9)

121238 ccagaccatgtcgctggatg (SEQ ID NO.:10)

121239/Est6 acatgaggcaaccgtggcag (SEQ ID NO.:11)

131989/AP1 ccatcctaatacgactcactatagggc (SEQ ID NO.:12)

131990/Est7 aggtagaccttgccacgtcc (SEQ ID NO.:13)

131991 gaacttcaacaggctgcaagacg (SEQ ID NO.:14)

131992 atgctgagcggaggaagctg (SEQ ID NO.:15)

131993 ccgccatacacctcacacag (SEQ ID NO.:16)

150788 ctggaagctttctgtgggtatcggctgc (SEQ ID NO.:17)

150789 tttggatccctggttctgtttgaag (SEQ ID NO.:18)

167579/cDNA ttctaagaattcagcggccggcttttttttttttttttttttttttttttttvtvn synthetic primer (SEQ ID NO: 19)

168421 ggggaaagttcactgtcagtctccaag (SEQ ID NO.:20)

168422 gggaatacacacagacggctgagtag (SEQ ID NO.:21)

207608/agcaagttcagcctggttaagt (SEQ ID NO: 22) amplification of lambda gt10 insert

207609/ttatgagtatttcttccaggg (SEQ ID NO: 23) amplification of lambda gt10 insert

232643/Est13 ccattaatccagccgagccacacaag (SEQ ID NO.:24)

232644/Est14 catctacagctccgaacggtcagtg (SEQ ID NO.:25)

233084 cagcggaagccccaaccgag (SEQ ID NO.:26)

240655/hs5 gggatgacgcctcctccgcccgg (SEQ ID NO.:27)

240656/hs3 aagcttcacgtggaccagcaagccaagagtg (SEQ ID NO.:28)

240657/hs3c aagctttttccgtccttccgtccgg (SEQ ID NO.:29)

243068 atggtgagcaagggcgaggagctg (SEQ ID NO.:30)

243069 cttgtacagctcgtccatgccgag (SEQ ID NO.:31)

280812 GGGTGGTGAGAGTTCGTTGTCTGTC (SEQ ID NO.:32)

260813 GAGCGATGAGGTACGGAAGACTCTG (SEQ ID NO: 33) Table 7: nucleotide sequence of recombinant plasmid pCR2.1-H-SemaL (SEQ ID NO.:34)1 AGCGCCCAAT ACGCAAACCG CCTCTCCCCG CGCGTTGGCC GATTCATTAA51 TGCAGCTGGC ACGACAGGTT TCCCGACTGG AAAGCGGGCA GTGAGCGCAA101 CGCAATTAAT GTGAGTTAGC TCACTCATTA GGCACCCCAG GCTTTACACT151 TTATGCTTCC GGCTCGTATG TTGTGTGGAA TTGTGAGCGG ATAACAATTT201 CACACAGGAA ACAGCTATGA CCATGATTAC GCCaagcttc acgtggacca251 gcaagccaag agtgagtgtg ggcagcaccc ccagccagag ggaggcagcc301 agggcacagg catgacccag caggtgctcg gccatgatgc cgtcctcggg cagcagctgc cagtgctgag cctcgcggaa gtaggagccc tcctgggcct401 cgcagaagta gtggccgtac tgctgcgccg tgaggttctc gatgaacagg451 atgcagttgg ggctctggtg accaggttcg cagctctgct ccacgttctc cttgtggcgc catgagtagg tggcgtggcg ggattccatg gggcagctca551 ggtagtagcg agagtttggg gccagggaaa ccttctgcag tggggccttg601 tctggtttgg ggttgggaca ctccttgtgt ggctcggctg gattaatgga651 ttgcagcact gaccgttcgg agctgtagat ggagatgcag cggccctggt701 cccagccgca gtaggggtct cgggacatga ggcaaccgtg gcagcccccg751 ccatagacct cacacaggtc caggggcacc tggctcacct cccactggga gctcacatac agcttcctcc gctcagcatc cagcgacatg gtctggatgg cagccgcgcg gcggaagggc tggatctcca tgatgttgaa ggcgaagctg901 tgctcctgct cccccggttc caccaccttg tggatagtgc ccctgtctgt951 agttaggtaa agcacatgaa aggtctcccc gtggctggct tgcatgcggt1001 gaacggccac tttctggtag tggtatttag agtggaacaa tggcgtcttc1051 861101 cacctggaag gtctctgtgg gtatcggctg ctggtctggg aggcacttgc1151 caggccgcgg gttgggaagg cttgagtggt agcccttgag tgaggaggta cggaagacct tgtcaatgtc accgagggaa tacacacaga cggctgagta1251 gttccagggg ttggagaaaa caccatagac cctggtgtcc ctccactggc1301 cgctggggtc agggagcagg aagacgtctt gcagcctgtt gaagttcttg1351 ttggtggcag catcactgca taccagcatg gctttcagaa aagtgttcca1401 cttggagact gacagtgaac tttccccacc ctggtccccc ctgcacaact1451 gggccacacg ggacacattg agaggagcct caggattctt gtcaggattg1501 tcctctcgga agaagtagta gatcttgtca tcgtaagcct ggtcttggtg1551 1601 tgtacagctc actctcgccc cggatgcggc ggaaccgagg gatcttccca1651 ttgtattcct gcttccggat ggtggaatac acctcgtccc cttcaaacag1701 aaccagggag ttctcgtccg ggctgaaggg ggcgtagcct ctcatctcgc1751 caagtggcac cacagtgcca ttcaccaggt tccagcagct ggggtgccgg1801 1857 1851 gatgtagttc tcgcagtccc gcttatccag acaggacccc tttgtggagc1901 cgatattcac cgtgcgcaca gatgcgttct tgccctcggg gaagtcaaag1951 cgatattcac cgtgcgcaca gatgcgttct tgccctcggg gaagtcaaag 2001 cgatattcac cgtgcgcaca gatgcgttct tgccctcggg gaagtcaaag 2051 cgatattcac cgtgcgcaca gatgcgttct tgccctcggg gaagtcaaag 2101 cgatattcac cgtgcgcaca gatgcgttct tgccctcggg gaagtcaaag 2151 cgatattcac cgtgcgcaca gatgcgttct tgccctcggg gaagtcaaag 2201 cgatattcac cgtgcgcaca gatgcgttct tgccctcggg gaagtcaaag 2251 cgatattcac cgtgcgcaca gatgcgttct tgccctcggg gaagtcaaag 2301 2351 cgatattcac cgtgcgcaca gatgcgttct tgccctcggg gaagtcaaag 2401 362451 cgatattcac cgtgcgcaca gatgcgttct tgccctcggg gaagtcaaag 2501 cgatattcac cgtgcgcaca gatgcgttct tgccctcggg gaagtcaaag 2551 cgatattcac cgtgcgcaca gatgcgttct tgccctcggg gaagtcaaag 2651 cgatattcac cgtgcgcaca gatgcgttct tgccctcggg gaagtcaaag 2701 cgatattcac cgtgcgcaca gatgcgttct tgccctcggg gaagtcaaag CCCTGATAGA2751 CGGTTTTTCG CCCTTTGACG TTGGAGTCCA CGTTCTTTAA TAGTGGACTC2801 TTGTTCCAAA CTGGAACAAC ACTCAACCCT ATCGCGGTCT ATTCTTTTGA2851 TTTATAAGGG ATTTTGCCGA TTTCGGCCTA TTGGTTAAAA AATGAGCTGA2901 TTTAACAAAT TCAGGGCGCA AGGGCTGCTA AAGGAACCGG AACACGTAGA2951 AAGCCAGTCC GCAGAAACGG TGCTGACCCC GGATGAATGT CAGCTACTGG3001 GCTATCTGGA CAAGGGAAAA CGCAAGCGCA AAGAGAAAGC AGGTAGCTTG3051 CAGTGGGCTT ACATGGCGAT AGCTAGACTG GGCGGTTTTA TGGACAGCAA3101 GCGAACCGGA ATTGCCAGCT GGGGCGCCCT CTGGTAAGGT TGGGAAGCCC3151 TGCAAAGTAA ACTGGATGGC TTTCTTGCCG CCAAGGATCT GATGGCGCAG3201 TGCAAAGTAA ACTGGATGGC TTTCTTGCCG CCAAGGATCT GATGGCGCAG 3251 TGCAAAGTAA ACTGGATGGC TTTCTTGCCG CCAAGGATCT GATGGCGCAG 3301 TGCAAAGTAA ACTGGATGGC TTTCTTGCCG CCAAGGATCT GATGGCGCAG 3351 TGCAAAGTAA ACTGGATGGC TTTCTTGCCG CCAAGGATCT GATGGCGCAG 363401 TGCAAAGTAA ACTGGATGGC TTTCTTGCCG CCAAGGATCT GATGGCGCAG 3451 TGCAAAGTAA ACTGGATGGC TTTCTTGCCG CCAAGGATCT GATGGCGCAG 3501 TGCAAAGTAA ACTGGATGGC TTTCTTGCCG CCAAGGATCT GATGGCGCAG 3572 TGCAAAGTAA ACTGGATGGC TTTCTTGCCG CCAAGGATCT GATGGCGCAG 3601 TGCAAAGTAA ACTGGATGGC TTTCTTGCCG CCAAGGATCT GATGGCGCAG 37072 1 TGCAAAGTAA ACTGGATGGC TTTCTTGCCG CCAAGGATCT GATGGCGCAG 3772 TGCAAAGTAA ACTGGATGGC TTTCTTGCCG CCAAGGATCT GATGGCGCAG 38051 TGCAAAGTAA ACTGGATGGC TTTCTTGCCG CCAAGGATCT GATGGCGCAG 3801 TGCAAAGTAA ACTGGATGGC TTTCTTGCCG CCAAGGATCT GATGGCGCAG 3851 TGCAAAGTAA ACTGGATGGC TTTCTTGCCG CCAAGGATCT GATGGCGCAG 3901 TGCAAAGTAA ACTGGATGGC TTTCTTGCCG CCAAGGATCT GATGGCGCAG 3972 4001 TGCAAAGTAA ACTGGATGGC TTTCTTGCCG CCAAGGATCT GATGGCGCAG 4051 TGCAAAGTAA ACTGGATGGC TTTCTTGCCG CCAAGGATCT GATGGCGCAG 41072 TGCAAAGTAA ACTGGATGGC TTTCTTGCCG CCAAGGATCT GATGGCGCAG 4151 TGCAAAGTAA ACTGGATGGC TTTCTTGCCG CCAAGGATCT GATGGCGCAG GAACTGGATC4201 TCAACAGCGG TAAGATCCTT GAGAGTTTTC GCCCCGAAGA ACGTTTTCCA4251 ATGATGAGCA CTTTTAAAGT TCTGCTATGT CATACACTAT TATCCCGTAT4301 TGACGCCGGG CAAGAGCAAC TCGGTCGCCG GGCGCGGTAT TCTCAGAATG4351 ACTTGGTTGA GTACTCACCA GTCACAGAAA AGCATCTTAC GGATGGCATG4401 ACAGTAAGAG AATTATGCAG TGCTGCCATA ACCATGAGTG ATAACACTGC4451 GGCCAACTTA CTTCTGACAA CGATCGGAGG ACCGAAGGAG CTAACCGCTT4501 TTTTGCACAA CATGGGGGAT CATGTAACTC GCCTTGATCG TTGGGAACCG4551 GAGCTGAATG AAGCCATACC AAACGACGAG AGTGACACCA CGATGCCTGT4601 AGCAATGCCA ACAACGTTGC GCAAACTATT AACTGGCGAA CTACTTACTC4651 AGCAATGCCA ACAACGTTGC GCAAACTATT AACTGGCGAA CTACTTACTC 4701 AGCAATGCCA ACAACGTTGC GCAAACTATT AACTGGCGAA CTACTTACTC 4751 AGCAATGCCA ACAACGTTGC GCAAACTATT AACTGGCGAA CTACTTACTC 4801 AGCAATGCCA ACAACGTTGC GCAAACTATT AACTGGCGAA CTACTTACTC 4901 AGCAATGCCA ACAACGTTGC GCAAACTATT AACTGGCGAA CTACTTACTC 4951 AGCAATGCCA ACAACGTTGC GCAAACTATT AACTGGCGAA CTACTTACTC 5001 AGCAATGCCA ACAACGTTGC GCAAACTATT AACTGGCGAA CTACTTACTC 5051 AGCAATGCCA ACAACGTTGC GCAAACTATT AACTGGCGAA CTACTTACTC 5101 AGCAATGCCA ACAACGTTGC GCAAACTATT AACTGGCGAA CTACTTACTC 51513672 5201 AGCAATGCCA ACAACGTTGC GCAAACTATT AACTGGCGAA CTACTTACTC 5251 AGCAATGCCA ACAACGTTGC GCAAACTATT AACTGGCGAA CTACTTACTC 5301 AGCAATGCCA ACAACGTTGC GCAAACTATT AACTGGCGAA CTACTTACTC 5351 AGCAATGCCA ACAACGTTGC GCAAACTATT AACTGGCGAA CTACTTACTC 5472 543672 5451 AGCAATGCCA ACAACGTTGC GCAAACTATT AACTGGCGAA CTACTTACTC 5503672 AGCAATGCCA ACAACGTTGC GCAAACTATT AACTGGCGAA CTACTTACTC 5551 AGCAATGCCA ACAACGTTGC GCAAACTATT AACTGGCGAA CTACTTACTC 5601 AGCAATGCCA ACAACGTTGC GCAAACTATT AACTGGCGAA CTACTTACTC CGTCGATTTT TGTGATGCTC5651 GTCAGGGGGG CGGAGCCTAT GGAAAAACGC CAGCAACGCG GCCTTTTTAC5701 GGTTCCTGGC CTTTTGCTGG CCTTTTGCTC ACATGTTCTT TCCTGCGTTA5751 TCCCCTGATT CTGTGGATAA CCGTATTACC GCCTTTGAGT GAGCTGATAC5801 CGCTCGCCGC AGCCGAACGA CCGAGCGCAG CGAGTCAGTG AGCGAGGAAG5851 CGGAAG table 8: nucleotide sequence of recombinant expression plasmid pCDNA3.1(-) H-Semal-MycHisA (SED IDNO: 35)

1 GACGGATCGG GAGATCTCCC GATCCCCTAT GGTCGACTCT CAGTACAATC

51 TGCTCTGATG CCGCATAGTT AAGCCAGTAT CTGCTCCCTG CTTGTGTGTT

101 GGAGGTCGCT GAGTAGTGCG CGAGCAAAAT TTAAGCTACA ACAAGGCAAG

151 GCTTGACCGA CAATTGCATG AAGAATCTGC TTAGGGTTAG GCGTTTTGCG

201 CTGCTTCGCG ATGTACGGGC CAGATATACG CGTTGACATT GATTATTGAC

251 TAGTTATTAA TAGTAATCAA TTACGGGGTC ATTAGTTCAT AGCCCATATA

301 TGGAGTTCCG CGTTACATAA CTTACGGTAA ATGGCCCGCC TGGCTGACCG

351 CCCAACGACC CCCGCCCATT GACGTCAATA ATGACGTATG TTCCCATAGT

401 AACGCCAATA GGGACTTTCC ATTGACGTCA ATGGGTGGAC TATTTACGGT

451 AAACTGCCCA CTTGGCAGTA CATCAAGTGT ATCATATGCC AAGTACGCCC

501 CCTATTGACG TCAATGACGG TAAATGGCCC GCCTGGCATT ATGCCCAGTA

551 CATGACCTTA TGGGACTTTC CTACTTGGCA GTACATCTAC GTATTAGTCA

601 TCGCTATTAC CATGGTGATG CGGTTTTGGC AGTACATCAA TGGGCGTGGA

651 TAGCGGTTTG ACTCACGGGG ATTTCCAAGT CTCCACCCCA TTGACGTCAA

701 TGGGAGTTTG TTTTGGCACC AAAATCAACG GGACTTTCCA AAATGTCGTA

751 ACAACTCCGC CCCATTGACG CAAATGGGCG GTAGGCGTGT ACGGTGGGAG

801 GTCTATATAA GCAGAGCTCT CTGGCTAACT AGAGAACCCA CTGCTTACTG

851 GCTTATCGAA ATTAATACGA CTCACTATAG GGAGACCCAA GCTGGCTAGC

901 GTTTAAACGG GCCCTCTAGA CTCGAGCGGC CGCCACTGTG CTGGATATCT

951 GCAgaattcg gcttgggatg acgcctcctc cgcccggacg tgccgccccc

1001 agcgcaccgc gcgcccgcgt ccctggcccg ccggctcggt tggggcttcc1051 gctgcggctg cggctgctgc tgctgctctg ggcggccgcc gcctccgccc1101 agggccacct aaggagcgga ccccgcatct tcgccgtctg gaaaggccat115t gtagggcagg accgggtgga ctttggccag actgagccgc acacggtgct1201 tttccacgag ccaggcagct cctctgtgtg ggtgggagga cgtggcaagg1251 tctacctctt tgacttcccc gagggcaaga acgcatctgt gcgcacggtg1301 aatatcggct ccacaaaggg gtcctgtctg gataagcggg actgcgagaa1351 ctacatcact ctcctggaga ggcggagtga ggggctgctg gcctgtggca1401 ccaacgcccg gcaccccagc tgctggaacc tggtgaatgg cactgtggtg1451 ccacttggcg agatgagagg ctacgccccc ttcagcccgg acgagaactc1501 cctggttctg tttgaagggg acgaggtgta ttccaccatc cggaagcagg1551 aatacaatgg gaagatccct cggttccgcc gcatccgggg cgagagtgag1601 ctgtacacca gtgatactgt catgcagaac ccacagttca tcaaagccac1651 catcgtgcac caagaccagg cttacgatga caagatctac tacttcttcc1701 gagaggacaa tcctgacaag aatcctgagg ctcctctcaa tgtgtcccgt1751 gtggcccagt tgtgcagggg ggaccagggt ggggaaagtt cactgtcagt1801 ctccaagtgg aacacttttc tgaaagccat gctggtatgc agtgatgctg1851 ccaccaacaa gaacttcaac aggctgcaag acgtcttcct gctccctgac1901 cccagcggcc agtggaggga caccagggtc tatggtgttt tctccaaccc1951 ctggaactac tcagccgtct gtgtgtattc cctcggtgac attgacaagg2001 tcttccgtac ctcctcactc aagggctacc actcaagcct tcccaacccg2051 cggcctggca agtgcctccc agaccagcag ccgataccca cagagacctt2101 ccaggtggct gaccgtcacc cagaggtggc gcagagggtg gagcccatgg2151 ggcctctgaa gacgccattg ttccactcta aataccacta ccagaaagtg2201 gccgttcacc gcatgcaagc cagccacggg gagacctttc atgtgcttta2251 cctaactaca gacaggggca ctatccacaa ggtggtggaa ccgggggagc2301 aggagcacag cttcgccttc aacatcatgg agatccagcc cttccgccgc2351 gcggctgcca tccagaccat gtcgctggat gctgagcgga ggaagctgta2401 tgtgagctcc cagtgggagg tgagccaggt gcccctggac ctgtgtgagg2451 tctatggcgg gggctgccac ggttgcctca tgtcccgaga cccctactgc2501 ggctgggacc agggccgctg catctccatc tacagctccg aacggtcagt2551 gctgcaatcc attaatccag ccgagccaca caaggagtgt cccaacccca2601 aaccagacaa ggccccactg cagaaggttt ccctggcccc aaactctcgc2651 tactacctga gctgccccat ggaatcccgc cacgccacct actcatggcg2701 ccacaaggag aacgtggagc agagctgcga acctggtcac cagagcccca2751 actgcatcct gttcatcgag aacctcacgg cgcagcagta cggccactac2801 ttctgcgagg cccaggaggg ctcctacttc cgcgaggctc agcactggca2851 gctgctgccc gaggacggca tcatggccga gcacctgctg ggtcatgcct2901 gtgccctggc tgcctccctc tggctggggg tgctgcccac actcactctt2951 ggcttgctgg tccacgtgaa gcttGGGCCC GAACAAAAAC TCATCTCAGA3001 AGAGGATCTG AATAGCGCCG TCGACCATCA TCATCATCAT CATTGAGTTT3051 AAACCGCTGA TCAGCCTCGA CTGTGCCTTC TAGTTGCCAG CCATCTGTTG3101 TTTGCCCCTC CCCCGTGCCT TCCTTGACCC TGGAAGGTGC CACTCCCACT3151 GTCCTTTCCT AATAAAATGA GGAAATTGCA TCGCATTGTC TGAGTAGGTG3201 TCATTCTATT CTGGGGGGTG GGGTGGGGCA GGACAGCAAG GGGGAGGATT3251 GGGAAGACAA TAGCAGGCAT GCTGGGGATG CGGTGGGCTC TATGGCTTCT3301 GAGGCGGAAA GAACCAGCTG GGGCTCTAGG GGGTATCCCC ACGCGCCCTG3351 TAGCGGCGCA TTAAGCGCGG CGGGTGTGGT GGTTACGCGC AGCGTGACCG3401 CTACACTTGC CAGCGCCCTA GCGCCCGCTC CTTTCGCTTT CTTCCCTTCC3451 TTTCTCGCCA CGTTCGCCGG CTTTCCCCGT CAAGCTCTAA ATCGGGGCAT3501 CCCTTTAGGG TTCCGATTTA GTGCTTTACG GCACCTCGAC CCCAAAAAAC3551 TTGATTAGGG TGATGGTTCA CGTAGTGGGC CATCGCCCTG ATAGACGGTT3601 TTTCGCCCTT TGACGTTGGA GTCCACGTTC TTTAATAGTG GACTCTTGTT3651 CCAAACTGGA ACAACACTCA ACCCTATCTC GGTCTATTCT TTTGATTTAT3701 AAGGGATTTT GGGGATTTCG GCCTATTGGT TAAAAAATGA GCTGATTTAA3751 CAAAAATTTA ACGCGAATTA ATTCTGTGGA ATGTGTGTCA GTTAGGGTGT3801 GGAAAGTCCC CAGGCTCCCC AGGCAGGCAG AAGTATGCAA AGCATGCATC3851 TCAATTAGTC AGCAACCAGG TGTGGAAAGT CCCCAGGCTC CCCAGCAGGC3901 AGAAGTATGC AAAGCATGCA TCTCAATTAG TCAGCAACCA TAGTCCCGCC3951 CCTAACTCCG CCCATCCCGC CCCTAACTCC GCCCAGTTCC GCCCATTCTC4001 CGCCCCATGG CTGACTAATT TTTTTTATTT ATGCAGAGGC CGAGGCCGCC4051 TCTGCCTCTG AGCTATTCCA GAAGTAGTGA GGAGGCTTTT TTGGAGGCCT4101 AGGCTTTTGC AAAAAGCTCC CGGGAGCTTG TATATCCATT TTCGGATCTG4151 ATCAAGAGAC AGGATGAGGA TCGTTTCGCA TGATTGAACA AGATGGATTG4201 CACGCAGGTT CTCCGGCCGC TTGGGTGGAG AGGCTATTCG GCTATGACTG4251 GGCACAACAG ACAATCGGCT GCTCTGATGC CGCCGTGTTC CGGCTGTCAG4301 CGCAGGGGCG CCCGGTTCTT TTTGTCAAGA CCGACCTGTC CGGTGCCCTG4351 AATGAACTGC AGGACGAGGC AGCGCGGCTA TCGTGGCTGG CCACGACGGG4401 CGTTCCTTGC GCAGCTGTGC TCGACGTTGT CACTGAAGCG GGAAGGGACT4451 GGCTGCTATT GGGCGAAGTG CCGGGGCAGG ATCTCCTGTC ATCTCACCTT4501 GCTCCTGCCG AGAAAGTATC CATCATGGCT GATGCAATGC GGCGGCTGCA4551 TACGCTTGAT CCGGCTACCT GCCCATTCGA CCACCAAGCG AAACATCGCA4601 TCGAGCGAGC ACGTACTCGG ATGGAAGCCG GTCTTGTCGA TCAGGATGAT4651 CTGGACGAAG AGCATCAGGG GCTCGCGCCA GCCGAACTGT TCGCCAGGCT4701 CAAGGCGCGC ATGCCCGACG GCGAGGATCT CGTCGTGACC CATGGCGATG4751 CCTGCTTGCC GAATATCATG GTGGAAAATG GCCGCTTTTC TGGATTCATC4801 GACTGTGGCC GGCTGGGTGT GGCGGACCGC TATCAGGACA TAGCGTTGGC4851 TACCCGTGAT ATTGCTGAAG AGCTTGGCGG CGAATGGGCT GACCGCTTCC4901 TCGTGCTTTA CGGTATCGCC GCTCCCGATT CGCAGCGCAT CGCCTTCTAT4951 CGCCTTCTTG ACGAGTTCTT CTGAGCGGGA CTCTGGGGTT CGAAATGACC5001 GACCAAGCGA CGCCCAACCT GCCATCACGA GATTTCGATT CCACCGCCGC5051 CTTCTATGAA AGGTTGGGCT TCGGAATCGT TTTCCGGGAC GCCGGCTGGA5101 TGATCCTCCA GCGCGGGGAT CTCATGCTGG AGTTCTTCGC CCACCCCAAC5151 TTGTTTATTG CAGCTTATAA TGGTTACAAA TAAAGCAATA GCATCACAAA5201 TTTCACAAAT AAAGCATTTT TTTCACTGCA TTCTAGTTGT GGTTTGTCCA5251 AACTCATCAA TGTATCTTAT CATGTCTGTA TACCGTCGAC CTCTAGCTAG5301 AGCTTGGCGT AATCATGGTC ATAGCTGTTT CCTGTGTGAA ATTGTTATCC5351 GCTCACAATT CCACACAACA TACGAGCCGG AAGCATAAAG TGTAAAGCCT5401 GGGGTGCCTA ATGAGTGAGC TAACTCACAT TAATTGCGTT GCGCTCACTG5451 CCCGCTTTCC AGTCGGGAAA CCTGTCGTGC CAGCTGCATT AATGAATCGG5501 CCAACGCGCG GGGAGAGGCG GTTTGCGTAT TGGGCGCTCT TCCGCTTCCT5551 CGCTCACTGA CTCGCTGCGC TCGGTCGTTC GGCTGCGGCG AGCGGTATCA5601 GCTCACTCAA AGGCGGTAAT ACGGTTATCC ACAGAATCAG GGGATAACGC5651 AGGAAAGAAC ATGTGAGCAA AAGGCCAGCA AAAGGCCAGG AACCGTAAAA5701 AGGCCGCGTT GCTGGCGTTT TTCCATAGGC TCCGCCCCCC TGACGAGCAT5751 CACAAAAATC GACGCTCAAG TCAGAGGTGG CGAAACCCGA CAGGACTATA5801 AAGATACCAG GCGTTTCCCC CTGGAAGCTC CCTCGTGCGC TCTCCTGTTC5851 CGACCCTGCC GCTTACCGGA TACCTGTCCG CCTTTCTCCC TTCGGGAAGC5901 GTGGCGCTTT CTCAATGCTC ACGCTGTAGG TATCTCAGTT CGGTGTAGGT5951 CGTTCGCTCC AAGCTGGGCT GTGTGCACGA ACCCCCCGTT CAGCCCGACC6001 GCTGCGCCTT ATCCGGTAAC TATCGTCTTG AGTCCAACCC GGTAAGACAC6051 GACTTATCGC CACTGGCAGC AGCCACTGGT AACAGGATTA GCAGAGCGAG6101 GTATGTAGGC GGTGCTACAG AGTTCTTGAA GTGGTGGCCT AACTACGGCT6151 ACACTAGAAG GACAGTATTT GGTATCTGCG CTCTGCTGAA GCCAGTTAcc6201 TTCGGAAAAA GAGTTGGTAG CTCTTGATCC GGCAAACAAA CCACCGCTGG6251 TAGCGGTGGT TTTTTTGTTT GCAAGCAGCA GATTACGCGC AGAAAAAAAG6301 GATCTCAAGA AGATCCTTTG ATCTTTTCTA CGGGGTCTGA CGCTCAGTGG6351 AACGAAAACT CACGTTAAGG GATTTTGGTC ATGAGATTAT CAAAAAGGAT6401 CTTCACCTAG ATCCTTTTAA ATTAAAAATG AAGTTTTAAA TCAATCTAAA6451 GTATATATGA GTAAACTTGG TCTGACAGTT ACCAATGCTT AATCAGTGAG6501 GCACCTATCT CAGCGATCTG TCTATTTCGT TCATCCATAG TTGCCTGACT6551 CCCCGTCGTG TAGATAACTA CGATACGGGA GGGCTTACCA TCTGGCCCCA6601 GTGCTGCAAT GATACCGCGA GACCCACGCT CACCGGCTCC AGATTTATCA6651 GCAATAAACC AGCCAGCCGG AAGGGCCGAG CGCAGAAGTG GTCCTGCAAC6701 TTTATCCGCC TCCATCCAGT CTATTAATTG TTGCCGGGAA GCTAGAGTAA

6751 GTAGTTCGCC AGTTAATAGT TTGCGCAACG TTGTTGCCAT TGCTACAGGC

6801 ATCGTGGTGT CACGCTCGTC GTTTGGTATG GCTTCATTCA GCTCCGGTTC

6851 CCAACGATCA AGGCGAGTTA CATGATCCCC CATGTTGTGC AAAAAAGCGG

6901 TTAGCTCCTT CGGTCCTCCG ATCGTTGTCA GAAGTAAGTT GGCCGCAGTG

6951 TTATCACTCA TGGTTATGGC AGCACTGCAT AATTCTCTTA CTGTCATGCC

7001 ATCCGTAAGA TGCTTTTCTG TGACTGGTGA GTACTCAACC AAGTCATTCT

7051 GAGAATAGTG TATGCGGCGA CCGAGTTGCT CTTGCCCGGC GTCAATACGG

7101 GATAATACCG CGCCACATAG CAGAACTTTA AAAGTGCTCA TCATTGGAAA

7151 ACGTTCTTCG GGGCGAAAAC TCTCAAGGAT CTTACCGCTG TTGAGATCCA

7201 GTTCGATGTA ACCCACTCGT GCACCCAACT GATCTTCAGC ATCTTTTACT

7251 TTCACCAGCG TTTCTGGGTG AGCAAAAACA GGAAGGCAAA ATGCCGCAAA

7301 AAAGGGAATA AGGGCGACAC GGAAATGTTG AATACTCATA CTCTTCCTTT

7351 TTCAATATTA TTGAAGCATT TATCAGGGTT ATTGTCTCAT GAGCGGATAC

7401 ATATTTGAAT GTATTTAGAA AAATAAACAA ATAGGGGTTC CGCGCACATT

7451 TCCCCGAAAA GTGCCACCTG ACGTC table 9: nucleotide sequence of recombinant plasmid pcDA3.1-SemaL-EGFP-MychisA (SEQ ID NO.:36)

1 GACGGATCGG GAGATCTCCC GATCCCCTAT GGTCGACTCT CAGTACAATC

51 TGCTCTGATG CCGCATAGTT AAGCCAGTAT CTGCTCCCTG CTTGTGTGTT

101 GGAGGTCGCT GAGTAGTGCG CGAGCAAAAT TTAAGCTACA ACAAGGCAAG

151 GCTTGACCGA CAATTGCATG AAGAATCTGC TTAGGGTTAG GCGTTTTGCG

201 CTGCTTCGCG ATGTACGGGC CAGATATACG CGTTGACATT GATTATTGAC

251 TAGTTATTAA TAGTAATCAA TTACGGGGTC ATTAGTTCAT AGCCCATATA

301 TGGAGTTCCG CGTTACATAA CTTACGGTAA ATGGCCCGCC TGGCTGACCG

351 CCCAACGACC CCCGCCCATT GACGTCAATA ATGACGTATG TTCCCATAGT

401 AACGCCAATA GGGACTTTCC ATTGACGTCA ATGGGTGGAC TATTTACGGT

451 AAACTGCCCA CTTGGCAGTA CATCAAGTGT ATCATATGCC AAGTACGCCC

501 CCTATTGACG TCAATGACGG TAAATGGCCC GCCTGGCATT ATGCCCAGTA

551 CATGACCTTA TGGGACTTTC CTACTTGGCA GTACATCTAC GTATTAGTCA

601 TCGCTATTAC CATGGTGATG CGGTTTTGGC AGTACATCAA TGGGCGTGGA

651 TAGCGGTTTG ACTCACGGGG ATTTCCAAGT CTCCACCCCA TTGACGTCAA

701 TGGGAGTTTG TTTTGGCACC AAAATCAACG GGACTTTCCA AAATGTCGTA

751 ACAACTCCGC CCCATTGACG CAAATGGGCG GTAGGCGTGT ACGGTGGGAG

801 GTCTATATAA GCAGAGCTCT CTGGCTAACT AGAGAACCCA CTGCTTACTG

851 GCTTATCGAA ATTAATACGA CTCACTATAG GGAGACCCAA GCTGGCTAGC

901 GTTTAAACGG GCCCTCTAGA CTCGAGCGGC CGCCACTGTG CTGGATATCT 951 GCAgaattcg gcttgggatg acgcctcctc cgcccggacg tgccgccccc1001 agcgcaccgc gcgcccgcgt ccctggcccg ccggctcggt tggggcttcc1051 gctgcggctg cggctgctgc tgctgctctg ggcggccgcc gcctccgccc1101 agggccacct aaggagcgga ccccgcatct tcgccgtctg gaaaggccat1151 gtagggcagg accgggtgga ctttggccag actgagccgc acacggtgct1201 tttccacgag ccaggcagct cctctgtgtg ggtgggagga cgtggcaagg1251 tctacctctt tgacttcccc gagggcaaga acgcatctgt gcgcacggtg1301 aatatcggct ccacaaaggg gtcctgtctg gataagcggg actgcgagaa1351 ctacatcact ctcctggaga ggcggagtga ggggctgctg gcctgtggca1401 ccaacgcccg gcaccccagc tgctggaacc tggtgaatgg cactgtggtg1451 ccacttggcg agatgagagg ctacgccccc ttcagcccgg acgagaactc1501 15572 cctggttctg tttgaagggg acgaggtgta ttccaccatc cggaagcagg 1601 cctggttctg tttgaagggg acgaggtgta ttccaccatc cggaagcagg 1653672 cctggttctg tttgaagggg acgaggtgta ttccaccatc cggaagcagg 1701 cctggttctg tttgaagggg acgaggtgta ttccaccatc cggaagcagg 1751 cctggttctg tttgaagggg acgaggtgta ttccaccatc cggaagcagg 1801 cctggttctg tttgaagggg acgaggtgta ttccaccatc cggaagcagg 1851 cctggttctg tttgaagggg acgaggtgta ttccaccatc cggaagcagg 19072 1951 cctggttctg tttgaagggg acgaggtgta ttccaccatc cggaagcagg 2001 cctggttctg tttgaagggg acgaggtgta ttccaccatc cggaagcagg 2051 2101 cctggttctg tttgaagggg acgaggtgta ttccaccatc cggaagcagg 2151 cctggttctg tttgaagggg acgaggtgta ttccaccatc cggaagcagg 2201 cctggttctg tttgaagggg acgaggtgta ttccaccatc cggaagcagg 2251 cctggttctg tttgaagggg acgaggtgta ttccaccatc cggaagcagg 2301 cctggttctg tttgaagggg acgaggtgta ttccaccatc cggaagcagg agatccagcc cttccgccgc2351 gcggctgcca tccagaccat gtcgctggat gctgagcgga ggaagctgta2401 tgtgagctcc cagtgggagg tgagccaggt gcccctggac ctgtgtgagg2451 tctatggcgg gggctgccac ggttgcctca tgtcccgaga cccctactgc2501 ggctgggacc agggccgctg catctccatc tacagctccg aacggtcagt2551 gctgcaatcc attaatccag ccgagccaca caaggagtgt cccaacccca2601 aaccagacaa ggccccactg cagaaggttt ccctggcccc aaactctcgc2651 tactacctga gctgccccat ggaatcccgc cacgccacct actcatggcg2701 ccacaaggag aacgtggagc agagctgcga acctggtcac cagagcccca2751 actgcatcct gttcatcgag aacctcacgg cgcagcagta cggccactac2801 actgcatcct gttcatcgag aacctcacgg cgcagcagta cggccactac 2851 actgcatcct gttcatcgag aacctcacgg cgcagcagta cggccactac 2901 actgcatcct gttcatcgag aacctcacgg cgcagcagta cggccactac 2972 actgcatcct gttcatcgag aacctcacgg cgcagcagta cggccactac 30072 3051 actgcatcct gttcatcgag aacctcacgg cgcagcagta cggccactac 3101 actgcatcct gttcatcgag aacctcacgg cgcagcagta cggccactac 3151 actgcatcct gttcatcgag aacctcacgg cgcagcagta cggccactac 32072 3272 actgcatcct gttcatcgag aacctcacgg cgcagcagta cggccactac 3301 actgcatcct gttcatcgag aacctcacgg cgcagcagta cggccactac 3372 actgcatcct gttcatcgag aacctcacgg cgcagcagta cggccactac 3401 actgcatcct gttcatcgag aacctcacgg cgcagcagta cggccactac 3501 actgcatcct gttcatcgag aacctcacgg cgcagcagta cggccactac 3572 3601 actgcatcct gttcatcgag aacctcacgg cgcagcagta cggccactac CCGCTGATCA GCCTCGACTG TGCCTTCTAG3801 TTGCCAGCCA TCTGTTGTTT GCCCCTCCCC CGTGCCTTCC TTGACCCTGG3851 AAGGTGCCAC TCCCACTGTC CTTTCCTAAT AAAATGAGGA AATTGCATCG3901 CATTGTCTGA GTAGGTGTCA TTCTATTCTG GGGGGTGGGG TGGGGCAGGA3951 CAGCAAGGGG GAGGATTGGG AAGACAATAG CAGGCATGCT GGGGATGCGG4001 TGGGCTCTAT GGCTTCTGAG GCGGAAAGAA CCAGCTGGGG CTCTAGGGGG4051 TATCCCCACG CGCCCTGTAG CGGCGCATTA AGCGCGGCGG GTGTGGTGGT4101 TACGCGCAGC GTGACCGCTA CACTTGCCAG CGCCCTAGCG CCCGCTCCTT 413658 TCGCTTTCTT CCCTTCCTTT CTCGCCACGT TCGCCGGCTT TCCCCGTCAA4201 GCTCTAAATC GGGGCATCCC TTTAGGGTTC CGATTTAGTG CTTTACGGCA4251 GCTCTAAATC GGGGCATCCC TTTAGGGTTC CGATTTAGTG CTTTACGGCA 4301 GCTCTAAATC GGGGCATCCC TTTAGGGTTC CGATTTAGTG CTTTACGGCA 4372 GCTCTAAATC GGGGCATCCC TTTAGGGTTC CGATTTAGTG CTTTACGGCA 4401 GCTCTAAATC GGGGCATCCC TTTAGGGTTC CGATTTAGTG CTTTACGGCA 4472 GCTCTAAATC GGGGCATCCC TTTAGGGTTC CGATTTAGTG CTTTACGGCA 4451 GCTCTAAATC GGGGCATCCC TTTAGGGTTC CGATTTAGTG CTTTACGGCA 4501 GCTCTAAATC GGGGCATCCC TTTAGGGTTC CGATTTAGTG CTTTACGGCA 4551 GCTCTAAATC GGGGCATCCC TTTAGGGTTC CGATTTAGTG CTTTACGGCA 4601 GCTCTAAATC GGGGCATCCC TTTAGGGTTC CGATTTAGTG CTTTACGGCA 4651 GCTCTAAATC GGGGCATCCC TTTAGGGTTC CGATTTAGTG CTTTACGGCA 4701 GCTCTAAATC GGGGCATCCC TTTAGGGTTC CGATTTAGTG CTTTACGGCA 4751 4872 GCTCTAAATC GGGGCATCCC TTTAGGGTTC CGATTTAGTG CTTTACGGCA 4851 GCTCTAAATC GGGGCATCCC TTTAGGGTTC CGATTTAGTG CTTTACGGCA 4901 GCTCTAAATC GGGGCATCCC TTTAGGGTTC CGATTTAGTG CTTTACGGCA 5001 50572 5051 GCTCTAAATC GGGGCATCCC TTTAGGGTTC CGATTTAGTG CTTTACGGCA 51072 GCTCTAAATC GGGGCATCCC TTTAGGGTTC CGATTTAGTG CTTTACGGCA 5201 GCTCTAAATC GGGGCATCCC TTTAGGGTTC CGATTTAGTG CTTTACGGCA 52072 GCTCTAAATC GGGGCATCCC TTTAGGGTTC CGATTTAGTG CTTTACGGCA CCTGCCGAGA AAGTATCCAT CATGGCTGAT5251 GCAATGCGGC GGCTGCATAC GCTTGATCCG GCTACCTGCC CATTCGACCA5301 CCAAGCGAAA CATCGCATCG AGCGAGCACG TACTCGGATG GAAGCCGGTC5351 TTGTCGATCA GGATGATCTG GACGAAGAGC ATCAGGGGCT CGCGCCAGCC5401 GAACTGTTCG CCAGGCTCAA GGCGCGCATG CCCGACGGCG AGGATCTCGT5451 CGTGACCCAT GGCGATGCCT GCTTGCCGAA TATCATGGTG GAAAATGGCC5501 GCTTTTCTGG ATTCATCGAC TGTGGCCGGC TGGGTGTGGC GGACCGCTAT5551 CAGGACATAG CGTTGGCTAC CCGTGATATT GCTGAAGAGC TTGGCGGCGA5601 ATGGGCTGAC CGCTTCCTCG TGCTTTACGG TATCGCCGCT CCCGATTCGC5651 AGCGCATCGC CTTCTATCGC CTTCTTGACG AGTTCTTCTG AGCGGGACTC5701 AGCGCATCGC CTTCTATCGC CTTCTTGACG AGTTCTTCTG AGCGGGACTC 5772 5751 AGCGCATCGC CTTCTATCGC CTTCTTGACG AGTTCTTCTG AGCGGGACTC 5801 AGCGCATCGC CTTCTATCGC CTTCTTGACG AGTTCTTCTG AGCGGGACTC 5901 AGCGCATCGC CTTCTATCGC CTTCTTGACG AGTTCTTCTG AGCGGGACTC 60072 6001 AGCGCATCGC CTTCTATCGC CTTCTTGACG AGTTCTTCTG AGCGGGACTC 6051 AGCGCATCGC CTTCTATCGC CTTCTTGACG AGTTCTTCTG AGCGGGACTC 6101 AGCGCATCGC CTTCTATCGC CTTCTTGACG AGTTCTTCTG AGCGGGACTC 6151 AGCGCATCGC CTTCTATCGC CTTCTTGACG AGTTCTTCTG AGCGGGACTC 6201 AGCGCATCGC CTTCTATCGC CTTCTTGACG AGTTCTTCTG AGCGGGACTC 6272 6301 AGCGCATCGC CTTCTATCGC CTTCTTGACG AGTTCTTCTG AGCGGGACTC 6372 AGCGCATCGC CTTCTATCGC CTTCTTGACG AGTTCTTCTG AGCGGGACTC 6401 AGCGCATCGC CTTCTATCGC CTTCTTGACG AGTTCTTCTG AGCGGGACTC 6572 AGCGCATCGC CTTCTATCGC CTTCTTGACG AGTTCTTCTG AGCGGGACTC 6551 AGCGCATCGC CTTCTATCGC CTTCTTGACG AGTTCTTCTG AGCGGGACTC 6672 AGCGCATCGC CTTCTATCGC CTTCTTGACG AGTTCTTCTG AGCGGGACTC 6651 AGCGCATCGC CTTCTATCGC CTTCTTGACG AGTTCTTCTG AGCGGGACTC TGTAGGTCGT TCGCTCCAAG CTGGGCTGTG TGCACGAACC6701 CCCCGTTCAG CCCGACCGCG GCGCCTTATC CGGTAACTAT CGTCTTGAGT6751 CCAACCCGGT AAGACACGAC TTATCGCCAC TGGCAGCAGC CACTGGTAAC6801 AGGATTAGCA GAGCGAGGTA TGTAGGCGGT GCTACAGAGT TCTTGAAGTG6851 GTGGCCTAAC TACGGCTACA CTAGAAGGAC AGTATTTGGT ATCTGCGCTC6901 TGCTGAAGCC AGTTACCTTC GGAAAAAGAG TTGGTAGCTC TTGATCCGGC6951 AAACAAACCA CCGCTGGTAG CGGTGGTTTT TTTGTTTGCA AGCAGCAGAT7001 TACGCGCAGA AAAAAAGGAT CTCAAGAAGA TCCTTTGATC TTTTCTACGG7051 GGTCTGACGC TCAGTGGAAC GAAAACTCAC GTTAAGGGAT TTTGGTCATG 7172 7151 AGATTATCAA AAAGGATCTT CACCTAGATC CTTTTAAATT AAAAATGAAG 7272 7251 AGATTATCAA AAAGGATCTT CACCTAGATC CTTTTAAATT AAAAATGAAG 7272 AGATTATCAA AAAGGATCTT CACCTAGATC CTTTTAAATT AAAAATGAAG 7301 AGATTATCAA AAAGGATCTT CACCTAGATC CTTTTAAATT AAAAATGAAG 7351 AGATTATCAA AAAGGATCTT CACCTAGATC CTTTTAAATT AAAAATGAAG 7401 AGATTATCAA AAAGGATCTT CACCTAGATC CTTTTAAATT AAAAATGAAG 7451 AGATTATCAA AAAGGATCTT CACCTAGATC CTTTTAAATT AAAAATGAAG 7572 7501 AGATTATCAA AAAGGATCTT CACCTAGATC CTTTTAAATT AAAAATGAAG 7672 AGATTATCAA AAAGGATCTT CACCTAGATC CTTTTAAATT AAAAATGAAG 7651 AGATTATCAA AAAGGATCTT CACCTAGATC CTTTTAAATT AAAAATGAAG 7701 367751 AGATTATCAA AAAGGATCTT CACCTAGATC CTTTTAAATT AAAAATGAAG 7872 7801 AGATTATCAA AAAGGATCTT CACCTAGATC CTTTTAAATT AAAAATGAAG 7851 AGATTATCAA AAAGGATCTT CACCTAGATC CTTTTAAATT AAAAATGAAG 7901 AGATTATCAA AAAGGATCTT CACCTAGATC CTTTTAAATT AAAAATGAAG 7951 3680072 AGATTATCAA AAAGGATCTT CACCTAGATC CTTTTAAATT AAAAATGAAG 8072 AGATTATCAA AAAGGATCTT CACCTAGATC CTTTTAAATT AAAAATGAAG 8172 CGGATACATA TTTGAATGTA TTTAGAAAAA TAAACAAATA8151 GGGGTTCCGC GCACATTTCC CCGAAAAGTG CCACCTGACG TC table 10: nucleotide sequence of recombinant plasmid pIND-H-Semal L-EE (SEQ ID NO.:37)1 AGATCTCGGC CGCATATTAA GTGCATTGTT CTCGATACCG CTAAGTGCAT51 TGTTCTCGTT AGCTCGATGG ACAAGTGCAT TGTTCTCTTG CTGAAAGCTC101 GATGGACAAG TGCATTGTTC TCTTGCTGAA AGCTCGATGG ACAAGTGCAT151 TGTTCTCTTG CTGAAAGCTC AGTACCCGGG AGTACCCTCG ACCGCCGGAG201 TATAAATAGA GGCGCTTCGT CTACGGAGCG ACAATTCAAT TCAAACAAGC251 AAAGTGAACA CGTCGCTAAG CGAAAGCTAA GCAAATAAAC AAGCGCAGCT301 GAACAAGCTA AACAATCTGC AGTAAAGTGC AAGTTAAAGT GAATCAATTA AAAGTAACCA GCAACCAAGT AAATCAACTG CAACTACTGA AATCTGCCAA401 GAAGTAATTA TTGAATACAA GAAGAGAACT CTGAATACTT TCAACAAGTT451 ACCGAGAAAG AAGAACTCAC ACACAGCTAG CGTTTAAACT TAAGCTTGGT501 ACCGAGCTCG GATCCACTAG TCCAGTGTGG TGgaattcgg cttgggatga551 cgcctcctcc gcccggacgt gccgccccca gcgcaccgcg cgcccgcgtc601 cctggcccgc cggctcggtt ggggcttccg ctgcggctgc ggctgctgct651 gctgctctgg gcggccgccg cctccgccca gggccaccta aggagcggac701 cccgcatctt cgccgtctgg aaaggccatg tagggcagga ccgggtggac751 tttggccaga ctgagccgca cacggtgctt ttccacgagc caggcagctc ctctgtgtgg gtgggaggac gtggcaaggt ctacctcttt gacttccccg agggcaagaa cgcatctgtg cgcacggtga atatcggctc cacaaagggg901 tcctgtctgg ataagcggga ctgcgagaac tacatcactc tcctggagag951 gcggagtgag gggctgctgg cctgtggcac caacgcccgg caccccagct1001 gctggaacct ggtgaatggc actgtggtgc cacttggcga gatgagaggc1051 tacgccccct tcagcccgga cgagaactcc ctggttctgt ttgaagggga1101 cgaggtgtat tccaccatcc ggaagcagga atacaatggg aagatccctc1151 ggttccgccg catccggggc gagagtgagc tgtacaccag tgatactgtc atgcagaacc cacagttcat caaagccacc atcgtgcacc aagaccaggc1251 ttacgatgac aagatctact acttcttccg agaggacaat cctgacaaga1301 atcctgaggc tcctctcaat gtgtcccgtg tggcccagtt gtgcaggggg1351 gaccagggtg gggaaagttc actgtcagtc tccaagtgga acacttttct1401 gaaagccatg ctggtatgca gtgatgctgc caccaacaag aacttcaaca1451 ggctgcaaga cgtcttcctg ctccctgacc ccagcggcca gtggagggac1501 accagggtct atggtgtttt ctccaacccc tggaactact cagccgtctg1551 tgtgtattcc ctcggtgaca ttgacaaggt cttccgtacc tcctcactca1601 agggctacca ctcaagcctt cccaacccgc ggcctggcaa gtgcctccca1651 gaccagcagc cgatacccac agagaccttc caggtggctg accgtcaccc1701 agaggtggcg cagagggtgg agcccatggg gcctctgaag acgccattgt1751 agaggtggcg cagagggtgg agcccatggg gcctctgaag acgccattgt 1801 agaggtggcg cagagggtgg agcccatggg gcctctgaag acgccattgt 1851 agaggtggcg cagagggtgg agcccatggg gcctctgaag acgccattgt 19072 agaggtggcg cagagggtgg agcccatggg gcctctgaag acgccattgt 1951 agaggtggcg cagagggtgg agcccatggg gcctctgaag acgccattgt 2001 agaggtggcg cagagggtgg agcccatggg gcctctgaag acgccattgt 2051 agaggtggcg cagagggtgg agcccatggg gcctctgaag acgccattgt 2101 agaggtggcg cagagggtgg agcccatggg gcctctgaag acgccattgt 2151 agaggtggcg cagagggtgg agcccatggg gcctctgaag acgccattgt 22072 2201 agaggtggcg cagagggtgg agcccatggg gcctctgaag acgccattgt 2251 agaggtggcg cagagggtgg agcccatggg gcctctgaag acgccattgt 2301 1 agaggtggcg cagagggtgg agcccatggg gcctctgaag acgccattgt 23572 2351 agaggtggcg cagagggtgg agcccatggg gcctctgaag acgccattgt 2401 agaggtggcg cagagggtgg agcccatggg gcctctgaag acgccattgt 2451 362451 agaggtggcg cagagggtgg agcccatggg gcctctgaag acgccattgt 2501 agaggtggcg cagagggtgg agcccatggg gcctctgaag acgccattgt 2551 agaggtggcg cagagggtgg agcccatggg gcctctgaag acgccattgt 26072 2672 2651 agaggtggcg cagagggtgg agcccatggg gcctctgaag acgccattgt 2701 agaggtggcg cagagggtgg agcccatggg gcctctgaag acgccattgt TATTCTGGGG GGTGGGGTGG GGCAGGACAG2751 CAAGGGGGAG GATTGGGAAG ACAATAGCAG GCATGCTGGG GATGCGGTGG2801 GCTCTATGGC TTCTGAGGCG GAAAGAACCA GCTGGGGCTC TAGGGGGTAT2851 CCCCACGCGC CCTGTAGCGG CGCATTAAGC GCGGCGGGTG TGGTGGTTAC2901 GCGCAGCGTG ACCGCTACAC TTGCCAGCGC CCTAGCGCCC GCTCCTTTCG2951 CTTTCTTCCC TTCCTTTCTC GCCACGTTCG CCGGCTTTCC CCGTCAAGCT3001 CTAAATCGGG GCATCCCTTT AGGGTTCCGA TTTAGTGCTT TACGGCACCT3051 CGACCCCAAA AAACTTGATT AGGGTGATGG TTCACGTAGT GGGCCATCGC3101 CCTGATAGAC GGTTTTTCGC CCTTTGACGT TGGAGTCCAC GTTCTTTAAT3151 AGTGGACTCT TGTTCCAAAC TGGAACAACA CTCAACCCTA TCTCGGTCTA3201 AGTGGACTCT TGTTCCAAAC TGGAACAACA CTCAACCCTA TCTCGGTCTA 3251 AGTGGACTCT TGTTCCAAAC TGGAACAACA CTCAACCCTA TCTCGGTCTA 3301 AGTGGACTCT TGTTCCAAAC TGGAACAACA CTCAACCCTA TCTCGGTCTA 3351 AGTGGACTCT TGTTCCAAAC TGGAACAACA CTCAACCCTA TCTCGGTCTA 363401 AGTGGACTCT TGTTCCAAAC TGGAACAACA CTCAACCCTA TCTCGGTCTA 3451 AGTGGACTCT TGTTCCAAAC TGGAACAACA CTCAACCCTA TCTCGGTCTA 3501 AGTGGACTCT TGTTCCAAAC TGGAACAACA CTCAACCCTA TCTCGGTCTA 3572 AGTGGACTCT TGTTCCAAAC TGGAACAACA CTCAACCCTA TCTCGGTCTA 3601 AGTGGACTCT TGTTCCAAAC TGGAACAACA CTCAACCCTA TCTCGGTCTA 37072 1 AGTGGACTCT TGTTCCAAAC TGGAACAACA CTCAACCCTA TCTCGGTCTA 3772 AGTGGACTCT TGTTCCAAAC TGGAACAACA CTCAACCCTA TCTCGGTCTA 38051 AGTGGACTCT TGTTCCAAAC TGGAACAACA CTCAACCCTA TCTCGGTCTA 3801 AGTGGACTCT TGTTCCAAAC TGGAACAACA CTCAACCCTA TCTCGGTCTA 3851 AGTGGACTCT TGTTCCAAAC TGGAACAACA CTCAACCCTA TCTCGGTCTA 3901 AGTGGACTCT TGTTCCAAAC TGGAACAACA CTCAACCCTA TCTCGGTCTA 3972 4001 AGTGGACTCT TGTTCCAAAC TGGAACAACA CTCAACCCTA TCTCGGTCTA 4051 AGTGGACTCT TGTTCCAAAC TGGAACAACA CTCAACCCTA TCTCGGTCTA 41072 AGTGGACTCT TGTTCCAAAC TGGAACAACA CTCAACCCTA TCTCGGTCTA 4151 AGTGGACTCT TGTTCCAAAC TGGAACAACA CTCAACCCTA TCTCGGTCTA GAAGAGCATC AGGGGCTCGC GCCAGCCGAA4201 CTGTTCGCCA GGCTCAAGGC GCGCATGCCC GACGGCGAGG ATCTCGTCGT4251 GACCCATGGC GATGCCTGCT TGCCGAATAT CATGGTGGAA AATGGCCGCT4301 TTTCTGGATT CATCGACTGT GGCCGGCTGG GTGTGGCGGA CCGCTATCAG4351 GACATAGCGT TGGCTACCCG TGATATTGCT GAAGAGCTTG GCGGCGAATG4401 GGCTGACCGC TTCCTCGTGC TTTACGGTAT CGCCGCTCCC GATTCGCAGC4451 GCATCGCCTT CTATCGCCTT CTTGACGAGT TCTTCTGAGC GGGACTCTGG4501 GGTTCGAAAT GACCGACCAA GCGACGCCCA ACCTGCCATC ACGAGATTTC4551 GATTCCACCG CCGCCTTCTA TGAAAGGTTG GGCTTCGGAA TCGTTTTCCG4601 GGACGCCGGC TGGATGATCC TCCAGCGCGG GGATCTCATG CTGGAGTTCT4651 GGACGCCGGC TGGATGATCC TCCAGCGCGG GGATCTCATG CTGGAGTTCT 4701 GGACGCCGGC TGGATGATCC TCCAGCGCGG GGATCTCATG CTGGAGTTCT 4751 GGACGCCGGC TGGATGATCC TCCAGCGCGG GGATCTCATG CTGGAGTTCT 4801 GGACGCCGGC TGGATGATCC TCCAGCGCGG GGATCTCATG CTGGAGTTCT 4901 GGACGCCGGC TGGATGATCC TCCAGCGCGG GGATCTCATG CTGGAGTTCT 4951 GGACGCCGGC TGGATGATCC TCCAGCGCGG GGATCTCATG CTGGAGTTCT 5001 GGACGCCGGC TGGATGATCC TCCAGCGCGG GGATCTCATG CTGGAGTTCT 5051 GGACGCCGGC TGGATGATCC TCCAGCGCGG GGATCTCATG CTGGAGTTCT 5101 GGACGCCGGC TGGATGATCC TCCAGCGCGG GGATCTCATG CTGGAGTTCT 51513672 5201 GGACGCCGGC TGGATGATCC TCCAGCGCGG GGATCTCATG CTGGAGTTCT 5251 GGACGCCGGC TGGATGATCC TCCAGCGCGG GGATCTCATG CTGGAGTTCT 5301 GGACGCCGGC TGGATGATCC TCCAGCGCGG GGATCTCATG CTGGAGTTCT 5351 GGACGCCGGC TGGATGATCC TCCAGCGCGG GGATCTCATG CTGGAGTTCT 5472 543672 5451 GGACGCCGGC TGGATGATCC TCCAGCGCGG GGATCTCATG CTGGAGTTCT 5503672 GGACGCCGGC TGGATGATCC TCCAGCGCGG GGATCTCATG CTGGAGTTCT 5551 GGACGCCGGC TGGATGATCC TCCAGCGCGG GGATCTCATG CTGGAGTTCT 5601 GGACGCCGGC TGGATGATCC TCCAGCGCGG GGATCTCATG CTGGAGTTCT CGAGGTATGT AGGCGGTGCT ACAGAGTTCT TGAAGTGGTG5651 GCCTAACTAC GGCTACACTA GAAGGACAGT ATTTGGTATC TGCGCTCTGC5701 TGAAGCCAGT TACCTTCGGA AAAAGAGTTG GTAGCTCTTG ATCCGGCAAA5751 CAAACCACCG CTGGTAGCGG TGGTTTTTTT GTTTGCAAGC AGCAGATTAC5801 GCGCAGAAAA AAAGGATCTC AAGAAGATCC TTTGATCTTT TCTACGGGGT5851 CTGACGCTCA GTGGAACGAA AACTCACGTT AAGGGATTTT GGTCATGAGA5901 TTATCAAAAA GGATCTTCAC CTAGATCCTT TTAAATTAAA AATGAAGTTT5951 TAAATCAATC TAAAGTATAT ATGAGTAAAC TTGGTCTGAC AGTTACCAAT6001 GCTTAATCAG TGAGGCACCT ATCTCAGCGA TCTGTCTATT TCGTTCATCC6051 ATAGTTGCCT GACTCCCCGT CGTGTAGATA ACTACGATAC GGGAGGGCTT6101 ACCATCTGGC CCCAGTGCTG CAATGATACC GCGAGACCCA CGCTCACCGG6151 CTCCAGATTT ATCAGCAATA AACCAGCCAG CCGGAAGGGC CGAGCGCAGA6201 AGTGGTCCTG CAACTTTATC CGCCTCCATC CAGTCTATTA ATTGTTGCCG62 GGAAGCTAGA GTAAGTAGTT CGCCAGTTAA TAGTTTGCGC AACGTTGTTG6301 CCATTGCTAC AGGCATCGTG GTGTCACGCT CGTCGTTTGG TATGGCTTCA6351 TTCAGCTCCG GTTCCCAACG ATCAAGGCGA GTTACATGAT CCCCCATGTT6401 TTCAGCTCCG GTTCCCAACG ATCAAGGCGA GTTACATGAT CCCCCATGTT 643672 TTCAGCTCCG GTTCCCAACG ATCAAGGCGA GTTACATGAT CCCCCATGTT 6572 6501 TTCAGCTCCG GTTCCCAACG ATCAAGGCGA GTTACATGAT CCCCCATGTT 6601 TTCAGCTCCG GTTCCCAACG ATCAAGGCGA GTTACATGAT CCCCCATGTT 6651 6672 6701 TTCAGCTCCG GTTCCCAACG ATCAAGGCGA GTTACATGAT CCCCCATGTT 6872 6851 TTCAGCTCCG GTTCCCAACG ATCAAGGCGA GTTACATGAT CCCCCATGTT 6901 366951 TTCAGCTCCG GTTCCCAACG ATCAAGGCGA GTTACATGAT CCCCCATGTT table 11: nucleotide sequence (SEQ ID NO: 38) of recombinant plasmid pIND-H-SemaL-EA 1 AGATCTCGGC CGCATATTAA GTGCATTGTT CTCGATACCG CTAAGTGCAT51 TGTTCTCGTT AGCTCGATGG ACAAGTGCAT TGTTCTCTTG CTGAAAGCTC101 GATGGACAAG TGCATTGTTC TCTTGCTGAA AGCTCGATGG ACAAGTGCAT151 TGTTCTCTTG CTGAAAGCTC AGTACCCGGG AGTACCCTCG ACCGCCGGAG201 TATAAATAGA GGCGCTTCGT CTACGGAGCG ACAATTCAAT TCAAACAAGC251 AAAGTGAACA CGTCGCTAAG CGAAAGCTAA GCAAATAAAC AAGCGCAGCT301 GAACAAGCTA AACAATCTGC AGTAAAGTGC AAGTTAAAGT GAATCAATTA AAAGTAACCA GCAACCAAGT AAATCAACTG CAACTACTGA AATCTGCCAA401 GAAGTAATTA TTGAATACAA GAAGAGAACT CTGAATACTT TCAACAAGTT451 ACCGAGAAAG AAGAACTCAC ACACAGCTAG CGTTTAAACT TAAGCTTGGT ACCGAGCTCG GATCCACTAG TCCAGTGTGG TGgaattcgg cttgggatga551 cgcctcctcc gcccggacgt gccgccccca gcgcaccgcg cgcccgcgtc601 cctggcccgc cggctcggtt ggggcttccg ctgcggctgc ggctgctgct651 gctgctctgg gcggccgccg cctccgccca gggccaccta aggagcggac701 cccgcatctt cgccgtctgg aaaggccatg tagggcagga ccgggtggac751 tttggccaga ctgagccgca cacggtgctt ttccacgagc caggcagctc ctctgtgtgg gtgggaggac gtggcaaggt ctacctcttt gacttccccg agggcaagaa cgcatctgtg cgcacggtga atatcggctc cacaaagggg901 tcctgtctgg ataagcggga ctgcgagaac tacatcactc tcctggagag951 gcggagtgag gggctgctgg cctgtggcac caacgcccgg caccccagct gctggaacct ggtgaatggc actgtggtgc cacttggcga gatgagaggc1051 tacgccccct tcagcccgga cgagaactcc ctggttctgt ttgaagggga1101 cgaggtgtat tccaccatcc ggaagcagga atacaatggg aagatccctc1151 ggttccgccg catccggggc gagagtgagc tgtacaccag tgatactgtc atgcagaacc cacagttcat caaagccacc atcgtgcacc aagaccaggc1251 ttacgatgac aagatctact acttcttccg agaggacaat cctgacaaga1301 atcctgaggc tcctctcaat gtgtcccgtg tggcccagtt gtgcaggggg1351 gaccagggtg gggaaagttc actgtcagtc tccaagtgga acacttttct1401 gaaagccatg ctggtatgca gtgatgctgc caccaacaag aacttcaaca1451 ggctgcaaga cgtcttcctg ctccctgacc ccagcggcca gtggagggac1501 accagggtct atggtgtttt ctccaacccc tggaactact cagccgtctg1551 tgtgtattcc ctcggtgaca ttgacaaggt cttccgtacc tcctcactca1601 agggctacca ctcaagcctt cccaacccgc ggcctggcaa gtgcctccca1651 gaccagcagc cgatacccac agagaccttc caggtggctg accgtcaccc1701 agaggtggcg cagagggtgg agcccatggg gcctctgaag acgccattgt1751 agaggtggcg cagagggtgg agcccatggg gcctctgaag acgccattgt 1801 agaggtggcg cagagggtgg agcccatggg gcctctgaag acgccattgt 1851 agaggtggcg cagagggtgg agcccatggg gcctctgaag acgccattgt 19072 agaggtggcg cagagggtgg agcccatggg gcctctgaag acgccattgt 1951 agaggtggcg cagagggtgg agcccatggg gcctctgaag acgccattgt 2001 agaggtggcg cagagggtgg agcccatggg gcctctgaag acgccattgt 2051 agaggtggcg cagagggtgg agcccatggg gcctctgaag acgccattgt 2101 agaggtggcg cagagggtgg agcccatggg gcctctgaag acgccattgt 2151 agaggtggcg cagagggtgg agcccatggg gcctctgaag acgccattgt 22072 2201 agaggtggcg cagagggtgg agcccatggg gcctctgaag acgccattgt 2251 agaggtggcg cagagggtgg agcccatggg gcctctgaag acgccattgt 2301 1 agaggtggcg cagagggtgg agcccatggg gcctctgaag acgccattgt 23572 2351 agaggtggcg cagagggtgg agcccatggg gcctctgaag acgccattgt 2401 agaggtggcg cagagggtgg agcccatggg gcctctgaag acgccattgt 2451 362451 agaggtggcg cagagggtgg agcccatggg gcctctgaag acgccattgt 2501 agaggtggcg cagagggtgg agcccatggg gcctctgaag acgccattgt 2551 agaggtggcg cagagggtgg agcccatggg gcctctgaag acgccattgt 26072 2672 2651 agaggtggcg cagagggtgg agcccatggg gcctctgaag acgccattgt 2701 agaggtggcg cagagggtgg agcccatggg gcctctgaag acgccattgt TGTTTGCCCC TCCCCCGTGC CTTCCTTGAC2751 CCTGGAAGGT GCCACTCCCA CTGTCCTTTC CTAATAAAAT GAGGAAATTG2801 CATCGCATTG TCTGAGTAGG TGTCATTCTA TTCTGGGGGG TGGGGTGGGG2851 CAGGACAGCA AGGGGGAGGA TTGGGAAGAC AATAGCAGGC ATGCTGGGGA2901 TGCGGTGGGC TCTATGGCTT CTGAGGCGGA AAGAACCAGC TGGGGCTCTA2951 GGGGGTATCC CCACGCGCCC TGTAGCGGCG CATTAAGCGC GGCGGGTGTG3001 GTGGTTACGC GCAGCGTGAC CGCTACACTT GCCAGCGCCC TAGCGCCCGC3051 TCCTTTCGCT TTCTTCCCTT CCTTTCTCGC CACGTTCGCC GGCTTTCCCC3101 GTCAAGCTCT AAATCGGGGC ATCCCTTTAG GGTTCCGATT TAGTGCTTTA3151 CGGCACCTCG ACCCCAAAAA ACTTGATTAG GGTGATGGTT CACGTAGTGG3201 CGGCACCTCG ACCCCAAAAA ACTTGATTAG GGTGATGGTT CACGTAGTGG 3251 CGGCACCTCG ACCCCAAAAA ACTTGATTAG GGTGATGGTT CACGTAGTGG 3301 CGGCACCTCG ACCCCAAAAA ACTTGATTAG GGTGATGGTT CACGTAGTGG 3351 CGGCACCTCG ACCCCAAAAA ACTTGATTAG GGTGATGGTT CACGTAGTGG 363401 CGGCACCTCG ACCCCAAAAA ACTTGATTAG GGTGATGGTT CACGTAGTGG 3451 CGGCACCTCG ACCCCAAAAA ACTTGATTAG GGTGATGGTT CACGTAGTGG 3501 CGGCACCTCG ACCCCAAAAA ACTTGATTAG GGTGATGGTT CACGTAGTGG 3572 CGGCACCTCG ACCCCAAAAA ACTTGATTAG GGTGATGGTT CACGTAGTGG 3601 CGGCACCTCG ACCCCAAAAA ACTTGATTAG GGTGATGGTT CACGTAGTGG 37072 1 CGGCACCTCG ACCCCAAAAA ACTTGATTAG GGTGATGGTT CACGTAGTGG 3772 CGGCACCTCG ACCCCAAAAA ACTTGATTAG GGTGATGGTT CACGTAGTGG 38051 CGGCACCTCG ACCCCAAAAA ACTTGATTAG GGTGATGGTT CACGTAGTGG 3801 CGGCACCTCG ACCCCAAAAA ACTTGATTAG GGTGATGGTT CACGTAGTGG 3851 CGGCACCTCG ACCCCAAAAA ACTTGATTAG GGTGATGGTT CACGTAGTGG 3901 CGGCACCTCG ACCCCAAAAA ACTTGATTAG GGTGATGGTT CACGTAGTGG 3972 4001 CGGCACCTCG ACCCCAAAAA ACTTGATTAG GGTGATGGTT CACGTAGTGG 4051 CGGCACCTCG ACCCCAAAAA ACTTGATTAG GGTGATGGTT CACGTAGTGG 41072 CGGCACCTCG ACCCCAAAAA ACTTGATTAG GGTGATGGTT CACGTAGTGG 4151 CGGCACCTCG ACCCCAAAAA ACTTGATTAG GGTGATGGTT CACGTAGTGG CATACGCTTG ATCCGGCTAC CTGCCCATTC4201 GACCACCAAG CGAAACATCG CATCGAGCGA GCACGTACTC GGATGGAAGC4251 CGGTCTTGTC GATCAGGATG ATCTGGACGA AGAGCATCAG GGGCTCGCGC4301 CAGCCGAACT GTTCGCCAGG CTCAAGGCGC GCATGCCCGA CGGCGAGGAT4351 CTCGTCGTGA CCCATGGCGA TGCCTGCTTG CCGAATATCA TGGTGGAAAA4401 TGGCCGCTTT TCTGGATTCA TCGACTGTGG CCGGCTGGGT GTGGCGGACC4451 GCTATCAGGA CATAGCGTTG GCTACCCGTG ATATTGCTGA AGAGCTTGGC4501 GGCGAATGGG CTGACCGCTT CCTCGTGCTT TACGGTATCG CCGCTCCCGA4551 TTCGCAGCGC ATCGCCTTCT ATCGCCTTCT TGACGAGTTC TTCTGAGCGG4601 GACTCTGGGG TTCGAAATGA CCGACCAAGC GACGCCCAAC CTGCCATCAC4651 GACTCTGGGG TTCGAAATGA CCGACCAAGC GACGCCCAAC CTGCCATCAC 4701 GACTCTGGGG TTCGAAATGA CCGACCAAGC GACGCCCAAC CTGCCATCAC 4751 GACTCTGGGG TTCGAAATGA CCGACCAAGC GACGCCCAAC CTGCCATCAC 4801 GACTCTGGGG TTCGAAATGA CCGACCAAGC GACGCCCAAC CTGCCATCAC 4901 GACTCTGGGG TTCGAAATGA CCGACCAAGC GACGCCCAAC CTGCCATCAC 4951 GACTCTGGGG TTCGAAATGA CCGACCAAGC GACGCCCAAC CTGCCATCAC 5001 GACTCTGGGG TTCGAAATGA CCGACCAAGC GACGCCCAAC CTGCCATCAC 5051 GACTCTGGGG TTCGAAATGA CCGACCAAGC GACGCCCAAC CTGCCATCAC 5101 GACTCTGGGG TTCGAAATGA CCGACCAAGC GACGCCCAAC CTGCCATCAC 51513672 5201 GACTCTGGGG TTCGAAATGA CCGACCAAGC GACGCCCAAC CTGCCATCAC 5251 GACTCTGGGG TTCGAAATGA CCGACCAAGC GACGCCCAAC CTGCCATCAC 5301 GACTCTGGGG TTCGAAATGA CCGACCAAGC GACGCCCAAC CTGCCATCAC 5351 GACTCTGGGG TTCGAAATGA CCGACCAAGC GACGCCCAAC CTGCCATCAC 5472 543672 5451 GACTCTGGGG TTCGAAATGA CCGACCAAGC GACGCCCAAC CTGCCATCAC 5503672 GACTCTGGGG TTCGAAATGA CCGACCAAGC GACGCCCAAC CTGCCATCAC 5551 GACTCTGGGG TTCGAAATGA CCGACCAAGC GACGCCCAAC CTGCCATCAC 5601 GACTCTGGGG TTCGAAATGA CCGACCAAGC GACGCCCAAC CTGCCATCAC TTCAGCCCGA CCGCTGCGCC TTATCCGGTA ACTATCGTCT5651 TGAGTCCAAC CCGGTAAGAC ACGACTTATC GCCACTGGCA GCAGCCACTG5701 GTAACAGGAT TAGCAGAGCG AGGTATGTAG GCGGTGCTAC AGAGTTCTTG5751 AAGTGGTGGC CTAACTACGG CTACACTAGA AGGACAGTAT TTGGTATCTG5801 CGCTCTGCTG AAGCCAGTTA CCTTCGGAAA AAGAGTTGGT AGCTCTTGAT5851 CCGGCAAACA AACCACCGCT GGTAGCGGTG GTTTTTTTGT TTGCAAGCAG5901 CAGATTACGC GCAGAAAAAA AGGATCTCAA GAAGATCCTT TGATCTTTTC5951 TACGGGGTCT GACGCTCAGT GGAACGAAAA CTCACGTTAA GGGATTTTGG6001 TCATGAGATT ATCAAAAAGG ATCTTCACCT AGATCCTTTT AAATTAAAAA6051 TGAAGTTTTA AATCAATCTA AAGTATATAT GAGTAAACTT GGTCTGACAG6101 TGAAGTTTTA AATCAATCTA AAGTATATAT GAGTAAACTT GGTCTGACAG 6151 TGAAGTTTTA AATCAATCTA AAGTATATAT GAGTAAACTT GGTCTGACAG 6201 TGAAGTTTTA AATCAATCTA AAGTATATAT GAGTAAACTT GGTCTGACAG 6272 TGAAGTTTTA AATCAATCTA AAGTATATAT GAGTAAACTT GGTCTGACAG 6301 TGAAGTTTTA AATCAATCTA AAGTATATAT GAGTAAACTT GGTCTGACAG 6351 TGAAGTTTTA AATCAATCTA AAGTATATAT GAGTAAACTT GGTCTGACAG 6401 TGAAGTTTTA AATCAATCTA AAGTATATAT GAGTAAACTT GGTCTGACAG 6451 TGAAGTTTTA AATCAATCTA AAGTATATAT GAGTAAACTT GGTCTGACAG 6572 TGAAGTTTTA AATCAATCTA AAGTATATAT GAGTAAACTT GGTCTGACAG 6501 TGAAGTTTTA AATCAATCTA AAGTATATAT GAGTAAACTT GGTCTGACAG 6672 6601 TGAAGTTTTA AATCAATCTA AAGTATATAT GAGTAAACTT GGTCTGACAG 6651 TGAAGTTTTA AATCAATCTA AAGTATATAT GAGTAAACTT GGTCTGACAG 6701 TGAAGTTTTA AATCAATCTA AAGTATATAT GAGTAAACTT GGTCTGACAG 6872 6851 TGAAGTTTTA AATCAATCTA AAGTATATAT GAGTAAACTT GGTCTGACAG 6901 TGAAGTTTTA AATCAATCTA AAGTATATAT GAGTAAACTT GGTCTGACAG 366951 TGAAGTTTTA AATCAATCTA AAGTATATAT GAGTAAACTT GGTCTGACAG 70072 7051 TGAAGTTTTA AATCAATCTA AAGTATATAT GAGTAAACTT GGTCTGACAG TCCGCGCACA TTTCCCCGAA AAGTGCCACC TGACGTCGAC7101 GGATCGGG table 12: the sequence of the recombinant plasmid pQE30-H-Semal L-BH (SEQ ID NO.:39)1 CTCGAGAAAT CATAAAAAAT TTATTTGCTT TGTGAGCGGA TAACAATTAT51 AATAGATTCA ATTGTGAGCG GATAACAATT TCACACAGAA TTCATTAAAG101 AGGAGAAATT AACTATGAGA GGATCGCATC ACCATCACCA TCACGGAtcc151 ctggttctgt ttgaagggga cgaggtgtat tccaccatcc ggaagcagga201 atacaatggg aagatccctc ggttccgccg catccggggc gagagtgagc251 tgtacaccag tgatactgtc atgcagaacc cacagttcat caaagccacc301 atcgtgcacc aagaccaggc ttacgatgac aagatctact acttcttccg351 agaggacaat cctgacaaga atcctgaggc tcctctcaat gtgtcccgtg401 tggcccagtt gtgcaggggg gaccagggtg gggaaagttc actgtcagtc451 tccaagtgga acacttttct gaaagccatg ctggtatgca gtgatgctgc501 caccaacaag aacttcaaca ggctgcaaga cgtcttcctg ctccctgacc551 ccagcggcca gtggagggac accagggtct atggtgtttt ctccaacccc601 tggaactact cagccgtctg tgtgtattcc ctcggtgaca ttgacaaggt651 cttccgtacc tcctcactca agggctacca ctcaagcctt cccaacccgc701 ggcctggcaa gtgcctccca gaccagcagc cgatacccac agaAAGCTTA751 ATTAGCTGAG CTTGGACTCC TGTTGATAGA TCCAGTAATG ACCTCAGAAC801 TCCATCTGGA TTTGTTCAGA ACGCTCGGTT GCCGCCGGGC GTTTTTTATT851 GGTGAGAATC CAAGCTAGCT TGGCGAGATT TTCAGGAGCT AAGGAAGCTA901 AAATGGAGAA AAAAATCACT GGATATACCA CCGTTGATAT ATCCCAATGG951 CATCGTAAAG AACATTTTGA GGCATTTCAG TCAGTTGCTC AATGTACCTA1001 TAACCAGACC GTTCAGCTGG ATATTACGGC CTTTTTAAAG ACCGTAAAGA1051 AAAATAAGCA CAAGTTTTAT CCGGCCTTTA TTCACATTCT TGCCCGCCTG1101 ATGAATGCTC ATCCGGAATT TCGTATGGCA ATGAAAGACG GTGAGCTGGT1151 GATATGGGAT AGTGTTCACC CTTGTTACAC CGTTTTCCAT GAGCAAACTG1201 AAACGTTTTC ATCGCTCTGG AGTGAATACC ACGACGATTT CCGGCAGTTT1251 125 1251 CTACACATAT ATTCGCAAGA TGTGGCGTGT TACGGTGAAA ACCTGGCCTA1301 TTTCCCTAAA GGGTTTATTG AGAATATGTT TTTCGTCTCA GCCAATCCCT1351 GGGTGAGTTT CACCAGTTTT GATTTAAACG TGGCCAATAT GGACAACTTC1401 TTCGCCCCCG TTTTCACCAT GGGCAAATAT TATACGCAAG GCGACAAGGT1451 GCTGATGCCG CTGGCGATTC AGGTTCATCA TGCCGTCTGT GATGGCTTCC1501 ATGTCGGCAG AATGCTTAAT GAATTACAAC AGTACTGCGA TGAGTGGCAG1551 GGCGGGGCGT AATTTTTTTA AGGCAGTTAT TGGTGCCCTT AAACGCCTGG1601 GGTAATGACT CTCTAGCTTG AGGCATCAAA TAAAACGAAA GGCTCAGTCG1651 AAAGACTGGG CCTTTCGTTT TATCTGTTGT TTGTCGGTGA ACGCTCTCCT1701 GAGTAGGACA AATCCGCCGC TCTAGAGCTG CCTCGCGCGT TTCGGTGATG1751 GAGTAGGACA AATCCGCCGC TCTAGAGCTG CCTCGCGCGT TTCGGTGATG 1801 GAGTAGGACA AATCCGCCGC TCTAGAGCTG CCTCGCGCGT TTCGGTGATG 1851 GAGTAGGACA AATCCGCCGC TCTAGAGCTG CCTCGCGCGT TTCGGTGATG 19072 GAGTAGGACA AATCCGCCGC TCTAGAGCTG CCTCGCGCGT TTCGGTGATG 1951 GAGTAGGACA AATCCGCCGC TCTAGAGCTG CCTCGCGCGT TTCGGTGATG 2001 GAGTAGGACA AATCCGCCGC TCTAGAGCTG CCTCGCGCGT TTCGGTGATG 2051 GAGTAGGACA AATCCGCCGC TCTAGAGCTG CCTCGCGCGT TTCGGTGATG 2101 GAGTAGGACA AATCCGCCGC TCTAGAGCTG CCTCGCGCGT TTCGGTGATG 2151 GAGTAGGACA AATCCGCCGC TCTAGAGCTG CCTCGCGCGT TTCGGTGATG 22072 2201 GAGTAGGACA AATCCGCCGC TCTAGAGCTG CCTCGCGCGT TTCGGTGATG 2251 GAGTAGGACA AATCCGCCGC TCTAGAGCTG CCTCGCGCGT TTCGGTGATG 2301 1 GAGTAGGACA AATCCGCCGC TCTAGAGCTG CCTCGCGCGT TTCGGTGATG 23572 2351 GAGTAGGACA AATCCGCCGC TCTAGAGCTG CCTCGCGCGT TTCGGTGATG 2401 GAGTAGGACA AATCCGCCGC TCTAGAGCTG CCTCGCGCGT TTCGGTGATG 2451 362451 GAGTAGGACA AATCCGCCGC TCTAGAGCTG CCTCGCGCGT TTCGGTGATG 2501 GAGTAGGACA AATCCGCCGC TCTAGAGCTG CCTCGCGCGT TTCGGTGATG 2551 GAGTAGGACA AATCCGCCGC TCTAGAGCTG CCTCGCGCGT TTCGGTGATG 26072 2672 2651 GAGTAGGACA AATCCGCCGC TCTAGAGCTG CCTCGCGCGT TTCGGTGATG 2701 GAGTAGGACA AATCCGCCGC TCTAGAGCTG CCTCGCGCGT TTCGGTGATG TGTTTGCAAG2751 CAGCAGATTA CGCGCAGAAA AAAAGGATCT CAAGAAGATC CTTTGATCTT2801 TTCTACGGGG TCTGACGCTC AGTGGAACGA AAACTCACGT TAAGGGATTT2851 TGGTCATGAG ATTATCAAAA AGGATCTTCA CCTAGATCCT TTTAAATTAA2901 AAATGAAGTT TTAAATCAAT CTAAAGTATA TATGAGTAAA CTTGGTCTGA2951 CAGTTACCAA TGCTTAATCA GTGAGGCACC TATCTCAGCG ATCTGTCTAT3001 TTCGTTCATC CATAGCTGCC TGACTCCCCG TCGTGTAGAT AACTACGATA3051 CGGGAGGGCT TACCATCTGG CCCCAGTGCT GCAATGATAC CGCGAGACCC3101 ACGCTCACCG GCTCCAGATT TATCAGCAAT AAACCAGCCA GCCGGAAGGG3151 CCGAGCGCAG AAGTGGTCCT GCAACTTTAT CCGCCTCCAT CCAGTCTATT3201 AATTGTTGCC GGGAAGCTAG AGTAAGTAGT TCGCCAGTTA ATAGTTTGCG3251 CAACGTTGTT GCCATTGCTA CAGGCATCGT GGTGTCACGC TCGTCGTTTG3301 GTATGGCTTC ATTCAGCTCC GGTTCCCAAC GATCAAGGCG AGTTACATGA3351 TCCCCCATGT TGTGCAAAAA AGCGGTTAGC TCCTTCGGTC CTCCGATCGT3401 TGTCAGAAGT AAGTTGGCCG CAGTGTTATC ACTCATGGTT ATGGCAGCAC3451 TGCATAATTC TCTTACTGTC ATGCCATCCG TAAGATGCTT TTCTGTGACT3501 GGTGAGTACT CAACCAAGTC ATTCTGAGAA TAGTGTATGC GGCGACCGAG3551 TTGCTCTTGC CCGGCGTCAA TACGGGATAA TACCGCGCCA CATAGCAGAA3601 CTTTAAAAGT GCTCATCATT GGAAAACGTT CTTCGGGGCG AAAACTCTCA3651 5701 CTTTAAAAGT GCTCATCATT GGAAAACGTT CTTCGGGGCG AAAACTCTCA 3772 3751 CTTTAAAAGT GCTCATCATT GGAAAACGTT CTTCGGGGCG AAAACTCTCA 3801 CTTTAAAAGT GCTCATCATT GGAAAACGTT CTTCGGGGCG AAAACTCTCA 3901 CTTTAAAAGT GCTCATCATT GGAAAACGTT CTTCGGGGCG AAAACTCTCA 3951 4001 CTTTAAAAGT GCTCATCATT GGAAAACGTT CTTCGGGGCG AAAACTCTCA table 13: the sequence of the recombinant plasmid pQE31-H-Semal L-SH (SEQ ID NO.:40)1 CTCGAGAAAT CATAAAAAAT TTATTTGCTT TGTGAGCGGA TAACAATTAT51 AATAGATTCA ATTGTGAGCG GATAACAATT TCACACAGAA TTCATTAAAG101 AGGAGAAATT AACTATGAGA GGATCGCATC ACCATCACCA TCACACGGAT 39201 tgaggtctat ggcgggggct gccacggttg cctcatgtcc cgagacccct251 actgcggctg ggaccagggc cgctgcatct ccatctacag ctccgaacgg301 tcagtgctgc aatccattaa tccagccgag ccacacaagg agtgtcccaa351 ccccaaacca gacaaggccc cactgcagaa ggtttccctg gccccaaact401 ctcgctacta cctgagctgc cccatggaat cccgccacgc cacctactca451 tggcgccaca aggagaacgt ggagcagagc tgcgaacctg gtcaccagag501 551 ccccaactgc atcctgttca tcgagaacct cacggcgcag cagtacggcc551 actacttctg cgaggcccag gagggctcct acttccgcga ggctcagcac601 tggcagctgc tgcccgagga cggcatcatg gccgagcacc tgctgggtca651 tgcctgtgcc ctggctgcct ccctctggct gggggtgctg cccacactca701 TGTTGATAGA TCCAGTAATG ACCTCAGAAC TCCATCTGGA TTTGTTCAGA801 ACGCTCGGTT GCCGCCGGGC GTTTTTTATT GGTGAGAATC CAAGCTAGCT TGGCGAGATT TTCAGGAGCT AAGGAAGCTA AAATGGAGAA AAAAATCACT901 GGATATACCA CCGTTGATAT ATCCCAATGG CATCGTAAAG AACATTTTGA951 GGCATTTCAG TCAGTTGCTC AATGTACCTA TAACCAGACC GTTCAGCTGG1001 ATATTACGGC CTTTTTAAAG ACCGTAAAGA AAAATAAGCA CAAGTTTTAT1051 1101 CCGGCCTTTA TTCACATTCT TGCCCGCCTG ATGAATGCTC ATCCGGAATT 1151 CCGGCCTTTA TTCACATTCT TGCCCGCCTG ATGAATGCTC ATCCGGAATT 1201 CCGGCCTTTA TTCACATTCT TGCCCGCCTG ATGAATGCTC ATCCGGAATT 1251 CCGGCCTTTA TTCACATTCT TGCCCGCCTG ATGAATGCTC ATCCGGAATT GGGTTTATTG1301 AGAATATGTT TTTCGTCTCA GCCAATCCCT GGGTGAGTTT CACCAGTTTT1351 GATTTAAACG TGGCCAATAT GGACAACTTC TTCGCCCCCG TTTTCACCAT1401 GGGCAAATAT TATACGCAAG GCGACAAGGT GCTGATGCCG CTGGCGATTC1451 AGGTTCATCA TGCCGTCTGT GATGGCTTCC ATGTCGGCAG AATGCTTAAT1501 GAATTACAAC AGTACTGCGA TGAGTGGCAG GGCGGGGCGT AATTTTTTTA1551 AGGCAGTTAT TGGTGCCCTT AAACGCCTGG GGTAATGACT CTCTAGCTTG1601 AGGCATCAAA TAAAACGAAA GGCTCAGTCG AAAGACTGGG CCTTTCGTTT1651 TATCTGTTGT TTGTCGGTGA ACGCTCTCCT GAGTAGGACA AATCCGCCGC1701 TCTAGAGCTG CCTCGCGCGT TTCGGTGATG ACGGTGAAAA CCTCTGACAC1751 TCTAGAGCTG CCTCGCGCGT TTCGGTGATG ACGGTGAAAA CCTCTGACAC 1801 TCTAGAGCTG CCTCGCGCGT TTCGGTGATG ACGGTGAAAA CCTCTGACAC 1851 TCTAGAGCTG CCTCGCGCGT TTCGGTGATG ACGGTGAAAA CCTCTGACAC 19072 TCTAGAGCTG CCTCGCGCGT TTCGGTGATG ACGGTGAAAA CCTCTGACAC 1951 TCTAGAGCTG CCTCGCGCGT TTCGGTGATG ACGGTGAAAA CCTCTGACAC 2001 TCTAGAGCTG CCTCGCGCGT TTCGGTGATG ACGGTGAAAA CCTCTGACAC 2051 TCTAGAGCTG CCTCGCGCGT TTCGGTGATG ACGGTGAAAA CCTCTGACAC 2101 TCTAGAGCTG CCTCGCGCGT TTCGGTGATG ACGGTGAAAA CCTCTGACAC 2151 TCTAGAGCTG CCTCGCGCGT TTCGGTGATG ACGGTGAAAA CCTCTGACAC 22072 2201 TCTAGAGCTG CCTCGCGCGT TTCGGTGATG ACGGTGAAAA CCTCTGACAC 2251 TCTAGAGCTG CCTCGCGCGT TTCGGTGATG ACGGTGAAAA CCTCTGACAC 2301 1 TCTAGAGCTG CCTCGCGCGT TTCGGTGATG ACGGTGAAAA CCTCTGACAC 23572 2351 TCTAGAGCTG CCTCGCGCGT TTCGGTGATG ACGGTGAAAA CCTCTGACAC 2401 TCTAGAGCTG CCTCGCGCGT TTCGGTGATG ACGGTGAAAA CCTCTGACAC 2451 362451 TCTAGAGCTG CCTCGCGCGT TTCGGTGATG ACGGTGAAAA CCTCTGACAC 2501 TCTAGAGCTG CCTCGCGCGT TTCGGTGATG ACGGTGAAAA CCTCTGACAC 2551 TCTAGAGCTG CCTCGCGCGT TTCGGTGATG ACGGTGAAAA CCTCTGACAC 26072 2672 2651 TCTAGAGCTG CCTCGCGCGT TTCGGTGATG ACGGTGAAAA CCTCTGACAC 2701 TCTAGAGCTG CCTCGCGCGT TTCGGTGATG ACGGTGAAAA CCTCTGACAC CGCGCAGAAA2751 AAAAGGATCT CAAGAAGATC CTTTGATCTT TTCTACGGGG TCTGACGCTC2801 AGTGGAACGA AAACTCACGT TAAGGGATTT TGGTCATGAG ATTATCAAAA2851 AGGATCTTCA CCTAGATCCT TTTAAATTAA AAATGAAGTT TTAAATCAAT2901 CTAAAGTATA TATGAGTAAA CTTGGTCTGA CAGTTACCAA TGCTTAATCA2951 GTGAGGCACC TATCTCAGCG ATCTGTCTAT TTCGTTCATC CATAGCTGCC3001 TGACTCCCCG TCGTGTAGAT AACTACGATA CGGGAGGGCT TACCATCTGG3051 CCCCAGTGCT GCAATGATAC CGCGAGACCC ACGCTCACCG GCTCCAGATT3101 583151 GCAACTTTAT CCGCCTCCAT CCAGTCTATT AATTGTTGCC GGGAAGCTAG3201 AGTAAGTAGT TCGCCAGTTA ATAGTTTGCG CAACGTTGTT GCCATTGCTA3251 CAGGCATCGT GGTGTCACGC TCGTCGTTTG GTATGGCTTC ATTCAGCTCC3301 GGTTCCCAAC GATCAAGGCG AGTTACATGA TCCCCCATGT TGTGCAAAAA3351 AGCGGTTAGC TCCTTCGGTC CTCCGATCGT TGTCAGAAGT AAGTTGGCCG3401 CAGTGTTATC ACTCATGGTT ATGGCAGCAC TGCATAATTC TCTTACTGTC3451 ATGCCATCCG TAAGATGCTT TTCTGTGACT GGTGAGTACT CAACCAAGTC3501 ATTCTGAGAA TAGTGTATGC GGCGACCGAG TTGCTCTTGC CCGGCGTCAA3551 TACGGGATAA TACCGCGCCA CATAGCAGAA CTTTAAAAGT GCTCATCATT3601 GGAAAACGTT CTTCGGGGCG AAAACTCTCA AGGATCTTAC CGCTGTTGAG3651 ATCCAGTTCG ATGTAACCCA CTCGTGCACC CAACTGATCT TCAGCATCTT3701 TTACTTTCAC CAGCGTTTCT GGGTGAGCAA AAACAGGAAG GCAAAATGCC3751 GCAAAAAAGG GAATAAGGGC GACACGGAAA TGTTGAATAC TCATACTCTT3801 GCAAAAAAGG GAATAAGGGC GACACGGAAA TGTTGAATAC TCATACTCTT 3872 3901 GCAAAAAAGG GAATAAGGGC GACACGGAAA TGTTGAATAC TCATACTCTT 3951 GCAAAAAAGG GAATAAGGGC GACACGGAAA TGTTGAATAC TCATACTCTT table 14: (partial) nucleotide sequence (8888 nucleotides) of the group of human pheromone L (SEQ ID NO.:41) GAGCCGCACACGGTGCTTTTCCACGAGCCAGGCAGCTCCTCTGTGTGGGTGGGAGGACGTGGCAAGGTCTACCTCTTTGACTTCCCCGAGGGCAAGAACGCATCTGTGCGCACGGTGAGCCTCTCTCTTCCCCCAACACCCCCCCTACCCTCTTATCTCCCCTCTGGCCCTGCCAAGGGTCCTCAGGGAATCCGAGGGAGCTGGCTTCTCTTCCTAAACTGCCCCCACCTCCGTATCCTATAAATGGCTCCTGGGGGAGGCTCCCTAAAGGTAGTCCAGATTGGAGTGGGGAGCTGGGGCGGTGTGGAGAAAAACAGGAGCTAATGGGCCTGGCCAGCTGGGCAGCGCTGCTGCGGAAAGCCCAGGCTGGAAGCTGGGCCCCAGAGCCCATGCCTGGTCTTCTGAACCCTCTGGGCCTCAGCTCTGGATATGAGACCCTGTTTGACCTCAGGTAGATCACTCACCCTCTCAGAGCCCCAGTTGCTCATCTGTCAGATGAGAATAATGGTTGCTTCCTTTGGGGCTTATCCTGAGGCTGTGTGGAAAGCATTTCAGGGGTACCTCACCCCTGGCAGATTGAACTAATGCTTCTCCCCTTCCCCAGGTGAATATCGGCTCCACAAAGGGGTCCTGTCTGGATAAGCGGGTGAGCGGGGGAGGGATCTGGAGGGGTCTGAGCCACTTGGTAAAGGGAGAGGAGACCCTGAGGGTCTAAGGAAGGAAGCATGGCCCTGCCCCACGAGTCCCAGACTGATGGGGAGACGTGGTCCTCTGTGCTTAGGGGATGGCGTCAGCTGCACACACTCTGGGCTGTCCCGGGAGGCTGTCACCTATGCTAAGCCCTTCTGACACCTTCTTCCCTGATCCTGGGGGTCCTAGTGCTAGGCTTGCCAGGGCCTTCCAGCAACCAATTTCTCTCCTCCCTTCTCTCTTCCCCGGGCAGGACTGCGAGAACTACATCACTCTCCTGGAGAGGCGGAGTGAGGGGCTGCTGGCCTGTGGCACCAACGCCCGGCACCCCAGCTGCTGGAACCTGGTGAGAAGGCTGCTCCCCATGTGCCTGATCAGCTCACCTTCTACTGCGTGGGCTTCTGCCCCTCATGGTGGGAAGGAGATGGCGAGACTCCAATGCTGGCCTTGCCCTGGGAGGATGGGGCTCCTGGCCGAGAAACTGGCCGTCATGGGAGGCAGTGGCTGTGGGATTATGTGGCCATCCAACCCTCTGGATCTCCCACAGGTGAATGGCACTGTGGTGCCACTTGGCGAGATGAGAGGCTACGCCCCCTTCAGCCCGGACGAGAACTCCCTGGTTCTGTTTGAAGGTTGGGGCATGCTTCGGAACTGGGCTGGGAGCAGGATGGTCAGCTCTTTGTCCAGTGTCCGGAGGAGGGACTTCCAGGAGCTGCCTGCCCTTACTCATTTCTCCCTCCCACTGACCCCAGGGGACGAGGTGTATTCCACCATCCGGAAGCAGGAATACAATGGGAAGATCCCTCGGTTCCGCCGCATCCGGGGCGAGAGTGAGCTGTACACCAGTGATACTGTCATGCAGAGTGAGTCAGGCTCCGGCTGGGCTGAGGGTGGGCAAGGGGGTGTGAGCACTTAAGGTGGCAGATGGGATCCTGATGTTTCTGGGAGGGCTCCCTGAGGGCCGCTGGGGCCATGCAGGAAAGCAGGACCTTGGTATAGGCCTGAGAAGTTAGGGTTGGCTGGGAGCAGAGGAACAGACAAGGTATAGCAGTGGGATGGGCCCAGCCCTCTTCAGGAACACAAACAGAGGGAGCCCCAGACCCAGTGCAGGGTCCCCAGGAGCCAAAGTTTATCCTCTGCTGAGTTCACGTGGAGGCAGCCCCCCAACTCCCTCCTCATCAGGGCTCTGCCAATTGAGCAGAAGTGACATAGGGGCCCCCAGGGACCTTCCCCCACTCCCCAGGCATGAAGTCATTGCTCCTGGGCCGATGACATCTTTGTAGGAAGAGGGCAAAACAGGTGTGGGGTGGAGGTGCAGGGTCTAGGGCCCCTCGGGGAGTTGGACCTGATGTTATGAGTCCTATTCCAGATCTGATTTGCCATGGTTTGTGCAGACCCGAAGGAGGGAGGAGAGTGTGCAGGGTTGGAATGGTCTCCCGGGCAAGCTTCCCAGCCTTACGCCCATTCGCTTCTGTGCCCTGGCAGACCCACAGTTCATCAAAGCCACCATCGTGCACCAAGACCAGGCTTACGATGACAAGATCTACTACTTCTTCCGAGAGGACAATCCTGACAAGAATCCTGAGGCTCCTCTCAATGTGTCCCGTGTGGCCCAGTTGTGCAGGGTGAACACGGGCGTGAGGGCTGCTGGCTACGTGTCTGTGCATGAATAGGCCTGAGTGAGGGTGAGTTCTGTGTGTCCGTGTGCATGTAGAAGTTGTGTGGATGTATGAGTGGGTCTGTGTCAGGGACTGTGGGAGCAGCTGTGTGTGCATGGAGCATCATGTGTCTGTGTGTGGGTAAAGGTGGCTGAGCTCCTGTGCACGTATGATGGCGTGTGAGCGTGTGTATGATGGGGTGTGTGTGTGTGTGTGTGTGTGTGTTTTGCCTGTGTGAATGTGCTGTGCCACGTATGTGGGTGCGTGAGTCAGTAAATGTGTGTCTGAGTCCGTCTGCTCTGTGGGGACCTGGCACTCTCACCTGCCCTGACCCTGGGCACTGCTGGCCCTGGGCTCTGGATCAGCCAGGCCTGCTTGCAGGAGTCTCATCTGGAGACCTGCCCTGAGTCCTGGGGCACCCCCGGCAGGTCCTGGCCCCTCGCAGCCTGCCTTCCTCCTCTGGGCCCAGGTGTTGATATTGCTGGCAGTGGTTTCCTGGGGTGTGTGGGGAAGCCCGGGCAGGTGCTGAGGGGCCTCTTCTCCCCTCTACCCTTCCAGGGGGACCAGGGTGGGGAAAGTTCACTGTCAGTCTCCAAGTGGAACACTTTTCTGAAAGCCATGCTGGTATGCAGTGATGCTGCCACCAACAAGAACTTCAACAGGCTGCAAGACGTCTTCCTGCTCCCTGACCCCAGCGGCCAGTGGAGGGACACCAGGGTCTATGGTGTTTTCTCCAACCCCTGGTGAGTGGCCCTTGTCCTGGGGCCGGGGCTGGCATTGGTTCAGTGTCCAGTAGGGACAGGAGGCCTTGGGCCCTGCTGAGGGCCTCCCTGGTGTGGCAGGAGCAGGGGCTGCAGGCTCAAGAGGCTGGGCTGTTGCTGGGTGTGGGGTGGGGGGACAGCCAGTGCGATGTATGTACTGTTGTGTGAGTGAGTCTGCACTCATGGGTGTGTGTGCATGCCCTATATGCACACTCATGACTGCACTTGTGCCTGTGTGTCCCACCACCTGCTTGTGCCGAGAGTGGACACTGGGCCCAGGAGGAAGCTGCTGAAGCATCTCTCGGGGAGCTGGGTGCTATTACACCTGCTCAGGCACTGCCTGAGCCCGATAATTCACACTTCTTAATCACTCTCATTGATTGAACACACGGCAGGCGGAAGTGTTGGGTGTGTGTGGGGAGAGTTAGGGATAGAGTGGAGGAAGCCAAGACCCTGCTCTGTGGCTCCTGGGTGAGTGGGTCCCCCAGGCTGGGAAGGGGTTGGGGGTCTGGCCTCCTGGGGCATCAGCACCCCACAGCCTGTGCCCAGGGAGGGCTAGAGAACTGCTCAGCCTATGATGGGGTTCCTCCTGCCTTGGGGTTGGGTAGAGCAGATGGCCTCTAGACTCAGTGATTCTGTAACAGGATACAAGTTTGTGGTTTTAAATTGCAGCACAAAGAAATTAGGCTGAACTCCTCTCCTTCCTCCTCTCCATCCCTCCCCATTTTCAGTGGTGGTTGGCAACTCAGTGCCAGGCACAAGGCTGGCCTGGGTGAGTGGAGGTGGATGGGTGGGTTCTGGGCCCCCCATTGAGCTGGTCTCCATGTCACTGCAGGAACTACTCAGCCGTCTGTGTGTATTCCCTCGGTGACATTGACAAGGTCTTCCGTACCTCCTCACTCAAGGGCTACCACTCAAGCCTTCCCAACCCGCGGCCTGGCAAGGTGAGCGTGACACCAGCCGTGGCCCAGGCCCAGCCCTCCTTCTGCCTCACCTCCCACCACCCCACTGACCTGGGCCTGCTCTCCTTGCCCAGTGCCTCCCAGACCAGCAGCCGATACCCACAGAGACCTTCCAGGTGGCTGACCGTCACCCAGAGGTGGCGCAGAGGGTGGAGCCCATGGGGCCTCTGAAGACGCCATTGTTCCACTCTAAATACCACTACCAGAAAGTGGCCGTCCACCGCATGCAAGCCAGCCACGGGGAGACCTTTCATGTGCTTTACCTAACTACAGGTGAGAGGCTACCCCGGGACCCTCAGTTTGCTTTGTAAAAACGGGCATGAAAGGTGTAAGGAATAATGTAGTTAACATCTGGTTGGATCTTTACATGTGGAAGGAATAATTGAGTGACTGGAGTTGTCAGGGGTTAATGTGTGTGGGTGTGGAAGAGCCAGGCAGGGAGAGCTTCCTGGAGGAGGTAGGGGCAAGAGGGAAAGGGGGATGGGAGAAAAGCAAGCACTGGGATTTGGAGGCGGAAATCTGGAGAGTCTGAGCAAAGCCAGGTGCACCTTTGGTCCAGATGTCTGACTCAGGGAAGAAGATGGTAGGAAGAGACGTGGCAAATGAGGAGGAGGGGCCTGAACCACAGGGATACTGGCCTCTGCCAGGCAGAATGAGGGAGTCAGGCCCTGCGCCTGTCTTTGGGATTGTGCAGGTGAGAAGAAACATTTGAGGAGTTGATGGGGCACAAATTAGGTATGGGGAAGGAGTTCCAGGGGGCAGAACCTTTGCCATCTCACAGAGGACAGGGGCAGCTTCTCTTCTTCCCTGGAGTAGGCCCTGCTGGGGGAAGCTGGGTGGAATGCCGTGGGAGATGCTCCTGCTTTCTGGAAAGCCACAGGACACGGAGGAGCCAGTCCTGAGTTGGGTTTGTCGCAGCTTCCCATGCCAGCTGCCTTCCTTGAGACTGGAAAGGGCCTCTAGCACCCCTGGGGCCATTCAATTCAGGCCCAGGCGCCCAACCTCAGTTGTTCACATTCCCCATGTGATCTCCTGTTGCTGCTTCACCTTGGGACTGTCTCGGCTTTGGTGACCTTGTAGGAAACTGGAACCCCAGCACCATTGTTTGGCTCCTGGAAGCCTTGGGGAGAGGAATTTCCCACAGGGCAGGGCCTGGGTCCTGATTCCCTGCCTCTTTACTCCCTATTCATCCCGGCTACACCCTTGGGCCCCCATCCTTGCTTGGCTCCAGTACTGGCTGGCACAGCTGTTGTGGTCATCCAGGGATGGCAGGGCACTGGGGAACAGAAGAGAGAGGTCACACAGTGCGGAACTGGGAGCAGGAGCTAGGACAAGGAAGGCTGGACTTGGGCCATGGACTCCCTTCCTGCAGACTTGGGAAGTGAGCACACTTGAGTGATTAGAGAAGGTGTCTTCGTTCTAAGGGCAGTGGAGGAGGCACCATTTTGGAGCCTGCATCATTCGTATTTGGGCTAGATTGAAAAATAGAGCTTTCTAAGTCCTCTGCAGAGAATGGGAGGCTCTCACAACTGGGAGAAGTATTGGCTCTTTTCCTGAGAATTTTGCCAAGGGTATGCTGTTACTGGGGCTGGTTTGGAAGGAGTATAGGGCATTATGTCTGTGAAGGCAGTGGCTGGGGTGGGGCCTTATCAGGCCCAAGGAGCATCTGGCCACATCTCAGAGTCCACAGATGAGGATCACGGATGTGTAGAGGAAACATCCTAGGCAGGCAATCATCTGACTGCTTTTTTGGGGCAGGTGATGCCCTGGGAAATTGGGAGGGAGGGAGAGAGGGAGGTAGGCTATTCTAGAAACTGGGAGAGCAGGTGAGGTAGGATTGGGAGGACCAGGGGTCAGGGTCCCCATTGGTCCCTAATTGAGAACGGAGAGAGCATTGGTCTAGGAGGCAGGCAGCTCGGTTATAAGACCTTGGGAACTCTTGATTTAGAATCCAAGATCCTTTTTAGATCTAGGATTTTATAAAATTAAGATATCCCCTAAGATCAAATGCAACGTGGAGTCCTGAATTGGATCCTAGAACAGAAGAAGGACATTTGTGGAAAAACTAGTGAAATCCAAATAAAGTCTGTAGTTTTGTTAATAGTAATGCACCAATGTCAGTTGCCTAGTTGTGACAAATATACCGTGGTTATGTAAGATGGTAACATTAGGGGGAACTGGAGAAGGGTAGATTGGAGCTCTCTGTACTATCTTTGCAACTTTTCTGGGAATCTAAAATTACTCCAAAATAAAAAAAAAATGTATTTAAAGTAAATATATTCCCTAAGAGTCCAGGAGGCAGGGGAGTTGTAGAAGCAGCTGAGTGGTTGGGTTCTGACAGATTTGGTTCCAACTCGGTCTCTGCTGCTCACCAGCTGTGTGACCTTGAGCAAGTGGCTTAGCCTTTCTGAGCCTGATTTCCTTATCTGTGGAGTGGGGAAGATGACAGCCACCTCGCAGGGCTGTGGAGGGTTAAACGAGGTGATGCATGGACAGCAGCCGCACTGACCTTGCTGGTGTGGGGCTCCTGCTTCTGTTCTTCCCGTGCAGCCTTGGGAATGTTGGAGGCCGTATCCAGGGACCCCTGGGCCTCCTGGGATGGCCTCTCTGGATCAGCCTTGGAAGGTTCCAGGCTGCCCTTAGGCTCCCACATTCTTCCCCAGTCACGCTCTCCTCGCCCTGCCCACACCAGTCCTGTGACCCTTGCCTGAGTTGTGACTTCCCACCCCTCCCCGGCCTAGAGGAAAGCTGCCTGGCCCCTCAGTGGGACTCCCGCCCACTGACCCTCTGTCCACCATACACAGACAGGGGCACTATCCACAAGGTGGTGGAACCGGGGGAGCAGGAGCACAGCTTCGCCTTCAACATCATGGAGATCCAGCCCTTCCGCCGCGCGGCTGCCATCCAGACCATGTCGCTGGATGCTGAGCGGGTGAGCCTTCCCCCACTGCGTCCCATGGGCTATGCAGTGACTGCAGCTGAGGACAGGGCTCCTTTGCATGTGATTTGTGTGTTCTTTTAAGAGCTTCTAGGCCTTAGGGCCTGGACATTTAGGACTGAGTGTGGGGTGGGGCCCGGGCCTGACCCAATCCTGCTGTCCTTCCAGAGGAAGCTGTATGTGAGCTCCCAGTGGGAGGTGAGCCAGGTGCCCCTGGACCTGTGTGAGGTCTATGGCGGGGGCTGCCACGGTTGCCTCATGTCCCGAGACCCCTACTGCGGCTGGGACCAGGGCCGCTGCATCTCCATCTACAGCTCCGAACGGTACGTTGGCCGGGATCCCTCCGTCCCTGGGACAAGGTGGGCATGGGACAGGGGGAGGTGTTGTCGGGCTGGAAGAGGTGGCGGTACTGGGCCTTTCTTGTGGGACCTCCTCTCTACTGGAACTGCACTAGGGGTAAGGATATGAGGGTCAGGTCTGCAGCCTTGTATCTGCTGATCCTCTTTCGTCCTTCCCACTCCAGGTCAGTGCTGCAATCCATTAATCCAGCCGAGCCACACAAGGAGTGTCCCAACCCCAAACCAGGTACCTGATCTGGCCCTGCTGGCGGCTGTGGCCCAATGAGTGGGGTACTGCCCTGCCCTGATTGTCCTGGTCTGAGGGAAACATGGCCTTGTCCTGTGGGCCCCAGGTACATGGGGCAGGATACAGTCCTGCAGAGGGAGCCCTCTTGGTGGGATGAGCGAGACGGGAGAAAAAAGGAGGACGCTGAGGGCTGGGTTCCCCACGTTCATTCAGAAGCCTTGTCCTGGGATCCCAGTCGGTGGGGAGGACACATCCTCCCCTGGGAGCTCTTTGTCCCTCCTCACGGCTGCTTCCCCACTGCCTCCCCAGACAAGGCCCCACTGCAGAAGGTTTCCCTGGCCCCAAACTCTCGCTACTACCTGAGCTGCCCCATGGAATCCCGCCACGCCACCTACTCATGGCGCCACAAGGAGAACGTGGAGCAGAGCTGCGAACCTGGTCACCAGAGCCCCAACTGCATCCTGTTCATCGAGAACCTCACGGCGCAGCAGTACGGCCACTACTTCTGCGAGGCCCAGGAGGGCTCCTACTTCCGCGAGGCTCAGCACTGGCAGCTGCTGCCCGAGGACGGCATCATGGCCGAGCACCTGCTGGGTCATGCCTGTGCCCTGGCCGCCTCCCTCTGGCTGGGGGTGCTGCCCACACTCACTCTTGGCTTGCTGGTCCACTAGGGCCTCCCGAGGCTGGGCATGCCTCAGGCTTCTGCAGCCCAGGGCACTAGAACGTCTCACACTCAGAGCCGGCTGGCCCGGGAGCTCCTTGCCTGCCACTTCTTCCAGGGGACAGAATAACCCAGTGGAGGATGCCAGGCCTGGAGACGTCCAGCCGCAGGCGGCTGCTGGGCCCCAGGTGGCGCACGGATGGTGAGGGGCTGAGAATGAGGGCACCGACTGTGAAGCTGGGGCATCGATGACCCAAGACTTTATCTTCTGGAAAATATTTTTCAGACTCCTCAAACTTGACTAAATGCAGCGATGCTCCCAGCCCAAGAGCCCATGGGTCGGGGAGTGGGTTTGGATAGGAGAGCTGGGACTCCATCTCGACCCTGGGGCTGAGGCCTGAGTCCTTCTGGACTCTTGGTACCCACATTGCCTCCTTCCCCTCCCTCTCTCATGGCTGGGTGGCTGGTGTTCCTGAAGACCCAGGGCTACCCTCTGTCCAGCCCTGTCCTCTGCAGCTCCCTCTCTGGTCCTGGGTCCCACAGGACAGCCGCCTTGCATGTTTATTGAAGGATGTTTGCTTTCCGGACGGAAGGACGGAAAAAGCTCTGAAAAAAAAAAAAAAAAAAAAAAAA Table 15 nucleotide sequence (6622bp) of pMelBacA-H-SEMAL (SEQ ID NO.:42)1 GATATCATGG AGATAATTAA AATGATAACC ATCTCGCAAA TAAATAAGTA51 TTTTACTGTT TTCGTAACAG TTTTGTAATA AAAAAACCTA TAAATATGAA101 ATTCTTAGTC AACGTTGCCC TTGTTTTTAT GGTCGTATAC ATTTCTTACA151 TCTATGCGGA TCGATGGgga tccgcccagg gccacctaag gagcggaccc 151 cgcatcttcg ccgtctggaa aggccatgta gggcaggacc gggtggactt 63251 tggccagact gagccgcaca cggtgctttt ccacgagcca ggcagctcct ctgtgtgggt gggaggacgt ggcaaggtct acctctttga cttccccgag351 ggcaagaacg catctgtgcg cacggtgaat atcggctcca caaaggggtc401 ctgtctggat aagcgggact gcgagaacta catcactctc ctggagaggc451 tggaacctgg tgaatggcac tgtggtgcca cttggcgaga tgagaggcta551 84 551 tgcccccttc agcccggacg agaactccct ggttctgttt gaaggggacg 39601 ttccgccgca tccggggcga gagtgagctg tacaccagtg atactgtcat 651 gcagaaccca cagttcatca aagccaccat cgtgcaccaa gaccaggctt751 acgatgacaa gatctactac ttcttccgag aggacaatcc tgacaagaat cctgaggctc ctctcaatgt gtcccgtgtg gcccagttgt gcagggggga851 ccagggtggg gaaagttcac tgtcagtctc caagtggaac acttttctga901 aagccatgct ggtatgcagt gatgctgcca ccaacaagaa cttcaacagg951 ctgcaagacg tcttcctgct ccctgacccc agcggccagt ggagggacac ggctaccact cagggtctat ggtgttttct ccaacccctg gaactactca gccgtctgtg1051 631101 9 ggagtgaggg gctgctggcc tgtggcacca acgcccggca ccccagctgc 3651 58851 ccagggtggg gaaagttcac tgtcagtctc caagtggaac acttttctga ggctaccact caagccttcc caacccgcgg cctggcaagt gcctcccaga1151 ccagcagccg atacccacag agaccttcca ggtggctgac cgtcacccag aggtggcgca gagggtggag cccatggggc ctctgaagac gccattgttc1251 cactctaaat accactacca gaaagtggcc gttcaccgca tgcaagccag1301 ccacggggag acctttcatg tgctttacct aactacagac aggggcacta1351 tccacaaggt ggtggaaccg ggggagcagg agcacagctt cgccttcaac1401 atcatggaga tccagccctt ccgccgcgcg gctgccatcc agaccatgtc1451 gctggatgct gagcggagga agctgtatgt gagctcccag tgggaggtga1501 gccaggtgcc cctggacctg tgtgaggtct atggcggggg ctgccacggt1551 tgcctcatgt cccgagaccc ctactgcggc tgggaccagg gccgctgcat1601 tgcctcatgt cccgagaccc ctactgcggc tgggaccagg gccgctgcat 1651 tgcctcatgt cccgagaccc ctactgcggc tgggaccagg gccgctgcat 701 tgcctcatgt cccgagaccc ctactgcggc tgggaccagg gccgctgcat 1751 tgcctcatgt cccgagaccc ctactgcggc tgggaccagg gccgctgcat 1801 tgcctcatgt cccgagaccc ctactgcggc tgggaccagg gccgctgcat 1853672 1901 tgcctcatgt cccgagaccc ctactgcggc tgggaccagg gccgctgcat 1951 2001 tgcctcatgt cccgagaccc ctactgcggc tgggaccagg gccgctgcat 2051 2101 tgcctcatgt cccgagaccc ctactgcggc tgggaccagg gccgctgcat 2101 2151 tgcctcatgt cccgagaccc ctactgcggc tgggaccagg gccgctgcat 2201 tgcctcatgt cccgagaccc ctactgcggc tgggaccagg gccgctgcat 2251 23072 2301 tgcctcatgt cccgagaccc ctactgcggc tgggaccagg gccgctgcat 2351 tgcctcatgt cccgagaccc ctactgcggc tgggaccagg gccgctgcat 2401 tgcctcatgt cccgagaccc ctactgcggc tgggaccagg gccgctgcat 2451 tgcctcatgt cccgagaccc ctactgcggc tgggaccagg gccgctgcat 2501 tgcctcatgt cccgagaccc ctactgcggc tgggaccagg gccgctgcat 2551 tgcctcatgt cccgagaccc ctactgcggc tgggaccagg gccgctgcat ACATATTTAA CATCGGGCGT GTTAGCTTTA TTAGGCCGAT TATCGTCGTC GTCCCAACCC TCGTCGTTAG AAGTTGCTTC CGAAGACGAT 2601 2624 TTTGCCATAG CCACACGACG CCTATTAATT GTGTCGGCTA ACACGTCCGC2701 GATCAAATTT GTAGTTGAGC TTTTTGGAAT TATTTCTGAT TGCGGGCGTT2751 TTTGGGCGGG TTTCAATCTA ACTGTGCCCG ATTTTAATTC AGACAACACG2801 TTAGAAAGCG ATGGTGCAGG CGGTGGTAAC ATTTCAGACG GCAAATCTAC2851 TAATGGCGGC GGTGGTGGAG CTGATGATAA ATCTACCATC GTGGAGGCG2901 CAGGCGGGGC TGGCGGCGGA GGCGGAGGCG GAGGTGGTGG GGTGATGCA2951 GACGGCGGTT TAGGCTCAAA TTGTCTCTTT CAGGCAACAC AGTCGGCACC3001 TCAACTATTG TACTGGTTTC GGGCGTATGG TGCACTCTCA GTACAATCTG3051 CTCTGATGCC GCATAGTTAA GCCAGCCCCG ACACCCGCCA ACACCCGCTG3101 ACGCGCCCTG ACGGGCTTGT CTGCTCCCGG CATCCGCTTA CAGACAAGCT3151 GTGACCGTCT CCGGGAGCTG CATGTGTCAG AGGTTTTCAC CGTCATCACC 3272 GTGACCGTCT CCGGGAGCTG CATGTGTCAG AGGTTTTCAC CGTCATCACC 3301 GTGACCGTCT CCGGGAGCTG CATGTGTCAG AGGTTTTCAC CGTCATCACC 333672 GTGACCGTCT CCGGGAGCTG CATGTGTCAG AGGTTTTCAC CGTCATCACC 363401 GTGACCGTCT CCGGGAGCTG CATGTGTCAG AGGTTTTCAC CGTCATCACC 3451 GTGACCGTCT CCGGGAGCTG CATGTGTCAG AGGTTTTCAC CGTCATCACC 3501 3551 GTGACCGTCT CCGGGAGCTG CATGTGTCAG AGGTTTTCAC CGTCATCACC 3601 GTGACCGTCT CCGGGAGCTG CATGTGTCAG AGGTTTTCAC CGTCATCACC 37072 3751 GTGACCGTCT CCGGGAGCTG CATGTGTCAG AGGTTTTCAC CGTCATCACC 3801 GTGACCGTCT CCGGGAGCTG CATGTGTCAG AGGTTTTCAC CGTCATCACC 3872 GTGACCGTCT CCGGGAGCTG CATGTGTCAG AGGTTTTCAC CGTCATCACC 3851 GTGACCGTCT CCGGGAGCTG CATGTGTCAG AGGTTTTCAC CGTCATCACC 3901 3972 4001 GTGACCGTCT CCGGGAGCTG CATGTGTCAG AGGTTTTCAC CGTCATCACC 4001 TTACTCTAGC TTCCCGGCAA CAATTAATAG ACTGGATGGA GGCGGATAAA4051 GTTGCAGGAC CACTTCTGCG CTCGGCCCTT CCGGCTGGCT GGTTTATTGC4101 TGATAAATCT GGAGCCGGTG AGCGTGGGTC TCGCGGTATC ATTGCAGCAC4151 TGGGGCCAGA TGGTAAGCCC TCCCGTATCG TAGTTATCTA CACGACGGGG4201 AGTCAGGCAA CTATGGATGA ACGAAATAGA CAGATCGCTG AGATAGGTGC4251 CTCACTGATT AAGCATTGGT AACTGTCAGA CCAAGTTTAC TCATATATAC4301 TTTAGATTGA TTTAAAACTT CATTTTTAAT TTAAAAGGAT CTAGGTGAAG4351 44053 4401 CCACTGAGCG TCAGACCCCG TAGAAAAGAT CAAAGGATCT TCTTGAGATC4451 CTTTTTTTCT GCGCGTAATC TGCTGCTTGC AAACAAAAAA ACCACCGCTA4501 CCAGCGGTGG TTTGTTTGCC GGATCAAGAG CTACCAACTC TTTTTCCGAA4551 GGTAACTGGC TTCAGCAGAG CGCAGATACC AAATACTGTT CTTCTAGTGT4601 AGCCGTAGTT AGGCCACCAC TTCAAGAACT CTGTAGCACC GCCTACATAC4651 AGCCGTAGTT AGGCCACCAC TTCAAGAACT CTGTAGCACC GCCTACATAC 4701 AGCCGTAGTT AGGCCACCAC TTCAAGAACT CTGTAGCACC GCCTACATAC 4751 AGCCGTAGTT AGGCCACCAC TTCAAGAACT CTGTAGCACC GCCTACATAC 4872 AGCCGTAGTT AGGCCACCAC TTCAAGAACT CTGTAGCACC GCCTACATAC 4851 AGCCGTAGTT AGGCCACCAC TTCAAGAACT CTGTAGCACC GCCTACATAC 4901 4972 AGCCGTAGTT AGGCCACCAC TTCAAGAACT CTGTAGCACC GCCTACATAC 5001 50572 365101 AGCCGTAGTT AGGCCACCAC TTCAAGAACT CTGTAGCACC GCCTACATAC 5172 5201 AGCCGTAGTT AGGCCACCAC TTCAAGAACT CTGTAGCACC GCCTACATAC 523672 5301 AGCCGTAGTT AGGCCACCAC TTCAAGAACT CTGTAGCACC GCCTACATAC 5351 AGCCGTAGTT AGGCCACCAC TTCAAGAACT CTGTAGCACC GCCTACATAC 5401 5451 AGCCGTAGTT AGGCCACCAC TTCAAGAACT CTGTAGCACC GCCTACATAC 5451 GTTCAGACGT AGTGTGACGC GATCGGTATA ACCACCACGC TCATCGATAA5501 TTTCACCGCC GAAAGGCGCG GTGCCGCTGG CGACCTGCGT TTCACCCTGC5551 CATAAAGAAA CTGTTACCCG TAGGTAGTCA CGCAACTCGC CGCACATCTG5601 AACTTCAGCC TCCAGTACAG CGCGGCTGAA ATCATCATTA AAGCGAGTGG5651 CAACATGGAA ATCGCTGATT TGTGTAGTCG GTTTATGCAG CAACGAGACG5701 TCACGGAAAA TGCCGCTCAT CCGCCACATA TCCTGATCTT CCAGATAACT5751 GCCGTCACTC CAACGCAGCA CCATCACCGC GAGGCGGTTT TCTCCGGCGC5801 GTAAAAATGC GCTCAGGTCA AATTCAGACG GCAAACGACT GTCCTGGCCG5851 TAACCGACCC AGCGCCCGTT GCACCACAGA TGAAACGCCG AGTTAACGCC5901 395951 TAAATGTGAG CGAGTAACAA CCCGTCGGAT TCTCCGTGGG AACAAACGGC6001 GGATTGACCG TAATGGGATA GGTCACGTTG GTGTAGATGG GCGCATCGTA6051 ACCGTGCATC TGCCAGTTTG AGGGGACGAC GACAGTATCG GCCTCAGGAA6101 GATCGCACTC CAGCCAGCTT TCCGGCACCG CTTCTGGTGC CGGAAACCAG6151 GCAAAGCGCC ATTCGCCATT CAGGCTGCGC AACTGTTGGG AAGGGCGATC6201 GGTGCGGGCC TCTTCGCTAT TACGCCAGCT GGCGAAAGGG GGATGTGCTG6251 CAAGGCGATT AAGTTGGGTA ACGCCAGGGT TTTCCCAGTC ACGACGTTGT6301 6342 6351 TTTGATACAA CTAATTTTAC GACGACGATG CGAGCTTTTA TTCAACCGAG6401 CGTGCATGTT TGCAATCGTG CAAGCGTTAT CAATTTTTCA TTATCGTATT6451 GTTGCACATC AACAGGCTGG ACACCACGTT GAACTCGCCG CAGTTTTGCG6501 GCAAGTTGGA CCCGCCGCGC ATCCAATGCA AACTTTCCGA CATTCTGTTG6551 CCTACGAACG ATTGATTCTT TGTCCATTGA TCGAAGCGAG TGCCTTCGAC6601 TTTTTCGTGT CCAGTGTGGC TT

Sequence listing

(1) General information:

the applicant (i):

(A) name: hoechst Marion Roussel Deutschland GmbH

(B) Street:

(C) city: frankfurt

(D) State:

(E) the state is as follows: germany

(F) ZIP code (ZIP): 69926

(G) Telephone: 069-305-7072

(H) Faxing: 069-35-7175

(I) Electric transmission:

(ii) name of the invention: human pheromone L and corresponding pheromones in other species

(iii) number of sequences: 44

(iv) computer-readable form:

(A) type of medium: flexible disk

(B) A computer: IBMPC compatible machine

(C) Operating the system: PC-DOS/MS-DOS

(D) Software: patentin Release #1.0, version #1.25(EPO)

(2) 1, SEQ ID NO:

sequence characteristics:

(A) length: 2636 base pairs

(B) Type (2): nucleic acids

(C) Chain type: single strand

(D) Topological structure: wire type

(ii) type of molecule: DNA (of the genome)

(ix) feature:

(A) name/keyword: exon(s)

(B) Position: 1..2636

(xi) sequence description: SEQ ID NO 1: CGGGGCCACG GGATGACGCC TCCTCCGCCC GGACGTGCCG CCCCCAGCGC ACCGCGCGCC 60CGCGTCCCTG GCCCGCCGGC TCGGTTGGGG CTTCCGCTGC GGCTGCCGCT GCTGCTGCTG 120CTCTGGGCGG CCGCCGCCTC CGCCCAGGGC CACCTAAGGA GCGGACCCCG CATCTTCGCC 180GTCTGGAAAG GCCATGTAGG GCAGGACCGG GTGGACTTTG GCCAGACTGA GCCGCACACG 240GTGCTTTTCC ACGAGCCAGG CAGCTCCTCT GTGTGGGTGG GAGGACGTGG CAAGGTCTAC 300CTCTTTGACT TCCCCGAGGG CAAGAACGCA TCTGTGCGCA CGGTGAATAT CGGCTCCACA 360AAGGGGTCCT GTCTGGATAA GCGGGACTGC GAGAACTACA TCACTCTCCT GGAGAGGCGG 420AGTGAGGGGC TGCTGGCCTG TGGCACCAAC GCCCGGCACC CCAGCTGCTG GAACCTGGTG 480AATGGCACTG TGGTGCCACT TGGCGAGATG AGAGGCTACG CCCCCTTCAG CCCGGACGAG 540AACTCCCTGG TTCTGTTTGA AGGGGACGAG GTGTATTCCA CCATCCGGAA GCAGGAATAC 600AATGGGAAGA TCCCTCGGTT CCGCCGCATC CGGGGCGAGA GTGAGCTGTA CACCAGTGAT 660ACTGTCATGC AGAACCCACA GTTCATCAAA GCCACCATCG TGCACCAAGA CCAGGCTTAC 720GATGACAAGA TCTACTACTT CTTCCGAGAG GACAATCCTG ACAAGAATCC TGAGGCTCCT 780CTCAATGTGT CCCGTGTGGC CCAGTTGTGC AGGGGGGACC AGGGTGGGGA AAGTTCACTG 840TCAGTCTCCA AGTGGAACAC TTTTCTGAAA GCCATGCTGG TATGCAGTGA TGCTGCCACC 900AACAAGAACT TCAACAGGCT GCAAGACGTC TTCCTGCTCC CTGACCCCAG CGGCCAGTGG 960AGGGACACCA GGGTCTATGG TGTTTTCTCC AACCCCTGGA ACTACTCAGC CGTCTGTGTG 1020TATTCCCTCG GTGACATTGA CAAGGTCTTC CGTACCTCCT CACTCAAGGG CTACCACTCA 1080AGCCTTCCCA ACCCGCGGCC TGGCAAGTGC CTCCCAGACC AGCAGCCGAT ACCCACAGAG 1140ACCTTCCAGG TGGCTGACCG TCACCCAGAG GTGGCGCAGA GGGTGGAGCC CATGGGGCCT 1200CTGAAGACGC CATTGTTCCA CTCTAAATAC CACTACCAGA AAGTGGCCGT TCACCGCATG 1260CAAGCCAGCC ACGGGGAGAC CTTTCATGTG CTTTACCTAA CTACAGACAG GGGCACTATC 1320CACAAGGTGG TGGAACCGGG GGAGCAGGAG CACAGCTTCG CCTTCAACAT CATGGAGATC 1380CAGCCCTTCC GCCGCGCGGC TGCCATCCAG ACCATGTCGC TGGATGCTGA GCGGAGGAAG 1440CTGTATGTGA GCTCCCAGTG GGAGGTGAGC CAGGTGCCCC TGGACCTGTG TGAGGTCTAT 1500GGCGGGGGCT GCCACGGTTG CCTCATGTCC CGAGACCCCT ACTGCGGCTG GGACCAGGGC 1560CGCTGCATCT CCATCTACAG CTCCGAACGG TCAGTGCTGC AATCCATTAA TCCAGCCGAG 1620CCACACAAGG AGTGTCCCAA CCCCAAACCA GACAAGGCCC CACTGCAGAA GGTTTCCCTG 1680GCCCCAAACT CTCGCTACTA CCTGAGCTGC CCCATGGAAT CCCGCCACGC CACCTACTCA 1740TGGCGCCACA AGGAGAACGT GGAGCAGAGC TGCGAACCTG GTCACCAGAG CCCCAACTGC 1800ATCCTGTTCA TCGAGAACCT CACGGCGCAG CAGTACGGCC ACTACTTCTG CGAGGCCCAG 1860GAGGGCTCCT ACTTCCGCGA GGCTCAGCAC TGGCAGCTGC TGCCCGAGGA CGGCATCATG 1920GCCGAGCACC TGCTGGGTCA TGCCTGTGCC CTGGCTGCCT CCCTCTGGCT GGGGGTGCTG 1980CCCACACTCA CTCTTGGCTT GCTGGTCCAC TAGGGCCTCC CGAGGCTGGG CATGCCTCAG 2040GCTTCTGCAG CCCAGGGCAC TAGAACGTCT CACACTCAGA GCCGGCTGGC CCGGGAGCTC 2100CTTGCCTGCC ACTTCTTCCA GGGGACAGAA TAACCCAGTG GAGGATGCCA GGCCTGGAGA 2160CGTCCAGCCG CAGGCGGCTG CTGGGCCCCA GGTGGCGCAC GGATGGTGAG GGGCTGAGAA 2220TGAGGGCACC GACTGTGAAG CTGGGGCATC GATGACCCAA GACTTTATCT TCTGGAAAAT 2280ATTTTTCAGA CTCCTCAAAC TTGACTAAAT GCAGCGATGC TCCCAGCCCA AGAGCCCATG 2340GGTCGGGGAG TGGGTTTGGA TAGGAGAGCT GGGACTCCAT CTCGACCCTG GGGCTGAGGC 00 2400CTGAGTCCTT CTGGACTCTT GGTACCCACA TTGCCTCCTT CCCCTCCCTC TCTCATGGCT 2460 2520TCCCTCTCTG GTCCTGGGTC CCACAGGACA GCCGCCTTGC ATGTTTATTG AAGGATGTTT 2580GCTTTCCGGA CGGAAGGACG GAAAAAGCTC TGAAAAAAAA AAAAAAAAAA AAAAAA 2636

(2) Information of SEQ ID NO:2:

sequence characteristics:

(A) length: 1195 base pairs

(B) Type (2): nucleic acids

(C) Chain type: single strand

(D) Topological structure: wire type

(ii) type of molecule: DNA (of the genome)

(ix) feature:

(A) name/keyword: exon(s)

(B) Position: 1..1195

(xi) sequence description: SEQ ID NO:2: CGGGGCTGCG GGATGACGCC TCCTCCTCCC GGACGTGCCG CCCCCAGCGC ACCGCGCGCC 60CGCGTCCTCA GCCTGCCGGC TCGGTTCGGG CTCCCGCTGC GGCTGCGGCT TCTGCTGGTG 120TTCTGGGTGG CCGCCGCCTC CGCCCAAGGC CACTCGAGGA GCGGACCCCG CATCTCCGCC 180GTCTGGAAAG GGCAGGACCA TGTGGACTTT AGCCAGCCTG AGCCACACAC CGTGCTTTTC 240CATGAGCCGG GCAGCTTCTC TGTCTGGGTG GGTGGACGTG GCAAGGTCTA CCACTTCAAC 300TTCCCCGAGG GCAAGAATGC CTCTGTGCGC ACGGTGAACA TCGGCTCCAC AAAGGGGTCC 360TGTCAGGACA AACAGGACTG TGGGAATTAC ATCACTCTTC TAGAAAGGCG GGGTAATGGG 420CTGCTGGTCT GTGGCACCAA TGCCCGGAAG CCCAGCTGCT GGAACTTGGT GAATGACAGT 480GTGGTGATGT CACTTGGTGA GATGAAAGGC TATGCCCCCT TCAGCCCGGA TGAGAACTCC 540CTGGTTCTGT TTGAAGGAGA TGAAGTGTAC TCTACCATCC GGAAGCAGGA ATACAACGGG 600AAGATCCCTC GGTTTCGACG CATTCGGGGC GAGAGTGAAC TGTACACAAG TGATACAGTC 660ATGCAGAACC CACAGTTCAT CAAGGCCACC ATTGTGCACC AAGACCAAGC CTATGATGAT 720AAGATCTACT ACTTCTTCCG AGAAGACAAC CCTGACAAGA ACCCCGAGGC TCCTCTCAAT 780GTGTCCCGAG TAGCCCAGTT GTGCAGGGGG GACCAGGGTG GTGAGAGTTC GTTGTCTGTC 840TCCAAGTGGA ACACCTTCCT GAAAGCCATG TTGGTCTGCA GCGATGCAGC CACCAACAGG 900AACTTCAATC GGCTGCAAGA TGTCTTCCTG CTCCCTGACC CCAGTGGCCA GTGGAGAGAT 960ACCAGGGTCT ATGGCGTTTT CTCCAACCCC TGGAACTACT CAGCTGTCTG CGTGTATTCG 1020CTTGGTGACA TTGACAGAGT CTTCCGTACC TCATCGCTCA AAGGCTACCA CATGGGCCTT 1080TCCAACCCTC GACCTGGCAT GTGCCTCCCA AAAAAGCAGC CCATACCCAC AGAAACCTTC 1140CAGGTAGCTG ATAGTCACCC AGAGGTGGCT CAGAGGGTGG AACCTATGGG GCCCC 1195.

(2) Information of SEQ ID NO:3:

sequence characteristics:

(A) length: 666 amino acids

(B) Type (2): amino acids

(C) Chain type: single strand

(D) Topological structure: wire type

(ii) type of molecule: protein

(ix) feature:

(A) name/keyword: protein

(B) Position: 1..666

(ix) feature:

(A) name/keyword: protein

(B) Position: 1..666

(xi) sequence description: 3: Met Thr Pro Pro Pro Pro Gly Arg Ala Ala Pro Ser Ala Pro Arg Ala 151015 Arg Val Pro Gly Pro Pro Ala Arg Leu Gly Leu Pro Leu Arg Leu Arg SEQ ID NO

20 25 30Leu Leu Leu Leu Leu Trp Ala Ala Ala Ala Ser Ala Gln Gly His Leu

35 40 45Arg Ser Gly Pro Arg Ile Phe Ala Val Trp Lys Gly His Val Gly Gln

50 55 60Asp Arg Val Asp Phe Gly Gln Thr Glu Pro His Thr Val Leu Phe His65 70 75 80Glu Pro Gly Ser Ser Ser Val Trp Val Gly Gly Arg Gly Lys Val Tyr

85 90 95Leu Phe Asp Phe Pro Glu Gly Lys Asn Ala Ser Val Arg Thr Val Asn

100 105 110Ile Gly Ser Thr Lys Gly Ser Cys Leu Asp Lys Arg Asp Cys Glu Asn

115 120 125Tyr Ile Thr Leu Leu Glu Arg Arg Ser Glu Gly Leu Leu Ala Cys Gly

130 135 140Thr Asn Ala Arg His Pro Ser Cys Trp Asn Leu Val Asn Gly Thr Val145 150 155 160Val Pro Leu Gly Glu Met Arg Gly Tyr Ala Pro Phe Ser Pro Asp Glu

165 170 175Asn Ser Leu Val Leu Phe Glu Gly Asp Glu Val Tyr Ser Thr Ile Arg

180 185 190Lys Gln Glu Tyr Asn Gly Lys Ile Pro Arg Phe Arg Arg Ile Arg Gly

195 200 205Glu Ser Glu Leu Tyr Thr Ser Asp Thr Val Met Gln Asn Pro Gln Phe

210 215 220Ile Lys Ala Thr Ile Val His Gln Asp Gln Ala Tyr Asp Asp Lys Ile225 230 235 240Tyr Tyr Phe Phe Arg Glu Asp Asn Pro Asp Lys Asn Pro Glu Ala Pro

245 250 255Leu Asn Val Ser Arg Val Ala Gln Leu Cys Arg Gly Asp Gln Gly Gly

260 265 270Glu Ser Ser Leu Ser Val Ser Lys Trp Asn Thr Phe Leu Lys Ala Met

275 280 285Leu Val Cys Ser Asp Ala Ala Thr Asn Lys Asn Phe Asn Arg Leu Gln

290 295 300Asp Val Phe Leu Leu Pro Asp Pro Ser Gly Gln Trp Arg Asp Thr Arg305 310 315 320Val Tyr Gly Val Phe Ser Asn Pro Trp Asn Tyr Ser Ala Val Cys Val

325 330 335Tyr Ser Leu Gly Asp Ile Asp Lys Val Phe Arg Thr Ser Ser Leu Lys

340 345 350Gly Tyr His Ser Ser Leu Pro Asn Pro Arg Pro Gly Lys Cys Leu Pro

355 360 365Asp Gln Gln Pro Ile Pro Thr Glu Thr Phe Gln Val Ala Asp Arg His

370 375 380Pro Glu Val Ala Gln Arg Val Glu Pro Mer Gly Pro Leu Lys Thr Pro385 390 395 400Leu Phe His Ser Lys Tyr His Tyr Gln Lys Val Ala Val His Arg Met

405 410 415Gln Ala Ser His Gly Glu Thr Phe His Va1 Leu Tyr Leu Thr Thr Asp

420 425 430Arg Gly Thr Ile His Lys Val Val Glu Pro Gly Glu Gln Glu His Ser

435 440 445Phe Ala Phe Asn Ile Met Glu Ile Gln Pro Phe Arg Arg Ala Ala Ala

450 455 460Ile Gln Thr Met Ser Leu Asp Ala Glu Arg Arg Lys Leu Tyr Val Ser465 470 475 480Ser Gln Trp Glu Val Ser Gln Val Pro Leu Asp Leu Cys Glu Val Tyr

485 490 495Gly Gly Gly Cys His Gly Cys Leu Met Ser Arg Asp Pro Tyr Cys Gly

500 505 510Trp Asp Gln G1y Arg Cys Ile Ser Ile Tyr Ser Ser Glu Arg Ser Val

515 520 525Leu Gln Ser Ile Asn Pro Ala Glu Pro His Lys Glu Cys Pro Asn Pro

530 535 540Lys Pro Asp Lys Ala Pro Leu Gln Lys Val Ser Leu Ala Pro Asn Ser545 550 555 560Arg Tyr Tyr Leu Ser Cys Pro Met Glu Ser Arg His Ala Thr Tyr Ser

565 570 575Trp Arg His Lys Glu Asn Val Glu Gln Ser Cys Glu Pro Gly His Gln

580 585 590Ser Pro Asn Cys Ile Leu Phe Ile Glu Asn Leu Thr Ala Gln Gln Tyr

595 600 605Gly His Tyr Phe Cys Glu Ala Gln Glu Gly Ser Tyr Phe Arg Glu Ala

610 615 620Gln His Trp Gln Leu Leu Pro Glu Asp Gly Ile Met Ala Glu His Leu625 630 635 640Leu Gly His Ala Cys Ala Leu Ala Ala Ser Leu Trp Leu Gly Val Leu

645 650 655Pro Thr Leu Thr Leu Gly Leu Leu Val His

660 665

(2) Information of SEQ ID NO:4:

sequence characteristics:

(A) length: 394 amino acids

(B) Type (2): amino acids

(C) Chain type: single strand

(D) Topological structure: wire type

(ii) type of molecule: protein

(ix) feature:

(A) name/keyword: protein

(B) Position: 1..394

(xi) sequence description: SEQ ID NO 4: Met Thr Pro Pro Pro Pro Gly Arg Ala Ala Pro Ser Ala Pro Arg Ala 151015 Arg Val Leu Ser Leu Pro Ala Arg Phe Gly Leu Pro Leu Arg Leu Arg

20 25 30Leu Leu Leu Val Phe Trp Val Ala Ala Ala Ser Ala Gln Gly His Ser

35 40 45Arg Ser Gly Pro Arg Ile Ser Ala Va1 Trp Lys Gly Gln Asp His Val

50 55 60Asp Phe Ser Gln Pro Glu Pro His Thr Val Leu Phe His Glu Pro Gly65 70 75 80Ser Phe Ser Val Trp Val Gly Gly Arg Gly Lys Val Tyr Hia Phe Asn

85 90 95Phe Pro Glu Gly Lys Asn Ala Ser Val Arg Thr Val Asn Ile Gly Ser

100 105 110Thr Lys Gly Ser Cys Gln Asp Lys Gln Asp Cys Gly Asn Tyr Ile Thr

115 120 125Leu Leu Glu Arg Arg Gly Asn Gly Leu Leu Val Cys Gly Thr Asn Ala

130 135 140Arg Lys Pro Ser Cys Trp Asn Leu Val Asn Asp Ser Val Val Met Ser145 150 155 160Leu Gly Glu Met Lys Gly Tyr Ala Pro Phe Ser Pro Asp Glu Asn Ser

165 170 175Leu Val Leu Phe Glu Gly Asp Glu Val Tyr Ser Thr Ile Arg Lys Gln

180 185 190Glu Tyr Asn Gly Lys Ile Pro Arg Phe Arg Arg Ile Arg Gly Glu Ser

195 200 205Glu Leu Tyr Thr Ser Asp Thr Val Met Gln Asn Pro Gln Phe Ile Lys

210 215 220Ala Thr Ile Val His Gln Asp Gln Ala Tyr Asp Asp Lys Ile Tyr Tyr225 230 235 240Phe Phe Arg Glu Asp Asn Pro Asp Lys Asn Pro Glu Ala Pro Leu Asn

245 250 255Val Ser Arg Val Ala Gln Leu Cys Arg Gly Asp Gln Gly Gly Glu Ser

260 265 270Ser Leu Ser Val Ser Lys Trp Asn Thr Phe Leu Lys Ala Met Leu Val

275 280 285Cys Ser Asp Ala Ala Thr Asn Arg Asn Phe Asn Arg Leu Gln Asp Val

290 295 300Phe Leu Leu Pro Asp Pro Ser Gly Gln Trp Arg Asp Thr Arg Val Tyr305 310 315 320Gly Val Phe Ser Asn Pro Trp Asn Tyr Ser Ala Val Cys Val Tyr Ser

325 330 335Leu Gly Asp Ile Asp Arg Val Phe Arg Thr Ser Ser Leu Lys Gly Tyr

340 345 350His Met Gly Leu Ser Asn Pro Arg Pro Gly Met Cys Leu Pro Lys Lys

355 360 365Gln Pro Ile Pro Thr Glu Thr Phe Gln Val Ala Asp Ser His Pro Glu

370 375 380Val Ala Gln Arg Val Glu Pro Met Gly Pro385 390

(2) Information of SEQ ID NO:5:

sequence characteristics:

(A) length: 23 base pairs

(B) Type (2): nucleic acids

(C) Chain type: single strand

(D) Topological structure: wire type

(ii) type of molecule: DNA (of the genome)

(ix) feature:

(A) name/keyword: exon(s)

(B) Position: 1..23

(xi) sequence description: SEQ ID NO 5: ACTCACTATAGGGCTCGAGCGGC 23

(2) Information of SEQ ID NO:6:

sequence characteristics:

(A) length: 20 base pairs

(B) Type (2): nucleic acids

(C) Chain type: single strand

(D) Topological structure: wire type

(ii) type of molecule: DNA (of the genome)

(ix) feature:

(A) name/keyword: exon(s)

(B) Position: 1..20

(xi) sequence description: 6: AGCCGCACACGGTGCTTITC 20 SEQ ID NO

(2) Information of SEQ ID NO:7:

sequence characteristics:

(A) length: 20 base pairs

(B) Type (2): nucleic acids

(C) Chain type: single strand

(D) Topological structure: wire type

(ii) type of molecule: DNA (of the genome)

(ix) feature:

(A) name/keyword: exon(s)

(B) Position: 1..20

(xi) sequence description: SEQ ID NO 7: GCACAGATGCGITCITGCCC 20

(2) Information of SEQ ID NO:8:

sequence characteristics:

(A) length: 20 base pairs

(B) Type (2): nucleic acids

(C) Chain type: single strand

(D) Topological structure: wire type

(ii) type of molecule: DNA (of the genome)

(ix) feature:

(A) name/keyword: exon(s)

(B) Position: 1..20

(xi) sequence description: 8: ACCATAGACCCTGGTGTCCC SEQ ID NO

(2) Information of SEQ ID NO 9:

sequence characteristics:

(A) length: 20 base pairs

(B) Type (2): nucleic acids

(C) Chain type: single strand

(D) Topological structure: wire type

(ii) type of molecule: DNA (of the genome)

(ix) feature:

(A) name/keyword: exon(s)

(B) Position: 1..20

(xi) sequence description: 9: GCAGTGATGCTGCCACCAAC 20 SEQ ID NO

(2) Information of SEQ ID NO:10:

sequence characteristics:

(A) length: 20 base pairs

(B) Type (2): nucleic acids

(C) Chain type: single strand

(D) Topological structure: wire type

(ii) type of molecule: DNA (of the genome)

(ix) feature:

(A) name/keyword: exon(s)

(B) Position: 1..20

(xi) sequence description: 10: CCAGACCATGTCGCTGGATG 20 SEQ ID NO

(2) Information of SEQ ID NO:11:

sequence characteristics:

(A) length: 20 base pairs

(B) Type (2): nucleic acids

(C) Chain type: single strand

(D) Topological structure: wire type

(ii) type of molecule: DNA (of the genome)

(ix) feature:

(A) name/keyword: exon(s)

(B) Position: 1..20

(xi) sequence description: 11: ACATGAGGCAACCGTGGGCAG 20 SEQ ID NO

(2) Information of SEQ ID NO:12:

sequence characteristics:

(A) length: 27 base pairs

(B) Type (2): nucleic acids

(C) Chain type: single strand

(D) Topological structure: wire type

(ii) type of molecule: DNA (of the genome)

(ix) feature:

(A) name/keyword: exon(s)

(B) Position: 1..27

(xi) sequence description: 12: CCATCCTAATACGACTCACTATAGGGC 27 SEQ ID NO

(2) Information of SEQ ID NO 13:

sequence characteristics:

(A) length: 20 base pairs

(B) Type (2): nucleic acids

(C) Chain type: single strand

(D) Topological structure: wire type

(ii) type of molecule: DNA (of the genome)

(ix) feature:

(A) name/keyword: exon(s)

(B) Position: 1..20

(xi) sequence description: 13: AGGTAGACCTTGCCACGTCC 20 SEQ ID NO

(2) Information of SEQ ID NO:14:

sequence characteristics:

(A) length: 23 base pairs

(B) Type (2): nucleic acids

(C) Chain type: single strand

(D) Topological structure: wire type

(ii) type of molecule: DNA (of the genome)

(ix) feature:

(A) name/keyword: exon(s)

(B) Position: 1..23

(xi) sequence description: 14: GAACTTCAACAGGCTGCAAG ACG 23 SEQ ID NO

(2) Information of SEQ ID NO. 15:

sequence characteristics:

(A) length: 20 base pairs

(B) Type (2): nucleic acids

(C) Chain type: single strand

(D) Topological structure: wire type

(ii) type of molecule: DNA (of the genome)

(ix) feature:

(A) name/keyword: exon(s)

(B) Position: 1..20

(xi) sequence description: 15: ATGCTGAGCGGAGGAACGCTG 20 SEQ ID NO

(2) Information of SEQ ID NO 16:

sequence characteristics:

(A) length: 20 base pairs

(B) Type (2): nucleic acids

(C) Chain type: single strand

(D) Topological structure: wire type

(ii) type of molecule: DNA (of the genome)

(ix) feature:

(A) name/keyword: exon(s)

(B) Position: 1..20

(xi) sequence description: 16: CCGCCATACACCTCACACAG 20 SEQ ID NO

(2) Information of SEQ ID NO 17:

sequence characteristics:

(A) length: 28 base pairs

(B) Type (2): nucleic acids

(C) Chain type: single strand

(D) Topological structure: wire type

(ii) type of molecule: DNA (of the genome)

(ix) feature:

(A) name/keyword: exon(s)

(B) Position: 1..28

(xi) sequence description: 17: CTGGAAGCTTTCTGTGGGTATCGGCTGC 28 SEQ ID NO

(2) Information of SEQ ID NO:18:

sequence characteristics:

(A) length: 25 base pairs

(B) Type (2): nucleic acids

(C) Chain type: single strand

(D) Topological structure: wire type

(ii) type of molecule: DNA (of the genome)

(ix) feature:

(A) name/keyword: exon(s)

(B) Position: 1..25

(xi) sequence description: 18: TTTGGATCCCTGGTTCTGTTTGAAG 25 SEQ ID NO

(2) Information of SEQ ID NO 19:

sequence characteristics:

(A) length: 50 base pairs

(B) Type (2): nucleic acids

(C) Chain type: single strand

(D) Topological structure: wire type

(ii) type of molecule: DNA (of the genome)

(ix) feature:

(A) name/keyword: exon(s)

(B) Position: 1..50

(ix) feature:

(A) name/keyword: exon(s)

(B) Position: 1..50

(xi) sequence description: 19: TTCTAGAATT CAGCGGCCGC TTTTTTTTTT TTTTTTTTTT TTTTTTTTTT50 SEQ ID NO

(2) 20, SEQ ID NO:

(ix) sequence feature:

(A) length: 27 base pairs

(B) Type (2): nucleic acids

(C) Chain type: single strand

(D) Topological structure: wire type

(ii) type of molecule: DNA (of the genome)

(ix) feature:

(A) name/keyword: exon(s)

(B) Position: 1..27

(xi) sequence description: SEQ ID NO 20: GGGGAAAGTTCACTGTCAGTCTCCAAG 27

(2) Information of SEQ ID NO:21:

sequence characteristics:

(A) length: 26 base pairs

(8) Type (2): nucleic acids

(C) Chain type: single strand

(D) Topological structure: wire type

(ii) type of molecule: DNA (of the genome)

(ix) feature:

(A) name/keyword: exon(s)

(B) Position: 1..26

(xi) sequence description: 21: GGGAATACACACAGACGGCTGAGTAG 26 SEQ ID NO

(2) Information of SEQ ID NO:22:

sequence characteristics:

(A) length: 22 base pairs

(B) Type (2): nucleic acids

(C) Chain type: single strand

(D) Topological structure: wire type

(ii) type of molecule: DNA (of the genome)

(ix) feature:

(A) name/keyword: exon(s)

(B) Position: 1..22

(xi) sequence description: SEQ ID NO 22: AGCAAGTTCAGCCTGGTTAAGT 22

(2) Information of SEQ ID NO:23:

sequence characteristics:

(A) length: 21 base pairs

(B) Type (2): nucleic acids

(C) Chain type: single strand

(D) Topological structure: wire type

(ii) type of molecule: DNA (of the genome)

(ix) feature:

(A) name/keyword: exon(s)

(B) Position: 1..21

(xi) sequence description: 23: TTATGAGTATTTCTTCCAGGG 21 SEQ ID NO

(2) Information of SEQ ID NO:24:

sequence characteristics:

(A) length: 26 base pairs

(B) Type (2): nucleic acids

(C) Chain type: single strand

(D) Topological structure: wire type

(ii) type of molecule: DNA (of the genome)

(ix) feature:

(A) name/keyword: exon(s)

(B) Position: 1..26

(xi) sequence description: 24: CCAITAATCCAGCCGAGCCACACAAG 26 SEQ ID NO

(2) Information of SEQ ID NO:25:

sequence characteristics:

(A) length: 25 base pairs

(B) Type (2): nucleic acids

(C) Chain type: single strand

(D) Topological structure: wire type

(ii) type of molecule: DNA (of the genome)

(ix) feature:

(A) name/keyword: exon(s)

(B) Position: 1..25

(xi) sequence description: SEQ ID NO 25: CATCTACAGCTCCGAACGGTCAGTG 25

(2) Information of SEQ ID NO:26:

sequence characteristics:

(A) length: 20 base pairs

(B) Type (2): nucleic acids

(C) Chain type: single strand

(D) Topological structure: wire type

(ii) type of molecule: DNA (of the genome)

(ix) feature:

(A) name/keyword: exon(s)

(B) Position: 1..20

(xi) sequence description: 26: CAGCGGAAGCCCCAACCGAG 20 SEQ ID NO

(2) Information of SEQ ID NO:27:

sequence characteristics:

(A) length: 23 base pairs

(B) Type (2): nucleic acids

(C) Chain type: single strand

(D) Topological structure: wire type

(ii) type of molecule: DNA (of the genome)

(ix) feature:

(A) name/keyword: exon(s)

(B) Position: 1..23

(xi) sequence description: 27: GGGATGACGCCTCCTCCGCCCGG 23 SEQ ID NO

(2) Information of SEQ ID NO: 28:

sequence characteristics:

(A) length: 31 base pairs

(B) Type (2): nucleic acids

(C) Chain type: single strand

(D) Topological structure: wire type

(ii) type of molecule: DNA (of the genome)

(ix) feature:

(A) name/keyword: exon(s)

(B) Position: 1..31

(xi) sequence description: SEQ ID NO: 28: AAGCTTCACGTGGACCAGCAAGCCAAGAGTG 31

(2) Information of SEQ ID NO:29:

sequence characteristics:

(A) length: 25 base pairs

(B) Type (2): nucleic acids

(C) Chain type: single strand

(D) Topological structure: wire type

(ii) type of molecule: DNA (of the genome)

(ix) feature:

(A) name/keyword: exon(s)

(B) Position: 1..25

(xi) sequence description: 29: AAGCTTTTTCCGTCCTTCCGTCCGG 25 SEQ ID NO

(2) Information of SEQ ID NO:30:

sequence characteristics:

(A) length: 24 base pairs

(B) Type (2): nucleic acids

(C) Chain type: single strand

(D) Topological structure: wire type

(ii) type of molecule: DNA (of the genome)

(ix) feature:

(A) name/keyword: exon(s)

(B) Position: 1..24

(xi) sequence description: SEQ ID NO 30: ATGGTGAGCAAGGGCGAGGAGCTG 24

(2) Information of SEQ ID NO:31:

sequence characteristics:

(A) length: 24 base pairs

(B) Type (2): nucleic acids

(C) Chain type: single strand

(D) Topological structure: wire type

(ii) type of molecule: DNA (of the genome)

(ix) feature:

(A) name/keyword: exon(s)

(B) Position: 1..24

(xi) sequence description: 31: CITGTACAGCTCGTCCATGCCGAG 24 SEQ ID NO

(2) Information of SEQ ID NO:32:

sequence characteristics:

(A) length: 25 base pairs

(B) Type (2): nucleic acids

(C) Chain type: single strand

(D) Topological structure: wire type

(ii) type of molecule: DNA (of the genome)

(ix) feature:

(A) name/keyword: exon(s)

(B) Position: 1..25

(xi) sequence description: 32: GGGTGGTGAGAGTTCGTTGTCTGTC 25 SEQ ID NO

(2) Information of SEQ ID NO:33:

sequence characteristics: .

(A) Length: 25 base pairs

(B) Type (2): nucleic acids

(C) Chain type: single strand

(D) Topological structure: wire type

(ii) type of molecule: DNA (of the genome)

(ix) feature:

(A) name/keyword: exon(s)

(B) Position: 1..25

(xi) sequence description: 33: GAGCGATGAGGTACGGAAGACTCTG 25 SEQ ID NO

(2) Information of SEQ ID NO:34:

sequence characteristics:

(A) length: 5856 base pairs

(B) Type (2): nucleic acids

(C) Chain type: single strand

(D) Topological structure: wire type

(ii) type of molecule: DNA (of the genome)

(ix) feature:

(A) name/keyword: exon(s)

(B) Position: 1..5856

(xi) sequence description: SEQ ID NO 34: AGCGCCCAAT ACGCAAACCG CCTCTCCCCG CGCGTTGGCC GATTCATTAA TGCAGCTGGC 60ACGACAGGTT TCCCGACTGG AAAGCGGGCA GTGAGCGCAA CGCAATTAAT GTGAGTTAGC 120TCACTCATTA GGCACCCCAG GCTTTACACT TTATGCTTCC GGCTCGTATG TTGTGTGGAA 180TTGTGAGCGG ATAACAATTT CACACAGGAA ACAGCTATGA CCATGATTAC GCCAAGCTTC 240ACGTGGACCA GCAAGCCAAG AGTGAGTGTG GGCAGCACCC CCAGCCAGAG GGAGGCAGCC 300AGGGCACAGG CATGACCCAG CAGGTGCTCG GCCATGATGC CGTCCTCGGG CAGCAGCTGC 360CAGTGCTGAG CCTCGCGGAA GTAGGAGCCC TCCTGGGCCT CGCAGAAGTA GTGGCCGTAC 420TGCTGCGCCG TGAGGTTCTC GATGAACAGG ATGCAGTTGG GGCTCTGGTG ACCAGGTTCG 480CAGCTCTGCT CCACGTTCTC CTTGTGGCGC CATGAGTAGG TGGCGTGGCG GGATTCCATG 540GGGCAGCTCA GGTAGTAGCG AGAGTTTGGG GCCAGGGAAA CCTTCTGCAG TGGGGCCTTG 600TCTGGTTTGG GGTTGGGACA CTCCTTGTGT GGCTCGGCTG GATTAATGGA TTGCAGCACT 660GACCGTTCGG AGCTGTAGAT GGAGATGCAG CGGCCCTGGT CCCAGCCGCA GTAGGGGTCT 720CGGGACATGA GGCAACCGTG GCAGCCCCCG CCATAGACCT CACACAGGTC CAGGGGCACC 780TGGCTCACCT CCCACTGGGA GCTCACATAC AGCTTCCTCC GCTCAGCATC CAGCGACATG 840GTCTGGATGG CAGCCGCGCG GCGGAAGGGC TGGATCTCCA TGATGTTGAA GGCGAAGCTG 900TGCTCCTGCT CCCCCGGTTC CACCACCTTG TGGATAGTGC CCCTGTCTGT AGTTAGGTAA 960AGCACATGAA AGGTCTCCCC GTGGCTGGCT TGCATGCGGT GAACGGCCAC TTTCTGGTAG 1020TGGTATTTAG AGTGGAACAA TGGCGTCTTC AGAGGCCCCA TGGGCTCCAC CCTCTGCGCC 1080ACCTCTGGGT GACGGTCAGC CACCTGGAAG GTCTCTGTGG GTATCGGCTG CTGGTCTGGG 1140AGGCACTTGC CAGGCCGCGG GTTGGGAAGG CTTGAGTGGT AGCCCTTGAG TGAGGAGGTA 1200CGGAAGACCT TGTCAATGTC ACCGAGGGAA TACACACAGA CGGCTGAGTA GTTCCAGGGG 1260TTGGAGAAAA CACCATAGAC CCTGGTGTCC CTCCACTGGC CGCTGGGGTC AGGGAGCAGG 1320AAGACGTCTT GCAGCCTGTT GAAGTTCTTG TTGGTGGCAG CATCACTGCA TACCAGCATG 1380CCTTTCAGAA AAGTGTTCCA CTTGGAGACT GACAGTGAAC TTTCCCCACC CTGGTCCCCC 1440CTGCACAACT GGGCCACACG GGACACATTG AGAGGAGCCT CAGGATTCTT GTCAGGATTG 1500TCCTCTCGGA AGAAGTAGTA GATCTTGTCA TCGTAAGCCT GGTCTTGGTG CACGATGGTG 1560GCTTTGATGA ACTGTGGGTT CTGCATGACA GTATCACTGG TGTACAGCTC ACTCTCGCCC 1620CGGATGCGGC GGAACCGAGG GATGTTCCCA TTGTATTCCT GCTTCCGGAT GGTGGAATAC 1680ACCTCGTCCC CTTCAAACAG AACCAGGGAG TTCTCGTCCG GGCTGAAGGG GGCGTAGCCT 1740CTCATCTCGC CAAGTGGCAC CACAGTGCCA TTCACCAGGT TCCAGCAGCT GGGGTGCCGG 1800GCGTTGGTGC CACAGGCCAG CAGCCCCTCA CTCCGCCTCT CCAGGAGAGT GATGTAGTTC 1860TCGCAGTCCC GCTTATCCAG ACAGGACCCC TTTGTGGAGC CGATATTCAC CGTGCGCACA 1920GATGCGTTCT TGCCCTCGGG GAAGTCAAAG AGGTAGACCT TGCCACGTCG TCCCACCCAC 1980ACAGAGGAGC TGCCTGGCTC GTGGAAAAGC ACCGTGTGCG GCTCAGTCTG GCCAAAGTCC 2040ACCCGGTCCT GCCCTACATG GCCTTTCCAG ACGGCGAAGA TGCGGGGTCC GCTCCTTAGG 2100TGGCGCTGGG CGGAGGCGGC GGCCGCCCAG AGCAGCAGCA GCAGCCGCAG CCGCAGCGGA 2160AGCCCCAACC GAGCCGGCGG GCCAGGGACG CGGGCGCGCG GTGCGCTGGG GGCGGCACGT 2220CCGGGCGGAG GAGGCGTCAT CCCAAGCCGA ATTCTGCAGA TATCCATCAC ACTGGCGGCC 2280GCTCGAGCAT GCATCTAGAG GGCCCAATTC GCCCTATAGT GAGTCGTATT ACAATTCACT 2340GGCCGTCGTT TTACAACGTC GTGACTGGGA AAACCCTGGC GTTACCCAAC TAAATCGCCT 00 2400TGCAGCACAT CCCCCTTTCG CCAGCTGGCG TAATAGCGAA GAGGCCCGCA CCGATCGCCC 2460 2520CGCGGCGGGT GTGGTGGTTA CGCGCAGCGT GACCGCTACA CTTGCGAGCG CCGTAGCGCC 2580CGCTCCTTTC GCTTTCTTCC CTTCCTTTCT CGCCACGTTC GCCGGCTTTC CCCGTCAAGC 2640TCTAAATCGG GGGCTCCCTT TAGGGTTCCG ATTTAGAGCT TTACGGCACC TCGACCGCAA 2700AAAACTTGAT TTGGGTGATG GTTCACGTAG TGGGCCATCG CGCTGATAGA CGGTTTTTCG 2760CCCTTTGAGG TTGGAGTCCA CGTTCTTTAA TAGTGGACTC TTGTTCCAAA CTGGAACAAC 2820ACTCAACCCT ATCGCGGTCT ATTCTTTTGA TTTATAAGGG ATTTTGCCGA TTTCGGCCTA 2880TTGGTTAAAA AATGAGCTGA TTTAACAAAT TCAGGGGGCA AGGGCTGCTA AAGGAACCGG 2940AACACGTAGA AAGCCAGTCC GCAGAAACGG TGCTGAGCCC GGATGAATGT CAGCTACTGG 3000GCTATCTGGA CAAGGGAAAA CGCAAGCGCA AAGAGAAAGC AGGTAGCTTG CAGTGGGCTT 3060 3890 3060ACATGGCGAT AGCTAGACTG GGCGGTTTTA TGGACAGCAA GCGAACCGGA ATTGCCAGCT 3120GGGGCGCCCT CTGGTAAGGT TGGGAAGCCC TGCAAAGTAA ACTGGATGGC TTTCTTGCCG 3180CCAAGGATCT GATGGCGCAG GGGATCAAGA TCTGATCAAG AGACAGGATG AGGATCGTTT 3240CGCATGATTG AACAAGATGG ATTGCACGCA GGTTCTCCGG CCGCTTGGGT GGAGAGGCTA 3300TTCGGCTATG ACTGGGCACA ACAGACAATC GGCTGCTCTG ATGCCGCCGT GTTCCGGCTG 3360TCAGCGCAGG GGCGCCCGGT TCTTTTTGTC AAGACCGACC TGTCCGGTGC CCTGAATGAA 3420CTGCAGGACG AGGCAGCGCG GCTATCGTGG CTGGCCACGA CGGGCGTTCC TTGCGCAGCT 3480GTGCTCGACG TTGTCACTGA AGCGGGAAGG GACTGGCTGC TATTGGGCGA AGTGCCGGGG 3540CAGGATCTCC TGTCATCTCG CCTTGCTCCT GCCGAGAAAG TATCCATCAT GGCTGATGCA 3600ATGCGGCGGC TGCATACGCT TGATCCGGCT ACCTGCCCAT TCGACCACCA AGCGAAACAT 3660CGCATCGAGC GAGCACGTAC TCGGATGGAA GCCGGTCTTG TCGATCAGGA TGATCTGGAC 3720GAAGAGCATC AGGGGCTCGC GCCAGCCGAA CTGTTCGCCA GGCTCAAGGC GCGCATGCCC 3780GACGGCGAGG ATCTCGTCGT GATCCATGGC GATGCCTGCT TGCCGAATAT CATGGTGGAA 3840AATGGCCGCT TTTCTGGATT CAACGACTGT GGCCGGCTGG GTGTGGCGGA CCGCTATCAG 3900GACATAGCGT TGGATACCCG TGATATTGCT GAAGAGCTTG GCGGCGAATG GGCTGACCGC 3960TTCCTCGTGC TTTAcGGTAT CGCCGCTCCC GATTCGCAGC GCATCGCCTT CTATCGCCTT 4020CTTGACGAGT TCTTCTGAAT TGAAAAAGGA AGAGTATGAG TATTCAACAT TTCCGTGTCG 4080CCCTTATTCC CTTTTTTGCG GCATTTTGCC TTCCTGTTTT TGCTCACCCA GAAACGCTGG 4140TGAAAGTAAA AGATGCTGAA GATCAGTTGG GTGCACGAGT GGGTTACATC GAACTGGATC 4200TCAACAGCGG TAAGATCCTT GAGAGTTTTC GCCCCGAAGA ACGTTTTCCA ATGATGAGCA 4260CTTTTAAAGT TCTGCTATGT CATACACTAT TATCCCGTAT TGACGCCGGG CAAGAGCAAC 4320TCGGTCGCCG GGCGCGGTAT TCTCAGAATG ACTTGGTTGA GTACTCACCA GTCACAGAAA 4380AGCATCTTAC GGATGGCATG ACAGTAAGAG AATTATGCAG TGCTGCCATA ACCATGAGTG 4440ATAACACTGC GGCCAACTTA CTTCTGACAA CGATCGGAGG ACCGAAGGAG CTAACCGCTT 4500TTTTGCACAA CATGGGGGAT CATGTAACTC GCCTTGATCG TTGGGAACCG GAGCTGAATG 4560AAGCCATACC AAACGACGAG AGTGACACCA CGATGCCTGT AGCAATGCCA ACAACGTTGC 4620GCAAACTATT AACTGGCGAA CTACTTACTC TAGCTTCCCG GCAACAATTA ATAGACTGGA 4680TGGAGGCGGA TAAAGTTGCA GGACCACTTC TGCGCTCGGC CCTTCCGGCT GGCTGGTTTA 4740TTGCTGATAA ATCTGGAGCC GGTGAGCGTG GGTCTCGCGG TATCATTGCA GCACTGGGGC 4800CAGATGGTAA GCCCTCCCGT ATCGTAGTTA TCTACACGAC GGGGAGTCAG GCAACTATGG 4860ATGAACGAAA TAGACAGATC GCTGAGATAG GTGCCTCACT GATTAAGCAT TGGTAACTGT 4920CAGACCAAGT TTACTCATAT ATACTTTAGA TTGATTTAAA ACTTCATTTT TAATTTAAAA 4980GGATCTAGGT GAAGATCCTT TTTGATAATC TCATGACCAA AATCCCTTAA CGTGAGTTTT 5040CGTTCCACTG AGCGTCAGAC CCCGTAGAAA AGATCAAAGG ATCTTCTTGA GATCCTTTTT 5100TTCTGCGCGT AATCTGCTGC TTGCAAACAA AAAAACCACC GCTACCAGCG GTGGTTTGTT 5160TGCCGGATCA AGAGCTACCA ACTCTTTTTC CGAAGGTAAC TGGCTTCAGC AGAGCGCAGA 5220TACCAAATAC TGTCCTTCTA GTGTAGCCGT AGTTAGGCCA CCACTTCAAG AACTCTGTAG 5280CACCGCCTAC ATACCTCGCT CTGCTAATCC TGTTACCAGT GGCTGCTGCC AGTGGCGATA 5340AGTCGTGTCT TACCGGGTTG GACTCAAGAC GATAGTTACC GGATAAGGCG CAGCGGTCGG 5400GCTGAACGGG GGGTTCGTGC ACACAGCCCA GCTTGGAGCG AACGACCTAC ACCGAACTGA 5460GATACCTACA GCGTGAGCAT TGAGAAAGCG CCACGCTTCC CGAAGGGAGA AAGGCGGACA 5520GGTATCCGGT AAGCGGCAGG GTCGGAACAG GAGAGCGCAC GAGGGAGCTT CCAGGGGGAA 5580ACGCCTGGTA TCTTTATAGT CCTGTCGGGT TTCGCCACCT CTGACTTGAG CGTCGATTTT 5640TGTGATGCTC GTCACGGGGG CGGAGCCTAT GGAAAAACGC CAGCAACGCG GCCTTTTTAC 5700GGTTCCTGGC CTTTTGCTGG CCTTTTGCTC ACATGTTCTT TCCTGCGTTA TCCGCTGATT 5760CTGTGGATAA CCGTATTACC GCCTTTGAGT GAGCTGATAC CGCTCGCCGC AGCCGAACGA 5820CCGAGCGCAG CGAGTCAGTG AGCGAGGAAG CGGAAG 5856(2) information of SEQ ID NO:35:

sequence characteristics:

(A) length: 7475 base pairs

(B) Type (2): nucleic acids

(C) Chain type: single strand

(D) Topological structure: wire type

(ii) type of molecule: DNA (of the genome)

(ix) feature:

(A) name/keyword: exon(s)

(B) Position: 1..7475

(xi) sequence description: 35: GACGGATCGG GAGATCTCCC GATCCCCTAT GGTCGACTCT CAGTACAATC TGCTCTGATG 60CCGCATAGTT AAGCCAGTAT CTGCTCCCTG CTTGTGTGTT GGAGGTCGCT GAGTAGTGCG 120CGAGCAAAAT TTAAGCTACA ACAAGGCAAG GCTTGACCGA CAATTGCATG AAGAATCTGC 180TTAGGGTTAG GCGTTTTGCG CTGCTTCGCG ATGTACGGGC CAGATATACG CGTTGACATT 240GATTATTGAC TAGTTATTAA TAGTAATCAA TTACGGGGTC ATTAGTTCAT AGCCCATATA 300TGGAGTTCCG CGTTACATAA CTTACGGTAA ATGGCCCGCC TGGCTGACCG CCCAACGACC 360CCCGCCCATT GACGTCAATA ATGACGTATG TTCCCATAGT AACGCCAATA GGGACTTTCC 420ATTGACGTCA ATGGGTGGAC TATTTACGGT AAACTGCCCA CTTGGCAGTA CATCAAGTGT 480ATCATATGCC AAGTACGCCC CCTATTGACG TCAATGACGG TAAATGGCCC GCCTGGCATT 540ATGCCCAGTA CATGACCTTA TGGGACTTTC CTACTTGGCA GTACATCTAC GTATTAGTCA 600TCGCTATTAC CATGGTGATG CGGTTTTGGC AGTACATCAA TGGGCGTGGA TAGCGGTTTG 660ACTCACGGGG ATTTCCAAGT CTCCACCCCA TTGACGTCAA TGGGAGTTTG TTTTGGCACC 720AAAATCAACG GGACTTTCCA AAATGTCGTA ACAACTCCGC CCCATTGACG CAAATGGGCG 780GTAGGCGTGT ACGGTGGGAG GTCTATATAA GCAGAGCTCT CTGGCTAACT AGAGAACCCA 840CTGCTTACTG GCTTATCGAA ATTAATACGA CTCACTATAG GGAGACCCAA GCTGGCTAGC 900GTTTAAACGG GCCCTCTAGA CTCGAGCGGC CGCCACTGTG CTGGATATCT GCAGAATTCG 960GCTTGGGATG ACGCCTCCTC CGCCCGGACG TGCCGCCCCC AGCGCACCGC GCGCCCGCGT 1020CCCTGGCCCG CCGGCTCGGT TGGGGCTTCC GCTGCGGCTG CGGCTGCTGC TGCTGCTCTG 1080GGCGGCCGCC GCCTCCGCCC AGGGCCACCT AAGGAGCGGA CCCCGCATCT TCGCCGTCTG 1140GAAAGGCCAT GTAGGGCAGG ACCGGGTGGA CTTTGGCCAG ACTGAGCCGC ACACGGTGCT 1200TTTCCACGAG CCAGGCAGCT CCTCTGTGTG GGTGGGAGGA CGTGGCAAGG TCTACCTCTT 1260TGACTTCCCC GAGGGCAAGA ACGCATCTGT GCGCACGGTG AATATCGGCT CCACAAAGGG 1320GTCCTGTCTG GATAAGCGGG ACTGCGAGAA CTACATCACT CTCCTGGAGA GGCGGAGTGA 1380GGGGCTGCTG GCCTGTGGCA CCAACGCCCG GCACCCCAGC TGCTGGAACC TGGTGAATGG 1440CACTGTGGTG CCACTTGGCG AGATGAGAGG CTACGCCCCC TTCAGCCCGG ACGAGAACTC 1500CCTGGTTCTG TTTGAAGGGG ACGAGGTGTA TTCCACCATC CGGAAGCAGG AATACAATGG 1560GAAGATCCCT CGGTTCCGCC GCATCCGGGG CGAGAGTGAG CTGTACACCA GTGATACTGT 1620CATGCAGAAC CCACAGTTCA TCAAAGCCAC CATCGTGCAC CAAGACCAGG CTTACGATGA 1680CAAGATCTAC TACTTCTTCC GAGAGGACAA TCCTGACAAG AATCCTGAGG CTCCTCTCAA 1740TGTGTCCCGT GTGGCCCAGT TGTGCAGGGG GGACCAGGGT GGGGAAAGTT CACTGTCAGT 1800CTCCAAGTGG AACACTTTTC TGAAAGCCAT GCTGGTATGC AGTGATGCTG CCACCAACAA 1860GAACTTCAAC AGGCTGCAAG ACGTCTTCCT GCTCCCTGAC CCCAGCGGCC AGTGGAGGGA 1920CACCAGGGTC TATGGTGTTT TCTCCAACCC CTGGAACTAC TCAGCCGTCT GTGTGTATTC 1980CCTCGGTGAC ATTGACAAGG TCTTCCGTAC CTCCTCACTC AAGGGCTACC ACTCAAGCCT 2040TCCCAACCCG CGGCCTGGCA AGTGCCTCCC AGACCAGCAG CCGATACCCA CAGAGACCTT 2100CCAGGTGGCT GACCGTCACC CAGAGGTGGC GCAGAGGGTG GAGCCCATGG GGCCTCTGAA 2160GACGCCATTG TTCCACTCTA AATACCACTA CCAGAAAGTG GCCGTTCACC GCATGCAAGC 2220CAGCCACGGG GAGACCTTTC ATGTGCTTTA CCTAACTACA GACAGGGGCA CTATCCACAA 2280GGTGGTGGAA CCGGGGGAGC AGGAGCACAG CTTCGCCTTC AACATCATGG AGATCCAGCC 2340CTTCCGCCGC GCGGCTGCCA TCCAGACCAT GTCGCTGGAT GCTGAGCGGA GGAAGCTGTA 00 2400TGTGAGCTCC CAGTGGGAGG TGAGCCAGGT GCCCCTGGAC CTGTGTGAGG TCTATGGCGG 2460 2520CATCTCCATC TACAGCTCCG AACGGTCAGT GCTGCAATCC ATTAATCCAG CCGAGCCACA 2580CAAGGAGTGT CCCAACCCCA AACCAGACAA GGCCCCACTG CAGAAGGTTT CCCTGGCCCC 2640AAACTCTCGC TACTACCTGA GCTGCCCCAT GGAATCCCGC CACGCCACCT ACTCATGGCG 2700CCACAAGGAG AACGTGGAGC AGAGCTGCGA ACCTGGTCAC CAGAGCCCCA ACTGCATCCT 2760GTTCATCGAG AACCTCACGG CGCAGCAGTA CGGCCACTAC TTCTGCGAGG CCCAGGAGGG 2820CTCCTACTTC CGCGAGGCTC AGCACTGGCA GCTGCTGCCC GAGGACGGCA TCATGGCCGA 2880GCACCTGCTG GGTCATGCCT GTGCCCTGGC TGCCTCCCTC TGGCTGGGGG TGCTGCCCAC 2940ACTCACTCTT GGCTTGCTGG TCCACGTGAA GCTTGGGCCC GAACAAAAAC TCATCTCAGA 3000AGAGGATCTG AATAGCGCCG TCGACCATCA TCATCATCAT CATTGAGTTT AAACCGCTGA 3060 3890 3060TCAGCCTCGA CTGTGCCTTC TAGTTGCCAG CCATCTGTTG TTTGCCCCTC CCCCGTGCCT 3120TCCTTGACCC TGGAAGGTGC CACTCCCACT GTCCTTTCCT AATAAAATGA GGAAATTGCA 3180TCGCATTGTC TGAGTAGGTG TCATTCTATT CTGGGGGGTG GGGTGGGGCA GGACAGCAAG 3240GGGGAGGATT GGGAAGACAA TAGCAGGCAT GCTGGGGATG CGGTGGGCTC TATGGCTTCT 3300GAGGCGGAAA GAACCAGCTG GGGCTCTAGG GGGTATCCCC ACGCGCCCTG TAGCGGCGCA 3360TTAAGCGCGG CGGGTGTGGT GGTTACGCGC AGCGTGACCG CTACACTTGC CAGCGCCCTA 3420GCGCCCGCTC CTTTCGCTTT CTTCCCTTCC TTTCTCGCCA CGTTCGCCGG CTTTCCCCGT 3480CAAGCTCTAA ATCGGGGCAT CCCTTTAGGG TTCCGATTTA GTGCTTTACG GCACCTCGAC 3540CCCAAAAAAC TTGATTAGGG TGATGGTTCA CGTAGTGGGC CATCGCCCTG ATAGACGGTT 3600TTTCGCCCTT TGACGTTGGA GTCCACGTTC TTTAATAGTG GACTCTTGTT CCAAACTGGA 3660ACAACACTCA ACCCTATCTC GGTCTATTCT TTTGATTTAT AAGGGATTTT GGGGATTTCG 3720GCCTATTGGT TAAAAAATGA GCTGATTTAA CAAAAATTTA ACGCGAATTA ATTCTGTGGA 3780ATGTGTGTCA GTTAGGGTGT GGAAAGTCCC CAGGCTCCCC AGGCAGGCAG AAGTATGCAA 3840AGCATGCATC TCAATTAGTC AGCAACCAGG TGTGGAAAGT CCCCAGGCTC CCCAGCACGC 3900AGAAGTATGC AAAGCATGCA TCTCAATTAG TCAGCAACCA TAGTCCCGCC CCTAACTCCG 3960CCCATCCCGC CCCTAACTCC GCCCAGTTCC GCCCATTCTC CGCCCCATGG CTGACTAATT 4020TTTTTTATTT ATGCAGAGGC CGAGGCCGCC TCTGCCTCTG AGCTATTCCA GAAGTAGTGA 4080GGAGGCTTTT TTGGAGGCCT AGGCTTTTGC AAAAAGCTCC CGGGAGCTTG TATATCCATT 4140TTCGGATCTG ATCAAGAGAC AGGATGAGGA TCGTTTCGCA TGATTGAACA AGATGGATTG 4200CACGCAGGTT CTCCGGCCGC TTGGGTGGAG AGGCTATTCG GCTATGACTG GGCACAACAG 4260ACAATCGGCT GCTCTGATGC CGCCGTGTTC CGGCTGTCAG CGCAGGGGCG CCCGGTTCTT 4320TTTGTCAAGA CCGACCTGTC CGGTGCCCTG AATGAACTGC AGGACGAGGC AGCGCGGCTA 4380TCGTGGCTGG CCACGACGGG CGTTCCTTGC GCAGCTGTGC TCGACGTTGT CACTGAAGCG 4440GGAAGGGACT GGCTGCTATT GGGCGAAGTG CCGGGGCAGG ATCTCCTGTC ATCTCACCTT 4500GCTCCTGCCG AGAAAGTATC CATCATGGCT GATGCAATGC GGCGGCTGCA TACGCTTGAT 4560CCGGCTACCT GCCCATTCGA CCACCAAGCG AAACATCGCA TCGAGCGAGC ACGTACTCGG 4620ATGGAAGCCG GTCTTGTCGA TCAGGATGAT CTGGACGAAG AGCATCAGGG GCTCGCGCCA 4680GCCGAACTGT TCGCCAGGCT CAAGGCGCGC ATGCCCGACG GCGAGGATCT CGTCGTGACC 4740CATGGCGATG CCTGCTTGCC GAATATCATG GTGGAAAATG GCCGCTTTTC TGGATTCATC 4800GACTGTGGCC GGCTGGGTGT GGCGGACCGC TATCAGGACA TAGCGTTGGC TACCCGTGAT 4860ATTGCTGAAG AGCTTGGCGG CGAATGGGCT GACCGCTTCC TCGTGCTTTA CGGTATCGCC 4920GCTCCCGATT CGCAGCGCAT CGCCTTCTAT CGCCTTCTTG ACGAGTTCTT CTGAGCGGGA 4980CTCTGGGGTT CGAAATGACC GACCAAGCGA CGCCCAACCT GCCATCACGA GATTTCGATT 5040CCACCGCCGC CTTCTATGAA AGGTTGGGCT TCGGAATCGT TTTCCGGGAC GCCGGCTGGA 5100TGATCCTCCA GCGCGGGGAT CTCATGCTGG AGTTCTTCGC CCACCCCAAC TTGTTTATTG 5160CAGCTTATAA TGGTTACAAA TAAAGCAATA GCATCACAAA TTTCACAAAT AAAGCATTTT 5220TTTCACTGCA TTCTAGTTGT GGTTTGTCCA AACTCATCAA TGTATCTTAT CATGTCTGTA 5280TACCGTCGAC CTCTAGCTAG AGCTTGGCGT AATCATGGTC ATAGCTGTTT CCTGTGTGAA 5340ATTGTTATCC GCTCACAATT CCACACAACA TACGAGCCGG AAGCATAAAG TGTAAAGCCT 5400GGGGTGCCTA ATGAGTGAGC TAACTCACAT TAATTGCGTT GCGCTCACTG CCCGCTTTCC 5460AGTCGGGAAA CCTGTCGTGC CAGCTGCATT AATGAATCGG CCAACGCGCG GGGAGAGGCG 5520GTTTGCGTAT TGGGCGCTCT TCCGCTTCCT CGCTCACTGA CTCGCTGCGC TCGGTCGTTC 5580GGCTGCGGCG AGCGGTATCA GCTCACTCAA AGGCGGTAAT ACGGTTATCC ACAGAATCAG 5640 38740 5640GGGATAACGC AGGAAAGAAC ATGTGAGCAA AAGGCCAGCA AAAGGCCAGG AACCGTAAAA 5700AGGCCGCGTT GCTGGCGTTT TTCCATAGGC TCCGCCCCCC TGACGAGCAT CACAAAAATC 5760GACGCTCAAG TCAGAGGTGG CGAAACCCGA CAGGACTATA AAGATACCAG GCGTTTCCCC 5820CTGGAAGCTC CCTCGTGCGC TCTCCTGTTC CGACCCTGCC GCTTACCGGA TACCTGTCCG 5880CCTTTCTCCC TTCGGGAAGC GTGGCGCTTT CTCAATGCTC ACGCTGTAGG TATCTCAGTT 5940CGGTGTAGGT CGTTCGCTCC AAGCTGGGCT GTGTGCACGA ACCCCCCGTT CAGCCCGACC 6000GCTGCGCCTT ATCCGGTAAC TATCGTCTTG AGTCCAACCC GGTAAGACAC GACTTATCGC 6060CACTGGCAGC AGCCACTGGT AACAGGATTA GCAGAGCGAG GTATGTAGGC GGTGCTACAG 6120AGTTCTTGAA GTGGTGGCCT AACTACGGCT ACACTAGAAG GACAGTATTT GGTATCTGCG 6180CTCTGCTGAA GCCAGTTACC TTCGGAAAAA GAGTTGGTAG CTCTTGATCC GGCAAACAAA 6240CCACCGCTGG TAGCGGTGGT TTTTTTGTTT GCAAGCAGCA GATTACGCGC AGAAAAAAAG 6300GATCTCAAGA AGATCCTTTG ATCTTTTCTA CGGGGTCTGA CGCTCAGTGG AACGAAAACT 6360 63 6360CACGTTAAGG GATTTTGGTC ATGAGATTAT CAAAAAGGAT CTTCACCTAG ATCCTTTTAA 6420ATTAAAAATG AAGTTTTAAA TCAATCTAAA GTATATATGA GTAAACTTGG TCTGACAGTT 6480ACCAATGCTT AATCAGTGAG GCACCTATCT CAGCGATCTG TCTATTTCGT TCATCCATAG 6540TTGCCTGACT CCCCGTCGTG TAGATAACTA CGATACGGGA GGGCTTACCA TCTGGCCCCA 6600GTGCTGCAAT GATACCGCGA GACCCACGCT CACCGGCTCC AGATTTATCA GCAATAAACC 6660AGCCAGCCGG AAGGGCCGAG CGCAGAAGTG GTCCTGCAAC TTTATCCGCC TCCATCCAGT 6720CTATTAATTG TTGCCGGGAA GCTAGAGTAA GTAGTTCGCC AGTTAATAGT TTGCGCAACG 6780TTGTTGCCAT TGCTACAGGC ATCGTGGTGT CACGCTCGTC GTTTGGTATG GCTTCATTCA 6840GCTCCGGTTC CCAACGATCA AGGCGAGTTA CATGATCCCC CATGTTGTGC AAAAAAGCGG 6900TTAGCTCCTT CGGTCCTCCG ATCGTTGTCA GAAGTAAGTT GGCCGCAGTG TTATCACTCA 6960TGGTTATGGC AGCACTGCAT AATTCTCTTA CTGTCATGCC ATCCGTAAGA TGCTTTTCTG 7020TGACTGGTGA GTACTCAACC AAGTCATTCT GAGAATAGTG TATGCGGCGA CCGAGTTGCT 7080CTTGCCCGGC GTCAATACGG GATAATACCG CGCCACATAG CAGAACTTTA AAAGTGCTCA 7140TCATTGGAAA ACGTTCTTCG GGGCGAAAAC TCTCAAGGAT CTTACCGCTG TTGAGATCCA 7200GTTCGATGTA ACCCACTCGT GCACCCAACT GATCTTCAGC ATCTTTTACT TTCACCAGCG 7260TTTCTGGGTG AGCAAAAACA GGAAGGCAAA ATGCCGCAAA AAAGGGAATA AGGGCGACAC 7320GGAAATGTTG AATACTCATA CTCTTCCTTT TTCAATATTA TTGAAGCATT TATCAGGGTT 7380ATTGTCTCAT GAGCGGATAC ATATTTGAAT GTATTTAGAA AAATAAACAA ATAGGGGTTC 7440CGCGCACATT TCCCCGAAAA GTGCCACCTG ACGTC 7475

(2) Information of SEQ ID NO:36:

sequence characteristics:

(A) length: 8192 base pairs

(B) Type (2): nucleic acids

(C) Chain type: single strand

(D) Topological structure: wire type

(ii) type of molecule: DNA (of the genome)

(ix) feature:

(A) name/keyword: exon(s)

(B) Position: 1..8192

(xi) sequence description: SEQ ID NO 36: GACGGATCGG GAGATCTCCC GATCCCCTAT GGTCGACTCT CAGTACAATC TGCTCTGATG 60CCGCATAGTT AAGCCAGTAT CTGCTCCCTG CTTGTGTGTT GGAGGTCGCT GAGTAGTGCG 120CGAGCAAAAT TTAAGCTACA ACAAGGCAAG GCTTGACCGA CAATTGCATG AAGAATCTGC 180TTAGGGTTAG GCGTTTTGCG CTGCTTCGCG ATGTACGGGC CAGATATACG CGTTGACATT 240GATTATTGAC TAGTTATTAA TAGTAATCAA TTACGGGGTC ATTAGTTCAT AGCCCATATA 300TGGAGTTCCG CGTTACATAA CTTACGGTAA ATGGCCCGCC TGGCTGACCG CCCAACGACC 360CCCGCCCATT GACGTCAATA ATGACGTATG TTCCCATAGT AACGCCAATA GGGACTTTCC 420ATTGACGTCA ATGGGTGGAC TATTTACGGT AAACTGCCCA CTTGGCAGTA CATCAAGTGT 480ATCATATGCC AAGTACGCCC CCTATTGACG TCAATGACGG TAAATGGCCC GCCTGGCATT 540ATGCCCAGTA CATGACCTTA TGGGACTTTC CTACTTGGCA GTACATCTAC GTATTAGTCA 600TCGCTATTAC CATGGTGATG CGGTTTTGGC AGTACATCAA TGGGCGTGGA TAGCGGTTTG 660ACTCACGGGG ATTTCCAAGT CTCCACCCCA TTGACGTCAA TGGGAGTTTG TTTTGGCACC 720AAAATCAACG GGACTTTCCA AAATGGTCGTA ACAACTCCGC CCCATTGACG CAAATGGGCG 780GTAGGCGTGT ACGGTGGGAG GTCTATATAA GCAGAGCTCT CTGGCTAACT AGAGAACCCA 840CTGCTTACTG GCTTATCGAA ATTAATACGA CTCACTATAG GGAGACCCAA GCTGGCTAGC 900GTTTAAACGG GCCCTCTAGA CTCGAGCGGC CGCCACTGTG CTGGATATCT GCAGAATTCG 960GCTTGGGATG ACGCCTCCTC CGCCCGGACG TGCCGCCCCC AGCGCACCGC GCGCCCGCGT 1020CCCTGGCCCG CCGGCTCGGT TGGGGCTTCC GCTGCGGCTG CGGCTGCTGC TGCTGCTCTG 1080GGCGGCCGCC GCCTCCGCCC AGGGCCACCT AAGGAGCGGA CCCCGCATCT TCGCCGTCTG 1140GAAAGGCCAT GTAGGGCAGG ACCGGGTGGA CTTTGGCCAG ACTGAGCCGC ACACGGTGCT 1200TTTCCACGAG CCAGGCAGCT CCTCTGTGTG GGTGGGAGGA CGTGGCAAGG TCTACCTCTT 1260TGACTTCCCC GAGGGCAAGA ACGCATCTGT GCGCACGGTG AATATCGGCT CCACAAAGGG 1320GTCCTGTCTG GATAAGCGGG ACTGCGAGAA CTACATCACT CTCCTGGAGA GGCGGAGTGA 1380GGGGCTGCTG GCCTGTGGCA CCAACGCCCG GCACCCCAGC TGCTGGAACC TGGTGAATGG 1440CACTGTGGTG CCACTTGGCG AGATGAGAGG CTACGCCCCC TTCAGCCCGG ACGAGAACTC 1500CCTGGTTCTG TTTGAAGGGG ACGAGGTGTA TTCCACCATC CGGAAGCAGG AATACAATGG 1560GAAGATCCCT CGGTTCCGCC GCATCCGGGG CGAGAGTGAG CTGTACACCA GTGATACTGT 1620CATGCAGAAC CCACAGTTCA TCAAAGCCAC CATCGTGCAC CAAGACCAGG CTTACGATGA 1680CAAGATCTAC TACTTCTTCC GAGAGGACAA TCCTGACAAG AATCCTGAGG CTCCTCTCAA 1740TGTGTCCCGT GTGGCCCAGT TGTGCAGGGG GGACCAGGGT GGGGAAAGTT CACTGTCAGT 1800CTCCAAGTGG AACACTTTTC TGAAAGCCAT GCTGGTATGC AGTGATGCTG CCACCAACAA 1860GAACTTCAAC AGGCTGCAAG ACGTCTTCCT GCTCCCTGAC CCCAGCGGCC AGTGGAGGGA 1920CACCAGGGTC TATGGTGTTT TCTCCAACCC CTGGAACTAC TCAGCCGTCT GTGTGTATTC 1980CCTCGGTGAC ATTGACAAGG TCTTCCGTAC CTCCTCACTC AAGGGCTACC ACTCAAGCCT 2040TCCCAACCCG CGGCCTGGCA AGTGCCTCCC AGACCAGCAG CCGATACCCA CAGAGACCTT 2100CCAGGTGGCT GACCGTCACC CAGAGGTGGC GCAGAGGGTG GAGCCCATGG GGCCTCTGAA 2160GACGCCATTG TTCCACTCTA AATACCACTA CCAGAAAGTG GCCGTTCACC GCATGCAAGC 2220CAGCCACGGG GAGACCTTTC ATGTGCTTTA CCTAACTACA GACAGGGGCA CTATCCACAA 2280GGTGGTGGAA CCGGGGGAGC AGGAGCACAG CTTCGCCTTC AACATCATGG AGATCCAGCC 2340CTTCCGCCGC GCGGCTGCCA TCCAGACCAT GTCGCTGGAT GCTGAGCGGA GGAAGCTGTA 00 2400TGTGAGCTCC CAGTGGGAGG TGAGCCAGGT GCCCCTGGAC CTGTGTGAGG TCTATGGCGG 2460 2520CATCTCCATC TACAGCTCCG AACGGTCAGT GCTGCAATCC ATTAATCCAG CCGAGCCACA 2580CAAGGAGTGT CCCAACCCCA AACCAGACAA GGCCCCACTG CAGAAGGTTT CCCTGGCCCC 2640AAACTCTCGC TACTACCTGA GCTGCCCCAT GGAATCCCGC CACGCCACCT ACTCATGGCG 2700CCACAAGGAG AACGTGGAGC AGAGCTGCGA ACCTGGTCAC CAGAGCCCCA ACTGCATCCT 2760GTTCATCGAG AACCTCACGG CGCAGCAGTA CGGCCACTAC TTCTGCGAGG CCCAGGAGGG 2820CTCCTACTTC CGCGAGGCTC AGCACTGGCA GCTGCTGCCC GAGGACGGCA TCATGGCCGA 2880GCACCTGCTG GGTCATGCCT GTGCCCTGGC TGCCTCCCTC TGGCTGGGGG TGCTGCCCAC 2940ACTCACTCTT GGCTTGCTGG TCCACATGGT GAGCAAGGGC GAGGAGCTGT TCACCGGGGT 3000GGTGCCCATC CTGGTCGAGC TGGACGGCGA CGTAAACGGC CACAAGTTCA GCGTGTCCGG 3060 3890 3060CGAGGGCGAG GGCGATGCCA CCTACGGCAA GCTGACCCTG AAGTTCATCT GCACCACCGG 3120CAAGCTGCCC GTGCCCTGGC CCACCCTCGT GACCACCCTG ACCTACGGCG TGCAGTGCTT 3180CAGCCGCTAC CCCGACCACA TGAAGCAGCA CGACTTCTTC AAGTCCGCCA TGCCCGAAGG 3240CTACGTCCAG GAGCGCACCA TCTTCTTCAA GGACGACGGC AACTACAAGA CCCGCGCCGA 3300GGTGAAGTTC GAGGGCGACA CCCTGGTGAA CCGCATCGAG CTGAAGGGCA TCGACTTCAA 3360GGAGGACGGC AACATCCTGG GGCACAAGCT GGAGTACAAC TACAACAGCC ACAACGTCTA 3420TATCATGGCC GACAAGCAGA AGAACGGCAT CAAGGTGAAC TTCAAGATCC GCCACAACAT 3480CGAGGACGGC AGCGTGCAGC TCGCCGACCA CTACCAGCAG AACACCCCCA TCGGCGACGG 3540CCCCGTGCTG CTGCCCGACA ACCACTACCT GAGCACCCAG TCCGCCCTGA GCAAAGACCC 3600CAACGAGAAG CGCGATCACA TGGTCCTGCT GGAGTTCGTG ACCGCCGCCG GGATCACTCT 3660CGGCATGGAC GAGCTGTACA AGGTGAAGCT TGGGCCCGAA CAAAAACTCA TCTCAGAAGA 3720GGATCTGAAT AGCGCCGTCG ACCATCATCA TCATCATCAT TGAGTTTAAA CCGCTGATCA 3780GCCTCGACTG TGCCTTCTAG TTGCCAGCCA TCTGTTGTTT GCCCCTCCCC CGTGCCTTCC 3840TTGACCCTGG AAGGTGCCAC TCCCACTGTC CTTTCCTAAT AAAATGAGGA AATTGCATCG 3900CATTGTCTGA GTAGGTGTCA TTCTATTCTG GGGGGTGGGG TGGGGCAGGA CAGCAAGGGG 3960GAGGATTGGG AAGACAATAG CAGGCATGCT GGGGATGCGG TGGGCTCTAT GGCTTCTGAG 4020GCGGAAAGAA CCAGCTGGGG CTCTAGGGGG TATCCCCACG CGCCCTGTAG CGGCGCATTA 4080AGCGCGGCGG GTGTGGTGGT TACGCGCAGC GTGACCGCTA CACTTGCCAG CGCCCTAGCG 4140CCCGCTCCTT TCGCTTTCTT CCCTTCCTTT CTCGCCACGT TCGCCGGCTT TCCCCGTCAA 4200GCTCTAAATC GGGGCATCCC TTTAGGGTTC CGATTTAGTG CTTTACGGCA CCTCGACCCC 4260AAAAAACTTG ATTAGGGTGA TGGTTCACGT AGTGGGCCAT CGCCCTGATA GACGGTTTTT 4320CGCCCTTTGA CGTTGGAGTC CACGTTCTTT AATAGTGGAC TCTTGTTCCA AACTGGAACA 4380ACACTCAACC CTATCTCGGT CTATTCTTTT GATTTATAAG GGATTTTGGG GATTTCGGCC 4440TATTGGTTAA AAAATGAGCT GATTTAACAA AAATTTAACG CGAATTAATT CTGTGGAATG 4500TGTGTCAGTT AGGGTGTGGA AAGTCCCCAG GCTCCCCAGG CAGGCAGAAG TATGCAAAGC 4560ATGCATCTCA ATTAGTCAGC AACCAGGTGT GGAAAGTCCC CAGGCTCCCC AGCAGGCAGA 4620AGTATGCAAA GCATGCATCT CAATTAGTCA GCAACCATAG TCCCGCCCCT AACTCCGCCC 4680ATCCCGCCCC TAACTCCGCC CAGTTCCGCC CATTCTCCGC CCCATGGCTG ACTAATTTTT 4740TTTATTTATG CAGAGGCCGA GGCCGCCTCT GCCTCTGAGC TATTCCAGAA GTAGTGAGGA 4800GGCTTTTTTG GAGGCCTAGG CTTTTGCAAA AAGCTCCCGG GAGCTTGTAT ATCCATTTTC 4860GGATCTGATC AAGAGACAGG ATGAGGATCG TTTCGCATGA TTGAACAAGA TGGATTGCAC 4920GCAGGTTCTC CGGCCGCTTG GGTGGAGAGG CTATTCGGCT ATGACTGGGC ACAACAGACA 4980ATCGGCTGCT CTGATGCCGC CGTGTTCCGG CTGTCAGCGC AGGGGCGCCC GGTTCTTTTT 5040GTCAAGACCG ACCTGTCCGG TGCCCTGAAT GAACTGCAGG ACGAGGCAGC GCGGCTATCG 5100TGGCTGGCCA CGACGGGCGT TCCTTGCGCA GCTGTGCTCG ACGTTGTCAC TGAAGCGGGA 5160AGGGACTGGC TGCTATTGGG CGAAGTGCCG GGGCAGGATC TCCTGTCATC TCACCTTGCT 5220CCTGCCGAGA AAGTATCCAT CATGGCTGAT GCAATGCGGC GGCTGCATAC GCTTGATCCG 5280GCTACCTGCC CATTCGACCA CCAAGCGAAA CATCGCATCG AGCGAGCACG TACTCGGATG 5340GAAGCCGGTC TTGTCGATCA GGATGATCTG GACGAAGAGC ATCAGGGGCT CGCGCCAGCC 5400GAACTGTTCG CCAGGCTCAA GGCGCGCATG CCCGACGGCG AGGATCTCGT CGTGACCCAT 5460GGCGATGCCT GCTTGCCGAA TATCATGGTG GAAAATGGCC GCTTTTCTGG ATTCATCGAC 5520TGTGGCCGGC TGGGTGTGGC GGACCGCTAT CAGGACATAG CGTTGGCTAC CCGTGATATT 5580GCTGAAGAGC TTGGCGGCGA ATGGGCTGAC CGCTTCCTCG TGCTTTACGG TATCGCCGCT 5640 38740 5640CCCGATTCGC AGCGCATCGC CTTCTATCGC CTTCTTGACG AGTTCTTCTG AGCGGGACTC 5700TGGGGTTCGA AATGACCGAC CAAGCGACGC CCAACCTGCC ATCACGAGAT TTCGATTCCA 5760CCGCCGCCTT CTATGAAAGG TTGGGCTTCG GAATCGTTTT CCGGGACGCC GGCTGGATGA 5820TCCTCCAGCG CGGGGATCTC ATGCTGGAGT TCTTCGCCCA CCCCAACTTG TTTATTGCAG 5880CTTATAATGG TTACAAATAA AGCAATAGCA TCACAAATTT CACAAATAAA GCATTTTTTT 5940CACTGCATTC TAGTTGTGGT TTGTCCAAAC TCATCAATGT ATCTTATCAT GTCTGTATAC 6000CGTCGACCTC TAGCTAGAGC TTGGCGTAAT CATGGTCATA GCTGTTTCCT GTGTGAAATT 6060GTTATCCGCT CACAATTCCA CACAACATAC GAGCCGGAAG CATAAAGTGT AAAGCCTGGG 6120GTGCCTAATG AGTGAGCTAA CTCACATTAA TTGCGTTGCG CTCACTGCCC GCTTTCCAGT 6180CGGGAAACCT GTCGTGCCAG CTGCATTAAT GAATCGGCCA ACGCGCGGGG AGAGGCGGTT 6240TGCGTATTGG GCGCTCTTCC GCTTCCTCGC TCACTGACTC GCTGCGCTCG GTCGTTCGGC 6300TGCGGCGAGC GGTATCAGCT CACTCAAAGG CGGTAATACG GTTATCCACA GAATCAGGGG 6360 63 6360ATAACGCAGG AAAGAACATG TGAGCAAAAG GCCAGCAAAA GGCCAGGAAC CGTAAAAAGG 6420CCGCGTTGCT GGCGTTTTTC CATAGGCTCC GCCCCCCTGA CGAGCATCAC AAAAATCGAC 6480GCTCAAGTCA GAGGTGGCGA AACCCGACAG GACTATAAAG ATACCAGGCG TTTCCCCCTG 6540GAAGCTCCCT CGTGCGCTCT CCTGTTCCGA CCCTGCCGCT TACCGGATAC CTGTCCGCCT 6600TTCTCCCTTC GGGAAGCGTG GCGCTTTCTC AATGCTCACG CTGTAGGTAT CTCAGTTCGG 6660TGTAGGTCGT TCGCTCCAAG CTGGGCTGTG TGCACGAACC CCCCGTTCAG CCCGACCGCT 6720GCGCCTTATC CGGTAACTAT CGTCTTGAGT CCAACCCGGT AAGACACGAC TTATCGCCAC 6780TGGCAGCAGC CACTGGTAAC AGGATTAGCA GAGCGAGGTA TGTAGGCGGT GCTACAGAGT 6840TCTTGAAGTG GTGGCCTAAC TACGGCTACA CTAGAAGGAC AGTATTTGGT ATCTGCGCTC 6900TGCTGAAGCC AGTTACCTTC GGAAAAAGAG TTGGTAGCTC TTGATCCGGC AAACAAACCA 6960CCGCTGGTAG CGGTGGTTTT TTTGTTTGCA AGCAGCAGAT TACGCGCAGA AAAAAAGGAT 7020CTCAAGAAGA TCCTTTGATC TTTTCTACGG GGTCTGACGC TCAGTGGAAC GAAAACTCAC 7080GTTAAGGGAT TTTGGTCATG AGATTATCAA AAAGGATCTT CACCTAGATC CTTTTAAATT 7140 7227 7200AATGCTTAAT CAGTGAGGCA CCTATCTCAG CGATCTGTCT ATTTCGTTCA TCCATAGTTG 7260CCTGACTCCC CGTCGTGTAG ATAACTACGA TACGGGAGGG CTTACCATCT GGCCCCAGTG 7320CTGCAATGAT ACCGCGAGAC CCACGCTCAC CGGCTCCAGA TTTATCAGCA ATAAACCAGC 7380CAGCCGGAAG GGCCGAGCGC AGAAGTGGTC CTGCAACTTT ATCCGCCTCC ATCCAGTCTA 7440TTAATTGTTG CCGGGAAGCT AGAGTAAGTA GTTCGCCAGT TAATAGTTTG CGCAACGTTG 7500TTGCCATTGC TACAGGCATC GTGGTGTCAC GCTCGTCGTT TGGTATGGCT TCATTCAGCT CCGGTTCCCA ACGATCAAGG CGAGTTACAT GATCCCCCAT GTTGTGCAAA AAAGCGGTTA 7620AGATCTCGGC CGCATATTAA GTGCATTGTT CTCGATACCG CTAAGTGCAT TGTTCTCGTT AGCTCGATGG ACAAGTGCAT TGTTCTCTTG CTGAAAGCTC GATGGACAAG TGCATTGTTC TCTTGCTGAA AGCTCGATGG ACAAGTGCAT TGTTCTCTTG CTGAAAGCTC AGTACCCGGG AGTACCCTCG ACCGCCGGAG TATAAATAGA GGCGCTTCGT CTACGGAGCG ACAATTCAAT 240TCAAACAAGC AAAGTGAACA CGTCGCTAAG CGAAAGCTAA GCAAATAAAC AAGCGCAGCT 300GAACAAGCTA AACAATCTGC AGTAAAGTGC AAGTTAAAGT GAATCAATTA AAAGTAACCA 360GCAACCAAGT AAATCAACTG CAACTACTGA AATCTGCCAA GAAGTAATTA TTGAATACAA 420 39420 420GAAGAGAACT CTGAATACTT TCAACAAGTT ACCGAGAAAG AAGAACTCAC ACACAGCTAG 480CGTTTAAACT TAAGCTTGGT ACCGAGCTCG GATCCACTAG TCCAGTGTGG TGGAATTCGG 540

(2) 37, SEQ ID NO:

sequence characteristics:

(A) length: 7000 base pairs

(B) Type (2): nucleic acids

(C) Chain type: single strand

(D) Topological structure: wire type

(ii) type of molecule: DNA (of the genome)

(ix) feature:

(A) name/keyword: exon(s)

(B) Position: 1..7000

(xi) sequence description: SEQ ID NO 37: GCTCCTTCGG TCCTCCGATC GTTGTCAGAA GTAAGTTGGC CGCAGTGTTA TCACTCATGG 7680TTATGGCAGC ACTGCATAAT TCTCTTACTG TCATGCCATC CGTAAGATGC TTTTCTGTGA 7740CTGGTGAGTA CTCAACCAAG TCATTCTGAG AATAGTGTAT GCGGCGACCG AGTTGCTCTT 7800GCCCGGCGTC AATACGGGAT AATACCGCGC CACATAGCAG AACTTTAAAA GTGCTCATCA 7860TTGGAAAACG TTCTTCGGGG CGAAAACTCT CAAGGATCTT ACCGCTGTTG AGATCCAGTT 7920CGATGTAACC CACTCGTGCA CCCAACTGAT CTTCAGCATC TTTTACTTTC ACCAGCGTTT 7980CTGGGTGAGC AAAAACAGGA AGGCAAAATG CCGCAAAAAA GGGAATAAGG GCGACACGGA 8040AATGTTGAAT ACTCATACTC TTCCTTTTTC AATATTATTG AAGCATTTAT CAGGGTTATT 8100GTCTCATGAG CGGATACATA TTTGAATGTA TTTAGAAAAA TAAACAAATA GGGGTTCCGC 8160GCACATTTCC CCGAAAAGTG CCACCTGACG TC 8192CTTGGGATGA CGCCTCCTCC GCCCGGACGT GCCGCCCCCA GcGCAccGCG CGCCCGCGTC 600CCTGGCCCGC CGGCTCGGTT GGGGCTTCCG CTGCGGCTGC GGCTGCTGCT GCTGCTCTGG 660GCGGCCGCCG CCTCCGCCCA GGGCCACCTA AGGAGCGGAC CCCGCATCTT CGCCGTCTGG 720AAAGGCCATG TAGGGCAGGA CCGGGTGGAC TTTGGCCAGA CTGAGCCGCA CACGGTGCTT 780TTCCACGAGC CAGGCAGCTC CTCTGTGTGG GTGGGAGGAC GTGGCAAGGT CTACCTCTTT 840GACTTCCCCG AGGGCAAGAA CGCATCTGTG CGCACGGTGA ATATCGGCTC CACAAAGGGG 900TCCTGTCTGG ATAAGCGGGA CTGCGAGAAC TACATCACTC TCCTGGAGAG GCGGAGTGAG 960 82960 960GGGCTGCTGG CCTGTGGCAC CAACGCCCGG CACCCCAGCT GCTGGAACCT GGTGAATGGC 1020ACTGTGGTGC CACTTGGCGA GATGAGAGGC TACGCCCCCT TCAGCCCGGA CGAGAACTCC 1080CTGGTTCTGT TTGAAGGGGA CGAGGTGTAT TCCACCATCC GGAAGCAGGA ATACAATGGG 1140AAGATCCCTC GGTTCCGCCG CATCCGGGGC GAGAGTGAGC TGTACACCAG TGATACTGTC 1200ATGCAGAACC CACAGTTCAT CAAAGCCACC ATCGTGCACC AAGACCAGGC TTACGATGAC 1260AAGATCTACT ACTTCTTCCG AGAGGACAAT CCTGACAAGA ATCCTGAGGC TCCTCTCAAT 1320GTGTCCCGTG TGGCCCAGTT GTGCAGGGGG GACCAGGGTG GGGAAAGTTC ACTGTCAGTC 1380TCCAAGTGGA ACACTTTTCT GAAAGCCATG CTGGTATGCA GTGATGCTGC CACCAACAAG 1440AACTTCAACA GGCTGCAAGA CGTCTTCCTG CTCCCTGACC CCAGCGGCCA GTGGAGGGAC 1500ACCAGGGTCT ATGGTGTTTT CTCCAACCCC TGGAACTACT CAGCCGTCTG TGTGTATTCC 1560CTCGGTGACA TTGACAAGGT CTTCCGTACC TCCTCACTCA AGGGCTACCA CTCAAGCCTT 1620CCCAACCCGC GGCCTGGCAA GTGCCTCCCA GACCAGCAGC CGATACCCAC AGAGACCTTC 1680CAGGTGGCTG ACCGTCACCC AGAGGTGGCG CAGAGGGTGG AGCCCATGGG GCCTCTGAAG 1740ACGCCATTGT TCCACTCTAA ATACCACTAC CAGAAAGTGG CCGTTCACCG CATGCAAGCC 1800AGCCACGGGG AGACCTTTCA TGTGCTTTAC CTAACTACAG ACAGGGGCAC TATCCACAAG 1860GTGGTGGAAC CGGGGGAGCA GGAGCACAGC TTCGCCTTCA ACATCATGGA GATCCAGCCC 1920TTCCGCCGCG CGGCTGCCAT CCAGACCATG TCGCTGGATG CTGAGCGGAG GAAGCTGTAT 1980GTGAGCTCCC AGTGGGAGGT GAGCCAGGTG CCCCTGGACC TGTGTGAGGT CTATGGCGGG 2040GGCTGCCACG GTTGCCTCAT GTCCCGAGAC CCCTACTGCG GCTGGGACCA GGGCCGCTGC 2100ATCTCCATCT ACAGCTCCGA ACGGTCAGTG CTGCAATCCA TTAATCCAGC CGAGCCACAC 2160AAGGAGTGTC CCAACCCCAA ACCAGACAAG GCCCCACTGC AGAAGGTTTC CCTGGCCCCA 2220AACTCTCGCT ACTACCTGAG CTGCCCCATG GAATCCCGCC ACGCCACCTA CTCATGGCGC 2280CACAAGGAGA ACGTGGAGCA GAGCTGCGAA CCTGGTCACC AGAGCCCCAA CTGCATCCTG 2340TTCATCGAGA ACCTCACGGC GCAGCAGTAC GGCCACTACT TCTGCGAGGC CCAGGAGGGC 2400TCCTACTTCC GCGAGGCTCA GCACTGGCAG CTGCTGCCCG AGGACGGCAT CATGGCCGAG 2460CACCTGCTGG GTCATGCCTG TGCCCTGGCT GCCTCCCTCT GGCTGGGGGT GCTGCCCACA 2520CTCACTCTTG GCTTGCTGGT CCACGTGAAG CTTGGGCCCG TTTAAACCCG CTGATCAGCC 2580TCGACTGTGC CTTCTAGTTG CCAGCCATCT GTTGTTTGCC CCTCCCCCGT GCCTTCCTTG 2640ACCCTGGAAG GTGCCACTCC CACTGTCCTT TCCTAATAAA ATGAGGAAAT TGCATCGCAT 2700TGTCTGAGTA GGTGTCATTC TATTCTGGGG GGTGGGGTGG GGCAGGACAG CAAGGGGGAG 2760GATTGGGAAG ACAATAGCAG GCATGCTGGG GATGCGGTGG GCTCTATGGC TTCTGAGGCG 2820GAAAGAACCA GCTGGGGCTC TAGGGGGTAT CCCCACGCGC CCTGTAGCGG CGCATTAAGC 2880GCGGCGGGTG TGGTGGTTAC GCGCAGCGTG ACCGCTACAC TTGCCAGCGC CCTAGCGCCC 2940GCTCCTTTCG CTTTCTTCCC TTCCTTTCTC GCCACGTTCG CCGGCTTTCC CCGTCAAGCT 3000CTAAATCGGG GCATCCCTTT AGGGTTCCGA TTTAGTGCTT TACGGCACCT CGACCCCAAA 3060AAACTTGATT AGGGTGATGG TTCACGTAGT GGGCCATCGC CCTGATAGAC GGTTTTTCGC 3120CCTTTGACGT TGGAGTCCAC GTTCTTTAAT AGTGGACTCT TGTTCCAAAC TGGAACAACA 3129 3240TGGTTAAAAA ATGAGCTGAT TTAACAAAAA TTTAACGCGA ATTAATTCTG TGGAATGTGT 3300GTCAGTTAGG GTGTGGAAAG TCCCCAGGCT CCCCAGGCAG GCAGAAGTAT GCAAAGCATG 3360 463420 ATGCAAAGCA TGCATCTCAA TTAGTCAGCA ACCATAGTCC CGCCCCTAAC TCCGCCCATC 3480CCGCCCCTAA CTCCGCCCAG TTCCGCCCAT TCTCCGCCCC ATGGCTGACT AATTTTTTTT 3540ATTTATGCAG AGGCCGAGGC CGCCTCTGCC TCTGAGCTAT TCCAGAAGTA GTGAGGAGGC 3600TTTTTTGGAG GCCTAGGCTT TTGCAAAAAG CTCCCGGGAG CTTGTATATC CATTTTCGGA 3660TCTGATCAAG AGACAGGATG AGGATCGTTT CGCATGATTG AACAAGATGG ATTGCACGCA 3720GGTTCTCCGG CCGCTTGGGT GGAGAGGCTA TTCGGCTATG ACTGGGCACA ACAGACAATC 3780GGCTGCTCTG ATGCCGCCGT GTTCCGGCTG TCAGCGCAGG GGCGCCCGGT TCTTTTTGTC 3840AAGACCGACC TGTCCGGTGC CCTGAATGAA CTGCAGGACG AGGCAGCGCG GCTATCGTGG 3900CTGGCCACGA CGGGCGTTCC TTGCGCAGCT GTGCTCGACG TTGTCACTGA AGCGGGAAGG 3960GACTGGCTGC TATTGGGCGA AGTGCCGGGG CAGGATCTCC TGTCATCTCA CCTTGCTCCT 4020GCCGAGAAAG TATCCATCAT GGCTGATGCA ATGCGGCGGC TGCATACGCT TGATCCCGCT 4080ACCTGCCCAT TCGACCACCA AGCGAAACAT CGCATCGAGC GAGCACGTAC TCGGATGGAA 4140GCCGGTCTTG TCGATCAGGA TGATCTGGAC GAAGAGCATC AGGGGCTCGC GCCAGCCGAA 4200CTGTTCGCCA GGCTCAAGGC GCGCATGCCC GACGGCGAGG ATCTCGTCGT GACCCATGGC 4260GATGCCTGCT TGCCGAATAT CATGGTGGAA AATGGCCGCT TTTCTGGATT CATCGACTGT 4320GGCCGGCTGG GTGTGGCGGA CCGCTATCAG GACATAGCGT TGGCTACCCG TGATATTGCT 4380GAAGAGCTTG GCGGCGAATG GGCTGACCGC TTCCTCGTGC TTTACGGTAT CGCCGCTCCC 4440GATTCGCAGC GCATCGCCTT CTATCGCCTT CTTGACGAGT TCTTCTGAGC GGGACTCTGG 4500GGTTCGAAAT GACCGACCAA GCGACGCCCA ACCTGCCATC ACGAGATTTC GATTCCACCG 4560CCGCCTTCTA TGAAAGGTTG GGCTTCGGAA TCGTTTTCCG GGACGCCGGC TGGATGATCC 4620TCCAGCGCGG GGATCTCATG CTGGAGTTCT TCGCCCACCC CAACTTGTTT ATTGCAGCTT 4680ATAATGGTTA CAAATAAAGC AATAGCATCA CAAATTTCAC AAATAAAGCA TTTTTTTCAC 4740 6340 4740TGCATTCTAG TTGTGGTTTG TCCAAACTCA TCAATGTATC TTATCATGTC TGTATACCGT 4800CGACCTCTAG CTAGAGCTTG GCGTAATCAT GGTCATAGCT GTTTCCTGTG TGAAATTGTT 4860ATCCGCTCAC AATTCCACAC AACATACGAG CCGGAAGCAT AAAGTGTAAA GCCTGGGGTG 4920CCTAATGAGT GAGCTAACTC ACATTAATTG CGTTGCGCTC ACTGCCCGCT TTCCAGTCGG 4980GAAACCTGTC GTGCCAGCTG CATTAATGAA TCGGCCAACG CGCGGGGAGA GGCGGTTTGC 5040GTATTGGGCG CTCTTCCGCT TCCTCGCTCA CTGACTCGCT GCGCTCGGTC GTTCGGCTGC 5100GGCGAGCGGT ATCAGCTCAC TCAAAGGCGG TAATACGGTT ATCCACAGAA TCAGGGGATA 5160ACGCAGGAAA GAACATGTGA GCAAAAGGCC AGCAAAAGGC CAGGAACCGT AAAAAGGCCG 5220CGTTGCTGGC GTTTTTCCAT AGGCTCCGCC CCCCTGACGA GCATCACAAA AATCGACGCT 5280CAAGTCAGAG GTGGCGAAAC CCGACAGGAC TATAAAGATA CCAGGCGTTT CCCCCTGGAA 5340GCTCCCTCGT GCGCTCTCCT GTTCCGACCC TGCCGCTTAC CGGATACCTG TCCGCCTTTC 5400TCCCTTCGGG AAGCGTGGCG CTTTCTCAAT GCTCACGCTG TAGGTATCTC AGTTCGGTGT 5460AGGTCGTTCG CTCCAAGCTG GGCTGTGTGC ACGAACCCCC CGTTCAGCCC GACCGCTGCG 5520CCTTATCCGG TAACTATCGT CTTGAGTCCA ACCCGGTAAG ACACGACTTA TCGCCACTGG 5580CAGCAGCCAC TGGTAACAGG ATTAGCAGAG CGAGGTATGT AGGCGGTGCT ACAGAGTTCT 5640TGAAGTGGTG GCCTAACTAC GGCTACACTA GAAGGACAGT ATTTGGTATC TGCGCTCTGC 5700TGAAGCCAGT TACCTTCGGA AAAAGAGTTG GTAGCTCTTG ATCCGGCAAA CAAACCACCG 5760CTGGTAGCGG TGGTTTTTTT GTTTGCAAGC AGCAGATTAC GCGCAGAAAA AAAGGATCTC 5820AAGAAGATCC TTTGATCTTT TCTACGGGGT CTGACGCTCA GTGGAACGAA AACTCACGTT 5880AAGGGATTTT GGTCATGAGA TTATCAAAAA GGATCTTCAC CTAGATCCTT TTAAATTAAA 5940AATGAAGTTT TAAATCAATC TAAAGTATAT ATGAGTAAAC TTGGTCTGAC AGTTACCAAT 6000GCTTAATCAG TGAGGCACCT ATCTCAGCGA TCTGTCTATT TCGTTCATCC ATAGTTGCCT 6060 60 6060GACTCCCCGT CGTGTAGATA ACTACGATAC GGGAGGGCTT ACCATCTGGC CCCAGTGCTG 6120CAATGATACC GCGAGACCCA CGCTCACCGG CTCCAGATTT ATCAGCAATA AACCAGCCAG 6180CCGGAAGGGC CGAGCGCAGA AGTGGTCCTG CAACTTTATC CGCCTCCATC CAGTCTATTA 6240ATTGTTGCCG GGAAGCTAGA GTAAGTAGTT CGCCAGTTAA TAGTTTGCGC AACGTTGTTG 6300CCATTGCTAC AGGCATCGTG GTGTCACGCT CGTCGTTTGG TATGGCTTCA TTCAGCTCCG 6360GTTCCCAACG ATCAAGGCGA GTTACATGAT CCCCCATGTT GTGCAAAAAA GCGGTTAGCT 6420CCTTCGGTCC TCCGATCGTT GTCAGAAGTA AGTTGGCCGC AGTGTTATCA CTCATGGTTA 6480TGGCAGCACT GCATAATTCT CTTACTGTCA TGCCATCCGT AAGATGCTTT TCTGTGACTG 6540GTGAGTACTC AACCAAGTCA TTCTGAGAAT AGTGTATGCG GCGACCGAGT TGCTCTTGCC 6600CGGCGTCAAT ACGGGATAAT ACCGCGCCAC ATAGCAGAAC TTTAAAAGTG CTCATCATTG 6660GAAAACGTTC TTCGGGGCGA AAACTCTCAA GGATCTTACC GCTGTTGAGA TCCAGTTCGA 6720TGTAACCCAC TCGTGCACCC AACTGATCTT CAGCATCTTT TACTTTCACC AGCGTTTCTG 6780GGTGAGCAAA AACAGGAAGG CAAAATGCCG CAAAAAAGGG AATAAGGGCG ACACGGAAAT 6840GTTGAATACT CATACTCTTC CTTTTTCAAT ATTATTGAAG CATTTATCAG GGTTATTGTC 6900TCATGAGCGG ATACATATTT GAATGTATTT AGAAAAATAA ACAAATAGGG GTTCCGCGCA 6960 69660 6960CATTTCCCCG AAAAGTGCCA CCTGACGTCG ACGGATCGGG 7000(2) information of SEQ ID NO:38:

sequence characteristics:

(A) length: 7108 base pairs

(B) Type (2): nucleic acids

(C) Chain type: single strand

(D) Topological structure: wire type

(ii) type of molecule: DNA (of the genome)

(xi) sequence description: 38: AGATCTCGGC CGCATATTAA GTGCATTGTT CTCGATACCG CTAAGTGCAT TGTTCTCGTT 60AGCTCGATGG ACAAGTGCAT TGTTCTCTTG CTGAAAGCTC GATGGACAAG TGCATTGTTC 120TCTTGCTGAA AGCTCGATGG ACAAGTGCAT TGTTCTCTTG CTGAAAGCTC AGTACCCGGG 180AGTACCCTCG ACCGCCGGAG TATAAATAGA GGCGCTTCGT CTACGGAGCG ACAATTCAAT 240TCAAACAAGC AAAGTGAACA CGTCGCTAAG CGAAAGCTAA GCAAATAAAC AAGCGCAGCT 300GAACAAGCTA AACAATCTGC AGTAAAGTGC AAGTTAAAGT GAATCAATTA AAAGTAACCA 360GCAACCAAGT AAATCAACTG CAACTACTGA AATCTGCCAA GAAGTAATTA TTGAATACAA 420GAAGAGAACT CTGAATACTT TCAACAAGTT ACCGAGAAAG AAGAACTCAC ACACAGCTAG 480CGTTTAAACT TAAGCTTGGT ACCGAGCTCG GATCCACTAG TCCAGTGTGG TGGAATTCGG 540CTTGGGATGA CGCCTCCTCC GCCCGGACGT GCCGCCCCCA GCGCACCGCG CGCCCGCGTC 600CCTGGCCCGC CGGCTCGGTT GGGGCTTCCG CTGCGGCTGC GGCTGCTGCT GCTGCTCTGG 660GCGGCCGCCG CCTCCGCCCA GGGCCACCTA AGGAGCGGAC CCCGCATCTT CGCCGTCTGG 720AAAGGCCATG TAGGGCAGGA CCGGGTGGAC TTTGGCCAGA CTGAGCCGCA CACGGTGCTT 780TTCCACGAGC CAGGCAGCTC CTCTGTGTGG GTGGGAGGAC GTGGCAAGGT CTACCTCTTT 840GACTTCCCCG AGGGCAAGAA CGCATCTGTG CGCACGGTGA ATATCGGCTC CACAAAGGGG 900TCCTGTCTGG ATAAGCGGGA CTGCGAGAAC TACATCACTC TCCTGGAGAG GCGGAGTGAG 960GGGCTGCTGG CCTGTGGCAC CAACGCCCGG CACCCCAGCT GCTGGAACCT GGTGAATGGC 1020ACTGTGGTGC CACTTGGCGA GATGAGAGGC TACGCCCCCT TCAGCCCGGA CGAGAACTCC 1080CTGGTTCTGT TTGAAGGGGA CGAGGTGTAT TCCACCATCC GGAAGCAGGA ATACAATGGG 1140AAGATCCCTC GGTTCCGCCG CATCCGGGGC GAGAGTGAGC TGTACACCAG TGATACTGTC 1200ATGCAGAACc CACAGTTCAT CAAAGCCACC ATCGTGCACC AAGACCAGGC TTACGATGAC 1260AAGATCTACT ACTTCTTCCG AGAGGACAAT CCTGACAAGA ATCCTGAGGC TCCTCTCAAT 1320GTGTCCCGTG TGGCCCAGTT GTGCAGGGGG GACCAGGGTG GGGAAAGTTC ACTGTCAGTC 1380TCCAAGTGGA ACACTTTTCT GAAAGCCATG CTGGTATGCA GTGATGCTGC CACCAACAAG 1440AACTTCAACA GGCTGCAAGA CGTCTTCCTG CTCCCTGACC CCAGCGGCCA GTGGAGGGAC 1500ACCAGGGTCT ATGGTGTTTT CTCCAACcCC TGGAACTACT CAGCCGTCTG TGTGTATTCC 1560CTCGGTGACA TTGACAAGGT CTTCCGTACC TCCTCACTCA AGGGCTACCA CTCAAGCCTT 1620CCCAACCCGC GGCCTGGCAA GTGCCTCCCA GACCAGCAGC CGATACCCAC AGAGACCTTC 1680CAGGTGGCTG ACCGTCACCC AGAGGTGGCG CAGAGGGTGG AGCCCATGGG GCCTCTGAAG 1740ACGCCATTGT TCCACTCTAA ATACCACTAC CAGAAAGTGG CCGTTCACCG CATGCAAGCC 1800AGCCACGGGG AGACCTTTCA TGTGCTTTAC CTAACTACAG ACAGGGGCAC TATCCACAAG 1860GTGGTGGAAC CGGGGGAGCA GGAGCACAGC TTCGCCTTCA ACATCATGGA GATCCAGCCC 1920TTCCGCCGCG CGGCTGCCAT CCAGACCATG TCGCTGGATG CTGAGCGGAG GAAGCTGTAT 1980GTGAGCTCCC AGTGGGAGGT GAGCCAGGTG CCCCTGGACC TGTGTGAGGT CTATGGCGGG 2040GGCTGCCACG GTTGCCTCAT GTCCCGAGAC CCCTACTGCG GCTGGGACCA GGGCCGCTGC 2100ATCTCCATCT ACAGCTCCGA ACGGTCAGTG CTGCAATCCA TTAATCCAGC CGAGCCACAC 2160AAGGAGTGTC CCAACCCCAA ACCAGACAAG GCCCCACTGC AGAAGGTTTC CCTGGCCCCA 2220AACTCTCGCT ACTACCTGAG CTGCCCCATG GAATCCCGCC ACGCCACCTA CTCATGGCGC 2280CACAAGGAGA ACGTGGAGCA GAGCTGCGAA CCTGGTCACC AGAGCCCCAA CTGCATCCTG 2340TTCATCGAGA ACCTCACGGC GCAGCAGTAC GGCCACTACT TCTGCGAGGC CCAGGAGGGC 00 2400TCCTACTTCC GCGAGGCTCA GCACTGGCAG CTGCTGCCCG AGGACGGCAT CATGGCCGAG 2460 2520CTCACTCTTG GCTTGCTGGT CCACGTGAAG CTTGGGCCCG AACAAAAACT CATCTCAGAA 2580GAGGATCTGA ATAGCGCCGT CGACCATCAT CATCATCATC ATTGAGTTTA TCCAGCACAG 2640TGGCGGCCGC TCGAGTCTAG AGGGCCCGTT TAAACCCGCT GATCAGCCTC GACTGTGCCT 2700TCTAGTTGCC AGCCATCTGT TGTTTGCCCC TCCCCCGTGC CTTCCTTGAC CCTGGAAGGT 2760GCCACTCCCA CTGTCCTTTC CTAATAAAAT GAGGAAATTG CATCGCATTG TCTGAGTAGG 2820TGTCATTCTA TTCTGGGGGG TGGGGTGGGG CAGGACAGCA AGGGGGAGGA TTGGGAAGAC 2880AATAGCAGGC ATGCTGGGGA TGCGGTGGGC TCTATGGCTT CTGAGGCGGA AAGAACCAGC 2940TGGGGCTCTA GGGGGTATCC CCACGCGCCC TGTAGCGGCG CATTAAGCGC GGCGGGTGTG 3000GTGGTTACGC GCAGCGTGAC CGCTACACTT GCCAGCGCCC TAGCGCCCGC TCCTTTCGCT 3060 3890 3060TTCTTCCCTT CCTTTCTCGC CACGTTCGCC GGCTTTCCCC GTCAAGCTCT AAATCGGGGC 3120ATCCCTTTAG GGTTCCGATT TAGTGCTTTA CGGCACCTCG ACCCCAAAAA ACTTGATTAG 3180GGTGATGGTT CACGTAGTGG GCCATCGCCC TGATAGACGG TTTTTCGCCC TTTGACGTTG 3240GAGTCCACGT TCTTTAATAG TGGACTCTTG TTCCAAACTG GAACAACACT CAACCCTATC 3300TCGGTCTATT CTTTTGATTT ATAAGGGATT TTGGGGATTT CGGCCTATTG GTTAAAAAAT 3360GAGCTGATTT AACAAAAATT TAACGCGAAT TAATTCTGTG GAATGTGTGT CAGTTAGGGT 3420GTGGAAAGTC CCCAGGCTCC CCAGGCAGGC AGAAGTATGC AAAGCATGCA TCTCAATTAG 3480TCAGCAACCA GGTGTGGAAA GTCCCCAGGC TCCCCAGCAG GCAGAAGTAT GCAAAGCATG 3540CATCTCAATT AGTCAGCAAC CATAGTCCCG CCCCTAACTC CGCCCATCCC GCCCCTAACT 3600CCGCCCAGTT CCGCCCATTC TCCGCCCCAT GGCTGACTAA TTTTTTTTAT TTATGCAGAG 3660GCCGAGGCCG CCTCTGCCTC TGAGCTATTC CAGAAGTAGT GAGGAGGCTT TTTTGGAGGC 3720CTAGGCTTTT GCAAAAAGCT CCCGGGAGCT TGTATATCCA TTTTCGGATC TGATCAAGAG 3780ACAGGATGAG GATCGTTTCG CATGATTGAA CAAGATGGAT TGCACGCAGG TTCTCCGGCC 3840GCTTGGGTGG AGAGGCTATT CGGCTATGAC TGGGCACAAC AGACAATCGG CTGCTCTGAT 3900GCCGCCGTGT TCCGGCTGTC AGCGCAGGGG CGCCCGGTTC TTTTTGTCAA GACCGACCTG 3960TCCGGTGCCC TGAATGAACT GCAGGACGAG GCAGCGCGGC TATCGTGGCT GGCCACGACG 4020GGCGTTCCTT GCGCAGCTGT GCTCGACGTT GTCACTGAAG CGGGAAGGGA CTGGCTGCTA 4080TTGGGCGAAG TGCCGGGGCA GGATCTCCTG TCATCTCACC TTGCTCCTGC CGAGAAAGTA 4140TCCATCATGG CTGATGCAAT GCGGCGGCTG CATACGCTTG ATCCGGCTAC CTGCCCATTC 4200GACCACCAAG CGAAACATCG CATCGAGCGA GCACGTACTC GGATGGAAGC CGGTCTTGTC 4260GATCAGGATG ATCTGGACGA AGAGCATCAG GGGCTCGCGC CAGCCGAACT GTTCGCCAGG 4320CTCAAGGCGC GCATGCCCGA CGGCGAGGAT CTCGTCGTGA CCCATGGCGA TGCCTGCTTG 4380CCGAATATCA TGGTGGAAAA TGGCCGCTTT TCTGGATTCA TCGACTGTGG CCGGCTGGGT 4440GTGGCGGACC GCTATCAGGA CATAGCGTTG GCTACCCGTG ATATTGCTGA AGAGCTTGGC 4500GGCGAATGGG CTGACCGCTT CCTCGTGCTT TACGGTATCG CCGCTCCCGA TTCGCAGCGC 4560ATCGCCTTCT ATCGCCTTCT TGACGAGTTC TTCTGAGCGG GACTCTGGGG TTCGAAATGA 4620CCGACCAAGC GACGCCCAAC CTGCCATCAC GAGATTTCGA TTCCACCGCC GCCTTCTATG 4680AAAGGTTGGG CTTCGGAATC GTTTTCCGGG ACGCCGGCTG GATGATCCTC CAGCGCGGGG 4740ATCTCATGCT GGAGTTCTTC GCCCACCCCA ACTTGTTTAT TGCAGCTTAT AATGGTTACA 4800AATAAAGCAA TAGCATCACA AATTTCACAA ATAAAGCATT TTTTTCACTG CATTCTAGTT 4860GTGGTTTGTC CAAACTCATC AATGTATCTT ATCATGTCTG TATACCGTCG ACCTCTAGCT 4920AGAGCTTGGC GTAATCATGG TCATAGCTGT TTCCTGTGTG AAATTGTTAT CCGCTCACAA 4980TTCCACACAA CATACGAGCC GGAAGCATAA AGTGTAAAGC CTGGGGTGCC TAATGAGTGA 5040GCTAACTCAC ATTAATTGCG TTGCGCTCAC TGCCCGCTTT CCAGTCGGGA AACCTGTCGT 5100GCCAGCTGCA TTAATGAATC GGCCAACGCG CGGGGAGAGG CGGTTTGCGT ATTGGGCGCT 5160CTTCCGCTTC CTCGCTCACT GACTCGCTGC GCTCGGTCGT TCGGCTGCGG CGAGCGGTAT 5220CAGCTCACTC AAAGGCGGTA ATACGGTTAT CCACAGAATC AGGGGATAAC GCAGGAAAGA 5280ACATGTGAGC AAAAGGCCAG CAAAAGGCCA GGAACCGTAA AAAGGCCGCG TTGCTGGCGT 5340TTTTCCATAG GCTCCGCCCC CCTGACGAGC ATCACAAAAA TCGACGCTCA AGTCAGAGGT 5400GGCGAAACCC GACAGGACTA TAAAGATACC AGGCGTTTCC CCCTGGAAGC TCCCTCGTGC 5460GCTCTCCTGT TCCGACCCTG CCGCTTACCG GATACCTGTC CGCCTTTCTC CCTTCGGGAA 5520GCGTGGCGCT TTCTCAATGC TCACGCTGTA GGTATCTCAG TTCGGTGTAG GTCGTTCGCT 5580CCAAGCTGGG CTGTGTGCAC GAACCCCCCG TTCAGCCCGA CCGCTGCGCC TTATCCGGTA 5640 38740 5640ACTATCGTCT TGAGTCCAAC CCGGTAAGAC ACGACTTATC GCCACTGGCA GCAGCCACTG 5700GTAACAGGAT TAGCAGAGCG AGGTATGTAG GCGGTGCTAC AGAGTTCTTG AAGTGGTGGC 5760CTAACTACGG CTACACTAGA AGGACAGTAT TTGGTATCTG CGCTCTGCTG AAGCCAGTTA 5820CCTTCGGAAA AAGAGTTGGT AGCTCTTGAT CCGGCAAACA AACCACCGCT GGTAGCGGTG 5880GTTTTTTTGT TTGCAAGCAG CAGATTACGC GCAGAAAAAA AGGATCTCAA GAAGATCCTT 5940TGATCTTTTC TACGGGGTCT GACGCTCAGT GGAACGAAAA CTCACGTTAA GGGATTTTGG 6000TCATGAGATT ATCAAAAAGG ATCTTCACCT AGATCCTTTT AAATTAAAAA TGAAGTTTTA 6060AATCAATCTA AAGTATATAT GAGTAAACTT GGTCTGACAG TTACCAATGC TTAATCAGTG 6120AGGCACCTAT CTCAGCGATC TGTCTATTTC GTTCATCCAT AGTTGCCTGA CTCCCCGTCG 6180TGTAGATAAC TACGATACGG GAGGGCTTAC CATCTGGCCC CAGTGCTGCA ATGATACCGC 6240GAGACCCACG CTCACCGGCT CCAGATTTAT CAGCAATAAA CCAGCCAGCC GGAAGGGCCG 6300AGCGCAGAAG TGGTCCTGCA ACTTTATCCG CCTCCATCCA GTCTATTAAT TGTTGCCGGG 6360 63 6360AAGCTAGAGT AAGTAGTTCG CCAGTTAATA GTTTGCGCAA CGTTGTTGCC ATTGCTACAG 6420GCATCGTGGT GTCACGCTCG TCGTTTGGTA TGGCTTCATT CAGCTCCGGT TCCCAACGAT 6480CAAGGCGAGT TACATGATCC CCCATGTTGT GCAAAAAAGC GGTTAGCTCC TTCGGTCCTC 6540CGATCGTTGT CAGAAGTAAG TTGGCCGCAG TGTTATCACT CATGGTTATG GCAGCACTGC 6600ATAATTCTCT TACTGTCATG CCATCCGTAA GATGCTTTTC TGTGACTGGT GAGTACTCAA 6660CCAAGTCATT CTGAGAATAG TGTATGCGGC GACCGAGTTG CTCTTGCCCG GCGTCAATAC 6720GGGATAATAC CGCGCCACAT AGCAGAACTT TAAAAGTGCT CATCATTGGA AAACGTTCTT 6780CGGGGCGAAA ACTCTCAAGG ATCTTACCGC TGTTGAGATC CAGTTCGATG TAACCCACTC 6840GTGCACCCAA CTGATCTTCA GCATCTTTTA CTTTCACCAG CGTTTCTGGG TGAGCAAAAA 6900CAGGAAGGCA AAATGCCGCA AAAAAGGGAA TAAGGGCGAC ACGGAAATGT TGAATACTCA 6960TACTCTTCCT TTTTCAATAT TATTGAAGCA TTTATCAGGG TTATTGTCTC ATGAGCGGAT 7020ACATATTTGA ATGTATTTAG AAAAATAAAC AAATAGGGGT TCCGCGCACA TTTCCCCGAA 7080AAGTGCCACC TGACGTCGAC GGATCGGG 7108

(2) Information of SEQ ID NO:39:

sequence characteristics:

(A) length: 4019 base pair

(B) Type (2): nucleic acids

(C) Chain type: single strand

(D) Topological structure: wire type

(ii) type of molecule: DNA (of the genome)

(ix) feature:

(A) name/keyword: exon(s)

(B) Position: 1..4019

(xi) sequence description: SEQ ID NO 39: CTCGAGAAAT CATAAAAAAT TTATTTGCTT TGTGAGCGGA TAACAATTAT AATAGATTCA 60ATTGTGAGCG GATAACAATT TCACACAGAA TTCATTAAAG AGGAGAAATT AACTATGAGA 120GGATCGCATC ACCATCACCA TCACGGATCC CTGGTTCTGT TTGAAGGGGA CGAGGTGTAT 180TCCACCATCC GGAAGCAGGA ATACAATGGG AAGATCCCTC GGTTCCGCCG CATCCGGGGC 240GAGAGTGAGC TGTACACCAG TGATACTGTC ATGCAGAACC CACAGTTCAT CAAAGCCACC 300ATCGTGCACC AAGACCAGGC TTACGATGAC AAGATCTACT ACTTCTTCCG AGAGGACAAT 360CCTGACAAGA ATCCTGAGGC TCCTCTCAAT GTGTCCCGTG TGGCCCAGTT GTGCAGGGGG 420GACCAGGGTG GGGAAAGTTC ACTGTCAGTC TCCAAGTGGA ACACTTTTCT GAAAGCCATG 480CTGGTATGCA GTGATGCTGC CACCAACAAG AACTTCAACA GGCTGCAAGA CGTCTTCCTG 540CTCCCTGACC CCAGCGGCCA GTGGAGGGAC ACCAGGGTCT ATGGTGTTTT CTCCAACCCC 600TGGAACTACT CAGCCGTCTG TGTGTATTCC CTCGGTGACA TTGACAAGGT CTTCCGTACC 660TCCTCACTCA AGGGCTACCA CTCAAGCCTT CCCAACCCGC GGCCTGGCAA GTGCCTCCCA 720GACCAGCAGC CGATACCCAC AGAAAGCTTA ATTAGCTGAG CTTGGACTCC TGTTGATAGA 780TCCAGTAATG ACCTCAGAAC TCCATCTGGA TTTGTTCAGA ACGCTCGGTT GCCGCCGGGC 840GTTTTTTATT GGTGAGAATC CAAGCTAGCT TGGCGAGATT TTCAGGAGCT AAGGAAGCTA 900AAATGGAGAA AAAAATCACT GGATATACCA CCGTTGATAT ATCCCAATGG CATCGTAAAG 960AACATTTTGA GGCATTTCAG TCAGTTGCTC AATGTACCTA TAACCAGACC GTTCAGCTGG 1020ATATTACGGC CTTTTTAAAG ACCGTAAAGA AAAATAAGCA CAAGTTTTAT CCGGCCTTTA 1080TTCACATTCT TGCCCGCCTG ATGAATGCTC ATCCGGAATT TCGTATGGCA ATGAAAGACG 1140GTGAGCTGGT GATATGGGAT AGTGTTCACC CTTGTTACAC CGTTTTCCAT GAGCAAACTG 1200AAACGTTTTC ATCGCTCTGG AGTGAATACC ACGACGATTT CCGGCAGTTT CTACACATAT 1260ATTCGCAAGA TGTGGCGTGT TACGGTGAAA ACCTGGCCTA TTTCCCTAAA GGGTTTATTG 1320AGAATATGTT TTTCGTCTCA GCCAATCCCT GGGTGAGTTT CACCAGTTTT GATTTAAACG 1380TGGCCAATAT GGACAACTTC TTCGCCCCCG TTTTCACCAT GGGCAAATAT TATACGCAAG 1440GCGACAAGGT GCTGATGCCG CTGGCGATTC AGGTTCATCA TGCCGTCTGT GATGGCTTCC 1500ATGTCGGCAG AATGCTTAAT GAATTACAAC AGTACTGCGA TGAGTGGCAG GGCGGGGCGT 1560AATTTTTTTA AGGCAGTTAT TGGTGCCCTT AAACGCCTGG GGTAATGACT CTCTAGCTTG 1620AGGCATCAAA TAAAACGAAA GGGTCAGTCG AAAGACTGGG CCTTTCGTTT TATCTGTTGT 1680TTGTCGGTGA ACGCTCTCCT GAGTAGGACA AATCCGCCGC TCTAGAGCTG CCTCGCGCGT 1740TTCGGTGATG ACGGTGAAAA CCTCTGACAC ATGCAGCTCC CGGAGACGGT CACAGCTTGT 1800CTGTAAGCGG ATGCCGGGAG CAGACAAGCC CGTCAGGGCG CGTCAGCGGG TGTTGGCGGG 1860TGTCGGGGCG CAGCCATGAC CCAGTCACGT AGCGATAGCG GAGTGTATAC TGGCTTAACT 1920ATGCGGCATC AGAGCAGATT GTACTGAGAG TGCACCATAT GCGGTGTGAA ATACCGCACA 1980GATGCGTAAG GAGAAAATAC CGCATCAGGC GCTCTTCCGC TTCCTCGCTC ACTGACTCGC 2040TGCGCTCGGT CTGTCGGCTG CGGCGAGCGG TATCAGCTCA CTCAAAGGCG GTAATACGGT 2100TATCCACAGA ATCAGGGGAT AACGCAGGAA AGAACATGTG AGCAAAAGGC CAGCAAAAGG 2160CCAGGAACCG TAAAAAGGCC GCGTTGCTGG CGTTTTTCCA TAGGCTCCGC CCCCCTGACG 2220AGCATCACAA AAATCGACGC TCAAGTCAGA GGTGGCGAAA CCCGACAGGA CTATAAAGAT 2280ACCAGGCGTT TCCCCCTGGA AGCTCCCTCG TGCGCTCTCC TGTTCCGACC CTGCCGCTTA 2340CCGGATACCT GTCCGCCTTT CTCCCTTCGG GAAGCGTGGC GCTTTCTCAA TGCTCACGCT 00 2400GTAGGTATCT CAGTTCGGTG TAGGTCGTTC GCTCCAAGCT GGGCTGTGTG CACGAACCCC 2460 2520GACACGACTT ATCGCCACTG GCAGCAGCCA CTGGTAACAG GATTAGCAGA GCGAGGTATG 2580TAGGCGGTGC TACAGAGTTC TTGAAGTGGT GGCCTAACTA CGGCTACACT AGAAGGACAG 2640TATTTGGTAT CTGCGCTCTG CTGAAGCCAG TTACCTTCGG AAAAAGAGTT GGTAGCTCTT 2700GATCCGGCAA ACAAACCACC GCTGGTAGCG GTGGTTTTTT TGTTTGCAAG CAGCAGATTA 2760CGCGCAGAAA AAAAGGATCT CAAGAAGATC CTTTGATCTT TTCTACGGGG TCTGACGCTC 2820AGTGGAACGA AAACTCACGT TAAGGGATTT TGGTCATGAG ATTATCAAAA AGGATCTTCA 2880CCTAGATCCT TTTAAATTAA AAATGAAGTT TTAAATCAAT CTAAAGTATA TATGAGTAAA 2940CTTGGTCTGA CAGTTACCAA TGCTTAATCA GTGAGGCACC TATCTCAGCG ATCTGTCTAT 3000TTCGTTCATC CATAGCTGCC TGACTCCCCG TCGTGTAGAT AACTACGATA CGGGAGGGCT 3060 3890 3060TACCATCTGG CCCCAGTGCT GCAATGATAC CGCGAGACCC ACGCTCACCG GCTCCAGATT 3120TATCAGCAAT AAACCAGCCA GCCGGAAGGG CCGAGCGCAG AAGTGGTCCT GCAACTTTAT 3180CCGCCTCCAT CCAGTCTATT AATTGTTGCC GGGAAGCTAG AGTAAGTAGT TCGCCAGTTA 3240ATAGTTTGCG CAACGTTGTT GCCATTGCTA CAGGCATCGT GGTGTCACGC TCGTCGTTTG 3300GTATGGCTTC ATTCAGCTCC GGTTCCCAAC GATCAAGGCG AGTTACATGA TCCCCCATGT 3360TGTGCAAAAA AGCGGTTAGC TCCTTCGGTC CTCCGATCGT TGTCAGAAGT AAGTTGGCCG 3420CAGTGTTATC ACTCATGGTT ATGGCAGCAC TGCATAATTC TCTTACTGTC ATGCCATCCG 3480TAAGATGCTT TTCTGTGACT GGTGAGTACT CAACCAAGTC ATTCTGAGAA TAGTGTATGC 3540GGCGACCGAG TTGCTCTTGC CCGGCGTCAA TACGGGATAA TACCGCGCCA CATAGCAGAA 3600CTTTAAAAGT GCTCATCATT GGAAAACGTT CTTCGGGGCG AAAACTCTCA AGGATCTTAC 3660CGCTGTTGAG ATCCAGTTCG ATGTAACCCA CTCGTGCACC CAACTGATCT TCAGCATCTT 3720TTACTTTCAC CAGCGTTTCT GGGTGAGCAA AAACAGGAAG GCAAAATGCC GCAAAAAAGG 3780GAATAAGGGC GACACGGAAA TGTTGAATAC TCATACTCTT CCTTTTTCAA TATTATTGAA 3840GCATTTATCA GGGTTATTGT CTCATGAGCG GATACATATT TGAATGTATT TAGAAAAATA 3900AACAAATAGG GGTTCCGCGC ACATTTCCCC GAAAAGTGCC ACCTGACGTC TAAGAAACCA 3960TTATTATCAT GACATTAACC TATAAAAATA GGCGTATCAC GAGGCCCTTT CGTCTTCAC 4019

(2) Information of SEQ ID NO:40:

sequence characteristics:

(A) length: 3999 base pairs

(B) Type (2): nucleic acids

(C) Chain type: single strand

(D) Topological structure: wire type

(ii) type of molecule: DNA (of the genome)

(ix) feature:

(A) name/keyword: exon(s)

(B) Position: 1..3999

(xi) sequence description: SEQ ID NO 40: CTCGAGAAAT CATAAAAAAT TTATTTGCTT TGTGAGCGGA TAACAATTAT AATAGATTCA 60ATTGTGAGCG GATAACAATT TCACACAGAA TTCATTAAAG AGGAGAAATT AACTATGAGA 120GGATCGCATC ACCATCACCA TCACACGGAT CCGCATGCGA GCTCCCAGTG GGAGGTGAGC 180CAGGTGCCCC TGGACCTGTG TGAGGTCTAT GGCGGGGGCT GCCACGGTTG CCTCATGTCC 240CGAGACCCCT ACTGCGGCTG GGACCAGGGC CGCTGCATCT CCATCTACAG CTCCGAACGG 300TCAGTGCTGC AATCCATTAA TCCAGCCGAG CCACACAAGG AGTGTCCCAA CCCCAAACCA 360GACAAGGCCC CACTGCAGAA GGTTTCCCTG GCCCCAAACT CTCGCTACTA CCTGAGCTGC 420CCCATGGAAT CCCGCCACGC CACCTACTCA TGGCGCCACA AGGAGAACGT GGAGCAGAGC 480TGCGAACCTG GTCACCAGAG CCCCAACTGC ATCCTGTTCA TCGAGAACCT CACGGCGCAG 540CAGTACGGCC ACTACTTCTG CGAGGCCCAG GAGGGCTCCT ACTTCCGCGA GGCTCAGCAC 600TGGCAGCTGC TGCCCGAGGA CGGCATCATG GCCGAGCACC TGCTGGGTCA TGCCTGTGCC 660CTGGCTGCCT CCCTCTGGCT GGGGGTGCTG CCCACACTCA CTCTTGGCTT GCTGGTCCAC 720GTGAAGCTTA ATTAGCTGAG CTTGGACTCC TGTTGATAGA TCCAGTAATG ACCTCAGAAC 780TCCATCTGGA TTTGTTCAGA ACGCTCGGTT GCCGCCGGGC GTTTTTTATT GGTGAGAATC 840CAAGCTAGCT TGGCGAGATT TTCAGGAGCT AAGGAAGCTA AAATGGAGAA AAAAATCACT 900GGATATACCA CCGTTGATAT ATCCCAATGG CATCGTAAAG AACATTTTGA GGCATTTCAG 960TCAGTTGCTC AATGTACCTA TAACCAGACC GTTCAGCTGG ATATTACGGC CTTTTTAAAG 1020ACCGTAAAGA AAAATAAGCA CAAGTTTTAT CCGGCCTTTA TTCACATTCT TGCCCGCCTG 1080ATGAATGCTC ATCCGGAATT TCGTATGGCA ATGAAAGACG GTGAGCTGGT GATATGGGAT 1140AGTGTTCACC CTTGTTACAC CGTTTTCCAT GAGCAAACTG AAACGTTTTC ATCGCTCTGG 1200AGTGAATACC ACGACGATTT CCGGCAGTTT CTACACATAT ATTCGCAAGA TGTGGCGTGT 1260TACGGTGAAA ACCTGGCCTA TTTCCCTAAA GGGTTTATTG AGAATATGTT TTTCGTCTCA 1320GCCAATCCCT GGGTGAGTTT CACCAGTTTT GATTTAAACG TGGCCAATAT GGACAACTTC 1380TTCGCCCCCG TTTTCACCAT GGGCAAATAT TATACGCAAG GCGACAAGGT GCTGATGCCG 1440CTGGCGATTG AGGTTCATCA TGCCGTCTGT GATGGCTTCC ATGTCGGCAG AATGCTTAAT 1500GAATTACAAC AGTACTGCGA TGAGTGGCAG GGCGGGGCGT AATTTTTTTA AGGCAGTTAT 1560TGGTGCCCTT AAACGCCTGG GGTAATGACT CTCTAGCTTG AGGCATCAAA TAAAACGAAA 1620GGCTCAGTCG AAAGACTGGG CCTTTCGTTT TATCTGTTGT TTGTCGGTGA ACGCTCTCCT 1680GAGTAGGACA AATCCGCCGC TCTAGAGCTG CCTCGCGCGT TTCGGTGATG ACGGTGAAAA 1740CCTCTGACAC ATGCAGCTCC CGGAGACGGT CACAGCTTGT CTGTAAGCGG ATGCCGGGAG 1800CAGACAAGCC CGTCAGGGCG CGTCAGCGGG TGTTGGCGGG TGTCGGGGCG CAGCCATGAC 1860CCAGTCACGT AGCGATAGCG GAGTGTATAC TGGCTTAACT ATGCGGCATC AGAGCAGATT 1920GTACTGAGAG TGCACCATAT GCGGTGTGAA ATACCGCACA GATGCGTAAG GAGAAAATAC 1980CGCATCAGGC GCTCTTCCGC TTCCTCGCTC ACTGACTCGC TGCGCTCGGT CTGTCGGCTG 2040CGGCGAGCGG TATCAGCTCA CTCAAAGGCG GTAATACGGT TATCCACAGA ATCAGGGGAT 2100AACGCAGGAA AGAACATGTG AGCAAAAGGC CAGCAAAAGG CCAGGAACCG TAAAAAGGCC 2160GCGTTGCTGG CGTTTTTCCA TAGGCTCCGC CCCCCTGACG AGCATCACAA AAATCGACGC 2220TCAAGTCAGA GGTGGCGAAA CCCGACAGGA CTATAAAGAT ACCAGGCGTT TCCCCCTGGA 2280AGCTCCCTCG TGCGCTCTCC TGTTCCGACC CTGCCGCTTA CCGGATACCT GTCCGCCTTT 2340CTCCCTTCGG GAAGCGTGGC GCTTTCTCAA TGCTCACGCT GTAGGTATCT CAGTTCGGTG 00 2400TAGGTCGTTC GCTCCAAGCT GGGCTGTGTG CACGAACCCC CCGTTCAGCC CGACCGCTGC 2460 2520GCAGCAGCCA CTGGTAACAG GATTAGCAGA GCGAGGTATG TAGGCGGTGC TACAGAGTTC 2580TTGAAGTGGT GGCCTAACTA CGGCTACACT AGAAGGACAG TATTTGGTAT CTGCGCTCTG 2640CTGAAGCCAG TTACCTTCGG AAAAAGAGTT GGTAGCTCTT GATCCGGCAA ACAAACCACC 2700GCTGGTAGCG GTGGTTTTTT TGTTTGCAAG CAGCAGATTA CGCGCAGAAA AAAAGGATCT 2760CAAGAAGATC CTTTGATCTT TTCTACGGGG TCTGACGCTC AGTGGAACGA AAACTCACGT 2820TAAGGGATTT TGGTCATGAG ATTATCAAAA AGGATCTTCA CCTAGATCCT TTTAAATTAA 2880AAATGAAGTT TTAAATCAAT CTAAAGTATA TATGAGTAAA CTTGGTCTGA CAGTTACCAA 2940TGCTTAATCA GTGAGGCACC TATCTCAGCG ATCTGTCTAT TTCGTTCATC CATAGCTGCC 3000TGACTCCCCG TCGTGTAGAT AACTACGATA CGGGAGGGCT TACCATCTGG CCCCAGTGCT 3060 3890 3060GCAATGATAC CGCGAGACCC ACGCTCACCG GCTCCAGATT TATCAGCAAT AAACCAGCCA 3120GCCGGAAGGG CCGAGCGCAG AAGTGGTCCT GCAACTTTAT CCGCCTCCAT CCAGTCTATT 3180AATTGTTGCC GGGAAGCTAG AGTAAGTAGT TCGCCAGTTA ATAGTTTGCG CAACGTTGTT 3240GCCATTGCTA CAGGCATCGT GGTGTCACGC TCGTCGTTTG GTATGGCTTC ATTCAGCTCC 3300GGTTCCCAAC GATCAAGGCG AGTTACATGA TCCCCCATGT TGTGCAAAAA AGCGGTTAGC 3360TCCTTCGGTC CTCCGATCGT TGTCAGAAGT AAGTTGGCCG CAGTGTTATC ACTCATGGTT 3420ATGGCAGCAC TGCATAATTC TCTTACTGTC ATGCCATCCG TAAGATGCTT TTCTGTGACT 3480GGTGAGTACT CAACCAAGTC ATTCTGAGAA TAGTGTATGC GGCGACCGAG TTGCTCTTGC 3540CCGGCGTCAA TACGGGATAA TACCGCGCCA CATAGCAGAA CTTTAAAAGT GCTCATCATT 3600GGAAAACGTT CTTCGGGGCG AAAACTCTCA AGGATCTTAC CGCTGTTGAG ATCCAGTTCG 3660ATGTAACCCA CTCGTGCACC CAACTGATCT TCAGCATCTT TTACTTTCAC CAGCGTTTCT 3720GGGTGAGCAA AAACAGGAAG GCAAAATGCC GCAAAAAAGG GAATAAGGGC GACACGGAAA 3780TGTTGAATAC TCATACTCTT CCTTTTTCAA TATTATTGAA GCATTTATCA GGGTTATTGT 3840CTCATGAGCG GATACATATT TGAATGTATT TAGAAAAATA AACAAATAGG GGTTCCGCGC 3900ACATTTCCCC GAAAAGTGCC ACCTGACGTC TAAGAAACCA TTATTATCAT GACATTAACC 3960TATAAAAATA GGCGTATCAC GAGGCCCTTT CGTCTTCAC 3999(2) the information of SEQ ID NO:41:

sequence characteristics:

(A) length: 8888 base pairs

(B) Type (2): nucleic acids

(C) Chain type: single strand

(D) Topological structure: wire type

(ii) type of molecule: DNA (of the genome)

(ix) feature:

(A) name/keyword: exon(s)

(B) Position: 1..8888

(xi) sequence description: 41: GAGCCGCACA CGGTGCTTTT CCACGAGCCA GGCAGCTCCT CTGTGTGGGT GGGAGGACGT 60GGCAAGGTCT ACCTCTTTGA CTTCCCCGAG GGCAAGAACG CATCTGTGCG CACGGTGAGC 120CTCTCTCTTC CCCCAACACC CCCCCTACCC TCTTATCTCC CCTCTGGCCC TGCCAAGGGT 180CCTCAGGGAA TCCGACGGAG CTGGCTTCTC TTCCTAAACT GCCCCCACCT CCGTATCCTA 240TAAATGGCTC CTGGGGGAGG CTCCCTAAAG GTAGTCCAGA TTGGAGTGGG GAGCTGCGGC 300GGTGTGGAGA AAAACAGGAG CTAATGGGCC TGGCCAGCTG GGCAGCGCTG CTGCGGAAAG 360CCCAGGCTGG AAGCTGGGCC CCAGAGCCCA TGCCTGGTCT TCTGAACCCT CTGGGCCTCA 420GCTCTGGATA TGAGACCCTG TTTGACCTCA GGTAGATCAC TCACCCTCTC AGAGCCCCAG 480TTGCTCATCT GTCAGATGAG AATAATGGTT GCTTCCTTTG GGGCTTATCC TGAGGCTGTG 540TGGAAAGCAT TTCAGGGGTA CCTCACCCCT GGCAGATTGA ACTAATGCTT CTCCCCTTCC 600CCAGGTGAAT ATCGGCTCCA CAAAGGGGTC CTGTCTGGAT AAGCGGGTGA GCGGGCGAGG 660GATCTGGAGG GGTCTGAGCC ACTTGGTAAA GGGAGAGGAG ACCCTGAGGG TCTAAGGAAG 720GAAGCATGGC CCTGCCCCAC GAGTCCCAGA CTGATGGGGA GACGTGGTCC TCTGTGCTTA 780GGGGATGGCG TCAGCTGCAC ACACTCTGGG CTGTCCCGGG AGGCTGTCAC CTATGCTAAG 840CCCTTCTGAC ACCTTCTTCC CTGATCCTGG GGGTCCTAGT GCTAGGCTTG CCAGGGCCTT 900CCAGCAACCA ATTTCTCTCC TCCCTTCTCT CTTCCCCGGG CAGGACTGCG AGAACTACAT 960CACTCTCCTG GAGAGGCGGA GTGAGGGGCT GCTGGCCTGT GGCACCAACG CCCGGCACCC 1020CAGCTGCTGG AACCTGGTGA GAAGGCTGCT CCCCATGTGC CTGATCAGCT CACCTTCTAC 1080TGCGTGGGCT TCTGCCCCTC ATGGTGGGAA GGAGATGGCG AGACTCCAAT GCTGGCCTTG 1140CCCTGGGAGG ATGGGGCTCC TGGCCGAGAA ACTGGCCGTC ATGGGAGGCA GTGGCTGTGG 1200GATTATGTGG CCATCCAACC CTCTGGATCT CCCACAGGTG AATGGCACTG TGGTGCCACT 1260TGGCGAGATG AGAGGCTACG CCCCCTTCAG CCCGGACGAG AACTCCCTGG TTCTGTTTGA 1320AGGTTGGGGC ATGCTTCGGA ACTGGGCTGG GAGCAGGATG GTCAGCTCTT TGTCCAGTGT 1380CCGGAGGAGG GACTTCCAGG AGCTGCCTGC CCTTACTCAT TTCTCCCTCC CACTGACCCC 1440AGGGGACGAG GTGTATTCCA CCATCCGGAA CCAGGAATAC AATGGGAAGA TCCCTCGGTT 1500CCGCCGCATC CGGGGCGAGA GTGAGCTGTA CACCAGTGAT ACTGTCATGC AGAGTGAGTC 1560AGGCTCCGGC TGGGCTGAGG GTGGGCAAGG GGGTGTGAGC ACTTAAGGTG GCAGATGGGA 1620TCCTGATGTT TCTGGGAGGG CTCCCTGAGG GCCGCTGGGG CCATGCAGGA AAGCAGGACC 1680TTGGTATAGG CCTGAGAAGT TAGGGTTGGC TGGGAGCAGA GGAACAGACA AGGTATAGCA 1740GTGGGATGGG CCCAGCCCTC TTCAGGAACA CAAACAGAGG GAGCCCCAGA CCCAGTGCAG 1800GGTCCCCAGG AGCCAAAGTT TATCCTCTGC TGAGTTCACG TGGAGGCAGC CCCCCAACTC 1860CCTCCTCATC AGGGCTCTGC CAATTGAGCA GAAGTGACAT AGGGGCCCCC AGGGACCTTC 1920CCCCACTCCC CAGGCATGAA GTCATTGCTC CTGGGCCGAT GACATCTTTG TAGGAAGAGG 1980GCAAAACAGG TGTGGGGTGG AGGTGCAGGG TCTAGGGCCC CTCGGGGAGT TGGACCTGAT 2040GTTATGAGTC CTATTCCAGA TCTGATTTGC CATGGTTTGT GCAGACCCGA AGGAGGGAGG 2100AGAGTGTGCA GGGTTGGAAT GGTCTCCCGG GCAAGCTTCC CAGCCTTACG CCCATTCGCT 2160TCTGTGCCCT GGCAGACCCA CAGTTCATCA AAGCCACCAT CGTGCACCAA GACCAGGCTT 2220ACGATGACAA GATCTACTAC TTCTTCCGAG AGGACAATCC TGACAAGAAT CCTGAGGCTC 2280CTCTCAATGT GTCCCGTGTG GCCCAGTTGT GCAGGGTGAA CACGGGCGTG AGGGCTGCTG 2340GCTACGTGTC TGTGCATGAA TAGGCCTGAG TGAGGGTGAG TTCTGTGTGT CCGTGTGCAT 00 2400GTAGAAGTTG TGTGGATGTA TGAGTGGGTC TGTGTCAGGG ACTGTGGGAG CAGCTGTGTG 2460 2520ATGGCGTGTG AGCGTGTGTA TGATGGGGTG TGTGTGTGTG TGTGTGTGTG TGTTTTGCCT 2580GTGTGAATGT GCTGTGCCAC GTATGTGGGT GCGTGAGTCA GTAAATGTGT GTCTGAGTCC 2640GTCTGCTCTG TGGGGACCTG GCACTCTCAC CTGCCCTGAC CCTGGGCACT GCTGGCCCTG 2700GGCTCTGGAT CAGCCAGGCC TGCTTGCAGG AGTCTCATCT GGAGACCTGC CCTGAGTCCT 2760GGGGCACCCC CGGCAGGTCC TGGCCCCTCG CAGCCTGCCT TCCTCCTCTG GGCCCAGGTG 2820TTGATATTGC TGGCAGTGGT TTCCTGGGGT GTGTGGGGAA GCCCGGGCAG GTGCTGAGGG 2880GCCTCTTCTC CCCTCTACCC TTCCAGGGGG ACCAGGGTGG GGAAAGTTCA CTGTCAGTCT 2940CCAAGTGGAA CACTTTTCTG AAAGCCATGC TGGTATGCAG TGATGCTGCC ACCAACAAGA 3000ACTTCAACAG GCTGCAAGAC GTCTTCCTGC TCCCTGACCC CAGCGGCCAG TGGAGGGACA 3060 3890 3060CCAGGGTCTA TGGTGTTTTC TCCAACCCCT GGTGAGTGGC CCTTGTCCTG GGGCCGGGGC 3120TGGCATTGGT TCAGTGTCCA GTAGGGACAG GAGGCCTTGG GCCCTGCTGA GGGCCTCCCT 3180GGTGTGGCAG GAGCAGGGGC TGCAGGCTCA AGAGGCTGGG CTGTTGCTGG GTGTGGGGTG 3240GGGGGACAGC CAGTGCGATG TATGTACTGT TGTGTGAGTG AGTCTGCACT CATGGGTGTG 3300TGTGCATGCC CTATATGCAC ACTCATGACT GCACTTGTGC CTGTGTGTCC CACCACCTGC 3360TTGTGCCGAG AGTGGACACT GGGCCCAGGA GGAAGCTGCT GAAGCATCTC TCGGGGAGCT 3420GGGTGCTATT ACACCTGCTC AGGCACTGCC TGAGCCCGAT AATTCACACT TCTTAATCAC 3480TCTCATTGAT TGAACACACG GCAGGCGGAA GTGTTGGGTG TGTGTGGGGA GAGTTAGGGA 3540TAGAGTGGAG GAAGCCAAGA CCCTGCTCTG TGGCTCCTGG GTGAGTGGGT CCCCCAGGCT 3600GGGAAGGGGT TGGGGGTCTG GCCTCCTGGG GCATCAGCAC CCCACAGCCT GTGCCCAGGG 3660AGGGCTAGAG AACTGCTCAG CCTATGATGG GGTTCCTCCT GCCTTGGGGT TGGGTAGAGC 3720AGATGGCCTC TAGACTCAGT GATTCTGTAA CAGGATACAA GTTTGTGGTT TTAAATTGCA 3780GCACAAAGAA ATTAGGCTGA ACTCCTCTCC TTCCTCCTCT CCATCCCTCC CCATTTTCAG 3840TGGTGGTTGG CAACTCAGTG CCAGGCACAA GGCTGGCCTG GGTGAGTGGA GGTGGATGGG 3900TGGGTTCTGG GCCCCCCATT GAGCTGGTCT CCATGTCACT GCAGGAACTA CTCAGCCGTC 3960TGTGTGTATT CCCTCGGTGA CATTGACAAG GTCTTCCGTA CCTCCTCACT CAAGGGCTAC 4020CACTCAAGCC TTCCCAACCC GCGGCCTGGC AAGGTGAGCG TGACACCAGC CGTGGCCCAG 4080GCCCAGCCCT CCTTCTGCCT CACCTCCCAC CACCCCACTG ACCTGGGCCT GCTCTCCTTG 4140CCCAGTGCCT CCCAGACCAG CAGCCGATAC CCACAGAGAC CTTCCAGGTG GCTGACCGTC 4200ACCCAGAGGT GGCGCAGAGG GTGGAGCCCA TGGGGCCTCT GAAGACGCCA TTGTTCCACT 4260CTAAATACCA CTACCAGAAA GTGGCCGTCC ACCGCATGCA AGCCAGCCAC GGGGAGACCT 4320TTCATGTGCT TTACCTAACT ACAGGTGAGA GGCTACCCCG GGACCCTCAG TTTGCTTTGT 4380AAAAACGGGC ATGAAAGGTG TAAGGAATAA TGTAGTTAAC ATCTGGTTGG ATCTTTACAT 4440GTGGAAGGAA TAATTGAGTG ACTGGAGTTG TCAGGGGTTA ATGTGTGTGG GTGTGGAAGA 4500GCCAGGCAGG GAGAGCTTCC TGGAGGAGGT AGGGGCAAGA GGGAAAGGGG GATGGGAGAA 4560AAGCAAGCAC TGGGATTTGG AGGCGGAAAT CTGGAGAGTC TGAGCAAAGC CAGGTGCACC 4620TTTGGTCCAG ATGTCTGACT CAGGGAAGAA GATGGTAGGA AGAGACGTGG CAAATGAGGA 4680GGAGGGGCCT GAACCACAGG GATACTGGCC TCTGCCAGGC AGAATGAGGG AGTCAGGCCC 4740TGCGCCTGTC TTTGGGATTG TGCAGGTGAG AAGAAACATT TGAGGAGTTG ATGGGGCACA 4800AATTAGGTAT GGGGAAGGAG TTCCAGGGGG CAGAACCTTT GCCATCTCAC AGAGGACAGG 4860GGCAGCTTCT CTTCTTCCCT GGAGTAGGCC CTGCTGGGGG AAGCTGGGTG GAATGCCGTG 4920GGAGATGCTC CTGCTTTCTG GAAAGCCACA GGACACGGAG GAGCCAGTCC TGAGTTGGGT 4980TTGTCGCAGC TTCCCATGCC AGCTGCCTTC CTTGAGACTG GAAAGGGCCT CTAGCACCCC 5040TGGGGCCATT CAATTCAGGC CCAGGCGCCC AACCTCAGTT GTTCACATTC CCCATGTGAT 5100CTCCTGTTGC TGCTTCACCT TGGGACTGTC TCGGCTTTGG TGACCTTGTA GGAAACTGGA 5160ACCCCAGCAC CATTGTTTGG CTCCTGGAAG CCTTGGGGAG AGGAATTTCC CACAGGGCAG 5220GGCCTGGGTC CTGATTCCCT GCCTCTTTAC TCCCTATTCA TCCCGGCTAC ACCCTTGGGC 5280CCCCATCCTT GCTTGGCTCC AGTACTGGCT GGCACAGCTG TTGTGGTCAT CCAGGGATGG 5340CAGGGCACTG GGGAACAGAA GAGAGAGGTC ACACAGTGCG GAACTGGGAG CAGGAGCTAG 5400GACAAGGAAG GCTGGACTTG GGCCATGGAT TCCCTTCCTG CAGACTTGGG AAGTGAGCAC 5460ACTTGAGTGA TTAGAGAAGG TGTCTTCGTT CTAAGGGCAG TGGAGGAGGC ACCATTTTGG 5520AGCCTGCATC ATTCGTATTT GGGCTAGATT GAAAAATAGA GCTTTCTAAG TCCTCTGCAG 5580AGAATGGGAG GCTCTCACAA CTGGGAGAAG TATTGGCTCT TTTCCTGAGA ATTTTGCCAA 5640 38740 5640GGGTATGCTG TTACTGGGGC TGGTTTGGAA GGAGTATAGG GCATTATGTC TGTGAAGGCA 5700GTGGCTGGGG TGGGGCCTTA TCAGGCCCAA GGAGCATCTG GCCACATCTC AGAGTCCACA 5760GATGAGGATC ACGGATGTGT AGAGGAAACA TCCTAGGCAG GCAATCATCT GACTGCTTTT 5820TTGGGGCAGG TGATGCCCTG GGAAATTGGG AGGGAGGGAG AGAGGGAGGT AGGCTATTCT 5880AGAAACTGGG AGAGCAGGTG AGGTAGGATT GGGAGGACCA GGGGTCAGGG TCCCCATTGG 5940TCCCTAATTG AGAACGGAGA GAGCATTGGT CTAGGAGGCA GGCAGCTCGG TTATAAGACC 6000TTGGGAACTC TTGATTTAGA ATCCAAGATC CTTTTTAGAT CTAGGATTTT ATAAAATTAA 6060GATATCCCCT AAGATCAAAT GCAACGTGGA GTCCTGAATT GGATCCTAGA ACAGAAGAAG 6120GACATTTGTG GAAAAACTAG TGAAATCCAA ATAAAGTCTG TAGTTTTGTT AATAGTAATG 6180CACCAATGTC AGTTGCCTAG TTGTGACAAA TATACCGTGG TTATGTAAGA TGGTAACATT 6240AGGGGGAACT GGAGAAGGGT AGATTGGAGC TCTCTGTACT ATCTTTGCAA CTTTTCTGGG 6300AATCTAAAAT TACTCCAAAA TAAAAAAAAA ATGTATTTAA AGTAAATATA TTCCCTAAGA 6360 63 6360GTCCAGGAGG CAGGGGAGTT GTAGAAGCAG CTGAGTGGTT GGGTTCTGAC AGATTTGGTT 6420CCAACTCGGT CTCTGCTGCT CACCAGCTGT GTGACCTTGA GCAAGTGGCT TAGCCTTTCT 6480GAGCCTGATT TCCTTATCTG TGGAGTGGGG AAGATGACAG CCACCTCGCA GGGCTGTGGA 6540GGGTTAAACG AGGTGATGCA TGGACAGCAG CCGCACTGAC CTTGCTGGTG TGGGGCTCCT 6600GCTTCTGTTC TTCCCGTGCA GCCTTGGGAA TGTTGGAGGC CGTATCCAGG GACCCCTGGG 6660CCTCCTGGGA TGGCCTCTCT GGATCAGCCT TGGAAGGTTC CAGGCTGCCC TTAGGCTCCC 6720ACATTCTTCC CCAGTCACGC TCTCCTCGCC CTGCCCACAC CAGTCCTGTG ACCCTTGCCT 6780GAGTTGTGAC TTCCCACCCC TCCCCGGCCT AGAGGAAAGC TGCCTGGCCC CTCAGTGGGA 6840CTCCCGCCCA CTGACCCTCT GTCCACCATA CACAGACAGG GGCACTATCC ACAAGGTGGT 6900GGAACCGGGG GAGCAGGAGC ACAGCTTCGC CTTCAACATC ATGGAGATCC AGCCCTTCCG 6960CCGCGCGGCT GCCATCCAGA CCATGTCGCT GGATGCTGAG CGGGTGAGCC TTCCCCCACT 7020GCGTCCCATG GGCTATGCAG TGACTGCAGC TGAGGACAGG GCTCCTTTGC ATGTGATTTG 7080TGTGTTCTTT TAAGAGCTTC TAGGCCTTAG GGCCTGGACA TTTAGGACTG AGTGTGGGGT 7140GGGGCCCGGG CCTGACCCAA TCCTGCTGTC CTTCCAGAGG AAGCTGTATG TGAGCTCCCA 7200GTGGGAGGTG AGCCAGGTGC CCCTGGACCT GTGTGAGGTC TATGGCGGGG GCTGCCACGG 7260TTGCCTCATG TCCCGAGACC CCTACTGCGG CTGGGACCAG GGCCGCTGCA TCTCCATCTA 7320CAGCTCCGAA CGGTACGTTG GCCGGGATCC CTCCGTCCCT GGGACAAGGT GGGCATGGGA 7380CAGGGGGAGG TGTTGTCGGG CTGGAAGAGG TGGCGGTACT GGGCCTTTCT TGTGGGACCT 7440CCTCTCTACT GGAACTGCAC TAGGGGTAAG GATATGAGGG TCAGGTCTGC AGCCTTGTAT 7500CTGCTGATCC TCTTTCGTCC TTCCCACTCC AGGTCAGTGC TGCAATCCAT TAATCCAGCC 7560GAGCCACACA AGGAGTGTCC CAACCCCAAA CCAGGTACCT GATCTGGCCC TGCTGGCGGC 7620TGTGGCCCAA TGAGTGGGGT ACTGCCCTGC CCTGATTGTC CTGGTCTGAG GGAAACATGG 7680CCTTGTCCTG TGGGCCCCAG GTACATGGGG CAGGATACAG TCCTGCAGAG GGAGCCCTCT 7740TGGTGGGATG AGCGAGACGG GAGAAAAAAG GAGGACGCTG AGGGCTGGGT TCCCCACGTT 7800CATTCAGAAG CCTTGTCCTG GGATCCCAGT CGGTGGGGAG GACACATCCT CCCCTGGGAG 7860CTCTTTGTCC CTCCTCACGG CTGCTTCCCC ACTGCCTGCC CAGACAAGGC CCCACTGCAG 7920AAGGTTTCCC TGGCCCCAAA CTCTCGCTAC TACCTGAGCT GCCCCATGGA ATCCCGCCAC 7980GCCACCTACT CATGGCGCCA CAAGGAGAAC GTGGAGCAGA GCTGCGAACC TGGTCACCAG 8040AGCCCCAACT GCATCCTGTT CATCGAGAAC CTCACGGCGC AGCAGTACGG CCACTACTTC 8100TGCGAGGCCC AGGAGGGCTC CTACTTCCGC GAGGCTCAGC ACTGGCAGCT GCTGCCCGAG 8160GACGGCATCA TGGCCGAGCA CCTGCTGGGT CATGCCTGTG CCCTGGCCGC CTCCCTCTGG 8220CTGGGGGTGC TGCCCACACT CACTCTTGGC TTGCTGGTCC ACTAGGGCCT CCCGAGGCTG 8280GGCATGCCTC AGGCTTCTGC AGCCCAGGGC ACTAGAACGT CTCACACTCA GAGCCGGCTG 8340GCCCGGGAGC TCCTTGCCTG CCACTTCTTC CAGGGGACAG AATAACCCAG TGGAGGATGC 8400CAGGCCTGGA GACGTCCAGC CGCAGGCGGC TGCTGGGCCC CAGGTGGCGC ACGGATGGTG 8460AGGGGCTGAG AATGAGGGCA CCGACTGTGA AGCTGGGGCA TCGATGACCC AAGACTTTAT 8520CTTCTGGAAA ATATTTTTCA GACTCCTCAA ACTTGACTAA ATGCAGCGAT GCTCCCAGCC 8580CAAGAGCCCA TGGGTCGGGG AGTGGGTTTG GATAGGAGAG CTGGGACTCC ATCTCGACCC 8640TGGGGCTGAG GCCTGAGTCC TTCTGGACTC TTGGTACCCA CATTGCCTCC TTCCCCTCCC 8700TCTCTCATGG CTGGGTGGCT GGTGTTCCTG AAGACCCAGG GCTACCCTCT GTCCAGCCCT 8760GTCCTCTGCA GCTCCCTCTC TGGTCCTGGG TCCCACAGGA CAGCCGCCTT GCATGTTTAT 8820TGAAGGATGT TTGCTTTCCG GACGGAAGGA CGGAAAAAGC TCTGAAAAAA AAAAAAAAAA 8880AAAAAAAA 8888

(2) Information of SEQ ID NO:42:

sequence characteristics:

(A) length: 6622 base pairs

(B) Type (2): nucleic acids

(C) Chain type: single strand

(D) Topological structure: wire type

(ii) type of molecule: genomic DNA

(ix) feature:

(A) name/keyword: exon(s)

(B) Position: 1..6622

(xi) sequence description: SEQ ID NO 42: GATATCATGG AGATAATTAA AATGATAACC ATCTCGCAAA TAAATAAGTA TTTTACTGTT 60TTCGTAACAG TTTTGTAATA AAAAAACCTA TAAATATGAA ATTCTTAGTC AACGTTGCCC 120TTGTTTTTAT GGTCGTATAC ATTTCTTACA TCTATGCGGA TCGATGGGGA TCCGCCCAGG 180GCCACCTAAG GAGCGGACCC CGCATCTTCG CCGTCTGGAA AGGCCATGTA GGGCAGGACC 240GGGTGGACTT TGGCCAGACT GAGCCGCACA CGGTGCTTTT CCACGAGCCA GGCAGCTCCT 300CTGTGTGGGT GGGAGGACGT GGCAAGGTCT ACCTCTTTGA CTTCCCCGAG GGCAAGAACG 360CATCTGTGCG CACGGTGAAT ATCGGCTCCA CAAAGGGGTC CTGTCTGGAT AAGCGGGACT 420GCGAGAACTA CATCACTCTC CTGGAGAGGC GGAGTGAGGG GCTGCTGGCC TGTGGCACCA 480ACGCCCGGCA CCCCAGCTGC TGGAACCTGG TGAATGGCAC TGTGGTGCCA CTTGGCGAGA 540TGAGAGGCTA TGCCCCCTTC AGCCCGGACG AGAACTCCCT GGTTCTGTTT GAAGGGGACG 600AGGTGTATTC CACCATCCGG AAGCAGGAAT ACAATGGGAA GATCCCTCGG TTCCGCCGCA 660TCCGGGGCGA GAGTGAGCTG TACACCAGTG ATACTGTCAT GCAGAACCCA CAGTTCATCA 720AAGCCACCAT CGTGCACCAA GACCAGGCTT ACGATGACAA GATCTACTAC TTCTTCCGAG 780AGGACAATCC TGACAAGAAT CCTGAGGCTC CTCTCAATGT GTCCCGTGTG GCCCAGTTGT 840GCAGGGGGGA CCAGGGTGGG GAAAGTTCAC TGTCAGTCTC CAAGTGGAAC ACTTTTCTGA 900AAGCCATGCT GGTATGCAGT GATGCTGCCA CCAACAAGAA CTTCAACAGG CTGCAAGACG 960TCTTCCTGCT CCCTGACCCC AGCGGCCAGT GGAGGGACAC CAGGGTCTAT GGTGTTTTCT 1020CCAACCCCTG GAACTACTCA GCCGTCTGTG TGTATTCCCT CGGTGACATT GACAAGGTCT 1080TCCGTACCTC CTCACTCAAG GGCTACCACT CAAGCCTTCC CAACCCGCGG CCTGGCAAGT 1140GCCTCCCAGA CCAGCAGCCG ATACCCACAG AGACCTTCCA GGTGGCTGAC CGTCACCCAG 1200AGGTGGCGCA GAGGGTGGAG CCCATGGGGC CTCTGAAGAC GCCATTGTTC CACTCTAAAT 1260ACCACTACCA GAAAGTGGCC GTTCACCGCA TGCAAGCCAG CCACGGGGAG ACCTTTCATG 1320TGCTTTACCT AACTACAGAC AGGGGCACTA TCCACAAGGT GGTGGAACCG GGGGAGCAGG 1380AGCACAGCTT CGCCTTCAAC ATCATGGAGA TCCAGCCCTT CCGCCGCGCG GCTGCCATCC 1440AGACCATGTC GCTGGATGCT GAGCGGAGGA AGCTGTATGT GAGCTCCCAG TGGGAGGTGA 1500GCCAGGTGCC CCTGGACCTG TGTGAGGTCT ATGGCGGGGG CTGCCACGGT TGCCTCATGT 1560CCCGAGACCC CTACTGCGGC TGGGACCAGG GCCGCTGCAT CTCCATCTAC AGCTCCGLAC 1620GGTCAGTGCT GCAATCCATT AATCCAGCCG AGCCACACAA GGAGTGTCCC AACCCCAAAC 1680CAGACAAGGC CCCACTGCAG AAGGTTTCCC TGGCCCCAAA CTCTCGCTAC TACCTGAGCT 1740GCCCCATGGA ATCCCGCCAC GCCACCTACT CATGGCGCCA CAAGGAGAAC GTGGAGCAGA 1800GCTGCGAACC TGGTCACCAG AGCCCCAACT GCATCCTGTT CATCGAGAAC CTCACGGCGC 1860AGCAGTACGG CCACTACTTC TGCGAGGCCC AGGAGGGCTC CTACTTCCGC GAGGCTCAGC 1920ACTGGCAGCT GCTGCCCGAG GACGGCATCA TGGCCGAGCA CCTGCTGGGT CATGCCTGTG 1980CCCTGGCTGC CTGAATTCGA AGCTTGGAGT CGACTCTGCT GAAGAGGAGG AAATTCTCCT 2040TGAAGTTTCC CTGGTGTTCA AAGTAAAGGA GTTTGCACCA GACGCACCTC TGTTCACTGG 2100TCCGGCGTAT TAAAACACGA TACATTGTTA TTAGTACATT TATTAAGCGC TAGATTCTGT 2160GCGTTGTTGA TTTACAGACA ATTGTTGTAC GTATTTTAAT AATTCATTAA ATTTATAATC 2220TTTAGGGTGG TATGTTAGAG CGAAAATCAA ATGATTTTCA GCGTCTTTAT ATCTGAATTT 2280AAATATTAAA TCCTCAATAG ATTTGTAAAA TAGGTTTCGA TTAGTTTCAA ACAAGGGTTG 2340TTTTTCCGAA CCGATGGCTG GACTATCTAA TGGATTTTCG CTCAACGCCA CAAAACTTGC 00 2400CAAATCTTGT AGCAGCAATC TAGCTTTGTC GATATTCGTT TGTGTTTTGT TTTGTAATAA 2460 2520GTACAATTGA CTCGACGTAA ACACGTTAAA TAAAGCCTGG ACATATTTAA CATCGGGCGT 2580GTTAGCTTTA TTAGGCCGAT TATCGTCGTC GTCCCAACCC TCGTCGTTAG AAGTTGCTTC 2640CGAAGACGAT TTTGCCATAG CCACACGACG CCTATTAATT GTGTCGGCTA ACACGTCCGC 2700GATCAAATTT GTAGTTGAGC TTTTTGGAAT TATTTCTGAT TGCGGGCGTT TTTGGGCGGG 2760TTTCAATCTA ACTGTGCCCG ATTTTAATTC AGACAACACG TTAGAAAGCG ATGGTGCAGG 2820CGGTGGTAAC ATTTCAGACG GCAAATCTAC TAATGGCGGC GGTGGTGGAG CTGATGATAA 2880ATCTACCATC GGTGGAGGCG CAGGCGGGGC TGGCGGCGGA GGCGGAGGCG GAGGTGGTGG 2940CGGTGATGCA GACGGCGGTT TAGGCTCAAA TTGTCTCTTT CAGGCAACAC AGTCGGCACC 3000TCAACTATTG TACTGGTTTC GGGCGTATGG TGCACTCTCA GTACAATCTG CTCTGATGCC 3060 3890 3060GCATAGTTAA GCCAGCCCCG ACACCCGCCA ACACCCGCTG ACGCGCCCTG ACGGGCTTGT 3120CTGCTCCCGG CATCCGCTTA CAGACAAGCT GTGACCGTCT CCGGGAGCTG CATGTGTCAG 3180AGGTTTTCAC CGTCATCACC GAAACGCGCG AGACGAAAGG GCCTCGTGAT ACGCCTATTT 3240TTATAGGTTA ATGTCATGAT AATAATGGTT TCTTAGACGT CAGGTGGCAC TTTTCGGGGA 3300AATGTGCGCG GAACCCCTAT TTGTTTATTT TTCTAAATAC ATTCAAATAT GTATCCGCTC 3360ATGAGACAAT AACCCTGATA AATGCTTCAA TAATATTGAA AAAGGAAGAG TATGAGTATT 3420CAACATTTCC GTGTCGCCCT TATTCCCTTT TTTGCGGCAT TTTGCCTTCC TGTTTTTGCT 3480CACCCAGAAA CGCTGGTGAA AGTAAAAGAT GCTGAAGATC AGTTGGGTGC ACGAGTGGGT 3540TACATCGAAC TGGATCTCAA CAGCGGTAAG ATCCTTGAGA GTTTTCGCCC CGAAGAACGT 3600TTTCCAATGA TGAGCACTTT TAAAGTTCTG CTATGTGGCG CGGTATTATC CCGTATTGAC 3660GCCGGGCAAG AGCAACTCGG TCGCCGCATA CACTATTCTC AGAATGACTT GGTTGAGTAC 3720TCACCAGTCA CAGAAAAGCA TCTTACGGAT GGCATGACAG TAAGAGAATT ATGCAGTGCT 3780GCCATAACCA TGAGTGATAA CACTGCGGCC AACTTACTTC TGACAACGAT CGGAGGACCG 3840AAGGAGCTAA CCGCTTTTTT GCACAACATG GGGGATCATG TAACTCGCCT TGATCGTTGG 3900GAACCGGAGC TGAATGAAGC CATACCAAAC GACGAGCGTG ACACCACGAT GCCTGTAGCA 3960ATGGCAACAA CGTTGCGCAA ACTATTAACT GGCGAACTAC TTACTCTAGC TTCCCGGCAA 4020CAATTAATAG ACTGGATGGA GGCGGATAAA GTTGCAGGAC CACTTCTGCG CTCGGCCCTT 4080CCGGCTGGCT GGTTTATTGC TGATAAATCT GGAGCCGGGG AGCGTGGGTC TCGCGGTATC 4140ATTGCAGCAC TGGGGCCAGA TGGTAAGCCC TCCCGTATCG TAGTTATCTA CACGACGGGG 4200AGTCAGGCAA CTATGGATGA ACGAAATAGA CAGATCGCTG AGATAGGTGC CTCACTGATT 4260AAGCATTGGT AACTGTCAGA CCAAGTTTAC TCATATATAC TTTAGATTGA TTTAAAACTT 4320CATTTTTAAT TTAAAAGGAT CTAGGTGAAG ATCCTTTTTG ATAATCTCAT GACCAAAATC 4380CCTTAACGTG AGTTTTCGTT CCACTGAGCG TCAGACCCCG TAGAAAAGAT CAAAGGATCT 4440TCTTGAGATC CTTTTTTTCT GCGCGTAATC TGCTGCTTGC AAACAAAAAA ACCACCGCTA 4500CCAGCGGTGG TTTGTTTGCC GGATCAAGAG CTACCAACTC TTTTTCCGAA GGTAACTGCC 4560TTCAGCAGAG CGCAGATACC AAATACTGTT CTTCTAGTGT AGCCGTAGTT AGGCCACCAC 4620TTCAAGAACT CTGTAGCACC GCCTACATAC CTCGCTCTGC TAATCCTGTT ACCAGTGGCT 4680GCTGCCAGTG GCGATAAGTC GTGTCTTACC GGGTTGGACT CAAGACGATA GTTACCGGAT 4740AAGGCGCAGC GGTCGGGCTG AACGGGGGGT TCGTGCACAC AGCCCAGCTT GGAGCGAACG 4800ACCTACACCG AACTGAGATA CCTACAGCGT GAGCTATGAG AAAGCGCCAC GCTTCCCGAA 4860GGGAGAAAGG CGGACAGGTA TCCGGTAAGC GGCAGGGTCG GAACAGGAGA GCGCACGAGG 4920GAGCTTCCAG GGGGAAACGC CTGGTATCTT TATAGTCCTG TCGGGTTTCG CCACCTCTGA 4980CTTGAGCGTC GATTTTTGTG ATGCTCGTCA GGGGGGCGGA GCCTATGGAA AAACGCCAGC 5040AACGCGGCCT TTTTACGGTT CCTGGCCTTT TGCTGGCCTT TTGCTCACAT GTTCTTTCCT 5100GCGTTATCCC CTGATTCTGT GGATAACCGT ATTACCGCCT TTGAGTGAGC TGATACCGCT 5160CGCCGCAGCC GAACGACCGA GCGCAGCGAG TCAGTGAGCG AGGAAGCATC CTGCACCATC 5220GTCTGCTCAT CCATGACCTG ACCATGCAGA GGATGATGCT CGTGACGGTT AACGCCTCGA 5280ATCAGCAACG GCTTGCCGTT CAGCAGCAGC AGACCATTTT CAATCCGCAC CTCGCGGAAA 5340CCGACATCGC AGGCTTCTGC TTCAATCAGC GTGCCGTCGG CGGTGTGCAG TTCAACCACC 5400GCACGATAGA GATTCGGGAT TTCGGCGCTC CACAGTTTCG GGTTTTCGAC GTTCAGACGT 5460AGTGTGACGC GATCGGTATA ACCACCACGC TCATCGATAA TTTCACCGCC GAAAGGCGCG 5520GTGCCGCTGG CGACCTGCGT TTCACCCTGC CATAAAGAAA CTGTTACCCG TAGGTAGTCA 5580CGCAACTCGC CGCACATCTG AACTTCAGCC TCCAGTACAG CGCGGCTGAA ATCATCATTA 5640 38740 5640AAGCGAGTGG CAACATGGAA ATCGCTGATT TGTGTAGTCG GTTTATGCAG CAACGAGACG 5700TCACGGAAAA TGCCGCTCAT CCGCCACATA TCCTGATCTT CCAGATAACT GCCGTCACTC 5760CAACGCAGCA CCATCACCGC GAGGCGGTTT TCTCCGGCGC GTAAAAATGC GCTCAGGTCA 5820AATTCAGACG GCAAACGACT GTCCTGGCCG TAACCGACCC AGCGCCCGTT GCACCACAGA 5880TGAAACGCCG AGTTAACGCC ATCAAAAATA ATTCGCGTCT GGCCTTCCTG TAGCCAGCTT 5940TCATCAACAT TAAATGTGAG CGAGTAACAA CCCGTCGGAT TCTCCGTGGG AACAAACGGC 6000GGATTGACCG TAATGGGATA GGTCACGTTG GTGTAGATGG GCGCATCGTA ACCGTGCATC 6060TGCCAGTTTG AGGGGACGAC GACAGTATCG GCCTCAGGAA GATCGCACTC CAGCCAGCTT 6120TCCGGCACCG CTTCTGGTGC CGGAAACCAG GCAAAGCGCC ATTCGCCATT CAGGCTGCGC 6180AACTGTTGGG AAGGGCGATC GGTGCGGGCC TCTTCGCTAT TACGCCAGCT GGCGAAAGGG 6240GGATGTGCTG CAAGGCGATT AAGTTGGGTA ACGCCAGGGT TTTCCCAGTC ACGACGTTGT 6300AAAACGACGG GATCTATCAT TTTTAGCAGT GATTCTAATT GCAGCTGCTC TTTGATACAA 6360 63 6360CTAATTTTAC GACGACGATG CGAGCTTTTA TTCAACCGAG CGTGCATGTT TGCAATCGTG 6420CAAGCGTTAT CAATTTTTCA TTATCGTATT GTTGCACATC AACAGGCTGG ACACCACGTT 6480GAACTCGCCG CAGTTTTGCG GCAAGTTGGA CCCGCCGCGC ATCCAATGCA AACTTTCCGA 6540CATTCTGTTG CCTACGAACG ATTGATTCTT TGTCCATTGA TCGAAGCGAG TGCCTTCGAC 6600TTTTTCGTGT CCAGTGTGGC TT 6622

(2) Information of SEQ ID NO:43:

sequence characteristics:

(A) length: 31 base pairs

(B) Type (2): nucleic acids

(C) Chain type: single strand

(D) Topological structure: wire type

(ii) type of molecule: genomic DNA

(ix) feature:

(A) name/keyword: exon(s)

(B) Position: 1..31

(xi) sequence description: 43 of SEQ ID NO:

(2) information of SEQ ID NO:44:

sequence characteristics:

(A) length: 29 base pairs

(B) Type (2): nucleic acids

(C) Chain type: single strand

(D) Topological structure: wire type

(ii) type of molecule: genomic DNA

(xi) sequence description: 44: CTGAATTCAGGAGCCAGGGCACAGGCATG 29 SEQ ID NO

Claims

1. A pheromone comprising a characteristic Sema domain, wherein the protein has an N-terminal signal peptide and in the C-terminal region an immunoglobulin-like domain and a transmembrane domain. The pheromones are known as L-type pheromones (Sema-L), as well as derivatives of L-type pheromones.

2. The pheromone as claimed in claim 1, wherein the protein (human L-type pheromone (H-SemaL)) has the amino acid sequence SEQ ID No. 3.

3. A pheromone as claimed in one or more of claims 1 and 2 in which the protein has at least 40% amino acid identity in the Sema domain region with the Sema domain of H-SemaL.

4. A pheromone as claimed in one or more of claims 1 to 2, wherein the protein comprises the partial amino acid sequence SEQ ID No.4 (murine pheromone (M-SemaL)).

5. A nucleic acid comprising a nucleic acid sequence encoding an L-form pheromone as claimed in one or more of claims 1 to 4 and derivatives thereof.

6. A nucleic acid as claimed in claim 5, wherein the nucleic acid sequence is the pheromone L gene.

7. A nucleic acid as claimed in one or more of claims 5 and 6, wherein the nucleic acid sequence comprises the gene for H-Semal.

8. A nucleic acid as claimed in claim 5 wherein the nucleic acid sequence comprises the cDNA for L-type pheromone.

9. The nucleic acid as claimed in claim 8, wherein the cDNA is the cDNA of H-Semal.

10. The nucleic acid as claimed in claim 8, wherein the cDNA is the cDNA of M-Semal.

11. A process for the preparation of L-form pheromones as claimed in one or more of claims 1 to 4, which comprises cloning into an expression vector and expressing a nucleic acid sequence encoding L-form pheromones or derivatives thereof.

12. A method as claimed in claim 11, wherein eukaryotic cells are used for expression.

Use of L-type pheromone or a derivative thereof or a nucleic acid sequence encoding L-type pheromone or a derivative thereof in the manufacture of a medicament useful in the treatment or prevention of an immune disorder.

14. Use of a nucleic acid sequence as claimed in claim 13 or a derivative thereof in gene therapy.

Use of an L-type pheromone or a nucleic acid sequence encoding an L-type pheromone in a method of identifying an immunomodulator.

16. A method of identifying an immunomodulator, the method comprising incubating an L-type pheromone with a test agent under specified conditions, performing a second parallel culture in the absence of the test agent but otherwise identical conditions, and determining inhibition or activation of the test agent.

17. A method of identifying an immunomodulator, which method comprises expressing a nucleic acid sequence encoding an L-type pheromone under specific conditions and in the presence of a test agent, and determining the extent of expression thereof.

18. A method for the preparation of a nucleic acid encoding an L-type pheromone, wherein such a nucleic acid is amplified by polymerase chain reaction using specific primers.

19. A pheromone antibody which recognizes an epitope of H-Semal corresponding to amino acids 179-378 in SEQ ID NO.4 or recognizes an epitope of H-Semal corresponding to amino acids 480-666 in SEQ ID NO. 4.

20. A process for the preparation of a pheromone antibody as claimed in claim 19, wherein the epitope is expressed as a fusion protein with an epitope tag, the epitope is purified by this epitope tag, and the purified fusion protein is used for immunization.