DE60020080T2

DE60020080T2 - Verfahren zur bestimmung der basensequenz analytischer oligonukleotide zum nachweis von nukleinsäuren

Info

Publication number: DE60020080T2
Application number: DE60020080T
Authority: DE
Inventors: Akira Suyama
Original assignee: Olympus Corp
Current assignee: Olympus Corp
Priority date: 1999-02-04
Filing date: 2000-02-04
Publication date: 2006-03-16
Anticipated expiration: 2020-02-05
Also published as: EP1148123A4; DE60020080D1; WO2000046363A1; JP3610303B2; EP1148123A1; US20020025531A1; EP1148123B1

Description

Die vorliegende Erfindung betrifft ein Verfahren zur Bestimmung einer Nukleotidsequenz einer analytischen Oligonukleinsäure zur analytischen Verwendung (im folgenden als analytische Oligonukleinsäure bezeichnet), die zum Nachweis der Nukleotidsequenz einer bestimmten Nukleinsäure verwendet wird. Insbesondere betrifft die vorliegende Erfindung ein Verfahren zur schnellen und effizienten Bestimmung der Nukleotidsequenz einer analytischen Oligonukleinsäure, die eine vorher bestimmte Teilnukleotidsequenz einer extrem langen Nukleotidsequenz einer Nukleinsäure nachweisen kann. Das Verfahren weist daher eine effektive Verwendbarkeit bei der Bestimmung von Nukleotidsequenzen für die Analyse von Nukleinsäuren auf.
Im erfindungsgemäßen Verfahren kann die Nukleotidsequenz einer erwünschten analytischen Oligonukleinsäure durch Kombination einer Vielzahl von Rechenverfahren, die mit einer Vorrichtung mit begrenzter Rechenkapazität durchgeführt werden können, einfach und effizient bestimmt werden.
Stand der Technik
In einer doppelsträngigen Kette in der Nukleinsäuren ein Hybrid bilden spricht man im Allgemeinen von einer Fehlhybridisierung oder einer Fehlpaarung, wenn ein sich gegenüberliegendes Basenpaar nicht der Basenpaarung nach dem Watson-Crick-Basenpaar (Adenosin-Thymin oder Uracil, oder Cytosin-Guanin) genügt. Wenn eine Fehlpaarung auftritt, nimmt die thermische Stabilität des Hybrids im Allgemeinen ab. Eine Fehlpaarung kann daher im Allgemeinen durch eine Erhöhung der Hybridisierungstemperatur vermieden werden. Wenn jedoch ein Hybrid aus der 30 Nukleotide langen, analytischen Oligonukleinsäure gebildet wird und das gebildete Hybrid eine einzige Fehlpaarung am 3'-Ende oder am 5'-Ende aufweist, ist seine thermische Stabilität fast genauso hoch wie die eines vollständig gepaarten Hybrids. In diesem Fall ist es trotz Erhöhung der Hybridisierungstemperatur schwierig, ein fehlgepaartes Hybrid von einem gepaarten Hybrid zu unterscheiden. Es wird daher, wenn eine solche Fehlhybridisierung vorliegt, zu einem falschen Nachweis kommen.
Um die Fehlpaarung auszuschalten, müssen alle möglichen, Strukturen, die man bei Hybriden vermuten kann, die aus der Nukleotidsequenz der konstruierten, analytischen Oligonukleinsäure und der nachzuweisenden Zielnukleinsäure gebildet wurden, durch Berechnung hergeleitet werden und daneben muß man zeigen, daß die Nukleotidsequenz der konstruierten, analytischen Oligonukleinsäure keine Fehlpaarung, wie sie oben angegeben ist, bilden würde. Es dauert jedoch lange, alle möglichen Strukturen durch Berechnung herzuleiten. Es wurde deshalb bei einer herkömmlichen Konstruktion der Nukleotidsequenz der analytischen Oligonukleinsäure nicht im Voraus abgeschätzt, wie stark die konstruierte Kandidatensequenz spezifisch mit einer Zielstelle hybridisiert. Daraus ergibt sich, daß, selbst wenn die Struktur durch Investition von viel Zeit zur Berechnung hergeleitet wird, keine guten Ergebnisse erzielt werden. Daher ist man vielfach gezwungen, die in komplizierter Arbeit erhaltenen Kandidatensequenzen zu verwerfen.
Der Nachweis der Nukleotidsequenz einer bestimmten, in einer biologischen Probe vorhandenen Nukleinsäure ist nicht nur bei der Analyse eines Proteins, das exprimiert wird und in einem bestimmten Organ auf molekularer Ebene seine Funktion ausübt, und damit verbunden bei der Untersuchung der Expressionskontrolle eines Proteins während der Informationsübermittlung in das Nervensystem, in das Gehirn oder in das Immunsystem wichtig, sondern es stellt auch eine wichtige Technik bei der Gendiagnose, die zum Nachweis mutanter Gene bei genetischen Erkrankungen, bei der Krebsdiagnose und beim Nachweis virusassoziierter Gene verwendet werden, dar. Insbesondere wird die Gendiagnose zur Enddiagnose verwendet, wo man sich keine Fehler mehr erlauben kann. Daneben muß in einem Gebiet namens "molekulare EDV", bei dem die Verarbeitung kombinatorischer Problemstellungen mit Hilfe von DNAs durchgeführt wird, die Nukleotidsequenz einer Nukleinsäure genau erfaßt werden, um die erhaltene Lösung zu überprüfen.
Bei der Genanalyse zur Analyse auf Vorhandensein oder Nichtvorhandensein eines Gens und von Mutationen auf der Grundlage qualitativer und quantitativer Nachweise verschiedener Arten von Nukleinsäuremolekülen ist es am wichtigsten, eine Nukleotidsequenz der Oligonukleinsäure zur Verwendung bei der Analyse (im folgenden als "analytische Sequenz" bezeichnet) zu bestimmen, die einen spezifischen Doppelstrang nur mit einer vorbestimmten Stelle einer Zielnukleinsäure bildet. Bei einer Nukleinsäure-Hybridisierungsreaktion tritt eine Fehlhybridisierung wahrscheinlich dann auf, wenn die verwendete analytische Sequenz zu einer komplementären Sequenz an einer beliebigen Stelle außer der Zielstelle des nachzuweisenden Gens analog ist. Man neigt daher dazu, die analytische Sequenz so zu konstruieren, daß sie so lang wie möglich ist, um die Spezifität zur Zielsequenz zu verbessern. Je länger jedoch die Sondensequenz ist, desto stabiler ist die Sekundärstruktur der analytischen Oligonukleinsäure selbst. Daraus folgt, daß die Hybridisierungseffizienz der Sonde mit der Zielnukleinsäure deutlich sinkt und die Hybridisierungstemperatur ansteigt. Daraus ergibt sich, daß die Hybridisierungsreaktion kompliziert sein wird.
Es ist außerdem viel Erfahrung und Ausprobieren vonnöten, um die analytische Sequenz auszuwählen. Daneben erfordert ein herkömmliches Rechenverfahren zur Bestimmung einer Sondensequenz mit stringenter Spezifität eine enorme Menge an Zeit für die Berechnung. Unter diesen Umständen war es zunehmend und eindringlich erforderlich, daß die analytische Sequenz nur auf der Grundlage von Berechnungen, unabhängig von Erfahrung und ohne die Durchführung vieler vorhergehender Experimente, leicht zu konstruieren ist.
Offenbarung der Erfindung
Es ist eine erste Aufgabe der vorliegende Erfindung, ein Verfahren zur Bestimmung einer Nukleotidsequenz einer analytischen Oligonukleinsäure zur Verfügung zu stellen, und zwar einer analytischen Sequenz, die eine hohe Spezifität besitzt und immer in der Lage ist, eine hocheffiziente Hybridisierungsreaktion durchzuführen.
Es ist eine zweite Aufgabe der vorliegenden Erfindung, ein Verfahren zur schnellen Bestimmung einer analytischen Sequenz, die eine hohe Spezifität aufweist, zur Verfügung zu stellen.
Es ist eine dritte Aufgabe der vorliegenden Erfindung, mit Hilfe eines einfachen Vorrichtung, wie beispielsweise einem Computer, eine erwünschte analytische Sequenz schnell und kostengünstig zur Verfügung zu stellen.
Die oben angegebenen Aufgaben werden durch ein Verfahren zur Bestimmung einer Nukleotidsequenz einer analytischen Oligonukleinsäure zur Verwendung bei der Analyse der Nukleinsäure erreicht, umfassend:
Auflisten aller Nukleotidsequenzeinheiten, die in einer zu analysierenden Zielnukleinsäure mit vorbestimmter Länge, die kürzer als die zu konstruierende, analytische Oligonukleinsäure ist, vorhanden sind;
Extraktion einer Nukleotidsequenz, die eine Sequenz enthält, welche in geringer Häufigkeit in der Zielnukleinsäure vorkommt, aus Kandidatensequenzen der analytischen Oligonukleinsäuren, als analytische Sequenz, die für die Analyse der Nukleotidsequenz der Zielnukleinsäure geeignet ist, auf Grundlage der Auftrittshäufigkeit der einzelnen, aufgelisteten Sequenzeinheiten.
Vorzugsweise wird der Extraktionsschritt durch sukzessive Anwendung einer Vielzahl verschiedener Verfahrensschritte durchgeführt.
Vorzugsweise umfaßt der Extraktionsschritt ferner einen Schritt der Selektion von Kandidatensequenzen, basierend auf den chemischen Eigenschaften der einzelnen Kandidatensequenzen. In diesem Fall kann die Sequenz effektiv bestimmt werden, da die Selektion auf der Grundlage durchgeführt wird, ob die Sondensequenz für eine Hybridisierungsreaktion geeignet ist oder nicht. Insbesondere, wenn die thermische Stabilität einer molekularen Struktur als chemische Eigenschaft für das Selektionskriterium verwendet wird, kann die Selektion von der Eignung für die Hybridisierungsreaktion abhängig gemacht werden. Als chemische Eigenschaft für das Selektionskriterium sind sowohl die thermische Stabilität eines aus der Kandidatensequenz gebildeten Doppelstrangs als auch die Stabilität einer Sekundärstruktur der Kandidatensequenz oder beide bevorzugt.
Daneben wird mit der vorliegenden Erfindung ein Verfahren zur Bestimmung einer Nukleotidsequenz zur Verwendung beim Nachweis einer Nukleinsäuresequenz zur Verfügung gestellt, umfassend:
einen ersten Rechenschritt zur Berechnung der Auftrittshäufigkeit jeder der n Sequenzeinheiten (im folgenden als "n Sequenzeinheiten" bezeichnet), die aus n Nukleotiden gebildet wurden (n ist eine ganze Zahl von 2 oder mehr), die in einer Nukleotidsequenz einer bekannten Nukleinsäure vorkommen, auf Grundlage der 4ⁿ Möglichkeiten, die allen der n Sequenzeinheiten entsprechen;
einen ersten Extraktionsschritt zur Extraktion beliebiger p Sequenzeinheiten, die in der zu analysierenden Zielnukleinsäure vorhanden sind, aus p Sequenzeinheiten, die aus p Nukleotiden gebildet wurden (p ist größer als n mal m; und m ist eine ganze Zahl von 1 oder mehr);
einen zweiten Rechenschritt zur Berechnung eines Auftrittshäufigkeitsindex jeder der p Sequenzeinheiten, die in der zu analysierenden Zielnukleinsäure vorhanden sind, auf der Grundlage der Auftrittshäufigkeit der n Sequenzeinheiten, die im ersten Rechenschritt erhalten wurden; und
einen zweiten Extraktionsschritt zur Extraktion einer p Sequenzeinheit mit einem niedrigeren Auftrittshäufigkeitsindex, der im zweiten Rechenschritt erhalten wurde, als Sondensequenz.
Im ersten Rechenschritt ist n vorzugsweise eine beliebige Zahl von 5, 6 und 7. In diesem Fall betragen alle Möglichkeiten für die n Sequenzen, die die Grundlage für den Erhalt von Häufigkeiten bilden, 1024 für n = 5, 4096 für n = 6, 16384 für n = 7. Diese Zahlen sind für den ersten Rechenschritt annehmbar, der die Durchführung einer Berechnung in brauchbarer Verarbeitungsgeschwindigkeit ermöglicht. Die Länge jeder der p Sequenzeinheiten im ersten Extraktionsschritt kann auf einen beliebigen, zur Synthese einer Nukleinsäurensonde ausreichenden Wert gesetzt werden, beispielsweise innerhalb von p = 10–50.
Daneben ist es vorzuziehen, daß, zumindest im zweiten Extraktionsschritt, die p Sequenzeinheit für die analytische Sequenz aus einer Vielzahl von p Sequenzeinheiten mit geringerer Auftrittshäufigkeit ausgewählt werden kann, wobei chemische Bedingungen in die Überlegung mit einbezogen werden. Als chemische Bedingungen wird vorzugsweise die Stabilität einer molekularen Struktur verwendet, und insbesondere bevorzugt werden ein Tm-Wert und/oder eine Stabilität einer intramolekularen Sekundärstruktur verwendet. Wenn sowohl der Tm-Wert als auch die Stabilität einer Sekundärstruktur verwendet werden, ist es vorzuziehen, daß der Selektionsschritt durch eine erste Selektion einer Vielzahl von p Sequenzeinheiten mit einem Tm-Wert in einem vorbestimmten Bereich, und eine anschließende Selektion der p Sequenzeinheiten mit einer instabilen Sekundärstruktur von den auf Grundlage des Tm-Werts ausgewählten p Sequenzeinheiten durchgeführt wird.
Die Menge an Berechnungen, die im oben beschriebenen Sequenzbestimmungsverfahren durchgeführt wird, ist zudem relativ gering. Es ist daher, wenn alle Schritte nacheinander von einem Computer durchgeführt werden, möglich, eine analytische Sequenz leicht und mit geringem Kostenaufwand zu bestimmen. In diesem Fall ist keine Berechnung mit übermäßiger Geschwindigkeit wie die eines Supercomputers nötig, und man erhält daher einen Vorteil durch die Verwendung eines normalen Computers.
Die Stabilität der Sekundärstruktur kann als Indikator verwendet werden, um zu bestimmen, ob oder ob nicht das Nukleinsäuremolekül ein intramolekulares Hybrid innerhalb des Nukleinsäuremoleküls selbst bildet. Wenn die Nukleinsäuresonde eine stabile Sekundärstruktur innerhalb des Moleküls selbst bildet, ist es schwer, ein erwünschtes Hybrid zwischen der Sonde und einer Zielnukleinsäure zu bilden. Die hierin verwendete, stabile Sekundärstruktur beinhaltet eine Schleife, die aus einer Nukleinsäure und einer teilweisen Hybridisierung der Sondennukleinsäuremoleküle miteinander gebildet wurde. Die Nukleinsäure, die effizient keine stabile Sekundärstruktur bildet, bindet an die Sequenz einer Zielnukleinsäure, wenn die Zielnukleotidsequenz analysiert wird.
Die erfindungsgemäß erhaltene Sondensequenz wird nicht nur zum Nachweis der Nukleinsäuresequenz eines Gens, sondern auch zum Nachweis einer Nukleinsäure, die eine künstlich synthetisierte Sequenz besitzt, und einer Teilsequenz verwendet. Insbesondere kann die Sondensequenz zum Nachweis einer bestimmten Nukleotidsequenz der künstlich synthetisierten Nukleinsäure, zum Nachweise einer bestimmten cDNA, die in einer cDNA-Bibliothek beinhaltet ist, oder zum Nachweis einer Sequenz eines Exon-Teils in einer genomischen Sequenz eines Eukaryoten verwendet werden. Außerdem ist es möglich, nicht nur eine Nukleotidsequenz in einer genomischen DNA eines lebenden Organismus und eine Nukleotidsequenz einer messenger RNA nachzuweisen, sondern auch deren Kopien und Teilsequenzen. Daneben kann das erfindungsgemäße Verfahren zur Konstruktion einer Sondensequenz für verschiedene Enzymreaktionen verwendet werden, indem eine Hybridisierungsreaktion einer Nukleinsäure verwendet wird, wie beispielsweise dem Primer, der bei einer PCR (Polymerase-Kettenreaktion) verwendet wird.
Kurze Beschreibung der Zeichnung
1 stellt ein Ablaufdiagramm dar, das schematisch einen erfindungsgemäßen Arbeitsablauf zeit;
2 zeigt in einer schematischen Skizze wie man ein Tupel als Sequenzeinheit festlegt;
3 zeigt in einer schematischen Skizze wie man einen Hauptkandidaten als analytische Sequenz festlegt;
4 stellt einen Graphen dar, der eine Verteilung der Auftrittshäufigkeit der Sequenzeinheit in einer Nukleinsäure zeigt;
5 stellt einen Graphen dar, der eine Verteilung der Tm-Werte der Kandidaten für die analytische Oligonukleinsäure zeigt, die auf der Grundlage der Nukleotidsequenzen berechnet wurde;
6 zeigt in einer schematischen Skizze mögliche Formen der analytischen Oligonukleinsäuren unter Hybridisierungsbedingungen.
Bestes Verfahren zur Durchführung der Erfindung
Das erfindungsgemäße Verfahren wird unter Bezugnahme auf die begleitende Zeichnung erläutert werden. Die vorliegende Erfindung wird jedoch durch die folgende Erläuterung nicht eingeschränkt werden.
1 stellt ein Ablaufdiagramm dar, das schematisch eine Ausführungsform des erfidungsgemäßen Verfahrens zeigt. Insbesondere zeigt 1 die Konstruktionsschritte einer Nukleotidsequenz einer Probennukleinsäure, die als eine analytische Oligonukleinsäure für eine Verwendung bei der Genidentifikation dient. In der Ausführungsform wird eine Sondennukleinsäure zum Nachweis eines bestimmten OLR (Offener Leserahmen) auf dem Genom eines Escherichia coli (E. coli) konstruiert. Ein Prokaryot wie E. coli hat im Gegensatz zum Eukaryoten keine Exon/Intron-Struktur. Daher entsprechen die meisten OLR des Prokaryoten der Nukleotidsequenz eines Gens. Um es genauer zu formulieren bedeutet der Nachweis eines bestimmten OLR den Nachweis eines bestimmten Gens. In der Ausführungsform wird ein Hochgeschwindigkeitsalgorithmus zur Verfügung gestellt, bei dem die Rechenmenge proportional zur Genomlänge ansteigt.
Zuerst wird die Nukleotidsequenz des gesamten E.coli-Genoms gescannt, um alle Sequenzeinheiten, von denen jede aus 7, im Genom vorhandenen Nukleotiden (im folgenden als "7-Tupel" bezeichnet) besteht, vollständig aufzulisten. Beispielsweise wird, wie in 2 gezeigt, die Nukleotidsequenz, die aus dem ersten bis siebten Nukleotid von einem geeigneten Ende (Sequenz) des Genoms 1 besteht, als ein erstes Tupel 2 bestimmt. Anschließend wird der Rahmen, der aus dem ersten 7-Tupel 2 besteht, um ein Nukleotid auf dem Genom verschoben, um das zweite 7-Tupel, das dritte 7-Tupel, das vierte 7-Tupel und so weiter zu erhalten. Wenn das Verfahren sequentiell wiederholt wird, können alle 7 Tupel vollständig aufgelistet werden. Dementsprechend werden alle 7 Tupel in Varianten eingeteilt, die auf den entsprechenden Nukleotidsequenzen basieren und anschließend werden alle Varianten der 7 Tupel daraufhin überprüft, wie viele von jedem 7-Tupel im Genom vorhanden sind.
Als nächstes werden alle eingeteilten Varianten der 7 Tupel, die auf einzelnen Nukleotidsequenzen basieren, auf ihre Auftrittshäufigkeit überprüft. Wenn die Häufigkeit als Maß für das Vorhandensein betrachtet wird, muß die Gesamtzahl der 7 Tupel, die im Genom 1 vorhanden sind, als Nenner verwendet werden. Die Summe für das Maß der Existenz muß in der vorliegenden Erfindung jedoch nicht notwendigerweise 100 erreichen. Es reicht aus, wenn relative Häufigkeiten der verschiedenen, im Genom auftretenden 7-Tupel erhalten werden. Aus diesem Grund ist es der Bequemlichkeit halber praktisch, die Anzahl an mathematisch möglichen Kombinationen der 7-Tupel als Nenner zu verwenden. Um es genauer zu erklären, werden, da eine Nukleotidsequenz eines Gens aus vier Arten an Nukleotidbasen (Adenin, Thymin, Guanin und Cytosin) besteht, die Varianten der möglichen, aus 7-Tupeln bestehenden Nukleotidsequenzen theoretisch 4⁷ (= 16384) ergeben. Allgemeiner ausgedrückt, wird die Anzahl an Varianten 4⁷ sein, wenn eine n-Tupeleinheit verwendet wird.
Bei Verwendung der Zahl 4⁷ (= 16384) als Nenner erhält man die Auftrittshäufigkeit jedes, im gesamten Genom vorhandenen 7-Tupels (Erster Rechenschritt). In diesem Fall kann leicht ein Vergleich gezogen werden, wobei man wie in 4 gezeigten Graphen verwendet, bei dem die einzelnen Tupel auf der waagerechten Achse und ihre Häufigkeiten auf der vertikalen Achse dargestellt sind. Die oben angegebene Berechnung und graphische Darstellung können leicht mit Hilfe eines kommerziell erhältlichen Computers durchgeführt werden. Es ist zu beachten, daß die Daten als Häufigkeiten der einzelnen 7-Tupel in einem Speicher gespeichert werden.
Wie in 3 gezeigt, sind alle Kandidatensequenzen, die möglicherweise als eine analytische Sequenz verwendet werden, vollständig aufgelistet, wobei die analytische Sequenz aus Nukleotiden besteht, deren Anzahl durch mindestens ein Nukleotid, vorzugsweise 10–15 Nukleotide (z.B. 30 Nukleotide), größer ist als die des 7-Tupels, und auf dem nachzuweisenden OLR vorhanden ist. Im Hinblick auf jede Kandidatensequenz mit 30 Nukleotiden wird, wie unten angegeben, ein Index der Auftrittshäufigkeit auf der Grundlage der Auftrittshäufigkeit des beim ersten Rechenschritt erhaltenen 7-Tupels berechnet.
Es gibt vierundzwanzig 7-Tupel in den 30 Nukleotiden. Unter der Voraussetzung, daß die vierundzwanzig 7-Tupel sequentiell von der Seite des 5'-Endes der 30 Nukleotide an von 1 bis 24 durchnummeriert sind, und daß die Häufigkeiten, die den vierundzwanzig, oben berechneten 7-Tupeln entsprechen, mit p1, p2, ..., p24 bezeichnet sind. In diesem Fall kann der Auftrittshäufigkeitsindex der 30 Nukleotide langen, analytischen Sequenz durch Multiplikation der Häufigkeiten der vierundzwanzig 7-Tupel miteinander berechnet werden, wie durch p1 × p2 × ... × p24 angegeben ist. Der Auftrittshäufigkeitsindex gibt an, wie spezifisch eine Kandidatensequenz mit dem nachzuweisenden OLR hybridisiert. Je kleiner der Wert des Index ist, desto größer ist die Spezifität. Der Auftrittshäufigkeitsindex wird unter Berücksichtigung aller 30 Nukleotid langen Kandidatensequenzen, die auf dem Ziel-OLR vorhanden sind, berechnet. Die Kandidatensequenzen werden auf der Grundlage eines geeigneten Grenzwerts des Index ausgewählt. Die bei diesem Rechenschritt ausgewählten Kandidatensequenzen werden als "Kandidatensequenzgruppe mit geringer Auftrittshäufigkeit" bezeichnet. Es ist zu beachten, daß die Berechnung und graphische Darstellung leicht mit Hilfe eines kommerzielle erhältlichen Computers durchgeführt werden kann. Die Daten der Auftrittshäufigkeit der einzelnen, 30 Nukleotid langen Teilsequenzen werden in einem Speicher gespeichert.
Eine Kandidatensequenzgruppe mir geringer Auftrittshäufigkeit, die oben extrahiert wurde, wird aufgrund anderer Bedingungen, anderen als der Auftrittshäufigkeit, d.h. physikochemischen Bedingungen bewertet, wobei eine erwünschte Sondensequenz ausgewählt wird. Die Sondensequenz wird nicht allein durch die Auftrittshäufigkeit bestimmt. Dies rührt daher, daß die Sonde mit einer zu einer Zielsequenz spezifischen Nukleotidsequenz nicht immer effizient ein Hybrid bildet. Es ist daher vorzuziehen, daß jede der Kandidatensequenzen mit geringer Auftrittshäufigkeit auf ihre thermische Stabilität überprüft werden, wie in den 5 und 6 gezeigt ist.
Zuallererst werden die Tm-Werte in dem in 5 gezeigten Graphen dargestellt. Anschließend werden die Kandidatensequenzen mit geringer Auftrittshäufigkeit innerhalb eines vorbestimmten Bereichs an Tm-Werten ausgewählt. Die Tm-Werte werden beispielsweise auf Grundlage eines SantaLucia-Parameters (John SantaLucia, Jr., Hatim T. Allawi und P. Ananda Seneviratne "Improved nearest-neighbor parameters for predicting DNA duplex stability." Biochemistry 35, 3555–3562) berechnet. Der Grund, warum die Sequenzen mit Tm-Werten des vorbestimmten Bereichs ausgewählt werden ist der, daß die Mehrheit der analytischen Oligonukleotidsequenzen, die spezifisch zu den entsprechenden OLR sind und den Anforderungen an die Tm genügen, gleichzeitig bei der gleichen Temperatur mit den OLR hybridisieren können. Die restlichen Kandidatensequenzen mit geringer Auftrittshäufigkeit, die im oben angegebenen Selektionsschritt nicht eliminiert wurden, werden als wahrscheinlichere Kandidatensequenzen betrachtet, so daß sie auf die Stabilität ihrer Sekundärstruktur, die innerhalb eines Moleküls selbst gebildet wird, überprüft werden.
Beispielsweise werden, wie in 6 gezeigt, analytische Nukleinsäuren auf einem Festphasenträger 4 mit einem geeigneten Linkermolekül 5, das zwischen den beiden liegt, immobilisiert. Wenn das Konstrukt in eine Lösungsmischung, die eine reaktive Substanz, wie beispielsweise eine Testprobe, enthält, kann die Stabilität der molekularen Struktur wie folgt diskutiert werden. Eine Kandidatensonde 6 bildet im Molekül eine "Auto-Hybrid" genannte Schleife. Eine Kandidatensequenz 7 bildet zum Teil eine intermolekulare Hybridisierung mit einer anderen, auf dem Träger 4 immobilisierten analytischen Sequenz. Da die Sekundärstrukturen dieser Sonden stabil sind, kann es für sie schwierig oder unmöglich sein, ein erwünschtes Hybrid mit der Zielnukleinsäure zu bilden. Daher werden diese Sonden, die zur Bildung stabiler Sekundärstrukturen in der Lage sind, eliminiert. Daraus ergibt sich, daß eine Teilsequenz 8, die in der Lage ist, unter Hybridisierungsbedingungen leicht mit einem Ziel zu hybridisieren, als wahrscheinlichste Kandidatensequenz ausgewählt wird. Die Stabilität der Sekundärstruktur kann auf Grundlage der Nukleotidsequenz durch Verwendung einer geeigneten, analytischen Software berechnet werden.
Zum Schluß werden die wahrscheinlichsten Kandidatensequenzen, die auf der Grundlage der Auftrittshäufigkeit und physikochemischen Bedingungen ausgewählt werden, zudem auf ihre Nutzbarkeit als analytische Sequenz zur Identifikation des OLR überprüft. Die Nutzbarkeit wird mit Hilfe eines Genoms in Gesamtlänge von Escherichia coli überprüft. Es wird insbesondere überprüft, ob oder ob nicht die ausgewählte analytische Nukleotidsequenz komplementär an eine nur einzige bestimmte Position des Genoms bindet. Die Analyse der Bindungsspezifität wird mit Hilfe eines Computers durchgeführt. Beispielsweise bildet man mit Hilfe eines dynamischen Programmierverfahrens zuerst eine lokale Bindungskarte und vergleicht anschließend die Nukleotidsequenzen des gesamten Genoms von Escherichia coli mit der Karte. Auf diese Weise kann man überprüfen, daß es der Sequenz nicht möglich ist, eine Fehlhybridisierung zu verursachen. Der Überprüfungsschritt kann auch durch Berechnung des Hamming-Abstands zwischen den wahrscheinlichsten Kandidatensequenzen und der Nukleotidsequenz des gesamten Genoms von Escherichia coli durchgeführt werden. Die den Überprüfungsschritt bestehende Nukleotidsequenz wird als die analytische Nukleotidsequenz bestimmt.
Wenn ein Nachweis auf der Grundlage der Hybridisierung mit Hilfe der oben bestimmten analytischen Sequenz durchgeführt wird, wird eine Markersonde durch Bindung einer nachweisbaren Markersubstanz an die Oligonukleinsäure, die die analytische Sequenz besitzt, hergestellt. Die Hybridisierungsreaktion kann auf vorher festgelegte Weise, in der die Markersonde und eine Testprobe miteinander gemischt werden, durchgeführt werden und anschließend wird die hybridisierte Markersubstanz selektiv gemessen. Wenn eine fluoreszierende Substanz, wie beispielsweise FITC (Fluorescein-Isothiocyanat) als Markersubstanz verwendet wird, kann der Nachweis leicht mit Hilfe eine geeigneten Fluoreszenzdetektors durchgeführt werden. Zudem kann bei Verwendung einer Datenverarbeitungsvorrichtung eine quantitative oder qualitative Analyse automatisch durchgeführt werden. In diesem Fall ist es möglich, das Vorhandensein oder Nichtvorhandensein des Zielnukleinsäuremoleküls oder ein Reaktionsmaß auf der Grundlage qualitativer oder quantitativer Meßdaten (numerischer Wert oder Bild) zu bestimmen. Die Ergebnisse der Genanalyse können durch Ausdruck der Ergebnisse in Papierform als Bericht oder durch Darstellung der Ergebnisse auf einem Bildschirm erhalten werden.
Die Hybridisierungsreaktion der Nukleinsäuren wird nicht nur zum Nachweis eines Gens, sondern auch bei einer Nukleinsäureamplifizierungsreaktion, wie beispielsweise einer PCR, und weiterhin bei einer Identifizierungsreaktion, wie beispielsweise einer LCR (Ligase-Kettenreaktion), verwendet.
Die die analytische Sequenz besitzende Oligonukleinsäure, die gemäß dem Verfahren der vorliegenden Erfindung konstruiert wurde, kann als Primer für die PCR oder als Sonde für die LCR verwendet werden. Es können zudem verschiedene Arten von analytischen Sequenzen in passender Weise bei einem einzelnen Genom, abhängig von einem Hauptnachweis, verwendet werden. Die analytische Oligonukleinsäure kann auf einem Festphasenträger, wie beispielsweise Mikropartikeln, einem Chipsubstrat, einer Säule, einem Filter, Testpapier, einem Well, immobilisiert sein.
Die vorliegende Erfindung beschränkt sich nicht auf die oben angegebenen Ausführungsformen und kann auf verschiedene Weise auf der Grundlage des wesentlichen Inhalts der vorliegenden Erfindung modifiziert werden. Alle in 1 erläuterten Schritte können beispielsweise automatisch durchgeführt werden. In diesem Fall reicht es aus, daß nur die zuletzt bestimmte Sondensequenz dargestellt oder ausgegeben wird. Abhängig von den Wünschen des Benutzers kann es möglich sein, die Bildschirmdarstellung oder den Ausdruck des Graphen einer Auftrittshäufigkeit des Tupels, und die Daten und den Graphen im Bezug auf die Bindungsstelle der analytischen Sequenz an eine nachzuweisende Zielnukleinsäure, und den Tm-Wert und eine Sekundärstruktur der analytischen Sequenz wegzulassen. Alternativ dazu können einzelne Rechenschritte, die Berechnung in Bezug auf den Tm-Wert und die Stabilität der Sekundärstruktur, und die Umwandlung der Ergebnisse in Zahlen oder einen Graphen mit Hilfe eines Computers durchgeführt werden, wobei vom Benutzer eine Bewertung einschließlich einer letzten Selektion auf der Grundlage der numerischen Daten oder des auf dem Bildschirm dargestellten Graphen erfolgen kann. In diesem Fall können die hierin extrahierten oder ausgewählten Daten mit Hilfe einer Eingabevorrichtung, wie beispielsweise einer Tastatur oder einer Maus, eingegeben werden. Zudem müssen die durch verschiedene Schätzungen und Berechnungen erhaltenen Daten nicht notwendigerweise immer in einem Speicher, etc. gespeichert werden. Bei der automatischen Bearbeitung können verschiedene Rechendaten und die Ergebnisse der Extraktion und Bestimmung mit verschiedenen Einrichtungen, wie Krankenhäusern, Universitäten, Untersuchungszentren ausgetauscht werden, wobei diese gegenseitig über ein Online-Netzwerk, das diese Institute und einen Zentralcomputer verbindet, übertragen werden.
Die Bewertungsschritte des Tm-Werts und der Stabilität der Sekundärstruktur können in umgekehrter Reihenfolge und zur gleichen zeit durchgeführt werden. Wenn die besonders bevorzugte analytische Nukleotidsequenz aus den extrahierten Kandidatensequenzen mit geringer Auftrittshäufigkeit unter der Bedingung ausgewählt wurde, bei der ein erster Vorrang den physikochemischen Bedingungen gegeben wird, kann die analytische Sequenz so ausgewählt werden, daß sie ein Tupel einschließt, dessen Auftrittshäufigkeit nicht die niedrigste ist.
Im erfindungsgemäßen Verfahren kann nicht nur eine genomische Nukleotidsequenz, sondern auch eine exprimierte messenger RNA und cDNA (eine Kopie der RNA) und weiterhin künstlich synthetisierte DNA als ein Ziel verwendet werden. Insbesondere wird das erfindungsgemäße Verfahren zur Konstruktion einer analytischen Nukleotidsequenz verwendet, die auf eine bestimmte Nukleotidsequenz irgendeines der vorher angegebenen Ziele gerichtet ist.
Beispiel
Es wurde ein PCR-Experiment mit Primern durchgeführt, die mit dem erfindungsgemäßen Verfahren zur Amplifikation von Mäusegenen mit einem PCR-Verfahren, wie unten beschrieben ist, konstruiert wurde.
Die Nukleotidsequenzen aller Gene einer Maus (balb/c) wurden nicht aufgeklärt. Daher wurde die Nukleotidsequenz einer Maus (balb/c), die am 5. September 1999 in der GenBank registriert wurde, unter der Annahme verwendet, daß es die gesamte Nukleotidsequenz einer Maus darstellt. Die unten gezeigten Primer wurde für die Amplifikation der DNA einer Maus hergestellt.
Die durch Berechnung erhaltenen Primersequenzen, die berechneten Längen der amplifizierten Produkte und die Tm-Werte sind in der unten stehenden Tabelle gezeigt. Es ist zu beachten, daß die Primersequenz vom 5'-Ende aus aufgeschrieben ist. Es dauerte zwei Stunden, um die Berechnung für den Erhalt der Primersequenzen unter den folgenden Bedingungen durchzuführen. Wenn die gleiche Berechnung ohne die Verwendung des erfindungsgemäßen Tupelverfahrens ausgeführt wird, dauert es 11,5 Stunden oder länger.

Hierbei verwendeter Computer

CPU:	Pentium III 500 MHz
RAM:	384 Mbyte
OS:	Linux
Compiler:	C++

PCR-Bedingungen

Reaktionslösung:	Bestandteile für 50 μl
Matrize:	hergestellt von Clontech. 0,4 μg genomische DNA, die aus einer Mäuse(balb/c)-Leber extrahiert wurde
Enzym	hergestellt von TaKaRa ExTaq 5 Einheiten
dNTP(Mischung aus dATP, dCTP, dGTP, dTTP):	jeweils 2,5 nmol
Puffer für ExTaq:	hergestellt von TaKaRa, Mg²⁺-Konzentration 2 mM
Primer:	jeweils 20 pmol

Temperaturzyklusbedingungen für die PCR

(1) 95°C 30 Sekunden
(2) 65°C 60 Sekunden
(3) 72°C 60 Sekunden

Um die Stringenz zu verbessern wurden die Temperaturen höher eingestellt, als erforderlich ist. Die Schritte (2) und (3) wurden in 30 Zyklen wiederholt.
Elektrophoresebedingungen

Gel: hergestellt von FMC
Nusieve GTG-Agarose 4% TAE-Puffer
Spannung und Zeit: 100 V, 30 Minuten

Ergebnisse
Die bei der PCR-Reaktion amplifizierten Produkte wurden mit den erwarteten Längen erhalten.
Wie oben geschrieben ist es erfindungsgemäß möglich eine analytische Sequenz zu erhalten, die immer genau mit einer Zielnukleinsäure hybridisieren kann. Zudem ist es erfindungsgemäß möglich, die analytische Sequenz schnell zu bestimmen.
Zudem wird die analytische Sequenz erfindungsgemäß Schritt für Schritt durch Kombination relativ kleiner Mengen an Berechnungen, ohne daß eine große Rechenkapazität erfordlich ist, bestimmt. Daher ist kein Großrechner erforderlich.
Die Bestimmung der analytischen Sequenz kann daher einfach mit Hilfe eines kostengünstigen Computers für den Allgemeingebrauch durchgeführt werden.

Claims

Verfahren zur Bestimmung einer Nukleotidsequenz einer analytischen Oligonukleinsäure, wobei die Oligonukleinsäure zur Analyse von Nukleinsäuren verwendet wird, umfassend die Schritte: Auflisten aller Nukleotidsequenzeinheiten, die in der zu analysierenden Zielnukleinsäure mit vorbestimmter Länge, die kürzer als die zu konstruierende, analytische Oligonukleinsäure ist, vorhanden sind; und Extraktion einer Nukleotidsequenz aus Kandidatensequenzen für analytische Oligonukleinsäuren, basierend auf der Auftrittshäufigkeit der aufgelisteten individuellen Sequenzeinheiten, wobei die Nukleotidsequenz eine Sequenz enthält, die mit geringer Häufigkeit in der Zielnukleinsäure auftritt, als eine analytische Sequenz, die für die Analyse der Nukleotidsequenz der Zielnukleinsäure geeignet ist.
Verfahren gemäß Anspruch 1, wobei der Extraktionsschritt durch sukzessive Anwendung einer Vielzahl verschiedener Verfahrensschritte durchgeführt wird.
Verfahren gemäß Anspruch 1, wobei der Extraktionsschritt ferner einen Schritt der Selektion der Kandidatensequenzen, basierend auf der Stabilität der Molekularstruktur jeder Oligonukleinsäure der Kandidatensequenzen umfaßt.
Verfahren gemäß Anspruch 3, wobei die Stabilität einer Molekularstruktur thermische Stabilität bedeutet.
Verfahren gemäß Anspruch 3, wobei die Stabilität einer Molekularstruktur durch die Schmelztemperatur (TM) der Kandidatensequenzen und/oder durch die Stabilität einer intramolekularen Sekundärstruktur, die von den Kandidatensequenzen ausgebildet wird, gemessen wird.
Verfahren zur Bestimmung einer Nukleotidsequenz einer analytischen Oligonukleinsäure, wobei die Oligonukleinsäure zur Analyse einer Nukleinsäuresequenz verwendet wird, umfassend die Schritte: einen ersten Rechenschritt zur Berechnung der Auftrittshäufigkeit jeder der n Sequenzeinheiten, die in einer Nukleotidsequenz einer zu analysierenden Zielnukleinsäure vorkommen, basierend auf einem Wert von 4ⁿ, der allen der n Sequenzeinheiten, die aus n Nukleotidsequenzen ausgebildet wurden, entspricht (n ist eine ganze Zahl von 2 oder mehr); einen ersten Extraktionsschritt zur Extraktion einer Sequenz, die p Nukleotide in der Nukleotidsequenz einer Zielnukleinsäure aufweist, wobei p größer als n mal m ist (m ist eine ganze Zahl von 1 oder mehr); einen zweiten Rechenschritt zur Extraktion von n Sequenzeinheiten, die in der Kandidatensequenz, die im ersten Extraktionsschritt extrahiert wurde, auftreten und Erhalten eines Auftrittshäufigkeitsindexes der Kandidatensequenz in der Nukleotidsequenz der Zielnukleinsäure, basierend auf der Auftrittshäufigkeit jeder der n Sequenzeinheiten, die im ersten Rechenschritt erhalten wurden; und einen zweiten Extraktionsschritt zur Selektion einer einzelnen oder mehreren Kandidatensequenzen, die einen niedrigen Auftrittshäufigkeitsindex aufweisen, der im zweiten Rechenschritt erhalten wurde als mögliche Kandidatensequenzen.
Verfahren gemäß Anspruch 6, wobei n 5, 6 oder 7 ist.
Verfahren gemäß Anspruch 6, ferner umfassend einen dritten Extraktionsschritt zur Selektion einer Kandidatensequenz, die eine niedrige Stabilität basierend auf der Stabilität einer Molekularstruktur jeder der Oligonukleinsäuremoleküle aufweist, welche von möglichen Kandidatensequenzen ausgebildet wurden.
Verfahren gemäß Anspruch 8, wobei die Stabilität einer Molekularstruktur durch die Höhe des Tm-Werts und/oder durch die Stabilität einer intramolekularen Sekundärstruktur gemessen wird.
Verfahren gemäß Anspruch 9, wobei, im dritten Extraktionsschritt, eine Sequenz, mit einem in einen vorher bestimmten Bereich fallenden Tm-Wert und die eine instabile Sekundärstruktur ausbildet, aus den möglichen Kandidatensequenzen selektiert wird.
Verfahren gemäß irgendeinem der Ansprüche 1 bis 10, wobei alle notwendigen Schritte aufeinanderfolgend von einem Computer durchgeführt werden.
Verfahren, wobei die analytische Oligonukleinsäuresequenz gemäß einem der Ansprüche 1 bis 11 zur Detektion einer bestimmten Nukleinsäuresequenz verwendet wird, die in einer Nukleotidsequenz einer Nukleinsäure vorhanden ist, indem eine Enzymreaktion, die Hybridisierungsreaktionen der Nukleinsäuren erforderlich macht, verwendet wird oder indem sie in einer Hybridisierungsreaktion der Nukleinsäure verwendet wird.