-
Die
vorliegende Erfindung betrifft ein Verfahren zur Bestimmung einer
Nukleotidsequenz einer analytischen Oligonukleinsäure zur
analytischen Verwendung (im folgenden als analytische Oligonukleinsäure bezeichnet),
die zum Nachweis der Nukleotidsequenz einer bestimmten Nukleinsäure verwendet
wird. Insbesondere betrifft die vorliegende Erfindung ein Verfahren
zur schnellen und effizienten Bestimmung der Nukleotidsequenz einer
analytischen Oligonukleinsäure,
die eine vorher bestimmte Teilnukleotidsequenz einer extrem langen
Nukleotidsequenz einer Nukleinsäure
nachweisen kann. Das Verfahren weist daher eine effektive Verwendbarkeit
bei der Bestimmung von Nukleotidsequenzen für die Analyse von Nukleinsäuren auf.
-
Im
erfindungsgemäßen Verfahren
kann die Nukleotidsequenz einer erwünschten analytischen Oligonukleinsäure durch
Kombination einer Vielzahl von Rechenverfahren, die mit einer Vorrichtung
mit begrenzter Rechenkapazität
durchgeführt
werden können,
einfach und effizient bestimmt werden.
-
Stand der Technik
-
In
einer doppelsträngigen
Kette in der Nukleinsäuren
ein Hybrid bilden spricht man im Allgemeinen von einer Fehlhybridisierung
oder einer Fehlpaarung, wenn ein sich gegenüberliegendes Basenpaar nicht
der Basenpaarung nach dem Watson-Crick-Basenpaar (Adenosin-Thymin
oder Uracil, oder Cytosin-Guanin) genügt. Wenn eine Fehlpaarung auftritt,
nimmt die thermische Stabilität
des Hybrids im Allgemeinen ab. Eine Fehlpaarung kann daher im Allgemeinen
durch eine Erhöhung
der Hybridisierungstemperatur vermieden werden. Wenn jedoch ein
Hybrid aus der 30 Nukleotide langen, analytischen Oligonukleinsäure gebildet
wird und das gebildete Hybrid eine einzige Fehlpaarung am 3'-Ende oder am 5'-Ende aufweist, ist
seine thermische Stabilität fast
genauso hoch wie die eines vollständig gepaarten Hybrids. In
diesem Fall ist es trotz Erhöhung
der Hybridisierungstemperatur schwierig, ein fehlgepaartes Hybrid
von einem gepaarten Hybrid zu unterscheiden. Es wird daher, wenn
eine solche Fehlhybridisierung vorliegt, zu einem falschen Nachweis
kommen.
-
Um
die Fehlpaarung auszuschalten, müssen
alle möglichen,
Strukturen, die man bei Hybriden vermuten kann, die aus der Nukleotidsequenz
der konstruierten, analytischen Oligonukleinsäure und der nachzuweisenden
Zielnukleinsäure
gebildet wurden, durch Berechnung hergeleitet werden und daneben
muß man
zeigen, daß die
Nukleotidsequenz der konstruierten, analytischen Oligonukleinsäure keine
Fehlpaarung, wie sie oben angegeben ist, bilden würde. Es
dauert jedoch lange, alle möglichen
Strukturen durch Berechnung herzuleiten. Es wurde deshalb bei einer
herkömmlichen
Konstruktion der Nukleotidsequenz der analytischen Oligonukleinsäure nicht
im Voraus abgeschätzt,
wie stark die konstruierte Kandidatensequenz spezifisch mit einer
Zielstelle hybridisiert. Daraus ergibt sich, daß, selbst wenn die Struktur
durch Investition von viel Zeit zur Berechnung hergeleitet wird,
keine guten Ergebnisse erzielt werden. Daher ist man vielfach gezwungen,
die in komplizierter Arbeit erhaltenen Kandidatensequenzen zu verwerfen.
-
Der
Nachweis der Nukleotidsequenz einer bestimmten, in einer biologischen
Probe vorhandenen Nukleinsäure
ist nicht nur bei der Analyse eines Proteins, das exprimiert wird
und in einem bestimmten Organ auf molekularer Ebene seine Funktion
ausübt,
und damit verbunden bei der Untersuchung der Expressionskontrolle
eines Proteins während
der Informationsübermittlung
in das Nervensystem, in das Gehirn oder in das Immunsystem wichtig,
sondern es stellt auch eine wichtige Technik bei der Gendiagnose,
die zum Nachweis mutanter Gene bei genetischen Erkrankungen, bei
der Krebsdiagnose und beim Nachweis virusassoziierter Gene verwendet
werden, dar. Insbesondere wird die Gendiagnose zur Enddiagnose verwendet,
wo man sich keine Fehler mehr erlauben kann. Daneben muß in einem
Gebiet namens "molekulare
EDV", bei dem die
Verarbeitung kombinatorischer Problemstellungen mit Hilfe von DNAs
durchgeführt
wird, die Nukleotidsequenz einer Nukleinsäure genau erfaßt werden,
um die erhaltene Lösung
zu überprüfen.
-
Bei
der Genanalyse zur Analyse auf Vorhandensein oder Nichtvorhandensein
eines Gens und von Mutationen auf der Grundlage qualitativer und
quantitativer Nachweise verschiedener Arten von Nukleinsäuremolekülen ist
es am wichtigsten, eine Nukleotidsequenz der Oligonukleinsäure zur
Verwendung bei der Analyse (im folgenden als "analytische Sequenz" bezeichnet) zu bestimmen, die einen
spezifischen Doppelstrang nur mit einer vorbestimmten Stelle einer
Zielnukleinsäure
bildet. Bei einer Nukleinsäure-Hybridisierungsreaktion tritt
eine Fehlhybridisierung wahrscheinlich dann auf, wenn die verwendete
analytische Sequenz zu einer komplementären Sequenz an einer beliebigen
Stelle außer
der Zielstelle des nachzuweisenden Gens analog ist. Man neigt daher
dazu, die analytische Sequenz so zu konstruieren, daß sie so
lang wie möglich
ist, um die Spezifität
zur Zielsequenz zu verbessern. Je länger jedoch die Sondensequenz
ist, desto stabiler ist die Sekundärstruktur der analytischen
Oligonukleinsäure
selbst. Daraus folgt, daß die
Hybridisierungseffizienz der Sonde mit der Zielnukleinsäure deutlich
sinkt und die Hybridisierungstemperatur ansteigt. Daraus ergibt
sich, daß die
Hybridisierungsreaktion kompliziert sein wird.
-
Es
ist außerdem
viel Erfahrung und Ausprobieren vonnöten, um die analytische Sequenz
auszuwählen.
Daneben erfordert ein herkömmliches
Rechenverfahren zur Bestimmung einer Sondensequenz mit stringenter
Spezifität
eine enorme Menge an Zeit für
die Berechnung. Unter diesen Umständen war es zunehmend und eindringlich
erforderlich, daß die
analytische Sequenz nur auf der Grundlage von Berechnungen, unabhängig von
Erfahrung und ohne die Durchführung
vieler vorhergehender Experimente, leicht zu konstruieren ist.
-
Offenbarung der Erfindung
-
Es
ist eine erste Aufgabe der vorliegende Erfindung, ein Verfahren
zur Bestimmung einer Nukleotidsequenz einer analytischen Oligonukleinsäure zur
Verfügung
zu stellen, und zwar einer analytischen Sequenz, die eine hohe Spezifität besitzt
und immer in der Lage ist, eine hocheffiziente Hybridisierungsreaktion
durchzuführen.
-
Es
ist eine zweite Aufgabe der vorliegenden Erfindung, ein Verfahren
zur schnellen Bestimmung einer analytischen Sequenz, die eine hohe
Spezifität
aufweist, zur Verfügung
zu stellen.
-
Es
ist eine dritte Aufgabe der vorliegenden Erfindung, mit Hilfe eines
einfachen Vorrichtung, wie beispielsweise einem Computer, eine erwünschte analytische
Sequenz schnell und kostengünstig
zur Verfügung zu
stellen.
-
Die
oben angegebenen Aufgaben werden durch ein Verfahren zur Bestimmung
einer Nukleotidsequenz einer analytischen Oligonukleinsäure zur
Verwendung bei der Analyse der Nukleinsäure erreicht, umfassend:
Auflisten
aller Nukleotidsequenzeinheiten, die in einer zu analysierenden
Zielnukleinsäure
mit vorbestimmter Länge,
die kürzer
als die zu konstruierende, analytische Oligonukleinsäure ist,
vorhanden sind;
Extraktion einer Nukleotidsequenz, die eine
Sequenz enthält,
welche in geringer Häufigkeit
in der Zielnukleinsäure
vorkommt, aus Kandidatensequenzen der analytischen Oligonukleinsäuren, als
analytische Sequenz, die für
die Analyse der Nukleotidsequenz der Zielnukleinsäure geeignet
ist, auf Grundlage der Auftrittshäufigkeit der einzelnen, aufgelisteten
Sequenzeinheiten.
-
Vorzugsweise
wird der Extraktionsschritt durch sukzessive Anwendung einer Vielzahl
verschiedener Verfahrensschritte durchgeführt.
-
Vorzugsweise
umfaßt
der Extraktionsschritt ferner einen Schritt der Selektion von Kandidatensequenzen,
basierend auf den chemischen Eigenschaften der einzelnen Kandidatensequenzen.
In diesem Fall kann die Sequenz effektiv bestimmt werden, da die
Selektion auf der Grundlage durchgeführt wird, ob die Sondensequenz
für eine
Hybridisierungsreaktion geeignet ist oder nicht. Insbesondere, wenn
die thermische Stabilität
einer molekularen Struktur als chemische Eigenschaft für das Selektionskriterium
verwendet wird, kann die Selektion von der Eignung für die Hybridisierungsreaktion
abhängig
gemacht werden. Als chemische Eigenschaft für das Selektionskriterium sind
sowohl die thermische Stabilität
eines aus der Kandidatensequenz gebildeten Doppelstrangs als auch
die Stabilität
einer Sekundärstruktur
der Kandidatensequenz oder beide bevorzugt.
-
Daneben
wird mit der vorliegenden Erfindung ein Verfahren zur Bestimmung
einer Nukleotidsequenz zur Verwendung beim Nachweis einer Nukleinsäuresequenz
zur Verfügung
gestellt, umfassend:
einen ersten Rechenschritt zur Berechnung
der Auftrittshäufigkeit
jeder der n Sequenzeinheiten
(im folgenden als "n Sequenzeinheiten" bezeichnet), die
aus n Nukleotiden gebildet
wurden (n ist eine ganze Zahl von 2 oder mehr), die in einer Nukleotidsequenz
einer bekannten Nukleinsäure
vorkommen, auf Grundlage der 4n Möglichkeiten,
die allen der n Sequenzeinheiten
entsprechen;
einen ersten Extraktionsschritt zur Extraktion
beliebiger p Sequenzeinheiten,
die in der zu analysierenden Zielnukleinsäure vorhanden sind, aus p Sequenzeinheiten, die aus p Nukleotiden gebildet wurden
(p ist größer als n mal m; und m ist eine ganze Zahl von 1 oder
mehr);
einen zweiten Rechenschritt zur Berechnung eines Auftrittshäufigkeitsindex
jeder der p Sequenzeinheiten,
die in der zu analysierenden Zielnukleinsäure vorhanden sind, auf der
Grundlage der Auftrittshäufigkeit
der n Sequenzeinheiten, die
im ersten Rechenschritt erhalten wurden; und
einen zweiten
Extraktionsschritt zur Extraktion einer p Sequenzeinheit
mit einem niedrigeren Auftrittshäufigkeitsindex,
der im zweiten Rechenschritt erhalten wurde, als Sondensequenz.
-
Im
ersten Rechenschritt ist n vorzugsweise
eine beliebige Zahl von 5, 6 und 7. In diesem Fall betragen alle
Möglichkeiten
für die n Sequenzen, die die Grundlage
für den
Erhalt von Häufigkeiten
bilden, 1024 für
n = 5, 4096 für
n = 6, 16384 für
n = 7. Diese Zahlen sind für
den ersten Rechenschritt annehmbar, der die Durchführung einer
Berechnung in brauchbarer Verarbeitungsgeschwindigkeit ermöglicht.
Die Länge
jeder der p Sequenzeinheiten
im ersten Extraktionsschritt kann auf einen beliebigen, zur Synthese
einer Nukleinsäurensonde
ausreichenden Wert gesetzt werden, beispielsweise innerhalb von
p = 10–50.
-
Daneben
ist es vorzuziehen, daß,
zumindest im zweiten Extraktionsschritt, die p Sequenzeinheit für die analytische Sequenz aus
einer Vielzahl von p Sequenzeinheiten
mit geringerer Auftrittshäufigkeit
ausgewählt
werden kann, wobei chemische Bedingungen in die Überlegung mit einbezogen werden.
Als chemische Bedingungen wird vorzugsweise die Stabilität einer
molekularen Struktur verwendet, und insbesondere bevorzugt werden
ein Tm-Wert und/oder eine Stabilität einer intramolekularen Sekundärstruktur
verwendet. Wenn sowohl der Tm-Wert als auch die Stabilität einer
Sekundärstruktur
verwendet werden, ist es vorzuziehen, daß der Selektionsschritt durch
eine erste Selektion einer Vielzahl von p Sequenzeinheiten
mit einem Tm-Wert in einem vorbestimmten Bereich, und eine anschließende Selektion
der p Sequenzeinheiten mit
einer instabilen Sekundärstruktur
von den auf Grundlage des Tm-Werts ausgewählten p Sequenzeinheiten durchgeführt wird.
-
Die
Menge an Berechnungen, die im oben beschriebenen Sequenzbestimmungsverfahren
durchgeführt
wird, ist zudem relativ gering. Es ist daher, wenn alle Schritte
nacheinander von einem Computer durchgeführt werden, möglich, eine
analytische Sequenz leicht und mit geringem Kostenaufwand zu bestimmen.
In diesem Fall ist keine Berechnung mit übermäßiger Geschwindigkeit wie die
eines Supercomputers nötig,
und man erhält
daher einen Vorteil durch die Verwendung eines normalen Computers.
-
Die
Stabilität
der Sekundärstruktur
kann als Indikator verwendet werden, um zu bestimmen, ob oder ob
nicht das Nukleinsäuremolekül ein intramolekulares
Hybrid innerhalb des Nukleinsäuremoleküls selbst
bildet. Wenn die Nukleinsäuresonde
eine stabile Sekundärstruktur
innerhalb des Moleküls
selbst bildet, ist es schwer, ein erwünschtes Hybrid zwischen der
Sonde und einer Zielnukleinsäure
zu bilden. Die hierin verwendete, stabile Sekundärstruktur beinhaltet eine Schleife,
die aus einer Nukleinsäure
und einer teilweisen Hybridisierung der Sondennukleinsäuremoleküle miteinander
gebildet wurde. Die Nukleinsäure,
die effizient keine stabile Sekundärstruktur bildet, bindet an
die Sequenz einer Zielnukleinsäure,
wenn die Zielnukleotidsequenz analysiert wird.
-
Die
erfindungsgemäß erhaltene
Sondensequenz wird nicht nur zum Nachweis der Nukleinsäuresequenz
eines Gens, sondern auch zum Nachweis einer Nukleinsäure, die
eine künstlich
synthetisierte Sequenz besitzt, und einer Teilsequenz verwendet.
Insbesondere kann die Sondensequenz zum Nachweis einer bestimmten
Nukleotidsequenz der künstlich
synthetisierten Nukleinsäure,
zum Nachweise einer bestimmten cDNA, die in einer cDNA-Bibliothek
beinhaltet ist, oder zum Nachweis einer Sequenz eines Exon-Teils
in einer genomischen Sequenz eines Eukaryoten verwendet werden.
Außerdem
ist es möglich,
nicht nur eine Nukleotidsequenz in einer genomischen DNA eines lebenden
Organismus und eine Nukleotidsequenz einer messenger RNA nachzuweisen,
sondern auch deren Kopien und Teilsequenzen. Daneben kann das erfindungsgemäße Verfahren
zur Konstruktion einer Sondensequenz für verschiedene Enzymreaktionen
verwendet werden, indem eine Hybridisierungsreaktion einer Nukleinsäure verwendet
wird, wie beispielsweise dem Primer, der bei einer PCR (Polymerase-Kettenreaktion)
verwendet wird.
-
Kurze Beschreibung der
Zeichnung
-
1 stellt
ein Ablaufdiagramm dar, das schematisch einen erfindungsgemäßen Arbeitsablauf
zeit;
-
2 zeigt
in einer schematischen Skizze wie man ein Tupel als Sequenzeinheit
festlegt;
-
3 zeigt
in einer schematischen Skizze wie man einen Hauptkandidaten als
analytische Sequenz festlegt;
-
4 stellt
einen Graphen dar, der eine Verteilung der Auftrittshäufigkeit
der Sequenzeinheit in einer Nukleinsäure zeigt;
-
5 stellt
einen Graphen dar, der eine Verteilung der Tm-Werte der Kandidaten
für die
analytische Oligonukleinsäure
zeigt, die auf der Grundlage der Nukleotidsequenzen berechnet wurde;
-
6 zeigt
in einer schematischen Skizze mögliche
Formen der analytischen Oligonukleinsäuren unter Hybridisierungsbedingungen.
-
Bestes Verfahren zur Durchführung der
Erfindung
-
Das
erfindungsgemäße Verfahren
wird unter Bezugnahme auf die begleitende Zeichnung erläutert werden.
Die vorliegende Erfindung wird jedoch durch die folgende Erläuterung
nicht eingeschränkt
werden.
-
1 stellt
ein Ablaufdiagramm dar, das schematisch eine Ausführungsform
des erfidungsgemäßen Verfahrens
zeigt. Insbesondere zeigt 1 die Konstruktionsschritte
einer Nukleotidsequenz einer Probennukleinsäure, die als eine analytische
Oligonukleinsäure
für eine
Verwendung bei der Genidentifikation dient. In der Ausführungsform
wird eine Sondennukleinsäure
zum Nachweis eines bestimmten OLR (Offener Leserahmen) auf dem Genom
eines Escherichia coli (E. coli) konstruiert. Ein Prokaryot wie
E. coli hat im Gegensatz zum Eukaryoten keine Exon/Intron-Struktur.
Daher entsprechen die meisten OLR des Prokaryoten der Nukleotidsequenz
eines Gens. Um es genauer zu formulieren bedeutet der Nachweis eines
bestimmten OLR den Nachweis eines bestimmten Gens. In der Ausführungsform
wird ein Hochgeschwindigkeitsalgorithmus zur Verfügung gestellt,
bei dem die Rechenmenge proportional zur Genomlänge ansteigt.
-
Zuerst
wird die Nukleotidsequenz des gesamten E.coli-Genoms gescannt, um alle Sequenzeinheiten, von
denen jede aus 7, im Genom vorhandenen Nukleotiden (im folgenden
als "7-Tupel" bezeichnet) besteht, vollständig aufzulisten.
Beispielsweise wird, wie in 2 gezeigt,
die Nukleotidsequenz, die aus dem ersten bis siebten Nukleotid von
einem geeigneten Ende (Sequenz) des Genoms 1 besteht, als
ein erstes Tupel 2 bestimmt. Anschließend wird der Rahmen, der aus
dem ersten 7-Tupel 2 besteht, um ein Nukleotid auf dem Genom
verschoben, um das zweite 7-Tupel,
das dritte 7-Tupel, das vierte 7-Tupel und so weiter zu erhalten. Wenn
das Verfahren sequentiell wiederholt wird, können alle 7 Tupel vollständig aufgelistet
werden. Dementsprechend werden alle 7 Tupel in Varianten eingeteilt,
die auf den entsprechenden Nukleotidsequenzen basieren und anschließend werden
alle Varianten der 7 Tupel daraufhin überprüft, wie viele von jedem 7-Tupel
im Genom vorhanden sind.
-
Als
nächstes
werden alle eingeteilten Varianten der 7 Tupel, die auf einzelnen
Nukleotidsequenzen basieren, auf ihre Auftrittshäufigkeit überprüft. Wenn die Häufigkeit
als Maß für das Vorhandensein
betrachtet wird, muß die
Gesamtzahl der 7 Tupel, die im Genom 1 vorhanden sind,
als Nenner verwendet werden. Die Summe für das Maß der Existenz muß in der
vorliegenden Erfindung jedoch nicht notwendigerweise 100 erreichen.
Es reicht aus, wenn relative Häufigkeiten
der verschiedenen, im Genom auftretenden 7-Tupel erhalten werden.
Aus diesem Grund ist es der Bequemlichkeit halber praktisch, die
Anzahl an mathematisch möglichen Kombinationen
der 7-Tupel als Nenner zu verwenden. Um es genauer zu erklären, werden,
da eine Nukleotidsequenz eines Gens aus vier Arten an Nukleotidbasen
(Adenin, Thymin, Guanin und Cytosin) besteht, die Varianten der
möglichen,
aus 7-Tupeln bestehenden Nukleotidsequenzen theoretisch 47 (= 16384) ergeben. Allgemeiner ausgedrückt, wird
die Anzahl an Varianten 47 sein, wenn eine n-Tupeleinheit verwendet wird.
-
Bei
Verwendung der Zahl 47 (= 16384) als Nenner
erhält
man die Auftrittshäufigkeit
jedes, im gesamten Genom vorhandenen 7-Tupels (Erster Rechenschritt).
In diesem Fall kann leicht ein Vergleich gezogen werden, wobei man
wie in 4 gezeigten Graphen verwendet, bei dem die einzelnen
Tupel auf der waagerechten Achse und ihre Häufigkeiten auf der vertikalen
Achse dargestellt sind. Die oben angegebene Berechnung und graphische
Darstellung können
leicht mit Hilfe eines kommerziell erhältlichen Computers durchgeführt werden.
Es ist zu beachten, daß die
Daten als Häufigkeiten
der einzelnen 7-Tupel in einem Speicher gespeichert werden.
-
Wie
in 3 gezeigt, sind alle Kandidatensequenzen, die
möglicherweise
als eine analytische Sequenz verwendet werden, vollständig aufgelistet,
wobei die analytische Sequenz aus Nukleotiden besteht, deren Anzahl
durch mindestens ein Nukleotid, vorzugsweise 10–15 Nukleotide (z.B. 30 Nukleotide),
größer ist als
die des 7-Tupels, und auf dem nachzuweisenden OLR vorhanden ist.
Im Hinblick auf jede Kandidatensequenz mit 30 Nukleotiden wird,
wie unten angegeben, ein Index der Auftrittshäufigkeit auf der Grundlage
der Auftrittshäufigkeit
des beim ersten Rechenschritt erhaltenen 7-Tupels berechnet.
-
Es
gibt vierundzwanzig 7-Tupel in den 30 Nukleotiden. Unter der Voraussetzung,
daß die
vierundzwanzig 7-Tupel sequentiell von der Seite des 5'-Endes der 30 Nukleotide
an von 1 bis 24 durchnummeriert sind, und daß die Häufigkeiten, die den vierundzwanzig,
oben berechneten 7-Tupeln
entsprechen, mit p1, p2, ..., p24 bezeichnet sind. In diesem Fall
kann der Auftrittshäufigkeitsindex
der 30 Nukleotide langen, analytischen Sequenz durch Multiplikation
der Häufigkeiten
der vierundzwanzig 7-Tupel
miteinander berechnet werden, wie durch p1 × p2 × ... × p24 angegeben ist. Der Auftrittshäufigkeitsindex
gibt an, wie spezifisch eine Kandidatensequenz mit dem nachzuweisenden
OLR hybridisiert. Je kleiner der Wert des Index ist, desto größer ist
die Spezifität.
Der Auftrittshäufigkeitsindex
wird unter Berücksichtigung
aller 30 Nukleotid langen Kandidatensequenzen, die auf dem Ziel-OLR
vorhanden sind, berechnet. Die Kandidatensequenzen werden auf der Grundlage
eines geeigneten Grenzwerts des Index ausgewählt. Die bei diesem Rechenschritt
ausgewählten Kandidatensequenzen
werden als "Kandidatensequenzgruppe
mit geringer Auftrittshäufigkeit" bezeichnet. Es ist
zu beachten, daß die
Berechnung und graphische Darstellung leicht mit Hilfe eines kommerzielle
erhältlichen
Computers durchgeführt
werden kann. Die Daten der Auftrittshäufigkeit der einzelnen, 30
Nukleotid langen Teilsequenzen werden in einem Speicher gespeichert.
-
Eine
Kandidatensequenzgruppe mir geringer Auftrittshäufigkeit, die oben extrahiert
wurde, wird aufgrund anderer Bedingungen, anderen als der Auftrittshäufigkeit,
d.h. physikochemischen Bedingungen bewertet, wobei eine erwünschte Sondensequenz
ausgewählt
wird. Die Sondensequenz wird nicht allein durch die Auftrittshäufigkeit
bestimmt. Dies rührt
daher, daß die
Sonde mit einer zu einer Zielsequenz spezifischen Nukleotidsequenz
nicht immer effizient ein Hybrid bildet. Es ist daher vorzuziehen,
daß jede
der Kandidatensequenzen mit geringer Auftrittshäufigkeit auf ihre thermische
Stabilität überprüft werden,
wie in den 5 und 6 gezeigt
ist.
-
Zuallererst
werden die Tm-Werte in dem in 5 gezeigten
Graphen dargestellt. Anschließend
werden die Kandidatensequenzen mit geringer Auftrittshäufigkeit
innerhalb eines vorbestimmten Bereichs an Tm-Werten ausgewählt. Die
Tm-Werte werden beispielsweise auf Grundlage eines SantaLucia-Parameters (John
SantaLucia, Jr., Hatim T. Allawi und P. Ananda Seneviratne "Improved nearest-neighbor
parameters for predicting DNA duplex stability." Biochemistry 35, 3555–3562) berechnet.
Der Grund, warum die Sequenzen mit Tm-Werten des vorbestimmten Bereichs
ausgewählt
werden ist der, daß die
Mehrheit der analytischen Oligonukleotidsequenzen, die spezifisch
zu den entsprechenden OLR sind und den Anforderungen an die Tm genügen, gleichzeitig
bei der gleichen Temperatur mit den OLR hybridisieren können. Die restlichen
Kandidatensequenzen mit geringer Auftrittshäufigkeit, die im oben angegebenen
Selektionsschritt nicht eliminiert wurden, werden als wahrscheinlichere
Kandidatensequenzen betrachtet, so daß sie auf die Stabilität ihrer
Sekundärstruktur,
die innerhalb eines Moleküls
selbst gebildet wird, überprüft werden.
-
Beispielsweise
werden, wie in 6 gezeigt, analytische Nukleinsäuren auf
einem Festphasenträger 4 mit
einem geeigneten Linkermolekül 5,
das zwischen den beiden liegt, immobilisiert. Wenn das Konstrukt
in eine Lösungsmischung,
die eine reaktive Substanz, wie beispielsweise eine Testprobe, enthält, kann
die Stabilität
der molekularen Struktur wie folgt diskutiert werden. Eine Kandidatensonde 6 bildet
im Molekül
eine "Auto-Hybrid" genannte Schleife.
Eine Kandidatensequenz 7 bildet zum Teil eine intermolekulare
Hybridisierung mit einer anderen, auf dem Träger 4 immobilisierten
analytischen Sequenz. Da die Sekundärstrukturen dieser Sonden stabil
sind, kann es für
sie schwierig oder unmöglich
sein, ein erwünschtes
Hybrid mit der Zielnukleinsäure
zu bilden. Daher werden diese Sonden, die zur Bildung stabiler Sekundärstrukturen
in der Lage sind, eliminiert. Daraus ergibt sich, daß eine Teilsequenz 8,
die in der Lage ist, unter Hybridisierungsbedingungen leicht mit
einem Ziel zu hybridisieren, als wahrscheinlichste Kandidatensequenz
ausgewählt
wird. Die Stabilität der
Sekundärstruktur
kann auf Grundlage der Nukleotidsequenz durch Verwendung einer geeigneten,
analytischen Software berechnet werden.
-
Zum
Schluß werden
die wahrscheinlichsten Kandidatensequenzen, die auf der Grundlage
der Auftrittshäufigkeit
und physikochemischen Bedingungen ausgewählt werden, zudem auf ihre
Nutzbarkeit als analytische Sequenz zur Identifikation des OLR überprüft. Die
Nutzbarkeit wird mit Hilfe eines Genoms in Gesamtlänge von
Escherichia coli überprüft. Es wird
insbesondere überprüft, ob oder
ob nicht die ausgewählte
analytische Nukleotidsequenz komplementär an eine nur einzige bestimmte
Position des Genoms bindet. Die Analyse der Bindungsspezifität wird mit
Hilfe eines Computers durchgeführt.
Beispielsweise bildet man mit Hilfe eines dynamischen Programmierverfahrens
zuerst eine lokale Bindungskarte und vergleicht anschließend die Nukleotidsequenzen
des gesamten Genoms von Escherichia coli mit der Karte. Auf diese
Weise kann man überprüfen, daß es der
Sequenz nicht möglich
ist, eine Fehlhybridisierung zu verursachen. Der Überprüfungsschritt
kann auch durch Berechnung des Hamming-Abstands zwischen den wahrscheinlichsten
Kandidatensequenzen und der Nukleotidsequenz des gesamten Genoms
von Escherichia coli durchgeführt
werden. Die den Überprüfungsschritt
bestehende Nukleotidsequenz wird als die analytische Nukleotidsequenz
bestimmt.
-
Wenn
ein Nachweis auf der Grundlage der Hybridisierung mit Hilfe der
oben bestimmten analytischen Sequenz durchgeführt wird, wird eine Markersonde
durch Bindung einer nachweisbaren Markersubstanz an die Oligonukleinsäure, die
die analytische Sequenz besitzt, hergestellt. Die Hybridisierungsreaktion
kann auf vorher festgelegte Weise, in der die Markersonde und eine
Testprobe miteinander gemischt werden, durchgeführt werden und anschließend wird
die hybridisierte Markersubstanz selektiv gemessen. Wenn eine fluoreszierende
Substanz, wie beispielsweise FITC (Fluorescein-Isothiocyanat) als
Markersubstanz verwendet wird, kann der Nachweis leicht mit Hilfe
eine geeigneten Fluoreszenzdetektors durchgeführt werden. Zudem kann bei
Verwendung einer Datenverarbeitungsvorrichtung eine quantitative
oder qualitative Analyse automatisch durchgeführt werden. In diesem Fall
ist es möglich,
das Vorhandensein oder Nichtvorhandensein des Zielnukleinsäuremoleküls oder
ein Reaktionsmaß auf
der Grundlage qualitativer oder quantitativer Meßdaten (numerischer Wert oder
Bild) zu bestimmen. Die Ergebnisse der Genanalyse können durch
Ausdruck der Ergebnisse in Papierform als Bericht oder durch Darstellung
der Ergebnisse auf einem Bildschirm erhalten werden.
-
Die
Hybridisierungsreaktion der Nukleinsäuren wird nicht nur zum Nachweis
eines Gens, sondern auch bei einer Nukleinsäureamplifizierungsreaktion,
wie beispielsweise einer PCR, und weiterhin bei einer Identifizierungsreaktion,
wie beispielsweise einer LCR (Ligase-Kettenreaktion), verwendet.
-
Die
die analytische Sequenz besitzende Oligonukleinsäure, die gemäß dem Verfahren
der vorliegenden Erfindung konstruiert wurde, kann als Primer für die PCR
oder als Sonde für
die LCR verwendet werden. Es können
zudem verschiedene Arten von analytischen Sequenzen in passender
Weise bei einem einzelnen Genom, abhängig von einem Hauptnachweis,
verwendet werden. Die analytische Oligonukleinsäure kann auf einem Festphasenträger, wie
beispielsweise Mikropartikeln, einem Chipsubstrat, einer Säule, einem
Filter, Testpapier, einem Well, immobilisiert sein.
-
Die
vorliegende Erfindung beschränkt
sich nicht auf die oben angegebenen Ausführungsformen und kann auf verschiedene
Weise auf der Grundlage des wesentlichen Inhalts der vorliegenden
Erfindung modifiziert werden. Alle in 1 erläuterten
Schritte können
beispielsweise automatisch durchgeführt werden. In diesem Fall
reicht es aus, daß nur
die zuletzt bestimmte Sondensequenz dargestellt oder ausgegeben
wird. Abhängig
von den Wünschen
des Benutzers kann es möglich
sein, die Bildschirmdarstellung oder den Ausdruck des Graphen einer
Auftrittshäufigkeit
des Tupels, und die Daten und den Graphen im Bezug auf die Bindungsstelle
der analytischen Sequenz an eine nachzuweisende Zielnukleinsäure, und
den Tm-Wert und eine Sekundärstruktur
der analytischen Sequenz wegzulassen. Alternativ dazu können einzelne
Rechenschritte, die Berechnung in Bezug auf den Tm-Wert und die
Stabilität
der Sekundärstruktur,
und die Umwandlung der Ergebnisse in Zahlen oder einen Graphen mit
Hilfe eines Computers durchgeführt
werden, wobei vom Benutzer eine Bewertung einschließlich einer
letzten Selektion auf der Grundlage der numerischen Daten oder des
auf dem Bildschirm dargestellten Graphen erfolgen kann. In diesem
Fall können
die hierin extrahierten oder ausgewählten Daten mit Hilfe einer
Eingabevorrichtung, wie beispielsweise einer Tastatur oder einer
Maus, eingegeben werden. Zudem müssen
die durch verschiedene Schätzungen
und Berechnungen erhaltenen Daten nicht notwendigerweise immer in
einem Speicher, etc. gespeichert werden. Bei der automatischen Bearbeitung
können verschiedene
Rechendaten und die Ergebnisse der Extraktion und Bestimmung mit
verschiedenen Einrichtungen, wie Krankenhäusern, Universitäten, Untersuchungszentren
ausgetauscht werden, wobei diese gegenseitig über ein Online-Netzwerk, das
diese Institute und einen Zentralcomputer verbindet, übertragen
werden.
-
Die
Bewertungsschritte des Tm-Werts und der Stabilität der Sekundärstruktur
können
in umgekehrter Reihenfolge und zur gleichen zeit durchgeführt werden.
Wenn die besonders bevorzugte analytische Nukleotidsequenz aus den
extrahierten Kandidatensequenzen mit geringer Auftrittshäufigkeit
unter der Bedingung ausgewählt
wurde, bei der ein erster Vorrang den physikochemischen Bedingungen
gegeben wird, kann die analytische Sequenz so ausgewählt werden,
daß sie
ein Tupel einschließt,
dessen Auftrittshäufigkeit
nicht die niedrigste ist.
-
Im
erfindungsgemäßen Verfahren
kann nicht nur eine genomische Nukleotidsequenz, sondern auch eine
exprimierte messenger RNA und cDNA (eine Kopie der RNA) und weiterhin
künstlich
synthetisierte DNA als ein Ziel verwendet werden. Insbesondere wird
das erfindungsgemäße Verfahren
zur Konstruktion einer analytischen Nukleotidsequenz verwendet,
die auf eine bestimmte Nukleotidsequenz irgendeines der vorher angegebenen
Ziele gerichtet ist.
-
Beispiel
-
Es
wurde ein PCR-Experiment mit Primern durchgeführt, die mit dem erfindungsgemäßen Verfahren zur
Amplifikation von Mäusegenen
mit einem PCR-Verfahren, wie unten beschrieben ist, konstruiert
wurde.
-
Die
Nukleotidsequenzen aller Gene einer Maus (balb/c) wurden nicht aufgeklärt. Daher
wurde die Nukleotidsequenz einer Maus (balb/c), die am 5. September
1999 in der GenBank registriert wurde, unter der Annahme verwendet,
daß es
die gesamte Nukleotidsequenz einer Maus darstellt. Die unten gezeigten
Primer wurde für
die Amplifikation der DNA einer Maus hergestellt.
-
-
Die
durch Berechnung erhaltenen Primersequenzen, die berechneten Längen der
amplifizierten Produkte und die Tm-Werte sind in der unten stehenden
Tabelle gezeigt. Es ist zu beachten, daß die Primersequenz vom 5'-Ende aus aufgeschrieben
ist. Es dauerte zwei Stunden, um die Berechnung für den Erhalt
der Primersequenzen unter den folgenden Bedingungen durchzuführen. Wenn
die gleiche Berechnung ohne die Verwendung des erfindungsgemäßen Tupelverfahrens
ausgeführt
wird, dauert es 11,5 Stunden oder länger.
-
Hierbei
verwendeter Computer
| CPU: | Pentium
III 500 MHz |
| RAM: | 384
Mbyte |
| OS: | Linux |
| Compiler: | C++ |
PCR-Bedingungen
| Reaktionslösung: | Bestandteile
für 50 μl |
| Matrize: | hergestellt
von Clontech. 0,4 μg
genomische DNA, die aus einer Mäuse(balb/c)-Leber extrahiert
wurde |
| Enzym | hergestellt
von TaKaRa ExTaq 5 Einheiten |
| dNTP(Mischung
aus dATP, dCTP, dGTP, dTTP): | jeweils
2,5 nmol |
| Puffer
für ExTaq: | hergestellt
von TaKaRa, Mg2+-Konzentration 2 mM |
| Primer: | jeweils
20 pmol |
-
Temperaturzyklusbedingungen
für die
PCR
-
- (1) 95°C
30 Sekunden
- (2) 65°C
60 Sekunden
- (3) 72°C
60 Sekunden
-
Um
die Stringenz zu verbessern wurden die Temperaturen höher eingestellt,
als erforderlich ist. Die Schritte (2) und (3) wurden in 30 Zyklen
wiederholt.
-
Elektrophoresebedingungen
-
- Gel: hergestellt von FMC
- Nusieve GTG-Agarose 4% TAE-Puffer
- Spannung und Zeit: 100 V, 30 Minuten
-
Ergebnisse
-
Die
bei der PCR-Reaktion amplifizierten Produkte wurden mit den erwarteten
Längen
erhalten.
-
Wie
oben geschrieben ist es erfindungsgemäß möglich eine analytische Sequenz
zu erhalten, die immer genau mit einer Zielnukleinsäure hybridisieren
kann. Zudem ist es erfindungsgemäß möglich, die
analytische Sequenz schnell zu bestimmen.
-
Zudem
wird die analytische Sequenz erfindungsgemäß Schritt für Schritt durch Kombination
relativ kleiner Mengen an Berechnungen, ohne daß eine große Rechenkapazität erfordlich
ist, bestimmt. Daher ist kein Großrechner erforderlich.
-
Die
Bestimmung der analytischen Sequenz kann daher einfach mit Hilfe
eines kostengünstigen
Computers für
den Allgemeingebrauch durchgeführt
werden.