DE69810603T2

DE69810603T2 - Gerät und verfahren für automatischen protein-entwurf

Info

Publication number: DE69810603T2
Application number: DE69810603T
Authority: DE
Inventors: I Dahiyat; Benjamin Gordon; Stephen Mayo; Arthur Street
Original assignee: California Institute of Technology
Current assignee: California Institute of Technology
Priority date: 1997-04-11
Filing date: 1998-04-10
Publication date: 2003-11-13
Anticipated expiration: 2018-04-11
Also published as: US20060259247A1; US6708120B1; DE69810603D1; US20010032052A1; US20020004706A1; US6188965B1; US20020106694A1; US6801861B2; US20070032961A1; US20050038610A1; US20010039480A1; US6792356B2; US6269312B1; EP0974111B1; AU751331B2; WO1998047089A1; US6804611B2; DK0974111T3; CA2286262A1; US20060019316A1

Description

Gebiet der Erfindung

Die vorliegende Erfindung betrifft ein Gerät und Verfahren zur quantitativen Proteinkonstruktion und Optimierung.

Hintergrund der Erfindung

De-novo-Proteinkonstruktion hat in letzter Zeit beträchtliche Aufmerksamkeit erlangt, und es sind signifikante Fortschritte in Richtung des Ziels der Produktion stabiler, richtig gefalteter Proteine mit neuen Sequenzen gemacht worden. Bemühungen, Proteine zu konstruieren, sind auf die Kenntnis der physikalischen Eigenschaften angewiesen, welche die Proteinstruktur bedingen, wie z. B. Muster der hydrophoben und hydrophilen Reste in der Sequenz, Salzbrücken- und Wasserstoffbrückenbindungen und Sekundärstrukturpräferenzen von Aminosäuren. Verschiedene Ansätze sind versucht worden, diese Prinzipen anzuwenden. Beispielsweise ist die Konstruktion von α-Helix- und β-Faltblatt-Proteinen mit nativ-ähnlichen Sequenzen durch individuelles Auswählen der an jeder Position in der Zielfaltung erforderlichen Reste versucht worden (Hecht et al., Science 249, 884-891 (1990); Quinn et al., Proc. Natl. Acad. Sci. USA 91, 8784-8751 (1994)). Alternativ dazu ist ein minimalistischer Ansatz mit wechselndem Erfolg angewendet worden, um helikale Proteine zu konstruieren, worin die einfachste mögliche Sequenz erzeugt wurde, von der angenommen wurde, dass sie mit der gefalteten Struktur im Einklang steht (Regan et al., Science 241, 976-978 (1988); DeGrado et al., Science 243, 622-628 (1989); Handel et al., Science 261, 879-885 (1993)). Ein experimentelles Verfahren wurde entwickelt, das sich auf die hydrophoben und polaren (HP-) Muster einer Sequenz stützt, worin eine Bibliothek von Sequenzen mit den richtigen Mustern für ein Vier-Helix-Bündel durch Zufallsmutagenese erzeugt wurde (Kamtekar et al., Science 262, 1680-1685 (1993)). Unter den Nicht-de-novo-Ansätzen sind Domänen natürlich auftretender Proteine modifiziert oder miteinander gekoppelt worden, um einen gewünschten tertiären Aufbau zu erzielen (Pessi et al., Nature 362, 367-369 (1993); Pomerantz et al., Science 267, 93-96 (1995)).
Obwohl die richtige Sekundärstruktur und im Großen und Ganzen der richtige Tertiäraufbau offenbar durch mehrere der obigen Techniken erlangt worden ist, scheint vielen der konstruierten Proteine die strukturelle Spezifität nativer Proteine zu fehlen. Die komplementäre geometrische Anordnung von Aminosäuren im gefalteten Protein ist die Wurzel dieser Spezifität und wird durch die Sequenz kodiert.
Mehrere Arbeitsgruppen haben systematische, quantitative Verfahren der Proteinkonstruktion angewendet und experimentell mit dem Ziel getestet, allgemeine Konstruktionsalgorithmen zu entwickeln (Hellinga et al., J. Mol. Biol. 222, 763-785 (1991); Hurley et al., J. Mol. Biol. 224, 1143-1154 (1992); Desjarlaisl et al., Protein Science 4, 2006-2018 (1995); Harbury et al., Proc. Natl. Acad. Sci. USA 92, 8408-8412 (1995); Klemba et al., Nat. Struc. Biol. 2, 368-373 (1995); Nautiyal et al., Biochemistry 34, 11645-11651 (1995); Betzo et al., Biochemistry 35, 6955-6962 (1996); Dahiyat et al., Protein Science 5, 895-903 (1996); Jones, Protein Science 3, 567-574 (1994); Konoi et al., Proteins: Structure, Function and Genetics 19, 244-255 (1994)). Diese Algorithmen berücksichtigen die räumliche Positionierung und sterische Komplementarität von Seitenketten durch ausdrückliche Modellierung der Atome betrachteter Sequenzen. Bis heute haben sich solche Techniken typischerweise auf die Konstruktion der Proteinkerne konzentriert und haben Sequenzen mit Van-der-Waals- und manchmal hydrophoben Solvatisierungs-Potentialen ausgewertet.
Das Dokument Dahiyat et al., "protein design automation", Protein Science (US), Bd. 5, Nr. 5, S. 895-903 (1996) offenbart ein Verfahren, umfassend das Erhalten einer Proteingerüststruktur mit variablen Restepositionen, wobei es für jede davon eine Gruppe potentieller Rotamere ermittelt, worin zumindest eine variable Resteposition Rotamere aus zumindest zwei verschiedenen Aminosäureseitenketten aufweist. Das Verfahren D1 analysiert dann die Wechselwirkung von jedem dieser Rotamere mit dem verbleibenden Gerüst, um einen Satz optimierter Proteinsequenzen zu erzeugen, worin der Analyseschritt die Anwendung von Van-der-Waals- und manchmal Hydratisierungs-Solvatisierungs-Potentiale-Auswertefunktionen umfasst.
Zusätzlich hat der qualitative Charakter vieler Konstruktionsansätze die Entwicklung verbesserter Proteine der zweiten Generation behindert, das es keine objektiven Verfahren gibt, um aus vergangenen Konstruktionserfolgen und Fehlschlägen zu lernen.
Folglich ist es ein Ziel der Erfindung, die rechnerische Proteinkonstruktion und Optimierung über ein objektives, quantitatives Konstruktionsverfahren in Verbindung mit einem Allzweckcomputer bereitzustellen.

Zusammenfassung der Erfindung

Die Erfindung ist im beigefügten Verfahrensanspruch 1 und Computermediumsanspruch 15 definiert.

Kurzbeschreibung der Abbildungen

Fig. 1 veranschaulicht einen Allzweckcomputer dar, der gemäß einer der Ausführungsformen der Erfindung konfiguriert ist.
Fig. 2 veranschaulicht mit einer der Ausführungsformen assoziierte Verarbeitungsschritte.
Fig. 3 veranschaulicht Verarbeitungsschritte, die mit einem Reihungsmodul assoziiert sind, das gemäß einer der Ausführungsformen der Erfindung verwendet wird. Nach jedem DEE-Schritt kann irgendeiner der vorangegangenen DEE-Schritte wiederholt werden. Zusätzlich kann jeder der DEE-Schritte eliminiert werden; beispielsweise muss der ursprüngliche "Einzel"-DEE (Schritt 74) nicht ausgeführt werden.
Fig. 4 stellt den Proteinkonstruktions-Automatisierungszyklus dar.
Fig. 5 stellt das Helix-Kreisdiagramm einer spiralisierten Spirale dar. Ein Heptad, entlang der Hauptachsen der Helices gesehen, ist gezeigt. Die a- und d-Positionen definieren den Lösungsmittel-unzugänglichen Kern des Moleküls (Cohen und Parry, Proteins, Structure, Function and Genetics 7, 1-15 (1990)).
Die Fig. 6A und 6B stellen den Vergleich von Simulations-Kostenfunktionen mit experimentellen Tm dar. Fig. 6A stellt die anfängliche Kostenfunktion dar, die nur einen Vander-Waals-Term für acht PDA-Peptide enthält. Fig. 6B stellt die verbesserte Kostenfunktion dar, die polare und nicht polare Oberflächen-Terme enthält, die durch aus der QSAR-Analyse hergeleitete Atom-Solvatisierungs-Parameter gewichtet sind; 16 cal/mol/Å² begünstigt das Verbergen der hydrophoben Oberfläche.
Fig. 7 zeigt den Reihungszusammenhang der durch das Simulationsmodul vorhergesagten Energie gegen die kombinierte Aktivitätsauswertung von λ-Repressormutanten (Lim et al., J. Mol. Biol. 219, 359-376 (1991); Hellinga et al., Proc. Natl. Acad. Sci. USA 91, 5803-5807 (1994)).
Fig. 8 zeigt die mit dem zweiten Zinkfinger von Zif268 angeglichene Sequenz von pda8d. Die eingerahmten Positionen wurden unter Anwendung des Sequenzselektionsalgorithmus konstruiert. Die Koordinaten des PDB-Datensatzes 1zaa (Paveletch et al., Science 252, 809-817 (1991)) aus den Resten 33-60 wurden als Strukturtemplat verwendet. Bei der Nummerierung der Erfinder entspricht Position 1 der 1zaa-Position 33.
Die Fig. 9A und 9B zeigen die NMR-Spektren und Lösungs-Sekundärstruktur von pda8d aus Beispiel 3. Fig. 9A ist die TOCSY-Hα-HN-Fingerprint-Region von pda8d. Fig. 9B zeigt die NMR-NOE-Konnektivitäten von pda8d. Die Balken stellen die eindeutigen Konnektivitäten und die Balkendicke der sequentiellen Verbindungen ist auf die Resonanzintensität indiziert.
Die Fig. 10A und 10B stellen den Sekundärstrukturinhalt und die Thermostabilität von α90, α85, α70 und α107 dar. Fig. 10A stellt die fernen UV-Spektren dar (Zirkulardichroismus). Fig. 10B stellt die durch CD beobachtete thermische Denaturierung dar.
Fig. 11 stellt die Sequenz von FSD-1 aus Beispiel 5, angeglichen an den zweiten Zinkfinger von Zif268 dar. Der Balken am oberen Ende der Figur zeigt die Klassifizierungen der Resteposition: ausgefüllte Balken bezeichnen Kernpositionen, schraffierte Balken bezeichnen Randpositionen und offene Balken bezeichnen Oberflächenpositionen. Die Angleichung bringt Positionen von FSD-1 mit den entsprechenden Gerüsttemplat-Positionen von Zif268 in Übereinstimung. Von den sechs identischen Positionen (21%) zwischen FSD-1 und Zif268 sind vier verborgen (Ile7, Phe12, Leu18 und Ile22). Die zinkbindenden Reste von Zif268 sind eingerahmt. Typische, nicht-optimale, unter Anwendung eines Monte-Carlo-simulierten Annelierungsprotokolls bestimmte Sequenzlösungen sind mit ihrem Rang gezeigt. Vertikale Linien bezeichnen Identität mit FSD-1. Die Symbole am unteren Ende der Figur zeigen den Grad der Sequenzkonservierung für jede quer über die obersten 1000 Sequenzen berechnete Resteposition: volle Kreise bezeichnen mehr als 90% Konservierung, halbvolle Kreise bezeichnen Konservierung zwischen 90 und 99%, offene Kreise bezeichnen Konservierung zwischen 50 und 90% und das Fehlen des Symbols bezeichnet weniger als 50% Konservierung. Die durch Auswahl der Aminosäure mit dem häufigsten Auftreten an jeder Position bestimmte Konsensus- Sequenz ist mit der Sequenz von FSD-1 identisch.
Fig. 12 ist eine schematische Darstellung der Minimal- und Maximalgrößen (definiert in Gl. 24 bis 27), die verwendet werden, um Geschwindigkeitserhöhungen zu konstruieren. Die Minima und Maxima werden zum Auffinden des ... S.5 -Paars und für den Vergleich von Extremwerten direkt eingesetzt. Die Unterschiede zwischen den Größen, die mit Pfeilen bezeichnet sind, werden verwendet, um die qrs- und quv Metrik zu konstruieren.
Die Fig. 13A, 13B, 13C, 13D, 13E und 13F stellen die Bereiche dar, die an der Berechnung der verborgenen und exponierten Bereiche der Gleichungen 18 und 19 beteiligt sind. Der strichlierte Rahmen ist ein Proteintemplat, die stark durchgezogenen Linien entsprechen den drei Rotameren an drei verschiedenen Restepositionen und die dünner durchgezogenen Linien entsprechen Oberflächenbereichen. a) A&sup0;irt3 für jedes Rotamer. b) Airt für jedes Rotamer. c) (A&sup0;irt3 - Airt) summiert über die drei Reste. Der obere Rest verbirgt keinerlei Bereich gegen das Templat außer jenem, der im Tripeptid- Zustand A&sup0;irt3. verborgen ist. d) Airjst für ein Paar von Rotameren. e) Der zwischen Rotameren (Airt + Aist - Airjst) verborgene Bereich für dasselbe Paar von Rotameren wie in (d). f) Der zwischen den Rotameren (Airt + Ajst - Airjst) verborgene Bereich, summiert die drei Rotameren-Paare. Der durch alle drei Rotamere überschnittene Bereich b wird zweimal gezählt und ist durch Doppellinien bezeichnet. Der durch Gleichung 18 berechnete, verborgene Bereich ist der durch das Templat verborgene Bereich, in (c) dargestellt, plus s-Mal dem zwischen Rotameren verborgenen Bereich, in (f) dargestellt. Der Skalierungsfaktor s berichtigt die durch Doppellinien in (f) gezeigte Überzählen. Der durch Gleichung 19 berechnete, exponierte Bereich ist der exponierte Bereich in Gegenwart von Templat, dargestellt in (b), minus s-Mal dem zwischen Rotameren verborgenen Bereich, dargestellt in (f).

Ausführliche Beschreibung der Erfindung

Die vorliegende Erfindung betrifft die quantitative Konstruktion und Optimierung von Aminosäuresequenzen unter Anwendung eines Ansatzes "inverser Proteinfaltung", der die optimale Sequenz für eine gewünschte Struktur anstrebt. Inverse Faltung ist ähnlich der Proteinkonstruktion, die das Auffinden einer Sequenz oder eines Satzes von Sequenzen anstrebt, die sich zu einer gewünschten Struktur falten. Diese Ansätze können einem "Proteinfaltungs"-Ansatz gegenübergestellt werden, bei dem versucht wird, die durch eine gegebene Sequenz eingenommene Struktur vorherzusagen.
Der allgemein bevorzugte Ansatz der vorliegenden Erfindung lautet wie folgt, obgleich alternative Ausführungsformen unten diskutiert sind. Eine bekannte Proteinstruktur wird als Ausgangspunkt verwendet. Die zu optimierenden Reste werden dann identifiziert, welche die gesamte Sequenz oder (eine) Untermenge(n) davon ausmachen kann. Die Seitenketten aller zu variierenden Positionen werden dann entfernt. Die erhaltene Struktur, die aus dem Proteingerüst und den verbleibenden Seitenketten besteht, wird Templat genannt. Jede variable Resteposition wird dann vorzugsweise als ein Kernrest, Oberflächenrest oder Randrest klassifiziert; jede Klassifizierung definiert einen Untermenge möglicher Aminosäurereste für die Position (beispielsweise werden Kernreste im Allgemeinen aus dem Satz hydrophober Reste gewählt, Oberflächenreste werden im Allgemeinen aus den hydrophilen Resten und Randreste aus beiden gewählt). Jede Aminosäure kann durch einen getrennten Satz aller erlaubten Konformere jeder Seitenkette dargestellt sein und werden Rotamere genannt. Folglich müssen, um zu einer optimalen Sequenz für ein Gerüst zu gelangen, alle möglichen Sequenzen von Rotameren gescreent werden, wobei jede Gerüstposition entweder durch jede Aminosäure in allen ihren möglichen rotameren Zuständen, oder eine Untergruppe von Aminosäuren und folglich einer Untergruppe von Rotameren eingenommen werden kann.
Zwei Sätze von Wechselwirkungen werden dann für jedes Rotamer an jeder Position berechnet: die Wechselwirkung der Rotamer-Seitenkette mit dem gesamten oder einem Teil des Gerüsts (die "Einzel"-Energie, auch Rotamer/Templat- oder Rotamer/Gerüst- Energie genannt), und die Wechselwirkung der Rotamer-Seitenkette mit allen anderen möglichen Rotameren an jeder anderen Position oder einer Untergruppe der anderen Positionen (die "Doppel"-Energie, auch Rotamer/Rotamer-Energie genannt). Die Energie jeder dieser Wechselwirkungen wird über die Verwendung einer Reihe von Bewertungsfunktionen berechnet, welche die Energie von Van-der-Waals-Kräften, die Energie der Wasserstoffbrückenbindung, die Energie der Sekundärstrukturneigung, die Energie der Oberflächen-Lösung und Elektrostatik umfassen. Folglich wird die Gesamtenergie jeder Rotamer-Wechselwirkung mit dem Gerüst sowie anderen Rotameren berechnet und in Matrixform gespeichert.
Die diskrete Natur von Rotamer-Sätzen erlaubt eine einfache Berechung der Anzahl von zu testenden Rotamer-Sequenzen. Ein Gerüst der Längen mit m möglichen Rotameren je Position besitzt mn mögliche Rotamer-Sequenzen, eine Anzahl, die mit der Sequenzlänge exponentiell wächst und die Berechnungen in Echtzeit unhandlich oder unmöglich macht. Demgemäß wird, um dieses kombinatorische Suchproblem zu lösen, eine "Dead-End-Elimination"-(DEE-) Berechnung durchgeführt. Die DEE-Berechnung basiert auf der Tatsache, dass das zweite Rotamer nicht Teil der globalen Optimallösung sein kann, wenn die ungünstigste Gesamtwechselwirkung eines ersten Rotamers immer noch besser ist, als die beste Gesamtwechselwirkung eines zweiten Rotamers. Da die Energien aller Rotamere schon berechnet worden sind, erfordert der DEE-Ansatz nur Summen über die Sequenzlänge, um Rotamere zu testen und zu eliminieren, was die Berechnungen beträchtlich beschleunigt. Die DEE kann wiederholt werden, wobei Paare von Rotameren oder Kombinationen von Rotameren verglichen werden, was schließlich die Ermittlung einer einzigen Sequenz ergibt, welche die globale Optimalenergie darstellt.
Sobald die Global-Lösung gefunden worden ist, kann eine Monte-Carlo-Suche durchgeführt werden, um eine Rangordnungsliste von Sequenzen in der Umgebung der DEE-Lösung zu erzeugen. Beginnend bei der DEE-Lösung, werden Zufallspositionen zu anderen Rotameren verändert und die neue Sequenzenergie berechnet. Wenn die neue Sequenz die Akzeptanzkriterien erfüllt, wird sie als Ausgangspunkt für einen weiteren Sprung verwendet. Nach einer vorbestimmten Anzahl von Sprüngen ist eine Rangordnungsliste von Sequenzen erzeugt.
Die Ergebnisse können dann experimentell durch physisches Erzeugen einer oder mehrerer Proteinsequenzen, gefolgt von experimentellem Testen verifiziert werden. Die aus dem Testen erhaltenen Ergebnisse können dann in die Analyse rückgeführt werden, um die Prozedur, wenn nötig, zu modifizieren.
Folglich stellt die vorliegende Erfindung ein computerunterstütztes Verfahren der Proteinkonstruktion bereit. Das Verfahren umfasst das Bereitstellen einer Proteingerüststruktur mit variablen Restepositionen und das darauf folgende Ermitteln einer Gruppe potentieller Rotamere für jede der Restepositionen. Wie hierin verwendet umfasst das Gerüst oder Templat die Gerüstatome und jegliche fixierten Seitenketten. Die Wechselwirkungen zwischen dem Proteingerüst und der potentiellen Rotameren, und zwischen Paaren potentieller Rotamere werden dann verarbeitet, um einen Satz optimierter Proteinsequenzen, vorzugsweise eine einziges globales Optimum zu erzeugen, die dann dazu verwendet werden können, um andere, verwandte Sequenzen zu erzeugen.
Fig. 1 veranschaulicht ein automatisiertes Proteinkonstruktionsgerät 20 gemäß einer der Ausführungsformen der Erfindung. Das Gerät 20 umfasst eine Zentraleinheit 22, die mit einem Speicher 24 kommuniziert, und einen Satz von Eingabe/Ausgabe-Geräten (z. B. Tastatur, Maus, Monitor, Drucker usw.) 26 bis zu einem Bus 28. Die allgemeine Wechselwirkung zwischen einer Zentraleinheit 22, einem Speicher 24, Eingabe/Ausgabe-Geräten 26 und einem Bus 28 ist fachbekannt. Die vorliegende Erfindung zielt auf das im Speicher 24 gespeicherte, automatisierte Proteinkonstruktionsprogramm 30 ab.
Das automatisierte Proteinkonstruktionsprogramm 30 kann mit einem Seitenkettenmodul 32 implementiert werden. Wie unten ausführlich beschrieben ist, ermittelt das Seitenkettenmodul eine potentielle Gruppe von Rotameren für eine gewählte Proteingerüststruktur. Das Proteinkonstruktionsprogramm 30 kann auch mit einem Reihungsmodul 34 implementiert werden. Wie unten ausführlich beschrieben ist, analysiert ein Rangordnungsmodul die Wechselwirkung von Rotameren mit der Proteingerüststruktur, um optimierte Proteinsequenzen zu erzeugen. Das Proteinkonstruktionsprogramm 30 kann auch ein Suchmodul 36 umfassen, um eine Suche, beispielsweise eine Monte-Carlo-Suche wie unten beschrieben in Bezug auf die optimierten Proteinsequenzen auszuführen.
Schließlich kann auch ein Bewertungsmodul 38 verwendet, werden, um mit den hergeleiteten Proteinen assoziierte physikalische Parameter zu bewerten, wie weiter unten ausführlich diskutiert wird.
Der Speicher 24 speichert ferner eine Proteingerüststruktur 40, die von einem Benutzer über die Eingabe/Ausgabe-Geräte 26 heruntergeladen wird. Der Speicher 40 speichert auch Informationen über potentielle, durch das Seitenkettenmodul 32 abgeleitete Rotamere. Zusätzlich speichert der Speicher 24 durch das Rangordnungsmodul 34 erzeugte Proteinsequenzen 44. Die Proteinsequenzen 44 können als Ausgabe an die Eingabe/- Ausgabe-Geräte 26 weitergeleitet werden.
Der Betrieb des automatisierten Proteinkonstruktionsgeräts 20 kann unter Bezugnahme auf Fig. 2 besser beurteilt werden. Fig. 2 veranschaulicht gemäß dem Verfahren der Erfindung ausgeführte Verarbeitungsschritte. Wie unten beschrieben ist, werden viele der Verarbeitungsschritte durch das Proteinkonstruktionsprogramm 30 ausgeführt. Der erste in Fig. 2 dargestellte Verarbeitungsschritt ist die Bereitstellung einer Proteingerüststruktur (Schritt 50). Wie vorher angedeutet, wird die Proteingerüststruktur mittels Standardtechniken über die Eingabe/Ausgabe-Geräte 26 heruntergeladen.
Die Proteingerüststruktur entspricht einem ausgewählten Protein. Mit "Protein" sind hierin zumindest zwei, durch eine Peptidbindung miteinander verknüpfte Aminosäuren gemeint. Wie hierin verwendet, umfasst Proteine, Oligopeptide und Peptide. Die Peptidylgruppe kann natürlich auftretende Aminosäuren und Peptidbindungen oder synthetische peptidomimetische Strukturen, d. h. "Analoga", wie z. B. Peptoide (siehe Simon et al., PNAS USA 89(20), 9367 (1992)) umfassen, Die Aminosäuren können natürlich auftretend oder nicht natürlich auftretend sein; wie den Fachleuten offensichtlich ist, kann jede Struktur als eine Aminosäure verwendet werden, für die ein Satz von Rotämeren bekannt ist oder erzeugt werden kann. Die Seitenketten können in (R)- oder (S)-Konfiguration vorliegen. In einer bevorzugten Ausführungsform liegen die Aminsäuren in der (S)- oder L-Konfiguration vor.
Das gewählte Protein kann irgendein Protein sein, für das eine dreidimensionale Struktur bekannt ist oder erzeugt werden kann; d. h., für die dreidimensionale Koordinaten für jedes Atom des Proteins vorliegen. Im Allgemeinen kann dies durch Anwendung röntgenkristallographischer Techniken, NMR-Techniken, De-novo-Modellierung, Homologie-Modellierung usw. ermittelt werden. Im Allgemeinen werden, wenn Röntgenstrukturen verwendet werden, Strukturen bei einer Auflösung von 2 Å oder besser bevorzugt; sind aber nicht erforderlich.
Die Proteine können aus irgendeinem Organismus, einschließlich Prokaryoten und Eukaryoten, stammen, wobei Enzyme aus Bakterien, Pilzen, Extremophilen wie z. B. Archaebakterien, Insekten, Fischen, Tieren (insbesondere Säugetieren und insbesondere Menschen) und Vögeln alle möglich sind.
Geeignete Proteine umfassen, sind jedoch nicht eingeschränkt auf industrielle und pharmazeutische Proteine, einschließlich Liganden, Zelloberflächenrezeptoren, Antigene, Antikörper, Cytokine, Hormone und Enzyme. Geeignete Klassen von Enzymen umfassen, sind jedoch nicht eingeschränkt auf Hydrolasen, wie z. B. Proteasen, Carbohydrasen, Lipasen; Isomerasen, wie z. B. Racemasen, Epimerasen, Tautomerasen oder Mutasen; Transferasen, Kinasen, Oxidoreduktasen und Phosphatasen. Geeignete Enzyme sind in der Swiss-Prot-Enzymdatenbank aufgelistet.
Geeignete Proteingerüste umfassen, sind jedoch nicht eingeschränkt auf allen jene, die in der Proteindatenbank vorkommen, die durch das Brookhaven National Lab zusammengestellt und gewartet wird.
Speziell inkludiert in "Protein" sind Fragmente und Domänen bekannter Proteine, einschließlich funktionelle Domänen, wie z. B. enzymatische Domänen, Bindungsdomänen usw. und kleinere Fragmente, wie z. B. in Biegungen und Schleifen usw. Das heißt, dass Teile von Proteinen ebenfalls verwendet werden können.
Wenn das Protein einmal ausgewählt ist, wird die Proteingerüststruktur in den Computer eingegeben. Mit "Proteingerüststruktur" oder ihren grammatikalischen Entsprechungen sind hierin die dreidimensionalen Koordinaten gemeint, welche die dreidimensionale Struktur eines bestimmten Proteins definiert. Die Strukturen, die eine Proteingerüststruktur (eines natürlich auftretenden Proteins) umfassen sind der Stickstoff, der Carbonylkohlenstoff, der α-Kohlenstoff und der Carbonylsauerstoff gemeinsam mit der Richtung des Vektors vom α-Kohlenstoff zum β-Kohlenstoff.
Die Proteingerüststruktur, die in den Computer eingegeben wird, kann entweder die Koordinaten für das Gerüst sowie die Aminosäureseitenketten, oder nur für das Gerüst umfassen, d. h., dass die Koordinaten für die Aminosäureseitenketten entfernt sind. Wenn ersteres durchgeführt wird, können die Seitenkettenatome jeder Aminosäure der Proteinstruktur aus der Struktur des Proteins, wie fachbekannt ist "gestrippt" oder entfernt werden, wobei nur die Koordinaten für die "Gerüst"-Atome (der Stickstoff, Carbonylkohlenstoff und Sauerstoff, und der α-Kohlenstoff, und die an den Stickstoff und α-Kohlenstoff gebundenen Wasserstoffe) verbleiben.
Nach Eingeben des Proteinstrukturgerüsts werden explizite Wasserstoffe addiert, wenn sie innerhalb der Struktur nicht umfasst waren (beispielsweise müssen Wasserstoffe addiert werden, wenn die Struktur durch Röntgenkristallographie erzeugt wurde). Nach der Wasserstoffaddition wird die Energieminimierung der Struktur ausgeführt, um die Wasserstoffe sowie auch andere Atome, Bindungswinkel und Bindungslängen zu relaxieren. In einer bevorzugten Ausführungsform wird dies durch Ausführung einer Anzahl von Konjugat-Gradienten-Minimierungsschritten von Atomkoordinatenpositionen durchgeführt (Mayo et al., J. Phys. Chem. 94, 8897 (1990)), um das Dreiding-Kräftefeld ohne Elektrostatik zu minimieren. Im Allgemeinen werden ungefähr 10 bis ungefähr 250 Schritte bevorzugt, wobei 50 insbesondere bevorzugt sind.
Die Proteingerüststruktur enthält zumindest eine variable Resteposition. Wie im Fach bekannt ist, werden die Reste oder Aminosäuren von Proteinen im Allgemeinen aufeinander folgend, beginnend mit dem N-Terminus des Proteins nummeriert. Folglich wird von einem Protein mit einem Methionin an dessen N-Terminus gesagt, dass es ein Methionin an der Reste- oder Aminosäureposition 1 mit den nächsten Resten als 2, 3, 4 usw. aufweist. An jeder Position kann das Protein der Wildform (d. h. natürlich auftretend) eine von zumindest 20 Aminosäuren in jeder beliebigen Anzahl von Rotameren aufweisen. Mit "variabler Resteposition" ist hierin eine zu konstruierende Aminosäureposition des Proteins gemeint, die im Konstruktionsverfahren nicht als ein spezieller/s Rest oder Rotamer fixiert ist, im Allgemeinen der/das Wildform-Rest oder Rotamer.
In einer bevorzugten Ausführungsform sind alle Restepositionen des Proteins variabel. Das heißt, dass jede Aminosäureseitenkette in den Verfahren der vorliegenden Erfindung verändert werden kann. Dies ist besonders für kleinere Proteine wünschenswert, obgleich die vorliegenden Verfahren auch die Konstruktion von größeren Proteinen erlaubt. Obwohl es keine theoretische Einschränkung der Länge des Proteins gibt, das auf diese Weise konstruiert werden kann, besteht in der Praxis eine rechnerische Begrenzung.
In einer alternativen Ausführungsform sind nur einige der Restpositionen des Proteins variabel und die verbleibenden sind "fixiert", d. h. sie werden in der dreidimensionalen Struktur als festgelegte Konformation betrachtet. In einigen Ausführungsformen wird eine fixierte Position in ihrer ursprünglichen Konformation belassen (die mit einem spezifischen Rotamer der verwendeten Rotamer-Bibliothek korrelieren kann oder auch nicht). Alternativ dazu können Reste als Nicht-Wildform-Rest fixiert werden; wenn beispielsweise bekannte Techniken ortsgerichteter Mutagenese gezeigt haben, dass ein bestimmter Rest wünschenswert ist (zum Beispiel um eine proteolytische Stelle zu eliminieren oder die Substratspezifität eines Enzyms zu verändern), kann der Rest äls eine bestimmte Aminosäure fixiert werden. Alternativ dazu können die Verfahren der vorliegenden Erfindung verwendet werden, um Mutationen de novo zu beurteilen, wie unten diskutiert wird. In einer alternativen, bevorzugten Ausführungsform kann eine fixierte Position "gleitend" sein; die Aminosäure an dieser Position ist fixiert, jedoch werden verschiedene Rotamere dieser Aminosäure getestet. In dieser Ausführungsform kann die Anzahl variabler Reste zumindest eine betragen oder irgendwo von 0,1% bis 99,9% der Gesamtzahl von Resten liegen. Folglich kann es beispielsweise möglich sein, nur wenige (oder einen) Reste oder die meisten der Reste mit allen dazwischen liegenden Möglichkeiten zu ändern.
In einer bevorzugten Ausführungsform umfassen Reste, die fixiert werden können, sind jedoch nicht eingeschränkt auf strukturell oder biologisch funktionelle Reste. Beispielsweise können Reste, die bekanntermaßen für die biologische Aktivität wichtig sind, wie z. B. diejenigen Reste, welche die aktive Stelle eines Enzyms, die Substratbindungsstelle eines Enzyms, die Bindungsstelle für einen Bindungspartner (Ligand/Rezeptor, Antigen/Antikörper usw.), Phosphorylierungs- oder Glykosylierungsstellen bilden, die für die biologische Funktion entscheidend sind, oder strukturell wichtige Reste, wie z. B. Disulfidbrücken, Metallbindungsstellen, entscheidende Wasserstoffbrückenreste, für die Gerüstkonformation entscheidende Reste, wie z. B. Prolin oder Glycin, für Packungswechselwirkungen entscheidende Reste usw. alle in einer Konformation oder als ein einziges Rotamer fixiert werden oder "gleitend" sein.
In ähnlicher Weise können Reste, die als variable Reste ausgewählt werden, jene sein, die unerwünschte biologische Merkmale übertragen, wie z. B. Empfindlichkeit auf proteolytischen Abbau, Dimerisierungs- oder Aggregationsstellen, Glykosylierungsstellen, die zu Immunantworten führen können, unerwünschte Bindungsaktivität, unerwünschte Allosterie, unerwünschte Enzymaktivität, jedoch mit einer Erhaltung der Bindung usw.
Wie den Fachleuten offensichtlich ist, erlauben die Verfahren der vorliegenden Erfindung das rechnerische Testen von Targets "ortsgerichteter Mutagenese" ohne die Mutanten tatsächlich herzustellen oder vor der Herstellung der Mutanten. Das heißt, dass eine schnelle Analyse der Sequenzen, in denen eine kleine Anzahl von Resten verändert wird, durchgeführt werden kann, um zu beurteilen, ob eine vorgeschlagene Veränderung wünschenswert ist. Zusätzlich kann das an einem bekannten Protein oder an einem hierin optimierten Protein durchgeführt werden.
Wie den Fachleuten offensichtlich ist, kann eine Domäne eines größeren Proteins im Wesentlichen wie ein kleines, unabhängiges Protein behandelt werden; das heißt, dass eine strukturelle oder funktionelle Domäne eines großen Proteins minimale Wechselwirkungen mit dem Rest des Proteins aufweisen und im Wesentlichen behandelt werden kann, als ob sie autonom wäre. In dieser Ausführungsform könne alle oder ein Teil der Reste der Domäne variabel sein.
Es sollt angemerkt werden, dass es sogar bei Auswahl einer Position als variable Position möglich ist, dass die Verfahren der vorliegenden Erfindung die Sequenz in der Weise optimieren wird, dass an der variablen Position der Wildform-Rest ausgewählt wird. Dies tritt im Allgemeinen häufiger für Kernreste und weniger regelmäßig für Oberflächenreste auf. Zusätzlich ist es möglich, die Reste auch als Nicht-Wildform-Aminosäuren zu fixieren.
Sobald Proteingerüststruktur ausgewählt und eingegeben worden ist und die variablen Restepositionen ausgewählt worden sind, wird eine Gruppe potentieller Rotamere für jede der variablen Restepositionen ermittelt. Diese Operation ist als Schritt 52 in Fig. 2 gezeigt. Dieser Schritt kann unter Verwendung des Seitenkettenmoduls 32 implementiert werden. In einer der Ausführungsformen der Erfindung umfasst das Seitenkettenmodul 32 zumindest eine Rotamer-Bibliothek, wie unten beschrieben wird, und den Programmcode, der die gewählte Proteingerüststruktur mit der entsprechenden Information in der Rotamer-Bibliothek korreliert. Alternativ dazu kann das Seitenkettenmodul 32 weggelassen werden und die potentiellen Rotamere 42 für die gewählte Proteingerüststruktur über die Eingabe/Ausgabe-Geräte 26 heruntergeladen werden.
Wie fachbekannt ist, weist jede Aminosäureseitenkette einen Satz möglicher Konformere auf, die Rotamere genannt werden. Siehe Ponder et al., Acad. Press Inc. (London) Ltd., S. 775-791 (1987); Dunbrack et al., Struc. Biol. 1 (5), 334-340 (1994); Desmet et al., Nature 356, 539-542 (1992), wovon alle hiermit in ihrer Gesamtheit ausdrücklich durch Verweis aufgenommen sind. Folglich wird ein Satz diskreter Rotamere für jede Aminosäureseitenkette verwendet. Es gibt zwei allgemeine Typen von Rotamer-Bibliotheken: gerüstabhängige und gerüstunabhängige. Eine gerüstabhängige Rotamer-Bibliothek erlaubt verschiedene Rotamere in Abhängigkeit von der Position des Restes im Gerüst; folglich sind beispielsweise bestimmte Leucin-Rotamere erlaubt, wenn sich die Position innerhalb einer α-Helix befindet und es sind andere Leucin-Rotamere erlaubt, wenn sich die Position nicht in einer α-Helix befindet. Eine gerüstunabhängige Rotamer- Bibliothek nützt alle Rotamere einer Aminosäure an jeder Position. Im Allgemeinen wird eine gerüstunabhängige Bibliothek bei Betrachtung von Kernresten bevorzugt, da Flexibilität im Kern wichtig ist. Jedoch sind gerüstunabhängige Bibliotheken computermäßig teurer und folglich wird für Oberflächen- und Randpositionen eine gerüstabhängige Bibliothek bevorzugt. Es können jedoch beide Bibliothekstypen bei jeder Position verwendet werden.
Zusätzlich führt eine bevorzugte Ausführungsform eine Art "Feinabstimmung" der Rotamer-Bibliothek aus, indem die möglichen X-(Chi-) Winkelwerte der Rotamere um plus oder minus eine Standardabweichung (oder mehr) um den Mittelwert erweitert werden, um die möglichen Fehler zu minimieren; die aus der Diskretheit der Bibliothek entstehen könnten. Dies ist insbesondere für aromatische Reste von Bedeutung und für hydrophobe Reste ziemlich wichtig, und zwar wegen der erhöhten flexibilitätsanforderungen im Kern und der Starrheit aromatischer Ringe; es ist für die anderen Reste nicht von Bedeutung. Folglich erweitert eine bevorzugte Ausführungsform die X&sub1;- und X&sub2;-Winkel für alle Aminosäuren außer Met, Arg und Lys.
Um die Anzahl von Rotameren grob zu veranschaulichen, weist in einer der Versionen der gerüstabhängigen Rotamer-Bibliothek von Dunbrack & Karplus Alanin 1 Rotamer, Glycin 1 Rotamer Arginin 55 Rotamere, Threonin 9 Rotamere, Lysin 57 Rotamere, Glutaminsäure 69 Rotamere, Asparagin 54 Rotamere, Asparaginsäure 27 Rotamere, Tryptophan 54 Rotamere, Tyrosin 36 Rotamere, Cystein 9 Rotamere, Glutamin 69 Rotamere, Histidin 54 Rotamere, Valin 9 Rotamere, Isoleucin 45 Rotamere, Leucin 36 Rotamere, Methinonin 21 Rotamere, Serin 9 Rotamere und Phenylalanin 36 Rotamere auf.
Im Allgemeinen wird Prolin allgemein nicht verwendet, da es selten für irgendeine gewählte Position verwendet wird, obwohl es, wenn gewünscht, einbezogen werden kann. In ähnlicher Weise übergeht eine bevorzugte Ausführungsform die Berücksichtigung von Cystein nur um potentielle Disulfidprobleme zu vermeiden, obwohl es, wenn gewünscht, einbezogen werden kann.
Wie den Fachleuten offensichtlich ist, können andere Rotamer-Bibliotheken verwendet oder erzeugt werden, in denen alle Flächenwinkel gestaffelt sind.
In einer bevorzugten Ausführungsform weist zumindest eine variable Position Rotamere von zumindest zwei verschiedenen Aminosäureseitenketten auf, das heißt, dass eine Sequenz und nicht eine Struktur optimiert wird.
In einer bevorzugten Ausführungsform werden Rotamere aller Aminosäuren (oder alle außer Cystein, Glycin und Prolin) für jede variable Resteposition verwendet; das heißt, dass die Gruppe oder der Satz von potentiellen Rotameren an jeder variablen Position jedes mögliche Rotamer jeder Aminosäure ist. Dies wird insbesondere bevorzugt, wenn die Anzahl variabler Positionen nicht groß ist, da diese Analyseart computermäßig aufwändig sein kann.
In einer bevorzugten Ausführungsform wird jede variable Position entweder als Kern, Oberfläche oder Randrestposition klassifiziert, obgleich in einigen Fällen, wie unten erklärt wird, die variable Position auf Glycin gesetzt werden kann, um die Gerüstspannung zu minimieren.
Es versteht sich, dass sich die quantitative Proteinkonstruktion oder Optimierung vor der vorliegenden Erfindung fast ausschließlich auf Kernreste konzentrierte. Die vorliegende Erfindung liefert jedoch Verfahren zur Konstruktion von Proteinen, die Kern-, Oberflächen- und Restepositionen enthalten. Alternative Ausführungsformen nützen Verfahren zur Konstruktion von Proteinen, die Kern- und Oberflächenreste, Kern- und Randreste, und Oberflächen- und Randreste sowie nur Kernreste (unter Anwendung von Bewertungsfunktionen der vorliegenden Erfindung), nur Oberflächenreste oder nur Randreste enthalten.
Die Klassifizierung von Restepositionen als Kern, Oberfläche oder Rand kann auf mehrere Arten durchgeführt werden, wie den Fachkundigen offensichtlich ist. In einer bevorzugten Ausführungsform erfolgt die Klassifizierung über einen visuellen Scan der ursprünglichen Gerüststruktur, einschließlich der Seitenketten und Zuordnung einer Klassifizierung, die auf einer subjektiven Beurteilung eines der Proteinmodellierung kundigen Fachmanns basiert. Alternativ dazu nützt eine bevorzugte Ausführungsform eine Ermittlung der Orientierung der Cα-Cβ-Vektoren in Bezug auf eine lösungsmittelzugängliche Oberfläche, wobei nur die Templat-Cα-Atome verwendet werden. In einer bevorzugten Ausführungsform wird die lösungsmittelzugängliche Oberfläche nur für die Cα- Atome der Target-Faltung unter Anwendung des Connolly-Algorithmus mit einem Sondenradius im Bereich von ungefähr 4 bis ungefähr 12 Å erzeugt, wobei ungefähr 6 bis ungefähr 10 Å bevorzugt sind und 8 Å insbesondere bevorzugt ist. Der verwendete Cα- Radius liegt im Bereich von ungefähr 1,6 Å bis ungefähr 2,3 Å, wobei ungefähr 1,8 bis ungefähr 2,1 Å bevorzugt sind und 1,95 Å insbesondere bevorzugt ist. Ein Rest wird als eine Kernposition klassifiziert, wenn a) der Abstand für sein Cα entlang seinem Cα-Cβ- Vektor zur lösungsmittelzugänglichen Oberfläche mehr als ungefähr 4-6 Å beträgt, wobei mehr als ungefähr 5,0 Å speziell bevorzugt ist, und (b) der Abstand für sein Cβ zum nähesten Oberflächenpunkt mehr als ungefähr 1,5-3 Å beträgt, wobei mehr als ungefähr 2,0 Å speziell bevorzugt ist. Die verbleibenden Reste werden als Oberflächenreste klassifiziert, wenn die Summe der Abstände von ihren Cα entlang ihrer Cα-Cβ-Vektoren zur lösungsmittelzugänglichen Oberfläche plus dem Anstand von ihren Cβ zum nähesten Oberflächenpunkt weniger als ungefähr 2,5-4 Å betrugen, wobei weniger als ungefähr 2,7 Å speziell bevorzugt ist. Alle verbleibenden Reste werden als Randreste klassifiziert.
Sobald die variable entweder als Kern, Oberfläche oder Rand klassifiziert ist, wird jeder Position ein Satz von möglichen Aminosäureseitenketten und folglich ein Satz von Rotameren zugeordnet. Das heißt, dass der Satz möglicher Aminosäureseitenketten, dessen Berücksichtigung das Programm an jeder einzelnen Position zulässt, ausgewählt wird. Sobald die möglichen Aminosäureseitenketten ausgewählt sind, kann anschließend der Satz von Rotameren bestimmt werden, der an einer bestimmten Position zu beurteilen ist. Folglich wird ein Kernrest im Allgemeinen aus der Gruppe hydrophober Reste gewählt, die aus Alanin, Valin, Isoleucin, Leucin, Phenylalanin, Tyrosin, Tryptophan und I Methionin besteht (in einigen Ausführungsformen, wenn der α-Bewertungsfaktor der unten beschriebenen Van-der-Waals-Bewertungsfunktion niedrig ist, wird Methionin aus dem Satz entfernt), und der Rotamer-Satz für jede Kernposition umfasst potentiell Rotamere für diese acht Aminosäureseitenketten (alle Rotamere, wenn eine gerüstunabhängige Bibliothek verwendet wird und Untergruppen, wenn ein rotamer-unabhängiges Gerüst verwendet wird). Auf ähnliche Weise werden Oberflächenpositionen im Allgemeinen aus der Gruppe hydrophiler Reste gewählt, die aus Alanin, Serin, Threonin, Asparaginsäure, Asparagin, Glutamin, Glutaminsäure, Arginin, Lysin und Histidin besteht. Der Rotamer-Satz für jede Oberflächenposition umfasst folglich Rotamere für diese zehn Reste. Schließlich werden Randpositionen im Algemeinen aus Alanin, Serin, Threonin, Asparaginsäure, Asparagin, Glutamin, Glutaminsäure, Arginin, Lysin, Histidin, Valin, Isoleucin, Leucin, Phenylalanin, Tyrosin, Tryptophan und Methionin gewählt. Der Rotamer-Satz für jede Randposition umfasst folglich potentiell jedes Rotamer für diese siebzehn Reste (unter der Annahme, dass Cystein, Glycin und Prolin nicht verwendet werden, obgleich sie verwendet werden können).
Folglich besteht, wie den Fachkundigen offensichtlich ist, ein rechnerischer Vorteil in der Klassifizierung von Restepositionen, da sie die Anzahl von Berechnungen vermindert. Es sollte ferner angemerkt werden, dass es Situationen geben kann, in denen die Sätze von Kern-, Rand- und Oberflächenresten von den oben beschriebenen abgeändert werden; beispielsweise werden unter gewissen Umständen eine oder mehrere Aminosäuren dem Satz erlaubter Aminosäuren addiert oder davon subtrahiert. Beispielsweise können einige Proteine, die dimerisieren oder multimerisieren, oder Ligandenbindungsstellen aufweisen, hydrophobe Oberflächenreste aufweisen usw. Zusätzlich können Reste, die kein Helix-"Capping" oder günstige Wechselwirkung mit einem α-Helix-Dipol erlauben, von Satz erlaubter Reste subtrahiert werden. Diese Modifizierung von Aminosäuregruppen wird auf einer Rest-für-Rest-Basis durchgeführt.
In einer bevorzugten Ausführungsform werden Prolin, Cystein und Glycin nicht in die Liste möglicher Aminosäureseitenketten einbezogen und folglich werden die Rotamere für diese Seitenketten nicht verwendet. Jedoch wird in einer bevorzugten Ausführungsform, wenn die variable Resteposition einen Φ-Winkel (dass heißt der Flächenwinkel, der durch 1) den Carbonylkohlenstoff der vorangehenden Aminosäure; 2) das Stickstoffatom des aktuellen Restes; 3) den α-Kohlenstoff des aktuellen Restes; und 4) den Carbonylkohlenstoff des aktuellen Restes definiert ist) von mehr als 0º aufweist, die Position auf Glycin gesetzt, um die Gerüstspannung zu minimieren.
Sobald die Gruppe potentieller Rotamere für jede variable Resteposition zugeordnet ist, schreitet die Verarbeitung zu Schritt 54 der Fig. 2. Dieser Verarbeitungsschritt bewirkt das Analysieren von Wechselwirkungen der Rotamere miteinander und mit dem Proteingerüst, um optimierte Proteinsequenzen zu erzeugen. Das Bewertungsmodul 34 kann verwendet werden, um diese Operationen durchzuführen. Das heißt, dass ein Computercode geschrieen wird, um die folgenden Funktionen zu implementieren. Simplifiziert, wie oben allgemein dargelegt ist, umfasst die Verarbeitung die Verwendung einer Reihe von Bewertungsfunktionen, die unten beschrieben sind, um die Energien der Wechselwirkungen der Rotamere, entweder mit dem Gerüst selbst oder mit anderen Rotameren zu berechnen.
Die Bewertungsfunktionen umfassen eine Van-der-Waals-Potentiäl-Bewertungsfunktion, eine Wasserstoffbrückenbindungspotential-Bewertungsfunktion, eine Atomsolvatisierungs-Bewertungsfunktion, eine Sekundärstrukturneigungs-Bewertungsfunktion und eine elektrostatische Bewertungsfunktion. Wie weiter unten beschrieben ist, wird zumindest eine Bewertungsfunktion angewendet, um jede Position zu bewerten. obgleich sich die Bewertungsfunktionen in Abhängigkeit der Positionsklassifizierung oder anderer Betrachtungen wie günstige Wechselwirkung mit einem α-Helix-Dipol unterscheiden können. Wie oben dargestellt ist die in den Berechungen verwendete Gesamtenergie die Summe der Energie jeder Bewertungsfunktion, die an einer bestimmten Position verwendet wird, wie in Gleichung 1 allgemein dargestellt ist:

Gleichung 1

Etotal = nEvdw + nEas + nE h-bonding + nESS + nEelec
In Gleichung 1 ist die Gesamtenergie die Summe des Van-der-Waals-Potentials (Evdw), der Atomsolvatisierungsenergie (Eas), der Energie der Wasserstoffbindung (Eh-bonding), der Energie der Sekundärstruktur (ESS) und der Energie der elektrostatischen Wechselwirkung (Eelec). Der Term n ist entweder 0 oder 1 und hängt davon ab, ob der Term für die spezielle Resteposition zu berücksichtigen ist, wie unten ausführlicher beschrieben ist.
In einer bevorzugten Ausführungsform wird eine Van-der-Waals-Bewertungsfunktion verwendet. Wie fachbekannt ist, sind Van-der-Waals-Kräfte schwache, nicht-kovalente und nicht-ionische Wechselwirkungen zwischen Atomen und Molekülen, d. h. induzierte Dipol- und Elektronenabstoßungs- (Pauli-Prinzip) Kräfte.
Die Van-der-Waals-Bewertungsfunktion basiert auf einer Van-der-Waals-Potentialenergie. Es gibt eine Reihe von Van-der-Waals-Potentialenergieberechnungen, einschließlich einem Lennard-Jones-12/6-Potential mit Radien und Senkentiefe-Parametern aus dem Dreiding-Kräftefeld, Mayo et al., J. Prot. Chem. (1990), die hierin ausdrücklich durch Verweis aufgenommen ist, oder dem exponentiellen 6-Potential. Die unten dargestellte Gleichung 2 ist das bevorzugte Lennard-Jones-Potential: Gleichung 2
R&sub0; ist das geometrische Mittel der Van-der-Waals-Radien der beiden berücksichtigten Atome und D&sub0; ist das geometrische Mittel der Senkentiefe der beiden berücksichtigten Atome. Evdw und R sind die Energie und der Interatomabstand zwischen den beiden berücksichtigten Atomen und ist unten ausführlicher beschrieben.
In einer bevorzugten Ausführungsform werden die Van-der-Waals-Kräfte unter Anwendung eines Bewertungsfaktors α bewertet, wie in Beispiel 4 allgemein diskutiert wird. Gleichung 3 zeigt die Anwendung von α in der Van-der-Waals-Lennard-Jones-Potential- Gleichung: Gleichung 3
Die Rolle des Bewertungsfaktors α ist es, die Bedeutung von Packungseffekten bei der Optimierung und Konstruktion irgendeines bestimmten Proteins zu verändern. Wie in den Beispielen diskutiert ist, liefern unterschiedliche Werte für α unterschiedliche, durch die vorliegenden Verfahren erzeugte Sequenzen. Im Speziellen kann eine herabgesetzte, sterische Van-der-Waals-Einschränkung die restriktiven Wirkungen eines fixierten Gerüsts und diskreter Seitenketten-Rotamere in der Simulation kompensieren und kann eine breitere Abtastung von Sequenzen erlauben, die mit einer gewünschten Faltung kompatibel sind. In einer bevorzugten Ausführungsform können α-Werte im Bereich von ungefähr 0,70 und ungefähr 1,10 verwendet werden, wobei α-Werte von ungefähr 0,8 bis ungefähr 1,05 bevorzugt und ungefähr 0,85 bis ungefähr 1,0 speziell bevorzugt sind. Spezielle, bevorzugte α-Werte sind 0,80, 0,85, 0,90, 0,95, 1,00 und 1,05.
Allgemein gesprochen liefert die Variation des Van-der-Waals-Bewertungsfaktors α vier Packungsspezifitäts-Regime; Regime 1, wo 0,9 ≤ α ≤ 1,05 ist und Packungseinschränkungen die Sequenzauswahl dominieren; Regime 2, wo 0,8 ≤ α < 0,9 ist und das hydrophobe Solvatisierungspotential mit Packungskräften zu konkurrieren beginnt; Regime 3, wo α < 0,8 ist und hydrophobe Soldatisierung die Konstruktion dominiert; und Regime 4, wo α > 1,05 ist und die Van-der-Waals-Abstoßung zu stark zu sein scheint, um eine bedeutungsvolle Sequenzauswahl zu erlauben. Im Speziellen können verschiedene α- Werte für Kern-, Oberflächen- und Randpositionen verwendet werden, wobei Regime 1 und 2 für Kernreste bevorzugt werden, Regime 1 für Oberflächenreste bevorzugt wird und Regime 1 und 2 für Randreste bevorzugt werden.
In einer bevorzugten Ausführungsform wird der Van-der-Waals-Bewertungsfaktor zur Berechnung der Gesamtenergie für jede variable Resteposition, einschließlich Kern-, Oberflächen- und Randpositionen, herangezogen.
In einer bevorzugten Ausführungsform wird eine Atomsolvatisierungspotential-Bewertungsfunktion verwendet. Wie den Fachkundigen offensichtlich ist, sind Lösungsmittelwechselwirkungen ein signifikanter Faktor der Proteinstabilität und die Reste/Protein- Hydrophobie hat sich als die hauptsächlich treibende Kraft der Proteinfaltung erwiesen. Folglich besteht bei der Solvatisierung hydrophober Oberflächen ein Entropieaufwand zusätzlich zur Möglichkeit der falschen Faltung und Aggregation. Demgemäß begünstigt die Verbergung hydrophober Oberflächen innerhalb einer Proteinstruktur sowohl die Faltung, als auch die Stabilität. Auf ähnliche Weise kann das Verbergen hydrophiler Reste von Nachteil sein. Die zugängliche Oberflächenfläche eines Proteinatoms ist allgemein als diejenige Fläche der Oberfläche definiert, über die ein Wassermolekül aufgebracht werden kann, während der Van-der-Waals-Kontakt mit diesem Atom erfolgt und kein anderes Proteinatom penetriert wird. Folglich wird in einer bevorzugten Ausführungsform das Solvatisierungspotential im Allgemeinen bewertet, indem man die insgesamt möglich exponierte Oberflächenfläche des Teils zweier unabhängiger Teile (entweder ein Rotamer oder das erste Rotamer und das zweite Rotamer) nimmt, welche die Referenz ist, und die "verborgenen" Fläche weg subtrahiert, d. h. diejenige Fläche, die wegen der Wechselwirkung entweder mit dem Gerüst oder mit anderen Rotameren nicht lösungsmittelexponiert ist.
Alternativ dazu berechnet eine bevorzugte Ausführungsform die Bewertungsfunktion auf Basis des "verborgenen" Teils; d. h., dass die insgesamt möglich exponierte Oberflächenfläche berechnet und dann die berechnete Oberflächenfläche nach der Wechselwirkung der Teile subtrahiert wird, wobei die verborgene Oberflächenfläche erhalten bleibt. Ein insbesondere bevorzugtes Verfahren führt beide dieser Berechnungen aus.
Wie unten ausführlicher beschrieben wird; können beide Verfahren auf vielerlei Arten ausgeführt werden. Siehe Eisenberg et al., Nature 319, 199-203 (1986); Connolly Science 221, 709-713 (1983); und Wodak et al., Proc. Natl. Acad. Sci. USA 77(4); 1736-1740 (1980), wovon alle hierin ausdrücklich durch Verweis aufgenommen sind. Für Fachkundige ist offensichtlich, dass diese Solvatisierungspotential-Bewertungsfunktion eher konformationsabhängig als konformationsunabhängig ist.
In einer bevorzugten Ausführungsform wird das paarweise Solvatisierungspotential in zwei Komponenten, "Einzel" (Rotamer/Templat) und "Doppel" (Rotamer/Rotamer) implementiert und ist unten ausführlicher beschrieben. Für die Rotamer/Templat-verborgene Fläche ist der Referenzzustand als das fragliche Rotamer an Resteposition i definiert, wobei die Restepositionen nur die der Reste i - 1 und i + 1 sind, obgleich in einigen Fällen gerade i verwendet werden kann. Folglich wird in einer bevorzugten Ausführungsform das Solvatisierungspotential nicht für die Wechselwirkung jedes Gerüstatoms mit einem bestimmten Rotamer berechnet, obgleich wie benötigt mehr durchgeführt werden kann. Die Fläche der Seitenkette wird mit den das Lösungsmittel ausschließenden Gerüstatomen berechnet, jedoch der Fläche nicht zugerechnet. Der gefaltete Zustand ist als die Fläche des fraglichen Rotamers am Rest i definiert, jedoch nun im Zusammenhang mit der gesamten Templatstruktur, einschließlich nicht optimierter Seitenketten, d. h. jeder andere Rest fixierter Position. Die Rotamer/Templat verborgene Fläche ist die Differenz zwischen der Referenz und den gefalteten Zuständen. Die Rotamer/Rotamer- Referenzfläche kann in auf zwei Arten ermittelt werden; eine, indem einfach die Summe der Flächen der isolierten Rotamere verwendet wird; die zweite umfasst das gesamte Gerüst. Der gefaltete Zustand ist die Fläche der beiden, in ihre relativen Positionen am Proteingerüst platzierten Rotamere, wobei jedoch keine Templat-Atome zugegen sind. In einer bevorzugten Ausführungsform wird die Richards-Definition der lösungsmittelzugänglichen Oberflächenfläche (Lee und Richards, J. Mol. Biol. 55, 379-400 (1971), hierin durch Verweis aufgenommen) verwendet, und zwar mit einem Sondenradius im Bereich von 0,8 bis 1,6 Å, wobei 1,4 Å bevorzugt ist, und Drieding-Van-der-Waals-Radien normiert von 0,8 bis 1,0. Kohlestoff und Schwefel und alle daran gebundenen Wasserstoffe werden als apolar betrachtet. Stickstoff und Sauerstoff und alle daran gebundenen Wasserstoffe werden als polar betrachtet. Oberflächenflächen werden mit dem Connolly-Algorithmus unter Verwendung einer Punktdichte von 10 Å-2 (Connolly (1983), s.o.), hierin durch Verweis aufgenommen) berechnet.
In einer bevorzugten Ausführungsform wird eine Korrektur für eine mögliche Überschätzung verborgener Oberflächenfläche verwendet, die bei der Berechnung der Energie der Wechselwirkung zwischen zwei Rotameren auftreten kann (nicht jedoch der Wechselwirkung eines Rotamers mit dem Gerüst). Da Rotamere, wie unten allgemein dargelegt ist, nur als Paare betrachtet werden, das heißt, ein erstes Rotamer wird nur mit einem zweiten Rotamer während der "Doppel"-Berechnungen verglichen, kann die die Menge verborgener Oberflächenfläche an Stellen überschätzen, wo mehr als zwei Rotamere wechselwirken, das heißt, wo Rotamere aus drei oder mehr Restepositionen zusammenkommen. Folglich wird ein Korrektur- oder Bewertungsfaktor wir unten dargestellt verwendet.
Die allgemeine Solvatisierungsenergie ist in Gleichung 4 gezeigt:

Gleichung 4

Esa = f(SA)
wobei Esa die Solvatisierungsenergie ist. f ist eine Konstante, die zur Korrelation von Oberflächenfläche und Energie verwendet wird und SA ist die Oberflächenfläche. Die Gleichung kann abhängig davon zerlegt werden, welche Parameter beurteilt wird. Folglich ist, wenn die hydrophobe, verborgene Oberflächenfläche verwendet wird, Gleichung 5 geeignet:

Gleichung 5

Esa = f&sub1;(SAburied hydrophobic)
wobei f&sub1; eine Konstante ist, die im Bereich von ungefähr 10 bis ungefähr 50 cal/Mol/Å² liegt, wobei 23 oder 26 cal/Mol/Å² bevorzugt sind. Wenn ein Strafaufschlag für hydrophiles Verbergen berücksichtigt wird, ist die Gleichung dafür in Gleichung 6 gezeigt:

Gleichung 6

Esa = f&sub1; (SAburied hydrophobic) + f&sub2;(SAburied hydrophilic)
wobei f&sub2; eine Konstante im Bereich von -50 bis -250 cal/Mol/Å² ist, wobei -86 oder -100 cal/Mol/Å² bevorzugt werden. Auf ähnliche Weise kann, wenn ein Strafaufschlag für hydrophobe Exposition verwendet wird, Gleichung 7 oder 8 verwendet werden:

Gleichung 7

Esa = f&sub1;(SAburied hydrophobic) + f&sub3;(SAexposed hydrophobic)

Gleichung 8

Esa = f&sub1; (SAburied hydrophobic) + f&sub2;(SAburied hydrophilic) + f&sub3;(SAexposed hydrophobic) + f&sub4;(SAexposed hydrophilic)
In einer bevorzugten Ausführungsform ist f&sub3; = -f&sub1;.
In einer der Ausführungsformen werden Gerüstatome in die Berechnung von Oberflächenflächen nicht einbezogen und Werte von 23 cal/Mol/Å² (f&sub1;) und -86 cal/Mol/Å² (f&sub2;) bestimmt.
In einer bevorzugten Ausführungsform wird dieses Überzählen-Problem durch Anwendung eines Bewertungsfaktors angegangen, der nur denjenigen Teil des Ausdrucks für die paarweise Fläche kompensiert, der zum Überzählen neigt. In dieser Ausführungsform werden Werte von -26 cal/Mol/Å² (f&sub1;) und 100 cal/Mol/Å² (f&sub2;) bestimmt. Die Atomsolvatisierungsenergie ist bezüglich Rechenzeit und Ressourcen aufwändig.
Demgemäß wird in einer bevorzugten Ausführungsform die Solvatisierungsenergie für Kern- und/oder Randreste berechnet, nicht jedoch für Oberflächenreste, wobei eine Berechnung für Kern- sowie Randreste bevorzugt ist, obgleich jede Kombination der drei möglich ist.
In einer bevorzugten Ausführungsform wird eine Wasserstoffbrückenbindungspotential- Bewertungsfunktion verwendet. Ein Wasserstoffbrückenbindungspotential wird verwendet, da vorhergesagte Wasserstoffbrückenbindungen zur konstruierten Proteinstabilität beitragen (siehe Stickle et al., J. Mol. Biol. 226, 1143 (1992); Huyghues-Despointes et al., Biochem. 34, 13267 (1995), wovon beide hierin ausdrücklich durch Verweis aufgenommen sind). Wie vorhin umrissen, werden explizite Wasserstoffe an der Proteingerüststruktur erzeugt.
In einer bevorzugten Ausführungsform besteht das Wasserstoffbrückenbindungspotential aus einem abstandsabhängigen Term und einem winkelabhängigen Term, wie in Gleichung 9 gezeigt ist: Gleichung 9
wobei R&sub0; (2,8 Å) und D&sub0; (8 kcal/Mol) der Wasserstoffbrückenbindungs-Gleichgewichtsabstand bzw. die Senkentiefe sind und R der Donor-zu-Akzeptor-Abstand ist. Dieses Wasserstoffbrückenbindungspotential basiert auf dem in DREIDING verwendeten Potential mit stärker eingeschränkten, winkelabhängigen Termen, um das Auftreten ungünstiger Wasserstoffbrückenbindungsgeometrien zu limitieren. Der Winkelterm variiert in Abhängigkeit vom Hybridisierungszustand des Donors und Akzeptors, wie in den Gleichungen 10, 11, 12 und 13 gezeigt ist. Gleichung 10 wird für sp³-Donor zu sp³-Akzeptor verwendet, Gleichung 11 wird für sp³-Donor zu sp²-Akzeptor verwendet, Gleichung 12 wird für sp²-Donor zu sp³-Akzeptor verwendet und Gleichung 13 wird für sp²-Donor zu sp²-Akzeptor verwendet:

Gleichung 10

F = cos²Θcos²(Φ - 109,5)

Gleichung 11

F = cos²Θcos²Φ

Gleichung 12

F = cos&sup4;Θ

Gleichung 13

F = cos²Θecos²(max[Φ, φ])
In den Gleichungen 10-13 ist Θ der Donor-Wasserstoff-Akzeptor-Winkel, Φ der Wasserstoff-Akzeptor-Basen-Winkel (die Base ist das an den Akzeptor gebundene Atom, beispielsweise ist der Carbonylkohlenstoff die Base für einen Carbonylsauerstoff-Akzeptor) und φ der Winkel zwischen den Normalen der Ebenen, die durch die sechs an die sp²- Zentren gebundenen Atome definiert werden (die Ergänzung von p wird verwendet, wenn φ kleiner als 90º ist). Die Wasserstoffbrückenbindungsfunktion wird nur dann beurteilt, wenn 2,6 Å ≤ R ≤ 3,2 Å, Θ > 90º, Φ-109,5º < 90º für den sp³-Donor-sp³-Akzeptor-Fall, und Φ > 90º für den sp³-Donor-sp²-Akzeptor-Fall; vorzugsweise werden keine Schaltfunktionen verwendet. Templat-Donoren und Akzeptoren, die an den Templat- Templat-Wasserstoffbrückenbindungen beteiligt sind, werden vorzugsweise nicht in die Donor- und Akzeptorlisten aufgenommen. Zu Ausschlusszwecken wird angenommen, dass eine Templat-Templat-Wasserstoffbrückenbindung existiert, wenn 2,5 Å ≤ R ≤ 3,3 Å und Θ ≥ 135º ist.
Das Wasserstoffbrückenbindungspotential kann auch kombiniert oder mit einem schwachen Coulomb-Term verwendet werden, der eine abstandsabhängige Dielektrizitätskonstante von 40R umfasst, wobei R der interatomare Abstand ist. Atomteilladungen werden vorzugsweise nur auf polare funktionelle Gruppen angewendet. Eine formale Nettoladung von +1 wird für Arg und Lys verwendet und eine formale Nettoladung von -1 wird für Asp und Glu verwendet; siehe Gasteiger et al., Tetrahedron 36, 3219-3288 (1980); Rappe et al., J. Phys. Chem. 95, 3358-3363 (1991).
In einer bevorzugten Ausführungsform werden verborgene polare Wasserstoffatome, die nicht an ein anderes Atom gebundene Wasserstoffe sind, mit einem Strafaufschlag versehen. Siehe Eisenberg et al. (1986), s.o., die hierin ausdrücklich durch Verweis aufgenommen ist. In einer bevorzugten Ausführungsform beträgt der Strafaufschlag für das Verbergen polarer Wasserstoffe von ungefähr 0 bis ungefähr 3 kcal/Mol, wobei ungefähr 1 bis ungefähr 3 bevorzugt und 2 kcal/Mol insbesondere bevorzugt sind. Dieser Strafaufschlag wird nur auf verborgene polare Wasserstoffe angewendet, die nicht an den Wasserstoffbrückenbindungen beteiligt sind. Es wird das Bestehen einer Wasserstoffbrückenbindung angenommen, wenn EHB im Bereich von ungefähr 1 bis ungefähr 4 kcal/ Mol liegt, wobei ein EHB von weniger als -2 kcal/Mol bevorzugt ist. Zusätzlich wird in einer bevorzugten Ausführungsform der Strafaufschlag nicht auf Templat-Wasserstoffe, d. h. auf ungepaarte verborgene Wasserstoffe des Gerüsts angewendet.
In einer bevorzugten Ausführungsform werden nur Wasserstoffbrückenbindungen zwischen einem ersten Rotamer und dem Gerüst bewertet und Rotamer-Rotamer- Wasserstoffbrückenbindungen werden nicht bewertet. In einer alternativen Ausführungsform werden Wasserstoffbrückenbindungen zwischen einem ersten Rotamer und dem Gerüst bewertet und Rotamer/Rotamer-Wasserstoffbrückenbindungen mit 0,5 normiert.
In einer bevorzugten Ausführungsform wird die Wasserstoffbrückenbindungs-Bewertungsfunktion für alle Positionen verwendet, einschließlich Kern-, Oberflächen- und Randpositionen. In alternativen Ausführungsformen kann die Wasserstoffbrückenbindungs-Bewertungsfunktion für nur eine oder zwei davon angewendet werden.
In einer bevorzugten Ausführungsform wird eine Sekundärstrukturneigungs-Bewertungsfunktion verwendet. Diese basiert auf der speziellen Aminosäureseitenkette und ist konformationsunabhängig. Das heißt, dass jede Aminosäure eine bestimmte Neigung auweist, eine Sekundärstruktur, entweder eine α-Helix- oder ein β-Faltblattstruktur basierend auf ihren Φ- und Ψ-Winkel einzunehmen. Siehe Munoz et al., Current Op. in Biotech. 6, 382 (1995); Minor et al., Nature 367, 660-663 (1994); Padmanabhan et al., Nature 344, 268-270 (1990); Munoz et al., Folding & Design 1 (3), 167-178 (1996); und Chakrabartty et al., Protein Sci. 3, 843 (1994), wovon alle hierin ausdrücklich durch Verweis aufgenommen sind. Folglich wird für variable Restepositionen, die sich in erkennbarer Sekundärstruktur in im Gerüst befinden, vorzugsweise eine Sekundärstrukturneigungsfunktion angewendet. Das heißt, dass die unten beschriebene α-Helix-Neigungs-Bewertungsfunktion berechnet wird, wenn eine variabel Restefunktion sich in einem α-Helix-Bereich des Gerüsts befindet. Ob eine Position sich im α-Helix-Bereich des Gerüsts befindet oder nicht, wird im Allgemeinen, wie den Fachkundigen offensichtlich ist, auf Basis der Φ- und Ψ-Winkel ermittelt; für die α-Helix beschreiben Φ- Winkel von -2 bis -70 und Ψ-Winkel von -30 bis -100 allgemein einen α-Helix-Bereich des Gerüsts.
Auf ähnliche Weise wird die β-Faltblatt-Neigungs-Bewertungsfunktion verwendet, wenn sich eine variable Resteposition in einer β-Faltblattkonformation befindet. Die β-Faitblatt-Gerüstkonformation wird allgemein durch Φ-Winkel von -30 bis -100 und χ-Winkel von +40 bis +180 beschrieben. In alternativen, bevorzugten Ausführungsformen können variable Restepositionen, die sich innerhalb von Bereichen des Gerüsts befinden, die weder einer β-Faltblatt-, noch einer α-Helix-Struktur zugeordnet werden können, ebenfalls Sekundärstrukturneigungsberechnungen unterworfen werden.
In einer bevorzugten Ausführungsform werden die mit Sekundärneigungen assoziierten Energien unter Anwendung von Gleichung 14 berechnet: Gleichung 14
In Gleichung 14 ist Eα (oder Eβ) die Energie der α-Helix-Neigung, ΔG&sup0;aa die Standardfreie-Energie der Helix-Propagation der Aminosäure und ΔG&sup0;aa die Standard-freie-Energie der Helix-Propagation des als Standard verwendeten Alanins oder die Standard-freie- Energie der β-Faltblatt-Bildung dieser Aminosäure, wovon beide aus der Literatur verfügbar sind (siehe Chakrabartty et al. (1994), s.o.) und Munoz et al. Folding & Design 1 (3), 167-178 (1996), wovon beide hierin ausdrücklich durch Verweis aufgenommen sind), und NSS ist der Neigungsbewertungsfaktor, der auf einen Bereich von 1 bis 4 eingestellt ist, wobei 3,0 bevorzugt ist. Dieses Potential wird vorzugsweise gewählt, um die Neigungsenergien in einem ähnlichen Bereich wie die anderen Terme in der Bewertungsfunktion zu bewerten.
In einer bevorzugten Ausführungsform werden die β-Faltblatt-Neigungen vorzugsweise nur dann berechnet, wo die i - 1- und i + 1-Reste sich ebenfalls in der β-Faltblatt-Konfiguration befinden.
In einer bevorzugten Ausführungsform wird die Sekundärstrukturneigungs-Bewertungsfunktion nur in den Energieberechnungen für variable Oberflächenrestepositionen verwendet. In alternativen Ausführungsformen wird die Sekundärstrukturneigungs-Bewertungsfunktion auch in den Berechnungen für Kern- und Randregionen verwendet.
In einer bevorzugten Ausführungsform wird eine elektrostatische Bewertungsfunktion verwendet, wie unten in Gleichung 15 gezeigt ist: Gleichung 15
In dieser Gleichung ist q die Ladung am Atom 1, q' die Ladung am Atom 2 und r der Wechselwirkungsabstand.
In einer bevorzugten Ausführungsform wird für jede variable Resteposition zumindest eine Bewertungsfunktion verwendet; In bevorzugten Ausführungsformen werden zwei, drei oder vier Bewertungsfunktionen für jede variable Resteposition verwendet.
Sobald die zu anzuwendenden Bewertungsfunktionen für jede variable Position festgestellt sind, umfasst der erste bevorzugte Schritt in der Computeranalyse die Ermittlung der Wechselwirkung jedes möglichen Rotamers mit dem gesamten Rest des Proteins oder einem Teil davon. Das heißt, dass die durch eine oder mehrere Bewertungsfunktionen gemessene Energie der Wechselwirkung jedes möglichen Rotamers an jeder variablen Resteposition entweder mit dem Gerüst oder mitanderen Rotameren berechnet wird. In einer bevorzugten Ausführungsform wird die Wechselwirkung jedes Rotamers mit dem gesamten Rest des Proteins, d. h. dem gesamten Templat sowie allen anderen Rotameren durchgeführt. Wie jedoch oben umrissen wurde, ist es möglich, nur einen Teil eines Proteins, z. B. eine Domäne eines größeren Proteins zu modellieren und folglich muss in einigen Fällen nicht das gesamte Protein berücksichtigt werden.
In einer bevorzugten Ausführungsform wird der erste Schritt der Computerverarbeitung durch Berechnen zweier Sätze von Wechselwirkungen für jedes Rotamer an jeder Position durchgeführt (Schritt 70 der Fig. 3): die Wechselwirkung der Rotamer-Seitenkette mit dem Templat oder Gerüst (die "Einzel"-Energie) und die Wechselwirkung der Rotamer-Seitenkette mit allen anderen möglichen Rotameren an jeder anderen Position (die "Doppel"-Energie), unabhängig davon, ob diese Position variierend oder gleitend ist. Es versteht sich, dass das Gerüst in diesem Fall beide Atome des Proteinstrukturgerüsts umfasst sowie die Atome aller fixierten Reste, worin die fixierten Reste als eine bestimmte Konformation einer Aminosäure definiert sind.
Folglich werden "Einzel"- (Rotamer/Templat-) Energien für die Wechselwirkung jedes möglichen Rotamers an jeder variablen Resteposition mit dem Gerüst berechnet, wobei einige oder alle der Bewertungsfunktionen angewendet werden. Folglich wird für die Wasserstoffbrückenbindungs-Bewertungsfunktion jedes wasserstoffbindende Atom des Rotamers und jedes wasserstoffbindende Atom des Gerüsts bewertet und die EHB für jedes mögliche Rotamer an jeder variablen Position berechnet. Auf ähnliche Weise wird für die Van-der-Waals-Bewertungsfunktion jedes Atom des Rotamers mit jedem Atom des Templats verglichen (wobei dessen Gerüstatome im Allgemeinen ausgeschlossen werden) und die Evdw für jedes mögliche Rotamer an jeder variablen Resteposition berechnet. Zusätzlich wird im Allgemeinen keine Van-der-Waals-Energie berechnet, wenn die Atome durch drei Bindungen oder mehr verbunden sind. Für die Atomisolvatisierungs-Bewertungsfunktion wird die Oberfläche des Rotamers gegen die Oberfläche des Templats gemessen und die Eas für jedes mögliche Rotamer an jeder variablen Resteposition berechnet. Die Sekundärstruktur-Neigungs-Bewertungsfunktion wird auch als eine Einzel-Energie betrachtet und folglich kann die Einzel-Gesamtenergie einen Term Eas enthalten. Wie den Fachkundigen offensichtlich ist, werden viele dieser Energieterme Werte nahe 0 einnehmen, und zwar in Abhängigkeit des physikalischen Abstands zwischen der Rotamer- und Templatposition; das heißt, je weiter die beiden Teile voneinander entfernt sind, desto niedriger die Energie.
Demgemäß ist die Einzel-Gesamtenergie, wie oben umrissen, die Summe der Energie jeder an einer bestimmten Position verwendeten Bewertungsfunktion, wie in Gleichung 1 gezeigt ist, worin n entweder 1 oder null ist, und zwar abhängig davor, ob diese bestimmte Bewertungsfunktion an der Rotamer-Position verwendet wurde:

Gleichung 1

Etotal = nEvdw + nEaS + nEh-bonding + nEss + nEelec
Sobald berechnet, wird jede "Einzel"-Etotal für jedes mögliche Rotamer im Speicher 24 im Computer gespeichert, so dass sie für anschließende Berechnungen wie oben umrissen verwendet werden kann.
Für die Berechnung der "Doppel"-Energie (Rotamer/Rotamer) wird die Wechselwirkungsenergie jedes möglichen Rotamers mit jedem möglichen Rotamer an allen anderen variablen Restepositionen berechnet. Folglich werden "Doppel"-Energien für die Wechselwirkung jedes möglichen Rotamers an jeder variablen Resteposition mit jedem möglichen Rotamer an jeder anderen möglichen variablen Resteposition berechnet, wobei einige oder alle der Bewertungsfunktionen angewendet werden. Folglich wird für die Wasserstoffbrückenbindungs-Bewertungsfunktion jedes wasserstoffbindende Atom des ersten Rotamers und jedes wasserstoffbindende Atom jedes möglichen zweiten Rotamers bewertet und die EHB wird für jedes mögliche Rotamer-Paar für alle Zweivariablen-Positionen berechnet. Auf ähnliche Weise wird für die Van-der-Waals-Bewertungsfunktion jedes Atom des ersten Rotamers mit jedem Atom jedes möglichen zweiten Rotamers verglichen und die EvdW wird für jedes mögliche Rotamer-Paar an jeder möglichen Zweivariablen-Resteposition berechnet. Für die Atomsolvatisierungs-Bewertungsfunktion wird die Oberfläche des ersten Rotamers gegen die Oberfläche jedes möglichen zweiten Rotamers gemessen und die Eas für jedes mögliche Rotamer-Paar an jeder der Zweivariablen-Restepositionen berechnet. Die Sekundärstruktur-Neigungs-Bewertungsfunktion muss nicht als eine "Doppel"-Energie ausgeführt werden, da sie als eine Komponente der "Einzel"-Energie betrachtet wird. Wie den Fachkundigen offensichtlich ist, werden viele dieser Doppel-Energieterme in Abhängigkeit vom physikalischen Abstand zwischen dem ersten Rotamer und dem zweiten Rotamer Werte nahe 0 einnehmen, das heißt, je weiter die beiden Teile voneinander entfernt sind, desto niedriger die Energie.
Demgemäß ist die Doppel-Gesamtenergie, wie oben umrissen, die Summe der Energie jeder Bewertungsfunktion, die zur Bewertung jedes möglichen Rotamer-Paars angewendet wurde, wie in Gleichung 16 gezeigt ist, worin n entweder 1 oder null ist, und zwar abhängig davor, ob diese bestimmte Bewertungsfunktion an der Rotamer-Position verwendet wurde:

Gleichung 16

Etotal = nEvdw + nEas + nEh-bonding + nEelec
Ein Beispiel ist erhellend. Eine erste variable Position I weist drei (eine unrealistisch niedrige Anzahl) möglicher Rotamere auf (die entweder von einer einzigen oder von verschiedenen Aminosäuren stammen), die mit ia, ib und ic bezeichnet werden. Eine zweite variable Position j weist ebenfalls drei mögliche Rotamere auf, die mit jd, je und jf bezeichnet werden. Folglich werden insgesamt neun Doppel-Energien (Etotal) berechnet:
Etotal(ia, jd), Etotal(ia, je), Etotal(ia, jf), Etotal(ib, jd), Etotal(ib, je), Etotal(ib, jf), Etotal(ic, jd), Etotal(ic, je), Etotal(ic, jf).
Sobald berechnet, wird jede Doppel-Etotal für jedes mögliche Rotamer-Paar in Speicher. 24 im Computer gespeichert, so dass sie in anschließenden Berechnungen wie oben umrissen verwendet werden kann.
Sobald die Einzel- und Doppel-Energien berechnet und gespeichert sind, kann der nächste Schritt der Computerverarbeitung erfolgen. Allgemein gesprochen ist es das Ziel der Computerverarbeitung, einen Satz optimierter Proteinsequenzen zu bestimmen. Mit "optimierter Proteinsequenz" ist hierin eine Sequenz gemeint, die mit den mathematischen Gleichungen hierin am besten übereinstimmt. Wie den Fachkundigen offensichtlich ist, ist eine global optimierte Sequenz diejenige Sequenz, die am besten mit Gleichung 1 übereinstimmt, d. h. eine Sequenz, welche die niedrigste Energie beliebiger möglicher Sequenzen aufweist. Jedoch gibt es eine beliebige Anzahl von Sequenzen, die nicht das globale Minimum sind, jedoch niedrige Energien aufweisen.
In einer bevorzugten Ausführungsform umfasst der Satz die global optimale Sequenz in ihrer optimalen Konformation, das heißt, mit dem optimalen Rotamer an jeder variablen Position. Das heißt, dass die Computerverarbeitung ausgeführt wird, bis das Simulationsprogramm auf eine einzige Sequenz konvergiert, die das globale Optimum ist.
In einer bevorzugten Ausführungsform umfasst der Satz zumindest zwei optimierte Proteinsequenzen. Folglich kann beispielsweise der Computerverarbeitungsschritt eine Reihe ungünstiger Kombinationen eliminieren, wird jedoch vor der Konvergenz gestoppt, wobei ein Satz von Sequenzen bereitgestellt wird, von denen das globale Optimum ein ist. Zusätzlich kann eine weitere Computeranalyse, beispielsweise unter Verwendung eines anderen Verfahrens an dem Satz ausgeführt werden, um weitere Sequenzen zu eliminieren oder diese anders zu reihen. Alternativ dazu kann, wie unten ausführlicher beschrieben ist, das globale Optimum erreicht werden und dann eine weitere Computerverarbeitung auftreten, die zusätzliche optimierte Sequenzen nahe dem globalen Optimum erzeugt.
Wenn ein Satz erzeugt wird, der mehr als eine optimierte Proteinsequenz umfasst, können diese im Sinne theoretischer, quantitativer Stabilität gereiht werden, wie unten ausführlicher beschrieben ist.
In einer bevorzugten Ausführungsform umfasst der Computerverarbeitungsschritt zunächst einen Eliminierungsschritt, manchmal als "applying a cutoff" bezeichnet, entweder eine "Einzel"-Eliminierung oder eine "Doppel"-Eliminierung. Die "Einzel"-Eliminierung umfasst die Eliminierung aller Rotamere mit Templat-Wechselwirkungsenergien von mehr als ungefähr 10 kcal/Mol vor jeglicher Berechnung, wobei Eliminierungsenergien von mehr als ungefähr 15 kcal/Mol bevorzugt und mehr als ungefähr 25 kcal/Mol speziell bevorzugt sind. Auf ähnliche Weise wird die "Doppel"-Eliminierung durchgeführt, wenn ein Rotamer Wechselwirkungsenergien von mehr als ungefähr 10 kcal/Mol mit allen Rotameren an einer zweiten Resteposition aufweist, wobei Energien größer als ungefähr 15 bevorzugt und größer als ungefähr 25 kcal/Mol speziell bevorzugt sind.
In einer bevorzugten Ausführungsform umfasst die Computerverarbeitung die direkte Bestimmung der Gesamtsequenz-Energien, gefolgt von einem Vergleich der Gesamtsequenz-Energien, um globales Optimum und Rangordnung der anderen möglichen Sequenzen, wenn erwünscht, festzustellen. Die Energie einer Gesamtsequenz ist unten in Gleichung 17 gezeigt: Gleichung 17
Folglich kann jede mögliche Kombination von Rotameren durch Addition der Gerüst- Gerüst- (hierin manchmal bezeichnet als Templat-Templat-) Energie (E(b-b), die über alle Sequenzen hierin konstant ist, da das Gerüst konstant gehalten wird), der Einzel-Energie für jedes Rotamer (die bereits berechnet und gespeichert worden ist) und der Doppelenergie für jedes Rotamer-Paar (die bereits berechnet und gespeichert worden ist) direkt bewertet werden. Jede Gesamtsequenz-Energie jeder möglichen Rotamer-Sequenz kann dann gereiht werden, entweder von der besten zur schlechtesten oder von der schlechtesten zur besten. Dies ist offensichtlich rechnerisch aufwändig und wird dem Ansteigen der Länge des Proteins schwerfällig.
In einer bevorzugten Ausführungsform umfasst die Computerverarbeitung einen oder mehrere Dead-End-Elimination- (DEE-) Computerverarbeitungsschritte. das DEE-Theorem ist die Basis für ein sehr schnelles. diskretes Suchprogramm, das entworfen wurde, um Proteinseitenketten auf ein fixiertes Gerüst mit einer bekannten Sequenz zu packen. Siehe Desmet et al., Nature 356, 539-542 (1992); Desmet et al., The Protein Folding Problem and Tertiary Structure Prediction, Ch. 10, 1-49 (1994); Goldstein, Biophys. Jour. 66, 1335-1340 (1994), wovon alle hierin durch Verweis aufgenommen sind. DEE basiert auf der Beobachtung, dass die Größe der Suche herabgesetzt werden kann, wenn ein Rotamer an einer bestimmten Position außer Betracht gelassen werden kann, d. h. ermittelt wird, dass ein bestimmtes Rotamer definitiv nicht Teil der global optimalen Konformation ist. Dies wird durch Vergleichen der schlechtesten Wechselwirkung (d. h. Energie oder Etotal) eines ersten Rotamers an einer einzelnen variablen Position mit der besten Wechselwirkung eines zweiten Rotamers an derselben variablen Position durchgeführt. Wenn die schlechteste Wechselwirkung des ersten Rotamers immer noch besser als die beste Wechselwirkung des zweiten Rotamers ist, dann kann sich das zweite Rotamer unmöglich in der optimalen Konformation der Sequenz befinden. Das ursprüngliche DEE-Theorem ist in Gleichung 18 gezeigt:

Gleichung 18

E(ia) + over t{E(ia, jt)}] > E(ib) + over t{E(ib, jt)}]
In Gleichung 18 wird Rotamer ia mit Rotamer ib verglichen. Die linke Seite der Ungleichung ist die bestmögliche Wechselwirkungsenergie (Etocal) von ia mit dem Rest des Proteins; das heißt, "min over t" bedeutet ein Rotamer t an Position j zu finden, das die beste Wechselwirkung mit Rotamer ia aufweist. Auf ähnliche Weise ist die rechte Seite der Ungleichung die schlechtmöglichste (max) Wechselwirkungsenergie von Rotamer ib mit dem Rest des Proteins. Ist diese Ungleichung wahr, dann ist Rotamer Dead-Ending und kann eliminiert werden. Die Geschwindigkeit der DEE rührt von der Tatsache her, dass das Theorem nur die Summe über die Sequenzlänge erfordert, um Rotamere zu testen und zu eliminieren.
In einer bevorzugten Ausführungsform wird eine Variante der DEE durchgeführt. Goldstein-DEE, basierend auf Goldstein (1994), s.o., hierin ausdrücklich durch Verweis aufgenommen, ist eine Variante der DEE-Berechnung, wie in Gleichung 19 gezeigt ist:

Gleichung 19

E(ia) - E(ib) + Σ[min over t{E(ia, jt) - E(ib, jt}] > 0
Im Wesentlichen besagt die Goldstein-Gleichung 19, dass ein erstes Rotamer einer bestimmten Position i (Rotamer ia) nicht zu einem lokalen Energieminimum beiträgt, wenn die Energie der Konformation mit ia immer erniedrigt werden kann, indem lediglich das Rotamer an dieser Position zu ib geändert werden kann, wobei die anderen Reste gleich gehalten werden. Ist diese Ungleichung wahr, dann ist das Rotamer Dead-Ending und kann eliminiert werden.
Folglich wird in einer bevorzugten Ausführungsform einer erste DEE-Berechnung ausgeführt, wo Rotamere an einer einzelnen Position verglichen werden, ("Einzel"-DEE) um Rotamere an einer einzelnen Position zu eliminieren. Diese Analyse wird für jede variable Position wiederholt, um so viele Rotamere wie möglich zu eliminieren. Zusätzlich ändern sich jedes Mal, wenn ein Rotamer über DEE aus der Betrachtung eliminiert wird, die Minimum- und Maximum-Berechnungen der Gleichung 18 oder 18 in Abhängigkeit von der verwendeten DEE-Variante, was folglich denkbarerweise die Eliminierung weiterer Rotamere erlaubt; dass heißt, wenn die Ungleichung nicht mehr länger wahr ist, so dass sich denkbarerweise alle davon am globalen Optimum befinden könnten.
In einer bevorzugten Ausführungsform wird zusätzlich "Doppel"-DEE ausgeführt. In der Doppel-DEE werden Paare von Rotameren bewertet; das heißt, dass ein erstes Rotamer an einer ersten Position und ein zweites Rotamer an einer zweiten Position mit einem dritten Rotamer an der ersten Position und einem vierten Rotamer an der zweiten Position entweder unter Anwendung der ursprünglichen oder Goldstein-DEE verglichen werden. Paare werden dann als unerlaubt gekennzeichnet, obwohl einzelne Rotamere nicht eliminiert werden könne, sondern nur paarweise. Wiederum ändern sich wie für "Einzel"-DEE, jedes Mal wenn ein Rotamer-Paar als unerlaubt gekennzeichnet ist, die Minimum-Berechnungen von Gleichung 18 oder 19 (abhängig von der angewendeten DEE- Variante), so dass denkbarerweise weitere Rotamer-Paare gekennzeichnet werden können. Demgemäß kann die Doppel-DEE-Berechnung wiederholt werden, bis keine Rotameren-Paare mehr gekennzeichnet werden können; das heißt, wo die Energie von Rotamer-Paaren so überlappen, dass sich denkbarerweise alle davon am globalen Optimum befinden könnten.
Zusätzlich werden in einer bevorzugten Ausführungsform Rotamer-Paare anfänglich gescreent, um Rotamer-Paare vor der DEE zu eliminieren. Dies wird durch Ausführen von rechnerisch relativ wenig aufwändigen Berechnungen durchgeführt, um gewisse Paare von vornherein zu eliminieren. Dies kann auf mehrere Arten durchgeführt werden, wie unten umrissen wird.
In einer bevorzugten Ausführungsform wird das Rotamer-Paar mit der niedrigsten Wechselwirkungsenergie mit dem Rest des Systems gefunden. Die Untersuchung der Energieverteilungen in Probenmatrices hat gezeigt, dass ein iujv Paar, das ein bestimmtes irjs- Paar Dead-End-eliminiert, auch andere ij5-Paare eliminieren kann. In der Tat gibt es häufig einige iujv Paare, welche die Erfinder als "Magic-Bullets" bezeichnen, die eine signifikante Anzahl von iris Paaren eliminieren. Die Erfinder haben entdeckt, dass eine der potentesten Magic-Bullets dasjenige Paar ist, für das die Maximum-Wechselwirkungsenergie, tmax([iujv) am geringsten ist. Dieses Paar wird mit [iujv]mb bezeichnet. Wenn dieses Rotamer-Paar in der ersten Runde der Doppel-DEE verwendet wird, neigt es zur schnelleren Eliminierung von Paaren.
Unsere erste Geschwindigkeitserhöhung ist es, die Doppel-Berechnung erster Ordnung nur für die Matrix-Elemente in der dem [iujv]-entsprechenden Reihe zu bewerten. Die Entdeckung von [iujv] eine n²-Berechnung (n = die Anzahl von Rotameren je Position) und die Anwendung von Gleichung 19 auf die einzige der diesem Rotamer-Paar entsprechenden Matrix ist einer weitere n²-Berechnung, daher ist die Rechenzeit klein im Vergleich zu einer vollständigen Doppel-Berechnung erster Ordnung. In der Praxis produziert diese Berechnung eine große Anzahl von Dead-End-Paaren die häufig ausreicht, um zur nächsten Iteration der Einzel-Eliminierung ohne weiteres Durchsuchen der Doppel-Matrix fortzuschreiten.
Die Magic-Bullet-Berechnung erster Ordnung wird auch alle Dead-End-Paare ausfindig machen, die durch die Gleichung 18 oder 19 aufgedeckt würden und macht diese dadurch unnötig. Dies rührt von der Tatsache her, dass &epsi;max([iujv]mb) kleiner oder gleich als ein beliebiges &epsi;max([iujv]mb) sein muss, das ein Paar durch die Gleichung 18 oder 19 erfolgreich eliminieren würde.
Da die Minima und Maxima irgendeines gegebenen Paars wie hierin umrissen vorher berechnet worden sind, kann eine zweite die Geschwindigkeit erhöhende Vorberechnung durchgeführt werden. Durch Vergleich von Extrema können Nicht-Dead-End Paare identifiziert und folglich übersprungen werden, was die Zeit der DEE-Berechnung herabsetzt. Folglich werden Paare übersprungen, die eine der beiden folgenden Kriterien erfüllen:

Gleichung 20

&epsi;min([jirds]) < &epsi;min([iujv])

Gleichung 21

&epsi;max([irjs]) < &epsi;max([iujv])
Weil die diese Berechnungen enthaltende Matrix symmetrisch ist, wird die Hälfte ihrer Elemente die erste Ungleichung 20 erfüllen und die Hälfte der verbleibenden die andere Ungleichung 21 erfüllen. Diese drei Viertel der Matrix müssen nicht der Bewertung von Gleichung 18 oder 19 unterzogen werden, was eine theoretische Geschwindigkeitserhöhung von einem Faktor 4 ergibt.
Die letzte DEE-Geschwindigkeitserhöhung verfeinert das Durchsuchen des verbleibenden Viertels der Matrix. Dies wird durch Konstruieren einer Metrik aus den vorberechneten Extrema durchgeführt, um jene Matrixelemente zu ermitteln, die wahrscheinlich ein Dead-End-Paar liefern.
Eine Metrik wurde durch die Analyse von Matrices aus verschiedenen Probenoptimierungen erlangt. Die Erfinder suchten nach Kombinationen derjenigen Extrema, welche die Wahrscheinlichkeit vorhersagten, das ein Matrixelement ein Dead-End-Paar produzieren würde. Intervallgrößen (siehe Fig. 12) für jedes Paar wurden aus Unterschieden der Extrema berechnet. Die Größe der Überlappung der irjs und iujv-Intervallen wurde ebenfalls berechnet, sowie auch der Unterschied zwischen den Minima und der Unterschied zwischen den Maxima. Kombinationen dieser Größen, sowie die einsamen Extrema wurden auf ihre Fähigkeit hin getestet, das Auftreten von Dead-End-Paaren vorherzusagen. Weil einige dieser Extrema sehr groß waren, wurden die Größen auch logarithmisch verglichen.
Die meisten der Kombinationen waren in der Lage, Dead-End-Matrixelemente in unterschiedlichen Ausmaß vorherzusagen. Die besten Metriken waren die Teilintervallüberlappungen bezüglich jedes Paares, die hierin als qrs und quv bezeichnet werden. Gleichung 22 Gleichung 23
Diese Werte werden unter Verwendung der Minima- und Maxima-Gleichungen 24, 25, 26 und 27 berechnet (Fig. 14):

Gleichung 24

max([irjs]) = [(irjs)) + ([irjs], k)

Gleichung 25

max([irjs]) = [(irjs)) + ([irjs], k&sub1;)

Gleichung 26

max([iujv]) = [(iujv)) + ([iujv), kt)

Gleichung 27

max([iujv]) = [(iujv)) + ([iujv], k&sub1;)
Diese Metriken wurden gewählt, weil sie Verhältnisse des Auftretens von Dead-End-Matrixelementen zu Gesamtauftreten von Elementen liefern, die höher sind, als irgendeines der anderen getesteten Metriken. Beispielsweise gibt es sehr wenige Matrixelemente (&supmin;2%), für die qrs > 0,98 ist, dennoch produzieren diese Elemente 30-40% aller Dead- End-Paare.
Demgemäß wird das Doppel-Kriterium erster Ordnung nur auf jene Doppel angewendet, für die qrs > 98 und quv > 0,99 ist. Die Probendatenanalysen sagen voraus, dass durch Verwenden dieser beiden Metriken bis zur Hälfte der Dead-End-Elemente gefunden werden können, indem nur zwei bis fünf Prozent der verkleinerten Matrix bewertet werden.
Im Allgemeinen wird, wie unter ausführlicher beschrieben ist, Einzel- und Doppel-DEE unter Anwendung der ursprünglichen DEE oder Goldstein-DEE oder von beiden durchgeführt, bis keine weitere Eliminierung möglich ist. Für gewöhnlich ist die Konvergenz nicht vollständig und es muss eine weitere Eliminierung erfolgen, um Konvergenz zu erzielen. Dies wird im Allgemeinen unter Anwendung von "Super-Residue"-DEE durchgeführt.
In einer bevorzugten Ausführungsform wird eine zusätzliche DEE-Berechnung durch Erzeugung von "Super-Resten" oder "Vereinigung" durchgeführt, wie in Desmet et al., Nature 356, 539-542 (1992); Desmet et al., The Protein Folding Problem and Tertiary Structure Prediction, Ch. 10, 1-49 (1994); Goldstein et al., s.o., allgemein beschrieben ist. Ein Super-Rest ist eine Kombination von zwei oder mehreren variablen Restepositionen, die dann als eine einzelne Resteposition behandelt wird. Der Super-Rest wird dann in der Einzel-DEE und Doppel-DEE entweder mit anderen Restepositionen oder Super- Resten bewertet. Der Nachteil von Super-Resten ist, dass es viele weitere rotamere Zustände gibt, die bewertet werden müssen; das heißt, wenn eine erste variable Resteposition 5 mögliche Rotamere besitzt und eine zweite variable Resteposition 4 mögliche Rotamere besitzt, dann gibt es 20 mögliche Super-Reste-Rotamere, die bewertet werden müssen. Diese Super-Reste können jedoch ähnlich wie Einzel eliminiert werden und werden nicht wie Paare gekennzeichnet.
Die Auswahl, welche Positionen in Super-Reste kombiniert werden, kann auf vielerlei Arten durchgeführt werden. Im Allgemeinen führt die zufällige Auswahl von Positionen für Super-Reste zu ineffizienter Eliminierung, sie ist jedoch durchführbar, obgleich sie nicht bevorzugt ist. In einer bevorzugten Ausführungsform ist die erste Bewertung der Auswahl von Positionen für einen Super-Rest die Anzahl von Rotameren an der Position. Wenn die Position zu viele Rotamere aufweist, wird sie nie in einen Super-Rest vereinigt, da die Berechung zu langsam wird. Folglich werden nur Positionen mit weniger als ungefähr 100.000 Rotameren ausgewählt, wobei weniger als 50.000 bevorzugt und weniger als ungefähr 10.000 speziell bevorzugt sind.
In einer bevorzugten Ausführungsform wird die Bewertung, ob ein Super-Rest gebildet werden soll, folgendermaßen durchgeführt. Alle möglichen Rotamer-Paare werden unter Anwendung von Gleichung 28 gereiht und das Rotamer-Paar mit der höchsten Zahl für die Vereinigung ausgewählt:

Gleichung 28

Bruchteil gekennzeichneter Paare/log(Anzahl von Super-Rotameren aus der potentiellen Vereinigung)

Gleichung 28 sucht nach einem Paar von Positionen, welche den höchsten Bruchteil oder Prozentanteil gekennzeichneter Paare, jedoch die kleinste Anzahl von Super-Rotameren aufweist. Das heißt, es wird dasjenige Paar vorzugsweise ausgewählt, das den höchsten Wert für Gleichung 28 liefert. Wenn folglich ein Paar von Positionen mit der höchsten Anzahl von gekennzeichneten Paaren auch eine sehr große Anzahl von Super- Rotameren (das ist die Anzahl von Rotameren an Position i multipliziert mit der Anzahl von Rotameren an Position j) aufweist, wird dieses Paar möglicherweise gegenüber einem niedrigeren Prozentanteil gekennzeichneter Paare, jedoch weniger Super-Rotameren nicht ausgewählt (obwohl es ausgewählt werden könnte).
In einer alternativen, bevorzugten Ausführungsform werden Positionen für Super-Reste gewählt, welche die höchste mittlere Energie aufweisen; das heißt, es wird für Positionen i und j die mittlere Energie aller Rotamere für i und aller Rotamere für j berechnet und das Paar mit der höchsten mittleren Energie als Super-Rest gewählt.
Super-Reste werden vorzugsweise einer nach dem anderen produziert. Nachdem ein Super-Rest ausgewählt ist, werden die Einzel- und Doppel-DEE-Berechnungen wiederholt, wobei der Super-Rest so behandelt wird, als ob er ein gewöhnlicher Rest wäre. Wie für die Einzel- und Doppel-DEE wird die Eliminierung von Rotameren in der Super- Rest-DEE die Minimum-Energie-Berechnungen für die DEE verändern. Folglich kann die Wiederholung der Einzel- und/oder Doppel-DEE die Eliminierung weiterer Rotamere bewirken.
Fig. 3 ist eine ausführliche Darstellung der Verarbeitungsoperationen, die mit dem Bewertungsmodul 34 der Erfindung assoziiert sind. Die Berechnung und Speicherung der Einzel- und Doppel-Energien 70 ist der erste Schritt, obwohl diese jederzeit neu berechnet werden können. Schritt 72 ist die optionale Anwendung eines Cutoff, wo Einzel- oder Doppel-Energien, die zu hoch sind, vor der weiteren Verarbeitung eliminiert werden. Die ursprüngliche Einzel-DEE 74 oder Goldstein-Einzel-DEE 76 oder beide können ausgeführt werden, wobei die Eliminierung der ursprünglichen Einzel-DEE 74 im Allgemeinen bevorzugt ist. Sobald die Einzel-DEE ausgeführt ist, wird die ursprüngliche Doppel- (78) und/oder Goldstein-Doppel- (80) DEE ausgeführt. Super-Rest-DEE wird anschließend im Allgemeinen ausgeführt, entweder die ursprüngliche (82) oder die Goldstein- (84) Super-Rest-DEE. Dies ergibt vorzugsweise die Konvergenz bei einer global optimalen Sequenz. Wie in Fig. 3 dargestellt kann nach jedem Schritt jeder beliebige oder alle vorhergehenden Schritte in beliebiger Reihenfolge wiederholt werden.
Das Hinzufügen der Super-Rest-DEE zur rechnerischen Verarbeitung mit Wiederholung der vorhergehenden DEE-Schritte ergibt im Allgemeinen die Konvergenz am globalen Optimum. Die Konvergenz zum globalen Optimum ist sichergestellt, wenn keine Cutoff-Anwendungen durchgeführt werden, obwohl im Allgemeinen sogar mit diesen Schritten ein globales Optimum erzielt wird. In einer bevorzugten Ausführungsform wird die DEE ausgeführt bis die global optimale Sequenz gefunden ist. Das heißt, der Satz optimierter Proteinsequenzen enthält ein einziges Glied, das globale Optimum.
In einer bevorzugten Ausführungsform werden die verschiedenen DEE-Schritte ausgeführt, bis handhabbare Anzahl von Sequenzen gefunden ist, d. h. keine weitere Verarbeitung erforderlich ist. Diese Sequenzen stellen einen Satz optimierter Proteinsequenzen dar und können bewertet werden, wie unten ausführlicher beschrieben ist. Im Allgemeinen hängt für rechnerische Zwecke eine handhabbare Anzahl von Sequenzen von der Länge der Sequenz ab, liegt jedoch im Allgemeinen im Bereich von ungefähr 1 bis ungefähr 10¹&sup5; möglichen Rotamer-Sequenzen.
Alternativ dazu wird die DEE bis zu einem Punkt ausgeführt, der einen Satz optimierter Sequenzen liefert (in diesem Zusammenhang einen Satz verbleibender Sequenzen) und anschließend kann eine weitere rechnerische Verarbeitung eines unterschiedlichen Typs ausgeführt werden. Beispielsweise wird in einer Ausführungsform die direkte Berechnung der Sequenzenergie, wie oben umrissen an den verbleibenden möglichen Sequenzen ausgeführt. Alternativ dazu kann eine Monte-Carlo-Suche ausgeführt werden.
In einer bevorzugten Ausführungsform muss die rechnerische Verarbeitung keinen DEE- Rechenschritt umfassen. In dieser Ausführungsform wird eine fachbekannt Monte-Carlo- Suche ausgeführt. Siehe Metropolis et al., J. Chem. Phys. 21, 1087 (1953), hiermit durch Verweis aufgenommen. In dieser Ausführungsform wird eine Zufalls-Rotamere enthaltende Zufalls-Sequenz als Ausgangspunkt gewählt. In einer der Ausführungsformen werden die variablen Restepositionen als Kern-, Rand- oder Oberflächenreste klassifiziert und der Satz verfügbarer Reste an jeder Position ist folglich definiert. Dann wird eine Zufalls-Sequenz erzeugt und ein Zufalls-Rotamer für jede Aminosäure gewählt. Diese dient aus Ausgangssequenz für die Monte-Carlo-Suche. Eine Monte-Carlo-Suche führt dann einen Zufallssprung an einer Position aus, entweder auf ein anderes Rotamer derselben Aminosäure oder ein Rotamer einer anderen Aminosäure, und es wird dann eine neue Sequenzenergie (Etotal sequence) berechnet, und wenn die neue Sequenzenergie die Boltzmann-Akzeptanzkriterien erfüllt, wird sie als Anfangspunkt für einen weiteren Sprung verwendet. Wenn der Boltzmann-Test fehlschlägt, wird ein weiterer Zufallssprung aus der vorhergehenden Sequenz versucht. Auf diese Weise werden Sequenzen mit immer niedrigeren Energien gefunden, um einen Satz von Niedrigenergie-Sequenzen zu erzeugen.
Wenn die rechnerische Verarbeitung eine einzige, global optimale Sequenz liefert, wird häufig bevorzugt, zusätzliche Sequenzen in energetischer Nachbarschaft der globalen Lösung zu erzeugen, die gereiht werden können. Die Erzeugung von zusätzlichen optimierten Sequenzen ist im Allgemeinen bevorzugt, um die Unterschiede zwischen den theoretischen und tatsächlichen Energien einer Sequenz zu bewerten. Im Allgemeinen ist der Satz von Sequenzen in einer bevorzugten Ausführungsform zumindest zu ungefähr 75% zueinander homolog, wobei zumindest ungefähr 80% Homologie bevorzugt, zumindest ungefähr 85% besonders bevorzugt und zumindest ungefähr 90% speziell bevorzugt ist. In einigen Fällen ist eine Homologie in der Höhe von bis zu 95% bis 98% wünschenswert. Homologie bedeutet in diesem Zusammenhang Sequenzähnlichkeit oder Identität, wobei Identität bevorzugt ist. Identisch bedeutet in diesem Zusammenhang identische Aminosäuren an entsprechenden Positionen in den beiden Sequenzen, die verglichen werden. Homologie umfasst in diesem Zusammenhang Aminosäuren, die identisch sind und jene die ähnlich sind (funktionell äquivalent). Diese Homologie wird unter Anwendung von standardmäßigen, fachbekannten Verfahren ermittelt, wie z. B. dem Best-Fit-Programm, beschrieben von Devereux et al., Nucl. Acid Res. 12, 387-395 (1984), oder dem BLASTX-Programm (Altschul et al., J. Mol. Biol. 215, 403-410 (1990)), wobei vorzugsweise für beide die Grundeinstellungen verwendet werden. Die Angleichung kann die Einführung von Lücken in die anzugleichenden Sequenzen umfassen.
Zusätzlich versteht sich für Sequenzen, die entweder mehr oder weniger Aminosäuren als die optimale Sequenz enthalten, das die prozentuelle Homologie auf Basis der Anzahl homologer Aminosäuren in Bezug auf die Gesamtzahl von Aminosäuren ermittelt wird. Folglich wird beispielsweise die Homologie von Sequenzen, die kürzer als ein Optimum sind, unter Verwendung der Anzahl von Aminosäuren in der kürzeren Sequenz bestimmt.
Sobald optimierte Proteinsequenzen identifiziert sind, schreitet die Verarbeitung von Fig. 2 optional zu Schritt 56 weiter, der die Durchsuchung der Proteinsequenzen zur Folge hat. Diese Verarbeitung kann mit dem Suchmodul 36 implementiert werden. Das Suchmodul 36 ist ein Computercode-Satz, der eine Suchstrategie ausführt. Beispielsweise kann das Suchmodul 36 so geschrieben werden, dass es eine Monte-Carlo-Suche wie oben beschrieben ausführt. Beginnend mit der globalen Lösung werden Zufallspositionen auf andere Rotamere, sowohl Rotamere derselben Aminosäure, als auch Rotamere verschiedener Aminosäuren abgeändert, die an der jeweiligen Position erlaubt sind. Eine neue Sequenzenergie (Etotal sequence) wird berechnet und wenn die neue Sequenz die Boltzmann-Akzeptanzkriterien erfüllt, wird sie als Ausgangspunkt für einen weiteren Sprung verwendet. Siehe Metropolis et al. (1953), s.o., hiermit durch Verweis aufgenommen. Wenn der Boltzmann-Test fehlschlägt, wird ein weiterer Zufallssprung aus der vorhergehenden Sequenz versucht. Eine Liste der Sequenzen und derer Energien wird während der Suche aufrechterhalten. Nach einer vorbestimmten Anzahl von Sprüngen können die am besten bewerteten Sequenzen als Rangordnungsliste ausgegeben werden. Vorzugsweise werden zumindest ungefähr 10&sup6; Sprünge ausgeführt, wobei zumindest ungefähr 10&sup7; Sprünge bevorzugt und zumindest ungefähr 10&sup8; Sprünge speziell bevorzugt sind. Vorzugsweise werden zumindest ungefähr 100 bis 1000 Sequenzen gespeichert, wobei zumindest ungefähr 10.000 Sequenzen bevorzugt und zumindest ungefähr 100.000 bis 1.000.000 Sequenzen speziell bevorzugt sind. Während der Suche wird die Temperatur vorzugsweise auf 1000 K eingestellt.
Sobald die Monte-Carlo-Suche vorüber ist, werden alle gespeicherten Sequenzen durch Ändern der Temperatur auf 0 K und Fixieren der Aminosäureidentität an jeder Position gelöscht. Vorzugsweise wird dann jeder mögliche Rotamer-Sprung für diese spezielle Aminosäure an jeder Position erprobt.
Die Computerverarbeitung liefert einen Satz optimierter Proteinsequenzen. Diese optimierten Proteinsequenzen sind im Allgemeinen, jedoch nicht immer signifikant verschieden von der Wildform-Sequenz, aus der das Gerüst übernommen wurde. Das heißt, jede optimierte Proteinsequenz umfasst vorzugsweise zumindest ungefähr 5-10% von der Anfangs- oder Wildform-Sequenz abweichende Aminosäuren, wobei zumindest ungefähr 15-20% Änderungen bevorzugt und zumindest ungefähr 30% Änderungen insbesondere bevorzugt sind.
Diese Sequenzen können auf zahlreiche Arten verwendet werden. In einer bevorzugten Ausführungsform werden kann/können eine, mehrere oder alle optimierte(n) Proteinsequenz(en) zu konstruierten Proteinen konstruiert werden, wie mit Schritt 58 der Fig. 2 gezeigt ist. Danach können die Proteinsequenzen getestet werden, wie mit Schritt 60 der Fig. 2 gezeigt ist. Im Allgemeinen kann dies auf eine von zwei Arten durchgeführt werden.
In einer bevorzugten Ausführungsform werden die konstruierten Proteine auf fachbekannte Weise chemisch synthetisiert. Dies ist besonders zweckdienlich, wenn die konstruierten Proteine kurz, vorzugsweise weniger als 150 Aminosäuren lang sind, wobei weniger als 100 Aminosäuren bevorzugt und weniger als 50 Aminosäuren insbesondere bevorzugt sind, obwohl, wie im Fach bekannt ist, längere Proteine chemisch oder enzymatisch hergestellt werden können.
In einer bevorzugten Ausführungsform speziell für längere Proteine oder Proteine, für die große Probenmengen erwünscht sind, wird die optimierte Sequenz verwendet, um eine Nucleinsäure, wie z. B. DNA zu erzeugen, die für die optimierte Sequenz kodiert und die dann in eine Wirtszelle kloniert und exprimiert werden kann. Folglich können Nucleinsäuren und insbesondere DNA hergestellt werden, die für jede der optimierten Proteinsequenzen kodiert. Dies wird unter Anwendung gut fachbekannter Verfahren durchgeführt. Die Wahl von Codons, geeigneten Expressionsvektoren und geeigneten Wirtszellen variiert abhängig von einer Reihe von Faktoren, die wie benötigt leicht optimiert werden können.
Sobald hergestellt, werden die konstruierten Proteine experimentell bewertet und auf ihre Struktur, Funktion und Stabilität hin wie erforderlich getestet. Dies wird auf fachbekannte Weise durchgeführt und hängt teilweise vom ursprünglichen Protein ab, aus dem die Gerüststruktur übernommen wurde. Vorzugsweise sind die konstruierten Proteine stabiler als das bekannte Protein, das als Ausgangspunkt verwendet wurde, obgleich das konstruierte Protein in manchen Fällen, wenn an den Verfahren manche Einschränkungen vorgenommen werden, weniger stabil sein kann. Folglich ist es beispielsweise möglich, bestimmte Reste für veränderte biologische Aktivität zu fixieren und die stabilste Sequenz zu finden, jedoch kann sie immer noch weniger stabil sein, als das Wildform- Protein. Stabil bedeutet in diesem Zusammenhang, dass das neue Protein entweder die biologische Aktivität oder die Konformation über den Punkt hinaus beibehält, beidem das Ursprungsprotein diese beibehielt. Stabilität umfasst, ist jedoch nicht eingeschränkt auf Thermostabilität, d. h. eine Erhöhung der Temperatur, bei der reversible oder irreversible Denaturierung aufzutreten beginnt; proteolytische Stabilität, d. h. eine Abnahme der Proteinmenge, die in Gegenwart einer bestimmten Protease (einschließlich Autolyse) irreversibel gespalten wird; Stabilität gegen pH-Änderungen oder oxidative Bedingungen; Chelator-Stabilität; Stabilität gegen Metallionen; Stabilität gegen Lösungsmittel, wie z. B. organische Lösungsmittel, Tenside, Chemikalien von Formulierungen; usw.
In einer bevorzugten Ausführungsform sind die modellierten Proteine um zumindest 5% stabiler als das ursprüngliche Protein, wobei zumindest 10% bevorzugt und zumindest 20-50% speziell bevorzugt sind.
Die Ergebnisse der Testvorgänge können rechnerisch bewertet werden, wie in Schritt 62 der Fig. 2 gezeigt ist. Ein Bewertungsmodul 38 kann bei diesem Vorgang verwendet werden. Das heißt, es kann ein Computercode erstellt werden, um die Testdaten in Bezug auf jede Anzahl von Metriken zu analysieren.
Zu diesem Verarbeitungszeitpunkt, falls das Protein ausgewählt ist (die Ja-Verzweigung am Block 64), wird das Protein wir unten diskutiert verwendet. Wenn ein Protein nicht ausgewählt ist, kann die akkumulierte Information verwendet werden, um das Reihungsmodul 34 zu ändern und/oder es werden Schritt 34 und/oder Schritt 56 wiederholt und weitere Sequenzen gesucht.
In einer bevorzugten Ausführungsform werden die experimentellen Ergebnisse für Konstruktions-Feedback und Konstruktionsoptimierung verwendet.
Wenn einmal hergestellt, finden die Proteine der Erfindung, wie den Fachkundigen offensichtlich ist, in einer breiten Vielfalt von Anwendungen Verwendung, die in Abhängigkeit vom Protein von industriellen bis zu pharmazeutischen Anwendungen reichen. Folglich können beispielsweise Proteine und Enzyme mit erhöhter Thermostabilität in industriellen Prozessen verwendet werden, die häufig bei erhöhten Temperaturen ablaufen, beispielsweise Kohlenhydratverarbeitung (einschließlich Verzuckerung und Stärkeverflüssigung, um Maissirup mit hohem Fruktosegehalt oder andere Süßstoffe herzustellen), Proteinverarbeitung (beispielsweise die Verwendung von Proteasen in Waschmitteln, in der Lebensmittelverarbeitung, Futtermittelverarbeitung, beim Backen usw.) usw. Auf ähnliche Weise erlauben die Verfahren der vorliegenden Erfindung die Erzeugung nützlicher pharmazeutischer Proteine, wie z. B. Analoga bekannter proteinischer Medikamente, die thermostabiler, proteolytisch weniger empfindlich sind oder andere wünschenswerte Veränderungen enthalten.
Die folgenden Beispiele dienen der ausführlicheren Beschreibung der Art der Verwendung der oben beschriebenen Erfindung, sowie der Darstellung der besten vorgesehenen Durchführungsweisen verschiedener Aspekte der Erfindung. Es versteht sich, dass diese Beispiele den wahren Schutzumfang dieser Erfindung in keiner Weise einschränken, sondern nur zu veranschaulichenden Zwecken dargestellt sind. Aller hierin zitierten Literaturstellen sind ausdrücklich durch Verweis aufgenommen.

Beispiele

Beispiel 1

Proteinkonstruktion unter Anwendung von Van-der-Waals- und Atomsolvatisierungs-Bewertungsfunktionen mit DEE

Eine zyklische Konstruktionsstrategie wurde entwickelt, die Theorie, Berechnung und experimentelles Testen verbindet, um die Probleme Spezifität und Lernen anzusprechen (Fig. 4). Der Proteinkonstruktions-Automatisierungs- (PDA-) Zyklus umfasst vier Komponenten: ein Konstruktionsparadigma, ein Simulationsmodul, experimentelles Testen und Datenanalyse. Das Konstruktionsparadigma basiert auf dem Konzept der inversen Faltung (Pabo, Nature 301, 200 (1983); Bowie et al., Science 253, 164-170 (1991)) und besteht aus der Verwendung eines fixierten Gerüsts, an das eine Sequenz von Seitenketten-Rotameren platziert werden kann, wo Rotamere die erlaubten Konformationen von Aminosäureseitenketten sind (Ponder et al. (1987), s.o.). Spezifische tertiäre Wechselwirkungen, die auf dem dreidimensionalen Nebeneinanderliegen von Atomen basieren, werden verwendet, um diejenige Sequenz zu bestimmen, welche die Zielfaltung potentiell am besten einnehmen wird. Wenn eine Gerüstgeometrie und die für jede Resteposition erlaubten, möglichen Rotamere als Eingabe vorgegeben ist, muss die Simulation als Ausgabe eine gereihte Liste von Lösungen erzeugen, und zwar auf Basis einer Kostenfunktion, welche die Atompositionen in den verschiedenen Rotameren ausdrücklich berücksichtigt. Das prinzipielle Hindernis ist, dass ein n Reste und m mögliche Rotamere je Rest (alle-Rotamere aller erlaubten Aminosäuren) umfassendes Gerüst mn mögliche Anordnungen des Systems liefert, einer immensen Anzahl auch für kleine Konstruktionsprobleme. Beispielsweise liefert die Berücksichtigung von 50 Rotameren an 15 Positionen über 10²&sup5; Sequenzen, die bei einer Bewertungsgeschwindigkeit von 10&sup9; Sequenzen pro Sekunde (weit über die gegenwärtigen Leistungsfähigkeit hinausgehend) 10&sup9; Jahre für die erschöpfende Suche des globalen Minimums benötigen würden. Die Synthese und Charakterisierung einer Untergruppe von Aminosäuresequenzen, die durch das Simulationsmodul dargestellt werden, erzeugt experimentelle Daten für das Analysemodul. Der Analyseabschnitt entdeckt Korrelationen zwischen berechenbaren Eigenschaften der simulierten Strukturen und den experimentell beobachtbaren. Das Ziel der Analyse ist das Vorschlagen quantitativer Modifizierungen der Simulation und in einigen Fällen des führenden Konstruktionsparadigmas. In anderen Worten beschreibt die im Simulationsmodul verwendete Kostenfunktion eine theoretische, potentielle Energieoberfläche, deren Horizontalachse allen möglichen Lösungen des vorliegenden Problems umfasst. Diese potentielle Energieoberfläche stimmt nicht mit Sicherheit mit der tatsächlichen potentiellen Energieoberfläche überein, die aus den experimentellen Daten ermittelt wird. In diesem Licht wird die Korrektur der Simulations-Kostenfunktion zum Ziel der Analyse, um eine bessere Übereinstimmung zwischen den theoretischen und tatsächlichen potentiellen Energieoberflächen hervorzubringen. Wenn solche Korrelationen gefunden werden können, dann werden die Ausgaben anschließender Simulationen Aminosäuresequenzen sein, welche die Zieleigenschaften besser erfüllen. Der Konstruktionszyklus ist allgemein auf jegliches Proteinsystem anwendbar und erlaubt durch Beseitigung der menschlichen, subjektiven Komponente einen weitgehend unbefangenen Zugang zur Proteinkonstruktion, d. h. Proteinkonstruktions-Automatisierung.
Der PDA-Seitenkettenauswahl-Algorithmus erfordert als Eingabe eine Gerüststruktur, welche die erwünschte Faltung definiert. Die Aufgabenstellung der Konstruktion einer Sequenz, die diese Faltung einnimmt, kann als Auffinden einer optimalen Anordnung von Aminosäureseitenketten in Bezug auf das gegebene Gerüst angesehen werden. Es reicht nicht aus, nur die Identität einer Aminosäure zu betrachten, wenn Sequenzen bewertet werden. Um die geometrische Spezifität der Seitenkettenplatzierung korrekt zu berücksichtigen, müssen auch alle möglichen Konformationen jeder Seitenkette untersucht werden. Statistische Erhebungen der Proteinstrukturdatenbank (Ponder et al., s.o.) haben einen diskreten Satz erlaubter Konformationen, die Rotamere genannt werden, für jede Aminosäureseitenkette definiert. Die Erfinder verwendet eine Bibliothek, die auf der Ponder and Richards-Bibliothek beruht, um erlaubte Konformationen für die Seitenketten in der PDA zu definieren.
Unter Anwendung einer Rotamer-Darstellung von Seitenketten kann eine optimale Sequenz für ein Gerüst gefunden werden, idem alle möglichen Sequenzen von Rotameren gescreent werden, wo jede Gerüstposition durch jede Aminosäure in allen ihren rotameren Zuständen eingenommen werden kann. Die diskrete Natur von Rotamer-Sätzen erlaubt eine einfache Berechnung der Anzahl von zu testenden Rotamer-Sequenzen. Ein Gerüst der Längen mit m möglichen Rotameren je Position wird mn mögliche Rotamer- Sequenzen aufweisen. Die Größe des Suchraums wächst exponentiell mit der Sequenzlänge an und macht für eine vollständige Suche für typische Werte von n und m schwierig zu bewältigen. Diese kombinatorische "Explosion" ist das grundlegende, zu überwindende Hindernis in der Simulationsphase der PDA.
Simulationsalgorithmus: Eine Erweiterung des Dead-End-Eliminierungs- (DEE-) Theorems wurde entwickelt (Desmet et al. (1992), s.o.; Desmet et al. (1994), s.o.; Goldstein (1994), s.o.), um das kombinatorische Suchproblem zu lösen. Das DEE-Theorem ist die Basis für einen sehr schnellen, diskreten Suchalgorithmus, der entworfen wurde, um Proteinseitenketten an ein fixiertes Gerüst mit einer bekannten Sequenz zu packen. Seitenketten werden durch Rotamere beschrieben und es wird ein Atomkräftefeld verwendet, um Rotamer-Anordnungen zu bewerten. Das DEE-Theorem gewährleistet, dass die global optimale Packung gefunden wird, wenn der Algorithmus konvergiert. Das DEE- Verfahren kann leicht auf das Konstruktionsparadigma inverser Faltung der Erfinder erweitert werden, indem die Einschränkung freigegeben wird, dass eine Position auf Rotamere einer einzigen Aminosäure beschränkt ist. Diese Erweiterung der DEE erhöht in hohem Maße die Anzahl von Rotameren an jeder Position und erfordert eine signifikant modifizierte Implementierung, um Konvergenz sicherzustellen, wie hierin ausführlicher beschrieben ist. Die Gewährleistung, dass nur das globale Optimum gefunden wird ist nach wie vor gültig und bedeutet in der Erweiterung der Erfinder, dass die global optimale Sequenz in ihrer optimalen Konformation gefunden wird.
Die DEE wurde mit einem neuen Zusatz zu den von Goldstein vorgeschlagenen Verbesserungen (Goldstein (1994), s.o.) implementiert. Wie erwähnt worden ist, verfehlt die erschöpfende Anwendung der R = 1-Rotamer-Eliminierung und R = 0-Rotamer-Kennzeichnungsgleichungen und eingeschränkte Anwendung der R = 1-Rotamer-Paar-Kennzeichungsgleichung regelmäßig das Auffinden der globalen Lösung. Diese Problem kann durch Vereinigen von Resten zu "Super-Resten" überwunden werden (Desmet et al. (1992), s.o.; Desmet et al. (1994), s.o.; Goldstein (1994), s.o.). Jedoch kann die Vereinigung einen nicht handhabbaren Anstieg der Anzahl von Super-Rotameren je Super- Reste-Position verursachen und kann zu einer unlenksamen Leistungsverlangsamung führen, da die Rechenzeit für die Anwendung der R = 1-Rotamer-Paar-Kennzeichnungsgleichung mit der vierten Potenz der Anzahl von Rotameren ansteigt. Diese Probleme sind von besonderer Bedeutung für Proteinkonstruktionsanwendungen angesichts der großen Anzahl von Rotameren je Resteposition. Um die Speichergröße einzuschränken und die Leistungsfähigkeit zu steigern, entwickelten die Erfinder ein heuristisches Verfahren, das steuert, welche Reste (oder Super-Reste) vereinigt werden und die Anzahl von Rotamer-(oder Super-Rotamer-) Paaren steuert, die in die R = 1-Rotamer-Paar-Kennzeichnungsgleichung einfließen. Ein PDA_DEE genanntes Programm wurde geschrieben, das eine Liste von Rotamer-Energien aus PDA_SETUP entnimmt und die Sequenz des globalen Minimums in ihrer optimalen Konformation mit ihrer Energie ausgibt.
Bewertungsfunktionen: Die verwendete Rotamer-Bibliothek war ähnlich jener, die von Desmet und Mitarbeitern (Desmet et al. (1992), s.o.) verwendet wurde. X&sub1;- und X&sub2;-Winkelwerte der Rotamere aus der Ponder and Richards-Bibliothek (s.o.) wurden für alle Aminosäuren außer Met, Arg und Lys plus oder minus einer Standardabweichung um den Mittelwert erweitert, um mögliche Fehler zu minimieren, die sich aus der Diskretheit der Bibliothek erheben könnten. c&sub4;- und c&sub5;-Winkeln, die aus der Datenbankstatistik unbestimmt waren, wurden die Werte 0º und 180º für Gln und 60º, -60º und 180º für Met, Lys und Arg zugewiesen. Die Anzahl von Rotameren je Aminosäure beträgt: Gly, 1; Ala, 1; Val, 9; Ser, 9; Cys, 9; Thr, 9; Leu, 36; Ile, 45; Phe, 36; Tyr, 36; Trp, 54; His, 54; Asp, 27; Asn, 54; Glu, 69; Gln, 90; Met, 21; Lys, 57; Arg, 55. Die zyklische Aminosäure Pro war in der Bibliothek nicht enthalten. Weiters enthielten alle Rotamere in der Bibliothek explizit Wasserstoffatome. Rotamere wurden mit Bindungslängen und Winkeln aus dem Dreiding-Kräftefeld aufgebaut (Mayo et al., J. Phys. Chem. 94, 8897 (1990)).
Die anfängliche Bewertungsfunktion für die in der Suche verwendeten Sequenzanordnungen war ein atomares Van-der-Waals-Potential. Das Van-der-Waals-Potential widerspiegelt ausgeschlossenes Volumen und sterische Packungs-Wechselwirkungen, die wichtige Bestimmungsgrößen der speziellen dreidimensionalen Anordnung von Proteinseitenketten sind. Ein Lennard-Jones-12-6-Potential mit Radien und Well-Depth-Parametern aus dem Dreiding-Kräftefeld wurde für Van-der-Waals-Wechselwirkungen verwendet. Nicht-gebundene Wechselwirkungen für Atome, die durch eine oder zwei Bindungen verbunden sind, wurden nicht berücksichtigt. Van-der-Waals-Radien für Atome, die durch drei Bindungen verbunden sind, wurden auf 0,5 gesetzt. Rotamer/Rotamer-Paar- Energien und Rotamer/Templat-Energien wurden auf eine Weise berechnet, die mit dem publizierten DEE-Algorithmus im Einklang stehen (Desmet et al. (1992), s.o.). Das Templat bestand aus dem Proteingerüst und nicht zu optimierenden Seitenketten von Restepositionen. Es wurden keine Intra-Seitenkettenpotentiale berechnet. Dieses Schema bewertete die Packungsgeometrie und eliminierte systematische Fehler aus internen Rotamer-Energien. Vor der DEE wurden alle Rotamere mit Templat-Wechselwirkungsenergien größer als 25 kcal/Mol eliminiert. Ebenso wurde jedes Rotamer eliminiert, dessen Wechselwirkung mit allen anderen Rotameren an einer anderen Resteposition größer als 25 kcal/Mol war. Ein PDA_SETUP genanntes Programm wurde geschrieben, das als Eingabe Gerüst-Koordinaten annimmt. einschließlich Seitenketten für nicht optimierte Positionen, einer Rotamer-Bibliothek, einer Liste von zu optimierenden Positionen und eine Liste von an jeder Position zu berücksichtigenden Aminosäuren. PDA_SETUP gibt eine Liste von Rotamer/Templat- und Rotamer/Rotamer-Energien aus.
Das paarweise Solvatisierungspotential wurde in zwei Komponenten implementiert, um mit der DEE-Methodik im Einklang zu stehen: Rotamer/Templat- und Rotamer/Rotamer- Verbergung. Für die Rotamer/Templat verborgene Fläche wurde der Referenz-Zustand definiert als das fragliche Rotamer am Rest i nur mit den Gerüstatomen der Reste i - 1, i und i + 1. Die Fläche der Seitenkette wurde mit den Lösungsmittel ausschließenden Atomen berechnet, jedoch nicht in die Fläche eingerechnet. Der gefaltete Zustand wurde als die Fläche des fraglichen Rotamers am Rest i definiert, nun jedoch im Zusammenhang mit der gesamten Templatstruktur, einschließlich nicht optimierter Seitenketten. Die Rotamer/Templat verborgene Fläche ist die Differenz zwischen der Referenz und den gefalteten Zuständen. Die Rotamer/Rotamer-Referenzfläche ist einfach die Summe der Flächen der isolierten Rotamere. Der gefaltete Zustand ist die Fläche der beiden in ihre jeweiligen Positionen im Proteingerüst gesetzten Rotamere, jedoch ohne vorhandene Templat-Atome. Die Richards-Definition der lösungsmittelzugänglichen Oberfläche (Lee und Richards (1971), s.o.) wurde mit einem Sondenradius von 1,4 Å und Dreising- Van-der-Waals-Radien angewendet. Hohlenstoff und Schwefel und alle daran gebundenen Wasserstoffe wurden als apolar betrachtet. Stickstoff und Sauerstoff und alle daran gebundenen Wasserstoffe wurden als polar betrachtet. Oberflächen wurden mit dem Connolly-Algorithmus unter Anwendung einer Punktdichte von 10 Å&supmin;² berechnet. In neueren Implementierungen von PDA_SETUP ist der MSEED-Algorithmus von Scheraga in Verbindung mit dem Connolly-Algorithmus verwendet worden, um die Berechnung zu beschleunigen (Perrot et al., J. Comput. Chem. 13, 1-11 (1992)).
Monte-Carlo-Suche: Im Anschluss an die DEE-Optimierung wurde eine gereihte Liste von Sequenzen durch eine Monte-Carlo-Suche nahe der DEE-Lösung erzeugt. Diese Sequenzliste war wegen möglicher Unterschiede zwischen der theoretischen und tatsächlichen Potentialoberflächen notwendig. Die Monte-Carlo-Suche beginnt mit der durch DEE gefundenen, global minimalen Sequenz. Ein Rest wurde zufällig ausgewählt und zu einem Zufalls-Rotamer geändert, das aus jenen gewählt wurde, die an dieser Stelle erlaubt sind. Eine neue Sequenzenergie wurde berechnet und die neue Sequenz wurde, wenn sie die Boltzmann-Akzeptanzkriterien erfüllte, als Anfangspunkt für einen weiteren Sprung verwendet. Wenn der Boltzmann-Test fehlschlug, dann wurde ein weiterer Zufallssprung aus der vorhergehenden Sequenz versucht. Eine Liste der besten gefundenen Sequenzen und ihrer Energien wurde über die gesamte Suche beibehalten. Typischerweise wurden 10&sup6; Sprünge ausgeführt, 100 Sequenzen gespeichert und die Terriperatur auf 1000 K eingestellt. Nachdem die Suche beendet war, wurden alle gespeicherten Sequenzen gequencht, indem die Temperatur auf 0 K geändert, die Aminosäureidentität fixiert und jeder möglichen Rotamer-Sprung an jeder Position ausprobiert wurde. Die Suche wurde in ein Programm implementiert, das PDA_MONTE genannt wurde, dessen Eingabe eine global optimale Lösung aus PDA_DEE und eine Liste von Rotamer-Energien aus PDA_SETUP war. Die Ausgabe war eine Liste der besten Sequenzen, die durch ihre Bewertung gereiht waren. PDA_SETUP, PDA_DEE und PDA_MONTE wurden in die CERIUS2-Software-Entwicklungsumgebung (Biosym/Molecular Simulations, San Diego, CA) implementiert.
Modellsystem und experimentelles Testen: Die homodimer spiralisierte Spirale von α- Helices wurden als anfängliches Konstruktions-Target ausgewählt. Spiralisierte Spiralen können leicht durch Festphasentechniken synthetisiert werden und ihre helikale Sekundärstruktur und ihr dimerer, tertiärer Aufbau erleichtern die Charakterisierung. Ihre Sequenzen zeigen eine HP-Muster von sieben Resten, das Heptad-Wiederholung genannt wird (a.b.c.d.e.f) (Cohen und Parry, Proteins Struc. Fung. Genet. 7, 1-15 (1990)). Die a- und d-Positionen sind für gewöhnlich hydrophob und an der Dimer-Grenzfläche verborgen, während die anderen Positionen für gewöhnlich polar und lösungsmittelexponiert sind (Fig. 5). Das für die Eingabe ins Simulationsmodul benötigte Gerüst wurde der Kristallstruktur von GCN4-p1 entnommen (O'Shea et al., Science 254, 539 (1991)). Die 16 hydrophoben a- und d-Positionen wurden im kristallographisch ermittelten, fixierten Feld des restlichen Proteins optimiert. Homodimer-Sequenzsymmetrie wurde erzwungen, es wurden nur Rotamere aus hydrophoben Aminosäuren (A, V, L, I, M, F, Y und W) berücksichtigt und das Asparagin an einer a-Position, Asn 16 wurde nicht optimiert.
Homodimere, spiralisierte Spiralen wurden an Gerüstkoordinaten von GCN4-p1, PDB- Ascension-Code 2ZTA modelliert (Bernstein et al., Mol. Biol. 112, 535 (1977); O'Shea et al., s.o.). Atome aller nicht optimierten Seitenketten wurden an ihren kristallographisch ermittelten Positionen belassen. Das Programm BIOGRAF (Biosym/Molecular Simulations, San Diego, CA) wurde verwendet, um explizite Wasserstoffe an der Struktur zu erzeugen, die dann für 50 Schritte unter Anwendung des Dreiding-Kräftefelds Konjugat-Gradienten-minimiert wurde. Das HP-Muster wurde erzwungen, indem nur hydrophobe Aminosäuren in die Rotamer-Gruppen für die optimierten a- und d-Positionen erlaubt wurden. Die hydrophobe Gruppe bestand aus Ala, Val, Leu, Ile, Met, Phe, Tyr und Trp für insgesamt 238 Rotamere je Position. Homodimer-Symmetrie wurde durch Strafaufschläge von Rotämer-Paaren, welche die Sequenzsymmetrie verletzen, mit 100 kcal/Mol erzwungen. Verschiedene Rotamere derselben Aminosäure wurden an symmetriebezogenen Stellen erlaubt. Das die a-Position am Rest 16 belegende Asparagin wurde im Templat belassen und nicht optimiert. Eine bei einer Temperatur von 1000 K ablaufende Monte-Carlo-Suche mit 10&sup6; Schritten erzeugte eine Liste von nach ihrer Bewertung gereihten Kandidat-Sequenzen. Um die Reproduzierbarkeit zu testen, wurde die Suche dreimal mit verschiedenen Zufallszahlen wiederholt und alle Läufe lieferten im Wesentlichen identische Ergebnisse. Die Monte-Carlo-Suche dauerte ungefähr 90 Minuten. Alle Berechnungen in dieser Arbeit wurden an einem R4400 200 MHz-Prozessor von Silicon Graphics durchgeführt.
Die Optimierung der 16 a- und d-Positionen, jede mit 238 möglichen hydrophoben Rotameren liefert 238¹&sup6; oder 10³&sup8; Rotamer-Sequenzen. Der DEE-Algorithmus findet das globale Optimum in drei Minuten einschließlich der Rotamer-Energie-Berechnungszeit. Die DEE-Lösung stimmt mit der natürlich auftretenden GCN4-p1-Sequenz von a- und d- Resten für alle 16 Positionen überein. Eine bei 1000 K ablaufende Monte-Carlo-Suche erzeugte eine Liste von Sequenzen, die nach ihre Bewertung gereiht waren. Um die Reproduzierbarkeit zu testen, wurde die Suche dreimal mit verschiedenen Zufallszahlen wiederholt und alle Läufe lieferten im Wesentlichen identische Ergebnisse. Die zweitbeste Sequenz ist eine Mutation von Val 30 zu Ala und liegt drei kcal/Mol über der Grundzustand-Sequenz. Innerhalb der 15 besten Sequenzen werden bis zu sechs Mutationen von der Grundzustand-Sequenz toleriert, was anzeigt, dass eine Vielzahl von Packungsanordnungen sogar für eine kleine spiralisierte Spirale zulässig sind. Acht Sequenzen mit einer Auswahl von Stabilitäten wurden für das experimentelle Testen ausgewählt und umfassten sechs der besten 15 und zwei weitere mit ungefähr 15 kcal/Mol höherer Energie, die 56. und 70. der Liste (Tabelle 1). Tabelle 1
Peptide mit dreiunddreißig Resten wurden an einem Peptidsynthesizer Modell 433A von Applied Biosystems unter Anwendung von Fmoc-Chemie, HBTU-Aktivierung einem modifizierten Rink-Amidharz von Novablochem synthetisiert. Standardmäßige 0,1 mmol-Kopplungszyklen wurden verwendet und Aminotermini wurden acetyliert. Die Peptide wurden vom Harz durch Behandlung von ungefähr 200 mg Harz mit 2 ml Trifluoressigsäure (TFA) und 100 ul Wasser, 100 ul Thioanisol, 50 ul Ethandithiol und 150 mg Phenol als Scävenger abgespalten. Die Peptide wurden durch Präzipitation und wiederholtes Waschen mit kaltem Methyl-tert-Butylether, gefolgt von Umkehrphasen-HPLC an einer Vydac C8-Säule (25 cm · 22 mm) mit einem linearen, 0,1% TFA enthaltendem Acetonitril-Wasser-Gradienten isoliert und gereinigt. Die Peptide wurden dann lyophilisiert und bis zur Verwendung bei -20ºC gelagert. Die Plasma-Desorptions-Massenspektrometrie ergab, dass sich alle Molekulargewichte innerhalb einer Einheit der erwarteten Massen befanden.
Zirkulardichroismus (CD): CD-Spektren wurden an einem Aviv 62DS-Spektrometer bei pH 7,0 in 50 mM Phosphat, 150 mM NaCl und 40 uM Peptid gemessen. Eine Zelle mit einer Weglänge von 1 mm wurde verwendet und die Temperatur durch eine thermoelektrische Einheit geregelt. Thermisches Schmelzen wurde im selben Puffer durchgeführt, wobei Inkremente von zwei Temperaturgraden mit Durchschnittszeiten von 10 s und einer Äquilibrierungszeit von 90 s angewendet wurden. Tm Werte wurden von der Elliptizität bei 222 nm ([Θ]&sub2;&sub2;&sub2;) durch Auswerten des Minimums d[Θ]&sub2;&sub2;&sub2;/dT&supmin;¹ gegen den T-Plot hergeleitet (Cantor und Schimmel, Biophysical Chemistry, New York, W. H. Freemant and Company (1980)). Die Tm's waten innerhalb ein Grad reproduzierbar. Peptidkonzentrationen wurden aus der Tyrosin-Absorption bei 275 nm ermittelt (Huyghues- Despointes et al., s.o.).
Größenausschlusschromatographie: Ausschlusschromatographie wurde mit einer Synchropak GPC 100-Säule (25 cm · 4,6 mm) bei pH 7,0 in 50 mM Phosphat und 150 mM NaCl bei 0ºC durchgeführt. GCN4-p1 und p-LI (Harbury, Science 262, 1401 (1993)) wurden als Größenmarker verwendet. 10 ul-Injektionen einer 1 mM Peptidlösung wurden bei 0,2 ml/min chromatographiert und bei 275 nm gemessen. Die Peptidkonzentrationen waren ungefähr 60 uM, wie aus den Peak-Höhen abgeschätzt wurde. Proben wurden in dreifacher Ausführung analysiert.
Die konstruierten a- und d-Sequenzen wurden wie oben unter Verwendung GCN4-p1- Sequenz für die b.c- und e.f.g-Positionen synthetisiert. Standardmäßige Festphasentechniken wurden angewendet und nach HPLC-Reinigung wurde die Identität der Peptide durch Massenspektrometrie bestätigt. Zirkulardichroismus-Spektroskopie (CD) wurde angewendet, um die Sekundärstruktur und thermische Stabilität der konstruierten Peptide zu analysieren. Die CD-Spektren aller Peptide bei 1ºC und einer Konzentration von 40 mM zeigen Minima bei 208 und 222 nm und ein Maximum bei 195 nm, die für α-Helices diagnostisch sind (Daten nicht gezeigt). Die Elliptizitäts-Werte bei 222 nm zeigen an, dass alle der Peptide zu > 85% helikal sind (ungefähr 28.000 deg cm²/dmol) mit der Ausnahme von PDA-3C, das bei 40 mM zu 75% helikal ist, jedoch bei 170 mM auf 90% helikal ansteigt (Tabelle 2). Tabelle 2. CD-Daten und berechnete strukturelle Eigenschaften der PDA-Peptide
*EMC ist die Monte-Carlo-Energie; ΔAnp und ΔAp sind die Veränderungen der lösungsmittelzugänglichen, nicht polaren bzw. polaren Oberflächen bei Faltung; ECQ ist die elektrostatische Energie bei Verwendung äquilibrierter Ladungen; ECG ist die elektrostatische Energie bei Verwendung von Gsteiger-Ladungen; EvdW ist die Van-der-Waals-Energie; Vol ist das Seitenketten-Van-der-Waals-Volumen; Rot-Bindungen ist die Anzahl von rotierbaren Seitenketten-Bindungen (Methyl-Rotoren ausgeschlossen); Npb und Pb sind die Anzahlen von verborgenen nicht polaren bzw. polaren Atomen.
Die Schmelztemperaturen (Tm's) zeigen einen breiten Bereich von Werten (Daten nicht gezeigt), wobei 6 der 8 Peptide bei höheren als physiologischen Temperaturen schmelzen. Weiters korrelierten die Tm's nicht mit der Anzahl von Sequenzunterschieden vom GCN4-p1. Einzelne Aminosäure-Änderungen lieferten einige der stabilsten und am wenigsten stabilen Peptide, was die Wichtigkeit der Spezifität bei der Sequenzauswahl beweist.
Die Ausschlusschromatographie bestätigte die dimere Natur dieser konstruierten Peptide. Bei Verwendung von spiralisierten Spiral-Peptiden mit bekannten Oligomerisierungszuständen als Standards wanderten die PDA-Peptide als Dimere. Dieses Ergebnis steht im Einklang mit dem Auftreten von β-verzweigten Resten an a-Positionen und Leucinen an d-Positionen, von denen früher gezeigt worden ist, dass sie die Dimerisierung gegenüber anderen möglichen Oligomerisierungszuständen begünstigen (Harbury et al. s.o.).
Die Charakterisierung der PDA-Peptide demonstriert die erfolgreiche Konstruktion von mehreren stabilen, dimeren, helikal spiralisierten Spiralen. Die Sequenzen wurden automatisch erzeugt, und zwar im Rahmen des Konstruktionsparadigmas durch das Simulationsmodul unter Anwendung gut definierter Eingaben, welche die HP-Muster und sterische Spezifität der Proteinstruktur explizit berücksichtigen. Zweidimensionale Kernmagnetresonanz-Experimente, die auf die Sondierung der Spezifität der tertiären Packung abzielen, stehen im Mittelpunkt weiterer Untersuchungen dieser Peptide. Anfängliche Experimente zeigen einen signifikanten Schutz der Amidprotonen vor chemischem Austausch und chemischer Verschiebungsstreuung vergleichbar mit GCN4-p1 (unveröffentlichte Ergebnisse) (Das et al., Biochemistry 29, 2891 (1990); Goodman und Kim, Biochem. 30, 1 1615 (1991)).
Datenanalyse und Konstruktions-Feedback: Eine genaue Analyse der Übereinstimmung zwischen den theoretischen und experimentellen Potentialoberflächen und daher eine Abschätzung der Genauigkeit der Simulations-Kostenfunktion wurde durch Sammeln experimenteller Daten ermöglicht. Unter Anwendung der thermischen Stabilität als Maß der Leistungsfähigkeit der Konstruktion wurden Schmelztemperaturen der PDA-Peptide gegen die in der Monte-Carlo-Suche gefundenen Sequenzbewertungen aufgetragen (Fig. 6). Die mäßige Korrelation von 0,67 in der Grafik zeigt, dass eine ausschließliche Vander-Waals-Bewertungsfunktion relative Stabilitäten nicht genau vorhersagen kann, obwohl sie auf stabile Sequenzen screenen kann. Um dieses Problem anzusprechen, wurden Korrelationen zwischen berechneten strukturellen Eigenschaften und Tm's systematisch untersucht, und zwar unter Anwendung quantitativer Strukturaktivitäts-Beziehungen (QSAR), die ein in der Struktur-basierten Medikamentenkonstruktion häufig angewendetes, statistisches Verfahren ist (Hopfinger, J. Med. Chem. 28, 1133 (1985)).
Tabelle 2 listet verschiedene molekulare Eigenschaften der PDA-Peptide zusätzlich zu den Van-der-Waals-basierten Monte-Carlo-Suche-Bewertungen und den experimentell ermittelten Tm's auf. Eine große Auswahl von Eigenschaften wurde untersucht, einschließlich Komponenten der molekularen Mechanik, wie z. B. elektrostatische Energien, und geometrische Größen, wie z. B. Volumen. Das Ziel der QSAR ist die Erzeugung von Gleichungen, welche der experimentellen Quantität sehr nahe kommen, in diesem Fall Tm als Funktion der berechneten Eigenschaften. Solche Gleichungen legen nahe, weiche Eigenschaften in einer verbesserten Kostenfunktion verwendet werden können. Das PDA-Analysemodul wendet Genetische-Funktions-Annäherung (GFA) an (Rogers und Hopfinger, J. Chem. Inf. Comput. Scie. 34, 854 (1994)), ein neues Verfahren zur Optimierung von QSAR-Gleichungen, das die zu umfassenden Eigenschaften und die relativen Gewichtungen der Eigenschaften unter Anwendung eines genetischen Algorithmus auswählt. GFA erzielt eine effiziente Suche der Raumes möglicher Gleichungen und erzeugt stabil eine Liste von Gleichungen, die nach ihrer Korrelation mit den Daten gereiht sind.
Die Gleichungen werden nach Mangel an Anpassung (LOF) gereiht, einer gewichteten Fehlermessung nach der Methode der kleinsten Quadrate, die sich einer Überanpassung durch Strafaufschläge in den Gleichungen in Form von weiteren Termen widersetzt (Rogers und Hopfinger, s.o.). Die GFA optimiert sowohl die Länge, als auch die Zusammensetzung der Gleichungen und bereinigt die Kombinationen gut passender Eigenschaften und von Eigenschaften, die in vielen Gleichungen wiederkehren. Alle der fünf besten Gleichungen, welche die Simulationsenergie (EMC) korrigieren, enthalten Verbergungen der nicht polaren Oberfläche ΔAnp (Tabelle 3). Tabelle 3. Die fünf besten, durch GFA mit LOF erzeugten Gleichungen, Korrelationskoeffizient und Kreuzvalidierungs-Bewertungen.
ΔAnp und ΔAp sind nicht polare bzw. polare, bei Faltung verborgene Oberflächen; Vol ist das Seitenkettenvolumen, Npb ist die Anzahl verborgener, nicht polarer Atome und Rot ist die Anzahl verborgener, rotierbarer Bindungen.
Die Gegenwart von ΔAnp in allen der besten Gleichungen zusätzlich zur niedrigen LOF der nur EMC und ΔAnp enthaltenden QSAR impliziert überzeugend, dass die nicht polare Oberflächen-Verbergung eine entscheidende Eigenschaft für die Vorhersage der Peptidstabilität ist. Diese Schlussfolgerung ist nicht überraschend in Anbetracht der Rolle des hydrophoben Einflusses auf die Protein-Energien (Dill, Biochem. 29, 7133 (1990)).
Eigenschaften wurden unter Anwendung von BIOGRAF und des Dreiding-Kräftefeldes berechnet. Lösungsmittelzugängliche Oberflächen wurden mit dem Connolly-Algorithmus (Connolly (1983), s.o.) unter Anwendung eines Sondierungsradius von 1,4 Å und einer Punktdichte von 10 Å&supmin;² berechnet. Volumina wurden als die Summe der Van der- Waals-Volumina derjenige Seitenketten berechnet, die optimiert worden sind. Die Anzahl an verborgenen polaren und nicht polaren, schweren Atomen wurde definiert als diejenigen Atome mit ihren daran gebundenen Wasserstoffen, die bei der Oberflächenberechnung weniger als 5 Å² exponieren. Elektrostatische Energien wurden unter Verwendung einer Dielektrizitätskonstante von eins berechnet, und es wurde kein Cutoff für die Berechnung nicht-gebundener Energien eingestellt. Ladungsgleichgewichtsladungen (Rappe und Goddard III, J. Phys. Chem. 95, 3358 (1991) und Gasteiger und Marsili, Tetrahedron 36, 3219 (1980)) wurden verwendet, um elektrostatische Energien zu berechnen. Ladungsgleichgewichtsladungen wurden manuell eingestellt, um neutrale Gerüste und neutrale Seitenketten zu erhalten, um falsche Monopol-Effekte zu verhindern. Die Auswahl der Eigenschaften war durch die Bedingung limitiert, dass die Eigenschaften nicht sehr gut korreliert werden konnten. Korrelierte Eigenschaften können durch QSAR-Techniken nicht unterschieden werden und erzeugen nur Redundanz in den abgeleiteten Beziehungen.
Genetische-Funktions-Annäherung (GFA) wurde im CERIUS2-Simulationspacket Version 1,6 (Biosym/Molecular Simulations, San Diego, CA) durchgeführt. Eine anfängliche Gesamtzahl von 300 Gleichungen wurde erzeugt, bestehend aus Züfallskombinationen von drei Eigenschaften. Es wurden nur lineare Terme verwendet und die Anfangskoeffizienten durch quadratische Regression für jeden Satz von Eigenschaften ermittelt. Redundante Gleichungen wurden eliminiert und 10.000 Generationen von zufälligen Kreuzmutationen durchgeführt. Wenn ein Nachkomme eine bessere Bewertung aufwies als die schlechteste Gleichung in der Population, ersetzte der Nachkomme die schlechteste Gleichung. Weiters hatten Mutations-Operatoren, die Terme anfügten oder entfernten, eine Wahrscheinlichkeit von 50%, auf jede Generation angewendet zu werden, jedoch wurden diese Mutationen nur akzeptiert, wenn die Bewertung verbessert wurde.
Es war keine Gleichung mit mehr als drei Termen erlaubt. Die Gleichungen wurden während der Evolution unter Anwendung der Mangel-an-Anpassung- (LOF-) Parameter bewertet, einer gewichteten Fehlermessung nach der Methode der kleinsten Quadrate ("least square error measure", LSE), die Gleichungen um Strafaufschläge in Form von mehr Termen erweitert und daher Überanpassung widersteht. LOF ist definiert als:
wobei c die Anzahl von Termen in der Gleichung und M die Anzahl von Datenpunkten ist. Fünf verschiedene, mit Zufallszahlen arbeitende Läufe wurden ausgeführt und die endgültigen Populationen gepoolt. Nur die Simulationsenergie EMC enthaltenden Gleichungen wurden berücksichtigt, was 108 Gleichungen ergab, die nach ihrer LOF gereiht waren.
Um die voraussagende Leistungsfähigkeit dieser QSAR-Gleichungen sowie ihre Robustheit zu ermitteln, wurden eine Kreuz-Validierungs-Analyse durchgeführt. Jedes Peptid wurde nacheinander aus dem Datensatz entfernt und Koeffizienten der fraglichen Gleichung ausgebessert. Diese neue Gleichung wurde dann verwendet, um den einbehaltenen Datenpunkt vorherzusagen. Wenn alle Datenpunkte auf diese Weise vorhergesagt worden sind, wurde ihre Korrelation mit den gemessenen Tm's errechnet (Tabelle 3). Nur EMC/ΔAnp-QSAR und EMC/ΔAnp/ΔAp-QSAR erbrachten eine gute Leistung in der Kreuzvalidierung. Von der EMC/ΔAnp Gleichung konnte nicht erwartet werden, dass sie genauso gut zu den Daten passten wie QSAR mit drei Termen und hatten folglich ein niedriger kreuzvalidiertes r². Jedoch wiesen alle anderen QSAR mit zwei Termen LOF- Bewertungen größer als 48 und Kreuz-Validierungs-Korrelationen weniger als 0,55 auf (Daten nicht gezeigt). Die QSAR-Analyse sagte unabhängig ohne subjektive Voreingenommenheit voraus, dass die Berücksichtigung der Verbergung nicht polarer und polarer Oberflächen notwendig ist, um die Simulation zu verbessern. Das Ergebnis steht im Einklang mit vorhergehenden Untersuchungen an Atomsolvatisierungspotentialen (Eisenberg et al. (1986), s.o.; Wesson et al., Protein Sci. 1, 227 (1992)). Weitere, einfachere strukturelle Größen, wie z. B. die Anzahl verborgener Atome, die zugrunde liegende Prinzipien widerspiegeln, wie z. B. hydrophobe Solvatisierung (Chan et al., Science 267, 1463 (1995)), wurden durch die QSAR-Analyse als nicht gleichermaßen signifikant erachtet.
Δanp und ΔAp wurden in das Simulationsmodul eingeführt, um die Kostenfunktion zu korrigieren. Beiträge zur Oberflächenverbergung aus Rotamer/Templat- und Rotamer/Rotamer-Kontakten wurden berechnet und im Wechselwirkungspotential verwendet. Das unabhängige Zurechnen der verborgenen Oberfläche aus verschiedenen Rotamer- Paaren, die in der DEE erforderlich ist, führt zu einer Überschätzung der Verbergung, da die Radien der lösungsmittelzugänglichen Oberflächen viel größer die Van der-Waals- Kontaktradien sind und folglich in einem dicht gepackten Proteinkern stark überlappen können. Um diese Diskrepanz zu beseitigen, wurden die in der QSAR verwendeten Flächen unter Anwendung des Verfahrens paarweiser Flächen neu berechnet und eine neue EMC/ΔAnp/ΔAp/ΔAp-QSAR-Gleichung erzeugt. Die Verhältnisse von EMC-Koeffizient zu den ΔAnp und ΔAp-Koeffizienten sind Skalierungsfaktoren, die im Simulationsmodul verwendet werden, um verborgene Oberfläche in Energie, d. h. Atomsolvatisierungsparameter umzuwandeln. Thermische Stabilitäten werden durch diese Kostenfunktion gut vorhergesagt (Fig. 6B). Zusätzlich sagt die verbesserte Kostenfunktion nach wie vor die natürlich auftretende GNC4-p1-Sequenz als den Grundzustand voraus. Die Skalierungsfaktoren Oberfläche zu Energie, 16 kcal/Mol/Å²-begünstigende nicht polare Flächenverbergung und 86 cal/Mol/Å²-entgegengesetzte polare Flächenverbergung sind bezüglich Vorzeichen, Skalierung und relativer Größenordnung Potentialparametern ähnlich, die aus Kleinmolekül-Transferdaten abgeleitet sind (Wesson und Eisenberg, s.o.).
λ-Repressormutanten: Um die Allgemeingültigkeit der Kostenfunktion zu beweisen, wurden andere Proteine unter Anwendung des Simulationsmoduls untersucht. Eine Bibliothek von Kernmutanten des DNA-bindenden λ-Repressorproteins ist von Sauer und Mitarbeitern (Lim und Sauer, J. Mol. Biol. 219, 359 (1991)) umfassend charakterisiert worden. Templat-Koordinaten wurden dem PDB-File 1LMB (Beamer und Pabo, J. Mol. Biol. 227, 177 (1992)) entnommen. Die Untereinheit-zugewiesene Kette 4 im PDB-File wurde aus dem Zusammenhang des Rests der Struktur (begleitende Untereinheit und DNA) entfernt und unter Anwendung von BIOGRAF mit expliziten Wasserstoffen versehen. Die hydrophoben Reste mit Seitenketten innerhalb von 5 Å der drei Mutationsstellen (V36 M40 V47) sind Y22, L31, A37, M42, L50, F51, L64, L65, 168 und L69. Alle dieser Reste sind zu mehr als 80% verborgen mit Ausnahme von M42, das zu 65% verborgen ist und L64, das zu 45% verborgen ist. A37 weist nur ein Rotamer auf und wurde folglich nicht optimiert. Den anderen neun Resten in der 5 Å-Umgebung wurde erlaubt, jede Rotomer-Konformation ihrer Aminosäure einzunehmen (fließend). Die Mutationsstellen konnten jedes Rotamer der fraglichen Aminosäuresequenz einnehmen. In Abhängigkeit von der mutierten Sequenz waren 5 · 10¹&sup6; bis 7 · 10¹&sup8; Konformationen möglich. Die Rotamer-Energie- und DEE-Rechenzeiten betrugen 2 bis 4 Minuten. Die kombinierte Aktivitätsbewertung ist jene von Hellinga und Richards (Hellinga et al. (1994), s.o.). Achtundsiebzig der 125 möglichen Kombinationen wurden erzeugt. Dieser Datensatz ist verwendet worden, um mehrere Rechenschemata zu testen und kann als Basis für das Vergleichen verschiedener Kräftefelder dienen (Lee und Levitt, Nature 352, 448 (1991); von Gunsteren und Mark, s.o.; Hellinga et al. (1994), s.o.). Das Simulationsmodul unter Anwendung der durch QSAR gefundenen Kostenfunktion wurde verwendet, um die optimale Konformation und Energie für jede mutierte Sequenz zu finden. Alle hydrophoben Reste innerhalb von 5 Å der drei Mutationsstellen wurden ebenfalls freigelassen, um durch den Algorithmus relaxiert zu werden. Diese 5 Å-Umgebung enthielt 12 Reste, ein signifikant größeres Problem als frühere Versuche (Lee und Levitt, s.o.; Hellinga (1994), s.o.), die durch die DEE-Komponente des Simulationsmoduls rasch optimiert wurden. Die Reihungskorrelation der vorhergesagten Energie mit der kombinierten Aktivitätsbewertung, die von Hellinga und Richards vorgeschlagen wurde, ist in Fig. 7 gezeigt. Die Wildform weist die niedrigste Energie der 125 möglichen Sequenzen auf und die Korrelation ist im Wesentlichen äquivalent zu früher publizierten Ergebnissen, was beweist, dass die QSAR-korrigierte Kostenfunktion für spiralisierte Spiralen nicht spezifisch ist und andere Proteine adäquat modellieren kann.

Beispiel 2

Automatisierte Konstruktion von Oberflächenpositionen von Proteinhelices

GCN4-pl, eine homodimere, spiralisierte Spirale, wurde wiederum als Modellsystem ausgewählt, da es durch Festphasentechniken leicht synthetisiert werden kann und weil dessen helikale Sekundärstruktur und dimerer Tertiäraufbau dessen Charakterisierung erleichtert. Die Sequenzen von homodimeren, spiralisierten Spiralen zeigen ein periodisches hydrophobes und polares Muster von sieben Resten, das Heptad-Wiederholung genannt wird (a.b.c.d.e.f) (Cohen und Parry, s.o.). Die a- und d-Positionen sind an der Dimer-Grenzfläche verborgen und für gewöhnlich hydrophob, wogegen die b-, c-, e-, f- und g-Positionen lösungsmittelexponiert und für gewöhnlich hydrophil polar sind (Fig. 5). Die Untersuchung der Kristallstruktur von GCN4-p1 (O'Shea et al., s.o.) zeigt, dass die b-, c- und f-Seitenketten in das Lösungsmittel ragen und zumindest 55% ihrer Oberfläche exponieren. Im Gegensatz dazu verbergen e- und g-Reste 50 bis 90% ihrer Oberfläche durch Packung gegen die a- und d-Reste der gegenüberliegenden Helix. Die Erfinder wählten die 12 b-, c- und f-Restepositionen für die Oberflächensequenz-Konstruktion aus: Positionen 3, 4, 7, 10, 11, 14, 17, 18, 21, 24, 25 und 28 unter Verwendung der Nummerierung aus dem PDB-Eintrag 2zta (Bernstein et al., J. Mol. Biol. 112, 535 (1977)). Der Rest der Proteinstruktur, einschließlich aller anderen Seitenketten und des Gerüsts wurde als das Templat für Sequenzauswahl-Berechnungen verwendet. Die Symmetrie des Dimers und das Fehlen von Wechselwirkungen von Oberflächenresten zwischen den Untereinheiten erlaubten die unabhängige Konstruktion jeder Untereinheit, wodurch die Größe des Sequenzoptimierungsproblems signifikant herabgesetzt wurde.
Alle möglichen Sequenzen hydrophiler Aminosäuren (D, E, N, Q, K, R, S, T, A und H) für die 12 Oberflächenpositionen wurden durch den Konstruktionsalgorithmus der Erfinder gescreent. Die Torsionsflexibilität der Aminosäureseitenketten wurde durch Berücksichtigung eines diskreten Satzes aller erlaubten Konformere jeder Seitenkette, die Rotamere genannt werden, Rechnung getragen (Ponder et al. (1987), s.o.; Dunbrack et al., Struc. Biol. Vol. 1 (5), 334-340 (1994)). Die Optimierung der 12 b-, c- und f-Positionen, jede mit 10 möglichen Aminosäuren, lieferte 10¹² mögliche Sequenzen, die &supmin;10²&sup8; Rotamer-Sequenzen entsprechen, wenn die die Gerüst-abhängige Rotamer-Bibliothek von Dunbrack und Karplus verwendet wird. Das immense, durch die Rotamer-Sequenzoptimierung dargestellte Problem wird durch Anwendung des Dead-End-Eliminierungs- (DEE-) Theorems überwunden (Desmet et al. (1992), s.o.; Desmet et al., (1994) s.o.; Goldstein (1994), s.o.). Die Implementierung des DEE-Theorems durch die Erfinder erweitert dessen Nutzen für die Sequenzkonstruktion und findet rasch die global optimale Sequenz in ihrer optimalen Konformation.
Die Erfinder untersuchten drei Funktionen der potentiellen Energie auf ihre Wirksamkeit hin, Oberflächensequenzen zu bewerten. Jede Kandidat-Bewertungsfunktion wurde verwendet, um die b-, c- und f-Positionen spiralisierten Modell-Spiralen zu konstruieren und das erhaltene Peptid wurde synthetisiert und charakterisiert, um die Leistungsfähigkeit der Konstruktion zu ermitteln. Ein Wasserstoffbrückenbindungspotential wurde verwendet, um zu überprüfen, ob vorhergesagte Wasserstoffbrückenbindungen zur konstruierten Proteinstabilität beitragen können, wie aus Untersuchungen der Wasserstoffbrückenbindung in Proteinen und Peptiden zu erwarten wäre (Stickte et al., s.o.; Huyghues- Despointes et al., s.o.). Die Optimierung auf Wasserstoffbrückenbindung verbirgt jedoch häufig polare Protonen, die nicht an Wasserstoffbrückenbindungen beteiligt sind. Dieser nicht kompensierte Verlust von potentiellen Wasserstoffbrückenbindungsdonoren an Wasser veranlasste die Untersuchung eines zweiten Bewertungsschemas, bestehend aus einem Wasserstoffbrückenbindungspotential in Verbindung mit einem Strafaufschlag für das Verbergen polarer Protonen (Eisenberg (1986), s.o.). Die Erfinder testeten ein drittes Bewertungsschema, welches das Wasserstoffbrückenbindungspotential um die empirisch hergeleiteten Helix-Neigungen von Baldwin und Mitarbeitern (Chakrabartty et al., s.o.) erweitert. Obwohl die physikalische Basis von Helix-Neigungen unklar ist, können sie eine signifikante Wirkung auf die Proteinstabilität haben und können möglicherweise dazu verwendet werden, Proteinkonstruktionen zu verbessern (O'Neil und DeGrado (1990); Zhang et al., Biochem. 30, 2012 (1991); Blaber et al., Science 260; 1637 (1993); O'Shea et al. (1993); Villegas et al., Folding and Design 1, 29 (1996)). In allen Fällen wurde ein Van-der-Waals-Potential verwendet; um Packungswechselwirkungen und ausgeschlossenes Volumen zu berücksichtigen.
Mehrere andere Sequenzen für die b-, c- und f-Positionen wurden ebenfalls synthetisiert und charakterisiert, um die jeweilige Bedeutung der Wasserstoffbrückenbindungs- und Helix-Neigungs-Potentiale erkennen zu können. Die mit dem Wasserstoffbrückenbindungspotential konstruierte Sequenz wurde zufällig durcheinander gewürfelt, wodurch die konstruierten Wechselwirkungen unterbrochen, die Helix-Neigung der Sequenz jedoch nicht verändert wurden. Ferner wurde die Sequenz mit der maximal möglichen Helix-Neigung, alle Positionen auf Alanin gesetzt, hergestellt. Schließlich wurde die natürlich auftretende GCN4-p1-Sequenz und eine zufällig aus dem hydrophilen Aminosäuresatz gewählte Sequenz synthetisiert und untersucht, um als nicht konstruierte Kontrollen zu dienen.
Sequenzkonstruktion: Bewertungsfunktionen und DEE: Die Proteinstruktur wurde an den Gerüstkoordinaten von GCN4-p1, PDB-Datensatz 2zta (Bernstein et al., s.o.; O'Shea et al., s.o.) modelliert. Atome aller nicht optimierten Seitenketten wurden an ihren kristallographisch ermittelten Positionen belassen. Das Programm BIOGRAPH (Molecular Simulations Incorporated, San Diego, CA) wurde verwendet, um explizite Wasserstoffe an der Struktur zu erzeugen, die dann für 50 Schritte unter Anwendung des DREIDING-Kräftefeldes (Mayo et al. (1990), s.o.) Konjugat-Gradienten-minimiert wurde. Die Symmetrie des Dimers und das Fehlen von Wechselwirkungen von Oberflächenresten zwischen den Untereinheiten erlaubte die unabhängige Konstruktion jeder Untereinheit. Alle Berechnungen wurden Verwendung des ersten, in 2zta auftretenden Monomers (Kette A) durchgeführt. Eine gerüstabhängige Rotamer-Bibliothek wurde verwendet (Dunbrack et al. (1993), s.o.). c&sub3;-Winkeln, die aus den Datenbank-Statistiken unbestimmt waren, wurden die folgenden Werte zugeordnet: Arg, -60º, 60º und 180º; Gln, -120º, -60º, 0º, 60º, 120º und 180º; Glu, 0º, 60º und 120º; Lys, -60º, 60º und 180º. c&sub4;-Winkeln, die aus den Datenbank-Statistiken unbestimmt waren, wurden die folgenden Werte zugeordnet: Arg, -120º, -60º, 60º, 120º und 180º; Lys, -60º, 60º und 180º. Rotamere mit Kombinationen von c&sub3; und c&sub4;, die sequentielle g&spplus;/g&supmin; oder g&supmin;/g&spplus;- Winkel lieferten, wurden eliminiert. Ungeladene Wis-Rotamere wurden verwendet. Ein Lennard-Jones-12-6-Potential mit auf 0,9 skalierten Van der-Waals-Radien (Dahiyat et al., Erste vollautomatische Konstruktion eines Proteins, vollbracht von Calltech-Wissenschaftlern, neue Pressemitteilung) wurde für Van-der-Waals-Wechselwirkungen verwendet. Das Wasserstoffbrückenbindungspotential bestand aus einem abstandsabhängigen Term und einem winkelabhängigen Term, wie oben in Gleichung 9 dargestellt ist. Dieses Wasserstoffbrückenbindungspotential basiert auf dem in DREIDING verwendeten Potential mit restriktiveren, winkelabhängigen Termen, um das Auftreten von ungünstigen Wasserstoffbrückenbindungsgeometrien einzuschränken. Der Winkelterm variiert in Abhängigkeit vom Hybridisierungszustand von Donor und Akzeptor, wie oben in den Gleichungen 10 bis 13 gezeigt ist.
In den Gleichungen 10-13 ist Θ der Donor-Wasserstoff-Akzeptor-Winkel, Φ ist der Wasserstoff-Akzeptor-Basen-Winkel (die Base ist das an den Akzeptor gebundene Atom, beispielsweise ist der Carbonylkohlenstoff die Base für einen Carbonylsauerstoffakzeptor) und φ ist der Winkel zwischen den Normalen der durch die sechs an die sp²-Zentren gebundenen Atome definierten Ebenen (die Ergänzung von φ wird verwendet, wenn φ kleiner als 90º ist). Die Wasserstoffbrückenbindungsfunktion wird nur evaluiert, wenn 2,6 Å < R < 3,2 Å, Φ > 90º, f - 109,5º < 90º für den sp³-Donor-sp³-Akzeptor- Fall, und Φ > 90º für den sp³-Donor-sp²-Akzeptor-Fall; es wurden keine Schaltfunktionen verwendet. Templat-Donoren und Akzeptoren, die an den Templat-Templat-Wasserstoffbrückenbindungen beteiligt waren, wurden nicht in die Donor- und Akzeptor-Listen aufgenommen. Zum Zwecke des Ausschlusses wurde eine Templat-Templat-Wasserstoffbrückenbindung als existent betrachtet, wenn 2,5 Å ≥ R ≥ 3,3 Å und Θ ≥ 135º. Ein Strafaufschlag von 2 kcal/Mol für das Verbergen polarer Wasserstoffe wurde, wenn verwendet, nur auf verborgene polare Wasserstoffe angewendet, die nicht an Wasserstoffbrückenbindungen beteiligt waren, wo eine Wasserstoffbrückenbindung als existent betrachtet wurde, wenn EHB kleiner als -2 kcal/Mol war. Dieser Strafaufschlag wurde nicht auf Templat-Wasserstoffe angewendet. Das Wasserstoffbrückenbindungspotential wurde auch mit einem schwachen Coulomb-Term ergänzt, der eine abstandsabhängige Dielektrizitätskonstante von 40R umfasste, wobei R der interatomare Abstand ist. Teil-Atomladungen wurden nur auf polare funktionelle Gruppen angewendet. Eine formale Nettoladung von +1 wurde für Arg und Lys verwendet, und eine Nettoladung von -1 wurde für·Asp und Glu verwendet. Mit α-Helix-Neigung assoziierte Energien wurden mit der obigen Gleichung 14 berechnet. In Gleichung 14 ist Eα die Energie der α-Helix-Neigung, ΔG&sup0;aa ist die freie Standardenergie der Helix-Propagation der Aminosäure und ΔG&sup0;ala ist die freie Standardenergie der Helix-Propagation des als Standard verwendeten Ala, und NSS ist der Neigungs-Skalierungsfaktor, der auf 3,0 gesetzt wurde. Dieses Potential wurde gewählt, um die Neigungsenergien auf einen ähnlichen Bereich wie die anderen Terme in der Bewertungsfunktion zu skalieren. Die DEE-Optimierung hielt sich an die Verfahren der früheren Arbeit der Erfinder (Dahiyat et al. (1996), s.o.). Die Berechnungen wurden entweder an einem 12-Prozessor, R 10000-basierten Silicon Graphics Power Challenge oder 512-Knotenpunkt Intel Delta ausgeführt.
Die Peptidsynthese und Reinigung und CD-Analysen erfolgten wie in Beispiel 1. NMR- Proben wurden in 90/10 H&sub2;O/D&sub2;O und 50 mM Phosphatpuffer bei pH 7,0 hergestellt. Spektren wurden an einem Varian Unityplus 600 MHz-Spektrometer bei 25ºC aufgenommen. 32 Zwischenprodukte wurden mit 1,5 Sekunden Lösungsmittelvorsättigung zur Wasserunterdrückung aufgenommen. Die Proben waren &supmin;1 mM. Ausschlusschromatographie wurde mit einer PoIyLC Hydroxyethyl A-Säule (20 cm · 9 mm) bei pH 7,0 in 50 mM Phosphat und 150 mM NaCl bei 0ºC durchgeführt. GCN4-p1 und p-Li (Harbury et al., s.o.) wurden als Größenstandards für Dimer bzw. Tetramer verwendet. 5 ul-Injektionen von &supmin;1 mM Peptidlösung wurden bei 0,5 ml/min chromatographiert und bei 214 nm gemessen. Die Proben wurden in dreifacher Ausführung analysiert.
Die Oberflächensequenzen aller in dieser Studie untersuchten Peptide sind in Tabelle 4 gezeigt. Tabelle 4. Sequenzen und Eigenschaften der synthetisierten Peptide
Der Übersichtlichkeit halber sind nur die konstruierten Oberflächenreste gezeigt, und sie sind nach Position gruppiert (b, c und f). Die Sequenznummern der konstruierten Positionen sind: 3, 4, 7, 10, 11, 14, 17, 18, 21, 24, 25 und 28. Schmelztemperaturen (Tm) wurden durch Zirkulardichroismus ermittelt und Oligomerisierungszustände (N) wurden durch Ausschlusschromatographie ermittelt. ΣΔG&sup0; ist die Summe der freien Standardenergie der Helix-Propagation der 12 b-, c- und f-Positionen (Chakrabarrty et al. (1994)). Abkürzungen für Konstruktionsverfahren sind: Wasserstoffbrückenbindungen (HB), polarer Wasserstoff-Verbergungs-Strafaufschlag (PB) und Helix-Neigung (HP).
Die Sequenz 6A, konstruiert mit einem Wasserstoffbrückenbindungspotential, wies eine Übergewichtung von Arg- und Glu-Resten auf, von denen vorhergesagt wird, dass sie zahlreiche Wasserstoffbrückenbindungen miteinander ausbilden. Diese langkettigen Aminosäuren sind bevorzugt, da sie sich quer durch Schleifen der Helix erstrecken, um miteinander und mit dem Gerüst in Wechselwirkung zu treten. Wenn die optimale Geometrie der durcheinander gewürfelten 6A-Sequenz, 6D, mit DEE gefunden wurde, waren wesentlich weniger Wasserstoffbrückenbindungs-Wechselwirkungen vorhanden und deren Bewertung war viel schlechter als die der 6A. 6B, die mit einem polaren Wasserstoffbrückenbindungsverbergungs-Strafaufschlag zusätzlich zu einem Wasserstoffbrückenbindungspotential konstruiert war, ist nach wie vor von langen Resten, wie z. B. Lys, Glu und Gln dominiert, wies jedoch weniger Arg auf. Da Arg mehr polare Wasserstoffe aufweist als die anderen Aminosäuren, verbirgt es häufiger Nicht-Wasserstoffbrücken-gebundene Protonen und ist daher benachteiligt, wenn diese Potentialfunktion verwendet wird. 6C wurde mit einem Wasserstoffbrückenbindungspotential und Helix-Neigung in der Bewertungsfunktion konstruiert und besteht vollkommen aus Ala- und Arg- Resten, den Aminosäuren mit den höchsten Helix-Neigungen (Chakrabartty et al., s.o.). Die Arg-Reste bilden Wasserstoffbrückenbindungen mit Glu-Resten an nahe gelegenen e- und g-Positionen. Die hydrophile Zufallssequenz 6E besitzt keine Wasserstoffbrückenbindungen und wird mit allen verwendeten Potentialfunktionen sehr schlecht bewertet.
Die Sekundärstrukturen und Thermostabilitäten der Peptide wurden durch Zirkulardichroismus-(CD-) Spektroskopie ermittelt. Die CD-Spektren der Peptide bei 1ºC und 40 uM sind charakteristisch für α-Helices mit Minima bei 208 und 222 nm mit Ausnahme des Zufalls-Oberflächensequenzpeptids 6E. 6E weist ein Spektrum auf, das auf ein Gemisch von α-Helix und Zufallsspirale mit einem [Θ]&sub2;&sub2;&sub2; von -12000 deg cm²/dmol hinweist, während alle anderen Peptide zu mehr als 90% helikal mit [Θ]&sub2;&sub2;&sub2; kleiner als -30000 deg cm²/dmol sind. Die Schmelztemperaturen (Tm) der konstruierten Peptide sind um 12-16ºC höher als die Tm von GCN4-p1, mit Ausnahme von 6E, die ein Tm von 15ºC aufweist. Bevor und nach dem Schmelzen aufgenommene CD-Spektren waren identisch, was eine reversible thermische Denaturierung anzeigt. Die Neukonstruktion von Oberflächenpositionen dieser spiralisierten Spirale produziert Strukturen, die viel stabiler sind als GCN4-p1 der Wildform, während eine hydrophile Zufallssequenz die Stabilität des Peptids größtenteils zerstört.
Größenausschlusschromatographie (SEC) zeigte, dass alle der Peptide Dimere waren mit Ausnähme von 6F, der Oberflächensequenz mit ausschließlich Ala, die als Tetramer wanderte. Diese Daten zeigen, das die Oberflächen-Neukonstruktion die Tertiärstruktur dieser Peptide nicht veränderte, im Gegensatz zu einigen Kern-Neukonstruktionen (Harbury et al., s.o.). Zusätzlich zeigten Kernmagnetresonanz-(NMR-) Spektren der Peptide bei &supmin;1 mM eine Aufspaltung der chemischen Verschiebung ähnlich GCN4-p1 (Daten nicht gezeigt).
Peptid 6A, konstruiert mit einem Wasserstoffbrückenbindungspotential, schmilzt bei 71ºC gegenüber 57ºC für GCN4-p1, was beweist, dass die rationale Konstruktion von Oberflächenresten Strukturen produzieren kann, die beträchtlich stabiler als die natürlich auftretenden spiralisierten Spiralen sind. Dieser Gewinn an Stabilität ist wahrscheinlich nicht auf verbesserte Wasserstoffbrückenbindung zurückzuführen, da 6D, welche dieselbe Oberflächenaminosäurezusammensetzung wie 6A, jedoch eine durcheinander gewürfelte Sequenz und keine vorhergesagten Wasserstoffbrückenbindungen aufweist, ebenfalls bei 71ºC schmilzt. Ferner wurde 6B mit einer anderen Bewertungsfunktion konstruiert und besitzt eine andere Sequenz eine Satz vorhergesagter Wasserstoffbrückenbindungen, jedoch eine sehr ähnliche Tm von 72ºC.
Eine alternative Erklärung für die erhöhte Stabilität dieser Sequenzen in Bezug auf GCN4-p1 ist ihre höhere Helix-Neigung. Die durch das Wasserstoffbrückenbindungspotential gewählten langen, polaren Reste Lys, Glu, Arg und Gln gehören auch zu den besten Helix-Bildnern (Chakrabartty et al., s.o.). Da die Wirkung der Helix-Neigung nur so sehr von der Sequenzposition abhängt wie die der Wasserstoffbrückenbindung, insbesondere weit von den Helix-Enden entfernt, wäre vom Durcheinanderwürfeln der Sequenz von 6A kaum ein Effekt zu erwarten. Ein grobes Maß der Helix-Neigung der Oberflächensequenzen, die Summe der freien Standardenergien der Helix-Propagation (ΣΔG&sup0;), stimmt mit den thermischen Stabilitäten der Peptide überein (Tabelle 4). Obwohl ΣΔG&sup0; mit der Tendenz der Peptidstabilität übereinstimmt, korreliert sie nicht quantitativ mit der erhöhten Stabilität dieser spiralisierten Spiralen.
Peptid 6C wurde mit Helix-Neigung als Teil der Bewertungsfunktion konstruiert und weist ein ΣΔG&sup0; von -2,041 kcal/Mol auf. Obwohl 6C stabiler als GCN4-p1 ist, ist ihre Tm von 69ºC etwas niedriger als die von 6A und 6B trotz der höheren Helix-Neigung von 6C. In ähnlicher Weise wiest 6F die höchstmögliche Helix-Neigung auf mit einer ausschließlich aus Ala bestehenden Sequenz und einem ΣΔG&sup0; von -3,096 kcal/Mol, jedoch ist ihre Tm von 73ºC nur unwesentlich höher als die von 6A oder 6B. 6F wandert ebenfalls als Tetramer und nicht als Dimer während der SEC, wahrscheinlich deshalb, weil ihre poly(Ala)-Oberfläche eine ausgedehnte hydrophobe Fläche exponiert, welche die Assoziation vermitteln könnte. Obwohl die Ergebnisse für 6C und 6f die Schlussfolgerung unterstützen, dass die Helix-Neigung für die Oberflächenkonstruktion wichtig ist, weisen sie auf mögliche Einschränkungen der ausschließlichen Verwendung der Neigung hin. Das Erhöhen der Neigung verleiht einer Struktur nicht notwendigerweise die höchste Stabilität, vielleicht wegen der ungünstigen Beeinflussung anderer Faktoren. Wie aus 6F erwiesen ist, können Veränderungen der Tertiärstruktur des Proteins auftreten.
Die Charakterisierung dieser Peptide zeigt eindeutig, dass Oberflächenreste einen drastischen Einfluss auf die Stabilität von α-helikalen, spiralisierten Spiralen haben. Der breite Bereich der durch die verschiedenen Oberflächen offenbarten Stabilitäten mit einem Bereich von mehr als 50ºC zwischen der hydrophilen Zufallssequenz (Tm 15ºC9 und den konstruierten Sequenzen (Tm 69-72ºC) ist bemerkenswert. Dieses Ergebnis steht im Einklang mit. Untersuchungen über andere Proteine, welche die Bedeutung von lösungsmittelexponierten Resten nachwiesen (O'Neil und DeGrado (1990); Zhang et al. (1991); Minor et al. (1994), s.o.; Smith et al., Science 270, 980-982 (1995)). Weiters weisen diese Konstruktionen signifikant höhere Tm als die GCN4-p1-Sequenz der Wildform auf, was beweist, dass Oberflächenreste verwendet werden können, um die Stabilität bei der Proteinkonstruktion zu verbessern (O'Shea et al., s.o.). Obwohl die Helix-Neigung für die Stabilisierung der konstruierten spiralisierten Spiralen wichtiger zu sein scheint als die Wasserstoffbrückenbindung, könnte die Wasserstoffbrückenbindung bei der Konstruktion und Stabilisierung anderer Arten der Sekundärstruktur von Bedeutung sein.

Beispiel 3

Konstruktion eines Kern-, Oberflächen- und Randreste enthaltenden Proteins unter Anwendung von Van der-Waals-, H-Brückenbindungs-, Sekundärstruktur- und Solvatisierungs-Bewertungsfunktionen.

In diesem Beispiel wurden Kern-, Rand- und Oberflächenreste-Arbeiten kombiniert. Bei der Wahl eines Motivs zu Testen der Integration der Konstruktionsverfahren der Erfinder suchten die Erfinder eine Proteinfaltung, die ausreichend klein ist, um rechnerisch und experimentell lenkbar zu sein, jedoch groß genug ist, um eine unabhängig gefaltete Struktur in Abwesenheit von Disulfid-Bindungen oder Metallbindungsstellen zu bilden. Die Erfinder wählten das durch das Zinkfinger-DNA-bindende-Modul verkörperte ββα- Motiv aus (Pavletich et al. (1991), s.o.). Obwohl es aus weniger als 30 Resten besteht, enthält dieses Motiv Faltblatt-, Helix- und Schleifen-Strukturen. Weiters haben neuere Arbeiten von Imperiali und Mitarbeitern, die ein Peptid mit 23 Resten konstruierten, das eine ungewöhnliche Aminosäure (D-Prolin) und eine unnatürliche Aminosäure (3-(1,10- Phenanthrol-2-yl)-L-Alanin) enthält und diese Struktur einnimmt, die Fähigkeit dieser Faltung nachgewiesen, sich in Abwesenheit von Metallionen zu bilden (Struthers et al. (1996a)). Die Brookhaven-Protein-Data-Bank (PDB) (Bernstein et al. (1977)) wurde auf hoch aufgelöste Strukturen des ββα-Motivs durchsucht, und des zweite Zinkfinger-Modul des DNA-bindenden Proteins Zif268 (PDB-Code lzaa) wurde als das Konstruktions- Templat der Erfinder gewählt (Pavletich et al. (1991), s.o.). Das Gerüst des zweiten Moduls gleicht sich sehr eng den anderen beiden Zinkfingern in Zif268 und Zinkfingern anderer Proteine an und ist daher typisch für diese Klasse von Faltungen. Der Kristallstruktur wurden 28 Reste entnommen, beginnend bei Lysin 33 der Nummerierung des PDB- Eintrags 1zaa, die der Position 1 der Erfinder entspricht. Die ersten 12 Reste umfassen das β-Faltblatt mit einer engen Schleife an der 6. und 7. Position. Zwei Reste verbinden das Faltblatt mit der Helix, die sich zur Position 26 mit Capping durch die beiden letzten Reste erstreckt.
Um die Restepositionen in der Templat-Struktur Kern-, Oberflächen- oder Rand-Klassen zuzuordnen, wurden das Ausmaß der Seitenketten-Verbergung in Zif268 und die Richtung der Cα-Cβ-Vektoren untersucht. Die geringe Größe dieses Motivs beschränkt die Anzahl der Reste, die unzweifelhaft dem Kern zugeordnet werden können, auf einen Position 5), wogegen sechs Reste (Positionen 3, 12, 18, 21, 22 und 25) als Randreste klassifiziert wurden. Drei dieser Reste stammen vom Faltblatt (Positionen 3, 5 und 12) und vier stammen von der Helix (Positionen 18, 21, 22 und 25). Einer der zinkbindenden Reste von Zif268 befindet sich im Kern und zwei am Rand, beim vierten (Position 8) jedoch ist der Cα-Cβ-Vektor vom geometrischen Zentrum des Proteins weg gerichtet und wird daher als eine Oberflächenposition klassifiziert. Die anderen durch den Konstruktionsalgorithmus berücksichtigten Oberflächenpositionen sind 4, 9 und 11 vom Faltblatt, 15, 16, 17, 19, 20 du 23 von der Helix und 14, 27 und 28 vom Capping der Helix-Enden. Die restlichen exponierten Positionen, die sich entweder in Schleifen befanden, unregelmäßige Gerüst-Dieder aufwiesen oder teilweise verborgen waren, wurden nicht in die Sequenzauswahl für diese anfängliche Untersuchung aufgenommen. Wie in den früheren Untersuchungen der Erfinder waren die an Kernpositionen während der Sequenzselektion berücksichtigten Aminosäuren A, V, L, I, F, Y und W; die an Oberflächenpositionen berücksichtigten Aminosäuren waren A, S. T, H, D, N, E, Q, K und R; und die kombinierten Kern- und Oberflächen-Sätze (16 Aminosäuren) wurden an Randpositionen berücksichtigt.
Insgesamt wurden während der Sequenzselektion 20 von 28 Positionen des Templats optimiert. Der Algorithmus wählt zunächst Gly für alle Positionen mit Φ-Winkeln größer als 0ºC, um die Gerüstspannung zu minimieren (Reste 9 und 27). Die 18 verbleibenden Reste wurden auf zwei Sätze aufgeteilt und gesondert optimiert, um die Berechnung zu beschleunigen. Einer der Sätze enthielt die 1 Kern-, 6 Rand-Positionen und Position 8, was 1,2 · 10&sup9; mögliche Aminosäuresequenzen lieferte, die 4,3 · 10¹&sup9; Rotamer-Sequenzen entsprechen. Der andere Satz enthielt die restlichen 10 Oberflächenreste, die 10¹&sup0; mögliche Aminosäuresequenzen und 4,1 · 10²³ Rotamer-Sequenzen aufwiesen. Die beiden Gruppen wechselwirken nicht stark miteinander, was ihre Sequenzoptimierungen wechselseitig unabhängig machte, obwohl starke Wechselwirkungen innerhalb beider Gruppen herrschten. In jeder Optimierung wurden die nicht optimierten Positionen im Templat auf die kristallographischen Koordinaten gesetzt.
Die aus den beiden Berechnungen erhaltenen, optimalen Sequenzen wurden kombiniert und sind in Fig. 8, angeglichen an die Sequenz aus dem zweiten Zinkfinger von Zif268 gezeigt. Obwohl alle der hydrophilen Aminosäuren an jeder de Randpositionen berücksichtigt wurden, wurden nur unpolare Aminosäure ausgewählt Die berechneten sieben Kern- und Randpositionen aus einem gut gepackten, verborgenen Cluster. Die durch den Algorithmus an den zinkbindenden His-Positionen 21 und 25 gewählten Phe- Seitenketten sind zu 80% verborgen und das Als an 5 ist zu 100% verborgen, während das Lys an 8 zu mehr als 60% lösungsmittelexponiert ist. Die anderen Randpositionen demonstrieren die starken sterischen Einschränkungen an verborgenen Resten durch Packen ähnlicher Seitenketten in einer Anordnung ähnlich dem Zif268. Die berechnete optimale Konfiguration verbarg ~830 Å der nicht polaren Oberfläche, wobei Phe 12 (zu 96% verborgen) und Leu 18 (zu 88% verborgen) den Cluster verankern. An der Helix- Oberfläche positioniert der Algorithmus Asn 14 al ein Helix-N-Cap mit einer Wasserstoffbrückenbindung zwischen ihrem Seitenketten-Carbonylsauerstoff und dem Gerüst- Amidproton von Rest 16. Die sechs geladenen Reste an der Helix bilden drei Paare von Wasserstoffbrückenbindungen, obwohl Wasserstoffbrückenbindungen der spiralisierten Spiral-Konstruktionen der Erfinder weniger wichtig zu sein schienen als die insgesamte Helix-Neigung der Sequenz. Für Positionen 4 und 11 an der exponierten Faltblattoberfläche wurde Thr ausgewählt, einer der besten β-Faltblatt-bildenden Reste (Kim und Berg, 1993; Minor et al. (1994), s.o.; Smith et al. (1995), s.o.).
Das Kombinieren der 20 konstruierten Positionen mit den Zif268-Aminosäuren an den verbleibenden 8 Stellen lieferte ein Peptid mit insgesamt 39% (11/28) Homologie zu Zif268, die sich auf 15% (3/20) Homologie vermindert, wenn nur die konstruierten Positionen berücksichtigt werden. Eine BLAST-Suche (Altschul et al. (1990)). der nicht redundanten Proteinsequenz-Datenbank des National Center for Biotechnology Information findet eine schwache Homologie, weniger als 40%, mit mehreren Zinkfingerproteinen und Fragmenten anderer, nicht verwandter Proteine. Keine der Angleichungen hatte Signifikanzwerte von weniger als 0,26. Durch objektive Auswahl von 20 der 28 Reste am Zif268-Templat wurde ein Peptid mit wenig Homologie zu bekannten Proteinen und keiner zinkbindenden Stelle konstruiert.
Experimentelle Charakterisierung: Das ferne UV-Zirkulardichroismus (CD-) Spektrum des konstruierten Moleküls pda8d zeigt ein Maximum bei 195 nm und Minima bei 218 nm und 208 nm, was eine gefaltete Struktur anzeigt. Die thermische Schmelze ist schwach kooperativ mit einem Wendpunkt bei 39ºC, der vollständig reversibel ist. Die breite Schmelze steht im Einklang mit einer niedrigen Faltungsenthalpie, die für ein Motiv mit einem kleinen hydrophoben Kern zu erwarten ist. Dieses Verhalten steht im Gegensatz zu den für andere kurze Peptide beobachteten, nicht kooperativen Übergänge (Weiss und Keutmann (1990); Scholtz et al., PNAS USA 88, 2854 (1991); Struthers et al. J. Am. Chem. Soc. 118, 3073 (1996b)).
Sedimentationsgleichgewichtsuntersuchungen bei 100 uM und 7ºC sowie 25ºC ergaben einen Molekülmasse von 2490 in guter Übereinstimmung mit der berechneten Masse von 3362, was darauf hinweist, dass das Peptid monomer ist. Bei Konzentrationen größer als 500 uM passen die Daten jedoch nicht gut zu einem idealen Einzelspezies- Modell. Bei Anpassung der Daten an ein Monomer-Dimer-Tetramer-Modell wurden Dissoziationskonstanten von 0,5-1,5 mM für Monomer zu Dimer und größer als 4 mM für Dimer zu Tetramer gefunden, obgleich die Wechselwirkung zu schwach war, um diese Werte genau zu messen. Messungen des Diffusionskoeffizienten unter Verwendung der Wasser-sLED-Puls-Sequenz (Altieri et al. (1995)) stimmten mit Sedimentationsergebnissen überein: bei 100 uM wies pda8d einen Diffusionskoeffizienten nahe dem einer monomeren Zinkfinger-Kontrolle auf, wogegen bei 1,5 mM der Diffusionskoeffizient ähnlich dem des Proteins Gβ1 ist, einem Protein mit 56 Resten. Das CD-Spektrum von pda8d ist konzentrationsabhängig von 10 uM bis 2,6 mM. Bei 2,1 mM und 100 uM aufgenommene NMR-COSY-Spektren waren nahezu identisch mit 5 der Hα-HN-Crosspeaks, wobei die Verschiebung nicht mehr als 0,1 ppm betrug und die verbleibenden Crosspeaks unverändert blieben. Diese Daten zeigen an, dass pda8d bei hoher Konzentration eine schwache Assoziation eingeht, jedoch hat diese Assoziation im Wesentlichen keine Wirkung auf die Struktur des Peptids.
Die chemischen NMR-Verschiebungen von pda8d sind gut aufgespaltet, was darauf hinweist, dass das Protein gefaltet und gut geordnet ist. Die Hα-HN-Fingerprintregion des TOCSY-Spektrums ist gut aufgelöst und weist keine überlappenden Resonanzen auf (Fig. 9A) und alle der Hα- und HN-Resonanzen sind zugeordnet worden. Die NMR-Daten wurden an einem Varian Unityplus 600 MHz-Spektrometer, ausgestattet mit einer inversen Nalorac-Sonde von mit einem selbstabschirmenden z-Gradienten erhalten. NMR- Proben wurden in 90/10 H&sub2;O/D&sub2;O oder 99,9% D&sub2;O mit 50 mM Natriumphosphat pH 5,0 hergestellt. Der Proben-pH wurde mit einer Glaselektrode ohne Korrektur der Wirkung von D&sub2;O auf den gemessenen pH eingestellt. Alle Spektren für die Zuordnungen wurden bei 7ºC aufgenommen. Die Probenkonzentration betrug ungefähr 2 mM. NMR- Zuordnungen beruhten auf standardmäßige homonukleare Verfahren unter Verwendung von DQF-COSY-, NOESY- und TOCSY-Spektren (Wuthrich, NMR of Proteins and Nucleic Acids, John Wiley & Sons, New York (1986)). NOESY- und TOCSY-Spektren wurden mit 2K-Punkten in F2 und 512 Inkrementen in F1 aufgenommen und DQF-COSY- Spektren wurden mit 4K-Punkten in F2 und 1024 Inkrementen in F1 aufgenommen. Alle Spektren wurden mit einer spektralen Bandbreite von 7500 Hz und 32 Übergängen aufgenommen. NOESY-Spektren wurden mit Mischzeiten von 100 und 200 ms aufgezeichnet und TOCSY-Spektren wurden mit einer isotropischen Mischzeit von 80 ms aufgezeichnet. In TOCSY- und DQF-COSY-Spektren wurde die Wasserunterdrückung durch Vorsättigung während der Relaxationsverzögerung von 1,5 bzw. 2,0 s erzielt. Die Wasserunterdrückung in den NOESY-Spektren wurde mit der WATEGATE-Puls-Sequenz erzielt (Piotto et al. (1992)). Chemische Verschiebungen wurden auf die HOD-Resonanz bezogen. Die Spektren wurden in sowohl F2 als auch F1 nullabgeglichen und mit einer verschobenen Gaußkurve in F2 und einer Cosinus-Kurve in F1 (NOESY und TOCSY) oder einer um 30º verschobenen Sinus-Kurve in F2 und einer verschobenen Gaußkurve in F1 (DQF-COSY) apodisiert.
Wasser-sLED-Experimente (Altieri et al. (1995)) wurden bei 25ºC bei 1,5 mM, 400 uM und 100 uM in 99,9% D&sub2;O mit 50 mM Natriumphosphat bei pH 5,0 durchgeführt. Die axiale Gradientenfeldstärke wurde von 3,26 bis 53,1 G/cm variiert und es wurde eine Diffusionszeit von 50 ms verwendet. Die Spektren wurden mit 2 Hz-Linienverbreiterung verarbeitet die Integrale der aromatischen und Hochfeld-aliphatischen Protonen wurden berechnet und einer Gleichung angepasst, welche die Resonanzamplitude mit der Gradientenstärke in Beziehung setzt, um die Diffusionskoeffizienten zu erhalten (Altieri et al. (1995)). Die Diffusionskoeffizienten waren 1,48 · 10&supmin;&sup7;, 1,62 · 10&supmin;&sup7; und 1,73 · 10&supmin;&sup7; cm²/s bei 1,5 mM, 400 uM bzw. 100 uM. Der Diffusionskoeffizient für die Zinkfinger- Monomer-Kontrolle betrug 1,72 · 10&supmin;&sup7; cm²/s und betrug für Protein G b1 1,49 · 10&supmin;&sup7; cm²/s.
Alle eindeutigen sequentiellen und Mittelbereichs-NOEs sind in Fig. 9A gezeigt. Hα- HN- und/oder HN-HN-NOEs wurden gefunden für alle Paare von Resten außer R6-17 und K16-E17, die beide degenerierte chemische HN-Verschiebungen aufweisen, und P2-Y3, das degenerierte chemische Hα-Verschiebungen aufweist. Ein NOE ist jedoch vorhanden aus einem P2-Hδ zum Y3-HN, analog zu den Sequentiellen HN-HN-Verbindungen. Ferner sind starke K1-Hα zu P2-Hδ-NOEs vorhanden und erlaubten die Vervollständigung der Resonanz-Zuordnungen.
Die Struktur von pda8d wurde unter Anwendung von 354 NOE-Einschränkungen (12,6 Einschränkungen je Rest) ermittelt, die nicht redundant zur kovalenten Struktur waren. Ein Ensemble von 32 Strukturen (Daten nicht gezeigt) wurde unter Anwendung von X- POLR (Brunger (1992)) mit Standardprotokollen für Hybridabstandsgeometrie-simulierter Annelierung erhalten. Die Strukturen im Ensemble wiesen eine gute kovalente Geometrie und keine NOE-Beschränkungsverletzungen größer als 0,3 Å auf. Wie in Tabelle 5 gezeigt ist, war das Gerüst gut definiert, und zwar mit einer quadratischen Mittelwert- (rms-) Abweichung vom Mittelwert von 0,55 Å, wenn die ungeordneten Termini (Reste 1, 2, 27 und 28) ausgeschlossen wurden. Die rms-Abweichung für das Gerüst (3-26) plus den verborgenen Seitenketten (Reste 3, 5, 7, 12, 18, 21, 22 und 25) betrug 1,05 Å.
Tabelle 5. NMR-Strukturbestimmung von pda8d: Abstandseinschränkungen, Strukturstatistik, atomare quadratische Mittelwert- (rms-) Abweichungen und Vergleich mit dem Konstruktions-Target. < SA> sind die 32 simulierten, annelierenden Strukturen, SA ist die durchschnittliche Struktur und SD ist die Standardabweichung. Das Konstruktions- Target ist das Gerüst von Zif268.

Abstandseinschränkungen

Innerer Rest 148
Sequentiell 94
Kurzbereich ([i-j] = 2-5 Reste) 78
Langbereich ([i-j] > 5 Reste) 34
Gesamt 354

Strukturelle Statistik

< SA> +/-SD
Rms-Abweichung von Abstandsbeschränkungen (Å) 0,049 +/- 0,004
Rms-Abweichungen von Idealgeometrie (Å)
Bindungen (Å) 0,0051 +/- 0,0004
Winkel (Grad) 0,76 +/- 0,04
Unpassende (Grad) 0,56 +/- 0,04

Atom-rms-Abweichungen (Å)*

< SA> vs. SA +/- SD
Gerüst 0,55 +/- 0,03
Gerüst + unpolare Seitenketten 1,05 +/- 0,06
Schwere Atome 1,25 +/- 0,04

Atom-rms-Abweichungen zwischen pda8d und dem Konstruktions-Target (Å)*

SA vs. Target
Gerüst 1,04
Schwere Atome 2,15
*Atomqms-Abweichungen sind für die Reste 3 bis einschließlich 26. Die Termini, Reste 1, 2, 27 und 28 waren höchst ungeordnet und wiesen sehr wenige nicht-sequentielle oder Nicht-Intra-Restekontakte auf.
Die NMR-Lösung der Struktur von pda8d zeigt, dass sie sich in ein bba-Motiv faltet, das gut definierte Sekundärstrukturelemente aufweist und mit dem Konstruktions-Target übereinstimmt. Ein direkter Vergleich des Konstruktions-Templats, des Gerüsts des zweiten Zinkfingers von Zif268, mit der pda8d-Lösungsstruktur hebt ihre Ähnlichkeit hervor (Daten nicht gezeigt). Die Angleichung des pda8d-Gerüsts mit dem Konstruktions-Target ist mit einer Atom-rms-Abweichung von 1,04 Å hervorragend (Tabelle 5). Pdaßd und das Konstruktions-Target stimmen über ihre gesamten Strukturen überein, einschließlich der die Sekundärstrukturelemente verbindenden Schleifen.
Schließlich zeigt die experimentelle Charakterisierung von pda8d, das es gefaltet und gut geordnet ist und eine schwach kooperativen thermischen Übergang aufweist und dass dessen Struktur mit der des Konstruktions-Targets hervorragend übereinstimmet. Soweit den Erfindern bekannt, ist pda8d die kürzeste Sequenz von natürlich auftretenden Aminosäuren, die sich zu einer einzigen Struktur faltet, und zwar ohne Metallbindung, Oligomerisierung oder Bildung von Disulfidbindungen (McKnight et al., Nature Struc. Biol. 4, 180 (1996)). Die erfolgreiche Konstruktion von pda8d rechtfertigt die Anwendung der gegenständlichen, quantitativen Sequenzauswahl-Algorithmen zur Proteinkonstruktion. Diese Robustheit lässt darauf schließen, dass das Programm dazu verwendet werden kann, Sequenzen für De-Novo-Gerüste zu konstruieren.

Beispiel 4

Proteinkonstruktion unter Anwendung einer skalierten Van der-Waals-Bewertungsfunktion in der Kernregion

Ein ideales Modellsystem zur Untersuchung der Kernpackung ist die β1-Immunglobulinbindende Domäne von Streptococcus-Protein G (Gβ1) (Gronenborn et al., Science 253, 657 (1991); Alexander et al. Biochem 31, 3597 (1992); Barchi et al., Protein Sci. 3, 15 (1994); Gallagher et al. (1994); Kuszewski et al. (1994); Orban et al. (1995)). Dessen geringe Größe von 56 Resten macht Berechnungen und Experimente lenkbar. Vielleicht am wichtigste ist für die Kernpackungsuntersuchurig, dass Gβ1 keine Disulfidbindungen enthält und keinen Cofaktor oder Metallion benötigt, um sich zu falten. Weiters enthält Gβ1 Faltblatt-, Helix und Schleifenstrukturen es fehlen die repetitiven Seitenkettenpackungsmuster, die in spiralisierten Spiralen und einigen Helix-Bündeln auftreten. Das Fehlen von Periodizität setzt Verzerrung aus einer bestimmten Sekundär- oder Tertiärstruktur herab und erfordert ein objektives Seitenkettenauswahlprogramm, um Packungseffekte zu untersuchen.
Sequenzpositionen, die den Kern bilden, wurden durch Untersuchen der Seitenkettenlösungsmittelzugänglichen Oberfläche von Gβ1 ausgewählt. Jegliche Seitenkette, die weniger als 10% ihrer Oberfläche exponiert, wurde als verborgen betrachtet. Elf Reste erfüllen diese Kriterien, wobei sieben von der β-Faltblatt- (Positionen 3, 5, 7, 20, 43, 52 und 54), drei von den Helix- (Positionen 26, 30 und 34) stammen und eine sich in einer ungeordneten Sekundärstruktur befindet (Position 39). Diese Positionen bilden einen zusammenhängenden Kern. Der Rest der Proteinstruktur, einschließlich aller anderen Seitenketten und des Gerüsts wurde als das Templat für Sequenzauswahlberechnungen an den elf Kernpositionen verwendet.
Alle möglichen Kernsequenzen, bestehend aus Alanin, Valin, Leucin, Isoleucin, Phenylalanin, Tyrosin und Tryptophan (A, V, L, I, F, Y oder W) wurden berücksichtigt. Die Rotamer-Bibliothek der Erfinder war ähnlich derjenigen, die von Desmet und Mitarbeitern verwendet wurde (Desmet et al. (1992), s.o.). Die Optimierung der Sequenz des Gb1- Kerns mit 217 möglichen hydrophoben Rotameren an allen 11 Positionen liefert 217¹¹ oder 5 · 10²&sup5; Rotamer-Sequenzen. Die Bewertungsfunktion der Erfinder bestand aus zwei Komponenten: einem Van der-Waals-Energieterm und einem Atomsolvatisierungsterm, die das Verbergen hydrophober Oberfläche begünstigen. Die Van der-Waals-Radien aller Atome in der Simulation wurden mit einem Faktor α skaliert (Gleichung 3), um die Bedeutung von Packungseffekten zu verändern. Die Radien wurden für die Berechnungen der verborgenen Oberfläche nicht skaliert. Durch Vorhersage von Kernsequenzen mit verschiedenen Radienskalierungen und anschließende experimentelle Charakterisierung der erhaltenen Proteine ist eine strenge Untersuchung der Bedeutung von Packungseffekten auf die Proteinkonstruktion möglich.
Die Proteinstruktur wurde an den Gerüstkoordinaten von Gβ1, PDB-Datensatz lpga (Bernstein et al., s.o.; Gallagher et al. (1994)) modelliert. Atome aller nicht optimierten Seitenketten wurden an ihren kristallographisch ermittelten Positionen belassen. Das. Programm BIOGRAF (Molecular Simulations Incorporated, San Diego, CA) wurde verwendet, um explizite Wasserstoffe an der Struktur zu erzeugen, die dann für 50 Schritte unter Anwendung des Dreiding-Kräftefeldes (Mayo et al. (1990), s.o.) Konjugat-Gradienten-minimiert wurde. Rotamer-Bibliothek, DEE-Optimierung und. Monte-Carlo-Suche erfolgten wie oben umrissen. Ein Lennard-Jones-12-6-Potential wurde für Van-der-Waals- Wechselwirkungen verwendet, wobei die Atomradien für die verschiedenen Fälle wie hierin diskutiert skaliert wurden. Die Richards-Definition der lösungsmittelzugänglichen Oberfläche (Lee und Richards, s.o.) wurde verwendet und die Flächen wurden mit dem Connolly-Algorithmus berechnet (Connolly (1993), s.o.). Ein aus der früheren Arbeit hergeleiteter Atomsolvatisierungsparameter von 23 cal/Mol/Å² wurde verwendet, um hydrophobes Verbergen zu begünstigen und Lösungsmittelexposition zu mit Strafaufschlag zu versehen. Um nicht polare Seitenkettenexposition im Optimierungssystem der Erfinder zu berechnen, berücksichtigen die Erfinder zuerst die gesamte durch ein isoliertes Rotamer exponierte, hydrophobe Fläche. Diese Exposition wird um die in Rotamer/Templat-Kontakten verborgene Fläche und die Summe der in paarweisen Rotamer/Rotamer-Kontakten verborgenen Fläche vermindert.
Globale Optimalsequenzen für verschiedene Werte des Radiusskalierungsfaktors α wurden unter Anwendung des Dead-End-Eliminierungstheorems gefunden (Tabelle 6). Optimale Sequenzen und ihre entsprechenden Proteine sind nach dem bei ihrer Konstruktion verwendeten Radiusskalierungsfaktor benannt. Beispielsweise wird die mit einem Radiusskalierungsfaktor von α = 0,90 konstruierte Sequenz α90 genannt. Tabelle 6 Gβ1-Sequenz
In Tabelle 6 sind die Gβ1-Sequenz und Positionsnummern am oberen Rand gezeigt. vol ist der Bruchteil des Kern-Seitenketten-Volumens in Bezug auf die Gβ1-Sequenz. Ein vertikaler Balken zeigt die Übereinstimmung mit der Gβ1-Sequenz an.
α100 wurde mit α = 1.0 konstruiert und dient folglich als Basislinie für die vollständige Aufnahme von sterischen Einflüssen. Die α100-Sequenz ist der Kernsequenz von Gb1 sehr ähnlich (Tabelle 6), obwohl keine Information über die natürlich auftretende Sequenz im Seitenkettenauswahl-Algorithmus verwendet wurde. Die Variation von α von 0,90 bis 1,05 verursachte kaum eine Veränderung der optimalen Sequenz, was die Robustheit des Algorithmus gegen unwesentliche Parameter-Störungen belegt. Ferner kommen die mit α = 0,90-1,05 vorhergesagten Packungsanordnungen mit mittleren χ-Winkelabweichungen von nur 4º der Kristallstruktur dem Gβ1 sehr nahe. Die hohe Übereinstimmung und Konformationsähnlichkeit mit Gβ1 impliziert, dass die Gerüstkonformation nachdrücklich eine einzige Familie von gut gepackten Kernkonstruktionen festlegt, wenn Packungseinschränkungen verwendet werden. Trotzdem sind Beschränkungen an der Kernpackung durch α moduliert worden, wie durch Monte-Carlo-Suchen auf andere Niedrigenergie-Sequenzen gezeigt wurde: Mehrere alternative Sequenzen und Packungsanordnungen treten in den besten zwanzig der durch das Monte-Carlo-Verfahren gefundenen Sequenzen auf, wenn α = 0,90 ist. Diese alternativen Sequenzen wurden viel schlechter bewerten, wenn α = 0,95, und bei α = 1,05 oder 1,05 weisen nur strikt konservative Packungsgeometrien niedrige Energien auf. Daher definieren α = 1,05 und α = 0,90 die oberen bzw. unteren Enden eines Bereichs, wo die Packungsspezifität die Sequenzkonstruktion beherrscht.
Für α < 0,90 ist die Rolle der Packung ausreichend herabgesetzt, um das hydrophobe Oberflächenpotential dominieren zu lassen, wodurch die Größe der für den Kern gewählten Reste zunimmt (Tabelle 6). Eine signifikante Änderung der optimalen Sequenz tritt zwischen a = 0,90 und 0,85 auf, wobei a85 sowie a80 drei zusätzliche Mutationen in Bezug auf α90 aufweisen. Ferner weisen a85 und a80 ein um 15% höheres Gesamt- Seitenkettenvolumen in Bezug auf Gb1 auf. Wenn a unter 0,80 abfällt, treten ein zusätzlicher Anstieg des Seitenkettenvolumens um 10% und zahlreiche Mutationen auf, was zeigt, dass Packungsbeschränkungen durch den Antrieb, unpolare Oberfläche zu verbergen, übertroffen worden sind. Obwohl die Sprünge der Volumina und Verschiebungen bei der Packungsanordnung für die optimalen Sequenzen scheinbar sprunghaft auftreten, zeigt die Untersuchung der suboptimalen Niedrigenergie-Sequenzen durch Monte- Carlo-Durchmusterung, dass die Änderungen nicht abrupt sind. Beispielsweise ist die optimale a85-Sequenz die elftbeste Sequenz, wenn α = 0,90, und in ähnlicher Weise ist die optimale a90-Sequenz die neuntbeste Sequenz, wenn α = 0,85.
Für α > 1,05 sind die atomaren Van der-Waals-Abstoßungen so stark, dass die meisten Aminosäuren überhaupt keine erlaubten Packungsanordnungen finden können, was die Auswahl von Alanin für viele Positionen bewirkt. Diese Stringenz ist wahrscheinlich ein Artefakt der großen Atomradien und spiegelt die erhöhte Packungsspezifität nicht richtig wider. a = 1,05 ist eher die Obergrenze für den verwendbaren Bereich von Van der- Waals- Skalen innerhalb des Modellierungssystems der Erfinder.
Experimentelle Charakterisierung von Kernkonstruktionen: Die Variation des Van der- Waals-Skalierungsfaktors a liefert für Regime der Packungsspezifität: Regime 1, wo 0,9 ≤ α ≤ 1,05 und Packungsbeschränkungen die Sequenzauswahl dominieren; Regime 2, wo 0,8 ≤ α < 0,9 und das hydrophobe Solvatisierungspotential mit den Packungskräften zu konkurrieren beginnt; Regime 3, wo α < 0,8 und die hydrophobe Solvatisierung die Konstruktion dominiert; und Regime 4, wo α > 1,05 und Van der-Waals-Abstoßungen zu stark zu sein scheinen, um eine aussagekräftige Sequenzauswahl zu erlauben. Sequenzen, die optimale Konstruktionen sind, wurden aus jedem der Regime zur Synthese und Charakterisierung ausgewählt. Diese sind α 90 aus Regime 1, α 85 aus Regime 2, α 70 aus Regime 3 und α 107 aus Regime 4. Für jede dieser Sequenzen sind die berechneten Aminosäureidentitäten von sieben Kernpositionen in Tabelle 6 gezeigt; der Rest der Proteinsequenz stimmt mit Gβ1 überein. Das Ziel war die Untersuchung der Beziehung zwischen dem Grad der bei der Kernkonstruktion verwendeten Packungsspezifität und dem Ausmaß des nativ-ähnlichen Charakters der erhaltenen Proteine.
Peptidsynthese und Reinigung: Mit Ausnahme der elf durch den Sequenzauswahlalgorithmus konstruierten Kernpositionen stimmen die synthetisierten Sequenzen mit dem Proteindatenbankeintrag 1 pga überein. Peptide wurden unter Anwendung standardmäßiger Fmoc-Chemie synthetisiert und wurden durch Umkehrphasen-HPLC gereinigt. Matrixunterstützte Laserdesorptions-Massenspektroskopie ergab Molekulargewichte, die innerhalb einer Einheit der erwarteten Massen lagen.
CD und Fluoreszenzspektroskopie und Ausschlusschromatographie: Die Lösungsbedingungen für alle Experimente waren 50 mM Natriumphosphatpuffer bei pH 5,5 und 25ºC, wenn nicht anders angegeben. Zirkulardichroismus-Spektren wurden αn einem Aviv 62DS Spektrometer aufgenommen, das mit einer thermoelektrischen Einheit ausgestattet war. Die Peptidkonzentration betrug ungefähr 20 uM. Thermische Schmelzen wurden bei 218 nm mit 2º-Inkrementen mit einer Äquilibrierungszeit von 120 s gemessen. Die Tm wurden als Maxima der Ableitung der Schmelzkurve definiert. Die Reversibilität für jedes Protein wurde durch Vergleichen der Raumtemperatur-CD-Spektren vor und nach dem Aufheizen bestätigt. Guanidiniumchlorid-Denaturierungs-Messungen wurden nach veröffentlichten Verfahren durchgeführt (Pace, Methods Enzymol. 131, 266 (1986)). Proteinkonzentrationen wurden durch UV-Spektrophotometrie ermittelt. Fluoreszenzexperimente wurden an einem Hitachi F-4500 in einer Zelle mit 1 cm Weglänge durchgeführt. Die Peptid- sowie ANS-Konzentrationen betrugen 50 uM. Die Anregungswellenlänge war 370 nm, und die Emission wurde von 400 bis 600 nm gemessen. Ausschlusschromatographie wurde mit einer PolyLC Hydroxyethyl A-Säule bei pH 5,5 in 50 mM Natriumphosphat bei 0ºC durchgeführt. Ribonuclease A, Carbonic-Anhydrase und Gβ1 wurden als Molekulargewichtsstandards verwendet. Die Peptidkonzentration während der Trennung betrugen &supmin;15 uM, wie aus den bei 275 nm gemessenen Peakhöhen abgeschätzt wurde.
Kernmagnetresonanzspektroskopie: Die Proben wurden in 90/10 H&sub2;O/D&sub2;O und 50 mM Natriumphosphatpuffer bei pH 5,5 hergestellt. Die Spektren wurden an einem Varian Unityplus 600 MHz-Spektrometer bei 25ºC aufgenommen. Die Probenkonzentration betrug ungefähr 1 mM mit Ausnahme von α70, das eine begrenzte Löslichkeit aufwies (100 uM). Für Wasserstoffaustausch-Untersuchungen wurde eine NMR-Probe hergestellt, der pH auf 5,5 eingestellt und ein Spektrum aufgenommen, um als nicht ausgetauschte Referenz zu dienen. Diese Probe wurde lyophilisiert, in D&sub2;O rekonstituiert und die wiederholte Spektrenaufnahme wurde sofort mit einer Geschwindigkeit von 75 s je Spektrum begonnen. Die Datenaufnahme wurde für ~20 Stunden fortgesetzt und die Probe dann für 3 Minuten auf 99ºC erhitzt, um die Protonen vollständig auszutauschen. Nach dem Abkühlen auf 25ºC wurde ein letztes Spektrum aufgenommen, um als die vollständig ausgetauschte Referenz zu dienen. Die Flächen aller austauschbaren Amidpeaks wurden durch einen Satz nicht austauschender, aliphatischer Peaks normalisiert. Die in Bezug auf Isotopeneffekte nicht korrigierten pH-Werte wurden für alle Proben nach der Datenaufnahme gemessen und die Zeitachse wurde normalisiert, um die geringfügigen pH-Unterschiede zu korrigieren (Rohl et al., Biochem. 31, 1263 (1992)).
α 90 und α 85 besitzen Elliptizitäten und Spektren, die Gb1 sehr ähnlich sind (nicht gezeigt), was darauf hinweist, dass ihr Sekundärstruktur-Inhalt mit dem von Gb1 vergleichbar ist (Fig. 10). Umgekehrt weist α 70 wesentlich geringere Elliptizität und ein gestörtes Spektrum auf, was einen Verlust von Sekundärstruktur in Bezug auf Gb1 impliziert. α 107 weist die Spektrumseigenschaft einer Zufallspirale auf. Durch CD beobachtete thermische Schmelzen sind in Fig. 10B gezeigt. α85 und α 90 wiesen beide kooperative Übergänge mit Schmelztemperaturen (Tm) von 83ºC bzw. 92ºC auf. α 107 zeigt keinen thermischen Übergang, ein Verhalten, das von einem völlig entfalteten Polypeptid zu erwarten wäre, und α 70 weist einen breiten, flachen, bei &supmin;40ºC zentrierten Übergang auf, der charakteristisch für gefaltete Strukturen ist. Im Vergleich mit Gb1, das eine Tm von 87ºC aufweist (Alexander et al., s.o.), ist α 85 etwas weniger thermostabil und α 90 ist stabiler. Messungen der chemischen Denaturierung der freien Entfaltungsenergie (ΔGu) bei 25ºC stimmt mit der Tm-Tendenz überein.
a 90 weist eine höhere ΔGu auf als jene, die für Gβ1 berichtet wurde (Alexander et al., s.o.), während α 85 etwas weniger stabil ist. Es war nicht möglich, ΔGu für α 70 oder α107 zu messen, da ihnen unterscheidbare Übergänge fehlen.
Das Ausmaß der Aufspaltung der chemischen Verschiebung im Protonen-NMR-Spektrum jedes Proteins wurde beurteilt, um den Grad an nativ-artigem Charakter für jedes Proteins zu anzuschätzen (Daten nicht gezeigt). α 90 besitzt ein höchst aufgespaltetes Spektrum, das Kennzeichen eines gut geordneten nativen Proteins. α 85 besitzt eine herabgesetzte Aufspaltung chemischer Verschiebungen und Peaks, die in Bezug auf α 90 etwas verbreitert sind, was auf eine mäßig bewegliche Struktur hinweist, die trotzdem eine charakteristische Faltung einnimmt. Das NMR-Spektrum von α 70 weist fast keine. Aufspaltung auf. Die verbreiterten Peaks zeigen eine kollabierte, jedoch ungeordnete und fluktuierende Struktur an. α 107 besitzt ein Spektrum mit scharfen Linien und keinen Aufspaltungen, was für ein ungefaltetes Protein charakteristisch ist.
Die Aminwasserstoff-Austauschkinetik steht im Einklang mit den Schlussfolgerungen, die aus der Untersuchung der NMR-Spektren gezogen wurden. Die Messung der mittleren Anzahl von nicht ausgetauschten Amidprotonen als Funktion der Zeit für jedes der konstruierten Proteine liefert folgende Ergebnisse (Daten nicht gezeigt): α 90 schützt &supmin;13 Protonen für über 20 Stunden vor dem Austausch bei pH 5,5 und 25ºC. Die Austauschkurve für α 90 ist von der des Gβ1 nicht unterscheidbar (nicht gezeigt). α 85 bewahrt ebenfalls einen gut geschützten Satz von Amidprotonen, eine charakteristische Eigenschaft von geordneten, nativ-artigen Proteinen. Die Anzahl von geschützten Protonen beträgt jedoch nur etwa die Hälfte derjenigen von α 90. Der Unterschied ist wahrscheinlich auf die höhere Flexibilität in einigen Teilen der α 85-Struktur zurückzuführen. Im Gegensatz dazu wurden α 70 und α 107 innerhalb der dreiminütigen Totzeit des Experiments vollständig ausgetauscht, was auf höchst dynamische Strukturen hinweist.
CD-Spektren im nahen UV und das Ausmaß der Bindung von 8-Anilino-1-naphthalinsulfonsäure (ANS) wurden angewendet, um die strukturelle Ordnung der Proteine zu beurteilen. Die nahen UV-CD-Spektren von α85 und α90 weisen hohe Peaks auf, wie für Proteine mit aromatischen Resten, die in einer einzigartigen Tertiärstruktur zu erwarten ist, wogegen α70 und α107 nichts sagende Spektren aufweisen, die für Proteine mit beweglichen aromatischen Resten bezeichnend sind, wie z. B. nicht native, kollabierte Zustände oder ungefaltete Proteine. α70 bindet auch ASN, wie durch einen dreifachen Anstieg der Blauverschiebung des ANS-Emissionsspektrums angezeigt wird. Diese starke Bindung legt nahe, dass α70 einen locker gepackten oder teilweise exponierten Cluster von hydrophoben, ANS zugänglichen Resten besitzt. ANS bindet α85 nur schwach mit einem nur 25%-igen Anstieg der Emissionsintensität, ähnlich der Assoziation, die für manche native Proteine beobachtet wird (Semisotnov et al., Biopolymers 31, 119 (1991)). α90 und α107 verursachen keine Änderung der ANS-Fluoreszenz. Alle der Proteine wanderten während der Ausschlusschromatographie als Monomere.
Zusammenfassend ist α90 nach allen Kriterien ein gut gepacktes, nativ-artiges Protein und stabiler als die natürlich auftretende Gb1-Sequenz, möglicherweise wegen der erhöhten Verbergung hydrophober Oberflächen. α85 ist ebenfalls ein stabiles, geordnetes Protein, obgleich mit größerer Bewegungsflexibilität als α90, wie durch dessen NMR- Spektrum und Wasserstoffaustausch-Verhalten bewiesen wird, α70 besitzt alle Eigenschaften eines ungeordneten, kollabierten globuiären Proteins: einen nicht kooperativen thermischen Übergang, keine spektrale NMR-Aufspaltung, keinen Amidprotonenschutz, herabgesetzten Sekundärstrukturgehalt und starke ANS-Bindung. α107 ist eine völlig ungefaltete Kette, wahrscheinlich wegen des Fehlens großer hydrophober Reste, die den Kern zusammenhalten. Die eindeutige Tendenz ist Verlust der Proteinordnung, wenn α unter 0,90 sinkt.
Die verschiedenen Packungs-Regime für die Proteinkonstruktion können im Licht der experimentellen Daten beurteilt werden. In Regime 1 mit 0,9 ≤ α ≤ 1,05 ist die Konstruktion von der Packungsspezifität dominiert, was gut geordnete Proteine liefert. In Regime 2 mit 0,8 ≤ α < 0,9 sind die Packungskräfte ausreichend geschwächt, damit die hydrophobe Kraft größere Reste in den Kern bringen kann, was stabile, gut gepackte Proteine mit etwas erhöhter struktureller Beweglichkeit liefert. In Regime 3 mit α < 0,8 sind die Packungskräfte in einem Ausmaß herabgesetzt, dass die hydrophobe Kraft dominiert, was eine fluktuierende, teilweise gefaltete Struktur mit keiner stabilen Kernpackung liefert. In Regime 4 mit α > 1,05 sind die Kräfte, die zur Implementierung von Packungsspezifität verwendet werden, zu hoch skaliert, um eine vernünftige Sequenzauswahl zu erlauben und liefert daher ein ungefaltetes Protein. Diese Ergebnisse zeigen an, dass die effektive Proteinkonstruktion eine Berücksichtigung von Packungseffekten erfordert. Im Zusammenhang mit einem Proteinkonstraktionsalgorithmus haben die Erfinder quantitativ den Bereich von Packungskräften definiert, der für erfolgreiche Konstruktionen erforderlich ist. Die Erfinder haben ferner nachgewiesen, dass die herabgesetzte Spezifität dazu verwendet werden kann, Proteinkerne mit alternativen Packungen zu konstruieren.
Um aus den Vorteilen herabgesetzter Packungsbeschränkungen Nutzen zu ziehen, sollten Proteinkern mit dem kleinsten α konstruiert werden, das strukturell geordnete Proteine liefert. Die optimale Proteinsequenz aus Regime 2, α85, ist stabil und gut gepackt, was 0,8 < α < 0,9 als eine guten Bereich nahe legt. Die NMR-Spektren und Wasserstoffaustauschkinetik zeigt jedoch eindeutig, dass α85 nicht in dem Maße strukturell geordnet ist wie α90. Die Packungsanordnungen, die durch das Programm der Erfinder für W43 in αß5 und α90 vorhergesagt werden, liefern eine mögliche Erklärung. Für α90 wird für W43 vorhergesagt, das es mit derselben Konformation wie in der Kristallstruktur von Gβ1 in den Kern gepackt wird. In α85 zwingen die größeren Seitenketten an Positionen 34 und 54, Leucin bzw. Phenylalanin, im Vergleich zu Alanin und Valin in α90, W43 dazu, 91 Å² unpolare Oberfläche im Vergleich zu 10 Å² in α90 zu exponieren. Die hydrophobe Triebkraft, die diese Exposition darstellt, scheint die alternativen Konformationen zu stabilisieren, die W43 verbergen und könnten dadurch zur Konformationsflexibilität von α85 beitragen (Dill (1985); Onuchic et al. (1996)). Im Gegensatz zu den anderen Kernpositionen kann ein Rest an Position 43 in Abhängigkeit von seiner Seitenketten-Konformation größtenteils exponiert oder größtenteils verborgen sein. Die Erfinder kennzeichnen Positionen mit dieser Eigenschaft als Randpositionen, die ein schwieriges Problem für die Proteinkonstruktion darstellen, und zwar aufgrund ihres Potentials, entweder stark mit dem Kern des Proteins oder mit Lösungsmitteln in Wechselwirkung zu treten.
Eine Bewertungsfunktion, welche die Exposition hydrophober Oberfläche mit Strafaufschlägen versieht, könnte die Konstruktion von Randresten unterstützen. Dill und Mitarbeiter verwendeten einen Expositionsstrafaufschlag, um Proteinkonstruktionen in einer theoretischen Untersuchung zu verbessern (Sun et al., Protein Eng. 8(12), 1205-1213 (1995)).
Ein Strafaufschlag für unpolare Exposition würde Packungsanordnungen begünstigen, die entweder große Seitenketten im Kern verbergen oder eine exponierte Aminosäure durch eine kleinere und polarere ersetzen. Die Erfinder implementierten einen unpolare Seitenketten-Expositions-Strafaufschlag in das Optim ierungssystem der Erfinder und verwendeten als Strafaufschlag einen Solvatisierungsparmeter derselben Größenordnung wie die des hydrophoben Verbergungsparameters.
Die Ergebnisse der Addition eines hydrophobe Oberflächen-Expositions-Strafaufschlags zur Bewertungsfunktion sind in Tabelle 7 gezeigt. Tabelle 7 α = 0,85
Tabelle 7 stellt die 15 besten Sequenzen für die Kernpositionen von Gβ1 mit α = 0,85 ohne Expositionsstrafaufschlag dar. Anp ist die exponierte unpolare Oberfläche in Å².
Wenn α = 85, ändert der unpolare Oberflächenstrafaufschlag drastisch die Reihenfolge der Niedrigenergie-Sequenzen. Die α85-Sequenz, der frühere Grundzustand, fällt auf die 7. Position zurück und der Rest der 15 besten Sequenzen exponiert viel weniger hydrophobe Fläche, da sie W43 in einer α90 ähnlichen Konformation verbergen (Modell nicht gezeigt). Die Ausnahmen sind die 8. und 14. Sequenzen, welche die Größe des exponierten Randrestes durch Ersetzen von W43 durch ein Isoleucin herabsetzen, und die 13. Sequenz, die W43 durch ein Valin ersetzt. Die neue Grundzustand-Sequenz ist mit einer einzigen Mutation von Valin zu Isoleucin α90 sehr ähnlich und sollte die Stabilität und strukturelle Ordnung mit α90 gemeinsam haben. Im Gegensatz dazu ändert sich bei α = 0,90 die optimale Sequenz nicht, und die nächsten 14 besten, durch Monte-Carlo-Durchmusterung gefundenen Sequenzen ändern sich nur sehr wenig. Dieser geringfügige Effekt ist nicht überraschend, da sterische Kräfte für α = 0,90 nach wie vor dominieren und die meisten dieser Sequenzen sehr wenig Oberfläche exponieren. Das Verbergen von W43 beschränkt die Sequenzauswahl im Kern etwas, jedoch produzieren die verminderten Packungskräfte für α = 0,85 nach wie vor eine höhere Sequenzvielfalt als α = 0,90. Die Expositionsbestrafung ergänzt die Verwendung verminderter Packungsspezifität durch Einschränken der groben Überpackung und Lösungsmittelexposition, die auftritt, wenn der Kernrand gestört wird. Die Addition dieser Beschränkung sollte die Verwendung niedrigerer Packungskräfte bei der Proteinkonstruktion erlauben, was eine breitere Auswahl von hoch bewerteten Sequenzen und verminderte Fehler aus fixiertem Gerüst und diskreten Rotameren liefert.
Um die Wirkung der Substitution eines kleineren Restes an einer Randposition zu untersuchen, synthetisierten und charakterisierten die Erfinder die dreizehntbeste Sequenz der α = 0,85-Optimierung mit Expositionsstrafaufschlag (Tabelle 8). Tabelle 8 α = 0,85 Expositionsstrafaufschlag
Tabelle 8 stellt die 15 besten Sequenzen der Kernpositionen von Gβ1 unter Anwendung von α = 0,85 mit einem Expositionsstrafaufschlag dar. Anp ist die exponierte, unpolare Oberfläche in Å².
Diese Sequenz, α85W43 V, ersetzt W43 durch Valin, ist jedoch ansonsten identisch mit α85. Obwohl die 8. und 14. Sequenz ebenfalls eine kleinere Seitenkette an Position 43 aufweisen, würden zusätzliche Änderungen ihrer Sequenz in Bezug auf α85 die Interpretation der Wirkung der Randposition-Änderung erschweren. Ferner weist α85W43V eine Packungsanordnung auf, die von derjenigen von Gβ1 signifikant verschieden ist, wobei 7 von 11 Positionen verändert sind, das Seitenkettenvolumen jedoch um nur 8% erhöht ist. Folglich ist α85W43V ein Testobjekt für die Toleranz dieser Faltung gegen einen anderen, jedoch das Volumen nahezu erhaltenden Kern. Das ferne UV-CD-Spektrum von α85W43 V ist mit einer Elliptizität von -14.000 deg cm²/dmol jenem von Gβ1 sehr ähnlich. Während der Sekundärstrukturgehalt von α85W43 V der nativen Form ähnlich ist, weist dessen NMR-Spektrum eine größere Aufspaltung der chemischen Verschiebung auf als α85 (Daten nicht gezeigt). Die Kinetik des Amidwasserstoffaustausches nach 20 Stunden zeigt einen gut geschützten Satz von ungefähr vier Protonen auf (Daten nicht gezeigt). Dieser schnellere Austausch im Vergleich zu α85 kann durch die signifikant niedrigere Stabilität von α85W43 V erklärt werden (Mayo und Baldwin (1993)). α85W43 V scheint eine verbesserte strukturelle Spezifität auf Kosten der Stabilität aufzuweisen, ein Phänomen, das früher in spiralisierten Spiralen beobachtet worden ist (Harbury et al. (1993)). Durch Anwendung einer Expositionsbestrafung produzierte der Konstruktionsalgorithmus ein Protein mit höherem nativ-artigen Charakter.
Die Erfinder bestimmten quantitativ die Rolle der Packungsspezifität bei der Proteinkonstruktion und haben praktische Schranken für die Rolle sterischer Kräfte im Proteinkonstruktionsprogramm der Erfinder bereitgestellt. Diese Studie unterscheidet sich von früheren Arbeiten aufgrund der Anwendung eines objektiven, quantitativen Programms zur Variation von Packungskräften während der Konstruktion, die es den Erfindern erlaubt, deren Schlussfolgerungen leicht auf verschiedene Proteinsysteme anzuwenden. Weiters waren die Erfinder durch Verwendung eines minimal effektiven Levels sterischer Kräfte in der Lage, eine breitere Vielfalt von Packungsanordnungen zu konstruieren, die mit der gegebenen Faltung kompatibel waren. Schließlich haben die Erfinder eine Schwierigkeit bei der Konstruktion von Seitenketten identifiziert, die auf der Grenze zwischen Kern und Oberfläche eines Proteins beruht, und die Erfinder haben einen Strafaufschlag für die Exposition unpolarer Oberflächen in die Sequenzkonstruktion-Bewertungsfunktion der Erfinder implementiert, die sich gegen dieses Problem richtet.

Beispiel 5

Konstruktion eines vollständigen Proteins

Die gesamte Aminosäuresequenz eines Protein-Motivs ist berechnet worden. Wie in Beispiel 4 wurde das zweite Zinkfingermodul des DNA-bindenden Proteins Tif268 als Konstruktions-Target gewählt. Um die Restepositionen im der Templat-Struktur Kern-, Oberflächen- und Randpositionen zuzuordnen, wurden die Orientierung der Cα-Cβ- Vektoren in Bezug auf eine lösungsmittelzugängliche Oberfläche bewertet, die unter ausschließlicher Verwendung der Templat-Cα-Atome berechnet wurde. Eine lösungsmittelzugängliche Oberfläche nur für die Cα-Atome der Target-Faltung wurde unter Anwendung des Connolly-Algorithmus mit einem Sondenradius von 0,8 Å, einer Punktdichte von 10 Å² und einem Cα-Radius von 1,95 Å erzeugt. Ein Rest wurde als Kernposition klassifiziert, wenn der Abstand seines Cα entlang seinem Cα-Cβ-Vektor zur lösungsmittelzugänglichen Oberfläche größer als 5 Å war und wenn der Abstand seines Cβ zum nächstliegenden Oberflächenpunkt größer als 2,0 Å war. Die verbleibenden Reste wurden als Oberflächenpositionen klassifiziert, wenn die Summe der Abstände ihrer Cα entlang ihrer Cα-Cß-Vektoren zur lösungsmittelzugänglichen Oberfläche plus dem Abstand ihrer Cß zum nächstliegenden Oberflächenpunkt kleiner als 2,7 Å war. Alle verbleibenden Reste wurden als Randreste klassifiziert. Die Klassifizierungen für Zif268 wurden wie berechnet verwendet mit Ausnahme der Positionen 1, 17 und 23, die von der Rand- in die Oberflächenklasse umgewandelt wurden, um die Endwirkungen aus der Nähe der Kettentermini auf diese Reste in der Tertiärstruktur und Ungenauigkeiten der Zuordnung zu berücksichtigen.
Die geringe Größe dieses Motivs beschränkt die Anzahl von Resten, die eindeutig dem Kern zugerechnet werden können, auf eine (Position 5), während sieben Reste (die Positionen 3, 7, 12, 18, 21, 22 und 25) als Randreste klassifiziert und die verbleibenden 20 Reste der Oberfläche zugeordnet wurden. Während drei der Zink bindenden Positionen von Zif268 sich im Rand oder Kern befinden, weist ein Rest, Position 8, interessanterweise einen Cα-Cβ-Vektor auf, der vom geometrischen Zentrum des Proteins weg gerichtet ist und als Oberflächenposition klassifiziert ist. Wie in unseren früheren Untersuchungen waren die an den Kernpositionen berücksichtigten Aminosäuren während der Sequenzauswahl A, V, L, I, F, Y und W; die an Oberflächenpositionen berücksichtigten Aminosäuren waren A, S, T, H, D, N, E, Q, K und R; und die kombinierten Kern- und Oberflächenaminosäuresätze (16 Aminosäuren) wurden als Randpositionen berücksichtigt. Zwei der Restepositionen (9 und 27) weisen Φ-Winkel größer als 0º auf und werden durch den Sequenzauswahlalgorithmus auf Gly gesetzt, um die Gerüstspannung zu minimieren.
Die Gesamtzahl von Aminosäuresequenzen, die durch die Konstruktionsalgorithmen berücksichtigt werden müssen ist das Produkt aus der Anzahl möglicher Aminosäurearten an jeder Resteposition. Die oben beschriebene ββα-Motiv-Resteklassifizierung liefert eine virtuelle kombinatorische Bibliothek von 1,9 · 10²&sup7; möglichen Aminosäuresequenzen (eine Kernposition mit sieben möglichen Aminosäuren, 7 Randpositionen mit 16 möglichen Aminosäuren, 18 Oberflächenpositionen mit 10 möglichen Aminosäuren und 2 Positionen mit Φ-Winkeln größer als 0º, jede mit einer möglichen Aminosäure). Eine entsprechende Peptidbibliothek, bestehend aus nur einem einzigen Molekül für Sequenz mit 28 Resten würde eine Masse von 11,6 Tonnen aufweisen. Um die geometrische Spezifität der Seitenkettenplatzierung richtig zu modellieren, berücksichtigen die Erfinder explizit die Torsionsflexibilität von Aminosäureseitenketten bei der Sequenzbewertung durch die Erfinder, indem jede Aminosäure mit einem diskreten Satz von erlaubten Konformationen repräsentiert ist, die Rotamere genannt werden. Wie oben wurde eine gerüstabhängige Rotamer-Bibliothek verwendet (Dunbrack und Karplus, s.o.), wobei die χ&sub1;- und χ&sub2;-Winkel hydrophober Reste angepasst wurden. Demzufolge muss der Konstruktionsalgorithmus alle Rotamere für jede mögliche Aminosäure an jeder Resteposition berücksichtigen. Die Gesamtgröße des Suchraums für das ββa- Motiv ist daher 1,1 · 10&sup6;² mögliche Rotamer-Sequenzen. Das Rotamer-Optimierungsproblem für das ββα-Motiv erforderte 90 CPU-Stunden, um die optimale Sequenz zu finden.
Die in Fig. 11 gezeigte optimale Sequenz wird Full-Sequence-Design-1 (FSD-1) genannt. Obwohl alle der hydrophilen Aminosäuren an jeder der Randpositionen berücksichtigt wurde, wählte der Algorithmus nur unpolare Aminosäuren. Von den acht Kern- und Randpositionen wird vorhergesagt, dass sie einen gut gepackten, verborgenen Cluster bilden. Die durch den Algorithmus an den Zink bindenden His-Positionen, Positionen 21 und 25 von Zif268 gewählten Phe-Seitenketten sind zu über 80% verborgen und das Ala an Position 5 ist zu 100% verborgen, während das Lys an Position 8 zu mehr als 60% lösungsmittelexponiert ist. Die anderen Randpositionen demonstrieren die starken sterischen Einschränkungen an verborgenen Resten durch Packen ähnlicher Seitenketten in einer Anordnung ähnlich der von Zif268. Die berechnete optimale Konfiguration für Kern- und Randreste verbirgt &supmin;1150 Å² unpolarer Oberfläche. An der Helix-Oberfläche positioniert das Programm Asn 14 als ein Helix-N-Cap mit einer Wasserstoffbrückenbindung zwischen dessen Seitenketten-Carbonylsauerstoff und dem Gerüst-Amidproton von Rest 16. Die acht geladenen Reste an der Helix bilden drei Paare von Wasserstoffbrückenbindungen, obwohl helikale Oberflächen-Wasserstoffbrückenbindungen in den Konstruktionen spiralisierter Spiralen der Erfinder weniger wichtig zu sein schienen als die Gesamt-Helix-Neigung der Sequenz (Dahiyat et al., Science (1977)). Für die Positionen 4 und 11 an der exponierten Faltblatt-Oberflächen wurde Thr gewählt, einer der besten β-Faltblatt-bildenden Reste (Kim et al. (1993)).
Fig. 11 zeigt die Angleichung de Sequenzen für FSD-1 und Zif268. Nur 6 der 28 Reste (21%) sind identisch und nur 11 (39%) sind ähnlich. Vier der Übereinstimmungen sind im verborgenen Cluster, was mit der Erwartung übereinstimmt, das verborgene Reste für ein gegebenes Motiv konservierter als lösungsmittelexponierte Reste sind (Bowie et al., Science 247, 1306-1310 (1990)). Eine BLAST-Suche (Altschul et al., s.o.) der FSD-1- Sequenz gegen die nicht redundante Proteinsequenz-Datenbank der National Center for Biotechnology Information fand keine einzige Zinkfinger-Proteinsequenz. Weiters fand die BLAST-Suche nur niedrige Identitätsübereinstimmungen niedriger statistischer Signifikanz mit Fragmenten verschiedener unverwandter Proteine. Die höchsten Identitätsübereinstimmungen waren 10 Reste (36%) mit p-Werten im Bereich von 0,63-1,0. Zufallssequenzen mit 28 Resten, die aus Aminosäuren bestehen, die in der oben beschriebenen ββα-Positionsklassifizierung erlaubt sind, produzierten ähnliche BLAST-Suchergebnisse mit 10 oder 11 Resteübereinstimmungen (36-39%) und p-Werten im Bereich von 0,35-1,0, was weiter darauf hinweist, dass die für FSD-1 gefundenen Übereinstimmungen statistisch insignifikant sind. Die sehr niedrige Übereinstimmung mit allen der bekannten Proteinsequenzen beweist die Neuheit der FSD-1-Sequenz und unterstreicht, dass keine Sequenzinformation von irgendeinem Proteinmotiv in der Sequenzbewertungsfunktion der Erfinder verwendet wurde.
Um die Robustheit der berechneten Sequenz zu untersuchen, wurde die Sequenz von FSD-1 als Ausgangspunkt eines Monte-Carlo-simulierten Annelierungs-Programmablaufs verwendet. Die Monte-Carlo-Suche findet hoch bewertete, suboptimale Sequenzen nahe der optimalen Lösung (Dahiyat et al. (1996), s.o.). Die Energie-Streubreite von der Grundzustandslösung auf die eintausendstabilste Sequenz beträgt ungefähr 5 kcal/Mol, was darauf hinweist, dass die Dichte der Zustände hoch ist. Die den Kern des Moleküls umfassenden Aminosäuren mit Ausnahme der Position 7 sind im Wesentlichen invariant (Fig. 11). Fast alle der Sequenzabweichungen traten an Oberflächenpositionen auf und umfasst typischerweise konservative Änderungen. Asn 14, von der vorhergesagt wird, dass sie ein Helix-N-Cap bildet, gehört zu den am meisten konservierten Oberflächenpositionen. Die für entscheidende Bereiche des Moleküls beobachtete starke Sequenzkonservierung weist darauf hin, dass, wenn sich eine repräsentative Sequenz sich zur Konstruktions-Target-Struktur faltet, vielleicht tausende von Sequenzen, deren Variationen die entscheidenden Wechselwirkungen nicht stören, gleichermaßen kompetent sind. Auch wenn Milliarden von Sequenzen die Target-Faltung erfolgreich erzielten, würden sie nur einen verschwindenden Teil der 10²&sup7; möglichen Sequenzen darstellen.
Experimentelle Bestätigung: FSD-1 wurde synthetisiert, um ihre Struktur zu charakterisieren und die Leistungsfähigkeit des Konstruktionsalgorithmus zu beurteilen. Das ferne UV-CD-Spektrum von FSD-1 zeigt Minima bei 220 nm und 207 nm, was eine gefaltete Struktur anzeigt (Daten nicht gezeigt). Die thermische Schmelze ist schwach kooperativ mit einem Wendepunkt bei 39ºC und ist vollständig reversibel (Daten nicht gezeigt). Die breite Schmelze steht im Einklang mit einer niedrigen Enthalpie der Faltung, die für ein Motiv mit einem kleinen hydrophoben Kern zu erwarten ist. Dieses Verhalten steht im Gegensatz zu den unkooperativen thermischen Entfaltungsübergängen, die für andere gefaltete, kurze Peptide beobachtet wird (Scholtz et al. (1991)). FSD-1 besitzt eine hohe Löslichkeit (höher als 3 mM) und Gleichgewichts-Sedimentationsuntersuchungen bei 100 uM, 500 uM und 1 mM zeigen, dass das Protein monomer ist. Die Sedimentationsdaten passen gut zu einem Einzelspezies-Monomermodell mit einer Molekülmasse von 3.630 bei 1 mM in guter Übereinstimmung mit der berechneten Monomermasse von 3.488. Ferner zeigten ferne UV-CD-Spektren keine Konzentrationsabhängigkeit von 50 uM bis 2 mM und bei 100 uM und 2 mM aufgenommene Kernmagnetresonanz- (NMR-) COSY-Spektren waren im Wesentlichen identisch.
Die Lösungsstruktur von FSD-1 wurde unter Anwendung homonuklearer 2D-¹H-NMR- Spektroskopie gelöst (Piantini et al. (1982)). Die NMR-Spektren waren gut aufgespaltet, was auf eine geordnete Proteinstruktur hinweist und die Resonanz-Zuordnungen erleichtert. Zuordnungen der chemischen Verschiebungen wurden mit standardmäßigen homonuklearen Verfahren ermittelt (Wuthrich (1986)). Eindeutige sequentielle und Nahbereichs-NOEs weisen auf eine helikale Sekundärstruktur aus den Resten 15 bis 26 in Übereinstimmung mit dem Konstruktions-Target hin.
Die Struktur von FSD-1 wurde unter Verwendung von 284 experimentellen Beschränkungen (10,1 Beschränkungen je Rest) ermittelt, die nicht redundant waren, wobei die kovalente Struktur 274 NOE-Abstandsbeschränkungen und 10 Wasserstoffbrückenbindungs-Beschränkungen einschließlich der langsam austauschenden Amidprotonen umfasste. Strukturberechnungen wurden unter Anwendung von X-PLOR (Brunger (1992) mit Standardprotokollen für Hybrid-Abstandsgeometrie-simulierter Annelierung (Nilges et al., FEBS Lett. 229, 317 (1988)) durchgeführt. Ein Ensemble von 41 Strukturen konvergierte mit guter kovalenter Geometrie und Abstandsbeschränkungsverletzungen nicht größer als 0,3 Å (Tabelle 9).
Tabelle 9. NMR-Strukturbestimmung: Abstandbeschränkungen, Strukturstatistiken und atomare quadratische Mittelwert- (rms-) Abweichungen. < SA> sind die 41 simulierten, annelierenden Strukturen. SA ist die mittlere Struktur vor der Energieminimierung, (SA)r ist die beschränkte, energieminimierte mittlere Struktur und SD ist die Standardabweichung.
*Atomare rms-Abweichungen betreffen Reste 3 bis einschließlich 26. Reste 1, 2, 27 und 28 waren ungeordnet (Φ, Ψ-Winkel-Ordnungsparameter (34) < 0,78) und wiesen nur sequentielle und [i-j] = 2 NOEs auf. §Unpolare Seitenketten stammen von Resten 3, 5, 7, 12, 18, 21, 22 und 25, die den Kern des Proteins ausmachen.
Das Gerüst von FSD-1 ist wohldefiniert mit einer quadratischen Mittelwert- (rms-) Abweichung vom Mittelwert von 0,54 Å (Reste 3-26). Unter Berücksichtigung der verborgenen Seitenketten (Reste 3, 5, 7, 12, 18, 21, 22 und 25) zusätzlich zu Gerüst ergibt sich eine rms-Abweichung von 0,99 Å, was auf einen wohlgeordneten Kern des Moleküls hinweist. Die stereochemische Qualität des Ensembles von Strukturen wurde unter Anwendung von PROCHECK (Laskowski et al.,). Appl. Crystallogr. 26, 283 (1993)) untersucht. Unter Ausschluss der ungeordneten Termini und der Glycinreste fallen 87% der Reste in die am meisten begünstigte Region und die verbleibenden in die erlaubte Region des Φ, Ψ-Raumes. Eine moderate Heterogenität liegt im ersten Strang vor (Reste 3-6), der einen mittleren Gerüst-Winkelordnungsparameter (Hyberts et al. (1992)) von < S> = 0,96 +/- 0,04 aufweist im Vergleich zum zweiten Strang (Reste 9-12) mit < S> = 0,98 +/- 0,02 und zur Helix (Reste 15-26) mit < S> = 0,99 +/- 0,01. Insgesamt ist FSD-1 bemerkenswert gut geordnet und ist unseres Wissens die kürzeste vollkommen aus natürlich auftretenden Aminosäuren bestehende Sequenz, die sich ohne Metallbindung, Oligomerisierung oder Disulfidbrückenbindung zu einer einzigartigen Struktur faltet (McKnight et al. (1997)).
Das Packungsmuster des hydrophoben Kerns des NMR-Strukturensembles von FSD-1 (Tyr 3, Ile 7, Phe 12, Leu 18, Phe 21, Ile 22 und Phe 25) ist der berechneten Packungsanordnung ähnlich. Fünf der sieben Reste weisen χ&sub1;-Winkel derselben Gauche-, Gauche&spplus;- oder Trans-Kategorie wie das Konstruktions-Target auf, und drei Reste stimmen sowohl mit χ&sub1;-, als auch mit χ&sub2;-Winkeln überein. Die beiden Reste, die nicht mit ihren berechneten χ&sub1;-Winkeln übereinstimmen, sind Ile 7 und Phe 25, was mit ihrer Lokalisierung am weniger eingeschränkten, offenen Ende des Moleküls im Einklang steht. Ala 5 ist an seiner erwarteten, ausgeprägten Packungswechselwirkungen nicht beteiligt und exponiert stattdessen wegen der Verdrängung des Strang-1-Gerüsts in Bezug auf das Konstruktions-Templat 45% seiner Oberfläche. Im Gegensatz dazu verhält sich Lys 8 wie durch den Algorithmus vorhergesagt, wobei dessen Lösungsmittelexposition (60%) und χ&sub1;- und χ&sub2;-Winkel der berechneten Struktur entsprechen. Die meisten der lösungsmittelexponierten Reste sind ungeordnet, was die Untersuchung der vorhergesagten Oberflächenreste-Wasserstoffbrückenbindungen ausschließt. Asn 14 bildet jedoch wie vorhergesagt einen Helix-N-Cap aus ihrem Seitenketten-Carbonylsauerstoff, jedoch zum Amid von Glu 17 und nicht Lys 16, wie aus der Konstruktion erwartet wurde. Diese Wasserstoffbrückenbindung ist in 95% des Struktur-Ensembles vorhanden und weist einen Donor-Akzeptor-Abstand von 2,6 +/- 0,06 Å auf. Im Allgemeinen stimmen die Seitenketten von FSD-1 gut mit den Konstruktionsprogrammvorhersagen überein.
Ein Vergleich der mittleren eingeschränkten, minimierten Struktur von FSD-1 mit dem Konstruktions-Target wurde durchgeführt (Daten nicht gezeigt). Die insgesamte Gerüstrms-Abweichung von FSD-1 vom Konstruktions-Target beträgt 1,98 Å für Reste 3-26 und nur 0,98 Å für Reste 8-26 (Tabelle 10).
Tabelle 10. Vergleich der experimentell ermittelten Struktur von FSD-1 mit der Struktur des Konstruktions-Targets. Die FSD-1-Struktur ist das eingeschränkte, energieminimierte Mittel aus der NMR-Strukturbestimmung. Die Struktur des Konstruktions-Targets ist das zweite DNA-bindende Modul des Zinkfingers Zif268 (9).
*h, Θ, Ω sind wie früher beschrieben berechnet (36, 37). h ist der Abstand zwischen dem Schwerpunkt der Helix-Cα- Koordinaten (Reste 15-26) und der Ebenenanpassung nach der Methode der kleinsten Quadrate an die Cα-Koordinaten des Faltblattes (Reste 3-12). Θ ist der Inklinationswinkel zwischen dem Hauptmoment der Helix-Cα-Atome und der Faltblattebene. Ω ist der Winkel zwischen der Projektion des Hauptmoments der Helix auf das Faltblatt und der Projektion der mittleren Anpassungsgeraden nach der Methode der kleinsten Quadrate an die Strang-Cα-Koordinaten (Reste 3-6 und 9-12) auf das Faltblatt.
Der größte Unterschied zwischen FSD-1 und der Target-Struktur rührt mit einer Verschiebung von 3,0-3,5 Å der Gerüstatompositionen des Strangs 1 von den Resten 4-7 her. Die Übereinstimmung für Strang 2, der Strang-zu-Helix-Schleife, und der Helix ist mit einem Unterschied nahezu innerhalb der Genauigkeit der Strukturbestimmung bemerkenswert. Für diese Region der Struktur beträgt die rms-Differenz von Φ, Ψ-Winkeln zwischen FSD-1 und dem Konstruktions-Target nur 14 +/- 9º. Um die Ähnlichkeit zwischen FSD-1 und der globalen Faltung des Targets quantitativ zu bestimmen, berechneten die Erfinder ihre Super-Sekundärstruktur-Parameter (Tabelle 9) ()amn und Chothia, J. Mol. Biol. 143, 95 (1980); Su und Mayo, Protein Sci., im Druck (1997)), welche die relativen Orientierungen von Sekundärstruktureinheiten in Proteinen beschreiben. Die Werte für Θ, die Inklination der Helix in Bezug auf das Faltblatt, und Q, der Diederwinkel zwischen der Helix-Achse und den Strangachsen sind nahezu identisch. Die Höhe der Helix über dem Faltblatt für Gb1-Varianten zeigten, das eine Variation der Helix- Höhe von bis zu 1,5 Å nur eine geringe Wirkung auf die Sequenzauswahl ausübt (Su und Mayo (1997), s.o.). Der Vergleich der Sekundärstruktur-Parameterwerte mit den Gerüstkoordinaten hebt die ausgezeichnete Übereinstimmung zwischen der experimentell bestimmten Struktur von FSD-1 und dem Konstruktions-Target hervor und belegt den Erfolg des Algorithmus der Erfinder bei der Berechung einer Sequenz für dieses ββα-Motiv.
Die Güte der Übereinstimmung zwischen FSD-1 und dem Konstruktions-Target beweist die Fähigkeit des Programms der Erfinder, eine Sequenz für eine Faltung zu konstruieren, welche die drei hauptsächlichen Sekundärstrukturelemente von Proteinen enthalten: Faltblatt, Helix und Schleife. Da die ββα-Faltung von denen verschieden ist, die zur Entwicklung des Sequenzauswahlverfahrens verwendet worden ist, stellt die Konstruktion von FSD-1 eine erfolgreiche Übertragung des Programms der Erfinder auf ein neues Motiv dar.

Beispiel 6

Berechnung von Skalierungsfaktoren für die lösungsmittelzugängliche Oberfläche

Im Gegensatz zur vorangegangenen Arbeit werden Gerüstatome in die Berechnung von Oberflächen aufgenommen. Folglich geht die Berechnung der Skalierungsfaktoren folgendermaßen vor sich.
Das Programm BIOGRAF (Molecular Simulations Incorporated, San Diego, CA) wurde angewendet, um explizite Wasserstoffe an den Strukturen zu erzeugen, die dann unter Anwendung des DREIDING-Kräftefeldes für 50 Schritte Konjugat-Gradienten-minimiert wurden. Oberflächen wurden unter Anwendung des Connolly-Algorithmus mit einer Punktdichte von 10 Å-2 unter Verwendung eines Sondenradius von Null und eines Ergänzungsradius von 1,5 Å und Atomradien aus dem DREIDING-Kräftefeld berechnet. Atome, die zur hydrophoben Fläche beitragen sind Kohlenstoff, Schwefel und an Kohlenstoff und Schwefel gebundene Wasserstoffe.
Für jedes Seitenketten-Rotamer r an Resteposition i mit einem lokalen Tripeptidgerüst t3 berechneten die Erfinder A&sup0;irt3, die exponierte Fläche von Rotamer und dessen Gerüst in Gegenwart des lokalen Tripeptid-Gerüsts, und Airt, die exponierte Fläche von Rotamer und dessen Gerüst in Gegenwart des gesamten Templats t, welches das Proteingerüst und alle nicht in die Berechnung aufgenommene Seitenketten umfasst (Fig. 13). Die Differenz zwischen A&sup0;irtt3 und Airt ist die durch das Templat für ein Rotamer r ab Resteposition i verborgene Gesamtfläche. Für jedes Paar von Restepositionen i und j und Rotamere r und s an i bzw. j wird Airist, die exponierte Fläche des Rotamer-Paars in Gegenwart des gesamten Templats berechnet. Die Differenz zwischen Airist und der Summe von Airt und Ajst ist die zwischen Reste i und j verborgene Fläche, ausschließlich der Fläche des Templats. Die paarweise Nährung der insgesamt verborgenen Fläche beträgt: Gleichung 29
Wie in Fig. 13 gezeigt ist, überbewertet die zweite Summe in Gleichung 29 die verborgene Fläche. Die Erfinder haben daher die zweite Summe mit einem Faktor f, dessen Wert empirisch zu ermitteln ist, multipliziert. Die erwarteten Werte für f werden unten diskutiert.
Unter Beachtung des Umstands, dass die verborgenen und exponierten Flächen der Gesamtfläche ΣiA&sup0;irt3 zuzurechnen sind, beträgt die lösungsmittelexponierte Fläche: Gleichung 30
Die erste Summe der Gleichung 30 stellt die insgesamt exponierte Fläche jedes Rotamers im Zusammenhang mit dem Protein-Templat dar, wobei die Wechselwirkungen mit nicht beachtet werden. Die zweite Summe der Gleichung 30 subtrahiert die verborgenen Flächen zwischen den Rotameren und wird durch denselben Parameter f wie in Gleichung 29 skaliert.
Einen gewissen Einblick in den erwartete Wert für f kann aus der Betrachtung eines dichtgepackten, kubisch-flächenzentrieren Gitters Fläche von Kugeln mit einem Radius r erlangt werden. Wenn die Radien von r auf R vergrößert werden, ist die durch eine benachbarte Kugel verborgene Oberfläche an einer Kugel 2nR(R-r). Ist r der Kohlenstoffradius (1,95 Å) und R um 1,4 Å größer, dann gilt:
f = wahre verborgene Fläche/paarweise verborgene Fläche
und ergibt unter Beachtung, dass jede Kugel 12 Nachbarn besitzt:
Die ergibt f = 0,40. Ein dichtgepacktes, kubisch-flächenzentriertes Gitter besitzt einen Packungsanteil von 74%. Proteininnenräume weisen einen ähnlichen Packungsanteil auf, obwohl die Packungsdichte übertrieben ist, weil viele Atome kovalent gebunden sind. Daher sollte dieser Wert für f für echte Proteine niedriger gehalten werden. Für Nicht-Kernreste, wo der Packungsanteil niedriger ist, ist ein etwas höherer Wert für f zu erwarten.
Die Erfinder klassifizierten Reste aus zehn Proteinen einer Größe von 54 bis 289 Resten wie folgt in Kern- und Nicht-Kernreste. Die Erfinder klassifizierten Reste als Kern und Nicht-Kern unter Anwendung eines Algorithmus, der die Richtung des Cα-Cβ-Vektors jeder Seitenkette in Bezug auf die berechnete Oberfläche berücksichtigte, wobei nur die Templat-Cα-Atome mit einem Kohlenstoffradius von 1,95 Å, einem Sondenradius von 8 Å und kein Erweiterungsradius verwendet wurden. Ein Rest wurde als eine Kernposition klassifiziert, wenn sowohl der Abstand von seinem Cα-Atom (entlang seinem Cα-Cβ- Vektor) zur Oberfläche größer als 5,0 Å war, als auch der Abstand von seinem Cβ-Atom zum nächstgelegenen Punkt an der Oberfläche größer als 2,0 Å war. Der Vorteil eines solchen Algorithmus ist der, dass die Kenntnis der an jeder Resteposition tatsächlich vorhandenen Aminosäureart nicht notwendig ist. Bei den Proteinen handelte es sich um diejenigen in Tabelle 1, die ausgewählte Proteine, die Gesamtzahl der Reste und die Anzahl der Reste im Kern und Nicht-Kern jedes Proteins zeigt (Gly und Pro wurden nicht berücksichtigt).
Die Klassifizierung in Kern und Nicht-Kern wurde durchgeführt weil Kernreste miteinander stärker als Nicht-Kern-Reste wechselwirken. Die führt zu höherer Überzählung der verborgenen Oberfläche für Kernreste.
Unter Berücksichtigung der Kern- und Nicht-Kern-Fälle wurde für die zehn Proteine derjenige Wert für f berechnet, der die wahren Lee-Richards-Oberflächen am genauesten wiedergab. Die paarweise Näherung sehr gut mit der wahren verborgenen Oberfläche überein (Daten nicht gezeigt). Sie erbrachte auch für die exponierte, hydrophobe Oberfläche von Nicht-Kern-Resten eine gute Leistung (Daten nicht gezeigt). Die Berechnung der exponierten Oberfläche des gesamten Kerns eines Proteins umfasst die Differenz zweier großer und nahezu identischer Flächen und ist weniger genau; wie gezeigt wird, kann immer noch eine hohe Genauigkeit erzielt werden, wenn ein Gemisch aus Kern- und Nicht-Kern-Resten vorliegt. Diese Berechnungen zeigen an, dass f für Kernreste 0,42 und für Nicht-Kern-Reste 0,79 ist.
Um zu testen, ob die Klassifizierung von Resten in Kern und Nicht-Kern ausreichend war, untersuchten die Erfinder Untergruppen von wechselwirkenden Resten an Kern- und Nicht-Kern-Positionen und verglichen die wahre verborgene Fläche jeder Untergruppe mit der berechneten (unter Verwendung der obigen Werte für f). Für beide Untergruppen des Kerns und Nicht-Kerns blieb die Korrelation hoch (R² = 1,00), was darauf hinweist, dass keine weitere Klassifizierung erforderlich ist (Daten nicht gezeigt). (Untergruppe wurden wie folgt erzeugt: Mit einem gegebenen Startrest wurden durch Anfügen des nächstgelegenen eine Untergruppe der Größe zwei erzeugt: der nächstgelegene Rest wurde für eine Untergruppe der Größe drei angefügt und dies wurde bis zur Größe des Proteins wiederholt. Zusätzliche Untergruppen wurden durch Auswahl anderer Startreste erzeugt).
Es verbleibt die Anwendung dieses Ansatzes auf die Berechnung der verborgenen und exponierten Oberflächen einer beliebigen Auswahl der wechselwirkenden Kern- und Nicht-Kern-Reste in einem Protein. Wenn ein Kern-Rest und ein Nicht-Kern-Rest wechselwirken, kann man die Gleichung 29 ersetzen durch: Gleichung 31
und die Gleichung 30 durch Gleichung 32 ersetzen: Gleichung 32
wobei fi und f die für Reste i bzw. j geeigneten Werte von f sind und f(ij) einen dazwischen liegenden Wert annimmt. Unter Verwendung von Untergruppen aus der Gesamtheit von 1 pga wurde für fij der optimale Wert mit 0,74 ermittelt. Von diesem Wert wurde dann gezeigt, dass er für andere Testproteine geeignet ist (Daten nicht gezeigt).

Claims

1. Verfahren, das von einem Computer unter der Kontrolle eines Programms durchgeführt wird, wobei der Computer einen Speicher zum Speichern des Programms umfasst, wobei das Verfahren folgende Schritte umfasst:

(A) den Erhalt einer Protein-Hauptkettenstruktur mit variablen Restepositionen;

(B) das Klassifizieren jeder variablen Resteposition entweder als Kern-, Oberflächen- oder Randrest;

(C) das Ermitteln einer Gruppe potentieller Rotamere für jede der variablen Restepositionen, worin zumindest eine variable Resteposition Rotamere von zumindest zwei verschiedenen Aminosäureseitenketten aufweist; und

(D) das Analysieren der Wechselwirkung jedes der Romatere mit dem gesamten oder einem Teil des übrigen Proteins, um einen Satz optimierter Proteinsequenzen zu bilden, worin der Schritt des Analysierens die Verwendung zumindest einer Auswertungsfunktion umfasst.

2. Verfahren nach Anspruch 1, worin zumindest eine variable Resteposition einen Oberflächen- oder Randrest umfasst.

3. Verfahren nach Anspruch 1, worin der Schritt des Analysierens eine DEE-Berechnung umfasst.

4. Verfahren nach Anspruch 1, worin der Satz optimierter Proteinsequenzen die global optimale Proteinsequenz umfasst.

5. Verfahren nach Anspruch 1, worin die DEE-Berechnung aus der aus Original-DEE und Goldstein-DEE bestehenden Gruppe ausgewählt ist.

6. Verfahren nach Anspruch 1, worin die Auswertungsfunktion aus der Gruppe ausgewählt ist, die aus Van der Waals-Potential-Auswertungsfunktion, einer Wasserstoffbrüekenbindungs-Potential-Auswertungsfunktion, einer Atom-Solvatisierungs-Auswertungsfunktion, einer elektrostatischen Auswertungsfunktion und einer Sekundärstrukturneigungs-Auswertungsfunktion besteht.

7. Verfahren nach Anspruch 1, worin der Analyseschritt den Einsatz von zumindest drei Auswertungsfunktionen umfasst.

8. Verfahren nach Anspruch 1, worin der Analyseschritt den Einsatz von zumindest vier Auswertungsfunktionen umfasst.

9. Verfahren nach Anspruch 1, das weiters das Testen zumindest eines Elements aus dem Satz umfasst, um Versuchsergebnisse zu erzielen.

10. Verfahren nach Anspruch 4, weiters umfassend:

(D) das Erzeugen einer Rangordnungsliste weiterer optimaler Sequenzen aus der global optimalen Proteinsequenz.

11. Verfahren nach Anspruch 10, worin das Erzeugen den Einsatz einer Monte Carlo- Suche umfasst.

12. Verfahren nach Anspruch 1, worin der Analyseschritt eine Monte Carlo-Suche umfasst.

13. Verfahren nach Anspruch 20, weiters umfassend:

(E) das Testen einiger der oder aller Proteinsequenzen aus der Randordnungsliste, um Testergebnisse der potentiellen Energie zu erzeugen.

14. Verfahren nach Anspruch 13, weiters umfassend:

(F) das Analysieren der Entsprechung zwischen den Testergebnissen der potentiellen Energie und den theoretischen Daten der potentiellen Energie.

15. Computer-lesbarer Speicher, der ein Programm darstellt, wobei das Programm Codemittel umfasst, die, wenn sie in einem Computer ausgeführt werden, folgendes dirigieren:

ein Seitenkettenmodul zur Korrelation einer Gruppe potentielle Rotamere für Resteposifionen eines Proteinhauptkettenmodells, die entweder als Kern-, Oberflächen oder Randreste klassifiziert werden;

ein Reihungsmodul, das zumindest zwei Auswertungsfunktionskomponenten umfasst, um die Wechselwirkung jedes der Rotamere mit dem gesamten oder einem Teil des übrigen Proteins zu analysieren, um einen Satz optimierter Proteinsequenzen zu erzeugen.

16. Computer-lesbarer Speicher nach Anspruch 15, worin die Auswertungskomponente eine Van der Waals-Auswertungsfunktion umfasst.

17. Computer-lesbarer Speicher nach Anspruch 15, worin die Auswertungskomponente eine Atom-Solvatisierungs-Auswertungsfunktion umfasst.

18. Computer-lesbarer Speicher nach Anspruch 15, worin die Auswertungskomponente eine Wasserstoffbrückenbindungs-Auswertungsfunktion umfasst.

19. Computer-lesbarer Speicher nach Anspruch 15, worin die Auswertungskomponente eine Sekundärstruktur-Auswertungsfunktion umfasst.

20. Computer-lesbarer Speicher nach Anspruch 15, der weiters ein Bewertungsmodul zur Bewertung der Entsprechung zwischen Testergebnissen der potentiellen Energie und theoretischen Daten der potentiellen Energie umfasst.