DE19615644C2 - Verfahren zum Sammeln von Speicherauszugsinformationen durch einen Steuerprozessor und Datenverarbeitungsanlage zur Durchführung des Verfahrens - Google Patents
Verfahren zum Sammeln von Speicherauszugsinformationen durch einen Steuerprozessor und Datenverarbeitungsanlage zur Durchführung des VerfahrensInfo
- Publication number
- DE19615644C2 DE19615644C2 DE19615644A DE19615644A DE19615644C2 DE 19615644 C2 DE19615644 C2 DE 19615644C2 DE 19615644 A DE19615644 A DE 19615644A DE 19615644 A DE19615644 A DE 19615644A DE 19615644 C2 DE19615644 C2 DE 19615644C2
- Authority
- DE
- Germany
- Prior art keywords
- processor
- failed
- computing
- processors
- dumps
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/14—Error detection or correction of the data by redundancy in operation
- G06F11/1402—Saving, restoring, recovering or retrying
- G06F11/1415—Saving, restoring, recovering or retrying at system level
- G06F11/1438—Restarting or rejuvenating
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/22—Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Quality & Reliability (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Hardware Design (AREA)
- Debugging And Monitoring (AREA)
- Multi Processors (AREA)
- Hardware Redundancy (AREA)
Description
Die Erfindung betrifft ein Verfahren zum Sammeln von
Speicherauszugsinformationen durch einen Steuerprozessor,
der in einem Datenverarbeitungssystem Dienst tut, in dem
eine Vielzahl von Rechenprozessoren ein Parallelverarbei
tungsprogramm ausführt nach dem Anspruch 1.
Ferner betrifft die Erfindung eine Datenverarbeitungs
anlage zur Durchführung des erfindungsgemäßen Verfahrens.
Selbständige Computersysteme sammeln im allgemeinen
einen Speicherauszug von ihrem Hauptspeicher oder Sekundär
speicher, wenn sie abgestürzt sind, und geben ihn zur Be
seitigung von Fehlern ihres Betriebssystems an einen exter
nen Speicher aus (vgl. die JP 03-240842 A in: Patent Ab
stracts of Japan, Unexamined Applications, Section P, Sect.
No. 1302, Vol. 16, No. 28, Seite 133).
Im Gegensatz zu den selbständigen Systemen haben Par
allelcomputersysteme mit verteilter Speicherarchitektur ei
ne Vielzahl von Rechenprozessoren, die mit einem Netz un
tereinander verbunden sind, wo jeder Rechenprozessor eine
unabhängige CPU und einen Speicher enthält, um unter der
Steuerung eines gemeinsamen Parallelverarbeitungsprogramms
eine konkurrente Berechnung auszuführen, wobei über das
Netz die Datenübertragung und Synchronisierung erfolgt. Das
oben beschriebene Speicherauszugssammeln bei Systemausfall
erfolgt auch in solchen Parallelcomputersystemen.
Man nimmt zum Beispiel ein herkömmliches Computer
system, das durch viele Rechenprozessoren organisiert ist,
und nimmt an, daß einige der Rechenprozessoren ein gemein
sames Parallelverarbeitungsprogramm ausführen. Falls in ei
nem solcher Prozessoren ein Ausfall detektiert wird, er
folgt bei allen Prozessoren, die das Parallelverarbeitungs
programm ausführen, mitten in ihrer Operation ein Abbruch.
Anschließend werden die Speicherauszüge jener Rechenprozes
soren gesammelt und als Dateien ausgegeben, die in einer
externen Speichereinheit zu speichern sind.
Von jenen Rechenprozessoren, die ihre Speicherauszüge
offeriert haben, wird dann bei den Rechenprozessoren, die
nicht der ausgefallene sind, nach Vollendung des Speicher
auszugssammelns ein Wiederanlauf veranlaßt, da sie kein
Problem haben dürften.
In der oben beschriebenen Situation ergibt sich die
völlig vernünftige Forderung nach Minimierung der Syste
mausfallzeit (d. h., einer Zeitperiode ab Abbruch bis Wie
deranlauf) auf Grund eines Fehlers.
Unglücklicherweise dauert es jedoch im allmeinen lange
Zeit, um das Schreiben der Speicherauszüge von den Rechen
prozessoren in die externe Speichereinheit zu vollenden.
Ferner wird die Zeit, die zum Schreiben der Speicherauszüge
erforderlich ist, durch zunehmenden Speicherverbrauch in
modernen Rechenprozessoren immer mehr verlängert. Die ge
samte Systemausfallzeit nimmt auch proportional zu der An
zahl von Rechenprozessoren zu, die dem Speicherauszugssam
meln unterliegen.
All jene Dinge sind für die Nutzer schwerwiegende
Nachteile, und deshalb ist es wichtig, die Systemausfall
zeit soweit wie möglich zu reduzieren.
Die der Erfindung zugrundeliegende Aufgabe besteht
darin, ein Verfahren zum Sammeln von Speicherauszugsinfor
mationen durch einen Steuerprozessor nach dem Anspruch 1
und auch eine Datenverarbeitungseinrichtung zur Durchfüh
rung des Verfahrens anzugeben, bei dem bzw. bei der eine
Ausfallzeit der Datenverarbeitungsanlage aufgrund des Sam
melns von Speicherauszügen minimiert werden kann.
Diese Aufgabe wird mit Hilfe des erfindungsgemäßen
Verfahrens durch die im Anspruch 1 aufgeführten Merkmale
gelöst.
Besonders vorteilhafte Ausgestaltungen und Weiterbil
dungen des erfindungsgemäßen Verfahrens ergeben sich aus
dem Unteranspruch 2.
Eine Datenverarbeitungsanlage zur Durchführung des er
findungsgemäßen Verfahrens ergibt sich aus dem Anspruch 3.
Vorteilhafte Ausgestaltungen und Weiterbildungen der
erfindungsgemäßen Datenverarbeitungsanlage ergeben sich aus
den Unteransprüchen 4 und 5.
Im folgenden wird die Erfindung anhand von Ausfüh
rungsbeispielen unter Hinweis auf die Zeichnung näher er
läutert.
Fig. 1 ist eine Konzeptansicht der vorliegenden Erfin
dung;
Fig. 2(A) ist ein Diagramm, das eine spezifische Struk
tur einer ersten Ausführungsform der vorliegenden Erfindung
zeigt;
Fig. 2(B) ist ein Diagramm, das zeigt, wie in der
ersten Ausführungsform ein Speicherauszugstreiber von einem
Steuerprozessor zu anderen Prozessoren übertragen wird;
Fig. 2(C) ist ein Diagramm, das zeigt, wie die Prozes
soren in der ersten Ausführungsform ihre Speicherauszüge in
einen ausgefallenen Prozessor schreiben;
Fig. 3 ist ein Flußdiagramm, das einen Betriebsablauf
in der ersten Ausführungsform zeigt;
Fig. 4(A) ist ein Diagramm, das eine spezifische Struk
tur einer zweiten Ausführungsform der vorliegenden Erfindung
zeigt;
Fig. 4(B) ist ein Diagramm, das zeigt, wie die Prozes
soren in der zweiten Ausführungsform ihre Speicherauszüge in
einen ausgefallenen Prozessor schreiben; und
Fig. 5 ist ein Flußdiagramm, das einen Betriebsablauf
in der zweiten Ausführungsform zeigt.
Unter Bezugnahme auf die Zeichnungen werden unten zwei
Ausführungsformen der vorliegenden Erfindung beschrieben.
Zu Beginn wird unten unter Bezugnahme auf Fig. 1 das
Prinzip einer ersten Ausführungsform der vorliegenden Erfin
dung erläutert.
In der ersten Ausführungsform umfaßt das System ein
Operationsabbruchmittel 5 zum Vollziehen eines Abbruchs bei
einer Vielzahl von Rechenprozessoren 2-4, wenn irgendeiner
der Rechenprozessoren 2-4 ( angenommen der Rechenprozessor
4) ausgefallen ist, während ein Parallelverarbeitungspro
gramm 1 ausgeführt wird, und ein Speicherauszugsschreibmit
tel 6 zum Schreiben von Speicherauszügen der Rechenprozesso
ren 2 und 3, die übrigbleiben, wenn der ausgefallene Rechen
prozessor 4 von den Rechenprozessoren 2-4 ausgenommen wird,
in eine interne Speichereinheit in dem ausgefallenen Rechen
prozessor 4. Das System umfaßt ferner ein Wiederanlaufmittel
7 zum Wiederanlaufenlassen der Rechenprozessoren 2 und 3,
die übrigbleiben, wenn der ausgefallene Rechenprozessor 4
von den Rechenprozessoren 2-4 ausgenommen wird, nach Vollen
dung der Speicherauszugsschreiboperation durch das Speicher
auszugsschreibmittel 6, und ein Speicherauszugslesemittel 9
zum Lesen der Speicherauszüge der anderen Rechenprozessoren,
die in den ausgefallenen Rechenprozessor 4 geschrieben
wurden, und eines Speicherauszugs des ausgefallenen Rechen
prozessors 4 in eine externe Speichereinheit 8.
Fig. 2(A) zeigt eine spezifische Struktur der ersten
Ausführungsform. Ein Steuerprozessor 11 und Prozessoren 12-
15 sind mit einem Kommunikationsnetz 16 untereinander
verbunden. Die Prozessoren 12-15, von denen jeder seine
eigene interne Speichereinheit und CPU enthält, führen ein
Parallelverarbeitungsprogramm 17 aus, wobei sie durch das
Kommunikationsnetz 16 Daten untereinander austauschen und
synchron sind. Die interne Speichereinheit in jedem Prozes
sor speichert ein Systemprogramm (Betriebssystem) und Nut
zerprogramme (Anwendungsprogramme). Wenn irgendwo in dem
System eine Störung aufgetreten ist, sollten Informationen
in den jeweiligen internen Speichereinheiten der Prozessoren
12-15 herausgezogen werden und zur Untersuchung der Ursache
des Systemausfalls gesammelt werden. Solche Informationen,
die für Fehlerbeseitigungszwecke gesammelt werden, werden
als "Speicherauszug" bezeichnet, und die Akquisition der
Speicherauszugsinformationen bezüglich der Systempro
grammausführung ist besonders erforderlich.
Der Steuerprozessor 11 in Fig. 2(A) fungiert als das
Operationsabbruchmittel 5, Wiederanlaufmittel 7 und Spei
cherauszugslesemittel 9 in Fig. 1. Die Prozessoren 12-15
sehen die Funktion des Speicherauszugsschreibmittels 6 in
Fig. 1 vor, indem ein Speicherauszugstreiber (oder ein
Speicherauszugssammelprogramm) ausgeführt wird, der von dem
Steuerprozessor 11 geliefert wird.
Die Rechenprozessoren 2-4 in Fig. 1 entsprechen den
Prozessoren 12-15 in Fig. 2(A), und ähnlich entspricht das
Parallelverarbeitungsprogramm 1 dem Parallelverarbeitungs
programm 17 und das Kommunikationsnetz 10 dem Kommunikati
onsnetz 16.
Fig. 2(B) zeigt, wie der Speicherauszugstreiber von dem
Steuerprozessor 11 zu den Prozessoren 12-15 übertragen wird,
wenn der Prozessor 14 ausgefallen ist, und Fig. 2(C) zeigt,
wie die Prozessoren 12, 13 und 15 ihre Speicherauszüge in
die interne Speichereinheit des ausgefallenen Prozessors 14
schreiben. Jene Funktionen des Steuerprozessors 11, um die
Speicherauszüge zu sammeln, werden unter Bezugnahme auf Fig.
3 eingehend beschrieben.
Fig. 3 ist ein Flußdiagramm, das eine Speicherauszugs
sammelprozedur zeigt, die durch den Steuerprozessor 11
ausgeführt wird. Die folgende Erläuterung erfolgt gemäß den
in dem Flußdiagramm gezeigten Schritten.
[Schritt S1] Der Steuerprozessor 11 überwacht die
Prozessoren 12-15, um ihren Fehler zu detektieren. Falls
irgendein Fehler detektiert wird, vollzieht der Steuerpro
zessor 11 bei den Prozessoren 12-15 einen Abbruch, die das
Parallelverarbeitungsprogramm 17 ausgeführt haben. Der
Ausdruck "PE", der in dem Flußdiagramm verwendet wird, steht
für "verarbeitendes Element" und bezeichnet in dieser
Beschreibung den "Prozessor". Nachfolgend wird angenommen,
daß der Prozessor 14 ausgefallen ist.
[Schritt S2] Der Steuerprozessor 11 liefert den Spei
cherauszugstreiber an den ausgefallenen Prozessor 14, wel
cher Treiber ein Programm ist, um einen Speicherauszug zu
erzeugen und ihn zu einem vorbestimmten Speicherbereich zu
bewegen.
[Schritt S3] Der Steuerprozessor 11 liefert den Spei
cherauszugstreiber an die Prozessoren 12, 13 und 15, den
ausgefallenen Prozessor 14 ausgenommen.
[Schritt S4] Durch Ausführen des gelieferten Spei
cherauszugstreibers lesen die Prozessoren 12, 13 und 15 ihre
eigenen Speicherauszüge aus und senden sie zu dem ausgefal
lenen Prozessor 14. Die Speicherauszüge, die hier erzeugt
werden, sind eigentlich Speicherauszüge, die aus skalaren
Speicherbereichen der internen Speichereinheiten der Prozes
soren 12, 13 und 15 erhalten wurden, deren Inhalt das
Betriebssystem betrifft.
[Schritt S5] Der ausgefallene Prozessor 14 schreibt
die empfangenen Speicherauszüge in seinen lokalen internen
Speicher, indem der Speicherauszugstreiber ausgeführt wird.
Genauer gesagt, es werden jene Speicherauszüge in die Vek
torspeicherbereiche geschrieben, die zur Ausführung von
Nutzerprogrammen verwendet worden sind. Der Ausdruck
"Empfangendes PE", der in Fig. 3 verzeichnet ist, bezeichnet
das Prozessorelement, das die Speicherauszüge empfängt und
ist eigentlich der ausgefallene Prozessor 14 in Fig.
2(A)-2(C).
Hier sei erwähnt, daß die Zeit, die zum Sammeln der
Speicherauszüge erforderlich ist, minimiert werden kann,
indem sie in dem ausgefallenen Prozessor 14 erfaßt werden,
da von den Prozessoren in dem System der ausgefallene Pro
zessor 14 selbst die größte Menge an Speicherauszugsdaten
produziert.
[Schritt S6] Nachdem die Speicherauszüge vollständig
zu dem ausgefallenen Prozessor 14 übertragen sind, weist der
Steuerprozessor 11 die Prozessoren 12, 13 und 15 (d. h., die
Prozessoren außer dem ausgefallenen Prozessor 14) an, einen
Urlader (IPL) auszuführen, um deren Operationen wiederanlau
fen zu lassen.
[Schritt S7] Der Steuerprozessor 11 liest dann die
Speicherauszüge aus, die in dem ausgefallenen Prozessor 14
gespeichert sind und die den Speicherauszug des Prozessors
14 selbst enthalten, und schreibt sie als Datendateien in
den externen Speicher. Jene Datendateien werden später zur
Fehlerbeseitigung verwendet.
[Schritt S8] Der Steuerprozessor 11 weist schließlich
den ausgefallenen Prozessor 14 an, sein IPL-Programm aus zu
führen, um Operationen wiederanlaufen zu lassen.
Als nächstes wird unten eine zweite Ausführungsform der
vorliegenden Erfindung beschrieben.
Fig. 4(A) zeigt eine spezifische Struktur der zweiten
Ausführungsform, die nach demselben Grundkonzept konfigu
riert ist, das in Fig. 1 gezeigt ist. Ein Steuerprozessor 21
in Fig. 4(A) dient als das Operationsabbruchmittel 5, Wie
deranlaufmittel 7 und Speicherauszugslesemittel 9 in Fig. 1.
Prozessoren 22-27 sehen die Funktion des Speicherauszugs
schreibmittels 6 in Fig. 1 vor, indem ein Speicherauszugs
treiber (oder ein Speicherauszugssammelprogramm) ausgeführt
wird, der von dem in Fig. 4(A) gezeigten Steuerprozessor 21
empfangen wird.
Die Rechenprozessoren 2-4 in Fig. 1 entsprechen den
Prozessoren 22-27 in Fig. 4(A), und ähnlich entspricht das
Parallelverarbeitungsprogramm 1 einem Parallelverarbeitungs
programm 29 und das Kommunikationsnetz 10 einem Kommunikati
onsnetz 28. Fig. 4(A) zeigt eine Situation, bei der die
Prozessoren 22-26 das Parallelverarbeitungsprogramm 29
ausführen, der Prozessor 27 aber nicht.
Fig. 4(B) zeigt, wie die Prozessoren 22, 23, 25 und 26
ihre Speicherauszüge in die interne Speichereinheit des
ausgefallenen Prozessors 24 schreiben. Im Gegensatz zu der
ersten Ausführungsform sieht die zweite Ausführungsform ein
System vor, das den Fall, daß die Speicherauszugsdaten zu
umfangreich sind, um sie alle in der internen Speicherein
heit des ausgefallenen Prozessors 24 zu speichern, bewälti
gen kann. Unter Bezugnahme auf Fig. 5 präsentiert die fol
gende Beschreibung nun eine andere Möglichkeit zum Sammeln
der Speicherauszüge durch den Steuerprozessor 21.
Fig. 5 ist ein Flußdiagramm, das eine Speicherauszugs
sammelprozedur zeigt, die durch den Steuerprozessor 21
ausgeführt wird. Da dieses Flußdiagramm im wesentlichen
denselben Inhalt wie Fig. 3 für die erste Ausführungsform
hat, konzentriert sich die folgende Beschreibung auf seine
spezifischen Schritte S16 und S17. Die Schritte S11-S15 in
Fig. 5 entsprechen den Schritten S1-S5 in Fig. 3, und
S18-S20 entsprechen S6-S8.
[Schritt S16] Wenn von den Prozessoren 22-26, die das
Parallelverarbeitungsprogramm 29 ausgeführt haben, in dem
Prozessor 24 ein Fehler detektiert wird, werden die Spei
cherauszüge der Prozessoren 22, 23, 25 und 26 in den Prozessor 24
geschrieben (oder in ihm kompiliert). Bei Schritt S16
wird bestimmt, ob die interne Speichereinheit des ausgefal
lenen Prozessors 24 mit den Speicherauszugsdaten voll gewor
den ist oder nicht. Falls herausgefunden wird, daß die
interne Speichereinheit nicht voll ist und alle übertragenen
Speicherauszüge in dem ausgefallenen Prozessor 24 erfolg
reich gespeichert worden sind, geht der Prozeß zu Schritt
S18 über. Falls sie voll ist und nicht alle Speicherauszugs
daten akzeptieren kann, geht der Prozeß zu Schritt S17 über.
[Schritt S17] Der Steuerprozessor 21 bestimmt, welcher
Prozessor die Speicherauszüge empfangen sollte, die unakzep
tiert bleiben. Mit einem Systemüberwachungsprogramm trifft
der Steuerprozessor 21 diese Entscheidung automatisch. Unter
erneuter Bezugnahme auf Fig. 4(B) werden zum Beispiel die
Prozessoren 25 und 26, die auf der rechten Seite von dem
ausgefallenen Prozessor 24 angeordnet sind, und die Prozes
soren 22 und 23 auf der linken Seite durch den Steuerprozes
sor 21 sequentiell geprüft, ob sie das Übertragen des Spei
cherauszuges zu dem ausgefallenen Prozessor 24 vollendet
haben oder nicht. Falls es einige Prozessoren gibt, die das
Übertragen ihrer Speicherauszüge schon vollendet haben,
bestimmt der Steuerprozessor 21 den zuerst herausgefundenen
Prozessor dazu, die verbleibenden Speicherauszüge zu empfan
gen. In dem Fall von Fig. 4(B) wird der Prozessor 25 dazu
bestimmt, als Empfänger zu dienen.
Folglich werden bei den weiteren Schritten S14 und S15,
die dem Schritt S17 folgen, die verbleibenden Speicheraus
züge in den Prozessor 25 statt in den Prozessor 24 geschrie
ben. Bei Schritt S18 wird bei den Prozessoren 22, 23 und 26
ein Wiederanlauf veranlaßt, und bei Schritt S19 werden die
Speicherauszüge, die in den Prozessoren 24 und 25 gesammelt
wurden, an den externen Speicher (nicht gezeigt) ausgegeben.
Wenn die Gesamtmenge der Speicherauszugsdaten für die
interne Speichereinheit in dem ausgefallenen Prozessor 24 zu
umfangreich ist, um alle Speicherauszüge zu akzeptieren,
wird bei der zweiten Ausführungsform auf oben beschriebene
Weise ausschließlich ein Prozessor von jenen, die die
Speicherauszugsübertragung vollendet haben, nominiert und
der nominierte Prozessor angewiesen, die Speicherauszüge,
die unakzeptiert bleiben, zu speichern.
Die oben beschriebene vorliegende Erfindung wird unten
zusammengefaßt. Wenn in einem Prozessor von einer Vielzahl
von Prozessoren, die ein Parallelverarbeitungsprogramm
ausführen, ein Fehler aufgetreten ist, werden die Speicher
auszüge von den anderen mit ihm verbundenen Prozessoren in
dem ausgefallenen Prozessor gesammelt, und danach erfolgt
bei den anderen Prozessoren ein Wiederanlauf ihrer Operatio
nen. Diese strukturelle Anordnung gestattet es, daß die
Systemausfallzeit auf Grund des Speicherauszugssammelprozes
ses kürzer als jene in herkömmlichen Systemen ist, in denen
jeder Prozessor seinen Speicherauszug direkt an einen exter
nen Speicher ausgeben sollte. Die vorliegende Erfindung
minimiert somit Nachteile, die Nutzer als Resultat der
Störung erleiden können, und verbessert die Zuverlässigkeit
des Systems.
Claims (5)
1. Verfahren zum Sammeln von Speicherauszugsinforma
tionen durch einen Steuerprozessor, der in einem Datenver
arbeitungssystem Dienst tut, in dem eine Vielzahl von Re
chenprozessoren ein Parallelverarbeitungsprogramm ausführt,
mit den Schritten:
- (a) Vollziehen eines Abbruchs bei den Rechenpro zessoren, wenn einer der Rechenprozessoren ausgefallen ist, während das Parallelverarbeitungsprogramm ausgeführt wird;
- (b) Liefern eines Speicherauszugssammelprogramms an die Rechenprozessoren;
- (c) Schreiben von Speicherauszügen der Rechenpro zessoren, ausgenommen des ausgefallenen Rechenprozessors, in eine interne Speichereinheit des ausgefallenen Rechen prozessors unter Verwendung des genannten Speicherauszugs sammelprogramms, das geliefert wurde;
- (d) Wiederanlaufenlassen der Rechenprozessoren, ausgenommen des ausgefallenen Rechenprozessors, nach Voll endung des genannten Schrittes (c);
- (e) Lesen der Speicherauszüge, die in den ausge fallenen Rechenprozessor geschrieben wurden, und Einschrei ben der Speicherauszüge des ausgefallenen Rechenprozessors in eine externe Speichereinheit; und
- (f) Wiederanlaufenlassen des ausgefallenen Re chenprozessors nach Vollendung des genannten Schrittes (e).
2. Verfahren nach Anspruch 1, bei dem in dem Fall,
wenn die interne Speichereinheit des ausgefallenen Rechen
prozessors nicht in der Lage ist, alle Speicherauszüge der
Rechenprozessoren, ausgenommen des ausgefallenen Rechen
prozessors, zu akzeptieren,
der genannte Schritt (c) verbleibende Speicher aus Züge, die durch den ausgefallenen Rechenprozessor unak zeptiert bleiben, in eine interne Speichereinheit in einem anderen Rechenprozessor schreibt, der von den Rechenprozes soren ausgewählt wird, deren Speicherauszüge durch den aus gefallenen Rechenprozessor akzeptiert worden sind,
der genannte Schritt (d) die Rechenprozessoren, den ausgefallenen Rechenprozessor und den ausgewählten Re chenprozessor ausgenommen, wiederanlaufen läßt, und
bei dem genannten Schritt (e) die Speicherauszü ge, die in den ausgefallenen Rechenprozessor geschrieben wurden und die Speicherauszüge, die in den ausgewählten Re chenprozessor geschrieben wurden, gelesen werden und in die externe Speichereinheit eingeschrieben werden.
der genannte Schritt (c) verbleibende Speicher aus Züge, die durch den ausgefallenen Rechenprozessor unak zeptiert bleiben, in eine interne Speichereinheit in einem anderen Rechenprozessor schreibt, der von den Rechenprozes soren ausgewählt wird, deren Speicherauszüge durch den aus gefallenen Rechenprozessor akzeptiert worden sind,
der genannte Schritt (d) die Rechenprozessoren, den ausgefallenen Rechenprozessor und den ausgewählten Re chenprozessor ausgenommen, wiederanlaufen läßt, und
bei dem genannten Schritt (e) die Speicherauszü ge, die in den ausgefallenen Rechenprozessor geschrieben wurden und die Speicherauszüge, die in den ausgewählten Re chenprozessor geschrieben wurden, gelesen werden und in die externe Speichereinheit eingeschrieben werden.
3. Datenverarbeitungsanlage zur Durchführung des
Verfahrens nach Anspruch 1 oder 2, in welcher eine Vielzahl
von Rechenprozessoren ein Parallelverarbeitungsprogramm
ausführt, mit:
einer Operationsabbrucheinrichtung zum Vollziehen eines Abbruchs der Operationen bei den Rechenprozessoren, wenn einer der Rechenprozessoren ausgefallen ist, während das Parallelverarbeitungsprogramm ausgeführt wird;
einer Speicherauszugsschreibeinrichtung zum Schreiben von Speicherauszügen der Rechenprozessoren, aus genommen des ausgefallenen Rechenprozessors, in eine inter ne Speichereinheit des ausgefallenen Rechenprozessors;
einer Speicherauszugsleseeinrichtung zum Lesen der Speicherauszüge, die in den ausgefallenen Rechenprozes sor geschrieben wurden, und zum Einschreiben eines Speicheraus zugs des ausgefallenen Rechenprozessors in eine externe Speichereinheit;
einer Wiederanlaufeinrichtung zum Wiederanlaufen lassen der Rechenprozessoren, ausgenommen des ausgefallenen Rechenprozessors, nachdem die Speicherauszugsschreibeinrich tung das Schreiben der Speicherauszüge vollendet hat; und
einer Wiederanlaufeinrichtung zum Wiederanlaufen lassen des ausgefallenen Rechenprozessors, nachdem die Speicherauszugsleseeinrichtung das Lesen und Schreiben der Speicherauszü ge vollendet hat.
einer Operationsabbrucheinrichtung zum Vollziehen eines Abbruchs der Operationen bei den Rechenprozessoren, wenn einer der Rechenprozessoren ausgefallen ist, während das Parallelverarbeitungsprogramm ausgeführt wird;
einer Speicherauszugsschreibeinrichtung zum Schreiben von Speicherauszügen der Rechenprozessoren, aus genommen des ausgefallenen Rechenprozessors, in eine inter ne Speichereinheit des ausgefallenen Rechenprozessors;
einer Speicherauszugsleseeinrichtung zum Lesen der Speicherauszüge, die in den ausgefallenen Rechenprozes sor geschrieben wurden, und zum Einschreiben eines Speicheraus zugs des ausgefallenen Rechenprozessors in eine externe Speichereinheit;
einer Wiederanlaufeinrichtung zum Wiederanlaufen lassen der Rechenprozessoren, ausgenommen des ausgefallenen Rechenprozessors, nachdem die Speicherauszugsschreibeinrich tung das Schreiben der Speicherauszüge vollendet hat; und
einer Wiederanlaufeinrichtung zum Wiederanlaufen lassen des ausgefallenen Rechenprozessors, nachdem die Speicherauszugsleseeinrichtung das Lesen und Schreiben der Speicherauszü ge vollendet hat.
4. Datenverarbeitungsanlage nach Anspruch 3,
bei der in dem Fall, wenn die interne Speichereinheit des
ausgefallenen Rechenprozessors nicht in der Lage ist, alle
Speicherauszüge der Rechenprozessoren, ausgenommen des aus
gefallenen Rechenprozessors, zu akzeptieren,
die Speicherauszugsschreibeinrichtung verblei bende Speicherauszüge, die durch den ausgefallenen Rechen prozessor unakzeptiert bleiben, in eine interne Speicher einheit in einem anderen Rechenprozessor schreibt, der von den Rechenprozessoren ausgewählt ist, deren Speicherauszüge durch den ausgefallenen Rechenprozessor akzeptiert worden sind,
die Wiederanlaufeinrichtung die Rechenprozesso ren, den ausgefallenen Rechenprozessor und den ausgewählten Rechenprozessor ausgenommen, wiederanlaufen läßt, und
die Speicherauszugsleseeinrichtung die Spei cherauszüge, die in den ausgefallenen Rechenprozessor ge schrieben wurden, die Speicherauszüge, die in den ausge wählten Rechenprozessor geschrieben wurden, und den Spei cherauszug des ausgefallenen Rechenprozessors liest, um sie in die externe Speichereinheit einzuschreiben.
die Speicherauszugsschreibeinrichtung verblei bende Speicherauszüge, die durch den ausgefallenen Rechen prozessor unakzeptiert bleiben, in eine interne Speicher einheit in einem anderen Rechenprozessor schreibt, der von den Rechenprozessoren ausgewählt ist, deren Speicherauszüge durch den ausgefallenen Rechenprozessor akzeptiert worden sind,
die Wiederanlaufeinrichtung die Rechenprozesso ren, den ausgefallenen Rechenprozessor und den ausgewählten Rechenprozessor ausgenommen, wiederanlaufen läßt, und
die Speicherauszugsleseeinrichtung die Spei cherauszüge, die in den ausgefallenen Rechenprozessor ge schrieben wurden, die Speicherauszüge, die in den ausge wählten Rechenprozessor geschrieben wurden, und den Spei cherauszug des ausgefallenen Rechenprozessors liest, um sie in die externe Speichereinheit einzuschreiben.
5. Datenverarbeitungsanlage nach Anspruch 3 oder 4, bei
der die Speicherauszüge, die durch die Speicherauszugs
schreibeinrichtung geschrieben werden, Speicherauszüge be
züglich eines Betriebssystems sind.
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP20015495A JP3481737B2 (ja) | 1995-08-07 | 1995-08-07 | ダンプ採取装置およびダンプ採取方法 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| DE19615644A1 DE19615644A1 (de) | 1997-02-13 |
| DE19615644C2 true DE19615644C2 (de) | 1998-07-09 |
Family
ID=16419694
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| DE19615644A Expired - Fee Related DE19615644C2 (de) | 1995-08-07 | 1996-04-22 | Verfahren zum Sammeln von Speicherauszugsinformationen durch einen Steuerprozessor und Datenverarbeitungsanlage zur Durchführung des Verfahrens |
Country Status (3)
| Country | Link |
|---|---|
| US (1) | US5884019A (de) |
| JP (1) | JP3481737B2 (de) |
| DE (1) | DE19615644C2 (de) |
Families Citing this family (20)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| DE19827432C2 (de) | 1997-07-25 | 2001-07-26 | Siemens Ag | Verfahren zur Speicherung von Rechner-Zustandsdaten bei einem Störfall, der ein anschließendes Wieder-Hochfahren des Rechners erfordert |
| JP3389842B2 (ja) * | 1997-10-08 | 2003-03-24 | トヨタ自動車株式会社 | データ修復システム及び車両用データ修復装置並びにデータ修復プログラムを記録した媒体 |
| US6675324B2 (en) * | 1999-09-27 | 2004-01-06 | Intel Corporation | Rendezvous of processors with OS coordination |
| US6643802B1 (en) * | 2000-04-27 | 2003-11-04 | Ncr Corporation | Coordinated multinode dump collection in response to a fault |
| US6738928B1 (en) * | 2000-06-19 | 2004-05-18 | Hewlett-Packard Development Company, L.P. | Method and expert system for analysis of crash dumps |
| US6832342B2 (en) * | 2001-03-01 | 2004-12-14 | International Business Machines Corporation | Method and apparatus for reducing hardware scan dump data |
| US6912670B2 (en) * | 2002-01-22 | 2005-06-28 | International Business Machines Corporation | Processor internal error handling in an SMP server |
| US6973598B2 (en) * | 2002-01-28 | 2005-12-06 | Dell Products L.P. | Computer system with improved data capture system |
| US20050240806A1 (en) * | 2004-03-30 | 2005-10-27 | Hewlett-Packard Development Company, L.P. | Diagnostic memory dump method in a redundant processor |
| US8799706B2 (en) * | 2004-03-30 | 2014-08-05 | Hewlett-Packard Development Company, L.P. | Method and system of exchanging information between processors |
| US7308609B2 (en) * | 2004-04-08 | 2007-12-11 | International Business Machines Corporation | Method, data processing system, and computer program product for collecting first failure data capture information |
| CN1755660B (zh) * | 2004-09-28 | 2010-09-29 | 惠普开发有限公司 | 冗余处理器中的诊断存储器转储方法 |
| US7383471B2 (en) * | 2004-12-28 | 2008-06-03 | Hewlett-Packard Development Company, L.P. | Diagnostic memory dumping |
| US7590885B2 (en) * | 2005-04-26 | 2009-09-15 | Hewlett-Packard Development Company, L.P. | Method and system of copying memory from a source processor to a target processor by duplicating memory writes |
| US9176803B2 (en) | 2006-08-14 | 2015-11-03 | International Business Machines Corporation | Collecting data from a system in response to an event based on an identification in a file of the data to collect |
| US8127099B2 (en) * | 2006-12-26 | 2012-02-28 | International Business Machines Corporation | Resource recovery using borrowed blocks of memory |
| US8473818B2 (en) * | 2009-10-12 | 2013-06-25 | Empire Technology Development Llc | Reliable communications in on-chip networks |
| JP2016042618A (ja) * | 2014-08-13 | 2016-03-31 | 富士電機株式会社 | 制御装置及び制御方法 |
| KR20190037666A (ko) * | 2017-09-29 | 2019-04-08 | 에스케이하이닉스 주식회사 | 데이터 저장 장치 및 그것의 동작 방법 |
| US11379290B2 (en) | 2019-07-17 | 2022-07-05 | International Business Machines Corporation | Prioritizing and parallelizing the capture of data for debugging computer programs |
Family Cites Families (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| DE69021712T2 (de) * | 1990-02-08 | 1996-04-18 | Ibm | Wiederanlaufkennzeichnungsmechanismus für fehlertolerierende Systeme. |
| US5634096A (en) * | 1994-10-31 | 1997-05-27 | International Business Machines Corporation | Using virtual disks for disk system checkpointing |
-
1995
- 1995-08-07 JP JP20015495A patent/JP3481737B2/ja not_active Expired - Lifetime
-
1996
- 1996-03-29 US US08/623,995 patent/US5884019A/en not_active Expired - Lifetime
- 1996-04-22 DE DE19615644A patent/DE19615644C2/de not_active Expired - Fee Related
Non-Patent Citations (1)
| Title |
|---|
| JP 03-240842 A in Patent Abstracts of Japan, Section P, Sect.No. 1302, Vol. 16, No. 28, S. 133 * |
Also Published As
| Publication number | Publication date |
|---|---|
| DE19615644A1 (de) | 1997-02-13 |
| JPH0950424A (ja) | 1997-02-18 |
| JP3481737B2 (ja) | 2003-12-22 |
| US5884019A (en) | 1999-03-16 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| DE19615644C2 (de) | Verfahren zum Sammeln von Speicherauszugsinformationen durch einen Steuerprozessor und Datenverarbeitungsanlage zur Durchführung des Verfahrens | |
| DE68922431T2 (de) | Datenbasiserholung in einem Rechnersystem nach einem Systemabsturz. | |
| DE69330239T2 (de) | Gerät zur fehlertoleranten Rechnung | |
| DE69032337T2 (de) | Multiprozessorsystem verwendendes Datenbasisverarbeitungssystem | |
| DE68924119T2 (de) | Verfahren und Vorrichtung zum Wiederanlauf nach einem Fehler in einem digitalen Rechnersystem. | |
| DE3508291C2 (de) | Datenverarbeitungssystem | |
| DE69718247T2 (de) | Speicherverwaltung in fehlertoleranten Computersystemen | |
| DE69712689T2 (de) | Prüfpunktrechnersystem | |
| DE69804099T2 (de) | Initialisierung von unterteilten datenobjekten | |
| DE102005022192B4 (de) | Datensicherungs-Laufwerk mit auswechselbaren Speichermedien zum Sichern von Daten eines Hostcomputers | |
| DE3751949T2 (de) | Verfahren zum Starten eines Untersystems in einem verteilten Verarbeitungssystem | |
| DE69622647T2 (de) | Wiederherstellbares Plattensteuersystem mit nichtflüchtigem Speicher | |
| DE102007025397B4 (de) | System mit mehreren Prozessoren und Verfahren zu seinem Betrieb | |
| DE3850986T2 (de) | Verfahren zur Reservekapazitätsverwendung für Fehlererkennung in einem Multiprozessorsystem. | |
| EP0228559A1 (de) | Fehlertolerante Mehrrechneranordnung | |
| DE602004002674T2 (de) | Speichersystem und Verfahren zur Erfassung und Verwendung von Schnappschüssen | |
| DE69505629T2 (de) | Verfahren zur Verwaltung von Rückwärts- und Vorwärtslogbüchern eines Transaktionsobjekts | |
| DE3735828C2 (de) | Verfahren zur Wiederaufnahme der Ausführung von Anweisungen nach einer Unterbrechung in einer mikroprogrammgesteuerten Datenverarbeitungsvorrichtung | |
| DE2244402A1 (de) | Datenverarbeitungsanlage | |
| DE3842289C2 (de) | Verfahren zur Entwicklung von Programmen für ein verteiltes Datenverarbeitungssystem | |
| DE68924736T2 (de) | Ablaufverfolgung der Programmausführungswege in einem Rechnersystem. | |
| DE4305522A1 (de) | Einrichtung zur automatischen Erzeugung einer Wissensbasis für ein Diagnose-Expertensystem | |
| DE69610785T2 (de) | Verbesserter Wiederherstellungsprozess | |
| DE19827432C2 (de) | Verfahren zur Speicherung von Rechner-Zustandsdaten bei einem Störfall, der ein anschließendes Wieder-Hochfahren des Rechners erfordert | |
| DE602004003327T2 (de) | Computersystem und Verfahren zum Wiederanlauf mittels entferntem Kopieren |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| OP8 | Request for examination as to paragraph 44 patent law | ||
| D2 | Grant after examination | ||
| 8364 | No opposition during term of opposition | ||
| 8328 | Change in the person/name/address of the agent |
Representative=s name: SEEGER SEEGER LINDNER PARTNERSCHAFT PATENTANWAELTE |
|
| R119 | Application deemed withdrawn, or ip right lapsed, due to non-payment of renewal fee |
Effective date: 20121101 |