DE19615644A1 - System und Verfahren zum Sammeln von Speicherauszugsinformationen in einem Mehrprozessor-Datenverarbeitungssystem - Google Patents
System und Verfahren zum Sammeln von Speicherauszugsinformationen in einem Mehrprozessor-DatenverarbeitungssystemInfo
- Publication number
- DE19615644A1 DE19615644A1 DE19615644A DE19615644A DE19615644A1 DE 19615644 A1 DE19615644 A1 DE 19615644A1 DE 19615644 A DE19615644 A DE 19615644A DE 19615644 A DE19615644 A DE 19615644A DE 19615644 A1 DE19615644 A1 DE 19615644A1
- Authority
- DE
- Germany
- Prior art keywords
- processor
- failed
- computing
- processors
- dumps
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/14—Error detection or correction of the data by redundancy in operation
- G06F11/1402—Saving, restoring, recovering or retrying
- G06F11/1415—Saving, restoring, recovering or retrying at system level
- G06F11/1438—Restarting or rejuvenating
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/22—Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Quality & Reliability (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Hardware Design (AREA)
- Debugging And Monitoring (AREA)
- Multi Processors (AREA)
- Hardware Redundancy (AREA)
Description
Die vorliegende Erfindung bezieht sich auf ein System
und Verfahren zum Sammeln von Speicherauszugsinformationen
in einem Datenverarbeitungssystem, in dem eine Vielzahl von
Rechenprozessoren ein Parallelverarbeitungsprogramm aus
führt, und spezieller auf ein System und Verfahren zum
Sammeln von einer Vielzahl von Speicherauszügen in einem
Parallelcomputersystem mit verteilter Speicherarchitektur.
Selbständige Computersysteme sammeln im allgemeinen
einen Speicherauszug von ihrem Hauptspeicher oder Sekundär
speicher, wenn sie abgestürzt sind, und geben ihn zur Besei
tigung von Fehlern ihres Betriebssystems an einen externen
Speicher aus.
Im Gegensatz zu den selbständigen Systemen haben Paral
lelcomputersysteme mit verteilter Speicherarchitektur eine
Vielzahl von Rechenprozessoren, die mit einem Netz unterein
ander verbunden sind, wo jeder Rechenprozessor eine unabhän
gige CPU und einen Speicher enthält, um unter der Steuerung
eines gemeinsamen Parallelverarbeitungsprogramms eine kon
kurrente Berechnung aus zuführen, wobei über das Netz die
Datenübertragung und Synchronisierung erfolgt. Das oben
beschriebene Speicherauszugssammeln bei Systemausfall
erfolgt auch in solchen Parallelcomputersystemen.
Man nimmt zum Beispiel ein herkömmliches Computer
system, das durch viele Rechenprozessoren organisiert ist,
und nimmt an, daß einige der Rechenprozessoren ein gemeinsa
mes Parallelverarbeitungsprogramm ausführen. Falls in einem
solcher Prozessoren ein Ausfall detektiert wird, erfolgt bei
allen Prozessoren, die das Parallelverarbeitungsprogramm
ausführen, mitten in ihrer Operation ein Abbruch. Anschlie
ßend werden die Speicherauszüge jener Rechenprozessoren
gesammelt und als Dateien ausgegeben, die in einer externen
Speichereinheit zu speichern sind.
Von jenen Rechenprozessoren, die ihre Speicherauszüge
offeriert haben, wird dann bei den Rechenprozessoren, die
nicht der ausgefallene sind, nach Vollendung des Speicher
auszugssammelns ein Wiederanlauf veranlaßt, da sie kein
Problem haben dürften.
In der oben beschriebenen Situation ergibt sich die
völlig vernünftige Forderung nach Minimierung der Systemaus
fallzeit (d. h., einer Zeitperiode ab Abbruch bis Wieder
anlauf) auf Grund eines Fehlers.
Unglücklicherweise dauert es jedoch im allmeinen lange
Zeit, um das Schreiben der Speicherauszüge von den Rechen
prozessoren in die externe Speichereinheit zu vollenden.
Ferner wird die Zeit, die zum Schreiben der Speicherauszüge
erforderlich ist, durch zunehmenden Speicherverbrauch in
modernen Rechenprozessoren immer mehr verlängert. Die
gesamte Systemausfallzeit nimmt auch proportional zu der
Anzahl von Rechenprozessoren zu, die dem Speicherauszugssam
meln unterliegen.
All jene Dinge sind für die Nutzer schwerwiegende Nach
teile, und deshalb ist es wichtig, die Systemausfallzeit
soweit wie möglich zu reduzieren.
In Erwägung dessen ist es eine Aufgabe der vorliegenden
Erfindung, ein System und Verfahren zum Sammeln von Spei
cherauszugsinformationen in einem System vorzusehen, das
eine Vielzahl von Rechenprozessoren hat, um ein Parallelver
arbeitungsprogramm auszuführen, wodurch eine Ausfallzeit des
Systems auf Grund eines Speicherauszugssammelns minimiert
wird.
Um die obige Aufgabe zu erfüllen, ist gemäß der vorlie
genden Erfindung ein System zum Sammeln von Speicheraus
zugsinformationen in einem System vorgesehen, das eine
Vielzahl von Rechenprozessoren hat, um ein Parallelverarbei
tungsprogramm auszuführen. Das System umfaßt ein Operations
abbruchmittel zum Vollziehen eines Abbruchs bei den Rechen
prozessoren, wenn einer der Rechenprozessoren ausgefallen
ist, während das Parallelverarbeitungsprogramm ausgeführt
wird, und ein Speicherauszugsschreibmittel zum Schreiben von
Speicherauszügen der jeweiligen Rechenprozessoren, ausgenom
men des ausgefallenen Rechenprozessors, in eine interne
Speichereinheit des ausgefallenen Rechenprozessors.
Um die obige Aufgabe zu erfüllen, ist auch ein Verfah
ren zum Sammeln von Speicherauszugsinformationen durch einen
Steuerprozessor vorgesehen, der in einem Datenverarbeitungs
system Dienst tut, in dem eine Vielzahl von Rechenprozesso
ren ein Parallelverarbeitungsprogramm ausführt. Das Verfah
ren umfaßt die folgenden Schritte: (a) Vollziehen eines
Abbruchs bei den Rechenprozessoren, wenn einer der Rechen
prozessoren ausgefallen ist, während das Parallelverarbei
tungsprogramm ausgeführt wird; (b) Liefern eines Speicher
auszugssammelprogramms an die Rechenprozessoren; (c) Schrei
ben von Speicherauszügen der Rechenprozessoren, ausgenommen
des ausgefallenen Rechenprozessors, in eine interne Spei
chereinheit des ausgefallenen Rechenprozessors unter Verwen
dung des Speicherauszugssammelprogramms, das geliefert
wurde; (d) Wiederanlaufenlassen der Rechenprozessoren,
ausgenommen des ausgefallenen Rechenprozessors, nachdem die
Speicherauszüge bei dem genannten Schritt (c) geschrieben
worden sind; und (e) Lesen der Speicherauszüge, die in den
ausgefallenen Rechenprozessor geschrieben wurden, und eines
Speicherauszugs des ausgefallenen Rechenprozessors in eine
externe Speichereinheit.
Die obigen und andere Aufgaben, Merkmale und Vorteile
der vorliegenden Erfindung gehen aus der folgenden Beschrei
bung zusammen mit den beiliegenden Zeichnungen hervor, die
bevorzugte Ausführungsformen der vorliegenden Erfindung als
Beispiel zeigen.
Fig. 1 ist eine Konzeptansicht der vorliegenden Erfin
dung;
Fig. 2(A) ist ein Diagramm, das eine spezifische Struk
tur einer ersten Ausführungsform der vorliegenden Erfindung
zeigt;
Fig. 2(B) ist ein Diagramm, das zeigt, wie in der
ersten Ausführungsform ein Speicherauszugstreiber von einem
Steuerprozessor zu anderen Prozessoren übertragen wird;
Fig. 2(C) ist ein Diagramm, das zeigt, wie die Prozes
soren in der ersten Ausführungsform ihre Speicherauszüge in
einen ausgefallenen Prozessor schreiben;
Fig. 3 ist ein Flußdiagramm, das einen Betriebsablauf
in der ersten Ausführungsform zeigt;
Fig. 4(A) ist ein Diagramm, das eine spezifische Struk
tur einer zweiten Ausführungsform der vorliegenden Erfindung
zeigt;
Fig. 4(B) ist ein Diagramm, das zeigt, wie die Prozes
soren in der zweiten Ausführungsform ihre Speicherauszüge in
einen ausgefallenen Prozessor schreiben; und
Fig. 5 ist ein Flußdiagramm, das einen Betriebsablauf
in der zweiten Ausführungsform zeigt.
Unter Bezugnahme auf die Zeichnungen werden unten zwei
Ausführungsformen der vorliegenden Erfindung beschrieben.
Zu Beginn wird unten unter Bezugnahme auf Fig. 1 das
Prinzip einer ersten Ausführungsform der vorliegenden Erfin
dung erläutert.
In der ersten Ausführungsform umfaßt das System ein
Operationsabbruchmittel 5 zum Vollziehen eines Abbruchs bei
einer Vielzahl von Rechenprozessoren 2-4, wenn irgendeiner
der Rechenprozessoren 2-4 (angenommen der Rechenprozessor
4) ausgefallen ist, während ein Parallelverarbeitungspro
gramm 1 ausgeführt wird, und ein Speicherauszugsschreibmit
tel 6 zum Schreiben von Speicherauszügen der Rechenprozesso
ren 2 und 3, die übrigbleiben, wenn der ausgefallene Rechen
prozessor 4 von den Rechenprozessoren 2-4 ausgenommen wird,
in eine interne Speichereinheit in dem ausgefallenen Rechen
prozessor 4. Das System umfaßt ferner ein Wiederanlaufmittel
7 zum Wiederanlaufenlassen der Rechenprozessoren 2 und 3,
die übrigbleiben, wenn der ausgefallene Rechenprozessor 4
von den Rechenprozessoren 2-4 ausgenommen wird, nach Vollen
dung der Speicherauszugsschreiboperation durch das Speicher
auszugsschreibmittel 6, und ein Speicherauszugslesemittel 9
zum Lesen der Speicherauszüge der anderen Rechenprozessoren,
die in den ausgefallenen Rechenprozessor 4 geschrieben
wurden, und eines Speicherauszugs des ausgefallenen Rechen
prozessors 4 in eine externe Speichereinheit 8.
Fig. 2(A) zeigt eine spezifische Struktur der ersten
Ausführungsform. Ein Steuerprozessor 11 und Prozessoren 12-15
sind mit einem Kommunikationsnetz 16 untereinander
verbunden. Die Prozessoren 12-15, von denen jeder seine
eigene interne Speichereinheit und CPU enthält, führen ein
Parallelverarbeitungsprogramm 17 aus, wobei sie durch das
Kommunikationsnetz 16 Daten untereinander austauschen und
synchron sind. Die interne Speichereinheit in jedem Prozes
sor speichert ein Systemprogramm (Betriebssystem) und Nut
zerprogramme (Anwendungsprogramme). Wenn irgendwo in dem
System eine Störung aufgetreten ist, sollten Informationen
in den jeweiligen internen Speichereinheiten der Prozessoren
12-15 herausgezogen werden und zur Untersuchung der Ursache
des Systemausfalls gesammelt werden. Solche Informationen,
die für Fehlerbeseitigungszwecke gesammelt werden, werden
als "Speicherauszug" bezeichnet, und die Akquisition der
Speicherauszugsinformationen bezüglich der Systempro
grammausführung ist besonders erforderlich.
Der Steuerprozessor 11 in Fig. 2(A) fungiert als das
Operationsabbruchmittel 5, Wiederanlaufmittel 7 und Spei
cherauszugslesemittel 9 in Fig. 1. Die Prozessoren 12-15
sehen die Funktion des Speicherauszugsschreibmittels 6 in
Fig. 1 vor, indem ein Speicherauszugstreiber (oder ein
Speicherauszugssammelprogramm) ausgeführt wird, der von dem
Steuerprozessor 11 geliefert wird.
Die Rechenprozessoren 2-4 in Fig. 1 entsprechen den
Prozessoren 12-15 in Fig. 2(A), und ähnlich entspricht das
Parallelverarbeitungsprogramm 1 dem Parallelverarbeitungs
programm 17 und das Kommunikationsnetz 10 dem Kommunikati
onsnetz 16.
Fig. 2(B) zeigt, wie der Speicherauszugstreiber von dem
Steuerprozessor 11 zu den Prozessoren 12-15 übertragen wird,
wenn der Prozessor 14 ausgefallen ist, und Fig. 2(C) zeigt,
wie die Prozessoren 12, 13 und 15 ihre Speicherauszüge in
die interne Speichereinheit des ausgefallenen Prozessors 14
schreiben. Jene Funktionen des Steuerprozessors 11, um die
Speicherauszüge zu sammeln, werden unter Bezugnahme auf Fig.
3 eingehend beschrieben.
Fig. 3 ist ein Flußdiagramm, das eine Speicherauszugs
sammelprozedur zeigt, die durch den Steuerprozessor 11
ausgeführt wird. Die folgende Erläuterung erfolgt gemäß den
in dem Flußdiagramm gezeigten Schritten.
Der Steuerprozessor 11 überwacht die
Prozessoren 12-15, um ihren Fehler zu detektieren. Falls
irgendein Fehler detektiert wird, vollzieht der Steuerpro
zessor 11 bei den Prozessoren 12-15 einen Abbruch, die das
Parallelverarbeitungsprogramm 17 ausgeführt haben. Der
Ausdruck "PE", der in dem Flußdiagramm verwendet wird, steht
für "verarbeitendes Element" und bezeichnet in dieser
Beschreibung den "Prozessor". Nachfolgend wird angenommen,
daß der Prozessor 14 ausgefallen ist.
Der Steuerprozessor 11 liefert den Spei
cherauszugstreiber an den ausgefallenen Prozessor 14, wel
cher Treiber ein Programm ist, um einen Speicherauszug zu
erzeugen und ihn zu einem vorbestimmten Speicherbereich zu
bewegen.
Der Steuerprozessor 11 liefert den Spei
cherauszugstreiber an die Prozessoren 12, 13 und 15, den
ausgefallenen Prozessor 14 ausgenommen.
Durch Ausführen des gelieferten Spei
cherauszugstreibers lesen die Prozessoren 12, 13 und 15 ihre
eigenen Speicherauszüge aus und senden sie zu dem ausgefal
lenen Prozessor 14. Die Speicherauszüge, die hier erzeugt
werden, sind eigentlich Speicherauszüge, die aus skalaren
Speicherbereichen der internen Speichereinheiten der Prozes
soren 12, 13 und 15 erhalten wurden, deren Inhalt das
Betriebssystem betrifft.
Der ausgefallene Prozessor 14 schreibt
die empfangenen Speicherauszüge in seinen lokalen internen
Speicher, indem der Speicherauszugstreiber ausgeführt wird.
Genauer gesagt, es werden jene Speicherauszüge in die Vek
torspeicherbereiche geschrieben, die zur Ausführung von
Nutzerprogrammen verwendet worden sind. Der Ausdruck
"Empfangendes PE", der in Fig. 3 verzeichnet ist, bezeichnet
das Prozessorelement, das die Speicherauszüge empfängt und
ist eigentlich der ausgefallene Prozessor 14 in Fig.
2(A)-2(C).
Hier sei erwähnt, daß die Zeit, die zum Sammeln der
Speicherauszüge erforderlich ist, minimiert werden kann,
indem sie in dem ausgefallenen Prozessor 14 erfaßt werden,
da von den Prozessoren in dem System der ausgefallene Pro
zessor 14 selbst die größte Menge an Speicherauszugsdaten
produziert.
Nachdem die Speicherauszüge vollständig
zu dem ausgefallenen Prozessor 14 übertragen sind, weist der
Steuerprozessor 11 die Prozessoren 12, 13 und 15 (d. h., die
Prozessoren außer dem ausgefallenen Prozessor 14) an, einen
Urlader (IPL) auszuführen, um deren Operationen wiederanlau
fen zu lassen.
Der Steuerprozessor 11 liest dann die
Speicherauszüge aus, die in dem ausgefallenen Prozessor 14
gespeichert sind und die den Speicherauszug des Prozessors
14 selbst enthalten, und schreibt sie als Datendateien in
den externen Speicher. Jene Datendateien werden später zur
Fehlerbeseitigung verwendet.
Der Steuerprozessor 11 weist schließlich
den ausgefallenen Prozessor 14 an, sein IPL-Programm auszu
führen, um Operationen wiederanlaufen zu lassen.
Als nächstes wird unten eine zweite Ausführungsform der
vorliegenden Erfindung beschrieben.
Fig. 4(A) zeigt eine spezifische Struktur der zweiten
Ausführungsform, die nach demselben Grundkonzept konfigu
riert ist, das in Fig. 1 gezeigt ist. Ein Steuerprozessor 21
in Fig. 4(A) dient als das Operationsabbruchmittel 5, Wie
deranlaufmittel 7 und Speicherauszugslesemittel 9 in Fig. 1.
Prozessoren 22-27 sehen die Funktion des Speicherauszugs
schreibmittels 6 in Fig. 1 vor, indem ein Speicherauszugs
treiber (oder ein Speicherauszugssammelprogramm) ausgeführt
wird, der von dem in Fig. 4(A) gezeigten Steuerprozessor 21
empfangen wird.
Die Rechenprozessoren 2-4 in Fig. 1 entsprechen den
Prozessoren 22-27 in Fig. 4(A), und ähnlich entspricht das
Parallelverarbeitungsprogramm 1 einem Parallelverarbeitungs
programm 29 und das Kommunikationsnetz 10 einem Kommunikati
onsnetz 28. Fig. 4(A) zeigt eine Situation, bei der die
Prozessoren 22-26 das Parallelverarbeitungsprogramm 29
ausführen, der Prozessor 27 aber nicht.
Fig. 4(B) zeigt, wie die Prozessoren 22, 23, 25 und 26
ihre Speicherauszüge in die interne Speichereinheit des
ausgefallenen Prozessors 24 schreiben. Im Gegensatz zu der
ersten Ausführungsform sieht die zweite Ausführungsform ein
System vor, das den Fall, daß die Speicherauszugsdaten zu
umfangreich sind, um sie alle in der internen Speicherein
heit des ausgefallenen Prozessors 24 zu speichern, bewälti
gen kann. Unter Bezugnahme auf Fig. 5 präsentiert die fol
gende Beschreibung nun eine andere Möglichkeit zum Sammeln
der Speicherauszüge durch den Steuerprozessor 21.
Fig. 5 ist ein Flußdiagramm, das eine Speicherauszugs
sammelprozedur zeigt, die durch den Steuerprozessor 21
ausgeführt wird. Da dieses Flußdiagramm im wesentlichen
denselben Inhalt wie Fig. 3 für die erste Ausführungsform
hat, konzentriert sich die folgende Beschreibung auf seine
spezifischen Schritte S16 und S17. Die Schritte S11-S15 in
Fig. 5 entsprechen den Schritten S1-S5 in Fig. 3, und S18-S20
entsprechen S6-S8.
Wenn von den Prozessoren 22-26, die das
Parallelverarbeitungsprogramm 29 ausgeführt haben, in dem
Prozessor 24 ein Fehler detektiert wird, werden die Spei
cherauszüge der Prozessoren 22, 23, 25 und 26 in den Prozes
sor 24 geschrieben (oder in ihm kompiliert). Bei Schritt S16
wird bestimmt, ob die interne Speichereinheit des ausgefal
lenen Prozessors 24 mit den Speicherauszugsdaten voll gewor
den ist oder nicht. Falls herausgefunden wird, daß die
interne Speichereinheit nicht voll ist und alle übertragenen
Speicherauszüge in dem ausgefallenen Prozessor 24 erfolg
reich gespeichert worden sind, geht der Prozeß zu Schritt
S18 über. Falls sie voll ist und nicht alle Speicherauszugs
daten akzeptieren kann, geht der Prozeß zu Schritt S17 über.
Der Steuerprozessor 21 bestimmt, welcher
Prozessor die Speicherauszüge empfangen sollte, die unakzep
tiert bleiben. Mit einem Systemüberwachungsprogramm trifft
der Steuerprozessor 21 diese Entscheidung automatisch. Unter
erneuter Bezugnahme auf Fig. 4(B) werden zum Beispiel die
Prozessoren 25 und 26, die auf der rechten Seite von dem
ausgefallenen Prozessor 24 angeordnet sind, und die Prozes
soren 22 und 23 auf der linken Seite durch den Steuerprozes
sor 21 sequentiell geprüft, ob sie das Übertragen des Spei
cherauszuges zu dem ausgefallenen Prozessor 24 vollendet
haben oder nicht. Falls es einige Prozessoren gibt, die das
Übertragen ihrer Speicherauszüge schon vollendet haben,
bestimmt der Steuerprozessor 21 den zuerst herausgefundenen
Prozessor dazu, die verbleibenden Speicherauszüge zu empfan
gen. In dem Fall von Fig. 4(B) wird der Prozessor 25 dazu
bestimmt, als Empfänger zu dienen.
Folglich werden bei den weiteren Schritten S14 und S15,
die dem Schritt S17 folgen, die verbleibenden Speicheraus
züge in den Prozessor 25 statt in den Prozessor 24 geschrie
ben. Bei Schritt S18 wird bei den Prozessoren 22, 23 und 26
ein Wiederanlauf veranlaßt, und bei Schritt S19 werden die
Speicherauszüge, die in den Prozessoren 24 und 25 gesammelt
wurden, an den externen Speicher (nicht gezeigt) ausgegeben.
Wenn die Gesamtmenge der Speicherauszugsdaten für die
interne Speichereinheit in dem ausgefallenen Prozessor 24 zu
umfangreich ist, um alle Speicherauszüge zu akzeptieren,
wird bei der zweiten Ausführungsform auf oben beschriebene
Weise ausschließlich ein Prozessor von jenen, die die
Speicherauszugsübertragung vollendet haben, nominiert und
der nominierte Prozessor angewiesen, die Speicherauszüge,
die unakzeptiert bleiben, zu speichern.
Die oben beschriebene vorliegende Erfindung wird unten
zusammengefaßt. Wenn in einem Prozessor von einer Vielzahl
von Prozessoren, die ein Parallelverarbeitungsprogramm
ausführen, ein Fehler aufgetreten ist, werden die Speicher
auszüge von den anderen mit ihm verbundenen Prozessoren in
dem ausgefallenen Prozessor gesammelt, und danach erfolgt
bei den anderen Prozessoren ein Wiederanlauf ihrer Operatio
nen. Diese strukturelle Anordnung gestattet es, daß die
Systemausfallzeit auf Grund des Speicherauszugssammelprozes
ses kürzer als jene in herkömmlichen Systemen ist, in denen
jeder Prozessor seinen Speicherauszug direkt an einen exter
nen Speicher ausgeben sollte. Die vorliegende Erfindung
minimiert somit Nachteile, die Nutzer als Resultat der
Störung erleiden können, und verbessert die Zuverlässigkeit
des Systems.
Obiges wird nur als Erläuterung der Prinzipien der vor
liegenden Erfindung betrachtet. Da Fachleute ohne weiteres
auf zahlreiche Abwandlungen und Veränderungen kommen werden,
soll die Erfindung ferner nicht auf die exakte Konstruktion
und gezeigte und beschriebene Anwendungen begrenzt sein, und
daher können alle geeigneten Abwandlungen und Äquivalente
als in den Schutzumfang der Erfindung fallend betrachtet
werden, wie in den beigefügten Ansprüchen definiert, und als
deren Äquivalente.
Claims (9)
1. Ein System zum Sammeln von Speicherauszugsinforma
tionen in einem Datenverarbeitungssystem, in dem eine Viel
zahl von Rechenprozessoren ein Parallelverarbeitungsprogramm
ausführt, mit:
einem Operationsabbruchmittel zum Vollziehen eines Abbruchs bei den Rechenprozessoren, wenn einer der Rechen prozessoren ausgefallen ist, während das Parallelverarbei tungsprogramm ausgeführt wird; und
einem Speicherauszugsschreibmittel zum Schreiben von Speicherauszügen der Rechenprozessoren, ausgenommen des ausgefallenen Rechenprozessors, in eine interne Speicherein heit des ausgefallenen Rechenprozessors.
einem Operationsabbruchmittel zum Vollziehen eines Abbruchs bei den Rechenprozessoren, wenn einer der Rechen prozessoren ausgefallen ist, während das Parallelverarbei tungsprogramm ausgeführt wird; und
einem Speicherauszugsschreibmittel zum Schreiben von Speicherauszügen der Rechenprozessoren, ausgenommen des ausgefallenen Rechenprozessors, in eine interne Speicherein heit des ausgefallenen Rechenprozessors.
2. Ein System nach Anspruch 1, ferner mit einem Wie
deranlaufmittel zum Wiederanlaufenlassen der Rechenprozesso
ren, ausgenommen des ausgefallenen Rechenprozessors, nachdem
das genannte Speicherauszugsschreibmittel das Schreiben der
Speicherauszüge vollendet hat.
3. Ein System nach Anspruch 1 oder 2, ferner mit
einem Speicherauszugslesemittel zum Lesen der
Speicherauszüge, die in den ausgefallenen Rechenprozessor
geschrieben wurden, und eines Speicherauszugs des
ausgefallenen Rechenprozessors in eine externe
Speichereinheit.
4. Ein System nach einem der Ansprüche 1 bis 3,
ferner mit einem Wiederanlaufmittel zum Wiederanlaufenlassen
des ausgefallenen Rechenprozessors, nachdem das genannte
Speicherauszugslesemittel das Lesen der Speicherauszüge
vollendet hat.
5. Ein System nach Anspruch 1, ferner mit:
einem Wiederanlaufmittel zum Wiederanlaufenlassen der Rechenprozessoren, ausgenommen des ausgefallenen Rechen prozessors, nachdem das genannte Speicherauszugsschreibmit tel das Schreiben der Speicherauszüge vollendet hat; und
einem Speicherauszugslesemittel zum Lesen der Speicherauszüge, die in den ausgefallenen Rechenprozessor geschrieben wurden, und eines Speicherauszugs des ausgefal lenen Rechenprozessors in eine externe Speichereinheit,
bei dem in dem Fall, wenn die interne Speicherein heit des ausgefallenen Rechenprozessors nicht in der Lage ist, alle Speicherauszüge der Rechenprozessoren, ausgenommen des ausgefallenen Rechenprozessors, zu akzeptieren,
das genannte Speicherauszugsschreibmittel verblei bende Speicherauszüge, die durch den ausgefallenen Rechen prozessor unakzeptiert bleiben, in eine interne Speicherein heit in einem anderen Rechenprozessor schreibt, der von den Rechenprozessoren ausgewählt ist, deren Speicherauszüge durch den ausgefallenen Rechenprozessor akzeptiert worden sind,
das genannte Wiederanlaufmittel die Rechenprozes soren, den ausgefallenen Rechenprozessor und den ausgewähl ten Rechenprozessor ausgenommen, wiederanlaufen läßt, und
das genannte Speicherauszugslesemittel die Spei cherauszüge, die in den ausgefallenen Rechenprozessor geschrieben wurden, die Speicherauszüge, die in den ausge wählten Rechenprozessor geschrieben wurden, und den Spei cherauszug des ausgefallenen Rechenprozessors in die externe Speichereinheit liest.
einem Wiederanlaufmittel zum Wiederanlaufenlassen der Rechenprozessoren, ausgenommen des ausgefallenen Rechen prozessors, nachdem das genannte Speicherauszugsschreibmit tel das Schreiben der Speicherauszüge vollendet hat; und
einem Speicherauszugslesemittel zum Lesen der Speicherauszüge, die in den ausgefallenen Rechenprozessor geschrieben wurden, und eines Speicherauszugs des ausgefal lenen Rechenprozessors in eine externe Speichereinheit,
bei dem in dem Fall, wenn die interne Speicherein heit des ausgefallenen Rechenprozessors nicht in der Lage ist, alle Speicherauszüge der Rechenprozessoren, ausgenommen des ausgefallenen Rechenprozessors, zu akzeptieren,
das genannte Speicherauszugsschreibmittel verblei bende Speicherauszüge, die durch den ausgefallenen Rechen prozessor unakzeptiert bleiben, in eine interne Speicherein heit in einem anderen Rechenprozessor schreibt, der von den Rechenprozessoren ausgewählt ist, deren Speicherauszüge durch den ausgefallenen Rechenprozessor akzeptiert worden sind,
das genannte Wiederanlaufmittel die Rechenprozes soren, den ausgefallenen Rechenprozessor und den ausgewähl ten Rechenprozessor ausgenommen, wiederanlaufen läßt, und
das genannte Speicherauszugslesemittel die Spei cherauszüge, die in den ausgefallenen Rechenprozessor geschrieben wurden, die Speicherauszüge, die in den ausge wählten Rechenprozessor geschrieben wurden, und den Spei cherauszug des ausgefallenen Rechenprozessors in die externe Speichereinheit liest.
6. Ein System nach einem der Ansprüche 1 bis 5, bei
dem die Speicherauszüge, die durch das genannte
Speicherauszugsschreibmittel geschrieben werden,
Speicherauszüge bezüglich eines Betriebssystems sind.
7. Ein Verfahren zum Sammeln von Speicherauszugs
informationen durch einen Steuerprozessor, der in einem
Datenverarbeitungssystem Dienst tut, in dem eine Vielzahl
von Rechenprozessoren ein Parallelverarbeitungsprogramm
ausführt, mit den Schritten:
- (a) Vollziehen eines Abbruchs bei den Rechenpro zessoren, wenn einer der Rechenprozessoren ausgefallen ist, während das Parallelverarbeitungsprogramm ausgeführt wird;
- (b) Liefern eines Speicherauszugssammelprogramms an die Rechenprozessoren;
- (c) Schreiben von Speicherauszügen der Rechenpro zessoren, ausgenommen des ausgefallenen Rechenprozessors, in eine interne Speichereinheit des ausgefallenen Rechenprozes sors unter Verwendung des genannten Speicherauszugssammel programms, das geliefert wurde;
- (d) Wiederanlaufenlassen der Rechenprozessoren, ausgenommen des ausgefallenen Rechenprozessors, nach Vollen dung des genannten Schrittes (c); und
- (e) Lesen der Speicherauszüge, die in den ausge fallenen Rechenprozessor geschrieben wurden, und eines Speicherauszugs des ausgefallenen Rechenprozessors in eine externe Speichereinheit.
8. Ein Verfahren nach Anspruch 7, ferner mit dem
Schritt:
- (f) Wiederanlaufenlassen des ausgefallenen Rechenprozessors nach Vollendung des genannten Schrittes (e).
9. Ein Verfahren nach Anspruch 7 oder 8, bei dem in
dem Fall, wenn die interne Speichereinheit des ausgefallenen
Rechenprozessors nicht in der Lage ist, alle Speicherauszüge
der Rechenprozessoren, ausgenommen des ausgefallenen Rechen
prozessors, zu akzeptieren,
der genannte Schritt (c) verbleibende Speicheraus züge, die durch den ausgefallenen Rechenprozessor unakzep tiert bleiben, in eine interne Speichereinheit in einem anderen Rechenprozessor schreibt, der von den Rechenprozes soren ausgewählt wird, deren Speicherauszüge durch den ausgefallenen Rechenprozessor akzeptiert worden sind,
der genannte Schritt (d) die Rechenprozessoren, den ausgefallenen Rechenprozessor und den ausgewählten Rechenprozessor ausgenommen, wiederanlaufen läßt, und
der genannte Schritt (e) die Speicherauszüge, die in den ausgefallenen Rechenprozessor geschrieben wurden, die Speicherauszüge, die in den ausgewählten Rechenprozessor geschrieben wurden, und den Speicherauszug des ausgefallenen Rechenprozessors in die externe Speichereinheit liest.
der genannte Schritt (c) verbleibende Speicheraus züge, die durch den ausgefallenen Rechenprozessor unakzep tiert bleiben, in eine interne Speichereinheit in einem anderen Rechenprozessor schreibt, der von den Rechenprozes soren ausgewählt wird, deren Speicherauszüge durch den ausgefallenen Rechenprozessor akzeptiert worden sind,
der genannte Schritt (d) die Rechenprozessoren, den ausgefallenen Rechenprozessor und den ausgewählten Rechenprozessor ausgenommen, wiederanlaufen läßt, und
der genannte Schritt (e) die Speicherauszüge, die in den ausgefallenen Rechenprozessor geschrieben wurden, die Speicherauszüge, die in den ausgewählten Rechenprozessor geschrieben wurden, und den Speicherauszug des ausgefallenen Rechenprozessors in die externe Speichereinheit liest.
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP20015495A JP3481737B2 (ja) | 1995-08-07 | 1995-08-07 | ダンプ採取装置およびダンプ採取方法 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| DE19615644A1 true DE19615644A1 (de) | 1997-02-13 |
| DE19615644C2 DE19615644C2 (de) | 1998-07-09 |
Family
ID=16419694
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| DE19615644A Expired - Fee Related DE19615644C2 (de) | 1995-08-07 | 1996-04-22 | Verfahren zum Sammeln von Speicherauszugsinformationen durch einen Steuerprozessor und Datenverarbeitungsanlage zur Durchführung des Verfahrens |
Country Status (3)
| Country | Link |
|---|---|
| US (1) | US5884019A (de) |
| JP (1) | JP3481737B2 (de) |
| DE (1) | DE19615644C2 (de) |
Cited By (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US6208918B1 (en) | 1997-10-08 | 2001-03-27 | Toyota Jidosha Kabushiki Kaisha | Data recovery system and data recovery program recorded medium |
| DE19827432C2 (de) * | 1997-07-25 | 2001-07-26 | Siemens Ag | Verfahren zur Speicherung von Rechner-Zustandsdaten bei einem Störfall, der ein anschließendes Wieder-Hochfahren des Rechners erfordert |
Families Citing this family (18)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US6675324B2 (en) * | 1999-09-27 | 2004-01-06 | Intel Corporation | Rendezvous of processors with OS coordination |
| US6643802B1 (en) * | 2000-04-27 | 2003-11-04 | Ncr Corporation | Coordinated multinode dump collection in response to a fault |
| US6738928B1 (en) * | 2000-06-19 | 2004-05-18 | Hewlett-Packard Development Company, L.P. | Method and expert system for analysis of crash dumps |
| US6832342B2 (en) * | 2001-03-01 | 2004-12-14 | International Business Machines Corporation | Method and apparatus for reducing hardware scan dump data |
| US6912670B2 (en) * | 2002-01-22 | 2005-06-28 | International Business Machines Corporation | Processor internal error handling in an SMP server |
| US6973598B2 (en) * | 2002-01-28 | 2005-12-06 | Dell Products L.P. | Computer system with improved data capture system |
| US20050240806A1 (en) * | 2004-03-30 | 2005-10-27 | Hewlett-Packard Development Company, L.P. | Diagnostic memory dump method in a redundant processor |
| US8799706B2 (en) * | 2004-03-30 | 2014-08-05 | Hewlett-Packard Development Company, L.P. | Method and system of exchanging information between processors |
| US7308609B2 (en) * | 2004-04-08 | 2007-12-11 | International Business Machines Corporation | Method, data processing system, and computer program product for collecting first failure data capture information |
| CN1755660B (zh) * | 2004-09-28 | 2010-09-29 | 惠普开发有限公司 | 冗余处理器中的诊断存储器转储方法 |
| US7383471B2 (en) * | 2004-12-28 | 2008-06-03 | Hewlett-Packard Development Company, L.P. | Diagnostic memory dumping |
| US7590885B2 (en) * | 2005-04-26 | 2009-09-15 | Hewlett-Packard Development Company, L.P. | Method and system of copying memory from a source processor to a target processor by duplicating memory writes |
| US9176803B2 (en) | 2006-08-14 | 2015-11-03 | International Business Machines Corporation | Collecting data from a system in response to an event based on an identification in a file of the data to collect |
| US8127099B2 (en) * | 2006-12-26 | 2012-02-28 | International Business Machines Corporation | Resource recovery using borrowed blocks of memory |
| US8473818B2 (en) * | 2009-10-12 | 2013-06-25 | Empire Technology Development Llc | Reliable communications in on-chip networks |
| JP2016042618A (ja) * | 2014-08-13 | 2016-03-31 | 富士電機株式会社 | 制御装置及び制御方法 |
| KR20190037666A (ko) * | 2017-09-29 | 2019-04-08 | 에스케이하이닉스 주식회사 | 데이터 저장 장치 및 그것의 동작 방법 |
| US11379290B2 (en) | 2019-07-17 | 2022-07-05 | International Business Machines Corporation | Prioritizing and parallelizing the capture of data for debugging computer programs |
Family Cites Families (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| DE69021712T2 (de) * | 1990-02-08 | 1996-04-18 | Ibm | Wiederanlaufkennzeichnungsmechanismus für fehlertolerierende Systeme. |
| US5634096A (en) * | 1994-10-31 | 1997-05-27 | International Business Machines Corporation | Using virtual disks for disk system checkpointing |
-
1995
- 1995-08-07 JP JP20015495A patent/JP3481737B2/ja not_active Expired - Lifetime
-
1996
- 1996-03-29 US US08/623,995 patent/US5884019A/en not_active Expired - Lifetime
- 1996-04-22 DE DE19615644A patent/DE19615644C2/de not_active Expired - Fee Related
Non-Patent Citations (1)
| Title |
|---|
| JP 03-240842 A in Patent Abstracts of Japan, Section P, Sect.No. 1302, Vol. 16, No. 28, S. 133 * |
Cited By (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| DE19827432C2 (de) * | 1997-07-25 | 2001-07-26 | Siemens Ag | Verfahren zur Speicherung von Rechner-Zustandsdaten bei einem Störfall, der ein anschließendes Wieder-Hochfahren des Rechners erfordert |
| US6279120B1 (en) | 1997-07-25 | 2001-08-21 | Siemens Aktiengesellschaft | Method for storing computer status data given a malfunction that requires a subsequent restarting of the computer |
| US6208918B1 (en) | 1997-10-08 | 2001-03-27 | Toyota Jidosha Kabushiki Kaisha | Data recovery system and data recovery program recorded medium |
| DE19846256B4 (de) * | 1997-10-08 | 2004-05-06 | Toyota Jidosha K.K., Toyota | Datenwiederherstellungssystem und entsprechendes Verfahren sowie computerlesbarer Datenträger |
Also Published As
| Publication number | Publication date |
|---|---|
| JPH0950424A (ja) | 1997-02-18 |
| JP3481737B2 (ja) | 2003-12-22 |
| US5884019A (en) | 1999-03-16 |
| DE19615644C2 (de) | 1998-07-09 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| DE19615644C2 (de) | Verfahren zum Sammeln von Speicherauszugsinformationen durch einen Steuerprozessor und Datenverarbeitungsanlage zur Durchführung des Verfahrens | |
| DE69330239T2 (de) | Gerät zur fehlertoleranten Rechnung | |
| DE4220198C2 (de) | Transaktionsverarbeitungsverfahren für einen digitalen Computer und Transaktionsverarbeitungssystem | |
| DE3508291C2 (de) | Datenverarbeitungssystem | |
| DE69428392T2 (de) | Verfahren und Anordnung zur Klassifizierung und Erfassung von den Protokolldaten | |
| DE60001460T2 (de) | Datenfernkopieren unter verwendung von potentiellen aufhebungsbefehlen | |
| EP0163096B1 (de) | Einrichtung zur Rettung eines Rechnerzustandes | |
| DE68913629T2 (de) | Satzverriegelungsprozessor für vielfachverarbeitungsdatensystem. | |
| DE3781486T2 (de) | Verfahren zur stossfreien umschaltung von aktiven einheiten zu ersatzeinheiten in datenverarbeitungsanlagen und datenverarbeitungsanlage zur durchfuehrung dieses verfahrens. | |
| DE69804099T2 (de) | Initialisierung von unterteilten datenobjekten | |
| DE102005022192B4 (de) | Datensicherungs-Laufwerk mit auswechselbaren Speichermedien zum Sichern von Daten eines Hostcomputers | |
| DE3781873T2 (de) | Rekonfigurierbare rechenanordnung. | |
| DE602004012900T2 (de) | Verfahren zur Analyse von Leistungsinformation | |
| DE69032337T2 (de) | Multiprozessorsystem verwendendes Datenbasisverarbeitungssystem | |
| DE69025507T2 (de) | Gerät zur Sicherung und Wiederherstellung für Digitalrechner | |
| DE3751949T2 (de) | Verfahren zum Starten eines Untersystems in einem verteilten Verarbeitungssystem | |
| DE3629178C2 (de) | ||
| EP0228559A1 (de) | Fehlertolerante Mehrrechneranordnung | |
| DE3850986T2 (de) | Verfahren zur Reservekapazitätsverwendung für Fehlererkennung in einem Multiprozessorsystem. | |
| DE602004002674T2 (de) | Speichersystem und Verfahren zur Erfassung und Verwendung von Schnappschüssen | |
| DE69608797T2 (de) | Verfahren und vorrichtung zum schutz der prozessdatenintegrität auf einem wechselspeichermedium | |
| DE112014001873T5 (de) | Replikation für Hot-Standby-Online-Datenbank | |
| DE3735828C2 (de) | Verfahren zur Wiederaufnahme der Ausführung von Anweisungen nach einer Unterbrechung in einer mikroprogrammgesteuerten Datenverarbeitungsvorrichtung | |
| DE2244402A1 (de) | Datenverarbeitungsanlage | |
| DE19827432C2 (de) | Verfahren zur Speicherung von Rechner-Zustandsdaten bei einem Störfall, der ein anschließendes Wieder-Hochfahren des Rechners erfordert |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| OP8 | Request for examination as to paragraph 44 patent law | ||
| D2 | Grant after examination | ||
| 8364 | No opposition during term of opposition | ||
| 8328 | Change in the person/name/address of the agent |
Representative=s name: SEEGER SEEGER LINDNER PARTNERSCHAFT PATENTANWAELTE |
|
| R119 | Application deemed withdrawn, or ip right lapsed, due to non-payment of renewal fee |
Effective date: 20121101 |