[go: up one dir, main page]

DE19615644C2 - Verfahren zum Sammeln von Speicherauszugsinformationen durch einen Steuerprozessor und Datenverarbeitungsanlage zur Durchführung des Verfahrens - Google Patents

Verfahren zum Sammeln von Speicherauszugsinformationen durch einen Steuerprozessor und Datenverarbeitungsanlage zur Durchführung des Verfahrens

Info

Publication number
DE19615644C2
DE19615644C2 DE19615644A DE19615644A DE19615644C2 DE 19615644 C2 DE19615644 C2 DE 19615644C2 DE 19615644 A DE19615644 A DE 19615644A DE 19615644 A DE19615644 A DE 19615644A DE 19615644 C2 DE19615644 C2 DE 19615644C2
Authority
DE
Germany
Prior art keywords
processor
failed
computing
processors
dumps
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
DE19615644A
Other languages
English (en)
Other versions
DE19615644A1 (de
Inventor
Osamu Inaho
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Publication of DE19615644A1 publication Critical patent/DE19615644A1/de
Application granted granted Critical
Publication of DE19615644C2 publication Critical patent/DE19615644C2/de
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1415Saving, restoring, recovering or retrying at system level
    • G06F11/1438Restarting or rejuvenating
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/22Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Debugging And Monitoring (AREA)
  • Multi Processors (AREA)
  • Hardware Redundancy (AREA)

Description

Die Erfindung betrifft ein Verfahren zum Sammeln von Speicherauszugsinformationen durch einen Steuerprozessor, der in einem Datenverarbeitungssystem Dienst tut, in dem eine Vielzahl von Rechenprozessoren ein Parallelverarbei­ tungsprogramm ausführt nach dem Anspruch 1.
Ferner betrifft die Erfindung eine Datenverarbeitungs­ anlage zur Durchführung des erfindungsgemäßen Verfahrens.
Selbständige Computersysteme sammeln im allgemeinen einen Speicherauszug von ihrem Hauptspeicher oder Sekundär­ speicher, wenn sie abgestürzt sind, und geben ihn zur Be­ seitigung von Fehlern ihres Betriebssystems an einen exter­ nen Speicher aus (vgl. die JP 03-240842 A in: Patent Ab­ stracts of Japan, Unexamined Applications, Section P, Sect. No. 1302, Vol. 16, No. 28, Seite 133).
Im Gegensatz zu den selbständigen Systemen haben Par­ allelcomputersysteme mit verteilter Speicherarchitektur ei­ ne Vielzahl von Rechenprozessoren, die mit einem Netz un­ tereinander verbunden sind, wo jeder Rechenprozessor eine unabhängige CPU und einen Speicher enthält, um unter der Steuerung eines gemeinsamen Parallelverarbeitungsprogramms eine konkurrente Berechnung auszuführen, wobei über das Netz die Datenübertragung und Synchronisierung erfolgt. Das oben beschriebene Speicherauszugssammeln bei Systemausfall erfolgt auch in solchen Parallelcomputersystemen.
Man nimmt zum Beispiel ein herkömmliches Computer­ system, das durch viele Rechenprozessoren organisiert ist, und nimmt an, daß einige der Rechenprozessoren ein gemein­ sames Parallelverarbeitungsprogramm ausführen. Falls in ei­ nem solcher Prozessoren ein Ausfall detektiert wird, er­ folgt bei allen Prozessoren, die das Parallelverarbeitungs­ programm ausführen, mitten in ihrer Operation ein Abbruch. Anschließend werden die Speicherauszüge jener Rechenprozes­ soren gesammelt und als Dateien ausgegeben, die in einer externen Speichereinheit zu speichern sind.
Von jenen Rechenprozessoren, die ihre Speicherauszüge offeriert haben, wird dann bei den Rechenprozessoren, die nicht der ausgefallene sind, nach Vollendung des Speicher­ auszugssammelns ein Wiederanlauf veranlaßt, da sie kein Problem haben dürften.
In der oben beschriebenen Situation ergibt sich die völlig vernünftige Forderung nach Minimierung der Syste­ mausfallzeit (d. h., einer Zeitperiode ab Abbruch bis Wie­ deranlauf) auf Grund eines Fehlers.
Unglücklicherweise dauert es jedoch im allmeinen lange Zeit, um das Schreiben der Speicherauszüge von den Rechen­ prozessoren in die externe Speichereinheit zu vollenden. Ferner wird die Zeit, die zum Schreiben der Speicherauszüge erforderlich ist, durch zunehmenden Speicherverbrauch in modernen Rechenprozessoren immer mehr verlängert. Die ge­ samte Systemausfallzeit nimmt auch proportional zu der An­ zahl von Rechenprozessoren zu, die dem Speicherauszugssam­ meln unterliegen.
All jene Dinge sind für die Nutzer schwerwiegende Nachteile, und deshalb ist es wichtig, die Systemausfall­ zeit soweit wie möglich zu reduzieren.
Die der Erfindung zugrundeliegende Aufgabe besteht darin, ein Verfahren zum Sammeln von Speicherauszugsinfor­ mationen durch einen Steuerprozessor nach dem Anspruch 1 und auch eine Datenverarbeitungseinrichtung zur Durchfüh­ rung des Verfahrens anzugeben, bei dem bzw. bei der eine Ausfallzeit der Datenverarbeitungsanlage aufgrund des Sam­ melns von Speicherauszügen minimiert werden kann.
Diese Aufgabe wird mit Hilfe des erfindungsgemäßen Verfahrens durch die im Anspruch 1 aufgeführten Merkmale gelöst.
Besonders vorteilhafte Ausgestaltungen und Weiterbil­ dungen des erfindungsgemäßen Verfahrens ergeben sich aus dem Unteranspruch 2.
Eine Datenverarbeitungsanlage zur Durchführung des er­ findungsgemäßen Verfahrens ergibt sich aus dem Anspruch 3.
Vorteilhafte Ausgestaltungen und Weiterbildungen der erfindungsgemäßen Datenverarbeitungsanlage ergeben sich aus den Unteransprüchen 4 und 5.
Im folgenden wird die Erfindung anhand von Ausfüh­ rungsbeispielen unter Hinweis auf die Zeichnung näher er­ läutert.
KURZE BESCHREIBUNG DER ZEICHNUNGEN
Fig. 1 ist eine Konzeptansicht der vorliegenden Erfin­ dung;
Fig. 2(A) ist ein Diagramm, das eine spezifische Struk­ tur einer ersten Ausführungsform der vorliegenden Erfindung zeigt;
Fig. 2(B) ist ein Diagramm, das zeigt, wie in der ersten Ausführungsform ein Speicherauszugstreiber von einem Steuerprozessor zu anderen Prozessoren übertragen wird;
Fig. 2(C) ist ein Diagramm, das zeigt, wie die Prozes­ soren in der ersten Ausführungsform ihre Speicherauszüge in einen ausgefallenen Prozessor schreiben;
Fig. 3 ist ein Flußdiagramm, das einen Betriebsablauf in der ersten Ausführungsform zeigt;
Fig. 4(A) ist ein Diagramm, das eine spezifische Struk­ tur einer zweiten Ausführungsform der vorliegenden Erfindung zeigt;
Fig. 4(B) ist ein Diagramm, das zeigt, wie die Prozes­ soren in der zweiten Ausführungsform ihre Speicherauszüge in einen ausgefallenen Prozessor schreiben; und
Fig. 5 ist ein Flußdiagramm, das einen Betriebsablauf in der zweiten Ausführungsform zeigt.
BESCHREIBUNG DER BEVORZUGTEN AUSFÜHRUNGSFORMEN
Unter Bezugnahme auf die Zeichnungen werden unten zwei Ausführungsformen der vorliegenden Erfindung beschrieben.
Zu Beginn wird unten unter Bezugnahme auf Fig. 1 das Prinzip einer ersten Ausführungsform der vorliegenden Erfin­ dung erläutert.
In der ersten Ausführungsform umfaßt das System ein Operationsabbruchmittel 5 zum Vollziehen eines Abbruchs bei einer Vielzahl von Rechenprozessoren 2-4, wenn irgendeiner der Rechenprozessoren 2-4 ( angenommen der Rechenprozessor 4) ausgefallen ist, während ein Parallelverarbeitungspro­ gramm 1 ausgeführt wird, und ein Speicherauszugsschreibmit­ tel 6 zum Schreiben von Speicherauszügen der Rechenprozesso­ ren 2 und 3, die übrigbleiben, wenn der ausgefallene Rechen­ prozessor 4 von den Rechenprozessoren 2-4 ausgenommen wird, in eine interne Speichereinheit in dem ausgefallenen Rechen­ prozessor 4. Das System umfaßt ferner ein Wiederanlaufmittel 7 zum Wiederanlaufenlassen der Rechenprozessoren 2 und 3, die übrigbleiben, wenn der ausgefallene Rechenprozessor 4 von den Rechenprozessoren 2-4 ausgenommen wird, nach Vollen­ dung der Speicherauszugsschreiboperation durch das Speicher­ auszugsschreibmittel 6, und ein Speicherauszugslesemittel 9 zum Lesen der Speicherauszüge der anderen Rechenprozessoren, die in den ausgefallenen Rechenprozessor 4 geschrieben wurden, und eines Speicherauszugs des ausgefallenen Rechen­ prozessors 4 in eine externe Speichereinheit 8.
Fig. 2(A) zeigt eine spezifische Struktur der ersten Ausführungsform. Ein Steuerprozessor 11 und Prozessoren 1215 sind mit einem Kommunikationsnetz 16 untereinander verbunden. Die Prozessoren 12-15, von denen jeder seine eigene interne Speichereinheit und CPU enthält, führen ein Parallelverarbeitungsprogramm 17 aus, wobei sie durch das Kommunikationsnetz 16 Daten untereinander austauschen und synchron sind. Die interne Speichereinheit in jedem Prozes­ sor speichert ein Systemprogramm (Betriebssystem) und Nut­ zerprogramme (Anwendungsprogramme). Wenn irgendwo in dem System eine Störung aufgetreten ist, sollten Informationen in den jeweiligen internen Speichereinheiten der Prozessoren 12-15 herausgezogen werden und zur Untersuchung der Ursache des Systemausfalls gesammelt werden. Solche Informationen, die für Fehlerbeseitigungszwecke gesammelt werden, werden als "Speicherauszug" bezeichnet, und die Akquisition der Speicherauszugsinformationen bezüglich der Systempro­ grammausführung ist besonders erforderlich.
Der Steuerprozessor 11 in Fig. 2(A) fungiert als das Operationsabbruchmittel 5, Wiederanlaufmittel 7 und Spei­ cherauszugslesemittel 9 in Fig. 1. Die Prozessoren 12-15 sehen die Funktion des Speicherauszugsschreibmittels 6 in Fig. 1 vor, indem ein Speicherauszugstreiber (oder ein Speicherauszugssammelprogramm) ausgeführt wird, der von dem Steuerprozessor 11 geliefert wird.
Die Rechenprozessoren 2-4 in Fig. 1 entsprechen den Prozessoren 12-15 in Fig. 2(A), und ähnlich entspricht das Parallelverarbeitungsprogramm 1 dem Parallelverarbeitungs­ programm 17 und das Kommunikationsnetz 10 dem Kommunikati­ onsnetz 16.
Fig. 2(B) zeigt, wie der Speicherauszugstreiber von dem Steuerprozessor 11 zu den Prozessoren 12-15 übertragen wird, wenn der Prozessor 14 ausgefallen ist, und Fig. 2(C) zeigt, wie die Prozessoren 12, 13 und 15 ihre Speicherauszüge in die interne Speichereinheit des ausgefallenen Prozessors 14 schreiben. Jene Funktionen des Steuerprozessors 11, um die Speicherauszüge zu sammeln, werden unter Bezugnahme auf Fig. 3 eingehend beschrieben.
Fig. 3 ist ein Flußdiagramm, das eine Speicherauszugs­ sammelprozedur zeigt, die durch den Steuerprozessor 11 ausgeführt wird. Die folgende Erläuterung erfolgt gemäß den in dem Flußdiagramm gezeigten Schritten.
[Schritt S1] Der Steuerprozessor 11 überwacht die Prozessoren 12-15, um ihren Fehler zu detektieren. Falls irgendein Fehler detektiert wird, vollzieht der Steuerpro­ zessor 11 bei den Prozessoren 12-15 einen Abbruch, die das Parallelverarbeitungsprogramm 17 ausgeführt haben. Der Ausdruck "PE", der in dem Flußdiagramm verwendet wird, steht für "verarbeitendes Element" und bezeichnet in dieser Beschreibung den "Prozessor". Nachfolgend wird angenommen, daß der Prozessor 14 ausgefallen ist.
[Schritt S2] Der Steuerprozessor 11 liefert den Spei­ cherauszugstreiber an den ausgefallenen Prozessor 14, wel­ cher Treiber ein Programm ist, um einen Speicherauszug zu erzeugen und ihn zu einem vorbestimmten Speicherbereich zu bewegen.
[Schritt S3] Der Steuerprozessor 11 liefert den Spei­ cherauszugstreiber an die Prozessoren 12, 13 und 15, den ausgefallenen Prozessor 14 ausgenommen.
[Schritt S4] Durch Ausführen des gelieferten Spei­ cherauszugstreibers lesen die Prozessoren 12, 13 und 15 ihre eigenen Speicherauszüge aus und senden sie zu dem ausgefal­ lenen Prozessor 14. Die Speicherauszüge, die hier erzeugt werden, sind eigentlich Speicherauszüge, die aus skalaren Speicherbereichen der internen Speichereinheiten der Prozes­ soren 12, 13 und 15 erhalten wurden, deren Inhalt das Betriebssystem betrifft.
[Schritt S5] Der ausgefallene Prozessor 14 schreibt die empfangenen Speicherauszüge in seinen lokalen internen Speicher, indem der Speicherauszugstreiber ausgeführt wird. Genauer gesagt, es werden jene Speicherauszüge in die Vek­ torspeicherbereiche geschrieben, die zur Ausführung von Nutzerprogrammen verwendet worden sind. Der Ausdruck "Empfangendes PE", der in Fig. 3 verzeichnet ist, bezeichnet das Prozessorelement, das die Speicherauszüge empfängt und ist eigentlich der ausgefallene Prozessor 14 in Fig. 2(A)-2(C).
Hier sei erwähnt, daß die Zeit, die zum Sammeln der Speicherauszüge erforderlich ist, minimiert werden kann, indem sie in dem ausgefallenen Prozessor 14 erfaßt werden, da von den Prozessoren in dem System der ausgefallene Pro­ zessor 14 selbst die größte Menge an Speicherauszugsdaten produziert.
[Schritt S6] Nachdem die Speicherauszüge vollständig zu dem ausgefallenen Prozessor 14 übertragen sind, weist der Steuerprozessor 11 die Prozessoren 12, 13 und 15 (d. h., die Prozessoren außer dem ausgefallenen Prozessor 14) an, einen Urlader (IPL) auszuführen, um deren Operationen wiederanlau­ fen zu lassen.
[Schritt S7] Der Steuerprozessor 11 liest dann die Speicherauszüge aus, die in dem ausgefallenen Prozessor 14 gespeichert sind und die den Speicherauszug des Prozessors 14 selbst enthalten, und schreibt sie als Datendateien in den externen Speicher. Jene Datendateien werden später zur Fehlerbeseitigung verwendet.
[Schritt S8] Der Steuerprozessor 11 weist schließlich den ausgefallenen Prozessor 14 an, sein IPL-Programm aus zu­ führen, um Operationen wiederanlaufen zu lassen.
Als nächstes wird unten eine zweite Ausführungsform der vorliegenden Erfindung beschrieben.
Fig. 4(A) zeigt eine spezifische Struktur der zweiten Ausführungsform, die nach demselben Grundkonzept konfigu­ riert ist, das in Fig. 1 gezeigt ist. Ein Steuerprozessor 21 in Fig. 4(A) dient als das Operationsabbruchmittel 5, Wie­ deranlaufmittel 7 und Speicherauszugslesemittel 9 in Fig. 1. Prozessoren 22-27 sehen die Funktion des Speicherauszugs­ schreibmittels 6 in Fig. 1 vor, indem ein Speicherauszugs­ treiber (oder ein Speicherauszugssammelprogramm) ausgeführt wird, der von dem in Fig. 4(A) gezeigten Steuerprozessor 21 empfangen wird.
Die Rechenprozessoren 2-4 in Fig. 1 entsprechen den Prozessoren 22-27 in Fig. 4(A), und ähnlich entspricht das Parallelverarbeitungsprogramm 1 einem Parallelverarbeitungs­ programm 29 und das Kommunikationsnetz 10 einem Kommunikati­ onsnetz 28. Fig. 4(A) zeigt eine Situation, bei der die Prozessoren 22-26 das Parallelverarbeitungsprogramm 29 ausführen, der Prozessor 27 aber nicht.
Fig. 4(B) zeigt, wie die Prozessoren 22, 23, 25 und 26 ihre Speicherauszüge in die interne Speichereinheit des ausgefallenen Prozessors 24 schreiben. Im Gegensatz zu der ersten Ausführungsform sieht die zweite Ausführungsform ein System vor, das den Fall, daß die Speicherauszugsdaten zu umfangreich sind, um sie alle in der internen Speicherein­ heit des ausgefallenen Prozessors 24 zu speichern, bewälti­ gen kann. Unter Bezugnahme auf Fig. 5 präsentiert die fol­ gende Beschreibung nun eine andere Möglichkeit zum Sammeln der Speicherauszüge durch den Steuerprozessor 21.
Fig. 5 ist ein Flußdiagramm, das eine Speicherauszugs­ sammelprozedur zeigt, die durch den Steuerprozessor 21 ausgeführt wird. Da dieses Flußdiagramm im wesentlichen denselben Inhalt wie Fig. 3 für die erste Ausführungsform hat, konzentriert sich die folgende Beschreibung auf seine spezifischen Schritte S16 und S17. Die Schritte S11-S15 in Fig. 5 entsprechen den Schritten S1-S5 in Fig. 3, und S18-S20 entsprechen S6-S8.
[Schritt S16] Wenn von den Prozessoren 22-26, die das Parallelverarbeitungsprogramm 29 ausgeführt haben, in dem Prozessor 24 ein Fehler detektiert wird, werden die Spei­ cherauszüge der Prozessoren 22, 23, 25 und 26 in den Prozessor 24 geschrieben (oder in ihm kompiliert). Bei Schritt S16 wird bestimmt, ob die interne Speichereinheit des ausgefal­ lenen Prozessors 24 mit den Speicherauszugsdaten voll gewor­ den ist oder nicht. Falls herausgefunden wird, daß die interne Speichereinheit nicht voll ist und alle übertragenen Speicherauszüge in dem ausgefallenen Prozessor 24 erfolg­ reich gespeichert worden sind, geht der Prozeß zu Schritt S18 über. Falls sie voll ist und nicht alle Speicherauszugs­ daten akzeptieren kann, geht der Prozeß zu Schritt S17 über.
[Schritt S17] Der Steuerprozessor 21 bestimmt, welcher Prozessor die Speicherauszüge empfangen sollte, die unakzep­ tiert bleiben. Mit einem Systemüberwachungsprogramm trifft der Steuerprozessor 21 diese Entscheidung automatisch. Unter erneuter Bezugnahme auf Fig. 4(B) werden zum Beispiel die Prozessoren 25 und 26, die auf der rechten Seite von dem ausgefallenen Prozessor 24 angeordnet sind, und die Prozes­ soren 22 und 23 auf der linken Seite durch den Steuerprozes­ sor 21 sequentiell geprüft, ob sie das Übertragen des Spei­ cherauszuges zu dem ausgefallenen Prozessor 24 vollendet haben oder nicht. Falls es einige Prozessoren gibt, die das Übertragen ihrer Speicherauszüge schon vollendet haben, bestimmt der Steuerprozessor 21 den zuerst herausgefundenen Prozessor dazu, die verbleibenden Speicherauszüge zu empfan­ gen. In dem Fall von Fig. 4(B) wird der Prozessor 25 dazu bestimmt, als Empfänger zu dienen.
Folglich werden bei den weiteren Schritten S14 und S15, die dem Schritt S17 folgen, die verbleibenden Speicheraus­ züge in den Prozessor 25 statt in den Prozessor 24 geschrie­ ben. Bei Schritt S18 wird bei den Prozessoren 22, 23 und 26 ein Wiederanlauf veranlaßt, und bei Schritt S19 werden die Speicherauszüge, die in den Prozessoren 24 und 25 gesammelt wurden, an den externen Speicher (nicht gezeigt) ausgegeben.
Wenn die Gesamtmenge der Speicherauszugsdaten für die interne Speichereinheit in dem ausgefallenen Prozessor 24 zu umfangreich ist, um alle Speicherauszüge zu akzeptieren, wird bei der zweiten Ausführungsform auf oben beschriebene Weise ausschließlich ein Prozessor von jenen, die die Speicherauszugsübertragung vollendet haben, nominiert und der nominierte Prozessor angewiesen, die Speicherauszüge, die unakzeptiert bleiben, zu speichern.
Die oben beschriebene vorliegende Erfindung wird unten zusammengefaßt. Wenn in einem Prozessor von einer Vielzahl von Prozessoren, die ein Parallelverarbeitungsprogramm ausführen, ein Fehler aufgetreten ist, werden die Speicher­ auszüge von den anderen mit ihm verbundenen Prozessoren in dem ausgefallenen Prozessor gesammelt, und danach erfolgt bei den anderen Prozessoren ein Wiederanlauf ihrer Operatio­ nen. Diese strukturelle Anordnung gestattet es, daß die Systemausfallzeit auf Grund des Speicherauszugssammelprozes­ ses kürzer als jene in herkömmlichen Systemen ist, in denen jeder Prozessor seinen Speicherauszug direkt an einen exter­ nen Speicher ausgeben sollte. Die vorliegende Erfindung minimiert somit Nachteile, die Nutzer als Resultat der Störung erleiden können, und verbessert die Zuverlässigkeit des Systems.

Claims (5)

1. Verfahren zum Sammeln von Speicherauszugsinforma­ tionen durch einen Steuerprozessor, der in einem Datenver­ arbeitungssystem Dienst tut, in dem eine Vielzahl von Re­ chenprozessoren ein Parallelverarbeitungsprogramm ausführt, mit den Schritten:
  • (a) Vollziehen eines Abbruchs bei den Rechenpro­ zessoren, wenn einer der Rechenprozessoren ausgefallen ist, während das Parallelverarbeitungsprogramm ausgeführt wird;
  • (b) Liefern eines Speicherauszugssammelprogramms an die Rechenprozessoren;
  • (c) Schreiben von Speicherauszügen der Rechenpro­ zessoren, ausgenommen des ausgefallenen Rechenprozessors, in eine interne Speichereinheit des ausgefallenen Rechen­ prozessors unter Verwendung des genannten Speicherauszugs­ sammelprogramms, das geliefert wurde;
  • (d) Wiederanlaufenlassen der Rechenprozessoren, ausgenommen des ausgefallenen Rechenprozessors, nach Voll­ endung des genannten Schrittes (c);
  • (e) Lesen der Speicherauszüge, die in den ausge­ fallenen Rechenprozessor geschrieben wurden, und Einschrei­ ben der Speicherauszüge des ausgefallenen Rechenprozessors in eine externe Speichereinheit; und
  • (f) Wiederanlaufenlassen des ausgefallenen Re­ chenprozessors nach Vollendung des genannten Schrittes (e).
2. Verfahren nach Anspruch 1, bei dem in dem Fall, wenn die interne Speichereinheit des ausgefallenen Rechen­ prozessors nicht in der Lage ist, alle Speicherauszüge der Rechenprozessoren, ausgenommen des ausgefallenen Rechen­ prozessors, zu akzeptieren,
der genannte Schritt (c) verbleibende Speicher­ aus Züge, die durch den ausgefallenen Rechenprozessor unak­ zeptiert bleiben, in eine interne Speichereinheit in einem anderen Rechenprozessor schreibt, der von den Rechenprozes­ soren ausgewählt wird, deren Speicherauszüge durch den aus­ gefallenen Rechenprozessor akzeptiert worden sind,
der genannte Schritt (d) die Rechenprozessoren, den ausgefallenen Rechenprozessor und den ausgewählten Re­ chenprozessor ausgenommen, wiederanlaufen läßt, und
bei dem genannten Schritt (e) die Speicherauszü­ ge, die in den ausgefallenen Rechenprozessor geschrieben wurden und die Speicherauszüge, die in den ausgewählten Re­ chenprozessor geschrieben wurden, gelesen werden und in die externe Speichereinheit eingeschrieben werden.
3. Datenverarbeitungsanlage zur Durchführung des Verfahrens nach Anspruch 1 oder 2, in welcher eine Vielzahl von Rechenprozessoren ein Parallelverarbeitungsprogramm ausführt, mit:
einer Operationsabbrucheinrichtung zum Vollziehen eines Abbruchs der Operationen bei den Rechenprozessoren, wenn einer der Rechenprozessoren ausgefallen ist, während das Parallelverarbeitungsprogramm ausgeführt wird;
einer Speicherauszugsschreibeinrichtung zum Schreiben von Speicherauszügen der Rechenprozessoren, aus­ genommen des ausgefallenen Rechenprozessors, in eine inter­ ne Speichereinheit des ausgefallenen Rechenprozessors;
einer Speicherauszugsleseeinrichtung zum Lesen der Speicherauszüge, die in den ausgefallenen Rechenprozes­ sor geschrieben wurden, und zum Einschreiben eines Speicheraus­ zugs des ausgefallenen Rechenprozessors in eine externe Speichereinheit;
einer Wiederanlaufeinrichtung zum Wiederanlaufen­ lassen der Rechenprozessoren, ausgenommen des ausgefallenen Rechenprozessors, nachdem die Speicherauszugsschreibeinrich­ tung das Schreiben der Speicherauszüge vollendet hat; und
einer Wiederanlaufeinrichtung zum Wiederanlaufen­ lassen des ausgefallenen Rechenprozessors, nachdem die Speicherauszugsleseeinrichtung das Lesen und Schreiben der Speicherauszü­ ge vollendet hat.
4. Datenverarbeitungsanlage nach Anspruch 3, bei der in dem Fall, wenn die interne Speichereinheit des ausgefallenen Rechenprozessors nicht in der Lage ist, alle Speicherauszüge der Rechenprozessoren, ausgenommen des aus­ gefallenen Rechenprozessors, zu akzeptieren,
die Speicherauszugsschreibeinrichtung verblei­ bende Speicherauszüge, die durch den ausgefallenen Rechen­ prozessor unakzeptiert bleiben, in eine interne Speicher­ einheit in einem anderen Rechenprozessor schreibt, der von den Rechenprozessoren ausgewählt ist, deren Speicherauszüge durch den ausgefallenen Rechenprozessor akzeptiert worden sind,
die Wiederanlaufeinrichtung die Rechenprozesso­ ren, den ausgefallenen Rechenprozessor und den ausgewählten Rechenprozessor ausgenommen, wiederanlaufen läßt, und
die Speicherauszugsleseeinrichtung die Spei­ cherauszüge, die in den ausgefallenen Rechenprozessor ge­ schrieben wurden, die Speicherauszüge, die in den ausge­ wählten Rechenprozessor geschrieben wurden, und den Spei­ cherauszug des ausgefallenen Rechenprozessors liest, um sie in die externe Speichereinheit einzuschreiben.
5. Datenverarbeitungsanlage nach Anspruch 3 oder 4, bei der die Speicherauszüge, die durch die Speicherauszugs­ schreibeinrichtung geschrieben werden, Speicherauszüge be­ züglich eines Betriebssystems sind.
DE19615644A 1995-08-07 1996-04-22 Verfahren zum Sammeln von Speicherauszugsinformationen durch einen Steuerprozessor und Datenverarbeitungsanlage zur Durchführung des Verfahrens Expired - Fee Related DE19615644C2 (de)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP20015495A JP3481737B2 (ja) 1995-08-07 1995-08-07 ダンプ採取装置およびダンプ採取方法

Publications (2)

Publication Number Publication Date
DE19615644A1 DE19615644A1 (de) 1997-02-13
DE19615644C2 true DE19615644C2 (de) 1998-07-09

Family

ID=16419694

Family Applications (1)

Application Number Title Priority Date Filing Date
DE19615644A Expired - Fee Related DE19615644C2 (de) 1995-08-07 1996-04-22 Verfahren zum Sammeln von Speicherauszugsinformationen durch einen Steuerprozessor und Datenverarbeitungsanlage zur Durchführung des Verfahrens

Country Status (3)

Country Link
US (1) US5884019A (de)
JP (1) JP3481737B2 (de)
DE (1) DE19615644C2 (de)

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE19827432C2 (de) 1997-07-25 2001-07-26 Siemens Ag Verfahren zur Speicherung von Rechner-Zustandsdaten bei einem Störfall, der ein anschließendes Wieder-Hochfahren des Rechners erfordert
JP3389842B2 (ja) * 1997-10-08 2003-03-24 トヨタ自動車株式会社 データ修復システム及び車両用データ修復装置並びにデータ修復プログラムを記録した媒体
US6675324B2 (en) * 1999-09-27 2004-01-06 Intel Corporation Rendezvous of processors with OS coordination
US6643802B1 (en) * 2000-04-27 2003-11-04 Ncr Corporation Coordinated multinode dump collection in response to a fault
US6738928B1 (en) * 2000-06-19 2004-05-18 Hewlett-Packard Development Company, L.P. Method and expert system for analysis of crash dumps
US6832342B2 (en) * 2001-03-01 2004-12-14 International Business Machines Corporation Method and apparatus for reducing hardware scan dump data
US6912670B2 (en) * 2002-01-22 2005-06-28 International Business Machines Corporation Processor internal error handling in an SMP server
US6973598B2 (en) * 2002-01-28 2005-12-06 Dell Products L.P. Computer system with improved data capture system
US20050240806A1 (en) * 2004-03-30 2005-10-27 Hewlett-Packard Development Company, L.P. Diagnostic memory dump method in a redundant processor
US8799706B2 (en) * 2004-03-30 2014-08-05 Hewlett-Packard Development Company, L.P. Method and system of exchanging information between processors
US7308609B2 (en) * 2004-04-08 2007-12-11 International Business Machines Corporation Method, data processing system, and computer program product for collecting first failure data capture information
CN1755660B (zh) * 2004-09-28 2010-09-29 惠普开发有限公司 冗余处理器中的诊断存储器转储方法
US7383471B2 (en) * 2004-12-28 2008-06-03 Hewlett-Packard Development Company, L.P. Diagnostic memory dumping
US7590885B2 (en) * 2005-04-26 2009-09-15 Hewlett-Packard Development Company, L.P. Method and system of copying memory from a source processor to a target processor by duplicating memory writes
US9176803B2 (en) 2006-08-14 2015-11-03 International Business Machines Corporation Collecting data from a system in response to an event based on an identification in a file of the data to collect
US8127099B2 (en) * 2006-12-26 2012-02-28 International Business Machines Corporation Resource recovery using borrowed blocks of memory
US8473818B2 (en) * 2009-10-12 2013-06-25 Empire Technology Development Llc Reliable communications in on-chip networks
JP2016042618A (ja) * 2014-08-13 2016-03-31 富士電機株式会社 制御装置及び制御方法
KR20190037666A (ko) * 2017-09-29 2019-04-08 에스케이하이닉스 주식회사 데이터 저장 장치 및 그것의 동작 방법
US11379290B2 (en) 2019-07-17 2022-07-05 International Business Machines Corporation Prioritizing and parallelizing the capture of data for debugging computer programs

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE69021712T2 (de) * 1990-02-08 1996-04-18 Ibm Wiederanlaufkennzeichnungsmechanismus für fehlertolerierende Systeme.
US5634096A (en) * 1994-10-31 1997-05-27 International Business Machines Corporation Using virtual disks for disk system checkpointing

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
JP 03-240842 A in Patent Abstracts of Japan, Section P, Sect.No. 1302, Vol. 16, No. 28, S. 133 *

Also Published As

Publication number Publication date
DE19615644A1 (de) 1997-02-13
JPH0950424A (ja) 1997-02-18
JP3481737B2 (ja) 2003-12-22
US5884019A (en) 1999-03-16

Similar Documents

Publication Publication Date Title
DE19615644C2 (de) Verfahren zum Sammeln von Speicherauszugsinformationen durch einen Steuerprozessor und Datenverarbeitungsanlage zur Durchführung des Verfahrens
DE68922431T2 (de) Datenbasiserholung in einem Rechnersystem nach einem Systemabsturz.
DE69330239T2 (de) Gerät zur fehlertoleranten Rechnung
DE69032337T2 (de) Multiprozessorsystem verwendendes Datenbasisverarbeitungssystem
DE68924119T2 (de) Verfahren und Vorrichtung zum Wiederanlauf nach einem Fehler in einem digitalen Rechnersystem.
DE3508291C2 (de) Datenverarbeitungssystem
DE69718247T2 (de) Speicherverwaltung in fehlertoleranten Computersystemen
DE69712689T2 (de) Prüfpunktrechnersystem
DE69804099T2 (de) Initialisierung von unterteilten datenobjekten
DE102005022192B4 (de) Datensicherungs-Laufwerk mit auswechselbaren Speichermedien zum Sichern von Daten eines Hostcomputers
DE3751949T2 (de) Verfahren zum Starten eines Untersystems in einem verteilten Verarbeitungssystem
DE69622647T2 (de) Wiederherstellbares Plattensteuersystem mit nichtflüchtigem Speicher
DE102007025397B4 (de) System mit mehreren Prozessoren und Verfahren zu seinem Betrieb
DE3850986T2 (de) Verfahren zur Reservekapazitätsverwendung für Fehlererkennung in einem Multiprozessorsystem.
EP0228559A1 (de) Fehlertolerante Mehrrechneranordnung
DE602004002674T2 (de) Speichersystem und Verfahren zur Erfassung und Verwendung von Schnappschüssen
DE69505629T2 (de) Verfahren zur Verwaltung von Rückwärts- und Vorwärtslogbüchern eines Transaktionsobjekts
DE3735828C2 (de) Verfahren zur Wiederaufnahme der Ausführung von Anweisungen nach einer Unterbrechung in einer mikroprogrammgesteuerten Datenverarbeitungsvorrichtung
DE2244402A1 (de) Datenverarbeitungsanlage
DE3842289C2 (de) Verfahren zur Entwicklung von Programmen für ein verteiltes Datenverarbeitungssystem
DE68924736T2 (de) Ablaufverfolgung der Programmausführungswege in einem Rechnersystem.
DE4305522A1 (de) Einrichtung zur automatischen Erzeugung einer Wissensbasis für ein Diagnose-Expertensystem
DE69610785T2 (de) Verbesserter Wiederherstellungsprozess
DE19827432C2 (de) Verfahren zur Speicherung von Rechner-Zustandsdaten bei einem Störfall, der ein anschließendes Wieder-Hochfahren des Rechners erfordert
DE602004003327T2 (de) Computersystem und Verfahren zum Wiederanlauf mittels entferntem Kopieren

Legal Events

Date Code Title Description
OP8 Request for examination as to paragraph 44 patent law
D2 Grant after examination
8364 No opposition during term of opposition
8328 Change in the person/name/address of the agent

Representative=s name: SEEGER SEEGER LINDNER PARTNERSCHAFT PATENTANWAELTE

R119 Application deemed withdrawn, or ip right lapsed, due to non-payment of renewal fee

Effective date: 20121101