[go: up one dir, main page]

DE19615644A1 - System und Verfahren zum Sammeln von Speicherauszugsinformationen in einem Mehrprozessor-Datenverarbeitungssystem - Google Patents

System und Verfahren zum Sammeln von Speicherauszugsinformationen in einem Mehrprozessor-Datenverarbeitungssystem

Info

Publication number
DE19615644A1
DE19615644A1 DE19615644A DE19615644A DE19615644A1 DE 19615644 A1 DE19615644 A1 DE 19615644A1 DE 19615644 A DE19615644 A DE 19615644A DE 19615644 A DE19615644 A DE 19615644A DE 19615644 A1 DE19615644 A1 DE 19615644A1
Authority
DE
Germany
Prior art keywords
processor
failed
computing
processors
dumps
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
DE19615644A
Other languages
English (en)
Other versions
DE19615644C2 (de
Inventor
Osamu Inaho
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Publication of DE19615644A1 publication Critical patent/DE19615644A1/de
Application granted granted Critical
Publication of DE19615644C2 publication Critical patent/DE19615644C2/de
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1415Saving, restoring, recovering or retrying at system level
    • G06F11/1438Restarting or rejuvenating
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/22Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Debugging And Monitoring (AREA)
  • Multi Processors (AREA)
  • Hardware Redundancy (AREA)

Description

HINTERGRUND DER ERFINDUNG 1. Gebiet der Erfindung
Die vorliegende Erfindung bezieht sich auf ein System und Verfahren zum Sammeln von Speicherauszugsinformationen in einem Datenverarbeitungssystem, in dem eine Vielzahl von Rechenprozessoren ein Parallelverarbeitungsprogramm aus­ führt, und spezieller auf ein System und Verfahren zum Sammeln von einer Vielzahl von Speicherauszügen in einem Parallelcomputersystem mit verteilter Speicherarchitektur.
2. Beschreibung der verwandten Technik
Selbständige Computersysteme sammeln im allgemeinen einen Speicherauszug von ihrem Hauptspeicher oder Sekundär­ speicher, wenn sie abgestürzt sind, und geben ihn zur Besei­ tigung von Fehlern ihres Betriebssystems an einen externen Speicher aus.
Im Gegensatz zu den selbständigen Systemen haben Paral­ lelcomputersysteme mit verteilter Speicherarchitektur eine Vielzahl von Rechenprozessoren, die mit einem Netz unterein­ ander verbunden sind, wo jeder Rechenprozessor eine unabhän­ gige CPU und einen Speicher enthält, um unter der Steuerung eines gemeinsamen Parallelverarbeitungsprogramms eine kon­ kurrente Berechnung aus zuführen, wobei über das Netz die Datenübertragung und Synchronisierung erfolgt. Das oben beschriebene Speicherauszugssammeln bei Systemausfall erfolgt auch in solchen Parallelcomputersystemen.
Man nimmt zum Beispiel ein herkömmliches Computer­ system, das durch viele Rechenprozessoren organisiert ist, und nimmt an, daß einige der Rechenprozessoren ein gemeinsa­ mes Parallelverarbeitungsprogramm ausführen. Falls in einem solcher Prozessoren ein Ausfall detektiert wird, erfolgt bei allen Prozessoren, die das Parallelverarbeitungsprogramm ausführen, mitten in ihrer Operation ein Abbruch. Anschlie­ ßend werden die Speicherauszüge jener Rechenprozessoren gesammelt und als Dateien ausgegeben, die in einer externen Speichereinheit zu speichern sind.
Von jenen Rechenprozessoren, die ihre Speicherauszüge offeriert haben, wird dann bei den Rechenprozessoren, die nicht der ausgefallene sind, nach Vollendung des Speicher­ auszugssammelns ein Wiederanlauf veranlaßt, da sie kein Problem haben dürften.
In der oben beschriebenen Situation ergibt sich die völlig vernünftige Forderung nach Minimierung der Systemaus­ fallzeit (d. h., einer Zeitperiode ab Abbruch bis Wieder­ anlauf) auf Grund eines Fehlers.
Unglücklicherweise dauert es jedoch im allmeinen lange Zeit, um das Schreiben der Speicherauszüge von den Rechen­ prozessoren in die externe Speichereinheit zu vollenden. Ferner wird die Zeit, die zum Schreiben der Speicherauszüge erforderlich ist, durch zunehmenden Speicherverbrauch in modernen Rechenprozessoren immer mehr verlängert. Die gesamte Systemausfallzeit nimmt auch proportional zu der Anzahl von Rechenprozessoren zu, die dem Speicherauszugssam­ meln unterliegen.
All jene Dinge sind für die Nutzer schwerwiegende Nach­ teile, und deshalb ist es wichtig, die Systemausfallzeit soweit wie möglich zu reduzieren.
ZUSAMMENFASSUNG DER ERFINDUNG
In Erwägung dessen ist es eine Aufgabe der vorliegenden Erfindung, ein System und Verfahren zum Sammeln von Spei­ cherauszugsinformationen in einem System vorzusehen, das eine Vielzahl von Rechenprozessoren hat, um ein Parallelver­ arbeitungsprogramm auszuführen, wodurch eine Ausfallzeit des Systems auf Grund eines Speicherauszugssammelns minimiert wird.
Um die obige Aufgabe zu erfüllen, ist gemäß der vorlie­ genden Erfindung ein System zum Sammeln von Speicheraus­ zugsinformationen in einem System vorgesehen, das eine Vielzahl von Rechenprozessoren hat, um ein Parallelverarbei­ tungsprogramm auszuführen. Das System umfaßt ein Operations­ abbruchmittel zum Vollziehen eines Abbruchs bei den Rechen­ prozessoren, wenn einer der Rechenprozessoren ausgefallen ist, während das Parallelverarbeitungsprogramm ausgeführt wird, und ein Speicherauszugsschreibmittel zum Schreiben von Speicherauszügen der jeweiligen Rechenprozessoren, ausgenom­ men des ausgefallenen Rechenprozessors, in eine interne Speichereinheit des ausgefallenen Rechenprozessors.
Um die obige Aufgabe zu erfüllen, ist auch ein Verfah­ ren zum Sammeln von Speicherauszugsinformationen durch einen Steuerprozessor vorgesehen, der in einem Datenverarbeitungs­ system Dienst tut, in dem eine Vielzahl von Rechenprozesso­ ren ein Parallelverarbeitungsprogramm ausführt. Das Verfah­ ren umfaßt die folgenden Schritte: (a) Vollziehen eines Abbruchs bei den Rechenprozessoren, wenn einer der Rechen­ prozessoren ausgefallen ist, während das Parallelverarbei­ tungsprogramm ausgeführt wird; (b) Liefern eines Speicher­ auszugssammelprogramms an die Rechenprozessoren; (c) Schrei­ ben von Speicherauszügen der Rechenprozessoren, ausgenommen des ausgefallenen Rechenprozessors, in eine interne Spei­ chereinheit des ausgefallenen Rechenprozessors unter Verwen­ dung des Speicherauszugssammelprogramms, das geliefert wurde; (d) Wiederanlaufenlassen der Rechenprozessoren, ausgenommen des ausgefallenen Rechenprozessors, nachdem die Speicherauszüge bei dem genannten Schritt (c) geschrieben worden sind; und (e) Lesen der Speicherauszüge, die in den ausgefallenen Rechenprozessor geschrieben wurden, und eines Speicherauszugs des ausgefallenen Rechenprozessors in eine externe Speichereinheit.
Die obigen und andere Aufgaben, Merkmale und Vorteile der vorliegenden Erfindung gehen aus der folgenden Beschrei­ bung zusammen mit den beiliegenden Zeichnungen hervor, die bevorzugte Ausführungsformen der vorliegenden Erfindung als Beispiel zeigen.
KURZE BESCHREIBUNG DER ZEICHNUNGEN
Fig. 1 ist eine Konzeptansicht der vorliegenden Erfin­ dung;
Fig. 2(A) ist ein Diagramm, das eine spezifische Struk­ tur einer ersten Ausführungsform der vorliegenden Erfindung zeigt;
Fig. 2(B) ist ein Diagramm, das zeigt, wie in der ersten Ausführungsform ein Speicherauszugstreiber von einem Steuerprozessor zu anderen Prozessoren übertragen wird;
Fig. 2(C) ist ein Diagramm, das zeigt, wie die Prozes­ soren in der ersten Ausführungsform ihre Speicherauszüge in einen ausgefallenen Prozessor schreiben;
Fig. 3 ist ein Flußdiagramm, das einen Betriebsablauf in der ersten Ausführungsform zeigt;
Fig. 4(A) ist ein Diagramm, das eine spezifische Struk­ tur einer zweiten Ausführungsform der vorliegenden Erfindung zeigt;
Fig. 4(B) ist ein Diagramm, das zeigt, wie die Prozes­ soren in der zweiten Ausführungsform ihre Speicherauszüge in einen ausgefallenen Prozessor schreiben; und
Fig. 5 ist ein Flußdiagramm, das einen Betriebsablauf in der zweiten Ausführungsform zeigt.
BESCHREIBUNG DER BEVORZUGTEN AUS FÜHRUNGSFORMEN
Unter Bezugnahme auf die Zeichnungen werden unten zwei Ausführungsformen der vorliegenden Erfindung beschrieben.
Zu Beginn wird unten unter Bezugnahme auf Fig. 1 das Prinzip einer ersten Ausführungsform der vorliegenden Erfin­ dung erläutert.
In der ersten Ausführungsform umfaßt das System ein Operationsabbruchmittel 5 zum Vollziehen eines Abbruchs bei einer Vielzahl von Rechenprozessoren 2-4, wenn irgendeiner der Rechenprozessoren 2-4 (angenommen der Rechenprozessor 4) ausgefallen ist, während ein Parallelverarbeitungspro­ gramm 1 ausgeführt wird, und ein Speicherauszugsschreibmit­ tel 6 zum Schreiben von Speicherauszügen der Rechenprozesso­ ren 2 und 3, die übrigbleiben, wenn der ausgefallene Rechen­ prozessor 4 von den Rechenprozessoren 2-4 ausgenommen wird, in eine interne Speichereinheit in dem ausgefallenen Rechen­ prozessor 4. Das System umfaßt ferner ein Wiederanlaufmittel 7 zum Wiederanlaufenlassen der Rechenprozessoren 2 und 3, die übrigbleiben, wenn der ausgefallene Rechenprozessor 4 von den Rechenprozessoren 2-4 ausgenommen wird, nach Vollen­ dung der Speicherauszugsschreiboperation durch das Speicher­ auszugsschreibmittel 6, und ein Speicherauszugslesemittel 9 zum Lesen der Speicherauszüge der anderen Rechenprozessoren, die in den ausgefallenen Rechenprozessor 4 geschrieben wurden, und eines Speicherauszugs des ausgefallenen Rechen­ prozessors 4 in eine externe Speichereinheit 8.
Fig. 2(A) zeigt eine spezifische Struktur der ersten Ausführungsform. Ein Steuerprozessor 11 und Prozessoren 12-15 sind mit einem Kommunikationsnetz 16 untereinander verbunden. Die Prozessoren 12-15, von denen jeder seine eigene interne Speichereinheit und CPU enthält, führen ein Parallelverarbeitungsprogramm 17 aus, wobei sie durch das Kommunikationsnetz 16 Daten untereinander austauschen und synchron sind. Die interne Speichereinheit in jedem Prozes­ sor speichert ein Systemprogramm (Betriebssystem) und Nut­ zerprogramme (Anwendungsprogramme). Wenn irgendwo in dem System eine Störung aufgetreten ist, sollten Informationen in den jeweiligen internen Speichereinheiten der Prozessoren 12-15 herausgezogen werden und zur Untersuchung der Ursache des Systemausfalls gesammelt werden. Solche Informationen, die für Fehlerbeseitigungszwecke gesammelt werden, werden als "Speicherauszug" bezeichnet, und die Akquisition der Speicherauszugsinformationen bezüglich der Systempro­ grammausführung ist besonders erforderlich.
Der Steuerprozessor 11 in Fig. 2(A) fungiert als das Operationsabbruchmittel 5, Wiederanlaufmittel 7 und Spei­ cherauszugslesemittel 9 in Fig. 1. Die Prozessoren 12-15 sehen die Funktion des Speicherauszugsschreibmittels 6 in Fig. 1 vor, indem ein Speicherauszugstreiber (oder ein Speicherauszugssammelprogramm) ausgeführt wird, der von dem Steuerprozessor 11 geliefert wird.
Die Rechenprozessoren 2-4 in Fig. 1 entsprechen den Prozessoren 12-15 in Fig. 2(A), und ähnlich entspricht das Parallelverarbeitungsprogramm 1 dem Parallelverarbeitungs­ programm 17 und das Kommunikationsnetz 10 dem Kommunikati­ onsnetz 16.
Fig. 2(B) zeigt, wie der Speicherauszugstreiber von dem Steuerprozessor 11 zu den Prozessoren 12-15 übertragen wird, wenn der Prozessor 14 ausgefallen ist, und Fig. 2(C) zeigt, wie die Prozessoren 12, 13 und 15 ihre Speicherauszüge in die interne Speichereinheit des ausgefallenen Prozessors 14 schreiben. Jene Funktionen des Steuerprozessors 11, um die Speicherauszüge zu sammeln, werden unter Bezugnahme auf Fig. 3 eingehend beschrieben.
Fig. 3 ist ein Flußdiagramm, das eine Speicherauszugs­ sammelprozedur zeigt, die durch den Steuerprozessor 11 ausgeführt wird. Die folgende Erläuterung erfolgt gemäß den in dem Flußdiagramm gezeigten Schritten.
[Schritt S1]
Der Steuerprozessor 11 überwacht die Prozessoren 12-15, um ihren Fehler zu detektieren. Falls irgendein Fehler detektiert wird, vollzieht der Steuerpro­ zessor 11 bei den Prozessoren 12-15 einen Abbruch, die das Parallelverarbeitungsprogramm 17 ausgeführt haben. Der Ausdruck "PE", der in dem Flußdiagramm verwendet wird, steht für "verarbeitendes Element" und bezeichnet in dieser Beschreibung den "Prozessor". Nachfolgend wird angenommen, daß der Prozessor 14 ausgefallen ist.
[Schritt S2]
Der Steuerprozessor 11 liefert den Spei­ cherauszugstreiber an den ausgefallenen Prozessor 14, wel­ cher Treiber ein Programm ist, um einen Speicherauszug zu erzeugen und ihn zu einem vorbestimmten Speicherbereich zu bewegen.
[Schritt S3]
Der Steuerprozessor 11 liefert den Spei­ cherauszugstreiber an die Prozessoren 12, 13 und 15, den ausgefallenen Prozessor 14 ausgenommen.
[Schritt S4]
Durch Ausführen des gelieferten Spei­ cherauszugstreibers lesen die Prozessoren 12, 13 und 15 ihre eigenen Speicherauszüge aus und senden sie zu dem ausgefal­ lenen Prozessor 14. Die Speicherauszüge, die hier erzeugt werden, sind eigentlich Speicherauszüge, die aus skalaren Speicherbereichen der internen Speichereinheiten der Prozes­ soren 12, 13 und 15 erhalten wurden, deren Inhalt das Betriebssystem betrifft.
[Schritt S5]
Der ausgefallene Prozessor 14 schreibt die empfangenen Speicherauszüge in seinen lokalen internen Speicher, indem der Speicherauszugstreiber ausgeführt wird. Genauer gesagt, es werden jene Speicherauszüge in die Vek­ torspeicherbereiche geschrieben, die zur Ausführung von Nutzerprogrammen verwendet worden sind. Der Ausdruck "Empfangendes PE", der in Fig. 3 verzeichnet ist, bezeichnet das Prozessorelement, das die Speicherauszüge empfängt und ist eigentlich der ausgefallene Prozessor 14 in Fig. 2(A)-2(C).
Hier sei erwähnt, daß die Zeit, die zum Sammeln der Speicherauszüge erforderlich ist, minimiert werden kann, indem sie in dem ausgefallenen Prozessor 14 erfaßt werden, da von den Prozessoren in dem System der ausgefallene Pro­ zessor 14 selbst die größte Menge an Speicherauszugsdaten produziert.
[Schritt S6]
Nachdem die Speicherauszüge vollständig zu dem ausgefallenen Prozessor 14 übertragen sind, weist der Steuerprozessor 11 die Prozessoren 12, 13 und 15 (d. h., die Prozessoren außer dem ausgefallenen Prozessor 14) an, einen Urlader (IPL) auszuführen, um deren Operationen wiederanlau­ fen zu lassen.
[Schritt S7]
Der Steuerprozessor 11 liest dann die Speicherauszüge aus, die in dem ausgefallenen Prozessor 14 gespeichert sind und die den Speicherauszug des Prozessors 14 selbst enthalten, und schreibt sie als Datendateien in den externen Speicher. Jene Datendateien werden später zur Fehlerbeseitigung verwendet.
[Schritt S8]
Der Steuerprozessor 11 weist schließlich den ausgefallenen Prozessor 14 an, sein IPL-Programm auszu­ führen, um Operationen wiederanlaufen zu lassen.
Als nächstes wird unten eine zweite Ausführungsform der vorliegenden Erfindung beschrieben.
Fig. 4(A) zeigt eine spezifische Struktur der zweiten Ausführungsform, die nach demselben Grundkonzept konfigu­ riert ist, das in Fig. 1 gezeigt ist. Ein Steuerprozessor 21 in Fig. 4(A) dient als das Operationsabbruchmittel 5, Wie­ deranlaufmittel 7 und Speicherauszugslesemittel 9 in Fig. 1. Prozessoren 22-27 sehen die Funktion des Speicherauszugs­ schreibmittels 6 in Fig. 1 vor, indem ein Speicherauszugs­ treiber (oder ein Speicherauszugssammelprogramm) ausgeführt wird, der von dem in Fig. 4(A) gezeigten Steuerprozessor 21 empfangen wird.
Die Rechenprozessoren 2-4 in Fig. 1 entsprechen den Prozessoren 22-27 in Fig. 4(A), und ähnlich entspricht das Parallelverarbeitungsprogramm 1 einem Parallelverarbeitungs­ programm 29 und das Kommunikationsnetz 10 einem Kommunikati­ onsnetz 28. Fig. 4(A) zeigt eine Situation, bei der die Prozessoren 22-26 das Parallelverarbeitungsprogramm 29 ausführen, der Prozessor 27 aber nicht.
Fig. 4(B) zeigt, wie die Prozessoren 22, 23, 25 und 26 ihre Speicherauszüge in die interne Speichereinheit des ausgefallenen Prozessors 24 schreiben. Im Gegensatz zu der ersten Ausführungsform sieht die zweite Ausführungsform ein System vor, das den Fall, daß die Speicherauszugsdaten zu umfangreich sind, um sie alle in der internen Speicherein­ heit des ausgefallenen Prozessors 24 zu speichern, bewälti­ gen kann. Unter Bezugnahme auf Fig. 5 präsentiert die fol­ gende Beschreibung nun eine andere Möglichkeit zum Sammeln der Speicherauszüge durch den Steuerprozessor 21.
Fig. 5 ist ein Flußdiagramm, das eine Speicherauszugs­ sammelprozedur zeigt, die durch den Steuerprozessor 21 ausgeführt wird. Da dieses Flußdiagramm im wesentlichen denselben Inhalt wie Fig. 3 für die erste Ausführungsform hat, konzentriert sich die folgende Beschreibung auf seine spezifischen Schritte S16 und S17. Die Schritte S11-S15 in Fig. 5 entsprechen den Schritten S1-S5 in Fig. 3, und S18-S20 entsprechen S6-S8.
[Schritt S16]
Wenn von den Prozessoren 22-26, die das Parallelverarbeitungsprogramm 29 ausgeführt haben, in dem Prozessor 24 ein Fehler detektiert wird, werden die Spei­ cherauszüge der Prozessoren 22, 23, 25 und 26 in den Prozes­ sor 24 geschrieben (oder in ihm kompiliert). Bei Schritt S16 wird bestimmt, ob die interne Speichereinheit des ausgefal­ lenen Prozessors 24 mit den Speicherauszugsdaten voll gewor­ den ist oder nicht. Falls herausgefunden wird, daß die interne Speichereinheit nicht voll ist und alle übertragenen Speicherauszüge in dem ausgefallenen Prozessor 24 erfolg­ reich gespeichert worden sind, geht der Prozeß zu Schritt S18 über. Falls sie voll ist und nicht alle Speicherauszugs­ daten akzeptieren kann, geht der Prozeß zu Schritt S17 über.
[Schritt S17]
Der Steuerprozessor 21 bestimmt, welcher Prozessor die Speicherauszüge empfangen sollte, die unakzep­ tiert bleiben. Mit einem Systemüberwachungsprogramm trifft der Steuerprozessor 21 diese Entscheidung automatisch. Unter erneuter Bezugnahme auf Fig. 4(B) werden zum Beispiel die Prozessoren 25 und 26, die auf der rechten Seite von dem ausgefallenen Prozessor 24 angeordnet sind, und die Prozes­ soren 22 und 23 auf der linken Seite durch den Steuerprozes­ sor 21 sequentiell geprüft, ob sie das Übertragen des Spei­ cherauszuges zu dem ausgefallenen Prozessor 24 vollendet haben oder nicht. Falls es einige Prozessoren gibt, die das Übertragen ihrer Speicherauszüge schon vollendet haben, bestimmt der Steuerprozessor 21 den zuerst herausgefundenen Prozessor dazu, die verbleibenden Speicherauszüge zu empfan­ gen. In dem Fall von Fig. 4(B) wird der Prozessor 25 dazu bestimmt, als Empfänger zu dienen.
Folglich werden bei den weiteren Schritten S14 und S15, die dem Schritt S17 folgen, die verbleibenden Speicheraus­ züge in den Prozessor 25 statt in den Prozessor 24 geschrie­ ben. Bei Schritt S18 wird bei den Prozessoren 22, 23 und 26 ein Wiederanlauf veranlaßt, und bei Schritt S19 werden die Speicherauszüge, die in den Prozessoren 24 und 25 gesammelt wurden, an den externen Speicher (nicht gezeigt) ausgegeben.
Wenn die Gesamtmenge der Speicherauszugsdaten für die interne Speichereinheit in dem ausgefallenen Prozessor 24 zu umfangreich ist, um alle Speicherauszüge zu akzeptieren, wird bei der zweiten Ausführungsform auf oben beschriebene Weise ausschließlich ein Prozessor von jenen, die die Speicherauszugsübertragung vollendet haben, nominiert und der nominierte Prozessor angewiesen, die Speicherauszüge, die unakzeptiert bleiben, zu speichern.
Die oben beschriebene vorliegende Erfindung wird unten zusammengefaßt. Wenn in einem Prozessor von einer Vielzahl von Prozessoren, die ein Parallelverarbeitungsprogramm ausführen, ein Fehler aufgetreten ist, werden die Speicher­ auszüge von den anderen mit ihm verbundenen Prozessoren in dem ausgefallenen Prozessor gesammelt, und danach erfolgt bei den anderen Prozessoren ein Wiederanlauf ihrer Operatio­ nen. Diese strukturelle Anordnung gestattet es, daß die Systemausfallzeit auf Grund des Speicherauszugssammelprozes­ ses kürzer als jene in herkömmlichen Systemen ist, in denen jeder Prozessor seinen Speicherauszug direkt an einen exter­ nen Speicher ausgeben sollte. Die vorliegende Erfindung minimiert somit Nachteile, die Nutzer als Resultat der Störung erleiden können, und verbessert die Zuverlässigkeit des Systems.
Obiges wird nur als Erläuterung der Prinzipien der vor­ liegenden Erfindung betrachtet. Da Fachleute ohne weiteres auf zahlreiche Abwandlungen und Veränderungen kommen werden, soll die Erfindung ferner nicht auf die exakte Konstruktion und gezeigte und beschriebene Anwendungen begrenzt sein, und daher können alle geeigneten Abwandlungen und Äquivalente als in den Schutzumfang der Erfindung fallend betrachtet werden, wie in den beigefügten Ansprüchen definiert, und als deren Äquivalente.

Claims (9)

1. Ein System zum Sammeln von Speicherauszugsinforma­ tionen in einem Datenverarbeitungssystem, in dem eine Viel­ zahl von Rechenprozessoren ein Parallelverarbeitungsprogramm ausführt, mit:
einem Operationsabbruchmittel zum Vollziehen eines Abbruchs bei den Rechenprozessoren, wenn einer der Rechen­ prozessoren ausgefallen ist, während das Parallelverarbei­ tungsprogramm ausgeführt wird; und
einem Speicherauszugsschreibmittel zum Schreiben von Speicherauszügen der Rechenprozessoren, ausgenommen des ausgefallenen Rechenprozessors, in eine interne Speicherein­ heit des ausgefallenen Rechenprozessors.
2. Ein System nach Anspruch 1, ferner mit einem Wie­ deranlaufmittel zum Wiederanlaufenlassen der Rechenprozesso­ ren, ausgenommen des ausgefallenen Rechenprozessors, nachdem das genannte Speicherauszugsschreibmittel das Schreiben der Speicherauszüge vollendet hat.
3. Ein System nach Anspruch 1 oder 2, ferner mit einem Speicherauszugslesemittel zum Lesen der Speicherauszüge, die in den ausgefallenen Rechenprozessor geschrieben wurden, und eines Speicherauszugs des ausgefallenen Rechenprozessors in eine externe Speichereinheit.
4. Ein System nach einem der Ansprüche 1 bis 3, ferner mit einem Wiederanlaufmittel zum Wiederanlaufenlassen des ausgefallenen Rechenprozessors, nachdem das genannte Speicherauszugslesemittel das Lesen der Speicherauszüge vollendet hat.
5. Ein System nach Anspruch 1, ferner mit:
einem Wiederanlaufmittel zum Wiederanlaufenlassen der Rechenprozessoren, ausgenommen des ausgefallenen Rechen­ prozessors, nachdem das genannte Speicherauszugsschreibmit­ tel das Schreiben der Speicherauszüge vollendet hat; und
einem Speicherauszugslesemittel zum Lesen der Speicherauszüge, die in den ausgefallenen Rechenprozessor geschrieben wurden, und eines Speicherauszugs des ausgefal­ lenen Rechenprozessors in eine externe Speichereinheit,
bei dem in dem Fall, wenn die interne Speicherein­ heit des ausgefallenen Rechenprozessors nicht in der Lage ist, alle Speicherauszüge der Rechenprozessoren, ausgenommen des ausgefallenen Rechenprozessors, zu akzeptieren,
das genannte Speicherauszugsschreibmittel verblei­ bende Speicherauszüge, die durch den ausgefallenen Rechen­ prozessor unakzeptiert bleiben, in eine interne Speicherein­ heit in einem anderen Rechenprozessor schreibt, der von den Rechenprozessoren ausgewählt ist, deren Speicherauszüge durch den ausgefallenen Rechenprozessor akzeptiert worden sind,
das genannte Wiederanlaufmittel die Rechenprozes­ soren, den ausgefallenen Rechenprozessor und den ausgewähl­ ten Rechenprozessor ausgenommen, wiederanlaufen läßt, und
das genannte Speicherauszugslesemittel die Spei­ cherauszüge, die in den ausgefallenen Rechenprozessor geschrieben wurden, die Speicherauszüge, die in den ausge­ wählten Rechenprozessor geschrieben wurden, und den Spei­ cherauszug des ausgefallenen Rechenprozessors in die externe Speichereinheit liest.
6. Ein System nach einem der Ansprüche 1 bis 5, bei dem die Speicherauszüge, die durch das genannte Speicherauszugsschreibmittel geschrieben werden, Speicherauszüge bezüglich eines Betriebssystems sind.
7. Ein Verfahren zum Sammeln von Speicherauszugs­ informationen durch einen Steuerprozessor, der in einem Datenverarbeitungssystem Dienst tut, in dem eine Vielzahl von Rechenprozessoren ein Parallelverarbeitungsprogramm ausführt, mit den Schritten:
  • (a) Vollziehen eines Abbruchs bei den Rechenpro­ zessoren, wenn einer der Rechenprozessoren ausgefallen ist, während das Parallelverarbeitungsprogramm ausgeführt wird;
  • (b) Liefern eines Speicherauszugssammelprogramms an die Rechenprozessoren;
  • (c) Schreiben von Speicherauszügen der Rechenpro­ zessoren, ausgenommen des ausgefallenen Rechenprozessors, in eine interne Speichereinheit des ausgefallenen Rechenprozes­ sors unter Verwendung des genannten Speicherauszugssammel­ programms, das geliefert wurde;
  • (d) Wiederanlaufenlassen der Rechenprozessoren, ausgenommen des ausgefallenen Rechenprozessors, nach Vollen­ dung des genannten Schrittes (c); und
  • (e) Lesen der Speicherauszüge, die in den ausge­ fallenen Rechenprozessor geschrieben wurden, und eines Speicherauszugs des ausgefallenen Rechenprozessors in eine externe Speichereinheit.
8. Ein Verfahren nach Anspruch 7, ferner mit dem Schritt:
  • (f) Wiederanlaufenlassen des ausgefallenen Rechenprozessors nach Vollendung des genannten Schrittes (e).
9. Ein Verfahren nach Anspruch 7 oder 8, bei dem in dem Fall, wenn die interne Speichereinheit des ausgefallenen Rechenprozessors nicht in der Lage ist, alle Speicherauszüge der Rechenprozessoren, ausgenommen des ausgefallenen Rechen­ prozessors, zu akzeptieren,
der genannte Schritt (c) verbleibende Speicheraus­ züge, die durch den ausgefallenen Rechenprozessor unakzep­ tiert bleiben, in eine interne Speichereinheit in einem anderen Rechenprozessor schreibt, der von den Rechenprozes­ soren ausgewählt wird, deren Speicherauszüge durch den ausgefallenen Rechenprozessor akzeptiert worden sind,
der genannte Schritt (d) die Rechenprozessoren, den ausgefallenen Rechenprozessor und den ausgewählten Rechenprozessor ausgenommen, wiederanlaufen läßt, und
der genannte Schritt (e) die Speicherauszüge, die in den ausgefallenen Rechenprozessor geschrieben wurden, die Speicherauszüge, die in den ausgewählten Rechenprozessor geschrieben wurden, und den Speicherauszug des ausgefallenen Rechenprozessors in die externe Speichereinheit liest.
DE19615644A 1995-08-07 1996-04-22 Verfahren zum Sammeln von Speicherauszugsinformationen durch einen Steuerprozessor und Datenverarbeitungsanlage zur Durchführung des Verfahrens Expired - Fee Related DE19615644C2 (de)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP20015495A JP3481737B2 (ja) 1995-08-07 1995-08-07 ダンプ採取装置およびダンプ採取方法

Publications (2)

Publication Number Publication Date
DE19615644A1 true DE19615644A1 (de) 1997-02-13
DE19615644C2 DE19615644C2 (de) 1998-07-09

Family

ID=16419694

Family Applications (1)

Application Number Title Priority Date Filing Date
DE19615644A Expired - Fee Related DE19615644C2 (de) 1995-08-07 1996-04-22 Verfahren zum Sammeln von Speicherauszugsinformationen durch einen Steuerprozessor und Datenverarbeitungsanlage zur Durchführung des Verfahrens

Country Status (3)

Country Link
US (1) US5884019A (de)
JP (1) JP3481737B2 (de)
DE (1) DE19615644C2 (de)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6208918B1 (en) 1997-10-08 2001-03-27 Toyota Jidosha Kabushiki Kaisha Data recovery system and data recovery program recorded medium
DE19827432C2 (de) * 1997-07-25 2001-07-26 Siemens Ag Verfahren zur Speicherung von Rechner-Zustandsdaten bei einem Störfall, der ein anschließendes Wieder-Hochfahren des Rechners erfordert

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6675324B2 (en) * 1999-09-27 2004-01-06 Intel Corporation Rendezvous of processors with OS coordination
US6643802B1 (en) * 2000-04-27 2003-11-04 Ncr Corporation Coordinated multinode dump collection in response to a fault
US6738928B1 (en) * 2000-06-19 2004-05-18 Hewlett-Packard Development Company, L.P. Method and expert system for analysis of crash dumps
US6832342B2 (en) * 2001-03-01 2004-12-14 International Business Machines Corporation Method and apparatus for reducing hardware scan dump data
US6912670B2 (en) * 2002-01-22 2005-06-28 International Business Machines Corporation Processor internal error handling in an SMP server
US6973598B2 (en) * 2002-01-28 2005-12-06 Dell Products L.P. Computer system with improved data capture system
US20050240806A1 (en) * 2004-03-30 2005-10-27 Hewlett-Packard Development Company, L.P. Diagnostic memory dump method in a redundant processor
US8799706B2 (en) * 2004-03-30 2014-08-05 Hewlett-Packard Development Company, L.P. Method and system of exchanging information between processors
US7308609B2 (en) * 2004-04-08 2007-12-11 International Business Machines Corporation Method, data processing system, and computer program product for collecting first failure data capture information
CN1755660B (zh) * 2004-09-28 2010-09-29 惠普开发有限公司 冗余处理器中的诊断存储器转储方法
US7383471B2 (en) * 2004-12-28 2008-06-03 Hewlett-Packard Development Company, L.P. Diagnostic memory dumping
US7590885B2 (en) * 2005-04-26 2009-09-15 Hewlett-Packard Development Company, L.P. Method and system of copying memory from a source processor to a target processor by duplicating memory writes
US9176803B2 (en) 2006-08-14 2015-11-03 International Business Machines Corporation Collecting data from a system in response to an event based on an identification in a file of the data to collect
US8127099B2 (en) * 2006-12-26 2012-02-28 International Business Machines Corporation Resource recovery using borrowed blocks of memory
US8473818B2 (en) * 2009-10-12 2013-06-25 Empire Technology Development Llc Reliable communications in on-chip networks
JP2016042618A (ja) * 2014-08-13 2016-03-31 富士電機株式会社 制御装置及び制御方法
KR20190037666A (ko) * 2017-09-29 2019-04-08 에스케이하이닉스 주식회사 데이터 저장 장치 및 그것의 동작 방법
US11379290B2 (en) 2019-07-17 2022-07-05 International Business Machines Corporation Prioritizing and parallelizing the capture of data for debugging computer programs

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE69021712T2 (de) * 1990-02-08 1996-04-18 Ibm Wiederanlaufkennzeichnungsmechanismus für fehlertolerierende Systeme.
US5634096A (en) * 1994-10-31 1997-05-27 International Business Machines Corporation Using virtual disks for disk system checkpointing

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
JP 03-240842 A in Patent Abstracts of Japan, Section P, Sect.No. 1302, Vol. 16, No. 28, S. 133 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE19827432C2 (de) * 1997-07-25 2001-07-26 Siemens Ag Verfahren zur Speicherung von Rechner-Zustandsdaten bei einem Störfall, der ein anschließendes Wieder-Hochfahren des Rechners erfordert
US6279120B1 (en) 1997-07-25 2001-08-21 Siemens Aktiengesellschaft Method for storing computer status data given a malfunction that requires a subsequent restarting of the computer
US6208918B1 (en) 1997-10-08 2001-03-27 Toyota Jidosha Kabushiki Kaisha Data recovery system and data recovery program recorded medium
DE19846256B4 (de) * 1997-10-08 2004-05-06 Toyota Jidosha K.K., Toyota Datenwiederherstellungssystem und entsprechendes Verfahren sowie computerlesbarer Datenträger

Also Published As

Publication number Publication date
JPH0950424A (ja) 1997-02-18
JP3481737B2 (ja) 2003-12-22
US5884019A (en) 1999-03-16
DE19615644C2 (de) 1998-07-09

Similar Documents

Publication Publication Date Title
DE19615644C2 (de) Verfahren zum Sammeln von Speicherauszugsinformationen durch einen Steuerprozessor und Datenverarbeitungsanlage zur Durchführung des Verfahrens
DE69330239T2 (de) Gerät zur fehlertoleranten Rechnung
DE4220198C2 (de) Transaktionsverarbeitungsverfahren für einen digitalen Computer und Transaktionsverarbeitungssystem
DE3508291C2 (de) Datenverarbeitungssystem
DE69428392T2 (de) Verfahren und Anordnung zur Klassifizierung und Erfassung von den Protokolldaten
DE60001460T2 (de) Datenfernkopieren unter verwendung von potentiellen aufhebungsbefehlen
EP0163096B1 (de) Einrichtung zur Rettung eines Rechnerzustandes
DE68913629T2 (de) Satzverriegelungsprozessor für vielfachverarbeitungsdatensystem.
DE3781486T2 (de) Verfahren zur stossfreien umschaltung von aktiven einheiten zu ersatzeinheiten in datenverarbeitungsanlagen und datenverarbeitungsanlage zur durchfuehrung dieses verfahrens.
DE69804099T2 (de) Initialisierung von unterteilten datenobjekten
DE102005022192B4 (de) Datensicherungs-Laufwerk mit auswechselbaren Speichermedien zum Sichern von Daten eines Hostcomputers
DE3781873T2 (de) Rekonfigurierbare rechenanordnung.
DE602004012900T2 (de) Verfahren zur Analyse von Leistungsinformation
DE69032337T2 (de) Multiprozessorsystem verwendendes Datenbasisverarbeitungssystem
DE69025507T2 (de) Gerät zur Sicherung und Wiederherstellung für Digitalrechner
DE3751949T2 (de) Verfahren zum Starten eines Untersystems in einem verteilten Verarbeitungssystem
DE3629178C2 (de)
EP0228559A1 (de) Fehlertolerante Mehrrechneranordnung
DE3850986T2 (de) Verfahren zur Reservekapazitätsverwendung für Fehlererkennung in einem Multiprozessorsystem.
DE602004002674T2 (de) Speichersystem und Verfahren zur Erfassung und Verwendung von Schnappschüssen
DE69608797T2 (de) Verfahren und vorrichtung zum schutz der prozessdatenintegrität auf einem wechselspeichermedium
DE112014001873T5 (de) Replikation für Hot-Standby-Online-Datenbank
DE3735828C2 (de) Verfahren zur Wiederaufnahme der Ausführung von Anweisungen nach einer Unterbrechung in einer mikroprogrammgesteuerten Datenverarbeitungsvorrichtung
DE2244402A1 (de) Datenverarbeitungsanlage
DE19827432C2 (de) Verfahren zur Speicherung von Rechner-Zustandsdaten bei einem Störfall, der ein anschließendes Wieder-Hochfahren des Rechners erfordert

Legal Events

Date Code Title Description
OP8 Request for examination as to paragraph 44 patent law
D2 Grant after examination
8364 No opposition during term of opposition
8328 Change in the person/name/address of the agent

Representative=s name: SEEGER SEEGER LINDNER PARTNERSCHAFT PATENTANWAELTE

R119 Application deemed withdrawn, or ip right lapsed, due to non-payment of renewal fee

Effective date: 20121101