DE69516538T2

DE69516538T2 - Speicherung von rechnerdaten

Info

Publication number: DE69516538T2
Application number: DE69516538T
Authority: DE
Inventors: Bryan Malcolm
Original assignee: Cheyenne Advanced Technology Ltd
Current assignee: Cheyenne Advanced Technology Ltd
Priority date: 1994-12-15
Filing date: 1995-12-01
Publication date: 2000-11-23
Anticipated expiration: 2015-12-02
Also published as: CA2207735A1; NO972784L; AU710755B2; MX9704419A; CZ9701859A3; FI972544A7; NZ296165A; DK0797805T3; EP0797805B1; PL182609B1; KR980700613A; GR3033775T3; EP0797805A1; DE69516538D1; WO1996018960A1; KR100437199B1; RU2182360C2; ATE192249T1; CA2207735C; US5617566A

Description

Hintergrund der Erfindung

Die vorliegende Erfindung betrifft hierarchisches Speichermanagement von Computerdateien.
Das auf Personalcomputer-Festplatten, die als Massenspeicher dienen, gespeicherte Datenvolumen hat im Laufe der letzten 10 Jahre rapide zugenommen. Dies trifft besonders auf Daten zu, die auf Netzwerk-Daten-Servern gespeichert sind, bei denen Festplatten-Untersysteme von 1 GB (Gigabyte) oder mehr, die viele Tausend Dateien enthalten, heute gang und gäbe sind.
Typischerweise wird auf viele der Dateien auf einem Netzwerk- Daten-Server eine Zeitlang nicht zugegriffen. Dies kann vielerlei Gründe haben; die Datei kann eine alte Version oder eine Sicherungskopie sein, oder sie kann einfach nur für den Fall aufbewahrt worden sein, daß sie irgendwann einmal benötigt wird. Die Datei kann in der Tat völlig überflüssig sein; allerdings kann sie nur von ihrem Eigentümer als solche identifiziert werden, und demzufolge wird die Datei aus Sicherungs- /Sicherheitsgründen aufbewahrt. In der Datenverarbeitung übliche Verfahren legen nahe, daß Dateien im Zweifelsfall auf unbestimmte Zeit aufbewahrt werden sollen. Daraus folgt natürlich, daß die Festplatte mit alten Dateien voll wird. Dies geschieht in fast jedem Personal-Computing-System auf Mikroprozessorbasis, ob klein oder groß.
Hierarchisches Speichermanagement (HSM) ist eine bekannte Technik zur Lösung dieses Problems. Die meisten Betriebssysteme zeichnen das Datum und den Zeitpunkt der letzten Dateiaktualisierung (d. h. Einspeicherung) auf. Viele zeichnen außerdem das Datum und den Zeitpunkt des letzten Dateizugriffs (d. h. Ablesung) auf. Ein HSM-System durchsucht regelmäßig die Dateiliste auf einer Festplatte und überprüft dabei von jeder das Datum/den Zeitpunkt des letzten Zugriffs. Wurde eine Datei über einen vorbestimmten Zeitraum (gewöhnlich 1 bis 6 Monate) nicht benutzt, dann wird die Datei archiviert, d. h. sie wird auf einen Sekundärspeicher wie zum Beispiel ein Band übertragen und von der Festplatte gelöscht.
HSM ist gewöhnlich in die Datensicherung eingebunden. Nehmen wir zum Beispiel ein Bandsicherungssystem mit HSM-Einrichtungen, bei dem die Inaktivitätsschwelle auf drei Monate eingestellt ist. Beim regelmäßig ablaufenden (typischerweise wenigstens wöchentlich) Sicherungsprozeß wird festgestellt, daß das letzte Zugriffsdatum für eine bestimmte Datei mehr als 3 Monate zurückliegt. Das Sicherungssystem stellt sicher, daß es beispielsweise mehr als drei Sicherungskopien der Datei auf verschiedenen Bändern zur Verfügung hat (oder wartet, bis es über drei Kopien verfügt) und löscht dann die Datei. Sollte die Datei irgendwann einmal benötigt werden, dann wird sie vom Benutzer einfach von einem der drei Sicherungsbänder wiedergewonnen. Das Sicherungssystem muß gewährleisten, daß Bänder, die Archivierungskopien der Datei enthalten, nicht überschrieben werden. Dieses Verfahren stellt eine Langzeitlösung für das Problem bereit, da Bänder entfernbar, leicht zu ersetzen und preisgünstig sind.
Nachdem eine Datei von einem HSM-System gelöscht wurde, ist sie auf der Originalplatte nicht mehr sichtbar. Dies kann von Nachteil sein, wenn ein Benutzer oder eine Anwendung später beschließen sollte, daß ein Zugriff auf die Datei notwendig ist, da die Datei beim Durchsuchen der Platte nicht auffindbar ist. Der Benutzer oder die Anwendung verfügt dann über kein Mittel, das ihn/sie darüber informiert, daß die Datei von einer Sicherung wiedergewonnen werden könnte, und eine Anwendung könnte folglich von irreführenden Informationen bis hin zu einem fatalen Fehler alles Mögliche verursachen.
Statt spurlos beseitigt zu werden, sollte die Datei im Idealfall weiterhin im Verzeichnis der Platte aufgeführt werden (vorzugsweise mit irgendeinem Mittel zur Kennzeichnung, daß sie auf den Sicherungs- oder Sekundärspeicher übertragen wurde), jedoch ohne daß die tatsächlichen Dateidaten vorhanden sind und Speicherplatz in Anspruch nehmen. In der Tat gibt es diese Einrichtung in vielen HSM-Systemen und ist als Migration (Wegspeicherung) bekannt. Das HSM-System beläßt die Dateireferenz gewöhnlich im Verzeichnis und ersetzt die Dateidaten entweder mit einem kleinen Stumpf , der die Identität des Ortes enthält, wo die weggespeicherte Datei zu finden ist, oder löscht die Daten vollständig, wobei eine Datei mit der Länge Null zurückbleibt.
Eine weitere Verbesserung von HSM-Systemen, als De-Migration (Zurückspeicherung) bekannt, läßt das HSM-System automatisch eine weggespeicherte Datei auf die Originalplatte umspeichern, wenn ein Benutzer oder eine Anwendung versucht, auf diese zuzugreifen. Dies ist offensichtlich nur dann möglich, wenn das Sekundärspeichermedium, das die weggespeicherte Datei enthält, ständig mit dem System verbunden ist. Wenn weggespeicherte Daten in einer solchen near-line Vorrichtung, zum Beispiel eine Bildplatten- Jukebox , gespeichert sind, dann kann die Dateizugriffsanforderung sogar vorübergehend aufgehoben werden, bis die Datei zurückgespeichert ist, wonach so fortgefahren werden kann, als wäre die Datei niemals weggespeichert worden.
Die oben beschriebenen HSM-Techniken sind effektiv, wenn sie auf eine große Anzahl relativ kleiner Dateien angewendet werden, die stets von nur einem Benutzer verwendet werden. Nehmen wir aber einmal ein Datenbanksystem, in dem mehrere Benutzer auf eine einzelne große Datenbankdatei zugreifen, die Kundennamen und Adreßdatensätze oder ähnliche historische Daten enthält. Da ständig neue Kundendatensätze hinzugefügt und Datensätze bestehender Kunden geändert werden, kommt die Datei niemals für eine Wegspeicherung in Frage, da sie stets verfügbar sein muß. Dennoch weist eine solche Datei gewöhnlich viele Datensätze für alte inaktive Kunden auf, deren Details für eine mögliche zukünftige Bezugnahme aufbewahrt werden müssen, auf deren Datensätze ansonsten aber über längere Zeiträume nicht zugegriffen wird. Der von solchen inaktiven Datensätzen belegte Speicherplatz kann oft die Mehrheit des von der gesamten Datei belegten Platzes repräsentierten.
Es ist bereits eine Direktzugriffsdatei bekannt, bei der geringe Datenmengen auf/von irgendeinen/-einem Teil der Datei wahllos geschrieben oder gelesen werden können. Wird eine neue Direktzugriffsdatei erstellt, so weist die Datei eine Länge von Null auf, bis Daten in sie eingespeichert werden. Da die Datei über einen Direktzugriff verfügt, braucht sich das erste eingespeicherte Datenstück nicht unbedingt bei Relativzeiger O (d. h. am Anfang der Datei) zu befinden, es könnte an einer beliebigen Position eingespeichert werden. 10 Bytes an Daten könnten zum Beispiel ab Relativzeiger 1000 eingespeichert werden. Die Datei hat dann eine logische Länge von 1010 Bytes, obwohl nur zehn Bytes tatsächlich eingespeichert wurden. Einige Betriebssysteme bekommen diese Situation in den Griff, indem sie die fehlenden 1000 Bytes mit Nullzeichen oder wahllosen Zeichen automatisch auffüllen , so daß 1010 Bytes zugeordnet werden, obwohl nur 10 tatsächlich eingespeichert wurden.
Fortschrittliche Betriebssysteme, wie solche, die in Netzwerk-Daten-Servern zum Einsatz kommen, unterstützen das Konzept verteilter Speicherung (Dateien), bei dem Speicherplatz nur solchen Bereichen der Datei zugeordnet wird, in die tatsächlich Daten eingespeichert wurden. Gewöhnlich wird dies erreicht, indem die Dateizuordnungstabelle (ein Plan, der angibt, wie die Dateien auf der Platte gespeichert sind) erweitert wird, so daß jede Eingabe, die den nächsten Ort angibt, in dem Daten für eine bestimmte Datei gespeichert sind, von einem Wert begleitet wird, der den logischen Relativzeiger angibt, an dem die Daten beginnen. Somit würde die erste Eingabe in dem obigen Beispiel angeben, daß Daten bei Position x auf der Platte beginnen und daß sich das erste Byte am logischen Relativzeiger 1000 in der Datei befindet (in einer normalen Datei wäre der logische Relativzeiger 0). Die Bereiche einer verteilten Datei, in die nie Daten eingespeichert wurden, sind als Löcher bekannt.

Zusammenfassung der Erfindung

Die verschiedenen Aspekte der Erfindung sind in den folgenden unabhängigen Ansprüchen definiert. Vorteilhafte Merkmale der Erfindung sind in den zugehörigen Ansprüchen dargelegt.
In der bevorzugten Ausgestaltung der Erfindung, die nachstehend unter Bezugnahme auf die Zeichnungen beschrieben wird, wird eine Datenbank verwaltet, praktischerweise als Hilfsdatenbank bezeichnet, die angibt, auf welche Datenblöcke an welchem Datum zugegriffen wurde. Blöcke, auf die nicht zugegriffen wurde, können dann archiviert und aus der Plattendatei gelöscht werden, um den Speicherplatzbedarf zu reduzieren. Zum Löschen kann die FAT (Dateizuordnungstabelle) so geändert werden, daß die Datei als verteilte Datei behandelt wird.
Erfolgt eine Leseanforderung für einen Teil einer Datei, der archiviert oder weggespeichert wurde, dann speichert das System den benötigten Dateiteil zurück, bevor die Leseanforderung erfüllt wird.
Datensätze, auf die kürzlich zugegriffen wurde, befinden sich allerdings bereits auf der Festplatte, so daß auf sie sofort wieder zugegriffen werden kann. Somit sind häufig benötigte Datensätze sofort verfügbar, ohne daß die gesamte Datei auf der Festplatte erhalten bleiben muß.
Das Verfahren kann tatsächlich dadurch erweitert werden, daß die Inaktivitätsschwelle auf die Lebensdauer der Hilfsdatenbank erhöht wird. Wird auf nur wenige Datensätze einer großen Datenbankdatei zugegriffen, dann könnten alle Datensätze, auf die zugegriffen wurde, auf der Festplatte bleiben, unabhängig vom Datum des letzten Zugriffs. Die Datensätze, auf die nicht zugegriffen wurde, können allerdings gelöscht werden, um Speicherplatz freizumachen. In diesem Fall braucht die Hilfsdatenbank nicht das Datum oder Datum und Zeit des letzten Zugriffs zu enthalten. In großen Abständen, z. B. jeden Monat, können alle Bereiche, auf die zugegriffen wurde, weggespeichert und die Hilfsdatenbank gelöscht werden.
Das Verfahren kann in Verbindung mit dem Teildateispeicherverfahren der US-Patentanmeldung 08/165,382 (jetzt US-A-5,617,566) angewendet werden. Die Hilfsdatenbank muß dann zusätzlich registrieren, ob die Dateizugriffe Schreibzugriffe, bei denen Daten möglicherweise modifiziert wurden, oder nur Lesezugriffe waren. Das Teildateisicherungsverfahren der obengenannten Anmeldung sah keine Speicherplatzschaffung auf der Festplatte vor, während solche Datensätze verfügbar blieben, auf die wahrscheinlich wieder zugegriffen würde.

Kurze Beschreibung der Zeichnungen

Die Erfindung wird nachfolgend ausführlicher beispielhaft unter Bezugnahme auf die Begleitzeichnungen beschrieben. Dabei zeigt:
Fig. 1 ein Blockdiagramm eines Personalcomputersystems mit einem Bandlaufwerk;
Fig. 2 ein Diagramm, das Zugriffe auf eine Datei darstellt;
Fig. 3 ein Ablaufdiagramm, das einen Dateizugriffsvorgang gemäß der Erfindung darstellt;
Fig. 4 ein der Fig. 2 ähnliches Diagramm, das Dateiteile darstellt, die auf der Festplatte erhalten bleiben sollen;
Fig. 5 ein Ablaufdiagramm, das einen Sicherungsvorgang gemäß der Erfindung darstellt, wie er von dem hierarchischen Speichermanagementsystem implementiert wird;
Fig. 6 ein Ablaufdiagramm, das einen Lesezugriffsvorgang bei einer Datei darstellt, die teilweise archiviert wurde;
Fig. 7 ein Diagramm, das einen Teil des Speicherbelegungsplans auf Betriebssystemebene eines konventionellen Personalcomputers darstellt; und
Fig. 8 ein Diagramm, das den entsprechenden Teil des Speicherbelegungsplans im erfindungsgemäßen Verfahren darstellt.

Ausführliche Beschreibung der bevorzugten Ausgestaltung

Fig. 1 der Zeichnungen zeigt einen Personalcomputer (PC) 10 mit einer Zentraleinheit (CPU) 12, einem Arbeitsspeicher (RAM) 14 und einem Massenspeicher in der Form einer Festplatte 16. Der Personalcomputer ist darüber hinaus mit einer Bandeinheit 18 ausgestattet, die einen Sekundärspeicher für Sicherungs- und Archivierungszwecke bereitstellt.
Beim Gebrauch speichert der Arbeitsspeicher 14 Befehle, die auf die Zentraleinheit 12 angewendet werden, um ihren Betrieb zu steuern. Einige dieser Befehle kommen direkt vom Betriebssystem, andere haben ihren Ursprung in dem auf dem Computer laufenden Anwendungsprogramm.
Betriebssysteme unterhalten gewöhnlich eine Dateizuordnungstabelle (FAT), die den physikalischen Ort jedes Datenblocks auf der Festplatte registriert. Darüber hinaus registriert das Betriebssystem in bezug auf jede Datei einen Archivflag, der gesetzt wird, wenn die Datei modifiziert wird, und der weggenommen werden kann, wenn die Datei gesichert ist. Existierende Sicherungssysteme verwenden die Archivflags, um zu ermitteln, ob eine Datei modifiziert wurde und somit gesichert werden muß.
Es kann ein hierarchisches Speichermanagementsystem verwendet werden, das automatisch jede Datei auf Band sichert, auf die über einen bestimmten Zeitraum nicht zugegriffen wurde.
In der bevorzugten Ausgestaltung der vorliegenden Erfindung wird eine Hilfsdatenbank verwaltet, die zu jeder Datei angibt, auf welche Datenblöcke an welchem Datum zugegriffen wurde, so daß das hierarchische Speichermanagementsystem regelmäßig solche Blöcke archivieren oder wegspeichern kann, auf die nicht zugegriffen wurde. Diese Blöcke können dann gelöscht und der Speicherplatzbedarf somit reduziert werden.
Nehmen wir zum Beispiel eine Datei mit einer anfänglichen Länge von 125 Bytes, die fünf Datensätze mit einer Länge von jeweils 25 Bytes enthält, für die am 1. Januar 1995 eine Hilfsdatenbank geöffnet wird, um Anforderungen für einen Zugriff auf einen existierenden Datensatz in der oder zum Hinzufügen eines neuen Datensatzes zu der Datei abzufangen. Die folgenden Anforderungen können über einen bestimmten Zeitraum, z. B. zwischen dem 1. Januar und dem 10. April 1995, vorliegen:
21. Januar 1995 - Neuer Datensatz am Relativzeiger 125 hinzugefügt, Länge 25 Bytes.
3. Februar 1995 - Auf alten Datensatz am Relativzeiger 25 zugegriffen (gelesen), Länge 25 Bytes.
15. Februar 1995 - Auf alten Datensatz am Relativzeiger 75 zugegriffen (gelesen), Länge 25 Bytes.
3. April 1995 - Neuen Datensatz am Relativzeiger 150 hinzugefügt, Länge 25 Bytes.
Wenn eine Anforderung abgefangen wird, dann werden das Datum, die Position des Datensatzes in der Datei und die Länge des Datensatzes in der Hilfsdatenbank in der folgenden Weise notiert: Tabelle 1
Es muß natürlich möglich sein, die jeweilige benötigte Datei zu identifizieren. Hier wird davon ausgegangen, daß für jede Datei eine separate Hilfsdatenbank verwaltet wird. In der Praxis wird möglicherweise bevorzugt, für jedes Unterverzeichnis eine separate Hilfsdatenbank zu verwalten; in diesem Fall muß die Datei auch innerhalb der Datenbank identifiziert werden. Dadurch wird jedoch die Anzahl von Hilfsdatenbanken und somit die Anzahl von zusätzlich erstellten Dateien reduziert. Im Prinzip könnte eine einzige Hilfsdatenbank für die gesamte Platte erstellt werden.
Auf Dateibereiche, die nicht in der in Tabelle 1 dargestellten Hilfsdatenbank enthalten sind, wurde überhaupt nicht zugegriffen. Die Tageszahl ist einfach eine Zähleinrichtung, die die Tage darstellt, die seit einem beliebigen Startdatum (in diesem Fall der 1. Januar 1900) vergangen sind. In einem höherentwickelten System könnten sowohl Datum als auch Zeit (Datum/Zeit) enthalten sein. Fig. 2 stellt die Datei schematisch dar, wobei schattierte Bereiche Dateidaten repräsentieren, die gelesen oder eingespeichert wurden, und weiße Bereiche Daten repräsentieren, auf die nicht zugegriffen wurde.
Die Schritte bei der Durchführung eines Zugriffs entsprechen somit den in Fig. 3 gezeigten. Schritt 20 gibt an, daß ein Zugriff erforderlich ist. Dies kann ein Lesezugriff oder ein Schreibzugriff sein. Zuerst wird die Datei identifiziert (Schritt 22), dann werden der Ausgangsrelativzeiger und die Zugriffslänge identifiziert (Schritt 24). In Schritt 26 werden diese Daten in einer Hilfsdatenbank zusammen mit dem Datum, wie in Tabelle 1 gezeigt, gespeichert. Schritt 26 beinhaltet vorzugsweise einen Konsolidierungsvorgang, der sicherstellt, daß die Hilfsdatenbank keine redundanten Informationen enthält. Nachfolgende Zugriffe können zum Beispiel vorherige Zugriffe verdoppeln oder überlappen. Nachdem diese Schritte abgeschlossen sind, erfolgt der ursprünglich gewünschte Dateizugriff (Schritt 28), wonach die Routine abgeschlossen ist (Schritt 30).
Diese Schritte erfolgen für jeden Zugriff, so daß die Datei bis zum 10. April eine Länge von 175 Bytes hat und sieben Datensätze enthält, während die Hilfsdatenbank wie in Tabelle 1 oben aussieht. Die Datensätze, auf die während des Überwachungszeitraums (neunundsiebzig Tage) überhaupt nicht zugegriffen wurde, kommen offensichtlich alle für eine Archivierung in Frage. Angenommen, es wird beschlossen, daß alle Datensätze, auf die innerhalb der vergangenen sechzig Tage nicht zugegriffen wurde, archiviert werden sollen. Die Datensätze werden zunächst unter der Annahme sortiert, daß die gesamte Datei auf den Sekundärspeicher weggespeichert werden soll, anschließend wird die Hilfsdatenbank nach allen Datensätzen mit einer Tageszahl von 34739 oder größer durchsucht (wobei 34739 der sechzigste Tag vor dem 10. April ist, der Tag 34799 ist). Alle Datensätze mit einer Tageszahl, die dieses Kriterium erfüllt, werden identifiziert, und die Teile der Datei, in denen sie enthalten sind, werden entsprechend gekennzeichnet, so daß sie keiner Wegspeicherung unterliegen. Teile der Datei, die nicht gekennzeichnet wurden, werden somit zur Wegspeicherung gelöscht.
Von den vier Datensätzen, auf die zwischen dem 1. Januar und dem 10. April 1995 zugegriffen wurde, haben nur die letzten beiden vom 15. Februar und 3. April 1995 jeweils eine Tageszahl von wenigstens 34739. Daher bleiben nur die beiden jüngsten Datensätze erhalten, und der Rest der Datei - die mit Bytes 0 bis 74 und Bytes 100 bis 149 definierten Teile - wird weggespeichert. Dies ist in Fig. 4 schematisch dargestellt, in der die zu erhaltenen Datensätze schraffiert und die umzustellenden Datensätze weiß dargestellt sind. Die für die Wegspeicherung bestimmten Datenbereiche der Datei werden jetzt in den Sekundärspeicher unter Anwendung normaler HSM-Prozeduren kopiert. Einzelheiten über den Ort und die Länge jedes Datensatzes werden vom HSM-System verwaltet, um eine spätere Rückspeicherung zu erleichtern. Darüber hinaus kann die Hilfsdatenbank editiert werden, um jede Spur der Datensätze mit einer Tageszahl von weniger als 34739 zu entfernen, wodurch eine unkontrollierte Erweiterung der Größe der Hilfsdatenbank vermieden wird.
Um einen Vorteil von der Wegspeicherung der nicht gebrauchten Datensätze auf den Sekundärspeicher zu erhalten, ist es notwendig, den von diesen Datensätzen auf der Platte belegten Platz freizumachen. Dies wird effektiv dadurch erreicht, daß aus der Datei eine verteilte Datei gemacht wird. Mit anderen Worten, die einer Wegspeicherung unterzogenen Datensätze werden durch Löcher ersetzt. Der zuvor von den redundanten Datensätzen belegte Speicherplatz wird somit wiedergewonnen, da die Löcher keinen Speicherplatz in Anspruch nehmen. Angenommen, der Datensatz mit dem höchsten Relativzeigerwert wird nicht archiviert, dann bleibt die logische Länge der Datei durch diesen Vorgang unverändert, aber die Byte-Zahl der tatsächlichen Daten wird verringert, wodurch Platz für neue Dateidaten geschaffen wird.
Die verteilte Datei kann wie folgt erstellt werden. Angenommen, das System hat eine Dateizuordnungstabelle (FAT), in der Speicherplatz praktischerweise in Blöcken zu 25 Bytes zugeordnet wird. Es sind folglich sieben Blöcke zur Berücksichtigung der 175 Bytes der Datei vom 10. April 1995 notwendig. Die Datei kann wie folgt zugeordnet werden: Tabelle 2
Es ist zu beachten, daß der erste Eintrag in der Verzeichnisstruktur gespeichert wird. Jeder Block auf der Platte verfügt über einen Eintrag in der Tabelle, die den Block angibt, in dem der nächste Teil der Datei zu finden ist. Der zweite Block weist zum Beispiel einen Eintrag auf, der ihn mit Block 3 verknüpft, wo der. Teil der Datei mit einem Relativzeiger von 50 Bytes zu finden ist. Der siebte Block weist lediglich einen negativen Eintrag (-1) auf, um darauf hinzuweisen, daß er der letzte Block ist, der Daten für die Datei enthält. In diesem Beispiel wird die Datei praktischerweise fortlaufend in Blöcken von 1 bis 7 gespeichert, in der Praxis könnten die Blöcke aber genausogut in willkürlicher Reihenfolge mit Lücken dazwischen zugeordnet werden.
Die Zuordnungstabelle muß angeglichen werden, um den von den weggespeicherten Datensätzen belegten Speicherplatz freizumachen, mit anderen Worten, Bytes 0 bis 74 und Bytes 100 bis 149 der Datei müssen gelöscht werden. Der erste Bereich wird von den Blöcken 1, 2 und 3 und der zweite von den Blöcken 5 und 6 erfaßt. Werden die Daten in diesen Blöcken gelöscht, dann werden die restlichen Einträge für die Datei so angeglichen, daß eine Kette von Einträgen erhalten bleibt. Die modifizierte Dateizuordnungstabelle würde daher wie folgt aussehen: Tabelle 3
Die Blöcke 1, 2, 3, 5 und 6 haben jeweils einen Nulleintrag (0), der darauf hinweist, das sie keine Daten mehr aufweisen. Von der modifizierten Dateizuordnungstabelle kann das Betriebssystem problemlos ermitteln, daß der erste zugeordnete Block für die Datei Block 4 ist, der Daten enthält, die beim logischen Relativzeiger 75 beginnen, und daß der nächste (und letzte) Block von Dateidaten in Block 7 gespeichert ist und Daten enthält, die beim logischen Relativzeiger 150 beginnen. Es ist zu beachten, daß einige Betriebssysteme keinen logischen Relativzeiger für den ersten zugeordneten Block speichern, der in solchen Systemen daher nicht freigemacht werden kann.
Die genaue Löschmethode ist nicht von Bedeutung. Es ist allerdings wichtig, daß der von den weggespeicherten Blöcken belegte Platz auf der Festplatte zur Verfügung gestellt wird, d. h. er wird für den Gebrauch freigemacht.
Für ein besseres Verständnis wird in dem oben angeführten Beispiel davon ausgegangen, daß die Blockgröße und die Lese- /Schreibanforderungen 25 Bytes betragen; ferner wird angenommen, daß die Anforderungen alle ganz genau auf Blockgrenzen stattfanden. In der Praxis ist die zugeordnete Blockgröße gewöhnlich ein Vielfaches von 512 Bytes, und die Position und die Länge von Lese-/Schreibanforderungen unterliegt erheblichen Schwankungen. Da nur ganze Blöcke freigemacht (gelöscht) werden können, muß das System so implementiert werden, daß nur Datenbereiche weggespeichert und freigemacht werden, die ganze Blöcke repräsentieren. Da große Dateien typischerweise viele Tausend Blöcke in Anspruch nehmen, ist diese Effizienzreduzierung selten von Bedeutung.
Die obigen Schritte sind im Ablaufdiagramm von Fig. 5 dargestellt. Schritt 40 zeigt den Start eines Sicherungsvorgangs an. Zunächst wird die benötigte Datei identifiziert (Schritt 42). Anschließend wird die Hilfsdatenbank abgefragt (Schritt 44), um Blöcke, auf die seit einem bestimmten Datum zugegriffen wurde, von solchen zu unterscheiden, auf die nicht zugegriffen wurde. In Schritt 46 sind Blöcke identifiziert, auf die seit dem bestimmten Datum nicht zugegriffen wurde. Es kann nun in der Tat sein, daß die nicht zugegriffenen Blöcke im Rahmen eines normalen Routinesicherungsvorgangs bereits gesichert wurden. Typischerweise werden sie öfter als einmal gesichert worden sein. Sie brauchen daher nicht noch einmal weggespeichert oder gesichert zu werden. Es ist allerdings eine Wegspeicherung von Blöcken zum Sekundärspeicher notwendig, von denen es noch nicht genügend Sicherungskopien gibt. Diese können durch eine Markierung identifiziert werden. Ob die Blöcke, die weggespeichert werden sollen, oder die, die nicht weggespeichert werden sollen, markiert werden, ist unerheblich, solange sie angemessen auseinandergehalten werden. Im Entscheidungsschritt 48 wird daher ermittelt, ob bereits ausreichend (z. B. drei) Sicherungskopien existieren. Wenn nicht, dann werden die markierten Blöcke in Schritt 50 gesichert oder weggespeichert. In Schritt 52 wird der von allen Blöcken, auf die nicht zugegriffen wurde, belegte Platz freigemacht, indem die Systemdateizuordnungstabelle (FAT) geändert wird, um die Datei in eine verteilte Datei zu konvertieren. Ist die Datei bereits eine verteilte Datei, dann werden mehr Löcher hinzugefügt. Die Routine ist nun abgeschlossen (Schritt 54).
Als letzte Verbesserung werden nachfolgende Leseanforderungen zur Datei abgefangen, um zu ermitteln, ob die Anforderung versucht, weggespeicherte Daten zu lesen. Werden keine Vorkehrungen zum Abfangen von Leseanforderungen getroffen, dann könnte das Betriebssystem entweder Leerdaten zurücksenden oder einen Fehler melden, wenn versucht wird, ein Loch einer verteilten Datei zu lesen. Wird eine Anforderung zum Lesen weggespeicherter Daten abgefangen, dann können die entsprechenden Signale generiert werden, um die angeforderten Informationen automatisch zurückzuspeichern. Sind individuelle Leseanforderungen klein, dann ist die zum Zurückspeichern von Daten benötigte Zeit im Vergleich zum Zurückspeichern einer ganzen Datei kurz, da nur die tatsächlich benötigten Daten zurückgeholt werden.
Dieser Vorgang ist in Fig. 6 dargestellt. Schritt 60 zeigt den Start eines Dateilesezugriffs an. Die Datei wird identifiziert (Schritt 62), und der Ausgangsrelativzeiger und die Leselänge werden bei Schritt 64 wie in Fig. 3 extrahiert. Nun geht der Prozeß zum Entscheidungsschritt 66 über, in dem die Dateizuordnungstabelle (FAT) überprüft wird, um zu ermitteln, ob die Leseanforderung eine Anforderung zum Lesen von Daten in (einem) Block oder Blöcken ist, die unter Anwendung der Routine aus Fig. 5 weggespeichert wurden. Lautet die Antwort auf diese Frage Nein, dann geht der Prozeß zu den Schritten 70, 72 und 74 über, die jeweils den Schritten 26, 28 und 30 in Fig. 3 entsprechen. Lautet die Antwort auf die Frage in Schritt 66 jedoch Ja, dann werden die benötigten Daten zunächst in Schritt 68 zurückgespeichert, wonach der Prozeß wie zuvor zu den Schritten 70, 72 und 74 übergeht. Es ist nicht erforderlich, den gesamten Block zurückzuspeichern, und im allgemeinen wird/werden nur der/die benötigte(n) Datensatz/Datensätze zurückgespeichert. Diese können sich in einem Block befinden oder über zwei oder mehrere Blöcke erstrecken.
Die Routinen von Fig. 3 und 6 setzen voraus, daß Plattenzugriffe abgefangen werden. Wie dies erreicht wird, wird unter Bezugnahme auf die Fig. 7 und 8 beschrieben. Wann immer ein Programm auf eine Datei zugreifen möchte, ruft es eine standardmäßige Routine ab, die Daten in die Platte einspeichert. Diese Routine, die im Falle des DOS-Betriebssystems als Interrupt 21-hex-Funktion (INT21h) bekannt ist, ist ein integrierter Bestandteil des Betriebssystems. Plattenablesung ist INT21h- Funktion 3Fh, und Platteneinspeicherung ist INT21h-Funktion 40h. Die von der Routine durchgeführte Aktion ist von den Parametern abhängig, die beim Eintritt in die Routine weitergegeben werden. Diese Routine ist in Fig. 7 als INT21h dargestellt und ist ein Bestandteil des Betriebssystems in einem Systemspeicherbelegungsplan, wobei die Eintrittsstelle INT21h von einem Pfeil dargestellt wird. Zur Durchführung eines bevorzugten erfindungsgemäßen Verfahrens wird ein zusätzlicher Programmcode auf Betriebssystemschnittstellenebene, wie in Fig. 8 gezeigt, hinzugefügt. In einer DOS-Umgebung kann dieser in der Praxis als ein Treiber unter Verwendung der CONFigurSYS Datei in den Computer geladen werden.
Die hinzugefügte Software hat den Effekt, daß ein Befehl für die Dateneinspeicherung durch einen alternativen Befehlssatz ersetzt oder ergänzt wird.
Bei anderen Betriebssystemen ist es ebenso notwendig, die Dateischreibfunktion auf analoge Weise zu unterbrechen. Der erfahrene Programmierer wird in der Lage sein, die notwendigen Routinen unter Befolgung der obigen Beschreibung bezüglich des DOS-Betriebssystems vorzubereiten.
Im allgemeineren kann die Erfindung in vielen modifizierten Verfahren und anderen Verfahren und Systemen als den beschriebenen und dargestellten implementiert werden.
Insbesondere können das Verfahren und das System mit dem Teildateisicherungssystem meiner zuvor genannten Anmeldung 08/165,382, Patent 5,617,566, kombiniert werden. Wird dies getan, dann kann die gleiche Hilfsdatenbank zum Notieren von Datenmodifikationen verwendet werden, wie sie gemäß der vorliegenden Erfindung zum Notieren von Datenzugriffen verwendet wird. Der einzige Unterschied besteht darin, daß in der Hilfsdatenbank registriert werden muß, ob es sich bei dem Zugriff um einen Lesezugriff oder einen Schreibzugriff handelte. Das Teildateisicherungssystem meiner zuvor genannten Anmeldung spricht dann auf Einträge an, die Schreibzugriffe auf die Hilfsdatenbank betreffen, während das Teildatei-HSM-System der vorliegenden Anmeldung sowohl Lese- als auch Schreibzugriffe berücksichtigt.
In einer anderen Modifikation wird das System tatsächlich durch Erhöhen der Inaktivitätsschwelle auf die Lebensdauer der Hilfsdatenbank erweitert. Das heißt, in Fig. 5 wird der Schritt 44 so modifiziert, daß statt der Unterscheidung von Blöcken, auf die seit einem bestimmten Datum zugriffen wurde oder nicht, zwischen Blöcken unterschieden wird, auf die überhaupt zugegriffen oder nicht zugegriffen wurde, d. h. seitdem die Hilfsdatenbank das erste Mal erstellt oder gefüllt wurde. In diesem Fall braucht die Hilfsdatenbank nicht mehr das Datum oder Datum/Zeit jedes Zugriffs zu registrieren.
Unter bestimmten Umständen ist es möglicherweise nicht erwünscht, bestimmte Dateiteile umzustellen, obwohl auf sie nicht zugegriffen wurde. Dies kann zum Beispiel auf den ersten und möglicherweise den letzten Block in jeder Datei zutreffen.
Wenn die Erfindung in einem vollständig neuen Betriebssystem ausgeführt werden soll, dann könnte die Hilfsdatenbank schließlich im Prinzip mit der Dateizuordnungstabelle (FAT) kombiniert werden. Es wird jedoch normalerweise bevorzugt, die beiden voneinander getrennt zu halten.

Claims

1. Computersystem mit Einrichtungen für ein hierarchisches Speichermanagement, wobei das Computersystem einen Arbeitsspeicher (14), eine Zentraleinheit (12), ein primäres Massenspeichermittel (16), ein sekundäres Archivierungsspeichermittel (18) und eine Vorrichtung zum Archivieren von indem Computersystem gespeicherten Daten beinhaltet, wobei die genannte Vorrichtung folgendes umfaßt:

(a) Mittel für die Verwendung beim normalen Gebrauch, die folgendes umfassen:

ein Mittel, um im Arbeitsspeicher (14) gespeicherte Befehle der Zentraleinheit (12) bereitzustellen, um die Zentraleinheit (12) zu veranlassen, auf im primären Massenspeichermittel (16) gespeicherte Daten zuzugreifen zu versuchen, durch Generieren von wenigstens einer Leseanforderung;

ein erstes Identifikationsmittel (22) zum Identifizieren einer Datei, auf die zugegriffen werden soll, wobei sich die Datei aus Dateiteilen zusammensetzt;

ein zweites Identifikationsmittel (24) zum Identifizieren von Dateiteilen in der Datei, auf die zugegriffen werden soll;

ein Zugriffsmittel (28) zum Zugreifen auf die Dateiteile, das ein Mittel zum Prüfen einer Dateizuordnungstabelle aufweist, die die Orte von Dateiteilen auf dem primären Massenspeichermittel (16) definiert, um zu ermitteln, ob sich die Dateiteile auf dem primären Massenspeichermittel (16) befinden, und wenn dies der Fall ist, die Orte solcher Dateiteile; und

Baumittel (26) zum Aufbauen einer Datenbank, die die Dateiteilorte identifiziert, auf die zugegriffen werden soll, wobei die Datenbank nicht den Dateiteil selbst beinhaltet;

(b) Mittel zum Archivieren, das folgendes umfaßt:

ein Mittel, um im Arbeitsspeicher (14) gespeicherte Befehle der Zentraleinheit (12) bereitzustellen, um die Zentraleinheit (12) zu veranlassen, ausgewählte, im primären Massenspeichermittel (16) gespeicherte Daten auf dem sekundären Archivierungsspeichermittel (18) zu archivieren, um auf dem primären Massenspeichermittel (16) Platz freizumachen;

ein drittes Identifikationsmittel (42, 44), um anhand der Datenbank Dateiteilorte zu identifizieren, auf die zugegriffen wurde;

ein Archivierungsmittel (46-50), um wenigstens einige Dateiteile, auf die nicht zugegriffen wurde, aus dem primären Massenspeichermittel (16) auf das sekundäre Archivierungsspeichermittel (18) zu archivieren; und

ein Löschmittel (52), um den von denjenigen Dateiteilen belegten Platz auf dem primären Massenspeichermittel (16) freizumachen, auf die nicht zugegriffen wurde, aber die von dem Archivierungsmittel archiviert wurden, während Dateiteile, auf die zugegriffen wurde, auf dem primären Massenspeichermittel (16) erhalten bleiben; und

(c) Mittel zur Informationswiedergewinnung, die folgendes umfassen:

ein Mittel, um im Arbeitsspeicher (14) gespeicherte Befehle der Zentraleinheit (12) bereitzustellen, um die Zentraleinheit (12) zu veranlassen, ausgewählte, auf dem sekundären Archivierungsspeichermittel (18) archivierte Daten wieder auf das primäre Massenspeichermittel (16) umzuspeichern, damit darauf zugegriffen werden kann; und

ein Mittel (68, 70), das, wenn das Zugriffsmittel ermittelt, daß sich gewünschte Dateiteile nicht auf dem primären Massenspeichermittel (16) befinden, anspricht, indem es die gewünschten Dateiteile aus dem sekundären Archivierungsspeichermittel (18) für den Zugriff auf das primäre Massenspeichermittel (16) umspeichert.

2. Computersystem nach Anspruch 1, bei dem die Dateiteile Blöcke sind, die den in der Dateizuordnungstabelle identifizierten Elementarblöcken entsprechen.

3. Computersystem nach Anspruch 1 oder 2, bei dem die Datenbank ferner definiert, ob der Zugriff ein Schreibzugriff oder ein Lesezugriff ist.

4. Computersystem nach Anspruch 1, 2 oder 3, bei dem das Baumittel (26) die Dateiteile identifiziert, auf die zugegriffen werden soll, sowie das Datum oder Datum und Zeit, an dem/zu der der Zugriff erfolgt.

5. Computersystem nach Anspruch 4, bei dem das dritte Identifikationsmittel (42, 44) ein Mittel (44) umfaßt, um aus der Datenbank Dateiteile zu identifizieren, auf die seit einem bestimmten Datum zugegriffen wurde, und Dateiteile, auf die seit dem vorgegebenen Datum nicht zugegriffen wurde; das Archivierungsmittel (46-50) ein Mittel umfaßt, um wenigstens einige Dateiteile auf das sekundäre Archivierungsspeichermittel (18) zu archivieren, auf die seit dem vorgegebenen Datum nicht zugegriffen wurde; und das Löschmittel (52) ein Mittel umfaßt, um auf dem primären Massenspeichermittel (16) den von denjenigen Dateiteilen belegten Platz freizumachen, auf die seit dem vorgegebenen Datum nicht zugegriffen wurde, die aber von dem Archivierungsmittel archiviert wurden, während Dateiteile auf dem primären Massenspeichermittel (16) erhalten bleiben, auf die seit dem vorgegebenen Datum zugegriffen wurde.

6. Computersystem nach Anspruch 5, bei dem das Archivierungsmittel (46-50) und das Löschmittel (52) Mittel (48) zum Archivieren und Löschen derjenigen Dateiteile beinhalten, auf die seit dem vorgegebenen Datum nicht zugegriffen wurde und die bereits mit einer vorbestimmten Häufigkeit gesichert wurden.

7. Computersystem nach einem der vorherigen Ansprüche, bei dem das Löschmittel (52) ein Mittel zum Ändern der Dateizuordnungstabelle umfaßt.

8. Computersystem nach einem der vorherigen Ansprüche, bei dem das Baumittel (26) die Datenbank konsolidiert, um redundante Informationen zu entfernen.

9. Verfahren zum Zugreifen auf Daten, die in einem Computersystem gespeichert sind, das Einrichtungen für ein hierarchisches Speichermanagement beinhaltet, wobei das Computersystem einen Arbeitsspeicher, eine Zentraleinheit, ein primäres Massenspeichermittel, ein sekundäres Archivierungsspeichermittel und eine Vorrichtung zum Archivieren von in dem Computersystem gespeicherten Daten aufweist, wobei das Verfahren die folgenden Schritte umfaßt:

(a) beim normalen Gebrauch:

Bereitstellen von im Arbeitsspeicher gespeicherten Befehlen für die Zentraleinheit, um die Zentraleinheit zu veranlassen, auf im primären Massenspeichermittel gespeicherte Daten zuzugreifen zu versuchen, durch Generieren von wenigstens einer Leseanforderung;

Identifizieren einer Datei, auf die zugegriffen werden soll, wobei sich die Datei aus Dateiteilen zusammensetzt;

Identifizieren von Dateiteilen in der Datei, auf die zugegriffen werden soll;

Zugreifen auf die Dateiteile, wobei der Zugriffsschritt das Prüfen einer Dateizuordnungstabelle beinhaltet, die die Orte von Dateiteilen auf dem primären Massenspeichermittel definiert, um zu ermitteln, ob sich die Dateiteile auf dem primären Massenspeichermittel befinden, und wenn dies der Fall ist, die Orte solcher Dateiteile; und

Aufbauen einer Datenbank, die die Dateiteilorte identifiziert, auf die zugegriffen werden soll, wobei die Datenbank nicht den Dateiteil selbst beinhaltet;

(b) beim Archivieren:

Bereitstellen von im Arbeitsspeicher gespeicherten Befehlen für die Zentraleinheit, um die Zentraleinheit zu veranlassen, ausgewählte, im primären Massenspeichermittel gespeicherte Daten auf dem sekundären Archivierungsspeichermittel zu archivieren, um auf dem primären Massenspeichermittel Platz freizumachen;

Identifizieren von Dateiteilorten anhand der Datenbank, auf die zugegriffen wurde;

Archivieren wenigstens einiger Dateiteile, auf die nicht zugegriffen wurde, aus dem primären Massenspeichermittel auf das sekundäre Archivierungsspeichermittel; und

Freimachen des von denjenigen Dateiteilen belegten Platzes auf dem primären Massenspeichermittel, auf die nicht zugegriffen wurde, aber die von dem Archivierungsmittel archiviert wurden, während Dateiteile, auf die zugegriffen wurde, auf dem primären Massenspeichermittel erhalten bleiben; und

(c) zur Informationswiedergewinnung:

Bereitstellen von im Arbeitsspeicher gespeicherten Befehlen für die Zentraleinheit, um die Zentraleinheit zu veranlassen, ausgewählte, auf dem sekundären Archivierungsspeichermittel archivierte Daten wieder auf das primäre Massenspeichermittel umzuspeichern, damit darauf zugegriffen werden kann; und

wenn ermittelt wird, daß sich gewünschte Dateiteile nicht auf dem primären Massenspeichermittel befinden, Umspeichern der gewünschten Dateiteile aus dem sekundären Archivierungsspeichermittel auf das primäre Massenspeichermittel, damit darauf zugegriffen werden kann.

10. Verfahren nach Anspruch 9, bei dem die Dateiteile Blöcke sind, die den in der Dateizuordnungstabelle identifizierten Elementarblöcken entsprechen.

11. Verfahren nach Anspruch 9 oder 10, bei dem die Datenbank ferner definiert, ob der Zugriff ein Schreibzugriff oder ein Lesezugriff ist.

12. Verfahren nach Anspruch 9, 10 oder 11, bei dem der Aufbauschritt die Dateiteile identifiziert, auf die zugegriffen werden soll, sowie das Datum oder Datum und Zeit, an dem bzw. zu der der Zugriff erfolgt.

13. Verfahren nach Anspruch 12, bei dem der Schritt des Archivierens der Identifizierung, auf welche Dateiteile zugegriffen wurde, die Identifizierung von Dateiteilen anhand der Datenbank umfaßt, auf die seit einem bestimmten Datum zugegriffen wurde, und von Dateiteilen, auf die seit dem vorgegebenen Datum nicht zugegriffen wurde; der Archivierungsschritt das Archivieren von wenigstens einigen Dateiteilen auf das sekundäre Archivierungsspeichermittel umfaßt, auf die seit dem vorgegebenen Datum nicht zugegriffen wurde; und der Löschschritt das Freimachen des von denjenigen Teilen belegten Platzes auf dem primären Massenspeichermittel umfaßt, auf die seit dem vorgegebenen Datum nicht zugegriffen wurde, die jedoch von dem Archivierungsmittel archiviert wurden, während auf dem primären Massenspeichermittel Dateiteile erhalten bleiben, auf die seit dem vorgegebenen Datum zugegriffen wurde.

14. Verfahren nach Anspruch 13, bei dem der Archivierungsschritt und der Löschschritt das Archivieren und Löschen derjenigen Dateiteile umfaßt, auf die seit dem vorgegebenen Datum nicht zugegriffen wurde und die bereits mit einer vorbestimmten Häufigkeit gesichert wurden.

15. Verfahren nach einem der Ansprüche 9 bis 14, bei dem der Löschschritt das Ändern der Dateizuordnungstabelle umfaßt.

16. Verfahren nach einem der Ansprüche 9 bis 15, bei dem der Aufbauschritt das Konsolidieren der Datenbank beinhaltet, um redundante Informationen zu entfernen.