EP3430515B1

EP3430515B1 - Datenmanagement und sicherheit für verteilte speichersysteme

Info

Publication number: EP3430515B1
Application number: EP17718631.9A
Authority: EP
Inventors: David Yanovsky; Teimuraz NAMORADZE; Vera Dmitriyevna MILOSLAVSKAYA; Denys SMIRNOV
Original assignee: Datomia Research Labs Ou
Current assignee: Datomia Research Labs Ou
Priority date: 2016-03-15
Filing date: 2017-03-15
Publication date: 2021-09-22
Anticipated expiration: 2037-03-15
Also published as: MX2022014374A; US20220368457A1; US20170272100A1; MX2018011241A; US20170272209A1; US10735137B2; ES2899933T3; US10608784B2; WO2017161050A3; IL261816A; US20210021371A1; EP3430515A2; WO2017161050A2

Claims

Verfahren zum Verteilen von Daten einer Vielzahl von Dateien über eine Vielzahl von jeweiligen entfernten Speicherknoten (1709), wobei das Verfahren umfasst:
Spalten in Segmente (1103), der Daten der Vielzahl von Dateien, durch einen oder mehrere Prozessoren, die konfiguriert sind, Code auszuführen, der in nichtflüchtigen prozessorlesbaren Medien gespeichert ist;

Codieren (1104), durch den einen oder die mehreren Prozessoren, jedes Segments in eine Anzahl von Codewortstücken, wobei keines der Codewortstücke einen jeglichen der Segmente enthält;

Verpacken (1104) jedes Codewortstücks mit mindestens einem Codierungsparameter und Identifikator in mindestens ein Paket;

Erzeugen (1108), durch den einen oder die mehreren Prozessoren, von Metadaten (1004) für mindestens eine Datei der Vielzahl von Dateien und Metadaten für verwandte Segmente der mindestens einen Datei, wobei die Metadaten für die mindestens eine Datei Informationen enthalten, um die mindestens eine Datei aus den Segmenten zu rekonstruieren, und Metadaten für die verwandten Segmente Informationen enthalten, um die verwandten Segments aus entsprechenden Paketen zu rekonstruieren;

Codieren (1112), durch den einen oder die mehreren Prozessoren, der Metadaten in mindestens in Paket, wobei das Codieren einer jeweiligen Sicherheitsstufe und einem Schutz vor Speicherknotenausfall entspricht;

Berechnen von Verfügbarkeitskoeffizienten für die entfernten Speicherknoten (1709) unter Verwendung von statistischen Daten, wobei jeder Verfügbarkeitskoeffizient vorhergesagte durchschnittliche Herunterladegeschwindigkeit für einen jeweiligen Speicherknoten (1709) charakterisiert;

Zuweisen (1105), durch den einen oder die mehreren Prozessoren, einer Vielzahl von Paketen zu entfernten Speicherknoten, wobei der Schritt des Zuweisens die Verfügbarkeitskoeffizienten verwendet, um Datenabrufwartezeit zu minimieren und Arbeitslastverteilung zu optimieren;

Übertragen (1106), durch den einen oder die mehreren Prozessoren, jedes der Pakete an mindestens einen jeweiligen entfernten Speicherknoten (1709); und

Abrufen (1305), durch den einen oder die mehreren Prozessoren, mindestens einer der Vielzahl von Dateien als eine Funktion, die iterativ auf die Pakete von Metadaten und Dateidaten zugreift und diese abruft.
Verfahren nach Anspruch 1, wobei der Schritt des Spaltens in Segmente Daten innerhalb eines jeweiligen Segments bereitstellt, die einen Teil einer einzelnen Datei oder mehrere Dateien umfassen, und das Verfahren weiter Aggregieren einer Vielzahl von Dateien für ein Segment als eine Funktion des Minimierens eines Unterschieds zwischen Segmentgröße und einer Gesamtgröße eingebetteter Dateien, und einer Wahrscheinlichkeit gemeinsamen Abrufens von eingebetteten Dateien umfasst.
Verfahren nach Anspruch 1, wobei der Schritt des Codierens jedes Segments eine Deduplizierung als eine Funktion von hashbasierten Merkmalen der Datei einschließt.
Verfahren nach Anspruch 1, wobei der Schritt des Codierens jedes Segments ein Verschlüsseln (1609) einschließt, wobei mindestens ein Segment vollständig mit einem individuellen Verschlüsselungsschlüssel (1111) verschlüsselt wird, wobei der Verschlüsselungsschlüssel (1111) als eine Funktion von Daten, die verschlüsselt werden, erzeugt wird.
Verfahren nach Anspruch 4, wobei jeder einer Vielzahl von jeweiligen individuellen Verschlüsselungsschlüsseln mit einem jeweiligen Schlüsselverschlüsselungsschlüssel verschlüsselt wird und über einen jeweiligen Speicherknoten verteilt wird, wobei jeder jeweilige Schlüsselverschlüsselungsschlüssel unter Verwendung einer passwortbasierten Schlüsselableitungsfunktion erzeugt wird.
Verfahren nach Anspruch 1, wobei der Schritt des Codierens jedes Segments eine Verschlüsselung (1609) einschließt, wobei mindestens ein Segment in Teilstücke aufgeteilt wird, wobei jedes Teilstück getrennt verschlüsselt wird, und wobei weiter eine Anzahl von Verschlüsselungsschlüsseln pro Segment von eins bis zu der Anzahl von Teilstücken reicht.
Verfahren nach Anspruch 1, wobei der Schritt des Codierens jedes Segments eine Löschcodierung (1610) vom Mischgrad S umfasst, wobei Codewortstücke aus Informationsstücken unter Verwendung einer linearen Blockfehlerkorrekturfunktion produziert werden, und Mischgrad S mindestens S Codewortstücke erfordert, um ein jegliches Informationsstück zu rekonstruieren, wobei jeweilige Löschcodierungstechniken für Datensegmentcodierung und Metadatencodierung derart verwendet werden, dass Metadaten mindestens vor Speicherknotenausfall geschützt werden.
Verfahren nach Anspruch 1, wobei der Schritt des Zuordnens von Paketen zu entfernten Speicherknoten Abrufwartezeit für eine Gruppe von verwandten Segmenten minimiert.
Verfahren nach Anspruch 1, weiter umfassend:
Berechnen mindestens eines Relevanzkoeffizienten als eine Funktion von Informationen, die ein eingesetztes Löschkorrekturcodierungsschema und Signifikanz der jeweiligen Codewortposition für Datenabruf darstellen.
Verfahren nach Anspruch 1, wobei Metadaten für eine Datei und Metadaten für verwandte Segments in zwei Teile geteilt werden, bei denen ein Teil individuell in Pakete verpackt wird und ein anderer Teil an Pakete angehängt wird, die jeweilige codierte Datensegmente enthalten.
Verfahren nach Anspruch 1, weiter umfassend Anordnen von temporärem Speicher von Dateidaten innerhalb eines lokalen Zwischenspeichers durch:
Arbeiten über zusammengesetzte Datenblöcke;

Teilen von Speicherraum in Bereiche mit zusammengesetzten Blöcken gleicher Größe;

Einsetzen einer Dateistruktur, um Dateianordnung innerhalb des lokalen Zwischenspeichers zu optimieren; und

Durchführen einer Speicherbereinigung, um freie zusammengesetzte Blöcke anzuordnen.
Verfahren nach Anspruch 11, wobei Anordnen von temporärem Speicher von Dateidaten innerhalb eines lokalen Zwischenspeichers eine Zwischenspeicheroptimierung unter Einsetzen von Informationen einschließt, die eine Dateistruktur darstellen, wobei Zwischenspeicheroptimierung durch Klassifizieren von Dateien basierend auf einer jeweiligen Vielzahl von Kategorien von Zugangsmustern, und Einsetzen jeweiliger Zwischenspeicherverwaltungsstrategie für ähnlich kategorisierte Dateien vereinfacht wird.
Verfahren nach Anspruch 1, wobei der Schritt des Abrufens von Paketen von Metadaten und Dateidaten umfasst: Zugreifen, durch den einen oder die mehreren Prozessoren, auf Dateimetadatenreferenzen innerhalb eines lokalen Zwischenspeichers oder innerhalb von entfernten Speicherknoten;
Empfangen, durch den einen oder die mehreren Prozessoren, einer Vielzahl von Paketen aus entfernten Speicherknoten durch Metadatenreferenzen, wobei jedes der Pakete Dateimetadaten enthält;

Empfangen, durch den einen oder die mehreren Prozessoren, einer Vielzahl von anderen Paketen, die codierte Dateisegmente enthalten, aus Speicherknoten durch Datenreferenzen, wobei die codierten Dateisegmente mindestens teilweise aus Dateimetadaten erhalten werden;

Rekonstruieren, durch den einen oder die mehreren Prozessoren, von Dateidaten aus den Paketen als eine Funktion von Metadaten, die Parameter darstellen, die mit einem Codierungsschema und Dateispaltungsschema assoziiert sind.
Verfahren nach Anspruch 13, wobei Dateiabrufgeschwindigkeit durch Zwischenspeichern von Metadaten aus einer Vielzahl von Dateien auf Client-Seite verbessert wird.
System (2601) zum Verteilen von Daten einer Vielzahl von Dateien über eine Vielzahl von jeweiligen entfernten Speicherknoten, wobei das System (2601) umfasst:
einen oder mehrere Prozessoren in elektronischer Kommunikation mit nichtflüchtigen prozessorlesbaren Speichermedien,

ein oder mehrere Software-Module, umfassend ausführbare Anweisungen, die in den Speichermedien gespeichert sind, wobei das eine oder die mehreren Software-Module durch den einen oder die mehreren Prozessoren ausführbar sind und einschließen:
ein Fragmentierungsmodul (2604), das den einen oder die mehreren Prozessoren dazu konfiguriert, die Daten der Vielzahl von Dateien in Segmente zu spalten;

ein Codierungsmodul (2605), das den einen oder die mehreren Prozessoren dazu konfiguriert, jedes Segment in eine Anzahl von Codewortstücke zu codieren, wobei keines der Codewortstücke ein jegliches der Segmente enthält, und jedes Codewortstück mit mindestens einem Codierungsparameter und Identifikator in mindestens ein Paket zu verpacken;

ein Konfigurationsmodul (2602), das den einen oder die mehreren Prozessoren dazu konfiguriert, Metadaten für mindestens eine Datei der Vielzahl von Dateien und Metadaten für verwandte Segmente der mindestens einen Datei zu erzeugen, wobei die Metadaten für die mindestens eine Datei Informationen enthalten, um die mindestens eine Datei aus den Segmenten zu rekonstruieren, und Metadaten für die verwandten Segmente Informationen zum Rekonstruieren der verwandten Segmente aus entsprechenden Paketen enthalten;

wobei die Metadaten in mindestens ein Paket codiert werden, wobei das Codieren einer jeweiligen Sicherheitsstufe und einem Schutz vor Speicherknotenausfall entspricht;

ein Lastausgleichsmodul (2606), das den einen oder die mehreren Prozessoren dazu konfiguriert, entfernten Speicherknoten eine Vielzahl von Paketen unter Verwendung von Verfügbarkeitskoeffizienten, die für die entfernten Speicherknoten unter Verwendung von statistischen Daten berechnet wurden, zuzuweisen, wobei jeder Verfügbarkeitskoeffizient vorhergesagte durchschnittliche Herunterladegeschwindigkeit für einen jeweiligen entfernten Speicherknoten charakterisiert, und wobei weiter das Lastausgleichsmodul Datenabrufwartezeit minimiert und Arbeitslastverteilung optimiert;

ein Steuermodul, das den einen oder die mehreren Prozessoren dazu konfiguriert, jedes der Pakete an mindestens einen jeweiligen entfernten Speicherknoten zu übertragen und mindestens eine der Vielzahl von Dateien als eine Funktion von iterativem Zugreifen auf und Abrufen der Pakete von Metadaten und Dateidaten abzurufen.