WO2019037093A1

WO2019037093A1 - Procédé et système de traitement de données par informatique répartie spark

Info

Publication number: WO2019037093A1
Application number: PCT/CN2017/099083
Authority: WO
Inventors: 毛睿; 陆敏华; 陆克中; 朱金彬; 隋秀峰
Original assignee: Shenzhen University
Current assignee: Shenzhen University
Priority date: 2017-08-25
Filing date: 2017-08-25
Publication date: 2019-02-28
Anticipated expiration: 2020-02-25

Abstract

La présente invention se rapporte au domaine de l'informatique, et concerne un procédé de traitement de données par informatique répartie Spark. Le procédé comporte les étapes consistant à: planifier une sous-tâche au moyen d'un planificateur de tâches, exécuter une tâche de stockage de données de partition RDD, et solliciter un espace d'une zone de stockage; calculer la taille d'un espace pouvant être expulsé dans la zone de stockage, et spécifier une adresse de migration d'un système de stockage hybride en fonction d'une popularité d'accès de données de partition (S102); et lire des données en antémémoire dans une zone de stockage spécifiée, libérer un espace mémoire correspondant, migrer des données de partition vers une adresse spécifiée, modifier un niveau de persistance des données migrées, et renvoyer un signal d'expulsion réussie et des informations d'espace expulsé (S103). L'invention concerne également un système d'informatique répartie Spark. En introduisant le système de stockage hybride et en concevant une unité logique d'expulsion et une unité de migration de données en antémémoire, les données sont migrées vers un SSD ou un HDD en fonction de la popularité des données de partition et ne sont pas directement migrées vers un disque magnétique ou les données en antémémoire sont supprimées, de sorte que la pression du manque d'espace mémoire peut être efficacement réduite et les performances de Spark sont améliorées.