KR102009454B1 - 분산 클라우드 환경에서 실시간 데이터 처리의 지연 시간 최소화를 위한 지능적 데이터 전처리 시스템 및 방법 - Google Patents
분산 클라우드 환경에서 실시간 데이터 처리의 지연 시간 최소화를 위한 지능적 데이터 전처리 시스템 및 방법 Download PDFInfo
- Publication number
- KR102009454B1 KR102009454B1 KR1020170179093A KR20170179093A KR102009454B1 KR 102009454 B1 KR102009454 B1 KR 102009454B1 KR 1020170179093 A KR1020170179093 A KR 1020170179093A KR 20170179093 A KR20170179093 A KR 20170179093A KR 102009454 B1 KR102009454 B1 KR 102009454B1
- Authority
- KR
- South Korea
- Prior art keywords
- data
- preprocessing
- clusters
- processing
- intelligent
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/18—File system types
- G06F16/182—Distributed file systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Debugging And Monitoring (AREA)
Abstract
Description
도 2는 평균 클러스터 간 거리 측정 결과를 나타내는 도면이다.
도 3은 전처리 여부에 따른 성능 비교를 설명하는 도면이다.
도 4는 다른 일실시예에 따른 지능적 데이터 전처리 시스템을 설명하는 도면이다.
도 5는 일실시예에 따른 지능적 데이터 전처리 시스템의 동작 방법을 설명하는 도면이다.
Claims (17)
- 수집되는 데이터에 대한 메타데이터를 생성하고, 상기 데이터와 상기 메타데이터를 연관지어 데이터베이스에 저장하는 데이터 저장소 관리부;
상기 저장된 메타데이터에 대한 통계 분석을 처리하고, 상기 통계 분석 결과에 기초하여 상기 저장된 데이터에 대한 사전 데이터 전처리를 수행하는 지능적 전처리 작업 관리부;
상기 전처리가 처리된 데이터 중에서, 입력되는 분석 요구사항에 상응하는 데이터들의 분산 데이터처리를 수행하는 분산 데이터처리 작업 관리부를 포함하고,
상기 지능적 전처리 작업 관리부는,
상기 저장된 메타데이터에 대해 연관 분석과 클러스터링 분석을 통해 컬럼들의 값 분포를 생성하여, 상기 통계 분석을 처리하고,
상기 통계 분석의 처리 결과에 따라 상기 저장된 데이터에 대한 전처리 우선 순위를 결정하며,
상기 결정된 전처리 우선 순위에 따라 상기 전처리를 수행하고,
상기 데이터가 양의 상관관계 또는 음의 상관관계를 일정 수치 이상 가질 경우 연관성이 있는 것으로 상기 연관 분석을 처리하며,
상기 연관 분석의 결과에 따라 연관성이 있는 컬럼에 대해 상기 클러스터링 분석을 처리하되, 클러스터 수를 증가시키며 평균 클러스터 간 거리(DAverage)의 계산하고, 상기 계산된 평균 클러스터 간 거리(DAverage)를 균등 분포시 클러스터 간 거리(DMax)에 대비하여 상기 데이터가 분포된 정도를 판단하는 지능적 데이터 전처리 시스템. - 삭제
- 삭제
- 삭제
- 제1항에 있어서,
상기 지능적 전처리 작업 관리부는,
인접한 두 클러스터의 중심점 간 차이 값들을 누적한 값과 클러스터의 개수간 비율에 기초해서 상기 평균 클러스터 간 거리(DAverage)를 계산하는 지능적 데이터 전처리 시스템. - 제1항에 있어서,
상기 지능적 전처리 작업 관리부는,
클러스터가 1개일 때의 최대 지름값과 전체의 클러스터 개수의 비율에 기초하여 상기 균등 분포시 클러스터 간 거리(DMax)를 계산하는 지능적 데이터 전처리 시스템. - 제1항에 있어서,
상기 지능적 전처리 작업 관리부는,
상기 데이터가 분포된 정도에 기초하여 상기 데이터에 대한 전처리 우선 순위를 결정하고, 상기 결정된 전처리 우선 순위에 따라 전처리 후보를 결정하며, 상기 결정된 전처리 후보에 대해 순서대로 전처리를 수행하는 지능적 데이터 전처리 시스템. - 제1항에 있어서,
상기 메타데이터는 상기 데이터의 컬럼 정보, 라인 수, 및 컬럼들의 값 분포 중에서 적어도 하나를 포함하는 지능적 데이터 전처리 시스템. - 제1항에 있어서,
상기 분산 데이터처리 작업 관리부는,
처리 작업에 대한 워크플로우를 생성하고, 상기 생성된 워크플로우에 따라 작업들을 스케줄링 하되, 상기 스케줄링 하는 작업들을 스트림 처리, 마이크로 배치 처리, 배치 처리 중에서 어느 하나의 처리에 할당하는 지능적 데이터 전처리 시스템. - 데이터와 상기 데이터에 상응하는 메타데이터를 기록하고 유지하는 데이터베이스;
상기 메타데이터에 기초하여, 상기 데이터의 연관성과 분포된 정도를 판단하여, 상기 데이터에 대한 전처리 우선 순위를 산출하는 전처리 우선 순위 산출부; 및
상기 산출된 전처리 우선 순위에 기초하여 상기 데이터에 대한 전처리를 수행하는 전처리부를 포함하고,
상기 전처리 우선 순위 산출부는,
상기 데이터가 양의 상관관계 또는 음의 상관관계를 일정 수치 이상 가질 경우 연관성이 있는 것으로 판단하고,
상기 연관성이 있는 데이터에 대해서만 분포된 정도를 판단하되, 상기 메타데이터에 포함된 클러스터 수를 증가시키며 평균 클러스터 간 거리(DAverage)의 계산하고, 상기 계산된 평균 클러스터 간 거리(DAverage)와 균등 분포시 클러스터 간 거리(DMax)의 차이에 대한 절대값을, 균일 분포 임계값(Tcluster)에 대비하여 상기 데이터가 분포된 정도를 판단하는 지능적 데이터 전처리 시스템. - 삭제
- 데이터 저장소 관리부에서, 수집되는 데이터에 대한 메타데이터를 생성하고, 상기 데이터와 상기 메타데이터를 연관지어 데이터베이스에 저장하는 단계;
지능적 전처리 작업 관리부에서, 상기 저장된 메타데이터에 대한 통계 분석을 처리하고, 상기 통계 분석 결과에 기초하여 상기 저장된 데이터에 대한 사전 데이터 전처리를 수행하는 단계;
작업 관리부에서, 상기 전처리가 처리된 데이터 중에서, 입력되는 분석 요구사항에 상응하는 데이터들의 분산 데이터처리를 수행하는 단계를 포함하고,
상기 사전 데이터 전처리를 수행하는 단계는,
상기 저장된 메타데이터에 대해 연관 분석과 클러스터링 분석을 통해 컬럼들의 값 분포를 생성하여, 상기 통계 분석을 처리하는 단계;
상기 통계 분석의 처리 결과에 따라 상기 저장된 데이터에 대한 전처리 우선 순위를 결정하는 단계; 및
상기 결정된 전처리 우선 순위에 따라 상기 전처리를 수행하는 단계를 포함하며,
상기 통계 분석을 처리하는 단계는,
상기 데이터가 양의 상관관계 또는 음의 상관관계를 일정 수치 이상 가질 경우 연관성이 있는 것으로 상기 연관 분석을 처리하는 단계;
상기 연관 분석의 결과에 따라 연관성이 있는 컬럼에 대해 상기 클러스터링 분석을 처리하되, 클러스터 수를 증가시키며 평균 클러스터 간 거리(DAverage)의 계산하는 단계; 및
상기 계산된 평균 클러스터 간 거리(DAverage)를 균등 분포시 클러스터 간 거리(DMax)에 대비하여 상기 데이터가 분포된 정도를 판단하는 단계를 포함하는 지능적 데이터 전처리 시스템의 동작 방법. - 삭제
- 삭제
- 삭제
- 제12항에 있어서,
상기 통계 분석을 처리하는 단계는,
인접한 두 클러스터의 중심점 간 차이 값들을 누적한 값과 클러스터의 개수간 비율에 기초해서 상기 평균 클러스터 간 거리(DAverage)를 계산하는 단계; 및
클러스터가 1개일 때의 최대 지름값과 전체의 클러스터 개수의 비율에 기초하여 상기 균등 분포시 클러스터 간 거리(DMax)를 계산하는 단계
를 더 포함하는 지능적 데이터 전처리 시스템의 동작 방법. - 제12항에 있어서,
분산 데이터처리 작업 관리부에서, 상기 전처리가 처리된 데이터 중에서, 입력되는 분석 요구사항에 상응하는 데이터들의 분산 데이터처리를 수행하는 단계
를 더 포함하고,
상기 분산 데이터처리를 수행하는 단계는,
처리 작업에 대한 워크플로우를 생성하는 단계; 및
상기 생성된 워크플로우에 따라 작업들을 스케줄링 하되, 상기 스케줄링 하는 작업들을 스트림 처리, 마이크로 배치 처리, 배치 처리 중에서 어느 하나의 처리에 할당하는 단계
를 포함하는 지능적 데이터 전처리 시스템의 동작 방법.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| KR1020170179093A KR102009454B1 (ko) | 2017-12-26 | 2017-12-26 | 분산 클라우드 환경에서 실시간 데이터 처리의 지연 시간 최소화를 위한 지능적 데이터 전처리 시스템 및 방법 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| KR1020170179093A KR102009454B1 (ko) | 2017-12-26 | 2017-12-26 | 분산 클라우드 환경에서 실시간 데이터 처리의 지연 시간 최소화를 위한 지능적 데이터 전처리 시스템 및 방법 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| KR20190077693A KR20190077693A (ko) | 2019-07-04 |
| KR102009454B1 true KR102009454B1 (ko) | 2019-08-09 |
Family
ID=67259074
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| KR1020170179093A Active KR102009454B1 (ko) | 2017-12-26 | 2017-12-26 | 분산 클라우드 환경에서 실시간 데이터 처리의 지연 시간 최소화를 위한 지능적 데이터 전처리 시스템 및 방법 |
Country Status (1)
| Country | Link |
|---|---|
| KR (1) | KR102009454B1 (ko) |
Families Citing this family (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| KR102910749B1 (ko) * | 2022-12-02 | 2026-01-12 | 한국전자기술연구원 | 클라우드 환경에서의 관계형 메타 데이터 수집 시스템 및 방법 |
Citations (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| KR101735894B1 (ko) | 2014-12-02 | 2017-05-24 | 포항공과대학교 산학협력단 | 의존 정규화 랜덤 측도를 이용한 트리 기반의 점층적 클러스터링 방법 및 장치 |
Family Cites Families (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| GB2481272B (en) | 2011-01-31 | 2012-05-23 | Frito Lay Trading Co Gmbh | Low surface oil potato chip and bag therefore |
| JP6061250B2 (ja) | 2013-06-28 | 2017-01-18 | 株式会社吉野工業所 | 合成樹脂製窓付き容器、プリフォーム及びプリフォームの射出成形方法 |
| KR102117637B1 (ko) * | 2013-10-01 | 2020-06-01 | 삼성에스디에스 주식회사 | 데이터 전처리 장치 및 방법 |
| KR101679050B1 (ko) * | 2014-12-12 | 2016-11-24 | 경희대학교 산학협력단 | 규칙 기반 로그 데이터 그룹화를 이용한 개인 맞춤형 로그 분석 시스템 및 그 방법 |
-
2017
- 2017-12-26 KR KR1020170179093A patent/KR102009454B1/ko active Active
Patent Citations (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| KR101735894B1 (ko) | 2014-12-02 | 2017-05-24 | 포항공과대학교 산학협력단 | 의존 정규화 랜덤 측도를 이용한 트리 기반의 점층적 클러스터링 방법 및 장치 |
Non-Patent Citations (1)
| Title |
|---|
| 김용현 등, "하이브리드 클라우드 환경에서 다중 데이터 처리 방법을 이용한 워크플로우 모델 설계", 한국통신학회 학술대회논문집, pp1517-1518, 2017.6 |
Also Published As
| Publication number | Publication date |
|---|---|
| KR20190077693A (ko) | 2019-07-04 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| Wang et al. | Performance prediction for apache spark platform | |
| US9870270B2 (en) | Realizing graph processing based on the mapreduce architecture | |
| JP5229731B2 (ja) | 更新頻度に基づくキャッシュ機構 | |
| WO2021185206A1 (zh) | 集群任务的资源分配方法及装置、计算机装置及存储介质 | |
| US10146469B2 (en) | Dynamic storage tiering based on predicted workloads | |
| US9584442B2 (en) | Managing a set of assets of a shared pool of configurable computing resources | |
| US20100192156A1 (en) | Technique for conserving software application resources | |
| WO2016078008A1 (zh) | 调度数据流任务的方法和装置 | |
| US9965327B2 (en) | Dynamically scalable data collection and analysis for target device | |
| CN111625367B (zh) | 一种动态调整文件系统读写资源的方法 | |
| JP2017529575A (ja) | ディスク容量の予測方法、装置、デバイス及び非発揮性コンピューター記憶媒体 | |
| Kumar et al. | A comprehensive review of straggler handling algorithms for mapreduce framework | |
| US7865898B2 (en) | Repartitioning parallel SVM computations using dynamic timeout | |
| Akhtar et al. | Map-Reduce based tipping point scheduler for parallel image processing | |
| Li et al. | Predicting inference latency of neural architectures on mobile devices | |
| JP2017102919A (ja) | 命令を処理するための複数の実行ユニットを備えるプロセッサ、プロセッサを使用して命令を処理するための方法、およびプロセッサの設計プロセスにおいて使用される設計構造 | |
| US10334028B2 (en) | Apparatus and method for processing data | |
| Li et al. | Inference latency prediction at the edge | |
| US10599472B2 (en) | Information processing apparatus, stage-out processing method and recording medium recording job management program | |
| KR102009454B1 (ko) | 분산 클라우드 환경에서 실시간 데이터 처리의 지연 시간 최소화를 위한 지능적 데이터 전처리 시스템 및 방법 | |
| Liu et al. | High-responsive scheduling with mapreduce performance prediction on hadoop YARN | |
| US8667008B2 (en) | Search request control apparatus and search request control method | |
| KR20160076896A (ko) | 선점 방식을 선택하는 방법 및 장치. | |
| CN118445082B (zh) | 一种算力集群管理方法、装置、设备及存储介质 | |
| KR20190078692A (ko) | 데이터 분포를 고려하여 데이터를 샘플링하는 장치 및 그 방법 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A201 | Request for examination | ||
| PA0109 | Patent application |
Patent event code: PA01091R01D Comment text: Patent Application Patent event date: 20171226 |
|
| PA0201 | Request for examination | ||
| E902 | Notification of reason for refusal | ||
| PE0902 | Notice of grounds for rejection |
Comment text: Notification of reason for refusal Patent event date: 20190215 Patent event code: PE09021S01D |
|
| PG1501 | Laying open of application | ||
| E701 | Decision to grant or registration of patent right | ||
| PE0701 | Decision of registration |
Patent event code: PE07011S01D Comment text: Decision to Grant Registration Patent event date: 20190801 |
|
| GRNT | Written decision to grant | ||
| PR0701 | Registration of establishment |
Comment text: Registration of Establishment Patent event date: 20190805 Patent event code: PR07011E01D |
|
| PR1002 | Payment of registration fee |
Payment date: 20190806 End annual number: 3 Start annual number: 1 |
|
| PG1601 | Publication of registration | ||
| PR1001 | Payment of annual fee |
Payment date: 20220701 Start annual number: 4 End annual number: 4 |
|
| PR1001 | Payment of annual fee |
Payment date: 20240701 Start annual number: 6 End annual number: 6 |
|
| PR1001 | Payment of annual fee |
Payment date: 20250701 Start annual number: 7 End annual number: 7 |