KR102814797B1

KR102814797B1 - 메타-학습에 기반하여 기계학습의 모델을 선정하는 방법 및 장치

Info

Publication number: KR102814797B1
Application number: KR1020180090334A
Authority: KR
Inventors: 고정훈; 이재준; 김성제; 허인; 정창욱
Original assignee: 삼성전자주식회사
Priority date: 2018-08-02
Filing date: 2018-08-02
Publication date: 2025-05-30
Anticipated expiration: 2038-08-02
Also published as: US11681947B2; US20200042896A1; KR20200015048A; CN110796258A

Abstract

기계학습 모델 선정방법 및 이를 수행하는 장치가 개시된다. 본 개시의 실시 예에 따른 기계학습 모델 선정방법은, 적어도 하나의 데이터-세트(data-set)를 수신하는 단계; 상기 데이터-세트에 대한 기계학습(machine learning)을 위한 설정 영역(configuration space)을 구성하는 단계; 상기 데이터-세트로부터, 상기 데이터-세트의 정량적 정보를 포함하는 메타-피처(meta-feature)를 추출하는 단계; 상기 설정 영역에 포함된 복수의 설정들에 기반한 상기 데이터-세트에 대한 기계학습의 성능(performance)을 산출하는 단계; 상기 메타-피처, 상기 복수의 설정들 및 상기 성능에 기반하여 메타-학습을 수행하는 단계; 및 상기 메타-학습 수행 결과에 기반하여, 상기 설정 영역을 최적화하는 단계를 포함할 수 있다.

Description

메타-학습에 기반하여 기계학습의 모델을 선정하는 방법 및 장치{METHOD AND APPARATUS FOR SELECTING MODEL OF MACHINE LEARNING BASED ON META-LEARNING}

본 개시의 기술적 사상은 기계학습의 모델을 선정하는 방법 및 장치, 더욱 상세하게는, 메타-학습에 기반하여 기계학습의 모델을 선정하는 방법 및 장치에 관한 것이다.

기계학습(Machine learning)은 수집된 데이터를 분류하거나, 수집된 데이터의 특성을 나타내는 모델을 학습하는 용도로 널리 활용되고 있다. 기계학습에 대한 다양한 기술이 개발되고 있으며, 기계학습에서 최적의 학습 성능을 도출하기 위해서는, 수집된 데이터를 그대로 이용하는 것보다 기계학습 알고리즘 또는 도출하고자 하는 목표에 따라 기계학습에 대한 다양한 설정을 적절하게 축약하여 학습함이 요구되고 있다.

본 개시의 기술적 사상은 기계학습의 모델을 선정하는 방법 및 장치에 관한 것으로서, 메타-학습에 기반하여 모델 선정의 기반이 되는 설정 영역(configuration space)을 최적화하는 방법 및 장치를 제공한다.

상기와 같은 목적을 달성하기 위하여, 본 개시의 기술적 사상의 일 측면에 따라 프로세서에 의해 수행되는 기계학습 모델 선정방법은, 적어도 하나의 데이터-세트(data-set)를 수신하는 단계; 상기 데이터-세트에 대한 기계학습(machine learning)을 위한 설정 영역(configuration space)을 구성하는 단계; 상기 데이터-세트로부터, 상기 데이터-세트의 정량적 정보를 포함하는 메타-피처(meta-feature)를 추출하는 단계; 상기 설정 영역에 포함된 복수의 설정들에 기반한 상기 데이터-세트에 대한 기계학습의 성능(performance)을 산출하는 단계; 상기 메타-피처, 상기 복수의 설정들 및 상기 성능에 기반하여 메타-학습을 수행하는 단계; 및 상기 메타-학습 수행 결과에 기반하여, 상기 설정 영역을 최적화하는 단계를 포함할 수 있다.

본 개시의 기술적 사상의 다른 일 측면에 따른 기계학습 모델 선정방법은, 데이터-세트를 수신하는 단계; 상기 데이터-세트에 기반하여 기계학습을 위한 설정 영역을 구성하고, 상기 설정 영역 중 복수의 설정들에 기반하여 기계학습 알고리즘을 탐색하고, 상기 복수의 설정들 및 상기 복수의 설정들에 기반한 상기 기계학습 알고리즘의 성능에 관한 정보를 출력하는 단계; 상기 데이터-세트로부터, 상기 데이터-세트에 대한 연관성 관련 정보, 선형성 관련 정보, 평활도 관련 정보 및 분포 밀도 관련 정보 중 적어도 하나에 대한 정량적 정보를 포함하는 메타-피처를 추출하는 단계; 상기 메타-피처, 상기 복수의 설정들 및 상기 성능에 기반하여 메타-학습을 수행하는 단계; 및 상기 메타-학습 수행 결과에 기반하여, 상기 설정 영역을 적응적으로 최적화하는 단계를 포함할 수 있다.

본 개시의 기술적 사상의 또 다른 일 측면에 따른 장치는, 컴퓨터로 판독 가능한 코드를 저장하는 메모리; 및 상기 메모리에 동작 가능하게 결합된 프로세서로서, 상기 코드를 구현하도록 구성되는 프로세서를 포함하고, 상기 코드는: 하나 이상의 데이터-세트를 수신하고, 상기 하나 이상의 데이터-세트에 대한 기계학습을 위한 설정 영역을 구성하고, 상기 설정 영역에 포함된 제1 설정에 기반한 상기 하나 이상의 데이터-세트에 대한 기계학습의 성능을 도출하고, 상기 하나 이상의 데이터-세트로부터, 상기 하나 이상의 데이터-세트의 정량적 정보를 구비하는 메타-피처를 추출하고, 상기 메타-피처, 상기 제1 설정 및 상기 성능에 기반하여 메타-학습을 수행하고, 상기 메타-학습 수행 결과에 기반하여, 상기 설정 영역을 최적화하는 것을 특징으로 할 수 있다.

본 개시의 기술적 사상에 따르면, 메타-학습 결과에 기반하여 기계학습을 위한 설정 영역을 최적화함에 따라, 최적의 기계학습 모델이 구축되는 시간이 단축될 수 있다. 또한, 메타-학습 결과에 따라 자동으로 최적의 기계학습 모델이 구축될 수 있으므로, 컴퓨팅 자원(computing resource) 및 인적 자원(human resource)의 소요를 감축할 수 있다.

도 1은 본 개시의 예시적 실시 예에 따른 장치에 대한 블록도를 도시한다.
도 2는 본 개시의 예시적 실시 예에 따른 프로세서의 동작 방법을 설명하는 순서도를 도시한다.
도 3a는 본 개시의 예시적 실시 예에 따른 장치의 구체적인 블록도를 도시한다. 도 3b는 도 3a에 개시된 데이터-세트의 일 예시를 나타내는 도면이다.
도 4는 본 개시의 예시적 실시 예에 따른 장치의 동작 방법을 나타내는 순서도를 도시한다.
도 5는 본 개시의 예시적 실시 예에 따른 알고리즘 탐색 로직의 구체적 구성에 대한 블록도이다.
도 6은 본 개시의 예시적 실시 예에 따른 메타-데이터베이스의 구체적 구성에 대한 블록도이다.
도 7a는 본 개시의 예시적 실시 예에 따른 메타-피처를 포함하는 테이블을 도시한다. 도 7b는 본 개시의 다른 예시적 실시 예에 따른 메타-피처를 포함하는 테이블을 도시한다. 또한, 도 8은 각 메타-피처의 도출을 위한 수식이 포함된 테이블의 일 예를 도시한다.
도 9는 본 개시의 예시적 실시 예에 따라 산출된 설정에 따른 기계학습의 손실(loss)에 대한 그래프를 도시한다.
도 10은 본 개시의 예시적 실시 예에 따라 탐색되는 설정 영역을 설명하기 위한 블록도를 도시한다.
도 11은 본 개시의 예시적 실시 예에 따른 네트워크 시스템을 나타내는 블록도이다.

이하, 첨부한 도면을 참조하여 본 발명의 실시 예에 대해 상세히 설명한다.

도 1은 본 개시의 예시적 실시 예에 따른 장치에 대한 블록도를 도시한다.

도 1을 참조하면, 장치(10)는 다양한 프로그램들을 구동할 수 있는 프로세서(100)를 포함할 수 있다. 장치(10)는 기계학습(machine learning)과 연관된 각종 동작을 수행하는 장치로서, 다수의 기계학습 모델들 중 하나의 선택, 기계학습 관련 파라미터들의 최적화, 선택된 기계학습 모델에 기반한 기계학습(예를 들어, 분류(classification), 회귀(regression), 클러스터링(clustering), 생성(generation)) 등 다양한 프로세싱 기능들을 갖는 컴퓨팅 장치에 해당될 수 있다. 예를 들어, 장치(10)는 PC(personal computer), 서버 장치, 모바일 장치 등 다양한 종류의 장치들로 구현될 수 있다.

도시되지는 않았으나, 장치(10)는 프로세서(100)에서 구동되는 다양한 프로그램이 저장된 메모리를 더 포함할 수 있다. 메모리(미도시)는 휘발성 메모리(volatile memory) 또는 불휘발성 메모리(nonvolatile memory) 중 적어도 하나를 포함할 수 있다.

프로세서(100)는 장치(10)를 제어하기 위한 전반적인 기능 및 기계학습과 연관된 각종 동작을 수행할 수 있다. 예를 들어, 프로세서(100)는 메모리(미도시)에 저장된 프로그램들을 실행함으로써 장치(10)를 제어하기 위한 전반적인 기능 및 기계학습과 연관된 각종 동작을 수행할 수 있다. 프로세서(100)는 장치(10) 내에 구비된 CPU(Central Processing Unit), GPU(Graphic Processing Unit), DSP(Digital Signal Processor), NPU(Neural Processing Unit) 또는 AP(Application Processor) 등으로 구현될 수 있으나, 이에 제한되지 않는다.

예시적 실시 예에 있어서, 프로세서(100)는 설정 영역 구성 로직(configuration space forming logic)(110), 메타-피처 추출기(meta feature extractor)(130), 메타-학습 로직(meta-learning logic)(150) 및 설정 영역 최적화기(configuration space optimizer)(160) 중 적어도 하나를 구동할 수 있다. 설정 영역 구성 로직(110), 메타-피처 추출기(130), 메타-학습 로직(150) 및 설정 영역 최적화기(160) 각각은 프로세서(100)에 의해서 실행되는 복수의 명령어들을 포함하는 소프트웨어 블록일 수도 있고, 아날로그 회로 및/또는 디지털 회로를 포함하는 하드웨어 블록일 수도 있다.

설정 영역 구성 로직(110)은 기계학습을 위한 서로 다른 모델들 및 이에 대응하는 각종 파라미터들로 구성된 설정 영역을 구성할 수 있다. 예를 들어, 설정 영역 구성 로직(110)에서 구성된 설정 영역은 기계학습 수행을 위한 다수의 알고리즘들, 전처리(preprocessing) 연관 정보, 하이퍼 파라미터(hyper parameter) 연관 정보들에 기반하여 구성될 수 있다.

메타-피처 추출기(130)는, 예를 들어 사용자(user) 또는 시스템으로부터 수신한 데이터-세트(data-set)로부터 메타-피처를 추출할 수 있다. 메타-피처는 데이터-세트에 대한 정량적 특성일 수 있다. 메타-피처 추출기(130)는 데이터-세트가 입력되면 자동으로 해당 데이터-세트의 통계적 특성, 복잡성, 노이즈, 상관성 및 결측치 분포 중 적어도 하나에 기반하여 메타-피처를 추출할 수 있다.

메타-학습 로직(150)은 프로세서(100)에서 구현되는 타 구성의 결과값에 기반하여 메타-학습을 수행할 수 있다. 예시적 실시 예에 있어서, 메타-학습 로직(150)은, 메타-피처 추출기(130)로부터 추출된 입력 데이터-세트의 메타-피처, 설정 영역 구성 로직(110)으로부터 구성된 설정 영역에 구비된 소정의 설정, 및 상기 소정의 설정에 기반한 입력 데이터-세트에 대한 기계학습의 성능에 기반하여 메타-학습을 수행할 수 있다. 예를 들어, 메타-학습 로직(150)은 메타-피처, 소정의 설정 및 성능 간의 관계에 대한 기계학습을 수행할 수 있다.

설정 영역 최적화기(160)는 메타-학습 로직(150)의 동작 결과에 기반하여 설정 영역을 최적화할 수 있다. 다시 말해서, 설정 영역 최적화기(160)는 메타-학습 로직(150)의 동작 결과에 기반하여, 설정 영역 구성 로직(110)으로 하여금 최적화된 설정 영역을 구성하도록 제어할 수 있다.

예시적 실시 예에 있어서, 설정 영역 최적화기(160)는 메타-학습 수행 결과에 기반하여, 현재 구성된 설정 영역에서 제외될 소정의 설정 영역을 선정할 수 있다. 설정 영역 최적화기(160)는 상기 설정 영역에서 제외될 소정의 설정 영역에 대한 정보를 설정 영역 구성 로직(110)으로 출력할 수 있다. 본 개시의 기술적 사상에 따라, 데이터-세트에 대한 메타-학습 결과에 기반하여 설정 영역 구성 로직(110)은 기계학습을 위한 설정 영역을 튜닝할 수 있고, 이로써 최적의 기계학습 모델이 구축되는 시간이 단축될 수 있다. 또한, 메타-학습 결과에 따라 자동으로 최적의 기계학습 모델이 구축될 수 있으므로, 컴퓨팅 자원(computing resource) 및 인적 자원(human resource)의 소요를 감축할 수 있다.

도 2는 본 개시의 예시적 실시 예에 따른 프로세서의 동작 방법을 설명하는 순서도를 도시한다. 이하, 도 2는 도 1을 참조하여 설명된다.

도 2를 참조하면, 프로세서(100)는 데이터-세트의 수신 여부를 확인할 수 있다(S10). 데이터-세트가 수신되지 않는 경우 프로세서(100)는 다음 단계를 진행하지 않으며, 시스템 또는 사용자로부터 데이터-세트를 수신한 경우, 다음 단계를 수행할 수 있다.

데이터-세트를 수신한 경우, 프로세서(100)는 설정 영역을 구성할 수 있다(S20). 예를 들어, 프로세서(100)는 설정 영역 구성 로직(110)을 구동함으로써 데이터-세트의 기계학습을 위한 설정 영역을 구성할 수 있다.

다음, 프로세서(100)는 데이터-세트에 대한 메타-피처를 추출할 수 있다(S30). 예를 들어, 데이터-세트가 입력되면, 프로세서(100)는 메타-피처 추출기(130)를 구동함으로써, 데이터-세트로부터 메타-피처를 추출할 수 있다. 본 실시 예에서는 메타-피처의 추출(S30)이 설정 영역의 구성(S20) 다음에 수행되는 것으로 설명되나, 이에 한정되는 것은 아니다. 즉, 메타-피처의 추출(S30)이 설정 영역의 구성(S20)보다 먼저 수행될 수도 있고, 메타-피처의 추출(S30)과 설정 영역의 구성(S20)이 동시에 수행될 수도 있다.

다음, 프로세서(100)는 설정 영역 내에서 제1 설정을 샘플링하고, 제1 설정에 기반하여 데이터-세트에 대한 기계학습을 수행함에 따른 성능을 도출할 수 있다(S40). 예시적 실시 예에 있어서, 프로세서(100)는 제1 설정에 기반하여 데이터-세트에 대한 기계학습을 수행한 다음, 기 설정된 기준에 따라 점수(score)를 산출할 수 있다. 프로세서(100)는 산출한 점수를 성능으로서 도출할 수 있다.

다음, 프로세서(100)는 메타-학습을 수행할 수 있다(S50). 예를 들어, 프로세서(100)는 메타-학습 로직(150)을 구동함으로써 메타-학습을 수행할 수 있다. 예시적 실시 예에 있어서, 프로세서(100)는 데이터-세트에 대한 메타-피처, 제1 설정, 및 제1 설정에 따른 기계학습의 성능에 기반하여 메타-학습을 수행할 수 있다.

다음, 프로세서(100)는 메타-학습 수행 결과에 기반하여 설정 영역을 튜닝할 수 있다(S60). 예를 들어, 프로세서(100)는 설정 영역 구성 로직(110)을 제어하도록 설정 영역 최적화기(160)를 구동함으로써, 메타-학습 수행 결과에 기반하여 설정 영역을 튜닝할 수 있다. 예시적 실시 예에 있어서, 프로세서(100)는 메타-학습 수행 결과에 기반하여 설정 영역에서 제외될 소정의 설정 영역을 선정하고, 이를 반영함으로써 설정 영역을 튜닝할 수 있다.

도 3a는 본 개시의 예시적 실시 예에 따른 장치의 구체적인 블록도를 도시한다. 도 3b는 도 3a에 개시된 데이터-세트의 일 예시를 나타내는 도면이다.

도 3a를 참조하면, 장치(10)는 설정 영역 구성 로직(110), 알고리즘 탐색 로직(algorithm search logic)(120), 메타-피처 추출기(130), 메타-데이터베이스(140), 메타-학습 로직(150) 및 설정 영역 최적화기(160)를 포함할 수 있다. 예를 들어, 설정 영역 구성 로직(110), 알고리즘 탐색 로직(120), 메타-피처 추출기(130), 메타-학습 로직(150) 및 설정 영역 최적화기(160) 중 적어도 하나는 프로세서(도 1의 100)에 의해 구동될 수 있다.

데이터-세트(50)가 설정 영역 구성 로직(110) 및 메타-피처 추출기(130)로 입력될 수 있다. 예를 들어, 데이터-세트(50)는 장치(10) 외부의 시스템 또는 사용자로부터 입력될 수 있다. 데이터-세트(50)는 기계학습을 위한 복수의 예시 데이터들을 포함할 수 있다.

도 3b를 더 참조하면, 데이터-세트(50)의 구성은 테이블 형태로 설명될 수 있다. 데이터-세트(50)는 서로 다른 복수의 개체들(O_1~O_m)(m은 1 보다 큰 양의 정수)에 관한 정보를 구비할 수 있다. 복수의 개체들(O_1~O_m) 각각에 관한 정보는, 서로 다른 복수의 특징들(F-1 ~ F-k)(k는 1보다 큰 양의 정수)로써 분류될 수 있다. 또한, 복수의 개체들(O_1~O_m) 각각은 카테고리(CT)를 통해 분류될 수 있다.

다시 도 3a를 참조하면, 설정 영역 구성 로직(110)은 수신한 데이터-세트(50)에 기반하여 설정 영역을 구성할 수 있다. 설정 영역은 데이터-세트(50)에 대한 기계학습을 위한 다수의 모델들 및 다수의 파라미터들에 대한 연관 정보로 구성될 수 있다. 예시적 실시 예에 있어서, 설정 영역 구성 로직(110)은 기계학습 수행을 위한 다수의 알고리즘 연관 정보, 전처리 연관 정보, 하이퍼 파라미터 연관 정보들에 기반하여 설정 영역을 구성할 수 있다.

예를 들어, 전처리 연관 정보는 전처리 방법론에 관한 정보를 포함할 수 있다. 또한, 하이퍼 파라미터 연관 정보는, 전처리에 대응하는 하이퍼 파라미터 연관 정보 및 기계학습 알고리즘에 대응하는 하이퍼 파라미터 연관 정보 중 적어도 하나를 포함할 수 있다.

설정 영역 구성 로직(110)은, 설정 영역에 포함된 소정의 설정을 샘플링하고 이를 알고리즘 탐색 로직(120)으로 전달할 수 있다. 이로써, 예를 들어 설정 영역에 포함된 제1 설정에 기반하여, 알고리즘 탐색 로직(120)은 데이터-세트(50)에 대한 기계학습의 알고리즘 탐색 동작을 수행할 수 있다.

예시적 실시 예에 있어서, 알고리즘 탐색 로직(120)은 격자 탐색(grid search) 방법, 무작위 탐색(random search) 방법 또는 베이지안 최적화(Bayesian optimization) 방법을 사용하여 알고리즘을 탐색할 수 있다. 일 예로, 알고리즘 탐색 로직(120)은 격자 탐색 방법에 의해, 사용자 또는 시스템이 지정한 탐색 영역 내 격자들을 탐색할 수 있다. 다른 예로, 알고리즘 탐색 로직(120)은 무작위 탐색 방법에 의해, 격자를 정의하지 않고, 각 설정 선택사항을 특정 범위(range) 내에서 특정 분포로부터 추출함으로써 전체 설정을 구성할 수 있다. 또 다른 예로, 알고리즘 탐색 로직(120)은 베이지안 최적화 방법에 의해, 사전 분포(prior distribution)를 정의하고, 이전 탐색 동작에 기반하여 사후 분포(posterior distribution)를 계산할 수 있다. 이어서, 알고리즘 탐색 로직(120)은 사후 분포에 기반하여 기대 성능(expected improvement)을 산출함으로써, 기대 성능 향상이 가장 높은 설정을 선택할 수 있다.

알고리즘 탐색 로직(120)의 알고리즘 탐색 동작은, 각 알고리즘에 기반한 데이터-세트에 대한 기계학습 수행 동작을 포함할 수 있다. 예시적 실시 예에 있어서, 알고리즘 탐색 로직(120)은 각 알고리즘에 기반한 기계학습을 수행하고, 이에 기반하여 각 알고리즘의 성능(P_I)을 도출할 수 있다. 예를 들어, 알고리즘 탐색 로직(120)은 각 알고리즘에 기반한 기계학습을 수행하고, 기 설정된 기준에 따라 점수를 성능(P_I)으로서 산출할 수 있다. 예시적 실시 예에 있어서, 알고리즘 탐색 로직(120)은 동작 수행의 기반이 된 설정 정보(예를 들어, 제1 설정)(C_I) 및 알고리즘의 성능(P_I)을 메타-데이터베이스(140)로 출력할 수 있다.

메타-피처 추출기(130)는 수신한 데이터-세트(50)로부터 메타-피처(MF)를 추출할 수 있다. 예를 들어, 메타-피처 추출기(130)는 데이터-세트(50)의 통계적 특성, 복잡성, 노이즈, 상관성 및 결측치 분포 중 적어도 하나에 기반하여 메타-피처(MF)를 추출할 수 있다. 메타-피처 추출기(130)는, 데이터-세트(50)가 입력될 시 자동으로 추출동작을 수행할 수 있다. 예시적 실시 예에 있어서, 메타-피처 추출기(130)는 추출한 메타-피처(MF)를 메타-데이터베이스(140)로 출력할 수 있다.

메타-데이터베이스(140)는 알고리즘 탐색 로직(120)으로부터 수신한 설정 정보(C_I) 및 알고리즘의 성능(P_I)을 저장할 수 있다. 또한, 메타-데이터베이스(140)는 메타-피처 추출기(130)로부터 수신한 메타-피처(MF)를 저장할 수 있다. 본 실시 예에서는 메타-데이터베이스(140)가 장치(10) 내부에 마련되는 것으로 개시되나, 이에 한정되지 않고 메타-데이터베이스(140)는 장치(10) 외부에 마련되고 소정의 네트워크 통신망을 통해 장치(10)와 연결될 수도 있다.

예를 들어, 메타-데이터베이스(140)는 휘발성 메모리(volatile memory) 또는 불휘발성 메모리(nonvolatile memory) 중 적어도 하나를 포함할 수 있다. 불휘발성 메모리는 ROM(Read Only Memory), PROM(Programmable ROM), EPROM(Electrically Programmable ROM), EEPROM(Electrically Erasable and Programmable ROM), 플래시 메모리, PRAM(Phase-change RAM), MRAM(Magnetic RAM), RRAM(Resistive RAM), FRAM(Ferroelectric RAM) 등을 포함할 수 있다. 휘발성 메모리는 DRAM(Dynamic RAM), SRAM(Static RAM), SDRAM(Synchronous RAM), PRAM(Phase-change RAM) 등을 포함할 수 있다. 실시 예에 있어서, 메타-데이터베이스(140)는 HDD(Hard Disk Drive), SSD(Solid State Drive), CF(compact flash), SD(secure digital), Micro-SD(micro secure digital), Mini-SD(mini secure digital, xD(extreme digital) 또는 Memory Stick 중 적어도 하나를 포함할 수 있다.

메타-데이터베이스(140)는 저장된 설정 정보(C_I), 알고리즘의 성능(P_I) 및 메타-피처(MF)를 메타-학습 로직(150)으로 제공할 수 있다. 메타-학습 로직(150)은 메타-데이터베이스(140)로부터 수신한 설정 정보(C_I), 알고리즘의 성능(P_I) 및 메타-피처(MF)에 기반하여 메타-학습을 수행할 수 있다. 예시적 실시 예에 있어서, 메타-학습 로직(150)은 다음의 [수학식 1]의 관계를 학습할 수 있다.

다시 말해서, 메타-학습 로직(150)은 메타-피처(MF) 및 설정 정보(C_I)가 입력됨에 응답하여 성능(P_I)이 출력되는 소정의 관계 'f()'에 대한 기계학습을 수행할 수 있다. 예시적 실시 예에 있어서, 메타-학습 로직(150)은 TPE(Tree-structured Parzen Estimator) 또는 SMAC(Sequential Model-based Algorithm Configuration)에서 사용하는 대리 모델(surrogate model)을 이용하여 기계학습을 수행할 수 있다. 예를 들어, 메타-학습 로직(150)은 가우시안 혼합 모델(Gaussian Mixture Model) 및 랜덤 포레스트 모델(random forest model) 중 적어도 하나에 기반하여 기계학습을 수행할 수 있다.

예시적 실시 예에 있어서, 메타-학습 로직(150)은 메타-피처(MF)에 기반하여, 설정 정보(C_I)에 따른 성능(P_I)의 통계값을 도출할 수 있다. 일 예로, 메타-학습 로직(150)은 설정 정보(C_I)에 따른 성능(P_I)의 경험적 평균(empirical mean) 및 분산(variance)을 도출할 수 있다. 메타-학습 로직(150)은 도출한 경험적 평균 및 분산에 기반하여 설정 영역의 각 설정에 대한 기대 향상값(expected improvement) 및 기대 악화값(expected worsening)을 산출하고, 이를 메타-학습의 수행 결과(R_L)로서 설정 영역 최적화기(160)로 제공할 수 있다.

설정 영역 최적화기(160)는 수신한 수행 결과(R_L)에 기반하여 설정 영역의 최적화를 위한 정보를 도출 및 설정 영역 구성 로직(110)으로 제공할 수 있다. 예시적 실시 예에 있어서, 설정 영역 최적화기(160)는 수행 결과(R_L)에 기반하여 설정 영역에서 제외할 설정을 선정하고, 이에 따라 제외 설정 정보(E_I)를 출력할 수 있다.

예시적 실시 예에 있어서, 수행 결과(R_L)에 기대 향상값 및 기대 악화값 정보가 포함된 경우, 설정 영역 최적화기(160)는 기대 향상값, 기대 악화값 및 소정의 기준값에 기반하여 설정 영역에서 제외할 설정을 선정할 수 있다. 예를 들어, 설정 영역 최적화기(160)는 설정 영역 중 임의의 제1 설정에 따른 기대 악화값 및 기대 향상값에 대해, 기대 악화값을 기대 향상값으로 나눈 값이 소정의 기준값보다 큰 경우, 제1 설정을 설정 영역에서 제외할 설정으로 선정할 수 있다. 또는, 설정 영역 최적화기(160)는 제1 설정에 따른 기대 악화값 및 기대 향상값에 대해, 기대 악화값이 제1 기준값 이상이고 기대 향상값이 제2 기준값 이하인 경우, 제1 설정을 설정 영역에서 제외할 설정으로 선정할 수 있다. 제1 기준값 및 제2 기준값은 동일한 값일 수도 있고, 상이한 값일 수도 있다.

설정 영역 구성 로직(110)은 수신한 제외 설정 정보(E_I)에 기반하여 설정 영역을 재구성할 수 있다. 다시 말해서, 설정 영역 구성 로직(110)은 설정 영역 최적화기(160)에서 선정된 설정에 기반하여 설정 영역 중 일부를 제외함으로써, 설정 영역을 튜닝할 수 있다.

본 개시의 기술적 사상에 따르면, 기계학습 모델 선정을 위한 설정 탐색 시, 설정 탐색의 대상이 되는 설정 영역이 데이터-세트의 메타 피처에 기반하여 적응적으로 최적화될 수 있다. 이로써, 전체 설정 영역 중 최적의 기계학습 모델이 포함될 가능성이 높은 설정 영역만으로 탐색 영역을 한정함으로써, 제한된 시간 내에 최적의 기계학습 모델을 찾을 확률을 높이거나 또는 더 짧은 시간 내에 최적의 기계학습 모델을 찾을 수 있다. 또한, 탐색 영역 및 탐색 시간을 최소화함으로써, 기계학습 모델의 최적화를 위한 컴퓨팅 자원 및 인적 자원이 감축될 수 있다.

도 4는 본 개시의 예시적 실시 예에 따른 장치의 동작 방법을 나타내는 순서도를 도시한다. 이하, 도 4는 도 3a를 참조하여 설명된다.

도 4를 참조하면, 장치(10)는 데이터-세트(50)의 수신 여부를 확인할 수 있다(S110). 데이터-세트(50)가 수신되지 않는 경우 장치(10)는 다음 단계를 진행하지 않으며, 시스템 또는 사용자로부터 데이터-세트(50)를 수신한 경우, 다음 단계를 수행할 수 있다.

데이터-세트(50)를 수신한 경우, 설정 영역 구성 로직(110)은 데이터-세트(50)에 대한 설정 영역을 구성할 수 있다(S111). 또한, 메타-피처 추출기(130)는 데이터-세트(50)에 대한 메타-피처(MF)를 추출할 수 있다. 본 실시 예에서는 데이터-세트(50)에 대한 설정 영역 구성과 메타-피처(MF)의 추출이 동시에 수행되는 것으로 개시되나, 그 순서가 상이하게 구성될 수 있음은 당업자에게 명확할 것이다.

데이터-세트(50)에 대한 설정 영역이 구성되고, 설정 영역에 기반하여 알고리즘 탐색 로직(120)은 알고리즘 탐색 동작을 수행할 수 있다(S113). 예를 들어, 알고리즘 탐색 로직(120)은 설정 영역에서 샘플링 된 소정의 설정(예를 들어, 제1 설정)에 기반하여 알고리즘 탐색 동작을 수행할 수 있다.

다음, 메타-데이터베이스(140)는 메타-피처 추출기(130)로부터 메타-피처(MF)를, 알고리즘 탐색 로직(120)으로부터 설정 정보(C_I) 및 성능(P_I)을 각각 수신하고, 메타-피처(MF), 설정 정보(C_I) 및 성능(P_I)을 저장할 수 있다(S114). 이에 따라, 메타-데이터베이스(140)에는 장치(10)의 기계학습 모델 선정 동작이 반복해서 수행될수록, 메타-학습을 위한 다량의 데이터가 축적될 수 있다.

다음, 메타-학습 로직(150)은 메타-데이터베이스(140)로부터 수신한 메타-피처(MF), 설정 정보(C_I) 및 성능(P_I)에 기반하여 메타-학습을 수행할 수 있다(S115). 예를 들어, 메타-학습 로직(150)은 메타-피처(MF) 및 설정 정보(C_I)가 입력됨에 응답하여 성능(P_I)이 출력되는 소정의 관계에 대한 기계학습을 수행할 수 있다. 이로써, 메타-학습 로직(150)은 메타-학습 수행 결과(R_L)를 출력할 수 있다.

다음, 설정 영역 최적화기(160) 및 설정 영역 구성 로직(110)은 설정 영역을 튜닝할 수 있다(S116). 예를 들어, 설정 영역 최적화기(160)는 수신한 메타-학습 수행 결과(R_L)에 기반하여, 설정 영역에서 제외될 설정을 선정하고, 이에 따라 제외 설정 정보(E_I)를 설정 영역 구성 로직(110)으로 제공할 수 있다. 설정 영역 구성 로직(110)은 제외 설정 정보(E_I)에 따라, 설정 영역에서 일부 설정 영역을 제외할 수 있다. 이에 따라, 설정 영역 최적화기(160) 및 설정 영역 구성 로직(110)은 설정 영역을 최적화할 수 있다.

도 5는 본 개시의 예시적 실시 예에 따른 알고리즘 탐색 로직의 구체적 구성에 대한 블록도이다. 도 5는, 예를 들어 도 3a의 알고리즘 탐색 로직(120)에 대한 블록도일 수 있다. 이하, 도 5는 도 3a를 참조하여 설명된다.

도 5를 참조하면, 알고리즘 탐색 로직(120)은 설정 셋팅 블록(121), 전처리 블록(122), 알고리즘 선택 블록(123), 하이퍼 파라미터 선택 블록(124), 학습 블록(125), 평가 블록(126) 및 점수 산출 블록(127)을 구비할 수 있다. 알고리즘 탐색 로직(120)에 구비된 블록들 각각은, 예를 들어 프로세서(도 1의 100)에 의해서 실행되는 복수의 명령어들을 포함하는 소프트웨어 블록일 수도 있고, 아날로그 회로 및/또는 디지털 회로를 포함하는 하드웨어 블록일 수도 있다.

설정 셋팅 블록(121)은 설정 영역 구성 로직(110)에서 구성한 설정 영역에서 소정의 설정을 선정 및 셋팅할 수 있다. 설명의 편의를 위해, 이하에서는 설정 셋팅 블록(121)이 설정 영역에 포함된 제1 설정을 셋팅한 경우를 상정하여 상술된다.

예시적 실시 예에 있어서, 제1 설정은 데이터-세트(50)에 대한 전처리 연관 정보(PR_I), 기계학습 알고리즘 연관 정보(A_I) 및 하이퍼 파라미터 연관 정보(HP_I)를 포함할 수 있다. 예를 들어, 전처리 연관 정보(PR_I)는 전처리 방법론에 관한 정보를 포함하고, 전처리 블록(122)의 동작 수행에 기반이 될 수 있다. 또한, 기계학습 알고리즘 연관 정보(A_I)는 알고리즘 선택 블록(123)의 동작 수행에 기반이 될 수 있다.

예를 들어, 하이퍼 파라미터 연관 정보(HP_I)는 전처리에 대응하는 하이퍼 파라미터 연관 정보 및 기계학습 알고리즘에 대응하는 하이퍼 파라미터 연관 정보를 포함할 수 있다. 하이퍼 파라미터 연관 정보(HP_I)는 하이퍼 파라미터 선택 블록(124)의 동작 수행에 기반이 될 수 있다.

전처리 블록(122)의 데이터-세트(50)에 대한 전처리 동작, 알고리즘 선택 블록(123)의 알고리즘 선택 동작, 하이퍼 파라미터 선택 블록(124)의 하이퍼 파라미터 선택 동작이 각각 수행된 다음, 학습 블록(125)의 기계학습이 수행될 수 있다. 다시 말해서, 학습 블록(125)은 전처리 된 데이터-세트(50), 선택된 알고리즘 및 선택된 하이퍼 파라미터에 기반하여 기계학습을 수행할 수 있다.

평가 블록(126)에서는 학습 블록(125)의 기계학습에 대한 평가가 수행될 수 있다. 또한, 점수 산출 블록(127)에서는 평가 블록(126)의 평가에 기반하여 기계학습의 점수가 도출될 수 있다. 예를 들어, 점수 산출 블록(127)은 교차 검증(cross validation) 등 다양한 검증 방법을 사용하여 평가 계량법(metric)을 선정할 수 있다. 예를 들어, 점수 산출 블록(127)에서 도출된 점수, 학습 시 계산 시간 및 학습 시 메모리 사용량 중 적어도 하나를 포함한 성능(P_I)이 알고리즘 탐색 로직(120)에서 출력될 수 있다.

이에 따라, 알고리즘 탐색 로직(120)은 알고리즘 탐색 동작과 동시에, 동작의 기반이 되는 설정 정보(C_I) 및 성능(P_I)을 메타-데이터베이스(140)에 제공할 수 있다. 설정 정보(C_I) 및 성능(P_I)은 메타-학습에 따라 설정 영역의 최적화 수행의 기반이 되므로, 알고리즘 탐색 동작 결과가 자동으로 설정 영역 튜닝에 반영될 수 있다.

점수 산출 블록(127)의 동작 수행 후, 기 설정된 종료 기준에 부합하지 않는 경우 설정 셋팅 블록(121)부터 동작을 반복할 수 있다. 설정 셋팅 블록(121)부터 점수 산출 블록(127)으로 이어지는 블록들의 일련의 동작들의 한 단위는 라운드로 명명될 수 있다. 점수 산출 블록(127)의 동작 수행 후, 기 설정된 종료 기준에 부합하는 경우 라운드를 종료할 수 있다.

도 6은 본 개시의 예시적 실시 예에 따른 메타-데이터베이스의 구체적 구성에 대한 블록도이다. 도 6은, 예를 들어 도 3a의 메타-데이터베이스(140)에 대한 블록도일 수 있다. 이하, 도 6은 도 3a를 참조하여 설명된다.

도 6을 참조하면, 메타-데이터베이스(140)는 메타-피처 추출기(130)로부터 제공된 메타-피처(142)를 축적한 데이터(142), 알고리즘 탐색 로직(120)으로부터 제공된 설정 정도(C_I) 및 성능(P_I)을 각각 축적한 데이터(144, 146)를 저장할 수 있다. 예를 들어, 메타-데이터베이스(140)는 데이터-세트(50)에 따른 메타-피처, 설정 정보 및 성능을 연계하여 저장할 수 있다.

예시적 실시 예에 있어서, 설정 정보(C_I)가 축적된 데이터(144)는 전처리 연관 정보(PR_I), 기계학습 알고리즘 연관 정보(A_I) 및 하이퍼 파라미터 연관 정보(HP_I)를 포함할 수 있다. 또한, 예시적 실시 예에 있어서, 성능(P_I)이 축적된 데이터(146)는 기계학습 알고리즘의 학습수행에 따른 점수, 학습수행 시 계산시간 및 학습 수행 시 메모리 사용량 중 적어도 하나에 대한 정보를 포함할 수 있다. 예시적 실시 예에 있어서, 메타-데이터베이스(140)는 데이터-세트(50) 자체는 저장하지 않고, 메타-피처(MF), 설정 정보(C_I) 및 성능(P_I)을 각각 축적한 데이터(142, 144, 146)만을 저장함에 따라 저장공간의 효율성이 증대될 수 있다.

도 7a는 본 개시의 예시적 실시 예에 따른 메타-피처를 포함하는 테이블을 도시한다. 도 7b는 본 개시의 다른 예시적 실시 예에 따른 메타-피처를 포함하는 테이블을 도시한다. 또한, 도 8은 각 메타-피처의 도출을 위한 수식이 포함된 테이블의 일 예를 도시한다.

도 7a 및 도 8을 참조하면, 테이블(TB1)은 복수의 카테고리들 및 각 카테고리 별로 분류되는 메타-피처들을 포함한다. '연관성(correlation)'카테고리에 따라 분류되는 메타-피처들은, 예를 들어 기계학습에 따른 타겟을 예측하는 입력들이 상기 타겟과 어느정도의 연관성이 있는지 여부를 정량화한 값일 수 있다. 예를 들어, 코드 C1의 메타-피처는 각 입력과 예측되는 타겟 간의 연관성 중 최대값을 정량화한 값으로서, 다음 [수학식 2]로 도출될 수 있다. (이하, x는 입력, y는 타겟, d는 입력의 개수, 는 스페어만 연관계수(Spearman correlation coefficient))

코드 C2의 메타-피처는 각 입력과 타겟 간의 연관성의 평균값을 정량화한 값으로서, 다음 [수학식 3]으로 도출될 수 있다.

코드 C3의 메타-피처는 각 입력 별로 타겟간에 고-연관성(high-correlation)을 위해 제거해야 하는 예제(example)의 비율을 정량화한 값으로서, 다음 [수학식 4]로 도출될 수 있다. (n은 예제의 개수, 는 고-연관성을 위해 제거해야 하는 예제의 개수)

코드 C4의 메타-피처는 각 라운드 별 가장 연관성이 높은 입력으로 선형 근사(linear fitting)을 수행하고, 이에 기반하여 편차가 소정의 값(본 예시에서는 0.1) 이하인 예제를 삭제하는 동작을 모든 입력에 대해 한번씩 수행한 후 남은 예제의 비율을 정량화한 값으로서, 다음 [수학식 5]로 도출될 수 있다. (은 잔여 값(residual value), 은 한 라운드 종료 후 데이터-세트, n은 예제의 개수)

다음, '선형성(Linearity)'카테고리에 따라 분류되는 메타-피처들은, 예를 들어 입력과 타겟 간의 선형성을 정량화한 값일 수 있다. 예를 들어, 코드 L1의 메타-피처는 다중 선형 회귀(multiple linear regression) 시 잔여 절대값 평균을 정량화한 값으로서, 다음 [수학식 6]으로 도출될 수 있다. (은 다중 선형 회귀 시 잔여값, n은 예제의 개수)

코드 L2의 메타-피처는 다중 선형 회귀 시 잔여값의 제곱의 평균을 정량화한 값으로서, 다음 [수학식 7]로 도출될 수 있다. (은 다중 선형 회귀 시 잔여값, n은 예제의 개수)

코드 L3의 메타-피처는 근접한 타겟에 대응하는 두 예제를 짝지은 후, 입력과 타겟을 무작위로 보간(interpolation)하여 새로운 포인트를 생성하고, 새로운 포인트를 원 데이터의 다중 선형 회귀 모델로 예측한 값과 새로운 포인트 간 차이의 평균을 정량화 한 값으로서, 다음 [수학식 8]로 도출될 수 있다. (l은 보간된 예제들의 개수, 는 보간된 입력, 는 보간된 타겟, f는 원 데이터에 대한 다중 선형 회귀 모델)

다음, '평활도(Smoothness)' 카테고리에 따라 분류되는 메타-피처들은, 예를 들어 입력 공간에서의 미소한 변화가 타겟 공간에서도 미소한 변화로 나타나는지 여부를 정량화한 값일 수 있다. 예를 들어, 코드 S1의 메타-피처는 입력 간 거리를 웨이트(weight)에 따라 최소 스패닝 트리(Minimum Spanning Tree, MST)로 생성한 후, 연결된 두 예제에 각각 대응하는 타겟 간 차이의 평균을 정량화한 값으로서, 다음 [수학식 9]로 도출될 수 있다. (n은 MST 내 쌍(pair)의 개수, y는 타겟)

코드 S2의 메타-피처는 타겟을 정렬한 다음, 근접한 타겟끼리 쌍을 맺고 이에 대응하는 입력 간의 거리를 측정한 값의 평균을 정량화한 값으로서, 다음 [수학식 10]으로 도출될 수 있다. (n은 예제의 개수, x는 입력)

코드 S3의 메타-피처는 최근접 이웃 모델의 회귀에 대한 leave-one-out error의 평균을 정량화한 값으로서, 다음 [수학식 11]로 도출될 수 있다. (n은 예제의 개수, x는 입력, NN은 최근접 이웃 모델, 는 진정 타겟(true target))

코드 S4의 메타-피처는 근접한 타겟 각각에 대응하는 두 예제에 대해 쌍을 맺고, 입력과 타겟을 무작위로 보간하여 새로운 포인트를 생성하고, 새로운 포인트를 원 데이터의 최근접 이웃 모델로 예측한 값과 새로운 포인트 간 차이의 평균을 정량화한 값으로서, 다음 [수학식 12]로 도출될 수 있다. (l은 보간된 예제의 개수, 는 보간된 입력, 는 보간된 타겟, NN은 최근접 이웃 모델)

다음, '분포밀도(density)' 카테고리에 따라 분류되는 메타-피처들은, 예를 들어 설정 영역에서 데이터 포인트의 분포밀도를 정량화한 값일 수 있다. 예를 들어, 코드 D1의 메타-피처는 예제 개수에 대한 로그값을 정량화한 값으로서, 다음 [수학식 13]으로 도출될 수 있다. (n은 예제의 개수)

코드 D2의 메타-피처는 예제의 개수와 입력 개수의 비율을 정량화한 값으로서, 다음 [수학식 14]로 도출될 수 있다. (n은 예제의 개수, d는 입력의 개수)

코드 D3의 메타-피처는 주성분 분석(Principal Component Analysis, PCA) 시 설명된 분산 비율(explained variance ratio)이 95% 이상인 성분(component)의 개수를 정량화한 값으로서, 다음 [수학식 15]로 도출될 수 있다. (x는 입력, 은 성분의 개수)

코드 D4의 메타-피처는 전체 데이터 중 결측치(missing value)의 비율을 정량화한 값으로서, 다음 [수학식 16]으로 도출될 수 있다. (n은 예제의 개수, d는 입력의 개수, m은 결측치의 개수)

도 7b를 참조하면, 테이블(TB2)에는 도 7a의 테이블(TB1)에서 반도체 연관 정보에 관한 메타-피처가 더 포함될 수 있다. 예시적 실시 예에 있어서, 데이터-세트(50)에 반도체 연관 정보가 포함되는 경우, 데이터-세트(50)로부터 추출되는 메타-피처는 테이블(TB2)로 나타날 수 있다.

예를 들어, '평활도' 카테고리에는 코드 S5의 메타-피처 및 코드 S6의 메타-피처가 추가될 수 있다. 코드 S5의 메타-피처는 웨이퍼(wafer) 상에서의 거리에 기반하여 최근접 이웃 회귀 모델을 형성한 다음, 실제 값과 비교에 따른 평균 제곱 오차(mean squared error)를 정량화한 값으로서, 다음 [수학식 17]로 도출될 수 있다. (n은 예제의 개수, x는 입력, y는 진정한 타겟, 는 웨이퍼 상 최근접 이웃 모델)

코드 S6의 메타-피처는 웨이퍼 상 가까운 두 예제를 쌍을 맺고, 입력과 타겟을 무작위로 보간하여 새로운 포인트를 생성하고, 새로운 포인트를 원 데이터의 다중 선형 회귀 모델로 예측한 값과 새로운 포인트 간 차이값에 대한 제곱의 평균을 정량화한 값으로서, 다음 [수학식 18]로 도출될 수 있다. (l은 보간된 예제의 개수, 는 보간된 입력, 는 보간된 타겟, f는 공간적 선형 회귀 모델))

예를 들어, '분포밀도'카테고리에는 코드 D5의 메타-피처 및 코드 D6의 메타-피처가 추가될 수 있다. 코드 D5의 메타-피처는 웨이퍼 별 결측치 분포의 표준편차를 정량화한 값으로서, 다음 [수학식 19]로 도출될 수 있다. (는 웨이퍼의 결측치 분포)

코드 D6의 메타-피처는 웨이퍼 내에 포함된 칩의 개수 중 측정된 칩의 비율을 정량화한 값으로서, 다음 [수학식 20]으로 도출될 수 있다.

예시적 실시 예에 있어서, 테이블(TB2)에는 카테고리로서 '웨이퍼 통계값(wafer statistics)'및 '메타 정보(meta information)'가 추가될 수 있다. 예를 들어, '웨이퍼 통계값' 카테고리에 따라 분류되는 메타-피처들은 웨이퍼 내(In-Wafer) 통계와 웨이퍼 간(Wafer-to-Wafer) 통계를 비교한 결과를 정량화한 값일 수 있다. 예를 들어, 코드 W1의 메타-피처는 웨이퍼 간 평균(Inter-wafer mean)과 웨이퍼 내 평균(Intra-wafer mean) 간의 차이에 대한 절대값의 평균을 정량화한 값으로서, 다음 [수학식 21]로 도출될 수 있다. (이하, d는 입력의 개수, w는 웨이퍼의 개수, 는 웨이퍼 별 집계된(aggregated) 값, 은 웨이퍼 내 칩의 값)

코드 W2의 메타-피처는 웨이퍼 간 분산(Inter-wafer variance)과 웨이퍼 내 분산(Intra-wafer variance) 간 차이의 평균을 정량화한 값으로서, 다음 [수학식 22]로 도출될 수 있다.

코드 W3의 메타-피처는 웨이퍼 간 비대칭도(Inter-wafer skewness)와 웨이퍼 내 비대칭도(Intra-wafer skewness) 간 차이의 절대값에 대한 평균을 정량화한 값으로서, 다음 [수학식 23]으로 도출될 수 있다.

코드 W4의 메타-피처는 웨이퍼 간 첨도(Inter-wafer curtosis)와 웨이퍼 내 첨도(Intra-wafer curtosis) 간 차이의 절대값에 대한 평균을 정량화한 값으로서, 다음 [수학식 24]로 도출될 수 있다.

코드 W5의 메타-피처는 웨이퍼 내 방사(radial) 방향에 따른 타겟의 분산을 정량화한 값으로서, 다음 [수학식 25]로 도출될 수 있다. (y는 타겟, r은 칩의 반지름)

예를 들어, '메타 정보'카테고리에 따라 분류되는 메타-피처들은 제품에 관한 정보를 정량화한 값일 수 있다. 일 예로, 코드 M1의 메타-피처는 생산품(product)에 관한 정보를 정량화한 값일 수 있고, 코드 M2의 메타-피처는 발전단계(development stage)에 관한 정보를 정량화한 값일 수 있다.

도 9는 본 개시의 예시적 실시 예에 따라 산출된 설정에 따른 기계학습의 손실(loss)에 대한 그래프를 도시한다. 손실은, 예를 들어 기계학습의 성능과 반대되는 개념일 수 있다. 도 9는 도 3a를 참조하여 설명된다.

도 9를 참조하면, 각 설정에 따라 발생하는 손실의 영역이 그래프(GP)와 같이 표현될 수 있다. 또한, 기대 악화값(EW) 도출을 위한 제1 기준값() 및 기대 향상값(EI) 도출을 위한 제2 기준값()이 그래프(GP)에 표시될 수 있다. 본 실시 예에서는 제1 기준값()이 제2 기준값()보다 큰 값으로 개시되었으나, 이와 달리 제1 기준값() 및 제2 기준값()은 동일한 값을 가질 수 있다.

예를 들어, 메타-학습 로직(150)은 그래프(GP)에 기반하여, 다음의 [수학식 26]에 따라 제1 기준값()에 기초한 기대 악화값()을, [수학식 27]에 따라 제2 기준값()에 기초한 기대 향상값()을 각각 산출할 수 있다. 기대 향상값()이 높을수록 이에 대응하는 설정에서의 기계학습 시 결과가 좋을 확률이 높고, 기대 악화값()이 높을수록 이에 대응하는 설정에서의 기계학습 시 결과가 나쁠 확률이 높을 수 있다.

예시적 실시 예에 있어서, 설정 영역 최적화기(160)는 기대 악화값()을 기대 향상값()으로 나눈 값이 기 설정된 소정의 값보다 큰 경우, 기대 악화값() 및 기대 향상값()에 대응하는 설정을, 설정 영역에서 제외할 설정으로 선정할 수 있다.

도 10은 본 개시의 예시적 실시 예에 따라 탐색되는 설정 영역을 설명하기 위한 블록도를 도시한다. 예를 들어, 도 10은 입력되는 데이터-세트(50a)에 대해 수행되는 기계학습 모델 선정 중 베이지안 최적화에 기반한 기계학습 모델 선정을 간략히 나타낼 수 있다.

도 10을 참조하면, 데이터-세트(50a)에 대하여 데이터-편집(52a) 및 One-hot encoding이 순차적으로 수행되고, 그 다음 알고리즘 탐색 로직(120a)이 수행될 수 있다. 알고리즘 탐색 로직(120a)은, 예를 들어 베이지안 최적화에 기반하여, 결측 데이터 처리(121a), 정규화/스케일링(122a), 특징 선택(123a), 차원 감소(dimensionality reduction)(124a), 모델 선택(125a), 하이퍼 파라미터 셋팅(126a), 학습(127a) 및 평가 및 점수 산출(128a)을 순차적으로 수행할 수 있다. 한 라운드의 탐색 동작 종료 후, 다음 라운드를 위한 설정을 선택(129a)하고, 결측 데이터 처리(121a)부터 라운드를 반복 수행할 수 있다. 라운드 종료 후 기 설정된 종료 기준에 부합하는 경우, 알고리즘 탐색 로직(120a)을 종료하고 최적의 설정을 선택(56a)하고 최적의 모델(58a)을 선정할 수 있다.

본 실시 예에서, 기계학습의 기반이 되는 설정 영역의 각 설정은, 결측 데이터 처리 방법론, 결측 데이터 처리 방법론 별 하이퍼 파라미터, 정규화 방법론, 정규화 방법론 별 하이퍼 파라미터, 특징 선택 방법론, 특징 선택 방법론 별 하이퍼 파라미터, 차원 감소 방법론, 차원 감소 방법론 별 하이퍼 파라미터, 기계학습 알고리즘 및 기계학습 알고리즘 별 하이퍼 파라미터 중 적어도 하나에 대한 정보를 포함할 수 있다. 다른 실시 예에서, 기계학습의 기반이 되는 설정 영역의 각 설정은 평가 방법론, 점수 산출 방법론 및 최적의 설정 선택 방법론 중 적어도 하나에 대한 정보를 더 포함할 수도 있다.

도 11은 본 개시의 예시적 실시 예에 따른 네트워크 시스템을 나타내는 블록도이다.

도 11을 참조하면, 네트워크 시스템(1000)은 네트워크(1010)를 통해 상호 통신하는 서버(1020) 및 복수의 모바일 장치들(1030-1~1030-n)(n은 1보다 큰 양의 정수)을 포함할 수 있다. 모바일 장치들(1030-1~1030-n)은, 예를 들어 자율주행 자동차, 로보틱스, 스마트폰, 태블릿 장치, AR(Augmented Reality) 장치, IoT(Internet of Things) 장치 등일 수 있다. 예를 들어, 서버(1020)는 모바일 장치들(1030-1~1030-n)로부터 다양한 데이터를 수신하고, 이에 기반한 다양한 기계학습을 수행할 수 있다.

서버(1020)는 네트워크(1010)를 통해 모바일 장치들(1030-1~1030-n)로 기계학습에 따른 결과를 제공하기 위해, 다양한 기계학습 훈련을 수행할 수 있다. 예시적 실시 예에 있어서, 서버(1020)는 다양한 테스트용 데이터-세트(예를 들어, 도 3a의 50)에 대한 기계학습을 위한 설정 영역의 최적화 동작을 수행하고, 이에 따라 최적의 기계학습 모델을 선정할 수 있다. 예를 들어, 서버(1020)에는 도 1 내지 도 11에 따라 상술한 본 개시의 기술적 사상이 채용됨으로써, 제한된 시간 및 제한된 인적 자원 하에서도 최적의 기계학습 모델을 선정할 수 있다.

상기한 실시 예의 설명은 본 개시의 더욱 철저한 이해를 위하여 도면을 참조로 예를 든 것에 불과하므로, 본 개시를 한정하는 의미로 해석되어서는 안될 것이다. 또한, 본 개시가 속하는 기술 분야에서 통상의 지식을 가진 자에게 있어 본 개시의 기본적 원리를 벗어나지 않는 범위 내에서 다양한 변화와 변경이 가능함은 명백하다 할 것이다.

Claims

프로세서에 의해 수행되는 기계학습 모델 선정방법에 있어서,
적어도 하나의 데이터-세트(data-set)를 수신하는 단계;
상기 데이터-세트에 대한 기계학습(machine learning)을 위한 설정 영역(configuration space)을 구성하는 단계;
상기 데이터-세트로부터, 상기 데이터-세트의 정량적 정보를 포함하는 메타-피처(meta-feature)를 추출하는 단계;
상기 설정 영역에 포함된 복수의 설정들에 기반한 상기 데이터-세트에 대한 기계학습의 성능(performance)을 산출하는 단계;
상기 메타-피처, 상기 복수의 설정들 및 상기 성능에 기반하여 메타-학습을 수행하는 단계; 및
상기 메타-학습 수행 결과에 기반하여, 상기 설정 영역을 최적화하는 단계를 포함하고,
상기 메타-학습을 수행하는 단계는,
상기 복수의 설정들에 따른 상기 성능의 경험적 평균(empirical mean) 및 분산을 도출하는 단계; 및
상기 경험적 평균 및 상기 분산에 기반하여 상기 복수의 설정들 각각에 대한 기대 향상값(expected improvement) 및 기대 악화값(expected worsening)을 도출하는 단계를 포함하고,
상기 설정 영역을 최적화하는 단계는,
상기 기대 향상값 및 상기 기대 악화값에 기반하여 상기 설정 영역에서 일부의 설정 영역을 제외하는 단계를 포함하는 것을 특징으로 하는 기계학습 모델 선정방법.
제1 항에 있어서,
상기 복수의 설정들은 상기 데이터-세트에 대한 전처리(preprocessing) 연관 정보, 기계학습 알고리즘 연관 정보, 상기 전처리에 대한 하이퍼 파라미터(hyper parameter) 연관 정보 및 상기 기계학습 알고리즘에 대한 하이퍼 파라미터 연관 정보 중 적어도 하나를 포함하는 것을 특징으로 하는 기계학습 모델 선정방법.
제2 항에 있어서,
상기 기계학습의 성능을 도출하는 단계는,
상기 전처리 연관 정보에 기반하여 상기 데이터-세트에 대한 전처리를 수행하는 단계;
상기 기계학습 알고리즘 연관 정보에 기반하여 소정의 알고리즘을 선택하는 단계;
상기 전처리에 대한 하이퍼 파라미터 연관 정보 및 상기 기계학습 알고리즘에 대한 하이퍼 파라미터 연관 정보에 기반하여 하이퍼 파라미터를 선택하는 단계; 및
상기 소정의 알고리즘 및 상기 하이퍼 파라미터에 기반하여, 상기 전처리가 수행된 상기 데이터-세트에 대한 기계학습을 수행함으로써 상기 성능을 도출하는 단계를 포함하는 것을 특징으로 하는 기계학습 모델 선정방법.
제1 항에 있어서,
상기 메타-학습을 수행하는 단계는,
상기 메타-피처 및 상기 복수의 설정들이 입력됨에 응답하여 상기 성능이 출력되는 소정의 관계에 대한 기계학습을 수행하는 것을 특징으로 하는 기계학습 모델 선정방법.
제1 항에 있어서,
상기 메타-피처, 상기 복수의 설정들 및 상기 성능을 메타-데이터베이스(meta-database)에 저장하는 단계를 더 포함하는 기계학습 모델 선정방법.
제5 항에 있어서,
상기 메타-학습을 수행하는 단계는,
상기 메타-데이터베이스에 저장된 상기 메타-피처, 상기 복수의 설정들 및 상기 성능에 기반하여 상기 메타-학습을 수행하는 것을 특징으로 하는 기계학습 모델 선정방법.
삭제
삭제
제1 항에 있어서,
상기 설정 영역을 최적화하는 단계는,
상기 기대 악화값을 상기 기대 향상값으로 나눈 값이 소정의 값보다 큰 경우, 상기 기대 악화값 및 상기 기대 향상값에 대응하는 설정을 상기 설정 영역에서 제외하는 것을 특징으로 하는 기계학습 모델 선정방법.
제1 항에 있어서,
상기 데이터-세트를 수신하는 단계는,
반도체 연관 정보를 구비하는 데이터-세트를 수신하는 단계를 포함하고,
상기 메타-피처를 추출하는 단계는,
상기 반도체 연관 정보에 관한 메타-피처를 추출하는 단계를 포함하는 것을 특징으로 하는 기계학습 모델 선정방법.
제10 항에 있어서,
상기 반도체 연관 정보에 관한 메타-피처를 추출하는 단계는,
상기 설정 영역에서의 상기 반도체 연관 정보에 관한 평활도(smoothness)에 대응하는 메타-피처, 상기 설정 영역에서의 상기 반도체 연관 정보에 대한 분포 밀도(density)에 대응하는 메타-피처, 및 상기 반도체 연관 정보에 관한 소정의 통계 자료(statistics)에 대응하는 메타-피처 중 적어도 하나를 추출하는 단계를 포함하는 것을 특징으로 하는 기계학습 모델 선정방법.
데이터-세트를 수신하는 단계;
상기 데이터-세트에 기반하여 기계학습을 위한 설정 영역을 구성하고, 상기 설정 영역 중 복수의 설정들에 기반하여 기계학습 알고리즘을 탐색하고, 상기 복수의 설정들 및 상기 복수의 설정들에 기반한 상기 기계학습 알고리즘의 성능에 관한 정보를 출력하는 단계;
상기 데이터-세트로부터, 상기 데이터-세트에 대한 연관성 관련 정보, 선형성 관련 정보, 평활도 관련 정보 및 분포 밀도 관련 정보 중 적어도 하나에 대한 정량적 정보를 포함하는 메타-피처를 추출하는 단계;
상기 메타-피처, 상기 복수의 설정들 및 상기 성능에 기반하여 메타-학습을 수행하는 단계; 및
상기 메타-학습 수행 결과에 기반하여, 상기 설정 영역을 적응적으로 최적화하는 단계를 포함하고,
상기 설정 영역을 적응적으로 최적화하는 단계는,
상기 복수의 설정들에 따른 상기 성능의 경험적 평균 및 분산을 도출하는 단계;
상기 경험적 평균 및 상기 분산에 기반하여 상기 복수의 설정들 각각에 대한 기대 향상값 및 기대 악화값을 도출하는 단계; 및
상기 기대 악화값을 상기 기대 향상값으로 나눈 값이 기 설정된 값보다 큰 경우, 상기 기대 악화값 및 상기 기대 향상값에 대응하는 설정을 상기 설정 영역에서 제외될 일부 영역으로 포함하는 단계를 구비하는 것을 특징으로 하는
상기 기대 향상값 및 상기 기대 악화값에 기반하여 상기 설정 영역에서 일부의 설정 영역을 제외하는 단계를 포함하는 것을 특징으로 하는 기계학습 모델 선정방법.
제12 항에 있어서,
상기 성능에 관한 정보를 출력하는 단계는,
상기 복수의 설정들에 기반하여 상기 데이터-세트에 대한 전처리를 수행하는 단계;
상기 복수의 설정들에 기반하여 상기 기계학습 알고리즘을 선정하는 단계;
상기 복수의 설정들에 기반하여 상기 전처리 및 상기 기계학습 알고리즘 각각에 대한 하이퍼 파라미터를 선정하는 단계; 및
상기 데이터-세트에 대하여, 상기 하이퍼 파라미터 및 상기 기계학습 알고리즘에 기반한 기계학습을 수행함으로써 상기 성능을 도출하는 단계를 포함하는 것을 특징으로 하는 기계학습 모델 선정방법.
제12 항에 있어서,
상기 메타-피처, 상기 복수의 설정들 및 상기 성능에 기반하여 메타-학습을 수행하는 단계는,
상기 메타-피처, 상기 복수의 설정들 및 상기 성능을 메타-데이터베이스에 저장하는 단계를 포함하는 것을 특징으로 하는 기계학습 모델 선정방법.
삭제
삭제
컴퓨터로 판독 가능한 코드를 저장하는 메모리; 및
상기 메모리에 동작 가능하게 결합된 프로세서로서, 상기 코드를 구현하도록 구성되는 프로세서를 포함하고,
상기 코드는:
하나 이상의 데이터-세트를 수신하고,
상기 하나 이상의 데이터-세트에 대한 기계학습을 위한 설정 영역을 구성하고,
상기 설정 영역에 포함된 제1 설정에 기반한 상기 하나 이상의 데이터-세트에 대한 기계학습의 성능을 도출하고,
상기 하나 이상의 데이터-세트로부터, 상기 하나 이상의 데이터-세트의 정량적 정보를 구비하는 메타-피처를 추출하고,
상기 메타-피처, 상기 제1 설정 및 상기 성능에 기반하여 메타-학습을 수행하고,
상기 메타-학습 수행 결과에 기반하여, 상기 설정 영역을 최적화하고,
상기 프로세서는,
상기 메타-피처 및 상기 제1 설정이 입력됨에 응답하여 상기 성능이 출력되는 소정의 관계에 대한 기계학습을 상기 메타-학습으로서 수행하고,
복수의 설정들에 따른 상기 성능의 경험적 평균(empirical mean) 및 분산을 도출하고,
상기 경험적 평균 및 상기 분산에 기반하여 상기 복수의 설정들 각각에 대한 기대 향상값(expected improvement) 및 기대 악화값(expected worsening)을 도출하고,
상기 기대 향상값 및 상기 기대 악화값에 기반하여 상기 설정 영역에서 제외될 소정의 영역을 선정하고,
상기 소정의 영역을 상기 설정 영역에 반영함으로써, 상기 설정 영역을 최적화하는 것을 특징으로 하는 장치.
제17 항에 있어서,
메타-데이터베이스를 더 포함하고,
상기 프로세서는 상기 메타-피처, 상기 제1 설정 및 상기 성능을 상기 메타-데이터베이스에 제공하고,
상기 메타-데이터베이스는 상기 메타-피처, 상기 제1 설정 및 상기 성능을 저장하는 것을 특징으로 하는 장치.
제17 항에 있어서,
상기 프로세서는,
상기 하나 이상의 데이터-세트에 반도체 연관 정보가 구비되는 것으로 판단함에 응답하여, 상기 하나 이상의 데이터-세트로부터 상기 반도체 연관 정보에 관한 평활도에 대응하는 메타-피처, 상기 설정 영역에서의 상기 반도체 연관 정보에 대한 분포 밀도에 대응하는 메타-피처, 및 상기 반도체 연관 정보에 관한 소정의 통계 자료에 대응하는 메타-피처 중 적어도 하나를 추출하는 것을 특징으로 하는 장치.
삭제