KR102603424B1

KR102603424B1 - 뉴럴 네트워크 모델을 이용하여 이미지 이벤트 분류를 결정하는 방법, 장치 및 컴퓨터-판독가능 매체

Info

Publication number: KR102603424B1
Application number: KR1020220077453A
Authority: KR
Inventors: 김상태; 곽찬웅
Original assignee: 주식회사 노타
Priority date: 2022-06-24
Filing date: 2022-06-24
Publication date: 2023-11-20
Anticipated expiration: 2042-06-24

Abstract

본 개시는 뉴럴 네트워크 모델을 이용하여 이미지 이벤트 분류를 결정하는 방법, 장치 및 컴퓨터-판독가능 매체에 관한 것이다. 본 개시의 일 실시 예에 따른 방법은, 제1 뉴럴 네트워크 모델에 입력 데이터로써 이미지를 입력하고, 제1 뉴럴 네트워크 모델의 출력 데이터로써 이미지에 대한 이벤트 분류 결과를 획득하고, 이벤트 분류 결과 및 이벤트 분류 결과에 매칭되는 랜드마크 포인트의 신뢰도 정보에 기초하여 이미지에 대한 신규 이벤트 분류를 결정할 수 있다.

Description

뉴럴 네트워크 모델을 이용하여 이미지 이벤트 분류를 결정하는 방법, 장치 및 컴퓨터-판독가능 매체 {Method, Apparatus, and Computer-readable Medium for Determining Image Classification using a Neural Network Model}

본 발명은 뉴럴 네트워크 모델을 이용하여 이미지 이벤트 분류를 결정하는 방법, 장치 및 컴퓨터-판독가능 매체에 관한 것이다.

뉴럴 네트워크 모델은 인간 수준의 지능을 구현하는 컴퓨터 시스템으로서 기계가 스스로 학습하고 판단하는 모델이다.

뉴럴 네트워크 모델은 입력 데이터들의 특징을 스스로 분류/학습하는 알고리즘을 이용하는 기계학습(딥러닝) 기술 및 기계학습 알고리즘을 활용하여 인간 두뇌의 인지, 판단 등의 기능을 모사하는 요소 기술들로 구성된다.

요소 기술들은, 예로, 인간의 언어/문자를 인식하는 언어적 이해 기술, 사물을 인간의 시각처럼 인식하는 시각적 이해 기술, 정보를 판단하여 논리적으로 추론하고 예측하는 추론/예측 기술, 인간의 경험 정보를 지식데이터로 처리하는 지식 표현 기술 및 차량의 자율 주행, 로봇의 움직임을 제어하는 동작 제어 기술 중 적어도 하나를 포함할 수 있다.

시각적 이해는 사물을 인간의 시각처럼 인식하여 처리하는 기술로서, 객체 인식, 객체 추적, 영상 검색, 사람 인식, 장면 이해, 공간 이해, 영상 개선 등을 포함한다.

추론 예측은 정보를 판단하여 논리적으로 추론하고 예측하는 기술로서, 지식/확률 기반 추론, 최적화 예측, 선호 기반 계획, 추천 등을 포함한다.

최근에는, 이와 같은 인공 지능 기술을 이용하여 이미지의 이벤트를 분류하는 전자 장치가 개발되고 있는데, 이벤트 분류의 정확도를 높이기 위한 연구가 필요한 실정이다.

전술한 배경기술은 발명자가 본 발명의 도출을 위해 보유하고 있었거나, 본 발명의 도출 과정에서 습득한 기술 정보로서, 반드시 본 발명의 출원 전에 일반 공중에게 공개된 공지기술이라 할 수는 없다.

대한민국 등록특허공보 제10-2005150호 (2019.07.23)

본 발명은 뉴럴 네트워크 모델을 이용하여 이미지 이벤트 분류를 결정하는 방법, 장치 및 컴퓨터-판독가능 매체를 제공하는데 있다. 본 발명이 해결하고자 하는 과제는 이상에서 언급한 과제에 한정되지 않으며, 언급되지 않은 본 발명의 다른 과제 및 장점들은 하기의 설명에 의해서 이해될 수 있고, 본 발명의 실시 예에 의해보다 분명하게 이해될 것이다. 또한, 본 발명이 해결하고자 하는 과제 및 장점들은 특허 청구 범위에 나타낸 수단 및 그 조합에 의해 실현될 수 있음을 알 수 있을 것이다.

상술한 기술적 과제를 달성하기 위한 기술적 수단으로서, 본 개시의 제1 측면은, 뉴럴 네트워크 모델을 이용하여 이미지 이벤트 분류를 결정하는 방법에 있어서, 제1 뉴럴 네트워크 모델에 입력 데이터로써 이미지를 입력하고, 상기 제1 뉴럴 네트워크 모델의 출력 데이터로써 상기 이미지에 대한 이벤트 분류 결과를 획득하는 단계; 및 상기 이벤트 분류 결과 및 상기 이벤트 분류 결과에 매칭되는 랜드마크 포인트의 신뢰도 정보에 기초하여 상기 이미지에 대한 신규 이벤트 분류를 결정하는 단계; 를 포함하고, 상기 신규 이벤트 분류는, 상기 이벤트 분류 결과와 연관된 것인, 방법을 제공할 수 있다.

본 개시의 제2 측면은, 뉴럴 네트워크 모델을 이용하여 이미지 이벤트 분류를 결정하는 장치에 있어서, 적어도 하나의 프로그램이 저장된 메모리; 및 상기 적어도 하나의 프로그램을 실행함으로써 뉴럴 네트워크 모델을 구동하는 적어도 하나의 프로세서를 포함하고, 상기 적어도 하나의 프로세서는, 제1 뉴럴 네트워크 모델에 입력 데이터로써 이미지를 입력하고, 상기 제1 뉴럴 네트워크 모델의 출력 데이터로써 상기 이미지에 대한 이벤트 분류 결과를 획득하고, 상기 이벤트 분류 결과 및 상기 이벤트 분류 결과에 매칭되는 랜드마크 포인트의 신뢰도 정보에 기초하여 상기 이미지에 대한 신규 이벤트 분류를 결정하며, 상기 신규 이벤트 분류는, 상기 이벤트 분류 결과와 연관된 것인, 장치를 제공할 수 있다.

본 개시의 제3 측면은, 제1 측면에 따른 방법을 컴퓨터에서 실행하기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공할 수 있다.

이 외에도, 본 발명을 구현하기 위한 다른 방법, 다른 시스템 및 상기 방법을 실행하기 위한 컴퓨터 프로그램이 저장된 컴퓨터로 판독 가능한 기록매체가 더 제공될 수 있다.

전술한 것 외의 다른 측면, 특징, 이점이 이하의 도면, 특허청구범위 및 발명의 상세한 설명으로부터 명확해질 것이다.

전술한 본 개시의 과제 해결 수단에 의하면, 본 개시에서는 이벤트 분류 모델의 한계를 극복하고, 더 높은 정확도로 이미지의 이벤트를 분류할 수 있다.

전술한 본 개시의 과제 해결 수단에 의하면, 본 개시에서는 이벤트 분류 모델 및 랜드마크 검출 모델의 정보를 조합하여 이미지 이벤트 분류를 결정함으로써, 이벤트 분류 모델의 한계를 극복하고 높은 정확도로 이미지의 이벤트를 분류할 수 있다.

도 1은 일 실시예에 따른 시스템의 블록도이다.
도 2a 내지 2b는 일 실시예에 따른 이미지 내 얼굴 영역을 검출하는 방법을 설명하기 위한 예시적인 도면이다.
도 3은 일 실시예에 따른 얼굴 영역 내 랜드마크를 검출하는 방법을 설명하기 위한 예시적인 도면이다.
도 4는 일 실시예에 따른 이미지의 이벤트를 분류하는 방법을 설명하기 위한 예시적인 도면이다.
도 5는 일 실시예에 따른 이미지에 대한 이벤트 분류 결과 예시를 설명하기 위한 도면이다.
도 6a 및 6b는 일 실시예에 따른 랜드마크 포인트의 신뢰도 정보를 산출하는 방법을 설명하기 위한 예시적인 도면이다.
도 7a 및 7b는 일 실시예에 따른 이미지에 대한 신규 이벤트 분류를 결정하는 방법을 설명하기 위한 예시적인 도면이다.
도 8a 및 8b는 일 실시예에 따른 랜드마크 포인트의 신뢰도를 산출하는 방법을 설명하기 위한 예시적인 도면이다.
도 9는 일 실시예에 따른 뉴럴 네트워크 모델을 이용하여 이미지 이벤트 분류를 결정하는 방법을 설명하기 위한 흐름도이다.
도 10은 일 실시예에 따른 이미지 이벤트 분류 결정 장치의 블록도이다.

본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 설명되는 실시 예들을 참조하면 명확해질 것이다. 그러나 본 발명은 아래에서 제시되는 실시 예들로 한정되는 것이 아니라, 서로 다른 다양한 형태로 구현될 수 있고, 본 발명의 사상 및 기술 범위에 포함되는 모든 변환, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 아래에 제시되는 실시 예들은 본 발명의 개시가 완전하도록 하며, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이다. 본 발명을 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다.

본 출원에서 사용한 용어는 단지 특정한 실시 예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

본 개시의 일부 실시예는 기능적인 블록 구성들 및 다양한 처리 단계들로 나타내어질 수 있다. 이러한 기능 블록들의 일부 또는 전부는, 특정 기능들을 실행하는 다양한 개수의 하드웨어 및/또는 소프트웨어 구성들로 구현될 수 있다. 예를 들어, 본 개시의 기능 블록들은 하나 이상의 마이크로프로세서들에 의해 구현되거나, 소정의 기능을 위한 회로 구성들에 의해 구현될 수 있다. 또한, 예를 들어, 본 개시의 기능 블록들은 다양한 프로그래밍 또는 스크립팅 언어로 구현될 수 있다. 기능 블록들은 하나 이상의 프로세서들에서 실행되는 알고리즘으로 구현될 수 있다. 또한, 본 개시는 전자적인 환경 설정, 신호 처리, 및/또는 데이터 처리 등을 위하여 종래 기술을 채용할 수 있다. "매커니즘", "요소", "수단" 및 "구성" 등과 같은 용어는 넓게 사용될 수 있으며, 기계적이고 물리적인 구성들로서 한정되는 것은 아니다.

또한, 도면에 도시된 구성 요소들 간의 연결 선 또는 연결 부재들은 기능적인 연결 및/또는 물리적 또는 회로적 연결들을 예시적으로 나타낸 것일 뿐이다. 실제 장치에서는 대체 가능하거나 추가된 다양한 기능적인 연결, 물리적인 연결, 또는 회로 연결들에 의해 구성 요소들 간의 연결이 나타내어질 수 있다.

이하 첨부된 도면을 참고하여 본 개시를 상세히 설명하기로 한다.

도 1은 일 실시예에 따른 시스템의 블록도이다.

시스템(100)은 얼굴 검출 모델(110), 랜드마크 검출 모델(121), 이벤트 분류 모델(122) 및 후처리 모듈(130)을 포함할 수 있다.

얼굴 검출 모델(110)은 이미지를 획득하고, 획득된 이미지로부터 얼굴 영역을 검출할 수 있다.

랜드마크 검출 모델(121)은 얼굴 검출 모델(110)로부터 이미지에서 검출된 얼굴 영역을 수신할 수 있다. 랜드마크 검출 모델(121)은 얼굴 영역 내 랜드마크를 검출할 수 있다.

이벤트 분류 모델(122)은 획득된 이미지의 이벤트를 분류할 수 있다. 얼굴 검출 모델(110)에서 이미지에서 얼굴 영역을 검출하면, 이벤트 분류 모델(122)은 얼굴 영역이 검출된 이미지의 이벤트를 분류할 수 있다.

후처리 모듈(130)은 랜드마크 검출 모델(121)로부터 획득된 얼굴 영역 내 랜드마크, 또는 이벤트 분류 모델(122)로부터 획득된 이미지의 이벤트 분류 결과를 이용하여 후처리를 수행할 수 있다. 예를 들어, 후처리 모듈(130)은 랜드마크를 이용하여 헤드 포즈(head pose)를 결정하거나, 랜드마크 및 이벤트 분류 결과를 이용하여 투표(voting)를 진행할 수 있다.

시스템(100)은 후처리 모듈(130)에서 출력된 결과를 통해, 시스템(100)을 사용하는 사용자에게 정보를 제공할 수 있다. 예를 들어, 시스템(100)은 운전 모니터링 시스템(driving monitoring system)일 수 있고, 이 경우 시스템(100)은 얼굴 검출 모델(110), 랜드마크 검출 모델(121), 이벤트 분류 모델(122) 및 후처리 모듈(130)을 이용하여 운전자를 촬영한 이미지를 처리함으로써, 운전자의 상태 정보를 제공할 수 있다. 예를 들어, 운전자의 상태 정보는 산만(distraction), 졸음(drowsy), 흡연(smoke) 및 통화(phone) 등을 포함할 수 있다.

도 2a 내지 2b는 일 실시예에 따른 이미지 내 얼굴 영역을 검출하는 방법을 설명하기 위한 예시적인 도면이다.

얼굴 검출 모델은 얼굴 영역을 검출하기 위한 이미지(200)를 획득할 수 있다. 얼굴 검출 모델은 이미지(200)로부터 얼굴 영역을 검출하기 위해, 소프트웨어 모듈, 하드웨어 모듈, 또는 이들의 다양한 조합으로 구현될 수 있다.

이미지(200) 내 얼굴 영역을 검출하기 위한 방법으로 다양한 알고리즘이 이용될 수 있다. 예를 들어, 얼굴 검출 모델은 Adaboost 알고리즘을 이용한 뉴럴 네트워크 모델로 구현될 수 있으나, 뉴럴 네트워크 모델을 구현하는데 사용될 수 있는 알고리즘은 이에 제한되지 않는다.

도 2a를 참조하면, 이미지(200) 내 얼굴 영역을 검출하기 위해 슬라이딩 윈도우(210)가 이용될 수 있다. 얼굴 검출 모델은 슬라이딩 윈도우(210)를 이용하여 이미지(200)를 스캔하고, 스캔된 이미지(200)의 각 영역이 얼굴 영역 또는 배경 영역 중 어느 영역에 해당하는지 결정할 수 있다.

도 2b를 참조하면, 얼굴 검출 모델은 학습을 통해 이미지(200) 내 소정의 영역을 얼굴 영역(220)으로 검출할 수 있다.

도 3은 일 실시예에 따른 얼굴 영역 내 랜드마크를 검출하는 방법을 설명하기 위한 예시적인 도면이다.

랜드마크 검출 모델은 얼굴 영역(300) 내 랜드마크(310)를 검출하기 위해, 소프트웨어 모듈, 하드웨어 모듈, 또는 이들의 다양한 조합으로 구현될 수 있다. 랜드마크 검출 모델은 얼굴 검출 모델에서 검출된 얼굴 영역(300)을 수신하여 얼굴 영역(300) 내 랜드마크(310)를 검출할 수 있다.

랜드마크(310)는 얼굴 영역(300) 내에서 각 특징에 대표되는 위치를 나타내는 특징점(feature point)을 의미한다. 예를 들어, 랜드마크(310)는 사람의 얼굴을 대표하는 특징인 눈, 코, 입, 및 눈썹 등에 대응하는 특징점을 나타낼 수 있다. 랜드마크(310)는 각 특징에 대해 적어도 하나가 설정될 수 있고, 하나의 특징에 복수의 랜드마크(310)가 설정될 수도 있다.

랜드마크 검출 모델은 사전에 획득된 얼굴 영역(300)에 대한 학습 및 통계 알고리즘(예를 들어, AAM(active appearance model), SDM(Supervised Descent Method) 등)을 사용한 뉴럴 네트워크 모델로 구현될 수 있으나, 뉴럴 네트워크 모델을 구현하는데 사용될 수 있는 알고리즘은 이에 제한되지 않는다.

도 3에서 얼굴 영역(300)의 특징 중 오른쪽 눈썹을 예로 들면, 오른쪽 눈썹에 대응하는 랜드마크(310)는 9개로 설정될 수 있다.

한편, 얼굴 영역(300)의 각 특징에 대응하는 랜드마크(310)의 개수는, 랜드마크(310)가 사용되는 어플리케이션에 따라 다양한 개수로 설정될 수 있다.

도 4는 일 실시예에 따른 이미지의 이벤트를 분류하는 방법을 설명하기 위한 예시적인 도면이다.

이벤트 분류 모델은 이미지의 이벤트를 분류하기 위해 소프트웨어 모듈, 하드웨어 모듈, 또는 이들의 다양한 조합으로 구현될 수 있다. 얼굴 검출 모델에서 소정의 이미지에서 얼굴 영역을 검출하면, 이벤트 분류 모델은 얼굴 영역이 검출된 소정의 이미지의 이벤트를 분류할 수 있다.

이벤트 분류 모델은 이미지에 포함된 얼굴 영역과 얼굴 영역 주변의 객체에 기초하여 이미지가 기설정된 이벤트들 중 어느 이벤트에 해당하는지 분류할 수 있다.

이벤트 분류 모델은 컨벌루션 뉴럴 네트워크(Convolutional Neural Networks, CNN) 모델로 구현될 수 있으나, 뉴럴 네트워크 모델을 구현하는데 사용될 수 있는 알고리즘은 이에 제한되지 않는다.

구체적으로, 이벤트 분류 모델은 입력 이미지, 피처맵들(feature maps) 및 출력을 포함하는 복수 레이어들을 갖는 아키텍처로 구현될 수 있다. 이벤트 분류 모델에서 입력 이미지는 커널(kernel)이라 불리는 필터와의 컨벌루션 연산이 수행되고, 그 결과 피처맵들이 출력된다. 이때 생성된 출력 피처맵들은 입력 피처맵들로서 다시 커널과의 컨벌루션 연산이 수행되고, 새로운 피처맵들이 출력된다. 이와 같은 컨벌루션 연산이 반복적으로 수행된 결과, 최종적으로는 이벤트 분류 모델을 통해 입력 이미지의 특징들에 기초한 이벤트 결과가 출력될 수 있다. 상술한 과정을 통해 이벤트 분류 모델은 소정의 이미지의 이벤트를 분류할 수 있다.

도 4를 참조하면, 이벤트 분류 모델은 이미지에 대한 이벤트를 normal(410), phone(420), smoke(430) 및 mask(440) 등으로 분류할 수 있다. phone(420)은 이미지 내 사람이 핸드폰을 사용 중인 것을 나타내는 이벤트이고, smoke(430)은 이미지 내 사람이 흡연 중인 것을 나타내는 이벤트이고, mask(440)는 이미지 내 사람이 마스크를 착용 중인 것은 나타내는 이벤트이며, normal(410)은 상술한 이벤트가 아닌 모든 경우를 나타내는 이벤트일 수 있다. 그러나, 이벤트 분류 모델이 분류할 수 있는 이벤트의 종류는 상술한 예로 제한되지 않는다.

도 5는 일 실시예에 따른 이미지에 대한 이벤트 분류 결과 예시를 설명하기 위한 도면이다.

뉴럴 네트워크 모델을 이용하여 이미지 이벤트 분류를 결정하는 장치(이하, 이미지 이벤트 분류 결정 장치)는, 제1 뉴럴 네트워크 모델에 입력 데이터로써 이미지를 입력하고, 제1 뉴럴 네트워크 모델의 출력 데이터로써 이미지에 대한 이벤트 분류 결과를 획득할 수 있다.

제1 뉴럴 네트워크 모델은 도 4에서 설명한 이벤트 분류 모델일 수 있고, 이미지에 대한 이벤트 분류 결과는 도 4의 이미지에 대한 이벤트 중 어느 하나일 수 있다.

일 실시예에 따르면, 이미지에 대한 이벤트 분류 결과는 이벤트 분류 결과에 대한 신뢰도 (confidence) 정보를 포함할 수 있다. 이미지 이벤트 분류 결과에 대한 신뢰도가 높을수록 불확실성이 낮으며, 반대로 이미지 이벤트 분류 결과에 대한 신뢰도가 낮을수록 불확실성이 크다는 것을 의미한다.

도 5를 참조하면, 이미지 이벤트 분류 결과가 명확한(clear) 그룹의 이미지(510)는 각각 mask 이벤트와 normal 이벤트로 분류되었으며, 분류 결과에 대한 신뢰도가 각각 97.3%와 93.1%로 높은 반면, 이미지 이벤트 분류 결과가 불명확한(unclear) 그룹의 이미지(530)는 mask 이벤트로 분류되었으나, 분류 결과에 대한 신뢰도가 71.1%와 63.7%로 다소 낮은 것을 확인할 수 있다.

한편, 학습이 잘 수행된 이벤트 분류 모델일지라도, 이벤트 분류 결과에 대한 100%의 신뢰도를 가질 수 없다. 예컨대, 이미지 이벤트 분류 결과가 불명확한 그룹의 이미지(530)를 참조하면, 이미지내에서 사람이 마스크를 착용하긴 하였으나, 입이 아닌 턱에 착용하여 mask 이벤트 분류에 대한 신뢰도가 낮은 것을 확인할 수 있다. 이 밖에도 예를 들면, 이미지 내에서 사람이 핸드폰을 사용 중이라고 판단되지만, 귀가 아닌 입에 밀착하여 사용 중이어서 phone 이벤트 분류에 대한 신뢰도가 낮을 수 있고, normal 이벤트로 분류되지만 이미지 내에서 사람이 손으로 눈을 가리고 있어 이벤트 분류에 대한 신뢰도가 낮은 경우가 있을 수 있다.

본 개시에서는 이와 같은 이벤트 분류 모델의 한계를 극복하고, 더 높은 정확도로 이미지의 이벤트를 분류하기 위해, 이미지 이벤트 분류 결과 및 이미지 이벤트 분류 결과에 매칭되는 랜드마크 포인트의 신뢰도 정보에 기초하여 이미지에 대한 신규 이벤트 분류를 결정하는 방법을 개시한다. 보다 자세한 방법은 후술하기로 한다.

도 6a 및 6b는 일 실시예에 따른 랜드마크 포인트의 신뢰도 정보를 산출하는 방법을 설명하기 위한 예시적인 도면이다.

이미지 이벤트 분류 결정 장치는 제2 뉴럴 네트워크 모델에 입력 데이터로써 이미지를 입력하고, 이미지에서 복수의 랜드마크 포인트들을 탐지하여, 복수의 랜드마크 포인트들 각각에 대해 신뢰도 정보를 산출할 수 있다.

일 실시예에서, 제2 뉴럴 네트워크 모델에 입력되는 이미지는, 제1 뉴럴 네트워크 모델에 입력된 이미지(이하, 제1 이미지)와 관련된 관련 이미지(이하, 제2 이미지)일 수 있다. 제2 이미지는 제1 이미지를 변형한 이미지일 수 있다. 구체적으로, 제2 이미지는 제1 이미지에 대해 resize, crop, channel 변환된 이미지일 수 있다. 예를 들어, 제2 이미지는 제1 이미지 대비, 1픽셀 씩 margin 을 넓힌 이미지이거나, rgb 채널 순서가 바뀐 이미지이거나, resize를 통해 크기가 달라진 이미지일 수 있다.

제2 뉴럴 네트워크 모델은 도 3에서 설명한 랜드마크 검출 모델일 수 있고, 복수의 랜드마크 포인트들은, 랜드마크 검출 모델을 통해 검출되는 얼굴 영역내 랜드마크일 수 있다. 복수의 랜드마크 포인트들은 사람의 얼굴을 대표하는 특징에 대응하는 특징점을 나타낼 수 있으며, 각 특징에 대해 복수의 랜드마크 포인트들이 설정될 수 있다.

복수의 랜드마크 포인트들 각각에 대한 신뢰도 정보는, 랜드마크 포인트의 위치에 대한 정확도를 의미할 수 있다. 신뢰도 정보는 복수의 랜드마크 각각의 포인트별로 회귀 분석(regression) 과정에서 계산된 점수의 분포에 따라 결정될 수 있다. 복수의 랜드마크 포인트들 각각에 대해 회귀 분석 과정을 통하여 신뢰도 정보를 산출하는 방법은 이하 도 8a 및 8b와 함께 설명하기로 한다.

도 6a를 참조하면, 이미지 이벤트 분류 결정 장치는 원본 이미지(610)를 제2 뉴럴 네트워크 모델에 입력하고, 복수의 랜드마크 포인트들(631)로써 양쪽 눈과, 코, 입의 양쪽 끝부분을 탐지하여, 복수의 랜드마크 포인트들(631) 각각에 대한 신뢰도 정보(651)를 산출한 것을 확인할 수 있다.

일 실시예에 따르면, 랜드마크 포인트의 신뢰도 정보는 이미지에 대한 이벤트 분류 결과에 기초하여, 복수의 랜드마크 포인트들 중에서 결정된 타겟(target) 랜드마크 포인트의 신뢰도 정보일 수 있다.

이미지 이벤트 분류 결정 장치는 제1 뉴럴 네트워크 모델을 통해 획득되는 이미지 이벤트 분류 결과에 기초하여, 제2 뉴럴 네트워크 모델을 통해 탐지되는 복수의 랜드마크 포인트들 중에서 일부 랜드마크 포인트를 타겟 랜드마크로 결정할 수 있다.

예를 들어, 이미지 이벤트 분류 결정 장치는 mask 이벤트 분류 결과에 기초하여, 입이나 턱에 대응하는 랜드마크 포인트를 타겟 랜드마크로 결정할 수 있다. 다른 예시로, 이미지 이벤트 분류 결정 장치는 phone 이벤트 분류 결과에 기초하여 귀에 대응하는 랜드마크 포인트를 타겟 랜드마크로 결정할 수 있고, smoke 이벤트 분류 결과에 기초하여 입에 대응하는 랜드마크 포인트를 타겟 랜드마크로 결정할 수 있다.

이에 따라, 본 개시에 따른 이미지 이벤트 분류 결정 장치는 이벤트 분류 모델 및 랜드마크 검출 모델간 유기적인 정보 조합이 가능할 것이다. 이벤트 분류 결과와 유기적인 연결관계를 갖는 랜드마크 포인트의 신뢰도 정보를 조합하여 이미지에 대한 신규 이벤트 분류를 결정함으로써, 이벤트 분류 결과 및 신규 이벤트 분류에 대한 연관성을 유지할 수 있음을 이해할 수 있을 것이다.

다른 실시예에 따르면, 이미지 이벤트 분류 결정 장치는 복수의 랜드마크 포인트들을 하나 이상의 영역으로 구분하고, 영역 중에서 이미지에 대한 이벤트 분류 결과에 기초하여 적어도 어느 하나의 영역을 선택하여, 선택된 영역에 포함되는 랜드마크 포인트를 타겟 랜드마크 포인트로써 결정할 수 있다.

도 3에서 상술한 바와 같이 얼굴 영역(300)의 각 특징에 대응하는 랜드마크(310)의 개수는 복수로 설정될 수 있고, 랜드마크(310)가 사용되는 어플리케이션에 따라 다양한 개수로 설정될 수 있다. 이때, 이미지 이벤트 분류 결정 장치는 하나의 특징에 대응하는 복수의 랜드마크들을 그룹핑하여, 각 특징별로 영역을 구분할 수 있다. 예컨대, 도 3의 얼굴 영역(300)을 예로 들면, 오른쪽 눈썹에 대응하는 9개의 랜드마크(310)는 하나의 영역으로 구분될 수 있다. 코에 대응하는 9개의 랜드마크(310), 입에 대응하는 17개의 랜드마크(310) 또한 마찬가지로 하나의 영역으로 구분될 수 있다.

이미지 이벤트 분류 결정 장치는 구분된 영역 중에서 이미지에 대한 이벤트 분류 결과에 기초하여 영역을 선택할 수 있고, 선택된 영역에 포함되는 랜드마크 포인트를 타켓 랜드마크 포인트로써 결정할 수 있다. 이미지 이벤트 분류 결과에 따라 하나 이상의 영역 중 어떠한 영역을 선택해야 하는지는 소정의 설정값을 따르거나, 학습될 수 있다. 예를 들어, mask 이벤트 분류 결과가 획득된 경우, 입과 턱 영역이 선택될 수 있고, phone 이벤트 분류 결과가 획득된 경우 귀 영역이 선택될 수 있다.

도 6b를 참조하면, 이미지 이벤트 분류 결정 장치는 mask 이벤트 분류 결과(620)에 기초하여, 복수의 랜드마크 포인트들(631) 중에서 입 영역에 포함되는 타겟 랜드마크 포인트(632)를 결정하여, 타겟 랜드마크 포인트의 신뢰도 정보(652)를 산출한 것을 확인할 수 있다.

도 7a 및 7b는 일 실시예에 따른 이미지에 대한 신규 이벤트 분류를 결정하는 방법을 설명하기 위한 예시적인 도면이다.

이미지 이벤트 분류 결정 장치는 이미지에 대한 이벤트 분류 결과 및 분류 결과에 매칭되는 랜드마크 포인트의 신뢰도 정보에 기초하여 이미지에 대한 신규 이벤트 분류를 결정할 수 있다. 이미지에 대한 신규 이벤트 분류는, 이미지에 대한 이벤트 분류 결과와 연관된 것일 수 있다.

본 개시는 정확도 높은 이미지 이벤트 분류를 위해 이미지 이벤트 분류 결과에 매칭되는 랜드마크 포인트의 신뢰도 정보에 기초하여, 이미지에 대한 신규 이벤트 분류를 결정할 수 있다.

이미지에 대한 신규 이벤트 분류는 이미지에 대한 이벤트 분류 결과에 기초하여 결정되므로, 이미지에 대한 이벤트 분류 결과와 연관된 것일 수 있다. 예를 들어, 이미지에 대한 신규 이벤트 분류는 이벤트 분류 모델이 이미지에 대해 분류할 수 없었던 새로운 이벤트를 의미할 수 있다. 본 개시에서는, 이벤트 분류 모델을 통한 이미지 이벤트 분류 결과 및 랜드마크 검출 모델을 통한 랜드마크 포인트의 신뢰도 정보를 조합하여 이미지 이벤트 분류를 결정함으로써, 이벤트 분류 모델의 한계를 극복하고 높은 정확도로 이미지의 이벤트를 분류할 수 있다.

일 실시예에 따르면, 이미지에 대한 신규 이벤트 분류는 이미지에 대한 이벤트 분류 결과의 하위 개념일 수 있다. 예를 들어, hand 이벤트 분류에는 하위 개념으로써 눈비빔, 입막음 등이 신규 이벤트 분류로 결정될 수 있고, mask 이벤트 분류에는 하위 개념으로써 턱스크(pull a mask under the chin) 등이 신규 이벤트 분류로 결정될 수 있다.

도 7a를 참조하면, 이미지 이벤트 분류 결정 장치는 이미지 이벤트 분류 결과(710)로써 신뢰도 63.7%의 mask 이벤트를 획득하였다. 이미지 이벤트 분류 결정 장치는 이미지 이벤트 분류 결과(710)에 매칭되는 랜드마크 포인트의 신뢰도 정보(730)에 기초하여, 이미지에 대한 신규 이벤트 분류(750)로써, 턱스크 이벤트로 이미지 이벤트 분류를 결정한 것을 확인할 수 있다.

일 실시예에 따르면, 이미지 이벤트 분류 결정 장치는 이미지 이벤트 분류 결과에 매칭되는 랜드마크 포인트의 신뢰도 정보를 이용하여, 랜드마크의 가려짐(occlusion) 정보를 획득할 수 있다. 이미지 이벤트 분류 결정 장치는 이미지에 대한 이벤트 분류 결과와 분류 결과에 매칭되는 랜드마크 포인트의 신뢰도 정보와 랜드마크의 가려짐 정보에 기초하여 이미지에 대한 신규 이벤트 분류를 결정할 수 있다.

예를 들어, 랜드마크 포인트의 신뢰도 정보가 소정의 값 이상인 경우, 이미지 이벤트 분류 결정 장치는 해당 랜드마크가 가려지지 않았다는 가려짐 정보를 획득할 수 있다. 다른 예시로, 랜드마크 포인트의 신뢰도 정보가 소정의 값 이하인 경우, 이미지 이벤트 분류 결정 장치는 해당 랜드마크가 가려졌다는 가려짐 정보를 획득할 수 있다. 소정의 값은 어플리케이션에 따라 50%, 60% 등으로 결정될 수 있다.

구체적으로, 이미지 이벤트 분류 결정 장치는 이미지에 대한 이벤트 분류 결과의 결과값이 제1 결과값 이상이고, 랜드마크 포인트의 신뢰도 정보가 제1 신뢰도 값 이상인 것에 응답하여 이미지에 대한 신규 이벤트 분류를 결정할 수 있다. 또한, 이미지 이벤트 분류 장치는 이미지에 대한 이벤트 분류 결과의 결과값이 제2 결과값 이상이고, 랜드마크 포인트의 신뢰도 정보가 제2 신뢰도 값 미만인 것에 응답하여 이미지에 대한 신규 이벤트 분류를 결정할 수 있다. 이벤트 분류 결과의 결과값은 분류 결과에 대한 신뢰도 정보일 수 있다.

예를 들어, 이미지 이벤트 분류 장치가 hand 이벤트 분류 결과에 대한 신뢰도가 0.6 이상이라는 A 정보와, 타겟 랜드마크 포인트인 눈 영역의 랜드마크 포인트의 신뢰도 정보가 0.6 미만인 B 정보를 획득한 경우를 예시로 들어 본다. 이미지 이벤트 분류 장치는 A 정보를 통해 이미지 내에 사람의 손이 등장한다는 정보를 획득하고, B 정보를 통해 이미지 내 얼굴 영역 중 눈 랜드마크가 가려졌다는 가려짐 정보를 획득할 수 있다. 이미지 이벤트 분류 장치는 이미지 내에 사람의 손이 등장한다는 정보와, 눈 랜드마크가 가려졌다는 가려짐 정보를 조합하여 눈 비빔의 신규 이벤트 분류를 결정할 수 있다.

도 7b를 참조하면, 이미지 이벤트 분류 결정 장치는 이미지 이벤트 분류 결과(710)로써 신뢰도 97.3%의 mask 이벤트 분류 결과(711)와, 신뢰도 63.7%의 mask 이벤트 분류 결과(712)를 획득하였다. 이미지 이벤트 분류 결정 장치는 이미지 이벤트 분류 결과(710) 각각에 매칭되는 랜드마크 포인트의 신뢰도 정보(730)를 이용하여, 랜드마크의 가려짐 정보를 획득할 수 있다. 예를 들어, 이미지 이벤트 분류 결정 장치는 제1 랜드마크 포인트의 신뢰도 정보(731)를 이용하여, 입이 가려졌다는 가려짐 정보(732)를 획득할 수 있고, 제2 랜드마크 포인트의 신뢰도 정보(733)를 이용하여, 입이 가려지지 않았다는 가려짐 정보(734)를 획득할 수 있다.

계속하여 도 7b를 참조하면, 이미지 이벤트 분류 결정 장치는 신뢰도 97.3%의 mask 이벤트 분류 결과(711), 제1 랜드마크 포인트의 신뢰도 정보(731) 및 입이 가려졌다는 가려짐 정보(732)에 기초하여 마스크 착용 중이라는 이미지에 대한 신규 이벤트 분류(751)를 결정할 수 있다. 마찬가지로, 이미지 이벤트 분류 결정 장치는 신뢰도 63.7%의 mask 이벤트 분류 결과(712), 제2 랜드마크 포인트의 신뢰도 정보(733) 및 입이 가려지지 않았다는 가려짐 정보(734)에 기초하여 턱스크 착용 중이라는 이미지에 대한 신규 이벤트 분류(752)를 결정할 수 있다.

도 8a 및 8b는 일 실시예에 따른 랜드마크 포인트의 신뢰도를 산출하는 방법을 설명하기 위한 예시적인 도면이다.

이미지 이벤트 분류 결정 장치는 복수의 랜드마크 포인트들 각각에 대한 회귀 분석(regression) 과정을 통해 랜드마크 포인트의 신뢰도 정보를 산출할 수 있다.

일 실시예에 따르면, 이미지 이벤트 분류 결정 장치는 복수의 랜드마크 포인트들 각각에 대해 복수의 좌표를 결정하고, 복수의 좌표 각각에 대한 신뢰도를 산출하여, 복수의 좌표 각각에 대한 신뢰도 중 가장 높은 신뢰도를 복수의 랜드마크 포인트들 각각에 대해 산출되는 신뢰도 정보로 결정하는 회귀 분석 과정을 통해 랜드마크 포인트의 신뢰도 정보를 산출할 수 있다.

도 8a를 참조하면, 눈 영역에 대응되는 랜드마크 포인트의 신뢰도 정보가 산출되는 예시가 나타난다. 눈 영역에 대응되는 랜드마크 포인트에 대해 6개의 좌표 및 각각에 대한 신뢰도가 산출될 수 있다. (49, 67)의 좌표에 해당하는 랜드마크 포인트에 대한 신뢰도가 97%로 가장 높은 것을 확인할 수 있다. 이미지 이벤트 분류 결정 장치는 6개의 좌표 및 신뢰도 정보 중 가장 높은 97%의 신뢰도를 눈 영역에 대응하는 랜드마크 포인트에 대해 산출되는 신뢰도 정보로 결정할 수 있다. 이미지 이벤트 분류 결정 장치는 기타 다른 얼굴 영역에 대응하는 랜드마크 포인트 각각에 대해 실시예에 따른 회귀 분석 과정을 통해 신뢰도 정보를 산출할 수 있다.

다른 실시예에 따르면, 이미지 이벤트 분류 결정 장치는 복수의 랜드마크 포인트들 각각에 대해 히트맵(heat map) 분포를 찾고, 히트맵 분포상에서 중심이 되는 좌표를 연산하여, 중심이 되는 좌표를 기준으로 히트맵 분포의 확산 정도에 따라 복수의 랜드마크 포인트들 각각에 대해 산출되는 신뢰도 정보를 결정하는 회귀 분석 과정을 통해 랜드마크 포인트의 신뢰도 정보를 산출할 수 있다.

도 8b를 참조하면, 눈 영역에 대응되는 랜드마크 포인트의 신뢰도 정보가 산출되는 예시가 나타난다. 이미지 이벤트 분류 결정 장치는 눈 영역에 대응되는 랜드마크 포인트에 대해 히트맵 분포를 찾을 수 있고, 히트맵 분포상에서 중심이 되는 좌표가 (49. 67)로 연산할 수 있다. 이미지 이벤트 분류 결정 장치는 (49, 67)를 기준으로 히트맵 분포의 확산 정도에 따라 97%의 신뢰도를 눈 영역에 대응하는 랜드마크 포인트에 대해 산출되는 신뢰도 정보로 결정할 수 있다. 이미지 이벤트 분류 결정 장치는 기타 다른 얼굴 영역에 대응하는 랜드마크 포인트 각각에 대해 실시예에 따른 회귀 분석 과정을 통해 신뢰도 정보를 산출할 수 있다.

도 9는 일 실시예에 따른 뉴럴 네트워크 모델을 이용하여 이미지 이벤트 분류를 결정하는 방법을 설명하기 위한 흐름도이다.

도 9를 참조하면, 단계 910에서, 이미지 이벤트 분류 결정 장치는 제1 뉴럴 네트워크 모델에 입력 데이터로써 이미지를 입력하고, 제1 뉴럴 네트워크 모델의 출력 데이터로써 이미지에 대한 이벤트 분류 결과를 획득할 수 있다.

일 실시예에 따르면, 이미지에 대한 이벤트 분류 결과는 분류 결과에 대한 신뢰도 정보를 포함할 수 있다. 이미지 이벤트 분류 결과에 대한 신뢰도가 높을수록 불확실성이 낮으며, 반대로 이미지 이벤트 분류 결과에 대한 신뢰도가 낮을수록 불확실성이 크다는 것을 의미한다.

단계 920에서, 이미지 이벤트 분류 결정 장치는 이미지에 대한 이벤트 분류 결과 및 분류 결과에 매칭되는 랜드마크 포인트의 신뢰도 정보에 기초하여 이미지에 대한 신규 이벤트 분류를 결정할 수 있다. 이미지에 대한 신규 이벤트 분류는, 이미지에 대한 이벤트 분류 결과와 연관된 것일 수 있다.

일 실시예에 따르면, 이미지 이벤트 분류 결정 장치는 제2 뉴럴 네트워크 모델에 입력 데이터로써 이미지를 입력하고, 이미지에서 복수의 랜드마크 포인트들을 탐지하여, 복수의 랜드마크 포인트들 각각에 대해 신뢰도 정보를 산출할 수 있다.

일 실시예에 따르면, 이미지 이벤트 분류 결정 장치는 복수의 랜드마크 포인트들 각각에 대한 회귀 분석(regression) 과정을 통해 랜드마크 포인트의 신뢰도 정보를 산출할 수 있다.

도 10은 일 실시예에 따른 이미지 이벤트 분류 결정 장치의 블록도이다.

도 10을 참조하면, 이미지 이벤트 분류 결정 장치(1000)는 통신부(1010), 프로세서(1020) 및 DB(1030)를 포함할 수 있다. 도 10의 이미지 이벤트 분류 결정 장치(1000)에는 실시예와 관련된 구성요소들 만이 도시되어 있다. 따라서, 도 10에 도시된 구성요소들 외에 다른 범용적인 구성요소들이 더 포함될 수 있음을 당해 기술분야의 통상의 기술자라면 이해할 수 있다.

통신부(1010)는 외부 서버 또는 외부 장치와 유선/무선 통신을 하게 하는 하나 이상의 구성 요소를 포함할 수 있다. 예를 들어, 통신부(1010)는, 근거리 통신부(미도시), 이동 통신부(미도시) 및 방송 수신부(미도시) 중 적어도 하나를 포함할 수 있다.

DB(1030)는 이미지 이벤트 분류 결정 장치(1000) 내에서 처리되는 각종 데이터들을 저장하는 하드웨어로서, 프로세서(1020)의 처리 및 제어를 위한 프로그램을 저장할 수 있다.

DB(1030)는 DRAM(dynamic random access memory), SRAM(static random access memory) 등과 같은 RAM(random access memory), ROM(read-only memory), EEPROM(electrically erasable programmable read-only memory), CD-ROM, 블루레이 또는 다른 광학 디스크 스토리지, HDD(hard disk drive), SSD(solid state drive), 또는 플래시 메모리를 포함할 수 있다.

프로세서(1020)는 이미지 이벤트 분류 결정 장치(1000)의 전반적인 동작을 제어한다. 예를 들어, 프로세서(1020)는 DB(1030)에 저장된 프로그램들을 실행함으로써, 입력부(미도시), 디스플레이(미도시), 통신부(1010), DB(1030) 등을 전반적으로 제어할 수 있다. 프로세서(1020)는, DB(1030)에 저장된 프로그램들을 실행함으로써, 이미지 이벤트 분류 결정 장치(1000)의 동작을 제어할 수 있다.

프로세서(1020)는 도 1 내지 도 9에서 상술한 이미지 이벤트 분류 결정 장치(1000)의 동작 중 적어도 일부를 제어할 수 있다. 이미지 이벤트 분류 결정 장치(1000)는 도 1의 시스템(100)과 동일하거나, 시스템(100)의 동작 중 일부를 수행하는 장치로 구현될 수 있다.

프로세서(1020)는 ASICs (application specific integrated circuits), DSPs(digital signal processors), DSPDs(digital signal processing devices), PLDs(programmable logic devices), FPGAs(field programmable gate arrays), 제어기(controllers), 마이크로 컨트롤러(micro-controllers), 마이크로 프로세서(microprocessors), 기타 기능 수행을 위한 전기적 유닛 중 적어도 하나를 이용하여 구현될 수 있다.

일 실시예로, 이미지 이벤트 분류 결정 장치(1000)는 이동성을 가지는 전자 장치일 수 있다. 예를 들어, 이미지 이벤트 분류 결정 장치(1000)는 스마트폰, 태블릿 PC, PC, 스마트 TV, PDA(personal digital assistant), 랩톱, 미디어 플레이어, 내비게이션, 카메라가 탑재된 디바이스 및 기타 모바일 전자 장치로 구현될 수 있다. 또한, 이미지 이벤트 분류 결정 장치(1000)는 통신 기능 및 데이터 프로세싱 기능을 구비한 시계, 안경, 헤어 밴드 및 반지 등의 웨어러블 장치로 구현될 수 있다.

다른 실시예로, 이미지 이벤트 분류 결정 장치(1000)는 차량 내에 임베디드 되는 전자 장치일 수 있다. 예를 들어, 이미지 이벤트 분류 결정 장치(1000)는 생산 과정 이후 튜닝(tuning)을 통해 차량 내에 삽입되는 전자 장치일 수 있다.

또 다른 실시예로, 이미지 이벤트 분류 결정 장치(1000)는 차량 외부에 위치하는 서버일 수 있다. 서버는 네트워크를 통해 통신하여 명령, 코드, 파일, 컨텐츠, 서비스 등을 제공하는 컴퓨터 장치 또는 복수의 컴퓨터 장치들로 구현될 수 있다. 서버는 차량에 탑재된 장치들로부터 이미지의 이벤트를 분류하기 위해 필요한 데이터를 수신하고, 수신한 데이터에 기초하여 이미지의 이벤트를 분류할 수 있다.

또 다른 실시예로, 이미지 이벤트 분류 결정 장치(1000)에서 수행되는 프로세스는 이동성을 가지는 전자 장치, 차량 내에 임베디되는 전자 장치 및 차량 외부에 위치하는 서버 중 적어도 일부에 의해 수행될 수 있다.

본 발명에 따른 실시 예는 컴퓨터 상에서 다양한 구성요소를 통하여 실행될 수 있는 컴퓨터 프로그램의 형태로 구현될 수 있으며, 이와 같은 컴퓨터 프로그램은 컴퓨터로 판독 가능한 매체에 기록될 수 있다. 이때, 매체는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM 및 DVD와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical medium), 및 ROM, RAM, 플래시 메모리 등과 같은, 프로그램 명령어를 저장하고 실행하도록 특별히 구성된 하드웨어 장치를 포함할 수 있다.

한편, 상기 컴퓨터 프로그램은 본 발명을 위하여 특별히 설계되고 구성된 것이거나 컴퓨터 소프트웨어 분야의 당업자에게 공지되어 사용 가능한 것일 수 있다. 컴퓨터 프로그램의 예에는, 컴파일러에 의하여 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용하여 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드도 포함될 수 있다.

일 실시예에 따르면, 본 개시의 다양한 실시예들에 따른 방법은 컴퓨터 프로그램 제품(computer program product)에 포함되어 제공될 수 있다. 컴퓨터 프로그램 제품은 상품으로서 판매자 및 구매자 간에 거래될 수 있다. 컴퓨터 프로그램 제품은 기기로 읽을 수 있는 저장 매체(예: compact disc read only memory (CD-ROM))의 형태로 배포되거나, 또는 어플리케이션 스토어(예: 플레이 스토어TM)를 통해 또는 두 개의 사용자 장치들 간에 직접, 온라인으로 배포(예: 다운로드 또는 업로드)될 수 있다. 온라인 배포의 경우에, 컴퓨터 프로그램 제품의 적어도 일부는 제조사의 서버, 어플리케이션 스토어의 서버, 또는 중계 서버의 메모리와 같은 기기로 읽을 수 있는 저장 매체에 적어도 일시 저장되거나, 임시적으로 생성될 수 있다.

본 발명에 따른 방법을 구성하는 단계들에 대하여 명백하게 순서를 기재하거나 반하는 기재가 없다면, 상기 단계들은 적당한 순서로 행해질 수 있다. 반드시 상기 단계들의 기재 순서에 따라 본 발명이 한정되는 것은 아니다. 본 발명에서 모든 예들 또는 예시적인 용어(예들 들어, 등등)의 사용은 단순히 본 발명을 상세히 설명하기 위한 것으로서 특허청구범위에 의해 한정되지 않는 이상 상기 예들 또는 예시적인 용어로 인해 본 발명의 범위가 한정되는 것은 아니다. 또한, 당업자는 다양한 수정, 조합 및 변경이 부가된 특허청구범위 또는 그 균등물의 범주 내에서 설계 조건 및 팩터에 따라 구성될 수 있음을 알 수 있다.

따라서, 본 발명의 사상은 상기 설명된 실시 예에 국한되어 정해져서는 아니 되며, 후술하는 특허청구범위 뿐만 아니라 이 특허청구범위와 균등한 또는 이로부터 등가적으로 변경된 모든 범위는 본 발명의 사상의 범주에 속한다고 할 것이다

100: 시스템
110: 얼굴 검출 모델
121: 랜드마크 검출 모델
122: 이벤트 분류 모델
130: 후처리 모듈
200: 이미지
210: 슬라이딩 윈도우
220: 얼굴 영역
300: 얼굴 영역
310: 랜드마크
410: normal
420: phone
430: smoke
440: mask
510: 이미지 이벤트 분류 결과가 명확한 그룹의 이미지
530: 이미지 이벤트 분류 결과가 불명확한 그룹의 이미지
610: 원본 이미지
631: 복수의 랜드마크 포인트들
651: 신뢰도 정보
620: 이미지 이벤트 분류 결과
632: 타켓 랜드마크 포인트
652: 타겟 랜드마크 포인트의 신뢰도 정보
710: 이미지 이벤트 분류 결과
711: mask 이벤트 분류 결과
712: mask 이벤트 분류 결과
730: 랜드마크 포인트의 신뢰도 정보
731: 제1 랜드마크 포인트의 신뢰도 정보
732: 입이 가려졌다는 가려짐 정보
733: 제2 랜드마크 포인트의 신뢰도 정보
734: 입이 가려지지 않았다는 가려짐 정보
750: 신규 이벤트 분류
751: 마스크 착용 중 신규 이벤트 분류
752: 턱스크 착용 중 신규 이벤트 분류
1000: 이미지 이벤트 분류 결정 장치
1010: 통신부
1020: 프로세서
1030: DB

Claims

뉴럴 네트워크 모델을 이용하여 이미지 이벤트 분류를 결정하는 방법에 있어서,
제1 뉴럴 네트워크 모델에 입력 데이터로써 이미지를 입력하고, 상기 제1 뉴럴 네트워크 모델의 출력 데이터로써 상기 이미지에 대한 이벤트 분류 및 상기 이벤트 분류에 관한 신뢰도를 획득하는 단계; 및
상기 획득된 이벤트 분류가 제1 이벤트인 것에 응답하여, 상기 제1 이벤트에 매칭되는 랜드마크 포인트의 신뢰도 정보를 획득하고, 상기 신뢰도 정보에 기초하여 상기 랜드마크 포인트의 가려짐 정보를 획득하는 단계; - 상기 가려짐 정보는 제1 이벤트에 매칭되는 상기 랜드마크 포인트의 높은 신뢰도 정보에 기초하여 획득되는 제1 가려짐 정보와 상기 제1 이벤트에 매칭되는 상기 랜드마크 포인트의 낮은 신뢰도 정보에 기초하여 획득되는 제2 가려짐 정보를 포함함 - 및
상기 이벤트 분류, 상기 이벤트 분류에 관한 신뢰도 및 상기 랜드마크의 가려짐 정보를 조합하여 상기 이미지에 대한 이벤트를 상기 제1 이벤트 또는 상기 제1 이벤트와 연관되는 제2 이벤트 중 어느 하나로 결정하는 단계; 를 포함하고,
상기 결정하는 단계는,
상기 제1 뉴럴 네트워크 모델에 의해 상기 이미지에 대한 상기 이벤트가 상기 제1 이벤트로 분류된 것에 관한 신뢰도가 소정의 값 이상인 경우에, 상기 제1 이벤트에 매칭되는 상기 랜드마크 포인트의 제2 가려짐 정보를 더 고려하여 상기 이미지에 대한 상기 이벤트를 상기 제2 이벤트로 변경하거나
상기 제1 이벤트로 분류된 것에 관한 신뢰도가 소정의 값 이하인 경우에, 상기 제1 이벤트에 매칭되는 상기 랜드마크 포인트의 제1 가려짐 정보를 더 고려하여 상기 이미지에 대한 상기 이벤트를 상기 제2 이벤트로 변경하는 단계를 포함하며,
상기 제2 이벤트는, 제1 뉴럴 네트워크 모델이 상기 이미지에 대해 분류할 수 없었던 신규 이벤트 분류인, 방법.
삭제
삭제
제1 항에 있어서,
상기 랜드마크 포인트의 신뢰도 정보는,
제2 뉴럴 네트워크 모델에 입력 데이터로써 상기 이미지와 관련된 관련 이미지를 입력하고, 상기 관련 이미지에서 복수의 랜드마크 포인트들을 탐지하여, 상기 복수의 랜드마크 포인트들 각각에 대해 산출되는 신뢰도 정보인, 방법.
제4 항에 있어서,
상기 랜드마크 포인트의 신뢰도 정보는,
상기 이벤트 분류 결과에 기초하여, 상기 복수의 랜드마크 포인트들 중에서 결정된 타겟(target) 랜드마크 포인트의 신뢰도 정보인, 방법.
제5 항에 있어서,
상기 타겟 랜드마크 포인트는,
상기 복수의 랜드마크 포인트들을 하나 이상의 영역으로 구분하고, 상기 영역 중에서 상기 이벤트 분류 결과에 기초하여 적어도 어느 하나의 영역을 선택하여, 상기 선택된 영역에 포함되는 랜드마크 포인트로써 결정되는 것인, 방법.
제4 항에 있어서,
상기 랜드마크 포인트의 신뢰도 정보는,
상기 복수의 랜드마크 포인트들 각각에 대한 회귀 분석(regression) 과정을 통해 산출되는 신뢰도 정보인, 방법.
제7 항에 있어서,
상기 회귀 분석 과정은,
상기 복수의 랜드마크 포인트들 각각에 대해 복수의 좌표를 결정하고, 상기 복수의 좌표 각각에 대한 신뢰도를 산출하여, 상기 복수의 좌표 각각에 대한 신뢰도 중 가장 높은 신뢰도를 상기 복수의 랜드마크 포인트들 각각에 대해 산출되는 신뢰도 정보로 결정하는 과정인, 방법.
제7 항에 있어서,
상기 회귀 분석 과정은,
상기 복수의 랜드마크 포인트들 각각에 대해 히트맵(heat map) 분포를 찾고, 상기 히트맵 분포상에서 중심이 되는 좌표를 연산하여, 상기 중심이 되는 좌표를 기준으로 상기 히트맵 분포의 확산 정도에 따라 상기 복수의 랜드마크 포인트들 각각에 대해 산출되는 신뢰도 정보를 결정하는 과정인, 방법.
뉴럴 네트워크 모델을 이용하여 이미지 이벤트 분류를 결정하는 장치에 있어서,
적어도 하나의 프로그램이 저장된 메모리; 및
상기 적어도 하나의 프로그램을 실행함으로써 뉴럴 네트워크 모델을 구동하는 적어도 하나의 프로세서를 포함하고,
상기 적어도 하나의 프로세서는,
제1 뉴럴 네트워크 모델에 입력 데이터로써 이미지를 입력하고, 상기 제1 뉴럴 네트워크 모델의 출력 데이터로써 상기 이미지에 대한 이벤트 분류 및 상기 이벤트 분류에 관한 신뢰도를 획득하고,
상기 획득된 이벤트 분류가 제1 이벤트인 것에 응답하여, 상기 제1 이벤트에 매칭되는 랜드마크 포인트의 신뢰도 정보를 획득하여, 상기 신뢰도 정보에 기초하여 상기 랜드마크 포인트의 가려짐 정보 - 상기 가려짐 정보는 상기 제1 이벤트에 매칭되는 상기 랜드마크 포인트의 높은 신뢰도 정보에 기초하여 획득되는 제1 가려짐 정보와 상기 제1 이벤트에 매칭되는 상기 랜드마크 포인트의 낮은 신뢰도 정보에 기초하여 획득되는 제2 가려짐 정보를 포함함 - 를 획득하고,
상기 이벤트 분류, 상기 이벤트 분류에 관한 신뢰도 및 상기 랜드마크의 가려짐 정보를 조합하여 상기 이미지에 대한 이벤트를 상기 제1 이벤트 또는 상기 제1 이벤트와 연관되는 제2 이벤트 중 어느 하나로 결정하며,
상기 프로세서는,
상기 제1 뉴럴 네트워크 모델에 의해 상기 이미지에 대한 상기 이벤트가 상기 제1 이벤트로 분류된 것에 관한 신뢰도가 소정의 값 이상인 경우에, 상기 제1 이벤트에 매칭되는 상기 랜드마크 포인트의 제2 가려짐 정보를 더 고려하여 상기 이미지에 대한 상기 이벤트를 상기 제2 이벤트로 변경하거나
상기 제1 이벤트로 분류된 것에 관한 신뢰도가 소정의 값 이하인 경우에, 상기 제1 이벤트에 매칭되는 상기 랜드마크 포인트의 제1 가려짐 정보를 더 고려하여 상기 이미지에 대한 상기 이벤트를 상기 제2 이벤트로 변경하는 것을 포함하고,
상기 제2 이벤트는, 상기 제1 뉴럴 네트워크 모델이 상기 이미지에 대해 분류할 수 없었던 신규 이벤트 분류인, 장치.
제1 항의 방법을 컴퓨터에서 실행하기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.