[go: up one dir, main page]

KR102450971B1 - Recognition apparatus and method - Google Patents

Recognition apparatus and method Download PDF

Info

Publication number
KR102450971B1
KR102450971B1 KR1020150162837A KR20150162837A KR102450971B1 KR 102450971 B1 KR102450971 B1 KR 102450971B1 KR 1020150162837 A KR1020150162837 A KR 1020150162837A KR 20150162837 A KR20150162837 A KR 20150162837A KR 102450971 B1 KR102450971 B1 KR 102450971B1
Authority
KR
South Korea
Prior art keywords
neural network
image
weight
deconvolution
original image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
KR1020150162837A
Other languages
Korean (ko)
Other versions
KR20160131848A (en
Inventor
한보형
홍승훈
노현우
Original Assignee
삼성전자주식회사
포항공과대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사, 포항공과대학교 산학협력단 filed Critical 삼성전자주식회사
Priority to US15/147,665 priority Critical patent/US9940539B2/en
Publication of KR20160131848A publication Critical patent/KR20160131848A/en
Application granted granted Critical
Publication of KR102450971B1 publication Critical patent/KR102450971B1/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • G06K9/6201
    • G06K9/6256
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/192Recognition using electronic means using simultaneous comparisons or correlations of the image signals with a plurality of references
    • G06V30/194References adjustable by an adaptive method, e.g. learning
    • G06K2009/62

Landscapes

  • Engineering & Computer Science (AREA)
  • Image Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)

Abstract

일 실시예에 따른 객체 인식 장치는, 원영상과 상기 원영상의 샘플 분할 맵(segmentation map)을 포함하는 복수의 영상 학습 집합(image learning set)으로부터 특징 추출을 하기 위한 컨볼루션 신경망(convolution network)을 이용하여 상기 원영상의 이미지 특징 벡터를 결정하고, 상기 결정된 이미지 특징 벡터로부터 디컨볼루션 신경망(deconvolution network)을 이용하여 상기 원영상의 분할 맵을 결정하고, 상기 샘플 분할 맵 및 상기 결정된 분할 맵을 이용하여 상기 컨볼루션 신경망의 가중치 및 상기 디컨볼루션 신경망의 가중치를 결정하는 학습부 및 상기 결정된 컨볼루션 신경망의 가중치를 이용하는 컨볼루션 신경망 및 상기 결정된 디컨볼루션 신경망의 가중치를 이용하는 디컨볼루션의 신경망을 통해 입력 영상으로부터 상기 입력 영상의 분할 맵을 결정하는 분할 맵 결정부를 포함할 수 있다.The object recognition apparatus according to an embodiment includes a convolutional neural network for extracting features from a plurality of image learning sets including an original image and a sample segmentation map of the original image. determines the image feature vector of the original image using A learning unit that determines the weight of the convolutional neural network and the weight of the deconvolutional neural network using and a segmentation map determiner configured to determine a segmentation map of the input image from the input image through a neural network.

Figure 112015113171273-pat00003
Figure 112015113171273-pat00003

Description

객체 인식 장치 및 방법{RECOGNITION APPARATUS AND METHOD}Object recognition device and method {RECOGNITION APPARATUS AND METHOD}

다양한 실시예들은 객체 인식 장치 및 방법에 관한 것으로서, 더욱 상세하게는 컨볼루션 신경망 및 디컨볼루션 신경망을 이용하여 영상 내의 객체를 인식하는 장치 및 방법에 관한 것이다.Various embodiments relate to an apparatus and method for recognizing an object, and more particularly, to an apparatus and method for recognizing an object in an image using a convolutional neural network and a deconvolutional neural network.

영상 처리 기술의 발전 및 하드웨어 성능의 향상에 따라서 딥 러닝(deep learning)이 패턴 인식 분야에서 중요시되고 있다. 분류 기법으로서 컨볼루션 신경망은 객체 인식, 물체 추적 및 동작 인식 등의 다양한 비주얼 인식 문제에 이용되고 있다.With the development of image processing technology and improvement of hardware performance, deep learning has become important in the field of pattern recognition. As a classification technique, convolutional neural networks are used for various visual recognition problems such as object recognition, object tracking, and motion recognition.

다양한 실시예들은, 컨볼루션 신경망 및 디컨볼루션 신경망을 이용하여, 영상 내의 객체를 인식하는 장치 및 방법을 제공할 수 있다.Various embodiments may provide an apparatus and method for recognizing an object in an image using a convolutional neural network and a deconvolutional neural network.

상술한 기술적 과제를 달성하기 위한 기술적 수단으로서, 본 개시의 일 실시예는, 원영상과 상기 원영상의 샘플 분할 맵(segmentation map)을 포함하는 복수의 영상 학습 집합(image learning set)으로부터 특징 추출을 하기 위한 컨볼루션 신경망(convolution network)을 이용하여 상기 원영상의 이미지 특징 벡터를 결정하고, 상기 결정된 이미지 특징 벡터로부터 디컨볼루션 신경망(deconvolution network)을 이용하여 상기 원영상의 분할 맵을 결정하고, 상기 샘플 분할 맵 및 상기 결정된 분할 맵을 이용하여 상기 컨볼루션 신경망의 가중치 및 상기 디컨볼루션 신경망의 가중치를 결정하는 학습부; 및 상기 결정된 컨볼루션 신경망의 가중치를 이용하는 컨볼루션 신경망 및 상기 결정된 디컨볼루션 신경망의 가중치를 이용하는 디컨볼루션의 신경망을 통해 입력 영상으로부터 상기 입력 영상의 분할 맵을 결정하는 분할 맵 결정부를 포함하는, 객체 인식(recognition) 장치를 제공할 수 있다.As a technical means for achieving the above technical problem, an embodiment of the present disclosure extracts features from a plurality of image learning sets including an original image and a sample segmentation map of the original image Determine the image feature vector of the original image using a convolutional network for , a learning unit for determining a weight of the convolutional neural network and a weight of the deconvolutional neural network using the sample segmentation map and the determined segmentation map; and a segmentation map determiner configured to determine a segmentation map of the input image from an input image through a convolutional neural network using the determined weight of the convolutional neural network and a deconvolutional neural network using the determined weight of the deconvolutional neural network. An object recognition device may be provided.

일 실시예에 따른 상기 컨볼루션 신경망은, 컨볼루션을 수행하여 적어도 하나 이상의 특징 맵을 생성하기 위한 복수의 컨볼루션 층(convolution layer) 및 상기 컨볼루션 층 사이에서 상기 특징 맵을 다운샘플링(downsampling)을 하기 위한 풀링 층(pooling layer)을 포함하고, 상기 디컨볼루션 신경망은, 디컨볼루션을 수행하여 적어도 하나 이상의 중간(intermediate) 분할 맵을 생성하기 위한 복수의 디컨볼루션 층(deconvolution layer) 및 상기 디컨볼루션 층 사이에서 상기 중간 분할 맵을 업샘플링(upsampling)을 하기 위한 복수의 언풀링 층(unpooling layer)을 포함할 수 있다.The convolutional neural network according to an embodiment performs convolution to generate at least one or more feature maps, and a plurality of convolution layers for generating at least one feature map and downsampling the feature map between the convolution layers. A plurality of deconvolution layers for generating at least one intermediate segmentation map by performing deconvolution, and and a plurality of unpooling layers for upsampling the intermediate segmentation map between the deconvolution layers.

일 실시예에 따른 상기 컨볼루션 신경망의 가중치는, 상기 컨볼루션 층의 컨볼루션 마스크의 계수인 것을 특징으로 하고, 상기 디컨볼루션 신경망의 가중치는, 상기 디컨볼루션 층의 디컨볼루션 마스크의 계수인 것을 특징으로 할 수 있다.The weight of the convolutional neural network according to an embodiment is a coefficient of a convolution mask of the convolution layer, and the weight of the deconvolutional neural network is a coefficient of a deconvolution mask of the deconvolution layer. It may be characterized as being

일 실시예에 따른 상기 풀링 층은, 맥스 풀링 층(max pooling layer)인 것을 특징으로 할 수 있다.The pooling layer according to an embodiment may be characterized as a max pooling layer.

일 실시예에 따른 상기 언풀링 층은, 상기 맥스 풀링 층에 대응되는 것을 특징으로 할 수 있다.The unpooling layer according to an embodiment may be characterized in that it corresponds to the max pooling layer.

일 실시예에 따른 상기 영상 학습 집합은, 상기 원영상에서 하나의 객체만을 추출한 영상 및 상기 추출한 영상의 샘플 분할 맵을 포함할 수 있다.The image learning set according to an embodiment may include an image obtained by extracting only one object from the original image and a sample segmentation map of the extracted image.

또한, 본 개시의 다른 실시예는, 원영상과 상기 원영상의 샘플 분할 맵(segmentation map)을 포함하는 복수의 영상 학습 집합(image learning set)으로부터 특징 추출을 하기 위한 컨볼루션 신경망(convolution network)을 이용하여 상기 원영상의 이미지 특징 벡터를 결정하는 단계; 상기 결정된 이미지 특징 벡터로부터 디컨볼루션 신경망(deconvolution network)을 이용하여 상기 원영상의 분할 맵을 결정하는 단계; 상기 샘플 분할 맵 및 상기 결정된 분할 맵을 이용하여 상기 컨볼루션 신경망의 가중치 및 상기 디컨볼루션 신경망의 가중치를 결정하는 단계; 및 상기 결정된 컨볼루션 신경망의 가중치를 이용하는 컨볼루션 신경망 및 상기 결정된 디컨볼루션 신경망의 가중치를 이용하는 디컨볼루션의 신경망을 통해 입력 영상으로부터 상기 입력 영상의 분할 맵을 결정하는 단계를 포함하는, 객체 인식 방법을 제공할 수 있다.In addition, another embodiment of the present disclosure provides a convolutional network for feature extraction from a plurality of image learning sets including an original image and a sample segmentation map of the original image. determining an image feature vector of the original image using determining a segmentation map of the original image using a deconvolution network from the determined image feature vector; determining a weight of the convolutional neural network and a weight of the deconvolutional neural network using the sample segmentation map and the determined segmentation map; and determining a segmentation map of the input image from the input image through a convolutional neural network using the determined weight of the convolutional neural network and a deconvolutional neural network using the determined weight of the deconvolutional neural network. method can be provided.

일 실시예에 따른 상기 컨볼루션 신경망은, 컨볼루션을 수행하여 적어도 하나 이상의 특징 맵을 생성하기 위한 복수의 컨볼루션 층(convolution layer) 및 상기 컨볼루션 층 사이에서 상기 특징 맵을 다운샘플링(downsampling)을 하기 위한 풀링 층(pooling layer)을 포함하고, 상기 디컨볼루션 신경망은, 디컨볼루션을 수행하여 적어도 하나 이상의 중간 분할 맵을 생성하기 위한 복수의 디컨볼루션 층(deconvolution layer) 및 상기 디컨볼루션 층 사이에서 중간 분할 맵을 업샘플링(upsampling)을 하기 위한 복수의 언풀링 층(unpooling layer)을 포함할 수 있다.The convolutional neural network according to an embodiment performs convolution to generate at least one or more feature maps, and a plurality of convolution layers for generating at least one feature map and downsampling the feature map between the convolution layers. a pooling layer for performing It may include a plurality of unpooling layers for upsampling the intermediate partitioning map between the solution layers.

일 실시예에 따른 상기 컨볼루션 신경망의 가중치는, 상기 컨볼루션 층의 컨볼루션 마스크의 계수인 것을 특징으로 하고, 상기 디컨볼루션 신경망의 가중치는, 상기 디컨볼루션 층의 디컨볼루션 마스크의 계수인 것을 특징으로 할 수 있다.The weight of the convolutional neural network according to an embodiment is a coefficient of a convolution mask of the convolution layer, and the weight of the deconvolutional neural network is a coefficient of a deconvolution mask of the deconvolution layer. It may be characterized as being

일 실시예에 따른 상기 풀링 층은, 맥스 풀링 층(max pooling layer)인 것을 특징으로 할 수 있다.The pooling layer according to an embodiment may be characterized as a max pooling layer.

일 실시예에 따른 상기 언풀링 층은, 상기 맥스 풀링 층에 대응되는 것을 특징으로 할 수 있다.The unpooling layer according to an embodiment may be characterized in that it corresponds to the max pooling layer.

일 실시예에 따른 상기 영상 학습 집합은, 상기 원영상에서 하나의 객체만을 추출한 영상 및 상기 추출한 영상의 샘플 분할 맵을 포함할 수 있다.The image learning set according to an embodiment may include an image obtained by extracting only one object from the original image and a sample segmentation map of the extracted image.

또한, 본 개시의 다른 실시예는, 원영상과 상기 원영상의 샘플 고해상도 영상(superresolution image)을 포함하는 복수의 영상 학습 집합(image learning set)으로부터 특징 추출을 하기 위한 컨볼루션 신경망(convolution network)을 이용하여 상기 원영상의 이미지 특징 벡터를 결정하고, 상기 결정된 이미지 특징 벡터로부터 디컨볼루션 신경망(deconvolution network)을 이용하여 상기 원영상의 고해상도 영상을 결정하고, 상기 샘플 고해상도 영상 및 상기 결정된 고해상도 영상을 이용하여 상기 컨볼루션 신경망의 가중치 및 상기 디컨볼루션 신경망의 가중치를 결정하는 학습부; 및 상기 결정된 컨볼루션 신경망의 가중치를 이용하는 컨볼루션 신경망 및 상기 결정된 디컨볼루션 신경망의 가중치를 이용하는 디컨볼루션의 신경망을 통해 입력 영상으로부터 상기 입력 영상의 고해상도 영상을 결정하는 고해상도 영상 결정부를 포함하는, 영상 확대 장치를 제공할 수 있다.In addition, another embodiment of the present disclosure provides a convolutional network for feature extraction from a plurality of image learning sets including an original image and a sample superresolution image of the original image. determines the image feature vector of the original image using a learning unit for determining a weight of the convolutional neural network and a weight of the deconvolutional neural network using ; and a high-resolution image determiner for determining a high-resolution image of the input image from an input image through a convolutional neural network using the determined weight of the convolutional neural network and a deconvolutional neural network using the determined weight of the deconvolutional neural network. An image magnifying device may be provided.

또한, 본 개시의 다른 실시예에 따른 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공할 수 있다.In addition, it is possible to provide a computer-readable recording medium in which a program for executing a method according to another embodiment of the present disclosure is recorded in a computer.

도 1은 일 실시예에 따른, 입력 영상 및 입력 영상의 분할 맵을 나타내는 도면이다.
도 2는 일 실시예에 따른, 객체 인식 장치의 구성을 나타내는 도면이다.
도 3은 다른 실시예에 따른, 객체 인식 장치의 구성을 나타내는 도면이다.
도 4는 일 실시예에 따른, 컨볼루션 신경망의 동작을 설명하기 위해 참조되는 도면이다.
도 5는 일 실시예에 따른, 컨볼루션 층의 동작을 설명하기 위해 참조되는 도면이다.
도 6은 일 실시예에 따른, 풀링 층의 동작을 설명하기 위해 참조되는 도면이다.
도 7은 일 실시예에 따른, 디컨볼루션 신경망의 동작을 설명하기 위해 참조되는 도면이다.
도 8은 일 실시예에 따른, 디컨볼루션 층의 동작을 설명하기 위해 참조되는 도면이다.
도 9는 일 실시예에 따른, 언풀링 층의 동작을 설명하기 위해 참조되는 도면이다.
도 10은 일 실시예에 따른, 분할 맵 결정부의 동작을 설명하기 위해 참조되는 도면이다.
도 11은 일 실시예에 따른, 객체 인식 방법의 흐름도이다.
도 12는 일 실시예에 따른, 영상 확대 장치의 구성을 나타내는 도면이다.
1 is a diagram illustrating an input image and a segmentation map of the input image, according to an exemplary embodiment.
2 is a diagram illustrating a configuration of an object recognition apparatus according to an embodiment.
3 is a diagram illustrating a configuration of an object recognition apparatus according to another exemplary embodiment.
4 is a diagram referenced to describe an operation of a convolutional neural network, according to an embodiment.
5 is a diagram referenced to describe an operation of a convolutional layer, according to an embodiment.
6 is a diagram referenced to describe an operation of a pooling layer, according to an embodiment.
7 is a diagram referenced to describe an operation of a deconvolutional neural network, according to an embodiment.
8 is a diagram referenced to describe an operation of a deconvolution layer, according to an embodiment.
9 is a diagram referenced to describe an operation of an unpooling layer, according to an embodiment.
10 is a diagram referenced to describe an operation of a division map determiner according to an embodiment.
11 is a flowchart of a method for recognizing an object, according to an embodiment.
12 is a diagram illustrating a configuration of an image magnifying apparatus according to an exemplary embodiment.

본 명세서에서 사용되는 용어에 대해 간략히 설명하고, 본 발명에 대해 구체적으로 설명하기로 한다.Terms used in this specification will be briefly described, and the present invention will be described in detail.

본 발명에서 사용되는 용어는 본 발명에서의 기능을 고려하면서 가능한 현재 널리 사용되는 일반적인 용어들을 선택하였으나, 이는 당 분야에 종사하는 기술자의 의도 또는 판례, 새로운 기술의 출현 등에 따라 달라질 수 있다. 또한, 특정한 경우는 출원인이 임의로 선정한 용어도 있으며, 이 경우 해당되는 발명의 설명 부분에서 상세히 그 의미를 기재할 것이다. 따라서 본 발명에서 사용되는 용어는 단순한 용어의 명칭이 아닌, 그 용어가 가지는 의미와 본 발명의 전반에 걸친 내용을 토대로 정의되어야 한다. The terms used in the present invention have been selected as currently widely used general terms as possible while considering the functions in the present invention, but these may vary depending on the intention or precedent of a person skilled in the art, the emergence of new technology, and the like. In addition, in a specific case, there is a term arbitrarily selected by the applicant, and in this case, the meaning will be described in detail in the description of the corresponding invention. Therefore, the term used in the present invention should be defined based on the meaning of the term and the overall content of the present invention, rather than the name of a simple term.

명세서 전체에서 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있음을 의미한다. 또한, 명세서에 기재된 "...부", "모듈" 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어 또는 소프트웨어로 구현되거나 하드웨어와 소프트웨어의 결합으로 구현될 수 있다.In the entire specification, when a part "includes" a certain component, it means that other components may be further included, rather than excluding other components, unless otherwise stated. In addition, terms such as "...unit" and "module" described in the specification mean a unit that processes at least one function or operation, which may be implemented as hardware or software, or a combination of hardware and software. .

아래에서는 첨부한 도면을 참고하여 실시예들에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.Hereinafter, embodiments will be described in detail with reference to the accompanying drawings so that those of ordinary skill in the art to which the present invention pertains can easily implement them. However, the present invention may be embodied in several different forms and is not limited to the embodiments described herein. And in order to clearly explain the present invention in the drawings, parts irrelevant to the description are omitted, and similar reference numerals are attached to similar parts throughout the specification.

도 1은 일 실시예에 따른, 입력 영상 및 입력 영상의 분할 맵을 나타내는 도면이다.1 is a diagram illustrating an input image and a segmentation map of the input image, according to an exemplary embodiment.

도 1을 참조하면, 객체 인식(recognition) 과정은 주어진 입력 영상(10)에 대해서 입력 영상의 분할 맵(20)을 얻을 수 있다. 객체 인식은 임의의 영상 내에서 객체로 인식된 영역을 기설정된 복수의 부류(class) 중 하나로 인식하는 것을 의미할 수 있다. 객체란 영상 내의 특정한 물체를 의미할 수 있다. 예를 들어, 도 1을 참조하면, 입력 영상(10) 내의 사람, 자전거 등이 객체의 대상이 될 수 있다.Referring to FIG. 1 , an object recognition process may obtain a segmentation map 20 of an input image for a given input image 10 . Object recognition may mean recognizing a region recognized as an object in an arbitrary image as one of a plurality of preset classes. The object may mean a specific object in the image. For example, referring to FIG. 1 , a person, a bicycle, etc. in the input image 10 may be the object.

일 실시예에 따를 때, 객체 인식은 학습(learning)을 통하여 수행할 수 있다. 학습에 의한 객체 인식 방법에 의할 경우, 특정 벡터를 포함하는 학습 집합(learning set)을 이용하여 분류기(classifier)를 학습시킨 후, 특정 벡터를 포함하는 임의의 영상을 학습이 완료된 분류기에 입력하면 분류기는 객체로 인식된 영역을 기설정된 복수의 부류 중 어디에 속하는지 판단하여 해당 부류를 출력할 수 있다.According to an embodiment, object recognition may be performed through learning. According to the object recognition method by learning, after learning a classifier using a learning set including a specific vector, input an arbitrary image including a specific vector into the learned classifier. The classifier may determine to which of a plurality of preset classes an area recognized as an object belongs, and output the corresponding class.

도 2는 일 실시예에 따른, 객체 인식 장치의 구성을 나타내는 도면이다.2 is a diagram illustrating a configuration of an object recognition apparatus according to an embodiment.

도 2를 참조하면, 객체 인식 장치(100)는 입력 영상의 분할 맵을 출력할 수 있다. 일 실시예에 따를 때, 객체 인식 장치(100)는 신경망(network)을 이용할 수 있다. 신경망을 이용한 객체 인식 장치(100)는 학습이 가능하고 일반화 능력이 뛰어나고 병렬 처리가 가능한 특징이 있다. 신경망은 객체 인식, 예측, 평가, 합성 및 제어 등 다양한 분야에 이용될 수 있으며, 한편 객체 인식 장치(100)에 이용되는 신경망은 선형 분류기인 퍼셉트론(perceptron) 및 비선형 분류기인 다층 퍼셉트론(multi-layer perceptron)을 포함할 수 있다.Referring to FIG. 2 , the object recognition apparatus 100 may output a segmentation map of an input image. According to an embodiment, the object recognition apparatus 100 may use a neural network. The object recognition apparatus 100 using a neural network is capable of learning, has excellent generalization ability, and has characteristics that parallel processing is possible. The neural network may be used in various fields such as object recognition, prediction, evaluation, synthesis, and control. Meanwhile, the neural network used in the object recognition apparatus 100 includes a linear classifier perceptron and a non-linear classifier multi-layer perceptron. perceptron) may be included.

도 3은 다른 실시예에 따른, 객체 인식 장치의 구성을 나타내는 도면이다.3 is a diagram illustrating a configuration of an object recognition apparatus according to another exemplary embodiment.

도 3을 참조하면, 객체 인식 장치(100)는 학습부(110) 및 분할 맵 결정부(120)를 포함할 수 있다. 또한, 학습부(110)는 컨볼루션 신경망(convolution network)(130), 디컨볼루션 신경망(deconvolution network)(140) 및 가중치 결정부(150)를 포함할 수 있다.Referring to FIG. 3 , the object recognition apparatus 100 may include a learning unit 110 and a division map determining unit 120 . Also, the learner 110 may include a convolutional network 130 , a deconvolution network 140 , and a weight determiner 150 .

학습부(110)는 원영상과 원영상의 샘플 분할 맵(segmentation map)을 포함하는 복수의 영상 학습 집합(image learning set)으로부터 특징 추출을 하기 위한 컨볼루션 신경망(convolution network)을 이용하여 상기 원영상의 이미지 특징 벡터를 결정하고, 상기 결정된 이미지 특징 벡터로부터 디컨볼루션 신경망(deconvolution network)을 이용하여 상기 원영상의 분할 맵을 결정하고, 상기 샘플 분할 맵 및 상기 결정된 분할 맵을 이용하여 상기 컨볼루션 신경망의 가중치 및 상기 디컨볼루션 신경망의 가중치를 결정할 수 있다.The learning unit 110 uses a convolutional network for feature extraction from a plurality of image learning sets including an original image and a sample segmentation map of the original image. An image feature vector of an image is determined, and a segmentation map of the original image is determined from the determined image feature vector using a deconvolution network, and the convolutional map is determined using the sample segmentation map and the determined segmentation map. The weight of the convolutional neural network and the weight of the deconvolutional neural network may be determined.

컨볼루션 신경망(130)은 원영상과 원영상의 샘플 분할 맵을 포함하는 복수의 영상 학습 집합을 이용하여 원영상의 이미지 특징 벡터를 결정할 수 있다. 일 실시예에 따른 컨볼루션 신경망(130)은 컨볼루션을 수행하여 적어도 하나 이상의 특징 맵을 생성하기 위한 복수의 컨볼루션 층(convolution layer) 및 복수의 컨볼루션 층 사이에서 특징 맵을 다운샘플링(downsampling)을 하기 위한 풀링 층(pooling layer)을 포함할 수 있다. 일 실시예에 따른 풀링 층은 맥스 풀링 층(max pooling layer)일 수 있다.The convolutional neural network 130 may determine the image feature vector of the original image by using a plurality of image learning sets including the original image and the sample segmentation map of the original image. The convolutional neural network 130 according to an embodiment performs convolution and downsampling a feature map between a plurality of convolution layers and a plurality of convolution layers for generating at least one or more feature maps. ) may include a pooling layer for The pooling layer according to an embodiment may be a max pooling layer.

디컨볼루션 신경망(140)은 컨볼루션 신경망에서 결정된 이미지 특징 벡터를 이용하여 원영상의 분할 맵을 결정할 수 있다. 일 실시예에 따른 디컨볼루션 신경망(140)은 디컨볼루션을 수행하여 적어도 하나 이상의 중간(intermediate) 분할 맵을 생성하기 위한 복수의 디컨볼루션 층(deconvolution layer) 및 디컨볼루션 층 사이에서 중간 분할 맵을 업샘플링(upsampling)을 하기 위한 복수의 언풀링 층(unpooling layer)을 포함할 수 있다. 일 실시예에 따른 언풀링 층은 맥스 풀링 층에 대응되는 것일 수 있다.The deconvolutional neural network 140 may determine the segmentation map of the original image by using the image feature vector determined in the convolutional neural network. The deconvolutional neural network 140 according to an embodiment performs deconvolution to perform deconvolution to generate at least one or more intermediate segmentation maps. It may include a plurality of unpooling layers for upsampling the split map. The unpooling layer according to an embodiment may correspond to the max pooling layer.

가중치 결정부(150)는 원영상의 샘플 분할 맵 및 디컨볼루션 신경망에서 결정된 분할 맵을 이용하여 컨볼루션 신경망의 가중치 및 디컨볼루션 신경망의 가중치를 결정할 수 있다. 일 실시예에 따른 컨볼루션 신경망의 가중치는 컨볼루션 층의 컨볼루션 마스크의 계수일 수 있고, 또한 디컨볼루션 신경망의 가중치는 디컨볼루션 층의 디컨볼루션 마스크의 계수일 수 있다. 일 실시예에 따른 가중치 결정부(150)는 원영상에서 하나의 객체만을 추출한 영상 및 추출한 영상의 샘플 분할 맵을 포함하는 영상 학습 집합을 이용할 수 있다.The weight determiner 150 may determine the weight of the convolutional neural network and the weight of the deconvolutional neural network by using the sample segmentation map of the original image and the segmentation map determined from the deconvolutional neural network. The weight of the convolutional neural network according to an embodiment may be a coefficient of a convolution mask of the convolutional layer, and the weight of the deconvolutional network may be a coefficient of a deconvolution mask of the deconvolutional layer. The weight determiner 150 according to an embodiment may use an image learning set including an image obtained by extracting only one object from an original image and a sample segmentation map of the extracted image.

분할 맵 결정부(120)는 가중치 결정부(150)에서 결정된 컨볼루션 신경망의 가중치를 이용하는 컨볼루션 신경망 및 가중치 결정부(150)에서 결정된 디컨볼루션 신경망의 가중치를 이용하는 디컨볼루션의 신경망을 통해 입력 영상으로부터 입력 영상의 분할 맵을 결정할 수 있다.The split map determiner 120 uses the weights of the convolutional neural network determined by the weight determiner 150 and the deconvolutional neural network using the weights of the deconvolutional neural network determined by the weight determiner 150. A segmentation map of the input image may be determined from the input image.

도 4는 일 실시예에 따른, 컨볼루션 신경망의 동작을 설명하기 위해 참조되는 도면이다.4 is a diagram referenced to describe an operation of a convolutional neural network, according to an embodiment.

컨볼루션 신경망(130)은 컨볼루션을 수행하여 적어도 하나 이상의 특징 맵을 생성하기 위한 복수의 컨볼루션 층 및 복수의 컨볼루션 층 사이에서 특징 맵을 다운샘플링을 하기 위한 풀링 층을 포함할 수 있다.The convolutional neural network 130 may include a plurality of convolutional layers for generating at least one or more feature maps by performing convolution, and a pooling layer for downsampling the feature maps between the plurality of convolutional layers.

도 4를 참조하면, 일 실시예에 따른 컨볼루션 신경망(130)은 제1 컨볼루션 층(200), 제2 컨볼루션 층(240) 및 풀링 층(220)을 포함할 수 있다. 제1 컨볼루션 층(200) 및 제2 컨볼루션 층(240)은 각각 컨볼루션을 수행하여 적어도 하나 이상의 특징 맵을 생성하며, 제1 컨볼루션 층(200)과 제2 컨볼루션 층(240) 사이에 풀링 층(220)을 포함할 수 있다. 제1 컨볼루션 층(200) 및 제2 컨볼루션 층(240)의 컨볼루션 마스크의 크기, 컨볼루션 마스크의 계수 등은 각각 상이할 수 있다. 한편, 컨볼루션 신경망(130)은 복수의 컨볼루션 층을 포함하므로 제1 컨볼루션 층(200) 및 제2 컨볼루션 층(240) 이외의 적어도 하나 이상의 컨볼루션 층을 포함할 수 있다.Referring to FIG. 4 , the convolutional neural network 130 according to an embodiment may include a first convolutional layer 200 , a second convolutional layer 240 , and a pooling layer 220 . The first convolutional layer 200 and the second convolutional layer 240 each perform convolution to generate at least one feature map, and the first convolutional layer 200 and the second convolutional layer 240 A pooling layer 220 may be included in between. The size of the convolution mask of the first convolution layer 200 and the second convolution layer 240 and the coefficients of the convolution mask may be different, respectively. Meanwhile, since the convolutional neural network 130 includes a plurality of convolutional layers, it may include at least one or more convolutional layers other than the first convolutional layer 200 and the second convolutional layer 240 .

도 5는 일 실시예에 따른, 컨볼루션 층의 동작을 설명하기 위해 참조되는 도면이다.5 is a diagram referenced to describe an operation of a convolutional layer, according to an embodiment.

일 실시예에 따른 컨볼루션 층은 컨볼루션을 수행하여 적어도 하나 이상의 특징 맵을 생성할 수 있다. 컨볼루션 층은 영상의 다양한 특징 추출을 하기 위하여 입력 영상에 컨볼루션을 수행할 수 있다.The convolution layer according to an embodiment may perform convolution to generate at least one feature map. The convolution layer may perform convolution on the input image in order to extract various features of the image.

도 5를 참조하면, 컨볼루션 층은 입력 영상(202)에 컨볼루션을 수행하여 특징 맵(204)을 생성할 수 있다. 입력 영상(202)은 객체 인식 장치(100)를 학습시키기 위한 원영상, 학습을 마친 후 객체 인식을 위한 임의의 영상, 컨볼루션을 수행하여 얻은 특징 맵 및 풀링 층에서 다운샘플링 된 특징 맵 중 적어도 하나일 수 있다.Referring to FIG. 5 , the convolution layer may perform convolution on an input image 202 to generate a feature map 204 . The input image 202 is at least one of an original image for training the object recognition apparatus 100, an arbitrary image for object recognition after learning, a feature map obtained by performing convolution, and a feature map downsampled from the pooling layer. can be one

도 5를 참조하면, 입력 영상(202)에 대해서 3x3 컨볼루션 마스크(206)를 사용하여 컨볼루션을 수행하면 입력 영상(202)의 해당 영역에 대한 컨볼루션 결과값(208)을 얻을 수 있다. 한편, 일 실시예에 따를 때, 컨볼루션 마스크(206)의 계수는 가중치 결정부(150)에서 결정될 수 있다.Referring to FIG. 5 , if convolution is performed on an input image 202 using a 3x3 convolution mask 206 , a convolution result value 208 for a corresponding region of the input image 202 may be obtained. Meanwhile, according to an embodiment, the coefficients of the convolution mask 206 may be determined by the weight determiner 150 .

도 6은 일 실시예에 따른, 풀링 층의 동작을 설명하기 위해 참조되는 도면이다.6 is a diagram referenced to describe an operation of a pooling layer, according to an embodiment.

일 실시예에 따른 풀링 층(220)은 복수의 컨볼루션 층 사이에서 특징 맵을 다운샘플링을 할 수 있다. 다운샘플링을 통해 영상 패턴의 이동, 회전, 크기 변화 등에 대해서 불변성이 확보될 수 있다.The pooling layer 220 according to an embodiment may downsample the feature map between a plurality of convolutional layers. Invariance can be secured with respect to movement, rotation, and size change of an image pattern through downsampling.

도 6을 참조하면, 풀링 층(220)은 입력 영상(222)에 다운샘플링을 하여 입력 영상(222)의 크기가 줄어든 출력 영상(226)을 생성할 수 있다. 입력 영상(222)은 객체 인식 장치(100)를 학습시키기 위한 원영상, 학습을 마친 후 객체 인식을 위한 임의의 영상 및 컨볼루션을 수행하여 얻은 특징 맵 중 적어도 하나일 수 있다.Referring to FIG. 6 , the pooling layer 220 may generate an output image 226 in which the size of the input image 222 is reduced by downsampling the input image 222 . The input image 222 may be at least one of an original image for learning the object recognition apparatus 100 , an arbitrary image for object recognition after learning is completed, and a feature map obtained by performing convolution.

일 실시예에 따를 때, 다운샘플링은 맥스 풀링(max pooling)을 사용할 수 있으나, 이에 제한되지 않는다. 맥스 풀링은 각 부분 영역에 대해 최대 값을 가지는 샘플만을 취하고 그 외의 샘플은 제거하는 방법을 통해 영상의 크기를 줄일 수 있다.According to an embodiment, the downsampling may use max pooling, but is not limited thereto. Max pooling can reduce the size of an image by taking only the sample having the maximum value for each partial region and removing other samples.

도 6을 참조하면, 풀링 층(220)은 입력 영상(222)에 대해서 2x2 맥스 풀링 마스크(232)를 사용하여 다운샘플링을 하면 입력 영상(222)의 해당 영역에 대한 풀링 결과값(236)을 얻을 수 있다. 또한, 스위치 변수 맵(switch variables map)(224)은 맥스 풀링 마스크(232)를 저장할 수 있는데, 이는 풀링 층(220)에서 수행한 맥스 풀링 마스크(232)에 대응되는 언풀링 마스크를 디컨볼루션 신경망의 언풀링 층에서 사용하기 위함이다.Referring to FIG. 6 , when the pooling layer 220 performs downsampling using the 2x2 max pooling mask 232 on the input image 222, the pooling result value 236 for the corresponding region of the input image 222 is obtained. can be obtained In addition, the switch variables map 224 may store a max pooling mask 232 , which is a deconvolution of an unpooling mask corresponding to the max pooling mask 232 performed in the pooling layer 220 . It is intended to be used in the unpooling layer of neural networks.

도 7은 일 실시예에 따른, 디컨볼루션 신경망의 동작을 설명하기 위해 참조되는 도면이다.7 is a diagram referenced to describe an operation of a deconvolutional neural network, according to an embodiment.

디컨볼루션 신경망(140)은 디컨볼루션을 수행하여 적어도 하나 이상의 중간 분할 맵을 생성하기 위한 복수의 디컨볼루션 층 및 상기 디컨볼루션 층 사이에서 상기 중간 분할 맵을 업샘플링을 하기 위한 복수의 언풀링 층을 포함할 수 있다.The deconvolutional neural network 140 performs deconvolution to generate a plurality of deconvolutional layers for generating at least one or more intermediate partitioned maps, and a plurality of deconvolutional layers for upsampling the intermediate partitioned map between the deconvolutional layers. It may include an unpooling layer.

도 7을 참조하면, 일 실시예에 따른 디컨볼루션 신경망(140)은 제1 디컨볼루션 층(300), 제2 디컨볼루션 층(340) 및 언풀링 층(320)을 포함할 수 있다. 제1 디컨볼루션 층(300) 및 제2 디컨볼루션 층(340)은 각각 디컨볼루션을 수행하여 적어도 하나 이상의 중간 분할 맵을 생성하며, 제1 디컨볼루션 층(300)과 제2 디컨볼루션 층(340) 사이에 언풀링 층(320)을 포함할 수 있다. 제1 디컨볼루션 층(300) 및 제2 디컨볼루션 층(340)의 디컨볼루션 마스크의 크기, 디컨볼루션 마스크의 계수 등은 각각 상이할 수 있다. 한편, 디컨볼루션 신경망(140)은 복수의 디컨볼루션 층을 포함하므로 제1 디컨볼루션 층(300) 및 제2 디컨볼루션 층(340) 이외의 적어도 하나 이상의 디컨볼루션 층을 포함할 수 있다.Referring to FIG. 7 , the deconvolutional neural network 140 according to an embodiment may include a first deconvolution layer 300 , a second deconvolution layer 340 , and an unpooling layer 320 . . Each of the first deconvolution layer 300 and the second deconvolution layer 340 performs deconvolution to generate at least one or more intermediate segmentation maps, and the first deconvolution layer 300 and the second deconvolution layer 340 perform deconvolution. An unpooling layer 320 may be included between the convolution layers 340 . The size of the deconvolution mask of the first deconvolution layer 300 and the second deconvolution layer 340 and the coefficient of the deconvolution mask may be different from each other. On the other hand, since the deconvolutional neural network 140 includes a plurality of deconvolution layers, it may include at least one or more deconvolution layers other than the first deconvolution layer 300 and the second deconvolution layer 340 . can

도 8은 일 실시예에 따른, 디컨볼루션 층의 동작을 설명하기 위해 참조되는 도면이다.8 is a diagram referenced to describe an operation of a deconvolution layer, according to an embodiment.

일 실시예에 따른 디컨볼루션 층은 디컨볼루션을 수행하여 적어도 하나 이상의 중간 분할 맵을 생성할 수 있다. 디컨볼루션 층은 다양한 중간 분할 맵 추출을 하기 위하여 입력 영상에 디컨볼루션을 수행할 수 있다.The deconvolution layer according to an embodiment may perform deconvolution to generate at least one or more intermediate segmentation maps. The deconvolution layer may perform deconvolution on the input image in order to extract various intermediate split maps.

도 8을 참조하면, 디컨볼루션 층은 입력 영상(302)에 디컨볼루션을 수행하여 중간 분할 맵(304)을 생성할 수 있다. 입력 영상(302)은 컨볼루션 신경망에서 얻은 이미지 특징 벡터, 디컨볼루션을 수행하여 얻은 중간 분할 맵 및 언풀링 층에서 업샘플링 된 중간 분할 맵일 수 있다.Referring to FIG. 8 , the deconvolution layer may perform deconvolution on an input image 302 to generate an intermediate segmentation map 304 . The input image 302 may be an image feature vector obtained from a convolutional neural network, an intermediate segmentation map obtained by performing deconvolution, and an intermediate segmentation map upsampled from an unpooling layer.

도 8을 참조하면, 입력 영상(302)에 대해서 3x3 디컨볼루션 마스크(306)를 사용하여 디컨볼루션을 수행하면 입력 영상(302)의 해당 영역에 대한 디컨볼루션 결과값(308)을 얻을 수 있다. 한편, 일 실시예에 따를 때, 디컨볼루션 마스크(306)의 계수는 가중치 결정부(150)에서 결정될 수 있다.Referring to FIG. 8 , if deconvolution is performed on the input image 302 using a 3x3 deconvolution mask 306 , a deconvolution result value 308 for the corresponding region of the input image 302 is obtained. can Meanwhile, according to an embodiment, the coefficients of the deconvolution mask 306 may be determined by the weight determiner 150 .

도 9는 일 실시예에 따른, 언풀링 층의 동작을 설명하기 위해 참조되는 도면이다.9 is a diagram referenced to describe an operation of an unpooling layer, according to an embodiment.

일 실시예에 따른 언풀링 층(320)은 복수의 디컨볼루션 층 사이에서 중간 분할 맵을 업샘플링을 할 수 있다. 언풀링 층(320)은 중간 분할 맵으로부터 원영상의 크기를 가지는 분할 맵을 생성하기 위하여 업샘플링을 수행할 수 있다. 언풀링 층(320)은 풀링 층(220)에 대응되는 것을 특징으로 할 수 있으나, 이에 제한되지 않는다.The unpooling layer 320 according to an embodiment may up-sample an intermediate segmentation map between a plurality of deconvolutional layers. The unpooling layer 320 may perform upsampling to generate a segmentation map having the size of the original image from the intermediate segmentation map. The unpooling layer 320 may be characterized as corresponding to the pooling layer 220 , but is not limited thereto.

도 9를 참조하면, 언풀링 층(320)은 입력 영상(326)에 업샘플링을 수행하여 입력 영상(326) 크기 보다 증가한 크기의 출력 영상(322)을 생성할 수 있다. 입력 영상(326)은 컨볼루션 신경망에서 얻은 이미지 특징 벡터, 디컨볼루션을 수행하여 얻은 중간 분할 맵 및 언풀링 층에서 업샘플링 된 중간 분할 맵일 수 있다.Referring to FIG. 9 , the unpooling layer 320 may perform upsampling on the input image 326 to generate an output image 322 having a size larger than that of the input image 326 . The input image 326 may be an image feature vector obtained from a convolutional neural network, an intermediate segmentation map obtained by performing deconvolution, and an intermediate segmentation map upsampled from an unpooling layer.

일 실시예에 따를 때, 풀링 층(220)은 맥스 풀링을 사용할 수 있으며 언풀링 층(320)은 맥스 풀링에 대응되는 것을 사용할 수 있으나, 이에 제한되지 않는다.According to an embodiment, the pooling layer 220 may use max pulling and the unpooling layer 320 may use a corresponding max pooling, but is not limited thereto.

도 9를 참조하면, 언풀링 층(320)은 도 6의 2x2 맥스 풀링 마스크(232)에 대응되는 언풀링 마스크(336)을 사용할 수 있고, 또한 도 6의 스위치 변수 맵(224)에 대응되는 스위치 변수 맵(324)을 사용할 수 있다. 일 실시예에 따를 때, 도 6의 스위치 변수 맵(224)과 도 9의 스위치 변수 맵(324)는 동일할 수 있다. 도 9를 참조하면, 언풀링 층(320)은 입력 영상(326)에 대해서 2x2 맥스 언풀링 마스크(336)를 사용하여 업샘플링을 하면 입력 영상(326)의 해당 영역에 대한 언풀링 결과값(332)을 얻을 수 있다.Referring to FIG. 9 , the unpooling layer 320 may use an unpooling mask 336 corresponding to the 2x2 max pooling mask 232 of FIG. 6 , and also corresponding to the switch variable map 224 of FIG. 6 . A switch variable map 324 may be used. According to an embodiment, the switch variable map 224 of FIG. 6 and the switch variable map 324 of FIG. 9 may be the same. Referring to FIG. 9 , when the unpooling layer 320 performs upsampling using the 2x2 max unpooling mask 336 on the input image 326 , the unpooling result value ( 332) can be obtained.

도 3을 참조하면, 가중치 결정부(150)는 원영상의 샘플 분할 맵 및 디컨볼루션 신경망에서 결정된 분할 맵을 이용하여 컨볼루션 신경망의 가중치 및 디컨볼루션 신경망의 가중치를 결정할 수 있다. 일 실시예에 따른 컨볼루션 신경망의 가중치는 컨볼루션 층의 컨볼루션 마스크의 계수일 수 있고, 또한 디컨볼루션 신경망의 가중치는 디컨볼루션 층의 디컨볼루션 마스크의 계수일 수 있다. 일 실시예에 따른 가중치 결정부(150)는 원영상에서 하나의 객체만을 추출한 영상 및 추출한 영상의 샘플 분할 맵을 포함하는 영상 학습 집합을 이용할 수 있다.Referring to FIG. 3 , the weight determiner 150 may determine the weight of the convolutional neural network and the weight of the deconvolutional network by using the sample segmentation map of the original image and the segmentation map determined from the deconvolutional neural network. The weight of the convolutional neural network according to an embodiment may be a coefficient of a convolution mask of the convolutional layer, and the weight of the deconvolutional network may be a coefficient of a deconvolution mask of the deconvolutional layer. The weight determiner 150 according to an embodiment may use an image learning set including an image obtained by extracting only one object from an original image and a sample segmentation map of the extracted image.

일 실시예에 따를 때, 가중치 결정부(150)는 원영상의 샘플 분할 맵과 디컨볼루션 신경망에서 결정된 분할 맵의 차이를 최소화할 수 있는 컨볼루션 신경망의 가중치 및 디컨볼루션 신경망의 가중치를 결정할 수 있다. 예를 들어, 가중치 결정부(150)는 내리막 경사법(gradient descent)을 이용하여 컨볼루션 신경망의 가중치 및 디컨볼루션 신경망의 가중치를 결정할 수 있다. 또한, 가중치 결정부(150)는 나쁜 국소 최적해(poor local optimum)를 방지하기 위해 배치 정규화법(batch normalization)을 이용할 수 있다.According to an embodiment, the weight determiner 150 determines the weight of the convolutional neural network and the weight of the deconvolutional neural network that can minimize the difference between the sample segmentation map of the original image and the segmentation map determined in the deconvolutional neural network. can For example, the weight determiner 150 may determine the weight of the convolutional neural network and the weight of the deconvolutional neural network by using a gradient descent method. Also, the weight determiner 150 may use a batch normalization method to prevent a poor local optimum.

일 실시예에 따를 때, 가중치 결정부(150)는 2단계 학습 방법(two-stage training strategy)을 사용할 수 있다. 2단계 학습 방법은 우선 쉬운 영상 학습 집합을 이용하여 컨볼루션 신경망의 가중치 및 디컨볼루션 신경망의 가중치를 결정하고, 그 다음 원영상의 영상 학습 집합을 이용하여 최종 컨볼루션 신경망의 가중치 및 최종 디컨볼루션 신경망의 가중치를 결정하는 방법을 의미한다. 여기서 쉬운 영상 학습 집합이란 원영상에서 하나의 객체만을 추출한 영상 및 추출한 영상의 샘플 분할 맵을 포함하는 것을 의미할 수 있다.According to an embodiment, the weight determiner 150 may use a two-stage training strategy. The two-step learning method first determines the weight of the convolutional neural network and the weight of the deconvolutional network using an easy image learning set, and then uses the image learning set of the original image to determine the weight of the final convolutional neural network and the final deconvolution. It refers to a method for determining the weights of a neural network. Here, the easy image learning set may mean including an image obtained by extracting only one object from the original image and a sample segmentation map of the extracted image.

도 10은 일 실시예에 따른, 분할 맵 결정부의 동작을 설명하기 위해 참조되는 도면이다.10 is a diagram referenced to describe an operation of a division map determiner according to an embodiment.

분할 맵 결정부(120)는 가중치 결정부(150)에서 결정된 컨볼루션 신경망의 가중치를 이용하는 컨볼루션 신경망 및 가중치 결정부(150)에서 결정된 디컨볼루션 신경망의 가중치를 이용하는 디컨볼루션의 신경망을 통해 입력 영상으로부터 입력 영상의 분할 맵을 결정할 수 있다.The split map determiner 120 uses the weights of the convolutional neural network determined by the weight determiner 150 and the deconvolutional neural network using the weights of the deconvolutional neural network determined by the weight determiner 150. A segmentation map of the input image may be determined from the input image.

분할 맵 결정부(120)는 도 4 내지 도 6에서 설명한 컨볼루션 신경망의 동작을 동일하게 수행할 수 있다. 또한, 분할 맵 결정부(120)는 도 7 내지 도 9에서 설명한 디컨볼루션 신경망의 동작을 동일하게 수행할 수 있다.The split map determiner 120 may perform the same operation of the convolutional neural network described with reference to FIGS. 4 to 6 . Also, the split map determiner 120 may perform the same operation of the deconvolutional neural network described with reference to FIGS. 7 to 9 .

도 10을 참조하면, 일 실시예에 따른 입력 영상은 224x224 크기를 가지고 출력 영상은 입력 영상과 같은 224x224 크기를 가진다. 컨볼루션 신경망은 컨볼루션을 수행하여 적어도 하나 이상의 특징 맵을 생성하기 위한 복수의 컨볼루션 층 및 컨볼루션 층 사이에서 특징 맵을 다운샘플링을 하기 위한 풀링 층을 포함할 수 있고, 디컨볼루션 신경망은 디컨볼루션을 수행하여 적어도 하나 이상의 중간 분할 맵을 생성하기 위한 복수의 디컨볼루션 층 및 디컨볼루션 층 사이에서 중간 분할 맵을 업샘플링을 하기 위한 복수의 언풀링 층을 포함할 수 있다. 컨볼루션 신경망은 가중치 결정부(150)에서 결정된 컨볼루션 신경망의 가중치를 사용하고, 또한 디컨볼루션 신경망은 가중치 결정부(150)에서 결정된 디컨볼루션 신경망의 가중치를 각각 사용한다. 도 10을 참조하면, 풀링 층은 2x2 맥스 풀링 마스크를 사용한다.Referring to FIG. 10 , an input image according to an exemplary embodiment has a size of 224x224 and an output image has the same size as an input image. The convolutional neural network may include a plurality of convolutional layers for generating at least one or more feature maps by performing convolution, and a pooling layer for downsampling the feature maps between the convolutional layers, wherein the deconvolutional neural network comprises: It may include a plurality of deconvolution layers for generating at least one or more intermediate partitioning maps by performing deconvolution, and a plurality of unpooling layers for upsampling the intermediate partitioning map between the deconvolution layers. The convolutional neural network uses the weights of the convolutional neural network determined by the weight determiner 150 , and the deconvolutional neural network uses the weights of the deconvolutional network determined by the weight determiner 150 , respectively. Referring to Figure 10, the pulling layer uses a 2x2 max pulling mask.

분할 맵 결정부(120)는, 학습이 완료되어 컨볼루션 신경망의 가중치 및 디컨볼루션 신경망의 가중치가 결정되었기 때문에, 입력 영상에 대해서 전방 계산 한번으로 분할 맵을 생성할 수 있다.Since the learning is completed and the weight of the convolutional neural network and the weight of the deconvolutional network are determined, the split map determiner 120 may generate the split map by performing one forward calculation for the input image.

도 11은 일 실시예에 따른, 객체 인식 방법의 흐름도이다.11 is a flowchart of a method for recognizing an object, according to an embodiment.

단계 S100에서 원영상과 원영상의 샘플 분할 맵을 포함하는 복수의 영상 학습 집합으로부터 특징 추출을 하기 위한 컨볼루션 신경망을 이용하여 원영상의 이미지 특징 벡터를 결정할 수 있다.In step S100, the image feature vector of the original image may be determined using a convolutional neural network for feature extraction from a plurality of image learning sets including the original image and the sample segmentation map of the original image.

단계 S110에서 단계 S100에서 결정된 이미지 특징 벡터로부터 디컨볼루션 신경망을 이용하여 원영상의 분할 맵을 결정할 수 있다.In step S110, a segmentation map of the original image may be determined from the image feature vector determined in step S100 by using a deconvolutional neural network.

단계 S120에서 원영상의 샘플 분할 맵 및 단계 S110에서 결정된 분할 맵을 이용하여 컨볼루션 신경망의 가중치 및 디컨볼루션 신경망의 가중치를 결정할 수 있다.The weight of the convolutional neural network and the weight of the deconvolutional network may be determined using the sample segmentation map of the original image in step S120 and the segmentation map determined in step S110.

단계 S130에서 단계 S120에서 결정된 컨볼루션 신경망의 가중치를 이용하는 컨볼루션 신경망 및 단계 S120에서 결정된 디컨볼루션 신경망의 가중치를 이용하는 디컨볼루션의 신경망을 통해 입력 영상으로부터 입력 영상의 분할 맵을 결정할 수 있다.In step S130, a segmentation map of the input image may be determined from the input image through the convolutional neural network using the weight of the convolutional neural network determined in step S120 and the deconvolutional neural network using the weight of the deconvolutional neural network determined in step S120.

도 12는 일 실시예에 따른, 영상 확대 장치의 구성을 나타내는 도면이다.12 is a diagram illustrating a configuration of an image magnifying apparatus according to an exemplary embodiment.

도 12를 참조하면, 영상 확대 장치(500)는 입력 영상의 고해상도 영상을 출력할 수 있다. 일 실시예에 따를 때, 영상 확대 장치(500)는 신경망(network)을 이용할 수 있다. 신경망을 이용한 영상 확대 장치(500)는 학습이 가능하고 일반화 능력이 뛰어나고 병렬 처리가 가능한 특징이 있다. 신경망은 객체 인식, 예측, 평가, 합성 및 제어 등 다양한 분야에 이용될 수 있으며, 한편 영상 확대 장치(500)에 이용되는 신경망은 선형 분류기인 퍼셉트론(perceptron) 및 비선형 분류기인 다층 퍼셉트론(multi-layer perceptron)을 포함할 수 있다.Referring to FIG. 12 , the image enlargement apparatus 500 may output a high-resolution image of an input image. According to an embodiment, the image enlargement apparatus 500 may use a neural network. The image magnification apparatus 500 using a neural network is capable of learning, has excellent generalization ability, and has characteristics that parallel processing is possible. The neural network may be used in various fields such as object recognition, prediction, evaluation, synthesis, and control, and on the other hand, the neural network used in the image enlargement apparatus 500 includes a linear classifier perceptron and a non-linear classifier multi-layer perceptron (multi-layer). perceptron) may be included.

일 실시예에 따를 때, 영상 확대 장치(500)는 학습부 및 고해상도 영상 결정부를 포함할 수 있다. 또한, 학습부는 컨볼루션 신경망, 디컨볼루션 신경망 및 가중치 결정부를 포함할 수 있다.According to an embodiment, the image enlargement apparatus 500 may include a learning unit and a high-resolution image determining unit. Also, the learning unit may include a convolutional neural network, a deconvolutional neural network, and a weight determiner.

학습부는 원영상과 원영상의 샘플 고해상도 영상(superresolution image)을 포함하는 복수의 영상 학습 집합(image learning set)으로부터 특징 추출을 하기 위한 컨볼루션 신경망(convolution network)을 이용하여 원영상의 이미지 특징 벡터를 결정하고, 결정된 이미지 특징 벡터 및 디컨볼루션 신경망(deconvolution network)을 이용하여 원영상의 고해상도 영상을 결정하고, 샘플 고해상도 영상 및 결정된 고해상도 영상을 이용하여 컨볼루션 신경망의 가중치 및 상기 디컨볼루션 신경망의 가중치를 결정할 수 있다.The learning unit uses a convolutional neural network for feature extraction from a plurality of image learning sets including an original image and a sample superresolution image of the original image to obtain an image feature vector of the original image. determines the high-resolution image of the original image using the determined image feature vector and the deconvolution network, and uses the sample high-resolution image and the determined high-resolution image to determine the weight of the convolutional neural network and the deconvolutional network weight can be determined.

고해상도 영상 결정부는 결정된 컨볼루션 신경망의 가중치를 이용하는 컨볼루션 신경망 및 상기 결정된 디컨볼루션 신경망의 가중치를 이용하는 디컨볼루션의 신경망을 통해 입력 영상으로부터 입력 영상의 고해상도 영상을 결정할 수 있다.The high-resolution image determiner may determine a high-resolution image of the input image from the input image through a convolutional neural network using the determined weight of the convolutional neural network and a deconvolutional neural network using the determined weight of the deconvolutional neural network.

일 실시예에 따른 영상 표시 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다.The image display method according to an embodiment may be implemented in the form of a program command that can be executed through various computer means and recorded in a computer-readable medium. The computer-readable medium may include program instructions, data files, data structures, etc. alone or in combination. The program instructions recorded on the medium may be specially designed and configured for the present invention, or may be known and available to those skilled in the art of computer software. Examples of the computer-readable recording medium include magnetic media such as hard disks, floppy disks and magnetic tapes, optical media such as CD-ROMs and DVDs, and magnetic such as floppy disks. - includes magneto-optical media, and hardware devices specially configured to store and execute program instructions, such as ROM, RAM, flash memory, and the like. Examples of program instructions include not only machine language codes such as those generated by a compiler, but also high-level language codes that can be executed by a computer using an interpreter or the like.

이상에서 실시예들에 대하여 상세하게 설명하였지만 본 발명의 권리범위는 이에 한정되는 것은 아니고 다음의 청구범위에서 정의하고 있는 본 발명의 기본 개념을 이용한 당업자의 여러 변형 및 개량 형태 또한 본 발명의 권리범위에 속한다.Although the embodiments have been described in detail above, the scope of the present invention is not limited thereto, and various modifications and improvements by those skilled in the art using the basic concept of the present invention as defined in the following claims are also included in the scope of the present invention. belongs to

100 : 객체 인식 장치
110 : 학습부
120 : 분할 맵 결정부
130 : 컨볼루션 신경망
140 : 디컨볼루션 신경망
150 : 가중치 결정부
100: object recognition device
110: study department
120: division map determining unit
130: convolutional neural network
140: deconvolutional neural network
150: weight determining unit

Claims (14)

원영상과 상기 원영상의 샘플 분할 맵(segmentation map)을 포함하는 복수의 영상 학습 집합(image learning set)으로부터 특징을 추출하기 위한 컨볼루션 신경망(convolution network)을 이용하여 상기 원영상으로부터 상기 원영상의 이미지 특징 벡터를 결정하고, 상기 결정된 이미지 특징 벡터로부터 디컨볼루션 신경망(deconvolution network)을 이용하여 상기 원영상의 제1분할 맵을 결정하고, 상기 샘플 분할 맵 및 상기 결정된 제1분할 맵에 기초하여 상기 컨볼루션 신경망의 가중치 및 상기 디컨볼루션 신경망의 가중치를 결정하는 학습부; 및
상기 학습부에서 결정된 컨볼루션 신경망의 가중치를 이용하는 컨볼루션 신경망 및 상기 학습부에서 결정된 디컨볼루션 신경망의 가중치를 이용하는 디컨볼루션의 신경망을 통해 입력 영상으로부터 상기 입력 영상의 제2분할 맵을 결정하는 분할 맵 결정부;
를 포함하는, 객체 인식(recognition) 장치.
The original image from the original image by using a convolutional network for extracting features from a plurality of image learning sets including the original image and a sample segmentation map of the original image determine an image feature vector of , and determine a first segmentation map of the original image using a deconvolution network from the determined image feature vector, and based on the sample segmentation map and the determined first segmentation map a learning unit for determining a weight of the convolutional neural network and a weight of the deconvolutional neural network; and
The second segmentation map of the input image is determined from the input image through the convolutional neural network using the weight of the convolutional neural network determined by the learning unit and the deconvolutional neural network using the weight of the deconvolutional neural network determined by the learning unit division map determination unit;
Including, object recognition (recognition) device.
제1항에 있어서,
상기 컨볼루션 신경망은,
컨볼루션을 수행하여 적어도 하나의 특징 맵을 생성하기 위한 복수의 컨볼루션 층(convolution layer) 및 상기 복수의 컨볼루션 층 사이에서 상기 적어도 하나의 특징 맵을 다운샘플링(downsampling)을 하기 위한 풀링 층(pooling layer)을 포함하고,
상기 디컨볼루션 신경망은,
디컨볼루션을 수행하여 적어도 하나의 중간(intermediate) 분할 맵을 생성하기 위한 복수의 디컨볼루션 층(deconvolution layer) 및 상기 복수의 디컨볼루션 층 사이에서 상기 적어도 하나의 중간 분할 맵을 업샘플링(upsampling)을 하기 위한 언풀링 층(unpooling layer)을 포함하는, 객체 인식 장치.
According to claim 1,
The convolutional neural network is
A plurality of convolution layers for generating at least one feature map by performing convolution, and a pooling layer for downsampling the at least one feature map between the plurality of convolution layers ( pooling layer),
The deconvolutional neural network is
Upsampling the at least one intermediate segmentation map between a plurality of deconvolution layers and the plurality of deconvolution layers for performing deconvolution to generate at least one intermediate segmentation map ( An object recognition device comprising an unpooling layer for upsampling.
제2항에 있어서,
상기 컨볼루션 신경망의 가중치는,
상기 복수의 컨볼루션 층의 컨볼루션 마스크의 계수인 것을 특징으로 하고,
상기 디컨볼루션 신경망의 가중치는,
상기 복수의 디컨볼루션 층의 디컨볼루션 마스크의 계수인 것을 특징으로 하는, 객체 인식 장치.
3. The method of claim 2,
The weight of the convolutional neural network is,
It is characterized in that it is the coefficient of the convolution mask of the plurality of convolution layers,
The weight of the deconvolutional neural network is,
The object recognition apparatus, characterized in that the coefficients of the deconvolution masks of the plurality of deconvolution layers.
제2항에 있어서,
상기 풀링 층은,
맥스 풀링 층(max pooling layer)인 것을 특징으로 하는, 객체 인식 장치.
3. The method of claim 2,
The pooling layer is
An object recognition device, characterized in that it is a max pooling layer.
제4항에 있어서,
상기 언풀링 층은,
상기 맥스 풀링 층에 대응되는 것을 특징으로 하는, 객체 인식 장치.
5. The method of claim 4,
The unpooling layer is
An object recognition device, characterized in that it corresponds to the max pooling layer.
제1항에 있어서,
상기 복수의 영상 학습 집합은,
상기 원영상에서 하나의 객체만을 추출한 영상 및 상기 추출한 영상의 샘플 분할 맵을 포함하는, 객체 인식 장치.
According to claim 1,
The plurality of video learning sets,
An object recognition apparatus comprising an image obtained by extracting only one object from the original image and a sample segmentation map of the extracted image.
원영상과 상기 원영상의 샘플 분할 맵(segmentation map)을 포함하는 복수의 영상 학습 집합(image learning set)으로부터 특징을 추출하기 위한 컨볼루션 신경망(convolution network)을 이용하여 상기 원영상으로부터 상기 원영상의 이미지 특징 벡터를 결정하는 단계;
상기 결정된 이미지 특징 벡터로부터 디컨볼루션 신경망(deconvolution network)을 이용하여 상기 원영상의 제1분할 맵을 결정하는 단계;
상기 샘플 분할 맵 및 상기 결정된 제1분할 맵에 기초하여 상기 컨볼루션 신경망의 가중치 및 상기 디컨볼루션 신경망의 가중치를 결정하는 단계; 및
상기 결정된 컨볼루션 신경망의 가중치를 이용하는 컨볼루션 신경망 및 상기 결정된 디컨볼루션 신경망의 가중치를 이용하는 디컨볼루션의 신경망을 통해 입력 영상으로부터 상기 입력 영상의 제2분할 맵을 결정하는 단계;
를 포함하는, 객체 인식 방법.
The original image from the original image by using a convolutional network for extracting features from a plurality of image learning sets including the original image and a sample segmentation map of the original image determining an image feature vector of ;
determining a first segmentation map of the original image from the determined image feature vector using a deconvolution network;
determining a weight of the convolutional neural network and a weight of the deconvolutional neural network based on the sample partitioning map and the determined first partitioning map; and
determining a second segmentation map of the input image from the input image through a convolutional neural network using the determined weight of the convolutional neural network and a deconvolutional neural network using the determined weight of the deconvolutional neural network;
Including, object recognition method.
제7항에 있어서,
상기 컨볼루션 신경망은,
컨볼루션을 수행하여 적어도 하나의 특징 맵을 생성하기 위한 복수의 컨볼루션 층(convolution layer) 및 상기 복수의 컨볼루션 층 사이에서 상기 적어도 하나의 특징 맵을 다운샘플링(downsampling)을 하기 위한 풀링 층(pooling layer)을 포함하고,
상기 디컨볼루션 신경망은,
디컨볼루션을 수행하여 적어도 하나의 중간(intermediate) 분할 맵을 생성하기 위한 복수의 디컨볼루션 층(deconvolution layer) 및 상기 복수의 디컨볼루션 층 사이에서 상기 적어도 하나의 중간 분할 맵을 업샘플링(upsampling)을 하기 위한 언풀링 층(unpooling layer)을 포함하는, 객체 인식 방법.
8. The method of claim 7,
The convolutional neural network is
A plurality of convolution layers for generating at least one feature map by performing convolution, and a pooling layer for downsampling the at least one feature map between the plurality of convolution layers ( pooling layer),
The deconvolutional neural network is
Upsampling the at least one intermediate segmentation map between a plurality of deconvolution layers and the plurality of deconvolution layers for performing deconvolution to generate at least one intermediate segmentation map ( An object recognition method comprising an unpooling layer for upsampling.
제8항에 있어서,
상기 컨볼루션 신경망의 가중치는,
상기 복수의 컨볼루션 층의 컨볼루션 마스크의 계수인 것을 특징으로 하고,
상기 디컨볼루션 신경망의 가중치는,
상기 복수의 디컨볼루션 층의 디컨볼루션 마스크의 계수인 것을 특징으로 하는, 객체 인식 방법.
9. The method of claim 8,
The weight of the convolutional neural network is,
It is characterized in that it is the coefficient of the convolution mask of the plurality of convolution layers,
The weight of the deconvolutional neural network is,
An object recognition method, characterized in that it is a coefficient of a deconvolution mask of the plurality of deconvolution layers.
◈청구항 10은(는) 설정등록료 납부시 포기되었습니다.◈◈Claim 10 was abandoned when paying the registration fee.◈ 제8항에 있어서,
상기 풀링 층은,
맥스 풀링 층(max pooling layer)인 것을 특징으로 하는, 객체 인식 방법.
9. The method of claim 8,
The pooling layer is
An object recognition method, characterized in that it is a max pooling layer.
◈청구항 11은(는) 설정등록료 납부시 포기되었습니다.◈◈Claim 11 was abandoned when paying the registration fee.◈ 제10항에 있어서,
상기 언풀링 층은,
상기 맥스 풀링 층에 대응되는 것을 특징으로 하는, 객체 인식 방법.
11. The method of claim 10,
The unpooling layer is
An object recognition method, characterized in that it corresponds to the max pooling layer.
◈청구항 12은(는) 설정등록료 납부시 포기되었습니다.◈◈Claim 12 was abandoned when paying the registration fee.◈ 제7항에 있어서,
상기 복수의 영상 학습 집합은,
상기 원영상에서 하나의 객체만을 추출한 영상 및 상기 추출한 영상의 샘플 분할 맵을 포함하는, 객체 인식 방법.
8. The method of claim 7,
The plurality of video learning sets,
An image obtained by extracting only one object from the original image and a sample segmentation map of the extracted image, the object recognition method.
원영상과 상기 원영상의 샘플 고해상도 영상(superresolution image)을 포함하는 복수의 영상 학습 집합(image learning set)으로부터 특징을 추출하기 위한 컨볼루션 신경망(convolution network)을 이용하여 상기 원영상으로부터 상기 원영상의 이미지 특징 벡터를 결정하고, 상기 결정된 이미지 특징 벡터로부터 디컨볼루션 신경망(deconvolution network)을 이용하여 상기 원영상의 고해상도 영상을 결정하고, 상기 샘플 고해상도 영상 및 상기 결정된 고해상도 영상에 기초하여 상기 컨볼루션 신경망의 가중치 및 상기 디컨볼루션 신경망의 가중치를 결정하는 학습부; 및
상기 학습부에서 결정된 컨볼루션 신경망의 가중치를 이용하는 컨볼루션 신경망 및 상기 학습부에서 결정된 디컨볼루션 신경망의 가중치를 이용하는 디컨볼루션의 신경망을 통해 입력 영상으로부터 상기 입력 영상의 고해상도 영상을 결정하는 고해상도 영상 결정부;
를 포함하는, 영상 확대 장치.
The original image from the original image using a convolutional network for extracting features from a plurality of image learning sets including an original image and a sample superresolution image of the original image determines an image feature vector of , and determines a high-resolution image of the original image from the determined image feature vector using a deconvolution network, and the convolution based on the sample high-resolution image and the determined high-resolution image a learning unit that determines a weight of the neural network and a weight of the deconvolutional neural network; and
A high-resolution image for determining a high-resolution image of the input image from an input image through a convolutional neural network using the weight of the convolutional neural network determined by the learning unit and a deconvolutional neural network using the weight of the deconvolutional neural network determined by the learning unit decision part;
Including, an image magnifying device.
◈청구항 14은(는) 설정등록료 납부시 포기되었습니다.◈◈Claim 14 was abandoned when paying the registration fee.◈ 제7항 내지 제12항 중에서 어느 한 항의 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.
A computer-readable recording medium in which a program for executing the method of any one of claims 7 to 12 on a computer is recorded.
KR1020150162837A 2015-05-08 2015-11-19 Recognition apparatus and method Active KR102450971B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US15/147,665 US9940539B2 (en) 2015-05-08 2016-05-05 Object recognition apparatus and method

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US201562158689P 2015-05-08 2015-05-08
US62/158,689 2015-05-08

Publications (2)

Publication Number Publication Date
KR20160131848A KR20160131848A (en) 2016-11-16
KR102450971B1 true KR102450971B1 (en) 2022-10-05

Family

ID=57540790

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020150162837A Active KR102450971B1 (en) 2015-05-08 2015-11-19 Recognition apparatus and method

Country Status (1)

Country Link
KR (1) KR102450971B1 (en)

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102085334B1 (en) * 2017-01-19 2020-03-05 서울대학교산학협력단 Apparatus and method for recognizing turned object
WO2019009447A1 (en) * 2017-07-06 2019-01-10 삼성전자 주식회사 Method for encoding/decoding image and device therefor
EP3567857B1 (en) 2017-07-06 2025-04-02 Samsung Electronics Co., Ltd. Method for encoding/decoding image and device therefor
US10986356B2 (en) 2017-07-06 2021-04-20 Samsung Electronics Co., Ltd. Method for encoding/decoding image and device therefor
KR102425578B1 (en) * 2017-08-08 2022-07-26 삼성전자주식회사 Method and apparatus for recognizing an object
KR102353405B1 (en) * 2017-09-19 2022-01-19 삼성전자주식회사 Pre-processing system, apparatus and method of characteristic data and memory control system using the same
KR101890538B1 (en) * 2017-12-29 2018-08-30 (주)제이엘케이인스펙션 Method and apparatus for transforming image
WO2019154201A1 (en) * 2018-02-09 2019-08-15 北京市商汤科技开发有限公司 Instance segmentation method and apparatus, electronic device, program, and medium
WO2019209005A1 (en) * 2018-04-24 2019-10-31 주식회사 지디에프랩 Artificial intelligence based resolution improvement system
KR102082815B1 (en) 2018-04-24 2020-02-28 주식회사 지디에프랩 Artificial intelligence based resolution improvement system
GB2574052B (en) * 2018-05-24 2021-11-03 Advanced Risc Mach Ltd Image processing
KR102184755B1 (en) 2018-05-31 2020-11-30 서울대학교 산학협력단 Apparatus and Method for Training Super Resolution Deep Neural Network
KR102133876B1 (en) * 2018-07-30 2020-07-14 주식회사 휴인스 Apparatus and method for detecting object
KR102213600B1 (en) * 2018-08-28 2021-02-05 포항공과대학교 산학협력단 Method and apparatus for detecting object independently of size using convolutional neural network
US10303980B1 (en) * 2018-09-05 2019-05-28 StradVision, Inc. Learning method, learning device for detecting obstacles and testing method, testing device using the same
WO2020080765A1 (en) 2018-10-19 2020-04-23 Samsung Electronics Co., Ltd. Apparatuses and methods for performing artificial intelligence encoding and artificial intelligence decoding on image
KR102525576B1 (en) 2018-10-19 2023-04-26 삼성전자주식회사 Apparatus and method for performing artificial intelligence encoding and artificial intelligence decoding of image
KR102184397B1 (en) * 2019-01-22 2020-11-30 경일대학교산학협력단 Apparatus for controlling risk situation of robot work using artificial neural network, method thereof and computer recordable medium storing program to perform the method
KR102114687B1 (en) * 2019-05-10 2020-05-25 정원주 Appratus and Method of tracking a object
KR102792072B1 (en) * 2019-08-12 2025-04-04 엘지전자 주식회사 Method for dividing moving space and moving robot for moving divided moving space
KR102436512B1 (en) 2019-10-29 2022-08-25 삼성전자주식회사 Method and Apparatus for video encoding and Method and Apparatus for video decoding
KR102287942B1 (en) 2020-02-24 2021-08-09 삼성전자주식회사 Apparatus and method for performing artificial intelligence encoding and artificial intelligence decoding of image using pre-processing
KR102725722B1 (en) * 2022-01-27 2024-11-04 한국과학기술연구원 Method of determining lesion from in medical image using artificial intelligence and system of artificial intelligence neural network performing the same
WO2023146286A1 (en) * 2022-01-28 2023-08-03 삼성전자 주식회사 Electronic device and method for improving quality of image

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100442835B1 (en) * 2002-08-13 2004-08-02 삼성전자주식회사 Face recognition method using artificial neural network, and the apparatus using thereof
KR101146417B1 (en) * 2005-05-24 2012-05-17 삼성전자주식회사 Apparatus and method for tracking salient human face in robot surveillance
CN103150561A (en) * 2013-03-19 2013-06-12 华为技术有限公司 Face recognition method and equipment
KR101500552B1 (en) * 2013-03-29 2015-03-10 주식회사 이미지넥스트 Apparatus and Method for Processing Image of Vehicle

Also Published As

Publication number Publication date
KR20160131848A (en) 2016-11-16

Similar Documents

Publication Publication Date Title
KR102450971B1 (en) Recognition apparatus and method
US9940539B2 (en) Object recognition apparatus and method
US10789479B2 (en) Action recognition in videos using 3D spatio-temporal convolutional neural networks
CN108549893B (en) End-to-end identification method for scene text with any shape
US10810745B2 (en) Method and apparatus with image segmentation
US11270158B2 (en) Instance segmentation methods and apparatuses, electronic devices, programs, and media
CN115797706B (en) Target detection method, target detection model training method and related device
CN110852383B (en) Target detection method and device based on attention mechanism deep learning network
CN114283430A (en) Cross-modal image-text matching training method and device, storage medium and electronic equipment
CN112528976B (en) Text detection model generation method and text detection method
Park et al. Sinet: Extreme lightweight portrait segmentation networks with spatial squeeze module and information blocking decoder
CN113591719B (en) A method, device and training method for detecting arbitrary-shaped text in natural scenes
KR102333545B1 (en) Method for learnig images using convolution neural network and apparatus for executing the method
Anantha Rao et al. Selfie continuous sign language recognition with neural network classifier
CN118470714B (en) Camouflage object semantic segmentation method, system, medium and electronic equipment based on decision-level feature fusion modeling
KR20210149426A (en) Method and apparatus for restoring high resolution facial image
Ma et al. A recognition method of hand gesture with CNN-SVM model
JP2007172627A (en) Method for determining object segment in electronic image
KR20200134813A (en) Apparatus and method for image processing for machine learning
KR102782561B1 (en) Image Processing Apparatus Through Neural Network And Image Processing Method Using The Same
CN113837015A (en) A method and system for face detection based on feature pyramid
Aloysius et al. An ensembled scale-space model of deep convolutional neural networks for sign language recognition
CN112561961A (en) Instance tracking method and device
Cao et al. A yolov8-based lightweight detection model for different perspectives infrared images
CN113205544B (en) Spatial Attention Reinforcement Learning Tracking Method Based on Intersection Ratio Estimation

Legal Events

Date Code Title Description
PA0109 Patent application

St.27 status event code: A-0-1-A10-A12-nap-PA0109

PG1501 Laying open of application

St.27 status event code: A-1-1-Q10-Q12-nap-PG1501

P22-X000 Classification modified

St.27 status event code: A-2-2-P10-P22-nap-X000

PN2301 Change of applicant

St.27 status event code: A-3-3-R10-R13-asn-PN2301

St.27 status event code: A-3-3-R10-R11-asn-PN2301

PN2301 Change of applicant

St.27 status event code: A-3-3-R10-R13-asn-PN2301

St.27 status event code: A-3-3-R10-R11-asn-PN2301

R18-X000 Changes to party contact information recorded

St.27 status event code: A-3-3-R10-R18-oth-X000

A201 Request for examination
PA0201 Request for examination

St.27 status event code: A-1-2-D10-D11-exm-PA0201

D13-X000 Search requested

St.27 status event code: A-1-2-D10-D13-srh-X000

D14-X000 Search report completed

St.27 status event code: A-1-2-D10-D14-srh-X000

E902 Notification of reason for refusal
PE0902 Notice of grounds for rejection

St.27 status event code: A-1-2-D10-D21-exm-PE0902

P11-X000 Amendment of application requested

St.27 status event code: A-2-2-P10-P11-nap-X000

P13-X000 Application amended

St.27 status event code: A-2-2-P10-P13-nap-X000

P22-X000 Classification modified

St.27 status event code: A-2-2-P10-P22-nap-X000

E90F Notification of reason for final refusal
PE0902 Notice of grounds for rejection

St.27 status event code: A-1-2-D10-D21-exm-PE0902

P11-X000 Amendment of application requested

St.27 status event code: A-2-2-P10-P11-nap-X000

P13-X000 Application amended

St.27 status event code: A-2-2-P10-P13-nap-X000

E701 Decision to grant or registration of patent right
PE0701 Decision of registration

St.27 status event code: A-1-2-D10-D22-exm-PE0701

GRNT Written decision to grant
PR0701 Registration of establishment

St.27 status event code: A-2-4-F10-F11-exm-PR0701

PR1002 Payment of registration fee

St.27 status event code: A-2-2-U10-U11-oth-PR1002

Fee payment year number: 1

PG1601 Publication of registration

St.27 status event code: A-4-4-Q10-Q13-nap-PG1601

P22-X000 Classification modified

St.27 status event code: A-4-4-P10-P22-nap-X000

P22-X000 Classification modified

St.27 status event code: A-4-4-P10-P22-nap-X000

P22-X000 Classification modified

St.27 status event code: A-4-4-P10-P22-nap-X000

P22-X000 Classification modified

St.27 status event code: A-4-4-P10-P22-nap-X000

PR1001 Payment of annual fee

St.27 status event code: A-4-4-U10-U11-oth-PR1001

Fee payment year number: 4