[go: up one dir, main page]

KR20170081350A - Text Interpretation Apparatus and Method for Performing Text Recognition and Translation Per Frame Length Unit of Image - Google Patents

Text Interpretation Apparatus and Method for Performing Text Recognition and Translation Per Frame Length Unit of Image Download PDF

Info

Publication number
KR20170081350A
KR20170081350A KR1020160000283A KR20160000283A KR20170081350A KR 20170081350 A KR20170081350 A KR 20170081350A KR 1020160000283 A KR1020160000283 A KR 1020160000283A KR 20160000283 A KR20160000283 A KR 20160000283A KR 20170081350 A KR20170081350 A KR 20170081350A
Authority
KR
South Korea
Prior art keywords
character
interval
image
spacing
characters
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
KR1020160000283A
Other languages
Korean (ko)
Inventor
이수종
김상훈
이민규
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR1020160000283A priority Critical patent/KR20170081350A/en
Publication of KR20170081350A publication Critical patent/KR20170081350A/en
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • G06F17/2809
    • G06F15/18
    • G06F17/2705
    • G06F17/273
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06K9/344

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Character Discrimination (AREA)

Abstract

본 발명은 이미지 문자의 입력에 대하여 소정의 프레임 단위로 처리하되, 문자 구간을 일정한 크기로 정규화 한 후 특징 벡터를 추출하고, DNN(Deep Neural Network)/HMM(Hidden Markov Model) 학습과 LM(Language Model, 언어모델) 학습을 이용해 구축한 문자인식네트워크를 탐색하여, 문자나 문장을 인식하고 자동번역 및 음성합성과 연계시킴으로써, 기존 음성 위주의 자동통역 범위를 이미지 상의 문자통역까지 확장할 수 있는, 문자통역 장치 및 방법에 관한 것이다.In the present invention, the input of the image character is processed in units of a predetermined frame, and the character interval is normalized to a predetermined size, and then the feature vector is extracted. The DNN (Deep Neural Network) / HMM (Hidden Markov Model) Model, and language model). By recognizing texts and sentences and linking them with automatic translation and speech synthesis, we can extend the range of automatic interpreter - To a character interpretation apparatus and method.

Figure P1020160000283
Figure P1020160000283

Description

이미지 텍스트에 대한 프레임 단위의 특징벡터 추출에 의한 문자인식 및 번역을 수행하는 문자통역 장치 및 방법{Text Interpretation Apparatus and Method for Performing Text Recognition and Translation Per Frame Length Unit of Image}BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a text interpreting apparatus and method for performing character recognition and translation by extracting a feature vector in units of frames for an image text,

본 발명은 문자통역 장치 및 방법에 관한 것으로서, 특히, 이미지를 획득한 후 문자구간을 설정하고, 일정한 크기로 정규화한 다음 소정의 프레임 단위로 특징 벡터를 추출하고, DNN(Deep Neural Network)/HMM(Hidden Markov Model) 학습과 LM(Language Model, 언어모델) 학습을 이용해 구축한 문자인식네트워크를 탐색하여 문자나 문장을 인식하고, 자동번역 및 음성합성과 연계시킴으로써, 기존 음성 위주의 자동통역 범위를 이미지 상의 문자통역까지 확장할 수 있는 문자통역 장치 및 방법에 관한 것이다. More particularly, the present invention relates to a character interpretation apparatus and method, and more particularly, to a character interpretation apparatus and method, in which a character interval is set after acquiring an image, normalization is performed to a predetermined size, a feature vector is extracted in units of a predetermined frame, a DNN (Deep Neural Network) (Hidden Markov Model) learning and LM (Language Model) learning to recognize characters and sentences and link them with automatic translation and voice synthesis. To a character interpretation apparatus and method capable of expanding to a character interpretation on an image.

일반적으로, 문자인식 기술은 카메라를 통하여 이미지를 입력 받고 여기에 포함된 문자를 배경으로부터 분리하여 그 특징을 추출한 후 미리 저장된 문자의 특징패턴과 비교하여 가장 유사한 패턴의 텍스트 문자를 인식결과로 나타낸다. 이러한 일반적인 문자인식 기술에 따라, 제한된 범위의 문자나 숫자를 사용하는 일정한 규격의 자동차 번호판 인식이나 우편번호 인식 등의 경우에 높은 문자 인식률을 보이고 있으며 실용화되고 있다.Generally, a character recognition technology receives an image through a camera, extracts the character from the background, extracts the feature, and compares the character with the feature pattern of the previously stored character to display the text character of the most similar pattern as the recognition result. According to this general character recognition technology, character recognition rate is high and it is put into practical use in case of recognizing a license plate of a certain standard using a limited range of letters or numbers or zip code recognition.

그러나, 대부분의 경우에는 문자를 표현함에 있어서, 그 목적과 사용환경에 따라 배경색과의 대비, 크기, 굵기, 띄어쓰기, 붙여쓰기 등의 다양성으로 인하여 동일한 문자일지라도 일관성 있는 특징추출이 곤란하게 되고, 이로 인하여 문자인식의 실용화를 어렵게 하고 있다. 특히, 영어 알파벳과는 달리, 한글의 경우에는 초성, 중성, 종성을 2차원 공간에서 결합하여 음절을 구성하므로 이들을 분리하여 특징패턴을 찾고 다시 결합하는데 어려움을 겪고 있는 게 현실이다.However, in most cases, in expressing characters, it is difficult to extract coherent features even if they are the same character due to the variety of contrast, size, thickness, spacing, pasting, etc., depending on the purpose and environment of use. Which makes it difficult to put the character recognition to practical use. Especially, unlike the English alphabet, in the case of Hangul, the syllable is composed by combining the initial, neutrality, and longitudinal in the two-dimensional space.

그런데, 국내외 여행객의 경우, 해당 지역 사람들과 음성에 의한 의사 소통뿐만 아니라 그 나라의 문자를 이해하지 못하는 데서 오는 불편함이 대단히 크다고 할 수 있다. 이러한 불편을 해소하기 위해서는 대부분의 사람들이 휴대하는 스마트폰의 카메라 기능을 이용하여 좀 더 편리한 방법으로 문자통역이 이루어져야 할 것이 요구된다.However, in case of domestic and international travelers, it is very inconvenient not only to communicate with the local people but also to understand the characters of the country. In order to solve this inconvenience, it is required to use a camera function of a smart phone, which most people carry, to perform a character interpretation in a more convenient manner.

종래 문자인식의 일부 사례를 살펴보면, 자소 분할인식 및 결합, 단어 중심으로 문자인식 및 번역을 수행하는 수준에 머물고 있으며, 문장인식과 통역에까지는 이르지는 못하고 있는 실정이다. 따라서, 단어 중심의 문자인식에서 벗어나 문장까지 인식할 수 있는 문자인식 방법과 기술을 확보하여 문자통역 서비스를 제공할 필요성이 절실하다.In some cases of conventional character recognition, character recognition and translation are carried out at the level of recognition and combination of consonant division, word recognition, and translation. Therefore, there is an urgent need to provide a character interpretation service by securing a character recognition method and a technique capable of recognizing sentences even beyond word-based character recognition.

따라서, 본 발명은 상술한 문제점을 해결하기 위하여 안출된 것으로, 기존의 문자인식 방법은 자소 하나하나를 분할(segmentation)해서 패턴인식 하는 방법이었으나, 본 발명에서는 자소를 따로 분리하지 않는 방법으로 문자를 인식함으로써 자소를 따로 분리할 때 생기는 오류를 줄일 수 있고 LM을 적용하여 문장인식으로 확장할 수 있으며, 특히, 문자인식을 위한 다양한 형태의 특징벡터 추출과 패턴인식 및 분류에 따르는 기존 방법의 한계를 극복하기 위하여, 마치 음성 인식 처리에서 소정의 프레임 단위(예, 20msec)로 처리하는 것과 같이, 이미지 입력에 대하여 문자구간의 크기를 정규화한 후 소정의 프레임 단위(예, 15 프레임 등)로 특징 벡터를 추출하고, DNN(Deep Neural Network)/HMM(Hidden Markov Model) 학습과 LM(Language Model, 언어모델) 학습을 이용해 구축한 문자인식네트워크를 탐색하여, 문자나 문장을 인식하고 자동번역 및 음성합성과 연계시킬 수 있고 기존 음성 위주의 자동통역 범위를 이미지 상의 문자통역까지 확장할 수 있는, 문자통역 장치 및 방법을 제공하는 데 있다. SUMMARY OF THE INVENTION The present invention has been made in order to solve the above-mentioned problems, and an object of the present invention is to provide a character recognition method and a character recognition method, In this paper, we propose a new method for extracting feature vectors from various types of text recognition and pattern recognition and classification. In order to overcome the above problem, the size of the character interval is normalized with respect to the image input such that the processing is performed in a predetermined frame unit (for example, 20 msec) in the speech recognition processing, Which is constructed using DNN (Deep Neural Network) / HMM (Hidden Markov Model) learning and LM (Language Model) learning. The present invention provides a character interpretation apparatus and method capable of searching for a recognized network, recognizing a character or a sentence, linking it with automatic translation and voice synthesis, and expanding an existing automatic voice interpretation range to a character interpretation on an image .

본 발명의 기술적 과제들은 이상에서 언급한 기술적 과제들로 제한되지 않으며, 언급되지 않은 또 다른 기술적 과제들은 아래의 기재들로부터 당업자에게 명확하게 이해될 수 있을 것이다.The technical problems of the present invention are not limited to the above-mentioned technical problems, and other technical problems which are not mentioned can be understood by those skilled in the art from the following description.

먼저, 본 발명의 특징을 요약하면, 상기의 목적을 달성하기 위한 본 발명의 일면에 따른 이미지로부터 문자를 인식해 문자통역을 수행하는 장치에서 문자통역 방법은, 카메라를 통해 획득된 통역 대상 이미지를 이진화하는 단계; 이진화된 상기 통역 대상 이미지에 포함된 문자들에 대한 문자 구간을 설정하는 단계; 상기 문자 구간을 정규화된 크기로 변경하는 정규화 단계; 정규화된 크기의 상기 문자 구간에서 문자들간 간격 부분의 정보를 배제(skip)해 붙여진 문자들에 대한 문자특징벡터를 추출하는 단계; 소정의 알고리즘에 따른 학습 결과를 통해 생성되어 구축된 문자모델과 언어모델을 이용하여, 상기 문자특징벡터에 대하여 미리 선택된 문자 표기 방식으로, 단어 또는 문장을 인식해 출력하되, 문법에 따라 문자들간 간격과 띄어쓰기를 복원하여 출력하는 단계; 상기 간격과 띄어쓰기의 재확인을 통해 상기 문자들간 간격과 띄어쓰기의 재처리를 포함하는 후처리를 수행하는 단계; 상기 간격과 띄어쓰기가 복원된 상기 단어 또는 문장을 화면에 출력하는 단계; 상기 간격과 띄어쓰기가 복원된 상기 단어 또는 문장에 대해 미리 설정한 상대국 언어로 번역하는 단계; 및 선택에 따라 상기 간격과 띄어쓰기가 복원된 상기 단어 또는 문장 또는 번역된 상기 단어 또는 문장에 대해 음성 출력하는 단계를 포함한다.According to another aspect of the present invention, there is provided an apparatus for recognizing a character from an image according to an embodiment of the present invention to perform a character interpretation, the method comprising: Binarizing; Setting a character interval for the characters included in the binarized interpretation target image; A normalization step of changing the character interval to a normalized size; Extracting a character feature vector for characters pasted with information of an interval between characters in the character interval of a normalized size; Recognizing and outputting a word or a sentence in a character notation system selected in advance for the character characteristic vector by using a character model and a language model generated and constructed through a learning result according to a predetermined algorithm, And restoring and outputting the spacing; Performing a post-process including repetition of spacing and spacing between the characters through reconfirmation of the spacing and spacing; Outputting the word or sentence in which the interval and the spacing are restored to the screen; Translating the spacing and the spacing into a previously set correspondence language for the restored word or sentence; And outputting the speech or the sentence or the translated word or sentence in which the interval and the spacing are restored according to the selection.

이진화된 상기 통역 대상 이미지에 포함된 문자들은 밝은 배경색에 검은 문자 또는 검은 배경색에 밝은 문자의 형태를 포함한다.The characters included in the binarized interpretation target image include a black character in a light background color or a bright character in a black background color.

상기 문자 구간을 설정하는 단계에서, 이진화된 상기 통역 대상 이미지에서 문자들이 있는 영역의, 행값의 최대값과 최소값, 및 컬럼값의 최대값과 최소값으로 정해지는 박스 형태의 상기 문자 구간을 설정할 수 있다.In the step of setting the character interval, the character interval of the box type determined by the maximum value and the minimum value of the row value and the maximum value and the minimum value of the column value of the area where the characters exist in the binarized interpretation target image can be set .

상기 정규화 단계에서, 상기 문자 구간의 높이 최대값과 높이 최소값의 차이에 대한 소정의 값의 비율로 결정된 조정비율에 따라 상기 문자 구간을 일정한 크기로 정규화할 수 있다.In the normalization step, the character interval may be normalized to a predetermined size according to an adjustment ratio determined by a ratio of a predetermined value to a difference between a maximum height value and a minimum height value of the character interval.

상기 문자특징벡터를 추출하는 단계에서, 정규화된 크기의 상기 문자 구간의 화소 마다 밝기에 따라 1, 또는 0의 값을 갖는 상기 문자특징벡터를 추출할 수 있다.In the step of extracting the character feature vector, the character feature vector having a value of 1 or 0 may be extracted for each pixel of the character interval having the normalized size according to the brightness.

상기 단어 또는 문장을 인식해 출력하는 단계에서, 이미지에 포함된 문자에 대한 반복적인 HMM(Hidden Markov Model) 학습 결과를 통해 생성되어 구축된 상기 문자모델, 및 상기 이미지에 포함된 단어나 문장에 대한 반복적인 LM(Language Model) 학습 결과를 통해 생성되어 구축된 상기 언어모델을 이용할 수 있다.Recognizing and outputting the word or sentence, the character model generated and constructed through an iterative HMM (Hidden Markov Model) learning result on the character included in the image, and a word or sentence included in the image The language model created and constructed through the repeated LM (Language Model) learning results can be used.

상기 단어 또는 문장을 인식해 출력하는 단계에서, 이미지문자 DB에 저장된 이미지 정보 및 그에 포함된 각 문자구간의 이미지 상태 인식결과 정보를 참조하여 HMM 학습을 수행하여 상기 문자특징벡터와 비교될 단어 또는 문장의 기준 패턴에 대하여 관리되는 상기 문자모델, 및 텍스트언어 DB에 포함된 각 문자구간에 대한 단어 또는 문장의 정보를 참조하여 LM 학습을 수행하여 정해진 문법에 맞는 상기 단어 또는 문장의 인식에 참조하기 위해 관리되는 상기 언어모델을 이용할 수 있다.In the step of recognizing and outputting the word or sentence, HMM learning is performed by referring to the image information stored in the image character DB and the image state recognition result information of each character interval included therein, The LM learning is performed with reference to the character model managed for the reference pattern of the character string and the word or sentence information of each character section included in the text language DB to refer to recognition of the word or sentence according to the determined grammar The language model being managed can be used.

그리고, 본 발명의 다른 일면에 따른 이미지로부터 문자를 인식해 문자통역을 수행하는 문자통역 장치는, 카메라를 통해 통역 대상 이미지를 획득하고 이진화하는 이미지 이진화부; 이진화된 상기 통역 대상 이미지에 포함된 문자들에 대한 문자 구간을 설정하는 문자구간 설정부; 상기 문자 구간을 정규화된 크기로 변경하는 문자구간 정규화부; 정규화된 크기의 상기 문자 구간에서 문자들간 간격 부분의 정보를 배제(skip)해 붙여진 문자들에 대한 문자특징벡터를 일정한 크기의 프레임 단위로 추출하는 문자특징벡터 추출부; 소정의 알고리즘에 따른 학습 결과를 통해 생성되어 구축된 문자모델과 언어모델을 이용하여, 상기 문자특징벡터에 대하여 미리 선택된 문자 표기 방식으로, 단어 또는 문장을 인식해 출력하되, 문법에 따라 문자들간 간격과 띄어쓰기를 복원하여 출력하는 문자인식네트워크; 상기 간격과 띄어쓰기의 재확인을 통해 상기 문자들간 간격과 띄어쓰기의 재처리를 포함하는 후처리를 수행하는 후처리부; 상기 간격과 띄어쓰기가 복원된 상기 단어 또는 문장을 화면에 출력하는 문자인식부; 상기 간격과 띄어쓰기가 복원된 상기 단어 또는 문장에 대해 미리 설정한 상대국 언어로 번역하는 자동번역부; 및 선택에 따라 상기 간격과 띄어쓰기가 복원된 상기 단어 또는 문장 또는 번역된 상기 단어 또는 문장에 대해 음성 출력하는 음성합성부를 포함한다.According to another aspect of the present invention, there is provided a character interpretation apparatus for recognizing a character and performing character interpretation, the apparatus comprising: an image binarization unit for acquiring and binarizing an interpretation target image through a camera; A character segment setting unit for setting a character segment for characters included in the binarized interpretation target image; A character interval normalization unit for changing the character interval to a normalized size; A character feature vector extraction unit for extracting a character feature vector for characters pasted with information of an interval between characters in the character interval of a normalized size in frame units of a predetermined size; Recognizing and outputting a word or a sentence in a character notation system selected in advance for the character characteristic vector by using a character model and a language model generated and constructed through a learning result according to a predetermined algorithm, And a character recognition network for restoring and outputting the spacing; A post-processing unit for performing post-processing including repetition of the spacing and spacing between the characters through reconfirmation of the spacing and spacing; A character recognition unit for outputting the word or sentence in which the interval and the spacing are restored to the screen; An automatic translation unit for translating the word or sentence in which the interval and the spacing are restored into a preset language of the partner country; And a speech synthesizer for outputting the speech or words of the word or sentence or the translated word or sentence in which the interval and the spacing are restored according to the selection.

이진화된 상기 통역 대상 이미지에 포함된 문자들은 밝은 배경색에 검은 문자 또는 검은 배경색에 밝은 문자의 형태를 포함할 수 있다.The characters included in the binarized interpretation target image may include a black character in a light background color or a bright character in a black background color.

상기 문자구간 설정부는, 이진화된 상기 통역 대상 이미지에서 문자들이 있는 영역의, 행값의 최대값과 최소값, 및 컬럼값의 최대값과 최소값으로 정해지는 박스 형태의 상기 문자 구간을 설정할 수 있다.The character interval setting unit may set the maximum value and the minimum value of the row value of the area where the characters exist in the binarized interpretation target image and the character interval of the box type determined by the maximum value and the minimum value of the column value.

상기 문자구간 정규화부는, 상기 문자 구간의 높이 최대값과 높이 최소값의 차이에 대한 소정의 값의 비율로 결정된 조정비율에 따라 상기 문자 구간을 일정한 크기로 정규화할 수 있다.The character interval normalization unit may normalize the character interval to a predetermined size according to an adjustment ratio determined by a ratio of a predetermined value to a difference between a maximum height value and a minimum height value of the character interval.

상기 문자특징벡터 추출부는, 정규화된 크기의 상기 문자 구간의 화소 마다 밝기에 따라 1, 또는 0의 값을 갖는 상기 문자특징벡터를 추출할 수 있다.The character characteristic vector extraction unit may extract the character characteristic vector having a value of 1 or 0 according to the brightness for each pixel of the character interval of the normalized size.

상기 문자인식네트워크는, 이미지에 포함된 문자에 대한 반복적인 HMM(Hidden Markov Model) 학습 결과를 통해 생성되어 구축된 상기 문자모델, 및 상기 이미지에 포함된 단어나 문장에 대한 반복적인 LM(Language Model) 학습 결과를 통해 생성되어 구축된 상기 언어모델을 이용할 수 있다.The character recognition network includes a character model generated and constructed through a repetitive HMM learning result on characters included in the image, and a repetitive LM (Language Model) for a word or a sentence included in the image ) ≪ / RTI > learning result.

상기 문자인식네트워크는, 이미지문자 DB에 저장된 이미지 정보 및 그에 포함된 각 문자구간의 이미지 상태 인식결과 정보를 참조하여 HMM 학습을 수행하여 상기 문자특징벡터와 비교될 단어 또는 문장의 기준 패턴에 대한 상기 문자모델을 관리하고, 텍스트언어 DB에 포함된 각 문자구간에 대한 단어 또는 문장의 정보를 참조하여 LM 학습을 수행하여 정해진 문법에 맞는 상기 단어 또는 문장을 인식하기 위하여 참조될 상기 언어모델을 관리할 수 있다.The character recognition network performs HMM learning with reference to image information stored in the image character DB and image state recognition result information of each character interval included in the image character DB, Manages the character model, manages the language model to be referred to in order to recognize the word or sentence according to a predetermined grammar by performing LM learning with reference to information of a word or a sentence of each character section included in the text language DB .

본 발명에 따른 문자통역 장치 및 방법에 따르면, 기존 음성 위주의 자동통역 범위를 확장하여, 이미지 상의 문자통역에 이르기까지 확대하는 효과를 갖는다. 특히, 문자인식에 따른 다양한 형태의 문자특징과 패턴인식 및 분류 등의 절차를 이미지 상의 문자(이미지 문자)에 대한 프레임 단위의 특징벡터 추출과, 이미지 문자 DB에 대한 HMM 학습, 텍스트 언어 DB에 대한 LM 학습, 문자인식네트워크(학습에 의해 생성된 파라미터에 의해 구성됨) 탐색에 의해 효율적으로 처리되도록 함으로써, 종래와 같이 자소를 따로 분리하지 않는 방법으로 문자를 인식함으로써 자소를 따로 분리할 때 생기는 오류를 줄일 수 있다. 또한, 자동번역 및 음성합성과 연계시킴으로써 문자통역을 쉽게 실현하는 효과를 갖는다.According to the character interpretation apparatus and method according to the present invention, the automatic interpretation range of conventional voice is expanded, and the effect is expanded to the character interpretation on the image. In particular, the procedure of various types of character characteristics and pattern recognition and classification according to character recognition is performed by extracting feature vectors in units of frames (characters) on an image, HMM learning for image character DB, LM learning, and character recognition network (constituted by parameters generated by learning), thereby recognizing the characters in a manner that does not separate them separately as in the conventional method. Can be reduced. In addition, it has an effect of easily realizing a character interpretation by linking with automatic translation and voice synthesis.

또한, 본 발명에 따른 문자통역 장치 및 방법에 따르면, 문자구간 설정을 자동화함으로써 문자인식 대상 구간을 사용자가 일일이 설정해야 하는 불편을 해소할 수 있다. 아울러, 잡영 등에 의해 문자구간 설정에 오류가 발생하거나 사용자의 필요에 따라 문자인식 구간을 사용자가 직접 설정 및 변경할 수 있다. 한편, 배경색과 글자색의 대비 관계(예, 밝은 배경색에 검은 문자, 검은 배경색에 밝은 문자)가 다양하므로 문자구간 설정 과정에서 이를 감안하여, 배경 색과 글자의 색이 반전되어 있는 경우에도 문자구간과 배경이 식별될 수 있도록 할 수 있다.Further, according to the character interpretation apparatus and method according to the present invention, it is possible to eliminate the inconvenience that the user has to individually set the character recognition target section by automating the character segment setting. In addition, the user may manually set or change the character recognition section according to the user's needs, if an error occurs in the character section setting by miscellaneous. On the other hand, since there is a contrast relationship between the background color and the character color (for example, a black character in a light background color and a bright character in a black background color), it is considered in the character interval setting process, And the background can be identified.

또한, 본 발명에 따른 문자통역 장치 및 방법에 따르면, 문자구간 정규화를 통하여 문자특징벡터의 크기를 일정하게 함으로써 문자의 크기와 띄어쓰기 등이 다양한 형태의 문자특징벡터 추출로 인한 복잡도를 해소할 수 있다.In addition, according to the apparatus and method for translating a character according to the present invention, the size of the character feature vector can be made constant through character segment normalization, thereby eliminating the complexity due to extraction of various types of character feature vectors such as character size and spacing .

또한, 본 발명에 따른 문자통역 장치 및 방법에 따르면, 문자특징벡터를 추출함에 있어서 다양하게 띄어 쓴 문자의 간격을 붙여서 추출하되, 문자인식네트워크 탐색 및 후처리 단계에서 음절, 단어 및 어절이 구분되도록 함으로써, 문자인식 과정에서의 과도한 특징 파라미터 생성과 계산량 증가를 방지한다.According to the character interpretation apparatus and method according to the present invention, when extracting character characteristic vectors, it is possible to distinguish syllables, words, and phrases in a character recognition network search and post- Thereby preventing an excessive feature parameter generation and an increase in the amount of calculation in the character recognition process.

또한, 본 발명에 따른 문자통역 장치 및 방법에 따르면, 이미지문자 DB를 활용하여 HMM 학습하고, 텍스트언어DB를 활용하여 LM 학습하여, 문자인식에 필요한 파라미터를 생성하고 문자인식네트워크를 구축함으로써, 기존의 문자인식에 따른 다양한 특징 파라미터 생성과 패턴인식 및 분류를 효과적으로 대체할 수 있다.Further, according to the apparatus and method for translating a character according to the present invention, HMM learning using an image character DB and LM learning using a text language DB to generate parameters necessary for character recognition and building a character recognition network, It is possible to effectively replace various feature parameter generation, pattern recognition, and classification according to the character recognition.

또한, 본 발명에 따른 문자통역 장치 및 방법에 따르면, 문장을 포함한 문자인식 결과는 상대국 언어로 자동번역과 음성합성을 통해 문자통역이 실현될 수 있으며, 이를 위한 환경설정을 최대한 활용함으로써 음성기반 자동통역 자원을 효과적으로 활용할 수 있다.In addition, according to the apparatus and method for translating a character according to the present invention, a character interpretation result can be realized through automatic translation and speech synthesis in the language of the correspondent station including the sentence, Interpreter resources can be utilized effectively.

또한, 본 발명에 따른 문자통역 장치 및 방법에 따르면, 문자인식 단어와 문장의 합성음을 필요에 따라 출력해 볼 수 있도록 함으로써, 상대국 언어의 발성음을 청취하고 익힐 수 있다.In addition, according to the apparatus and method for translating a character according to the present invention, a synthesized voice of a character recognition word and a sentence can be output as needed, so that a voice of a partner station can be heard and learned.

도 1은 본 발명의 일 실시예에 따른 문자인식 기반의 문자통역을 위한, 사용자 단말에 포함된 문자통역 장치의 구성도이다.
도 2는 도 1의 문자구간 설정부에서의 문자구간 설정의 자동화 순서와 절차를 설명하기 위한 순서도이다.
도 3은 도 1에서의 문자구간 정규화부에서 문자특징벡터 추출의 규격화를 위해 소정의 문자 높이(height)를 기준으로 문자구간의 크기를 조정하는 절차를 설명하기 위한 순서도이다.
도 4는 도 1의 문자특징벡터 추출부에서 좌에서 우로 진행하면서 높이의 화소값을 추출하여 문자특징벡터를 추출하는 절차를 설명하기 위한 순서도이다.
도 5는 도 1의 이미지문자 DB에 저장된, 카메라 이미지와 각 문자구간의 정보 파일에 대한 예시도이다.
도 6은 도 1의 텍스트언어 DB에 저장된, 이미지에 포함된 문자에 대한 정보를 각각의 파일에 기록한, 그 파일의 이름, 각 이미지 번호와 이에 포함된 문자 정보에 대한 예시도이다.
도 7은 도 1의 문자인식네트워크에서 이미지 문자로부터 프레임 단위로 추출된 특징벡터에 대하여, HMM 및 LM 파라미터로 결합된 문자를 탐색하는 방법에 대한 개념도이다.
도 8은 본 발명의 일 실시예에 따른 문자통역 장치의 구현 방법의 일례를 설명하기 위한 도면이다.
1 is a block diagram of a character interpretation apparatus included in a user terminal for character interpretation based on a character recognition according to an embodiment of the present invention.
FIG. 2 is a flow chart for explaining an automatic procedure and procedure for character interval setting in the character interval setting unit of FIG. 1. FIG.
FIG. 3 is a flowchart for explaining a procedure for adjusting the size of a character segment based on a predetermined character height for standardization of character feature vector extraction in the character segment normalization unit in FIG. 1. FIG.
FIG. 4 is a flowchart for explaining a procedure of extracting a character feature vector by extracting a pixel value of height while proceeding from left to right in the character feature vector extraction unit of FIG.
5 is an exemplary view of a camera image and an information file of each character interval stored in the image character DB of FIG.
FIG. 6 is an exemplary view showing name, image number, and character information included in the file, in which information on characters included in the image stored in the text language DB of FIG. 1 is recorded in each file.
FIG. 7 is a conceptual diagram of a method for searching for a character combined with an HMM and an LM parameter for a feature vector extracted in units of frames from an image character in the character recognition network of FIG. 1. FIG.
8 is a diagram for explaining an example of a method of implementing a character interpretation apparatus according to an embodiment of the present invention.

이하, 본 발명의 일부 실시예들을 예시적인 도면을 통해 상세하게 설명한다. 각 도면의 구성요소들에 참조부호를 부가함에 있어서, 동일한 구성요소들에 대해서는 비록 다른 도면상에 표시되더라도 가능한 한 동일한 부호를 가지도록 하고 있음에 유의해야 한다. 또한, 본 발명의 실시예를 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 발명의 실시예에 대한 이해를 방해한다고 판단되는 경우에는 그 상세한 설명은 생략한다.Hereinafter, some embodiments of the present invention will be described in detail with reference to exemplary drawings. It should be noted that, in adding reference numerals to the constituent elements of the drawings, the same constituent elements are denoted by the same reference symbols as possible even if they are shown in different drawings. In the following description of the embodiments of the present invention, a detailed description of known functions and configurations incorporated herein will be omitted when it may make the difference that the embodiments of the present invention are not conclusive.

본 발명의 실시예의 구성 요소를 설명하는 데 있어서, 제 1, 제 2, A, B, (a), (b) 등의 용어를 사용할 수 있다. 이러한 용어는 그 구성 요소를 다른 구성 요소와 구별하기 위한 것일 뿐, 그 용어에 의해 해당 구성 요소의 본질이나 차례 또는 순서 등이 한정되지 않는다. 또한, 다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가진다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 의미를 가진 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.In describing the components of the embodiment of the present invention, terms such as first, second, A, B, (a), and (b) may be used. These terms are intended to distinguish the constituent elements from other constituent elements, and the terms do not limit the nature, order or order of the constituent elements. Also, unless otherwise defined, all terms used herein, including technical or scientific terms, have the same meaning as commonly understood by one of ordinary skill in the art to which this invention belongs. Terms such as those defined in commonly used dictionaries should be interpreted as having a meaning consistent with the meaning in the context of the relevant art and are to be interpreted in an ideal or overly formal sense unless explicitly defined in the present application Do not.

도 1은 본 발명의 일 실시예에 따른 문자인식 기반의 문자통역을 위한, 사용자 단말(20)에 포함된 문자통역 장치(100)의 구성도이다. 도 1을 참조하여 본 발명에 따른 프레임 단위의 특징벡터 추출에 의한 문자인식 기반 문자통역의 전반적인 구조와 구동 순서를 설명하기로 한다. 1 is a block diagram of a character interpretation apparatus 100 included in a user terminal 20 for character interpretation based on a character recognition according to an embodiment of the present invention. Referring to FIG. 1, the overall structure and operation sequence of the character recognition-based character interpretation by extracting the feature vector of each frame according to the present invention will be described.

본 발명의 문자통역 장치(100)는 카메라(21)와 함께 구동될 수 있도록 전용 장치로 구현될 수도 있고, 스마트폰 등 카메라(21)가 장착된 사용자 단말(20)에 내장될 수도 있다. 사용자 단말(20)은 스마트폰 이외에도 음성/영상 전화 통화가능한 웨어러블 디바이스, 테블릿 PC, 노트북 PC, 등 무선 단말일 수도 있고, 또는 데스크탑 PC 기타 통신 단말기 등 유선 단말일 수도 있다.The character interpretation apparatus 100 of the present invention may be embodied as a dedicated apparatus to be driven together with the camera 21 or may be embedded in a user terminal 20 equipped with a camera 21 such as a smart phone. The user terminal 20 may be a wireless terminal such as a wearable device, a tablet PC, a notebook PC, or the like capable of voice / video phone communication in addition to a smart phone, or may be a wired terminal such as a desktop PC or other communication terminal.

먼저, 사용자는 자국어(예, 한글)로 상대방과 의사 소통이 안되는 경우에, 사용자 단말(20)에 탑재된 소정의 응용 프로그램을 실행시킴으로써, 화면에서 문자통역(버튼)(26) 또는 음성통역(버튼)(27) 중 어느 방식을 선택하여 상대방과 의사 소통할 수 있도록 지원받을 수 있다. 음성통역(27)은 자국어와 상대국 언어(예, 미리 설정된 영어, 일어,,, 등)의 음성 입력에 대한 언어 간 번역 결과를 사용자 단말(20) 화면 또는 스피커(28)를 통해 출력하여 의사 소통이 이루어지도록 지원하는 것이고, 여기서는 음성통역(27)에 대하여 자세한 설명을 생략한다. First, when the user can not communicate with the other party in the native language (e.g., Korean), the user executes a predetermined application program loaded on the user terminal 20 to display a character interpretation (button) 26 or voice interpretation Button) 27 so as to communicate with the other party. The voice interpreter 27 outputs the result of translation between languages of the voice input of the native language and the language of the partner station (for example, English, Japanese, English, etc.) through the screen of the user terminal 20 or the speaker 28, In this case, a detailed description of the voice interpretation 27 will be omitted.

본 발명에 따른 문자인식 기반의 문자통역을 위해, 사용자 단말(20) 화면에서 사용자가 문자통역(26)을 선택하면, 카메라(21)가 작동되고 카메라(21)가 향하는 방향에 대한 이미지(22)가 화면 상에 나타난다. 사용자는 카메라(21)가 소정의 이미지(10)로 향하게 하고, 이미지(10) 중 통역하고자 하는 문자 포함 부분에 대한 이미지, 즉, 통역 대상 이미지(29)를 촬영하여 획득할 수 있다. 예를 들어, 화면에 표시되는 소정의 마크(예, +)가 이미지(10)의 통역하고자 하는 문자 포함 부분의 중앙에 오도록 설정하고 촬영하여 해당 부분이 포함한 일정 영역의 통역 대상 이미지(29)를 획득할 수 있다. 하기에서 문자통역(26)에서 필요한 설정과 자원은 음성통역(27)에 이미 존재하거나 설정되어 있는 경우에는 이들을 최대한 활용한다. 즉, 문자통역(26) 또는 음성통역(27)을 위해 필요한 설정과 자원은 서로 공유되어 활용될 수 있다.When the user selects the character interpretation 26 on the screen of the user terminal 20 for the character interpretation based on the character recognition based on the present invention, the camera 21 is operated and the image 22 ) Appears on the screen. The user can direct the camera 21 to the predetermined image 10 and capture and acquire an image of the portion of the image 10 including the character to be interpreted, that is, the interpretation target image 29. [ For example, when a predetermined mark (e.g., +) displayed on the screen is set so as to be located at the center of the character-containing portion of the image 10 and photographed to photograph the interpretation target image 29 of a certain area Can be obtained. In the following, necessary settings and resources in the character interpreter 26 are already present in the voice interpreter 27 or are utilized if they are already set. That is, the settings and resources necessary for the character interpretation 26 or the voice interpretation 27 can be shared and utilized.

위에서 카메라(21)를 통해 획득된 통역 대상 이미지(29)는 소정의 프레임 단위(예, 15 프레임 등)로 이루어져, 사용자 단말(20)에 포함된 문자통역 장치(100)에서 해당 프레임 단위로 처리되어, 문자 인식(24)이 이루어지고 상대국 언어(예, 미리 설정된 영어, 일어,,, 등)로 자동 번역(25)되며 필요시 스피커(28)를 통해 인식된 문자(또는 문장) 또는 상대국 언어로 번역된 문자(또는 문장)가 음성으로 합성되어 출력될 수도 있다.The interpretation target image 29 acquired through the camera 21 is composed of a predetermined frame unit (for example, 15 frames or the like) and processed in units of frames by the character interpretation apparatus 100 included in the user terminal 20 Character recognition 24 is performed and automatically translated 25 into a language of the other station (e.g., preset English, Japanese, etc.), and the character (or sentence) (Or sentence) translated into a voice may be synthesized and output.

도 1을 참조하면, 본 발명의 일 실시예에 따른 사용자 단말(20)에 포함된 문자통역 장치(100)는, 이미지 이진화부(110), 문자구간 설정부(120), 문자구간 정규화부(130), 문자특징벡터 추출부(140), 문자인식네트워크(150), 후처리부(160), 문자인식부(170), 자동번역부(180), 음성합성부(190)를 포함한다.1, a character interpretation apparatus 100 included in a user terminal 20 according to an embodiment of the present invention includes an image binarization unit 110, a character region setting unit 120, a character region normalization unit A character recognition vector extracting unit 140, a character recognition network 150, a post-processing unit 160, a character recognizing unit 170, an automatic translating unit 180, and a voice synthesizing unit 190.

이미지 이진화부(110)는 카메라(21)를 통해 획득된 통역 대상 이미지(29)를 이진화한다. 예를 들어, 화소 마다 밝기값이 소정의 임계치를 넘으면 1, 그렇지 않으면 0으로 치환하는 방식으로 이진화될 수 있다. 이때, 통역 대상 이미지(29)가 칼라영상인 경우 회색조(grayscale)로 변환된 후, 국소별 임계값(Locally threshold) 비교가 이루어질 수 있다. The image binarization unit 110 binarizes the interpretation target image 29 obtained through the camera 21. [ For example, if the brightness value of each pixel exceeds a predetermined threshold value, it can be binarized by replacing it with 1, otherwise, by 0. At this time, if the interpretation target image 29 is a color image, it is converted into grayscale, and a locally threshold comparison can be performed.

문자구간 설정부(120)는 이진화된 통역 대상 이미지(29)에서 문자 부분을 인식해 모든 문자가 포함되도록 문자 구간(또는 영역)을 설정한다(도 2참조). 문자구간 설정부(120)는 카메라(21) 지향 방향을 중심으로 상하좌우로 문자의 화소값을 확인하여 해당 문자구간을 자동 설정할 수 있다. 이와 같이 문자구간 설정을 자동화함으로써 문자인식 대상 구간을 사용자가 일일이 설정해야 하는 불편을 해소할 수 있다. The character interval setting unit 120 recognizes the character portion in the binarized interpretation target image 29 and sets a character interval (or area) so that all the characters are included (see FIG. 2). The character interval setting unit 120 can check the pixel values of the characters in the up, down, left, and right directions around the direction of the camera 21 and automatically set the corresponding character interval. By automating the setting of the character interval in this manner, it is possible to eliminate the inconvenience that the user must individually set the character recognition target section.

아울러, 잡영 등에 의해 문자구간 설정에 오류가 발생하거나 사용자가 직접 설정할 필요성이 있는 경우에는, 화면 상의 소정의 메뉴에서의 선택에 따라 사용자가 직접 문자인식 구간을 설정 및 변경하는 것이 지원될 수 있다. 이는 문자구간 설정부(120)에 의해 지원될 수 있다.In addition, when there is an error in the setting of the character interval by a miscellaneous or the like, or when it is necessary for the user to directly set, it is possible that the user directly sets and changes the character recognition interval according to the selection on the predetermined menu on the screen. This can be supported by the character interval setting unit 120. [

또한, 배경색과 글자색의 대비 관계(예, 밝은 배경색에 검은 문자, 검은 배경색에 밝은 문자)가 다양하므로, 문자구간 설정부(120)가 문자 구간을 자동 설정하는 경우에, 문자구간 설정 과정에서 문자구간과 배경을 식별하여, 문자구간을 설정할 수 있다. 예를 들어, 배경색과 글자색의 각 화소수를 함께 산출한 후 이들의 빈도를 분석하여, 문자 부분을 인식함으로써 모든 문자가 포함되도록 문자 구간(또는 영역)을 설정할 수 있다. 즉, 빈도가 작은 쪽이 문자 부분일 수 있다. In addition, when there is a contrast between the background color and the character color (for example, black characters in a light background color and bright characters in a black background color), when the character region setting unit 120 automatically sets a character region, You can set the character interval by identifying the character interval and background. For example, it is possible to calculate the number of pixels of the background color and the character color together, analyze the frequency thereof, and set the character interval (or area) so that all the characters are included by recognizing the character portion. That is, the smaller frequency may be the character portion.

문자구간 정규화부(130)는 상기 모든 문자가 포함된 문자 구간을 미리 정한 소정의 크기로 정규화한다(도 3 참조). 즉, 통역 대상 이미지(29) 상의 문자의 크기는 다양하게 획득될 수 있으므로, 일정 정규화된 크기로 변경한다. 이와 같이 문자크기의 다양성에 대처하여 문자구간 크기의 정규화를 수행하여 문자의 높이를 기준으로 문자구간이 일정한 크기로 조정되게 함으로써, 문자특징벡터의 크기를 일정하게 규격화할 수 있고 문자의 크기와 띄어쓰기 등이 다양한 형태의 문자특징벡터 추출로 인한 복잡도를 해소할 수 있다. The character interval normalization unit 130 normalizes the character interval including all the characters to a predetermined size (see FIG. 3). That is, since the size of characters on the interpretation target image 29 can be variously obtained, the size is changed to a predetermined normalized size. By thus normalizing the character segment size in response to the diversity of the character size, the character segment is adjusted to a constant size based on the height of the character, so that the size of the character feature vector can be uniformly standardized, The complexity due to various types of character feature vector extraction can be solved.

문자특징벡터 추출부(140)는 상기 정규화 크기로 변경된 이미지(정규화된 문자구간)에 대하여 좌측(컬럼)으로부터에서 우측(컬럼)으로 진행하면서 각 문자의 상하 높이에 대한 판단을 통해 문자특징벡터를 생성하되, 인식된 문자들이 띄어쓰기 없이 붙여진 상태로 추출되도록 문자특징벡터를 생성한다(도 4 참조). 예를 들어, 정규화 크기로 변경된 이미지에 대하여 좌측(컬럼)으로부터에서 우측(컬럼)으로 진행하면서, 문자 부분의 상하(세로축)를 기준으로 화소 마다 밝기에 따라 1, 또는 0으로 특징벡터를 부여하되, 일정 크기 이상의 문자 간격이나 띄어쓰기를 제거해, 인식된 문자들이 띄어쓰기 없이(또는 최소의 화소 간격) 붙여진 상태로 추출되도록 붙여진 문자들에 대한 문자특징벡터를 추출할 수 있다. 이와 같은 특징벡터를 결합하면 23과 같이 문자의 형상을 확인해볼 수도 있다. 문자특징벡터 추출부(140)에서 배제된 문자 간격 및 띄어쓰기는 문자인식네트워크(150) 탐색 과정에서 언어모델에 따라 문법에 맞는 단어만 인식하는 방법 등을 통하여 복원되고 후처리부(160)에서 문법에 따라 상기 문자 간격 및 띄어쓰기가 맞는지 여부 등의 재확인을 통해 문자 간격 및 띄어쓰기 재처리 등 필요한 처리를 더 수행하게 할 수 있다. The character characteristic vector extracting unit 140 extracts a character characteristic vector from the left (column) to the right (column) with respect to the image (normalized character interval) changed to the normalized size , And generates a character feature vector so that recognized characters are extracted without being pasted in a space (see FIG. 4). For example, a feature vector is assigned to 1 or 0 according to brightness for each pixel based on the vertical (vertical axis) of the character portion while proceeding from the left side (column) to the right side (column) with respect to the image changed to the normalized size , It is possible to extract a character feature vector for characters pasted so that recognized characters are spaced apart (or at minimum pixel intervals) by removing character spacing or spacing beyond a certain size. If we combine these feature vectors, we can check the shape of the characters like 23. The character spacing and spacing excluded by the character characteristic vector extracting unit 140 are restored through a method of recognizing only words that match the grammar according to the language model in the search process of the character recognition network 150, It is possible to further perform necessary processing such as character spacing and spacing reprocessing through reaffirmation of whether or not the character spacing and spacing are correct.

이와 같이 문자 특징벡터를 기초로 다양하게 띄어 쓴 문자들을 간격 없이 붙여진 상태로 추출함으로써, 문자 띄어쓰기의 다양성에 따른 복잡도를 개선하고 문자인식 과정에서의 과도한 특징 파라미터 생성과 계산량 증가를 방지할 수 있다. 음절, 단어 및 어절 등의 구분에 따른 띄어쓰기의 복원은, 하기와 같이 문자인식네트워크 탐색 및 후처리 과정을 통해 이루어질 수 있다. By extracting variously spaced characters based on the character feature vector in a state without space, it is possible to improve the complexity according to the diversity of character spacing and to prevent excessive feature parameter generation and increase in the amount of calculation in the character recognition process. The restoration of the spacing according to the distinction of syllables, words and phrases can be performed through a character recognition network searching and post-processing process as described below.

문자인식네트워크(150)는, 이미지문자 DB(151)의 정보(도 5 참조)에 기초하여, 이미지에 포함된 문자에 대한 반복적인 HMM 학습 결과를 통해 생성되어 구축된 문자모델(153), 및 텍스트언어 DB(152)의 정보(도 6 참조)에 기초하여 이미지에 포함된 단어나 문장 등의 언어에 대한 반복적인 LM 학습 결과를 통해 생성되어 구축된 언어모델(154)을 이용하여, 상기 인식된 문자들이 띄어쓰기 없이 붙여진 상태로 추출되도록 생성된 문자특징벡터에 대하여, 해당 문자들(단어 또는 문장)을 인식해 출력한다. 문자 표기(155) 모드는 사용자에 의해 적절히 선택될 수 있으며, 예를 들어, 한글 문자 표기에서 인식단위 음절은 문자처리의 편의상 로마자 표기방식을 따르는 것으로 가정된다. The character recognition network 150 includes a character model 153 generated and constructed through a repetitive HMM learning result on the characters included in the image based on the information of the image character DB 151 By using the language model 154 generated and constructed through the repetitive LM learning results for the languages such as the words and sentences included in the image based on the information of the text language DB 152 (see Fig. 6) (Words or sentences) are recognized and output to the character characteristic vector generated so that the extracted characters are extracted in a state in which they are pasted without spaces. The character notation 155 mode can be appropriately selected by the user. For example, it is assumed that the recognition unit syllable in the Hangul character notation conforms to the romanization notation for convenience of character processing.

이와 같이 이미지문자 DB(151)를 활용하여 HMM 학습하고, 텍스트언어 DB(152)를 활용하여 LM 학습하여, 문자인식에 필요한 파라미터를 생성하고 문자인식네트워크(150)를 구축함으로써, 기존의 문자인식에 따른 다양한 특징 파라미터 생성과 패턴인식 및 분류를 효과적으로 대체할 수 있다.In this manner, HMM learning is performed using the image character DB 151 and LM learning is performed using the text language DB 152 to generate parameters necessary for character recognition and building the character recognition network 150, It is possible to effectively substitute various feature parameter generation and pattern recognition and classification according to the pattern.

단어 위주의 문자인식으로부터 문장까지 인식하기 위하여, 프레임 단위의 특징벡터 추출과 HMM 학습 및 LM 학습을 통하여 모델 파라미터를 생성하고 문자인식네트워크(150) 구성에 반영되도록 한다. HMM에 의한 문자 모델링은 학습단계에서 추출된 문자특징벡터를 이용하여 기준이 되는 문자모델(153)(또는 기준패턴)을 구하여 구축되고, 실제 문자인식 단계에서는 패턴정합을 위한 비터비(Viterbi) 알고리즘을 이용하여 미리 학습된 패턴 중에서, 문자특징벡터 추출부(140)로부터의 특징벡터의 해당 문자들과 비교하여 가장 유사한 것을 찾아 문자인식 결과로 출력한다. 이때 LM 언어모델(154)은 정해진 문법에 맞는 단어와 문장만을 인식하게 해준다. LM 언어모델(154)을 문자인식의 탐색 과정에서 사용함으로써 탐색 공간을 감소시킬 수 있으며 문법에 맞는 단어나 문장에 대한 확률을 높여 주는 역할을 하기 때문에 문자인식률 향상에 기여하게 된다. 아울러, 단어 중심의 문자인식에서 벗어나 문장인식까지 확장하기 위하여는 음절, 단어, 어절 등의 구분이 효율적으로 이루어져야 하고, 이를 위해 대규모의 언어모델(154)이 필요하게 된다. 또한, 문자모델(153)을 구축하기 위하여 DNN(Deep Neural Network) 학습 결과를 이용할 수도 있으나, 여기에서는 HMM 모델을 기준으로 설명하고자 한다.In order to recognize from the character-based character recognition to the sentence, the model parameter is generated through the extraction of the feature vector of each frame and the HMM learning and the LM learning, and is reflected in the configuration of the character recognition network 150. The character modeling by the HMM is constructed by obtaining a character model 153 (or a reference pattern) that is a reference by using the character feature vector extracted in the learning step. In the actual character recognition step, a Viterbi algorithm The pattern matching unit 140 compares the extracted pattern with the corresponding characters of the feature vector from the character feature vector extracting unit 140 to find the most similar pattern and outputs the same as the character recognition result. At this time, the LM language model 154 allows only words and sentences matching the predetermined grammar to be recognized. By using the LM language model 154 in the search process of character recognition, it is possible to reduce the search space and increase the probability of a word or a sentence matching the grammar, thereby contributing to the improvement of the character recognition rate. In addition, in order to extend beyond word-based character recognition to sentence recognition, syllables, words, and phrases must be distinguished efficiently, and a large-scale language model 154 is required for this. In addition, DNN (Deep Neural Network) learning results can be used to construct the character model 153, but the HMM model will be used as a reference here.

한편, 문자특징벡터 추출부(140)는 상기 인식된 문자들(단어 또는 문장)이 띄어쓰기 없이 붙여진 상태로 추출되도록 문자특징벡터를 생성하지만, 문자인식네트워크(150) 탐색과 후처리부(160)에서 문자 간격 및 띄어쓰기를 복원할 수 있다. On the other hand, the character characteristic vector extracting unit 140 generates a character characteristic vector so that the recognized characters (words or sentences) are extracted without being spaced apart. However, the character characteristic vector extracting unit 140 searches the character recognition network 150 and the post- Character spacing and spacing can be restored.

이에 따라 문자인식부(170)는 문자인식네트워크(150)를 통해 인식된 문자들(단어 또는 문장)에 대하여 음절, 단어, 어절 등의 띄어쓰기가 복원되어 텍스트 정제된 단어 또는 문장(24)을 화면에 출력할 수 있다. Accordingly, the character recognition unit 170 restores the syllable, word, and phrase from the recognized characters (word or sentence) through the character recognition network 150, and displays the text-refined word or sentence 24 on the screen .

자동번역부(180)는 텍스트 정제된 단어 또는 문장(24)에 대하여 미리 설정한 상대국 언어(예, 미리 설정된 영어, 일어,,, 등)로 자동 번역하여 번역된 해당 문자나 문장(25)을 화면에 출력할 수 있다. The automatic translation unit 180 automatically translates the translated text or sentence 25 into a language (eg, preset English, Japanese, English, etc.) of the text-refined word or sentence 24 You can print on the screen.

음성합성부(190)는 화면상의 소정의 메뉴를 선택함에 따라 문자인식부(170)가 출력하는 텍스트 정제된 단어 또는 문장(24)에 대하여 자국의 소스언어에 대하여 스피커로 음성출력할 수 있으며, 마찬가지로 화면상의 소정의 메뉴를 선택함에 따라 번역된 해당 문자나 문장(25)에 대하여도 스피커로 음성출력할 수 있다. The speech synthesis unit 190 can output a speech to the text-refined word or sentence 24 output from the character recognition unit 170 on the speaker of the source language of the local station by selecting a predetermined menu on the screen, Similarly, by selecting a predetermined menu on the screen, the translated character or sentence 25 can also be output to the speaker.

이와 같이 문장을 포함한 문자인식 결과는 상대국 언어로 자동번역과 음성합성을 통해 문자통역이 실현될 수 있으며, 이를 위한 환경설정을 최대한 활용함으로써 효과적인 음성기반 자동통역 자원으로 활용할 수 있다. 또한, 문자인식 단어와 문장의 합성음을 필요에 따라 출력해 볼 수 있도록 함으로써, 상대국 언어의 발성음을 청취하고 익힐 수도 있게 된다.In this way, the character recognition result including the sentence can be realized by automatic translation and voice synthesis in the correspondent language, and it can be utilized as an effective voice-based automatic interpretation resource by maximizing the environment setting for this. In addition, by making it possible to output a synthesized voice of a character recognition word and a sentence as necessary, it is possible to listen to and learn a voice of a partner station language.

도 2는 도 1의 문자구간 설정부(120)에서의 문자구간 설정의 자동화 순서와 절차를 설명하기 위한 순서도이다.FIG. 2 is a flowchart for explaining an automatic procedure and procedure for character interval setting in the character interval setting unit 120 of FIG.

문자구간 설정부(120)는 이진화된 통역 대상 이미지(29)에서 문자 부분을 인식해 모든 문자가 포함되도록 문자 구간(또는 영역)을 설정하기 위하여, 먼저, 도 2와 같이, 촬영 시의 카메라(21) 지향점(b)(화면에 표시되는 소정의 마크(예, +)가 있었던 지점)이 문자들의 영역 상에 있음을 확인하고(S10), 문자들이 있는 영역에서 문자들의 높이 중 최대값(c)(가장 큰 행값)을 산출하여 설정한다(S11). 이때, 문자들이 있는 영역의 중심 축 좌우로 소정의 폭을 확인하면서 문자들 하단부의 화소값을 대상으로 배경인지 또는 문자인지 확인하면서, 소정의 거리까지 더 큰 행값을 갖는 문자가 검출되지 않으면 마지막 최대 행값으로 검출되었던 지점의 행값을 높이의 최대값(c)으로 설정할 수 있다. 2, the character interval setting unit 120 first sets the character interval (or area) so that all characters are included in the binarized interpretation target image 29, 21) It is confirmed that the direction point b (point where a predetermined mark (e.g., +) displayed on the screen exists) is on the area of the characters (S10) (The largest row value) is calculated and set (S11). At this time, if a character having a larger row value is not detected up to a predetermined distance while confirming whether the pixel value at the lower end of the character is background or character while confirming a predetermined width to the right and left of the center axis of the character area, The row value of the point detected as the row value can be set as the maximum value (c) of the height.

다음으로, 문자구간 설정부(120)는 카메라(21) 지향점(b)에서 문자들 상단부에서 좌우 진행하면서 문자들이 있는 영역을 확인하되, 소정의 거리까지 더 작은 행값을 갖는 문자가 검출되지 않으면 마지막 최소 행값으로 검출되었던 지점의 행값을 높이의 최소값(d)으로 설정한다(S12). Next, the character segment setting unit 120 identifies an area in which the characters are present while proceeding left and right at the upper end of the characters at the bending point (b) of the camera 21. If no character having a smaller row value is detected up to a predetermined distance, The row value of the point detected as the minimum row value is set as the minimum value d of height (S12).

이어서, 같은 방법으로 문자구간 설정부(120)는 문자들이 있는 영역의 가로 길이(컬럼값)의 최대값(e)(S13)과 최소값(f)(S14)을 설정한다. Then, in the same manner, the character segment setting unit 120 sets the maximum value (e) (S13) and the minimum value (f) (S14) of the width (column value) of the region where the characters exist.

이와 같이, 문자구간 설정부(120)는 이진화된 통역 대상 이미지(29)에서 문자 부분을 인식해 모든 문자가 포함되도록, 문자들이 있는 영역의, 행값의 최대값(c)과 최소값(d), 및 컬럼값의 최대값(e)과 최소값(f)으로 정해지는 박스 형태의 문자 구간(또는 영역)을 설정할 수 있다. Thus, the character region setting unit 120 recognizes the character portion in the binarized interpretation target image 29 and determines the maximum value (c) and the minimum value (d) of the row value of the region in which the characters exist, And a box-shaped character interval (or area) defined by the maximum value (e) and the minimum value (f) of the column value.

이와 같은 문자구간 설정과정에서, 배경색과 글자색의 대비를 도 2와 같이 보통의 경우와 다르게 하는 경우(검은 배경색에 밝은 문자)에도 실제의 문자구간을 설정할 수 있도록, 배경색 부분의 최대값, 최소값을 동시에 확인한다. 이때 배경색 부분이 문자들이 있는 영역으로 판단되는 경우에는 이들의 최대값, 최소값으로 문자구간을 설정할 수도 있다. In the character interval setting process, the maximum value and the minimum value of the background color portion are set so that the contrast of the background color and the character color is set differently from that of the normal case (the bright character in the black background color) At the same time. At this time, if the background color portion is determined as an area in which characters exist, the character interval may be set to the maximum value and the minimum value thereof.

도 3은 도 1에서의 문자구간 정규화부(130)에서 문자특징벡터 추출의 규격화를 위해 소정의 문자 높이(height)를 기준으로 문자구간의 크기를 조정하는 절차를 설명하기 위한 순서도이다.FIG. 3 is a flowchart for explaining a procedure for adjusting the size of a character segment based on a predetermined character height for standardization of a character feature vector extraction in the character segment normalization unit 130 in FIG.

위에서 기술한 바와 같이, 문자들이 있는 영역의 모든 문자가 포함된 문자 구간(도 3의 a)이 설정되면, 문자구간 정규화부(130)는 해당 문자 구간(도 3의 a)을 미리 정한 정규화 크기의 이미지(도 3의 b)로 변경하기 위하여, 먼저, 문자구간(a)에서 좌상단(가로폭 최소값(Wmin), 높이 최소값(Hmin))(예, 0,0)을 시작점으로 하여, 문자구간(a)의 우하단(가로폭 최대값(Wmax), 높이 최대값(Hmax))에 이르기까지, 즉 문자구간(a) 내의 모든 좌표의 화소값에 대하여 조정비율을 적용함으로써(S20), 조정 비율에 의해 조정된 정규화 크기 내의 각 픽셀 위치의 좌표의 값을 결정하여 정규화 크기의 이미지(b)를 생성할 수 있다(S21). As described above, when a character interval (a in FIG. 3) including all the characters in the area in which characters exist is set, the character interval normalization unit 130 normalizes the corresponding character interval (a in FIG. 3) (Width min (Wmin), minimum height (Hmin)) (for example, 0,0) as the start point in the character section (a) (S20) by applying the adjustment ratio to the pixel values of all the coordinates in the character section (a), from the lower right end (the maximum width Wmax and the maximum height Hmax) The value of the coordinates of each pixel position in the normalized size adjusted by the ratio can be determined to generate the image b of the normalized size (S21).

여기서 조정비율은 [수학식1]과 같이, 폭과 높이에 대하여, 문자구간(a)의 높이 최대값(Hmax)과 높이 최소값(Hmin)의 차이에 대한 소정의 값(T)의 비율로 결정될 수 있다. Here, the adjustment ratio is determined by the ratio of the predetermined value T to the difference between the height maximum value Hmax and the minimum height value Hmin of the character section (a) with respect to the width and the height .

[수학식1][Equation 1]

폭의 조정비율 = T*(Hmax - Hmin)Width adjustment ratio = T * (Hmax - Hmin)

높이의 조정비율 = T*(Hmax - Hmin)Adjustment ratio of height = T * (Hmax - Hmin)

이와 같이 문자크기의 다양성에 대처하여 문자구간 크기의 정규화를 수행하여 문자의 높이를 기준으로 문자구간이 일정한 크기로 조정되게 함으로써, 문자특징벡터의 크기를 일정하게 규격화할 수 있고 문자의 크기와 띄어쓰기 등이 다양한 형태의 문자특징벡터 추출로 인한 복잡도를 해소할 수 있게 된다. By thus normalizing the character segment size in response to the diversity of the character size, the character segment is adjusted to a constant size based on the height of the character, so that the size of the character feature vector can be uniformly standardized, The complexity due to various types of character feature vector extraction can be solved.

도 4는 도 1의 문자특징벡터 추출부(140)에서 좌에서 우로 진행하면서 높이의 화소값을 추출하여 문자특징벡터를 추출하는 절차를 설명하기 위한 순서도이다.FIG. 4 is a flowchart for explaining a procedure for extracting a character feature vector by extracting a pixel value of height while proceeding from left to right in the character feature vector extractor 140 of FIG.

위에서 기술한 바와 같이, 정규화 크기의 이미지가 생성되면, 정규화 크기의 이미지에서 좌측(컬럼)으로부터에서 우측(컬럼)으로 진행하면서 각 문자의 상하(세로축)의 화소값(1, 0)으로 문자특징벡터를 생성하되, 인식된 문자들이 띄어쓰기 없이 붙여진 상태로 추출되도록 문자특징벡터(도 4의 a)를 생성하기 위하여, 먼저, 문자특징벡터 추출부(140)는, 정규화 크기의 이미지에 대하여 좌측(컬럼)(b)(0,0)으로부터에서 우측(컬럼) 끝까지(c)(폭최대값)으로 진행하면서, 각 컬럼의 행 끝까지(d)문자 구간의 상하(세로축)의 화소 마다 1, 또는 0으로 특징벡터를 부여해 나간다(S30). As described above, when an image of a normalized size is generated, pixel values (1, 0) on the upper and lower (vertical axes) of each character proceed from the left (column) to the right In order to generate a character feature vector (a in FIG. 4) such that the recognized character is extracted in a pasted state, first, the character feature vector extraction unit 140 extracts a character image having a normalized size (B) From (0,0) to (c) (width maximum) to the right (column) end, to the end of each column row (d) 1 for each pixel above and below the character interval 0 " (S30).

문자특징벡터 추출부(140)는, 이와 같은 방식으로, 문자 구간의 상하(세로축) 단위로 문자특징벡터를 추출하되, 일정한 크기 이상의 문자 간격이나 띄어진 부분을 배제(skip)하면서, 우측(컬럼) 끝까지 특징벡터를 추출함으로써, 인식된 문자들이 띄어쓰기 없이(또는 최소의 화소 간격) 붙여진 상태로 추출되도록 문자특징벡터를 추출할 수 있다(S31).In this way, the character characteristic vector extracting unit 140 extracts a character characteristic vector in units of upper and lower (vertical axes) of a character section, skips characters spaced apart or spaced apart by a predetermined size or more, ). By extracting the feature vector up to the end, the character feature vector can be extracted so that recognized characters are extracted without being spaced (or minimum pixel spacing) (S31).

이와 같이 문자 특징벡터를 기초로 다양하게 띄어 쓴 문자들을 간격없이 붙여진 상태로 추출함으로써, 문자 띄어쓰기의 다양성에 따른 복잡도를 개선하고 문자인식 과정에서의 과도한 특징 파라미터 생성과 계산량 증가를 방지할 수 있다. 음절, 단어 및 어절 등의 구분에 따른 띄어쓰기의 복원은, 하기와 같이 문자인식네트워크 탐색 및 후처리 과정을 통해 이루어질 수 있다. By extracting variously spaced characters based on the character feature vector in a state without space, it is possible to improve the complexity according to the diversity of character spacing and to prevent excessive feature parameter generation and increase in the amount of calculation in the character recognition process. The restoration of the spacing according to the distinction of syllables, words and phrases can be performed through a character recognition network searching and post-processing process as described below.

도 5는 도 1의 이미지문자 DB(데이터베이스)(151)에 저장된, 카메라 이미지와 각 문자구간의 정보 파일에 대한 예시도이다.5 is an exemplary view of a camera image and an information file of each character interval stored in the image character DB (database) 151 of FIG.

도 5와 같이, 문자모델(153) 구축을 위해 HMM 학습의 기초가 되는 이미지문자 DB(151)에는, 카메라(21)로 촬영한 이미지 정보(a)와 그에 포함된 각 문자구간(문자들이 포함된 영역)의 이미지 상태 인식결과 정보(51, 52, 53)에 대하여 별도의 파일로 미리 저장되어 관리될 수 있다. 예시된 이미지 정보(a)에는 세 개의 문자구간이 존재하고, 각 문자구간에 대한 이미지 상태 인식결과 정보의 파일에는, 이미지 이름(Image_Name), 가로폭과 세로 높이에 대한 해상도(Resolution), 문자구간의 시작점(가로: X, 세로: Y), 가로 폭(Width), 세로 높이(Height), 단어 이름(Word) 등의 정보가 포함되어 관리될 수 있다. 여기서 이미지 정보(a)는 위에서 기술한 바와 같은 통역 대상 이미지(29)의 정보에 해당할 수 있다. As shown in FIG. 5, the image character DB 151 serving as a basis for HMM learning for constructing the character model 153 includes image information (a) photographed by the camera 21 and each character interval 52, and 53 of the image state recognition result information of the region (region) in which the image is recognized. There are three character intervals in the illustrated image information (a), and the file of the image status recognition result information for each character interval includes an image name (Image_Name), a resolution for the width and height, Information such as a start point (width: X, length: Y), a width (Width), a height (Height), and a word name (Word) Here, the image information (a) may correspond to the information of the interpretation target image 29 as described above.

도 6은 도 1의 텍스트언어 DB(152)에 저장된, 이미지에 포함된 문자에 대한 정보를 각각의 파일에 기록한, 그 파일의 이름, 각 이미지 번호와 이에 포함된 문자 정보에 대한 예시도이다.FIG. 6 is an exemplary view showing the name of the file, the image number, and the character information included therein, in which information on characters included in the image stored in the text language DB 152 of FIG. 1 is recorded in each file.

도 6과 같이, 언어모델(154) 구축을 위해 LM 학습의 기초가 되는 텍스트언어 DB(152)에는, 도 5에서 설명한 바와 같은 이미지 정보(a)에 포함된 각각의 문자구간(문자들이 포함된 영역)에 대한 단어 또는 문장의 정보가 별도의 파일로 각각 미리 저장되어 관리될 수 있다. 이때 각 파일 이름(1,2,..)에 대하여, 이미지 인덱스(00001, 00002,..등)와 해당 단어 또는 문장(스킨케어, 바디케어,..)에 대한 정보가 포함되도록 관리되어, 문자인식네트워크(150)의 동작 시에 참조가 용이하게 될 수 있게 할 수 있다.As shown in FIG. 6, in the text language DB 152 serving as a basis of the LM learning for constructing the language model 154, each character period included in the image information (a) Area) can be previously stored in a separate file and managed. At this time, information about the image index (00001, 00002, ..) and the word or sentence (skin care, body care, ..) is managed for each file name (1,2, Thereby making it easy to refer to the operation of the character recognition network 150.

도 7은 도 1의 문자인식네트워크(150)에서 이미지 문자로부터 프레임 단위로 추출된 특징벡터에 대하여, HMM 및 LM 파라미터로 결합된 문자를 탐색하는 방법에 대한 개념도이다. 7 is a conceptual diagram illustrating a method of searching for a character combined with an HMM and an LM parameter for a feature vector extracted in units of frames from an image character in the character recognition network 150 of FIG.

문자특징벡터 추출부(140)가 정규화 크기로 변경된 이미지(정규화된 문자구간)(75)에 대하여 좌측(컬럼)으로부터에서 우측(컬럼)으로 진행하면서, 인식된 문자들에 대해 띄어쓰기 없이 붙여진 문자특징벡터(74)를 생성함에 따라, 문자인식네트워크(150)는 문자모델(153)과 언어모델(154)을 이용하여 문자특징벡터(74)에 대해 해당 문자들(단어 또는 문장)을 인식해 출력할 수 있다.The character characteristic vector extracting unit 140 extracts a character characteristic (character string) that has been appended to the recognized characters from the left (column) to the right (column) with respect to the image (normalized character interval) 75 changed to the normalized size As the vector 74 is generated, the character recognition network 150 recognizes the characters (word or sentence) for the character feature vector 74 using the character model 153 and the language model 154, can do.

문자인식네트워크(150)는 내부적으로 결합된 문자모델(153)과 언어모델(154)을 이용하여, 문자특징벡터(74)에 대해 통계적으로 최적의 HMM 상태(73)를 검색해 미리 학습된 패턴 중에서 가장 유사한 패턴의 문자 모델에 따른 문자 인식을 수행하고, 문법에 맞는 단어와 문장의 언어 모델을 참조해 인식된 문자들이 문법에 맞는 단어와 문장으로 이루어지도록 보정하여 출력할 수 있다.The character recognition network 150 searches the statistically optimal HMM state 73 for the character feature vector 74 using the internally combined character model 153 and the language model 154 to determine The character recognition according to the character model of the most similar pattern can be performed and the recognized characters can be corrected by referring to the language model of the word and sentence matching the grammar so as to be composed of words and sentences matching the grammar.

예를 들어, 도 7에서 특징벡터 "안녕"에 대하여, 문자인식네트워크(150)는 HMM 상태(73)의 소정의 초기 상태(S0)에서 문자인식을 시작하여, 음절단위로 4개씩의 상태(안: S1~S4, 녕: S5~S8)로 구분하여, 예를 들어, 편의상 로마자 표기방식(71)의 문자 표기(155) 모드에 따라, "안(an)"으로 시작하는 단어 중에서, "녕(nyeong)"에 대한 문자 인식을 수행하고, 문법에 틀리지 않는 한, 해당 이미지에는 "안녕"(72)이 포함되어 있다는 문자 인식 결과를 출력할 수 있다.For example, with respect to the feature vector "goodbye " in FIG. 7, the character recognition network 150 starts character recognition in a predetermined initial state S0 of the HMM state 73, For example, in accordance with the character notation 155 mode of the romanization notation 71 for the sake of convenience, among the words starting with "an ","Quot; nyeong ", and can output a character recognition result indicating that the image contains "goodbye" (72) unless the grammar is correct.

도 8은 본 발명의 일 실시예에 따른 문자통역 장치(100)의 구현 방법의 일례를 설명하기 위한 도면이다. 본 발명의 일 실시예에 따른 문자통역 장치(100)는 하드웨어, 소프트웨어, 또는 이들의 결합으로 이루어질 수 있다. 예를 들어, 문자통역 장치(100)는 도 8과 같은 컴퓨팅 시스템(1000)으로 구현될 수 있다. FIG. 8 is a diagram for explaining an example of a method of implementing a character interpretation apparatus 100 according to an embodiment of the present invention. The text interpreting apparatus 100 according to an embodiment of the present invention may be implemented by hardware, software, or a combination thereof. For example, the character interpretation apparatus 100 may be implemented in the computing system 1000 as shown in FIG.

컴퓨팅 시스템(1000)은 버스(1200)를 통해 연결되는 적어도 하나의 프로세서(1100), 메모리(1300), 사용자 인터페이스 입력 장치(1400), 사용자 인터페이스 출력 장치(1500), 스토리지(1600), 및 네트워크 인터페이스(1700)를 포함할 수 있다. 프로세서(1100)는 중앙 처리 장치(CPU) 또는 메모리(1300) 및/또는 스토리지(1600)에 저장된 명령어들에 대한 처리를 실행하는 반도체 장치일 수 있다. 메모리(1300) 및 스토리지(1600)는 다양한 종류의 휘발성 또는 불휘발성 저장 매체를 포함할 수 있다. 예를 들어, 메모리(1300)는 ROM(Read Only Memory)(1310) 및 RAM(Random Access Memory)(1320)을 포함할 수 있다. The computing system 1000 includes at least one processor 1100, a memory 1300, a user interface input device 1400, a user interface output device 1500, a storage 1600, And an interface 1700. The processor 1100 may be a central processing unit (CPU) or a memory device 1300 and / or a semiconductor device that performs processing for instructions stored in the storage 1600. Memory 1300 and storage 1600 may include various types of volatile or non-volatile storage media. For example, the memory 1300 may include a ROM (Read Only Memory) 1310 and a RAM (Random Access Memory)

따라서, 본 명세서에 개시된 실시예들과 관련하여 설명된 방법 또는 알고리즘의 단계는 프로세서(1100)에 의해 실행되는 하드웨어, 소프트웨어 모듈, 또는 그 2 개의 결합으로 직접 구현될 수 있다. 소프트웨어 모듈은 RAM 메모리, 플래시 메모리, ROM 메모리, EPROM 메모리, EEPROM 메모리, 레지스터, 하드 디스크, 착탈형 디스크, CD-ROM과 같은 저장 매체(즉, 메모리(1300) 및/또는 스토리지(1600))에 상주할 수도 있다. 예시적인 저장 매체는 프로세서(1100)에 커플링되며, 그 프로세서(1100)는 저장 매체로부터 정보를 판독할 수 있고 저장 매체에 정보를 기입할 수 있다. 다른 방법으로, 저장 매체는 프로세서(1100)와 일체형일 수도 있다. 프로세서 및 저장 매체는 주문형 집적회로(ASIC) 내에 상주할 수도 있다. ASIC는 사용자 단말기 내에 상주할 수도 있다. 다른 방법으로, 프로세서 및 저장 매체는 사용자 단말기 내에 개별 컴포넌트로서 상주할 수도 있다.Thus, the steps of a method or algorithm described in connection with the embodiments disclosed herein may be embodied directly in hardware, in a software module executed by processor 1100, or in a combination of the two. The software module may reside in a storage medium (i.e., memory 1300 and / or storage 1600) such as a RAM memory, a flash memory, a ROM memory, an EPROM memory, an EEPROM memory, a register, a hard disk, a removable disk, You may. An exemplary storage medium is coupled to the processor 1100, which can read information from, and write information to, the storage medium. Alternatively, the storage medium may be integral to the processor 1100. [ The processor and the storage medium may reside within an application specific integrated circuit (ASIC). The ASIC may reside within the user terminal. Alternatively, the processor and the storage medium may reside as discrete components in a user terminal.

상술한 바와 같이, 기존의 문자인식 방법은 자소 하나하나를 분할(segmentation)해서 패턴인식 하는 방법이었으나, 본 발명에 따른 문자통역 장치(100)에 따르면, 마치 음성 인식 처리에서 소정의 프레임 단위(예, 20msec)로 코딩하는 것과 같이 이미지 입력에 대하여 소정의 프레임 단위(예, 15 프레임 등)로 처리하되, 문자구간을 일정 크기로 정규화 한 후 특징 벡터를 추출하고, 문자인식네트워크(150)를 통해 DNN(Deep Neural Network)/HMM(Hidden Markov Model) 학습과 LM(Language Model, 언어모델) 학습을 이용해 문자나 문장을 인식하고 자동번역 및 음성합성과 연계시킬 수 있고 기존 음성 위주의 자동통역 범위를 이미지 상의 문자통역까지 확장할 수 있다.As described above, the conventional character recognition method is a method of recognizing a pattern by segmenting each one of the characters. However, according to the character interpretation device 100 according to the present invention, , 20 msec), the image input is processed in a predetermined frame unit (for example, 15 frames, etc.), the character interval is normalized to a predetermined size, the feature vector is extracted, Using DNN (Deep Neural Network) / HMM (Hidden Markov Model) learning and LM (Language Model) learning, it can recognize characters and sentences, link with automatic translation and voice synthesis, It is possible to extend the interpretation of characters on images.

또한, 이와 같이 자소를 따로 분리하지 않는 방법으로 문자를 인식함으로써 자소를 따로 분리할 때 생기는 오류를 줄일 수 있고 LM을 적용하여 문장인식으로 확장할 수 있으며, 특히, 문자인식을 위한 다양한 형태의 특징벡터 추출과 패턴인식 및 분류에 따르는 기존 방법의 한계를 극복할 수 있다.In addition, by recognizing characters in such a way that they do not separate themselves, it is possible to reduce errors caused by separating the individual characters separately, and to extend them to sentence recognition by applying LM. In particular, We can overcome the limitations of existing methods of vector extraction and pattern recognition and classification.

이상의 설명은 본 발명의 기술 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 다양한 수정 및 변형이 가능할 것이다. The foregoing description is merely illustrative of the technical idea of the present invention, and various changes and modifications may be made by those skilled in the art without departing from the essential characteristics of the present invention.

따라서, 본 발명에 개시된 실시예들은 본 발명의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예에 의하여 본 발명의 기술 사상의 범위가 한정되는 것은 아니다. 본 발명의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 발명의 권리범위에 포함되는 것으로 해석되어야 할 것이다.Therefore, the embodiments disclosed in the present invention are intended to illustrate rather than limit the scope of the present invention, and the scope of the technical idea of the present invention is not limited by these embodiments. The scope of protection of the present invention should be construed according to the following claims, and all technical ideas within the scope of equivalents should be construed as falling within the scope of the present invention.

이미지 이진화부(110)
문자구간 설정부(120)
문자구간 정규화부(130)
문자특징벡터 추출부(140)
문자인식네트워크(150)
후처리부(160)
문자인식부(170)
자동번역부(180)
음성합성부(190)
In the image binarization unit 110,
The character interval setting unit 120
The character interval normalization unit 130
The character characteristic vector extracting unit 140 extracts
The character recognition network 150,
The post-
The character recognition unit 170,
The automatic translation unit (180)
The voice synthesizer 190,

Claims (1)

이미지로부터 문자를 인식해 문자통역을 수행하는 장치에서 문자통역 방법에 있어서,
카메라를 통해 획득된 통역 대상 이미지를 이진화하는 단계; 이진화된 상기 통역 대상 이미지에 포함된 문자들에 대한 문자 구간을 설정하는 단계;
상기 문자 구간을 정규화된 크기로 변경하는 정규화 단계; 정규화된 크기의 상기 문자 구간에서 문자들간 간격 부분의 정보를 배제(skip)해 붙여진 문자들에 대한 문자특징벡터를 추출하는 단계;
소정의 알고리즘에 따른 학습 결과를 통해 생성되어 구축된 문자모델과 언어모델을 이용하여, 상기 문자특징벡터에 대하여 미리 선택된 문자 표기 방식으로, 단어 또는 문장을 인식해 출력하되, 문법에 따라 문자들간 간격과 띄어쓰기를 복원하여 출력하는 단계;
상기 간격과 띄어쓰기의 재확인을 통해 상기 문자들간 간격과 띄어쓰기의 재처리를 포함하는 후처리를 수행하는 단계; 상기 간격과 띄어쓰기가 복원된 상기 단어 또는 문장을 화면에 출력하는 단계;
상기 간격과 띄어쓰기가 복원된 상기 단어 또는 문장에 대해 미리 설정한 상대국 언어로 번역하는 단계; 및 선택에 따라 상기 간격과 띄어쓰기가 복원된 상기 단어 또는 문장 또는 번역된 상기 단어 또는 문장에 대해 음성 출력하는 단계를 포함하는 것을 특징으로 하는 문자통역 방법.
A method of translating a character in an apparatus for recognizing characters from an image and performing character interpretation,
Binarizing an interpretation target image obtained through a camera; Setting a character interval for the characters included in the binarized interpretation target image;
A normalization step of changing the character interval to a normalized size; Extracting a character feature vector for characters pasted with information of an interval between characters in the character interval of a normalized size;
Recognizing and outputting a word or a sentence in a character notation system selected in advance for the character characteristic vector by using a character model and a language model generated and constructed through a learning result according to a predetermined algorithm, And restoring and outputting the spacing;
Performing a post-process including repetition of spacing and spacing between the characters through reconfirmation of the spacing and spacing; Outputting the word or sentence in which the interval and the spacing are restored to the screen;
Translating the spacing and the spacing into a previously set correspondence language for the restored word or sentence; And outputting the voice or the sentence or the translated word or sentence in which the interval and the spacing are restored according to the selection.
KR1020160000283A 2016-01-04 2016-01-04 Text Interpretation Apparatus and Method for Performing Text Recognition and Translation Per Frame Length Unit of Image Withdrawn KR20170081350A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020160000283A KR20170081350A (en) 2016-01-04 2016-01-04 Text Interpretation Apparatus and Method for Performing Text Recognition and Translation Per Frame Length Unit of Image

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020160000283A KR20170081350A (en) 2016-01-04 2016-01-04 Text Interpretation Apparatus and Method for Performing Text Recognition and Translation Per Frame Length Unit of Image

Publications (1)

Publication Number Publication Date
KR20170081350A true KR20170081350A (en) 2017-07-12

Family

ID=59352765

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020160000283A Withdrawn KR20170081350A (en) 2016-01-04 2016-01-04 Text Interpretation Apparatus and Method for Performing Text Recognition and Translation Per Frame Length Unit of Image

Country Status (1)

Country Link
KR (1) KR20170081350A (en)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019004632A1 (en) 2017-06-27 2019-01-03 주식회사 엘지화학 Battery module, and battery pack and vehicle comprising same
WO2019194566A1 (en) * 2018-04-05 2019-10-10 양진호 Apparatus and method for converting text within image to voice
US10509864B2 (en) 2017-11-30 2019-12-17 Samsung Electronics Co., Ltd. Language model translation and training method and apparatus
KR20200072616A (en) 2018-12-12 2020-06-23 김미경 System and Method for Realtime Text Tracking and Translation in Video
WO2021172700A1 (en) * 2020-02-27 2021-09-02 주식회사 와들 System for blocking texts extracted from image, and method therefor
CN113674866A (en) * 2021-06-23 2021-11-19 江苏天瑞精准医疗科技有限公司 Medical text oriented pre-training method
CN113869304A (en) * 2020-06-30 2021-12-31 华为技术有限公司 Video text detection method and device
CN115150624A (en) * 2021-03-29 2022-10-04 瑞昱半导体股份有限公司 Image compression method and circuit system
KR20220164362A (en) 2021-06-04 2022-12-13 주식회사 웨이커 A Method for Creating Stock List Using Artificial Deep Learning based on OCR
CN115841673A (en) * 2022-12-05 2023-03-24 中信银行股份有限公司 Intelligent identification method and system for assertion elements of bank receipt
CN115885323A (en) * 2020-01-08 2023-03-31 谷歌有限责任公司 Translation of text depicted in an image

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019004632A1 (en) 2017-06-27 2019-01-03 주식회사 엘지화학 Battery module, and battery pack and vehicle comprising same
US10509864B2 (en) 2017-11-30 2019-12-17 Samsung Electronics Co., Ltd. Language model translation and training method and apparatus
WO2019194566A1 (en) * 2018-04-05 2019-10-10 양진호 Apparatus and method for converting text within image to voice
KR20200072616A (en) 2018-12-12 2020-06-23 김미경 System and Method for Realtime Text Tracking and Translation in Video
CN115885323A (en) * 2020-01-08 2023-03-31 谷歌有限责任公司 Translation of text depicted in an image
WO2021172700A1 (en) * 2020-02-27 2021-09-02 주식회사 와들 System for blocking texts extracted from image, and method therefor
CN113869304A (en) * 2020-06-30 2021-12-31 华为技术有限公司 Video text detection method and device
CN115150624A (en) * 2021-03-29 2022-10-04 瑞昱半导体股份有限公司 Image compression method and circuit system
KR20220164362A (en) 2021-06-04 2022-12-13 주식회사 웨이커 A Method for Creating Stock List Using Artificial Deep Learning based on OCR
CN113674866A (en) * 2021-06-23 2021-11-19 江苏天瑞精准医疗科技有限公司 Medical text oriented pre-training method
CN115841673A (en) * 2022-12-05 2023-03-24 中信银行股份有限公司 Intelligent identification method and system for assertion elements of bank receipt

Similar Documents

Publication Publication Date Title
KR20170081350A (en) Text Interpretation Apparatus and Method for Performing Text Recognition and Translation Per Frame Length Unit of Image
US11043213B2 (en) System and method for detection and correction of incorrectly pronounced words
EP3685312B1 (en) Method and system for image content recognition
CN111758116B (en) Facial image recognition system, recognizer generation device, recognition device and system
CN111914825B (en) Text recognition methods, devices and electronic equipment
CN112784696A (en) Lip language identification method, device, equipment and storage medium based on image identification
Rajesh et al. Text recognition and face detection aid for visually impaired person using Raspberry PI
CN109660865B (en) Method and device for automatically labeling videos, medium and electronic equipment
KR970029143A (en) Text Recognition Translation System and Voice Recognition Translation System
US20200342896A1 (en) Conference support device, conference support system, and conference support program
JP2003216955A (en) Gesture recognition method, gesture recognition device, dialogue device, and recording medium recording gesture recognition program
KR102345625B1 (en) Caption generation method and apparatus for performing the same
KR102043693B1 (en) Machine learning based document management system
Nagaraja et al. Vision based text recognition using raspberry PI
CN112818680A (en) Corpus processing method and device, electronic equipment and computer-readable storage medium
Tymoshenko et al. Real-Time Ukrainian Text Recognition and Voicing.
Shokoori et al. Sign language recognition and translation into pashto language alphabets
Zaman et al. Python based portable virtual text reader
De Zoysa et al. Project Bhashitha-Mobile based optical character recognition and text-to-speech system
KR20210109894A (en) System for text recognition using neural network and its method
US20200243092A1 (en) Information processing device, information processing system, and computer program product
Rao et al. Orthographic properties based Telugu text recognition using hidden Markov models
CN115273090A (en) Dictation detection method and device and electronic equipment
Gangiredla et al. Design and implementation of smart text reader system for people with vision impairment
Bhardwaj et al. Image Text Reader for Visually Impaired in Desired Language

Legal Events

Date Code Title Description
PA0109 Patent application

Patent event code: PA01091R01D

Comment text: Patent Application

Patent event date: 20160104

PG1501 Laying open of application
PC1203 Withdrawal of no request for examination