KR20170081350A - Text Interpretation Apparatus and Method for Performing Text Recognition and Translation Per Frame Length Unit of Image - Google Patents
Text Interpretation Apparatus and Method for Performing Text Recognition and Translation Per Frame Length Unit of Image Download PDFInfo
- Publication number
- KR20170081350A KR20170081350A KR1020160000283A KR20160000283A KR20170081350A KR 20170081350 A KR20170081350 A KR 20170081350A KR 1020160000283 A KR1020160000283 A KR 1020160000283A KR 20160000283 A KR20160000283 A KR 20160000283A KR 20170081350 A KR20170081350 A KR 20170081350A
- Authority
- KR
- South Korea
- Prior art keywords
- character
- interval
- image
- spacing
- characters
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Classifications
-
- G06F17/2809—
-
- G06F15/18—
-
- G06F17/2705—
-
- G06F17/273—
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
-
- G06K9/344—
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Character Discrimination (AREA)
Abstract
본 발명은 이미지 문자의 입력에 대하여 소정의 프레임 단위로 처리하되, 문자 구간을 일정한 크기로 정규화 한 후 특징 벡터를 추출하고, DNN(Deep Neural Network)/HMM(Hidden Markov Model) 학습과 LM(Language Model, 언어모델) 학습을 이용해 구축한 문자인식네트워크를 탐색하여, 문자나 문장을 인식하고 자동번역 및 음성합성과 연계시킴으로써, 기존 음성 위주의 자동통역 범위를 이미지 상의 문자통역까지 확장할 수 있는, 문자통역 장치 및 방법에 관한 것이다.In the present invention, the input of the image character is processed in units of a predetermined frame, and the character interval is normalized to a predetermined size, and then the feature vector is extracted. The DNN (Deep Neural Network) / HMM (Hidden Markov Model) Model, and language model). By recognizing texts and sentences and linking them with automatic translation and speech synthesis, we can extend the range of automatic interpreter - To a character interpretation apparatus and method.
Description
본 발명은 문자통역 장치 및 방법에 관한 것으로서, 특히, 이미지를 획득한 후 문자구간을 설정하고, 일정한 크기로 정규화한 다음 소정의 프레임 단위로 특징 벡터를 추출하고, DNN(Deep Neural Network)/HMM(Hidden Markov Model) 학습과 LM(Language Model, 언어모델) 학습을 이용해 구축한 문자인식네트워크를 탐색하여 문자나 문장을 인식하고, 자동번역 및 음성합성과 연계시킴으로써, 기존 음성 위주의 자동통역 범위를 이미지 상의 문자통역까지 확장할 수 있는 문자통역 장치 및 방법에 관한 것이다. More particularly, the present invention relates to a character interpretation apparatus and method, and more particularly, to a character interpretation apparatus and method, in which a character interval is set after acquiring an image, normalization is performed to a predetermined size, a feature vector is extracted in units of a predetermined frame, a DNN (Deep Neural Network) (Hidden Markov Model) learning and LM (Language Model) learning to recognize characters and sentences and link them with automatic translation and voice synthesis. To a character interpretation apparatus and method capable of expanding to a character interpretation on an image.
일반적으로, 문자인식 기술은 카메라를 통하여 이미지를 입력 받고 여기에 포함된 문자를 배경으로부터 분리하여 그 특징을 추출한 후 미리 저장된 문자의 특징패턴과 비교하여 가장 유사한 패턴의 텍스트 문자를 인식결과로 나타낸다. 이러한 일반적인 문자인식 기술에 따라, 제한된 범위의 문자나 숫자를 사용하는 일정한 규격의 자동차 번호판 인식이나 우편번호 인식 등의 경우에 높은 문자 인식률을 보이고 있으며 실용화되고 있다.Generally, a character recognition technology receives an image through a camera, extracts the character from the background, extracts the feature, and compares the character with the feature pattern of the previously stored character to display the text character of the most similar pattern as the recognition result. According to this general character recognition technology, character recognition rate is high and it is put into practical use in case of recognizing a license plate of a certain standard using a limited range of letters or numbers or zip code recognition.
그러나, 대부분의 경우에는 문자를 표현함에 있어서, 그 목적과 사용환경에 따라 배경색과의 대비, 크기, 굵기, 띄어쓰기, 붙여쓰기 등의 다양성으로 인하여 동일한 문자일지라도 일관성 있는 특징추출이 곤란하게 되고, 이로 인하여 문자인식의 실용화를 어렵게 하고 있다. 특히, 영어 알파벳과는 달리, 한글의 경우에는 초성, 중성, 종성을 2차원 공간에서 결합하여 음절을 구성하므로 이들을 분리하여 특징패턴을 찾고 다시 결합하는데 어려움을 겪고 있는 게 현실이다.However, in most cases, in expressing characters, it is difficult to extract coherent features even if they are the same character due to the variety of contrast, size, thickness, spacing, pasting, etc., depending on the purpose and environment of use. Which makes it difficult to put the character recognition to practical use. Especially, unlike the English alphabet, in the case of Hangul, the syllable is composed by combining the initial, neutrality, and longitudinal in the two-dimensional space.
그런데, 국내외 여행객의 경우, 해당 지역 사람들과 음성에 의한 의사 소통뿐만 아니라 그 나라의 문자를 이해하지 못하는 데서 오는 불편함이 대단히 크다고 할 수 있다. 이러한 불편을 해소하기 위해서는 대부분의 사람들이 휴대하는 스마트폰의 카메라 기능을 이용하여 좀 더 편리한 방법으로 문자통역이 이루어져야 할 것이 요구된다.However, in case of domestic and international travelers, it is very inconvenient not only to communicate with the local people but also to understand the characters of the country. In order to solve this inconvenience, it is required to use a camera function of a smart phone, which most people carry, to perform a character interpretation in a more convenient manner.
종래 문자인식의 일부 사례를 살펴보면, 자소 분할인식 및 결합, 단어 중심으로 문자인식 및 번역을 수행하는 수준에 머물고 있으며, 문장인식과 통역에까지는 이르지는 못하고 있는 실정이다. 따라서, 단어 중심의 문자인식에서 벗어나 문장까지 인식할 수 있는 문자인식 방법과 기술을 확보하여 문자통역 서비스를 제공할 필요성이 절실하다.In some cases of conventional character recognition, character recognition and translation are carried out at the level of recognition and combination of consonant division, word recognition, and translation. Therefore, there is an urgent need to provide a character interpretation service by securing a character recognition method and a technique capable of recognizing sentences even beyond word-based character recognition.
따라서, 본 발명은 상술한 문제점을 해결하기 위하여 안출된 것으로, 기존의 문자인식 방법은 자소 하나하나를 분할(segmentation)해서 패턴인식 하는 방법이었으나, 본 발명에서는 자소를 따로 분리하지 않는 방법으로 문자를 인식함으로써 자소를 따로 분리할 때 생기는 오류를 줄일 수 있고 LM을 적용하여 문장인식으로 확장할 수 있으며, 특히, 문자인식을 위한 다양한 형태의 특징벡터 추출과 패턴인식 및 분류에 따르는 기존 방법의 한계를 극복하기 위하여, 마치 음성 인식 처리에서 소정의 프레임 단위(예, 20msec)로 처리하는 것과 같이, 이미지 입력에 대하여 문자구간의 크기를 정규화한 후 소정의 프레임 단위(예, 15 프레임 등)로 특징 벡터를 추출하고, DNN(Deep Neural Network)/HMM(Hidden Markov Model) 학습과 LM(Language Model, 언어모델) 학습을 이용해 구축한 문자인식네트워크를 탐색하여, 문자나 문장을 인식하고 자동번역 및 음성합성과 연계시킬 수 있고 기존 음성 위주의 자동통역 범위를 이미지 상의 문자통역까지 확장할 수 있는, 문자통역 장치 및 방법을 제공하는 데 있다. SUMMARY OF THE INVENTION The present invention has been made in order to solve the above-mentioned problems, and an object of the present invention is to provide a character recognition method and a character recognition method, In this paper, we propose a new method for extracting feature vectors from various types of text recognition and pattern recognition and classification. In order to overcome the above problem, the size of the character interval is normalized with respect to the image input such that the processing is performed in a predetermined frame unit (for example, 20 msec) in the speech recognition processing, Which is constructed using DNN (Deep Neural Network) / HMM (Hidden Markov Model) learning and LM (Language Model) learning. The present invention provides a character interpretation apparatus and method capable of searching for a recognized network, recognizing a character or a sentence, linking it with automatic translation and voice synthesis, and expanding an existing automatic voice interpretation range to a character interpretation on an image .
본 발명의 기술적 과제들은 이상에서 언급한 기술적 과제들로 제한되지 않으며, 언급되지 않은 또 다른 기술적 과제들은 아래의 기재들로부터 당업자에게 명확하게 이해될 수 있을 것이다.The technical problems of the present invention are not limited to the above-mentioned technical problems, and other technical problems which are not mentioned can be understood by those skilled in the art from the following description.
먼저, 본 발명의 특징을 요약하면, 상기의 목적을 달성하기 위한 본 발명의 일면에 따른 이미지로부터 문자를 인식해 문자통역을 수행하는 장치에서 문자통역 방법은, 카메라를 통해 획득된 통역 대상 이미지를 이진화하는 단계; 이진화된 상기 통역 대상 이미지에 포함된 문자들에 대한 문자 구간을 설정하는 단계; 상기 문자 구간을 정규화된 크기로 변경하는 정규화 단계; 정규화된 크기의 상기 문자 구간에서 문자들간 간격 부분의 정보를 배제(skip)해 붙여진 문자들에 대한 문자특징벡터를 추출하는 단계; 소정의 알고리즘에 따른 학습 결과를 통해 생성되어 구축된 문자모델과 언어모델을 이용하여, 상기 문자특징벡터에 대하여 미리 선택된 문자 표기 방식으로, 단어 또는 문장을 인식해 출력하되, 문법에 따라 문자들간 간격과 띄어쓰기를 복원하여 출력하는 단계; 상기 간격과 띄어쓰기의 재확인을 통해 상기 문자들간 간격과 띄어쓰기의 재처리를 포함하는 후처리를 수행하는 단계; 상기 간격과 띄어쓰기가 복원된 상기 단어 또는 문장을 화면에 출력하는 단계; 상기 간격과 띄어쓰기가 복원된 상기 단어 또는 문장에 대해 미리 설정한 상대국 언어로 번역하는 단계; 및 선택에 따라 상기 간격과 띄어쓰기가 복원된 상기 단어 또는 문장 또는 번역된 상기 단어 또는 문장에 대해 음성 출력하는 단계를 포함한다.According to another aspect of the present invention, there is provided an apparatus for recognizing a character from an image according to an embodiment of the present invention to perform a character interpretation, the method comprising: Binarizing; Setting a character interval for the characters included in the binarized interpretation target image; A normalization step of changing the character interval to a normalized size; Extracting a character feature vector for characters pasted with information of an interval between characters in the character interval of a normalized size; Recognizing and outputting a word or a sentence in a character notation system selected in advance for the character characteristic vector by using a character model and a language model generated and constructed through a learning result according to a predetermined algorithm, And restoring and outputting the spacing; Performing a post-process including repetition of spacing and spacing between the characters through reconfirmation of the spacing and spacing; Outputting the word or sentence in which the interval and the spacing are restored to the screen; Translating the spacing and the spacing into a previously set correspondence language for the restored word or sentence; And outputting the speech or the sentence or the translated word or sentence in which the interval and the spacing are restored according to the selection.
이진화된 상기 통역 대상 이미지에 포함된 문자들은 밝은 배경색에 검은 문자 또는 검은 배경색에 밝은 문자의 형태를 포함한다.The characters included in the binarized interpretation target image include a black character in a light background color or a bright character in a black background color.
상기 문자 구간을 설정하는 단계에서, 이진화된 상기 통역 대상 이미지에서 문자들이 있는 영역의, 행값의 최대값과 최소값, 및 컬럼값의 최대값과 최소값으로 정해지는 박스 형태의 상기 문자 구간을 설정할 수 있다.In the step of setting the character interval, the character interval of the box type determined by the maximum value and the minimum value of the row value and the maximum value and the minimum value of the column value of the area where the characters exist in the binarized interpretation target image can be set .
상기 정규화 단계에서, 상기 문자 구간의 높이 최대값과 높이 최소값의 차이에 대한 소정의 값의 비율로 결정된 조정비율에 따라 상기 문자 구간을 일정한 크기로 정규화할 수 있다.In the normalization step, the character interval may be normalized to a predetermined size according to an adjustment ratio determined by a ratio of a predetermined value to a difference between a maximum height value and a minimum height value of the character interval.
상기 문자특징벡터를 추출하는 단계에서, 정규화된 크기의 상기 문자 구간의 화소 마다 밝기에 따라 1, 또는 0의 값을 갖는 상기 문자특징벡터를 추출할 수 있다.In the step of extracting the character feature vector, the character feature vector having a value of 1 or 0 may be extracted for each pixel of the character interval having the normalized size according to the brightness.
상기 단어 또는 문장을 인식해 출력하는 단계에서, 이미지에 포함된 문자에 대한 반복적인 HMM(Hidden Markov Model) 학습 결과를 통해 생성되어 구축된 상기 문자모델, 및 상기 이미지에 포함된 단어나 문장에 대한 반복적인 LM(Language Model) 학습 결과를 통해 생성되어 구축된 상기 언어모델을 이용할 수 있다.Recognizing and outputting the word or sentence, the character model generated and constructed through an iterative HMM (Hidden Markov Model) learning result on the character included in the image, and a word or sentence included in the image The language model created and constructed through the repeated LM (Language Model) learning results can be used.
상기 단어 또는 문장을 인식해 출력하는 단계에서, 이미지문자 DB에 저장된 이미지 정보 및 그에 포함된 각 문자구간의 이미지 상태 인식결과 정보를 참조하여 HMM 학습을 수행하여 상기 문자특징벡터와 비교될 단어 또는 문장의 기준 패턴에 대하여 관리되는 상기 문자모델, 및 텍스트언어 DB에 포함된 각 문자구간에 대한 단어 또는 문장의 정보를 참조하여 LM 학습을 수행하여 정해진 문법에 맞는 상기 단어 또는 문장의 인식에 참조하기 위해 관리되는 상기 언어모델을 이용할 수 있다.In the step of recognizing and outputting the word or sentence, HMM learning is performed by referring to the image information stored in the image character DB and the image state recognition result information of each character interval included therein, The LM learning is performed with reference to the character model managed for the reference pattern of the character string and the word or sentence information of each character section included in the text language DB to refer to recognition of the word or sentence according to the determined grammar The language model being managed can be used.
그리고, 본 발명의 다른 일면에 따른 이미지로부터 문자를 인식해 문자통역을 수행하는 문자통역 장치는, 카메라를 통해 통역 대상 이미지를 획득하고 이진화하는 이미지 이진화부; 이진화된 상기 통역 대상 이미지에 포함된 문자들에 대한 문자 구간을 설정하는 문자구간 설정부; 상기 문자 구간을 정규화된 크기로 변경하는 문자구간 정규화부; 정규화된 크기의 상기 문자 구간에서 문자들간 간격 부분의 정보를 배제(skip)해 붙여진 문자들에 대한 문자특징벡터를 일정한 크기의 프레임 단위로 추출하는 문자특징벡터 추출부; 소정의 알고리즘에 따른 학습 결과를 통해 생성되어 구축된 문자모델과 언어모델을 이용하여, 상기 문자특징벡터에 대하여 미리 선택된 문자 표기 방식으로, 단어 또는 문장을 인식해 출력하되, 문법에 따라 문자들간 간격과 띄어쓰기를 복원하여 출력하는 문자인식네트워크; 상기 간격과 띄어쓰기의 재확인을 통해 상기 문자들간 간격과 띄어쓰기의 재처리를 포함하는 후처리를 수행하는 후처리부; 상기 간격과 띄어쓰기가 복원된 상기 단어 또는 문장을 화면에 출력하는 문자인식부; 상기 간격과 띄어쓰기가 복원된 상기 단어 또는 문장에 대해 미리 설정한 상대국 언어로 번역하는 자동번역부; 및 선택에 따라 상기 간격과 띄어쓰기가 복원된 상기 단어 또는 문장 또는 번역된 상기 단어 또는 문장에 대해 음성 출력하는 음성합성부를 포함한다.According to another aspect of the present invention, there is provided a character interpretation apparatus for recognizing a character and performing character interpretation, the apparatus comprising: an image binarization unit for acquiring and binarizing an interpretation target image through a camera; A character segment setting unit for setting a character segment for characters included in the binarized interpretation target image; A character interval normalization unit for changing the character interval to a normalized size; A character feature vector extraction unit for extracting a character feature vector for characters pasted with information of an interval between characters in the character interval of a normalized size in frame units of a predetermined size; Recognizing and outputting a word or a sentence in a character notation system selected in advance for the character characteristic vector by using a character model and a language model generated and constructed through a learning result according to a predetermined algorithm, And a character recognition network for restoring and outputting the spacing; A post-processing unit for performing post-processing including repetition of the spacing and spacing between the characters through reconfirmation of the spacing and spacing; A character recognition unit for outputting the word or sentence in which the interval and the spacing are restored to the screen; An automatic translation unit for translating the word or sentence in which the interval and the spacing are restored into a preset language of the partner country; And a speech synthesizer for outputting the speech or words of the word or sentence or the translated word or sentence in which the interval and the spacing are restored according to the selection.
이진화된 상기 통역 대상 이미지에 포함된 문자들은 밝은 배경색에 검은 문자 또는 검은 배경색에 밝은 문자의 형태를 포함할 수 있다.The characters included in the binarized interpretation target image may include a black character in a light background color or a bright character in a black background color.
상기 문자구간 설정부는, 이진화된 상기 통역 대상 이미지에서 문자들이 있는 영역의, 행값의 최대값과 최소값, 및 컬럼값의 최대값과 최소값으로 정해지는 박스 형태의 상기 문자 구간을 설정할 수 있다.The character interval setting unit may set the maximum value and the minimum value of the row value of the area where the characters exist in the binarized interpretation target image and the character interval of the box type determined by the maximum value and the minimum value of the column value.
상기 문자구간 정규화부는, 상기 문자 구간의 높이 최대값과 높이 최소값의 차이에 대한 소정의 값의 비율로 결정된 조정비율에 따라 상기 문자 구간을 일정한 크기로 정규화할 수 있다.The character interval normalization unit may normalize the character interval to a predetermined size according to an adjustment ratio determined by a ratio of a predetermined value to a difference between a maximum height value and a minimum height value of the character interval.
상기 문자특징벡터 추출부는, 정규화된 크기의 상기 문자 구간의 화소 마다 밝기에 따라 1, 또는 0의 값을 갖는 상기 문자특징벡터를 추출할 수 있다.The character characteristic vector extraction unit may extract the character characteristic vector having a value of 1 or 0 according to the brightness for each pixel of the character interval of the normalized size.
상기 문자인식네트워크는, 이미지에 포함된 문자에 대한 반복적인 HMM(Hidden Markov Model) 학습 결과를 통해 생성되어 구축된 상기 문자모델, 및 상기 이미지에 포함된 단어나 문장에 대한 반복적인 LM(Language Model) 학습 결과를 통해 생성되어 구축된 상기 언어모델을 이용할 수 있다.The character recognition network includes a character model generated and constructed through a repetitive HMM learning result on characters included in the image, and a repetitive LM (Language Model) for a word or a sentence included in the image ) ≪ / RTI > learning result.
상기 문자인식네트워크는, 이미지문자 DB에 저장된 이미지 정보 및 그에 포함된 각 문자구간의 이미지 상태 인식결과 정보를 참조하여 HMM 학습을 수행하여 상기 문자특징벡터와 비교될 단어 또는 문장의 기준 패턴에 대한 상기 문자모델을 관리하고, 텍스트언어 DB에 포함된 각 문자구간에 대한 단어 또는 문장의 정보를 참조하여 LM 학습을 수행하여 정해진 문법에 맞는 상기 단어 또는 문장을 인식하기 위하여 참조될 상기 언어모델을 관리할 수 있다.The character recognition network performs HMM learning with reference to image information stored in the image character DB and image state recognition result information of each character interval included in the image character DB, Manages the character model, manages the language model to be referred to in order to recognize the word or sentence according to a predetermined grammar by performing LM learning with reference to information of a word or a sentence of each character section included in the text language DB .
본 발명에 따른 문자통역 장치 및 방법에 따르면, 기존 음성 위주의 자동통역 범위를 확장하여, 이미지 상의 문자통역에 이르기까지 확대하는 효과를 갖는다. 특히, 문자인식에 따른 다양한 형태의 문자특징과 패턴인식 및 분류 등의 절차를 이미지 상의 문자(이미지 문자)에 대한 프레임 단위의 특징벡터 추출과, 이미지 문자 DB에 대한 HMM 학습, 텍스트 언어 DB에 대한 LM 학습, 문자인식네트워크(학습에 의해 생성된 파라미터에 의해 구성됨) 탐색에 의해 효율적으로 처리되도록 함으로써, 종래와 같이 자소를 따로 분리하지 않는 방법으로 문자를 인식함으로써 자소를 따로 분리할 때 생기는 오류를 줄일 수 있다. 또한, 자동번역 및 음성합성과 연계시킴으로써 문자통역을 쉽게 실현하는 효과를 갖는다.According to the character interpretation apparatus and method according to the present invention, the automatic interpretation range of conventional voice is expanded, and the effect is expanded to the character interpretation on the image. In particular, the procedure of various types of character characteristics and pattern recognition and classification according to character recognition is performed by extracting feature vectors in units of frames (characters) on an image, HMM learning for image character DB, LM learning, and character recognition network (constituted by parameters generated by learning), thereby recognizing the characters in a manner that does not separate them separately as in the conventional method. Can be reduced. In addition, it has an effect of easily realizing a character interpretation by linking with automatic translation and voice synthesis.
또한, 본 발명에 따른 문자통역 장치 및 방법에 따르면, 문자구간 설정을 자동화함으로써 문자인식 대상 구간을 사용자가 일일이 설정해야 하는 불편을 해소할 수 있다. 아울러, 잡영 등에 의해 문자구간 설정에 오류가 발생하거나 사용자의 필요에 따라 문자인식 구간을 사용자가 직접 설정 및 변경할 수 있다. 한편, 배경색과 글자색의 대비 관계(예, 밝은 배경색에 검은 문자, 검은 배경색에 밝은 문자)가 다양하므로 문자구간 설정 과정에서 이를 감안하여, 배경 색과 글자의 색이 반전되어 있는 경우에도 문자구간과 배경이 식별될 수 있도록 할 수 있다.Further, according to the character interpretation apparatus and method according to the present invention, it is possible to eliminate the inconvenience that the user has to individually set the character recognition target section by automating the character segment setting. In addition, the user may manually set or change the character recognition section according to the user's needs, if an error occurs in the character section setting by miscellaneous. On the other hand, since there is a contrast relationship between the background color and the character color (for example, a black character in a light background color and a bright character in a black background color), it is considered in the character interval setting process, And the background can be identified.
또한, 본 발명에 따른 문자통역 장치 및 방법에 따르면, 문자구간 정규화를 통하여 문자특징벡터의 크기를 일정하게 함으로써 문자의 크기와 띄어쓰기 등이 다양한 형태의 문자특징벡터 추출로 인한 복잡도를 해소할 수 있다.In addition, according to the apparatus and method for translating a character according to the present invention, the size of the character feature vector can be made constant through character segment normalization, thereby eliminating the complexity due to extraction of various types of character feature vectors such as character size and spacing .
또한, 본 발명에 따른 문자통역 장치 및 방법에 따르면, 문자특징벡터를 추출함에 있어서 다양하게 띄어 쓴 문자의 간격을 붙여서 추출하되, 문자인식네트워크 탐색 및 후처리 단계에서 음절, 단어 및 어절이 구분되도록 함으로써, 문자인식 과정에서의 과도한 특징 파라미터 생성과 계산량 증가를 방지한다.According to the character interpretation apparatus and method according to the present invention, when extracting character characteristic vectors, it is possible to distinguish syllables, words, and phrases in a character recognition network search and post- Thereby preventing an excessive feature parameter generation and an increase in the amount of calculation in the character recognition process.
또한, 본 발명에 따른 문자통역 장치 및 방법에 따르면, 이미지문자 DB를 활용하여 HMM 학습하고, 텍스트언어DB를 활용하여 LM 학습하여, 문자인식에 필요한 파라미터를 생성하고 문자인식네트워크를 구축함으로써, 기존의 문자인식에 따른 다양한 특징 파라미터 생성과 패턴인식 및 분류를 효과적으로 대체할 수 있다.Further, according to the apparatus and method for translating a character according to the present invention, HMM learning using an image character DB and LM learning using a text language DB to generate parameters necessary for character recognition and building a character recognition network, It is possible to effectively replace various feature parameter generation, pattern recognition, and classification according to the character recognition.
또한, 본 발명에 따른 문자통역 장치 및 방법에 따르면, 문장을 포함한 문자인식 결과는 상대국 언어로 자동번역과 음성합성을 통해 문자통역이 실현될 수 있으며, 이를 위한 환경설정을 최대한 활용함으로써 음성기반 자동통역 자원을 효과적으로 활용할 수 있다.In addition, according to the apparatus and method for translating a character according to the present invention, a character interpretation result can be realized through automatic translation and speech synthesis in the language of the correspondent station including the sentence, Interpreter resources can be utilized effectively.
또한, 본 발명에 따른 문자통역 장치 및 방법에 따르면, 문자인식 단어와 문장의 합성음을 필요에 따라 출력해 볼 수 있도록 함으로써, 상대국 언어의 발성음을 청취하고 익힐 수 있다.In addition, according to the apparatus and method for translating a character according to the present invention, a synthesized voice of a character recognition word and a sentence can be output as needed, so that a voice of a partner station can be heard and learned.
도 1은 본 발명의 일 실시예에 따른 문자인식 기반의 문자통역을 위한, 사용자 단말에 포함된 문자통역 장치의 구성도이다.
도 2는 도 1의 문자구간 설정부에서의 문자구간 설정의 자동화 순서와 절차를 설명하기 위한 순서도이다.
도 3은 도 1에서의 문자구간 정규화부에서 문자특징벡터 추출의 규격화를 위해 소정의 문자 높이(height)를 기준으로 문자구간의 크기를 조정하는 절차를 설명하기 위한 순서도이다.
도 4는 도 1의 문자특징벡터 추출부에서 좌에서 우로 진행하면서 높이의 화소값을 추출하여 문자특징벡터를 추출하는 절차를 설명하기 위한 순서도이다.
도 5는 도 1의 이미지문자 DB에 저장된, 카메라 이미지와 각 문자구간의 정보 파일에 대한 예시도이다.
도 6은 도 1의 텍스트언어 DB에 저장된, 이미지에 포함된 문자에 대한 정보를 각각의 파일에 기록한, 그 파일의 이름, 각 이미지 번호와 이에 포함된 문자 정보에 대한 예시도이다.
도 7은 도 1의 문자인식네트워크에서 이미지 문자로부터 프레임 단위로 추출된 특징벡터에 대하여, HMM 및 LM 파라미터로 결합된 문자를 탐색하는 방법에 대한 개념도이다.
도 8은 본 발명의 일 실시예에 따른 문자통역 장치의 구현 방법의 일례를 설명하기 위한 도면이다.1 is a block diagram of a character interpretation apparatus included in a user terminal for character interpretation based on a character recognition according to an embodiment of the present invention.
FIG. 2 is a flow chart for explaining an automatic procedure and procedure for character interval setting in the character interval setting unit of FIG. 1. FIG.
FIG. 3 is a flowchart for explaining a procedure for adjusting the size of a character segment based on a predetermined character height for standardization of character feature vector extraction in the character segment normalization unit in FIG. 1. FIG.
FIG. 4 is a flowchart for explaining a procedure of extracting a character feature vector by extracting a pixel value of height while proceeding from left to right in the character feature vector extraction unit of FIG.
5 is an exemplary view of a camera image and an information file of each character interval stored in the image character DB of FIG.
FIG. 6 is an exemplary view showing name, image number, and character information included in the file, in which information on characters included in the image stored in the text language DB of FIG. 1 is recorded in each file.
FIG. 7 is a conceptual diagram of a method for searching for a character combined with an HMM and an LM parameter for a feature vector extracted in units of frames from an image character in the character recognition network of FIG. 1. FIG.
8 is a diagram for explaining an example of a method of implementing a character interpretation apparatus according to an embodiment of the present invention.
이하, 본 발명의 일부 실시예들을 예시적인 도면을 통해 상세하게 설명한다. 각 도면의 구성요소들에 참조부호를 부가함에 있어서, 동일한 구성요소들에 대해서는 비록 다른 도면상에 표시되더라도 가능한 한 동일한 부호를 가지도록 하고 있음에 유의해야 한다. 또한, 본 발명의 실시예를 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 발명의 실시예에 대한 이해를 방해한다고 판단되는 경우에는 그 상세한 설명은 생략한다.Hereinafter, some embodiments of the present invention will be described in detail with reference to exemplary drawings. It should be noted that, in adding reference numerals to the constituent elements of the drawings, the same constituent elements are denoted by the same reference symbols as possible even if they are shown in different drawings. In the following description of the embodiments of the present invention, a detailed description of known functions and configurations incorporated herein will be omitted when it may make the difference that the embodiments of the present invention are not conclusive.
본 발명의 실시예의 구성 요소를 설명하는 데 있어서, 제 1, 제 2, A, B, (a), (b) 등의 용어를 사용할 수 있다. 이러한 용어는 그 구성 요소를 다른 구성 요소와 구별하기 위한 것일 뿐, 그 용어에 의해 해당 구성 요소의 본질이나 차례 또는 순서 등이 한정되지 않는다. 또한, 다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가진다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 의미를 가진 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.In describing the components of the embodiment of the present invention, terms such as first, second, A, B, (a), and (b) may be used. These terms are intended to distinguish the constituent elements from other constituent elements, and the terms do not limit the nature, order or order of the constituent elements. Also, unless otherwise defined, all terms used herein, including technical or scientific terms, have the same meaning as commonly understood by one of ordinary skill in the art to which this invention belongs. Terms such as those defined in commonly used dictionaries should be interpreted as having a meaning consistent with the meaning in the context of the relevant art and are to be interpreted in an ideal or overly formal sense unless explicitly defined in the present application Do not.
도 1은 본 발명의 일 실시예에 따른 문자인식 기반의 문자통역을 위한, 사용자 단말(20)에 포함된 문자통역 장치(100)의 구성도이다. 도 1을 참조하여 본 발명에 따른 프레임 단위의 특징벡터 추출에 의한 문자인식 기반 문자통역의 전반적인 구조와 구동 순서를 설명하기로 한다. 1 is a block diagram of a
본 발명의 문자통역 장치(100)는 카메라(21)와 함께 구동될 수 있도록 전용 장치로 구현될 수도 있고, 스마트폰 등 카메라(21)가 장착된 사용자 단말(20)에 내장될 수도 있다. 사용자 단말(20)은 스마트폰 이외에도 음성/영상 전화 통화가능한 웨어러블 디바이스, 테블릿 PC, 노트북 PC, 등 무선 단말일 수도 있고, 또는 데스크탑 PC 기타 통신 단말기 등 유선 단말일 수도 있다.The
먼저, 사용자는 자국어(예, 한글)로 상대방과 의사 소통이 안되는 경우에, 사용자 단말(20)에 탑재된 소정의 응용 프로그램을 실행시킴으로써, 화면에서 문자통역(버튼)(26) 또는 음성통역(버튼)(27) 중 어느 방식을 선택하여 상대방과 의사 소통할 수 있도록 지원받을 수 있다. 음성통역(27)은 자국어와 상대국 언어(예, 미리 설정된 영어, 일어,,, 등)의 음성 입력에 대한 언어 간 번역 결과를 사용자 단말(20) 화면 또는 스피커(28)를 통해 출력하여 의사 소통이 이루어지도록 지원하는 것이고, 여기서는 음성통역(27)에 대하여 자세한 설명을 생략한다. First, when the user can not communicate with the other party in the native language (e.g., Korean), the user executes a predetermined application program loaded on the
본 발명에 따른 문자인식 기반의 문자통역을 위해, 사용자 단말(20) 화면에서 사용자가 문자통역(26)을 선택하면, 카메라(21)가 작동되고 카메라(21)가 향하는 방향에 대한 이미지(22)가 화면 상에 나타난다. 사용자는 카메라(21)가 소정의 이미지(10)로 향하게 하고, 이미지(10) 중 통역하고자 하는 문자 포함 부분에 대한 이미지, 즉, 통역 대상 이미지(29)를 촬영하여 획득할 수 있다. 예를 들어, 화면에 표시되는 소정의 마크(예, +)가 이미지(10)의 통역하고자 하는 문자 포함 부분의 중앙에 오도록 설정하고 촬영하여 해당 부분이 포함한 일정 영역의 통역 대상 이미지(29)를 획득할 수 있다. 하기에서 문자통역(26)에서 필요한 설정과 자원은 음성통역(27)에 이미 존재하거나 설정되어 있는 경우에는 이들을 최대한 활용한다. 즉, 문자통역(26) 또는 음성통역(27)을 위해 필요한 설정과 자원은 서로 공유되어 활용될 수 있다.When the user selects the
위에서 카메라(21)를 통해 획득된 통역 대상 이미지(29)는 소정의 프레임 단위(예, 15 프레임 등)로 이루어져, 사용자 단말(20)에 포함된 문자통역 장치(100)에서 해당 프레임 단위로 처리되어, 문자 인식(24)이 이루어지고 상대국 언어(예, 미리 설정된 영어, 일어,,, 등)로 자동 번역(25)되며 필요시 스피커(28)를 통해 인식된 문자(또는 문장) 또는 상대국 언어로 번역된 문자(또는 문장)가 음성으로 합성되어 출력될 수도 있다.The
도 1을 참조하면, 본 발명의 일 실시예에 따른 사용자 단말(20)에 포함된 문자통역 장치(100)는, 이미지 이진화부(110), 문자구간 설정부(120), 문자구간 정규화부(130), 문자특징벡터 추출부(140), 문자인식네트워크(150), 후처리부(160), 문자인식부(170), 자동번역부(180), 음성합성부(190)를 포함한다.1, a
이미지 이진화부(110)는 카메라(21)를 통해 획득된 통역 대상 이미지(29)를 이진화한다. 예를 들어, 화소 마다 밝기값이 소정의 임계치를 넘으면 1, 그렇지 않으면 0으로 치환하는 방식으로 이진화될 수 있다. 이때, 통역 대상 이미지(29)가 칼라영상인 경우 회색조(grayscale)로 변환된 후, 국소별 임계값(Locally threshold) 비교가 이루어질 수 있다. The image binarization unit 110 binarizes the
문자구간 설정부(120)는 이진화된 통역 대상 이미지(29)에서 문자 부분을 인식해 모든 문자가 포함되도록 문자 구간(또는 영역)을 설정한다(도 2참조). 문자구간 설정부(120)는 카메라(21) 지향 방향을 중심으로 상하좌우로 문자의 화소값을 확인하여 해당 문자구간을 자동 설정할 수 있다. 이와 같이 문자구간 설정을 자동화함으로써 문자인식 대상 구간을 사용자가 일일이 설정해야 하는 불편을 해소할 수 있다. The character interval setting unit 120 recognizes the character portion in the binarized
아울러, 잡영 등에 의해 문자구간 설정에 오류가 발생하거나 사용자가 직접 설정할 필요성이 있는 경우에는, 화면 상의 소정의 메뉴에서의 선택에 따라 사용자가 직접 문자인식 구간을 설정 및 변경하는 것이 지원될 수 있다. 이는 문자구간 설정부(120)에 의해 지원될 수 있다.In addition, when there is an error in the setting of the character interval by a miscellaneous or the like, or when it is necessary for the user to directly set, it is possible that the user directly sets and changes the character recognition interval according to the selection on the predetermined menu on the screen. This can be supported by the character interval setting unit 120. [
또한, 배경색과 글자색의 대비 관계(예, 밝은 배경색에 검은 문자, 검은 배경색에 밝은 문자)가 다양하므로, 문자구간 설정부(120)가 문자 구간을 자동 설정하는 경우에, 문자구간 설정 과정에서 문자구간과 배경을 식별하여, 문자구간을 설정할 수 있다. 예를 들어, 배경색과 글자색의 각 화소수를 함께 산출한 후 이들의 빈도를 분석하여, 문자 부분을 인식함으로써 모든 문자가 포함되도록 문자 구간(또는 영역)을 설정할 수 있다. 즉, 빈도가 작은 쪽이 문자 부분일 수 있다. In addition, when there is a contrast between the background color and the character color (for example, black characters in a light background color and bright characters in a black background color), when the character region setting unit 120 automatically sets a character region, You can set the character interval by identifying the character interval and background. For example, it is possible to calculate the number of pixels of the background color and the character color together, analyze the frequency thereof, and set the character interval (or area) so that all the characters are included by recognizing the character portion. That is, the smaller frequency may be the character portion.
문자구간 정규화부(130)는 상기 모든 문자가 포함된 문자 구간을 미리 정한 소정의 크기로 정규화한다(도 3 참조). 즉, 통역 대상 이미지(29) 상의 문자의 크기는 다양하게 획득될 수 있으므로, 일정 정규화된 크기로 변경한다. 이와 같이 문자크기의 다양성에 대처하여 문자구간 크기의 정규화를 수행하여 문자의 높이를 기준으로 문자구간이 일정한 크기로 조정되게 함으로써, 문자특징벡터의 크기를 일정하게 규격화할 수 있고 문자의 크기와 띄어쓰기 등이 다양한 형태의 문자특징벡터 추출로 인한 복잡도를 해소할 수 있다. The character interval normalization unit 130 normalizes the character interval including all the characters to a predetermined size (see FIG. 3). That is, since the size of characters on the
문자특징벡터 추출부(140)는 상기 정규화 크기로 변경된 이미지(정규화된 문자구간)에 대하여 좌측(컬럼)으로부터에서 우측(컬럼)으로 진행하면서 각 문자의 상하 높이에 대한 판단을 통해 문자특징벡터를 생성하되, 인식된 문자들이 띄어쓰기 없이 붙여진 상태로 추출되도록 문자특징벡터를 생성한다(도 4 참조). 예를 들어, 정규화 크기로 변경된 이미지에 대하여 좌측(컬럼)으로부터에서 우측(컬럼)으로 진행하면서, 문자 부분의 상하(세로축)를 기준으로 화소 마다 밝기에 따라 1, 또는 0으로 특징벡터를 부여하되, 일정 크기 이상의 문자 간격이나 띄어쓰기를 제거해, 인식된 문자들이 띄어쓰기 없이(또는 최소의 화소 간격) 붙여진 상태로 추출되도록 붙여진 문자들에 대한 문자특징벡터를 추출할 수 있다. 이와 같은 특징벡터를 결합하면 23과 같이 문자의 형상을 확인해볼 수도 있다. 문자특징벡터 추출부(140)에서 배제된 문자 간격 및 띄어쓰기는 문자인식네트워크(150) 탐색 과정에서 언어모델에 따라 문법에 맞는 단어만 인식하는 방법 등을 통하여 복원되고 후처리부(160)에서 문법에 따라 상기 문자 간격 및 띄어쓰기가 맞는지 여부 등의 재확인을 통해 문자 간격 및 띄어쓰기 재처리 등 필요한 처리를 더 수행하게 할 수 있다. The character characteristic vector extracting unit 140 extracts a character characteristic vector from the left (column) to the right (column) with respect to the image (normalized character interval) changed to the normalized size , And generates a character feature vector so that recognized characters are extracted without being pasted in a space (see FIG. 4). For example, a feature vector is assigned to 1 or 0 according to brightness for each pixel based on the vertical (vertical axis) of the character portion while proceeding from the left side (column) to the right side (column) with respect to the image changed to the normalized size , It is possible to extract a character feature vector for characters pasted so that recognized characters are spaced apart (or at minimum pixel intervals) by removing character spacing or spacing beyond a certain size. If we combine these feature vectors, we can check the shape of the characters like 23. The character spacing and spacing excluded by the character characteristic vector extracting unit 140 are restored through a method of recognizing only words that match the grammar according to the language model in the search process of the
이와 같이 문자 특징벡터를 기초로 다양하게 띄어 쓴 문자들을 간격 없이 붙여진 상태로 추출함으로써, 문자 띄어쓰기의 다양성에 따른 복잡도를 개선하고 문자인식 과정에서의 과도한 특징 파라미터 생성과 계산량 증가를 방지할 수 있다. 음절, 단어 및 어절 등의 구분에 따른 띄어쓰기의 복원은, 하기와 같이 문자인식네트워크 탐색 및 후처리 과정을 통해 이루어질 수 있다. By extracting variously spaced characters based on the character feature vector in a state without space, it is possible to improve the complexity according to the diversity of character spacing and to prevent excessive feature parameter generation and increase in the amount of calculation in the character recognition process. The restoration of the spacing according to the distinction of syllables, words and phrases can be performed through a character recognition network searching and post-processing process as described below.
문자인식네트워크(150)는, 이미지문자 DB(151)의 정보(도 5 참조)에 기초하여, 이미지에 포함된 문자에 대한 반복적인 HMM 학습 결과를 통해 생성되어 구축된 문자모델(153), 및 텍스트언어 DB(152)의 정보(도 6 참조)에 기초하여 이미지에 포함된 단어나 문장 등의 언어에 대한 반복적인 LM 학습 결과를 통해 생성되어 구축된 언어모델(154)을 이용하여, 상기 인식된 문자들이 띄어쓰기 없이 붙여진 상태로 추출되도록 생성된 문자특징벡터에 대하여, 해당 문자들(단어 또는 문장)을 인식해 출력한다. 문자 표기(155) 모드는 사용자에 의해 적절히 선택될 수 있으며, 예를 들어, 한글 문자 표기에서 인식단위 음절은 문자처리의 편의상 로마자 표기방식을 따르는 것으로 가정된다. The
이와 같이 이미지문자 DB(151)를 활용하여 HMM 학습하고, 텍스트언어 DB(152)를 활용하여 LM 학습하여, 문자인식에 필요한 파라미터를 생성하고 문자인식네트워크(150)를 구축함으로써, 기존의 문자인식에 따른 다양한 특징 파라미터 생성과 패턴인식 및 분류를 효과적으로 대체할 수 있다.In this manner, HMM learning is performed using the
단어 위주의 문자인식으로부터 문장까지 인식하기 위하여, 프레임 단위의 특징벡터 추출과 HMM 학습 및 LM 학습을 통하여 모델 파라미터를 생성하고 문자인식네트워크(150) 구성에 반영되도록 한다. HMM에 의한 문자 모델링은 학습단계에서 추출된 문자특징벡터를 이용하여 기준이 되는 문자모델(153)(또는 기준패턴)을 구하여 구축되고, 실제 문자인식 단계에서는 패턴정합을 위한 비터비(Viterbi) 알고리즘을 이용하여 미리 학습된 패턴 중에서, 문자특징벡터 추출부(140)로부터의 특징벡터의 해당 문자들과 비교하여 가장 유사한 것을 찾아 문자인식 결과로 출력한다. 이때 LM 언어모델(154)은 정해진 문법에 맞는 단어와 문장만을 인식하게 해준다. LM 언어모델(154)을 문자인식의 탐색 과정에서 사용함으로써 탐색 공간을 감소시킬 수 있으며 문법에 맞는 단어나 문장에 대한 확률을 높여 주는 역할을 하기 때문에 문자인식률 향상에 기여하게 된다. 아울러, 단어 중심의 문자인식에서 벗어나 문장인식까지 확장하기 위하여는 음절, 단어, 어절 등의 구분이 효율적으로 이루어져야 하고, 이를 위해 대규모의 언어모델(154)이 필요하게 된다. 또한, 문자모델(153)을 구축하기 위하여 DNN(Deep Neural Network) 학습 결과를 이용할 수도 있으나, 여기에서는 HMM 모델을 기준으로 설명하고자 한다.In order to recognize from the character-based character recognition to the sentence, the model parameter is generated through the extraction of the feature vector of each frame and the HMM learning and the LM learning, and is reflected in the configuration of the
한편, 문자특징벡터 추출부(140)는 상기 인식된 문자들(단어 또는 문장)이 띄어쓰기 없이 붙여진 상태로 추출되도록 문자특징벡터를 생성하지만, 문자인식네트워크(150) 탐색과 후처리부(160)에서 문자 간격 및 띄어쓰기를 복원할 수 있다. On the other hand, the character characteristic vector extracting unit 140 generates a character characteristic vector so that the recognized characters (words or sentences) are extracted without being spaced apart. However, the character characteristic vector extracting unit 140 searches the
이에 따라 문자인식부(170)는 문자인식네트워크(150)를 통해 인식된 문자들(단어 또는 문장)에 대하여 음절, 단어, 어절 등의 띄어쓰기가 복원되어 텍스트 정제된 단어 또는 문장(24)을 화면에 출력할 수 있다. Accordingly, the
자동번역부(180)는 텍스트 정제된 단어 또는 문장(24)에 대하여 미리 설정한 상대국 언어(예, 미리 설정된 영어, 일어,,, 등)로 자동 번역하여 번역된 해당 문자나 문장(25)을 화면에 출력할 수 있다. The
음성합성부(190)는 화면상의 소정의 메뉴를 선택함에 따라 문자인식부(170)가 출력하는 텍스트 정제된 단어 또는 문장(24)에 대하여 자국의 소스언어에 대하여 스피커로 음성출력할 수 있으며, 마찬가지로 화면상의 소정의 메뉴를 선택함에 따라 번역된 해당 문자나 문장(25)에 대하여도 스피커로 음성출력할 수 있다. The
이와 같이 문장을 포함한 문자인식 결과는 상대국 언어로 자동번역과 음성합성을 통해 문자통역이 실현될 수 있으며, 이를 위한 환경설정을 최대한 활용함으로써 효과적인 음성기반 자동통역 자원으로 활용할 수 있다. 또한, 문자인식 단어와 문장의 합성음을 필요에 따라 출력해 볼 수 있도록 함으로써, 상대국 언어의 발성음을 청취하고 익힐 수도 있게 된다.In this way, the character recognition result including the sentence can be realized by automatic translation and voice synthesis in the correspondent language, and it can be utilized as an effective voice-based automatic interpretation resource by maximizing the environment setting for this. In addition, by making it possible to output a synthesized voice of a character recognition word and a sentence as necessary, it is possible to listen to and learn a voice of a partner station language.
도 2는 도 1의 문자구간 설정부(120)에서의 문자구간 설정의 자동화 순서와 절차를 설명하기 위한 순서도이다.FIG. 2 is a flowchart for explaining an automatic procedure and procedure for character interval setting in the character interval setting unit 120 of FIG.
문자구간 설정부(120)는 이진화된 통역 대상 이미지(29)에서 문자 부분을 인식해 모든 문자가 포함되도록 문자 구간(또는 영역)을 설정하기 위하여, 먼저, 도 2와 같이, 촬영 시의 카메라(21) 지향점(b)(화면에 표시되는 소정의 마크(예, +)가 있었던 지점)이 문자들의 영역 상에 있음을 확인하고(S10), 문자들이 있는 영역에서 문자들의 높이 중 최대값(c)(가장 큰 행값)을 산출하여 설정한다(S11). 이때, 문자들이 있는 영역의 중심 축 좌우로 소정의 폭을 확인하면서 문자들 하단부의 화소값을 대상으로 배경인지 또는 문자인지 확인하면서, 소정의 거리까지 더 큰 행값을 갖는 문자가 검출되지 않으면 마지막 최대 행값으로 검출되었던 지점의 행값을 높이의 최대값(c)으로 설정할 수 있다. 2, the character interval setting unit 120 first sets the character interval (or area) so that all characters are included in the binarized
다음으로, 문자구간 설정부(120)는 카메라(21) 지향점(b)에서 문자들 상단부에서 좌우 진행하면서 문자들이 있는 영역을 확인하되, 소정의 거리까지 더 작은 행값을 갖는 문자가 검출되지 않으면 마지막 최소 행값으로 검출되었던 지점의 행값을 높이의 최소값(d)으로 설정한다(S12). Next, the character segment setting unit 120 identifies an area in which the characters are present while proceeding left and right at the upper end of the characters at the bending point (b) of the
이어서, 같은 방법으로 문자구간 설정부(120)는 문자들이 있는 영역의 가로 길이(컬럼값)의 최대값(e)(S13)과 최소값(f)(S14)을 설정한다. Then, in the same manner, the character segment setting unit 120 sets the maximum value (e) (S13) and the minimum value (f) (S14) of the width (column value) of the region where the characters exist.
이와 같이, 문자구간 설정부(120)는 이진화된 통역 대상 이미지(29)에서 문자 부분을 인식해 모든 문자가 포함되도록, 문자들이 있는 영역의, 행값의 최대값(c)과 최소값(d), 및 컬럼값의 최대값(e)과 최소값(f)으로 정해지는 박스 형태의 문자 구간(또는 영역)을 설정할 수 있다. Thus, the character region setting unit 120 recognizes the character portion in the binarized
이와 같은 문자구간 설정과정에서, 배경색과 글자색의 대비를 도 2와 같이 보통의 경우와 다르게 하는 경우(검은 배경색에 밝은 문자)에도 실제의 문자구간을 설정할 수 있도록, 배경색 부분의 최대값, 최소값을 동시에 확인한다. 이때 배경색 부분이 문자들이 있는 영역으로 판단되는 경우에는 이들의 최대값, 최소값으로 문자구간을 설정할 수도 있다. In the character interval setting process, the maximum value and the minimum value of the background color portion are set so that the contrast of the background color and the character color is set differently from that of the normal case (the bright character in the black background color) At the same time. At this time, if the background color portion is determined as an area in which characters exist, the character interval may be set to the maximum value and the minimum value thereof.
도 3은 도 1에서의 문자구간 정규화부(130)에서 문자특징벡터 추출의 규격화를 위해 소정의 문자 높이(height)를 기준으로 문자구간의 크기를 조정하는 절차를 설명하기 위한 순서도이다.FIG. 3 is a flowchart for explaining a procedure for adjusting the size of a character segment based on a predetermined character height for standardization of a character feature vector extraction in the character segment normalization unit 130 in FIG.
위에서 기술한 바와 같이, 문자들이 있는 영역의 모든 문자가 포함된 문자 구간(도 3의 a)이 설정되면, 문자구간 정규화부(130)는 해당 문자 구간(도 3의 a)을 미리 정한 정규화 크기의 이미지(도 3의 b)로 변경하기 위하여, 먼저, 문자구간(a)에서 좌상단(가로폭 최소값(Wmin), 높이 최소값(Hmin))(예, 0,0)을 시작점으로 하여, 문자구간(a)의 우하단(가로폭 최대값(Wmax), 높이 최대값(Hmax))에 이르기까지, 즉 문자구간(a) 내의 모든 좌표의 화소값에 대하여 조정비율을 적용함으로써(S20), 조정 비율에 의해 조정된 정규화 크기 내의 각 픽셀 위치의 좌표의 값을 결정하여 정규화 크기의 이미지(b)를 생성할 수 있다(S21). As described above, when a character interval (a in FIG. 3) including all the characters in the area in which characters exist is set, the character interval normalization unit 130 normalizes the corresponding character interval (a in FIG. 3) (Width min (Wmin), minimum height (Hmin)) (for example, 0,0) as the start point in the character section (a) (S20) by applying the adjustment ratio to the pixel values of all the coordinates in the character section (a), from the lower right end (the maximum width Wmax and the maximum height Hmax) The value of the coordinates of each pixel position in the normalized size adjusted by the ratio can be determined to generate the image b of the normalized size (S21).
여기서 조정비율은 [수학식1]과 같이, 폭과 높이에 대하여, 문자구간(a)의 높이 최대값(Hmax)과 높이 최소값(Hmin)의 차이에 대한 소정의 값(T)의 비율로 결정될 수 있다. Here, the adjustment ratio is determined by the ratio of the predetermined value T to the difference between the height maximum value Hmax and the minimum height value Hmin of the character section (a) with respect to the width and the height .
[수학식1][Equation 1]
폭의 조정비율 = T*(Hmax - Hmin)Width adjustment ratio = T * (Hmax - Hmin)
높이의 조정비율 = T*(Hmax - Hmin)Adjustment ratio of height = T * (Hmax - Hmin)
이와 같이 문자크기의 다양성에 대처하여 문자구간 크기의 정규화를 수행하여 문자의 높이를 기준으로 문자구간이 일정한 크기로 조정되게 함으로써, 문자특징벡터의 크기를 일정하게 규격화할 수 있고 문자의 크기와 띄어쓰기 등이 다양한 형태의 문자특징벡터 추출로 인한 복잡도를 해소할 수 있게 된다. By thus normalizing the character segment size in response to the diversity of the character size, the character segment is adjusted to a constant size based on the height of the character, so that the size of the character feature vector can be uniformly standardized, The complexity due to various types of character feature vector extraction can be solved.
도 4는 도 1의 문자특징벡터 추출부(140)에서 좌에서 우로 진행하면서 높이의 화소값을 추출하여 문자특징벡터를 추출하는 절차를 설명하기 위한 순서도이다.FIG. 4 is a flowchart for explaining a procedure for extracting a character feature vector by extracting a pixel value of height while proceeding from left to right in the character feature vector extractor 140 of FIG.
위에서 기술한 바와 같이, 정규화 크기의 이미지가 생성되면, 정규화 크기의 이미지에서 좌측(컬럼)으로부터에서 우측(컬럼)으로 진행하면서 각 문자의 상하(세로축)의 화소값(1, 0)으로 문자특징벡터를 생성하되, 인식된 문자들이 띄어쓰기 없이 붙여진 상태로 추출되도록 문자특징벡터(도 4의 a)를 생성하기 위하여, 먼저, 문자특징벡터 추출부(140)는, 정규화 크기의 이미지에 대하여 좌측(컬럼)(b)(0,0)으로부터에서 우측(컬럼) 끝까지(c)(폭최대값)으로 진행하면서, 각 컬럼의 행 끝까지(d)문자 구간의 상하(세로축)의 화소 마다 1, 또는 0으로 특징벡터를 부여해 나간다(S30). As described above, when an image of a normalized size is generated, pixel values (1, 0) on the upper and lower (vertical axes) of each character proceed from the left (column) to the right In order to generate a character feature vector (a in FIG. 4) such that the recognized character is extracted in a pasted state, first, the character feature vector extraction unit 140 extracts a character image having a normalized size (B) From (0,0) to (c) (width maximum) to the right (column) end, to the end of each column row (d) 1 for each pixel above and below the character interval 0 " (S30).
문자특징벡터 추출부(140)는, 이와 같은 방식으로, 문자 구간의 상하(세로축) 단위로 문자특징벡터를 추출하되, 일정한 크기 이상의 문자 간격이나 띄어진 부분을 배제(skip)하면서, 우측(컬럼) 끝까지 특징벡터를 추출함으로써, 인식된 문자들이 띄어쓰기 없이(또는 최소의 화소 간격) 붙여진 상태로 추출되도록 문자특징벡터를 추출할 수 있다(S31).In this way, the character characteristic vector extracting unit 140 extracts a character characteristic vector in units of upper and lower (vertical axes) of a character section, skips characters spaced apart or spaced apart by a predetermined size or more, ). By extracting the feature vector up to the end, the character feature vector can be extracted so that recognized characters are extracted without being spaced (or minimum pixel spacing) (S31).
이와 같이 문자 특징벡터를 기초로 다양하게 띄어 쓴 문자들을 간격없이 붙여진 상태로 추출함으로써, 문자 띄어쓰기의 다양성에 따른 복잡도를 개선하고 문자인식 과정에서의 과도한 특징 파라미터 생성과 계산량 증가를 방지할 수 있다. 음절, 단어 및 어절 등의 구분에 따른 띄어쓰기의 복원은, 하기와 같이 문자인식네트워크 탐색 및 후처리 과정을 통해 이루어질 수 있다. By extracting variously spaced characters based on the character feature vector in a state without space, it is possible to improve the complexity according to the diversity of character spacing and to prevent excessive feature parameter generation and increase in the amount of calculation in the character recognition process. The restoration of the spacing according to the distinction of syllables, words and phrases can be performed through a character recognition network searching and post-processing process as described below.
도 5는 도 1의 이미지문자 DB(데이터베이스)(151)에 저장된, 카메라 이미지와 각 문자구간의 정보 파일에 대한 예시도이다.5 is an exemplary view of a camera image and an information file of each character interval stored in the image character DB (database) 151 of FIG.
도 5와 같이, 문자모델(153) 구축을 위해 HMM 학습의 기초가 되는 이미지문자 DB(151)에는, 카메라(21)로 촬영한 이미지 정보(a)와 그에 포함된 각 문자구간(문자들이 포함된 영역)의 이미지 상태 인식결과 정보(51, 52, 53)에 대하여 별도의 파일로 미리 저장되어 관리될 수 있다. 예시된 이미지 정보(a)에는 세 개의 문자구간이 존재하고, 각 문자구간에 대한 이미지 상태 인식결과 정보의 파일에는, 이미지 이름(Image_Name), 가로폭과 세로 높이에 대한 해상도(Resolution), 문자구간의 시작점(가로: X, 세로: Y), 가로 폭(Width), 세로 높이(Height), 단어 이름(Word) 등의 정보가 포함되어 관리될 수 있다. 여기서 이미지 정보(a)는 위에서 기술한 바와 같은 통역 대상 이미지(29)의 정보에 해당할 수 있다. As shown in FIG. 5, the
도 6은 도 1의 텍스트언어 DB(152)에 저장된, 이미지에 포함된 문자에 대한 정보를 각각의 파일에 기록한, 그 파일의 이름, 각 이미지 번호와 이에 포함된 문자 정보에 대한 예시도이다.FIG. 6 is an exemplary view showing the name of the file, the image number, and the character information included therein, in which information on characters included in the image stored in the
도 6과 같이, 언어모델(154) 구축을 위해 LM 학습의 기초가 되는 텍스트언어 DB(152)에는, 도 5에서 설명한 바와 같은 이미지 정보(a)에 포함된 각각의 문자구간(문자들이 포함된 영역)에 대한 단어 또는 문장의 정보가 별도의 파일로 각각 미리 저장되어 관리될 수 있다. 이때 각 파일 이름(1,2,..)에 대하여, 이미지 인덱스(00001, 00002,..등)와 해당 단어 또는 문장(스킨케어, 바디케어,..)에 대한 정보가 포함되도록 관리되어, 문자인식네트워크(150)의 동작 시에 참조가 용이하게 될 수 있게 할 수 있다.As shown in FIG. 6, in the
도 7은 도 1의 문자인식네트워크(150)에서 이미지 문자로부터 프레임 단위로 추출된 특징벡터에 대하여, HMM 및 LM 파라미터로 결합된 문자를 탐색하는 방법에 대한 개념도이다. 7 is a conceptual diagram illustrating a method of searching for a character combined with an HMM and an LM parameter for a feature vector extracted in units of frames from an image character in the
문자특징벡터 추출부(140)가 정규화 크기로 변경된 이미지(정규화된 문자구간)(75)에 대하여 좌측(컬럼)으로부터에서 우측(컬럼)으로 진행하면서, 인식된 문자들에 대해 띄어쓰기 없이 붙여진 문자특징벡터(74)를 생성함에 따라, 문자인식네트워크(150)는 문자모델(153)과 언어모델(154)을 이용하여 문자특징벡터(74)에 대해 해당 문자들(단어 또는 문장)을 인식해 출력할 수 있다.The character characteristic vector extracting unit 140 extracts a character characteristic (character string) that has been appended to the recognized characters from the left (column) to the right (column) with respect to the image (normalized character interval) 75 changed to the normalized size As the
문자인식네트워크(150)는 내부적으로 결합된 문자모델(153)과 언어모델(154)을 이용하여, 문자특징벡터(74)에 대해 통계적으로 최적의 HMM 상태(73)를 검색해 미리 학습된 패턴 중에서 가장 유사한 패턴의 문자 모델에 따른 문자 인식을 수행하고, 문법에 맞는 단어와 문장의 언어 모델을 참조해 인식된 문자들이 문법에 맞는 단어와 문장으로 이루어지도록 보정하여 출력할 수 있다.The
예를 들어, 도 7에서 특징벡터 "안녕"에 대하여, 문자인식네트워크(150)는 HMM 상태(73)의 소정의 초기 상태(S0)에서 문자인식을 시작하여, 음절단위로 4개씩의 상태(안: S1~S4, 녕: S5~S8)로 구분하여, 예를 들어, 편의상 로마자 표기방식(71)의 문자 표기(155) 모드에 따라, "안(an)"으로 시작하는 단어 중에서, "녕(nyeong)"에 대한 문자 인식을 수행하고, 문법에 틀리지 않는 한, 해당 이미지에는 "안녕"(72)이 포함되어 있다는 문자 인식 결과를 출력할 수 있다.For example, with respect to the feature vector "goodbye " in FIG. 7, the
도 8은 본 발명의 일 실시예에 따른 문자통역 장치(100)의 구현 방법의 일례를 설명하기 위한 도면이다. 본 발명의 일 실시예에 따른 문자통역 장치(100)는 하드웨어, 소프트웨어, 또는 이들의 결합으로 이루어질 수 있다. 예를 들어, 문자통역 장치(100)는 도 8과 같은 컴퓨팅 시스템(1000)으로 구현될 수 있다. FIG. 8 is a diagram for explaining an example of a method of implementing a
컴퓨팅 시스템(1000)은 버스(1200)를 통해 연결되는 적어도 하나의 프로세서(1100), 메모리(1300), 사용자 인터페이스 입력 장치(1400), 사용자 인터페이스 출력 장치(1500), 스토리지(1600), 및 네트워크 인터페이스(1700)를 포함할 수 있다. 프로세서(1100)는 중앙 처리 장치(CPU) 또는 메모리(1300) 및/또는 스토리지(1600)에 저장된 명령어들에 대한 처리를 실행하는 반도체 장치일 수 있다. 메모리(1300) 및 스토리지(1600)는 다양한 종류의 휘발성 또는 불휘발성 저장 매체를 포함할 수 있다. 예를 들어, 메모리(1300)는 ROM(Read Only Memory)(1310) 및 RAM(Random Access Memory)(1320)을 포함할 수 있다. The
따라서, 본 명세서에 개시된 실시예들과 관련하여 설명된 방법 또는 알고리즘의 단계는 프로세서(1100)에 의해 실행되는 하드웨어, 소프트웨어 모듈, 또는 그 2 개의 결합으로 직접 구현될 수 있다. 소프트웨어 모듈은 RAM 메모리, 플래시 메모리, ROM 메모리, EPROM 메모리, EEPROM 메모리, 레지스터, 하드 디스크, 착탈형 디스크, CD-ROM과 같은 저장 매체(즉, 메모리(1300) 및/또는 스토리지(1600))에 상주할 수도 있다. 예시적인 저장 매체는 프로세서(1100)에 커플링되며, 그 프로세서(1100)는 저장 매체로부터 정보를 판독할 수 있고 저장 매체에 정보를 기입할 수 있다. 다른 방법으로, 저장 매체는 프로세서(1100)와 일체형일 수도 있다. 프로세서 및 저장 매체는 주문형 집적회로(ASIC) 내에 상주할 수도 있다. ASIC는 사용자 단말기 내에 상주할 수도 있다. 다른 방법으로, 프로세서 및 저장 매체는 사용자 단말기 내에 개별 컴포넌트로서 상주할 수도 있다.Thus, the steps of a method or algorithm described in connection with the embodiments disclosed herein may be embodied directly in hardware, in a software module executed by
상술한 바와 같이, 기존의 문자인식 방법은 자소 하나하나를 분할(segmentation)해서 패턴인식 하는 방법이었으나, 본 발명에 따른 문자통역 장치(100)에 따르면, 마치 음성 인식 처리에서 소정의 프레임 단위(예, 20msec)로 코딩하는 것과 같이 이미지 입력에 대하여 소정의 프레임 단위(예, 15 프레임 등)로 처리하되, 문자구간을 일정 크기로 정규화 한 후 특징 벡터를 추출하고, 문자인식네트워크(150)를 통해 DNN(Deep Neural Network)/HMM(Hidden Markov Model) 학습과 LM(Language Model, 언어모델) 학습을 이용해 문자나 문장을 인식하고 자동번역 및 음성합성과 연계시킬 수 있고 기존 음성 위주의 자동통역 범위를 이미지 상의 문자통역까지 확장할 수 있다.As described above, the conventional character recognition method is a method of recognizing a pattern by segmenting each one of the characters. However, according to the
또한, 이와 같이 자소를 따로 분리하지 않는 방법으로 문자를 인식함으로써 자소를 따로 분리할 때 생기는 오류를 줄일 수 있고 LM을 적용하여 문장인식으로 확장할 수 있으며, 특히, 문자인식을 위한 다양한 형태의 특징벡터 추출과 패턴인식 및 분류에 따르는 기존 방법의 한계를 극복할 수 있다.In addition, by recognizing characters in such a way that they do not separate themselves, it is possible to reduce errors caused by separating the individual characters separately, and to extend them to sentence recognition by applying LM. In particular, We can overcome the limitations of existing methods of vector extraction and pattern recognition and classification.
이상의 설명은 본 발명의 기술 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 다양한 수정 및 변형이 가능할 것이다. The foregoing description is merely illustrative of the technical idea of the present invention, and various changes and modifications may be made by those skilled in the art without departing from the essential characteristics of the present invention.
따라서, 본 발명에 개시된 실시예들은 본 발명의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예에 의하여 본 발명의 기술 사상의 범위가 한정되는 것은 아니다. 본 발명의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 발명의 권리범위에 포함되는 것으로 해석되어야 할 것이다.Therefore, the embodiments disclosed in the present invention are intended to illustrate rather than limit the scope of the present invention, and the scope of the technical idea of the present invention is not limited by these embodiments. The scope of protection of the present invention should be construed according to the following claims, and all technical ideas within the scope of equivalents should be construed as falling within the scope of the present invention.
이미지 이진화부(110)
문자구간 설정부(120)
문자구간 정규화부(130)
문자특징벡터 추출부(140)
문자인식네트워크(150)
후처리부(160)
문자인식부(170)
자동번역부(180)
음성합성부(190)In the image binarization unit 110,
The character interval setting unit 120
The character interval normalization unit 130
The character characteristic vector extracting unit 140 extracts
The
The post-
The
The automatic translation unit (180)
The
Claims (1)
카메라를 통해 획득된 통역 대상 이미지를 이진화하는 단계; 이진화된 상기 통역 대상 이미지에 포함된 문자들에 대한 문자 구간을 설정하는 단계;
상기 문자 구간을 정규화된 크기로 변경하는 정규화 단계; 정규화된 크기의 상기 문자 구간에서 문자들간 간격 부분의 정보를 배제(skip)해 붙여진 문자들에 대한 문자특징벡터를 추출하는 단계;
소정의 알고리즘에 따른 학습 결과를 통해 생성되어 구축된 문자모델과 언어모델을 이용하여, 상기 문자특징벡터에 대하여 미리 선택된 문자 표기 방식으로, 단어 또는 문장을 인식해 출력하되, 문법에 따라 문자들간 간격과 띄어쓰기를 복원하여 출력하는 단계;
상기 간격과 띄어쓰기의 재확인을 통해 상기 문자들간 간격과 띄어쓰기의 재처리를 포함하는 후처리를 수행하는 단계; 상기 간격과 띄어쓰기가 복원된 상기 단어 또는 문장을 화면에 출력하는 단계;
상기 간격과 띄어쓰기가 복원된 상기 단어 또는 문장에 대해 미리 설정한 상대국 언어로 번역하는 단계; 및 선택에 따라 상기 간격과 띄어쓰기가 복원된 상기 단어 또는 문장 또는 번역된 상기 단어 또는 문장에 대해 음성 출력하는 단계를 포함하는 것을 특징으로 하는 문자통역 방법.A method of translating a character in an apparatus for recognizing characters from an image and performing character interpretation,
Binarizing an interpretation target image obtained through a camera; Setting a character interval for the characters included in the binarized interpretation target image;
A normalization step of changing the character interval to a normalized size; Extracting a character feature vector for characters pasted with information of an interval between characters in the character interval of a normalized size;
Recognizing and outputting a word or a sentence in a character notation system selected in advance for the character characteristic vector by using a character model and a language model generated and constructed through a learning result according to a predetermined algorithm, And restoring and outputting the spacing;
Performing a post-process including repetition of spacing and spacing between the characters through reconfirmation of the spacing and spacing; Outputting the word or sentence in which the interval and the spacing are restored to the screen;
Translating the spacing and the spacing into a previously set correspondence language for the restored word or sentence; And outputting the voice or the sentence or the translated word or sentence in which the interval and the spacing are restored according to the selection.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| KR1020160000283A KR20170081350A (en) | 2016-01-04 | 2016-01-04 | Text Interpretation Apparatus and Method for Performing Text Recognition and Translation Per Frame Length Unit of Image |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| KR1020160000283A KR20170081350A (en) | 2016-01-04 | 2016-01-04 | Text Interpretation Apparatus and Method for Performing Text Recognition and Translation Per Frame Length Unit of Image |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| KR20170081350A true KR20170081350A (en) | 2017-07-12 |
Family
ID=59352765
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| KR1020160000283A Withdrawn KR20170081350A (en) | 2016-01-04 | 2016-01-04 | Text Interpretation Apparatus and Method for Performing Text Recognition and Translation Per Frame Length Unit of Image |
Country Status (1)
| Country | Link |
|---|---|
| KR (1) | KR20170081350A (en) |
Cited By (11)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO2019004632A1 (en) | 2017-06-27 | 2019-01-03 | 주식회사 엘지화학 | Battery module, and battery pack and vehicle comprising same |
| WO2019194566A1 (en) * | 2018-04-05 | 2019-10-10 | 양진호 | Apparatus and method for converting text within image to voice |
| US10509864B2 (en) | 2017-11-30 | 2019-12-17 | Samsung Electronics Co., Ltd. | Language model translation and training method and apparatus |
| KR20200072616A (en) | 2018-12-12 | 2020-06-23 | 김미경 | System and Method for Realtime Text Tracking and Translation in Video |
| WO2021172700A1 (en) * | 2020-02-27 | 2021-09-02 | 주식회사 와들 | System for blocking texts extracted from image, and method therefor |
| CN113674866A (en) * | 2021-06-23 | 2021-11-19 | 江苏天瑞精准医疗科技有限公司 | Medical text oriented pre-training method |
| CN113869304A (en) * | 2020-06-30 | 2021-12-31 | 华为技术有限公司 | Video text detection method and device |
| CN115150624A (en) * | 2021-03-29 | 2022-10-04 | 瑞昱半导体股份有限公司 | Image compression method and circuit system |
| KR20220164362A (en) | 2021-06-04 | 2022-12-13 | 주식회사 웨이커 | A Method for Creating Stock List Using Artificial Deep Learning based on OCR |
| CN115841673A (en) * | 2022-12-05 | 2023-03-24 | 中信银行股份有限公司 | Intelligent identification method and system for assertion elements of bank receipt |
| CN115885323A (en) * | 2020-01-08 | 2023-03-31 | 谷歌有限责任公司 | Translation of text depicted in an image |
-
2016
- 2016-01-04 KR KR1020160000283A patent/KR20170081350A/en not_active Withdrawn
Cited By (11)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO2019004632A1 (en) | 2017-06-27 | 2019-01-03 | 주식회사 엘지화학 | Battery module, and battery pack and vehicle comprising same |
| US10509864B2 (en) | 2017-11-30 | 2019-12-17 | Samsung Electronics Co., Ltd. | Language model translation and training method and apparatus |
| WO2019194566A1 (en) * | 2018-04-05 | 2019-10-10 | 양진호 | Apparatus and method for converting text within image to voice |
| KR20200072616A (en) | 2018-12-12 | 2020-06-23 | 김미경 | System and Method for Realtime Text Tracking and Translation in Video |
| CN115885323A (en) * | 2020-01-08 | 2023-03-31 | 谷歌有限责任公司 | Translation of text depicted in an image |
| WO2021172700A1 (en) * | 2020-02-27 | 2021-09-02 | 주식회사 와들 | System for blocking texts extracted from image, and method therefor |
| CN113869304A (en) * | 2020-06-30 | 2021-12-31 | 华为技术有限公司 | Video text detection method and device |
| CN115150624A (en) * | 2021-03-29 | 2022-10-04 | 瑞昱半导体股份有限公司 | Image compression method and circuit system |
| KR20220164362A (en) | 2021-06-04 | 2022-12-13 | 주식회사 웨이커 | A Method for Creating Stock List Using Artificial Deep Learning based on OCR |
| CN113674866A (en) * | 2021-06-23 | 2021-11-19 | 江苏天瑞精准医疗科技有限公司 | Medical text oriented pre-training method |
| CN115841673A (en) * | 2022-12-05 | 2023-03-24 | 中信银行股份有限公司 | Intelligent identification method and system for assertion elements of bank receipt |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| KR20170081350A (en) | Text Interpretation Apparatus and Method for Performing Text Recognition and Translation Per Frame Length Unit of Image | |
| US11043213B2 (en) | System and method for detection and correction of incorrectly pronounced words | |
| EP3685312B1 (en) | Method and system for image content recognition | |
| CN111758116B (en) | Facial image recognition system, recognizer generation device, recognition device and system | |
| CN111914825B (en) | Text recognition methods, devices and electronic equipment | |
| CN112784696A (en) | Lip language identification method, device, equipment and storage medium based on image identification | |
| Rajesh et al. | Text recognition and face detection aid for visually impaired person using Raspberry PI | |
| CN109660865B (en) | Method and device for automatically labeling videos, medium and electronic equipment | |
| KR970029143A (en) | Text Recognition Translation System and Voice Recognition Translation System | |
| US20200342896A1 (en) | Conference support device, conference support system, and conference support program | |
| JP2003216955A (en) | Gesture recognition method, gesture recognition device, dialogue device, and recording medium recording gesture recognition program | |
| KR102345625B1 (en) | Caption generation method and apparatus for performing the same | |
| KR102043693B1 (en) | Machine learning based document management system | |
| Nagaraja et al. | Vision based text recognition using raspberry PI | |
| CN112818680A (en) | Corpus processing method and device, electronic equipment and computer-readable storage medium | |
| Tymoshenko et al. | Real-Time Ukrainian Text Recognition and Voicing. | |
| Shokoori et al. | Sign language recognition and translation into pashto language alphabets | |
| Zaman et al. | Python based portable virtual text reader | |
| De Zoysa et al. | Project Bhashitha-Mobile based optical character recognition and text-to-speech system | |
| KR20210109894A (en) | System for text recognition using neural network and its method | |
| US20200243092A1 (en) | Information processing device, information processing system, and computer program product | |
| Rao et al. | Orthographic properties based Telugu text recognition using hidden Markov models | |
| CN115273090A (en) | Dictation detection method and device and electronic equipment | |
| Gangiredla et al. | Design and implementation of smart text reader system for people with vision impairment | |
| Bhardwaj et al. | Image Text Reader for Visually Impaired in Desired Language |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| PA0109 | Patent application |
Patent event code: PA01091R01D Comment text: Patent Application Patent event date: 20160104 |
|
| PG1501 | Laying open of application | ||
| PC1203 | Withdrawal of no request for examination |