[go: up one dir, main page]

RU2005118673A - METHOD FOR RECOGNIZING TEXT INFORMATION FROM GRAPHIC FILE USING DICTIONARIES AND ADDITIONAL DATA - Google Patents

METHOD FOR RECOGNIZING TEXT INFORMATION FROM GRAPHIC FILE USING DICTIONARIES AND ADDITIONAL DATA Download PDF

Info

Publication number
RU2005118673A
RU2005118673A RU2005118673/09A RU2005118673A RU2005118673A RU 2005118673 A RU2005118673 A RU 2005118673A RU 2005118673/09 A RU2005118673/09 A RU 2005118673/09A RU 2005118673 A RU2005118673 A RU 2005118673A RU 2005118673 A RU2005118673 A RU 2005118673A
Authority
RU
Russia
Prior art keywords
options
characters
recognition
word
rules
Prior art date
Application number
RU2005118673/09A
Other languages
Russian (ru)
Other versions
RU2295154C1 (en
Inventor
Константин Владимирович Анисимович (RU)
Константин Владимирович Анисимович
Владимир Юрьевич Рыбкин (RU)
Владимир Юрьевич Рыбкин
Александр Львович Шамис (RU)
Александр Львович Шамис
Original Assignee
"Аби Софтвер Лтд." (CY)
"Аби Софтвер Лтд."
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by "Аби Софтвер Лтд." (CY), "Аби Софтвер Лтд." filed Critical "Аби Софтвер Лтд." (CY)
Priority to RU2005118673/09A priority Critical patent/RU2295154C1/en
Publication of RU2005118673A publication Critical patent/RU2005118673A/en
Application granted granted Critical
Publication of RU2295154C1 publication Critical patent/RU2295154C1/en

Links

Landscapes

  • Character Discrimination (AREA)
  • Machine Translation (AREA)

Claims (9)

1. Способ распознавания текстовой информации из графического файла, характеризующийся получением графического файла из устройства сканирования или иным путем, сегментацией изображения, распознаванием символов теста, отличающийся тем, что предварительно задают следующий порядок обращения к дополнительной информации, включающей по крайней мере следующие виды: информация о точках деления строки на символы, и/или качество распознавания графического элемента, и/или словарь, и/или словарь возможных частей слов, и/или правила, обусловленные используемыми типовыми шаблонами данных или регулярными выражениями, и/или правила, обусловленные местонахождением слова в пределах строки и/или абзаца, и/или правила, обусловленные особенностями языка документа, и/или правила, обусловленные типом документа, и/или дополнительные правила для обработки редко встречающихся случаев, предварительно назначают оценку качества для каждого вида дополнительной информации, предварительно строят различные варианты разбиения изображения выделенных строк на фрагменты, предположительно содержащие изображения отдельных слов, по надежно распознанным пробелам, для каждого фрагмента строки строят граф линейного деления, описывающий варианты разбиения фрагмента на графические элементы, предположительно содержащие изображения символов, распознают изображения графических элементов, используя один или более классификатор, и каждому варианту распознавания графического элемента присваивают оценку, осуществляют переход от вариантов распознавания графем к вариантам символов алфавита, выполняют по крайней мере следующие шаги: первый шаг: для каждой цепочки ГЛД, соединяющей начальную и конечную вершины строят цепочки, соответствующие всем вариантам распознавания графем и вариантам переходов от распознанных графем к символам алфавита, ранжируют полученные варианты в порядке уменьшения оценки качества распознавания, второй шаг: все полученные варианты группы символов обрабатывают с привлечением информации о расположении заглавных и строчных букв, если имеются более одного варианта символа по результатам распознавания графического элемента, их обрабатывают с последовательным привлечением последующих видов дополнительной информации, согласно заранее заданного порядка, и/или при необходимости одновременным привлечением всех видов дополнительной информации, каждому полученному варианту назначают оценку качества, варианты символов, имеющие оценку ниже предварительно заданной, отбрасывают, полученные варианты сортируют, используя попарное сравнение, третий шаг: производят дополнительную коррекцию распознавания пробелов, ошибочно распознанных на предыдущих этапах: присоединение элементов, ошибочно отделенных на предыдущих шагах, отделение элементов, ошибочно присоединенных на предыдущих шагах.1. A method for recognizing text information from a graphic file, characterized by obtaining a graphic file from a scanning device or otherwise, image segmentation, recognition of test characters, characterized in that the following order of access to additional information is preliminarily specified, including at least the following types: information about points of dividing the string into characters, and / or the recognition quality of the graphic element, and / or the dictionary, and / or the dictionary of possible parts of the words, and / or the rules due to type data patterns or regular expressions used, and / or rules determined by the location of the word within the line and / or paragraph, and / or rules determined by the language of the document, and / or rules determined by the type of document, and / or additional processing rules rare cases, pre-assign a quality assessment for each type of additional information, pre-build various options for splitting the image of the selected lines into fragments, presumably containing e images of individual words, based on reliably recognized spaces, a linear division graph is constructed for each fragment of the line, which describes the options for dividing the fragment into graphic elements, presumably containing symbol images, recognizes images of graphic elements using one or more classifiers, and assigns each variant of recognition of the graphic element assessment, carry out the transition from grapheme recognition options to alphabet character variants, perform at least the following steps: first step: for each GLD chain connecting the initial and final vertices, chains are constructed that correspond to all grapheme recognition options and transition options from recognized graphemes to alphabet characters, rank the resulting options in order to reduce recognition quality assessment, the second step: all received character group options are processed with by attracting information on the location of upper and lower case letters, if there are more than one variant of a symbol based on the recognition of a graphic element, they are processed from the last by a consistent use of subsequent types of additional information, according to a predetermined order, and / or, if necessary, by simultaneously attracting all types of additional information, each received option is assigned a quality rating, character options having an estimate below a predetermined one are discarded, the received options are sorted using pairwise comparison, third step: make additional correction for recognition of gaps that were erroneously recognized in the previous stages: attachment of elements, error eous separated in the previous steps, the separation of elements, mistakenly connected in the previous steps. 2. Способ по п.1, отличающийся тем, что правила, обусловленные особенностями языка документа, включают в том числе фонетические, и/или лексические, и/или семантические.2. The method according to claim 1, characterized in that the rules due to the characteristics of the language of the document include, including phonetic, and / or lexical, and / or semantic. 3. Способ по п.1, отличающийся тем, что на втором шаге информация о возможном расположении заглавных и строчных букв включает по крайней мере четыре разновидности по следующим признакам: все символы являются заглавными буквами, все символы являются строчными буквами, первый символ является заглавной буквой, остальные - строчные, вариант, выбранный исходя из оценки выполненных переходов от распознанной графемы к символам с использованием первого вида дополнительной информации.3. The method according to claim 1, characterized in that in the second step the information on the possible arrangement of uppercase and lowercase letters includes at least four varieties according to the following criteria: all characters are uppercase, all characters are lowercase, the first character is uppercase , the rest are lowercase, the option selected based on the assessment of the completed transitions from the recognized grapheme to symbols using the first type of additional information. 4. Способ по п.1, отличающийся тем, что используют словарь возможных фрагментов слов, существующих в естественном языке.4. The method according to claim 1, characterized in that they use a dictionary of possible fragments of words that exist in a natural language. 5. Способ по п.4, отличающийся тем, что каждая комбинация возможных фрагментов слов снабжена оценкой вероятности использования в тексте.5. The method according to claim 4, characterized in that each combination of possible fragments of words is provided with an estimate of the probability of use in the text. 6. Способ по п.4, отличающийся тем, что для оценки слова используют шаблоны, отличающиеся составом и типами входящих символов: двуязычное слово, и/или двуязычное слово с цифрами, и/или словарный идентификатор, и/или аббревиатуру, и/или число, и/или римское число, и/или число с суффиксом (порядковое число), и/или число с префиксом, и/или слово из пунктуаторов, и/или слово + число, и/или слово с числом внутри, и/или слово со скобками, и/или телефонный номер, и/или шаблон URL, и/или имя файла вместе с полной информацией о местонахождении, и/или шаблон регулярных выражений, и/или вспомогательный шаблон.6. The method according to claim 4, characterized in that for evaluating the word, patterns are used that differ in the composition and types of incoming characters: a bilingual word, and / or a bilingual word with numbers, and / or a dictionary identifier, and / or abbreviation, and / or a number, and / or a Roman number, and / or a number with a suffix (ordinal number), and / or a number with a prefix, and / or a word from punctuators, and / or a word + number, and / or a word with a number inside, and / or a word with brackets, and / or a phone number, and / or a URL pattern, and / or a file name together with full location information, and / or a regular pattern single expressions, and / or an auxiliary pattern. 7. Способ по п.1, отличающийся тем, что содержит средство для добавления новых правил и ограничений, включающее введение правил для типов данных, которые подразделяют на простые и составные.7. The method according to claim 1, characterized in that it contains a means for adding new rules and restrictions, including the introduction of rules for data types, which are divided into simple and composite. 8. Способ по п.7, отличающийся тем, что составные типы данных образуют как соединение по крайней мере двух простых или как любая комбинация простых и составных типов данных.8. The method according to claim 7, characterized in that the composite data types form as a connection of at least two simple or any combination of simple and composite data types. 9. Способ по п.7, в котором тип данных задают в виде по крайней мере следующих характеристик: перечня символов, разрешенных для использования в словах, и/или дополнительное правило, ограничивающее перечень символов, и/или перечень пунктуаторов, разрешенных для использования, и/или грамматические правила для часто встречающихся слов или фрагментов слов.9. The method according to claim 7, in which the data type is set in the form of at least the following characteristics: a list of characters allowed for use in words, and / or an additional rule restricting the list of characters, and / or a list of punctuation marks allowed for use, and / or grammar rules for frequently occurring words or fragments of words.
RU2005118673/09A 2005-06-16 2005-06-16 Method for recognizing text information from graphic file with usage of dictionaries and additional data RU2295154C1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
RU2005118673/09A RU2295154C1 (en) 2005-06-16 2005-06-16 Method for recognizing text information from graphic file with usage of dictionaries and additional data

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
RU2005118673/09A RU2295154C1 (en) 2005-06-16 2005-06-16 Method for recognizing text information from graphic file with usage of dictionaries and additional data

Publications (2)

Publication Number Publication Date
RU2005118673A true RU2005118673A (en) 2006-12-27
RU2295154C1 RU2295154C1 (en) 2007-03-10

Family

ID=37759315

Family Applications (1)

Application Number Title Priority Date Filing Date
RU2005118673/09A RU2295154C1 (en) 2005-06-16 2005-06-16 Method for recognizing text information from graphic file with usage of dictionaries and additional data

Country Status (1)

Country Link
RU (1) RU2295154C1 (en)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2550543C1 (en) * 2013-12-11 2015-05-10 Государственное казенное образовательное учреждение высшего профессионального образования Академия Федеральной службы охраны Российской Федерации (Академия ФСО России) Method for textual information recognition and its integrity evaluation in internet electronic documents
RU2604668C2 (en) * 2014-06-17 2016-12-10 Общество с ограниченной ответственностью "Аби Девелопмент" Rendering computer-generated document image
RU2665274C2 (en) * 2014-06-27 2018-08-28 Общество с ограниченной ответственностью "Аби Продакшн" Pop-up verification panel
RU2571616C1 (en) * 2014-08-12 2015-12-20 Общество с ограниченной ответственностью "Аби Девелопмент" Optical character recognition system and method, reducing processing time for images potentially not containing characters
RU2613846C2 (en) * 2015-09-07 2017-03-21 Общество с ограниченной ответственностью "Аби Девелопмент" Method and system for extracting data from images of semistructured documents

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2113726C1 (en) * 1996-08-16 1998-06-20 Акционерное общество закрытого типа Научно-производственное предприятие - центр "Реабилитация" Computer equipment for reading of printed text
SE509327C2 (en) * 1996-11-01 1999-01-11 C Technologies Ab Method and device for registering characters using a pen
FI19992504A7 (en) * 1999-11-24 2001-05-25 Nokia Corp Handwriting recognition on a mobile device
US7200271B2 (en) * 2001-03-29 2007-04-03 The Boeing Company Method, computer program product, and system for performing automated text recognition and text search within a graphic file
RU2234734C1 (en) * 2002-12-17 2004-08-20 Аби Софтвер Лтд. Method for multi-stage analysis of information of bitmap image
RU2260208C2 (en) * 2003-08-21 2005-09-10 Войсковая часть 45807 Method for facsimile recognition and reproduction of printed product text

Also Published As

Publication number Publication date
RU2295154C1 (en) 2007-03-10

Similar Documents

Publication Publication Date Title
US7627177B2 (en) Adaptive OCR for books
US9224041B2 (en) Table of contents extraction based on textual similarity and formal aspects
US7092567B2 (en) Post-processing system and method for correcting machine recognized text
US8108202B2 (en) Machine translation method for PDF file
US8364468B2 (en) Typing candidate generating method for enhancing typing efficiency
US8977535B2 (en) Transliterating methods between character-based and phonetic symbol-based writing systems
EP0195779A1 (en) Cryptographic analysis system
JP2001505330A (en) Method and apparatus for providing word breaks in a text stream
US7734065B2 (en) Method of text information recognition from a graphical file with use of dictionaries and other supplementary data
KR101143650B1 (en) An apparatus for preparing a display document for analysis
JPH0528183A (en) Text original analyzing method
US20040117192A1 (en) System and method for reading addresses in more than one language
JPH07271915A (en) Text recognition by predictive synthetic shape
Pal et al. OCR error correction of an inflectional indian language using morphological parsing
RU2005118673A (en) METHOD FOR RECOGNIZING TEXT INFORMATION FROM GRAPHIC FILE USING DICTIONARIES AND ADDITIONAL DATA
Lehal et al. A post-processor for Gurmukhi OCR
WO2014189400A1 (en) A method for diacritisation of texts written in latin- or cyrillic-derived alphabets
KR20090028219A (en) Error correction device and method for colloquial sentences
US20120230590A1 (en) Image processing apparatus, non-transitory computer-readable medium, and image processing method
JPH11143893A (en) Word matching device
JP3274014B2 (en) Character recognition device and character recognition method
JPH0244459A (en) Japanese text correction candidate extracting device
Ramanan et al. A performance comparison and post-processing error correction technique to OCRs for printed Tamil texts
JP2939945B2 (en) Roman character address recognition device
Thamizhikkavi et al. Tamil Character-Size Reduction Method for Storage of Large Amount of Data

Legal Events

Date Code Title Description
HE4A Change of address of a patent owner
PC41 Official registration of the transfer of exclusive right

Effective date: 20141031

QB4A Licence on use of patent

Free format text: LICENCE

Effective date: 20151118

QZ41 Official registration of changes to a registered agreement (patent)

Free format text: LICENCE FORMERLY AGREED ON 20151118

Effective date: 20161213

QZ41 Official registration of changes to a registered agreement (patent)

Free format text: LICENCE FORMERLY AGREED ON 20151118

Effective date: 20170613

QZ41 Official registration of changes to a registered agreement (patent)

Free format text: LICENCE FORMERLY AGREED ON 20151118

Effective date: 20171031

QC41 Official registration of the termination of the licence agreement or other agreements on the disposal of an exclusive right

Free format text: LICENCE FORMERLY AGREED ON 20151118

Effective date: 20180710

PC43 Official registration of the transfer of the exclusive right without contract for inventions

Effective date: 20181121

QB4A Licence on use of patent

Free format text: LICENCE FORMERLY AGREED ON 20201211

Effective date: 20201211

QC41 Official registration of the termination of the licence agreement or other agreements on the disposal of an exclusive right

Free format text: LICENCE FORMERLY AGREED ON 20201211

Effective date: 20220311