[go: up one dir, main page]

JPH1185910A - Character recognition apparatus and method, and recording medium recording the method - Google Patents

Character recognition apparatus and method, and recording medium recording the method

Info

Publication number
JPH1185910A
JPH1185910A JP10005468A JP546898A JPH1185910A JP H1185910 A JPH1185910 A JP H1185910A JP 10005468 A JP10005468 A JP 10005468A JP 546898 A JP546898 A JP 546898A JP H1185910 A JPH1185910 A JP H1185910A
Authority
JP
Japan
Prior art keywords
character
category
morpheme
dictionary
identifier
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP10005468A
Other languages
Japanese (ja)
Inventor
Yoshimoto Yamamoto
喜大 山本
Yasuhiro Sakurai
康浩 櫻井
Kazuhiko Yamashita
和彦 山下
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP10005468A priority Critical patent/JPH1185910A/en
Publication of JPH1185910A publication Critical patent/JPH1185910A/en
Pending legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)

Abstract

(57)【要約】 【課題】 文字認識装置の認識精度の向上と高速化を目
的とする。 【解決手段】 文字切り出し部101は、文書画像から
文字画像を切り出す。特徴量抽出部102は、各文字に
ついて、文字画像から特徴量を抽出する。カテゴリ決定
部104は、各文字について、文字の特徴量とカテゴリ
辞書103中のカテゴリの標準特徴量との類似度を求め
て各文字のカテゴリを求める。形態素抽出部106は、
カテゴリ又はカテゴリ列を検索キーとして形態素辞書1
05を検索して形態素を抽出し、形態素を連結したネッ
トワークを生成し、文法処理をして優先度の高い形態素
の組み合わせを求める。形態素が一つに決定できないと
き、詳細認識部107は形態素を構成する文字の類似度
をカテゴリ辞書103の各文字の標準特徴量と照合して
一の形態素に決定する。
(57) [Summary] [PROBLEMS] To improve the recognition accuracy and speed of a character recognition device. SOLUTION: A character extracting unit 101 extracts a character image from a document image. The feature amount extraction unit 102 extracts a feature amount from a character image for each character. The category determination unit 104 obtains the similarity between the character feature amount of each character and the standard feature amount of the category in the category dictionary 103 to obtain the category of each character. The morpheme extraction unit 106
Morphological dictionary 1 with category or category string as search key
05 is retrieved to extract morphemes, a network is generated by connecting the morphemes, and grammatical processing is performed to obtain a combination of morphemes having a high priority. When one morpheme cannot be determined, the detailed recognition unit 107 determines the similarity of the characters constituting the morpheme by comparing it with the standard feature amount of each character in the category dictionary 103 to determine one morpheme.

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】本発明は、文字認識装置及び
その方法並びにその方法を記録した記録媒体に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a character recognition device and method, and a recording medium on which the method is recorded.

【0002】[0002]

【従来の技術】文字認識装置には、スキャナ等を使用し
て、L/E(Light/Electric)変換などで文書画像を読み
取って文字を認識して文字コードに変換する第1の文字
認識装置と、ペンとタブレット等を使用して、オンライ
ンで手書き文字の座標データの入力を受けて文字を認識
して文字コードに変換する第2の文字認識装置とがあ
る。
2. Description of the Related Art A character recognition device is a first character recognition device that uses a scanner or the like to read a document image by L / E (Light / Electric) conversion or the like, recognizes characters, and converts the characters into character codes. And a second character recognition device that receives input of coordinate data of handwritten characters online using a pen, a tablet, or the like, recognizes the characters, and converts the characters into character codes.

【0003】従来の第1の文字認識装置は、例えば、特
開昭62−219190号公報に記載されている。以
下、この文字認識装置について説明する。
[0003] A first conventional character recognition device is described in, for example, Japanese Patent Application Laid-Open No. 62-219190. Hereinafter, the character recognition device will be described.

【0004】図34は、従来の文字認識装置の構成図で
ある。この文字認識装置は、文字切り出し部3401、
特徴量抽出部3402、認識辞書3403、類似度算出
部3404、形態素辞書3405及び後処理部3406
から構成されている。
FIG. 34 is a configuration diagram of a conventional character recognition device. This character recognition device includes a character cutout unit 3401,
Feature amount extraction unit 3402, recognition dictionary 3403, similarity calculation unit 3404, morpheme dictionary 3405, and post-processing unit 3406
It is composed of

【0005】文字切り出し部3401は、切り出す文字
画像を縦軸と横軸に投影し、連続した像が得られる範囲
を1文字の範囲として、文書画像から1文字に相当する
画像を切り出す。文字の大きさや文字間のピッチの情報
を使ってその補正も行う。
A character extracting unit 3401 projects a character image to be extracted on a vertical axis and a horizontal axis, and extracts an image corresponding to one character from a document image with a range in which a continuous image can be obtained as one character range. The correction is also performed using information on the character size and the pitch between characters.

【0006】特徴量抽出部3402は、切り出された個
々の文字画像につきその特徴量を抽出する。例えば、特
開昭63−34682号公報に記載されているように、
文字画像中の線分の傾き等を求めて、特徴量としてベク
トルデータを抽出する。
[0006] The feature amount extraction unit 3402 extracts the feature amount of each cut-out character image. For example, as described in JP-A-63-34682,
The inclination or the like of a line segment in the character image is obtained, and vector data is extracted as a feature amount.

【0007】認識辞書3403は、文字画像の特徴量か
ら文字コードを特定するため、標準特徴量と文字コード
とを対応させた辞書である。ここで、標準特徴量とは、
文字コードで特定される標準的な文字形状の特徴量をい
う。
[0007] The recognition dictionary 3403 is a dictionary in which standard feature values and character codes are associated with each other in order to specify a character code from the feature values of a character image. Here, the standard feature value is
It refers to a standard character shape feature specified by a character code.

【0008】図35は、認識辞書3403の具体的な構
造を示している。認識辞書3403は、文字の標準特徴
量3501と、対応する文字コード3502とを組にし
て登録している。
FIG. 35 shows a specific structure of the recognition dictionary 3403. The recognition dictionary 3403 registers a pair of a standard feature amount 3501 of a character and a corresponding character code 3502.

【0009】類似度算出部3404は、特徴量抽出部3
402で抽出された文字画像の特徴量を認識辞書340
3中の標準特徴量3501と照合し、一致の度合いの高
い文字から順に複数の文字コード3502を候補文字と
して得る。各文字画像につき複数の候補文字が得られ
る。
The similarity calculating section 3404 includes the feature extracting section 3
The feature amount of the character image extracted in 402 is recognized by the recognition dictionary 340.
3 is compared with the standard feature amount 3501, and a plurality of character codes 3502 are obtained as candidate characters in order from a character having a high degree of matching. A plurality of candidate characters are obtained for each character image.

【0010】形態素辞書3405は、形態素を表す文字
コード又は文字コード列と、形態素の属性である品詞と
を対応づけて登録している。ここで、形態素とは、最小
言語単位をいい、名詞や動詞などの自立語の他、付属
語、接頭語、接尾語等も含む。図36は、形態素辞書3
405の具体的内容を示している。形態素辞書3405
は、形態素3601と形態素の品詞3602とを組にし
て登録している。ここで、形態素3601には、文字コ
ード又は文字コード列が記録されているけれども、内容
が理解しやすいように形態素である文字又は文字列が示
されている。
The morphological dictionary 3405 registers character codes or character code strings representing morphemes and part-of-speech as attributes of morphemes in association with each other. Here, the morpheme refers to a minimum linguistic unit and includes not only independent words such as nouns and verbs, but also auxiliary words, prefixes, suffixes, and the like. FIG. 36 shows a morphological dictionary 3
405 shows the specific contents. Morphological dictionary 3405
Is registered as a set of the morpheme 3601 and the part of speech 3602 of the morpheme. Here, although a character code or a character code string is recorded in the morpheme 3601, a character or a character string that is a morpheme is shown so that the content can be easily understood.

【0011】後処理部3406は、類似度算出部340
4で得られた各候補文字又は各候補文字を組み合わせた
文字列と形態素辞書3405の形態素とを照合し、一致
する形態素を取り出し、さらに文法処理を行い、最も優
先度の高い形態素の並びを得る。
The post-processing unit 3406 includes a similarity calculating unit 340
The morphemes in the morphological dictionary 3405 are compared with each candidate character or a character string obtained by combining the candidate characters obtained in step 4, and the morphemes that match each other are extracted. Further, grammatical processing is performed to obtain a sequence of morphemes having the highest priority. .

【0012】例えば、図37に示すような文字列画像3
701を認識する場合には、文字切り出し部3401に
よって、図38に示す文字画像3801、3802が切
り出される。
For example, a character string image 3 as shown in FIG.
In the case of recognizing 701, the character extracting unit 3401 extracts character images 3801 and 3802 shown in FIG.

【0013】特徴量抽出部3402は、切り出された個
々の文字画像3801、3802からその特徴量をそれ
ぞれ抽出する。
[0013] The characteristic amount extracting section 3402 extracts the characteristic amount from each of the cut-out individual character images 3801 and 3802.

【0014】類似度算出部3404は、特徴量抽出部3
402で抽出された特徴量と認識辞書3403に登録さ
れている標準特徴量3501とを照合し、その類似度を
算出する。この類似度の高い順に対応する文字コード3
502を例えば類似度の第4位の候補文字までを取り出
すと、図39に示すようになる。即ち、文字画像380
1では、類似度の第1位から順に「文」、「丈」、
「又」、「支」が候補文字として取り出され、文字画像
3802では、同様に「善」、「著」、「菩」、「青」
が候補文字として取り出される。
The similarity calculating section 3404 includes the feature quantity extracting section 3
The feature amount extracted in 402 is compared with the standard feature amount 3501 registered in the recognition dictionary 3403, and the similarity is calculated. Character code 3 corresponding to the descending order of similarity
FIG. 39 shows an example of extracting the character 502 up to the fourth candidate character of the similarity. That is, the character image 380
In 1, the sentence, height,
“Mata” and “branch” are extracted as candidate characters, and in the character image 3802, “good”, “author”, “bodhi”, “blue”
Is extracted as a candidate character.

【0015】なお、図39に示す候補文字は、実際には
文字コードとして取り出されているけれども、内容がわ
かるように文字で示している。
Although the candidate characters shown in FIG. 39 are actually extracted as character codes, they are represented by characters so that the contents can be understood.

【0016】後処理部3406は、形態素辞書3405
の形態素3601と類似度算出部3404で取り出され
た候補文字又は1文字目と2文字目の候補文字を組み合
わせた語「文善」、「文著」、「文菩」、・・・、「支
青」とを照合し、一致するものが登録されているか調べ
る。この結果、「文(名詞)」、「青(名詞)」、「青
(形容詞)」及び「善(形容詞)」が一致する。後処理
部3406は、形容詞の後には活用語尾が続くという文
法ルールを適用して、2文字目の候補文字から「青(形
容詞)」と「善(形容詞)」を棄却する。これによっ
て、「文(名詞)」と「青(名詞)」の複合語が最も優
先度の高い語となり、文字列認識結果として「文青」が
得られる。
The post-processing unit 3406 has a morphological dictionary 3405
The words “bunsetsu”, “bunsetsu”, “bunbo”,..., Combining the morpheme 3601 and the candidate characters extracted by the similarity calculation unit 3404 or the first and second candidate characters And check if a match is registered. As a result, “sentence (noun)”, “blue (noun)”, “blue (adjective)”, and “good (adjective)” match. The post-processing unit 3406 rejects “blue (adjective)” and “good (adjective)” from the second candidate character by applying a grammatical rule that an adjective follows an inflected ending. Thus, the compound word of “sentence (noun)” and “blue (noun)” becomes the word with the highest priority, and “sentence blue” is obtained as a character string recognition result.

【0017】次に、この文字認識装置の動作について、
図40のフローチャートを用いて説明する。
Next, the operation of this character recognition device will be described.
This will be described with reference to the flowchart of FIG.

【0018】文字切り出し部3401は、文字画像を縦
軸と横軸に投影し、連続した像が得られる範囲を1文字
の範囲とし、文書画像から1文字に相当する画像を切り
出し(S4001)、特徴量抽出部3402は、切り出
された個々の文字画像につきその特徴量を抽出する(S
4002)。次に、類似度算出部3404は、認識辞書
3403を参照して、抽出した文字の特徴量と標準特徴
量と照合し、類似度の高い文字から順に文字コードを候
補文字として得る。この結果、各文字画像につき複数の
候補文字が得られる(S4003)。後処理部3406
は、形態素辞書3405の形態素3601と、各候補文
字又は各候補文字を組み合わせた候補文字列とを照合
し、一致する形態素を取り出し、さらに文法処理を行
い、最も優先度の高い語の並びを得る(S4004)。
得られた語を文字認識結果として出力する(S400
5)。
The character cutout unit 3401 projects a character image on the vertical axis and the horizontal axis, sets a range in which a continuous image can be obtained as one character range, and cuts out an image corresponding to one character from the document image (S4001). The feature amount extraction unit 3402 extracts the feature amount of each cut-out character image (S
4002). Next, the similarity calculation unit 3404 refers to the recognition dictionary 3403, checks the extracted character feature amount against the standard feature amount, and obtains a character code as a candidate character in order from the character having the highest similarity. As a result, a plurality of candidate characters are obtained for each character image (S4003). Post-processing unit 3406
Matches the morpheme 3601 of the morpheme dictionary 3405 with each candidate character or a candidate character string combining each candidate character, extracts a matching morpheme, and further performs grammar processing to obtain a sequence of words having the highest priority. (S4004).
The obtained word is output as a character recognition result (S400
5).

【0019】次に、従来の第2の文字認識装置について
説明する。なお、この装置において、座標データが表す
文字の形状的な特徴に加えて、言語情報を使って認識性
能を向上させる方法も提案されている。例えば、電子通
信学会論文誌Vol.J69-D No.9,pp1292-1301,1986や、特
開平6−124364号公報記載の技術がある。
Next, a second conventional character recognition apparatus will be described. In this device, a method of improving recognition performance using linguistic information in addition to the shape characteristics of the character represented by the coordinate data has been proposed. For example, there are techniques described in the IEICE Transactions Vol. J69-D No. 9, pp. 1292-1301, 1986 and Japanese Patent Application Laid-Open No. 6-124364.

【0020】図41は、この文字認識装置の構成図であ
る。文字認識装置は、座標入力部4101、文字切り出
し部4102、特徴量抽出部4103、認識辞書410
4、マッチング部4105、形態素辞書4106、後処
理部4107および出力部4108から構成されてい
る。
FIG. 41 is a block diagram of this character recognition device. The character recognition device includes a coordinate input unit 4101, a character cutout unit 4102, a feature amount extraction unit 4103, a recognition dictionary 410
4, a matching unit 4105, a morphological dictionary 4106, a post-processing unit 4107, and an output unit 4108.

【0021】座標入力部4101は例えばタブレットで
ある。タブレットは、ペンがタブレットに接触している
(ペンダウン)か、接触していない(ペンアップ)かを
検出可能で、接触している場合には、ペンの座標データ
が一定間隔で文字切り出し部4102に入力される。こ
こで、ペンダウンからペンアップまでの軌跡をストロー
クと呼ぶ。また、ペンアップからペンダウンまでの仮想
的なストロークをオフストロークと呼ぶ。ペンダウンの
ときのペンの軌跡は出力部4108に表示される。な
お、入出力一体型タブレットを使用する場合、座標入力
部4101と出力部4108とは一体となる。
The coordinate input unit 4101 is, for example, a tablet. The tablet can detect whether the pen is in contact with the tablet (pen down) or not (pen up). If the pen is in contact, the coordinate data of the pen is displayed at regular intervals in the character cutout unit 4102. Is input to Here, the trajectory from pen down to pen up is called a stroke. A virtual stroke from pen-up to pen-down is called an off-stroke. The trajectory of the pen when the pen is down is displayed on the output unit 4108. When an input / output integrated tablet is used, the coordinate input unit 4101 and the output unit 4108 are integrated.

【0022】文字切り出し部4102は、座標入力部4
101から入力された座標データからストロークの間
隔、ペンアップの時間、文字の大きさ、位置、形状、縦
横比、文字ピッチ等の特徴を用いて文字の領域を切り出
す。なお、この文字領域の切り出し方法は、例えば、特
開平6−124364号公報に詳しく記載されており、文字の
縦横比、文字幅、文字の大きさ、文字内の最大スペース
幅をノードの重みとし、文字ピッチ、文字間のスペース
幅をリンクの重みとするネットワークを構成し、さらに
K次最短経路を求めることによりK番目までの文字領域
を得る。
The character cutout unit 4102 includes a coordinate input unit 4
A character area is cut out from the coordinate data input from 101 using features such as stroke interval, pen-up time, character size, position, shape, aspect ratio, and character pitch. The method of extracting the character area is described in detail in, for example, Japanese Patent Application Laid-Open No. 6-124364, and the aspect ratio of the character, the character width, the character size, and the maximum space width in the character are used as the weight of the node. , A character pitch and a space width between characters are set as link weights, and a K-th shortest path is obtained to obtain a K-th character area.

【0023】特徴量抽出部4103は、切り出された文
字領域の特徴量を抽出する。この特徴量としては多数の
方法が提案されているが、例えば特開平8−249424号公
報に詳細に記載されている技術を用いて、以下の手順
(1)から(4)で得られる特徴点を特徴量とする。
The feature amount extraction unit 4103 extracts the feature amount of the extracted character region. Numerous methods have been proposed for this feature amount. For example, the feature points obtained by the following procedures (1) to (4) using a technique described in detail in Japanese Patent Application Laid-Open No. 8-249424 are disclosed. Is a feature amount.

【0024】(1)各ストロークについて、各座標点間
の距離が一定値Nlmin以下の場合には、その座標点を除
去し、残った座標点列を特徴点とする。 (2)連続する特徴点Pi-1、Pi、Pi+1において、Pi-
1からPiへの方向と、PiからPi+1への方向の差で表さ
れる角度が一定値Ndist以下の場合にはPiを除去し、残
った座標点列を特徴点とする。 (3)文字領域として切り出されたストローク列に外接
する矩形を求めて、各特徴点を所定のサイズに正規化す
る。 (4)文字領域として切り出された各ストローク列に対
して、ストロークの入力順に特徴点をならべる。このと
き特徴点間の距離が一定値Nfmax以上の場合には、当該
特徴点間に相当する座標点を選択し、これを正規化して
特徴点に加える。また、距離がNfmin以下で、かつ、注
目特徴点の前後の特徴点となす角度の小さいほうが一定
値Nddstより小さい場合には、その注目特徴点を除去す
る。上記の方法は、(4)により、オフストロークにつ
いても特徴点が追加されるので、「続け文字」や「崩し
文字」の特徴も表している。
(1) For each stroke, when the distance between the coordinate points is equal to or less than a fixed value Nlmin, the coordinate points are removed and the remaining coordinate point sequence is used as a feature point. (2) For consecutive feature points Pi-1, Pi and Pi + 1, Pi-
If the angle represented by the difference between the direction from 1 to Pi and the direction from Pi to Pi + 1 is equal to or smaller than a fixed value Ndist, Pi is removed and the remaining coordinate point sequence is set as a feature point. (3) Obtain a rectangle circumscribing the stroke sequence cut out as a character area, and normalize each feature point to a predetermined size. (4) Feature points are arranged in the order of stroke input for each stroke sequence cut out as a character area. At this time, if the distance between the feature points is equal to or greater than the fixed value Nfmax, a coordinate point corresponding to the feature point is selected, normalized, and added to the feature point. If the distance is equal to or smaller than Nfmin and the smaller angle between the feature points before and after the target feature point is smaller than the fixed value Nddst, the target feature point is removed. In the above method, since the feature point is added to the off-stroke by (4), the feature of “continuation character” or “break character” is also represented.

【0025】認識辞書4104は、文字の標準特徴量と
文字コードとを対応づけて登録している。上述の図35
に示した認識辞書3403と同様の構造を有するが、標
準特徴量については、オンライン文字認識装置に特有の
標準特徴量を有している。
The recognition dictionary 4104 registers standard character amounts of characters and character codes in association with each other. FIG. 35 above
Has the same structure as that of the recognition dictionary 3403 shown in (1), but has standard feature values specific to the online character recognition device.

【0026】マッチング部4105は、抽出した文字領
域の特徴量と認識辞書4104の標準特徴量との間でD
P(Dynamic Programming)マッチング処理を実行し、そ
れぞれ類似度を求める。ここで、類似度はマッチング距
離であり、マッチング距離が短いほうが類似度が高い。
また、マッチング距離は、特徴点間のユークリッド距離
と方向差の線形結合とする。DPマッチングの結果、マ
ッチング距離の短い(類似度の高い)文字から順に所定
数の文字コードを候補文字として得る。
The matching unit 4105 calculates a D value between the extracted characteristic amount of the character area and the standard characteristic amount of the recognition dictionary 4104.
A P (Dynamic Programming) matching process is executed, and the similarity is calculated for each. Here, the similarity is a matching distance, and the shorter the matching distance, the higher the similarity.
The matching distance is a linear combination of the Euclidean distance between the feature points and the direction difference. As a result of the DP matching, a predetermined number of character codes are obtained as candidate characters in order from a character having a short matching distance (high similarity).

【0027】後処理部4107は、各候補文字及び各候
補文字を組み合わせた文字列と形態素辞書4106の形
態素3601とを照合し、一致する形態素を取り出し、
さらに文法処理を行い、最も優先度の高い形態素の並び
を得る。最も優先度の高い形態素の並びを得る方法とし
て各種方法が考えられるが、ここでは、形態素をノード
とするネットワークを構成し、次の条件で最も優先度の
高い経路を求める。
The post-processing unit 4107 checks each candidate character and a character string obtained by combining each candidate character with the morpheme 3601 of the morpheme dictionary 4106, and extracts a matching morpheme.
Further, grammatical processing is performed to obtain a row of morphemes having the highest priority. Various methods are conceivable as a method of obtaining the arrangement of the morphemes having the highest priority. Here, a network having the morpheme as a node is configured, and the route having the highest priority is obtained under the following conditions.

【0028】(1)文法処理により2つの形態素が接続
するか否かをしらべ、接続しない場合には、ネットワー
ク上の対応するリンクを棄却する。 (2)先頭から最後までの経路上の文節数を調べ、文節
の数が最も少ない経路を選択する。これは、文節数が少
ない形態素の並びは文としての信頼性が高いという一般
的に知られた経験則(文節数最小法)による。なお、文
節数は経路上の自立語の数として求まる。自立語は単独
で文節を構成可能な品詞をもつ形態素であり、名詞や形
容詞や動詞は自立語である。ただし用言(活用する語
で、形容詞や動詞がこれに含まれる)は活用語尾が必要
である。付属語(助詞や助動詞)や接辞(接頭語や接尾
語)は自立語ではない。 (3)経路上の全てのノード内の各文字の認識順位の合
計が最小の経路を選択する。
(1) It is checked whether or not two morphemes are connected by grammar processing. If not, the corresponding link on the network is rejected. (2) The number of clauses on the path from the beginning to the end is checked, and the path having the smallest number of clauses is selected. This is based on a generally known rule of thumb (the minimum number of phrases) that a sequence of morphemes with a small number of phrases has high reliability as a sentence. Note that the number of clauses is obtained as the number of independent words on the route. An independent word is a morpheme having a part of speech that can form a single phrase, and a noun, an adjective, and a verb are independent words. However, verbs (words to be used, which include adjectives and verbs) must have inflected endings. Adjuncts (particles and auxiliary verbs) and affixes (prefixes and suffixes) are not independent words. (3) Select a path having the smallest total recognition order of each character in all nodes on the path.

【0029】出力部4108は、得られた形態素の文字
コード列を視認できるように文字認識結果として出力す
る。
The output unit 4108 outputs a character code string of the obtained morpheme as a character recognition result so that the character code string can be visually recognized.

【0030】例えば、図42に示す筆記データを文字認
識する場合について説明する。座標入力部4101より
筆記データが入力される。文字切り出し部4102は、
図42の文字列4201から1文字に相当するストロー
クの集合を切り出し、図43に示すように文字領域43
01、4302を得る。
For example, a case in which the handwritten data shown in FIG. 42 is recognized by characters will be described. Writing data is input from a coordinate input unit 4101. The character cutout unit 4102
A set of strokes corresponding to one character is cut out from the character string 4201 in FIG. 42, and as shown in FIG.
01,4302.

【0031】特徴量抽出部4103は、切り出された個
々の文字領域4301、4302につき、その特徴量を
抽出する。
The characteristic amount extracting section 4103 extracts the characteristic amount of each of the cut-out individual character regions 4301 and 4302.

【0032】マッチング部4105は、認識辞書410
4より標準特徴量(図35に示す標準特徴量3501)
を順次取り出し、個々の文字領域の特徴量との間でDP
マッチングを行い、類似度の高い標準特徴量に対応する
文字コード(図35に示す文字コード3502)を取り
出す。ここでは第3位までの文字コードを取り出して候
補文字とする。この結果、文字領域4301について
は、類似度の高い文字より順に「文」、「え」、「ぇ」
が取り出され、同様に、文字領域4302については、
「善」、「普」、「暑」が取り出される。
The matching unit 4105 includes a recognition dictionary 410
4, the standard features (standard features 3501 shown in FIG. 35)
Are sequentially extracted, and the DP between the feature amount of each character area and
Matching is performed, and a character code (character code 3502 shown in FIG. 35) corresponding to the standard feature amount having a high degree of similarity is extracted. Here, the character codes up to the third place are taken out as candidate characters. As a result, in the character area 4301, “sentence”, “e”, “ぇ”
Is extracted. Similarly, for the character area 4302,
"Good", "pu" and "heat" are taken out.

【0033】後処理部4107は、各候補文字の文字コ
ード又は、それらを組み合わせた候補文字列の文字コー
ド列と、形態素辞書4106(3405)の形態素36
01とを照合する。 ここで、候補文字「文」、
「え」、「ぇ」、「善」、「普」、「暑」の他に、文字
領域4301に対する候補文字と文字領域4302に対
する候補文字とを組み合わせると「文善」、「文普」、
「文暑」、「え善」、「え普」、「え暑」、「ぇ善」、
「ぇ普」、「ぇ暑」の9個の文字列が得られる。一方、
図36は、形態素辞書4106に登録されている形態素
の一例であり、形態素辞書4106には、文字領域43
01に対する候補文字「文(名詞)」と、文字領域43
02に対する候補文字「善(形容詞)」、「暑(形容
詞)」とが登録されているが、文字領域4301に対す
る候補文字と文字領域4302に対する候補文字とを組
み合わせた候補文字列は登録されていない。したがっ
て、後処理部4107は、形態素辞書4106の検索結
果として「文(名詞)」、「善(形容詞)」及び「暑
(形容詞)」を得る。
The post-processing unit 4107 stores a character code of each candidate character or a character code string of a candidate character string obtained by combining the character codes and the morpheme 36 of the morphological dictionary 4106 (3405).
Compare with 01. Where the candidate characters "sentence",
In addition to “E”, “ぇ”, “Good”, “P”, and “Hot”, combining candidate characters for the character area 4301 and candidate characters for the character area 4302 yields “Bunzen”, “Bunpu”,
"Ben heat", "E good", "E phu", "E heat", "ぇ good",
Nine character strings of “ぇ PU” and “ぇ Hatsu” are obtained. on the other hand,
FIG. 36 shows an example of a morpheme registered in the morpheme dictionary 4106.
01 and the character area 43 (sentence (noun))
Although candidate characters “good (adjective)” and “hot (adjective)” for 02 are registered, no candidate character string combining candidate characters for the character region 4301 and candidate characters for the character region 4302 is registered. . Therefore, the post-processing unit 4107 obtains “sentence (noun)”, “good (adjective)”, and “hot (adjective)” as a search result of the morphological dictionary 4106.

【0034】後処理部4107は、さらに文法処理を行
う。ここで、「善(形容詞)」と「暑(形容詞)」と
は、それぞれその後に続く活用語尾が無く、文法的に成
立しない。また、「文(名詞)」は単独で文節として成
立するが後続する文節はない。このように筆記文字列全
体を構成する形態素の並びを得ることができないため後
処理に失敗する。
The post-processing unit 4107 further performs grammar processing. Here, “good (adjective)” and “heat (adjective)” do not have grammatical endings that follow each, and are not grammatically established. Also, “sentence (noun)” is formed as a phrase alone, but there is no succeeding phrase. As described above, since the arrangement of the morphemes constituting the entire writing character string cannot be obtained, the post-processing fails.

【0035】出力部4108は、後処理に失敗したの
で、マッチング部4105で最も類似度の高い文字を選
択して「文善」を出力する。
Since the post-processing has failed, the output unit 4108 selects the character having the highest similarity by the matching unit 4105 and outputs "bunbun".

【0036】次に、この文字認識装置の動作について、
図44のフローチャートを用いて説明する。座標入力部
4101は、タブレット上の座標データを文字切り出し
部4102に入力する(S4401)。
Next, the operation of the character recognition device will be described.
This will be described with reference to the flowchart of FIG. The coordinate input unit 4101 inputs the coordinate data on the tablet to the character cutout unit 4102 (S4401).

【0037】文字切り出し部4102は、ストロークの
間隔、ペンアップの時間、文字の大きさ、位置、形状、
縦横比、文字ピッチ等の特徴を用いて、座標データより
各文字の領域を切り出す(S4402)。
The character cutout unit 4102 includes a stroke interval, pen-up time, character size, position, shape,
An area of each character is cut out from the coordinate data using features such as an aspect ratio and a character pitch (S4402).

【0038】次に、特徴量抽出部4103は、切り出さ
れた個々の文字領域の座標データにつき、その特徴量を
抽出する(S4403)。マッチング部4105は、特
徴量抽出部4103が求められた特徴量と、認識辞書4
104の標準特徴量との間でマッチングを行い、一致の
度合の高い標準特徴量に対応する文字から順に複数の文
字コードを候補文字として得る(S4404)。
Next, the characteristic amount extracting unit 4103 extracts the characteristic amount of the coordinate data of each cut-out character area (S4403). The matching unit 4105 compares the feature amount obtained by the feature amount extraction unit 4103 with the recognition dictionary 4
Matching is performed with the standard feature amount of the reference character 104, and a plurality of character codes are obtained as candidate characters in order from the character corresponding to the standard feature amount with a high degree of matching (S4404).

【0039】次に、後処理部4107は、各候補文字又
は各候補文字を組み合わせた文字列と形態素辞書410
6の形態素とを照合し、一致する形態素を取り出し、さ
らに文法処理を行い、最も優先度の高い形態素の並びを
得る(S4405)。
Next, the post-processing unit 4107 converts each candidate character or a character string obtained by combining each candidate character with the morphological dictionary 410.
The morphemes are compared with each other, the morphemes that match each other are extracted, and further grammatical processing is performed to obtain a sequence of morphemes having the highest priority (S4405).

【0040】次に、出力部4108は、選択した経路上
の形態素を文字認識結果として出力する(S440
6)。
Next, the output unit 4108 outputs the morpheme on the selected route as a character recognition result (S440).
6).

【0041】[0041]

【発明が解決しようとする課題】ところが、上記第1お
よび第2の文字認識装置では、類似度算出部3404又
はマッチング部4105は、候補文字を取り出すために
文字領域の特徴量と認識辞書3403、3404の全て
の標準特徴量とを照合しなければならないので、照合に
長時間を要する。
However, in the first and second character recognition devices, the similarity calculation unit 3404 or the matching unit 4105 uses the feature amount of the character area and the recognition dictionary 3403 to extract candidate characters. Since it is necessary to collate with all the standard feature values of 3404, it takes a long time to collate.

【0042】また、後処理部3406、4107の形態
素辞書3405との照合量を少なくするため、類似度の
高い所定数の文字候補を取り出しているけれども、この
所定数の文字候補に正しい認識文字、上述の具体例にお
ける2文字目の「書」が含まれないときには、正しく文
字列を認識することはできない。ここで、正しく文字列
を認識するためには、所定数の文字候補の数を増やし
て、必ず文字候補に正しい認識文字が含まれるようにし
なければならない。このようにすると、後処理部340
6、4107の照合時間に長時間を要することになる。
また、文字候補の数が増えれば、後処理部3406、4
107は、複数の文字列の認識結果を取り出す場合もあ
る。
Although a predetermined number of character candidates having a high degree of similarity are extracted to reduce the amount of collation of the post-processing units 3406 and 4107 with the morphological dictionary 3405, correct recognition characters and If the second character "" in the above specific example is not included, the character string cannot be correctly recognized. Here, in order to correctly recognize a character string, it is necessary to increase the number of a predetermined number of character candidates so that the character candidates always include correct recognition characters. By doing so, the post-processing unit 340
It takes a long time for the comparison time of 6, 4107.
If the number of character candidates increases, the post-processing units 3406, 4406
107 may retrieve the recognition result of a plurality of character strings.

【0043】更に、上記第2の文字認識装置では、手書
き筆跡は、個人差が大きく、標準的な文字形状から逸脱
した手書き文字が入力されることがある。例えば、漢字
「明」の文字要素「日」と「月」とが、その前後の文字
と同じ大きさ、間隔で入力された場合には、マッチング
部4105で正しく「明」を候補文字として取り出すこ
とは、原理的に不可能である。
Further, in the second character recognition device, handwritten handwriting has a large individual difference, and a handwritten character deviating from a standard character shape may be input. For example, when the character elements “day” and “month” of the kanji “akira” are input at the same size and at the same interval as the characters before and after them, the matching unit 4105 correctly extracts “akira” as a candidate character. This is impossible in principle.

【0044】本発明は、上記課題に鑑み、認識精度が高
く、かつ、処理速度の速い文字認識装置を提供すること
を目的とする。
The present invention has been made in view of the above problems, and has as its object to provide a character recognition device having high recognition accuracy and high processing speed.

【0045】[0045]

【課題を解決するための手段】上記目的を達成するた
め、本発明は、文字列を表すデータから文字を認識する
文字認識装置であって、形状が類似する文字又は文字要
素が同一カテゴリとして分類され、同一カテゴリに分類
された文字又は文字要素の標準的な形状から抽出された
特徴量を代表する代表標準特徴量と当該カテゴリの識別
子とを対応づけて記憶するカテゴリ辞書と、ひとつ又は
複数の文字又は複数の文字要素から構成され最小言語単
位である形態素と、前記形態素を構成する文字又は文字
列の属するカテゴリの識別子又はカテゴリの識別子列と
を対応づけて記憶する形態素辞書と、前記文字列を表す
データの一文字ごとの形状から特徴量を抽出する特徴量
抽出手段と、前記特徴量抽出手段で抽出された特徴量と
前記カテゴリ辞書に記憶されている代表標準特徴量とを
照合して、類似度の高い代表標準特徴量に対応づけられ
たカテゴリの識別子を決定するカテゴリ決定手段と、前
記カテゴリ決定手段で決定されたカテゴリの識別子に従
い、前記形態素辞書から複数の候補形態素を抽出する候
補形態素抽出手段と、前記候補形態素抽出手段で抽出さ
れた複数の候補形態素から、所定の基準により優先する
形態素を決定する形態素決定手段とを備えたこととして
いる。
According to the present invention, there is provided a character recognition device for recognizing a character from data representing a character string, wherein characters or character elements having similar shapes are classified as the same category. A category dictionary that stores a representative standard feature quantity representing a feature quantity extracted from a standard shape of a character or a character element classified in the same category and an identifier of the category in association with one another, A morpheme dictionary that stores a morpheme, which is a minimum linguistic unit composed of a character or a plurality of character elements, and a category identifier or a category identifier sequence to which the character or character string constituting the morpheme belongs in association with each other; A feature value extraction unit that extracts a feature value from a shape of each character representing data, and a feature value extracted by the feature value extraction unit and the category dictionary. Category determining means for comparing the stored representative standard feature quantity with an identifier of a category associated with the representative standard feature quantity having a high degree of similarity, and according to the category identifier determined by the category determining means. A candidate morpheme extracting unit that extracts a plurality of candidate morphemes from the morphological dictionary; and a morpheme determining unit that determines a morpheme to be prioritized based on a predetermined criterion from the plurality of candidate morphemes extracted by the candidate morpheme extracting unit. I have to do that.

【0046】[0046]

【発明の実施の形態】以下、本発明に係る文字認識装置
の実施の形態について、図面を用いて説明する。
DESCRIPTION OF THE PREFERRED EMBODIMENTS Embodiments of the character recognition device according to the present invention will be described below with reference to the drawings.

【0047】(実施の形態1)(Embodiment 1)

【0048】図1は、本発明に係る文字認識装置の実施
の形態1の構成図である。この文字認識装置は、スキャ
ナ等を用いて文書画像を読み取り、文字列を認識するも
のであり、文字切り出し部101と、特徴量抽出部10
2と、カテゴリ辞書103と、カテゴリ決定部104
と、形態素辞書105と、形態素抽出部106と、詳細
認識部107とを備えている。なお、文字切り出し部1
01と、特徴量抽出部102とは、上記従来の第1の文
字認識装置の文字切り出し部3401と特徴量抽出部3
402と同一であるので、説明を省略する。
FIG. 1 is a block diagram of a first embodiment of a character recognition device according to the present invention. This character recognition device reads a document image using a scanner or the like and recognizes a character string, and includes a character cutout unit 101 and a feature amount extraction unit 10.
2, a category dictionary 103, and a category determination unit 104
, A morpheme dictionary 105, a morpheme extraction unit 106, and a detail recognition unit 107. Note that the character cutout unit 1
01 and the feature amount extraction unit 102 are the character cutout unit 3401 and the feature amount extraction unit 3 of the above-described conventional first character recognition device.
The description is omitted because it is the same as 402.

【0049】カテゴリ辞書103は、図2に示すよう
に、カテゴリとその標準特徴量とを組にした上層201
と、各カテゴリに含まれる文字コードとその標準特徴量
とを対応付けた下層202、203とからなる階層構造
を有する。ここで、カテゴリとは、形状の類似した文字
又は文字要素を一の種類に分類したものをいう。また、
カテゴリの標準特徴量とは、そのカテゴリに含まれる文
字又は文字要素の標準的な形状の特徴を表すものをい
う。
As shown in FIG. 2, the category dictionary 103 includes an upper layer 201 in which a category and its standard feature amount are paired.
And a lower layer 202, 203 in which character codes included in each category are associated with their standard feature amounts. Here, the category refers to a character or character element having a similar shape that is classified into one type. Also,
The standard feature amount of a category indicates a feature of a standard shape of a character or a character element included in the category.

【0050】上層201には、カテゴリ数204と、カ
テゴリとその標準特徴量との組205と、各カテゴリへ
のポインタ206とが登録されている。カテゴリ数20
4は、全ての文字又は文字要素をそれらの標準的な形状
の特徴を表す標準特徴量をクラスタ分析して分類した数
である。クラスタ分析については、「多変量統計解析
法」、田中豊・脇本和昌著、現代数学社、p.230〜244に
説明されている。なお、このカテゴリ数が文字コード数
と一致すると、上述した従来の認識辞書3403と同一
のものになる。また、このカテゴリ数に応じて後述する
形態素辞書105のカテゴリ又はカテゴリ列に対応して
登録されている形態素の内容が変化する。
In the upper layer 201, the number of categories 204, a set 205 of a category and its standard feature amount, and a pointer 206 to each category are registered. 20 categories
Reference numeral 4 denotes a number obtained by classifying all characters or character elements by cluster analysis of standard feature values representing features of their standard shapes. The cluster analysis is described in "Multivariate Statistical Analysis", by Yutaka Tanaka and Kazumasa Wakimoto, Gendai Mathematics, p.230-244. If the number of categories matches the number of character codes, it becomes the same as the above-described conventional recognition dictionary 3403. Further, the content of the morpheme registered corresponding to the category or the category string of the morpheme dictionary 105 described later changes according to the number of categories.

【0051】下層202には、各カテゴリ205に含ま
れる文字数207とそれらの文字コード208とが登録
され、上層201の各ポインタ206で連結されてい
る。各カテゴリ205に含まれる文字数207は、カテ
ゴリによって異なる。この文字コードに対応して下層2
03には、この文字コードに対応した文字の標準的な形
状の特徴を表わす標準特徴量が登録されている。この標
準特徴量は、文字コードの順に登録されている。
In the lower layer 202, the number of characters 207 included in each category 205 and their character codes 208 are registered, and are linked by each pointer 206 in the upper layer 201. The number of characters 207 included in each category 205 differs depending on the category. Lower layer 2 corresponding to this character code
In 03, a standard feature quantity representing a feature of a standard shape of a character corresponding to the character code is registered. The standard features are registered in the order of the character codes.

【0052】カテゴリ決定部104は、特徴量抽出部1
02により抽出された文字の特徴量と、カテゴリ辞書1
03に含まれる上層201の各カテゴリの標準特徴量2
05との類似度を求め、文字画像の属するカテゴリを求
める。類似度としては、例えば、抽出した特徴量と標準
特徴量との間の二乗距離を使う。この場合、距離値が最
も小さくなるカテゴリが求めるカテゴリである。
The category determining unit 104 includes the feature amount extracting unit 1
02 and the characteristic amount of the character extracted by the category dictionary 1
Standard feature amount 2 of each category of the upper layer 201 included in “03”
05 and a category to which the character image belongs is obtained. As the similarity, for example, the square distance between the extracted feature value and the standard feature value is used. In this case, the category with the smallest distance value is the category to be sought.

【0053】形態素辞書105は、カテゴリ決定部10
4で得られたカテゴリ又はカテゴリを連続したカテゴリ
列を検索キーとして最小言語単位である形態素を得るた
めのものである。図3は、形態素辞書105の一例を示
している。形態素辞書105は、カテゴリ(カテゴリ列
を含む)301と、カテゴリに対応する1以上の形態素
302とその属性としての品詞303とを組にして登録
されている。なお、形態素は、文字コードで登録されて
いるけれども、本図では分かりやすいよう対応する文字
表記を記載する。
The morphological dictionary 105 is used for the category determining unit 10.
This is for obtaining a morpheme that is a minimum linguistic unit by using the category obtained in step 4 or a category string in which the categories are continuous as a search key. FIG. 3 shows an example of the morphological dictionary 105. The morpheme dictionary 105 is registered as a set of a category (including a category string) 301, one or more morphemes 302 corresponding to the category, and a part of speech 303 as an attribute thereof. Although morphemes are registered by character codes, corresponding character notations are described in this figure for easy understanding.

【0054】例えば、カテゴリ「Ca」304は、形態
素「名詞/文、父」に対応付けられている。この場合、
形態素は「文」と「父」との2つが含まれている。カテ
ゴリ「CaCb」305は、形態素「名詞/文書」に対
応付けられている。この場合、カテゴリ「Ca」とカテ
ゴリ「Cb」を連続したカテゴリ列「CaCb」がひと
つの形態素「文書」に対応付けられている。更に、カテ
ゴリ「Cb」306は、形態素「名詞/青」と形態素
「形容詞/善、青」とに対応付けられている。このよう
に、カテゴリ301に対応する形態素302が異なる品
詞303の形態素302を含むときには、品詞303ご
とに形態素が登録されている。これは、後述するよう
に、形態素抽出部106によって、文法処理がなされる
とき、この品詞に基づいて形態素を抽出するためであ
る。
For example, the category “Ca” 304 is associated with the morpheme “noun / sentence, father”. in this case,
The morpheme includes two sentences, “sentence” and “father”. The category “CaCb” 305 is associated with the morpheme “noun / document”. In this case, the category string “CaCb” in which the category “Ca” and the category “Cb” are continuous is associated with one morpheme “document”. Further, the category “Cb” 306 is associated with the morpheme “noun / blue” and the morpheme “adjective / good, blue”. As described above, when the morpheme 302 corresponding to the category 301 includes the morphemes 302 of different parts of speech 303, the morpheme is registered for each part of speech 303. This is because, as will be described later, when morphological processing is performed by the morphological extraction unit 106, morphemes are extracted based on the part of speech.

【0055】形態素抽出部106は、カテゴリ決定部1
04により得られたカテゴリを検索キーとして形態素辞
書105のカテゴリ301と照合し、一致する形態素を
抽出する。更に、抽出した形態素の組合せに対して文法
処理を行い、文法的に成立しない形態素を棄却する。
[0055] The morpheme extraction unit 106 includes the category determination unit 1
The category obtained in step 04 is compared with the category 301 of the morphological dictionary 105 as a search key, and a matching morpheme is extracted. Furthermore, grammatical processing is performed on the extracted combination of morphemes, and morphemes that are not grammatically established are rejected.

【0056】複数の形態素が残ったときには、形態素の
組合せのなかで、最も優先度の高い形態素の並びを求め
る。優先度の設定の方法としては、ここでは文節数最小
法を使うものとする。文節数最小法は、形態素列の組み
合わせの中で、文節数が少ない組合せの信頼性が高いと
いう経験則を利用したものであり、文節数が最少の形態
素列の組合せを優先する方法である。
When a plurality of morphemes remain, an arrangement of morphemes having the highest priority among combinations of morphemes is obtained. As a method of setting the priority, the minimum number of clauses method is used here. The minimum number of clauses method uses an empirical rule that, among combinations of morpheme strings, a combination having a small number of clauses has high reliability, and is a method of giving priority to a combination of morpheme strings having the smallest number of clauses.

【0057】詳細認識部107は、形態素抽出部106
において、形態素の並び(文字列)が一組に決定できな
い場合に、その文字列を構成する各文字の特徴量抽出部
102で抽出された特徴量と、カテゴリ辞書103の下
層203の文字の標準特徴量との類似度を計算する。こ
の類似度を評価点として各文字列の評価点を合計し、評
価点の高い文字列の形態素の並びを認識結果とする。
The detail recognizing unit 107 includes a morpheme extracting unit 106
In the case where the arrangement of morphemes (character strings) cannot be determined as one set, the characteristic amount extracted by the characteristic amount extraction unit 102 for each character constituting the character string and the standard of characters in the lower layer 203 of the category dictionary 103 Calculate the similarity with the feature value. Using the similarity as an evaluation point, the evaluation points of the respective character strings are totaled, and the arrangement of the morphemes of the character string having the higher evaluation point is used as the recognition result.

【0058】次に、この文字認識装置を用いた文字列画
像の文字認識の具体例を説明する。
Next, a specific example of character recognition of a character string image using the character recognition device will be described.

【0059】(具体例1)文字切り出し部101は、従
来技術の説明で用いた図37に示した文字列画像370
1が入力されると、相当する画像を切り出し、図38に
示す文字画像3801、3802を得る。
(Specific Example 1) The character cutout unit 101 uses the character string image 370 shown in FIG.
When 1 is input, the corresponding image is cut out to obtain character images 3801 and 3802 shown in FIG.

【0060】次に、特徴量抽出部102は、切り出され
た個々の文字画像3801、3802毎にその特徴量を
抽出する。
Next, the characteristic amount extracting unit 102 extracts the characteristic amount for each of the cut-out individual character images 3801 and 3802.

【0061】カテゴリ決定部104は、抽出された文字
の特徴量と、カテゴリ辞書103の上層201のカテゴ
リの標準特徴量205とを照合し、最も類似した標準特
徴量を持つカテゴリを得る。ここでは、文字画像380
1に対してはカテゴリ「Ca」が得られ、文字画像38
02に対してはカテゴリ「Cb」が得られる。
The category determining unit 104 collates the extracted character feature quantity with the standard feature quantity 205 of the category in the upper layer 201 of the category dictionary 103 to obtain a category having the most similar standard feature quantity. Here, the character image 380
1 for the category “Ca”, and the character image 38
For 02, a category “Cb” is obtained.

【0062】形態素辞書105には、上述した図3に示
すようなカテゴリと形態素とが登録されている。形態素
抽出部106は、カテゴリ決定部104で得られたカテ
ゴリ「Ca」、「Cb」及び「CaCb」を検索キーに
して形態素辞書105のカテゴリ301が一致する品詞
と形態素との組「名詞/文、父」401、「名詞/文
書」402、「名詞/青」403及び「形容詞/善、
青」404を抽出し、これらの形態素を文字列として組
み合わせ、図4に示す組合せ図を得る。図4で、「名詞
/文書」402は、2文字からなるので、この組合せで
文字列が完結する。図5に得られる組合せパターン50
1、・・・、507を示す。
In the morpheme dictionary 105, categories and morphemes as shown in FIG. 3 are registered. The morpheme extraction unit 106 uses the categories “Ca”, “Cb”, and “CaCb” obtained by the category determination unit 104 as search keys, and sets a part-of-speech and morpheme “noun / sentence” in which the category 301 of the morpheme dictionary 105 matches. , Father "401," noun / document "402," noun / blue "403 and" adjective / good,
"Blue" 404 is extracted, and these morphemes are combined as a character string to obtain a combination diagram shown in FIG. In FIG. 4, since “noun / document” 402 is composed of two characters, a character string is completed by this combination. Combination pattern 50 obtained in FIG.
, 507 are shown.

【0063】次に、形態素抽出部106は、文法処理を
行い、優先度の高い形態素の並びを得る。即ち、「青
(形容詞)」と「善(形容詞)」は、それぞれ形容詞で
あり、「青(形容詞)」、「善(形容詞)」に続く活用
語尾が無いので文法的に成立しない。したがって「青
(形容詞)」と「善(形容詞)」404は棄却される。
Next, the morpheme extraction unit 106 performs grammatical processing to obtain a sequence of morphemes having a high priority. That is, "blue (adjective)" and "good (adjective)" are adjectives, respectively, and are not grammatically established because there is no inflectional ending following "blue (adjective)" and "good (adjective)". Therefore, “blue (adjective)” and “good (adjective)” 404 are rejected.

【0064】また、文節数最小法を適用すると、1文字
の名詞が2文節で構成される形態素の組合せよりも、2
文字の名詞が1文節で構成される形態素が優先されて、
「文書(名詞)」の優先度がもっとも高くなる。この場
合、優先度のもっとも高い形態素は一つしかないので、
その文字列「文書」を認識結果とする。
Further, when the minimum number of clauses method is applied, a one-character noun has two more words than a combination of morphemes composed of two phrases.
The morpheme in which the noun of the character is composed of one phrase has priority,
"Document (noun)" has the highest priority. In this case, there is only one morpheme with the highest priority,
The character string “document” is set as the recognition result.

【0065】上述のように本実施の形態の文字認識装置
においては、特徴量抽出部102が文字画像から抽出し
た特徴量を、カテゴリ決定部104がカテゴリ辞書10
3の上層201の標準特徴量205と照合してカテゴリ
を求める。このとき、標準特徴量との照合を文字コード
を決定するまで進めるのではなく、類似する文字形状の
グループに対応するカテゴリを決定するに止める。そし
て、形態素抽出部106は、カテゴリを検索キーとして
形態素辞書105を参照し、一致するカテゴリに対応す
る形態素を抽出し、さらに文法処理を行って最も優先度
の高い文字列を求める。したがって、従来技術のような
辞書3403との照合時に正しい候補文字が得られない
ことに起因する文字認識誤りをなくし、図37の文字列
画像3701について正しく「文書」の文字コードを得
ることができる。
As described above, in the character recognition device of the present embodiment, the feature amount extracted from the character image by the feature amount
The category is obtained by collating with the standard feature amount 205 of the upper layer 201 of the third category. At this time, the matching with the standard feature amount is not advanced until the character code is determined, but only the category corresponding to the group of similar character shapes is determined. Then, the morpheme extraction unit 106 refers to the morpheme dictionary 105 using the category as a search key, extracts a morpheme corresponding to the matching category, and further performs grammar processing to obtain a character string with the highest priority. Therefore, it is possible to eliminate a character recognition error caused by a failure to obtain a correct candidate character at the time of collation with the dictionary 3403 as in the related art, and to obtain a character code of “document” correctly for the character string image 3701 in FIG. .

【0066】(具体例2)次に、上記具体例1のよう
に、優先度の高い形態素の組合せが一組に決定できなか
った場合の解決方法について説明する。なお、カテゴリ
辞書103と、形態素辞書105とは、図2、図3にそ
れぞれ示したものと同様である。
(Embodiment 2) Next, a description will be given of a solution to the case where a combination of morphemes having high priority cannot be determined as one set as in Embodiment 1 above. Note that the category dictionary 103 and the morphological dictionary 105 are the same as those shown in FIGS. 2 and 3, respectively.

【0067】ここでは、文字列画像「日本」が入力され
た場合について説明する。文字切り出し部101は、2
文字を切り出し、特徴量抽出部102は、特徴量を抽出
し、カテゴリ決定部104は、1文字目のカテゴリとし
て「Cx」、2文字目のカテゴリとして「Cy」を決定
する。
Here, the case where the character string image "Japan" is input will be described. The character cutout unit 101
Characters are cut out, the feature amount extraction unit 102 extracts feature amounts, and the category determination unit 104 determines “Cx” as the first character category and “Cy” as the second character category.

【0068】形態素辞書105には、図3に示すカテゴ
リ301と形態素302とが登録されており、カテゴリ
「Cx」に対応して、品詞と形態素の組「名詞/日、
目、白、口」及び「形容詞/白」が登録されており、カ
テゴリ「CxCy」に対応して品詞と形態素の組「名詞
/白木、日本」が登録されており、カテゴリ「Cy」に
対応して品詞と形態素の組「名詞/木、本、水」が登録
されている。
The category 301 and the morpheme 302 shown in FIG. 3 are registered in the morpheme dictionary 105, and a set of part of speech and morpheme “noun / day,
Eye, White, Mouth "and" Adjective / White "are registered, and part-of-speech and morpheme combination" Noun / Shiroki, Japan "is registered corresponding to category" CxCy ", corresponding to category" Cy " In addition, a set of part of speech and morpheme “noun / tree, book, water” is registered.

【0069】この場合、形態素抽出部106は形態素辞
書105を照合して図6に示す形態素の組合せを得る。
この結果、図7に示すように組合せ候補701、70
2、・・・、708を得る。次に、形態素抽出部106
は文法をチェックし、活用語尾のない形態素「白(形容
詞)」を棄却する。また、文節数最小法を適用し、形態
素「白木(名詞)」と形態素「日本(名詞)」が、最も
優先度の高い文字列の形態素となる。
In this case, the morpheme extraction unit 106 collates the morpheme dictionary 105 to obtain a morpheme combination shown in FIG.
As a result, as shown in FIG.
, 708 are obtained. Next, the morpheme extraction unit 106
Checks the grammar and rejects the morpheme "white (adjective)" without inflection. Also, the morpheme "Shiraki (noun)" and the morpheme "Japan (noun)" are the morphemes of the character string with the highest priority by applying the phrase number minimum method.

【0070】この場合、形態素の組合せが一組に決定で
きないので、詳細認識部107は、カテゴリ辞書103
を参照して決定できない部分をより詳細に調べる。この
場合、決定できない文字は1文字目の文字画像と2文字
目の文字画像である。
In this case, the combination of morphemes cannot be determined as one set.
Refer to for more details on the parts that cannot be determined. In this case, the characters that cannot be determined are the first character image and the second character image.

【0071】まず、詳細認識部107は、1文字目の文
字画像より特徴量抽出部102で抽出された特徴量と、
既に決定している図2の上層201のカテゴリに属する
各文字の標準特徴量203との類似度を求め、類似度の
大きい候補文字を取り出す。次に、詳細認識部107
は、2文字目の文字画像についても1文字目の文字画像
と同様に類似度の大きい候補文字を取り出す。
First, the detail recognizing unit 107 calculates the feature amount extracted by the feature amount extracting unit 102 from the character image of the first character,
The similarity of each character belonging to the category of the upper layer 201 of FIG. 2 that has already been determined with the standard feature amount 203 is obtained, and candidate characters having a large similarity are extracted. Next, the detail recognition unit 107
Extracts a candidate character having a high degree of similarity for the second character image as in the case of the first character image.

【0072】この際、上層201のカテゴリに分類され
た文字の文字コードが下層202に登録されているの
で、この文字コードに従い、文字の標準特徴量203を
照合することにより各文字の標準特徴量を得ることがで
きる。
At this time, since the character codes of the characters classified into the category of the upper layer 201 are registered in the lower layer 202, the standard characteristic amount 203 of each character is collated in accordance with this character code to obtain the standard characteristic amount of each character. Can be obtained.

【0073】以上のようにして、詳細認識部107が求
めた候補文字を図8に示す。図8に示すように、第1文
字目の候補文字として、類似度の高い候補文字より順
に、「日」801、「口」802、「白」803、
「目」804、・・・が得られ、また、第2文字目の候
補文字として、順に「木」805、「本」806、
「水」807、「ホ」808、・・・が得られたことを
示す。
FIG. 8 shows the candidate characters obtained by the detailed recognition unit 107 as described above. As shown in FIG. 8, as the first candidate character, “date” 801, “mouth” 802, “white” 803,
.. Are obtained, and “tree” 805, “book” 806,
"Water" 807, "e" 808, ... are obtained.

【0074】詳細認識部107は、次に、得られた候補
文字の類似度の順位に従い最も優先度の高い文字列を選
択する。例えば、既に得られた文字列の候補文字中の順
位の加算値が小さいものを優先する方法をとると、「白
木」の加算値は「3」+「1」=「4」となり、「日
本」の加算値は「1」+「2」=「3」となるので、文
字列「日本」が認識結果として選択される。
Next, the detail recognizing unit 107 selects a character string having the highest priority according to the order of similarity of the obtained candidate characters. For example, if a method of giving priority to a smaller addition value of the rank in the already obtained character string candidate characters is adopted, the addition value of “Shiroki” becomes “3” + “1” = “4”, and “Japan” Is “1” + “2” = “3”, so that the character string “Japan” is selected as the recognition result.

【0075】上述した具体例2のように、形態素抽出部
106において形態素の組合せが1組に決定できない場
合であっても、詳細認識部107によって正しい認識結
果として「日本」を得ることができる。
Even when the morpheme extraction unit 106 cannot determine one combination of morphemes as in the specific example 2 described above, the detailed recognition unit 107 can obtain “Japan” as a correct recognition result.

【0076】また、本実施の形態においては、形態素抽
出部106において形態素の組合せが1組に決定できる
場合には、カテゴリ辞書103を用いて候補文字の文字
コードを決定する必要はないので、類似度の計算回数を
削減できる。したがって、従来の装置の類似度算出部3
404が常に候補文字の文字コードを決定するのに比べ
て、極めて高速に動作する文字認識装置を構成すること
ができる。
In the present embodiment, if the combination of morphemes can be determined by the morpheme extraction unit 106 into one set, it is not necessary to determine the character code of the candidate character using the category dictionary 103. The number of degrees calculation can be reduced. Therefore, the similarity calculation unit 3 of the conventional device
As compared with the case where the 404 always determines the character code of the candidate character, it is possible to configure a character recognition device that operates at an extremely high speed.

【0077】(具体例2の変形例)具体例2で説明した
ように、形態素抽出部106は、優先度の高い文字列の
形態素として、形態素「白木(名詞)」と形態素「日本
(名詞)」を得る。この場合、形態素の組合せが一組に
決定できないので、詳細認識部107は、形態素「白
木」と形態素「日本」を構成する4文字「白」、
「木」、「日」、「本」のカテゴリ辞書103のそれぞ
れの文字標準特徴量と、特徴量抽出部102で抽出され
た特徴量との類似度を計算する。
(Modification of Specific Example 2) As described in Specific Example 2, the morpheme extraction unit 106 determines that the morpheme “Shiraki (noun)” and the morpheme “Japan (noun)” To get. In this case, since the combination of morphemes cannot be determined as one set, the detailed recognition unit 107 outputs the four characters “white”, which constitute the morpheme “Shiroki” and the morpheme “Japan”,
The similarity between each of the character standard feature amounts of the category dictionary 103 of “tree”, “day”, and “book” and the feature amounts extracted by the feature amount extraction unit 102 is calculated.

【0078】この結果、図9に示すように類似度が得ら
れる。1文字目の文字画像と「白」、「日」の類似度は
それぞれ、「60」、「30」であり、2文字目の文字
画像と「木」、「本」の類似度はそれぞれ、「40」、
「50」である。
As a result, a similarity is obtained as shown in FIG. The similarity between the first character image and “white” and “day” is “60” and “30”, respectively, and the similarity between the second character image and “tree” and “book” is "40",
It is "50".

【0079】次に、詳細認識部107は、類似度に基づ
いて、形態素「白木」と「日本」に優先順位付けする。
優先順位付けの方法として、例えば、類似度の加算値が
小さい方を優先すると、「白木」の類似度の加算値が1
00、「日本」の類似度の加算値が80となるので、
「日本」の優先順位が高くなる。したがって、最終的に
文字列「日本」を認識結果として選択する。
Next, the detail recognizing unit 107 assigns priority to the morphemes “Shiroki” and “Japan” based on the similarity.
As a method of assigning priorities, for example, when priority is given to the smaller value of the similarity, the added value of the similarity of “Shiroki” is 1
00, since the added value of the similarity of “Japan” is 80,
"Japan" has a higher priority. Therefore, the character string “Japan” is finally selected as the recognition result.

【0080】上述のように本実施の形態においては、形
態素抽出部106において形態素の組合せが1組に決定
できない場合であっても、正しい認識結果「日本」を得
ることができる。
As described above, in the present embodiment, even if the morpheme extraction unit 106 cannot determine one combination of morphemes, a correct recognition result “Japan” can be obtained.

【0081】この際、一組に決定できなかった形態素に
対してのみ、その形態素を構成する各文字の標準特徴量
と、特徴量抽出部で求めた特徴量との照合を詳細認識部
107が行うので、類似度算出部3404が対象とする
全文字の類似度を算出する従来の方法に比べて、極めて
高速に動作する文字認識装置を構成することができる。
At this time, for only the morphemes that could not be determined as a set, the detailed recognition unit 107 compares the standard feature quantity of each character constituting the morpheme with the feature quantity obtained by the feature quantity extraction unit. Therefore, a character recognition device that operates at a much higher speed than the conventional method in which the similarity calculation unit 3404 calculates the similarity of all the target characters can be configured.

【0082】次に、本実施の形態の動作を図10のフロ
ーチャートを用いて説明する。文字切り出し部101
は、文書画像から1文字に相当する画像を切り出し(S
1001)、特徴量抽出部102は、切り出された個々
の文字画像について、その特徴量を抽出する(S100
2)。次に、カテゴリ決定部104は、抽出した文字の
特徴量と、カテゴリ辞書103の各標準特徴量205と
の類似度を求め、文字の属するカテゴリを求める(S1
003)。形態素抽出部106は、カテゴリ決定部10
4で抽出されたカテゴリを検索キーとして形態素辞書1
05と照合して形態素を求め、求められた形態素を組み
合せ、形態素の組合せに対して文法処理を行い、文法的
に成立しない形態素の組合せを棄却する。さらに、棄却
されなかった形態素の組合せのなかから、文節数最小法
などを使い優先度の高い形態素の並びを求める(S10
04)。詳細認識部107は、優先度の高い形態素の組
合せが一組に決定できたか否かを判定し(S100
5)、肯定のときは、S1007に進む。否定のとき
は、各形態素を構成する文字の標準特徴量と、特徴量抽
出部102で求めた特徴量を照合して、最も優先度の高
い形態素を求める(S1006)。最後に、形態素抽出
部106は、最も優先度の高い1組の形態素の文字列を
認識結果として出力する(S1007)。
Next, the operation of this embodiment will be described with reference to the flowchart of FIG. Character cutout unit 101
Cuts out an image corresponding to one character from the document image (S
1001), the characteristic amount extraction unit 102 extracts the characteristic amount of each cut-out character image (S100).
2). Next, the category determination unit 104 obtains a similarity between the extracted character feature amount and each of the standard feature amounts 205 of the category dictionary 103, and obtains a category to which the character belongs (S1).
003). The morpheme extraction unit 106 includes the category determination unit 10
Morphological dictionary 1 using the category extracted in step 4 as a search key
Then, morphemes are obtained by comparing the morphemes with each other, the morphemes thus obtained are combined, grammatical processing is performed on the morpheme combinations, and morphological combinations that are not grammatically established are rejected. Further, from the combinations of morphemes that have not been rejected, a sequence of morphemes having a high priority is obtained using the minimum number of phrases method (S10).
04). The detail recognizing unit 107 determines whether a combination of morphemes with high priority has been determined as one set (S100).
5) If affirmative, proceed to S1007. If not, the standard feature amount of the character constituting each morpheme is compared with the feature amount obtained by the feature amount extraction unit 102, and the morpheme with the highest priority is obtained (S1006). Finally, the morpheme extraction unit 106 outputs a character string of a set of morphemes having the highest priority as a recognition result (S1007).

【0083】なお、上記実施の形態においては、上層2
01と下層202、203の2階層で構成されるカテゴ
リ辞書を用いたけれども、3階層以上の多段に構成され
たカテゴリ辞書や、カテゴリによって階層の深さを変え
て最適化されたカテゴリ辞書を用いてもよい。
In the above embodiment, the upper layer 2
Although a category dictionary composed of two layers, namely 01 and the lower layers 202 and 203, was used, a category dictionary composed of three or more layers and a category dictionary optimized by changing the depth of the layers depending on the category was used. You may.

【0084】また、上記実施の形態においては、1文字
に付きカテゴリ決定部104は一つのカテゴリを決定
し、このカテゴリの列に対して形態素辞書と照合する方
法をとっているが、カテゴリ決定部104が優先度の高
い順に複数のカテゴリを取り出し、文字位置とカテゴリ
候補のマトリクスに対して形態素辞書105と照合する
方法をとってもよい。
In the above-described embodiment, the category determining unit 104 determines one category per one character, and collates the column of this category with the morpheme dictionary. A method may be adopted in which the 104 extracts a plurality of categories in descending order of priority and matches the character position and the matrix of category candidates with the morphological dictionary 105.

【0085】また、本発明の実施の形態においては、文
字切り出し部101が文字を一通りに切り出すとした
が、切り出し位置の異なる複数パターンの切り出しを行
い、形態素抽出部106がカテゴリの組合せパターング
ラフを作成し、形態素辞書105と照合する方法をとっ
てもよい。
In the embodiment of the present invention, the character extracting unit 101 extracts characters in a single pattern. However, a plurality of patterns with different extracting positions are extracted, and the morpheme extracting unit 106 executes a combination pattern graph of categories. May be created and collated with the morphological dictionary 105.

【0086】(実施の形態2)図11は、本発明に係る
文字認識装置の実施の形態2の構成図である。この文字
認識装置は、オンライン入力された手書き文字列の文字
を認識するものであり、座標入力部1101と、文字切
り出し部1102と、特徴量抽出部1103と、カテゴ
リ辞書1104と、カテゴリ決定部1105と、形態素
辞書1106と、形態素抽出部1107と、詳細認識部
1108と、出力部1109とを備えている。なお、座
標入力部1101、文字切り出し部1102、特徴量抽
出部1103、出力部1109は、上記従来の第2の文
字認識装置のそれらと同一の構成であるので、説明を省
略する。
(Embodiment 2) FIG. 11 is a block diagram of a character recognition apparatus according to Embodiment 2 of the present invention. This character recognition device recognizes characters of a handwritten character string input online, and includes a coordinate input unit 1101, a character cutout unit 1102, a feature amount extraction unit 1103, a category dictionary 1104, and a category determination unit 1105. , A morphological dictionary 1106, a morphological extracting unit 1107, a detailed recognizing unit 1108, and an output unit 1109. Note that the coordinate input unit 1101, the character cutout unit 1102, the feature amount extraction unit 1103, and the output unit 1109 have the same configurations as those of the above-described conventional second character recognition device, and thus description thereof will be omitted.

【0087】カテゴリ辞書1104は、上記実施の形態
1のカテゴリ辞書103と同様の構造(図2参照)であ
るけれども、その内容は異なる。即ち、本実施の形態で
は、上記実施の形態1のように文字列画像の入力を受け
るのではなく、時間情報を含んだ座標データの入力を受
け付ける。このため、この座標データに従い、文字領域
が切り出され、文字の特徴量が抽出されるので、この特
徴量と照合される標準特徴量は、異なることとなる。ま
た、標準特徴量をクラスタ分析して、カテゴリに分類す
るので、カテゴリに含まれる文字又は文字要素も異な
る。
Although the category dictionary 1104 has the same structure (see FIG. 2) as the category dictionary 103 of the first embodiment, its contents are different. That is, in the present embodiment, input of coordinate data including time information is received instead of input of a character string image as in the first embodiment. For this reason, a character region is cut out according to the coordinate data, and the characteristic amount of the character is extracted, so that the standard characteristic amount to be compared with this characteristic amount is different. In addition, since the standard features are cluster-analyzed and classified into categories, the characters or character elements included in the categories are also different.

【0088】図12は、カテゴリ辞書の内容を示す説明
図である。カテゴリ辞書1104は、n個のカテゴリに
分類された文字又は文字要素の標準特徴量1201をカ
テゴリごとに上層1202に登録し、下層1203に各
カテゴリごとに含まれる文字コード1204と、下層1
205にそれらの文字コードに対応する格標準特徴量1
206とを登録している。ここで、文字要素とは、例え
ば漢字「阪」の左側の部分の「偏」や右側の部分の
「旁」をいう。なお、この構造は、図2に示したカテゴ
リ辞書103と同様である。
FIG. 12 is an explanatory diagram showing the contents of the category dictionary. The category dictionary 1104 registers a standard feature amount 1201 of characters or character elements classified into n categories in the upper layer 1202 for each category, and stores a character code 1204 included for each category in the lower layer 1203 and a lower layer 1
205 shows a case standard feature amount 1 corresponding to those character codes.
206 are registered. Here, the character element refers to, for example, "bias" on the left side of the kanji "saka" and "near" on the right side. This structure is the same as that of the category dictionary 103 shown in FIG.

【0089】例えば、カテゴリCaには、文字「天」、
「元」、「文」、「支」等の文字が分類されている。同
様にカテゴリCbには、文字「音」、「青」、「害」、
「書」等が分類されている。
For example, in the category Ca, the characters “heaven”,
Characters such as “gen”, “sentence”, and “branch” are classified. Similarly, the category Cb includes the characters "sound", "blue", "harm",
"Books" are classified.

【0090】下層1205に登録されている標準特徴量
1206の配列は、文字コードの値に対応している。し
たがって、文字コードが分かれば、その文字の標準特徴
量の登録位置を得ることができる。例えば、文字コード
としてJIS X0208を使用する場合、最も文字コードの値
の小さい文字は、空白を除くと読点「、」であり、読点
の文字コードは2122(hex)と表されるので、読点の標準
特徴量を配列位置の先頭位置に登録する。また、句
点「。」は2123(hex)と表されるので、句点の標準特徴
量を句点の次に登録する。以上のように標準特徴量を登
録すると、対象文字の文字コードから2122(hex)を減算
して得られる登録位置を参照することにより標準特徴量
を取り出すことができる。なお、標準特徴量1206の
配列の中に無駄な空きが出ないように、例えば、文字コ
ード群を2つの群に分割しておき、文字コードから減算
する値を2つ設定しておき、文字コードが所定値よりも
大きい場合には、2122(hex)を減算せずに他の設
定値を減算するようにする。
The arrangement of the standard feature values 1206 registered in the lower layer 1205 corresponds to the value of the character code. Therefore, if the character code is known, the registration position of the standard feature amount of the character can be obtained. For example, when JIS X0208 is used as the character code, the character with the smallest value of the character code is the reading point ``, '' excluding the space, and the character code of the reading point is expressed as 2122 (hex), so the reading point The standard feature is registered at the head position of the array position. Further, since the period "." Is represented as 2123 (hex), the standard feature value of the period is registered after the period. When the standard feature amount is registered as described above, the standard feature amount can be extracted by referring to the registered position obtained by subtracting 2122 (hex) from the character code of the target character. Note that, for example, a character code group is divided into two groups, and two values to be subtracted from the character codes are set so that no useless space appears in the array of the standard feature amounts 1206. If the code is larger than the predetermined value, another set value is subtracted without subtracting 2122 (hex).

【0091】カテゴリ決定部1105は、特徴量抽出部
1103が抽出した文字の特徴量と、カテゴリ辞書11
04に含まれる上層1202のカテゴリの標準特徴量1
201との間でDPマッチングを行い、類似度が最大
(マッチング距離の最も小さい)カテゴリを得る。マッ
チング距離の定義は、従来の装置のマッチング部410
5で述べたマッチング距離と同じとする。
The category determining unit 1105 stores the character feature amounts extracted by the feature amount extracting unit 1103 and the category dictionary 11
Standard feature amount 1 of the category of the upper layer 1202 included in the category 04
DP matching is performed between the category and the category having the largest similarity (smallest matching distance). The definition of the matching distance is determined by the matching unit 410 of the conventional device.
It is assumed that the matching distance is the same as that described in 5.

【0092】形態素辞書1106は、図13に示すよう
に、上述した形態素辞書105と同様、カテゴリ130
1と、カテゴリに対応する1以上の形態素1302とを
その文法属性としての品詞1303ごとに登録してい
る。なお、形態素1302は、品詞1303によりグル
ーピングされている。
As shown in FIG. 13, the morphological dictionary 1106 has the same category 130 as the morphological dictionary 105 described above.
1 and one or more morphemes 1302 corresponding to the category are registered for each part of speech 1303 as its grammatical attribute. Note that morphemes 1302 are grouped by part of speech 1303.

【0093】例えば、カテゴリ「Ca」1304に対応
して、形態素「名詞/天、夫、文、穴、元、方」130
5が登録されている。同様に、カテゴリ「Cb」130
6に対応して形態素「名詞/音、青」1307、「サ変
名詞/害」1308、「形容詞/善、青」1309が品
詞ごとに登録されている。また、カテゴリ「Ca」とカ
テゴリ「Cb」とを連続したカテゴリ列「CaCb」1
310に対応して形態素「名詞/文書」1311が登録
されている。カテゴリ「Cx」1311、カテゴリ「C
xCy」1312、カテゴリ「Cy」1313について
も同様に対応する形態素が登録されている。
For example, corresponding to the category “Ca” 1304, the morpheme “noun / heaven, husband, sentence, hole, element, one” 130
5 are registered. Similarly, the category “Cb” 130
In correspondence with No. 6, the morphemes “noun / sound, blue” 1307, “sa noun / harm” 1308, and “adjective / good, blue” 1309 are registered for each part of speech. Further, a category string “CaCb” 1 in which the category “Ca” and the category “Cb” are continuous
A morpheme “noun / document” 1311 is registered corresponding to 310. Category “Cx” 1311, Category “C”
Corresponding morphemes are also registered for “xCy” 1312 and category “Cy” 1313.

【0094】形態素抽出部1107は、カテゴリ決定部
105で得られた各カテゴリ又はそのカテゴリの出現順
に組み合わせたカテゴリ列と形態素辞書1106のカテ
ゴリとを照合し、一致するカテゴリに対応する形態素を
抽出する。抽出した形態素の組み合わせに対して文法処
理を行い、優先度の高い形態素の並びを得る。この具体
的な処理については、後述する具体例で詳述する。
The morpheme extraction unit 1107 collates each category obtained by the category determination unit 105 or a category string combined in the order of appearance of the category with a category of the morpheme dictionary 1106, and extracts a morpheme corresponding to a matching category. . Grammar processing is performed on the extracted combination of morphemes to obtain a sequence of morphemes with high priority. This specific processing will be described in detail in a specific example described later.

【0095】詳細認識部1108は、上記形態素抽出部
1107において、形態素の組合せが1組に決定できな
い場合に、形態素を構成する格文字の特徴量をより詳細
に調べることにより、上記実施の形態1の詳細認識部1
08と同様、最も優先度の高い形態素を求める。
When the morpheme extracting unit 1107 cannot determine the combination of morphemes into one set, the detailed recognition unit 1108 examines the feature amount of the case characters constituting the morpheme in more detail, thereby obtaining the first embodiment. Detail recognition unit 1
Similarly to 08, the morpheme having the highest priority is obtained.

【0096】出力部109は、得られた形態素の表記
(文字コードの列)を文字認識結果として出力する。
The output unit 109 outputs the obtained morpheme notation (character code sequence) as a character recognition result.

【0097】次に、この文字認識装置を用いた手書き文
字列の文字認識の具体例を説明する。
Next, a specific example of character recognition of a handwritten character string using the character recognition device will be described.

【0098】(具体例1)座標入力部1101は、従来
技術の説明で用いた図42に示した手書き文字列420
1が入力されると、その座標データを文字切り出し部1
102に出力する。
(Specific Example 1) The coordinate input unit 1101 uses the handwritten character string 420 shown in FIG.
1 is input, the coordinate data is input to the character cutout unit 1
Output to 102.

【0099】文字切り出し部1102は、座標入力部1
101から入力された座標データを基に、1文字に相当
する領域を切り出し、図43に示す文字領域4301、
4302を得る。
The character cutout unit 1102 is the coordinate input unit 1
An area corresponding to one character is cut out based on the coordinate data input from 101, and a character area 4301 shown in FIG.
4302 is obtained.

【0100】次に、特徴量抽出部1103は、切り出さ
れた個々の文字領域4301、4302毎にその特徴量
を抽出する。
Next, the characteristic amount extracting unit 1103 extracts the characteristic amount for each of the extracted character regions 4301 and 4302.

【0101】カテゴリ決定部1105は、抽出された特
徴量と、カテゴリ辞書1104の上層1202の各カテ
ゴリの標準特徴量1201とをマッチングし、最も類似
度の高いカテゴリを決定する。これによって、文字領域
4301に対してカテゴリ「Ca」を、文字領域430
2に対してカテゴリ「Cb」をそれぞれ決定する。
The category determining section 1105 matches the extracted feature quantity with the standard feature quantity 1201 of each category in the upper layer 1202 of the category dictionary 1104 to determine a category having the highest similarity. As a result, the category “Ca” is assigned to the character area 4301 and the character area
The category “Cb” is determined for each of the two.

【0102】形態素抽出部1107は、カテゴリ決定部
1105で決定されたカテゴリ「Ca」、「Cb」及び
カテゴリ「Ca」、「Cb」を組み合わせたカテゴリ列
「CaCb」を検索キーとして形態素辞書1106を検
索し、形態素「名詞/天、夫、文、穴、元、方」130
5、「名詞/文書」1310、「名詞/音、青」130
6、「サ変名詞/害」1307及び「形容詞/善、青」
1308を抽出する。
The morpheme extraction unit 1107 searches the morpheme dictionary 1106 using the categories “Ca” and “Cb” determined by the category determination unit 1105 and the category string “CaCb” obtained by combining the categories “Ca” and “Cb” as search keys. Retrieval and morpheme "Noun / heaven, husband, sentence, hole, element, person" 130
5, “Noun / document” 1310, “Noun / sound, blue” 130
6. "Sa noun / harm" 1307 and "adjective / good, blue"
1308 is extracted.

【0103】次に、形態素抽出部1107は、抽出した
形態素を組み合わせたネットワークを生成する。図14
は、形態素のネットワークを示す。ネットワーク140
1は、入力された文字列の文頭1402と文末1403
との間に、形態素抽出部1107で抽出された各形態素
1305,1310,1306,1307,1308を
ノードとしてそのカテゴリ順にリンクを介して連結した
ものである。形態素1310が収容されたノードN14
04は、リンクL1405によって文頭1402と連結
し、リンクL1406によって文末1403と連結され
ている。形態素1305が収容されたノードN1407
は、文頭1402にリンクL1408によって連結して
いる。更に、形態素1306が収容されたノードN14
09と形態素1307が収容されたノードN1410と
形態素1308が収容されたノードN1411とは、ノ
ードN1407にリンクL1412,L1413,L1
414によってそれぞれ連結されている。また、ノード
N1409,N1410,N1411は、リンクL14
15,L1416,L1417によってそれぞれ文末1
403に連結されている。
Next, the morpheme extraction unit 1107 generates a network combining the extracted morphemes. FIG.
Indicates a network of morphemes. Network 140
1 is the sentence head 1402 and the sentence end 1403 of the input character string
The morphemes 1305, 1310, 1306, 1307, and 1308 extracted by the morpheme extraction unit 1107 are connected as nodes to nodes in the order of their categories. Node N14 containing morpheme 1310
04 is connected to the beginning 1402 of the sentence by a link L1405, and is connected to the end 1403 of the sentence by a link L1406. Node N 1407 containing morpheme 1305
Is linked to the beginning 1402 of the sentence by a link L1408. Further, the node N14 in which the morpheme 1306 is stored
09 and a node N1410 containing a morpheme 1307 and a node N1411 containing a morpheme 1308 are connected to the node N1407 by links L1412, L1413, and L1.
414 respectively. Nodes N1409, N1410, and N1411 are linked to link L14.
15, L1416, and L1417, respectively, at the end of the sentence
403.

【0104】形態素抽出部1107は、このネットワー
ク1401について、自身が記憶している文法情報によ
って、その連結が文法的に成立するか否かを判定し、成
立しないときは、そのリンクを棄却する。
The morphological extraction unit 1107 determines whether or not the connection is grammatically established for the network 1401 based on the grammatical information stored therein, and rejects the link if the connection is not established.

【0105】先ず、ノードN1411は、品詞が形容詞
であり、これに続く活用語尾が無いので、文法的に成立
しない。したがって、リンクL1417は棄却される。
First, the node N1411 is not grammatically established because the part of speech is an adjective and there is no inflection ending following it. Therefore, link L1417 is rejected.

【0106】次に、文法情報の経験則として文節数最小
法を適用する。これによると、文頭1402と文末14
03との間で「リンクL1405−ノードN1404−
リンクL1406」で示される経路の文節数は「1」で
あり、他の経路の文節数は全て「2」であるので、ノー
ドN1404を含む経路における文節数が最小となり、
ノードN1404が選択される。この結果、優先度の高
い形態素として形態素1310が得られる。
Next, the phrase number minimum method is applied as an empirical rule of grammatical information. According to this, sentence head 1402 and sentence end 14
03 and “Link L1405-Node N1404-
The number of clauses in the path indicated by the link L1406 is “1”, and the number of clauses in all other paths is “2”. Therefore, the number of clauses in the path including the node N1404 becomes the minimum.
Node N1404 is selected. As a result, a morpheme 1310 is obtained as a morpheme with a high priority.

【0107】出力部1109は、形態素1310に文字
コード列「文書」が1つしかないので、その表記「文
書」を認識結果として出力する。
Since the morpheme 1310 has only one character code string “document”, the output unit 1109 outputs the notation “document” as a recognition result.

【0108】上述のように、本実施の形態では、形状の
類似する文字をグループ化したカテゴリ求め、カテゴリ
列をキーとして形態素辞書1106から形態素を抽出す
る。したがって、カテゴリ辞書1104とのマッチング
の際に正しい候補文字が得られないことに起因する文字
認識誤りを減少させることができるので、図42の文字
列4201について正しく「文書」の文字コードを得る
ことが可能となる。
As described above, in the present embodiment, a category is obtained by grouping characters having similar shapes, and morphemes are extracted from the morpheme dictionary 1106 using the category sequence as a key. Therefore, it is possible to reduce a character recognition error caused by a failure to obtain a correct candidate character in matching with the category dictionary 1104. Therefore, it is possible to obtain a character code of “document” correctly for the character string 4201 in FIG. Becomes possible.

【0109】また、カテゴリ決定部1105は、求めた
文字領域の特徴量と、形状の類似するカテゴリの標準特
徴量1201との間でマッチングを行うので、文字毎に
用意された標準特徴量とマッチングさせる従来の方法に
比べて、マッチング回数を大幅に削減でき、極めて高速
に動作することができる。
Further, since the category determining unit 1105 performs matching between the obtained characteristic amount of the character area and the standard characteristic amount 1201 of the category having a similar shape, the category determining unit 1105 performs matching with the standard characteristic amount prepared for each character. Compared with the conventional method, the number of times of matching can be greatly reduced, and the operation can be performed at extremely high speed.

【0110】(具体例2)次に、図15に示した手書き
文字列1501が入力された場合について説明する。文
字切り出し部1102が「日」と「本」の領域を正しく
切り出し、特徴量抽出部1103が特徴量を抽出し、カ
テゴリ決定部1105が1文字目のカテゴリとして「C
x」、2文字目のカテゴリとして「Cy」を決定する。
(Specific Example 2) Next, the case where the handwritten character string 1501 shown in FIG. 15 is input will be described. The character cutout unit 1102 correctly cuts out the “day” and “book” regions, the feature amount extraction unit 1103 extracts the feature amount, and the category determination unit 1105 sets “C” as the category of the first character.
"Cy" is determined as the category of the "x" and the second character.

【0111】形態素辞書1106には、図13に示すよ
うに、カテゴリ「Cx」1311、「CxCy」131
2、「Cy」1313に対応して、形態素が登録されて
いる。カテゴリ「Cx」1311に対応して、形態素の
品詞と形態素「名詞/日、月、白、目、口」1314、
及び「形容詞/白」1315が登録されており、カテゴ
リ列「CxCy」1312に対応して形態素の品詞と形
態素「名詞/白木、日本」1316が登録されており、
カテゴリ「Cy」1313に対応して形態素の品詞と形
態素「名詞/木、本」1317が登録されている。
As shown in FIG. 13, the morphological dictionary 1106 includes categories “Cx” 1311, “CxCy” 131
2. A morpheme is registered corresponding to “Cy” 1313. Corresponding to the category “Cx” 1311, the part of speech of the morpheme and the morpheme “noun / day, month, white, eyes, mouth” 1314,
And “adjective / white” 1315 are registered, and the part of speech of the morpheme and the morpheme “noun / Shiroki, Japan” 1316 are registered corresponding to the category string “CxCy” 1312,
A morpheme part of speech and a morpheme “noun / tree, book” 1317 are registered corresponding to the category “Cy” 1313.

【0112】カテゴリ表記変換部1107は、上記得ら
れたカテゴリ「Cx」、「Cy」及びこれらを組み合わ
せたカテゴリ列「CxCy」を検索キーとして形態素辞
書1106を検索し、形態素の品詞と形態素「名詞/
日、月、白、目、口」1314、「形容詞/白」131
5、「名詞/白木、日本」1316、「名詞/木、本」
1317を抽出する。
The category notation conversion unit 1107 searches the morpheme dictionary 1106 using the obtained categories “Cx” and “Cy” and the category string “CxCy” obtained by combining them as a search key, and finds the part of speech of the morpheme and the morpheme “noun”. /
Day, month, white, eyes, mouth "1314," adjective / white "131
5, "Noun / Shiroki, Japan" 1316, "Noun / Tree, book"
Extract 1317.

【0113】次に、形態素抽出部1107は、抽出した
形態素を組み合わせたネットワークを生成する。図16
は形態素のネットワークを示す。ネットワーク1601
には、形態素1316が収容されたノードN1602
と、形態素1314が収容されたノードN1603と、
形態素1315が収容されたノードN1604と、形態
素1317が収容されたノードN1605が文頭160
6と文末1607との間に図16に示すようにリンクを
介して連結されている。
Next, the morpheme extraction unit 1107 generates a network combining the extracted morphemes. FIG.
Denotes a network of morphemes. Network 1601
Has a node N1602 containing a morpheme 1316
A node N1603 in which a morpheme 1314 is accommodated;
The node N1604 in which the morpheme 1315 is accommodated and the node N1605 in which the morpheme 1317 is accommodated are sentence head 160
6 and a sentence end 1607 via a link as shown in FIG.

【0114】形態素抽出部1107は、上記具体例1と
同様に文法処理を適用した後、文節数最小法を適用して
「文頭1606−リンク−ノードN1602−リンク−
文末1607」の経路を選択する。これによって、ノー
ドN1602に収容されている形態素1316が優先度
の高い形態素として求められる。
The morphological extraction unit 1107 applies grammatical processing in the same manner as in the first embodiment, and then applies the minimum number of clauses method to obtain “sentence 1606-link-node N1602-link-
The path of “end of sentence 1607” is selected. As a result, the morpheme 1316 accommodated in the node N1602 is obtained as a morpheme with a high priority.

【0115】詳細認識部1108は、形態素1316に
は2つの候補形態素「白木」、「日本」を有するので、
認識結果をいずれかに決定しなければならない。そこ
で、カテゴリ決定部1107で決定された上層1202
のカテゴリのポインタを辿り、カテゴリ「Cx」、「C
y」にそれぞれ分類された文字の文字コードを得る。特
徴量抽出部1103で抽出された1文字目の文字領域の
特徴量とカテゴリ辞書1104のカテゴリ「Cx」の文
字コードで特定される下層1205の各標準特徴量との
類似度を計算する。同様に2文字目の文字領域の特徴量
とカテゴリ「Cy」の下層1205の各標準特徴量との
類似度を計算する。類似度の高い文字より順に並べると
図17に示すようになる。
Since the detail recognition unit 1108 has two candidate morphemes “Shiroki” and “Japan” in the morpheme 1316,
One must determine the recognition result. Therefore, the upper layer 1202 determined by the category determination unit 1107
Tracing the pointers of the categories "Cx", "C
The character codes of the characters classified as "y" are obtained. The degree of similarity between the characteristic amount of the character region of the first character extracted by the characteristic amount extraction unit 1103 and each standard characteristic amount of the lower layer 1205 specified by the character code of the category “Cx” in the category dictionary 1104 is calculated. Similarly, the similarity between the feature amount of the character area of the second character and each standard feature amount of the lower layer 1205 of the category “Cy” is calculated. FIG. 17 shows the characters arranged in order from the character having the highest similarity.

【0116】詳細認識部1108は、2つの形態素「白
木」と「日本」の各構成文字の類似度の順位の値を加算
する。「白木」は、「5」+「1」=「6」であり、
「日本」は「2」+「2」=「4」である。加算値の小
さな「日本」を形態素として選択し、認識結果を文字列
「日本」とする。出度部1109は、認識結果を出力す
る。
The detail recognizing unit 1108 adds the values of the degrees of similarity between the two morphemes “Shiraki” and “Japan”. “Shiroki” is “5” + “1” = “6”,
“Japan” is “2” + “2” = “4”. "Japan" with a small addition value is selected as a morpheme, and the recognition result is a character string "Japan". The output unit 1109 outputs a recognition result.

【0117】上述のように、本実施の形態では、形態素
抽出部1107において形態素の組合せが1つに決定で
きない場合であっても、正しい認識結果として「日本」
を得ることができる。
As described above, in the present embodiment, even if the morpheme extraction unit 1107 cannot determine one combination of morphemes, “Japan” is regarded as a correct recognition result.
Can be obtained.

【0118】また、形態素の組合せが1組に決定できな
い場合でも、文字毎に用意された標準特徴量とマッチン
グさせる従来の方法に比べて、極めて高速に動作するこ
とができる。
Even when the combination of morphemes cannot be determined as one set, the operation can be performed at an extremely high speed as compared with the conventional method of matching with the standard feature amount prepared for each character.

【0119】(具体例2の変形例)上記具体例2では、
形態素抽出部1107において、2つの候補形態素が優
先度の高い形態素として選ばれた場合に、詳細認識部1
108は、特徴量抽出部1103で抽出された各文字領
域の特徴量とカテゴリ辞書1104のカテゴリ「C
x」、「Cy」に分類された全ての文字の標準特徴量と
をマッチングして類似度を求めて、順位付けたけれど
も、以下のようにすることもできる。
(Modification of Specific Example 2) In the specific example 2,
When two candidate morphemes are selected as high-priority morphemes in the morpheme extraction unit 1107, the detailed recognition unit 1
Reference numeral 108 denotes the feature amount of each character region extracted by the feature amount extraction unit 1103 and the category “C” of the category dictionary 1104.
Although the degree of similarity is obtained by matching with the standard feature amounts of all the characters classified as “x” and “Cy” and ranked, the following procedure is also possible.

【0120】詳細認識部1108は、候補形態素を構成
する各文字コードから直接カテゴリ辞書1104の下層
1205の対応する標準特徴量を取り出す。これは、上
述したように、各文字の標準特徴量1206が文字コー
ド順に登録されているからである。
The detail recognizing unit 1108 directly extracts the corresponding standard feature of the lower layer 1205 of the category dictionary 1104 from each character code constituting the candidate morpheme. This is because, as described above, the standard feature amount 1206 of each character is registered in the order of the character code.

【0121】次に、1文字目の文字領域から抽出された
特徴量と文字「白」、「日」との標準特徴量との類似度
及び2文字目の文字領域から抽出された特徴量と文字
「木」、「本」との標準特徴量との類似度をそれぞれ計
算する。この結果を図18に示す。候補形態素「白木」
の類似度の値を加算すると、「60」+「40」=「1
00」となり、候補形態素「日本」の類似度の値を加算
すると、「30」+「50」=「80」となり、その値
の小さな方を認識結果の形態素に決定する。これによっ
て、認識結果を文字列「日本」と正しく認識できる。
Next, the similarity between the feature extracted from the first character area and the standard features of the characters “white” and “date”, and the feature extracted from the second character area The similarity between the characters “tree” and “book” and the standard feature amount is calculated. FIG. 18 shows the result. Candidate morpheme Shiraki
Are added, the value of “60” + “40” = “1”
00 ", and when the similarity value of the candidate morpheme" Japan "is added," 30 "+" 50 "=" 80 ", and the smaller value is determined as the morpheme of the recognition result. As a result, the recognition result can be correctly recognized as the character string “Japan”.

【0122】上述のように本実施の形態では、候補形態
素が2つある場合であっても、正しい認識結果「日本」
を得ることができる。
As described above, in the present embodiment, even if there are two candidate morphemes, the correct recognition result "Japan"
Can be obtained.

【0123】この際、詳細認識部1108は、一組に決
定できなかった形態素に対してのみ、各文字の標準特徴
量と、特徴量抽出部1103で求めた特徴量と各文字の
標準特徴量との照合をするので、従来の方法に比べて、
極めて高速に処理することができる。
At this time, the detail recognizing unit 1108 determines the standard feature amount of each character, the feature amount obtained by the feature amount extracting unit 1103 and the standard feature amount of each character only for morphemes that could not be determined as a set. , So compared to the conventional method,
Processing can be performed at extremely high speed.

【0124】(具体例3)次に、図19に示す手書き文
字列1901を文字認識する場合を説明する。座標入力
部1101は、図19に示す手書き文字列1901が入
力されると、座標データを文字切り出し部1102に出
力する。
(Specific Example 3) Next, the case where the handwritten character string 1901 shown in FIG. 19 is recognized will be described. When the handwritten character string 1901 shown in FIG. 19 is input, the coordinate input unit 1101 outputs coordinate data to the character cutout unit 1102.

【0125】文字切り出し部1102は、入力された座
標データから1文字に相当する領域を切り出し、図20
(a)(b)に示すように複数の切り出し候補を得る。
図20(a)の切り出し候補2001では、文字領域2
002、2003,2004、2005の4つの領域に
文字が切り出されている。また、図20(b)の切り出
し候補2006では、文字領域2002、2003、2
007、2008の4つの領域に文字が切り出されてい
る。ここで、切り出し候補2001、2006の1文字
目と2文字目の文字領域は、同じ矩形領域を示してい
る。
The character cutout unit 1102 cuts out an area corresponding to one character from the input coordinate data.
(A) As shown in (b), a plurality of clipping candidates are obtained.
In the cutout candidate 2001 shown in FIG.
Characters are cut out in four areas of 002, 2003, 2004, and 2005. In the clipping candidate 2006 in FIG. 20B, the character regions 2002, 2003, 2
Characters are cut out in four areas 007 and 2008. Here, the first and second character regions of the cutout candidates 2001 and 2006 indicate the same rectangular region.

【0126】次に、特徴量抽出部1103は、切り出さ
れた個々の文字領域2002〜2005、2007,2
008につきその特徴量を抽出する。次にカテゴリ決定
部1105は、抽出された特徴量と、カテゴリ辞書11
04の上層1202の標準特徴量1201とをマッチン
グし、各文字領域ごとに最も類似度の高いカテゴリを決
定する。図21(a)(b)に、カテゴリ決定部110
5で決定されたカテゴリを示す。文字領域2002、2
003に対してはカテゴリ「Cp」がそれぞれ得られ、
文字領域2004に対してもカテゴリ「Cp」が得ら
れ、文字領域2005に対してはカテゴリ「Cq」が得
られ、文字領域2008に対してはカテゴリ「Cr」が
得られたことを示す。ただし、文字領域2007に対し
ては類似度がしきい値に達しないのでカテゴリが得られ
ずリジェクトされる。なお、文字領域2002、200
3、2004は異なる文字領域を示すが、形状が類似す
るため同じカテゴリ「Cp」に決定されている。
Next, the feature amount extraction unit 1103 extracts the individual character regions 2002 to 2005, 2007, and 2
For 008, the feature amount is extracted. Next, the category determining unit 1105 determines whether the extracted feature amount
04 and the standard feature amount 1201 in the upper layer 1202, and a category having the highest similarity is determined for each character area. FIGS. 21 (a) and 21 (b) show the category determining unit 110.
5 shows the category determined. Character area 2002, 2
For 003, a category "Cp" is obtained, respectively.
The category "Cp" is obtained for the character area 2004, the category "Cq" is obtained for the character area 2005, and the category "Cr" is obtained for the character area 2008. However, since the similarity does not reach the threshold for the character area 2007, no category is obtained and the character area 2007 is rejected. Note that the character areas 2002 and 200
3 and 2004 indicate different character areas, but are determined to be in the same category “Cp” because of their similar shapes.

【0127】形態素辞書1106に登録されている形態
素の一例を図22に示す。カテゴリ「Cp」、「C
q」、「Cr」、カテゴリ列「CpCp」、「CpCp
Cp」に対応して品詞ごとに形態素が登録されているの
は、図13で説明したのと同様である。
FIG. 22 shows an example of a morpheme registered in the morpheme dictionary 1106. Categories "Cp", "C
q ”,“ Cr ”, category columns“ CpCp ”,“ CpCp ”
The fact that a morpheme is registered for each part of speech corresponding to "Cp" is the same as described with reference to FIG.

【0128】なお、この形態素辞書1006において、
カテゴリ「Cp」で分類される形態素(文字コードで登
録さている最小言語単位)には、名詞「日、月、白、
目、口」と形容詞「白」が登録されている。このカテゴ
リ「Cp」を2つ組み合わせたカテゴリ列「CpCp」
では、形態素として名詞「月日、日月」が登録されてい
る。
In this morphological dictionary 1006,
The morphemes (minimum linguistic units registered by character codes) classified by the category “Cp” include the nouns “day, month, white,
Eye, mouth "and the adjective" white "are registered. Category column “CpCp” combining two of this category “Cp”
In the example, the noun “Monday, Sun” is registered as a morpheme.

【0129】一方、カテゴリ「Cp」を3つ組み合わせ
たカテゴリ列「CpCpCp」では形態素として名詞
「明日」と形容動詞「明白」とが登録されている。カテ
ゴリ「Cp」に分類された文字形状は、カテゴリ辞書1
104(図12)の下層1203を見れば分かるように
形式上は全て文字コードとして分類されているけれど
も、カテゴリ「Cp」には、文字要素の形状として、即
ち、「偏」としての「日」や「旁」としての「月」が実
質的に分類されている。カテゴリ列「CpCpCp」に
2つの単語「明日」と「明白」とが登録されていること
から、この文字要素の形状がカテゴリ「Cp」に分類さ
れていたことが理解される。この内容については、後述
するこの具体例の変形例で詳述する。
On the other hand, in the category string “CpCpCp” in which three categories “Cp” are combined, the noun “tomorrow” and the adjective verb “clear” are registered as morphemes. The character shapes classified into the category “Cp” are stored in the category dictionary 1
As can be seen from the lower layer 1203 of FIG. 104 (FIG. 12), the format is all classified as a character code, but the category “Cp” includes “day” as the shape of a character element, ie, “partial”. And “month” as “nearby” are practically classified. Since two words “tomorrow” and “clear” are registered in the category column “CpCpCp”, it is understood that the shape of the character element has been classified into the category “Cp”. This content will be described in detail later in a modified example of this specific example.

【0130】形態素抽出部1107は、カテゴリ決定部
1105で決定されたカテゴリ及びそのカテゴリを組み
合わせたカテゴリ列を検索キーとして対応する形態素を
形態素辞典1106から抽出する。抽出した形態素を組
み合わせたネットワークを生成する。図21(a)に示
した切り出し候補2001で決定されたカテゴリから生
成されたネットワークを図23に示し、図21(b)に
示した切り出し候補2006で決定されたカテゴリから
生成されたネットワークを図24に示す。
The morpheme extracting unit 1107 extracts corresponding morphemes from the morphological dictionary 1106 using the category determined by the category determining unit 1105 and a category string obtained by combining the categories as a search key. A network is created by combining the extracted morphemes. FIG. 23 shows a network generated from the category determined by the extraction candidate 2001 shown in FIG. 21A, and FIG. 23 shows a network generated from the category determined by the extraction candidate 2006 shown in FIG. 24.

【0131】カテゴリ決定部1105において、文字領
域2007のカテゴリが決定されなかったことから、図
24のネットワーク2401は、文字領域2007に対
応するノードN2402が欠落しているので、文頭24
03から文末2404までの連結された経路を有してい
ない。そこで、このネットワーク2401は、形態素抽
出部1107によって棄却される。
Since the category of character area 2007 has not been determined by category determining section 1105, network 2401 in FIG. 24 has a missing node N2402 corresponding to character area 2007.
It does not have a connected path from 03 to the end of sentence 2404. Therefore, the network 2401 is rejected by the morpheme extraction unit 1107.

【0132】形態素抽出部1107は、図23に示した
ネットワーク2301について、上記具体例1と同様の
文法処理および文節数最小法を適用して、「文頭230
2−リンクL2303−ノードN2304−リンクL2
305−ノードN2306−リンクL2307−文頭2
308」の連結された経路を得る。
The morphological extraction unit 1107 applies the same grammatical processing and the minimum number of clauses method as in the first embodiment to the network 2301 shown in FIG.
2-link L2303-node N2304-link L2
305-node N2306-link L2307-first sentence 2
308 "are obtained.

【0133】ノードN2304に収容された形態素「明
日」は一意に決定できるけれども、ノードN2306の
形態素は、「は」、「に」の2つの文字があり、決定で
きない。そこで、具体例2の変形例で述べたように、詳
細認識部1108が文字領域2005の特徴量とカテゴ
リ辞書1104の文字コード「は」、「に」のそれぞれ
の標準特徴量との類似度を計算する。文字コード「は」
の類似度が「に」よりも高いと計算して、形態素「は」
を選択する。この結果、文字列「明日は」が認識結果と
される。
Although the morpheme “tomorrow” accommodated in the node N2304 can be uniquely determined, the morpheme of the node N2306 has two characters “ha” and “ni” and cannot be determined. Therefore, as described in the modification of the specific example 2, the detailed recognition unit 1108 calculates the similarity between the feature amount of the character area 2005 and the standard feature amounts of the character codes “ha” and “ni” of the category dictionary 1104. calculate. Character code "ha"
Is calculated to have a higher similarity than “Ni”, and the morpheme “Ha”
Select As a result, the character string “Tomorrow is” is the recognition result.

【0134】上述のように、本実施の形態では、切り出
しに失敗した場合であっても、正しい認識結果「明日
は」を得ることができる。
As described above, in the present embodiment, even if the extraction fails, a correct recognition result “Tomorrow is” can be obtained.

【0135】(具体例3の変形例)次に、具体例3の変
形例として、図25に示した手書き文字列2501が入
力された場合について説明する。文字切り出し部110
2が図26に示すように文字領域2601、2602、
2603を切り出す。特徴量抽出部1103が特徴量を
抽出し、カテゴリ決定部1105は、カテゴリ辞書11
04と照合して、文字領域2601、2602、260
3のそれぞれに対してカテゴリ「Cs」、「Ct」、
「Cu」を決定する。なお、カテゴリ辞書1104のカ
テゴリ「Cs」には、文字「大」、「丈」、「下」等が
分類されている。また、カテゴリ「Ct」には「ア」、
「ァ」、「ヤ」、「ャ」等が、カテゴリ「Cu」には、
「反」、「友」等がそれぞれ分類されている。
(Modification of Specific Example 3) Next, as a modification of Specific Example 3, a case where the handwritten character string 2501 shown in FIG. 25 is input will be described. Character cutout unit 110
2 are character areas 2601, 2602, as shown in FIG.
Cut out 2603. The feature amount extraction unit 1103 extracts feature amounts, and the category determination unit 1105 determines whether the category dictionary 11
04 and character areas 2601, 2602, 260
3 for each of the categories "Cs", "Ct",
"Cu" is determined. In the category “Cs” of the category dictionary 1104, characters “large”, “height”, “below”, and the like are classified. The category “Ct” includes “A”,
"A", "ya", "ya", etc. are in the category "Cu"
"Anti", "friend", etc. are classified respectively.

【0136】形態素辞書1106のには、図27に示す
ように、カテゴリ列「CsCtCu」、カテゴリ「C
u」に対応する形態素がそれぞれ登録されている。カテ
ゴリ「Cs」、カテゴリ列「CsCt」、「CtCu」
に対応する形態素は登録されていない。
In the morphological dictionary 1106, as shown in FIG. 27, the category string "CsCtCu" and the category "C
The morpheme corresponding to "u" is registered. Category "Cs", Category column "CsCt", "CtCu"
Is not registered.

【0137】形態素抽出部1107は、形態素辞書11
06を検索して、カテゴリ列「CsCtCu」に対応す
る形態素「名詞/大阪」とカテゴリ「Cu」に対応する
形態素「名詞/友」を抽出し、図28に示すネットワー
ク2801を生成する。
[0137] The morphological extraction unit 1107 outputs
06 to extract a morpheme “Noun / Osaka” corresponding to the category sequence “CsCtCu” and a morpheme “Noun / Friend” corresponding to the category “Cu”, and generate a network 2801 shown in FIG.

【0138】カテゴリ辞書の作成時には、文字の筆記デ
ータに加えて偏や旁の筆記データを分類対象データとし
て使うと、文字と偏や旁を同時に分類可能である。この
場合、「ア」「ァ」「ヤ」「ャ」等の文字の他に、
「阪」の偏部分もカテゴリ「Ct」に分類される。ま
た、「反」「友」等の文字の他に、「阪」の旁部分もカ
テゴリ「Cu」に分類される。このような分類結果を利
用すると、「阪」にカテゴリ列「CtCu」を対応付
け、「阪」を含む形態素「大阪」にカテゴリ列「CsC
tCu」を対応付けることができる。以上のようにし
て、文字だけではなく文字要素に対応付けられたカテゴ
リの列と、形態素を対応付けたのが形態素辞書である。
At the time of creating a category dictionary, if the partial or neighboring writing data is used as the data to be classified in addition to the writing data of the character, the character and the partial or neighboring can be classified at the same time. In this case, in addition to characters such as "A", "A", "Ya", "
The unbalanced part of “saka” is also classified into the category “Ct”. Further, in addition to characters such as "anti" and "friend", the part beside "saka" is also classified into the category "Cu". Using such a classification result, the category string “CtCu” is associated with “saka”, and the category string “CsC” is assigned to the morpheme “Osaka” including “saka”.
tCu ”can be associated. As described above, a morphological dictionary is obtained by associating not only characters but also a series of categories associated with character elements with morphemes.

【0139】形態素抽出部1107は、生成したネット
ワーク2801に文法処理、文節数最小法を適用して、
「文頭2802−リンクL2803−ノードN2804
−リンクL2805−文頭2806」の経路を選択し
て、形態素「大阪」を優先度の高い形態素とする。
The morphological extraction unit 1107 applies grammatical processing and the minimum number of clauses method to the generated network 2801,
"First sentence 2802-link L2803-node N2804
-The link "L2805-head 2806" is selected, and the morpheme "Osaka" is set as a morpheme with a high priority.

【0140】出力部1108は、認識結果として「大
阪」を出力する。このように、文字切り出し部1102
の文字領域の切り出しが適切でない場合でも、カテゴリ
列と形態素との対応が適切になされた形態素辞書110
6を用いることによって、正しく文字列を認識すること
ができる。
The output unit 1108 outputs "Osaka" as a recognition result. Thus, the character cutout unit 1102
Even if the extraction of the character area is not appropriate, the morphological dictionary 110 in which the correspondence between the category string and the morpheme is properly made.
By using 6, character strings can be correctly recognized.

【0141】(具体例4)次に、図29に示す手書き文
字列2901が入力された場合について説明する。文字
切り出し部1102は、図30に示すように文字領域3
001、3002、3003を切り出す。特徴量抽出部
1103は、各文字領域から特徴量を抽出する。カテゴ
リ決定部1105は、カテゴリ辞書1104の上層12
02の各標準特徴量1201と抽出された特徴量との類
似度を計算し、類似度の最も高いカテゴリを決定する。
1文字目の文字領域3001から順にカテゴリ「C
l」、「Cm」、「Cn」が決定される。
(Specific Example 4) Next, the case where the handwritten character string 2901 shown in FIG. 29 is input will be described. As shown in FIG. 30, the character cutout unit 1102
001, 3002, and 3003 are cut out. The feature amount extraction unit 1103 extracts a feature amount from each character region. The category determination unit 1105 determines the upper layer 12 of the category dictionary 1104.
The similarity between each of the standard feature amounts 1201 and the extracted feature amount is calculated, and the category having the highest similarity is determined.
The category “C” is sequentially assigned from the character area 3001 of the first character.
1 ”,“ Cm ”, and“ Cn ”are determined.

【0142】図31は、形態素辞書1106の内容を示
す図である。カテゴリ「Cl」に対応して「名詞/天、
夫、文、穴、元、方」の形態素の品詞と形態素とが登録
され、カテゴリ列「ClCmCn」に対応して「名詞/
文書」が登録され、カテゴリCnに対応して「名詞/
上」が登録されている。即ち、形態素辞書1105のカ
テゴリ列に対応する形態素には、カテゴリ列を構成する
各カテゴリに平仮名が分類されているときに、漢字に変
換した文字コードが登録されている。この具体例では、
カテゴリ列の一部「CmCn」に対応する平仮名「し
ょ」が漢字「書」に変換され、カテゴリ列「ClCmC
n」に対応して形態素「文書」が登録されている。
FIG. 31 is a diagram showing the contents of the morphological dictionary 1106. "Noun / heaven," corresponding to the category "Cl"
The part-of-speech and morpheme of the morpheme of “husband, sentence, hole, element, and form” are registered, and “noun /
"Document" is registered, and "noun /
"Up" is registered. That is, in the morpheme corresponding to the category string of the morpheme dictionary 1105, a character code converted into a kanji when the hiragana is classified into each category constituting the category string is registered. In this specific example,
The hiragana “sho” corresponding to a part of the category column “CmCn” is converted into the kanji “sho”, and the category column “ClCmC
The morpheme “document” is registered corresponding to “n”.

【0143】形態素抽出部1106は、カテゴリ決定部
1105で決定されたカテゴリ「Cl」、「Cm」、
「Cn」とそれらを組み合わせたカテゴリ列を検索キー
として、形態素辞書1106の一致するカテゴリに対応
する形態素を抽出して、図32に示すネットワーク32
01を生成する。「文頭3202−リンクL3203−
ノードN3204」の経路では連結されるノードがない
ので棄却される。同様に、「ノードN3205−リンク
L3206−文末3207」の経路も文頭3202から
連結されるリンクがないので棄却される。したがって、
「文頭3202−リンクL3208−ノードN3209
−リンクL3210−文末3207」の経路に対して文
法処理を適用して、ノードN3209に収容された形態
素「文書」が優先度が高いものとされる。
The morpheme extracting unit 1106 determines the categories “Cl”, “Cm”,
A morpheme corresponding to a matching category in the morphological dictionary 1106 is extracted using “Cn” and a category string obtained by combining them as a search key.
01 is generated. "Sentence 3202-Link L3203-
Since there is no connected node on the route of the node N3204, it is rejected. Similarly, the route of “node N3205-link L3206-end of sentence 3207” is rejected because there is no link connected from the beginning of sentence 3202. Therefore,
"Sentence 3202-link L3208-node N3209
By applying grammar processing to the path of “−link L3210−end of sentence 3207”, the morpheme “document” accommodated in the node N3209 has a higher priority.

【0144】これによって、出力部1109は、認識結
果として「文書」を出力する。上述のように本実施の形
態では、形態素辞書1106が座標データから抽出され
た特徴量に対応する文字とは別の文字を、形態素として
含み、この形態素を出力することにより、手書き文字列
の一部を仮名文字で表記した場合に漢字に変換して出力
する。
As a result, the output unit 1109 outputs “document” as a recognition result. As described above, in the present embodiment, the morpheme dictionary 1106 includes, as a morpheme, a character different from the character corresponding to the feature amount extracted from the coordinate data, and outputs this morpheme to form one of the handwritten character strings. If the part is written in Kana characters, it is converted to Kanji and output.

【0145】次に、本実施の形態の動作について図Z1
〜図Z4のフローチャートを用いて説明する。座標入力
部1101は、タブレット上に描かれた手書き文字列の
座標データを文字切り出し部に出力する(S330
1)。文字切り出し部1102は、ストロークの間隔、
ペンアップの時間、文字の大きさ、位置、形状、縦横
比、文字ピッチ等の特徴を用いて、ストローク集合より
各文字の領域を切り出す(S3301)。
Next, the operation of this embodiment will be described with reference to FIG.
This will be described with reference to the flowchart of FIG. The coordinate input unit 1101 outputs the coordinate data of the handwritten character string drawn on the tablet to the character cutout unit (S330)
1). The character cutout unit 1102 is used to determine the stroke interval,
An area of each character is cut out from the stroke set using features such as pen-up time, character size, position, shape, aspect ratio, and character pitch (S3301).

【0146】次に、特徴量抽出部1103は、切り出さ
れた個々の文字領域の座標データにつきその特徴量を抽
出する(S3303)。カテゴリ決定部1105は、抽
出された文字の特徴量と、カテゴリ辞書1104の上層
1202の各標準特徴量1201との間でDPマッチン
グ処理を実行し、各文字領域につき文字の属するカテゴ
リを求める(S3304)。
Next, the characteristic amount extracting unit 1103 extracts the characteristic amount of the coordinate data of each cut-out character area (S3303). The category determining unit 1105 performs a DP matching process between the extracted character feature amount and each of the standard feature amounts 1201 in the upper layer 1202 of the category dictionary 1104 to obtain a category to which the character belongs for each character region (S3304). ).

【0147】以下のS3305からS3308は、上記
実施の形態1のS1004からS1007と同様である
ので、その説明を省略する。
The following steps S3305 to S3308 are the same as steps S1004 to S1007 of the first embodiment, and a description thereof will not be repeated.

【0148】なお、本実施の形態では、文字切り出し部
1102が入力された座標データに基づいて文字領域を
切り出したけれども、一文字単位の文字入力枠が予め用
意された座標入力部1101を用いるときには、文字切
り出し部1102を省略することができる。
In this embodiment, although the character cutout unit 1102 cuts out the character area based on the input coordinate data, when using the coordinate input unit 1101 in which a character input frame for each character is prepared in advance, The character cutout unit 1102 can be omitted.

【0149】なお、本発明の実施の形態においては、1
文字に付きカテゴリ決定部は一つのカテゴリを決定し、
このカテゴリの列に対して形態素辞書と照合する方法を
とっているが、カテゴリ決定部が優先度の高い順に複数
のカテゴリを取り出し、文字位置とカテゴリ候補のマト
リクスに対して形態素辞書と照合する方法をとってもよ
い。
Note that, in the embodiment of the present invention, 1
The category determination unit determines one category for each character,
A method of matching a column of this category with a morphological dictionary is used, but a category determining unit extracts a plurality of categories in descending order of priority, and matches the character position and a matrix of category candidates with a morphological dictionary. May be taken.

【0150】なお、本発明はプログラムによって実現
し、これをフロッピーディスク等の記録媒体に記録して
移送することにより、独立した他のコンピュータシステ
ムで容易に実施することができる。
Note that the present invention is realized by a program, and is recorded on a recording medium such as a floppy disk and transferred, so that it can be easily implemented by another independent computer system.

【0151】[0151]

【発明の効果】以上説明したように、本発明は、文字列
を表すデータから文字を認識する文字認識装置であっ
て、形状が類似する文字又は文字要素が同一カテゴリと
して分類され、同一カテゴリに分類された文字又は文字
要素の標準的な形状から抽出された特徴量を代表する代
表標準特徴量と当該カテゴリの識別子とを対応づけて記
憶するカテゴリ辞書と、ひとつ又は複数の文字又は複数
の文字要素から構成され最小言語単位である形態素と、
前記形態素を構成する文字又は文字列の属するカテゴリ
の識別子又はカテゴリの識別子列とを対応づけて記憶す
る形態素辞書と、前記文字列を表すデータの一文字ごと
の形状から特徴量を抽出する特徴量抽出手段と、前記特
徴量抽出手段で抽出された特徴量と前記カテゴリ辞書に
記憶されている代表標準特徴量とを照合して、類似度の
高い代表標準特徴量に対応づけられたカテゴリの識別子
を決定するカテゴリ決定手段と、前記カテゴリ決定手段
で決定されたカテゴリの識別子に従い、前記形態素辞書
から複数の候補形態素を抽出する候補形態素抽出手段
と、前記候補形態素抽出手段で抽出された複数の候補形
態素から、所定の基準により優先する形態素を決定する
形態素決定手段とを備えたことこととしている。このよ
うな構成によって、文字列を構成する各文字をカテゴリ
として決定するだけで文字コードまで認識しないから、
候補文字が正しく得られないことに起因する文字認識誤
りが防止され、かつ、処理速度の高速化を図ることがで
きる。
As described above, the present invention relates to a character recognition device for recognizing characters from data representing a character string, wherein characters or character elements having similar shapes are classified as the same category, and are classified into the same category. A category dictionary that stores a representative standard feature quantity representing a feature quantity extracted from a standard shape of a classified character or a character element and an identifier of the category in association with each other, and one or more characters or a plurality of characters A morpheme that is composed of elements and is the smallest linguistic unit;
A morphological dictionary for storing the identifiers of the categories to which the characters or character strings to which the morphemes belong or the identifier strings of the categories in association with each other, and a feature amount extraction for extracting a feature amount from the shape of each character representing the character string for each character Means, by comparing the feature quantity extracted by the feature quantity extraction means with the representative standard feature quantity stored in the category dictionary, and identifying a category identifier associated with the representative standard feature quantity having a high degree of similarity. A category deciding means for deciding, a candidate morpheme extracting means for extracting a plurality of candidate morphemes from the morpheme dictionary according to the category identifier decided by the category deciding means, and a plurality of candidate morphemes extracted by the candidate morpheme extracting means. And morpheme determining means for determining a priority morpheme based on a predetermined criterion. With such a configuration, each character constituting the character string is determined only as a category and does not recognize the character code.
It is possible to prevent character recognition errors caused by incorrectly obtaining candidate characters, and to increase the processing speed.

【0152】また、前記形態素辞書の形態素は、文字コ
ードからなり、形態素は形態素の属性ごとに記憶されて
おり、前記候補形態素抽出手段は、前記カテゴリ決定手
段で決定されたカテゴリの識別子を前記文字列を表わす
データの文字の順に並べて、単独のカテゴリの識別子及
び連続した複数のカテゴリの識別子列を取得する識別子
・識別子列取得部と、前記識別子・識別子列取得部で取
得されたカテゴリの識別子及びカテゴリの識別子列を検
索キーとして前記形態素辞書を検索し、一致するカテゴ
リの識別子及びカテゴリの識別子列に対応づけられた形
態素を候補形態素として抽出する抽出部とを有し、前記
形態素決定手段は、前記形態素の属性に基づいて形態素
を決定することとしている。このような構成によって、
形態素の属性に基づいて優先する形態素を決定するので
認識精度の向上が図れる。
The morpheme of the morphological dictionary is composed of a character code, and the morpheme is stored for each attribute of the morpheme. The candidate morpheme extracting means stores the identifier of the category determined by the category determining means in the character Arrangement in the order of the characters of the data representing the columns, an identifier / identifier sequence acquisition unit for acquiring an identifier of a single category and an identifier sequence of a plurality of continuous categories, and an identifier of the category acquired by the identifier / identifier sequence acquisition unit; The morphological dictionary is searched using the identifier string of the category as a search key, and an extraction unit that extracts a morpheme associated with the identifier of the matching category and the identifier string of the category as a candidate morpheme, and the morpheme determination unit includes: The morpheme is determined based on the attribute of the morpheme. With such a configuration,
Since the priority morpheme is determined based on the attribute of the morpheme, the recognition accuracy can be improved.

【0153】また、前記形態素辞書に記憶されている形
態素の属性は、形態素の品詞であり、前記形態素決定手
段は、前記候補形態素抽出手段で抽出された候補形態素
を前記文字列の文頭から文末までの間にそのカテゴリの
識別子又はカテゴリの識別子列の出現順に連結したネッ
トワーク上に配置する配置部と、前記配置部で配置され
た候補形態素の品詞に従い、文法に適合しない候補形態
素を棄却する棄却部と、経験則に従い候補形態素から優
先する形態素を選択する選択部とを有することとしてい
る。このような構成によって、候補形態素をネットワー
ク上に配置して文法チェックと経験則とに従い、優先す
る形態素を選択するので、文字認識の精度が向上する。
The attribute of the morpheme stored in the morpheme dictionary is the part of speech of the morpheme, and the morpheme determining means converts the candidate morpheme extracted by the candidate morpheme extraction means from the beginning to the end of the sentence of the character string. An arrangement unit arranged on a network connected in the order of appearance of the identifier of the category or the identifier sequence of the category, and a rejection unit for rejecting candidate morphemes that do not conform to the grammar according to the part of speech of the candidate morpheme arranged in the arrangement unit And a selector for selecting a priority morpheme from candidate morphemes according to an empirical rule. With such a configuration, the priority morpheme is selected in accordance with the grammar check and the empirical rules by arranging the candidate morphemes on the network, thereby improving the accuracy of character recognition.

【0154】また、前記カテゴリ辞書は、更に、カテゴ
リに分類された文字の文字コードと、その文字の標準特
徴量とを各カテゴリに対応して記憶しており、前記選択
部で選択された優先する形態素が複数ある場合に、前記
カテゴリ辞書に記憶されている前記形態素を構成する各
文字の標準特徴量と前記特徴量抽出手段で抽出された特
徴量とを照合して類似度を求め、類似度の高い文字をそ
の構成文字とするひとつの形態素を決定する詳細認識手
段を更に備えることとしている。このような構成によっ
て、認識結果の形態素が複数ある場合には、形態素を構
成する文字レベルでの類似度を求めて、その結果により
一の形態素を認識結果とするので、文法的な処理で形態
素を決定できないときにのみ、文字単位での類似度に従
い文字を認識するだけであり、処理速度の高速化が図れ
る。
The category dictionary further stores a character code of a character classified into the category and a standard feature amount of the character corresponding to each category. When there are a plurality of morphemes to be compared, the standard feature quantity of each character constituting the morpheme stored in the category dictionary is compared with the feature quantity extracted by the feature quantity extraction means to obtain a similarity, The apparatus further includes a detailed recognition unit that determines one morpheme having a character with a high degree as its constituent character. With such a configuration, when there are a plurality of morphemes as the recognition result, the similarity at the character level constituting the morpheme is obtained, and one morpheme is determined as the recognition result. Only when characters cannot be determined, characters are simply recognized in accordance with the similarity in character units, and the processing speed can be increased.

【0155】また、前記カテゴリ辞書に文字と同一カテ
ゴリに分類される文字要素は漢字を構成する偏及び旁で
あり、前記形態素辞書には、カテゴリの識別子列に対応
して前記偏及び旁を組み合わせて一文字となる文字を含
む形態素が記憶されていることとしている。このような
構成によって、文字領域の切り出しに失敗して一文字領
域を誤認識したときでも、正しく文字認識することがで
きる。
Further, the character elements classified into the same category as the characters in the category dictionary are partial and adjacent characters constituting kanji, and the morphological dictionary combines the partial and adjacent characters in correspondence with the identifier string of the category. In this case, a morpheme including one character is stored. With such a configuration, even when the character area is cut out and the one character area is erroneously recognized, the character can be correctly recognized.

【0156】また、前記文字列を表すデータは手書き文
字列であり、前記特徴量抽出手段で抽出された特徴量が
前記文字列を構成する平仮名文字又は片仮名文字の特徴
量であるときに、前記形態素辞書には、前記平仮名文字
の対応するカテゴリの識別子又はカテゴリの識別子列の
形態素の表記が漢字表記で格納されていることとしてい
る。このような構成によって、複雑な文字を平仮名入力
した場合にも、漢字変換された文字列を認識できる。
Further, the data representing the character string is a handwritten character string, and when the characteristic amount extracted by the characteristic amount extracting means is the characteristic amount of the hiragana character or the katakana character constituting the character string, It is assumed that the morpheme dictionary stores the identifiers of the categories corresponding to the hiragana characters or the morphemes of the category identifier column in Chinese characters. With such a configuration, even when a complex character is input in hiragana, a character string converted into kanji can be recognized.

【0157】また、形状が類似する文字又は文字要素が
同一カテゴリとして分類され、同一カテゴリに分類され
た文字又は文字要素の標準的な形状から抽出された特徴
量を代表する代表標準特徴量と当該カテゴリの識別子と
を対応づけて記憶するカテゴリ辞書と、ひとつ又は複数
の文字又は複数の文字要素から構成され最小言語単位で
ある文字コードからなる形態素とその形態素の品詞を前
記形態素を構成する文字又は文字列の属するカテゴリの
識別子又はカテゴリの識別子列と対応づけて記憶する形
態素辞書とを有して、文字列を表すデータから文字を認
識する文字認識方法であって、前記文字列を表すデータ
の一文字ごとの形状から特徴量を抽出する特徴量抽出ス
テップと、前記特徴量抽出ステップで抽出された特徴量
と、前記カテゴリ辞書に記憶されている代表標準特徴量
とを照合して前記特徴量に類似度の高い代表標準特徴量
に対応づけられたカテゴリの識別子を決定するカテゴリ
決定ステップと、前記カテゴリ決定ステップで決定され
たカテゴリの識別子に従い、前記形態素辞書から複数の
候補形態素を抽出する候補形態素抽出ステップと、前記
候補形態素抽出ステップで抽出された候補形態素を前記
文字列の文頭から文末までの間にそのカテゴリの識別子
又はカテゴリの識別子列の出現順に連結したネットワー
ク上に配置する配置ステップと、前記配置ステップで配
置された候補形態素の品詞に従い、文法に適合しない候
補形態素を棄却する棄却ステップと、経験則に従い候補
形態素から優先する形態素を選択する選択ステップとを
有することとしている。このような構成によって、文字
認識の精度が向上し、かつ、処理速度の高速化を図るこ
とができる。
Also, characters or character elements having similar shapes are classified as the same category, and a representative standard characteristic amount representing a characteristic amount extracted from a standard shape of the character or character element classified into the same category and the corresponding standard characteristic amount are described. A category dictionary that stores category identifiers in association with each other, a morpheme composed of one or more characters or a plurality of character elements, and a character code that is a minimum language unit, and a part of speech of the morpheme, A character recognition method for recognizing a character from data representing a character string, comprising: a category identifier to which the character string belongs or a morphological dictionary stored in association with the category identifier string. A feature amount extraction step of extracting a feature amount from a shape of each character; a feature amount extracted in the feature amount extraction step; A category determining step of determining a category identifier associated with a representative standard feature having a high similarity to the feature by comparing the representative standard feature stored in the document with the representative standard feature, and the category determining step. A candidate morpheme extraction step of extracting a plurality of candidate morphemes from the morphological dictionary according to the identifier of the category, and identifying the candidate morpheme extracted in the candidate morpheme extraction step from the beginning to the end of the sentence of the character string. Or, an arrangement step of arranging on a network connected in the order of appearance of the category identifier sequence, a rejection step of rejecting candidate morphemes that do not conform to the grammar according to the part of speech of the candidate morpheme arranged in the arrangement step, and a candidate morpheme according to an empirical rule. And a selecting step of selecting a priority morpheme from the above. With such a configuration, the accuracy of character recognition can be improved, and the processing speed can be increased.

【0158】更に、形状が類似する文字又は文字要素が
同一カテゴリとして分類され、同一カテゴリに分類され
た文字又は文字要素の標準的な形状から抽出された特徴
量を代表する代表標準特徴量と当該カテゴリの識別子と
を対応づけて記憶するカテゴリ辞書と、ひとつ又は複数
の文字又は複数の文字要素から構成され最小言語単位で
ある文字コードからなる形態素とその形態素の品詞を前
記形態素を構成する文字又は文字列の属するカテゴリの
識別子又はカテゴリの識別子列と対応づけて記憶する形
態素辞書とが記録され、文字列を表すデータから文字を
認識する文字認識方法を記録したコンピュータ読取可能
な記録媒体であって、前記文字列を表すデータの一文字
ごとの形状から特徴量を抽出する特徴量抽出ステップ
と、前記特徴量抽出ステップで抽出された特徴量と、前
記カテゴリ辞書に記憶されている代表標準特徴量とを照
合して前記特徴量に類似度の高い代表標準特徴量に対応
づけられたカテゴリの識別子を決定するカテゴリ決定ス
テップと、前記カテゴリ決定ステップで決定されたカテ
ゴリの識別子に従い、前記形態素辞書から複数の候補形
態素を抽出する候補形態素抽出ステップと、前記候補形
態素抽出ステップで抽出された候補形態素を前記文字列
の文頭から文末までの間にそのカテゴリの識別子又はカ
テゴリの識別子列の出現順に連結したネットワーク上に
配置する配置ステップと、前記配置ステップで配置され
た候補形態素の品詞に従い、文法に適合しない候補形態
素を棄却する棄却ステップと、経験則に従い候補形態素
から優先する形態素を選択する選択ステップとを有する
文字認識方法のプログラムを記録した記録媒体としてい
る。このような構成によって、文字認識機能を有しない
コンピュータに用いることによって、文字認識の精度が
向上し、かつ処理速度が高速化された文字認識装置とし
て用いることができる。
Further, characters or character elements having similar shapes are classified as the same category, and a representative standard characteristic amount representing a characteristic amount extracted from a standard shape of the character or character element classified into the same category, and A category dictionary that stores category identifiers in association with each other, a morpheme composed of one or more characters or a plurality of character elements, and a character code that is a minimum language unit, and a part of speech of the morpheme, A computer-readable recording medium in which an identifier of a category to which a character string belongs or a morphological dictionary stored in association with the identifier sequence of the category is recorded, and a character recognition method for recognizing a character from data representing the character string is recorded. Extracting a feature value from a shape of each character representing the character string for each character; and extracting the feature value. A category that determines the identifier of the category associated with the representative standard feature having a high similarity to the feature by comparing the feature extracted in the step with the representative standard feature stored in the category dictionary. A determining step, a candidate morpheme extracting step of extracting a plurality of candidate morphemes from the morphological dictionary according to the category identifier determined in the category determining step, and extracting the candidate morpheme extracted in the candidate morpheme extracting step into the character string. An arrangement step of arranging on the network connected in the order of appearance of the identifier of the category or the identifier string of the category from the beginning of the sentence to the end of the sentence, and a candidate morpheme that does not conform to the grammar according to the part of speech of the candidate morpheme arranged in the arrangement step. A rejection step for rejection and a selection step for selecting a priority morpheme from candidate morphemes according to empirical rules. Tsu is the recording medium which records a program of character recognition method and a flop. With such a configuration, by using a computer having no character recognition function, the accuracy of character recognition can be improved and the processing speed can be increased.

【図面の簡単な説明】[Brief description of the drawings]

【図1】本発明に係る文字認識装置の実施の形態1の構
成図である。
FIG. 1 is a configuration diagram of a first embodiment of a character recognition device according to the present invention.

【図2】上記実施の形態のカテゴリ辞書の構造を説明す
る図である。
FIG. 2 is a diagram illustrating a structure of a category dictionary according to the embodiment.

【図3】上記実施の形態の形態素辞書の内容の一例を説
明する図である。
FIG. 3 is a diagram illustrating an example of the contents of a morphological dictionary according to the embodiment.

【図4】上記実施の形態の形態素抽出部で抽出された形
態素を連結したネットワークの一例を示す図である。
FIG. 4 is a diagram illustrating an example of a network in which morphemes extracted by the morpheme extraction unit according to the embodiment are connected.

【図5】上記実施の形態の形態素抽出部で抽出された形
態素を組み合わせた文字列の一例を示す図である。
FIG. 5 is a diagram illustrating an example of a character string obtained by combining morphemes extracted by the morpheme extraction unit according to the embodiment.

【図6】上記実施の形態の形態素抽出部で抽出された形
態素を連結したネットワークの一例を示す図である。
FIG. 6 is a diagram illustrating an example of a network in which morphemes extracted by the morpheme extraction unit according to the embodiment are connected;

【図7】上記実施の形態の形態素抽出部で抽出された形
態素を組み合わせた文字列の一例を示す図である。
FIG. 7 is a diagram showing an example of a character string obtained by combining morphemes extracted by the morpheme extraction unit of the embodiment.

【図8】上記実施の形態の詳細認識部で求められた形態
素を構成する文字の類似度の順位を示す図である。
FIG. 8 is a diagram showing similarity rankings of characters constituting morphemes obtained by a detailed recognition unit according to the embodiment.

【図9】上記実施の形態の詳細認識部で計算された形態
素を構成する文字の類似度を示す図である。
FIG. 9 is a diagram showing the similarity of characters constituting morphemes calculated by the detailed recognition unit of the embodiment.

【図10】上記実施の形態の動作を説明するフローチャ
ートである。
FIG. 10 is a flowchart illustrating an operation of the embodiment.

【図11】本発明に係る文字認識装置の実施の形態2の
構成図である。
FIG. 11 is a configuration diagram of a character recognition device according to a second embodiment of the present invention.

【図12】上記実施の形態のカテゴリ辞書の内容を示す
図である。
FIG. 12 is a diagram showing contents of a category dictionary according to the embodiment.

【図13】上記実施の形態の形態素辞書の内容の一例を
示す図である。
FIG. 13 is a diagram showing an example of the contents of a morphological dictionary according to the embodiment.

【図14】上記実施の形態の形態素抽出部で生成された
ネットワークの一例を示す図である。
FIG. 14 is a diagram illustrating an example of a network generated by the morpheme extraction unit according to the embodiment.

【図15】上記実施の形態の座標入力部に入力される手
書き文字列の一例を示す図である。
FIG. 15 is a diagram illustrating an example of a handwritten character string input to the coordinate input unit according to the embodiment.

【図16】上記実施の形態の形態素抽出部で生成された
ネットワークの一例を示す図である。
FIG. 16 is a diagram illustrating an example of a network generated by the morpheme extraction unit according to the embodiment.

【図17】上記実施の形態の詳細認識部で求められた形
態素を構成する文字の類似度の順位を示す図である。
FIG. 17 is a diagram showing similarity rankings of characters constituting morphemes obtained by the detailed recognition unit of the embodiment.

【図18】上記実施の形態の詳細認識部で計算された形
態素を構成する文字の類似度を示す図である。
FIG. 18 is a diagram showing the similarity of characters constituting morphemes calculated by the detailed recognition unit of the embodiment.

【図19】上記実施の形態の座標入力部に入力される手
書き文字列の一例を示す図である。
FIG. 19 is a diagram illustrating an example of a handwritten character string input to the coordinate input unit according to the embodiment.

【図20】(a)は、上記実施の形態の文字切り出し部
で図15に示した手書き文字列の切り出された文字領域
の一例を示す図である。(b)は、上記実施の形態の文
字切り出し部で図15に示した手書き文字列の切り出さ
れた文字領域の一例を示す図である。
FIG. 20A is a diagram illustrating an example of a character region in which the handwritten character string illustrated in FIG. 15 is extracted by the character extraction unit according to the embodiment; FIG. 16B is a diagram illustrating an example of a character area in which the handwritten character string illustrated in FIG. 15 is extracted by the character extraction unit according to the embodiment.

【図21】(a)は、上記実施の形態のカテゴリ決定部
で決定された図20(a)に示す文字領域のカテゴリを
示す図である。(b)は、上記実施の形態のカテゴリ決
定部で決定された図20(b)に示す文字領域のカテゴ
リを示す図である。
FIG. 21A is a diagram showing the category of the character area shown in FIG. 20A determined by the category determining unit according to the embodiment. FIG. 20B is a diagram showing the category of the character area shown in FIG. 20B determined by the category determining unit of the embodiment.

【図22】上記実施の形態の形態素辞書の内容の一例を
示す図である。
FIG. 22 is a diagram showing an example of the contents of a morphological dictionary according to the embodiment.

【図23】上記実施の形態の形態素抽出部で生成された
ネットワークの一例を示す図である。
FIG. 23 is a diagram illustrating an example of a network generated by the morpheme extraction unit according to the embodiment.

【図24】上記実施の形態の形態素抽出部で生成された
ネットワークの一例を示す図である。
FIG. 24 is a diagram illustrating an example of a network generated by the morpheme extraction unit according to the embodiment.

【図25】上記実施の形態の座標入力部に入力される手
書き文字列の一例を示す図である。
FIG. 25 is a diagram illustrating an example of a handwritten character string input to the coordinate input unit according to the embodiment.

【図26】上記実施の形態の文字切り出し部で切り出さ
れた文字領域の一例を示す図である。
FIG. 26 is a diagram illustrating an example of a character area cut out by the character cutout unit according to the embodiment.

【図27】上記実施の形態の形態素辞書の内容の一例を
示す図である。
FIG. 27 is a diagram showing an example of the contents of the morphological dictionary according to the embodiment.

【図28】上記実施の形態の形態素抽出部で生成された
ネットワークの一例を示す図である。
FIG. 28 is a diagram illustrating an example of a network generated by the morphological extraction unit of the embodiment.

【図29】上記実施の形態の座標入力部に入力される手
書き文字列の一例を示す図である。
FIG. 29 is a diagram illustrating an example of a handwritten character string input to the coordinate input unit according to the embodiment.

【図30】上記実施の形態の文字切り出し部で切り出さ
れた文字領域の一例を示す図である。
FIG. 30 is a diagram illustrating an example of a character area cut out by the character cutout unit according to the embodiment.

【図31】上記実施の形態の形態素辞書の内容の一例を
示す図である。
FIG. 31 is a diagram showing an example of the contents of the morphological dictionary according to the embodiment.

【図32】上記実施の形態の形態素抽出部で生成された
ネットワークの一例を示す図である。
FIG. 32 is a diagram illustrating an example of a network generated by the morpheme extraction unit according to the embodiment.

【図33】上記実施の形態の動作を説明するフローチャ
ートである。
FIG. 33 is a flowchart illustrating the operation of the above embodiment.

【図34】従来の第1の文字認識装置の構成図である。FIG. 34 is a configuration diagram of a first conventional character recognition device.

【図35】従来の認識辞書の構造を示す図である。FIG. 35 is a diagram showing the structure of a conventional recognition dictionary.

【図36】従来の形態素辞書の一例を示す図である。FIG. 36 is a diagram showing an example of a conventional morphological dictionary.

【図37】第1の文字認識装置に入力される文字列画像
を示す図である。
FIG. 37 is a diagram illustrating a character string image input to the first character recognition device.

【図38】従来の文字切り出し部で切り出された文字画
像を示す図である。
FIG. 38 is a diagram showing a character image cut out by a conventional character cutout unit.

【図39】従来の類似度算出部で算出された文字の類似
度の順位を示す図である。
FIG. 39 is a diagram showing the order of similarity of characters calculated by a conventional similarity calculator.

【図40】上記第1の文字認識装置の動作を説明するフ
ローチャートである。
FIG. 40 is a flowchart illustrating an operation of the first character recognition device.

【図41】従来の第1の文字認識装置の構成図である。FIG. 41 is a configuration diagram of a first conventional character recognition device.

【図42】第2の文字認識装置に入力される手書き文字
列を示す図である。
FIG. 42 is a diagram illustrating a handwritten character string input to the second character recognition device.

【図43】従来の文字切り出し部で切り出された文字領
域を示す図である。
FIG. 43 is a diagram showing a character area cut out by a conventional character cutout unit.

【図44】上記第2の文字認識装置の動作を説明するフ
ローチャートである。
FIG. 44 is a flowchart illustrating an operation of the second character recognition device.

【符号の説明】[Explanation of symbols]

101,1102 文字切り出し部 102,1103 特徴量抽出部 103,1104 カテゴリ辞書 104,1105 カテゴリ決定部 105,1106 形態素辞書 106,1107 形態素抽出部 107,1108 詳細認識部 1101 座標入力部 1109 出力部 101, 1102 Character extraction unit 102, 1103 Feature extraction unit 103, 1104 Category dictionary 104, 1105 Category determination unit 105, 1106 Morphological dictionary 106, 1107 Morphological extraction unit 107, 1108 Detailed recognition unit 1101 Coordinate input unit 1109 Output unit

Claims (8)

【特許請求の範囲】[Claims] 【請求項1】 文字列を表すデータから文字を認識する
文字認識装置であって、 形状が類似する文字又は文字要素が同一カテゴリとして
分類され、同一カテゴリに分類された文字又は文字要素
の標準的な形状から抽出された特徴量を代表する代表標
準特徴量と当該カテゴリの識別子とを対応づけて記憶す
るカテゴリ辞書と、 ひとつ又は複数の文字又は複数の文字要素から構成され
最小言語単位である形態素と、前記形態素を構成する文
字又は文字列の属するカテゴリの識別子又はカテゴリの
識別子列とを対応づけて記憶する形態素辞書と、 前記文字列を表すデータの一文字ごとの形状から特徴量
を抽出する特徴量抽出手段と、 前記特徴量抽出手段で抽出された特徴量と前記カテゴリ
辞書に記憶されている代表標準特徴量とを照合して、類
似度の高い代表標準特徴量に対応づけられたカテゴリの
識別子を決定するカテゴリ決定手段と、 前記カテゴリ決定手段で決定されたカテゴリの識別子に
従い、前記形態素辞書から複数の候補形態素を抽出する
候補形態素抽出手段と、 前記候補形態素抽出手段で抽出された複数の候補形態素
から、所定の基準により優先する形態素を決定する形態
素決定手段とを備えたことを特徴とする文字認識装置。
1. A character recognition apparatus for recognizing characters from data representing a character string, wherein characters or character elements having similar shapes are classified as the same category, and a standard character or character element classified into the same category is provided. A category dictionary that stores a representative standard feature quantity representing a feature quantity extracted from a simple shape and an identifier of the category in association with each other, and a morpheme that is composed of one or more characters or a plurality of character elements and is a minimum language unit And a morphological dictionary storing the identifiers of the categories or the identifier strings of the categories to which the characters or character strings constituting the morphemes are associated, and a feature of extracting a feature amount from the shape of each character representing the character strings for each character. A feature extraction unit that matches the feature amount extracted by the feature amount extraction unit with a representative standard feature amount stored in the category dictionary, Category deciding means for deciding an identifier of a category associated with a representative standard feature amount having a high value, and candidate morpheme extracting means for extracting a plurality of candidate morphemes from the morphological dictionary according to the category identifier decided by the category deciding means And a morpheme determining means for determining a priority morpheme based on a predetermined criterion from a plurality of candidate morphemes extracted by the candidate morpheme extraction means.
【請求項2】 前記形態素辞書の形態素は、文字コード
からなり、形態素は形態素の属性ごとに記憶されてお
り、 前記候補形態素抽出手段は、 前記カテゴリ決定手段で決定されたカテゴリの識別子を
前記文字列を表わすデータの文字の順に並べて、単独の
カテゴリの識別子及び連続した複数のカテゴリの識別子
列を取得する識別子・識別子列取得部と、 前記識別子・識別子列取得部で取得されたカテゴリの識
別子及びカテゴリの識別子列を検索キーとして前記形態
素辞書を検索し、一致するカテゴリの識別子及びカテゴ
リの識別子列に対応づけられた形態素を候補形態素とし
て抽出する抽出部とを有し、 前記形態素決定手段は、前記形態素の属性に基づいて形
態素を決定することを特徴とする請求項1記載の文字認
識装置。
2. A morpheme of the morpheme dictionary is composed of a character code, and the morpheme is stored for each attribute of the morpheme. The candidate morpheme extracting means includes an identifier of the category determined by the category determining means, Arrangement in the order of the characters of the data representing the columns, an identifier / identifier sequence acquisition unit for acquiring an identifier of a single category and an identifier sequence of a plurality of continuous categories; and an identifier of the category acquired by the identifier / identifier sequence acquisition unit. The morpheme dictionary is searched using a category identifier string as a search key, and an extracting unit that extracts a morpheme associated with the identifier of the matching category and the identifier string of the category as a candidate morpheme, 2. The character recognition device according to claim 1, wherein a morpheme is determined based on the attribute of the morpheme.
【請求項3】 前記形態素辞書に記憶されている形態素
の属性は、形態素の品詞であり、 前記形態素決定手段は、 前記候補形態素抽出手段で抽出された候補形態素を前記
文字列の文頭から文末までの間にそのカテゴリの識別子
又はカテゴリの識別子列の出現順に連結したネットワー
ク上に配置する配置部と、 前記配置部で配置された候補形態素の品詞に従い、文法
に適合しない候補形態素を棄却する棄却部と、 経験則に従い候補形態素から優先する形態素を選択する
選択部とを有することを特徴とする請求項2記載の文字
認識装置。
3. The attribute of a morpheme stored in the morphological dictionary is a part of speech of the morpheme, and the morpheme determining means converts the candidate morpheme extracted by the candidate morpheme extracting means from the beginning to the end of the sentence of the character string. An arrangement unit arranged on the network connected in the order of appearance of the identifier of the category or the identifier sequence of the category, and a rejection unit for rejecting candidate morphemes that do not conform to the grammar according to the part of speech of the candidate morpheme arranged in the arrangement unit 3. The character recognition device according to claim 2, further comprising: a selection unit that selects a morpheme having priority from candidate morphemes according to an empirical rule.
【請求項4】 前記カテゴリ辞書は、更に、カテゴリに
分類された文字の文字コードと、その文字の標準特徴量
とを各カテゴリに対応して記憶しており、 前記選択部で選択された優先する形態素が複数ある場合
に、 前記カテゴリ辞書に記憶されている前記形態素を構成す
る各文字の標準特徴量と前記特徴量抽出手段で抽出され
た特徴量とを照合して類似度を求め、類似度の高い文字
をその構成文字とするひとつの形態素を決定する詳細認
識手段を更に備えることを特徴とする請求項3記載の文
字認識装置。
4. The category dictionary further stores a character code of a character classified into the category and a standard feature amount of the character corresponding to each category, and stores the priority code selected by the selection unit. When there are a plurality of morphemes to be matched, the standard feature quantity of each character constituting the morpheme stored in the category dictionary is compared with the feature quantity extracted by the feature quantity extraction means to obtain a similarity, and the similarity is determined. 4. The character recognition device according to claim 3, further comprising a detailed recognition unit that determines one morpheme having a character with a high degree as a constituent character.
【請求項5】 前記カテゴリ辞書に文字と同一カテゴリ
に分類される文字要素は漢字を構成する偏及び旁であ
り、 前記形態素辞書には、カテゴリの識別子列に対応して前
記偏及び旁を組み合わせて一文字となる文字を含む形態
素が記憶されていることを特徴とする請求項1乃至4の
いずれか記載の文字認識装置。
5. A character element classified into the same category as a character in the category dictionary is a partial and a partial constituting a kanji, and the morphological dictionary combines the partial and the partial according to an identifier string of a category. The character recognition device according to claim 1, wherein a morpheme including a character that becomes one character is stored.
【請求項6】 前記文字列を表すデータは手書き文字列
であり、 前記特徴量抽出手段で抽出された特徴量が前記文字列を
構成する平仮名文字又は片仮名文字の特徴量であるとき
に、 前記形態素辞書には、前記平仮名文字の対応するカテゴ
リの識別子又はカテゴリの識別子列の形態素の表記が漢
字表記で格納されていることを特徴とする請求項1乃至
5のいずれか記載の文字認識装置。
6. When the data representing the character string is a handwritten character string, and the feature quantity extracted by the feature quantity extracting means is a feature quantity of a hiragana character or a katakana character constituting the character string, 6. The character recognition device according to claim 1, wherein the morpheme dictionary stores the identifiers of the categories corresponding to the hiragana characters or the morphemes in the category identifier column in kanji notation.
【請求項7】 形状が類似する文字又は文字要素が同一
カテゴリとして分類され、同一カテゴリに分類された文
字又は文字要素の標準的な形状から抽出された特徴量を
代表する代表標準特徴量と当該カテゴリの識別子とを対
応づけて記憶するカテゴリ辞書と、ひとつ又は複数の文
字又は複数の文字要素から構成され最小言語単位である
文字コードからなる形態素とその形態素の品詞を前記形
態素を構成する文字又は文字列の属するカテゴリの識別
子又はカテゴリの識別子列と対応づけて記憶する形態素
辞書とを有して、文字列を表すデータから文字を認識す
る文字認識方法であって、 前記文字列を表すデータの一文字ごとの形状から特徴量
を抽出する特徴量抽出ステップと、 前記特徴量抽出ステップで抽出された特徴量と、前記カ
テゴリ辞書に記憶されている代表標準特徴量とを照合し
て前記特徴量に類似度の高い代表標準特徴量に対応づけ
られたカテゴリの識別子を決定するカテゴリ決定ステッ
プと、 前記カテゴリ決定ステップで決定されたカテゴリの識別
子に従い、前記形態素辞書から複数の候補形態素を抽出
する候補形態素抽出ステップと、 前記候補形態素抽出ステップで抽出された候補形態素を
前記文字列の文頭から文末までの間にそのカテゴリの識
別子又はカテゴリの識別子列の出現順に連結したネット
ワーク上に配置する配置ステップと、 前記配置ステップで配置された候補形態素の品詞に従
い、文法に適合しない候補形態素を棄却する棄却ステッ
プと、 経験則に従い候補形態素から優先する形態素を選択する
選択ステップとを有することを特徴とする文字認識方
法。
7. A character or character element having a similar shape is classified as the same category, and a representative standard characteristic amount representing a characteristic amount extracted from a standard shape of the character or character element classified into the same category, A category dictionary that stores category identifiers in association with each other, a morpheme composed of one or more characters or a plurality of character elements, and a character code that is a minimum language unit, and a part of speech of the morpheme, A character recognition method for recognizing a character from data representing a character string, comprising a category identifier to which the character string belongs or a morphological dictionary stored in association with the category identifier string, comprising: A feature value extraction step of extracting a feature value from a shape of each character; a feature value extracted in the feature value extraction step; A category determining step of comparing the stored representative standard feature quantity to determine a category identifier associated with the representative standard feature quantity having a high degree of similarity to the feature quantity; and a category determined in the category determining step. A candidate morpheme extraction step of extracting a plurality of candidate morphemes from the morphological dictionary according to the identifier of the morphological dictionary; and extracting the candidate morpheme extracted in the candidate morpheme extraction step from the beginning of the character string to the end of the sentence. An arrangement step of arranging the candidate morphemes on the network connected in the order of appearance of the identifier sequence, a rejection step of rejecting a candidate morpheme that does not conform to the grammar according to the part of speech of the candidate morpheme arranged in the arrangement step, And a selecting step of selecting a morpheme to be performed.
【請求項8】 形状が類似する文字又は文字要素が同一
カテゴリとして分類され、同一カテゴリに分類された文
字又は文字要素の標準的な形状から抽出された特徴量を
代表する代表標準特徴量と当該カテゴリの識別子とを対
応づけて記憶するカテゴリ辞書と、ひとつ又は複数の文
字又は複数の文字要素から構成され最小言語単位である
文字コードからなる形態素とその形態素の品詞を前記形
態素を構成する文字又は文字列の属するカテゴリの識別
子又はカテゴリの識別子列と対応づけて記憶する形態素
辞書とが記録され、文字列を表すデータから文字を認識
する文字認識方法を記録したコンピュータ読取可能な記
録媒体であって、 前記文字列を表すデータの一文字ごとの形状から特徴量
を抽出する特徴量抽出ステップと、 前記特徴量抽出ステップで抽出された特徴量と、前記カ
テゴリ辞書に記憶されている代表標準特徴量とを照合し
て前記特徴量に類似度の高い代表標準特徴量に対応づけ
られたカテゴリの識別子を決定するカテゴリ決定ステッ
プと、 前記カテゴリ決定ステップで決定されたカテゴリの識別
子に従い、前記形態素辞書から複数の候補形態素を抽出
する候補形態素抽出ステップと、 前記候補形態素抽出ステップで抽出された候補形態素を
前記文字列の文頭から文末までの間にそのカテゴリの識
別子又はカテゴリの識別子列の出現順に連結したネット
ワーク上に配置する配置ステップと、 前記配置ステップで配置された候補形態素の品詞に従
い、文法に適合しない候補形態素を棄却する棄却ステッ
プと、 経験則に従い候補形態素から優先する形態素を選択する
選択ステップとを有する文字認識方法のプログラムを記
録した記録媒体。
8. A character or character element having a similar shape is classified as the same category, and a representative standard characteristic amount representing a characteristic amount extracted from a standard shape of the character or character element classified into the same category, A category dictionary that stores category identifiers in association with each other, a morpheme composed of one or more characters or a plurality of character elements, and a character code that is a minimum language unit, and a part of speech of the morpheme, A computer-readable recording medium in which an identifier of a category to which a character string belongs or a morphological dictionary stored in association with the identifier sequence of the category is recorded, and a character recognition method for recognizing a character from data representing the character string is recorded. A feature amount extracting step of extracting a feature amount from a shape of each character representing the character string for each character; Category that matches the feature quantity extracted in the step with the representative standard feature quantity stored in the category dictionary to determine the identifier of the category associated with the representative standard feature quantity having a high similarity to the feature quantity A determining step; a candidate morpheme extracting step of extracting a plurality of candidate morphemes from the morphological dictionary according to the category identifier determined in the category determining step; and extracting the candidate morpheme extracted in the candidate morpheme extracting step into the character string. An arranging step of arranging on the network connected in the order of appearance of the identifier of the category or the identifier sequence of the category from the beginning of the sentence to the end of the sentence; A rejection step of rejecting, and a selection step of selecting a priority morpheme from candidate morphemes according to rules of thumb Recording medium for recording a program of a character recognition method and a flop.
JP10005468A 1997-07-16 1998-01-14 Character recognition apparatus and method, and recording medium recording the method Pending JPH1185910A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP10005468A JPH1185910A (en) 1997-07-16 1998-01-14 Character recognition apparatus and method, and recording medium recording the method

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP19147597 1997-07-16
JP9-191475 1997-07-16
JP10005468A JPH1185910A (en) 1997-07-16 1998-01-14 Character recognition apparatus and method, and recording medium recording the method

Publications (1)

Publication Number Publication Date
JPH1185910A true JPH1185910A (en) 1999-03-30

Family

ID=26339418

Family Applications (1)

Application Number Title Priority Date Filing Date
JP10005468A Pending JPH1185910A (en) 1997-07-16 1998-01-14 Character recognition apparatus and method, and recording medium recording the method

Country Status (1)

Country Link
JP (1) JPH1185910A (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012256353A (en) * 2005-10-22 2012-12-27 Internatl Business Mach Corp <Ibm> System, computer program and method for improving text input in shorthand-on-keyboard interface (improvement of text input in shorthand-on-keyboard interface on keyboard)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012256353A (en) * 2005-10-22 2012-12-27 Internatl Business Mach Corp <Ibm> System, computer program and method for improving text input in shorthand-on-keyboard interface (improvement of text input in shorthand-on-keyboard interface on keyboard)

Similar Documents

Publication Publication Date Title
US6137908A (en) Handwriting recognition system simultaneously considering shape and context information
JP4421134B2 (en) Document image search device
US5982929A (en) Pattern recognition method and system
US4903206A (en) Spelling error correcting system
JPH10232866A (en) Data processing method and device
Sinha et al. Hybrid contextural text recognition with string matching
JP2012063883A (en) Information processing device, information processing method, and information processing program
Pal et al. OCR error correction of an inflectional indian language using morphological parsing
JP3599180B2 (en) SEARCH METHOD, SEARCH DEVICE, AND RECORDING MEDIUM
JP2001318792A (en) Named entity extraction rule generation system and method, recording medium on which processing program is recorded, and named entity extraction device
KR100731283B1 (en) Mass document-based propensity analysis system according to query word
JPWO2000036530A1 (en) Search method, search device, and recording medium
JP2004133565A (en) Post-processing device for character recognition using the Internet
JP4278011B2 (en) Document proofing apparatus and program storage medium
JPH1185910A (en) Character recognition apparatus and method, and recording medium recording the method
JP4584507B2 (en) Address recognition device, recording medium, and program
JP6303508B2 (en) Document analysis apparatus, document analysis system, document analysis method, and program
JP2003331214A (en) Character recognition error correction method, apparatus and program
CN113901795B (en) Chinese spelling error correction method based on behavior data statistics
JPS62251986A (en) Misread character correction processor
JP4047895B2 (en) Document proofing apparatus and program storage medium
JP4047894B2 (en) Document proofing apparatus and program storage medium
JP4318223B2 (en) Document proofing apparatus and program storage medium
JP2827066B2 (en) Post-processing method for character recognition of documents with mixed digit strings
JP2994992B2 (en) Handwritten character online recognition device and its font registration and learning method