JPH07107711B2

JPH07107711B2 - 文書画像の処理装置

Info

Publication number: JPH07107711B2
Application number: JP60193738A
Authority: JP
Inventors: 純一東野; 康明中野; 浩道藤沢; 博唯上田; 誠治柏岡
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 1985-09-04
Filing date: 1985-09-04
Publication date: 1995-11-15
Anticipated expiration: 2010-11-15
Also published as: JPS6255769A

Description

【発明の詳細な説明】〔発明の利用分野〕本発明は画像処理方式に係わり、特に入力文書画像のレ
イアウトを電子的に変更して画像を出力する装置に好適
な画像理解方式に関する。

〔発明の背景〕

従来の電子的文書画像フアイル装置は単に文書の各ペー
ジを画像として格納するのみであり、検索のための二次
情報は別にキーボードなどの符号入力手段によつて外部
から与える必要があつた。また見易くするために文書の
レイアウトを修正・変更など編集をしたり、文書の内容
を連想させるようなインデツクス画像をあらかじめ抽出
するために、クロスヘヤ・カーソルやマウスなどの座標
入力手段によつてその画像領域を外部から与える必要が
あつた。しかし、フアイルの入力・編集作業を省力化す
るためには文書中に記載されている表題や筆者などを自
動的に読み取つて二次情報を生成することが望ましい。
さらに検索を高度化するためには図表のキヤプシヨンや
章・節表題の自動入力あるいは本文自体の認識による自
動キーワード抽出などが必要となる。また対象文書の画
像を表題・著者・要約・本文・図・写真などの部分に分
割すること、文字の部分は認識して符号化すること、さ
らに、複数の文書から必要な領域を抽出して、抄録誌な
どを作成することは、記録スペースの削減や検索単位の
多様化のためにも要請されていた。

従来技術ではこのような問題点に対処するため、文書の
中の対象領域を外部から指定し、画像を抽出したり、文
字認識装置によつて文字データに自動的に変換する文法
が提案されている。

情報処理学会第28回全国大会講演論文「画像処理を応
用した文書画像フアイルの一検索方式」（論文集5C−
１、昭和59年）特許公開公報昭和60−17565号「画像記憶検索装置」
（昭和60年１月29日公開）しかし、この方法は検索対象領域の指定に人手がかかる
という問題点がある。

人手指定方式の問題点に対処するため、画像処理を行う
ことによつて対象領域を自動的に抽出したり、文書の内
容を理解しその理解結果に基づいて文書を処理を行う方
式がある。

情報処理学会第29回全国大会講演論文「ドキユメント
画像用情報システム用新聞見出し抽出アルゴリズム」
（論文集6M−９、昭和59年）特許公報昭和59−39065号「郵便物宛名文字列検出装
置」（昭和59年９月20日公告）情報処理学会第23回全国大会講演論文「複雑な構造を
もつ文書画像の自動解析」（論文集6C−２、昭和56年）しかし、これらの文書処理技術は、画像データを単純に
処理する方式（ボトムアツプ方式）のため、抽出した領
域に意味を与えることが困難であつたり、あらかじめ領
域に意味を与えてから画像データを処理する方式（トツ
プダウン方式）を採用してはいるが、その処理手順が制
御プログラム中に記述された方式であるため、処理する
文書の種類を変更することは容易ではなかつた。

すなわち、これらの文書理解技術は新聞や、郵便物の宛
先を対象としたものであるため、論文誌や特許公報のよ
うにある程度定型化されてはいるが、その書式が多種多
様にわたるような文書に対して、検索のため必要な表題
や著者などの二次情報を効率的に抽出する目的には必ず
しも適しない。また、二次情報抽出を失敗したとき抽出
方法を改良して行く手段は適当なものがない。

画像を出力する方法に関しては、従来文字を主体とした
システム（TeX）や、図形を主体としたシステム（GKS）
などがある。前者は印刷時の活字の選択を自動化するこ
とを目的としている。後者は図形や画像の合成を目的と
したものであるため、文書を画像として理解してからそ
の内容に応じた画像を出力することは考慮されていな
い。画像を配置する方法に関しては、上記のシステムで
は表示装置の分解能と整合をとるため座標系を任意に設
定できる。また画面上の位置もビユーポートなる矩形領
域によつて任意に設定できる。しかし、座標系またはビ
ユーポートは階層的に表現することはできない。

さらに、意味情報の付加された画像領域を再配置できる
適切な方式がなかつた。

〔発明の目的〕

本発明の目的は、ほぼ定型化された文書を対象とし、そ
の画像レイアウトから文書構造を自動的に解析し、所望
のレイアウトに再配置した文書画像を得ることができる
分書画像の処理装置を提供することにある。

〔発明の概要〕

かかる目的を達成するために、本発明の処理装置は、未知文書をイメージとして入力し、ディジタル画像に変
換する手段、画像を複数個の矩形領域の集合として記述する表記法で
各矩形領域の配置と大きさを変数を含んで表現し、もっ
て上記処理対象の文書に共通の書式を規定した第１の書
式データを保持する第１の記憶領域と、出力すべき画像
のレイアウトを上記表記法で規定した第２の書式データ
を保持する第２の記憶領域と、上記ディジタル画像を保
持する第３の記憶領域と、上記出力すべき画像が格納さ
れる第４の記憶領域とを少なくとも有する記憶手段、上記第１の記憶領域の第１の書式データを参照して該第
１の書式データに記された各矩形領域を上記第３の記憶
領域の上記ディジタル画像上で探索し、もって上記未知
文書の書式の各書式要素に対応する部分画像の存在領域
をそれぞれ特定する構造解析処理と、該構造解析処理で
特定された存在領域を用いて上記第２の書式データをに
記された各書式要素に対応する部分画像を上記第３の記
憶領域からそれぞれ切り出し、該部分画像を上記第４の
記憶領域の中の上記第２の書式データで規定される位置
に転送する画像処理とを実行する制御部、及び上記第４の記憶領域に蓄積された部分画像の集合を表示
する画像出力部を有することを特徴とする。上記の表記
法では、文書画像を矩形領域の集合として表現する。特
に第１の書式データは、処理対象文書に共通の書式を規
定するために各書式要素（例えば技術論文が表題、著者
名、本文、図面からなるとき、それぞれを書式要素と呼
ぶ）に対応する文書画像上の矩形領域の絶対的あるいは
相対的な大きさ及び矩形領域間の絶対的あるいは相対的
な関係を表す数量を変数として含んでいる。また、矩形
領域の探索方法を指定することができる。さらに、矩形
領域をまた矩形領域の集合として表現し、このような階
層的な表現によつて、文書の書式を細部に至るまで表現
できる。

構文解析処理では未知文書が入力されると、上記第１の
書式データで指定された探索方法に従つて矩形領域を探
索し、探索が成功したか否かの情報と探索時に定まるパ
ラメータ（矩形領域の絶対的あるいは相対的な大きさ及
び矩形領域間の絶対的あるいは相対的な関係）を表す数
値を抽出する。構文解析部は、上記のパラメータの数値
を上記第１の書式データの中の変数に代入し、次の解析
を行うことにより、順次文書の構造解析を進める。解析
が終了し、画像の内容が理解された後の画像処理におい
ては、上記の第２の書式データに従つて画像を再び配置
出力する。従つて、上記第２の記憶領域に格納する第２
の書式データの内容を変更することによつて異なつた書
式で画像を出力することもできる。

以下に本発明の原理を説明する。第１図，第２図にほぼ
一定の書式を有する技術論文の一頁の例を示す。以下の
説明では対象として技術論文を例にとるが、他の文書で
あつても書式データの内容もしくは表現法の一部を変更
することによりその対象文書に共通の書式を規定するこ
とができるので、本発明が適用でき、本発明は上記技術
論文の一例に限定されるものではない。第３図は、第1,
2図の内容を理解して表題、著者名、代表図を表形式の
構造をもつレイアウトに変更した出力画像である。

次に、文書の構造を記述する表現法（以下文書構造表現
と略する）の一例を示す。

（defform F （form F1（10 90 10 40））（form F2 ……… ）（form F3 ……… ））（defform F1 （form F11（10 90 10 50））（form F12（10 90 60 90）））（defmac LINE−１（％１）（point ?Y1（mode IN Y LESS））（point ?Y2（mode OUT Y LESS））（form ％1 （0 ?W ?Y1 ?Y2）））上記文書構造表現を第４図の文書画像の例を参照して説
明する。

最初のdefform F……は、書式Ｆが第５図のように、書
式要素F1の下部に書式要素F2およびF3が横に並んだもの
が付随して構成されることを示す。第４図では第５図に
対応したF1,F2,F3の部分は破線で囲んで示してある。書
式要素名F1の次の（）で挾まれた４個の数値 10 90 10 40 は書式Ｆに対応する全領域を100×100としたときの書式
要素F1の領域の位置を示す。ここで、座標系は左上を原
点としている。領域を示す数値は、Ｘ座標の最小値、Ｘ
座標の最大値、Ｙ座標の最小値、Ｙ座標の最大値であ
る。この例のようにパラメータの値が既知のときは、そ
の値を直接記述すればよい。同様に、書式要素F2、書式
要素F3も矩形領域で記述する。

次のdefform F1……は、書式要素F1が、さらに書式要素
F11とF12が縦に並んで構成されることを示す。すなわ
ち、書式要素F11のＹ方向の領域は10から50であり、書
式要素F12のＹ方向の領域は60から90である。書式要素F
11と書式要素F12の領域の位置は、書式要素F1の左上を
原点とした座標系で記述している。従つて、書式Ｆから
みれば相対座標系になつている。

このように、書式を矩形領域で表現し、この領域の集合
として階層的に次々と表現する事によつて画像を一般化
して表現することができる。もちろん階層的ではなく、
第６図に示すように書式Ｆを基準として絶対座標系で記
述してもよい。この場合、第５図と同様の矩形領域を指
定するためには下記のようにすればよい。

（defform F （form F11（18 82 13 25））（form F12（18 82 28 38））（form F2 ……… ）（form F3 ……… ））次のdefmac LINE−１（％１）以降は、マクロ定義であ
る。本マクロ定義の本体である、以下の３行の記述は、
矩形領域の上から１行目が書式要素％１であることを表
現したものである。

（point ?Y1（mode IN Y LESS）（point ?Y2（mode OUT Y LESS））（form ％1 （0 ?W ?Y1 ?Y2））ここで、?Wは書式要素の横方向の大きさ、?Hは書式要素
の縦方向の大きさを表す。?Y1,?Y2は以下に述べるよう
に探索により特定される変数である。

pointはある条件を満足する点を探索し、変数に代入す
ることを示す。探索条件はmodeによつて指定する。IN−
OUTは探索点が白から黒への変化点か黒から白への変化
点かを示し、Ｙは探索軸（ＸまたはＹ）を示し、LESSは
探索方向を表す。なお、この例には存在しないがpoint
に対応するものとして、areaがある。これは、後述する
ように探索範囲の領域を示す。

探索方法をマクロ定義の記述を例に第７図を用いて説明
する。（Ａ）は書式中にTitle……、Author……なる行
が存在することを示す。これらの行のＹ方向の座標値、
すなわち１行目が?Y1から?Y2までに存在し、２行目が?Y
3から?Y4までに存在していることを記述したのが（Ｂ）
と（Ｃ）である。前述したように（Ｂ）は１行目の書式
要素が％１であることを定義したマクロ、同様に、
（Ｃ）は２行目の書式要素が％１であることを定義した
マクロである。％付きの変数は仮の変数であり、マクロ
を呼び出した時の引き数におき換えられてから実行され
る。従つて、これらマクロの呼び出しかたは以下のよう
にすればよい。

（LINE−1 F1）（LINE−2 F2）すなわち、１行目の書式要素名がF1、２行目の書式要素
名がF2となる。（Ｂ）の２行目のpointで指定される座
標値?Y1の探索条件は、IN Y LESSである。従つて、白か
ら黒への変化点、探索軸はＹ、その方向はLESSすなわち
Ｙ座標値の小さいものから探索するという条件になつて
いる。またＹ座標値の大きいものから探索する場合はGR
EATERとすればよい。これらの条件を満足するものが１
行目の上限の座標値?Y1である。（Ｂ）の３行目のpoint
で指定される１行目の下限の座標値?Y2は上記の探索条
件において、黒から白への変化点であると記述すればよ
い。すなわち?Y2の探索条件は、OUT Y LESSである。

次に、書式中の２行目を定義した（Ｃ）について説明す
る。２行目は１行目の次の行であるから、１行目の下限
?Y2を探索し、?Y3は探索範囲の領域をareaで示す。すな
わち、探索対象とする矩形領域を、０ ?W ?Y2 ?H とすることによつて、１行目の下限から（Ｂ）と同様の
探索をすることができる。

文書の構造解析処理においては、上記の表現法で書かれ
た第１の書式データを参照し、その中に記述された矩形
領域が文書に存在するか否かを順次調べて行く。変数を
含んで記述された矩形領域が探索されると、その変数の
数値が得られることとなり、以後はその数値を変数に代
入して用いる。

次に、矩形領域間の演算について説明する。実際の文書
では矩形以外の形状をした領域も出現する。第８図
（Ａ），（Ｂ）は矩形以外の形状をした領域の例であ
る。また、（Ｃ）は一つの矩形領域が二つの矩形領域に
分離した例を示す。第８図（Ａ），（Ｂ）は、それぞれ
破線で示すように、二つの矩形領域の和あるいは差とし
て考えられる。また、（Ｃ）は二つの矩形領域がつなが
つて仮想的に一つの矩形領域に纒まつていると考えれ
ば、表現が単純になる。このような矩形領域間の演算を
可能にするため、次のように領域の仮想的な転送を定義
する。

（map＆form F （space ?W ?H）（position （（?X0 ?Y0）（?Xmin ?Xmax ?Ymin ?Ymax））（…… ）））第９図はこの定義の意味を示したものである。space
は、新しく書式Ｆとして幅?W、高さ?Hの矩形領域を設定
し、この領域中に転送が行われることを示す。position
は転送先の矩形領域の左上の座標を表す。４個の値（?Xmin ?Xmax ?Ymin ?Ymax）で示される転送元の矩形領域を、上記の転送先に複写す
る。

この仮想的転送を第10図により具体的に説明する。解析
する対象である実際の書式が（Ａ）のように配置されて
あつたとする。これは多段組、もしくはダブルカラムと
よばれているものである。書式要素F1と書式要素F2は、
空間的に横並びとして配置されているが、意味的には
（Ｂ）のように縦並びになつている。このような矩形領
域間の演算は（map＆form F （space 50 60）（position （（10 10）（10 40 10 40））（（10 40）（10 70 10 30））））によつて表現できる。（Ｂ）に示す仮想的な書式は
（Ａ）のspaceによつて、幅50、高さ60の矩形領域を設
定する。そして（Ａ）と（Ｂ）の関係を（position（（10 10）（10 40 10 40））（（10 40）（40 70 10 30）））のように表現する。（Ａ）における矩形領域（10 40 10
40）は、（Ｂ）の（10 10）を原点とする領域に転送さ
れる。

以上に説明した仮想的転送を組み合わせれば、第８図に
示したような複雑な形状の領域は二つ以上の矩形領域間
の演算によつて表現することができる。たとえば、第８
図（Ａ）は大きさの異なる二つの矩形領域を隣接させて
転送したものとして表現できる。

次に、画像を再配置して所望のレイアウトで表示するた
めの画像処理の内容を、とくに縦横比の変更に伴う場合
の画像転送方法について説明する。第11図は、矩形領域
の縦横比に対応して、画像の縮尺を変更して転送する場
合を示す。（１）は入力画像の矩形領域の幅がＷ、高さ
がＨでその領域の画像が文字Ａのパターンであるとす
る。（２）は転送先の矩形領域の幅がＷ′、（３）は高
さがＨ′、（４）は幅がＨ′、高さがＷ′である場合を
示す。上記構造解析処理により第１の書式データの変数
が数値に置き換えられ、ある書式要素に対応する部分画
像の存在領域が第11図の（１）のように特定されると、
画像処理ではその部分画像を切り出して第２の記憶領域
中の矩形領域に転送する。第２の書式データに規定する
矩形領域が第11図（２）、（３）もしくは（４）の様に
もとの存在領域と形が異なる場合にはそれに応じて画
像、つまり文字パターンが修正されて転送される。第12
図は、出力画像の縦横比を変更せずに転送する場合を示
す。（１）の入力画像を、（２）のように転送先の矩形
領域内部をx y zに分割する。（３）はｘ＝０、（４）
はｙ＝０、（５）はｘ＝ｙ、（６）は任意の分割比の場
合である。

以上の説明から分るように本発明で提案した文書構造表
現では、文書の構造を矩形領域の組み合わせとして把握
し、矩形領域間の関係を記述しているので文書の表現力
が増し、領域内の行数が不定の場合や、矩形領域が出現
するか否かが不定の場合など、従来取り扱いが困難であ
つた対象も記述できる。従つて、多種多様の文書の解析
と再配置が可能となる。

〔発明の実施例〕

以下、本発明の実施例について図面を用いて詳細に説明
する。

第13図は本発明の一実施例による画像理解方式を採用し
た装置の構成を示すブロツク図である。本実施例におい
ては理解する画像を文書を対象にして述べるが、一般の
画像、すなわち図形や写真など濃淡画像などが含まれて
いる場合でも応用できる。装置の各部はバス１に接続さ
れ、全体の動作は制御部２により制御される。文書３上
の情報（文書画像情報）はスキヤナ４により光電変換・
デイジタル化されてデイジタル画像となり、バス１を介
してメモリ61に格納される。メモリ61は後述する62,63,
64,65,66,67とともにメモリ６の一部をなす。デイジタ
ル画像61をスキヤナ４から得る代わりに、光デイスクな
どのデイジタル画像フアイル装置から読みこんでもよ
い。また、入力部５から文字コード情報を得てそのコー
ドに対応する画像パターンをフアイル８から読みこんで
もよい。以下の説明では１画素１ビツトに二値化するも
のとするが、１画素を多値で表現してもよく、カラース
キヤナにより光電変換して色情報を付与してもよい。文
書画像に対し制御部２により公知の位置補正処理、傾き
補正処理などを行つて得られる正規化画像がメモリ62に
格納される。

前述した変数を含む文書構造表現に従つて書かれた対象
文書に共通の書式データが、あらかじめメモリ64に格納
されているものとする。制御部２は、この書式データを
用いて上記の正規化画像の構造解析処理を行う。ここで
構造解析処理とは、正規化画像を複数の矩形領域に分解
し、メモリ64に格納された書式データを参照して各矩形
領域を探索し、探索結果によりこの書式データに含まれ
る変数を数値に置き換えることをいう。構造解析処理の
結果として得られる各領域のうち、認識対象領域として
あらかじめ定められた領域について、その部分の画像を
文字・図形認識部７に送つて、内部の文字・図形パター
ンを認識させる。一般に元の文書画像は複雑な形状をし
ているが、文書構造解析処理の結果として得られる領域
は矩形形状をしているので、公知の手法により文字・図
形の切り出し・認識が容易にできる。文字認識結果とし
て得られる文字符号列あるいはそれを編集した文字符号
列、または図形認識結果として得られるベクトル・デー
タあるいは記号列などは、指定された領域の検索情報と
して使用できる。これらの検索情報に対応した画像パタ
ーンをフアイル８から読みだし再配置すべきパターンと
して使用できる。以上のようにして得られた入力文書の
検索情報をフアイル９に、再配置した文書のデイジタル
画像をフアイル８に出力する。文書のデイジタル画像の
フアイル８への出力に際して、分解された複数の矩形領
域単位で別々に出力してもよい。また、フアイル８とフ
アイル９は同一のものとしてもよい。

さらに前記した表記法に従って書かれた表示すべき出力
文書の書式データが、あらかじめメモリ65に格納されて
いる。但し、このメモリ65に格納された書式データは、
変数を含まず、つまり各書式要素に対応する矩形領域の
大きさ、配置を数値で規定、明示する。制御部２は、こ
の書式データを用いて上記の正規化画像の画像処理を行
う。ここで、画像処理とは、第２の書式データに記され
た各書式要素に対応する部分画像を上記正規画像からそ
れぞれ切り出し、出力画像を保持するためのメモリ63の
第２の書式データにて規定されたそれぞれの領域に格納
する処理をいう。つまり、複数の矩形領域を再び合成
し、メモリ63に格納する。そして画像出力部10により出
力画像を表示する。

以下に文書の構文解析処理の詳細を述べる。第14図及び
第15図は、文書理解の処理の流れを説明する図である。
処理の流れは、PAD（Program Analysis Diagram）形式
で書かれている。100で文書画像の輪郭抽出を行い、メ
モリ66に格納する。輪郭抽出は公知の手法を使用すれば
よい。輪郭抽出の代わりにいわゆる連結領域抽出法を使
用してもよい。200で抽出された各輪郭ｉからそのＸ座
標及びＹ座標の最大値と最小値Xmin（ｉ） Xmax（ｉ）
Ymin（ｉ） Ymax（ｉ）を抽出する。この４個の数値か
ら輪郭ｉの外接長方形が求まる。300,400,500はそれぞ
れ構文解析処理の初期化、本体、終了判定である。

300ではメモリ64に格納されている書式データを作業用
メモリ67に複写し、各種テーブルやプログラム内部変数
の初期化を行う。

構文解析処理の本体400は、410〜460から構成される。4
10は、420〜450の処理を460で終了判定が行われるまで
繰り返し行うように制御する。420では書式データ中の
ステートメントを取り出す。処理未了ステートメントと
は、その中に含まれる変数で値の定まつていないものが
あるか、または対応する文書領域がまだ決定されていな
いような行を指す。430は、処理未了ステートメントが
残つていない場合は440の処理をスキツプする判定であ
る。この場合には終了判定が行われることになる。420
で取り出したステートメントが処理未了ステートメント
の場合、440の処理が行われる。440は、ステートメント
の種類を判定して分岐する部分で、ステートメトの種類
に応じて処理の内容が変化する。第14,15図及び以下の
説明では、formステートメント、すなわち（form F0 （?Xmin ?Xmax ?Ymin ?Ymax）（shrink ?X ?Y））の場合についてのみ述べるが、他のステートメントでも
同様にそのステートメント特有の処理が行われる。

第15図441〜448は述語formを処理する部分である。441
では書式名称F0が登録済みか否かを調べ、未登録ならば
442で書式テーブルにF0を登録する。442では、変数名?X
min、?Xmax、?Ymin、?Ymax、?X、?Yの位置に書かれた文
字列が変数か数値か、変数なら登録済みか否かを調べ、
未登録ならこれらを変数表に登録する。変数が登録済み
ならばその値が確定しているか否かを調べ、確定してい
なければform処理は終了する（この場合このステートメ
ントは処理未終了となる）。確定していれば、ステート
メント中の変数名を上記の数値で書き換える。

具体例として、 ?Xmin＝０、?Xmax＝90、 ?Ymin、?Ymax:未登録 ?X ＝５、?Y ＝５、のとき、前記のステートメントは（form F0 （0 90 ?Ymin ?Ymax）（shrink 5 5））と書き換えられ、変数?Xmin、?Ymaxが変数テーブルに登
録されて、値未確定となる。

443で、ステートメント中の変数名が全て数値に書き換
えられているか否かにより分岐し、全て数値に書き換え
られていたとき、444のform実行処理を行う。form実行
処理の詳細は445〜448で表される。445は、200で抽出さ
れた輪郭ｉについて以下の処理を繰り返すことを示す。
446では、輪郭ｉのＸ座標及びＹ座標の最小値と最大値 Xmin（ｉ） Xmax（ｉ） Ymin（ｉ） Ymax（ｉ）をステートメント中の変数 ?Xmin ?Xmax ?Ymin ?Ymax ?X ?Y に対応する数値と比較し ?Xmin＜Xmin（ｉ）＜Xmax（ｉ）＜?Xmax ?Ymin＜Ymin（ｉ）＜Ymax（ｉ）＜?Ymax ?X ＜Xmax（ｉ）−Xmin（ｉ） ?Y ＜Ymax（ｉ）−Ymin（ｉ）が成立する輪郭か否かを判定する。447では、上記の条
件が成立したとき、その輪郭ｉをF0の成分テーブルに登
録する。448では、上記の条件が成立する輪郭が存在し
ないとき、解析失敗のフラグを立てる。

以上説明したように441〜448の処理により、書式データ
中のステートメントformに対応する構造が入力画像に存
在することを検出できる。form以外のステートメントに
ついても同様である。formの場合には出力データはない
が、ステートメントによつては、ステートメント中の変
数に解析時に求めたパラメータを代入するものもあり、
その結果が他のステートメントで用いられる。

450では、解析失敗フラグを調べ、解析が失敗したとき
後戻りして再試行する。この場合、解析済みのステート
メントに戻つてパラメータを代入した変数をまた以前の
状態に書き直し、別の可能性を探索するように制御す
る。

460では、解析失敗フラグが立つていないか、あるいは
後戻り再試行の後解析失敗フラグがあるかを検出し、終
了判定を行う。

500は解析の結果得られたデータを外部に受け渡す部分
である。外部に受け渡すデータとしては、書式名称に対
応して検出した矩形領域の文書上での座標などがある。

解析失敗フラグを立てる指定のあるステートメントで解
析が失敗したとき、この文書は理解不能であり、このと
きはリジエクト処理を行う。たとえば文書理解の最終結
果あるいは中間結果をコンソール11に表示し、マンマシ
ン的に修正する。

次に、form実行処理の内容を第16図に用いて具体的に説
明する。第16図（Ａ）は画像中にノイズ成分や文字1,A,
2,B成分が存在している場合を示す。

（Ｂ）は、formステートメントの実行時のパラメータ
が、（form F（20 80 10 50）（shrink 0 0））（Ｃ）は、formステートメントの実行時のパラメータ
が、（form F（20 80 10 50）（shrink 5 5））の場合である。図に示すように書式Ｆの成分テーブルに
は、（Ｂ）の場合、ノイズ成分と、文字1,A成分が登録
され、（Ｃ）の場合、文字1,A成分は登録されるが、ノ
イズ成分はshrink指定によつて登録されず、除去され
る。また、書式Ｆの矩形領域がformの実行後、図のよう
に、領域内に含まれる文字成分によつて領域を正規化す
ることができ、画像の内容に応じて領域の大きさを柔軟
に特定することができる。

第17図に、上記form実行時の輪郭成分の選択方法を、具
体的に説明する。第17図（Ａ）は、第16図（Ａ）に示す
輪郭画像を第14図200によつて処理した結果の外接長方
形を示す。すなわち、５はノイズ成分、１−８は文字成
分、さらに６−８は所謂内輪郭である。これらの成分の
Xmin,Xmax,Ymin,Ymaxを（Ｂ）に示す。そして書式Ｆに
含まれるか否かは 20＜Xmin（ｉ）＜Xmax（ｉ）＜80 10＜Ymin（ｉ）＜Ymax（ｉ）＜50 5＜Xmax（ｉ）−Xmin（ｉ） 5＜Ymax（ｉ）−Ymin（ｉ）が成立するかどうかをもつて判定する。この例では、輪
郭ｉ＝１と３が成立する。３の文字成分は６の成分を含
んでいるから書式Ｆから除いてもよい。

次に構文解析処理の終了結果から画像を再配置して表示
するための画像処理の詳細を述べる。第18図は部分画像
を配置する場合の概要を図示したものである。ABCDなる
文字コード情報から対応する画像パターンを（２）に示
すように配置する。この例では文字パターンの幅をＷ、
高さをＨ、文字の間隔をＳとした。そして（２）に示す
ように書式２で定義される書式３に（１）の部分画像を
転送する。この縮尺は前述したように書式の矩形領域の
比率によつて決める。また、画像を転送する機能として
縮小、拡大、回転、アフイン変換などをふくんでもよ
い。文字パターンは第19図（１）（２）図に示すような
輪郭データまたは画素データとして格納しておく。第20
図は第19図（１）で表わした輪郭データの特徴を記述し
た図である。（１）はそれぞれの折れ曲がり点をフラグ
と点列で記述している。フラグは外輪郭か内輪郭かを示
すもので、この場合１が外輪郭２が内輪郭である。さら
に点列は（２）に示すように番号とＸ座標、Ｙ座標で記
述される。本実施例では説明の簡素化のため直線要素か
ら構成される輪郭データを取り上げて入るが、もちろん
２次関数やスプライン関数などの数学的関数で表現して
もよい。輪郭データで画像を表現することによつて縮
小、拡大、回転、アフイン変換などの処理が、画素デー
タで表現する場合に比べて容易になる利点がある。従つ
て、文字パターンのように数多くの大きさをもつフオン
トや変形した字体の作成にも使用できる。第21図で矩形
領域で記述する書式について説明する。（１），（２）
は図のような部分画像が、（form G−ABC（20 80 10 50）（free Y））（form G−123（20 80 50 60）（free X））によつて（３）に示す書式を持つた画像をえることがで
きる。freeは第12図に説明した画像の転送時の配置を制
御するパラメータである。この例では（free Y）と指定
された場合Ｙ方向の比率がｘ＝ｙとなるように、また
（free X）は前記においてＹ軸がＸ軸におきかえたもの
である。図22図は配置した部分画像を一つの部分画像と
みなして再び配置する様子を示す。（Ａ），（Ｂ）は次
の書式（１）（２）で記述される。

（defform G−ABC−123 （width 100）（height 60）（form G−ABC（20 80 10 50）（free Y））（form G−123（20 80 50 60）（free X）） ………（１）（defform G （width 100）（height 80）（form G−ABC−123（0 80 0 60））（form G−ABC−123（50 100 50 80）））………（２）（２）では（１）で定義した書式Ｇ−ABC−123が２回縮
尺比を変えて配置されている。書式Ｇ−ABC−123はその
書式の大きさが100×60（横長さをwidthで、縦長さをhe
ightで表現している。）そしてこの書式の（20 80 10 5
0）の領域にＧ−ABCがあり、（20 80 50 60）の領域に
Ｇ−123が存在することを示す。ここで作成した書式を
使つて書式Ｇを定義する。（２）では書式ＧにＧ−ABC
−123が（0 80 0 60）と（50 100 50 80）の領域に存在
することを示す。

以上の処理方式によつて画像を任意の書式に従つて配置
することができる。第23図は同一の書式の文書が複数存
在した場合、ページ毎に文書の内容を理解した様子を示
す。そして第24図に示す書式に従つて再び配置すること
によつて第25図に示すような抄録を作成することが可能
になる。この方法を詳細に説明する。第23図は文書の書
式がF,F1,F11,F12,F2,F3であり、書式F11に対応したpag
e毎の文字列が抽出される。第24図は出力用の画像の書
式Ｇを表現したものである。タイトルの欄はG1,G2,G3で
構成する。これの内容はpage毎にG1（page i）,G2（pag
e i）,G3（page i）（ｉはpage数を示す）である。第25
図は再び配置する書式毎の部分画像を示す。これらの部
分画像を第22図に説明したような方法でメモリ65の書式
データに従つて配置すればよい。

〔発明の効果〕

以上説明したごとく、本発明によれば入力した対象文書
の解析を自動的に行うことが可能であり、任意のレイア
ウトで出力することが可能になる。さらに、対象となる
文書を記述する書式データと、出力する文書の書式を記
述する書式データを同一の表現形式にすることができる
ため、多種多様な書式に容易に対応できる。また、対応
文書の構造が変化しても書式データを変更すれば、直ち
に対応できるなどの利点がある。

【図面の簡単な説明】

第1,2図は入力文書の一例を示す図、第３図は出力文書
の一例を示す図、第4,5,6,7,8,9,10,11,12図は本発明の
原理を説明するための説明図、第13図は本発明の文書処
理方式を実施する装置の構成を示すブロツク図、第14,1
5図は第13図中の制御部２における処理を説明するため
の流れ図、第16,17,18,19,20,21,22図は第10図の処理内
容を説明するための説明図、第23,25図は文書の抄録作
成に応用した場合の図、第24図は出力用の画像の書式を
示す図である。１……バス、２……制御部、３……文書、４……スキヤ
ナ、５……入力部、６……メモリ、７……文字・図形認
識部、8,9……フアイル、10……画像出力部、11……コ
ンソール。

───────────────────────────────────────────────────── フロントページの続き (72)発明者上田博唯東京都国分寺市東恋ヶ窪１丁目280番地株式会社日立製作所中央研究所内 (72)発明者柏岡誠治東京都国分寺市東恋ヶ窪１丁目280番地株式会社日立製作所中央研究所内

Claims

【特許請求の範囲】

【請求項１】ほぼ定形化された文書を処理対象とし、文
書をイメージとして取り込んでレイアウトを再配置した
画像を出力する処理装置であり、未知文書をイメージとして入力し、ディジタル画像に変
換する変換手段、画像を複数個の矩形領域の集合として記述する表記法で
各矩形領域の配置と大きさを表現し、もって、上記処理
対象とすべき文書に共通の書式を規定した第１の書式デ
ータをあらかじめ保持する第１の記憶領域と、出力すべ
き画像のレイアウトを上記表記法で規定した第２の書式
データをあらかじめ保持する第２の記憶領域と、上記デ
ィジタル画像を保持する第３の記憶領域と、上記出力す
べき画像が格納される第４の記憶領域とを少なくとも有
する記憶手段、上記第１の記憶領域の第１の書式データを参照して該第
１の書式データに記された各矩形領域に対応する領域を
上記第３の記憶領域の上記ディジタル画像上で探索し、
もって上記未知文書の書式の各書式要素に対応する部分
画像の存在領域をそれぞれ特定する構造解析処理と、該
構造解析処理で特定された存在領域を用いて上記第２の
書式データに記された各書式要素に対応する部分画像を
上記第３の記憶領域からそれぞれ切り出し、該部分画像
を上記第４の記憶領域の中の上記第２の書式データで規
定される位置に転送する画像処理とを実行する制御部、
及び上記第４の記憶領域に蓄積された部分画像の集合を表示
する画像出力部を有することを特徴とする文書画像の処
理装置。