[go: up one dir, main page]

JPH11203305A - 文書画像処理方法および記録媒体 - Google Patents

文書画像処理方法および記録媒体

Info

Publication number
JPH11203305A
JPH11203305A JP10004225A JP422598A JPH11203305A JP H11203305 A JPH11203305 A JP H11203305A JP 10004225 A JP10004225 A JP 10004225A JP 422598 A JP422598 A JP 422598A JP H11203305 A JPH11203305 A JP H11203305A
Authority
JP
Japan
Prior art keywords
document image
key
areas
elements
area
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP10004225A
Other languages
English (en)
Inventor
Takashi Saito
高志 齋藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP10004225A priority Critical patent/JPH11203305A/ja
Publication of JPH11203305A publication Critical patent/JPH11203305A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Processing Or Creating Images (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 文書画像中から内容把握に役立つ部分(キー
領域)を自動的に抽出しつつ、かつ抽出数を適当な数に
絞る。 【解決手段】 領域分割/レイアウト情報抽出手段10
2は、入力された文書画像を文字領域と、図や表や罫線
等の要素に分割し、段組種類や段組などのレイアウト情
報を抽出する。行抽出手段103は、文字領域から行を
抽出し、フォント識別手段104は、各行単位でフォン
ト識別を行う。キー領域判別手段105は、レイアウト
表現上の特徴を基に文書内容を端的に表わすキー領域を
抽出し、抽出したキー領域の総数を調べ、閾値以上ある
ときは削減し適当な数に絞る。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、文書画像中から内
容把握に役立つ領域を自動的に抽出する文書画像処理方
法および記録媒体に関する。
【0002】
【従来の技術】近年、計算機、デジタル機器の能力向上
やハードディスク等のデータ蓄積装置の能力向上によっ
て文書画像の流通機会が飛躍的に増大した。しかし文書
画像はデータ量が多く、このため処理速度が要求される
場合やネットワークを通じて画像データを交換する場合
などにネックとなってきた。
【0003】一般に、大量に蓄積された文書画像を閲覧
する場合には、その全ての画像について、蓄積された高
画質な画像状態で見る必要はなく、取敢えず内容の確認
が可能であれば十分な場合が多い。もちろん、キーワー
ド検索等が行える方が画像を扱うより、はるかに高速に
処理できる。しかし適切なキーワードを入力することは
難しい。蓄積された画像内容を一度も見たことがないよ
うな場合は、より一層困難である。
【0004】そこで、光ファイリング装置等において
は、縮小した画像をインデックス画像として原画像とは
別に保持し、まずそのインデックス画像を利用者に提示
することによって、処理するデータ量の軽減化を図って
いる。しかし、単に画像全体を縮小した場合には、全体
の感じはつかめても画像中の文字を読むことは難しく、
特に、似たようなレイアウトの文書が多い場合には、所
望の文書を選択することは難しい。
【0005】このような問題を解決するものとして、特
開平5−342326号公報に記載された文書処理装置
がある。この装置では、文書画像を領域分割し、分割さ
れた要素に対して、論理モデルに従って論理識別子を付
与し、必要とする論理要素だけを識別子をキーにして抽
出し、それを見やすく再配置する。また、部分的にOC
Rを使用することによって、抽出した情報のソ−ティン
グなども行う。
【0006】
【発明が解決しようとする課題】しかし、上記した文書
処理方法では、予め入力される文書画像のレイアウト構
成および論理構成を把握して、該当するモデルを作成す
る必要がある。モデルに従って文書が構成されていて、
領域分割部が完璧であれば精度よく処理できるが、実際
にはそうでない場合が多く、モデルの適用範囲が限定さ
れてしまう。また、論理モデルの作成には相当の熟達が
必要であることから、上記した処理方法では、新規文書
群の内容把握のために部分画像(キー領域)の抽出を行
うことが非常に難しい。
【0007】上記した問題を解決する他の方法として、
例えば、特開平5−242142号公報および本出願人
が先に提案した特願平8−110808号がある。これ
らの方法は、レイアウト構成および論理構成を把握して
該当するモデルを作成する必要はなく、前掲した特開平
5−342326号の方法よりも柔軟である。
【0008】つまり、特開平5−242142号公報に
記載された、文書画像の復号なしに文書を要約するため
の方法おいては、言語的基準(「重要な」、「意味のあ
る」などの単語)、文書内の位置や形態的画像特性(字
体、字種など)によって重要度、つまり意味的に重要な
画像単位を判定している。しかし、この方法においては
画像単位(領域)の「重要性」を判断することができて
も、それが画像全体でどの程度の量になるのかを制御し
ていない。頻度情報を利用することにより、重要相当領
域の数の総数を制御することも可能であるが、日本文に
おいては出現頻度が低くても「キー領域」に相当する場
合が多いことから、頻度だけで制御することは難しい。
【0009】また、特願平8−110808号で提案し
た方法は、文書画像を複数の要素に分割し、分割された
各要素のレイアウト上の特徴(本文とは異なる強調処理
された部分)を基に該要素が前記文書内容を端的に表す
領域であるか否かを判定し、該領域を部分画像として抽
出する方法であるが、この方法においても、やはり当該
領域の「重要性」を判断できても、それが画像全体でど
の程度の量になるのかを制御していない。
【0010】本発明は上記した事情を考慮してなされた
もので、本発明の目的は、文書画像中から内容把握に役
立つ部分(キー領域)を自動的に抽出することができ、
また抽出数も適当な数に絞ることができる文書画像処理
方法および記録媒体を提供することにある。
【0011】
【課題を解決するための手段】前記目的を達成するため
に、請求項1記載の発明では、文書画像を複数の要素に
分割し、分割された各要素のレイアウト表現上の特徴を
基に該要素が前記文書画像の内容を端的に表わす領域
(以下、キー領域)であるか否かを判別する文書画像処
理方法であって、前記判別されたキー領域の数を調べ、
該キー領域数を最適な数に削減することを特徴としてい
る。
【0012】請求項2記載の発明では、前記判別された
キー領域の数が所定の閾値以上であるとき、該キー領域
数を削減することを特徴としている。
【0013】請求項3記載の発明では、前記判別された
キー領域の数を、ページ内の全行数と比べたときの比率
が所定の閾値以上であるとき、該キー領域数を削減する
ことを特徴としている。
【0014】請求項4記載の発明では、前記レイアウト
表現上の特徴に優先順位を付け、優先度の低い特徴を基
に判別されたキ−領域から順に削減することを特徴とし
ている。
【0015】請求項5記載の発明では、同一の特徴を持
つキー領域に同じラベルを付与し、各ラベル毎のキー領
域数を計数し、該ラベル毎の計数に応じてキー領域を削
減することを特徴としている。
【0016】請求項6記載の発明では、文書画像を複数
の要素に分割し、分割された各要素のレイアウト表現上
の特徴を基に該要素が前記文書画像の内容を端的に表わ
す領域(以下、キー領域)であるか否かを判別する文書
画像処理方法であって、前記文書画像のページ全体の段
組構成を判別し、判別された段組構成に応じて、前記キ
ー領域の判別に使用するレイアウト表現上の特徴を選択
することを特徴としている。
【0017】請求項7記載の発明では、文書画像を複数
の要素に分割し、分割された各要素のレイアウト表現上
の特徴を基に該要素が前記文書画像の内容を端的に表わ
す領域(以下、キー領域)であるか否かを判別する文書
画像処理方法であって、前記判別されたキー領域の数を
調べ、該キー領域数を削減する必要があるとき、前記判
別に使用したレイアウト表現上の特徴の内、一ないし複
数の特徴を除いた特徴を用いて再度、キー領域を判別す
ることを特徴としている。
【0018】請求項8記載の発明では、文書画像を複数
の要素に分割する機能と、分割された各要素のレイアウ
ト表現上の特徴を基に該要素が前記文書画像の内容を端
的に表わす領域(以下、キー領域)であるか否かを判別
する機能をコンピュータに実現させるためのプログラム
を記録したコンピュータ読み取り可能な記録媒体であっ
て、前記判別されたキー領域の数を調べる機能と、該キ
ー領域数を最適な数に削減する機能をコンピュータに実
現させるためのプログラムを記録したコンピュータ読み
取り可能な記録媒体であることを特徴としている。
【0019】
【発明の実施の形態】以下、本発明の一実施例を図面を
用いて具体的に説明する。 〈実施例1〉図1は、本発明の実施例の構成を示す。図
において、101は画像の入力手段、102は文書画像
を要素に分割し、また段組などのレイアウト情報を抽出
する領域分割/レイアウト情報抽出手段、103は各文
字領域において行を抽出する行抽出手段、104はフォ
ント識別手段、105は領域分割/レイアウト情報抽出
手段102および行抽出手段103で抽出した情報か
ら、文書画像の内容を端的に表わす領域(キー領域)を
判別するキー領域判別手段、106は入力された画像や
処理中の各種情報を蓄積するデータ記憶部、107は全
体を制御する制御部、108はデータ通信路である。
【0020】図2は、本発明の処理フローチャートを示
す。以下、図2に従って本発明を説明する。まず、画像
入力手段101によって文書画像を得る(ステップ20
1)。この画像入力手段はスキャナやファックスであ
り、あるいはネットワーク経由で別の機器から画像を得
る手段でもよい。
【0021】次に、領域分割/レイアウト情報抽出手段
102は、入力された文書画像を文字領域と、図や表や
罫線等の要素に分割すると同時に、段組種類や段組など
のレイアウト情報を抽出する(ステップ202)。この
ような領域分割方法としては例えば、特開平6−200
92号公報に記載された公知技術を用いればよい。ま
た、レイアウト情報の抽出方法としては例えば、特開平
9−44594号公報に記載された公知技術を用いれば
よい。抽出した領域は、属性として要素の種類(文字領
域、表など)と、その位置(領域の外接矩形)などを持
ち、また画像全体として段組種類や段組分割線などのレ
イアウト情報を持つ。
【0022】行抽出手段103は、抽出した文字領域か
ら行を抽出する(ステップ203)。この行抽出方法と
しては、例えば電子通信学会論文「周辺分布、綿密度、
外接矩形特徴を利用した文書画像の領域分割」(秋山
他、1986年8月、Vol.J69−DNo.8)に
記載された技術を用いればよい。
【0023】さらに、フォント識別手段104は、各行
単位または各行に含まれる文字単位でフォント識別を行
う(ステップ204)。このフォント識別方法としては
例えば、特開平6−208649号公報に記載の方法を
用いればよい。
【0024】領域などのレイアウト情報、行情報、フォ
ント情報が抽出されると、キー領域判別手段105はキ
ー領域の判別を行う(ステップ205)。ここで、キー
領域とは文書の内容を把握するのに役立つ部分である。
一般的に、そのような部分は何らかの方法で強調が施さ
れている。例えば、大きな文字や強調系のフォントを使
用したり、あるいは他の部分とは独立させたり、枠で囲
むなどの処理が施されている。ここでは、先の特願平8
−110808号で提案した、文書のレイアウト表現上
の特徴を用いてキー領域を判別する、文書画像処理方法
を利用する。
【0025】図3は、キー領域判別処理の詳細な処理フ
ローチャートである。まず、各単位(ここでは行)毎に
レイアウト表現上の強調処理を調べてキー領域を抽出す
る(ステップ301)。
【0026】すなわち、上記出願で提案したキー領域抽
出処理では、まず、各行の文字サイズ特徴(大文字行、
中文字行、普通文字行)を検出し、次いでフォント特徴
(黒画素密度などを基に強調系のフォントであるか否
か)を検出し、タイトル部(文字サイズが大きく、独立
した領域)の検出を行う。続いて、小見出し部(例え
ば、中文字行で、行数が所定数未満の領域)を検出し、
書誌事項を検出し、最後に、囲み枠が存在する場合に、
囲み枠内の文章は別記事である場合が多く、内容把握に
役立つので、枠内の行を先頭から数行抽出する。
【0027】以上の処理によって求められた、例えば
「タイトル領域」、「フォント強調領域」、「小見出し
領域および行」、「書誌事項」、「囲み枠先頭行」など
がキー領域となる。
【0028】各単位(ここでは行)毎にレイアウト表現
上の強調処理を調べることによりキー領域を抽出した
ら、抽出したキー領域の総数を調べる(ステップ30
2)。ところで、キー領域は文書画像の要約効果を狙っ
たものであるので、あまり多くの行をキー領域として抽
出した場合にはその効果が半減してしまう。そこで、本
発明では、抽出したキー領域の総数を調べ、所定の条件
を満たす場合にキー領域の削減を図る。この条件として
は、抽出総数が所定のしきい値以上である場合、あるい
は抽出したキー領域の数の、ページ内の全行数に対する
比率が所定のしきい値以上である場合、などがある。こ
れらの条件はOR条件でもAND条件としてもよい。
【0029】キー領域の削減処理(ステップ303)は
次のように行う。図4は、ステップ303の詳細の処理
フローチャートである。まず、キー領域として判別され
たということは、何らかの表現上の強調処理があること
を示している。つまり、強調系のフォントが使用されて
いる場合であり、あるいはインデントや文字サイズで小
見出しであると判断された場合などである。そこで、ス
テップ301の処理において、同一の特徴を持つキー領
域と判断されたものに対して同じラベルを付与してお
く。図5は、ラベリングの様子を示す。そして、このラ
ベル毎にキー領域の数を数える。
【0030】全体としてキー領域の数が多すぎると判定
された場合に、削減対象を決定する。その決定方法とし
ては、 (1)あらかじめ決められた強調特徴の優先順位による (2)同ーラベルで数の多いものから削減していく などの方法がある。
【0031】(1)の方法は、図5の例では、タイトル
相当>小見出し相当>フォント強調という優先度をあら
かじめ決めておくことにより、まず最も優先度が低いフ
ォント強調のみのキー領域を削減し、それでもまだキー
領域数が多い場合には小見出し相当のキー領域を削減す
るものである。また、複数の強調特徴を持つ場合は(例
えば、小見出し相当かつフォント強調)、優先度の高い
特徴単体と同等またはそれよりも優先度を高くする。
【0032】(2)の方法は、図5の例では、最も同一
ラベルの多いもの(=フォント強調)から削減してい
き、キー領域が十分な数になるまでこれを繰り返すもの
である。
【0033】〈実施例2〉本実施例の構成は図1と同じ
であり、また全体の処理の流れも図2で表されるが、ス
テップ205のキー領域判別処理の処理内容が実施例1
と異なる。
【0034】ステップ202において、例えば特開平9
−44594号に記載の技術(文書画像から文字列を含
む、複数の小領域を抽出し、複数の小領域から空白部ま
たは罫線を検出し、検出された空白部または罫線を基
に、1段組、複数段組、自由段組を含む段組種類を判別
する段組種類判別方法)を使用することにより、ページ
全体の段組構成が判別される。ここで、例えば全体が1
段組であると判別された場合を例にして説明する。1段
組みの書類としては通達文などがあり、通達文ではイン
デントが多用される傾向がある。また、特に重要でない
部分に強調系のゴシック系フォントが使用されることが
ある。
【0035】したがって、1段組であって図6のような
深いインデントがある場合には、ステップ205の処理
では、インデント特徴をキー領域判別に使用しない、あ
るいは特徴としての重みを低くし、またはフォント情報
を使用しない、といった処理をする。
【0036】このように、ページ全体の段組構成によっ
てキー領域判定に使用する特徴の重み付けを変えること
で、より最適なキー領域が抽出される。
【0037】〈実施例3〉実施例3の構成は図1と同じ
であり、全体の処理の流れも図2で表される。相違点は
ステップ205のキー領域判別処理の処理内容にある。
【0038】図7は、実施例3に係るステップ205の
詳細の処理フローチャートである。実施例1と同様に、
一度、キー領域を抽出し(ステップ701)、実施例1
と同様に、その数について判定し(ステップ702)、
もし削減する必要がある場合(該当する領域が多すぎる
場合)は、一ないし複数の特徴をキー領域抽出に使用せ
ずに、再度、キー領域の抽出処理を行う(ステップ70
3)。ステップ702および703は再帰的に行っても
よい。
【0039】〈実施例4〉本発明は上記した実施例に限
定されず、ソフトウエアによっても実現することができ
る。本発明をソフトウエアによって実現する場合には、
図8に示すように、CPU、メモリ、表示装置、ハード
ディスク、キーボード、CD‐ROMドライブ、マウス
などからなるコンピュータシステムを用意する。CD−
ROMなどのコンピュータ読み取り可能な記録媒体に
は、本発明の文書画像処理機能や処理手順を実現するプ
ログラムなどが記録されている。また、処理対象の文書
画像は例えばハードディスクなどに格納されている。そ
して、CPUは、記録媒体から上記した処理機能、処理
手順を実現するプログラムを読み出し、ハードディスク
などから読み込まれた文書画像からキー領域を抽出処理
し、キー領域数が過剰である場合にはその数を最適な数
に絞り、その結果をディスプレイなどに色を変えるなど
して出力する。
【0040】
【発明の効果】以上、説明したように、請求項1、2、
3、8記載の発明によれば、文書画像の内容把握に役立
つ領域が過剰に抽出されたとき、その領域数を削減して
いるので、最適な量だけ得ることができる。
【0041】請求項4、5記載の発明によれば、削減対
象を考慮しているので、文書画像の内容把握に役立つ領
域を、適当な量だけ得ることができる。
【0042】請求項6記載の発明によれば、文書画像の
内容把握に役立つ領域を、ページ全体の段組構成に応じ
て適当な量だけ得ることができる。
【0043】請求項7記載の発明によれば、文書画像の
内容把握に役立つ領域が過剰に抽出されたとき、異なる
特徴を用いて再度、キー領域を判別処理しているので、
内容を端的に表わす領域を最適な量だけ求めることがで
きる。
【図面の簡単な説明】
【図1】本発明の実施例の構成を示す。
【図2】本発明の処理フローチャートを示す。
【図3】キー領域判別処理の詳細な処理フローチャート
である。
【図4】ステップ303(キー領域削減処理)の詳細の
処理フローチャートである。
【図5】キー領域に対するラベリングの様子を示す。
【図6】深いインデントの例を示す。
【図7】他の実施例におけるステップ205(キー領域
判別処理)の詳細な処理フローチャートである。
【図8】本発明をソフトウェアによって実現する場合の
構成例を示す。
【符号の説明】
101 画像入力手段 102 領域分割/レイアウト情報抽出手段 103 行抽出手段 104 フォント識別手段 105 キー領域判別手段 106 データ記憶部 107 制御部 108 データ通信路

Claims (8)

    【特許請求の範囲】
  1. 【請求項1】 文書画像を複数の要素に分割し、分割さ
    れた各要素のレイアウト表現上の特徴を基に該要素が前
    記文書画像の内容を端的に表わす領域(以下、キー領
    域)であるか否かを判別する文書画像処理方法であっ
    て、前記判別されたキー領域の数を調べ、該キー領域数
    を最適な数に削減することを特徴とする文書画像処理方
    法。
  2. 【請求項2】 前記判別されたキー領域の数が所定の閾
    値以上であるとき、該キー領域数を削減することを特徴
    とする請求項1記載の文書画像処理方法。
  3. 【請求項3】 前記判別されたキー領域の数を、ページ
    内の全行数と比べたときの比率が所定の閾値以上である
    とき、該キー領域数を削減することを特徴とする請求項
    1記載の文書画像処理方法。
  4. 【請求項4】 前記レイアウト表現上の特徴に優先順位
    を付け、優先度の低い特徴を基に判別されたキ−領域か
    ら順に削減することを特徴とする請求項1記載の文書画
    像処理方法。
  5. 【請求項5】 同一の特徴を持つキー領域に同じラベル
    を付与し、各ラベル毎のキー領域数を計数し、該ラベル
    毎の計数に応じてキー領域を削減することを特徴とする
    請求項1記載の文書画像処理方法。
  6. 【請求項6】 文書画像を複数の要素に分割し、分割さ
    れた各要素のレイアウト表現上の特徴を基に該要素が前
    記文書画像の内容を端的に表わす領域(以下、キー領
    域)であるか否かを判別する文書画像処理方法であっ
    て、前記文書画像のページ全体の段組構成を判別し、判
    別された段組構成に応じて、前記キー領域の判別に使用
    するレイアウト表現上の特徴を選択することを特徴とす
    る文書画像処理方法。
  7. 【請求項7】 文書画像を複数の要素に分割し、分割さ
    れた各要素のレイアウト表現上の特徴を基に該要素が前
    記文書画像の内容を端的に表わす領域(以下、キー領
    域)であるか否かを判別する文書画像処理方法であっ
    て、前記判別されたキー領域の数を調べ、該キー領域数
    を削減する必要があるとき、前記判別に使用したレイア
    ウト表現上の特徴の内、一ないし複数の特徴を除いた特
    徴を用いて再度、キー領域を判別することを特徴とする
    文書画像処理方法。
  8. 【請求項8】 文書画像を複数の要素に分割する機能
    と、分割された各要素のレイアウト表現上の特徴を基に
    該要素が前記文書画像の内容を端的に表わす領域(以
    下、キー領域)であるか否かを判別する機能をコンピュ
    ータに実現させるためのプログラムを記録したコンピュ
    ータ読み取り可能な記録媒体であって、前記判別された
    キー領域の数を調べる機能と、該キー領域数を最適な数
    に削減する機能をコンピュータに実現させるためのプロ
    グラムを記録したコンピュータ読み取り可能な記録媒
    体。
JP10004225A 1998-01-12 1998-01-12 文書画像処理方法および記録媒体 Pending JPH11203305A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP10004225A JPH11203305A (ja) 1998-01-12 1998-01-12 文書画像処理方法および記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP10004225A JPH11203305A (ja) 1998-01-12 1998-01-12 文書画像処理方法および記録媒体

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2004303582A Division JP2005032280A (ja) 2004-10-18 2004-10-18 キー領域抽出処理方法

Publications (1)

Publication Number Publication Date
JPH11203305A true JPH11203305A (ja) 1999-07-30

Family

ID=11578653

Family Applications (1)

Application Number Title Priority Date Filing Date
JP10004225A Pending JPH11203305A (ja) 1998-01-12 1998-01-12 文書画像処理方法および記録媒体

Country Status (1)

Country Link
JP (1) JPH11203305A (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6728403B1 (en) 2000-01-21 2004-04-27 Electronics And Telecommunications Research Institute Method for analyzing structure of a treatise type of document image
JP2006179003A (ja) * 2004-12-22 2006-07-06 Ricoh Co Ltd 意味論的文書スマートネール
JP2006350959A (ja) * 2005-06-20 2006-12-28 Fuji Xerox Co Ltd 画像処理装置、画像処理方法及び画像処理プログラム
JP2007226769A (ja) * 2006-01-24 2007-09-06 Ricoh Co Ltd 情報管理装置、情報管理方法、情報管理プログラム、記録媒体及び情報管理システム
US7676089B2 (en) 2005-03-08 2010-03-09 Ricoh Company, Ltd. Document layout analysis with control of non-character area
JP2019016350A (ja) * 2017-06-30 2019-01-31 コニカ ミノルタ ラボラトリー ユー.エス.エー.,インコーポレイテッド 電子文書における強調テキストの識別

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05342326A (ja) * 1992-06-09 1993-12-24 Fuji Xerox Co Ltd 文書処理装置
JPH09134406A (ja) * 1995-09-06 1997-05-20 Fujitsu Ltd 文書画像からのタイトル抽出装置および方法
JPH09212505A (ja) * 1996-01-30 1997-08-15 Canon Inc 文書処理装置および方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05342326A (ja) * 1992-06-09 1993-12-24 Fuji Xerox Co Ltd 文書処理装置
JPH09134406A (ja) * 1995-09-06 1997-05-20 Fujitsu Ltd 文書画像からのタイトル抽出装置および方法
JPH09212505A (ja) * 1996-01-30 1997-08-15 Canon Inc 文書処理装置および方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6728403B1 (en) 2000-01-21 2004-04-27 Electronics And Telecommunications Research Institute Method for analyzing structure of a treatise type of document image
JP2006179003A (ja) * 2004-12-22 2006-07-06 Ricoh Co Ltd 意味論的文書スマートネール
US7676089B2 (en) 2005-03-08 2010-03-09 Ricoh Company, Ltd. Document layout analysis with control of non-character area
JP2006350959A (ja) * 2005-06-20 2006-12-28 Fuji Xerox Co Ltd 画像処理装置、画像処理方法及び画像処理プログラム
JP2007226769A (ja) * 2006-01-24 2007-09-06 Ricoh Co Ltd 情報管理装置、情報管理方法、情報管理プログラム、記録媒体及び情報管理システム
JP2019016350A (ja) * 2017-06-30 2019-01-31 コニカ ミノルタ ラボラトリー ユー.エス.エー.,インコーポレイテッド 電子文書における強調テキストの識別

Similar Documents

Publication Publication Date Title
US6336124B1 (en) Conversion data representing a document to other formats for manipulation and display
KR101394723B1 (ko) 문서 내의 목록들의 재구성
US5384863A (en) Methods and apparatus for automatic modification of semantically significant portions of a document without document image decoding
EP0544432A2 (en) Method and apparatus for document processing
US10572528B2 (en) System and method for automatic detection and clustering of articles using multimedia information
FI20176151A1 (en) A heuristic method for analyzing the contents of an electronic document
JPH04229364A (ja) 強調特性変更方法及びシステム
JP2004227227A (ja) 情報検索装置
JPH0765002A (ja) 文書処理装置
US5455871A (en) Detecting function words without converting a scanned document to character codes
US12488180B2 (en) Systems and methods for generating dialog trees
JP5950700B2 (ja) 画像処理装置、画像処理方法及びプログラム
JP3735336B2 (ja) 文書要約方法及びシステム
JPH11203305A (ja) 文書画像処理方法および記録媒体
CN120849531A (zh) 文档处理方法、装置、计算机设备、存储介质及程序产品
JPS60124782A (ja) 機械翻訳装置
JP3912463B2 (ja) 論理構造抽出装置及び論理構造抽出方法
JP4517818B2 (ja) 画像処理装置及びプログラム
JPH09319747A (ja) 文書画像の構造化方法
JP2005032280A (ja) キー領域抽出処理方法
JPH09297765A (ja) 文書画像処理方法
CN100444194C (zh) 文章标题及关联信息的自动抽取装置和抽取方法
WO2018061174A1 (ja) 電子書籍作成システム、電子書籍作成法及びプログラム
JP4013539B2 (ja) ディジタルコンテンツ作成システム、及びディジタルコンテンツ作成プログラム、並びにディジタルコンテンツ作成方法
Lee et al. Exploring the relationship between language and design: a study of Hong Kong newspapers

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040817

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20041018

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20041109

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20041209

A911 Transfer of reconsideration by examiner before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20050117

A912 Removal of reconsideration by examiner before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20050204

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080425