JP2008193580A - 情報処理装置 - Google Patents
情報処理装置 Download PDFInfo
- Publication number
- JP2008193580A JP2008193580A JP2007028037A JP2007028037A JP2008193580A JP 2008193580 A JP2008193580 A JP 2008193580A JP 2007028037 A JP2007028037 A JP 2007028037A JP 2007028037 A JP2007028037 A JP 2007028037A JP 2008193580 A JP2008193580 A JP 2008193580A
- Authority
- JP
- Japan
- Prior art keywords
- character
- information
- character recognition
- document
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Character Input (AREA)
- Character Discrimination (AREA)
- Facsimiles In General (AREA)
- Editing Of Facsimile Originals (AREA)
Abstract
【解決手段】原稿から文書画像を取得する画像読取部101と文字レイアウト情報を取得する文字レイアウト情報読取部104と、取得した文書画像に対して文字認識処理を実行してテキストデータを取得する文字認識部103と、取得したテキストデータを取得した文字レイアウト情報に基づいて再構成して復元電子データを取得する文字データ構成部109を備える。
【選択図】図1
Description
『複写』モードの場合は、読み出したフォントや配置に関する情報を再び、RFIDチップや印刷コードパターンに書き込むようにしてもよい。機械読み取り用データ記録手段が印刷コードパターンの場合は、一度復号したデータをまた符号化して印刷すれば、印刷コードパターンを劣化させずに複写できる。
通常の文字認識は、原稿を光学的に読み取った後で、文字認識処理が行われ、文字列情報を得る。本実施の形態では、テキストデータとは読み取り画像に対して、文字レイアウト情報に基づいて文字認識処理を施して得られたデータを意味する(後述する本発明の第3の実施の形態において同様である)。また、本実施の形態では、復元電子データとは、テキストデータを意味する。(後述する本発明の第3〜第7の実施の形態において同様である)。
本実施の形態では、文字レイアウト情報は、文字レイアウトデータが原稿に記録されている状態における情報を意味する。本実施の形態では、文字レイアウトデータは、文書データのうち文字列のデータ(テキストデータ)の、文字フォント情報(文字のフォントを示す情報)、文字サイズ情報(文字のサイズを示す情報)、文字書体情報(文字の書体を示す情報)、配置情報(文字列が配置されている位置を示す情報)、範囲情報(文字列の範囲を示す情報。この情報に含まれている範囲の文字列データは、文字フォント情報、文字サイズ情報、文字書体情報、配置情報、が共通するように設定しておけば、記録に要する容量を少なくできる。)、さらに、文字装飾情報(文字に施された装飾を示す情報、例えば、アンダーラインや取り消し線など)を含む。
フォントや文字の大きさを機械読み取り用データ記録手段に記録しておくのと同様に、アンダーラインや取り消し線を施す部分を、機械読み取り用データ記録手段に記録して印刷する。
原稿は、正しく文字認識されるものがほとんどであるが、中には、画数が多い文字や、似たような形の文字がある(数字の0とアルファベットのOや、ひらがなのへとカタカナのヘ、撤と撒など)などで、文字認識が出来なかったり、誤認識されたりする可能性の高い文字がある。
頻繁に文字の書体や大きさなどを変えたりする場合は、文字レイアウト情報が増えてしまい、文字レイアウト以外の情報をわずかしか記録できなくなる。そこで、図15のように、文字認識の難易度のリストを用意しておき、情報を埋め込んだ印刷コードパターンや、RFIDチップの記憶部の空き容量に応じて、文字認識が難しい順に、文字とその位置の情報を記録していく。例えば、ひらがなのヘべぺとカタカナのヘベペ、ひらがなのりとカタカナのリ、カタカナのタと漢字の夕などは、どの組み合わせも、誤認識される可能性が高い。しかし、その中でも、ひらがなのヘべぺとカタカナのヘベペが最も難しいので、文章中に、「へ」と「タ」が有る場合は、「へ」を優先して記録していく。機械読み取り用データ記録手段の容量が足りない場合は優先順位の低い文字(リストアップされた中では文字認識失敗の可能性が低い文字)については機械読み取り用データ記録手段への記録を行わないようにする。
本実施の形態での文字認識補助情報は、上記の第4の実施の形態の文字認識補助情報と異なる点はないが、文字認識部が記録している誤認識文字リストが異なる。文字認識部は、文字認識処理に際して誤認識の可能性がある文字を、フォント別に予めリスト化したリスト(誤認識文字リスト)を記録手段に記録しておく。文字認識部は、文書データが含む文字列データの文字とその文字のフォントとを取得して、フォント別に用意された誤認識文字リストにその文字が含まれるかをチェックし、誤認識文字リストに含まれる文字については、その文字コードと位置を文字認識補助情報して原稿に記録する。文字認識補助情報とは、原稿に記録される情報であり、文字認識処理において誤認識される可能性がある文字の文字コードと位置とを示す情報である。
本実施の形態での文字認識補助情報は、上記の第4、第6の実施の形態の文字認識補助情報と異なる点はないが、文字認識部が記録している誤認識文字リストが異なる。文字認識部は、文字認識処理に際して誤認識の可能性がある文字を、文字の装飾情報の有る無しに場合分けしてリスト化したリスト(誤認識文字リスト)を記録手段に記録しておく。文字認識部は、文書データが含む文字列データの文字とその文字の装飾情報とを取得して、装飾の有る無しに場合分けされて用意された誤認識文字リストにその文字が含まれるかをチェックし、誤認識文字リストに含まれる文字については、その文字コードと位置を文字認識補助情報して原稿に記録する。
図20のように、中央揃えの行があったり、左詰めの行が有ったりする書類も、印刷コードパターンやRFIDチップに配置情報のすべてを記録するのではなく、文字認識の際に、図21のように文字の配置から、空白部分を文字のスペースに置き換えて配置情報を検出する。特殊なレイアウトで無い限り、文字認識処理の文字抽出精度が得られれば、文字の配置から、原稿の文字レイアウト情報を得ることができる。
通常の複写のように、読み込んだ画像を文字認識すること無しに、そのまま印刷する複写モードと、読み込んだ画像を文字認識して、文字の部分の画像劣化が生じないように、文書データを構成して印刷するモードを用意しておき、ユーザーが選択できるようにする。
文字認識の失敗などにより紙を介して文書データを構成したデータと元データである読み取り画像が違う可能性があることを明確にするために、コピーしたことを示す情報を、複写印刷された場合は、表示部や、機械読み取り用の記録部に記録し、電子データとして保存される場合は、復元電子データのタグ情報として記録する。
印刷された文とは別に、余白部分に描き込まれた内容のみを抽出して、印刷したり、画像データとして蓄積したり転送したりするモードを備える。
図25のように、描き込まれたメモなどは隠しておきたい場合や、書き込みのないきれいな書類が欲しい場合のために、初めに印刷された形で複写するモードを備える。
102 画像処理部
103 文字認識部
104 文字レイアウト情報読取部
105 文字レイアウト情報復号部
106 書体・配置情報抽出部
107 書体・配置情報変換部
108 書体・配置情報記録部
109 文字データ構成部
110 画像データ構成部
111 データ記録部
112 記録媒体
113 データ転送部
114 データ受信部
115 印刷部
Claims (14)
- 原稿から文書画像及び文字レイアウト情報を取得する読取手段と、
前記読取手段で取得した文書画像に対して文字認識処理を実行してテキストデータを取得する文字認識処理手段と、
前記文字認識処理手段で取得したテキストデータを、前記文字レイアウト情報に基づいて再構成して復元電子データを取得する再構成手段と、
を備えることを特徴とする情報処理装置。 - 原稿から文書画像及び文字レイアウト情報を取得する読取手段と、
前記読取手段で取得した文書画像に対して前記読取手段で取得した文字レイアウト情報に基づいて文字認識処理を実行し、テキストデータを取得する文字認識処理手段と、
を備えることを特徴とする情報処理装置。 - 前記文字認識手段は、
前記読取手段で取得した文字レイアウト情報に基づいて文字のテンプレートを生成するテンプレート生成部と、
前記読取手段で取得した文書画像と前記テンプレート生成部にて生成されたテンプレートとを文字ごとに照合して、文字認識処理を行う文字認識処理部とからなることを特徴とする請求項2記載の情報処理装置。 - 前記文字認識手段はさらに、
前記読取手段で取得した文字レイアウト情報に基づいて前記文書画像から文字を切り出す文字分離部を含み、
前記文字認識部は、前記文字分離部で文書画像から切り出された文字と前記テンプレート生成部で生成されたテンプレートとを照合して、文字認識処理を行うことを特徴とする請求項3に記載の情報処理装置。 - 前記読取手段は、原稿から文書画像及び文字レイアウト情報に加えて、前記文書画像に含まれる所定の文字と該文字の前記原稿における位置を示す位置情報とが対応付けられた文字認識補助情報を取得し、
前記文字認識手段は、前記文字認識部における文字認識処理において、処理対象の文字の原稿における位置に基づいて前記文字認識補助情報を参照し、前記文字認識補助情報に前記位置に対応する情報が含まれる場合には、前記文字認識補助情報に含まれる該位置に対応する文字を文字認識処理結果に代えて出力することを特徴とする請求項3または4に記載の情報処理装置。 - 前記文字レイアウト情報は、文字のフォントを示す文字フォント情報と、文字のサイズを示す文字サイズ情報とを含むことを特徴とする請求項1乃至5のいずれか1項に記載の情報処理装置。
- 前記文字レイアウト情報はさらに、文字に施された修飾を示す文字修飾情報を含むことを特徴とする請求項6に記載の情報処理装置。
- 前記文字レイアウト情報はさらに、文字列の範囲を示す範囲情報を含むことを特徴とする請求項6または7に記載の情報処理装置。
- 前記文字認識補助情報に含まれる所定の文字は、前記文字認識処理部が誤認識する可能性がある文字であることを特徴とする請求項5に記載の情報処理装置。
- 前記文字認識処理部が誤認識する可能性がある文字は、文字のフォント又は文字に対する装飾の有無とに場合分けされて設定されることを特徴とする請求項5または9に記載の情報処理装置。
- 前記読取手段は、前記原稿を光学的にスキャンして、文書画像及び文字レイアウト情報を取得することを特徴とする請求項1乃至10のいずれか1項に記載の情報処理装置。
- 前記読取手段は、
前記原稿を光学的にスキャンして文書画像を取得する第1の読取部と、
前記原稿に付された記録部から文字レイアウト情報を取得する第2の読取部と、
からなることを特徴とする請求項1乃至10のいずれか1項に記載の情報処理装置。 - 文書画像及び文字レイアウト情報を有する紙状記録媒体に印字して出力する情報処理装置であって、
前記文書画像及び文字レイアウト情報情報は他の情報処理装置の読取手段により取得され、
前記他の情報処理装置の文字認識処理手段により前記読取手段で取得した文書画像に対して文字認識処理を実行してテキストデータが取得され、
前記他の情報処理装置の再構成手段により前記文字認識処理手段で取得したテキストデータを、前記文字レイアウト情報に基づいて再構成して復元電子データが取得されることを特徴とする紙状記録媒体に印字して出力する情報処理装置。 - 文書画像及び文字レイアウト情報を有する紙状記録媒体に印字して出力する情報処理装置であって、
前記文書画像及び文字レイアウト情報情報は他の情報処理装置の読取手段により取得され、
前記他の情報処理装置の文字認識処理手段により前記読取手段で取得した文書画像に対して前記読取手段で取得した文字レイアウト情報に基づいて文字認識処理が実行され、テキストデータが取得されることを特徴とする紙状記録媒体に印字して出力する情報処理装置。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2007028037A JP2008193580A (ja) | 2007-02-07 | 2007-02-07 | 情報処理装置 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2007028037A JP2008193580A (ja) | 2007-02-07 | 2007-02-07 | 情報処理装置 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JP2008193580A true JP2008193580A (ja) | 2008-08-21 |
Family
ID=39753211
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2007028037A Pending JP2008193580A (ja) | 2007-02-07 | 2007-02-07 | 情報処理装置 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP2008193580A (ja) |
Cited By (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2010141868A (ja) * | 2008-12-15 | 2010-06-24 | Wistron Corp | テレビジョン装置及びその操作方法 |
| JP2013513859A (ja) * | 2009-12-11 | 2013-04-22 | マイクロソフト コーポレーション | ソース・ビットマップから2dパターンを識別し抽出することによるビットマップ・リモーティングの加速 |
| CN104092841A (zh) * | 2014-07-24 | 2014-10-08 | 福州瑞芯微电子有限公司 | 能够在阅读场景降低功耗的装置、设备和方法 |
| JP7662333B2 (ja) | 2020-12-15 | 2025-04-15 | 株式会社東芝 | 文字認識装置、文字認識方法、及びプログラム |
Citations (8)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH11203400A (ja) * | 1998-01-16 | 1999-07-30 | Ricoh Co Ltd | 文字入力装置および文字入力方法,並びに文字入力方法をコンピュータに実行させるプログラムを記録した機械読み取り可能な記録媒体 |
| JP2001167091A (ja) * | 1999-12-09 | 2001-06-22 | Sony Corp | 情報処理方法及び装置、媒体 |
| JP2001274976A (ja) * | 2000-03-24 | 2001-10-05 | Riso Kagaku Corp | 文書データ作成方法および装置並びに文字データ復元方法および装置 |
| JP2002108846A (ja) * | 2000-09-27 | 2002-04-12 | Fuji Xerox Co Ltd | 文書画像処理装置、文書画像処理方法、および記録媒体 |
| JP2003196294A (ja) * | 2001-12-26 | 2003-07-11 | Toshiba Corp | 知識分析システムおよび知識分析方法 |
| JP2003244424A (ja) * | 2002-02-20 | 2003-08-29 | Ricoh Co Ltd | 画像形成システム |
| JP2005149098A (ja) * | 2003-11-14 | 2005-06-09 | Canon Inc | 画像処理システム及び画像処理装置並びに画像処理方法 |
| WO2006070476A1 (ja) * | 2004-12-28 | 2006-07-06 | Fujitsu Limited | 画像内の処理対象の位置を特定する画像処理装置 |
-
2007
- 2007-02-07 JP JP2007028037A patent/JP2008193580A/ja active Pending
Patent Citations (8)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH11203400A (ja) * | 1998-01-16 | 1999-07-30 | Ricoh Co Ltd | 文字入力装置および文字入力方法,並びに文字入力方法をコンピュータに実行させるプログラムを記録した機械読み取り可能な記録媒体 |
| JP2001167091A (ja) * | 1999-12-09 | 2001-06-22 | Sony Corp | 情報処理方法及び装置、媒体 |
| JP2001274976A (ja) * | 2000-03-24 | 2001-10-05 | Riso Kagaku Corp | 文書データ作成方法および装置並びに文字データ復元方法および装置 |
| JP2002108846A (ja) * | 2000-09-27 | 2002-04-12 | Fuji Xerox Co Ltd | 文書画像処理装置、文書画像処理方法、および記録媒体 |
| JP2003196294A (ja) * | 2001-12-26 | 2003-07-11 | Toshiba Corp | 知識分析システムおよび知識分析方法 |
| JP2003244424A (ja) * | 2002-02-20 | 2003-08-29 | Ricoh Co Ltd | 画像形成システム |
| JP2005149098A (ja) * | 2003-11-14 | 2005-06-09 | Canon Inc | 画像処理システム及び画像処理装置並びに画像処理方法 |
| WO2006070476A1 (ja) * | 2004-12-28 | 2006-07-06 | Fujitsu Limited | 画像内の処理対象の位置を特定する画像処理装置 |
Cited By (9)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2010141868A (ja) * | 2008-12-15 | 2010-06-24 | Wistron Corp | テレビジョン装置及びその操作方法 |
| US8789129B2 (en) | 2008-12-15 | 2014-07-22 | Wistron Corp. | Television and method for operating the same |
| JP2013513859A (ja) * | 2009-12-11 | 2013-04-22 | マイクロソフト コーポレーション | ソース・ビットマップから2dパターンを識別し抽出することによるビットマップ・リモーティングの加速 |
| US9280722B2 (en) | 2009-12-11 | 2016-03-08 | Microsoft Technology Licensing, Llc | Accelerating bitmap remoting by identifying and extracting 2D patterns from source bitmaps |
| KR101728389B1 (ko) * | 2009-12-11 | 2017-04-19 | 마이크로소프트 테크놀로지 라이센싱, 엘엘씨 | 소스 비트맵들로부터 2d 패턴들을 식별 및 추출함에 의한 비트맵 리모팅 가속화 |
| KR101773316B1 (ko) * | 2009-12-11 | 2017-09-12 | 마이크로소프트 테크놀로지 라이센싱, 엘엘씨 | 소스 비트맵들로부터 2d 패턴들을 식별 및 추출함에 의한 비트맵 리모팅 가속화 |
| CN104092841A (zh) * | 2014-07-24 | 2014-10-08 | 福州瑞芯微电子有限公司 | 能够在阅读场景降低功耗的装置、设备和方法 |
| CN104092841B (zh) * | 2014-07-24 | 2017-01-25 | 福州瑞芯微电子股份有限公司 | 能够在阅读场景降低功耗的装置、设备和方法 |
| JP7662333B2 (ja) | 2020-12-15 | 2025-04-15 | 株式会社東芝 | 文字認識装置、文字認識方法、及びプログラム |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CN101600032B (zh) | 信息处理装置、信息处理方法、控制程序及记录介质 | |
| US8073255B2 (en) | Keyword generation process | |
| US7775435B2 (en) | Systems and methods for preserving and maintaining document integrity | |
| US8126270B2 (en) | Image processing apparatus and image processing method for performing region segmentation processing | |
| CN101924851B (zh) | 图像处理装置及图像处理方法 | |
| KR102613255B1 (ko) | 화상 처리 방법 및 화상 처리 시스템 | |
| US20150304521A1 (en) | Dynamically generating table of contents for printable or scanned content | |
| US6850228B1 (en) | Universal file format for digital rich ink data | |
| CN113179356B (zh) | 信息处理装置、控制方法以及记录介质 | |
| US8538154B2 (en) | Image processing method and image processing apparatus for extracting heading region from image of document | |
| US20070246542A1 (en) | Document element repair | |
| JP2008109394A (ja) | 画像処理装置及びその方法、プログラム | |
| JP2008193580A (ja) | 情報処理装置 | |
| US10936893B2 (en) | Information processing device and method for document image extraction, composite image generation, and OCR processing including display of reading resolution instructions based on character density | |
| JP2008022159A (ja) | 文書処理装置及び文書処理方法 | |
| JP2006221569A (ja) | 文書処理システム、文書処理方法、プログラムおよび記憶媒体 | |
| US8125691B2 (en) | Information processing apparatus and method, computer program and computer-readable recording medium for embedding watermark information | |
| JP4396710B2 (ja) | 画像処理装置、画像処理装置の制御方法、および画像処理装置の制御プログラム | |
| US11206335B2 (en) | Information processing apparatus, method and non-transitory computer readable medium | |
| JP4595610B2 (ja) | バリアブル印刷装置およびバリアブル印刷システム | |
| JPH07262317A (ja) | 文書処理装置 | |
| US10659654B2 (en) | Information processing apparatus for generating an image surrounded by a marking on a document, and non-transitory computer readable recording medium that records an information processing program for generating an image surrounded by a marking on a document | |
| JP2007081472A (ja) | 画像処理装置、画像形成装置、及び画像形成システム | |
| US20220309272A1 (en) | Information processing apparatus and non-transitory computer readable medium storing program | |
| JP4785727B2 (ja) | 地紋印刷装置 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20091021 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20110421 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110621 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110819 |
|
| A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20120110 |