WO2020071252A1

WO2020071252A1 - 文書検索装置、文書検索プログラム、文書検索方法

Info

Publication number: WO2020071252A1
Application number: PCT/JP2019/038016
Authority: WO
Inventors: 好成奥野; 南　拓也; 領子武田; 創堀田
Original assignee: Showa Denko KK
Current assignee: Resonac Holdings Corp
Priority date: 2018-10-04
Filing date: 2019-09-26
Publication date: 2020-04-09
Anticipated expiration: 2021-04-04
Also published as: JPWO2020071252A1; US20210374189A1; JP6884930B2; US12086189B2; US11755659B2; CN112868001A; TW202025073A; CN112868001B; US20230342400A1; TWI794547B

Abstract

紙文書を画像化した文書画像データから文字認識処理により抽出したテキストデータを含む文書情報が格納された文書データベースを、入力キーワードで検索する文書検索部と、前記入力キーワードから生成されたワイルドカード文字列からなるワイルドカード文字列群から、前記入力キーワードとの類似度に応じて類似キーワードを選択し、前記文書検索部に、前記類似キーワードによる、前記文書データベースの検索を実行させる類似キーワード選択部と、前記文書データベースに対する、前記入力キーワードによる検索結果と、前記類似キーワードによる検索結果とを出力する出力部と、を有する文書検索装置である。

Description

文書検索装置、文書検索プログラム、文書検索方法

　本発明は、文書検索装置、文書検索プログラム、文書検索方法に関する。

　高度経済成長期を中心とする時代の技術開発において作成された技術文書には、紙媒体に手書きで作成されているものがある。これらの手書きの技術文書は技術とノウハウの宝庫であり、現在直面している技術課題の解決に活用される場面もある。ただ、紙文書の形態では、倉庫保管のため取り寄せに時間がかかることや、紙文書のページを逐次めくって確認する必要があるため目的とする技術情報に到達するのに労力がかかること等の難点があり、蓄積された技術文書を十分に活用できていないという問題がある。

　一方で近年、紙文書等が含む文字情報は、光学的読み取り装置等により電子データとして画像データに変換し、その画像データに対して光学文字認識（Ｏｐｔｉｃａｌ　Ｃｈａｒａｃｔｅｒ　Ｒｅｃｏｇｎｉｔｉｏｎ：ＯＣＲ）処理を施し、画像データが含む文字情報を文字データとして抽出することにより、電子ファイル化することが行われている。前述した手書きの技術文書についても電子ファイル化して、迅速に検索、閲覧等の活用を行いたいという要求が高まっている。

　手書きの技術文書に対する文字認識の精度は、現状の技術では十分とはいえず、認識精度向上の研究が盛んに行われている。例えば、特許文献１には、検索ノイズを減らすことにより，検索精度を向上させる技術を提供することを目的とした技術が開示されている。検索キーワードと完全一致しない場合に，検索結果文字列に認識誤りが発生している可能性を判断する認識誤り評価部を持ち、認識誤りが発生している可能性を判断する過程がある。特許文献２には、インデックステーブルを用いて、オリジナル文書中の文字を認識する技術が開示されており、オリジナル文書中の部分に前記文字が存在する確率を示す確信度を連続する２文字の組で求めることが行われている。

特許第３６６９６２６号公報特許第５５９４１３４号公報

　文字情報の誤認識が多い場合、光学文字認識処理して得た電子ファイルをデジタル検索してもヒットしない問題が発生する。一方で、あいまい検索等で広い範囲で検索すれば、ヒットミスを下げることができ検索の網羅性を上げることができるが、検索の正確性を犠牲にすることになる。特許文献１及び２には、検索の正確性を向上させる示唆はない。

　本発明は、上記事情に鑑みてこれを解決すべくなされたものであり、キーワード検索のヒット率を上げつつ、誤検出を防ぐことを目的としている。

　本発明は、以下の示す構成を備える。
［１］　紙文書を画像化した文書画像データから文字認識処理により抽出したテキストデータを含む文書情報が格納された文書データベースを、入力キーワードで検索する文書検索部と、
　前記入力キーワードから生成されたワイルドカード文字列からなるワイルドカード文字列群から、前記入力キーワードとの類似度に応じて類似キーワードを選択し、前記文書検索部に、前記類似キーワードによる、前記文書データベースの検索を実行させる類似キーワード選択部と、
　前記文書データベースに対する、前記入力キーワードによる検索結果と、前記類似キーワードによる検索結果とを出力する出力部と、を有する文書検索装置。
［２］　前記文書データベースから、前記入力キーワードによる検索結果である文書情報群以外の文書情報群である非該当文書情報群を抽出する非該当文書情報群抽出部と、
　前記ワイルドカード文字列群により前記非該当文書情報群を検索し、非該当文書情報群に存在するワイルドカード文字列群を取得する文字列検索部と、を前記文書検索装置が、さらに有し、
　前記類似キーワード選択部において、前記非該当文書情報群に存在するワイルドカード文字列群の中から、前記入力キーワードとの類似度に応じて類似キーワードを選択する、［１］記載の文書検索装置。
［３］　前記文書データベースから、前記入力キーワードによる検索結果である文書情報群以外の文書情報群である非該当文書情報群を抽出する非該当文書情報群抽出部を、前記文書検索装置が、さらに有し、
　類似キーワード選択部が、前記文書検索部に、前記類似キーワードによる、前記非該当文書情報群の検索を実行させ、
　出力部が、前記文書データベースに対する前記入力キーワードによる検索結果と、前記非該当文書情報群に対する前記類似キーワードによる検索結果とを出力する、［１］記載の文書検索装置。
［４］　紙文書を画像化した文書画像データから文字認識処理により抽出したテキストデータを含む文書情報が格納された文書データベースを、入力キーワードで検索する文書検索部と、
　前記文書データベースから、前記入力キーワードによる検索結果である文書情報群以外の文書情報群である非該当文書情報群を抽出する非該当文書情報群抽出部と、
　前記入力キーワードから生成されたワイルドカード文字列により前記非該当文書情報群を検索し、非該当文書情報群に存在するワイルドカード文字列群を取得する文字列検索部と、
　前記非該当文書情報群に存在するワイルドカード文字列群の中から、前記入力キーワードとの類似度に応じて類似キーワードを選択し、前記文書検索部に、前記類似キーワードによる、前記非該当文書情報群の検索を実行させる類似キーワード選択部と、
　前記文書データベースに対する前記入力キーワードによる検索結果と、前記非該当文書情報群に対する前記類似キーワードによる検索結果とを出力する出力部と、を有する文書検索装置。
［５］　特定の分野のキーワード群が格納されたキーワードデータベースを参照し、前記ワイルドカード文字列群に含まれる各文字列について、前記入力キーワードとの類似度と、前記特定の分野のキーワードとの類似度と、をそれぞれ取得する類似度取得部を有し、
　前記類似キーワード選択部は、前記ワイルドカード文字列群に含まれる文字列、又は、非該当文書情報群に存在するワイルドカード文字列群に含まれる文字列、のうち、前記入力キーワードとの類似度が最も高くなる文字列を、類似キーワードに選択する、［１］乃至［４］の何れか一項に記載の文書検索装置。
［６］　前記類似キーワードに選択された文字列の類似度が、所定の条件を満たすか否かを判定する条件判定部を有し、
　前記類似キーワード選択部は、
　前記選択された文字列の類似度が前記所定の条件を満たさない場合、前記選択された文字列のうち、類似度が前記所定の条件を満たす文字列を高類似キーワードとし、
　前記文書検索部は、
　前記非該当文書情報群を前記高類似キーワードで検索し、
　前記出力部は、前記高類似キーワードによる検索結果を出力する、［２］乃至［５］の何れか一項に記載の文書検索装置。
［７］　前記ワイルドカード文字列群に含まれる文字列、または、前記非該当文書情報群に存在するワイルドカード文字列群に含まれる文字列のうち、前記入力キーワードとの類似度が最も高くなかった文字列のうち、入力キーワードとの類似度が所定の閾値以上の文字列を、非類似キーワードに選択する非類似キーワード選択部を有し、
　前記文書検索部は、
　前記非該当文書情報群を前記非類似キーワードで検索し、
　前記出力部は、前記非類似キーワードによる検索結果を、前記入力キーワードによる検索結果と、前記類似キーワードによる検索結果と共に出力する、［２］乃至［５］の何れか一項に記載の文書検索装置。
［８］　前記出力部は、
　前記入力キーワードによる検索結果である文書情報と、前記類似キーワードによる検索結果である文書情報と、を一覧として、端末装置に表示させる、［１］乃至［５］の何れか一項に記載の文書検索装置。
［９］　前記出力部は、
　前記入力キーワードによる検索結果である文書情報と、前記高類似キーワードによる検索結果である文書情報と、を一覧として、端末装置に表示させる、［６］に記載の文書検索装置。
［１０］　前記出力部は、
　前記非類似キーワードによる検索結果である文書情報を、前記入力キーワードによる検索結果である文書情報と、前記類似キーワードによる検索結果である文書情報と、共に、一覧として、端末装置に表示させる、［７］記載の文書検索装置。
［１１］　前記文書情報において、前記テキストデータは、前記文書画像データを特定する識別情報と対応付けられており、
　前記出力部は、
　前記一覧において、前記文書情報の選択を受け付けて、
　前記文書画像データと、前記文書画像データの識別情報とが対応付けられて格納された文書画像データベースを参照し、選択された前記文書情報の識別情報と対応する文書画像データを、前記一覧と共に表示させる、［８］乃至［１０］の何れか一項に記載の文書検索装置。
［１２］　紙文書を画像化した文書画像データから文字認識処理により抽出したテキストデータを含む文書情報が格納された文書データベースを、入力キーワードで検索する文書検索処理と、
　前記文書データベースから、前記入力キーワードによる検索結果である文書情報群以外の文書情報群である非該当文書情報群を抽出する文書情報群抽出処理と、
　前記入力キーワードから生成されたワイルドカード文字列により前記非該当文書情報群を検索し、非該当文書情報群に存在するワイルドカード文字列群を取得する文字列検索処理と、
　前記非該当文書情報群に存在するワイルドカード文字列群の中から、前記入力キーワードとの類似度に応じて類似キーワードを選択し、前記文書検索処理によって、前記類似キーワードによる、前記非該当文書情報群の検索を実行させる類似キーワード選択処理と、
　前記文書データベースに対する前記入力キーワードによる検索結果と、前記非該当文書情報群に対する前記類似キーワードによる検索結果とを出力する出力処理と、をコンピュータに実行させる文書検索プログラム。
［１３］　コンピュータによる文書検索方法であって、前記コンピュータが、
　紙文書を画像化した文書画像データから文字認識処理により抽出したテキストデータを含む文書情報が格納された文書データベースを、入力キーワードで検索する文書検索手順と、
　前記文書データベースから、前記入力キーワードによる検索結果である文書情報群以外の文書情報群である非該当文書情報群を抽出する文書情報群抽出手順と、
　前記入力キーワードから生成されたワイルドカード文字列により前記非該当文書情報群を検索し、非該当文書情報群に存在するワイルドカード文字列群を取得する文字列検索手順と、
　前記非該当文書情報群に存在するワイルドカード文字列群の中から、前記入力キーワードとの類似度に応じて類似キーワードを選択し、前記文書検索手順において、前記類似キーワードによる、前記非該当文書情報群の検索を実行させる類似キーワード選択手順と、
　前記文書データベースに対する前記入力キーワードによる検索結果と、前記非該当文書情報群に対する前記類似キーワードによる検索結果とを出力する出力手順と、を実行する文書検索方法。

　キーワード検索のヒット率を上げつつ、誤検出を防ぐことができる。

第一の実施形態の文書検索システムのシステム構成の一例を示す図である。第一の実施形態の文書検索装置のハードウェア構成を説明する図である。第一の実施形態の文書画像データベースの一例を示す図である。第一の実施形態の文書データベースの一例を示す図である。第一の実施形態の特定分野キーワードデータベースの一例を示す図である。第一の実施形態の文書検索装置の機能を説明する図である。第一の実施形態の文書検索装置の動作を説明する第一のフローチャートである。第一の実施形態の文書検索装置の動作を説明する第二のフローチャートである。第一の実施形態における類似キーワードの選択について説明する図である。第一の実施形態の文書ＩＤの一覧の表示例を示す第一の図である。第一の実施形態の文書ＩＤの一覧の表示例を示す第二の図である。第二の実施形態の文書検索装置の機能を説明する図である。第二の実施形態の文書検索装置の動作を説明する第一のフローチャートである。第二の実施形態の文書検索装置の動作を説明する第二のフローチャートである。第二の実施形態の文書ＩＤの一覧の表示例を示す第二の図である。第三の実施形態の文書検索装置の機能を説明する図である。第三の実施形態の文書検索装置の動作を説明する第一のフローチャートである。第三の実施形態の文書検索装置の動作を説明する第二のフローチャートである。第三の実施形態の文書ＩＤの一覧の表示例を示す図である。

　本発明の文書検索装置は、文書検索部と、類似キーワード選択部と、出力部と、を有する。前記文書検索部は、入力キーワードが入力されると、紙文書を画像化した文書画像データから文字認識処理により抽出したテキストデータを含む文書情報が格納された文書データベースを、前記入力キーワードで検索する。類似キーワード選択部は、前記入力キーワードから生成されたワイルドカード文字列からなるワイルドカード文字列群から、前記入力キーワードとの類似度に応じて類似キーワードを選択し、前記文書検索部に、前記類似キーワードによる、前記文書データベースの検索を実行させる。出力部は、前記文書データベースに対する、前記入力キーワードによる検索結果と、前記類似キーワードによる検索結果とを出力する。

　本発明の文書検索装置は、非該当文書情報群抽出部をさらに有してもよい。前記非該当文書情報群抽出部は、前記文書データベースから、前記入力キーワードによる検索結果である文書情報群以外の文書情報群である非該当文書情報群を抽出する。この場合、類似キーワード選択部において、前記非該当文書情報群に存在するワイルドカード文字列群の中から、前記入力キーワードとの類似度に応じて類似キーワードを選択してもよい。

　さらにこの場合、前記選択された類似キーワードにより前記入力キーワードによる検索結果である文書情報群を検索しておくことにより、後述する検索結果の一覧を表示する際に、前記入力キーワードによる検索結果である文書情報群が含む文書内においても、入力キーワードの箇所に加えて、類似キーワードとして文字認識処理された箇所をハイライト表示等の表示をすることもでき、好ましい。

　本発明の文書検索装置が前記非該当文書情報群抽出部を有する場合に、類似キーワード選択部は、前記文書検索部に、前記類似キーワードによる、前記非該当文書情報群の検索を実行させてもよい。この場合、出力部は、前記文書データベースに対する前記入力キーワードによる検索結果と、前記非該当文書情報群に対する前記類似キーワードによる検索結果とを出力する。

　本発明の文書検索装置の実施形態としては、前述した非該当文書情報群に存在するワイルドカード文字列群の中から、前記入力キーワードとの類似度に応じて類似キーワードを選択し、前記文書検索部に、前記類似キーワードによる、前記非該当文書情報群の検索を実行させることもできる。この場合、出力部は、前記文書データベースに対する前記入力キーワードによる検索結果と、前記非該当文書情報群に対する前記類似キーワードによる検索結果とを出力する。

　以下、本発明について例を用いてより具体的に説明する。

　（第一の実施形態）
　以下に、図面を参照して、第一の実施形態について説明する。図１は、第一の実施形態の文書検索システムのシステム構成の一例を示す図である。

　本実施形態の文書検索システム１００は、文書検索装置２００を有する。文書検索システム１００は、さらに端末装置３００を有し、文書検索装置２００と端末装置３００とは、ネットワークを介して接続されても良い。端末装置３００は、通信インターフェース装置等に加えて、キーボード等の入力装置と、液晶ディスプレイ等の出力装置を有する。

　本実施形態の文書検索装置２００は、文書画像データベース２１０、文書データベース２２０、特定分野キーワードデータベース２３０、検索処理部２４０を有する。

　文書画像データベース２１０は、光学的読み取り装置等により読み取られた紙文書の画像データが格納される。尚、紙文書は、例えば、手書きで作成された紙文書等である。手書きの紙文書としては、特定の技術分野についての技術文書が挙げられ、紙媒体に手書きで作成された記録ノートや報告書等、手書き文字情報を含む設計図面や写真等、手書き文字情報の付加された測定記録紙等が含まれる。紙文書は、または、活字の印刷された紙文書等である。活字印刷の紙文書としては、特定の技術分野の技術文書が挙げられ、紙媒体に活字の印刷された報告書、設計図面等が含まれる。対象とする紙文書としては、手書きの紙文書と活字印刷の紙文書とが混在してもよい。文書データベース２２０は、文書画像データベース２１０に格納された画像データに対して、ＯＣＲ（Ｏｐｔｉｃａｌ　Ｃｈａｒａｃｔｅｒ　Ｒｅｃｏｇｎｉｔｉｏｎ：ＯＣＲ）処理を施して取得した文字情報を含む文書情報が格納される。特定分野キーワードデータベース２３０は、特定の分野に関するキーワード群が格納される。前述した紙文書が、特定の技術分野の技術文書である場合には、特定分野キーワードデータベース２３０には、特定の技術分野に関するキーワード群が格納される。尚、前記「紙媒体」には、紙のみではなく、プラスチックフィルム、布、板、皮、壁等も含まれる。

　本実施形態の文書画像データベース２１０、文書データベース２２０、特定分野キーワードデータベース２３０は、予め作成されたものである。

　本実施形態の検索処理部２４０は、端末装置３００や、後述する入力装置２４等から、キーワードの入力を受け付けると、文書データベース２２０を検索し、検索結果として、入力されたキーワードを含む文書情報からなる文字情報群Ａを特定する。以下の説明では、文書検索装置２００に入力されたキーワードを入力キーワードと呼ぶ。

　また、本実施形態の検索処理部２４０は、文書データベース２２０から、入力キーワードによる検索結果である文書情報群以外の文書情報群ｎｏｔＡ（以下、非該当文書情報群とも記す。）を特定する。次に、検索処理部２４０は、特定された文書情報群ｎｏｔＡと、特定分野キーワードデータベース２３０に格納された各キーワードと、入力キーワードと、から、入力キーワードと類似するとされる類似キーワードを取得し、取得した類似キーワードで前述の非該当文書情報群ｎｏｔＡを検索する。

　そして、検索処理部２４０は、入力キーワードによる文書データベース２２０の検索結果としての文書情報群Ａと、類似キーワードによる非該当文書情報群ｎｏｔＡの検索結果としての文書情報群Ａ'と、を端末装置３００に出力する。

　このように、本実施形態では、入力キーワードによる検索を行った後に、非該当文書情報群ｎｏｔＡを参照して取得した類似キーワードで、再び非該当文書情報群ｎｏｔＡを検索する。

　したがって、本実施形態では、例えば、文書データベース２２０に格納された文書情報において、入力キーワードと一致する単語がＯＣＲ処理の際に誤って認識されていた場合でも、類似キーワードによる検索によって、非該当文書情報群から文書が抽出される可能性がある。

　このため、本実施形態によれば、キーワード検索のヒット率を上げつつ、誤検出を防ぐことができる。

　尚、図１の例では、文書画像データベース２１０、文書データベース２２０、特定分野キーワードデータベース２３０が、文書検索装置２００に設けられるものとしたが、これに限定されない。文書画像データベース２１０、文書データベース２２０、特定分野キーワードデータベース２３０のそれぞれは、文書検索装置２００と通信が可能な外部装置に設けられていても良い。また、文書画像データベース２１０、文書データベース２２０、特定分野キーワードデータベース２３０は、その一部が文書検索装置２００に設けられていても良い。

　次に、図２を参照して、本実施形態の文書検索装置２００のハードウェア構成について説明する。図２は、第一の実施形態の文書検索装置のハードウェア構成を説明する図である。

　本実施形態の文書検索装置２００は、画像入力装置及びコンピュータを含む文書情報を扱う装置である。言い換えれば、本実施形態の文書検索装置２００は、ＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）２１、主記憶装置２２、補助記憶装置２３、入力装置２４、出力装置２５、通信インターフェース装置２６、ドライブ装置２７を有し、それぞれがバスで接続された情報処理装置である。

　ＣＰＵ２１は、文書検索装置２００の動作を制御する主制御部であり。主記憶装置２２に格納された文書検索プログラムを読みだして実行することで、後述する各種の機能を実現する。

　主記憶装置２２は、文書検索装置２００の起動時に補助記憶装置２３から文書検索プログラムを読み出して格納する。補助記憶装置２３は、インストールされた文書検索プログラムを格納すると共に、上述した各データベース等の必要なファイル、データ等を格納する。

　入力装置２４は、各種の情報の入力を行うための装置であり、例えばキーボードやポインティングデバイス等により実現される。出力装置２５は、各種の情報の出力を行うためものであり、例えばディスプレイ等により実現される。通信インターフェース装置２６は、ＬＡＮカード等を含み、ネットワークに接続する為に用いられる。

　本実施形態の検索処理部２４０を実現する文書検索プログラムは、文書検索装置２００を制御する各種プログラムの少なくとも一部である。文書検索プログラムは、例えば記憶媒体２８の配布やネットワークからのダウンロード等によって提供される。文書検索プログラムを記録した記憶媒体２８は、ＣＤ－ＲＯＭ、フレキシブルディスク、光磁気ディスク等の様に情報を光学的、電気的或いは磁気的に記録する記憶媒体、ＲＯＭ、フラッシュメモリ等の様に情報を電気的に記録する半導体メモリ等、様々なタイプの記憶媒体を用いることができる。

　また、文書検索プログラムは、文書検索プログラムを記録した記憶媒体２８がドライブ装置２７にセットされると、記憶媒体２８からドライブ装置２７を介して補助記憶装置２３にインストールされる。ネットワークからダウンロードされた文書検索プログラムは、通信インターフェース装置２６を介して補助記憶装置２３にインストールされる。

　次に、図３乃至図５を参照して、本実施形態の各データベースについて説明する。本実施形態の各データベースは、例えば、補助記憶装置２３等の記憶領域に設けられても良い。

　図３は、第一の実施形態の文書画像データベースの一例を示す図である。本実施形態の文書画像データベース２１０は、情報の項目として、文書ＩＤ、文書名、文書画像データを有し、項目「文書ＩＤ」と、その他の項目とが対応付けられている。

　項目「文書ＩＤ」の値は、文書ファイルを特定するための識別情報である。本実施形態の項目「文書ＩＤ」の値は、例えば、手書き文書画像の作成された年月日情報や、年月日情報に付加された枝番号で構成されてもよい。

　項目「文書名」の値は、文書名を示す。項目「文書画像データ」の値は、紙文書を光学的読み取り装置によって読み取った画像データである。本実施形態の文書画像データは、例えば、ｐｄｆファイルとして格納されていても良いし、画像データとして格納されていても良い。

　以下の説明では、文書画像データベース２１０において、項目「文書ＩＤ」の値と、その他の項目の値とを含む情報とを、文書画像情報と呼ぶ。

　尚、文書画像データベース２１０は、図３に示す項目以外の項目を含んでいても良い。具体的には、例えば、文書画像情報が文書画像データベース２１０に格納された年月日や、文書画像情報を格納する処理を行った担当者の氏名等が、文書画像データベース２１０の項目として含まれても良い。

　図４は、第一の実施形態の文書データベースの一例を示す図である。本実施形態の文書データベース２２０は、情報の項目として、文書ＩＤ、文書名、テキストデータを含み、項目「文書ＩＤ」とその他の項目とが対応付けられている。

　項目「文書ＩＤ」の値と、項目「文書名」の値とは、文書画像データベース２１０と同様であるから、説明を省略する。

　以下の説明では、文書データベース２２０において、項目「文書ＩＤ」の値と、その他の項目の値とを含む情報を、文書情報と呼ぶ。

　項目「テキストデータ」の値は、文書画像データベース２１０において、対応する文書ＩＤによって特定される文書画像データに対してＯＣＲ処理を施して結果として取得されたテキストデータを示す。

　図４の例では、テキストデータである「２０１８０１．ｔｘｔ」と対応する文書ＩＤは、「１」である。したがって、テキストデータ「２０１８０１．ｔｘｔ」は、文書画像データベース２１０において文書ＩＤ「１」と対応付けられた文書画像データ「２０１８０１．ｐｄｆ」から、ＯＣＲ処理によって抽出された文字情報であることがわかる。

　図５は、第一の実施形態の特定分野キーワードデータベースの一例を示す図である。本実施形態の特定分野キーワードデータベース２３０は、ある特定の分野のキーワードが予め格納されている。

　ある特定の分野とは、例えば、文書画像データベース２１０に格納されている文書画像データの内容と対応する技術分野であっても良い。また、特定分野キーワードデータベース２３０は、複数の技術分野毎に設けられていても良い。

　図５の例では、化学分野のキーワードとして、「酸化」、「水素化」、「水酸基」等が格納されている。

　次に、図６を参照して、本実施形態の文書検索装置２００の機能について説明する。図６は、第一の実施形態の文書検索装置の機能を説明する図である。

　本実施形態の文書検索装置２００は、ＣＰＵ２１が補助記憶装置２３に格納された文書検索プログラムを読み出して実行することで、後述する各部の機能を実現する。

　本実施形態の文書検索装置２００の検索処理部２４０は、入力受付部２４１、文書検索部２４２、非該当文書情報群抽出部２４３、検索文字列生成部２４４、文字列検索部２４５、類似度取得部２４６、類似キーワード選択部２４７、文書一覧取得部２４８、出力部２４９を有する。

　入力受付部２４１は、文書検索装置２００に対する入力を受け付ける。具体的には、入力受付部２４１は、前述した入力装置２４からの入力キーワードの入力を受け付ける。

　文書検索部２４２は、入力キーワードを受け付けると、入力キーワードによって文書データベース２２０を検索し、テキストデータに入力キーワードが含まれる文書情報群Ａを特定する。

　また、文書検索部２４２は、類似キーワード選択部２４７によって選択された類似キーワードによって、入力キーワードが含まれない文書情報群ｎｏｔＡ（非該当文書情報群）を検索し、テキストデータに類似キーワードが含まれる文書情報を特定する。言い換えれば、類似キーワード選択部２４７は、文書検索部２４２に対し、選択した類似キーワードによる非該当文書情報群ｎｏｔＡの検索を実行させる。

　非該当文書情報群抽出部２４３は、文書データベース２２０において、文書検索部２４２による検索によって特定された文書情報群Ａ以外の非該当文書情報群ｎｏｔＡを抽出する。

　検索文字列生成部２４４は、入力キーワードに含まれる文字の一部を任意の文字とした文字列を複数パターン生成する。

　具体的には、検索文字列生成部２４４は、例えば、入力キーワードが「水酸化」である場合には、「水酸化」から、「○酸化」、「水○化」、「水酸○」、「○○化」、「水○○」、「○酸○」（○は任意の文字を示す）等の検索文字列を生成する。尚、検索文字列生成部２４４は、任意の文字とする文字数は、多くても、入力キーワードの文字数よりも１文字少ない数としている。つまり、検索文字列には、入力キーワードに含まれる文字のうち、少なくとも１文字は含まれる。以下の説明では、検索文字列生成部２４４により生成される検索文字列を、ワイルドカード文字列と呼ぶ。これらの入力キーワードから生成されたワイルドカード文字列からなる文字列群をワイルドカード文字列群と呼ぶ。日本語であれば、入力キーワードを、漢字の旧字体、異体字、省略字等に置換したものもワイルドカード文字列としてもよい。

　文字列検索部２４５は、ワイルドカード文字列で、文書データベースを検索し、ヒットしたワイルドカード文字列群（単語群）を取得する。または、文字列検索部２４５は、ワイルドカード文字列で、非該当文書情報群抽出部２４３が抽出した文書情報群ｎｏｔＡを検索し、ヒットしたワイルドカード文字列群（単語群）を取得しても良い。

　このヒットしたワイルドカード文字列群とは、即ち、非該当文書情報群に存在するワイルドカード文字列群である。以下、文字列検索部２４５は、ワイルドカード文字列で、非該当文書情報群抽出部２４３が抽出した非該当文書情報群ｎｏｔＡを検索し、ヒットしたワイルドカード文字列群（単語群）を取得するものとして説明する。

　類似度取得部２４６は、文字列検索部２４５による検索で取得された、ヒットしたワイルドカード文字列群に含まれる各ワイルドカード文字列について、入力キーワードとの類似度と、特定分野キーワードデータベース２３０に格納されている各キーワードとの類似度とを取得する。

　言い換えれば、類似度取得部２４６は、文字列検索部２４５による検索で取得された、非該当文書情報群ｎｏｔＡに存在するワイルドカード文字列について、入力キーワードを示す文字列を比較した結果の類似度と、特定分野キーワードデータベース２３０に格納されたキーワードを示す文字列と比較した結果の類似度とを取得する。

　文字列検索部２４５による検索で取得された文字列群に含まれる各ワイルドカード文字列と、入力キーワードおよび特定分野キーワードとの類似度をそれぞれ求める。類似度の判定法は種々考えられる。最も単純には、一致する文字の数で判断する方法がある。また、文字の順番が一致すること、漢字の部首の一致、機械学習やディープラーニングでの類似度判断などであってもよい。図８に、類似度判断の一例を示す。

　類似キーワード選択部２４７は、文字列検索部２４５により取得された各ワイルドカード文字列について、入力キーワードと、特定分野キーワードデータベース２３０に格納されたキーワードとのそれぞれについて類似度を比較して、これらの類似度の中で、入力キーワードとの類似度が最も大きい場合に当該ワイルドカード文字列を類似キーワードとして選択する。類似キーワードは複数選択されてよい。入力キーワードとの類似度が最も大きくない場合には、当該ワイルドカード文字列は類似キーワードとして選択されない。

　つまり、類似キーワード選択部２４７は、非該当文書情報群ｎｏｔＡに存在するワイルドカード文字列群から、入力キーワードと類似する類似キーワードを特定する。

　文書一覧取得部２４８は、文書検索部２４２により特定された文書情報群ＡおよびＡ'の一覧を文書データベース２２０からそれぞれ取得する。具体的には、文書一覧取得部２４８は、文書情報の一覧として、文書ＩＤを取得しても良い。

　出力部２４９は、文書一覧取得部２４８により取得された文書情報群ＡおよびＡ'の一覧を前述した出力装置２５にそれぞれ出力する。具体的には、出力部２４９は、文書情報（文書ＩＤ）の一覧を出力装置２５に表示させる。

　また、出力部２４９は、出力装置２５に表示された文書情報の一覧において、ある文書データが選択されると、文書画像データベース２１０において、選択された文書情報に含まれる文書ＩＤと対応する文書画像データを取得し、出力装置２５に表示させる。

　次に、図７Ａ、図７Ｂを参照して、本実施形態の文書検索装置２００の動作について説明する。図７Ａは、第一の実施形態の文書検索装置の動作を説明する第一のフローチャートであり、図７Ｂは、第一の実施形態の文書検索装置の動作を説明する第一のフローチャートである。

　本実施形態の文書検索装置２００の検索処理部２４０は、入力受付部２４１により、入力キーワードの入力を受け付けると（ステップＳ７０１）、文書検索部２４２により、入力キーワードによる文書データベース２２０の検索を行う（ステップＳ７０２）。

　続いて、文書検索部２４２は、ヒットする文書情報が存在するか否かを判定する（ステップＳ７０３）。具体的には、文書検索部２４２は、テキストデータに入力キーワードが含まれる文書情報が文書データベース２２０に格納されているか否かを判定する。

　ステップＳ７０３において、該当する文書情報が存在しない場合、検索処理部２４０は、後述するステップＳ７０６へ進む。

　ステップＳ７０３において、該当する文書情報が存在する場合、検索処理部２４０は、文書検索部２４２は、該当する文書情報群Ａの文書ＩＤを取得する（ステップＳ７０４）。

　続いて、検索処理部２４０は、非該当文書情報群抽出部２４３により、ステップＳ７０４で文書ＩＤが取得された文書情報を除く非該当文書情報群ｎｏｔＡを、文書データベース２２０から抽出する（ステップＳ７０５）。

　次に、検索処理部２４０は、検索文字列生成部２４４により、入力キーワードに基づきワイルドカード文字列を生成する（ステップＳ７０６）。尚、ここでは、検索文字列生成部２４４は、入力キーワードから生成され得る全てのパターンのワイルドカード文字列を生成しても良い。

　次に、検索処理部２４０は、文字列検索部２４５により、各ワイルドカード文字列それぞれについて、非該当文書情報群抽出部２４３により抽出された非該当文書情報群ｎｏｔＡに対する検索を行い（ステップＳ７０７）、図７ＢのステップＳ７０８へ進む。

　図７Ｂにおいて、文字列検索部２４５は、ステップＳ７０７に続いて、ワイルドカード文字列毎に、検索結果となる文字列を取得する（ステップＳ７０８）。つまり、ここでは、複数のワイルドカード文字列のそれぞれにより、非該当文書情報群ｎｏｔＡを検索した結果である、ヒットしたワイルドカード文字列群が取得される。

　次に、検索処理部２４０は、類似度取得部２４６により、ステップＳ７０８で抽出された、ヒットしたワイルドカード文字列について、入力キーワードとの比較と、特定分野キーワードデータベース２３０に格納された各キーワードとの比較とを行い、それぞれの類似度を取得する（ステップＳ７０９）。

　したがって、ここでは、ヒットしたワイルドカード文字列群に含まれるワイルドカード文字列毎に、入力キーワードと比較した結果を示す類似度と、特定分野キーワードデータベース２３０に格納された各キーワードと比較した結果を示す類似度とがそれぞれ取得される。

　続いて、類似キーワード選択部２４７は、ヒットしたワイルドカード文字列群に含まれるワイルドカード文字列のうち、特定分野キーワードデータベース２３０に格納された各キーワードとの類似度と比較して、入力キーワードとの類似度が最も高いワイルドカード文字列を選択し、入力キーワードの類似キーワードとする（ステップＳ７１０）。尚、類似キーワードは複数選択されてもよい。ステップＳ７１０の処理の詳細は後述する。

　続いて、検索処理部２４０は、文書検索部２４２により、選択された類似キーワードによって、前述した非該当文書情報群ｎｏｔＡを検索する（ステップＳ７１１）。

　次に、文書検索部２４２は、入力キーワード又は類似キーワードの少なくとも何れか一方でヒットした文書情報が存在するか否かを判定する（ステップＳ７１２）。具体的には、文書検索部２４２は、テキストデータに、少なくとも入力キーワード又は類似キーワードの何れか一方と一致する文字列が含まれる文書情報が文書データベース２２０に格納されているか否かを判定している。

　ステップＳ７１２において、該当する文書情報が存在しない場合、検索処理部２４０は、出力部２４９により、該当する文書情報が存在しないことを示す通知を端末装置３００に出力し（ステップＳ７１３）、処理を終了する。

　ステップＳ７１２において、該当する文書情報が存在する場合、文書検索部２４２は、類似キーワードと一致する文字列がテキストデータに含まれる文書情報が存在する場合には、この文書情報の文書ＩＤを取得する（ステップＳ７１４）。

　続いて、検索処理部２４０は、出力部２４９により、ステップＳ７０４とステップＳ７１４で取得した文書ＩＤの一覧を、出力装置２５に表示させ（ステップＳ７１５）、処理を終了する。

　次に、図８を参照して、類似キーワードを選択する処理について具体的に説明する。図８は、第一の実施形態における類似キーワードの選択について説明する図である。

　図８の例では、入力装置２４から、入力キーワードとして、文字列「水酸化」が入力され、特定分野キーワードデータベース２３０には、特定分野のキーワードとして、文字列「水酸化」以外に、文字列「酸化」、「水素化」、「水酸基」が格納されていた場合を示している。

　また、図８の例では、ワイルドカード文字列による文書情報群の検索結果として、ヒットしたワイルドカード文字列群として、文字列「水変使」、「力酸ヒ」、「秘酸化」、「氷酒化」、「水酸可」、「水来イ」、「水酒化」が取得された場合を示している。

　ここで、本実施形態の類似度取得部２４６は、ヒットしたワイルドカード文字列群に含まれる各ワイルドカード文字列を、入力キーワードと、特定分野のキーワードとのそれぞれと比較する。つまり、入力キーワードと特定分野のキーワードとは、ヒットしたワイルドカード文字列群の各ワイルドカード文字列と比較されるキーワードである。

　例えば、文字列「水変使」と入力キーワードを示す文字列「水酸化」を比較した場合、文字「水」が一致し、文字「化」の部首が一致しているが、文字「変」と文字「酸」は一致しない。したがって、この２つの文字列の比較結果は、１文字目は一致していることを示す「○（類似度３３％）」となり、２文字目は、一致していないことを示す「×」（類似度０％）」となり、３文字目は、部首一致を示す「△」（類似度１７％）となる。そして、この比較結果から、文字列「水変使」と文字列「水酸化」の類似度は、５０％とされる。

　本実施形態では、同様に、文字列「水変使」と特定分野のキーワード「酸化」、文字列「水変使」と特定分野のキーワード「水素化」、文字列「水変使」と特定分野のキーワード「水酸基」のそれぞれについて、比較が行われ、類似度が取得される。

　この結果、文字列「水変使」との類似度が最も高い文字列は、特定分野のキーワードである「水素化」であることがわかる。したがって、文字列「水変使」は、特定分野キーワードデータベース２３０に格納された各キーワードとの類似度と比較して、入力キーワードとの類似度が最も高い文字列ではなく、類似キーワードとしては選択されない。

　また、文字列「氷酒化」と入力キーワードを示す文字列「水酸化」を比較した場合、文字「水」と文字「酸」は一致していないが、文字の形状が類似している。したがって、この２つの文字列の比較結果は、１文字目と２文字目は類似していることを示す「△（類似度１７％）」となり、３文字目は一致していることを示す「○（類似度３３％）」となる。そして、この比較結果から、文字列「氷酒化」と文字列「水酸化」の類似度は、６７％とされる。

　本実施形態では、同様に、文字列「氷酒化」と特定分野のキーワード「酸化」、文字列「氷酒化」と特定分野のキーワード「水素化」、文字列「氷酒化」と特定分野のキーワード「水酸基」のそれぞれについて、比較が行われ、類似度が取得される。

　この結果、特定分野キーワードデータベース２３０に格納された各キーワードとの類似度と比較して、文字列「氷酒化」との類似度が最も高い文字列は、入力キーワードである「水酸化」であることがわかる。したがって、文字列「氷酒化」は、入力キーワードとの類似度が最も高い文字列として、類似キーワードに選択される。

　また、文字列「水酒化」と入力キーワードを示す文字列「水酸化」を比較した場合、文字「酸」は一致していないが、文字の形状が類似している。したがって、この２つの文字列の比較結果は、２文字目は類似していることを示す「△」（類似度１７％）となり、１文字目と３文字目は一致していることを示す「○」（類似度３３％）となる。そして、この比較結果から、文字列「水酒化」と文字列「水酸化」の類似度は、８４％とされる（類似度３３％が２つある場合、合計６７％とする）。前述の文字列「氷酒化」の場合と同様に、特定分野キーワードデータベース２３０に格納された各キーワードとの類似度と比較して、文字列「水酒化」との類似度が最も高い文字列は、入力キーワードである「水酸化」であることがわかる。したがって、文字列「水酒化」も、入力キーワードとの類似度が最も高い文字列として、類似キーワードに選択される。

　次に、本実施形態の出力装置２５における文書ＩＤの一覧の表示例について説明する。図９は、第一の実施形態の文書ＩＤの一覧の表示例を示す第一の図である。

　図９に示す画面３０１は、出力装置２５に表示された画面の例である。画面３０１には、出力部２４９により出力された文書ＩＤの一覧３０２が表示されている。

　文書ＩＤの一覧３０２では、文書ＩＤと文書名と、この文書ＩＤを含む文書情報の検索に用いられた検索キーワードとが対応付けられた情報が表示されている。画面３０１において、文書ＩＤと対応付けられて表示される検索キーワードは、入力キーワードと類似キーワードのどちらかである。

　図９の例では、文書ＩＤ「１」の文書情報と、文書ＩＤ「３」の文書情報は、入力キーワード「水酸化」によって抽出された文書情報であることがわかる。また、図９の例では、文書ＩＤ「２」の文書情報と、文書ＩＤ「５」の文書情報は、類似キーワード「氷酒化」によって抽出された文書情報であり、文書ＩＤ「１１」の文書情報と、文書ＩＤ「１２」の文書情報は、類似キーワード「水酒化」によって抽出された文書情報であることがわかる。

　また、本実施形態では、文書ＩＤの一覧３０２において、ポインタＰや、端末装置３００の利用者の指等によって、文書情報が選択されると、選択された文書情報と対応する文書画像データが表示される。

　図９では、文書ＩＤ「１」の文書ＩＤが選択されており、文書ＩＤの一覧３０２の隣に、文書画像データベース２１０において、文書ＩＤ「１」と対応付けられた文書画像データ３０３が表示されている。

　このように、本実施形態では、検索結果である文書ＩＤの一覧において、文書ＩＤが選択されると、選択された文書ＩＤと対応する、文書画像データとを表示させることができる。

　図１０は、第一の実施形態の文書ＩＤの一覧の表示例を示す第二の図である。図１０に示す画面３０１Ａでは、入力キーワードによる検索結果である文書ＩＤの一覧３０２Ａと、類似キーワードによる検索結果である文書ＩＤの一覧３０２Ｂとが別々に表示されている。

　一覧３０２Ａと一覧３０２Ｂとでは、文書ＩＤと文書名とが対応付けられて表示されている。

　また、画面３０１Ａでは、一覧３０２Ａが入力キーワード「水酸化」の検索結果であることを示すメッセージ１０１と、一覧３０２Ｂが類似キーワード「氷酒化」の検索結果であることを示すメッセージ１０２Ａと、一覧３０３Ｂが類似キーワード「水酒化」の検索結果であることを示すメッセージ１０２Ｂとが表示されている。

　さらに、一覧３０２Ｂ及び一覧３０３Ｂには、入力キーワードと類似キーワードとの類似度を示すメッセージ９５Ａ及び９５Ｂがそれぞれ表示されている。

　このように、本実施形態では、類似キーワードと入力キーワードとの類似度を表示させることで、端末装置３００の利用者に対し、類似キーワードによる検索結果の信頼性を示すことができる。

　以上のように、本実施形態によれば、手書き等によって作成された紙文書に示された情報について、簡単に、且つ、迅速に、検索及び閲覧を行うことができる。また、本実施形態によれば、入力キーワードから類似キーワードを導出し、類似キーワードに基づく検索結果も、入力キーワードによる検索結果と共に表示させるため、キーワード検索のヒット率を上げつつ、誤検出を防ぐことができる。

　（第二の実施形態）
　以下に図面を参照して、第二の実施形態について説明する。第二の実施形態では、類似キーワードを選択する際の類似度に条件を設定する点が第一の実施形態と相違する。よって、以下の第二の実施形態の説明では、第一の実施形態との相違点について説明し、第一の実施形態と同様の機能構成を有するものには、第一の実施形態の説明で用いた符号と同様の符号を付与し、その説明を省略する。

　図１１は、第二の実施形態の文書検索装置の機能を説明する図である。本実施形態の文書検索装置２００Ａは、検索処理部２４０Ａを有する。

　検索処理部２４０Ａは、第一の実施形態の検索処理部２４０の有する各部に加え、類似キーワード選択部２４７Ａに所定の閾値情報２５０を有する。
２５０を有する。

　類似キーワード選択部２４７Ａが保持する所定の閾値情報２５０は、入力装置２４及び端末装置３００の利用者によって、任意のタイミングで、任意に設定されても良い。

　本実施形態では、類似キーワードのうち、入力キーワードとの類似度が所定の閾値以上となる文字列を高類似キーワードとする、といった条件が設定される。

　入力キーワードとの類似度がより高い文字列が高類似キーワードとされた場合、検索結果となる文書情報は、誤検出がより少なくなる可能性が高くなる。言い換えれば、入力キーワードとの類似度の閾値を高く設定するほど、ヒットする文書情報の精度が向上する。

　このように、本実施形態では、高類似キーワードを選択する所定の閾値情報２５０を入力装置２４及び端末装置３００の利用者に任意に設定させることで、利用者の要望に応じた検索結果を出力することができる。

　以下に、図１２Ａ、図１２Ｂを参照して、本実施形態の文書検索装置２００Ａの動作について説明する。図１２Ａは、第二の実施形態の文書検索装置の動作を説明する第一のフローチャートであり、図１２Ｂは、第二の実施形態の文書検索装置の動作を説明する第二のフローチャートである。

　図１２ＡのステップＳ１２０１から図１２ＢのステップＳ１２１０までの処理は、図７ＡのステップＳ７０１からステップＳ７１０までの処理と同様であるから、説明を省略する。

　ステップＳ１２１０に続いて、類似キーワード選択部２４７Ａは、類似キーワードのうち、類似キーワードとして選択された文字列と入力キーワードとの類似度が所定の閾値以上の類似キーワードを、高類似キーワードとして選択する（ステップＳ１２１１）。

　ここでは、例えば、条件として、類似キーワードとして選択された文字列のうち、選択された文字列と入力キーワードとの類似度が７５％であり、条件として、類似度が７０％以上であることが設定されていた場合、当該類似キーワードを、高類似キーワードとする。

　続いて、検索処理部２４０Ａは、文書検索部２４２により、高類似キーワードによって、前述した非該当文書情報群ｎｏｔＡを検索する（ステップＳ１２１２）。

　次に、文書検索部２４２は、入力キーワード又は高類似キーワードの少なくとも何れか一方でヒットした文書情報が存在するか否かを判定する（ステップＳ１２１３）。

　ステップＳ１２１４からステップＳ１２１６までの処理は、図７ＢのステップＳ７１３からステップＳ７１５までの処理と同様であるから、説明を省略する。

　以下に、図１３を参照して、本実施形態の端末装置３００の表示例を説明する。図１３は、第二の実施形態の文書ＩＤの一覧の表示例を示す第二の図である。

　図１３に示す画面３０１Ｂでは、入力キーワード「水酸化」による検索結果である文書ＩＤの一覧３０２Ａが表示されている。

　また、図１３の例では、所定の閾値情報５０に設定された条件を示す条件情報９８が表示されている。条件情報９８によれば、所定の閾値情報２５０には、「類似度が７０％以上」である文字列を、高類似キーワードとして選択する、という条件が設定されていたことがわかる。

　また、画面３０１Ｂでは、高類似キーワードとして「水酒化」が選択されたことを示すメッセージ１０３と、高類似キーワード「水酒化」による検索結果を示す文書ＩＤの一覧３０２Ｃとが表示されている。

　さらに、一覧３０２Ｃには、入力キーワードと類似キーワードとの類似度を示すメッセージ９５Ｃが表示されている。

　さらに、本実施形態では、所定の閾値情報２５０に保持される条件情報を入力するための入力欄９９と、入力欄９９に設定された条件に基づく再検索の実行を指示する操作ボタン１０４とが表示されていても良い。

　例えば、本実施形態では、入力欄９９に、類似度８０％以上の文字列を高類似キーワードとする、という条件が入力されて、操作ボタン１０４が操作された場合、図１２ＢのステップＳ１２１０から処理を再開しても良い。

　このように、本実施形態では、検索結果を閲覧する出力装置２５の利用者の要望に応じた再検索を行うことができる。

　（第三の実施形態）
　以下に図面を参照して、第三の実施形態について説明する。第三の実施形態では、入力キーワードとの類似度が最も高くなかったため類似キーワードとして選択されなかったワイルドカード文字列のうち、入力キーワードとのワイルドカード文字列との類似度が所定の閾値以上の文字列を、非類似キーワードとし、入力キーワード、類似キーワード及び非類似キーワードのそれぞれによって文書データベース２２０を検索する点が、第一の実施形態と相違する。よって、以下の第三の実施形態の説明では、第一の実施形態との相違点について説明し、第一の実施形態と同様の機能構成を有するものには、第一の実施形態の説明で用いた符号と同様の符号を付与し、その説明を省略する。

　図１４は、第三の実施形態の文書検索装置の機能を説明する図である。本実施形態の文書検索装置２００Ｂは、検索処理部２４０Ｂを有する。本実施形態の検索処理部２４０Ｂは、第一の実施形態の検索処理部２４０の有する各部に加え、所定の閾値情報２５２を保持する非類似キーワード選択部２５１を有する。

　本実施形態の非類似キーワード選択部２５１は、ワイルドカード文字列群の各ワイルドカード文字列において、入力キーワードとの類似度が最も高くなかった文字列（つまり類似キーワードとして選択されなかったワイルドカード文字列）のうち、入力キーワードとの類似度が所定の閾値以上の文字列を、非類似キーワードに選択する。

　図１５Ａは、第三の実施形態の文書検索装置の動作を説明する第一のフローチャートであり、図１５Ｂは、第三の実施形態の文書検索装置の動作を説明する第二のフローチャートである。図１５ＡのステップＳ１５０１から図１５ＢのステップＳ１５０９までの処理は、図７ＡのステップＳ７０１から図７ＢのステップＳ７０９までの処理と同様であるから、説明を省略する。

　ステップＳ１５０９において、それぞれのワイルドカード文字列について、入力キーワードと、特定分野のキーワードとの類似度を取得すると、類似キーワード選択部２４７により類似キーワードを選択し、非類似キーワード選択部２５１により非類似キーワードを選択する（ステップＳ１５１０）。

　続いて、検索処理部２４０Ｂは、文書検索部２４２により、類似キーワードと非類似キーワードと、のそれぞれによって、入力キーワードが含まれない非該当文書情報群ｎｏｔＡを検索する（ステップＳ１５１１）。

　続いて、文書検索部２４２は、入力キーワード、類似キーワード、非類似キーワードのうち、少なくとも何れか１つと合致する文書情報が存在するか否かを判定する（ステップＳ１５１２）。

　入力キーワードとの類似度が高いワイルドカード文字列が前記非類似キーワードと選択された場合、検索結果となる文書情報は、入力キーワードとの関連性の低い情報を含む内容となる可能性が高い。したがって、この場合、検索結果として抽出される文書情報が入力キーワードと関連性の高い情報である可能性は低くなる代わりに、様々な種類の文書情報が抽出される可能性がある。言い換えれば、類似度の閾値を低く設定するほど、ヒットする文書情報の網羅性が向上する。

　図１５のステップＳ１５１３からステップＳ１５１５のまでの処理は、図７のステップＳ７１３からステップＳ７１５までの処理と同様であるから、説明を省略する。

　次に、図１６を参照して、本実施形態の表示例について説明する。図１６は、第三の実施形態の文書ＩＤの一覧の表示例を示す図である。

　図１６に示す画面３０１Ｃでは、入力キーワードによる検索結果である文書ＩＤの一覧３０２Ａと、一覧３０２Ａが入力キーワード「水酸化」の検索結果であることを示すメッセージ１０１と、が表示されている。

　また、画面３０１Ｃには、類似キーワードによる検索結果である文書ＩＤの一覧３０２Ｂ及び３０２Ｄと、一覧３０２Ｂが類似キーワード「氷酒化」の検索結果、一覧３０２Ｄが類似キーワード「水酒化」であることをそれぞれ示すメッセージ１０２Ａ及びメッセージＢと、入力キーワードと類似キーワードとの類似度を示すメッセージ９５Ｄ及び９５Ｅとがそれぞれ表示されている。

　さらに、画面３０１Ｃには、非類似キーワードによる検索結果である文書ＩＤの一覧３０２Ｅと、一覧３０２Ｅが非類似キーワード「水来イ」の検索結果であることを示すメッセージ１０３と、入力キーワードと非類似キーワードとの類似度を示すメッセージ１６３とが表示されている。

　本実施形態では、このように、類似キーワードによる検索結果である一覧３０２Ｂ及び３０２Ｄと、非類似キーワードによる検索結果である一覧３０２Ｅとを共に表示させる。言い換えれば、本実施形態では、精度を優先させた検索結果と、網羅性を優先させた検索結果とを共に表示させる。

　本実施形態では、このように、２つの異なる観点から検索を行った結果を表示させることで、検索結果を閲覧する端末装置３００の利用者に、それぞれの検索結果を見比べさせることができる。

　このように、閲覧者に検索結果を見比べさせることで、例えば、保管されている紙文書の状態等を把握させることができる。

　例えば、網羅性を優先させた検索結果は、精度を優先させた検索結果と比較して、作成された年月が古い紙文書の文書情報が多い場合には、紙文書を文書画像データとする際の紙文書の状態が悪かった可能性や、現在は一意に表現されている文言が、過去は様々に表現されていた可能性等が考えられる。

　また、例えば、精度を優先させた検索結果に特定の保管条件で保管されている紙文書の文書情報が多い場合には、この保管条件によって紙文書の保存状態が良好に維持されている可能性が考えられる。

　本実施形態では、このように、紙文書の状態や、表現のゆらぎ等についての様々な可能性を、閲覧者に示唆することができる。

　本発明は、具体的に開示された実施形態に限定されるものではなく、特許請求の範囲から逸脱することなく、種々の変形や変更が可能である。
　また、本国際出願は、２０１８年１０月４日に出願された日本国特許出願２０１８－１８９４３８に基づく優先権を主張するものであり、日本国特許出願２０１８－１８９４３８の全内容を本国際出願に援用する。

　１００　文書検索システム
　２００、２００Ａ、２００Ｂ　文書検索装置
　２１０　文書画像データベース
　２２０　文書データベース
　２３０　特定分野キーワードデータベース
　２４０、２４０Ａ、２４０Ｂ　検索処理部
　２４１　入力受付部
　２４２　文書検索部
　２４３　非該当文書情報群抽出部
　２４４　検索文字列生成部
　２４５　文字列検索部
　２４６　類似度取得部
　２４７　類似キーワード選択部
　２４８　文書一覧取得部
　２４９　出力部
　２５０　条件判定部
　２５１　非類似キーワード選択部
　３００　端末装置

Claims

　紙文書を画像化した文書画像データから文字認識処理により抽出したテキストデータを含む文書情報が格納された文書データベースを、入力キーワードで検索する文書検索部と、
　前記入力キーワードから生成されたワイルドカード文字列からなるワイルドカード文字列群から、前記入力キーワードとの類似度に応じて類似キーワードを選択し、前記文書検索部に、前記類似キーワードによる、前記文書データベースの検索を実行させる類似キーワード選択部と、
　前記文書データベースに対する、前記入力キーワードによる検索結果と、前記類似キーワードによる検索結果とを出力する出力部と、を有する文書検索装置。
　前記文書データベースから、前記入力キーワードによる検索結果である文書情報群以外の文書情報群である非該当文書情報群を抽出する非該当文書情報群抽出部と、
　前記ワイルドカード文字列群により前記非該当文書情報群を検索し、非該当文書情報群に存在するワイルドカード文字列群を取得する文字列検索部と、を前記文書検索装置が、さらに有し、
　前記類似キーワード選択部において、前記非該当文書情報群に存在するワイルドカード文字列群の中から、前記入力キーワードとの類似度に応じて類似キーワードを選択する、請求項１記載の文書検索装置。
　前記文書データベースから、前記入力キーワードによる検索結果である文書情報群以外の文書情報群である非該当文書情報群を抽出する非該当文書情報群抽出部を、前記文書検索装置が、さらに有し、
　類似キーワード選択部が、前記文書検索部に、前記類似キーワードによる、前記非該当文書情報群の検索を実行させ、
　出力部が、前記文書データベースに対する前記入力キーワードによる検索結果と、前記非該当文書情報群に対する前記類似キーワードによる検索結果とを出力する、請求項１記載の文書検索装置。
　紙文書を画像化した文書画像データから文字認識処理により抽出したテキストデータを含む文書情報が格納された文書データベースを、入力キーワードで検索する文書検索部と、
　前記文書データベースから、前記入力キーワードによる検索結果である文書情報群以外の文書情報群である非該当文書情報群を抽出する非該当文書情報群抽出部と、
　前記入力キーワードから生成されたワイルドカード文字列により前記非該当文書情報群を検索し、非該当文書情報群に存在するワイルドカード文字列群を取得する文字列検索部と、
　前記非該当文書情報群に存在するワイルドカード文字列群の中から、前記入力キーワードとの類似度に応じて類似キーワードを選択し、前記文書検索部に、前記類似キーワードによる、前記非該当文書情報群の検索を実行させる類似キーワード選択部と、
　前記文書データベースに対する前記入力キーワードによる検索結果と、前記非該当文書情報群に対する前記類似キーワードによる検索結果とを出力する出力部と、を有する文書検索装置。
　特定の分野のキーワード群が格納されたキーワードデータベースを参照し、前記ワイルドカード文字列群に含まれる各文字列について、前記入力キーワードとの類似度と、前記特定の分野のキーワードとの類似度と、をそれぞれ取得する類似度取得部を有し、
　前記類似キーワード選択部は、前記ワイルドカード文字列群に含まれる文字列、又は、非該当文書情報群に存在するワイルドカード文字列群に含まれる文字列、のうち、前記入力キーワードとの類似度が最も高くなる文字列を、類似キーワードに選択する、請求項１乃至４の何れか一項に記載の文書検索装置。
　前記類似キーワードに選択された文字列の類似度が、所定の条件を満たすか否かを判定する条件判定部を有し、
　前記類似キーワード選択部は、
　前記選択された文字列の類似度が前記所定の条件を満たさない場合、前記選択された文字列のうち、類似度が前記所定の条件を満たす文字列を高類似キーワードとし、
　前記文書検索部は、
　前記非該当文書情報群を前記高類似キーワードで検索し、
　前記出力部は、前記高類似キーワードによる検索結果を出力する、請求項２乃至５の何れか一項に記載の文書検索装置。
　前記ワイルドカード文字列群に含まれる文字列、または、前記非該当文書情報群に存在するワイルドカード文字列群に含まれる文字列のうち、前記入力キーワードとの類似度が最も高くなかった文字列のうち、入力キーワードとの類似度が所定の閾値以上の文字列を、非類似キーワードに選択する非類似キーワード選択部を有し、
　前記文書検索部は、
　前記非該当文書情報群を前記非類似キーワードで検索し、
　前記出力部は、前記非類似キーワードによる検索結果を、前記入力キーワードによる検索結果と、前記類似キーワードによる検索結果と共に出力する、請求項２乃至５の何れか一項に記載の文書検索装置。
　前記出力部は、
　前記入力キーワードによる検索結果である文書情報と、前記類似キーワードによる検索結果である文書情報と、を一覧として、端末装置に表示させる、請求項１乃至５の何れか一項に記載の文書検索装置。
　前記出力部は、
　前記入力キーワードによる検索結果である文書情報と、前記高類似キーワードによる検索結果である文書情報と、を一覧として、端末装置に表示させる、請求項６に記載の文書検索装置。
　前記出力部は、
　前記非類似キーワードによる検索結果である文書情報を、前記入力キーワードによる検索結果である文書情報と、前記類似キーワードによる検索結果である文書情報と、共に、一覧として、端末装置に表示させる、請求項７記載の文書検索装置。
　前記文書情報において、前記テキストデータは、前記文書画像データを特定する識別情報と対応付けられており、
　前記出力部は、
　前記一覧において、前記文書情報の選択を受け付けて、
　前記文書画像データと、前記文書画像データの識別情報とが対応付けられて格納された文書画像データベースを参照し、選択された前記文書情報の識別情報と対応する文書画像データを、前記一覧と共に表示させる、請求項８乃至１０の何れか一項に記載の文書検索装置。
　紙文書を画像化した文書画像データから文字認識処理により抽出したテキストデータを含む文書情報が格納された文書データベースを、入力キーワードで検索する文書検索処理と、
　前記文書データベースから、前記入力キーワードによる検索結果である文書情報群以外の文書情報群である非該当文書情報群を抽出する文書情報群抽出処理と、
　前記入力キーワードから生成されたワイルドカード文字列により前記非該当文書情報群を検索し、非該当文書情報群に存在するワイルドカード文字列群を取得する文字列検索処理と、
　前記非該当文書情報群に存在するワイルドカード文字列群の中から、前記入力キーワードとの類似度に応じて類似キーワードを選択し、前記文書検索処理によって、前記類似キーワードによる、前記非該当文書情報群の検索を実行させる類似キーワード選択処理と、
　前記文書データベースに対する前記入力キーワードによる検索結果と、前記非該当文書情報群に対する前記類似キーワードによる検索結果とを出力する出力処理と、をコンピュータに実行させる文書検索プログラム。
　コンピュータによる文書検索方法であって、前記コンピュータが、
　紙文書を画像化した文書画像データから文字認識処理により抽出したテキストデータを含む文書情報が格納された文書データベースを、入力キーワードで検索する文書検索手順と、
　前記文書データベースから、前記入力キーワードによる検索結果である文書情報群以外の文書情報群である非該当文書情報群を抽出する文書情報群抽出手順と、
　前記入力キーワードから生成されたワイルドカード文字列により前記非該当文書情報群を検索し、非該当文書情報群に存在するワイルドカード文字列群を取得する文字列検索手順と、
　前記非該当文書情報群に存在するワイルドカード文字列群の中から、前記入力キーワードとの類似度に応じて類似キーワードを選択し、前記文書検索手順において、前記類似キーワードによる、前記非該当文書情報群の検索を実行させる類似キーワード選択手順と、
　前記文書データベースに対する前記入力キーワードによる検索結果と、前記非該当文書情報群に対する前記類似キーワードによる検索結果とを出力する出力手順と、を実行する文書検索方法。