[go: up one dir, main page]

JP2000076292A - 文書検索方法および文書検索装置並びに文書検索プログラムを記録した記録媒体 - Google Patents

文書検索方法および文書検索装置並びに文書検索プログラムを記録した記録媒体

Info

Publication number
JP2000076292A
JP2000076292A JP10248024A JP24802498A JP2000076292A JP 2000076292 A JP2000076292 A JP 2000076292A JP 10248024 A JP10248024 A JP 10248024A JP 24802498 A JP24802498 A JP 24802498A JP 2000076292 A JP2000076292 A JP 2000076292A
Authority
JP
Japan
Prior art keywords
search
expression
word
character
document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP10248024A
Other languages
English (en)
Other versions
JP3307336B2 (ja
Inventor
Hideki Shimomura
秀樹 下村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP24802498A priority Critical patent/JP3307336B2/ja
Publication of JP2000076292A publication Critical patent/JP2000076292A/ja
Application granted granted Critical
Publication of JP3307336B2 publication Critical patent/JP3307336B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 長い文字列を多くの類似文字で置き換えて
も、類似文字列の個数の増加が抑えられ、その結果処理
時間と処理メモリ量の爆発的な増加を抑えることが可能
な文書検索方式を提供すること。 【解決手段】 類似文字による置き換えを行う前に、検
索式を構成する各単語を予め定めた規則に従って分割
し、その分割してできた文字列を論理積で結合した部分
的な検索式を作成し、その部分的な検索式を用いて元の
検索式中の各単語を置き換えておくことことにより、文
書の検索を行う。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、文書検索方法およ
び文書検索装置並びに文書検索プログラムを記録した記
録媒体に関し、特に、文書画像を文字認識した後などの
誤りを含むテキストに有用な文書検索方法および文書検
索装置並びに文書検索プログラムを記録した記録媒体に
関する。
【0002】
【従来の技術】紙に印刷された文書を光学的スキャナで
電子化し、さらにそれを文字認識(OCR:Optical Cha
racter Reader )にかけて保存する文書画像ファイリン
グシステムが開発され、すでに商品ともなっている。そ
の非常に大規模なものとして、電子図書館システムなど
も開発が進んでいる。電子化した文書画像を蓄積・検索
するこのようなシステムでは、文字認識後のテキストを
文書画像に対応付けて保存し、検索のインデクスに使
う。ユーザは、蓄積された文書画像から所望のものを得
るため、任意の文字列を論理和、あるいは論理積演算子
で組み合わせた検索式を入力し、検索要求を出す。検索
処理では、文字認識後のテキストを既存の文字列照合技
術に基づいて検索し、結果として検索要求を満たす文字
列を含むと思われる文書画像、あるいはその文書画像を
文字認識した後のテキストを出力する。
【0003】しかし、一般にOCRの結果には誤りが含
まれる。この原因には、認識技術の限界という問題だけ
でなく、画像の解像度やノイズの混入などさまざまな要
因があり、現状の技術では避けることができない。した
がって、文字認識後のテキストを、普通のテキストと同
様に、入力された検索式中の文字列の完全一致を基本と
して全文検索すると、検索もれが発生するという問題が
ある。
【0004】この検索もれの問題を解決し得る従来技術
として、検索式に含まれる単語(以下「検索式構成単
語」)の各文字を、文字認識で混同しやすい文字(以下
「類似文字」)で置き換えた文字列(以下「類似文字
列」)群を作成し、それらを論理和で結合した検索式
(以下「類似文字拡張検索式」)を新たに生成し、元の
検索式に置き換えて検索する防ぐ方法がある。特許出願
例としては、特開平4−158478号公報の「情報の
検索方法および情報蓄積装置」、特開平6−19538
7号公報の「文書検索装置」、特開平7−152774
号公報の「文書検索方法および装置」、特開平8−18
0064号公報の「文書検索方法及び文書ファイリング
装置」などがある。
【0005】
【発明が解決しようとする課題】しかし、この類似文字
による検索式構成単語の拡張で作られる類似文字列の個
数は、その元となる単語の長さに関して指数関数的に増
大する。文字数10の単語について、各文字が平均して
5つの類似文字(自分自身も含む)を持つとすれば、5
の10乗、すなわち9865625個の類似文字列が作
られ、さらに類似文字拡張検索式はそれらが論理和で結
合されたもとのなる。検索における処理時間および処理
メモリ量は、一般に、検索式を構成する単語数や文字数
に比例するので、この類似文字拡張検索式を使った検索
処理は、検索時間と処理メモリ量を大幅に浪費すること
になる。
【0006】これに対しては、従来技術の特開平8−1
80064号公報の「文書検索方法及び文書ファイリン
グ装置」に記載されている技術は、ある一定個数以上の
類似文字列を生成しないように制御することが述べられ
ている。しかし、いくつかの類似文字列を生成しない方
式では、検索もれが発生する危険を残すことになる。
【0007】この様な従来技術の問題に鑑み本発明の目
的は、長い文字列を多くの類似文字で置き換えても、類
似文字列の個数の増加が抑えられ、その結果処理時間と
処理メモリ量の爆発的な増加を抑えることが可能で、か
つ検索精度が大幅には低下しない、利用者にとって快適
な、文書検索方法および文書検索装置並びに文書検索プ
ログラムを記憶した記憶媒体を提供することにある。
【0008】
【課題を解決するための手段】本発明においては、上記
目的を達成するために、検索式構成単語から類似文字列
群を作る前に、検索式構成単語を予め定めた規則に基づ
いて分割し、その分割された文字列を論理積で結合して
部分的な検索式を作成し、その作成した部分的な検索式
で元の検索式構成単語を置き換える「文字列ずらし分割
手段」を設けた。
【0009】また、検索の速度と精度のバランス調整を
可能とするため、文字列ずらし分割手段で行う分割処理
のパラメータを決定する、「ずらし分割定数決定手段」
を設けた。ずらし分割定数決定手段は、検索要求入力手
段で入力される検索式、検索処理監視手段によって得ら
れる検索処理の進行状況、あるいは検索データの特性情
報の少なくともどれか1つを参照して実行される。
【0010】
【発明の実施の形態】次に、本発明の実施の形態を、図
面を参照して説明する。
【0011】(第1の実施の形態)図1は、本発明の第
1の実施の形態の構成例を示すブロック図である。
【0012】検索対象となる文書画像情報とそれを文字
認識した結果のテキストは、検索データ1aにすでに格
納されているものとする。認識結果のデータ構造、画像
の格納形式、あるいは認識結果と画像の対応付けなど
は、この分野の従来技術をそのまま用いることができ
る。なお、画像とそれを認識した結果は1対1に対応づ
けられており、それらは一意の情報(例えば識別番号)
で指定することができるとする。また、検索式に対する
検索結果は、その検索式を満たす文字列を含んでいる文
書画像(複数枚の画像から構成されていてもよい)を一
意に指し示す情報(例えば識別番号)を返すものとす
る。
【0013】ユーザは、検索要求入力手段1bにより、
検索要求として、検索式を入力する。図2は、その検索
式の例である。2aは検索式全体を、2bはその検索式
を構成する単語、すなわち検索式構成単語の例である。
この例では、“コンピュータ”、“計算機”、“システ
ム”という3つの単語が、括弧、“+”、“*”の記号
で結合されている。“+”は、検索式において論理和、
すなわち“+”の両側にある式のどちらかが満たされれ
ば検索成功と見なすこと、“*”は、検索式において論
理積、すなわち、“*”の両側にある式の両方が同時に
満たされれば、検査成功と見なすこととする。括弧は、
検索式内の演算の優先順位を示すものとする。この図2
の例では、“コンピュータ”、“計算機”のどちらかが
含まれており、かつ“システム”という単語が含まれて
いる文書画像の検索を要求している。
【0014】文字列ずらし分割手段1cでは、まず検索
要求入力手段1bで入力された検索式に含まれる各検索
式構成単語を、予め決めた規則に従って分割する。分割
は重複を持たせて行ってもよい。検索精度の面から考え
るとむしろ重複部分のある方が望ましい。図3は、2a
に示した検索式の例に含まれる各検索式構成単語を、分
割長3、ずらし幅1の文字列に分割した結果である。こ
こでの分割長とは、分割した結果として作られる文字列
の長さ、ずらし幅とは、直前に分割して切り出した文字
列に対して、次の分割開始位置を何文字分ずらすかを意
味する。この例では、例えば“コンピュータ”に対し
て、“コンピ”、“ンピュ”、“ピュー”、“ュータ”
の4つの文字列が切り出されている。
【0015】文字列ずらし分割手段1cでは次に、各検
索式構成単語ごとにこの分割して作られた文字列を論理
積で結合し、それによって元の検索式構成単語を置き換
える。図4は、図3に示した“コンピュータ”に対する
分割例を論理積で結合した例である。この作成された部
分的な検索式で元の“コンピュータ”という検索式構成
単語を置き換えて、新たな検索式を作成する。その他の
検索式構成単語、“計算機”、“システム”についても
同様に処理を行う。図5は、図3および図4の例から、
文字列ずらし分割手段1cによって最終的に作成された
出力の例を示す。
【0016】類似文字展開手段1dでは、文字列ずらし
分割手段1cから出力された新たな検索式中の各検索式
構成単語を、OCRで誤りやすい文字で展開して、類似
文字拡張検索式を作成する。図6は、OCRで誤りやす
い文字を格納した類似文字テーブルの例である。左側の
文字をOCRで認識しようとした場合、右側の複数の文
字が誤りとしてよく現れることを示している。例えば、
「コ」という文字をOCRは「ユ、ュ、口、ロ」などに
間違いやすいことを示している。このテーブルは、OC
Rの認識実験を通して、作成することができる。例え
ば、文字の誤り確率をテーブルにした混乱行列(confus
ion matrix)の値が、ある一定以上のものをリストアッ
プして登録すればよい。
【0017】類似文字展開手段1dでは、検索式の各検
索式構成単語に対し、まず類似文字テーブルを参照しな
がら、OCRの誤りによって出現し得る文字列をすべて
生成する。具体的には、検索式構成単語に含まれる各文
字を、類似文字テーブルに登録されている類似文字に置
き換えて、類似文字列を作成する。図7は、“コン
ピ”、“ンピュ”、“ピュー”、“ュータ”のそれぞれ
について、生成される類似文字列の例を示す。これらは
図6の類似文字テーブルを参照して作成した例である。
【0018】1つの検索式構成単語について類似文字で
の置き換えを行って生成される類似文字列の数は、その
検索式構成単語を構成する各文字の類似文字の数(自分
自身、例えば、“あ”の類似文字として“あ”も含めて
数える)の積となる。例えば、図6の類似文字テーブル
では、“コ”に対しては自分自身を含んで5つ、“ン”
に対しても5つ、“ピ”に対して6つの類似文字が定義
されていることになる。したがって、そこから“コン
ピ”に対して生成される類似文字列の個数は、それらの
積で150となる。
【0019】類似文字展開手段1dでは、類似文字列群
作成の後、検索式構成単語ごとにこの類似文字列群を論
理和で結合し、元の検索式構成単語と置き換える。図8
は、“コンピ”から類似文字展開手段1dによって生成
された類似文字列を論理和で結合した部分的な検索式の
例であり、これで“コンピ”という検索式構成単語を置
き換える。最初に入力された検索要求に含まれた“コン
ピュータ”に対する文字列ずらし分割によって生成され
た残りの文字列、“ンピュ”、“ピュー”、“ュータ”
に対しても同じ処理が施される。すなわち、類似文字列
群が作成され、論理和で結合された検索式が作られ、元
の検索式構成単語と置き換える。またさらに、最初に入
力された検索要求に含まれていた“計算機”、“システ
ム”という単語に対し文字列ずらし分割手段から生まれ
た文字列に対しても、同様である。図9は、類似文字展
開手段1dによって最終的に生成される検索式の例であ
る。たまたま、“計算機”に関しては文字列ずらし分割
手段1cでも分割されず、また類似文字展開手段1dで
も類似文字が見つからず、入力された検索式の単語と同
じ文字列となった。
【0020】検索手段1eでは、類似文字展開手段1d
でまた新たに生成された検索式により、検索データ1a
に含まれる認識結果のテキストを検索する。この部分に
は、従来からある全文検索での完全一致検索技術がその
まま使える。検索結果としては、検索された文書画像を
一意に識別する情報が得られる。複数の文書が検索条件
に該当する場合は、すべての文書についての情報を出力
する。
【0021】結果処理手段1fでは、検索手段1eの検
索結果をもとに検索データ1aから必要な情報を取り出
し、検索結果を出力する。出力形態としては、画像をデ
ィスプレイに出力する、OCR後のテキストを出力す
る、あるいはその両方を出力するなど、利用者の希望に
応じて、いくつか考えられる。
【0022】さて、類似文字展開手段1dで作られた検
索式を構成する文字列の個数や文字数は、類似文字を使
って展開する元の文字列の長さ、置き換えに使う類似文
字の個数に大きく依存する。特に、文字列の長さに対し
ては、べき乗のオーダーで増加する。一般に、検索式中
の単語数や文字数に比例して処理時間や処理メモリが増
加するので、これは大きな問題となる。
【0023】本実施の形態では、文字列ずらし分割手段
1cにおいて、分割長を3としたため、最大で長さ3の
文字列を類似文字展開手段1dでは処理することになっ
た。もちろん、分割長をこの例での3に固定する必要は
なく、それより長い、あるいは短い値に設定することも
可能である。例えば、図10は分割長を4、ずらし幅を
1とした例である。
【0024】一般に分割長を短くすると、確かに類似文
字を使った展開で作られる文字列の個数は減少し、検索
処理自体は高速になるが、本来は検出すべきでない文書
を検出してしまうケースが生じる。例えば、極端な例
で、長さを1、すらし幅を1としてずらし分割を行った
場合、1つの検索式構成単語に対して作られる類似文字
列の個数は、検索式構成単語の全文字の類似文字数の合
計となる。したがって、類似文字列の数の爆発的増加は
起こらないが、それによって作られる部分的な検索式
は、そのどれかの文字が含まれている文書の検索を意味
するものとなってしまう。つまり、分割をあまり短い単
位で行うと、検索式構成単語に含まれていた文字の位置
関係情報が欠落してしまうため、本来は検索すべきでな
い余分な検索結果が発生することになる。
【0025】逆に、分割長を長く設定すると、過剰な検
索は減少するが類似文字列数の増加による検索時間の増
加、メモリの浪費が起こる。すなわち、分割する長さに
対してこの2つはトレードオフの関係にあり、それを適
切に選択することで、処理量を抑えて高い検索精度を保
てることになる。
【0026】上記は分割長に関する議論であったが、ず
らし幅についても同様である。ずらし幅が大きいと、元
の検索式構成単語に含まれていた文字自身、あるいは文
字の位置関係情報が欠落してしまうため、余分な検索結
果が増加する。しかし、最終的に作られる類似文字拡張
検索式に含まれる検索式構成単語の数あるいは文字数が
少なくなり、検索処理が高速になるという利点がある。
ずらし幅を長くした場合はその逆の特性となるので、こ
れもトレードオフの関係である。どのような分割を行う
かは検索の様々な特性を事前にあるいは検索中に考慮
し、設定するのが望ましい。
【0027】(第2の実施の形態)図11は、本発明の
第2の実施の形態の構成例を示すブロック図である。図
1に示した第1の実施の形態の構成例に対し、ずらし分
割定数決定手段11gが文字列ずらし分割手段11cの
前に、検索処監視手段11hが検索手段に接続して加え
られている。その他の構成要素の動作については、図1
に示した第1の実施の形態と同じであるので説明を省略
する。
【0028】ずらし分割定数決定手段11gは、文字列
ずらし分割手段11cで行われる処理に関連する動作パ
ラメータを、検索要求の内容、検索処理の進行状況、検
索データの特徴に基づいて決定する役割がある。
【0029】図12は、ずらし分割定数決定手段11g
の処理フローの例である。ここでは、検索式はn個の検
索式構成単語から生成されているとする。そして、各検
索式構成単語に関して、分割長Wk(1≦k≦n)、ず
らし幅Sk(1≦k≦n)を決めるものとする。
【0030】まず、WkとSkを初期化する。図13
は、初期化処理12bの流れ図の例である。kを1〜n
まで変化させながら、Wkに3、Skに1をセットして
いる。つまり、どの検索式構成単語についても、分割長
3、ずらし幅1でずらし分割することを、初期状態とし
て設定していることになる。もちろん、別の値をセット
してもかまわない。
【0031】図12の12cにおいては、検索要求、検
索処理の状況、検索データの特性など、検索にかかる情
報を考慮し、WkとSkを必要に応じて部分的に変更す
ることで、状況に応じて適切に、検索速度と検索精度の
調整を行う。
【0032】図14は、12cに示したWk、Skの補
正処理の流れ図の例である。この例では、ユーザの入力
した検索要求を参照して、ずらし分割処理に用いるパラ
メータを変更している。一般に、片仮名は文字が単純な
図形であり、また類似の形状も多いことから文字認識が
難しい。したがって類似文字も多くなりがちで、Wkを
長くすると類似文字列の数が爆発的に増加する危険があ
る。そこで、検索式構成単語が片仮名列の場合、Wkを
1だけ短く設定し、またSkを1だけ長く設定すること
で、類似文字列の数を抑えている。一方、漢字列に対し
ては、片仮名と逆の特性を持っているので、Wkを長く
しても、類似文字列の数がそれほど多くはなりにくい。
したがって、Wkを1だけ長くし、またSkも1だけ短
くしている。ただし、Skが0ではずらし分割が成立し
ないので、1以上の値となるようにしている。それ以外
のケースでは、初期値として設定されたWkとSkをそ
のままとしている。
【0033】図15も、12cに示したWk、Skの補
正処理の流れ図の例である。これも、検索要求を参照し
た処理である。検索式の単語が論理和で結合されている
場合、どちらかが満たされればよいので、検索結果が多
くなりがちである。そのとき、Wkをあまり短くする
と、その短い類似文字列のどれかが文書中に検出される
可能性も高まるため、不要文書が検出される可能性がさ
らに増える。そこで、論理和で結合された検索要求の場
合、その両端の検索式構成単語の分割に際しWkを長く
することで、不要文書の過剰検索を防ぐことができる。
逆に、検索式の単語が論理和で結合されている場合、検
索結果があまり多くならない傾向となるので、Wkを短
くして、展開されるずらし分割類似文字列の個数を減ら
すことで、精度に大きな影響を出さずに処理速度を上げ
ることができる。
【0034】また図16も、12cに示したWk、Sk
の補正処理の別の例である。これは、検索処理の進行状
況を参照し、分割の方法を調整するものである。この例
は、1つの検索システムを、ネットワーク等を介して複
数のユーザで共用している場合に有効である。処理で
は、図11の11hの検索処理監視手段から、検索処理
の進捗状況を受け取り、もし現在、検索処理が別のユー
ザの検索処理を実行している、あるいは次の検索処理の
ために待たされている検索要求があるならば、Wkを短
く、Skを長くすることにより、類似文字列の生成数を
抑制する。これにより、ユーザへの検索結果の返答(タ
ーンアラウンドタイム)を改善することができる。
【0035】また図17は、12cのまた別の実施例で
ある。これは検索データの特性を参照することを特徴と
している。まず、検索データの特性の一例として、字種
別の含有率を取得する。そして、検索式構成単語が片仮
名列であり、また検索データがある一定以上の片仮名含
有率であれば、Wkを長く、Skを短くして、不要文書
の過剰な誤検索を防ぐように、パラメータを変更してい
る。検索対象の文書に片仮名の含有率が多いということ
は、片仮名の文字列がたくさんあるということであり、
Wkが短いと、不要な文書が誤って検索されるケースの
増加する危険が高いので、その問題への対処である。
【0036】以上、図12の12cにおけるWkとSk
の補正処理の例として、検索要求を参照するもの2例、
検索処理の進行状況を参照するもの1例、検索データの
特性を参照するもの1例をそれぞれ別々に示したが、こ
れらの処理は多段に接続して、同じ検索式の処理に適用
してもよい。
【0037】また、本発明をコンピュータによって実現
するためするため、例えば上記した第1の実施の形態に
おいては、コンピュータの内部に上記した文字列ずらし
分割手段1c、類似文字展開手段1d、検索手段1e等
が持つ機能をコンピュータに実現するコンピュータプロ
グラムを作成し、そのコンピュータプログラムをCD−
ROMやフロッピーディスクや半導体メモリに代表され
る記録媒体に記録されて提供される形態でも本発明の効
果は失われない。また、第2の実施の形態においても同
様である。
【0038】
【発明の効果】検索式中の検索式構成単語を分割した後
に類似文字展開を行うことにより、類似文字展開手段で
作られる類似文字列の数を大幅に減らすことができる。
例えば、長さ10の文字列で各文字についてそれぞれ5
つの類似文字がある場合、そのまま類似文字展開を行う
と、長さ10の類似文字列が5の10乗で、文字数では
97656250となってしまう。これは、処理時間と
処理メモリ量を多く必要とするという問題を生む。これ
に対し、分割長3、ずらし幅1で分割した後に類似文字
による展開を行うと、長さ3の類似文字列が8*5の3
乗=1000、文字数では3000で済む。この結果、
検索時間の短縮、処理に必要なメモリ量の削減が達成さ
れる。
【0039】ただし、本発明では分割により文字列間の
位置関係情報が一部失われることから、本来検索すべき
でないテキストを過剰検索するケースが発生する危険が
ある。これに対しては、日本語の特許を対象にした実験
により、分割長3以上ずらし幅1で分割すると、過剰検
索は1%以下に抑えられるなど、ある条件では実用上大
きな問題とならないことを実験で確認した。もちろん、
文書の種類やOCRの性能に依存する部分もあるが、そ
れらの特性を加味して分割の規則や定数を決めることに
より、検索精度にほとんど影響を出さず、高速な検索
を、既存の全文検索エンジンを利用して実現することが
可能となる。
【0040】また本発明では、ずらし分割を行う際の分
割長とずらし幅を、検索にかかる情報、例えば検索要
求、検索処理の進行状況、検索対象のデータの特性によ
って検索処理中に適応的に調整する。これにより、処理
時間や処理速度のバランスが自動的に適切に設定され、
利用者に対してストレスのない検索環境を提供すること
ができる。
【図面の簡単な説明】
【図1】本発明の第1の実施の形態における構成の一例
を示すブロック図である。
【図2】検索要求入力手段を介して入力される検索式の
例である。
【図3】検索式構成単語を分割長3、ずらし幅1で分割
した例である。
【図4】分割した文字列から生成される部分的な検索式
の例である。
【図5】文字列ずらし分割手段1cの出力例である。
【図6】類似文字テーブルの例である。
【図7】類似文字によって作られる類似文字列の例であ
る。
【図8】類似文字列から生成される部分的な検索式の例
である。
【図9】類似文字展開手段1dの出力例である。
【図10】検索式国勢単語を分割長4、ずらし幅1で分
割した例である。
【図11】本発明の第2の実施の形態における構成の一
例を示すブロック図である。
【図12】ずらし分割定数決定手段11gの流れ図の例
である。
【図13】ずらし分割定数の初期化処理の例である。
【図14】ずらし分割定数の補正処理の例である。
【図15】ずらし分割定数の補正処理の例である。
【図16】ずらし分割定数の補正処理の例である。
【図17】ずらし分割定数の補正処理の例である。
【符号の説明】
1a、11a 検索データ 1b、11b 検索要求入力手段 1c、11c 文字列ずらし分割手段 1d、11d 類似文字展開手段 1e、11e 検索手段 1f、11f 結果処理手段 11g ずらし分割定数決定手段 11h 検索処理監視手段 2a 検索式 2b 検索式構成単語

Claims (20)

    【特許請求の範囲】
  1. 【請求項1】単語の論理和や論理積等で記述された検索
    式を用いて、テキストを検索する文書検索方法におい
    て、 予め定めた規則を参照して該検索式を構成する各単語を
    分割する第1のステップと、 前記第1のステップによって分割してできた文字列を論
    理積で結合した部分的な検索式を作成する第2のステッ
    プと、 前記第2のステップによって作成された検索式を用いて
    前記テキストを検索する第3のステップと、 を含むことを特徴とする文書検索方法。
  2. 【請求項2】単語の論理和や論理積等で記述された検索
    式を用いて、テキストを検索する文書検索方法におい
    て、 予め定めた規則を参照して該検索式を構成する各単語を
    分割する第1のステップと、 前記第1のステップによって分割してできた文字列を論
    理積で結合した部分的な検索式を作成する第2のステッ
    プと、 前記第2のステップで作成された検索式中の各構成単語
    について、その単語を構成する各文字を誤りやすい類似
    文字で置き換えた類似文字列群を作成し、その類似文字
    列群を論理和で結合した検索式を作成する第3のステッ
    プと、 前記第3のステップで作成された検索式を用いて前記テ
    キストを検索する第4のステップと、 を含むことを特徴とする文書検索方法。
  3. 【請求項3】請求項1または2記載の文書検索方法にお
    いて、 前記第1のステップで参照される該規則を、検索要求の
    内容に基づいて決定する第5のステップを含むことを特
    徴とする文書検索方法。
  4. 【請求項4】請求項1または2記載の文書検索方法にお
    いて、 前記第1のステップで参照される該規則を、検索処理の
    進行状況に基づいて決定する第5のステップを含むこと
    を特徴とする文書検索方法。
  5. 【請求項5】請求項1または2記載の文書検索方法にお
    いて、 前記第1のステップで参照される該規則を、検索対象と
    なるテキストの特徴に基づいて決定する第5のステップ
    を含むことを特徴とする文書検索方法。
  6. 【請求項6】主に文字認識された後の誤りを含むテキス
    トを、単語の論理和や論理積で記述された検索式を用い
    て検索する際に、該検索式中の各単語について、その単
    語を構成する各文字を該文字認識で誤りやすい類似文字
    で置き換えた類似文字列群を作成し、さらにその類似文
    字列群を論理和で結合した部分的な検索式を作成し、そ
    の部分的な検索式を用いて元の検索式中の各単語を置き
    換えた後に検索を行う文書検索方法において、 類似文字による置き換えを行う前に、該検索式を構成す
    る各単語を予め定めた規則に従って分割し、 その分割してできた文字列を論理積で結合した部分的な
    検索式を作成し、 その部分的な検索式を用いて元の検索式中の各単語を置
    き換えることを特徴とする文書検索方法。
  7. 【請求項7】主に文字認識された後の誤りを含むテキス
    トを、単語の論理和や論理積で記述された検索式を用い
    て検索する際に、該検索式中の各単語について、その単
    語を構成する各文字を該文字認識で誤りやすい類似文字
    で置き換えた類似文字列群を作成し、さらにその類似文
    字列群を論理和で結合した部分的な検索式を作成し、そ
    の部分的な検索式を用いて元の検索式中の各単語を置き
    換えた後に検索を行う文書検索方法において、 類似文字による置き換えを行う前に、検索にかかる情報
    を参照して検索式を構成する各単語を分割する処理に関
    連するパラメータを決定し、 そのパラメータに従って検索式を構成する各単語を分割
    し、 その分割してできた文字列を論理積で結合した部分的な
    検索式を作成し、 その部分的な検索式を用いて元の検索式中の各単語を置
    き換えておくことを特徴とする文書検索方法。
  8. 【請求項8】前記パラメータを決定する際に参照する情
    報が、検索式の特性であることを特徴とする請求項7記
    載の文書検索方法。
  9. 【請求項9】前記検索式の特性は、検索式を構成する各
    単語の字種あるいは長さ、あるいは検索式を構成する論
    理演算子の種類の少なくともいずれか1つであることを
    特徴とする請求項8記載の文書検索方法。
  10. 【請求項10】前記パラメータを決定する際に参照する
    情報が、検索処理の進行状況であることを特徴とする請
    求項7記載の文書検索方法。
  11. 【請求項11】前記検索処理の進行状況は、すでに要求
    されている検索処理の検索処理内部における混雑度であ
    ることを特徴とする請求項10記載の文書検索方法。
  12. 【請求項12】前記パラメータを決定する際に参照する
    情報が、検索対象のデータの特性であることを特徴とす
    る請求項7記載の文書検索方法。
  13. 【請求項13】前記検索対象のデータの特性は、検索対
    象のデータに含まれる文字の種類別含有率であることを
    特徴とする請求項12記載の文書検索方法。
  14. 【請求項14】検索式を入力する検索要求入力手段と、 該検索式に含まれる各構成単語を予め定めた規則を参照
    して分割し、その分割された文字列を論理積で結合して
    元の検索式に含まれる構成単語を置き換えた第2の検索
    式を作成する文字列ずらし分割手段と、 前記第2の検索式中の各構成単語について、その単語を
    構成する各文字を誤りやすい類似文字で置き換えた類似
    文字列群を作成し、その類似文字列群を論理和で結合し
    た第3の検索式を作成する類似文字展開手段と、 前記第3の検索式に従って文字列の検索を実施する検索
    手段と、 を備えることを特徴とする文書検索装置。
  15. 【請求項15】前記文字列ずらし分割手段が参照する規
    則を、検索式の特性、検索処理の進行状況、検索対象の
    データの特性のうち少なくともいずれか1つを用いて決
    定するずらし分割定数決定手段を更に備え、 前記文字列ずらし分割手段は、前記ずらし分割定数決定
    手段が決定した規則に従って、検索式に含まれる各構成
    単語を分割することを特徴とする請求項14記載の文書
    検索装置。
  16. 【請求項16】コンピュータに、単語の論理和や論理積
    等で記述された検索式を用いて、テキストを検索させる
    文書検索プログラムを記録した記録媒体において、 コンピュータに、 予め定めた規則を参照して該検索式を構成する各単語を
    分割する第1のステップと、 前記第1のステップによって分割してできた文字列を論
    理積で結合した部分的な検索式を作成する第2のステッ
    プと、 前記第2のステップによって作成された検索式を用いて
    テキストを検索する第3のステップと、 を実行させるための文書検索プログラムを記録した記録
    媒体。
  17. 【請求項17】コンピュータに、単語の論理和や論理積
    等で記述された検索式を用いて、テキストを検索させる
    文書検索プログラムを記録した記録媒体において、 コンピュータに、 予め定めた規則を参照して該検索式を構成する各単語を
    分割する第1のステップと、 前記第1のステップによって分割してできた文字列を論
    理積で結合した部分的な検索式を作成する第2のステッ
    プと、 前記第2のステップで作成された検索式中の各構成単語
    について、その単語を構成する各文字を誤りやすい類似
    文字で置き換えた類似文字列群を作成し、その類似文字
    列群を論理和で結合した検索式を作成する第3のステッ
    プと、 前記第3のステップで作成された検索式を用いて前記テ
    キストを検索する第4のステップと、 を実行させるための文書検索プログラムを記録した記録
    媒体。
  18. 【請求項18】請求項16または17記載の文書検索プ
    ログラムを記録した記録媒体において、 コンピュータに、 前記第1のステップで参照される該規則を、検索要求の
    内容に基づいて決定する第5のステップを実行させるた
    めの文書検索プログラムを記録した記録媒体。
  19. 【請求項19】コンピュータに、 入力手段を介して入力された検索式に含まれる各構成単
    語を予め定めた規則を参照して分割し、その分割された
    文字列を論理積で結合して元の検索式に含まれる構成単
    語を置き換えた第2の検索式を作成する文字列ずらし分
    割機能と、 前記第2の検索式中の各構成単語について、その単語を
    構成する各文字を誤りやすい類似文字で置き換えた類似
    文字列群を作成し、その類似文字列群を論理和で結合し
    た第3の検索式を作成する類似文字展開機能と、 前記第3の検索式に従って文字列の検索を実施する検索
    機能と、 を実現するための文書検索プログラムを記録した記録媒
    体。
  20. 【請求項20】コンピュータに、 前記文字列ずらし分割機能が参照する規則を、検索式の
    特性、検索処理の進行状況、検索対象のデータの特性の
    うち少なくともいずれか1つを用いて決定するずらし分
    割定数決定機能を更に実現し、 前記文字列ずらし分割機能は、前記ずらし分割定数決定
    機能が決定した規則に従って、検索式に含まれる各構成
    単語を分割することを特徴とする請求項19記載の文書
    検索プログラムを記録した記録媒体。
JP24802498A 1998-09-02 1998-09-02 文書検索方法および文書検索装置並びに文書検索プログラムを記録した記録媒体 Expired - Fee Related JP3307336B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP24802498A JP3307336B2 (ja) 1998-09-02 1998-09-02 文書検索方法および文書検索装置並びに文書検索プログラムを記録した記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP24802498A JP3307336B2 (ja) 1998-09-02 1998-09-02 文書検索方法および文書検索装置並びに文書検索プログラムを記録した記録媒体

Publications (2)

Publication Number Publication Date
JP2000076292A true JP2000076292A (ja) 2000-03-14
JP3307336B2 JP3307336B2 (ja) 2002-07-24

Family

ID=17172079

Family Applications (1)

Application Number Title Priority Date Filing Date
JP24802498A Expired - Fee Related JP3307336B2 (ja) 1998-09-02 1998-09-02 文書検索方法および文書検索装置並びに文書検索プログラムを記録した記録媒体

Country Status (1)

Country Link
JP (1) JP3307336B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014136173A1 (ja) * 2013-03-04 2014-09-12 三菱電機株式会社 検索装置
WO2020071252A1 (ja) * 2018-10-04 2020-04-09 昭和電工株式会社 文書検索装置、文書検索プログラム、文書検索方法
CN113474767A (zh) * 2019-02-14 2021-10-01 昭和电工株式会社 文件检索装置、文件检索系统、文件检索程序及文件检索方法

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014136173A1 (ja) * 2013-03-04 2014-09-12 三菱電機株式会社 検索装置
JP5951105B2 (ja) * 2013-03-04 2016-07-13 三菱電機株式会社 検索装置
WO2020071252A1 (ja) * 2018-10-04 2020-04-09 昭和電工株式会社 文書検索装置、文書検索プログラム、文書検索方法
JPWO2020071252A1 (ja) * 2018-10-04 2021-09-02 昭和電工株式会社 文書検索装置、文書検索プログラム、文書検索方法
TWI794547B (zh) * 2018-10-04 2023-03-01 日商昭和電工股份有限公司 文書檢索裝置、文書檢索程式、文書檢索方法
US11755659B2 (en) 2018-10-04 2023-09-12 Resonac Corporation Document search device, document search program, and document search method
US12086189B2 (en) 2018-10-04 2024-09-10 Resonac Corporation Document search device, document search program, and document search method
CN113474767A (zh) * 2019-02-14 2021-10-01 昭和电工株式会社 文件检索装置、文件检索系统、文件检索程序及文件检索方法
CN113474767B (zh) * 2019-02-14 2023-09-01 株式会社力森诺科 文件检索装置、文件检索系统、文件检索程序及文件检索方法

Also Published As

Publication number Publication date
JP3307336B2 (ja) 2002-07-24

Similar Documents

Publication Publication Date Title
US7293229B2 (en) Ensuring proper rendering order of bidirectionally rendered text
EP0447157B1 (en) Data format conversion
AU719368B2 (en) Font sharing system and method, and recording medium storing program for executing font sharing method
US7480861B2 (en) System and method for converting between text format and outline format
EP0109614B1 (en) Methodology for transforming a first editable document form prepared by an interactive text processing system to a second editable document form usable by an interactive or batch text processing system
US7676741B2 (en) Structural context for fixed layout markup documents
US8526744B2 (en) Document processing apparatus and computer readable medium
US20020144226A1 (en) Digital content production system and digital content production program
JP3307336B2 (ja) 文書検索方法および文書検索装置並びに文書検索プログラムを記録した記録媒体
US6668355B1 (en) Text editing system
JP2763227B2 (ja) 書式決定方法
US5617120A (en) Two-relation icon ranking and selecting method
US5185854A (en) Document processing apparatus having a ruled line print control function
JP3870672B2 (ja) 文書ファイリング装置
JPH10254908A (ja) 電子メール内容分類装置
JPH0668748B2 (ja) 文書整形方法
JP3466761B2 (ja) 文書処理装置及びその制御方法
JPH023846A (ja) データ・エンテイテイのセグメントの転送方法
JPH08190570A (ja) 文書データの比較検証システム
JPH08129549A (ja) 文書処理装置
JP2575947B2 (ja) 文節切出し装置
JP2969751B2 (ja) 文字認識処理方式
JP3037046B2 (ja) ネットワーク構成定義文リスト編集方式
JP2011123848A (ja) 印刷システム
JPS6366665A (ja) 文書解析整形装置

Legal Events

Date Code Title Description
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20020416

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090517

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100517

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110517

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110517

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120517

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120517

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130517

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140517

Year of fee payment: 12

LAPS Cancellation because of no payment of annual fees