JP2000076292A - 文書検索方法および文書検索装置並びに文書検索プログラムを記録した記録媒体 - Google Patents
文書検索方法および文書検索装置並びに文書検索プログラムを記録した記録媒体Info
- Publication number
- JP2000076292A JP2000076292A JP10248024A JP24802498A JP2000076292A JP 2000076292 A JP2000076292 A JP 2000076292A JP 10248024 A JP10248024 A JP 10248024A JP 24802498 A JP24802498 A JP 24802498A JP 2000076292 A JP2000076292 A JP 2000076292A
- Authority
- JP
- Japan
- Prior art keywords
- search
- expression
- word
- character
- document
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims description 59
- 230000014509 gene expression Effects 0.000 claims abstract description 96
- 239000000470 constituent Substances 0.000 claims description 43
- 238000012545 processing Methods 0.000 claims description 35
- 238000012937 correction Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 4
- 238000012544 monitoring process Methods 0.000 description 4
- 238000002474 experimental method Methods 0.000 description 3
- 238000004590 computer program Methods 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 239000002360 explosive Substances 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000004904 shortening Methods 0.000 description 2
- 241001389010 Tuta Species 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000002250 progressing effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
も、類似文字列の個数の増加が抑えられ、その結果処理
時間と処理メモリ量の爆発的な増加を抑えることが可能
な文書検索方式を提供すること。 【解決手段】 類似文字による置き換えを行う前に、検
索式を構成する各単語を予め定めた規則に従って分割
し、その分割してできた文字列を論理積で結合した部分
的な検索式を作成し、その部分的な検索式を用いて元の
検索式中の各単語を置き換えておくことことにより、文
書の検索を行う。
Description
び文書検索装置並びに文書検索プログラムを記録した記
録媒体に関し、特に、文書画像を文字認識した後などの
誤りを含むテキストに有用な文書検索方法および文書検
索装置並びに文書検索プログラムを記録した記録媒体に
関する。
電子化し、さらにそれを文字認識(OCR:Optical Cha
racter Reader )にかけて保存する文書画像ファイリン
グシステムが開発され、すでに商品ともなっている。そ
の非常に大規模なものとして、電子図書館システムなど
も開発が進んでいる。電子化した文書画像を蓄積・検索
するこのようなシステムでは、文字認識後のテキストを
文書画像に対応付けて保存し、検索のインデクスに使
う。ユーザは、蓄積された文書画像から所望のものを得
るため、任意の文字列を論理和、あるいは論理積演算子
で組み合わせた検索式を入力し、検索要求を出す。検索
処理では、文字認識後のテキストを既存の文字列照合技
術に基づいて検索し、結果として検索要求を満たす文字
列を含むと思われる文書画像、あるいはその文書画像を
文字認識した後のテキストを出力する。
まれる。この原因には、認識技術の限界という問題だけ
でなく、画像の解像度やノイズの混入などさまざまな要
因があり、現状の技術では避けることができない。した
がって、文字認識後のテキストを、普通のテキストと同
様に、入力された検索式中の文字列の完全一致を基本と
して全文検索すると、検索もれが発生するという問題が
ある。
として、検索式に含まれる単語(以下「検索式構成単
語」)の各文字を、文字認識で混同しやすい文字(以下
「類似文字」)で置き換えた文字列(以下「類似文字
列」)群を作成し、それらを論理和で結合した検索式
(以下「類似文字拡張検索式」)を新たに生成し、元の
検索式に置き換えて検索する防ぐ方法がある。特許出願
例としては、特開平4−158478号公報の「情報の
検索方法および情報蓄積装置」、特開平6−19538
7号公報の「文書検索装置」、特開平7−152774
号公報の「文書検索方法および装置」、特開平8−18
0064号公報の「文書検索方法及び文書ファイリング
装置」などがある。
による検索式構成単語の拡張で作られる類似文字列の個
数は、その元となる単語の長さに関して指数関数的に増
大する。文字数10の単語について、各文字が平均して
5つの類似文字(自分自身も含む)を持つとすれば、5
の10乗、すなわち9865625個の類似文字列が作
られ、さらに類似文字拡張検索式はそれらが論理和で結
合されたもとのなる。検索における処理時間および処理
メモリ量は、一般に、検索式を構成する単語数や文字数
に比例するので、この類似文字拡張検索式を使った検索
処理は、検索時間と処理メモリ量を大幅に浪費すること
になる。
80064号公報の「文書検索方法及び文書ファイリン
グ装置」に記載されている技術は、ある一定個数以上の
類似文字列を生成しないように制御することが述べられ
ている。しかし、いくつかの類似文字列を生成しない方
式では、検索もれが発生する危険を残すことになる。
的は、長い文字列を多くの類似文字で置き換えても、類
似文字列の個数の増加が抑えられ、その結果処理時間と
処理メモリ量の爆発的な増加を抑えることが可能で、か
つ検索精度が大幅には低下しない、利用者にとって快適
な、文書検索方法および文書検索装置並びに文書検索プ
ログラムを記憶した記憶媒体を提供することにある。
目的を達成するために、検索式構成単語から類似文字列
群を作る前に、検索式構成単語を予め定めた規則に基づ
いて分割し、その分割された文字列を論理積で結合して
部分的な検索式を作成し、その作成した部分的な検索式
で元の検索式構成単語を置き換える「文字列ずらし分割
手段」を設けた。
可能とするため、文字列ずらし分割手段で行う分割処理
のパラメータを決定する、「ずらし分割定数決定手段」
を設けた。ずらし分割定数決定手段は、検索要求入力手
段で入力される検索式、検索処理監視手段によって得ら
れる検索処理の進行状況、あるいは検索データの特性情
報の少なくともどれか1つを参照して実行される。
面を参照して説明する。
1の実施の形態の構成例を示すブロック図である。
認識した結果のテキストは、検索データ1aにすでに格
納されているものとする。認識結果のデータ構造、画像
の格納形式、あるいは認識結果と画像の対応付けなど
は、この分野の従来技術をそのまま用いることができ
る。なお、画像とそれを認識した結果は1対1に対応づ
けられており、それらは一意の情報(例えば識別番号)
で指定することができるとする。また、検索式に対する
検索結果は、その検索式を満たす文字列を含んでいる文
書画像(複数枚の画像から構成されていてもよい)を一
意に指し示す情報(例えば識別番号)を返すものとす
る。
検索要求として、検索式を入力する。図2は、その検索
式の例である。2aは検索式全体を、2bはその検索式
を構成する単語、すなわち検索式構成単語の例である。
この例では、“コンピュータ”、“計算機”、“システ
ム”という3つの単語が、括弧、“+”、“*”の記号
で結合されている。“+”は、検索式において論理和、
すなわち“+”の両側にある式のどちらかが満たされれ
ば検索成功と見なすこと、“*”は、検索式において論
理積、すなわち、“*”の両側にある式の両方が同時に
満たされれば、検査成功と見なすこととする。括弧は、
検索式内の演算の優先順位を示すものとする。この図2
の例では、“コンピュータ”、“計算機”のどちらかが
含まれており、かつ“システム”という単語が含まれて
いる文書画像の検索を要求している。
要求入力手段1bで入力された検索式に含まれる各検索
式構成単語を、予め決めた規則に従って分割する。分割
は重複を持たせて行ってもよい。検索精度の面から考え
るとむしろ重複部分のある方が望ましい。図3は、2a
に示した検索式の例に含まれる各検索式構成単語を、分
割長3、ずらし幅1の文字列に分割した結果である。こ
こでの分割長とは、分割した結果として作られる文字列
の長さ、ずらし幅とは、直前に分割して切り出した文字
列に対して、次の分割開始位置を何文字分ずらすかを意
味する。この例では、例えば“コンピュータ”に対し
て、“コンピ”、“ンピュ”、“ピュー”、“ュータ”
の4つの文字列が切り出されている。
索式構成単語ごとにこの分割して作られた文字列を論理
積で結合し、それによって元の検索式構成単語を置き換
える。図4は、図3に示した“コンピュータ”に対する
分割例を論理積で結合した例である。この作成された部
分的な検索式で元の“コンピュータ”という検索式構成
単語を置き換えて、新たな検索式を作成する。その他の
検索式構成単語、“計算機”、“システム”についても
同様に処理を行う。図5は、図3および図4の例から、
文字列ずらし分割手段1cによって最終的に作成された
出力の例を示す。
分割手段1cから出力された新たな検索式中の各検索式
構成単語を、OCRで誤りやすい文字で展開して、類似
文字拡張検索式を作成する。図6は、OCRで誤りやす
い文字を格納した類似文字テーブルの例である。左側の
文字をOCRで認識しようとした場合、右側の複数の文
字が誤りとしてよく現れることを示している。例えば、
「コ」という文字をOCRは「ユ、ュ、口、ロ」などに
間違いやすいことを示している。このテーブルは、OC
Rの認識実験を通して、作成することができる。例え
ば、文字の誤り確率をテーブルにした混乱行列(confus
ion matrix)の値が、ある一定以上のものをリストアッ
プして登録すればよい。
索式構成単語に対し、まず類似文字テーブルを参照しな
がら、OCRの誤りによって出現し得る文字列をすべて
生成する。具体的には、検索式構成単語に含まれる各文
字を、類似文字テーブルに登録されている類似文字に置
き換えて、類似文字列を作成する。図7は、“コン
ピ”、“ンピュ”、“ピュー”、“ュータ”のそれぞれ
について、生成される類似文字列の例を示す。これらは
図6の類似文字テーブルを参照して作成した例である。
の置き換えを行って生成される類似文字列の数は、その
検索式構成単語を構成する各文字の類似文字の数(自分
自身、例えば、“あ”の類似文字として“あ”も含めて
数える)の積となる。例えば、図6の類似文字テーブル
では、“コ”に対しては自分自身を含んで5つ、“ン”
に対しても5つ、“ピ”に対して6つの類似文字が定義
されていることになる。したがって、そこから“コン
ピ”に対して生成される類似文字列の個数は、それらの
積で150となる。
作成の後、検索式構成単語ごとにこの類似文字列群を論
理和で結合し、元の検索式構成単語と置き換える。図8
は、“コンピ”から類似文字展開手段1dによって生成
された類似文字列を論理和で結合した部分的な検索式の
例であり、これで“コンピ”という検索式構成単語を置
き換える。最初に入力された検索要求に含まれた“コン
ピュータ”に対する文字列ずらし分割によって生成され
た残りの文字列、“ンピュ”、“ピュー”、“ュータ”
に対しても同じ処理が施される。すなわち、類似文字列
群が作成され、論理和で結合された検索式が作られ、元
の検索式構成単語と置き換える。またさらに、最初に入
力された検索要求に含まれていた“計算機”、“システ
ム”という単語に対し文字列ずらし分割手段から生まれ
た文字列に対しても、同様である。図9は、類似文字展
開手段1dによって最終的に生成される検索式の例であ
る。たまたま、“計算機”に関しては文字列ずらし分割
手段1cでも分割されず、また類似文字展開手段1dで
も類似文字が見つからず、入力された検索式の単語と同
じ文字列となった。
でまた新たに生成された検索式により、検索データ1a
に含まれる認識結果のテキストを検索する。この部分に
は、従来からある全文検索での完全一致検索技術がその
まま使える。検索結果としては、検索された文書画像を
一意に識別する情報が得られる。複数の文書が検索条件
に該当する場合は、すべての文書についての情報を出力
する。
索結果をもとに検索データ1aから必要な情報を取り出
し、検索結果を出力する。出力形態としては、画像をデ
ィスプレイに出力する、OCR後のテキストを出力す
る、あるいはその両方を出力するなど、利用者の希望に
応じて、いくつか考えられる。
索式を構成する文字列の個数や文字数は、類似文字を使
って展開する元の文字列の長さ、置き換えに使う類似文
字の個数に大きく依存する。特に、文字列の長さに対し
ては、べき乗のオーダーで増加する。一般に、検索式中
の単語数や文字数に比例して処理時間や処理メモリが増
加するので、これは大きな問題となる。
1cにおいて、分割長を3としたため、最大で長さ3の
文字列を類似文字展開手段1dでは処理することになっ
た。もちろん、分割長をこの例での3に固定する必要は
なく、それより長い、あるいは短い値に設定することも
可能である。例えば、図10は分割長を4、ずらし幅を
1とした例である。
字を使った展開で作られる文字列の個数は減少し、検索
処理自体は高速になるが、本来は検出すべきでない文書
を検出してしまうケースが生じる。例えば、極端な例
で、長さを1、すらし幅を1としてずらし分割を行った
場合、1つの検索式構成単語に対して作られる類似文字
列の個数は、検索式構成単語の全文字の類似文字数の合
計となる。したがって、類似文字列の数の爆発的増加は
起こらないが、それによって作られる部分的な検索式
は、そのどれかの文字が含まれている文書の検索を意味
するものとなってしまう。つまり、分割をあまり短い単
位で行うと、検索式構成単語に含まれていた文字の位置
関係情報が欠落してしまうため、本来は検索すべきでな
い余分な検索結果が発生することになる。
索は減少するが類似文字列数の増加による検索時間の増
加、メモリの浪費が起こる。すなわち、分割する長さに
対してこの2つはトレードオフの関係にあり、それを適
切に選択することで、処理量を抑えて高い検索精度を保
てることになる。
らし幅についても同様である。ずらし幅が大きいと、元
の検索式構成単語に含まれていた文字自身、あるいは文
字の位置関係情報が欠落してしまうため、余分な検索結
果が増加する。しかし、最終的に作られる類似文字拡張
検索式に含まれる検索式構成単語の数あるいは文字数が
少なくなり、検索処理が高速になるという利点がある。
ずらし幅を長くした場合はその逆の特性となるので、こ
れもトレードオフの関係である。どのような分割を行う
かは検索の様々な特性を事前にあるいは検索中に考慮
し、設定するのが望ましい。
第2の実施の形態の構成例を示すブロック図である。図
1に示した第1の実施の形態の構成例に対し、ずらし分
割定数決定手段11gが文字列ずらし分割手段11cの
前に、検索処監視手段11hが検索手段に接続して加え
られている。その他の構成要素の動作については、図1
に示した第1の実施の形態と同じであるので説明を省略
する。
ずらし分割手段11cで行われる処理に関連する動作パ
ラメータを、検索要求の内容、検索処理の進行状況、検
索データの特徴に基づいて決定する役割がある。
の処理フローの例である。ここでは、検索式はn個の検
索式構成単語から生成されているとする。そして、各検
索式構成単語に関して、分割長Wk(1≦k≦n)、ず
らし幅Sk(1≦k≦n)を決めるものとする。
は、初期化処理12bの流れ図の例である。kを1〜n
まで変化させながら、Wkに3、Skに1をセットして
いる。つまり、どの検索式構成単語についても、分割長
3、ずらし幅1でずらし分割することを、初期状態とし
て設定していることになる。もちろん、別の値をセット
してもかまわない。
索処理の状況、検索データの特性など、検索にかかる情
報を考慮し、WkとSkを必要に応じて部分的に変更す
ることで、状況に応じて適切に、検索速度と検索精度の
調整を行う。
正処理の流れ図の例である。この例では、ユーザの入力
した検索要求を参照して、ずらし分割処理に用いるパラ
メータを変更している。一般に、片仮名は文字が単純な
図形であり、また類似の形状も多いことから文字認識が
難しい。したがって類似文字も多くなりがちで、Wkを
長くすると類似文字列の数が爆発的に増加する危険があ
る。そこで、検索式構成単語が片仮名列の場合、Wkを
1だけ短く設定し、またSkを1だけ長く設定すること
で、類似文字列の数を抑えている。一方、漢字列に対し
ては、片仮名と逆の特性を持っているので、Wkを長く
しても、類似文字列の数がそれほど多くはなりにくい。
したがって、Wkを1だけ長くし、またSkも1だけ短
くしている。ただし、Skが0ではずらし分割が成立し
ないので、1以上の値となるようにしている。それ以外
のケースでは、初期値として設定されたWkとSkをそ
のままとしている。
正処理の流れ図の例である。これも、検索要求を参照し
た処理である。検索式の単語が論理和で結合されている
場合、どちらかが満たされればよいので、検索結果が多
くなりがちである。そのとき、Wkをあまり短くする
と、その短い類似文字列のどれかが文書中に検出される
可能性も高まるため、不要文書が検出される可能性がさ
らに増える。そこで、論理和で結合された検索要求の場
合、その両端の検索式構成単語の分割に際しWkを長く
することで、不要文書の過剰検索を防ぐことができる。
逆に、検索式の単語が論理和で結合されている場合、検
索結果があまり多くならない傾向となるので、Wkを短
くして、展開されるずらし分割類似文字列の個数を減ら
すことで、精度に大きな影響を出さずに処理速度を上げ
ることができる。
の補正処理の別の例である。これは、検索処理の進行状
況を参照し、分割の方法を調整するものである。この例
は、1つの検索システムを、ネットワーク等を介して複
数のユーザで共用している場合に有効である。処理で
は、図11の11hの検索処理監視手段から、検索処理
の進捗状況を受け取り、もし現在、検索処理が別のユー
ザの検索処理を実行している、あるいは次の検索処理の
ために待たされている検索要求があるならば、Wkを短
く、Skを長くすることにより、類似文字列の生成数を
抑制する。これにより、ユーザへの検索結果の返答(タ
ーンアラウンドタイム)を改善することができる。
ある。これは検索データの特性を参照することを特徴と
している。まず、検索データの特性の一例として、字種
別の含有率を取得する。そして、検索式構成単語が片仮
名列であり、また検索データがある一定以上の片仮名含
有率であれば、Wkを長く、Skを短くして、不要文書
の過剰な誤検索を防ぐように、パラメータを変更してい
る。検索対象の文書に片仮名の含有率が多いということ
は、片仮名の文字列がたくさんあるということであり、
Wkが短いと、不要な文書が誤って検索されるケースの
増加する危険が高いので、その問題への対処である。
の補正処理の例として、検索要求を参照するもの2例、
検索処理の進行状況を参照するもの1例、検索データの
特性を参照するもの1例をそれぞれ別々に示したが、こ
れらの処理は多段に接続して、同じ検索式の処理に適用
してもよい。
するためするため、例えば上記した第1の実施の形態に
おいては、コンピュータの内部に上記した文字列ずらし
分割手段1c、類似文字展開手段1d、検索手段1e等
が持つ機能をコンピュータに実現するコンピュータプロ
グラムを作成し、そのコンピュータプログラムをCD−
ROMやフロッピーディスクや半導体メモリに代表され
る記録媒体に記録されて提供される形態でも本発明の効
果は失われない。また、第2の実施の形態においても同
様である。
に類似文字展開を行うことにより、類似文字展開手段で
作られる類似文字列の数を大幅に減らすことができる。
例えば、長さ10の文字列で各文字についてそれぞれ5
つの類似文字がある場合、そのまま類似文字展開を行う
と、長さ10の類似文字列が5の10乗で、文字数では
97656250となってしまう。これは、処理時間と
処理メモリ量を多く必要とするという問題を生む。これ
に対し、分割長3、ずらし幅1で分割した後に類似文字
による展開を行うと、長さ3の類似文字列が8*5の3
乗=1000、文字数では3000で済む。この結果、
検索時間の短縮、処理に必要なメモリ量の削減が達成さ
れる。
位置関係情報が一部失われることから、本来検索すべき
でないテキストを過剰検索するケースが発生する危険が
ある。これに対しては、日本語の特許を対象にした実験
により、分割長3以上ずらし幅1で分割すると、過剰検
索は1%以下に抑えられるなど、ある条件では実用上大
きな問題とならないことを実験で確認した。もちろん、
文書の種類やOCRの性能に依存する部分もあるが、そ
れらの特性を加味して分割の規則や定数を決めることに
より、検索精度にほとんど影響を出さず、高速な検索
を、既存の全文検索エンジンを利用して実現することが
可能となる。
割長とずらし幅を、検索にかかる情報、例えば検索要
求、検索処理の進行状況、検索対象のデータの特性によ
って検索処理中に適応的に調整する。これにより、処理
時間や処理速度のバランスが自動的に適切に設定され、
利用者に対してストレスのない検索環境を提供すること
ができる。
を示すブロック図である。
例である。
した例である。
の例である。
る。
である。
割した例である。
例を示すブロック図である。
である。
Claims (20)
- 【請求項1】単語の論理和や論理積等で記述された検索
式を用いて、テキストを検索する文書検索方法におい
て、 予め定めた規則を参照して該検索式を構成する各単語を
分割する第1のステップと、 前記第1のステップによって分割してできた文字列を論
理積で結合した部分的な検索式を作成する第2のステッ
プと、 前記第2のステップによって作成された検索式を用いて
前記テキストを検索する第3のステップと、 を含むことを特徴とする文書検索方法。 - 【請求項2】単語の論理和や論理積等で記述された検索
式を用いて、テキストを検索する文書検索方法におい
て、 予め定めた規則を参照して該検索式を構成する各単語を
分割する第1のステップと、 前記第1のステップによって分割してできた文字列を論
理積で結合した部分的な検索式を作成する第2のステッ
プと、 前記第2のステップで作成された検索式中の各構成単語
について、その単語を構成する各文字を誤りやすい類似
文字で置き換えた類似文字列群を作成し、その類似文字
列群を論理和で結合した検索式を作成する第3のステッ
プと、 前記第3のステップで作成された検索式を用いて前記テ
キストを検索する第4のステップと、 を含むことを特徴とする文書検索方法。 - 【請求項3】請求項1または2記載の文書検索方法にお
いて、 前記第1のステップで参照される該規則を、検索要求の
内容に基づいて決定する第5のステップを含むことを特
徴とする文書検索方法。 - 【請求項4】請求項1または2記載の文書検索方法にお
いて、 前記第1のステップで参照される該規則を、検索処理の
進行状況に基づいて決定する第5のステップを含むこと
を特徴とする文書検索方法。 - 【請求項5】請求項1または2記載の文書検索方法にお
いて、 前記第1のステップで参照される該規則を、検索対象と
なるテキストの特徴に基づいて決定する第5のステップ
を含むことを特徴とする文書検索方法。 - 【請求項6】主に文字認識された後の誤りを含むテキス
トを、単語の論理和や論理積で記述された検索式を用い
て検索する際に、該検索式中の各単語について、その単
語を構成する各文字を該文字認識で誤りやすい類似文字
で置き換えた類似文字列群を作成し、さらにその類似文
字列群を論理和で結合した部分的な検索式を作成し、そ
の部分的な検索式を用いて元の検索式中の各単語を置き
換えた後に検索を行う文書検索方法において、 類似文字による置き換えを行う前に、該検索式を構成す
る各単語を予め定めた規則に従って分割し、 その分割してできた文字列を論理積で結合した部分的な
検索式を作成し、 その部分的な検索式を用いて元の検索式中の各単語を置
き換えることを特徴とする文書検索方法。 - 【請求項7】主に文字認識された後の誤りを含むテキス
トを、単語の論理和や論理積で記述された検索式を用い
て検索する際に、該検索式中の各単語について、その単
語を構成する各文字を該文字認識で誤りやすい類似文字
で置き換えた類似文字列群を作成し、さらにその類似文
字列群を論理和で結合した部分的な検索式を作成し、そ
の部分的な検索式を用いて元の検索式中の各単語を置き
換えた後に検索を行う文書検索方法において、 類似文字による置き換えを行う前に、検索にかかる情報
を参照して検索式を構成する各単語を分割する処理に関
連するパラメータを決定し、 そのパラメータに従って検索式を構成する各単語を分割
し、 その分割してできた文字列を論理積で結合した部分的な
検索式を作成し、 その部分的な検索式を用いて元の検索式中の各単語を置
き換えておくことを特徴とする文書検索方法。 - 【請求項8】前記パラメータを決定する際に参照する情
報が、検索式の特性であることを特徴とする請求項7記
載の文書検索方法。 - 【請求項9】前記検索式の特性は、検索式を構成する各
単語の字種あるいは長さ、あるいは検索式を構成する論
理演算子の種類の少なくともいずれか1つであることを
特徴とする請求項8記載の文書検索方法。 - 【請求項10】前記パラメータを決定する際に参照する
情報が、検索処理の進行状況であることを特徴とする請
求項7記載の文書検索方法。 - 【請求項11】前記検索処理の進行状況は、すでに要求
されている検索処理の検索処理内部における混雑度であ
ることを特徴とする請求項10記載の文書検索方法。 - 【請求項12】前記パラメータを決定する際に参照する
情報が、検索対象のデータの特性であることを特徴とす
る請求項7記載の文書検索方法。 - 【請求項13】前記検索対象のデータの特性は、検索対
象のデータに含まれる文字の種類別含有率であることを
特徴とする請求項12記載の文書検索方法。 - 【請求項14】検索式を入力する検索要求入力手段と、 該検索式に含まれる各構成単語を予め定めた規則を参照
して分割し、その分割された文字列を論理積で結合して
元の検索式に含まれる構成単語を置き換えた第2の検索
式を作成する文字列ずらし分割手段と、 前記第2の検索式中の各構成単語について、その単語を
構成する各文字を誤りやすい類似文字で置き換えた類似
文字列群を作成し、その類似文字列群を論理和で結合し
た第3の検索式を作成する類似文字展開手段と、 前記第3の検索式に従って文字列の検索を実施する検索
手段と、 を備えることを特徴とする文書検索装置。 - 【請求項15】前記文字列ずらし分割手段が参照する規
則を、検索式の特性、検索処理の進行状況、検索対象の
データの特性のうち少なくともいずれか1つを用いて決
定するずらし分割定数決定手段を更に備え、 前記文字列ずらし分割手段は、前記ずらし分割定数決定
手段が決定した規則に従って、検索式に含まれる各構成
単語を分割することを特徴とする請求項14記載の文書
検索装置。 - 【請求項16】コンピュータに、単語の論理和や論理積
等で記述された検索式を用いて、テキストを検索させる
文書検索プログラムを記録した記録媒体において、 コンピュータに、 予め定めた規則を参照して該検索式を構成する各単語を
分割する第1のステップと、 前記第1のステップによって分割してできた文字列を論
理積で結合した部分的な検索式を作成する第2のステッ
プと、 前記第2のステップによって作成された検索式を用いて
テキストを検索する第3のステップと、 を実行させるための文書検索プログラムを記録した記録
媒体。 - 【請求項17】コンピュータに、単語の論理和や論理積
等で記述された検索式を用いて、テキストを検索させる
文書検索プログラムを記録した記録媒体において、 コンピュータに、 予め定めた規則を参照して該検索式を構成する各単語を
分割する第1のステップと、 前記第1のステップによって分割してできた文字列を論
理積で結合した部分的な検索式を作成する第2のステッ
プと、 前記第2のステップで作成された検索式中の各構成単語
について、その単語を構成する各文字を誤りやすい類似
文字で置き換えた類似文字列群を作成し、その類似文字
列群を論理和で結合した検索式を作成する第3のステッ
プと、 前記第3のステップで作成された検索式を用いて前記テ
キストを検索する第4のステップと、 を実行させるための文書検索プログラムを記録した記録
媒体。 - 【請求項18】請求項16または17記載の文書検索プ
ログラムを記録した記録媒体において、 コンピュータに、 前記第1のステップで参照される該規則を、検索要求の
内容に基づいて決定する第5のステップを実行させるた
めの文書検索プログラムを記録した記録媒体。 - 【請求項19】コンピュータに、 入力手段を介して入力された検索式に含まれる各構成単
語を予め定めた規則を参照して分割し、その分割された
文字列を論理積で結合して元の検索式に含まれる構成単
語を置き換えた第2の検索式を作成する文字列ずらし分
割機能と、 前記第2の検索式中の各構成単語について、その単語を
構成する各文字を誤りやすい類似文字で置き換えた類似
文字列群を作成し、その類似文字列群を論理和で結合し
た第3の検索式を作成する類似文字展開機能と、 前記第3の検索式に従って文字列の検索を実施する検索
機能と、 を実現するための文書検索プログラムを記録した記録媒
体。 - 【請求項20】コンピュータに、 前記文字列ずらし分割機能が参照する規則を、検索式の
特性、検索処理の進行状況、検索対象のデータの特性の
うち少なくともいずれか1つを用いて決定するずらし分
割定数決定機能を更に実現し、 前記文字列ずらし分割機能は、前記ずらし分割定数決定
機能が決定した規則に従って、検索式に含まれる各構成
単語を分割することを特徴とする請求項19記載の文書
検索プログラムを記録した記録媒体。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP24802498A JP3307336B2 (ja) | 1998-09-02 | 1998-09-02 | 文書検索方法および文書検索装置並びに文書検索プログラムを記録した記録媒体 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP24802498A JP3307336B2 (ja) | 1998-09-02 | 1998-09-02 | 文書検索方法および文書検索装置並びに文書検索プログラムを記録した記録媒体 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2000076292A true JP2000076292A (ja) | 2000-03-14 |
| JP3307336B2 JP3307336B2 (ja) | 2002-07-24 |
Family
ID=17172079
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP24802498A Expired - Fee Related JP3307336B2 (ja) | 1998-09-02 | 1998-09-02 | 文書検索方法および文書検索装置並びに文書検索プログラムを記録した記録媒体 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP3307336B2 (ja) |
Cited By (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO2014136173A1 (ja) * | 2013-03-04 | 2014-09-12 | 三菱電機株式会社 | 検索装置 |
| WO2020071252A1 (ja) * | 2018-10-04 | 2020-04-09 | 昭和電工株式会社 | 文書検索装置、文書検索プログラム、文書検索方法 |
| CN113474767A (zh) * | 2019-02-14 | 2021-10-01 | 昭和电工株式会社 | 文件检索装置、文件检索系统、文件检索程序及文件检索方法 |
-
1998
- 1998-09-02 JP JP24802498A patent/JP3307336B2/ja not_active Expired - Fee Related
Cited By (9)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO2014136173A1 (ja) * | 2013-03-04 | 2014-09-12 | 三菱電機株式会社 | 検索装置 |
| JP5951105B2 (ja) * | 2013-03-04 | 2016-07-13 | 三菱電機株式会社 | 検索装置 |
| WO2020071252A1 (ja) * | 2018-10-04 | 2020-04-09 | 昭和電工株式会社 | 文書検索装置、文書検索プログラム、文書検索方法 |
| JPWO2020071252A1 (ja) * | 2018-10-04 | 2021-09-02 | 昭和電工株式会社 | 文書検索装置、文書検索プログラム、文書検索方法 |
| TWI794547B (zh) * | 2018-10-04 | 2023-03-01 | 日商昭和電工股份有限公司 | 文書檢索裝置、文書檢索程式、文書檢索方法 |
| US11755659B2 (en) | 2018-10-04 | 2023-09-12 | Resonac Corporation | Document search device, document search program, and document search method |
| US12086189B2 (en) | 2018-10-04 | 2024-09-10 | Resonac Corporation | Document search device, document search program, and document search method |
| CN113474767A (zh) * | 2019-02-14 | 2021-10-01 | 昭和电工株式会社 | 文件检索装置、文件检索系统、文件检索程序及文件检索方法 |
| CN113474767B (zh) * | 2019-02-14 | 2023-09-01 | 株式会社力森诺科 | 文件检索装置、文件检索系统、文件检索程序及文件检索方法 |
Also Published As
| Publication number | Publication date |
|---|---|
| JP3307336B2 (ja) | 2002-07-24 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US7293229B2 (en) | Ensuring proper rendering order of bidirectionally rendered text | |
| EP0447157B1 (en) | Data format conversion | |
| AU719368B2 (en) | Font sharing system and method, and recording medium storing program for executing font sharing method | |
| US7480861B2 (en) | System and method for converting between text format and outline format | |
| EP0109614B1 (en) | Methodology for transforming a first editable document form prepared by an interactive text processing system to a second editable document form usable by an interactive or batch text processing system | |
| US7676741B2 (en) | Structural context for fixed layout markup documents | |
| US8526744B2 (en) | Document processing apparatus and computer readable medium | |
| US20020144226A1 (en) | Digital content production system and digital content production program | |
| JP3307336B2 (ja) | 文書検索方法および文書検索装置並びに文書検索プログラムを記録した記録媒体 | |
| US6668355B1 (en) | Text editing system | |
| JP2763227B2 (ja) | 書式決定方法 | |
| US5617120A (en) | Two-relation icon ranking and selecting method | |
| US5185854A (en) | Document processing apparatus having a ruled line print control function | |
| JP3870672B2 (ja) | 文書ファイリング装置 | |
| JPH10254908A (ja) | 電子メール内容分類装置 | |
| JPH0668748B2 (ja) | 文書整形方法 | |
| JP3466761B2 (ja) | 文書処理装置及びその制御方法 | |
| JPH023846A (ja) | データ・エンテイテイのセグメントの転送方法 | |
| JPH08190570A (ja) | 文書データの比較検証システム | |
| JPH08129549A (ja) | 文書処理装置 | |
| JP2575947B2 (ja) | 文節切出し装置 | |
| JP2969751B2 (ja) | 文字認識処理方式 | |
| JP3037046B2 (ja) | ネットワーク構成定義文リスト編集方式 | |
| JP2011123848A (ja) | 印刷システム | |
| JPS6366665A (ja) | 文書解析整形装置 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20020416 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090517 Year of fee payment: 7 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100517 Year of fee payment: 8 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110517 Year of fee payment: 9 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110517 Year of fee payment: 9 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120517 Year of fee payment: 10 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120517 Year of fee payment: 10 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130517 Year of fee payment: 11 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140517 Year of fee payment: 12 |
|
| LAPS | Cancellation because of no payment of annual fees |