[go: up one dir, main page]

JP3554459B2 - Text data registration search method - Google Patents

Text data registration search method Download PDF

Info

Publication number
JP3554459B2
JP3554459B2 JP04190497A JP4190497A JP3554459B2 JP 3554459 B2 JP3554459 B2 JP 3554459B2 JP 04190497 A JP04190497 A JP 04190497A JP 4190497 A JP4190497 A JP 4190497A JP 3554459 B2 JP3554459 B2 JP 3554459B2
Authority
JP
Japan
Prior art keywords
document
update
character component
search
component file
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP04190497A
Other languages
Japanese (ja)
Other versions
JPH10240754A (en
Inventor
敦 畠山
俊一 鳥居
信男 河村
靖司 川下
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP04190497A priority Critical patent/JP3554459B2/en
Priority to CA002218270A priority patent/CA2218270C/en
Priority to US08/956,481 priority patent/US6003043A/en
Publication of JPH10240754A publication Critical patent/JPH10240754A/en
Application granted granted Critical
Publication of JP3554459B2 publication Critical patent/JP3554459B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99941Database schema or data structure
    • Y10S707/99943Generating database or data structure, e.g. via user interface
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99951File or database maintenance
    • Y10S707/99952Coherency, e.g. same view to multiple users
    • Y10S707/99953Recoverability
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99951File or database maintenance
    • Y10S707/99952Coherency, e.g. same view to multiple users
    • Y10S707/99954Version management

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、登録されたテキストデータを検索するテキストデータ登録検索方法に関し、特に、所定の文字列である検索語を指定して文書の全文を対象として文書データベースを検索することにより所望の文書を得るテキストデータ登録検索方法に適用して有効な技術に関するものである。
【0002】
【従来の技術】
従来、大量な文書を格納した文書データベースを検索する文書検索方法が種々提案されている。その1つである連接文字情報を用いてフルテキストサーチを効率的に行い、検索ノイズを低減すると共に処理時間を短縮し、ディスク使用量を削減する文書検索方法については特開平8−190571号公報に記載されている。
【0003】
その概要は、文書のテキストデータにおける複数の文字の共起関係を記述した連接文字を連接文字ファイルに重複なく格納する連接文字格納ステップと、前記連接文字ファイルに格納された連接文字を参照して、指定した条件式中の検索語に含まれる連接文字を含む文書を検索結果の候補とする文書検索方法において、前記連接文字格納ステップとして、テキストデータ中に現れる連接文字成分の種類及び各連接文字成分の出現する文書数を算出し、算出された前記文書数が所定の閾値より大きい場合は該当文書の文書番号に対応する位置を“1”とするビット列として登録し、前記閾値より小さい場合には該当文書の文書番号をバイナリデータとして格納するものである。
【0004】
これは、文書中の全ての連接文字成分について文書番号を連接文字成分表へ登録し、検索時に、検索語に含まれる全ての連接文字成分を含む文書を該連接文字成分表を参照して探す方法であり、ここで用いる連接文字成分表は、各連接文字成分毎に、その連接文字成分が出現した文書の識別子すなわち文書番号を列挙するものである。
【0005】
【発明が解決しようとする課題】
ところで、前記従来の文書検索方法では、文書中の全ての連接文字成分について文書番号を連接文字成分表へ登録するが、多くの文書を格納したデータベースではそれらの文書中に出現する連接文字の数は膨大な量になり、登録時にはその膨大な量の連接文字の種類数分のファイルアクセスが必要となってくる。この為、特に大規模なデータベースに文書を登録したり、登録済みの文書の更新や削除を行う場合には、非常に長い処理時間を必要とするという問題がある。
【0006】
例えば、データベースから特定の文書を削除する場合には、文字成分ファイルに登録してある全ての文字成分に対して、該当する文書番号を全て削除する必要がある。しかし、大規模なデータベースでは文字成分ファイルの容量がGByteオーダになることもあり、オンラインでのこの様な大規模のデータベース更新処理は不可能である。
【0007】
本発明の目的は、よりトランザクションの処理性能を向上することが可能な技術を提供することにある。
【0008】
本発明の前記並びにその他の目的と新規な特徴は、本明細書の記述及び添付図面によって明かになるであろう。
【0009】
【課題を解決するための手段】
本願によって開示される発明のうち、代表的なものの概要を簡単に説明すれば、下記のとおりである。
【0010】
すなわち、指定した検索語を含む文書を文書中の文字の出現関係を参照して検索するテキストデータ登録検索方法において、登録要求のあったテキストデータの文字の出現関係を更新用バッファに一旦登録して検索に用いるものである。
【0011】
前記テキストデータ登録検索方法では、以下のステップを有するテキストデータの登録検索方法を用いて上記課題を解決する。
【0012】
(1)更新文書番号登録ステップ
新たな更新、削除或いは登録要求のあった文書について、その文書番号を更新文書番号リストに登録する。
【0013】
(2)更新用テキストバッファ作成ステップ
新たな更新、登録要求のあった文書について、そのテキストデータを更新用テキストバッファに登録する。
【0014】
通常の登録処理は上記(1)の更新文書番号登録ステップとこの更新用テキストバッファ作成ステップで処理する。
【0015】
(3)文字成分ファイルマージ条件判定ステップ
更新用テキストバッファに一時的に貯えられたテキストデータを、文字成分ファイルに登録するタイミングを決定する。このタイミングとは、以下のいずれか1つ若しくは、複数の条件が成立した場合である。
【0016】
(a)システム管理者からの要求があった場合
(b)定められた一定数の文書が更新用テキストバッファに登録された場合
(c)更新文書番号登録ステップ及び更新用テキストバッファ作成ステップの、更新文書番号リストと更新用テキストバッファへの登録処理に要する時間が、定められた量を越えた場合
(d)更新用テキストバッファ検索ステップ及び検索結果マージステップの処理に要する時間が、定められた量を越えた場合
(e)定められた時刻になった場合。
【0017】
(4)文字成分ファイルマージステップ
上記(3)の文字成分ファイルマージ条件判定ステップで、定められた条件がそろった時に動作し、更新用テキストバッファに一時的に貯えられたテキストデータを文字成分ファイルに登録する。
【0018】
上記(1)更新文書番号登録ステップで作成した更新文書番号リストに登録されている文書番号を文字成分ファイルから削除し、上記(2)更新用テキストバッファ作成ステップで作成した更新用テキストバッファのテキストデータの有する文字成分について、該当文書番号を文字成分ファイルへ追加登録する。
【0019】
(5)文字成分ファイル検索ステップ
検索時において、既に文字成分ファイルに登録されているデータを検索する。
【0020】
(6)更新用テキストバッファ検索ステップ
検索時において、まだ文字成分ファイルに登録されていないデータ、すなわち更新用テキストバッファに格納されたテキストデータを検索する。
【0021】
(7)検索結果マージステップ
検索時において、上記(5)文字成分ファイル検索ステップで検索した結果に対して、更新削除のあった文書すなわち更新文書番号リストに格納されている全ての文書番号を無効文書として検索結果から削除し、(6)更新用テキストバッファ検索ステップで得られた結果を追加する。
【0022】
これらのステップにより、文書の登録時には処理の軽い更新文書番号リストと更新用テキストバッファへの登録で終了し、レスポンスタイムを短くすることができる。
【0023】
前記の様に更新文書番号リストと更新用テキストバッファを設けたことにより、検索処理は文字成分ファイルと更新用テキストバッファの両方を検索対象とすることになる。
【0024】
しかし、この更新用テキストバッファ検索処理は、更新用テキストバッファの大きさに依存し、小さな更新用テキストバッファの場合には、検索処理に及ぼす影響が少ない。すなわち、前記テキストデータ登録検索方法によれば、検索処理効率の劣化を最小限に抑え、登録処理の速度性能を向上させることができる。
【0025】
更新用テキストバッファの大きさは、登録処理に要する時間にも影響する。すなわち、この更新用テキストバッファは、その容量の大きさに従って、登録と検索処理に要する時間が大きくなっていく。
【0026】
その為、(3)文字成分ファイルマージ条件判定ステップに示した条件に従って、(4)文字成分ファイルマージステップで更新用テキストバッファのテキストデータを元に、新しい情報を文字成分ファイルへ追加登録する。
【0027】
これにより、更新用テキストバッファの大きさが適正な量に保たれ、登録、検索処理とも適正なレスポンス性能を維持することができる。すなわち、検索処理の性能に及ぼす影響を最小限にして、なおかつ登録処理性能を向上することができる。
【0028】
以上の様に、前記テキストデータ登録検索方法によれば、文書の登録時では処理の軽い更新文書番号リストと更新用テキストバッファへの登録で終了することができるので、よりトランザクションの処理性能を向上することが可能である。
【0029】
【発明の実施の形態】
以下に、本発明のテキストデータ登録検索方法において、所定の文字列である検索語を指定して文書データベースを検索することにより所望の文書を得る一実施形態のテキストデータ登録検索方法を実施する実施装置について説明する。
【0030】
図1は、本実施形態のテキストデータ登録検索方法を実施する実施装置の概略構成を示す図である。図1において、100はメモリ、110は格納媒体、200はCPU、300は更新文書番号リスト、400は更新用テキストバッファ、500は文字成分ファイル、600は時計、700はメモリである。
【0031】
図1に示す様に、本実施形態のテキストデータ登録検索方法を実施する実施装置では、登録検索用の各プログラムを格納するメモリ100とプログラムの格納媒体110、それらのプログラムを実行するCPU200、更新文書番号を格納する更新文書番号リスト300、更新のあった文書のデータを格納する更新用テキストバッファ400、文字成分とその文字成分を含む文書番号を対応付けて格納した文字成分ファイル500、現在時刻を一定間隔で文字成分ファイルマージ判定ステップに報告する時計600、文字成分マージ判定ステップが判定条件として使用する各指定値を格納するメモリ700を備えている。
【0032】
まず、本実施形態のテキストデータ登録検索方法を実施する実施装置の文書の登録方法について説明する。
【0033】
図2は、本実施形態のテキストデータ登録検索方法を実施する実施装置の文書の登録処理の流れを示すPAD図である。
【0034】
図2に示す様に、本実施形態のテキストデータ登録検索方法を実施する実施装置の文書の登録処理では、登録する文書はその文書を識別する為の文書番号とテキストデータとを備えているものとする。登録処理は、文書番号を更新文書番号リスト300に登録する更新文書番号登録ステップの処理(ステップ201)と、テキスト情報を更新用テキストバッファ400に登録する更新用テキストバッファ作成ステップの処理(ステップ202)からなる。
【0035】
ステップ201である更新文書番号登録ステップでは、メモリ或いは磁気ディスク上に格納された更新文書番号リスト300に、これから登録しようとする文書の文書番号を登録する。
【0036】
図3は、本実施形態のテキストデータ登録検索方法を実施する実施装置の更新文書番号リスト300の構造を示す図である。
【0037】
図3に示す様に、本実施形態のテキストデータ登録検索方法を実施する実施装置の更新文書番号リスト300では、登録しようとする文書の文書番号である更新文書番号を数値データの配列形式で格納しており、格納している文書番号数をその配列の先頭データとして持つ構造となっている。
【0038】
ステップ202である更新用テキストバッファ作成ステップでは、文書データを更新用テキストバッファ400に追加する処理を行う。
【0039】
図4は、本実施形態のテキストデータ登録検索方法を実施する実施装置の更新用テキストバッファ400のデータ構造を示す図である。
【0040】
図4に示す様に、本実施形態のテキストデータ登録検索方法を実施する実施装置の更新用テキストバッファ400では、データディレクトリとデータ部とからなり、データディレクトリには、データ部に格納したテキストデータの開始位置と各データの長さを文書番号と共に格納している。新しい文書を登録する時は、データ部の後ろに新しいデータを書き込みディレクトリ部に書き込んだデータ部の位置とデータ長を文書番号と共に登録するだけで良い。
【0041】
この様に、更新文書番号リスト300と、更新用テキストバッファ400を設けることにより、登録処理を簡便に行うことができる。
【0042】
次に、本実施形態のテキストデータ登録検索方法を実施する実施装置の文書の検索方法について説明する。
【0043】
図5は、本実施形態のテキストデータ登録検索方法を実施する実施装置の文書の検索処理の流れを示すPAD図である。
【0044】
図5に示す様に、本実施形態のテキストデータ登録検索方法を実施する実施装置の文書の検索処理では、検索語を指定してその検索語を含む文書を既に登録した文書データから探し出し、該当する文書番号を配列として出力する。
【0045】
本実施形態のテキストデータ登録検索方法を実施する実施装置の検索処理は、文字成分ファイル500を検索する文字成分ファイル検索ステップの処理(ステップ501)と、更新用テキストバッファ400にあるデータを検索する更新用テキストバッファ検索ステップの処理(ステップ502)と、文字成分ファイル検索ステップの検索結果から更新文書番号リスト300に登録されている文書番号を削除し、更新用テキストバッファ検索ステップの結果を追加する検索結果マージステップの処理(ステップ503)からなっている。
【0046】
ステップ501である文字成分ファイル検索ステップは、文字成分ファイル500の検索語を構成する文字成分のデータを読み込み、全ての文字成分を含む文書すなわち、検索語を含む文書番号を出力する。
【0047】
図6は、本実施形態のテキストデータ登録検索方法を実施する実施装置の文字成分ファイル500の構造を示す図である。
【0048】
図6に示す様に、本実施形態のテキストデータ登録検索方法を実施する実施装置の文字成分ファイル500では、文字成分データディレクトリと文字成分データとを備えている。
【0049】
文字成分データディレクトリは、文書中の1文字以上の連接する文字列を文字成分として、その文字成分の出現する文書番号と各文書毎の出現位置を格納する文字成分データへのポインタ情報を格納している。
【0050】
例えば、図6では、「文書」という文字成分は、文字成分データファイルの先頭から23、654バイト目から、568バイト分文字成分データがある事を示している。
【0051】
文字成分データは、文書番号及び該当する文字成分の出現位置からなり、各データが文書番号を意味するのか、出現位置を意味するのかを区別する為に、文書番号フラグを各データに付加している。
【0052】
すなわち、文書番号フラグが「1」の場合には、そのデータは文書番号を意味し、「0」の場合には、そのデータは出現位置を意味しており、図6の例では、文字成分「文書」は文書番号23の56文字目と145文字目に存在することを表している。
【0053】
文字成分ファイル検索ステップでは、この様に、検索語を構成する文字成分の存在する文書と出現位置を、文字成分ファイル500から読み出して、それぞれの文字成分が隣接する文書を抽出する。
【0054】
例えば、「文書検索」という語で検索する場合は、図6の例では文字成分「文書」と「検索」という2個の文字成分の出現する文書番号と出現位置を読み出し、それぞれの文字成分の出現位置で比べることにより、正確に「文書検索」という語が出現する文書を検索することができる。
【0055】
ステップ502である更新用テキストバッファ検索ステップでは、文字成分ファイル作成以後の新しく登録された文書の検索処理を行う。
【0056】
新たに登録された文書は、図4の様に更新用テキストバッファ400に格納されている。従って、データディレクトリから各文書の文書番号やバッファ中での長さ等を読み取り、対応するテキストデータをスキャン、すなわち、一文字ずつ検索対象テキストをずらしながら検索語と一致するか判定していくことによって、新たに登録された文書の検索処理を行うことができる。
【0057】
本実施形態のテキストデータ登録検索方法を実施する実施装置では、この更新用テキストバッファ400の検索処理を更新用テキストバッファ400に格納したテキストデータをスキャンすることで実現しているが、本体の文字成分ファイル500とは別に、別途、小さい文字成分ファイル500を作成することによっても可能である。
【0058】
こうした場合、図4に示した更新用テキストバッファ400の構成は、図6に示した文字成分ファイル500と同一の構成となる。但し、更新用テキストバッファ400の文字成分ファイル500に格納されるデータは、あくまで新たに登録されたテキストデータのみである。
【0059】
この様に、更新テキストバッファの構成をフラットなテキストから、文字成分ファイル500と同じ構成とすることによって、検索処理を速めるという効果がある。
【0060】
また、更新用テキストバッファ400は、実メモリ上にあっても良いし、磁気ディスク装置等の2次記憶媒体上にあっても良い。
【0061】
実メモリ上に更新用テキストデータを格納する場合、登録、検索処理を高速に行えるが、実メモリの容量分しか更新用テキストバッファ400に登録できず、更新用テキストバッファ400の容量がなくなる前に、後に述べる文字成分ファイルマージ処理が必要になる。
【0062】
また、磁気ディスク装置に更新用テキストデータを格納する場合は、登録、検索処理が遅くなるが、より多くの更新用テキストデータを格納できる様になる。
【0063】
ステップ503である検索結果マージステップにおける更新文書番号リスト300に登録された文書番号の削除処理は、文字成分ファイル500に登録された後に新たに更新のあった文書について、誤った検索結果を返すことがない様に文字成分ファイル検索結果から該当文書を削除するものである。
【0064】
例えば、文字成分ファイル検索ステップの結果、文書番号21、87、104、251...が得られ、更新文書番号リスト300が図3の様になっていた場合、文書番号104を検索結果集合から削除する。
【0065】
次に、ステップ503である検索結果マージステップでは、更新文書番号リスト300に登録されている文書番号を削除した文字成分ファイル検索ステップの検索結果に、更新用テキストバッファ検索ステップの結果を追加する。
【0066】
以上、本実施形態のテキストデータ登録検索方法を実施する実施装置の文書データの登録と検索の手順に従って、更新文書番号登録ステップ、更新用テキストバッファ作成ステップ、文字成分ファイル検索ステップ、更新用テキストバッファ検索ステップ及び検索結果マージステップの説明をした。
【0067】
以下に、本実施形態のテキストデータ登録検索方法を実施する実施装置の文字成分ファイルマージステップ及び文字成分ファイルマージ条件判定ステップについて説明する。
【0068】
文字成分ファイルマージステップは、後述の文字成分ファイルマージ条件判定ステップで文字成分ファイル500をマージする必要があると判定された場合に処理を実行する。具体的には、図6に示した文字成分ファイル500に、図4に示した更新用テキストバッファ400の文字成分データを追加する処理を行う。
【0069】
勿論、更新用テキストバッファ400の構成として、前記した様に小さい文字成分ファイル500を使うことも可能である。この場合は、更新用テキストバッファ400の各文字成分を、正規の大きな文字成分ファイル500へマージする処理を行う。
【0070】
文字成分ファイルマージ条件判定ステップは、以下の条件の場合に更新用テキストバッファ400のデータを文字成分ファイル500とマージする必要があると判定する。
【0071】
(a)システム管理者からの要求があった場合
(b)定められた一定数の文書が更新用テキストバッファ400に登録された場合
(c)更新文書番号登録ステップ及び更新用テキストバッファ400作成ステップの、更新文書番号リスト300と更新用テキストバッファ400への登録処理に要する時間が、定められた量を越えた場合
(d)文字成分ファイル検索ステップ及び検索結果マージステップの処理に要する時間が、定められた量を越えた場合
(e)定められた時刻になった場合。
【0072】
文字成分ファイルマージ判定ステップでは、この様な基準でマージ処理を行う判定を行い、文字成分ファイルマージステップを起動する。その為に、システム管理者からの要求待ち、更新用テキストバッファ400に蓄えられた文書数、更新用テキストバッファ400作成ステップの単位文書あたりの処理時間、文字成分ファイル検索ステップ及び検索結果マージステップの処理時間、現在時刻について、常にモニタする。
【0073】
図7は、本実施形態のテキストデータ登録検索方法を実施する実施装置の文字成分ファイルマージ判定ステップの処理概要を示す図である。
【0074】
図7に示す様に、本実施形態のテキストデータ登録検索方法を実施する実施装置の文字成分ファイルマージ判定ステップでは、登録時間は、更新文書番号登録ステップ及び更新用テキストバッファ作成ステップの更新文書番号リスト300と更新用テキストバッファ400への登録時間を示しており、また、検索時間は、文字成分ファイル検索ステップ及び検索結果マージステップの処理に要する時間を示している。
【0075】
図に示す様に、文字成分ファイルマージ判定ステップは、(1)システム管理者からの要求、(2)更新用テキストバッファ400に蓄えられた文書数、(3)登録時間、(4)検索時間、(5)時計600の示す現在時刻を示す信号を入力とし、予め設定された指定文書数、指定登録時間、指定検索時間、指定時刻と比較を行い、条件に合致した場合に文字成分ファイルマージステップを起動する。
【0076】
図8は、本実施形態のテキストデータ登録検索方法を実施する実施装置の文字成分ファイルマージ判定ステップの流れを示すPAD図である。
【0077】
図8に示す様に、本実施形態のテキストデータ登録検索方法を実施する実施装置の文字成分ファイルマージ判定ステップでは、上記の信号を待ち、なんらかの信号を入力した場合、その信号の種類によって上記の設定値との判定を行って、文字成分ファイルマージステップを起動する。
【0078】
システム管理者からの要求の場合は即時、文字成分ファイルマージステップを起動する。更新用テキストバッファ400に蓄えられた文書数が報告された場合は、設定された指定文書数との比較を行い、指定文書数以上の文書数がバッファに溜まった場合に、文字成分ファイルマージステップを起動する。
【0079】
登録時間が報告された場合には、指定登録時間との比較を行い、指定登録時間より多く登録処理に時間がかかっている場合に、文字成分ファイルマージステップを起動する。文字成分ファイルマージステップを実行することで、更新用テキストバッファ400が空になり、次回からの登録処理を速くすることができる。
【0080】
検索時間が報告された場合には、指定の検索時間との比較を行って、指定検索時間より長く検索処理に時間がかかっている場合には、文字成分ファイルマージステップを起動し、更新用一時的に作成された文字成分表或いは更新用テキストバッファ400上の情報を、正規の文字成分表に反映することにより、次回からの検索処理時間を速める様にする。
【0081】
現在時刻が報告された場合は、指定時刻との比較を行い、指定時刻を過ぎた場合に文字成分ファイルマージステップを起動する。
【0082】
(b)〜(e)に示したこれらの判定に用いる数値は、システムの管理者が設定するものとする。例えば、指定文書数として1000件、指定登録時間は10秒、指定検索時間は5秒、指定時刻は24時という様に設定する。
【0083】
これらは、登録時間性能重視、検索性能重視、運用重視等の観点から決定される。勿論、プログラムのデフォルト値としてこれらの値を予め設定することも可能である。
【0084】
以上、文字成分ファイルマージ判定ステップについて説明した。本実施形態のテキストデータ登録検索方法を実施する実施装置では、文字成分ファイルマージ判定ステップは、前記(a)〜(e)の判定条件で実現しているが、これらの内の一つ以上を文字成分ファイルマージステップの実行判定条件とすることもできる。
【0085】
以上説明した様に、本実施形態のテキストデータ登録検索方法を実施する実施装置によれば、文書の登録時では処理の軽い更新文書番号リストと更新用テキストバッファへの登録で終了することができるので、よりトランザクションの処理性能を向上することが可能である。
【0086】
以上、本発明を前記実施形態に基づき具体的に説明したが、本発明は、前記実施形態に限定されるものではなく、その要旨を逸脱しない範囲において種々変更可能であることは勿論である。
【0087】
【発明の効果】
本願において開示される発明のうち代表的なものによって得られる効果を簡単に説明すれば、下記のとおりである。
【0088】
すなわち、文書の登録時では処理の軽い更新文書番号リストと更新用テキストバッファへの登録で終了することができるので、よりトランザクションの処理性能を向上することが可能である。
【図面の簡単な説明】
【図1】本実施形態のテキストデータ登録検索方法を実施する実施装置の概略構成を示す図である。
【図2】本実施形態のテキストデータ登録検索方法を実施する実施装置の文書の登録処理の流れを示すPAD図である。
【図3】本実施形態のテキストデータ登録検索方法を実施する実施装置の更新文書番号リスト300の構造を示す図である。
【図4】本実施形態のテキストデータ登録検索方法を実施する実施装置の更新用テキストバッファ400のデータ構造を示す図である。
【図5】本実施形態のテキストデータ登録検索方法を実施する実施装置の文書の検索処理の流れを示すPAD図である。
【図6】本実施形態のテキストデータ登録検索方法を実施する実施装置の文字成分ファイル500の構造を示す図である。
【図7】本実施形態のテキストデータ登録検索方法を実施する実施装置の文字成分ファイルマージ判定ステップの処理概要を示す図である。
【図8】本実施形態のテキストデータ登録検索方法を実施する実施装置の文字成分ファイルマージ判定ステップの流れを示すPAD図である。
【符号の説明】
100…メモリ、110…格納媒体、200…CPU、300…更新文書番号リスト、400…更新用テキストバッファ、500…文字成分ファイル、600…時計、700…メモリ。
[0001]
TECHNICAL FIELD OF THE INVENTION
The present invention relates to a text data registration / search method for searching registered text data, and more particularly, to a desired document by searching a document database for the entire text of a document by designating a search word that is a predetermined character string. The present invention relates to a technique that is effective when applied to a text data registration and retrieval method to be obtained.
[0002]
[Prior art]
Conventionally, various document search methods for searching a document database storing a large number of documents have been proposed. Japanese Patent Application Laid-Open No. 8-190571 discloses a document search method for efficiently performing a full-text search using connected character information, reducing search noise, reducing processing time, and reducing disk usage. It is described in.
[0003]
The outline is described with reference to a connected character storing step of storing connected characters describing a co-occurrence relationship of a plurality of characters in text data of a document in a connected character file without duplication, and referring to the connected characters stored in the connected character file. In a document search method in which a document including a concatenated character included in a search term in a designated conditional expression is a candidate for a search result, as the concatenated character storage step, the type of a concatenated character component appearing in text data and each concatenated character The number of documents in which the component appears is calculated. If the calculated number of documents is larger than a predetermined threshold, the position corresponding to the document number of the corresponding document is registered as a bit string of “1”. Stores the document number of the document as binary data.
[0004]
In this method, the document numbers of all the connected character components in the document are registered in the connected character component table, and at the time of retrieval, a document including all the connected character components included in the search word is searched for by referring to the connected character component table. The connected character component table used here lists, for each connected character component, an identifier of a document in which the connected character component appears, that is, a document number.
[0005]
[Problems to be solved by the invention]
By the way, in the conventional document search method, the document numbers of all the connected character components in the document are registered in the connected character component table. However, in a database storing many documents, the number of the connected characters appearing in those documents is determined. Will be huge, and the registration will require file access for the huge number of connected character types. Therefore, when a document is registered in a large-scale database, or when a registered document is updated or deleted, a very long processing time is required.
[0006]
For example, when deleting a specific document from the database, it is necessary to delete all the corresponding document numbers for all the character components registered in the character component file. However, in a large-scale database, the capacity of the character component file may be in the GByte order, and such a large-scale database update process online is impossible.
[0007]
An object of the present invention is to provide a technique capable of further improving transaction processing performance.
[0008]
The above and other objects and novel features of the present invention will become apparent from the description of the present specification and the accompanying drawings.
[0009]
[Means for Solving the Problems]
The outline of typical inventions among the inventions disclosed by the present application will be briefly described as follows.
[0010]
That is, in a text data registration / search method for searching for a document including a specified search word with reference to the appearance relation of characters in the document, the appearance relation of characters of the text data requested to be registered is temporarily registered in an update buffer. Is used for searching.
[0011]
The text data registration and search method solves the above problem by using a text data registration and search method having the following steps.
[0012]
(1) Update document number registration step
The document number of the document for which a new update, deletion, or registration request has been made is registered in the updated document number list.
[0013]
(2) Update text buffer creation step
The text data of a document for which a new update or registration request has been made is registered in an update text buffer.
[0014]
The normal registration processing is performed in the update document number registration step (1) and the update text buffer creation step.
[0015]
(3) Character component file merge condition determination step
The timing for registering the text data temporarily stored in the update text buffer in the character component file is determined. This timing is when one or more of the following conditions are satisfied.
[0016]
(A) When there is a request from the system administrator
(B) When a predetermined fixed number of documents are registered in the update text buffer
(C) When the time required for the process of registering the updated document number list and the updated text buffer in the updated document number registering step and the updating text buffer creating step exceeds a predetermined amount.
(D) When the time required for processing of the update text buffer search step and the search result merge step exceeds a predetermined amount.
(E) When a predetermined time has come.
[0017]
(4) Character component file merge step
In the character component file merge condition determination step (3) described above, the operation is performed when the determined conditions are satisfied, and the text data temporarily stored in the update text buffer is registered in the character component file.
[0018]
The document numbers registered in the update document number list created in the above (1) update document number registration step are deleted from the character component file, and the text of the update text buffer created in the above (2) update text buffer creation step is deleted. For the character component of the data, the corresponding document number is additionally registered in the character component file.
[0019]
(5) Character component file search step
At the time of search, data already registered in the character component file is searched.
[0020]
(6) Update text buffer search step
At the time of retrieval, data not yet registered in the character component file, that is, text data stored in the update text buffer is retrieved.
[0021]
(7) Search result merge step
At the time of retrieval, the document that has been updated and deleted, that is, all the document numbers stored in the updated document number list, are deleted from the retrieval result as invalid documents with respect to the result retrieved in the character component file retrieval step (5). (6) Add the result obtained in the update text buffer search step.
[0022]
By these steps, when the document is registered, the process ends with the registration of the updated document number list and the update text buffer that are light in processing, and the response time can be shortened.
[0023]
By providing the updated document number list and the update text buffer as described above, the search process is to search both the character component file and the update text buffer.
[0024]
However, this update text buffer search process depends on the size of the update text buffer, and a small update text buffer has little effect on the search process. That is, according to the text data registration search method, it is possible to minimize the deterioration of the search processing efficiency and improve the speed performance of the registration processing.
[0025]
The size of the update text buffer also affects the time required for the registration process. In other words, the time required for the registration and search processing of this update text buffer increases with the size of the capacity.
[0026]
Therefore, according to the conditions shown in the (3) character component file merge condition determination step, new information is additionally registered in the character component file based on the text data in the updating text buffer in the (4) character component file merge step.
[0027]
As a result, the size of the update text buffer is maintained at an appropriate amount, and appropriate response performance can be maintained for both registration and search processing. That is, it is possible to minimize the influence on the performance of the search processing and improve the registration processing performance.
[0028]
As described above, according to the text data registration and retrieval method, when a document is registered, the process can be completed by registering the updated document number list and the update text buffer with light processing, thereby further improving the transaction processing performance. It is possible to do.
[0029]
BEST MODE FOR CARRYING OUT THE INVENTION
Hereinafter, in the text data registration / search method of the present invention, a text data registration / search method according to an embodiment for obtaining a desired document by searching a document database by specifying a search word that is a predetermined character string will be described. The device will be described.
[0030]
FIG. 1 is a diagram illustrating a schematic configuration of an implementation device that implements the text data registration and search method according to the present embodiment. In FIG. 1, 100 is a memory, 110 is a storage medium, 200 is a CPU, 300 is an updated document number list, 400 is an update text buffer, 500 is a character component file, 600 is a clock, and 700 is a memory.
[0031]
As shown in FIG. 1, in an apparatus for implementing the text data registration / search method of the present embodiment, a memory 100 for storing programs for registration / search, a storage medium 110 for the programs, a CPU 200 for executing those programs, An updated document number list 300 for storing a document number, an update text buffer 400 for storing data of an updated document, a character component file 500 storing character components and document numbers including the character components in association with each other, a current time Is provided to the character component file merge determination step at regular intervals, and a memory 700 for storing each specified value used as a determination condition in the character component merge determination step.
[0032]
First, a description will be given of a method of registering a document by an execution apparatus that performs the text data registration search method of the present embodiment.
[0033]
FIG. 2 is a PAD diagram showing a flow of a document registration process of the embodiment apparatus that implements the text data registration search method of the present embodiment.
[0034]
As shown in FIG. 2, in the document registration process of the apparatus for executing the text data registration search method according to the present embodiment, the document to be registered has a document number and text data for identifying the document. And The registration process includes an update document number registration step of registering a document number in the update document number list 300 (step 201) and an update text buffer creation step of registering text information in the update text buffer 400 (step 202). ).
[0035]
In the update document number registration step of step 201, the document number of the document to be registered is registered in the update document number list 300 stored on the memory or the magnetic disk.
[0036]
FIG. 3 is a diagram showing the structure of the updated document number list 300 of the embodiment that implements the text data registration and search method of the present embodiment.
[0037]
As shown in FIG. 3, in the updated document number list 300 of the apparatus that implements the text data registration and search method of the present embodiment, the updated document number, which is the document number of the document to be registered, is stored in an array format of numerical data. In this structure, the number of stored document numbers is stored as the first data of the array.
[0038]
In the update text buffer creation step of step 202, a process of adding document data to the update text buffer 400 is performed.
[0039]
FIG. 4 is a diagram showing a data structure of the updating text buffer 400 of the embodiment that executes the text data registration / search method of the present embodiment.
[0040]
As shown in FIG. 4, the updating text buffer 400 of the embodiment that implements the text data registration / retrieval method according to the present embodiment includes a data directory and a data part, and the data directory contains the text data stored in the data part. And the length of each data are stored together with the document number. When registering a new document, it is only necessary to register the position and data length of the data portion in which new data is written in the directory portion after the data portion, together with the document number.
[0041]
By providing the updated document number list 300 and the updating text buffer 400 in this manner, the registration process can be easily performed.
[0042]
Next, a description will be given of a document search method of an embodiment apparatus that performs the text data registration search method of the present embodiment.
[0043]
FIG. 5 is a PAD diagram illustrating a flow of a document search process performed by the apparatus that performs the text data registration / search method according to the present embodiment.
[0044]
As shown in FIG. 5, in the document search process of the apparatus that implements the text data registration search method of the present embodiment, a search term is specified, a document containing the search term is searched for from the already registered document data, and The document numbers to be output are output as an array.
[0045]
The search processing of the apparatus that implements the text data registration search method of the present embodiment includes a character component file search step for searching the character component file 500 (step 501) and a search for data in the update text buffer 400. The process of the update text buffer search step (step 502), the document number registered in the update document number list 300 is deleted from the search result of the character component file search step, and the result of the update text buffer search step is added. It consists of a search result merge step (step 503).
[0046]
The character component file search step, which is step 501, reads data of character components constituting a search word of the character component file 500, and outputs a document including all character components, that is, a document number including the search word.
[0047]
FIG. 6 is a diagram showing the structure of the character component file 500 of the embodiment that implements the text data registration and search method of the present embodiment.
[0048]
As shown in FIG. 6, the character component file 500 of the embodiment that implements the text data registration and search method of the present embodiment includes a character component data directory and character component data.
[0049]
The character component data directory stores one or more contiguous character strings in a document as character components and stores pointer information to character component data for storing a document number where the character component appears and an appearance position of each document. ing.
[0050]
For example, FIG. 6 shows that the character component "document" has character component data for 568 bytes from the 23rd and 654th bytes from the head of the character component data file.
[0051]
The character component data is composed of a document number and the appearance position of the corresponding character component. To distinguish whether each data means a document number or an appearance position, a document number flag is added to each data. I have.
[0052]
That is, when the document number flag is "1", the data means a document number, and when the document number flag is "0", the data means an appearance position. In the example of FIG. "Document" indicates that the document exists at the 56th and 145th characters of the document number 23.
[0053]
In the character component file search step, the document in which the character component constituting the search word exists and the appearance position are read from the character component file 500, and the document in which each character component is adjacent is extracted.
[0054]
For example, in the case of searching by the word “document search”, in the example of FIG. 6, the document numbers and the appearance positions of the two character components “document” and “search” are read, and the respective character components are read. By comparing at the appearance position, a document in which the word “document search” appears accurately can be searched.
[0055]
In an update text buffer search step of step 502, a search process of a newly registered document after the creation of the character component file is performed.
[0056]
The newly registered document is stored in the update text buffer 400 as shown in FIG. Therefore, by reading the document number of each document and the length in the buffer from the data directory, and scanning the corresponding text data, that is, by shifting the text to be searched one character at a time, it is determined whether the text matches the search word. In addition, a search process of a newly registered document can be performed.
[0057]
In the apparatus that implements the text data registration and search method of the present embodiment, the search process of the update text buffer 400 is realized by scanning the text data stored in the update text buffer 400. Apart from the component file 500, it is also possible to create a small character component file 500 separately.
[0058]
In such a case, the configuration of the updating text buffer 400 shown in FIG. 4 is the same as the configuration of the character component file 500 shown in FIG. However, the data stored in the character component file 500 of the update text buffer 400 is only newly registered text data.
[0059]
In this way, by changing the configuration of the update text buffer from flat text to the same configuration as the character component file 500, there is an effect of speeding up the search process.
[0060]
Further, the update text buffer 400 may be on a real memory or on a secondary storage medium such as a magnetic disk device.
[0061]
When the update text data is stored in the real memory, registration and search processing can be performed at high speed, but only the capacity of the real memory can be registered in the update text buffer 400, and before the update text buffer 400 runs out of capacity. , A character component file merge process described later is required.
[0062]
Further, when the update text data is stored in the magnetic disk device, registration and search processing become slower, but more update text data can be stored.
[0063]
The process of deleting the document number registered in the updated document number list 300 in the search result merge step in step 503 is to return an incorrect search result for a document that has been newly updated after being registered in the character component file 500. The corresponding document is deleted from the character component file search result so that there is no such document.
[0064]
For example, as a result of the character component file search step, the document numbers 21, 87, 104, 251,. . . Is obtained, and the updated document number list 300 is as shown in FIG. 3, the document number 104 is deleted from the search result set.
[0065]
Next, in a search result merging step, which is step 503, the result of the text buffer search step for updating is added to the search result of the character component file search step in which the document numbers registered in the updated document number list 300 have been deleted.
[0066]
As described above, in accordance with the document data registration and search procedures of the apparatus that implements the text data registration and search method of the present embodiment, an update document number registration step, an update text buffer creation step, a character component file search step, and an update text buffer The search step and the search result merge step have been described.
[0067]
Hereinafter, the character component file merging step and the character component file merging condition determination step of the embodiment that implements the text data registration and retrieval method of the present embodiment will be described.
[0068]
The character component file merging step executes a process when it is determined in the character component file merging condition determination step described later that it is necessary to merge the character component files 500. Specifically, a process of adding the character component data of the updating text buffer 400 shown in FIG. 4 to the character component file 500 shown in FIG. 6 is performed.
[0069]
Of course, it is also possible to use the small character component file 500 as the configuration of the update text buffer 400 as described above. In this case, a process of merging each character component of the update text buffer 400 into a regular large character component file 500 is performed.
[0070]
The character component file merge condition determination step determines that it is necessary to merge the data in the update text buffer 400 with the character component file 500 under the following conditions.
[0071]
(A) When there is a request from the system administrator
(B) When a predetermined fixed number of documents are registered in the update text buffer 400
(C) When the time required for the registration processing of the update document number list 300 and the update text buffer 400 in the update document number registration step and the update text buffer 400 creation step exceeds a predetermined amount.
(D) When the time required for the processing of the character component file search step and the search result merge step exceeds a predetermined amount
(E) When a predetermined time has come.
[0072]
In the character component file merge determination step, it is determined that the merging process is performed based on such criteria, and the character component file merge step is started. For this reason, the system waits for a request from the system administrator, the number of documents stored in the update text buffer 400, the processing time per unit document in the update text buffer 400 creation step, the character component file search step, and the search result merge step. Always monitor the processing time and current time.
[0073]
FIG. 7 is a diagram showing an outline of the processing of the character component file merge determination step of the execution apparatus that performs the text data registration and search method of the present embodiment.
[0074]
As shown in FIG. 7, in the character component file merge determination step of the execution apparatus that implements the text data registration and retrieval method of the present embodiment, the registration time is determined by the update document number in the update document number registration step and the update document buffer creation step. The registration time in the list 300 and the update text buffer 400 is shown, and the search time is the time required for processing in the character component file search step and the search result merge step.
[0075]
As shown in the figure, the character component file merge determination step includes (1) a request from the system administrator, (2) the number of documents stored in the update text buffer 400, (3) registration time, and (4) search time. (5) A signal indicating the current time indicated by the clock 600 is input and compared with a predetermined number of designated documents, a designated registration time, a designated search time, and a designated time. Invoke the step.
[0076]
FIG. 8 is a PAD diagram showing a flow of a character component file merge determination step of the apparatus for executing the text data registration / search method of the present embodiment.
[0077]
As shown in FIG. 8, in the character component file merge determination step of the text data registration and retrieval method according to the present embodiment, the above signal is waited, and if any signal is input, the above signal is determined depending on the type of the signal. A determination is made as to the set value, and a character component file merging step is started.
[0078]
In the case of a request from the system administrator, the character component file merge step is started immediately. When the number of documents stored in the update text buffer 400 is reported, the number of documents is compared with the set number of designated documents. Start
[0079]
If the registration time is reported, the registration time is compared with the designated registration time, and if the registration processing takes longer than the designated registration time, a character component file merging step is started. By executing the character component file merge step, the update text buffer 400 becomes empty, and the registration process from the next time can be accelerated.
[0080]
If the search time is reported, it is compared with the specified search time, and if the search process takes longer than the specified search time, the character component file merge step is started and the update temporary By reflecting the information in the character component table or the text buffer 400 for updating that has been created in a regular character component table, the search processing time from the next time is expedited.
[0081]
When the current time is reported, the current time is compared with the specified time, and when the specified time has passed, the character component file merging step is started.
[0082]
The numerical values used for these determinations shown in (b) to (e) are set by the system administrator. For example, the number of designated documents is set to 1000, the designated registration time is set to 10 seconds, the designated search time is set to 5 seconds, and the designated time is set to 24:00.
[0083]
These are determined from the viewpoints of emphasis on registration time performance, search performance, and operation. Of course, these values can be set in advance as default values of the program.
[0084]
The character component file merge determination step has been described above. In the apparatus for implementing the text data registration and search method of the present embodiment, the character component file merge determination step is realized by the above-described determination conditions (a) to (e). It can also be used as an execution determination condition of the character component file merge step.
[0085]
As described above, according to the apparatus for implementing the text data registration and search method of the present embodiment, when a document is registered, the process can be completed by a lightly updated document number list and registration in the update text buffer. Therefore, it is possible to further improve the transaction processing performance.
[0086]
As described above, the present invention has been specifically described based on the embodiment. However, the present invention is not limited to the embodiment, and it is needless to say that various changes can be made without departing from the gist of the invention.
[0087]
【The invention's effect】
The effects obtained by the typical inventions among the inventions disclosed in the present application will be briefly described as follows.
[0088]
In other words, when a document is registered, the process can be completed by registering the updated document number list and the update text buffer with light processing, so that the transaction processing performance can be further improved.
[Brief description of the drawings]
FIG. 1 is a diagram illustrating a schematic configuration of an implementation device that implements a text data registration and search method according to an embodiment.
FIG. 2 is a PAD diagram showing a flow of a document registration process of an embodiment apparatus that implements the text data registration / search method of the embodiment.
FIG. 3 is a diagram illustrating a structure of an updated document number list 300 of an embodiment that implements the text data registration and search method according to the embodiment.
FIG. 4 is a diagram showing a data structure of an update text buffer 400 of the embodiment that implements the text data registration / search method of the present embodiment.
FIG. 5 is a PAD diagram showing a flow of a document search process of an embodiment apparatus that implements the text data registration / search method of the embodiment.
FIG. 6 is a diagram showing a structure of a character component file 500 of an embodiment for executing the text data registration / search method of the embodiment.
FIG. 7 is a diagram showing an outline of a process of a character component file merge determination step of the embodiment that executes the text data registration / search method of the embodiment.
FIG. 8 is a PAD diagram showing a flow of a character component file merge determination step of the apparatus for executing the text data registration / retrieval method of the embodiment.
[Explanation of symbols]
100: memory, 110: storage medium, 200: CPU, 300: update document number list, 400: update text buffer, 500: character component file, 600: clock, 700: memory.

Claims (4)

文書中の文字の出現関係を文字成分ファイルに登録し、指定した検索語を含む文書を前記文字成分ファイルの出現関係を参照して検索するテキストデータ登録検索方法において、
新たな更新、削除または登録要求のあった文書についてその文書番号を更新文書番号リストに登録する更新文書番号登録ステップと、
新たな更新または登録要求のあった文書についてそのテキストデータを文字成分ファイルと同一構成の更新用テキストバッファに登録する更新用テキストバッファ作成ステップと、
更新用テキストバッファに一時的に貯えられたテキストデータを文字成分ファイルに登録する文字成分ファイルマージステップと、
前記文字成分ファイルマージステップを実行するタイミングを決定する文字成分ファイルマージ条件判定ステップと、
文字成分ファイルに登録しているデータを検索する文字成分ファイル検索ステップと、
更新用テキストバッファに格納しているテキストデータを検索する更新用テキストバッファ検索ステップと、
前記文字成分ファイル検索ステップで検索した結果に対して、更新削除のあった文書の文書番号を無効文書として検索結果から削除し、前記更新用テキストバッファ検索ステップで得られた結果を追加する検索結果マージステップとを有することを特徴とするテキストデータ登録検索方法。
In a text data registration search method for registering the appearance relation of characters in a document in a character component file and searching for a document including a specified search word by referring to the appearance relation of the character component file,
An update document number registration step of registering the document number of the document for which a new update, deletion or registration request has been made in the update document number list;
An update text buffer creating step of registering the text data of a document for which a new update or registration request has been made in an update text buffer having the same configuration as the character component file ;
A character component file merging step of registering the text data temporarily stored in the update text buffer in a character component file;
A character component file merge condition determining step for determining a timing of executing the character component file merge step;
A character component file search step for searching data registered in the character component file;
An update text buffer search step for searching text data stored in the update text buffer;
A search result obtained by deleting the document number of a document that has been updated and deleted from the search result as an invalid document with respect to the result searched in the character component file search step, and adding the result obtained in the update text buffer search step A text data registration / retrieval method characterized by having a merge step.
前記検索結果マージステップは、前記更新削除のあった文書の文書番号を削除した文字成分ファイル検索結果に前記更新用テキストバッファ検索ステップで得られた結果を追加することを特徴とする請求項1に記載されたテキストデータ登録検索方法。2. The search result merging step according to claim 1, wherein the result obtained in the update text buffer search step is added to a character component file search result in which a document number of the updated document has been deleted. Text data registration search method described. 新たな更新、削除または登録要求のあった文書についてその文書番号を更新文書番号リストに登録する更新文書番号登録ステップと、
新たな更新または登録要求のあった文書についてそのテキストデータを文字成分ファイルと同一構成の更新用テキストバッファに登録する更新用テキストバッファ作成ステップと、
更新用テキストバッファに一時的に貯えられたテキストデータを文字成分ファイルに登録する文字成分ファイルマージステップと、
前記文字成分ファイルマージステップを実行するタイミングを決定する文字成分ファイルマージ条件判定ステップと、
文字成分ファイルに登録しているデータを検索する文字成分ファイル検索ステップと、
更新用テキストバッファに格納しているテキストデータを検索する更新用テキストバッファ検索ステップと、
前記文字成分ファイル検索ステップで検索した結果に対して、更新削除のあった文書の文書番号を無効文書として検索結果から削除し、前記更新用テキストバッファ検索ステップで得られた結果を追加する検索結果マージステップとをコンピュータに実行させるためのプログラムを記録したことを特徴とする媒体。
An update document number registration step of registering the document number of the document for which a new update, deletion or registration request has been made in the update document number list;
An update text buffer creating step of registering the text data of a document for which a new update or registration request has been made in an update text buffer having the same configuration as the character component file ;
A character component file merging step of registering the text data temporarily stored in the update text buffer in a character component file;
A character component file merge condition determining step for determining a timing of executing the character component file merge step;
A character component file search step for searching data registered in the character component file;
An update text buffer search step for searching text data stored in the update text buffer;
A search result obtained by deleting the document number of a document that has been updated and deleted from the search result as an invalid document with respect to the result searched in the character component file search step, and adding the result obtained in the update text buffer search step A medium on which a program for causing a computer to execute a merge step is recorded.
前記検索結果マージステップは、前記更新削除のあった文書の文書番号を削除した文字成分ファイル検索結果に前記更新用テキストバッファ検索ステップで得られた結果を追加することを特徴とする請求項3に記載された媒体。4. The search result merging step according to claim 3, wherein the result obtained in the update text buffer search step is added to a character component file search result obtained by deleting a document number of the updated document. The medium described.
JP04190497A 1997-02-26 1997-02-26 Text data registration search method Expired - Fee Related JP3554459B2 (en)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP04190497A JP3554459B2 (en) 1997-02-26 1997-02-26 Text data registration search method
CA002218270A CA2218270C (en) 1997-02-26 1997-10-10 Text index registration and retrieval method
US08/956,481 US6003043A (en) 1997-02-26 1997-10-23 Text data registering and retrieving system including a database storing a plurality of document files therin and a plural-character occurrence table for a text index and an update text buffer to retrieve a target document in cooperation with the database

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP04190497A JP3554459B2 (en) 1997-02-26 1997-02-26 Text data registration search method

Publications (2)

Publication Number Publication Date
JPH10240754A JPH10240754A (en) 1998-09-11
JP3554459B2 true JP3554459B2 (en) 2004-08-18

Family

ID=12621282

Family Applications (1)

Application Number Title Priority Date Filing Date
JP04190497A Expired - Fee Related JP3554459B2 (en) 1997-02-26 1997-02-26 Text data registration search method

Country Status (3)

Country Link
US (1) US6003043A (en)
JP (1) JP3554459B2 (en)
CA (1) CA2218270C (en)

Families Citing this family (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6226628B1 (en) * 1998-06-24 2001-05-01 Microsoft Corporation Cross-file pattern-matching compression
US6638314B1 (en) * 1998-06-26 2003-10-28 Microsoft Corporation Method of web crawling utilizing crawl numbers
JP3696745B2 (en) 1999-02-09 2005-09-21 株式会社日立製作所 Document search method, document search system, and computer-readable recording medium storing document search program
US6880008B1 (en) * 1999-03-31 2005-04-12 Sony Corporation System and method for retrieving a backup file having a file name exactly corresponding to the date and time of a client request, if no exact match for the date and time corresponding to the client request is found, to search for the backup file having the file name with a date and time that are closest to but prior to the specified date and time
US6681370B2 (en) * 1999-05-19 2004-01-20 Microsoft Corporation HTML/XML tree synchronization
JP3772606B2 (en) * 1999-10-19 2006-05-10 株式会社日立製作所 Electronic document management method and system, and recording medium
US6366907B1 (en) * 1999-12-15 2002-04-02 Napster, Inc. Real-time search engine
US6711574B1 (en) * 2000-02-01 2004-03-23 Emc Corporation Retrieval of management information
US6738773B1 (en) * 2000-05-01 2004-05-18 Microsoft Corporation Method and system for transforming data between disparate capacity database systems
US6751603B1 (en) * 2000-05-16 2004-06-15 Sun Microsystems, Inc. Autocomplete method and apparatus for data file selection
US6996268B2 (en) * 2001-12-28 2006-02-07 International Business Machines Corporation System and method for gathering, indexing, and supplying publicly available data charts
US7702666B2 (en) * 2002-06-06 2010-04-20 Ricoh Company, Ltd. Full-text search device performing merge processing by using full-text index-for-registration/deletion storage part with performing registration/deletion processing by using other full-text index-for-registration/deletion storage part
JP5108252B2 (en) * 2006-04-27 2012-12-26 株式会社日立製作所 Index updating method and system
JP4251652B2 (en) * 2006-06-09 2009-04-08 インターナショナル・ビジネス・マシーンズ・コーポレーション SEARCH DEVICE, SEARCH PROGRAM, AND SEARCH METHOD
US7917499B2 (en) * 2006-06-30 2011-03-29 Microsoft Corporation Updating adaptive, deferred, incremental indexes
US7734618B2 (en) * 2006-06-30 2010-06-08 Microsoft Corporation Creating adaptive, deferred, incremental indexes
JP5437557B2 (en) * 2006-10-19 2014-03-12 富士通株式会社 Search processing method and search system
IL179582A0 (en) * 2006-11-26 2007-05-15 Algotec Systems Ltd Comparison workflow automation by registration
JP4930153B2 (en) * 2007-03-30 2012-05-16 富士通株式会社 Document search system, document number subsequence acquisition apparatus, and document search method
JP2009037359A (en) * 2007-07-31 2009-02-19 Hitachi Ltd Data registration search method, data registration search program, and database system
KR20090082712A (en) * 2008-01-28 2009-07-31 삼성전자주식회사 Method and apparatus for editing letters
CN102023966B (en) * 2009-09-16 2014-03-26 鸿富锦精密工业(深圳)有限公司 Computer system and method for comparing contracts
US10331658B2 (en) * 2011-06-03 2019-06-25 Gdial Inc. Systems and methods for atomizing and individuating data as data quanta
JP2013196544A (en) * 2012-03-22 2013-09-30 Nec Corp Document management system, document management method, and program therefor
US9218411B2 (en) 2012-08-07 2015-12-22 International Business Machines Corporation Incremental dynamic document index generation
JP5267711B1 (en) * 2012-08-30 2013-08-21 富士ゼロックス株式会社 Document management apparatus and program
JP6662169B2 (en) 2016-04-18 2020-03-11 富士通株式会社 Encoding program, encoding method, encoding device, search program, search method, and search device
CN110413679B (en) * 2019-07-31 2023-01-24 深圳前海微众银行股份有限公司 Database information processing method, device, equipment and readable storage medium

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5685003A (en) * 1992-12-23 1997-11-04 Microsoft Corporation Method and system for automatically indexing data in a document using a fresh index table
US5701459A (en) * 1993-01-13 1997-12-23 Novell, Inc. Method and apparatus for rapid full text index creation
US5873097A (en) * 1993-05-12 1999-02-16 Apple Computer, Inc. Update mechanism for computer storage container manager
US5870764A (en) * 1993-05-12 1999-02-09 Apple Computer, Inc. Method of managing a data structure for concurrent serial and parallel revision of a work
JP3053153B2 (en) * 1993-09-20 2000-06-19 株式会社日立製作所 How to start application of document management system
JP3552318B2 (en) * 1995-01-11 2004-08-11 株式会社日立製作所 Document search method and system
JP3459053B2 (en) * 1995-01-12 2003-10-20 株式会社日立製作所 Document search method and apparatus
US5790848A (en) * 1995-02-03 1998-08-04 Dex Information Systems, Inc. Method and apparatus for data access and update in a shared file environment
US5706365A (en) * 1995-04-10 1998-01-06 Rebus Technology, Inc. System and method for portable document indexing using n-gram word decomposition
US5832500A (en) * 1996-08-09 1998-11-03 Digital Equipment Corporation Method for searching an index

Also Published As

Publication number Publication date
JPH10240754A (en) 1998-09-11
CA2218270A1 (en) 1998-08-26
US6003043A (en) 1999-12-14
CA2218270C (en) 2001-04-17

Similar Documents

Publication Publication Date Title
JP3554459B2 (en) Text data registration search method
JP3178475B2 (en) Data processing device
JP5437557B2 (en) Search processing method and search system
US9195738B2 (en) Tokenization platform
JP2002055995A (en) Information processing method and apparatus
US5566329A (en) System and method for mutation of selected assignment operations on large data objects
JP2000357115A (en) Device and method for file retrieval
US20070255771A1 (en) Method and system for renewing an index
JP2001109754A (en) Retrieving method using index file and device used for the method
JP2539347B2 (en) File management method
JP2925042B2 (en) Information link generation method
JP4091586B2 (en) Structured document management system, index construction method and program
JP2000339332A (en) Medium recording search index, search index updating method, device thereof, and medium recording program thereof
JP4219125B2 (en) Full-text search device, full-text search method, program, and recording medium
JP3555181B2 (en) Structured document search method
JP5906810B2 (en) Full-text search device, program and recording medium
JP4304226B2 (en) Structured document management system, structured document management method and program
JPH09212523A (en) Entire sentence retrieval method
JP3564952B2 (en) High-speed document registration search method and apparatus
JP3780772B2 (en) Database index creation device
JP2000132439A (en) System for retrieving file stored in hard disk of personal computer
JP2004206631A (en) Search tuning method and information search system
JPH11353212A (en) Method and device for managing member in area sharing file
US20020120735A1 (en) Method and apparatus for enhanced server page execution
JP2000099533A (en) File access method/system

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040113

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040315

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20040427

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20040507

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080514

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080514

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090514

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100514

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110514

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110514

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120514

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120514

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130514

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130514

Year of fee payment: 9

LAPS Cancellation because of no payment of annual fees