[go: up one dir, main page]

JP2003122794A - Full-text search device, full-text search method, program, and recording medium - Google Patents

Full-text search device, full-text search method, program, and recording medium

Info

Publication number
JP2003122794A
JP2003122794A JP2002214343A JP2002214343A JP2003122794A JP 2003122794 A JP2003122794 A JP 2003122794A JP 2002214343 A JP2002214343 A JP 2002214343A JP 2002214343 A JP2002214343 A JP 2002214343A JP 2003122794 A JP2003122794 A JP 2003122794A
Authority
JP
Japan
Prior art keywords
full
storage unit
text
text index
index storage
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2002214343A
Other languages
Japanese (ja)
Other versions
JP4219125B2 (en
Inventor
Kensaku Yamamoto
研策 山本
Yasutsugu Ogawa
泰嗣 小川
Tetsuya Ikeda
哲也 池田
Takuya Hiraoka
卓也 平岡
Hiroshi Takegawa
弘志 竹川
Kazushige Asada
一繁 浅田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP2002214343A priority Critical patent/JP4219125B2/en
Publication of JP2003122794A publication Critical patent/JP2003122794A/en
Priority to US10/453,578 priority patent/US7702666B2/en
Priority to CNB031330142A priority patent/CN1297933C/en
Priority to US11/647,380 priority patent/US7644097B2/en
Priority to US11/647,331 priority patent/US7730069B2/en
Application granted granted Critical
Publication of JP4219125B2 publication Critical patent/JP4219125B2/en
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 利用者からみた登録・削除処理のレスポンス
時間を短くした全文検索装置を提供する。 【解決手段】 登録処理手段3ではテキスト分割手段6
にて文書データから部分文字列へ分割し、文書データ記
憶部7,登録用小規模全文索引記憶部9に対し登録処理
を行う。削除処理手段4では入力された文書識別子に基
づき、文書データ記憶部7から文書データを読み出し、
分割手段6にて文書データから部分文字列へ分割し、登
録用小規模全文索引記憶部9の索引である場合にはそれ
を削除し、そうでない場合には削除用小規模全文索引記
憶部10にその索引を記録することにより、削除処理を
行う。検索処理手段5では入力検索条件に基づき分割手
段6にて検索文字列から部分文字列へ分割し、検索用大
規模全文索引記憶部8及び記憶部9の検索結果から記憶
部10の検索結果を差し引き検索結果として出力する。
マージ手段11では各記憶部8,9,10間でのデータ
転送を行う。
(57) [Summary] [Problem] To provide a full-text search device that shortens the response time of registration / deletion processing as viewed from a user. SOLUTION: In registration processing means 3, text division means 6 is provided.
Then, the document data is divided into partial character strings, and registration processing is performed on the document data storage unit 7 and the small-scale full-text index storage unit 9 for registration. The deletion processing unit 4 reads out the document data from the document data storage unit 7 based on the input document identifier,
The dividing unit 6 divides the document data into partial character strings, and deletes the index if it is an index of the small-sized full-text index storage unit 9 for registration; otherwise, deletes the small-sized full-text index storage unit 10 for deletion. The deletion process is performed by recording the index in the. The search processing means 5 divides the search character string into partial character strings by the division means 6 based on the input search conditions, and converts the search results in the storage unit 10 from the search results in the large-scale full-text index storage unit 8 for search and the storage unit 9. Output as a subtraction search result.
The merging means 11 performs data transfer between the storage units 8, 9, and 10.

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【発明の属する技術分野】本発明は、全文検索装置、全
文検索方法、プログラム、及び記録媒体に関し、より詳
細には、複数の文書データから指定された文字列を含む
文書を検索する全文検索装置、全文検索方法、プログラ
ム、及び記録媒体に関する。本発明は、例えば文書管理
システム、電子図書館システム、特許公報検索システム
など、多量の文書データを管理するシステムに適用可能
である。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a full-text search device, a full-text search method, a program, and a recording medium, and more particularly to a full-text search device for searching a document containing a designated character string from a plurality of document data. , Full-text search method, program, and recording medium. INDUSTRIAL APPLICABILITY The present invention can be applied to a system for managing a large amount of document data, such as a document management system, an electronic library system, and a patent publication search system.

【0002】[0002]

【従来の技術】近年、情報通信技術の発達により電子化
された文書及びその文書に関する情報がインターネット
などを介して大量に流通している。この電子化文書及び
情報の流通に際し、所望の文書を精度よく、さらには高
速に検索する文書検索装置が提案されている。
2. Description of the Related Art In recent years, a large amount of electronic documents and information about the documents have been distributed via the Internet or the like due to the development of information communication technology. A document retrieval apparatus has been proposed which retrieves a desired document with high accuracy and at high speed when distributing this electronic document and information.

【0003】そのような文書検索装置においてはキーワ
ード検索手法や全文検索手法が用いられている。全文検
索手法を用いた全文検索装置は、任意の検索文字列と検
索対象の文書全てとの間で照合を行なって、検索文字列
を含む文書を漏れなく抽出する装置であり、キーワード
検索手法のように検索対象となる全ての文書に対してキ
ーワードを予め付与するといった多大な人力が必要な
い。全文検索装置としては、様々な種類のものが提案さ
れているが、その1種として転置(索引)ファイル方式
を採用した装置がある。転置ファイル方式では、検索の
ための補助ファイルとして、文字/単語/n-gram(n文
字連接)などが出現する文書、或いはそれらの文書中の
出現位置を記録する転置ファイルを予め構築し、全文検
索時には、転置ファイルのみを用いて検索するもので非
常に高速な検索を行なうことが可能であり大量文書の高
速検索が要求されるシステムに対して有効である。
In such a document search device, a keyword search method or a full-text search method is used. A full-text search device that uses the full-text search technique is a device that collates an arbitrary search character string with all documents to be searched and extracts documents that include the search character string without omission. As described above, a great deal of human power is not required to pre-assign keywords to all documents to be searched. Various types of full-text search devices have been proposed, and one of them is a device that adopts a transposed (index) file system. In the transposed file method, as an auxiliary file for searching, a document in which characters / words / n-grams (n-character concatenations) appear, or a transposed file that records the appearance position in those documents is constructed in advance, and the entire text is written. At the time of retrieval, the retrieval is performed using only the transposed file, which enables very high-speed retrieval, which is effective for a system that requires high-speed retrieval of a large number of documents.

【0004】なお、全文検索方式一般、転置ファイル方
式の詳細については、文献「情報検索アルゴリズム」
(北研二、津田和彦、獅々堀正幹 著、共立出版株式会
社、pp.160-179)、特開平11−073429号公報の
従来技術、及び全文検索システム協議会平成10年度活
動報告(http://www.ftsanet.com/dbtokyo99/Db99.htm)
などで述べられており、公知であるのでその説明を省略
する。
For details of the full-text search method in general and the transposed file method, refer to the document "Information Search Algorithm".
(Kenji Kita, Kazuhiko Tsuda, Masamitsu Shirahori, Kyoritsu Shuppan Co., Ltd., pp.160-179), the prior art of Japanese Patent Laid-Open No. Hei 11-073429, and the full-text search system conference, 1998 activity report (/www.ftsanet.com/dbtokyo99/Db99.htm)
, Etc., and the description thereof is omitted because it is known.

【0005】転置ファイル方式を採用した従来技術とし
て、特許第3024544号公報には、検索用インデッ
クスファイルとは別にリアルタイム処理データを記憶す
ることにより、検索用インデックスファイルを更新中で
あっても検索処理を行うことが可能な情報検索装置が記
載されている。また、特開平7−146880号公報に
は、新規文書を登録する際に、主インデックスよりも小
さな副インデックスに登録し、登録時間を短くすること
が可能な文書検索装置及び方法が記載されている。
As a conventional technique adopting the transposed file method, Japanese Patent No. 3024544 discloses a real-time processing data stored separately from a search index file so that the search process can be performed even while the search index file is being updated. An information retrieval device capable of performing is described. Further, Japanese Patent Application Laid-Open No. 7-146880 describes a document search device and method capable of shortening the registration time by registering a new document in a sub index smaller than the main index. .

【0006】しかしながら、上述した公報も含め、転置
ファイル方式では通常原データの数倍にも及ぶ転置ファ
イルを構築する必要があり、転置ファイル方式の全文索
引は登録されている文書データ量が多くなるにしたがっ
て登録・削除処理に時間を要するようになり、全文検索
装置としては利用者側からみた登録・削除処理のレスポ
ンスタイムが長くなる。
However, in the transposed file system including the above-mentioned publications, it is necessary to construct a transposed file which is usually several times as large as the original data, and the full-text index in the transposed file system has a large amount of registered document data. Accordingly, the registration / deletion process takes time, and the response time of the registration / deletion process seen from the user side becomes long as the full-text search device.

【0007】[0007]

【発明が解決しようとする課題】本発明は、上述のごと
き実情に鑑みてなされたものであり、利用者側からみた
登録及び削除処理のレスポンスタイムを短くすることが
可能な、全文検索装置、全文検索方法、コンピュータを
その装置として機能させるためのプログラム、コンピュ
ータにその方法の手順を実行させるためのプログラム、
及びそれらのプログラムを記録したコンピュータ読み取
り可能な記録媒体を提供することをその目的とする。
SUMMARY OF THE INVENTION The present invention has been made in view of the above circumstances, and is a full-text search device capable of shortening the response time of registration and deletion processing seen from the user side. A full-text search method, a program for causing a computer to function as the device, a program for causing a computer to execute the steps of the method,
It is an object of the present invention to provide a computer-readable recording medium recording these programs.

【0008】さらに、本発明は、利用者側からみた登録
及び削除処理のレスポンスタイムを短くし、且つ処理不
能な期間を無くすることが可能な、全文検索装置、全文
検索方法、コンピュータをその装置として機能させるた
めのプログラム、コンピュータにその方法の手順を実行
させるためのプログラム、及びそれらのプログラムを記
録したコンピュータ読み取り可能な記録媒体を提供する
ことをその目的とする。
Furthermore, the present invention provides a full-text search device, a full-text search method, and a computer capable of shortening the response time of the registration and deletion processing seen from the user side and eliminating the unprocessable period. It is an object of the present invention to provide a program for causing the computer to execute the method, a program for causing a computer to execute the procedure of the method, and a computer-readable recording medium recording the program.

【0009】[0009]

【課題を解決するための手段】請求項1の発明は、複数
の文書データから指定された文字列を含む文書を検索す
る全文検索装置において、登録された文書データを保存
する文書データ記憶部と、検索用の全文索引記憶部と、
文書データに関する登録処理を行う登録処理手段と、文
書データに関する削除処理を行う削除処理手段と、検索
処理を行う検索処理手段とを有し、登録用の全文索引記
憶部を、前記検索用の全文索引記憶部とは別に有し、さ
らに、前記登録用の全文索引記憶部から、前記検索用の
全文索引記憶部へデータをマージするマージ手段を有す
ることを特徴としたものである。
According to a first aspect of the present invention, in a full-text search device for searching a document including a designated character string from a plurality of document data, a document data storage unit for storing registered document data is provided. , Full-text index storage for searching,
It has registration processing means for performing registration processing regarding document data, deletion processing means for performing deletion processing regarding document data, and search processing means for performing search processing, and a full-text index storage unit for registration is provided for the full-text for search. In addition to the index storage unit, it is characterized by further comprising a merging unit for merging data from the registration full-text index storage unit to the search full-text index storage unit.

【0010】請求項2の発明は、請求項1の発明におい
て、前記マージ手段は、前記登録用の全文索引記憶部か
ら前記検索用の全文索引記憶部へデータをマージする際
に、全文索引の構成要素である転置リストごとに処理を
行うことを特徴としたものである。
According to a second aspect of the present invention, in the first aspect of the invention, the merging means stores the full-text index when merging data from the registration full-text index storage section to the search full-text index storage section. The feature is that processing is performed for each transposed list that is a component.

【0011】請求項3の発明は、複数の文書データから
指定された文字列を含む文書を検索する全文検索装置に
おいて、登録された文書データを保存する文書データ記
憶部と、検索用の全文索引記憶部と、文書データに関す
る登録処理を行う登録処理手段と、文書データに関する
削除処理を行う削除処理手段と、検索処理を行う検索処
理手段とを有し、登録用の全文索引記憶部と、削除用の
全文索引記憶部とを、前記検索用の全文索引記憶部とは
別に有し、さらに、前記登録用の全文索引記憶部及び削
除用の全文索引記憶部から、前記検索用の全文索引記憶
部へデータをマージするマージ手段を有することを特徴
としたものである。
According to a third aspect of the present invention, in a full-text search device for searching a document including a designated character string from a plurality of document data, a document data storage section for storing registered document data, and a full-text index for search. A storage unit, a registration processing unit that performs registration processing related to document data, a deletion processing unit that performs deletion processing related to document data, and a search processing unit that performs search processing, and a full-text index storage unit for registration and deletion. A full-text index storage unit for searching separately from the full-text index storage unit for searching, and further, from the full-text index storing unit for registration and the full-text index storing unit for deletion, the full-text index storage unit for searching. It is characterized in that it has a merging means for merging data into a copy.

【0012】請求項4の発明は、請求項3の発明におい
て、前記マージ手段は、前記登録用の全文索引記憶部及
び削除用の全文索引記憶部から、前記検索用の全文索引
記憶部へデータをマージする際に、全文索引の構成要素
である転置リストごとに処理を行うことを特徴としたも
のである。
According to a fourth aspect of the present invention, in the third aspect of the invention, the merging means stores data from the full-text index storage unit for registration and the full-text index storage unit for deletion to the full-text index storage unit for retrieval. When merging is performed, the processing is performed for each transposed list that is a constituent element of the full-text index.

【0013】請求項5の発明は、請求項2乃至4のいず
れか1の発明において、前記マージ手段は、前記登録用
の全文索引記憶部に登録された文書データ件数が予め指
定された件数に達したときに、前記検索用の全文索引記
憶部にデータをマージする処理を行うことを特徴とした
ものである。
According to a fifth aspect of the present invention, in any one of the second to fourth aspects of the present invention, the merge means sets the number of document data registered in the full-text index storage unit for registration to a predetermined number. When it reaches, a process of merging data into the full-text index storage unit for retrieval is performed.

【0014】請求項6の発明は、請求項2乃至4のいず
れか1の発明において、前記マージ手段は、前記登録用
の全文索引記憶部の容量が予め指定された容量に達した
ときに、前記検索用の全文索引記憶部にデータをマージ
する処理を行うことを特徴としたものである。
According to a sixth aspect of the present invention, in the invention according to any one of the second to fourth aspects, the merging means, when the capacity of the full-text index storage unit for registration reaches a predetermined capacity, The present invention is characterized by performing a process of merging data into the full-text index storage unit for retrieval.

【0015】請求項7の発明は、請求項5又は6の発明
において、前記登録用の全文索引記憶部を複数有し、前
記検索用の全文索引記憶部へデータをマージする処理を
行っている登録用全文索引記憶部とは異なる、他の登録
用全文索引記憶部を使用して、登録処理を行うことを特
徴としたものである。
According to a seventh aspect of the present invention, in the fifth or sixth aspect of the present invention, a plurality of registration full-text index storage units are provided, and a process of merging data into the search full-text index storage unit is performed. Another feature of the present invention is that the registration process is performed using another registration full-text index storage unit different from the registration full-text index storage unit.

【0016】請求項8の発明は、請求項5又は6の発明
において、前記登録用の全文索引記憶部を二つ有し、う
ち一つの登録用全文索引記憶部から前記検索用の全文索
引記憶部へデータをマージする処理を行っている間は、
もう一つの登録用全文索引記憶部を使用して登録処理を
行うことを特徴としたものである。
According to an eighth aspect of the present invention, in the fifth or sixth aspect of the present invention, the registration full-text index storage unit is provided, and one of the registration full-text index storage units is used for the search full-text index storage unit. While the process of merging the data into the department,
Another feature is that the registration process is performed using another full-text index storage unit for registration.

【0017】請求項9の発明は、請求項5又は6の発明
において、前記登録用の全文索引記憶部とは異なる他の
登録用の全文索引記憶部を管理する記憶部管理手段を有
し、該記憶部管理手段は、前記登録処理に際して登録用
の全文索引を記憶する処理が可能な登録用全文索引記憶
部が存在しない場合に、他の登録用全文索引記憶部を新
規作成することを特徴としたものである。
According to a ninth aspect of the present invention, in the fifth or sixth aspect of the present invention, there is provided storage unit management means for managing another full-text index storage unit for registration different from the full-text index storage unit for registration. The storage unit management means newly creates another full-text index storage unit for registration when there is no full-text index storage unit for registration capable of storing a full-text index for registration during the registration process. It is what

【0018】請求項10の発明は、請求項9の発明にお
いて、前記記憶部管理手段は、余剰の登録用全文索引記
憶部を削除することを特徴としたものである。
According to a tenth aspect of the present invention, in the ninth aspect, the storage unit managing means deletes the surplus registration full-text index storage unit.

【0019】請求項11の発明は、請求項9又は10の
発明において、前記登録処理手段は、登録用全文索引記
憶部のうち一つの登録用全文索引記憶部から前記検索用
の全文索引記憶部へデータをマージする処理を行ってい
る間は、他の登録用全文索引記憶部を使用して、登録処
理を行うことを特徴としたものである。
According to an eleventh aspect of the present invention, in the invention of the ninth or tenth aspect, the registration processing means stores the full-text index storage unit for searching from one full-text index storage unit for registration among the full-text index storage unit for registration. While the data merging process is being performed, another registration full-text index storage unit is used to perform the registration process.

【0020】請求項12の発明は、複数の文書データか
ら指定された文字列を含む文書を検索する全文検索装置
において、登録された文書データを保存する文書データ
記憶部と、検索用の全文索引記憶部と、文書データに関
する登録処理を行う登録処理手段と、文書データに関す
る削除処理を行う削除処理手段と、検索処理を行う検索
処理手段とを有し、削除用の全文索引記憶部を、前記検
索用の全文索引記憶部とは別に有し、さらに、前記削除
用の全文索引記憶部から、前記検索用の全文索引記憶部
へデータをマージするマージ手段を有することを特徴と
したものである。
According to a twelfth aspect of the present invention, in a full-text search device for searching a document including a designated character string from a plurality of document data, a document data storage section for storing the registered document data, and a full-text index for search. The storage unit, a registration processing unit that performs registration processing regarding document data, a deletion processing unit that performs deletion processing regarding document data, and a search processing unit that performs search processing. A full-text index storage unit for search is provided separately, and a merging unit for merging data from the full-text index storage unit for deletion to the full-text index storage unit for search is provided. .

【0021】請求項13の発明は、請求項12の発明に
おいて、前記マージ手段は、前記削除用の全文索引記憶
部から前記検索用の全文索引記憶部へデータをマージす
る際に、全文索引の構成要素である転置リストごとに処
理を行うことを特徴としたものである。
According to a thirteenth aspect of the present invention, in the twelfth aspect of the present invention, the merging means merges the data from the deletion full-text index storage unit into the search full-text index storage unit. The feature is that processing is performed for each transposed list that is a component.

【0022】請求項14の発明は、請求項3乃至13の
いずれか1の発明において、前記マージ手段は、前記削
除用の全文索引記憶部に登録された文書データ件数が予
め指定された件数に達したときに、前記検索用の全文索
引記憶部にデータをマージする処理を行うことを特徴と
したものである。
According to a fourteenth aspect of the present invention, in the invention of any one of the third to thirteenth aspects, the merge means sets the number of pieces of document data registered in the deletion full-text index storage unit to a predetermined number. When it reaches, a process of merging data into the full-text index storage unit for retrieval is performed.

【0023】請求項15の発明は、請求項3乃至13の
いずれか1の発明において、前記マージ手段は、前記削
除用の全文索引記憶部の容量が予め指定された容量に達
したときに、前記検索用の全文索引記憶部にデータをマ
ージする処理を行うことを特徴としたものである。
According to a fifteenth aspect of the present invention, in the invention according to any one of the third to thirteenth aspects, the merging means, when the capacity of the deletion full-text index storage unit reaches a predetermined capacity, The present invention is characterized by performing a process of merging data into the full-text index storage unit for retrieval.

【0024】請求項16の発明は、請求項14又は15
の発明において、前記削除用の全文索引記憶部を複数有
し、前記検索用の全文索引記憶部へデータをマージする
処理を行っている削除用全文索引記憶部とは異なる、他
の削除用全文索引記憶部を使用して、削除処理を行うこ
とを特徴としたものである。
The invention of claim 16 is the invention of claim 14 or 15.
In the invention described above, another full text for deletion different from the full text index storage for deletion, which has a plurality of full text index storage for deletion and is performing the process of merging data to the full text index storage for search The feature is that the deletion process is performed using the index storage unit.

【0025】請求項17の発明は、請求項14又は15
の発明において、前記削除用の全文索引記憶部を二つ有
し、うち一つの削除用全文索引記憶部から前記検索用の
全文索引記憶部へデータをマージする処理を行っている
間は、もう一つの削除用全文索引記憶部を使用して、削
除処理を行うことを特徴としたものである。
The invention of claim 17 is the invention of claim 14 or 15.
In the invention described above, two full-text index storage units for deletion are provided, and while performing the process of merging data from one full-text index storage unit for deletion to the full-text index storage unit for retrieval, The deletion processing is performed by using one deletion full-text index storage unit.

【0026】請求項18の発明は、請求項14又は15
の発明において、前記削除用の全文索引記憶部とは異な
る他の削除用の全文索引記憶部を管理する記憶部管理手
段を有し、該記憶部管理手段は、前記削除処理に際して
削除用の全文索引を記憶する処理が可能な削除用全文索
引記憶部が存在しない場合に、他の削除用全文索引記憶
部を新規作成することを特徴としたものである。
The invention of claim 18 is the invention of claim 14 or 15.
In the invention, there is provided a storage unit managing means for managing another full-text index storage unit for deletion different from the full-text index storage unit for deletion, and the storage unit management unit has a full-text index for deletion in the deletion processing. When there is no deletion full-text index storage unit capable of storing the index, another deletion full-text index storage unit is newly created.

【0027】請求項19の発明は、請求項18の発明に
おいて、前記記憶部管理手段は、余剰の削除用全文索引
記憶部を削除することを特徴としたものである。
According to a nineteenth aspect of the present invention, in the eighteenth aspect of the present invention, the storage unit managing means deletes an excess full-text index storage unit for deletion.

【0028】請求項20の発明は、請求項18又は19
の発明において、前記削除処理手段は、削除用全文索引
記憶部のうち一つの削除用全文索引記憶部から前記検索
用の全文索引記憶部へデータをマージする処理を行って
いる間は、他の削除用全文索引記憶部を使用して、削除
処理を行うことを特徴としたものである。
The invention of claim 20 is the invention of claim 18 or 19.
In the invention described above, while the deletion processing unit is performing a process of merging data from one deletion full-text index storage unit of the deletion full-text index storage unit to the search full-text index storage unit, The deletion processing is performed by using the deletion full-text index storage unit.

【0029】請求項21の発明は、登録された文書デー
タを保存する文書データ記憶部と、検索用の全文索引を
記憶する検索用の全文索引記憶部と、文書データに関す
る登録処理を行う登録処理手段と、文書データに関する
削除処理を行う削除処理手段と、検索処理を行う検索処
理手段とを有し、複数の文書データから指定された文字
列を含む文書を検索する全文検索システムにおける全文
検索方法において、前記検索用の全文索引記憶部とは別
に備えた、登録用の全文索引記憶部に対し、登録用の全
文索引を記憶する索引記憶ステップと、前記登録用の全
文索引記憶部から前記検索用の全文索引記憶部へデータ
をマージするマージステップとを有することを特徴とし
たものである。
According to a twenty-first aspect of the present invention, a document data storage unit for storing registered document data, a search full-text index storage unit for storing a search full-text index, and a registration process for performing a registration process on the document data. Full-text search method in a full-text search system for searching a document including a specified character string from a plurality of document data A full-text index storage unit for registration, which is provided separately from the full-text index storage unit for search, and an index storage step of storing a full-text index for registration, and the search from the full-text index storage unit for registration. And a merging step of merging the data into a full-text index storage unit for use in the.

【0030】請求項22の発明は、請求項21の発明に
おいて、前記マージステップは、前記登録用の全文索引
記憶部から前記検索用の全文索引記憶部へデータをマー
ジする際に、全文索引の構成要素である転置リストごと
に処理を行うことを特徴としたものである。
According to a twenty-second aspect of the present invention, in the merging step of the twenty-first aspect, when the data is merged from the registration full-text index storage unit to the search full-text index storage unit, The feature is that processing is performed for each transposed list that is a component.

【0031】請求項23の発明は、登録された文書デー
タを保存する文書データ記憶部と、検索用の全文索引を
記憶する検索用の全文索引記憶部と、文書データに関す
る登録処理を行う登録処理手段と、文書データに関する
削除処理を行う削除処理手段と、検索処理を行う検索処
理手段とを有し、複数の文書データから指定された文字
列を含む文書を検索する全文検索システムにおける全文
検索方法において、前記検索用の全文索引記憶部とは別
に備えた、登録用の全文索引記憶部と削除用の全文索引
記憶部とに対し、夫々、登録用の全文索引、削除用の全
文索引を記憶する索引記憶ステップと、前記登録用の全
文索引記憶部及び削除用の全文索引記憶部から、前記検
索用の全文索引記憶部へデータをマージするマージステ
ップとを有することを特徴としたものである。
According to a twenty-third aspect of the present invention, a document data storage unit for storing the registered document data, a search full-text index storage unit for storing a search full-text index, and a registration process for performing a registration process for the document data. Full-text search method in a full-text search system for searching a document including a specified character string from a plurality of document data In the above, the full-text index storage section for registration and the full-text index storage section for deletion, which are provided separately from the full-text index storage section for search, respectively store a full-text index for registration and a full-text index for deletion. And a merge step of merging data from the registration full-text index storage unit and the deletion full-text index storage unit to the search full-text index storage unit. Is obtained by it said.

【0032】請求項24の発明は、請求項23の発明に
おいて、前記マージステップは、前記登録用の全文索引
記憶部及び削除用の全文索引記憶部から、前記検索用全
文索引記憶部へデータをマージする際に、全文索引の構
成要素である転置リストごとに処理を行うことを特徴と
したものである。
According to a twenty-fourth aspect of the present invention based on the twenty-third aspect, the merging step stores data from the full-text index storage unit for registration and the full-text index storage unit for deletion to the full-text index storage unit for retrieval. When merging, the processing is performed for each transposed list that is a constituent element of the full-text index.

【0033】請求項25の発明は、請求項22乃至24
のいずれか1の発明において、前記マージステップは、
前記登録用の全文索引記憶部に登録された文書データ件
数が予め指定された件数に達したときに、前記検索用の
全文索引記憶部にデータをマージする処理を行うことを
特徴としたものである。
The invention of claim 25 is based on claims 22 to 24.
In any one invention of the above, the merging step comprises:
When the number of document data items registered in the full-text index storage unit for registration reaches a predetermined number, a process of merging data into the full-text index storage unit for search is performed. is there.

【0034】請求項26の発明は、請求項22乃至25
のいずれか1の発明において、前記マージステップは、
前記登録用の全文索引記憶部の容量が予め指定された容
量に達したときに、前記検索用の全文索引記憶部にデー
タをマージする処理を行うことを特徴としたものであ
る。
The invention of claim 26 is based on claims 22 to 25.
In any one invention of the above, the merging step comprises:
When the capacity of the full-text index storage unit for registration reaches a predetermined capacity, a process of merging data into the full-text index storage unit for search is performed.

【0035】請求項27の発明は、請求項25又は26
の発明において、前記全文検索システムは前記登録用の
全文索引記憶部を複数有し、当該全文検索方法は、前記
検索用の全文索引記憶部へデータをマージする処理を行
っている登録用全文索引記憶部とは異なる、他の登録用
全文索引記憶部を使用して、登録処理を行うことを特徴
としたものである。
The invention of claim 27 is based on claim 25 or 26.
In the invention, the full-text search system has a plurality of full-text index storage units for registration, and the full-text search method is a full-text index for registration performing a process of merging data into the full-text index storage unit for search. It is characterized in that the registration process is performed by using another registration full-text index storage unit different from the storage unit.

【0036】請求項28の発明は、請求項25又は26
の発明において、前記全文検索システムは前記登録用の
全文索引記憶部を二つ有し、当該全文検索方法は、うち
一つの登録用全文索引記憶部から前記検索用の全文索引
記憶部へデータをマージする処理を行っている間、もう
一つの登録用全文索引記憶部を使用して、登録処理を行
うことを特徴としたものである。
The invention of claim 28 is the invention of claim 25 or 26.
In the invention, the full-text search system has two full-text index storage units for registration, the full-text search method, one of the full-text index storage unit for registration data to the full-text index storage unit for search. While performing the merging process, another registration full-text index storage unit is used to perform the registration process.

【0037】請求項29の発明は、請求項25又は26
の発明において、前記登録用の全文索引記憶部とは異な
る他の登録用の全文索引記憶部を管理する記憶部管理ス
テップを有し、該記憶部管理ステップは、前記登録処理
に際して登録用の全文索引を記憶する処理が可能な登録
用全文索引記憶部が存在しない場合に、他の登録用全文
索引記憶部を新規作成するステップを含むことを特徴と
したものである。
The invention of claim 29 is the invention of claim 25 or 26.
In the invention, there is a storage unit management step of managing another full-text index storage unit for registration different from the full-text index storage unit for registration, and the storage unit management step includes the full-text index storage unit for the registration processing. It is characterized by including a step of newly creating another full-text index storage unit for registration when there is no full-text index storage unit for registration capable of storing the index.

【0038】請求項30の発明は、請求項29の発明に
おいて、前記記憶部管理ステップは、余剰の登録用全文
索引記憶部を削除するステップを含むことを特徴とした
ものである。
The invention of claim 30 is characterized in that, in the invention of claim 29, the storage unit managing step includes a step of deleting an excessive registration full-text index storage unit.

【0039】請求項31の発明は、請求項29又は30
の発明において、前記登録処理手段は、登録用全文索引
記憶部のうち一つの登録用全文索引記憶部から前記検索
用の全文索引記憶部へデータをマージする処理を行って
いる間は、他の登録用全文索引記憶部を使用して登録処
理を行うことを特徴としたものである。
The invention of claim 31 is the invention of claim 29 or 30.
In the invention described above, the registration processing means may perform another process while merging data from one registration full-text index storage unit of the registration full-text index storage unit to the search full-text index storage unit. The feature is that the registration process is performed using the full-text index storage unit for registration.

【0040】請求項32の発明は、登録された文書デー
タを保存する文書データ記憶部と、検索用の全文索引を
記憶する検索用の全文索引記憶部と、文書データに関す
る登録処理を行う登録処理手段と、文書データに関する
削除処理を行う削除処理手段と、検索処理を行う検索処
理手段とを有し、複数の文書データから指定された文字
列を含む文書を検索する全文検索システムにおける全文
検索方法において、前記検索用の全文索引記憶部とは別
に備えた、削除用の全文索引記憶部に対し、削除用の全
文索引を記憶する索引記憶ステップと、前記削除用の全
文索引記憶部から前記検索用の全文索引記憶部へデータ
をマージするマージステップとを有することを特徴とし
たものである。
According to a thirty-second aspect of the present invention, a document data storage unit for storing the registered document data, a search full-text index storage unit for storing a search full-text index, and a registration process for performing a registration process for the document data. Full-text search method in a full-text search system for searching a document including a specified character string from a plurality of document data In a separate full-text index storage unit for deletion, an index storage step for storing a full-text index for deletion in the deletion full-text index storage unit, and the search from the full-text index storage unit for deletion And a merging step of merging the data into a full-text index storage unit for use in the.

【0041】請求項33の発明は、請求項32の発明に
おいて、前記マージステップは、前記削除用の全文索引
記憶部から前記検索用の全文索引記憶部へデータをマー
ジする際に、全文索引の構成要素である転置リストごと
に処理を行うことを特徴としたものである。
According to a thirty-third aspect of the invention, in the thirty-second aspect of the invention, the merging step is performed when the data is merged from the deletion full-text index storage unit to the search full-text index storage unit. The feature is that processing is performed for each transposed list that is a component.

【0042】請求項34の発明は、請求項23乃至33
のいずれか1の発明において、前記マージステップは、
前記削除用の全文索引記憶部に登録された文書データ件
数が予め指定された件数に達したときに、前記検索用の
全文索引記憶部にデータをマージする処理を行うことを
特徴としたものである。
The invention of claim 34 is based on claims 23 to 33.
In any one invention of the above, the merging step comprises:
When the number of pieces of document data registered in the deletion full-text index storage unit reaches a predetermined number, a process of merging data into the search full-text index storage unit is performed. is there.

【0043】請求項35の発明は、請求項23乃至33
のいずれか1の発明において、前記マージステップは、
前記削除用の全文索引記憶部の容量が予め指定された容
量に達したときに、前記検索用の全文索引記憶部にデー
タをマージする処理を行うことを特徴としたものであ
る。
The invention of claim 35 is based on claims 23 to 33.
In any one invention of the above, the merging step comprises:
When the capacity of the deletion full-text index storage unit reaches a predetermined capacity, a process of merging data into the search full-text index storage unit is performed.

【0044】請求項36の発明は、請求項34又は35
の発明において、前記全文検索システムは前記削除用の
全文索引記憶部を複数有し、当該全文検索方法は、前記
検索用の全文索引記憶部へデータをマージする処理を行
っている削除用全文索引記憶部とは異なる、他の削除用
全文索引記憶部を使用して、削除処理を行うことを特徴
としたものである。
The invention of claim 36 is based on claim 34 or 35.
In the invention described above, the full-text search system has a plurality of full-text index storage units for deletion, and the full-text search method is a full-text index for deletion performing a process of merging data into the full-text index storage unit for search. The deletion processing is performed by using another deletion full-text index storage unit different from the storage unit.

【0045】請求項37の発明は、請求項34又は35
の発明において、前記全文検索システムは前記削除用の
全文索引記憶部を二つ有し、当該全文検索方法は、うち
一つの削除用全文索引記憶部から前記検索用の全文索引
記憶部へデータをマージする処理を行っている間、もう
一つの削除用全文索引記憶部を使用して、削除処理を行
うことを特徴としたものである。
The invention of claim 37 is based on claim 34 or 35.
In the invention described above, the full-text search system has two full-text index storage units for deletion, and the full-text search method includes data from one deletion full-text index storage unit to the full-text index storage unit for search. While performing the merging process, another deleting full-text index storage unit is used to perform the deleting process.

【0046】請求項38の発明は、請求項34又は35
の発明において、前記削除用の全文索引記憶部とは異な
る他の削除用の全文索引記憶部を管理する記憶部管理ス
テップを有し、該記憶部管理ステップは、前記削除処理
に際して削除用の全文索引を記憶する処理が可能な削除
用全文索引記憶部が存在しない場合に、他の削除用全文
索引記憶部を新規作成するステップを含むことを特徴と
したものである。
The invention of claim 38 is based on claim 34 or 35.
In the invention, there is provided a storage unit management step of managing another full-text index storage unit for deletion different from the full-text index storage unit for deletion, and the storage unit management step includes the full-text index storage unit for deletion in the deletion processing. The present invention is characterized by including a step of newly creating another full-text index storage unit for deletion when there is no full-text index storage unit for deletion capable of storing an index.

【0047】請求項39の発明は、請求項38の発明に
おいて、前記記憶部管理ステップは、余剰の削除用全文
索引記憶部を削除するステップを含むことを特徴とした
ものである。
According to a thirty-ninth aspect of the invention, in the thirty-eighth aspect of the invention, the storage section managing step includes a step of deleting an excessive deletion full-text index storage section.

【0048】請求項40の発明は、請求項38又は39
の発明において、前記削除処理手段は、削除用全文索引
記憶部のうち一つの削除用全文索引記憶部から前記検索
用の全文索引記憶部へデータをマージする処理を行って
いる間は、他の削除用全文索引記憶部を使用して、削除
処理を行うことを特徴としたものである。
The invention of claim 40 relates to claim 38 or 39.
In the invention described above, while the deletion processing unit is performing a process of merging data from one deletion full-text index storage unit of the deletion full-text index storage unit to the search full-text index storage unit, The deletion processing is performed by using the deletion full-text index storage unit.

【0049】請求項41の発明は、コンピュータを請求
項1乃至20のいずれか1記載の全文検索装置として機
能させるための、又は、コンピュータに請求項21乃至
40のいずれか1記載の全文検索方法を実行させるため
のプログラムである。
The invention of claim 41 is for causing a computer to function as the full-text search device according to any one of claims 1 to 20, or for the computer to be the full-text search method according to any one of claims 21 to 40. Is a program for executing.

【0050】請求項42の発明は、請求項41記載のプ
ログラムを記録したコンピュータ読み取り可能な記録媒
体である。
The invention of claim 42 is a computer-readable recording medium in which the program according to claim 41 is recorded.

【0051】[0051]

【発明の実施の形態】本発明は、小規模の全文索引を登
録用及び削除用に別に用意し登録及び削除のレスポンス
タイムの悪化を防ぎ、検索処理の際には大規模の全文索
引の検索結果に、登録用の小規模全文索引の検索結果を
加え、削除用の小規模全文索引の検索結果を除き、利用
者に返す検索結果とする全文検索装置であり、これは、
本出願人による特願2001−78026号明細書に記
載の手法を全文検索装置に適用し、上述した課題を解決
したものである。
BEST MODE FOR CARRYING OUT THE INVENTION According to the present invention, a small-scale full-text index is separately prepared for registration and deletion to prevent deterioration of response time for registration and deletion, and a large-scale full-text index is searched during search processing. It is a full-text search device that adds search results of a small-scale full-text index for registration to results and excludes search results of a small-scale full-text index for deletion, and returns the search results to the user.
The method described in Japanese Patent Application No. 2001-78026 by the present applicant is applied to a full-text search device to solve the above-mentioned problems.

【0052】なお、上述の特願2001−78026号
明細書には、高度な検索要求に高速に応答できる性能を
維持しつつ、システム稼働中の更新性能をさらに向上さ
せることができるデータベース管理システム、プログラ
ム、及び記録媒体が記載されており、登録・削除のため
のデータ保持手段を検索向けデータ保持手段とは別に用
意することによって、登録・削除のスループットを高く
することを特徴としている。しかしながら、上述の明細
書に記載の手法では、登録用及び削除用の小規模な全文
索引から検索用の大規模な全文索引へのデータ転送手段
で小規模索引に登録されている文書データの識別子から
元の文書データを取得し、大規模な索引に登録及び削除
を行っている。上述のごとく、大規模な全文索引への登
録・削除処理には時間がかかるので、データ転送処理の
時間が長くなる。一般に全文索引への登録・削除処理の
間は検索処理が行えないので、利用者から見た検索処理
のレスポンスタイムが悪くなるという問題がある。
The above-mentioned Japanese Patent Application No. 2001-78026 discloses a database management system capable of further improving the update performance during system operation while maintaining the performance capable of responding to a high-level search request at high speed. A program and a recording medium are described, and it is characterized by increasing the throughput of registration / deletion by providing a data holding means for registration / deletion separately from the data holding means for search. However, in the method described in the above specification, the identifier of the document data registered in the small-scale index by the data transfer means from the small-scale full-text index for registration and deletion to the large-scale full-text index for search. The original document data is acquired from and registered and deleted in a large-scale index. As described above, since it takes time to register / delete the large-scale full-text index, the data transfer process takes a long time. Generally, since the search process cannot be performed during the registration / deletion process to the full-text index, there is a problem that the response time of the search process from the user's perspective becomes poor.

【0053】本発明では、小規模な全文索引から大規模
な全文索引へのデータ転送手段において、元の文書デー
タを用いるのではなく転置ファイル方式の全文索引を用
いることによって、すなわち全文索引の構成要素である
転置リストを用いることによって、データ転送に要する
時間を短くするようにしている。
In the present invention, in the data transfer means from the small-scale full-text index to the large-scale full-text index, the full-text index of the transposed file system is used instead of the original document data, that is, the construction of the full-text index. By using the transposed list as an element, the time required for data transfer is shortened.

【0054】図1は、本発明の一実施形態に係る全文検
索装置の機能を説明するためのブロック図、図2は、図
1における全文検索装置をスタンドアロンで構成した場
合のハードウェア構成例を示す図、図3は、図1におけ
る全文検索装置をサーバ/クライアントで構成した場合
のハードウェア構成例を示す図である。
FIG. 1 is a block diagram for explaining the function of the full-text search device according to one embodiment of the present invention, and FIG. 2 is a hardware configuration example in the case where the full-text search device in FIG. FIG. 3 and FIG. 3 are diagrams showing a hardware configuration example when the full-text search device in FIG. 1 is configured by a server / client.

【0055】本発明に係る全文検索装置は、複数の文書
データ(複数の電子化文書)から指定された文字列を含
む文書を検索する装置である。なお、本明細書中、全文
検索装置における「全文検索」とは、検索すべき全ての
文字列を対象とした検索装置であることを意味してお
り、したがって、例えばSGML等のタグ付の文書であ
れば、適宜、所定のタグ間にある文字列のみを対象とし
てもよい。
The full-text search device according to the present invention is a device for searching a document including a specified character string from a plurality of document data (a plurality of digitized documents). In the present specification, "full-text search" in the full-text search device means a search device for all character strings to be searched, and therefore, for example, a document with a tag such as SGML. If so, only the character string between the predetermined tags may be targeted as appropriate.

【0056】図1を参照すると、本実施形態において
は、入力手段1では、登録処理用のテキストデータ,削
除処理用の文書識別子,検索処理用の検索条件などが入
力され、夫々、登録処理手段3,削除処理手段4,検索
処理手段5に渡される。登録処理手段3では文書データ
に関する登録処理を行う。登録処理手段3における登録
処理は文書データ記憶部7及び登録用小規模全文索引記
憶部9に対して行われる。削除処理手段4では文書デー
タに関する削除処理を行う。削除処理手段4における削
除処理は、入力手段1で入力された文書識別子に基づい
て、文書データ記憶部7に記憶された文書データを読み
出し、テキスト分割手段6を用い、登録用小規模全文索
引記憶部9に登録された索引である場合にはそれを削除
し、登録された索引でない場合には削除用小規模全文索
引記憶部10にその索引を記録する。なお、テキスト分
割手段6では、登録処理手段3,削除処理手段4,検索
処理手段5の各々で必要な、登録処理における文書デー
タから部分文字列への分割処理、削除処理における文書
データから部分文字列への分割処理、検索処理における
検索条件(検索文字列)から部分文字列への分割処理を
行う。
Referring to FIG. 1, in the present embodiment, the input means 1 inputs text data for registration processing, a document identifier for deletion processing, search conditions for search processing, and the like, and the registration processing means respectively. 3, the deletion processing means 4, and the search processing means 5. The registration processing means 3 performs registration processing regarding document data. The registration process in the registration processing means 3 is performed on the document data storage unit 7 and the registration small-scale full-text index storage unit 9. The deletion processing means 4 performs a deletion process regarding the document data. In the deletion processing in the deletion processing unit 4, the document data stored in the document data storage unit 7 is read based on the document identifier input by the input unit 1, and the text dividing unit 6 is used to store a small-scale full-text index storage for registration. If it is the index registered in the section 9, it is deleted, and if it is not the registered index, the index is recorded in the deletion small-scale full-text index storage section 10. The text dividing unit 6 divides the document data into partial character strings in the registration process and the partial characters from the document data in the deletion process, which are required in each of the registration processing unit 3, the deletion processing unit 4, and the search processing unit 5. Division processing into columns and division processing from a search condition (search character string) in the search processing into partial character strings are performed.

【0057】また、検索処理手段5における検索処理
は、検索用大規模全文索引記憶部8,登録用小規模全文
索引記憶部9,削除用小規模全文索引記憶部10に対し
て実行し、記憶部8及び9の検索結果から記憶部10に
おける検索結果を差し引いた結果を求め、検索結果とし
て出力手段2で出力する。マージ手段11においては、
検索用大規模全文索引記憶部8,登録用小規模全文索引
記憶部9,削除用小規模全文索引記憶部10間でのマー
ジ処理(広義でデータ転送ともいえる)を行う。
Further, the search processing in the search processing means 5 is executed by the large-scale full-text index storage section 8 for search, the small-scale full-text index storage section 9 for registration, and the small-scale full-text index storage section 10 for deletion, and stored. A result obtained by subtracting the search result in the storage unit 10 from the search results of the units 8 and 9 is obtained, and is output by the output unit 2 as the search result. In the merging means 11,
A merge process (broadly referred to as data transfer) is performed among the search large-scale full-text index storage unit 8, the registration small-scale full-text index storage unit 9, and the deletion small-scale full-text index storage unit 10.

【0058】なお、以降、特に説明はしないが、削除処
理手段4における削除処理に関し、削除用小規模全文索
引記憶部10を使用しなくとも、例えば削除する文書デ
ータのみを削除して処理時間が得られる休日などに、文
書データ記憶部7に存在する文書データと整合して検索
用大規模全文索引記憶部8のデータを更新するなど、他
の削除用の文書データ(及び索引)管理方法を用い、登
録用小規模全文索引記憶部9を使用した登録処理のみを
行う形態も採用できる。逆に、登録用小規模全文索引記
憶部9を使用した登録処理を行わず、削除用小規模全文
索引記憶部10のみを使用した削除処理のみを行う形態
も採用できる。
Although not particularly described below, regarding the deletion processing in the deletion processing means 4, for example, only the document data to be deleted is deleted and the processing time is reduced without using the deletion small-scale full-text index storage unit 10. On other days such as holidays to be obtained, another method of managing the document data (and index) for deletion, such as updating the data in the search large-scale full-text index storage unit 8 to match the document data existing in the document data storage unit 7, It is also possible to employ a mode in which only the registration process using the registration small-scale full-text index storage unit 9 is performed. On the contrary, it is possible to adopt a mode in which the registration process using the registration small-scale full-text index storage unit 9 is not performed and only the deletion process using only the deletion small-scale full-text index storage unit 10 is performed.

【0059】図2に示すスタンドアロンでのハードウェ
ア構成においては、図1における入力手段1は入力装置
21に実現され、出力手段2は表示装置22に実現され
る。各種処理手段3〜6,11は主制御装置(CPU,
メモリ等)24に、各種記憶部7〜10は、例えば全て
を記憶装置25として、或いは個々の記憶装置として、
さらには記憶装置25におけるファイルとして実現され
る。例えば、1つの限られた記憶装置を用いて本発明に
係る全文検索を行う場合、検索処理をメインに行うの
か、登録・削除処理をメインに行うのかで、その使用す
る領域を上手く割り当てるとよい。また、入出力制御装
置23は主制御装置24の制御信号に従って入力装置2
1及び表示装置22を制御する。
In the stand-alone hardware configuration shown in FIG. 2, the input means 1 in FIG. 1 is realized by the input device 21, and the output means 2 is realized by the display device 22. The various processing means 3 to 6 and 11 are main control devices (CPU,
Memory, etc.) 24, and various storage units 7 to 10, for example, all as storage devices 25, or as individual storage devices,
Further, it is realized as a file in the storage device 25. For example, when performing a full-text search according to the present invention using one limited storage device, it is preferable to allocate the area to be used depending on whether the search process is mainly performed or the registration / deletion process is mainly performed. . Further, the input / output control device 23 receives the input device 2 according to the control signal from the main control device 24.
1 and the display device 22 are controlled.

【0060】図3に示すサーバ/クライアントでのハー
ドウェア構成においては、図1における入力手段1はク
ライアント30の入力装置31で実現され、出力手段2
はクライアント30の表示装置32に実現される。各種
処理手段3〜6,11はクライアント30及びサーバ5
0の主制御装置(CPU,メモリ等)34,52に実現
され、各種記憶部7〜10は、例えば、全てをサーバ5
0の記憶装置53として、或いはサーバ50に接続され
た個々の記憶装置として、さらには記憶装置25におけ
るファイルとして実現される。また、クライアント3
0,サーバ50のネットワーク制御装置35,51は、
ネットワーク40を介してクライアント30とサーバ5
0の間のデータ伝送等の制御を行う。さらにクライアン
ト30の入出力制御装置33は、主制御装置34の制御
信号に従って入力装置21及び表示装置22を制御す
る。
In the hardware configuration of the server / client shown in FIG. 3, the input means 1 in FIG. 1 is realized by the input device 31 of the client 30, and the output means 2 is used.
Is realized on the display device 32 of the client 30. The various processing means 3 to 6 and 11 are the client 30 and the server 5.
0 of the main control units (CPU, memory, etc.) 34, 52, and various storage units 7 to 10, for example, all server 5.
No. 0 storage device 53, individual storage devices connected to the server 50, and further as files in the storage device 25. Also, the client 3
0, the network control devices 35 and 51 of the server 50
Client 30 and server 5 via network 40
Controls data transmission between 0s. Further, the input / output control device 33 of the client 30 controls the input device 21 and the display device 22 according to the control signal of the main control device 34.

【0061】以下に、上述のごとく構成された本実施形
態に係る全文検索装置の動作の一例を詳細に説明する。
図4乃至図6は、図1の全文検索装置における処理例を
説明するためのフロー図である。全文検索装置は、利用
者からの処理要求を受け取ると(ステップS1)、ま
ず、その処理が、登録処理であるのか(ステップS
2)、削除処理であるのか(ステップS3)、検索処理
であるのか(ステップS3でNO)を判定する。全文検
索装置は、この判定に基づいて以下の各処理を実行する
こととなる。
Hereinafter, an example of the operation of the full-text search device according to the present embodiment configured as described above will be described in detail.
4 to 6 are flowcharts for explaining an example of processing in the full-text search device in FIG. When the full-text search device receives a processing request from the user (step S1), first, is the processing a registration processing (step S)?
2) Whether it is deletion processing (step S3) or search processing (NO in step S3) is determined. The full-text search device will execute the following processes based on this determination.

【0062】(登録処理)登録処理を実行するには、ま
ず利用者が文書データを作成し、入力手段1からその文
書データを登録する。登録処理手段3において文書デー
タを文書データ記憶部7に保存し、同時にその文書デー
タを示す識別子(文書識別子)を定める(ステップS1
1)。例えばSGML等のタグ付の文書であれば、適
宜、所定のタグ間にある文字列のみを対象としてもよ
い。さらに登録処理手段3において、テキスト分割手段
6を用いて文書データから部分文字列(トークン)とそ
のトークンの出現位置情報を得る(ステップS12)。
最後に文書識別子と各トークンの出現位置情報を登録用
小規模全文索引記憶部9に記録する(ステップS1
3)。ここでの「記録」は記憶部の全文索引への記録で
あり(以下同様)、ステップ13のごとき処理を索引記
憶ステップとも呼ぶ。なお、テキスト分割手段6で使用
される分割手法については、N文字組をトークンとする
手法でもよいし、形態素解析を行い単語をトークンとす
る手法でもよい。以下の例ではN文字組みをトークンと
する手法を用いたテキスト分割手段に限って説明するが
形態素解析を行った単語をトークンとする手法に対して
も同様に適用可能である。また、後述するが、ステップ
S13における記録の後、適時マージ処理が行われる
(ステップS14〜S16)。
(Registration Processing) In order to execute the registration processing, the user first creates document data and registers the document data from the input means 1. The registration processing means 3 saves the document data in the document data storage unit 7, and at the same time, determines an identifier (document identifier) indicating the document data (step S1).
1). For example, in the case of a document with a tag such as SGML, only a character string between predetermined tags may be appropriately targeted. Further, in the registration processing means 3, the text dividing means 6 is used to obtain the partial character string (token) and the appearance position information of the token from the document data (step S12).
Finally, the document identifier and the appearance position information of each token are recorded in the registration small-scale full-text index storage unit 9 (step S1).
3). The “record” here is a record in the full-text index of the storage unit (the same applies hereinafter), and the processing such as step 13 is also called an index storage step. Note that the dividing method used by the text dividing means 6 may be a method of using N character sets as tokens, or a method of performing morphological analysis and using words as tokens. In the following example, only the text segmentation means using the method of using N character sets as tokens will be described, but the method of applying the words obtained by morphological analysis to tokens can be similarly applied. Further, as will be described later, after the recording in step S13, timely merge processing is performed (steps S14 to S16).

【0063】図7は、図1の全文検索装置における処理
を説明するための図で、全文索引の一例を示す図であ
る。図7の例を用いて転置ファイル方式の全文索引につ
いて詳細に説明する。登録文書データを文書1,文書2
とし、それらの内容(ここではテキスト分割手段6で分
割することにより得た内容)がそれぞれ、図7の符号6
1,62で表されるものとする。ここで、各文書の左の
数字は文字列の先頭からの文字数を表している。つま
り、文書1では、「全文検索」は先頭から11文字目、
「方法」は20,60文字目、「全文検索方法」は31
文字目に出現していることを意味する。また文書2で
は、「探索方法」は先頭から1文字目、「方法」は24
文字目、「全文」は30,42文字目に出現しているこ
とを意味する。
FIG. 7 is a diagram for explaining the processing in the full-text search device of FIG. 1, showing an example of the full-text index. The full-text index of the transposed file system will be described in detail with reference to the example of FIG. Registered document data as Document 1 and Document 2
The contents (here, the contents obtained by dividing the text by the text dividing means 6) are denoted by reference numeral 6 in FIG.
1, 62. Here, the numbers on the left side of each document represent the number of characters from the beginning of the character string. In other words, in document 1, "full text search" is the 11th character from the beginning,
"Method" is the 20th and 60th characters, "Full-text search method" is 31
It means that it appears in the letter. In Document 2, the “search method” is the first character from the beginning, and the “method” is 24
The first character, "full text", means that it appears at the 30th and 42nd characters.

【0064】なお、2文字組を部分文字列とする場合、
文書中の全ての部分文字列を抽出し、それらの文書内で
の出現位置(先頭からの文字数)を部分文字列ごとにま
とめて索引に記録する。例えば、文書1からは「全文」
が11,31の位置、「文検」が12,32の位置に出
現しているので、索引に記録する。索引では、文書内で
の出現位置だけでなく、どの文書に出現したかを識別す
るための文書識別子と出現回数を加えて記録するので、
図4の符号63で示したような形式になる。例えば、
「全文」に対する転置リスト{1,2,(11,3
1)}及び{2,2,(30,42)}はそれぞれ、文
書1において2回出現してその位置は11,31である
こと、及び文書2において2回出現してその位置は3
0,42であることを意味する。
When the two-character set is a partial character string,
All the partial character strings in the document are extracted, and the appearance positions (the number of characters from the beginning) in those documents are collected for each partial character string and recorded in the index. For example, from document 1 "full text"
Since "11" and "31" appear at positions "Sentence" appearing at positions 12 and 32, they are recorded in the index. In the index, not only the appearance position in the document but also the document identifier for identifying in which document it appears and the number of appearances are added and recorded.
The format is as shown by reference numeral 63 in FIG. For example,
Transposed list {1,2, (11,3
1)} and {2,2, (30,42)} appear twice in document 1 and their positions are 11 and 31, respectively, and appear twice in document 2 and their position is 3
It means 0,42.

【0065】(削除処理)削除処理を実行するには、ま
ず利用者が入力手段1から削除する文書の文書識別子を
入力する。次に、削除処理手段4において文書データ記
憶部7から文書識別子に対応する文書データを読み出す
(ステップS21)。さらに削除処理手段4において、
テキスト分割手段6を用いて文書データから部分文字列
(トークン)とそのトークンの出現位置情報を得る(ス
テップS22)。例えばSGML等のタグ付の文書であ
れば、適宜、所定のタグ間にある文字列のみを対象とし
てもよい。文書識別子が登録用小規模全文索引に登録さ
れている文書識別子かを判定し(ステップS23)、登
録用小規模全文索引に登録されている文書識別子である
場合には、各トークンの出現位置情報を登録用小規模全
文索引記憶部9から削除する(ステップS25)。文書
識別子が登録用小規模全文索引に登録されていない場合
(検索用大規模全文索引に登録されている場合)には、
文書識別子と各トークンの出現位置情報を削除用小規模
全文索引記憶部10に記録する(ステップS24)。そ
して、削除処理手段4において文書データ記憶部7から
文書識別子に対応する文書データを削除する(ステップ
S29)。また、後述するが、ステップS24における
記録の後、適時マージ処理が行われる(ステップS26
〜S28)。
(Delete Process) To execute the delete process, the user first inputs the document identifier of the document to be deleted from the input means 1. Next, the deletion processing means 4 reads the document data corresponding to the document identifier from the document data storage unit 7 (step S21). Further, in the deletion processing means 4,
The partial character string (token) and the appearance position information of the token are obtained from the document data by using the text dividing means 6 (step S22). For example, in the case of a document with a tag such as SGML, only a character string between predetermined tags may be appropriately targeted. It is determined whether the document identifier is a document identifier registered in the registration small-scale full-text index (step S23). If the document identifier is registered in the registration small-scale full-text index, appearance position information of each token is determined. Is deleted from the registration small-scale full-text index storage unit 9 (step S25). If the document identifier is not registered in the small-scale full-text index for registration (if registered in the large-scale full-text index for search),
The document identifier and the appearance position information of each token are recorded in the deletion small-scale full-text index storage unit 10 (step S24). Then, the deletion processing means 4 deletes the document data corresponding to the document identifier from the document data storage unit 7 (step S29). Also, as will be described later, after the recording in step S24, a merge process is performed at a proper time (step S26).
~ S28).

【0066】(検索処理)検索処理を実行するには、ま
ず利用者が入力手段1から検索文字列を入力する。次
に、検索処理手段5において、テキスト分割手段6を用
いて検索文字列からトークンを得る(ステップS4)。
また、検索処理手段5において検索用大規模全文索引記
憶部8の検索用大規模全文索引を用いて、検索文字列を
含む文書データの文書識別子の集合(Rs)を得る(ス
テップS5)とともに、登録用小規模全文索引記憶部9
の登録用小規模全文索引を用いて、検索文字列を含む文
書データの文書識別子の集合(Ri)を得る(ステップ
S6)。さらに、検索処理手段5において削除用小規模
全文索引記憶部10の削除用小規模全文索引を用いて、
検索文字列を含む文書データの文書識別子の集合(R
d)を得る(ステップS7)。検索処理手段5は得られ
た文書識別子の集合(Rs,Ri,Rd)に対して下記
の集合演算を行い、その結果を検索結果(R)とし(ス
テップS8)、出力手段2を通じて利用者に検索文字列
を含む文書データの文書識別子の集合を出力する(ステ
ップS9)。 R=Rs+Ri−Rd ただし、+を論理和演算子、−を論理差演算子とする。
(Search Process) To execute the search process, the user first inputs a search character string from the input means 1. Next, in the search processing means 5, the text division means 6 is used to obtain a token from the search character string (step S4).
Further, the search processing means 5 uses the search large-scale full-text index of the search large-scale full-text index storage unit 8 to obtain a set (Rs) of document identifiers of document data including a search character string (step S5). Small-scale full-text index storage unit 9 for registration
Using the registration small-scale full-text index for registration, a set (Ri) of document identifiers of document data including a search character string is obtained (step S6). Furthermore, the retrieval processing means 5 uses the deletion small-scale full-text index of the deletion small-scale full-text index storage unit 10,
A set of document identifiers of document data (R
d) is obtained (step S7). The search processing means 5 performs the following set operation on the obtained set of document identifiers (Rs, Ri, Rd) and sets the result as the search result (R) (step S8), and outputs it to the user through the output means 2. A set of document identifiers of document data including the search character string is output (step S9). R = Rs + Ri−Rd However, + is a logical sum operator and − is a logical difference operator.

【0067】図7の全文索引63を例として検索処理に
ついて詳細に説明する。検索文字列を「全文検索」とす
ると、テキスト分割手段が「全文」,「文検」,「検
索」の3個のトークンを抽出する。次に全文索引63の
対応するトークンの3つの転置リストを調べる。それぞ
れのトークン出現位置の差が1であるものを探すと文書
識別子1の11文字目と31文字目に「全文検索」が存
在することがわかる。
The search process will be described in detail by taking the full-text index 63 of FIG. 7 as an example. When the search character string is "full text search", the text segmentation means extracts three tokens "full text", "text check", and "search". Next, the three transposed lists of corresponding tokens in full-text index 63 are examined. It is found that “full-text search” exists at the 11th and 31st characters of the document identifier 1 when searching for a token having a difference of 1 in the appearance position.

【0068】(マージ処理)マージ手段11によるマー
ジ処理は、上述の特願2001−78026号明細書に
おけるデータ転送手段に変わる処理である。元の文書デ
ータを用いて登録・削除処理を行う場合に比べて、処理
開始時に既に作成されている転置リストを直接利用する
のでテキスト分割処理によるトークンの切り出し及びそ
の転置リスト作成に要する時間が不要となり、データ転
送時間を短くできる。本発明においては転置リスト同士
の処理であることからデータ転送処理(データ転送ステ
ップ)のことをマージ処理(マージステップ)とも呼
ぶ。全文検索装置における文書データの登録・削除処理
を転置リスト同士の処理とすることにより、検索用全文
索引へのデータ登録・削除の際に、既に作成されている
転置リストを直接利用するので検索用全文索引へのマー
ジ処理の時間を短縮でき、検索処理の待ち時間を短くす
ることができる。
(Merging Process) The merging process by the merging means 11 is a process which is a substitute for the data transferring means in the above-mentioned Japanese Patent Application No. 2001-78026. Compared to the case where registration / deletion processing is performed using the original document data, the transposition list already created at the start of processing is directly used, so the time required to cut out tokens by text segmentation processing and create that transposition list is unnecessary. Therefore, the data transfer time can be shortened. In the present invention, the data transfer processing (data transfer step) is also called merge processing (merge step) because it is processing between transposed lists. By registering / deleting the document data in the full-text search device between transposed lists, the transposed list that has already been created is directly used when registering / deleting data in the full-text index for search. It is possible to shorten the time for the merge processing to the full-text index and shorten the waiting time for the search processing.

【0069】マージ処理を実行するには、まず登録用小
規模全文索引の全てのトークンに対して、(a)全文索
引からそのトークンの転置リストを取り出す処理(ステ
ップS14)、及び(b)検索用大規模全文索引の対応
するトークンの転置リストの末尾に先の転置リストを加
える処理(ステップS15)を行う。次に登録用小規模
全文索引を空にする(ステップS16)。また、削除用
小規模全文索引の全てのトークンに対して、(c)全文
索引からそのトークンの転置リストを取り出す処理(ス
テップS26)、及び(d)検索用大規模全文索引の対
応するトークンの転置リストから(c)で取り出した転
置リスト中の出現位置情報を削除する処理(ステップS
27)を行う。次に削除用小規模全文索引を空にする
(ステップS28)。
In order to execute the merge processing, first, for all tokens of the registration small-scale full-text index, (a) processing for extracting the transposed list of the token from the full-text index (step S14), and (b) search. A process of adding the previous transposed list to the end of the transposed list of the corresponding token of the large-scale full-text index (step S15) is performed. Next, the small scale full-text index for registration is emptied (step S16). In addition, for all tokens of the small-scale full-text index for deletion, (c) processing for extracting an inverted list of the token from the full-text index (step S26), and (d) of corresponding tokens of the large-scale full-text index for search A process of deleting the appearance position information in the transposed list extracted in (c) from the transposed list (step S
27) is performed. Next, the small scale full-text index for deletion is emptied (step S28).

【0070】図8は、図7における全文索引63のトー
クン「全文」の転置リストを例にマージ処理の概要を説
明するための図である。検索用全文索引の転置リスト7
1として、「全文」に対する転置リスト{1,2,(1
1,31)},{2,2,(30,42)}、登録用全
文索引の転置リスト72として、「全文」に対する転置
リスト{5,2,(4,16)},{8,1,(3)}
をマージ処理73する場合を説明する。マージ処理73
を実行することにより、「全文」に対する転置リスト
{1,2,(11,31)},{2,2,(30,4
2)},{5,2,(4,16)},{8,1,
(3)}(74)が得られる。さらに、この転置リスト
と、削除用全文索引の転置リスト76としての、「全
文」に対する転置リスト{1,2,(11,31)}と
をマージ処理75することにより、「全文」に対する転
置リスト{2,2,(30,42)},{5,2,
(4,16)},{8,1,(3)}(77)が得られ
る。
FIG. 8 is a diagram for explaining the outline of the merge process by taking the transposed list of the token “full text” of the full text index 63 in FIG. 7 as an example. Transposed list of full-text index for search 7
As 1, the transposed list {1, 2, (1
1,31)}, {2,2, (30,42)}, the transposed list 72 of the full-text index for registration, the transposed lists {5,2, (4,16)}, {8,1 for "full text" , (3)}
The case where the merge processing 73 is performed will be described. Merge process 73
By executing the transposed list {1, 2, (11, 31)}, {2, 2, (30, 4
2)}, {5, 2, (4, 16)}, {8, 1,
(3)} (74) is obtained. Further, the transposed list for the "full text" is obtained by merging the transposed list with the transposed list {1, 2, (11, 31)} for the "full text" as the transposed list 76 of the full text index for deletion. {2,2, (30,42)}, {5,2,
(4, 16)}, {8, 1, (3)} (77) are obtained.

【0071】(マージ処理の形態1)マージ処理は、登
録用小規模全文索引記憶部9における登録用小規模全文
索引に登録されている文書識別子の数が予め指定されて
いる数に達したときに登録処理手段3によって起動さ
れ、マージ手段11により実行される。
(Form 1 of merge process) The merge process is performed when the number of document identifiers registered in the small scale full-text index for registration in the small scale full-text index storage unit 9 for registration reaches a predetermined number. Is started by the registration processing means 3 and executed by the merging means 11.

【0072】(マージ処理の形態2)マージ処理は、登
録用小規模全文索引記憶部9における記憶容量(大き
さ)が予め指定されているサイズになったときに登録処
理手段3によって起動され、マージ手段11により実行
されるようにしてもよい。この形態により、利用者から
登録される文書データの大きさにばらつきがあるような
応用形態として使用される場合に、小さな文書データが
連続して登録されたときに登録用小規模全文索引への登
録時間が長くなる前にマージ処理が開始されることを防
ぐことができる。サイズを起動条件にすることでマージ
の処理時間を均等にすることができる。さらに、前述の
マージ処理(形態1)の場合には件数を起動条件にして
おり全文索引記憶部の大きさを管理する必要がないので
処理が簡単になる利点がある。
(Form 2 of merge processing) The merge processing is started by the registration processing means 3 when the storage capacity (size) in the registration small-scale full-text index storage unit 9 reaches a predetermined size. It may be executed by the merging means 11. With this mode, when used as an application mode in which the size of the document data registered by the user varies, when the small document data is continuously registered, the small-scale full-text index for registration is added. It is possible to prevent the merge process from being started before the registration time becomes long. By setting the size as the start condition, the merging processing time can be equalized. Further, in the case of the above-described merge processing (mode 1), the number of cases is set as the starting condition, and it is not necessary to manage the size of the full-text index storage unit, so that there is an advantage that the processing is simplified.

【0073】(マージ処理の形態3)削除用小規模全文
索引のマージ処理は削除処理手段4によって起動され、
マージ手段11により実行されるようにしてもよい。起
動条件は削除用小規模全文索引に登録されている文書識
別子の数が予め指定されている数に達したときとしても
よい。
(Form 3 of Merge Processing) The merge processing of the small scale full-text index for deletion is started by the deletion processing means 4,
It may be executed by the merging means 11. The starting condition may be when the number of document identifiers registered in the small scale full-text index for deletion reaches a predetermined number.

【0074】(マージ処理の形態4)削除用小規模全文
索引のマージ処理は削除処理手段4によって起動され、
マージ手段11により実行されるようにしてもよい。起
動条件は削除用小規模全文索引記憶部10の大きさが予
め指定されているサイズに達したときとしてもよい。形
態3,4では削除処理が多く発生しないような場合、マ
ージ処理の時間を短縮できる利点がある。
(Form 4 of merge processing) The merge processing of the small scale full text index for deletion is started by the deletion processing means 4,
It may be executed by the merging means 11. The activation condition may be when the size of the small scale full text index storage unit for deletion 10 reaches a size designated in advance. The forms 3 and 4 have an advantage that the time of the merge process can be shortened when the deletion process does not often occur.

【0075】上述のごときマージ処理の各形態により、
全文検索装置においては登録・削除する文書データの特
徴や利用分野の特徴に適した条件で全文索引のマージ処
理を開始することが可能となり、マージ処理の発生回数
を減らせ、システム全体のスループットを向上させるこ
とが可能となる。さらに、マージの開始条件は、マージ
処理にかかる所要時間により可変としてもよいし、ま
た、登録により生じるマージと、削除により生じるマー
ジを、いずれかの開始条件のもとで同時に起動させても
よい。
By each mode of the merge process as described above,
With the full-text search device, it is possible to start the merge processing of the full-text index under conditions suitable for the characteristics of the document data to be registered / deleted and the characteristics of the field of use, reducing the number of times merge processing occurs and improving the overall system throughput. It becomes possible. Further, the start condition of the merge may be variable depending on the time required for the merge process, or the merge caused by the registration and the merge caused by the deletion may be simultaneously activated under any of the start conditions. .

【0076】上述した実施形態に係る全文検索装置で
は、本出願人による特願2001−78026号明細書
に記載の手法を転置ファイル方式の全文索引を用いた全
文検索装置に適用し、小規模な全文索引から大規模な全
文索引へのデータ転送手段において、元の文書データを
用いるのではなく転置ファイル方式の全文索引の構成要
素である転置リストを用いることによってデータ転送に
要する時間を短くしている。
In the full-text search device according to the above-described embodiment, the method described in Japanese Patent Application No. 2001-78026 by the present applicant is applied to a full-text search device using a transposed file type full-text index, and the scale is small. In the data transfer method from a full-text index to a large-scale full-text index, the time required for data transfer is shortened by using the transposed list that is a component of the transposed file method full-text index instead of using the original document data. There is.

【0077】次に説明する本発明の他の実施形態に係る
全文検索装置は、上述した実施形態に係る全文検索装置
において、本出願人による特願2001−101024
号明細書に記載の書き込み遅延データベース管理方法、
装置、プログラム、及び記録媒体で用いた手法を適用し
たものである。これにより、登録用或いは削除用の小規
模全文索引から検索用の大規模全文索引へのデータ転送
(転置リストのマージ処理)を行っている間は、その登
録用或いは削除用の小規模全文索引記憶部を使用するこ
とができず、登録処理或いは削除処理を実行することが
できないという問題を解決することができる。
A full-text search device according to another embodiment of the present invention, which will be described below, is the full-text search device according to the above-described embodiment, which is the Japanese Patent Application No. 2001-101024 filed by the present applicant.
Write delay database management method described in the specification,
The method used in the device, the program, and the recording medium is applied. As a result, while the data transfer (merge processing of the transposed list) from the small-scale full-text index for registration or deletion to the large-scale full-text index for search is being performed, the small-scale full-text index for registration or deletion is executed. It is possible to solve the problem that the storage unit cannot be used and the registration process or the deletion process cannot be executed.

【0078】図9は、本発明の他の実施形態に係る全文
検索装置の機能を説明するためのブロック図である。本
実施形態に係る全文検索装置では、登録用及び削除用の
小規模全文索引を二つずつ用意し、大規模全文索引への
マージ(データ転送)を行っている間は、他方の小規模
全文索引を使用して登録処理或いは削除処理を実行する
ことにより、処理不能な期間を無くすようにしている。
すなわち、本実施形態に係る全文検索装置においては、
登録用小規模全文索引を二つ備えることでマージ処理を
実行中でも登録処理を行うことが可能となり、また削除
用小規模全文索引を二つ備えることでマージ処理を実行
中でも削除処理を行うことが可能となる。本実施形態に
よれば、例えば書類をスキャナ等で読み取り、OCR処
理して、各書類を登録したいときなど、登録処理とそれ
によるマージ処理が頻繁に連続して行われるときなどに
好適である。このようなイメージデータも通常のアプリ
ケーションデータと同じように全文検索が高レスポンス
で可能となる。
FIG. 9 is a block diagram for explaining the function of the full-text search device according to another embodiment of the present invention. In the full-text search device according to the present embodiment, two small-scale full-text indexes for registration and deletion are prepared, and while the merge (data transfer) to the large-scale full-text index is being performed, the other small-scale full-text index is deleted. By executing the registration process or the deletion process using the index, the unprocessable period is eliminated.
That is, in the full-text search device according to the present embodiment,
By providing two small scale full-text indexes for registration, it is possible to perform registration processing even while merge processing is in progress, and by providing two small scale full-text indexes for deletion, deletion processing can be performed even during merge processing. It will be possible. According to the present embodiment, for example, when a document is read by a scanner or the like and OCR processing is performed to register each document, it is suitable when registration processing and merge processing by the registration processing are frequently and continuously performed. With such image data, full-text search can be performed with high response, as with normal application data.

【0079】図1で説明した登録用小規模全文索引記憶
部9が登録用小規模全文索引記憶部A(9a)及び登録
用小規模全文索引記憶部B(9b)の二つの記憶部を有
するものとして、図1で説明した削除用小規模全文索引
記憶部10が削除用小規模全文索引記憶部A(10a)
及び削除用小規模全文索引記憶部B(10b)の二つの
記憶部を有するものとして本実施形態を説明する。な
お、図2及び図3で説明したようなハードウェア構成例
を本実施形態に係る全文検索装置にも適用可能である。
ただし、これらの記憶部の1又は複数を記憶装置25,
53ではなく、メモリ上に設けても効果的である。
The registration small-scale full-text index storage unit 9 described in FIG. 1 has two storage units, a registration small-scale full-text index storage unit A (9a) and a registration small-scale full-text index storage unit B (9b). The deletion small-scale full-text index storage unit 10 described in FIG. 1 is the deletion small-scale full-text index storage unit A (10a).
The present embodiment will be described as having two storage units, namely, a small-scale full-text index storage unit for deletion B (10b). Note that the hardware configuration examples described with reference to FIGS. 2 and 3 can also be applied to the full-text search device according to this embodiment.
However, one or more of these storage units may be replaced by the storage device 25,
It is effective to provide it on the memory instead of 53.

【0080】以下に、上述のごとく構成された本実施形
態に係る全文検索装置の動作の一例を詳細に説明する。
図10乃至図12は、図9の全文検索装置における処理
例を説明するためのフロー図である。全文検索装置は、
利用者からの処理要求を受け取ると(ステップS3
1)、まず、その処理が、登録処理であるのか(ステッ
プS32)、削除処理であるのか(ステップS33)、
検索処理であるのか(ステップS33でNO)を判定す
る。全文検索装置は、この判定に基づいて以下の各処理
を実行することとなる。
Hereinafter, an example of the operation of the full-text search device according to the present embodiment configured as described above will be described in detail.
10 to 12 are flowcharts for explaining a processing example in the full-text search device in FIG. 9. Full-text search device
When a processing request is received from the user (step S3
1) First, whether the process is a registration process (step S32) or a deletion process (step S33),
It is determined whether it is a search process (NO in step S33). The full-text search device will execute the following processes based on this determination.

【0081】(登録処理)登録処理を実行するには、ま
ず利用者が文書データを作成し、入力手段1からその文
書データを登録する。登録処理手段3において文書デー
タを文書データ記憶部7に保存し、同時にその文書デー
タを示す識別子(文書識別子)を定める(ステップS4
1)。さらに登録処理手段3において、テキスト分割手
段6を用いて文書データから部分文字列(トークン)と
そのトークンの出現位置情報を得る(ステップS4
2)。なお、テキスト分割手段6で使用される分割手法
や全文索引については前述した通りである。文書識別子
と各トークンの出現位置情報をその時点の登録用小規模
全文索引記憶部(例えば登録用小規模全文索引記憶部A
(9a))に記録する(ステップS43)。
(Registration Processing) In order to execute the registration processing, the user first creates document data and registers the document data from the input means 1. The registration processing means 3 saves the document data in the document data storage unit 7, and at the same time, determines an identifier (document identifier) indicating the document data (step S4).
1). Further, in the registration processing means 3, the text dividing means 6 is used to obtain a partial character string (token) and appearance position information of the token from the document data (step S4).
2). The dividing method and full-text index used by the text dividing unit 6 are as described above. The document identifier and the appearance position information of each token are used to store the small-scale full-text index storage unit for registration at that time (for example, the small-scale full-text index storage unit A for registration.
(9a)) (step S43).

【0082】ステップS43における記録の後、適時マ
ージ処理が行われるが、ここではマージ開始条件に基づ
いて行われるものとして説明する。まず、ステップS4
3において記録した結果、マージ開始条件を満たすかを
判定する(ステップS44)。マージ開始条件を満たさ
なければ処理を終了する。なお、図1乃至図8の実施形
態において説明したマージ処理開始の条件の各形態は、
本実施形態においても適用可能である。また、他方の登
録用小規模全文索引記憶部(ここでは登録用小規模全文
索引記憶部B(9b))がマージ処理を実行中であるか
も判定する(ステップS45)。実行中の場合にはその
マージ処理の終了を待つ。
After the recording in step S43, the merging process is performed at a proper time, but here, it is assumed that the merging process is performed based on the merging start condition. First, step S4
It is determined whether the merge start condition is satisfied as a result of recording in step 3 (step S44). If the merge start condition is not satisfied, the process ends. It should be noted that each form of the condition for starting the merge process described in the embodiment of FIGS.
It is also applicable to this embodiment. It is also determined whether the other registration small-scale full-text index storage unit (here, registration small-scale full-text index storage unit B (9b)) is executing the merge process (step S45). If it is being executed, it waits for the end of the merge processing.

【0083】マージ開始条件を満たし、且つもう一方の
登録用小規模全文索引記憶部B(9b)がマージ処理を
実行中ではない場合に、登録用小規模全文索引記憶部A
(9a)における登録用小規模全文索引Aに対して後述
のマージ処理(ステップS47〜S49)を起動し、次
の登録処理に対して記録を行うべき記憶部を登録用小規
模全文索引記憶部A(9a)からもう一方の登録用小規
模全文索引記憶部B(9b)に切り替える(ステップS
46)。マージ処理が起動された場合、マージ手段11
は登録処理手段3とは非同期にマージ処理を実行する。
If the merge start condition is satisfied and the other registration small-scale full-text index storage unit B (9b) is not executing merge processing, the registration small-scale full-text index storage unit A (9b).
The merging process (steps S47 to S49) described later is started for the small scale full-text index A for registration in (9a), and the storage unit to be recorded for the next registration process is the small scale full-text index storage unit for registration. Switching from A (9a) to the other small scale full-text index storage unit for registration B (9b) (step S
46). When the merging process is started, the merging means 11
Executes the merge processing asynchronously with the registration processing means 3.

【0084】(削除処理)削除処理を実行するには、ま
ず利用者が入力手段1から削除する文書の文書識別子を
入力する。次に、削除処理手段4において文書データ記
憶部7から文書識別子に対応する文書データを読み出す
(ステップS51)。さらに削除処理手段4において、
テキスト分割手段6を用いて文書データから部分文字列
(トークン)とそのトークンの出現位置情報を得る(ス
テップS52)。
(Delete Process) To execute the delete process, the user first inputs the document identifier of the document to be deleted from the input means 1. Next, the deletion processing means 4 reads the document data corresponding to the document identifier from the document data storage unit 7 (step S51). Further, in the deletion processing means 4,
The partial character string (token) and the appearance position information of the token are obtained from the document data using the text dividing means 6 (step S52).

【0085】次に、文書識別子が登録用小規模全文索引
に登録されている文書識別子かを判定し(ステップS5
3)、登録用小規模全文索引に登録されている文書識別
子である場合には、各トークンの出現位置情報を登録用
小規模全文索引記憶部9(9a及び9b)から削除する
(ステップS55)。文書識別子が登録用小規模全文索
引に登録されていない場合(検索用大規模全文索引に登
録されている場合)には、文書識別子と各トークンの出
現位置情報をその時点の削除用小規模全文索引記憶部
(例えば削除用小規模全文索引記憶部A(10a))に
記録する(ステップS54)。そして、削除処理手段4
において文書データ記憶部7から文書識別子に対応する
文書データを削除する(ステップS62)。
Next, it is judged whether the document identifier is a document identifier registered in the small scale full-text index for registration (step S5).
3) If the document identifier is registered in the registration small-scale full-text index, the appearance position information of each token is deleted from the registration small-scale full-text index storage unit 9 (9a and 9b) (step S55). . If the document identifier is not registered in the small-scale full-text index for registration (if it is registered in the large-scale full-text index for search), the document identifier and the appearance position information of each token are stored in the small-scale full-text for deletion at that time. It is recorded in the index storage unit (for example, the small-scale full-text index storage unit for deletion A (10a)) (step S54). Then, the deletion processing means 4
In step S62, the document data corresponding to the document identifier is deleted from the document data storage unit 7 (step S62).

【0086】ステップS54における記録の後、適時マ
ージ処理が行われるが、ここではマージ開始条件に基づ
いて行われるものとして説明する。まず、ステップS5
4において記録した結果、マージ開始条件を満たすかを
判定する(ステップS56)。マージ開始条件を満たさ
なければ処理を終了する(ステップS62の処理は必
要)。なお、図1乃至図8の実施形態において説明した
マージ処理開始の条件の各形態は、本実施形態において
も適用可能である。また、他方の削除用小規模全文索引
記憶部(ここでは削除用小規模全文索引記憶部B(10
b))がマージ処理を実行中であるかも判定する(ステ
ップS57)。実行中の場合にはそのマージ処理の終了
を待つ。
After the recording in step S54, the merging process is performed at a proper time, but here it is assumed that the merging process is performed based on the merging start condition. First, step S5
As a result of recording in step 4, it is determined whether or not the merge start condition is satisfied (step S56). If the merge start condition is not satisfied, the process ends (the process of step S62 is required). It should be noted that each form of the conditions for starting the merge process described in the embodiments of FIGS. 1 to 8 can be applied to this embodiment. On the other hand, the deletion small-scale full-text index storage unit (here, the deletion small-scale full-text index storage unit B (10
It is also determined whether b)) is executing the merge process (step S57). If it is being executed, it waits for the end of the merge processing.

【0087】マージ開始条件を満たし、且つもう一方の
削除用小規模全文索引記憶部B(10b)がマージ処理
を実行中ではない場合に、削除用小規模全文索引記憶部
A(10a)における削除用小規模全文索引Aに対して
後述のマージ処理(ステップS59〜S61)を起動
し、次の削除処理に対して記録を行うべき記憶部を削除
用小規模全文索引記憶部A(10a)からもう一方の削
除用小規模全文索引記憶部B(10b)に切り替える
(ステップS58)。マージ処理が起動された場合、マ
ージ手段11は削除処理手段4とは非同期にマージ処理
を実行する。
When the merge start condition is satisfied and the other delete small-scale full-text index storage unit B (10b) is not executing merge processing, the deletion in the delete small-scale full-text index storage unit A (10a). The later-described merge processing (steps S59 to S61) is started for the small scale full-text index A for use, and the storage section to be recorded for the next delete processing is deleted from the small scale full-text index storage section A (10a). The other small scale full-text index storage unit B (10b) for deletion is switched (step S58). When the merge processing is activated, the merge means 11 executes the merge processing asynchronously with the delete processing means 4.

【0088】(検索処理)検索処理を実行するには、ま
ず利用者が入力手段1から検索文字列を入力する。次
に、検索処理手段5において、テキスト分割手段6を用
いて検索文字列からトークンを得る(ステップS3
4)。また、検索処理手段5において検索用大規模全文
索引記憶部8の検索用大規模全文索引を用いて、検索文
字列を含む文書データの文書識別子の集合(Rs)を得
る(ステップS35)。検索処理手段5は、登録用小規
模全文索引記憶部A(9a)の登録用小規模全文索引A
を用いて、検索文字列を含む文書データの文書識別子の
集合(RiA)を得、登録用小規模全文索引記憶部B
(9b)の登録用小規模全文索引Bを用いて、検索文字
列を含む文書データの文書識別子の集合(RiB)を得
る(ステップS36)。さらに、検索処理手段5は、削
除用小規模全文索引記憶部A(10a)の削除用小規模
全文索引Aを用いて、検索文字列を含む文書データの文
書識別子の集合(RdA)を得、削除用小規模全文索引
記憶部B(10a)の削除用小規模全文索引Bを用い
て、検索文字列を含む文書データの文書識別子の集合
(RdB)を得る(ステップS37)。
(Search Process) To execute the search process, the user first inputs a search character string from the input means 1. Next, the search processing means 5 uses the text dividing means 6 to obtain a token from the search character string (step S3).
4). Further, the search processing means 5 uses the search large-scale full-text index of the search large-scale full-text index storage unit 8 to obtain a set (Rs) of document identifiers of document data including a search character string (step S35). The search processing means 5 uses the registration small-scale full-text index A of the registration small-scale full-text index storage unit A (9a).
Is used to obtain a set (RiA) of document identifiers of document data containing a search character string, and the small-scale full-text index storage unit B for registration is used.
Using the registration small-scale full-text index B in (9b), a set (RiB) of document identifiers of document data including a search character string is obtained (step S36). Further, the search processing means 5 obtains a set (RdA) of document identifiers of document data including a search character string by using the deleting small-scale full-text index A of the deleting small-scale full-text index storage unit A (10a). Using the deleting small-scale full-text index B of the deleting small-scale full-text index storage unit B (10a), a set (RdB) of document identifiers of the document data including the search character string is obtained (step S37).

【0089】検索処理手段5は得られた文書識別子の集
合(Rs,RiA,RiB,RdA,RdB)に対して
下記の集合演算を行い、その結果を検索結果(R)とし
(ステップS38)、出力手段3を通じて利用者に検索
文字列を含む文書データの文書識別子の集合を出力する
(ステップS39)。 R=Rs+RiA+RiB−RdA−RdB ただし、+を論理和演算子、−を論理差演算子とする。
The retrieval processing means 5 performs the following set operation on the obtained set of document identifiers (Rs, RiA, RiB, RdA, RdB) and sets the result as the retrieval result (R) (step S38), The output means 3 outputs a set of document identifiers of document data including the search character string to the user (step S39). R = Rs + RiA + RiB-RdA-RdB However, + is a logical sum operator and-is a logical difference operator.

【0090】(マージ処理)登録用小規模全文索引のマ
ージ処理を実行するには、マージ処理の対象となってい
る登録用小規模全文索引(ここでは登録用小規模全文索
引A)の全てのトークンに対して、(a)全文索引から
そのトークンの転置リストを取り出す処理(ステップS
47)、及び(b)検索用大規模全文索引の対応するト
ークンの転置リストの末尾に先の転置リストを加える処
理を行う(ステップS48)。次に登録用小規模全文索
引Aを空にする(ステップS49)。
(Merge Processing) In order to execute the merge processing of the registration small-scale full-text index, all of the registration small-scale full-text indexes (here, the registration small-scale full-text index A) that are the target of the merge processing are executed. For a token, (a) processing for extracting the inverted list of the token from the full-text index (step S
47), and (b) a process of adding the previous transposed list to the end of the transposed list of the corresponding token of the large-scale full-text index for search (step S48). Next, the small scale full-text index A for registration is emptied (step S49).

【0091】削除用小規模全文索引のマージ処理を実行
するには、マージ処理の対象となっている削除用小規模
全文索引(ここでは削除用小規模全文索引A)の全ての
トークンに対して、(c)全文索引からそのトークンの
転置リストを取り出す処理(ステップS59)、及び
(d)検索用大規模全文索引の対応するトークンの転置
リストから(c)で取り出した転置リスト中の出現位置
情報を削除する処理(ステップS60)を行う。次に削
除用小規模全文索引Aを空にする(ステップS61)。
なお、図8で説明した転置リストのマージ処理例が本実
施形態においても適用可能である。
In order to execute the merge process of the delete small full-text index, all tokens of the delete small full-text index (here, delete small full-text index A) that is the target of the merge process are executed. , (C) processing for extracting the inverted list of the token from the full-text index (step S59), and (d) appearance position in the inverted list extracted in (c) from the inverted list of the corresponding token of the large-scale search full-text index. A process of deleting information (step S60) is performed. Next, the deletion small-scale full-text index A is emptied (step S61).
Note that the example of the merge processing of the transposed list described with reference to FIG. 8 can be applied to this embodiment.

【0092】図9乃至図12を参照して説明した実施形
態において、三つ以上の登録用小規模全文索引記憶部及
び/又は三つ以上の削除用全文索引記憶部を用いた全文
検索装置の形態を、図13乃至図16を参照して次の実
施形態として例示する。
In the embodiment described with reference to FIGS. 9 to 12, a full-text search device using three or more registration small-scale full-text index storage sections and / or three or more deletion full-text index storage sections. The form is illustrated as the next embodiment with reference to FIGS. 13 to 16.

【0093】図13は、本発明の他の実施形態に係る全
文検索装置の機能を説明するためのブロック図である。
本実施形態に係る全文検索装置では、登録用及び削除用
の小規模全文索引を三つ以上ずつ(三つずつとして例示
する)用意し、他の二つの小規模全文索引が大規模全文
索引へのマージ(データ転送)を行っている間は、他の
小規模全文索引を使用して登録処理或いは削除処理を実
行することにより、処理不能な期間を無くすようにして
いる。すなわち、本実施形態に係る全文検索装置におい
ては、登録用小規模全文索引を複数備えることでマージ
処理が複数の登録用小規模全文索引に対して行われてい
る場合でも他の登録処理が行われている場合でも登録処
理を行うことが可能となり、また削除用小規模全文索引
を複数備えることでマージ処理が複数の登録用小規模全
文索引に対して行われている場合でも他の削除処理が行
われている場合でも削除処理を行うことが可能となる。
なお、実際には、登録や削除にかかる時間はマージ時間
よりも短いので、マージ処理が重なることの方が多い。
FIG. 13 is a block diagram for explaining the function of the full-text search device according to another embodiment of the present invention.
In the full-text search device according to the present embodiment, three or more small-scale full-text indexes for registration and deletion are prepared (exemplified as three each), and the other two small-scale full-text indexes become large-scale full-text indexes. While the merge (data transfer) is being performed, the unprocessable period is eliminated by executing the registration process or the deletion process using another small-scale full-text index. That is, in the full-text search device according to the present embodiment, by providing a plurality of registration small-scale full-text indexes, another registration processing is performed even when the merge processing is performed on a plurality of registration small-scale full-text indexes. It is possible to perform the registration process even if it is open. Also, by providing multiple small scale full-text indexes for deletion, even if the merge processing is performed for multiple small scale full-text indexes for registration, other deletion processing can be performed. It is possible to perform the deletion process even if
Note that, in reality, the time required for registration and deletion is shorter than the merge time, and thus the merge processing often overlaps.

【0094】図1で説明した登録用小規模全文索引記憶
部9が登録用小規模全文索引記憶部A(9a)及び登録
用小規模全文索引記憶部B(9b)及び登録用小規模全
文索引記憶部C(9c)の三つの記憶部を有するものと
して、図1で説明した削除用小規模全文索引記憶部10
が削除用小規模全文索引記憶部A(10a)及び削除用
小規模全文索引記憶部B(10b)及び削除用小規模全
文索引記憶部C(10c)の三つの記憶部を有するもの
として本実施形態を説明する。なお、図2及び図3で説
明したようなハードウェア構成例を本実施形態に係る全
文検索装置にも適用可能である。ただし、これらの記憶
部の1又は複数を記憶装置25,53ではなく、メモリ
上に設けても効果的である。
The small-scale full-text index storage unit 9 for registration described in FIG. 1 is a small-scale full-text index storage unit A (9a) for registration, a small-scale full-text index storage unit for registration B (9b), and a small-scale full-text index for registration. As a storage unit having three storage units C (9c), the deletion small-scale full-text index storage unit 10 described in FIG.
This embodiment has three storage units: a small scale full-text index storage unit for deletion A (10a), a small-scale full-text index storage unit for deletion B (10b), and a small-scale full-text index storage unit for deletion C (10c). The form will be described. Note that the hardware configuration examples described with reference to FIGS. 2 and 3 can also be applied to the full-text search device according to this embodiment. However, it is effective to provide one or more of these storage units on the memory instead of the storage devices 25 and 53.

【0095】以下に、上述のごとく構成された本実施形
態に係る全文検索装置の動作の一例を詳細に説明する。
図14乃至図16は、図13の全文検索装置における処
理例を説明するためのフロー図である。全文検索装置
は、利用者からの処理要求を受け取ると(ステップS7
1)、まず、その処理が、登録処理であるのか(ステッ
プS72)、削除処理であるのか(ステップS73)、
検索処理であるのか(ステップS73でNO)を判定す
る。全文検索装置は、この判定に基づいて以下の各処理
を実行することとなる。
Hereinafter, an example of the operation of the full-text search device according to the present embodiment configured as described above will be described in detail.
14 to 16 are flowcharts for explaining a processing example in the full-text search device in FIG. The full-text search device receives a processing request from the user (step S7).
1) First, whether the process is a registration process (step S72) or a deletion process (step S73),
It is determined whether it is a search process (NO in step S73). The full-text search device will execute the following processes based on this determination.

【0096】(登録処理)登録処理を実行するには、ま
ず利用者が文書データを作成し、入力手段1からその文
書データを登録する。登録処理手段3において文書デー
タを文書データ記憶部7に保存し、同時にその文書デー
タを示す識別子(文書識別子)を定める(ステップS8
1)。さらに登録処理手段3において、テキスト分割手
段6を用いて文書データから部分文字列(トークン)と
そのトークンの出現位置情報を得る(ステップS8
2)。なお、テキスト分割手段6で使用される分割手法
や全文索引については前述した通りである。文書識別子
と各トークンの出現位置情報をその時点の登録用小規模
全文索引記憶部(例えば登録用小規模全文索引記憶部A
(9a))に記録する(ステップS83)。
(Registration Processing) In order to execute the registration processing, first, the user creates document data and registers the document data from the input means 1. The registration processing means 3 stores the document data in the document data storage unit 7, and at the same time, determines an identifier (document identifier) indicating the document data (step S8).
1). Further, in the registration processing means 3, the partial character string (token) and the appearance position information of the token are obtained from the document data by using the text dividing means 6 (step S8).
2). The dividing method and full-text index used by the text dividing unit 6 are as described above. The document identifier and the appearance position information of each token are used to store the small-scale full-text index storage unit for registration at that time (for example, the small-scale full-text index storage unit A for registration.
(9a)) (step S83).

【0097】ステップS83における記録の後、適時マ
ージ処理が行われるが、ここではマージ開始条件に基づ
いて行われるものとして説明する。まず、ステップS8
3において記録した結果、マージ開始条件を満たすかを
判定する(ステップS84)。マージ開始条件を満たさ
なければ処理を終了する。なお、図1乃至図8の実施形
態において説明したマージ処理開始の条件の各形態は、
本実施形態においても適用可能である。また、他方の登
録用小規模全文索引記憶部(ここでは登録用小規模全文
索引記憶部B(9b))がマージ処理を実行中であるか
も判定する(ステップS85)。実行中の場合には、三
つ目の登録用小規模全文索引記憶部(ここでは登録用小
規模全文索引記憶部C(9c))が実行中であるかを判
定する(ステップS86)。なお、記憶部B,Cが登録
処理を実行中であるかも同時に判定しておく。ステップ
S86において処理が実行中である場合には、その終了
を待つ。なお、以降、最も想定されるマージ処理が実行
中の場合のみ説明する。
After the recording in step S83, the merging process is performed at a proper time. Here, it is assumed that the merging process is performed based on the merging start condition. First, step S8
It is determined whether the merge start condition is satisfied as a result of recording in step 3 (step S84). If the merge start condition is not satisfied, the process ends. It should be noted that each form of the condition for starting the merge process described in the embodiment of FIGS.
It is also applicable to this embodiment. Also, it is determined whether the other registration small-scale full-text index storage unit (here, registration small-scale full-text index storage unit B (9b)) is executing merge processing (step S85). If it is being executed, it is determined whether or not the third registration small-scale full-text index storage unit (here, registration small-scale full-text index storage unit C (9c)) is being executed (step S86). It is also determined at the same time whether the storage units B and C are executing the registration process. If the process is being executed in step S86, the end of the process is awaited. Note that, hereinafter, only the case where the most likely merge process is being executed will be described.

【0098】マージ開始条件を満たし、且つ他のいずれ
かの登録用小規模全文索引記憶部B(9b)/C(9
c)がマージ処理を実行中ではない場合に、登録用小規
模全文索引記憶部A(9a)における登録用小規模全文
索引Aに対して、図11におけるステップS47〜S4
9と同様のマージ処理(ステップS89〜S91)を起
動し、次の登録処理に対して記録を行うべき記憶部を登
録用小規模全文索引記憶部A(9a)から他の登録用小
規模全文索引記憶部B(9b)/C(9c)(マージ処
理を実行していない記憶部と同じ記憶部、以下同様の表
現を用いる)に切り替える(ステップS87/S8
8)。マージ処理が起動された場合、マージ手段11は
登録処理手段3とは非同期にマージ処理を実行する。
The merge start condition is satisfied, and any other small scale full-text index storage unit for registration B (9b) / C (9
When c) is not executing the merge process, steps S47 to S4 in FIG. 11 are performed on the registration small-scale full-text index A in the registration small-scale full-text index storage unit A (9a).
A merge process similar to that in step 9 (steps S89 to S91) is started, and a storage unit to be recorded for the next registration process is stored in the registration small-scale full-text index storage unit A (9a) as another registration small-scale full-text. Switch to the index storage unit B (9b) / C (9c) (the same storage unit as the storage unit that has not executed the merge process, and the same expression will be used hereinafter) (steps S87 / S8).
8). When the merge process is activated, the merge unit 11 executes the merge process asynchronously with the registration processing unit 3.

【0099】(削除処理)削除処理を実行するには、ま
ず利用者が入力手段1から削除する文書の文書識別子を
入力する。次に、削除処理手段4において文書データ記
憶部7から文書識別子に対応する文書データを読み出す
(ステップS101)。さらに削除処理手段4におい
て、テキスト分割手段6を用いて文書データから部分文
字列(トークン)とそのトークンの出現位置情報を得る
(ステップS102)。
(Delete Process) To execute the delete process, the user first inputs the document identifier of the document to be deleted from the input means 1. Next, the deletion processing means 4 reads the document data corresponding to the document identifier from the document data storage unit 7 (step S101). Further, the deletion processing means 4 obtains the partial character string (token) and the appearance position information of the token from the document data by using the text dividing means 6 (step S102).

【0100】次に、文書識別子が登録用小規模全文索引
に登録されている文書識別子かを判定し(ステップS1
03)、登録用小規模全文索引に登録されている文書識
別子である場合には、各トークンの出現位置情報を登録
用小規模全文索引記憶部9(9a及び9b及び9c)か
ら削除する(ステップS105)。文書識別子が登録用
小規模全文索引に登録されていない場合(検索用大規模
全文索引に登録されている場合)には、文書識別子と各
トークンの出現位置情報をその時点の削除用小規模全文
索引記憶部(例えば削除用小規模全文索引記憶部A(1
0a))に記録する(ステップS104)。そして、削
除処理手段4において文書データ記憶部7から文書識別
子に対応する文書データを削除する(ステップS11
4)。
Next, it is judged whether the document identifier is a document identifier registered in the small scale full-text index for registration (step S1).
03), if the document identifier is registered in the registration small-scale full-text index, the appearance position information of each token is deleted from the registration small-scale full-text index storage unit 9 (9a, 9b and 9c) (step S105). If the document identifier is not registered in the small-scale full-text index for registration (if it is registered in the large-scale full-text index for search), the document identifier and the appearance position information of each token are stored in the small-scale full-text for deletion at that time. Index storage unit (for example, small-scale full-text index storage unit for deletion A (1
0a)) (step S104). Then, the deletion processing means 4 deletes the document data corresponding to the document identifier from the document data storage unit 7 (step S11).
4).

【0101】ステップS104における記録の後、適時
マージ処理が行われるが、ここではマージ開始条件に基
づいて行われるものとして説明する。まず、ステップS
104において記録した結果、マージ開始条件を満たす
かを判定する(ステップS106)。マージ開始条件を
満たさなければ処理を終了する(ステップS114の処
理は必要)。なお、図1乃至図8の実施形態において説
明したマージ処理開始の条件の各形態は、本実施形態に
おいても適用可能である。また、他方の削除用小規模全
文索引記憶部(ここでは削除用小規模全文索引記憶部B
(10b))がマージ処理を実行中であるかも判定する
(ステップS107)。実行中の場合には、三つ目の登
録用小規模全文索引記憶部(ここでは登録用小規模全文
索引記憶部C(10c))が実行中であるかを判定する
(ステップS108)。なお、記憶部B,Cが登録処理
を実行中であるかも同時に判定しておく。ステップS1
08において処理が実行中である場合には、その終了を
待つ。なお、以降、最も想定されるマージ処理が実行中
の場合のみ説明する。
After the recording in step S104, the merging process is performed at a proper time. Here, it is assumed that the merging process is performed based on the merging start condition. First, step S
As a result of recording in 104, it is determined whether or not the merge start condition is satisfied (step S106). If the merge start condition is not satisfied, the process ends (the process of step S114 is necessary). It should be noted that each form of the conditions for starting the merge process described in the embodiments of FIGS. 1 to 8 can be applied to this embodiment. The other small-scale full-text index storage unit for deletion (here, small-scale full-text index storage unit for deletion B
It is also determined whether (10b)) is executing the merge process (step S107). If it is being executed, it is determined whether or not the third registration small-scale full-text index storage unit (here, registration small-scale full-text index storage unit C (10c)) is being executed (step S108). It is also determined at the same time whether the storage units B and C are executing the registration process. Step S1
If the process is being executed in 08, the end is waited for. Note that, hereinafter, only the case where the most likely merge process is being executed will be described.

【0102】マージ開始条件を満たし、且つ他のいずれ
かの削除用小規模全文索引記憶部B(10b)/C(1
0c)がマージ処理を実行中ではない場合に、削除用小
規模全文索引記憶部A(10a)における削除用小規模
全文索引Aに対して、図12におけるステップS59〜
S61と同様のマージ処理(ステップS111〜S11
3)を起動し、次の削除処理に対して記録を行うべき記
憶部を削除用小規模全文索引記憶部A(10a)から他
の削除用小規模全文索引記憶部B(10b)/C(10
c)に切り替える(ステップS109/S110)。マ
ージ処理が起動された場合、マージ手段11は削除処理
手段4とは非同期にマージ処理を実行する。
A merge small-size full-text index storage unit B (10b) / C (1
0c) is not executing the merge process, the small scale full-text index for deletion A in the small scale full-text index storage for deletion A (10a) is processed from step S59 to step S59 in FIG.
Merge processing similar to S61 (steps S111 to S11)
3) is started, and the storage unit to be recorded for the next deletion process is deleted from the small scale full text index storage unit for deletion A (10a) to another small scale full text index storage unit for deletion B (10b) / C ( 10
Switching to c) (steps S109 / S110). When the merge processing is activated, the merge means 11 executes the merge processing asynchronously with the delete processing means 4.

【0103】(検索処理)本実施形態に係る検索処理
は、図10を参照して説明した検索処理と基本的に同様
の処理であり、図10におけるステップS34〜S39
が、夫々ステップS74〜S79に対応している。ただ
し、ステップS76において、検索処理手段5は、集合
RiA,RiBに加えて、登録用小規模全文索引記憶部
C(9c)の登録用小規模全文索引Cを用いて検索文字
列を含む文書データの文書識別子の集合(RiC)を得
る。さらに、ステップS77において、検索処理手段5
は、集合RdA,RdBに加えて、削除用小規模全文索
引記憶部C(10c)の削除用小規模全文索引Cを用い
て検索文字列を含む文書データの文書識別子の集合(R
dC)を得る。検索処理手段5は得られた文書識別子の
集合(Rs,RiA,RiB,RiC,RdA,Rd
B,RdC)に対して下記の集合演算を行い、その結果
を検索結果(R)とする(ステップS78)。 R=Rs+RiA+RiB+RiC−RdA−RdB−
RdC ただし、+を論理和演算子、−を論理差演算子とする。
(Search Processing) The search processing according to this embodiment is basically the same as the search processing described with reference to FIG. 10, and steps S34 to S39 in FIG.
Correspond to steps S74 to S79, respectively. However, in step S76, the search processing means 5 uses the registration small-scale full-text index C of the registration small-scale full-text index storage unit C (9c) in addition to the sets RiA and RiB to include document data including a search character string. Get a set of document identifiers (RiC) of. Further, in step S77, the search processing means 5
In addition to the sets RdA and RdB, a set of document identifiers of document data (R
dC) is obtained. The search processing means 5 obtains a set of the obtained document identifiers (Rs, RiA, RiB, RiC, RdA, Rd.
The following set operation is performed on (B, RdC) and the result is set as the search result (R) (step S78). R = Rs + RiA + RiB + RiC−RdA−RdB−
RdC However, + is a logical sum operator and − is a logical difference operator.

【0104】図9乃至図12の実施形態或いは図13乃
至図16の実施形態では、複数の登録用小規模全文索引
記憶部及び/又は複数の削除用全文索引記憶部を用いた
全文検索装置を説明したが、これら全文索引記憶部(検
索用大規模全文索引記憶部以外)を、図2及び図3で説
明した記憶装置25又は35やメモリ上における、個々
の記憶領域に対して割り当てるか、或いは、記憶装置2
5又は35やメモリ上に記憶された個々のファイルとし
て位置付けた場合に適用可能な形態を、次の実施形態と
して図17乃至図20を参照して例示する。
In the embodiment of FIGS. 9 to 12 or the embodiment of FIGS. 13 to 16, there is provided a full-text search device using a plurality of registration small-scale full-text index storage units and / or a plurality of deletion full-text index storage units. As described above, these full-text index storage units (other than the search large-scale full-text index storage unit) are assigned to individual storage areas in the storage device 25 or 35 or the memory described in FIG. 2 and FIG. Alternatively, the storage device 2
5 or 35 or a mode applicable when positioned as individual files stored in a memory will be illustrated as the next embodiment with reference to FIGS. 17 to 20.

【0105】図17は、本発明の他の実施形態に係る全
文検索装置の機能を説明するためのブロック図である。
本実施形態に係る全文検索装置では、登録用及び削除用
の小規模全文索引を一つずつ予め用意し、その小規模全
文索引が大規模全文索引へのマージ(データ転送)を行
っている間など、登録(/削除)処理に際して登録用
(/削除用)の全文索引を記憶する処理が可能な登録用
(/削除用)全文索引記憶部が存在しない場合に、他の
小規模全文索引を新規作成して、登録処理或いは削除処
理を実行することにより、処理不能な期間を無くすよう
にしている。すなわち、本実施形態に係る全文検索装置
においては、登録用小規模全文索引を適時、複数備える
ことでマージ処理が複数の登録用小規模全文索引に対し
て行われている場合でも他の登録処理が行われている場
合でも登録処理を行うことが可能となり、また削除用小
規模全文索引を適時、複数備えることでマージ処理が複
数の登録用小規模全文索引に対して行われている場合で
も他の削除処理が行われている場合でも削除処理を行う
ことが可能となる。なお、実際には、登録や削除にかか
る時間はマージ時間よりも短いので、マージ処理が重な
ることの方が多い。
FIG. 17 is a block diagram for explaining the function of the full-text search device according to another embodiment of the present invention.
In the full-text search device according to the present embodiment, one small-scale full-text index for registration and one for deletion are prepared in advance, and while the small-scale full-text index is performing merge (data transfer) to the large-scale full-text index. For example, if there is no registration (/ deleting) full-text index storage unit that can store the registration (/ deleting) full-text index during registration (/ deletion) processing, another small-scale full-text index By newly creating and executing the registration process or the deletion process, the unprocessable period is eliminated. That is, in the full-text search device according to the present embodiment, by providing a plurality of registration small-scale full-text indexes in a timely manner, even if the merge processing is performed on a plurality of registration small-scale full-text indexes, another registration processing is performed. It is possible to perform the registration process even when the merge process is performed, and even when the merge process is performed for multiple small scale full-text indexes for registration by providing multiple small scale full-text indexes for deletion in a timely manner. The deletion process can be performed even when another deletion process is being performed. Note that, in reality, the time required for registration and deletion is shorter than the merge time, and thus the merge processing often overlaps.

【0106】本実施形態に係る全文検索装置は、登録用
小規模全文索引記憶部A(9a)とは異なる他の登録用
小規模全文索引記憶部を管理する記憶部管理手段12を
有するものとする。また、削除処理に関し、記憶部管理
手段12は削除用小規模全文索引記憶部A(10a)と
は異なる他の登録用小規模全文索引記憶部をも管理す
る。記憶部管理手段12は、登録処理に際して登録用の
全文索引を記憶する処理が可能な登録用全文索引記憶部
が存在しない場合に、他の登録用全文索引記憶部を新規
作成する手段を有する。さらに、記憶部管理手段12
は、余剰の(次の処理でも使用する予定のない)登録用
(/削除用)全文索引記憶部を削除する手段をも有す
る。
The full-text search device according to this embodiment has a storage unit managing means 12 for managing a small-scale full-text index storage unit for registration different from the small-scale full-text index storage unit for registration A (9a). To do. Further, regarding the deletion process, the storage unit management unit 12 also manages another small scale full text index storage unit for registration different from the small scale full text index storage unit A (10a) for deletion. The storage unit management unit 12 has a unit for newly creating another full-text index storage unit for registration when there is no full-text index storage unit for registration capable of storing a full-text index for registration during the registration process. Furthermore, the storage unit management means 12
Also has means for deleting a surplus (which will not be used in the next process) registration (/ deleting) full-text index storage unit.

【0107】また、図1で説明した登録用小規模全文索
引記憶部9が登録用小規模全文索引記憶部A(9a)の
みから登録用小規模全文索引記憶部B(9b),C(9
c),D(9d),...へと適時増数していき(順不
同)、それらを適時削除していくものとして、図1で説
明した削除用小規模全文索引記憶部10が削除用小規模
全文索引記憶部A(10a)のみから削除用小規模全文
索引記憶部B(10b),C(10c),D(10
d),...へと適時増数していき(順不同)、それら
を適時削除していくものとして、本実施形態を説明す
る。
In addition, the registration small-scale full-text index storage unit 9 described in FIG. 1 is changed from only the registration small-scale full-text index storage unit A (9a) to the registration small-scale full-text index storage units B (9b) and C (9).
c), D (9d) ,. . . The deletion small-scale full-text index storage unit 10 described in FIG. 1 is used only for the deletion small-scale full-text index storage unit A (10a). To delete small-scale full-text index storage unit B (10b), C (10c), D (10
d) ,. . . The present embodiment will be described assuming that the numbers are increased in a timely manner (in no particular order) and those are deleted in a timely manner.

【0108】適時作成/削除が行われた登録用小規模全
文索引記憶部を利用して、登録処理手段3は、登録用全
文索引記憶部のうち一つの登録用全文索引記憶部から検
索用大規模全文索引記憶部8へデータをマージする処理
(或いは他の登録処理)を行っている間は、他の登録用
全文索引記憶部を使用して、登録処理を行う。一方、適
時作成/削除が行われた削除用小規模全文索引記憶部を
利用して、削除処理手段4は、削除用全文索引記憶部の
うち一つの削除用全文索引記憶部から検索用大規模全文
索引記憶部8へデータをマージする処理(或いは他の削
除処理)を行っている間は、他の削除用全文索引記憶部
を使用して、削除処理を行う。なお、図2及び図3で説
明したようなハードウェア構成例を本実施形態に係る全
文検索装置にも適用可能である。ただし、これらの記憶
部の1又は複数を記憶装置25,53ではなく、メモリ
上に設けても効果的である。
By utilizing the small scale full-text index storage unit for registration that has been created / deleted at the appropriate time, the registration processing means 3 uses the small full-text index storage unit for registration to retrieve a large-scale search text from one of the full-text index storage unit for registration. While the process of merging data into the full-scale full-text index storage unit 8 (or another registration process) is being performed, the registration process is performed using another full-text index storage unit for registration. On the other hand, by using the deletion small-scale full-text index storage unit that has been created / deleted in a timely manner, the deletion processing means 4 uses one of the deletion full-text index storage units to delete the large-scale full-text index storage unit. While the process of merging data into the full-text index storage unit 8 (or another deletion process) is being performed, the deletion process is performed using another full-text index storage unit for deletion. Note that the hardware configuration examples described with reference to FIGS. 2 and 3 can also be applied to the full-text search device according to this embodiment. However, it is effective to provide one or more of these storage units on the memory instead of the storage devices 25 and 53.

【0109】以下に、上述のごとく構成された本実施形
態に係る全文検索装置の動作の一例を詳細に説明する。
図18乃至図20は、図17の全文検索装置における処
理例を説明するためのフロー図である。全文検索装置
は、利用者からの処理要求を受け取ると(ステップS1
21)、まず、その処理が、登録処理であるのか(ステ
ップS122)、削除処理であるのか(ステップS12
3)、検索処理であるのか(ステップS123でNO)
を判定する。全文検索装置は、この判定に基づいて以下
の各処理を実行することとなる。
Hereinafter, an example of the operation of the full-text search device according to the present embodiment configured as described above will be described in detail.
18 to 20 are flowcharts for explaining a processing example in the full-text search device in FIG. When the full-text search device receives a processing request from the user (step S1)
21) First, whether the process is a registration process (step S122) or a deletion process (step S12).
3) Is it a search process (NO in step S123)
To judge. The full-text search device will execute the following processes based on this determination.

【0110】(登録処理)登録処理を実行するには、ま
ず利用者が文書データを作成し、入力手段1からその文
書データを登録する。登録処理手段3において文書デー
タを文書データ記憶部7に保存し、同時にその文書デー
タを示す識別子(文書識別子)を定める(ステップS1
31)。さらに登録処理手段3において、テキスト分割
手段6を用いて文書データから部分文字列(トークン)
とそのトークンの出現位置情報を得る(ステップS13
2)。なお、テキスト分割手段6で使用される分割手法
や全文索引については前述した通りである。
(Registration Processing) In order to execute the registration processing, first, the user creates document data and registers the document data from the input means 1. The registration processing means 3 saves the document data in the document data storage unit 7, and at the same time, determines an identifier (document identifier) indicating the document data (step S1).
31). Further, in the registration processing means 3, a partial character string (token) is extracted from the document data by using the text dividing means 6.
And the appearance position information of the token are obtained (step S13
2). The dividing method and full-text index used by the text dividing unit 6 are as described above.

【0111】記憶部管理手段12は、登録処理手段3か
らの命令により或いは適時、現時点で使用できる登録用
小規模全文索引記憶部が存在するかを判定する(ステッ
プS133)。存在しなければ他の登録用小規模全文索
引記憶部(例えば登録用小規模全文索引記憶部C)を新
たに作成する(ステップS135)。使用できる登録用
小規模全文索引記憶部が存在した時点で、文書識別子と
各トークンの出現位置情報をその時点の登録用小規模全
文索引記憶部(例えば登録用小規模全文索引記憶部A
(9a)/C)に記録する(ステップS134/S13
6)。
The storage unit management means 12 judges whether or not there is a small scale full-text index storage unit for registration which can be used at the present time according to an instruction from the registration processing unit 3 or at a proper time (step S133). If it does not exist, another small-scale full-text index storage unit for registration (for example, small-scale full-text index storage unit C for registration) is newly created (step S135). When there is a registration small-scale full-text index storage unit that can be used, the document identifier and the appearance position information of each token are stored in the registration small-scale full-text index storage unit (for example, registration small-scale full-text index storage unit A
(9a) / C) (steps S134 / S13)
6).

【0112】ステップS134/S136における記録
の後、適時マージ処理が行われるが、ここではマージ開
始条件に基づいて行われるものとして説明する。まず、
ステップS134/S136において記録した結果、マ
ージ開始条件を満たすかを判定する(ステップS13
7)。マージ開始条件を満たさなければ処理を終了す
る。なお、図1乃至図8の実施形態において説明したマ
ージ処理開始の条件の各形態は、本実施形態においても
適用可能である。また、他方の登録用小規模全文索引記
憶部(ここでは登録用小規模全文索引記憶部B(9b)
/A(9a))がマージ処理を実行中であるかも判定す
る(ステップS138)。なお、記憶部B/Aが登録処
理を実行中であるかも同時に判定しておく。ステップS
138において処理が実行中である場合には、その終了
を待つ。なお、以降、最も想定されるマージ処理が実行
中の場合のみ説明する。
After the recording in steps S134 / S136, the merge process is performed at a proper time. Here, it is assumed that the merge process is performed based on the merge start condition. First,
As a result of recording in steps S134 / S136, it is determined whether or not the merge start condition is satisfied (step S13).
7). If the merge start condition is not satisfied, the process ends. It should be noted that each form of the conditions for starting the merge process described in the embodiments of FIGS. 1 to 8 can be applied to this embodiment. The other small-scale full-text index storage unit for registration (here, small-scale full-text index storage unit for registration B (9b)
/ A (9a)) is also executing merge processing (step S138). It is also determined at the same time whether the storage unit B / A is executing the registration process. Step S
If the process is being executed at 138, it waits for its end. Note that, hereinafter, only the case where the most likely merge process is being executed will be described.

【0113】マージ開始条件を満たし、且つ他の登録用
小規模全文索引記憶部B(9b)/A(9a)がマージ
処理を実行中ではない場合に、登録用小規模全文索引記
憶部A(9a)/Cにおける登録用小規模全文索引A/
Cに対して、図11におけるステップS47〜S49と
同様のマージ処理(ステップS140〜S142)を起
動し、次の登録処理に対して記録を行うべき記憶部を登
録用小規模全文索引記憶部A(9a)/Cから他の登録
用小規模全文索引記憶部B(9b)/A(9a)に切り
替える(ステップS139)。マージ処理が起動された
場合、マージ手段11は登録処理手段3とは非同期にマ
ージ処理を実行する。また、記憶部管理手段12は、余
剰の(次の処理でも使用する予定のない)登録用全文索
引記憶部をマージ処理時や適時、削除するようにすれば
よい。
When the merge start condition is satisfied and the other small-scale full-text index storage unit B (9b) / A (9a) for registration is not executing the merge process, the small-scale full-text index storage unit A for registration A ( 9a) / C small full-text index for registration A /
For C, the merge process (steps S140 to S142) similar to steps S47 to S49 in FIG. 11 is activated, and the storage unit to be recorded for the next registration process is the small scale full-text index storage unit A for registration. (9a) / C is switched to another small-scale full-text index storage unit for registration B (9b) / A (9a) (step S139). When the merge process is activated, the merge unit 11 executes the merge process asynchronously with the registration processing unit 3. Further, the storage unit management means 12 may delete the surplus (not planned to be used in the next process) registration full-text index storage unit at the time of the merge process or at a proper time.

【0114】(削除処理)削除処理を実行するには、ま
ず利用者が入力手段1から削除する文書の文書識別子を
入力する。次に、削除処理手段4において文書データ記
憶部7から文書識別子に対応する文書データを読み出す
(ステップS151)。さらに削除処理手段4におい
て、テキスト分割手段6を用いて文書データから部分文
字列(トークン)とそのトークンの出現位置情報を得る
(ステップS152)。
(Delete Process) To execute the delete process, the user first inputs the document identifier of the document to be deleted from the input means 1. Next, the deletion processing unit 4 reads out the document data corresponding to the document identifier from the document data storage unit 7 (step S151). Further, the deletion processing means 4 uses the text division means 6 to obtain a partial character string (token) and appearance position information of the token from the document data (step S152).

【0115】次に、文書識別子が登録用小規模全文索引
に登録されている文書識別子かを判定し(ステップS1
53)、登録用小規模全文索引に登録されている文書識
別子である場合には、各トークンの出現位置情報を存在
する全ての登録用小規模全文索引記憶部9(9a等)か
ら削除する(ステップS155)。文書識別子が登録用
小規模全文索引に登録されていない場合(検索用大規模
全文索引に登録されている場合)には、次に示す削除用
小規模全文索引記憶部への記録を行う。
Next, it is judged whether the document identifier is a document identifier registered in the small scale full-text index for registration (step S1).
53) If the document identifier is registered in the registration small-scale full-text index, the appearance position information of each token is deleted from all existing registration small-scale full-text index storage units 9 (9a, etc.). Step S155). When the document identifier is not registered in the registration small-scale full-text index (when registered in the search large-scale full-text index), it is recorded in the deletion small-scale full-text index storage unit described below.

【0116】記憶部管理手段12は、削除処理手段3か
らの命令により或いは適時、現時点で使用できる削除用
小規模全文索引記憶部が存在するかを判定する(ステッ
プS154)。存在しなければ他の削除用小規模全文索
引記憶部(例えば削除用小規模全文索引記憶部C)を新
たに作成する(ステップS157)。使用できる削除用
小規模全文索引記憶部が存在した時点で、文書識別子と
各トークンの出現位置情報をその時点の削除用小規模全
文索引記憶部(例えば登録用小規模全文索引記憶部A
(10a)/C)に記録する(ステップS156/S1
58)。そして、削除処理手段4において文書データ記
憶部7から文書識別子に対応する文書データを削除する
(ステップS175)。
The storage unit management means 12 determines whether or not there is a small scale full-text index storage unit for deletion which can be used at the present time according to a command from the deletion processing unit 3 or in a timely manner (step S154). If it does not exist, another small-scale full-text index storage unit for deletion (for example, small-scale full-text index storage unit C for deletion) is newly created (step S157). When there is a deleteable small-scale full-text index storage unit that can be used, the document identifier and the appearance position information of each token are used to delete the small-scale full-text index storage unit (for example, registration small-scale full-text index storage unit A
(10a) / C) (step S156 / S1)
58). Then, the deletion processing unit 4 deletes the document data corresponding to the document identifier from the document data storage unit 7 (step S175).

【0117】ステップS156/S158における記録
の後、適時マージ処理が行われるが、ここではマージ開
始条件に基づいて行われるものとして説明する。まず、
ステップS156/S158において記録した結果、マ
ージ開始条件を満たすかを判定する(ステップS15
9)。マージ開始条件を満たさなければ処理を終了する
(ステップS175の処理は必要)。なお、図1乃至図
8の実施形態において説明したマージ処理開始の条件の
各形態は、本実施形態においても適用可能である。ま
た、他方の削除用小規模全文索引記憶部(ここでは削除
用小規模全文索引記憶部B(10b)/A(9a))が
マージ処理を実行中であるかも判定する(ステップS1
70)。なお、記憶部B/Aが登録処理を実行中である
かも同時に判定しておく。ステップS170において処
理が実行中である場合には、その終了を待つ。なお、以
降、最も想定されるマージ処理が実行中の場合のみ説明
する。
After the recording in steps S156 / S158, the merge process is performed at a proper time. Here, it is assumed that the merge process is performed based on the merge start condition. First,
As a result of recording in step S156 / S158, it is determined whether or not the merge start condition is satisfied (step S15).
9). If the merge start condition is not satisfied, the process ends (the process of step S175 is necessary). It should be noted that each form of the conditions for starting the merge process described in the embodiments of FIGS. 1 to 8 can be applied to this embodiment. It is also determined whether the other small-scale full-text index storage unit for deletion (here, small-scale full-text index storage unit for deletion B (10b) / A (9a)) is executing merge processing (step S1).
70). It is also determined at the same time whether the storage unit B / A is executing the registration process. If the process is being executed in step S170, the completion of the process is awaited. Note that, hereinafter, only the case where the most likely merge process is being executed will be described.

【0118】マージ開始条件を満たし、且つ他のいずれ
かの削除用小規模全文索引記憶部B(10b)/C(1
0c)がマージ処理を実行中ではない場合に、削除用小
規模全文索引記憶部A(10a)/Cにおける削除用小
規模全文索引A/Cに対して、図12におけるステップ
S59〜S61と同様のマージ処理(ステップS172
〜S174)を起動し、次の削除処理に対して記録を行
うべき記憶部を削除用小規模全文索引記憶部A(10
a)/Cから他の削除用小規模全文索引記憶部B(10
b)/A(10a)に切り替える(ステップS17
1)。マージ処理が起動された場合、マージ手段11は
削除処理手段4とは非同期にマージ処理を実行する。ま
た、記憶部管理手段12は、余剰の(次の処理でも使用
する予定のない)削除用全文索引記憶部をマージ処理時
や適時、削除するようにすればよい。
The merge start condition is satisfied, and any other small scale full-text index storage unit for deletion B (10b) / C (1
0c) is not executing the merge process, the deletion small-scale full-text index storage unit A (10a) / C for the deletion small-scale full-text index A / C is the same as steps S59 to S61 in FIG. Merge processing (step S172
~ S174) is started, and the storage unit to be recorded for the next deletion process is the small-scale full-text index storage unit for deletion A (10).
a) / C to another small-scale full-text index storage unit for deletion B (10
b) / A (10a) is switched (step S17)
1). When the merge processing is activated, the merge means 11 executes the merge processing asynchronously with the delete processing means 4. Further, the storage unit management means 12 may delete the surplus (which will not be used in the next process) deletion full-text index storage unit at the time of the merge process or at a proper time.

【0119】(検索処理)本実施形態に係る検索処理
は、図10を参照して説明した検索処理と基本的に同様
の処理であり、図10におけるステップS34〜S39
が、夫々ステップS124〜S129に対応している。
ただし、ステップS126において、検索処理手段5
は、集合Riとして、現時点で存在する全ての登録用小
規模全文索引記憶部の登録用小規模全文索引を用いて検
索文字列を含む文書データの文書識別子の集合を得る。
さらに、ステップS127において、検索処理手段5
は、集合Rdとして、現時点で存在する全ての削除用小
規模全文索引記憶部の削除用小規模全文索引を用いて検
索文字列を含む文書データの文書識別子の集合を得る。
(Search Process) The search process according to this embodiment is basically the same as the search process described with reference to FIG. 10, and steps S34 to S39 in FIG.
Correspond to steps S124 to S129, respectively.
However, in step S126, the search processing means 5
As a set Ri, a set of document identifiers of document data including a search character string is obtained by using the small scale full-text indexes for registration in all the small scale full-text indexes for registration that currently exist.
Further, in step S127, the search processing means 5
As a set Rd, a set of document identifiers of document data including a search character string is obtained by using all the deleting small-scale full-text indexes of all the deleting small-scale full-text index storage units that are presently present.

【0120】以上、本発明の全文検索装置を中心に各実
施形態を説明してきたが、全文検索装置における処理手
順としても説明したように全文検索のシステムにおける
全文検索方法としての形態も採り得る。さらに、本発明
は、これら全文検索装置として機能させるためのプログ
ラム、又はその各手段として機能させるためのプログラ
ムとしても、或いは、これら全文検索方法を実行するた
めのプログラム、又はその処理手順を実行するためのプ
ログラム、さらにはそれらのいずれかのプログラムを記
録したコンピュータ読み取り可能な記録媒体としての形
態も採用可能である。
Although the respective embodiments have been described above centering on the full-text search device of the present invention, the full-text search system may take the form of a full-text search method as described as the processing procedure in the full-text search device. Furthermore, the present invention also functions as a program for causing these full-text search devices to function, or as a program for causing them to function as respective means, or executes a program for executing these full-text search methods, or a processing procedure thereof. And a form as a computer-readable recording medium in which any one of these programs is recorded can be adopted.

【0121】本発明による全文検索の機能を実現するた
めのプログラムやデータを記憶した記録媒体の実施形態
を説明する。記録媒体としては、具体的には、CD−R
OM、光磁気ディスク、DVD−ROM、FD、フラッ
シュメモリ、及びその他各種ROMやRAM等が想定で
き、これら記録媒体に上述した本発明の各実施形態のシ
ステムの機能をコンピュータに実行させ、全文検索の機
能を実現するためのプログラムを記録して流通させるこ
とにより、当該機能の実現を容易にする。そしてコンピ
ュータ等の情報処理装置に上記のごとくの記録媒体を装
着して情報処理装置によりプログラムを読み出すか、若
しくは情報処理装置が備えている記憶媒体に当該プログ
ラムを記憶させておき、必要に応じて読み出すことによ
り、本発明に係わる全文検索機能を実行することができ
る。
An embodiment of a recording medium storing a program and data for realizing the full-text search function according to the present invention will be described. As the recording medium, specifically, a CD-R
An OM, a magneto-optical disk, a DVD-ROM, an FD, a flash memory, and other various ROMs and RAMs can be assumed, and these recording media are caused to cause a computer to execute the system functions of the embodiments of the present invention described above, and full-text search is performed. By recording and distributing a program for realizing the function of, the function can be easily realized. Then, the recording medium as described above is attached to an information processing device such as a computer and the program is read by the information processing device, or the program is stored in a storage medium included in the information processing device, and as necessary. By reading, the full-text search function according to the present invention can be executed.

【0122】[0122]

【発明の効果】本発明によれば、全文検索装置における
登録処理や削除処理を小規模な全文索引記憶部に対して
行うので、その処理時間は短く抑えることが可能とな
り、利用者へのレスポンスタイムを短くすることが可能
となる。
According to the present invention, since the registration processing and the deletion processing in the full-text search device are performed on the small-scale full-text index storage unit, the processing time can be kept short and the response to the user can be reduced. It is possible to shorten the time.

【0123】また、本発明によれば、登録用小規模全文
索引を複数備えることでマージ処理を実行中でも登録処
理を行うことが可能となり、また削除用小規模全文索引
を複数備えることでマージ処理を実行中でも削除処理を
行うことが可能となる。
Further, according to the present invention, by providing a plurality of registration small-scale full-text indexes, the registration processing can be performed even while the merge processing is being executed, and by providing a plurality of deletion small-scale full-text indexes, the merge processing can be performed. It is possible to perform the deletion process even while executing.

【図面の簡単な説明】[Brief description of drawings]

【図1】 本発明の一実施形態に係る全文検索装置の機
能を説明するためのブロック図である。
FIG. 1 is a block diagram illustrating a function of a full-text search device according to an embodiment of the present invention.

【図2】 図1における全文検索装置をスタンドアロン
で構成した場合のハードウェア構成例を示す図である。
FIG. 2 is a diagram showing a hardware configuration example in the case where the full-text search device in FIG. 1 is configured standalone.

【図3】 図1における全文検索装置をサーバ/クライ
アントで構成した場合のハードウェア構成例を示す図で
ある。
FIG. 3 is a diagram showing a hardware configuration example when the full-text search device in FIG. 1 is configured by a server / client.

【図4】 図1の全文検索装置における処理例を説明す
るためのフロー図である。
FIG. 4 is a flowchart for explaining a processing example in the full-text search device in FIG.

【図5】 図1の全文検索装置における処理例を説明す
るためのフロー図である。
5 is a flowchart for explaining a processing example in the full-text search device in FIG.

【図6】 図1の全文検索装置における処理例を説明す
るためのフロー図である。
FIG. 6 is a flowchart for explaining a processing example in the full-text search device in FIG.

【図7】 図1の全文検索装置における処理を説明する
ための図で、全文索引の一例を示す図である。
FIG. 7 is a diagram for explaining the process in the full-text search device of FIG. 1, showing an example of a full-text index.

【図8】 図7における全文索引のトークン「全文」の
転置リストを例にマージ処理の概要を説明するための図
である。
FIG. 8 is a diagram for explaining an outline of merge processing by taking an inverted list of tokens “full text” of the full text index in FIG. 7 as an example.

【図9】 本発明の他の実施形態に係る全文検索装置の
機能を説明するためのブロック図である。
FIG. 9 is a block diagram illustrating a function of a full-text search device according to another embodiment of the present invention.

【図10】 図9の全文検索装置における処理例を説明
するためのフロー図である。
FIG. 10 is a flowchart for explaining a processing example in the full-text search device in FIG.

【図11】 図9の全文検索装置における処理例を説明
するためのフロー図である。
11 is a flowchart for explaining a processing example in the full-text search device in FIG.

【図12】 図9の全文検索装置における処理例を説明
するためのフロー図である。
FIG. 12 is a flowchart for explaining a processing example in the full-text search device in FIG.

【図13】 本発明の他の実施形態に係る全文検索装置
の機能を説明するためのブロック図である。
FIG. 13 is a block diagram illustrating a function of a full-text search device according to another embodiment of the present invention.

【図14】 図13の全文検索装置における処理例を説
明するためのフロー図である。
FIG. 14 is a flowchart for explaining a processing example in the full-text search device in FIG.

【図15】 図13の全文検索装置における処理例を説
明するためのフロー図である。
FIG. 15 is a flowchart for explaining a processing example in the full-text search device in FIG.

【図16】 図13の全文検索装置における処理例を説
明するためのフロー図である。
16 is a flowchart for explaining a processing example in the full-text search device in FIG.

【図17】 本発明の他の実施形態に係る全文検索装置
の機能を説明するためのブロック図である。
FIG. 17 is a block diagram illustrating a function of a full-text search device according to another embodiment of the present invention.

【図18】 図17の全文検索装置における処理例を説
明するためのフロー図である。
18 is a flowchart for explaining a processing example in the full-text search device in FIG.

【図19】 図17の全文検索装置における処理例を説
明するためのフロー図である。
19 is a flowchart for explaining a processing example in the full-text search device in FIG.

【図20】 図17の全文検索装置における処理例を説
明するためのフロー図である。
FIG. 20 is a flowchart for explaining a processing example in the full-text search device in FIG.

【符号の説明】[Explanation of symbols]

1…入力手段、2…出力手段、3…登録処理手段、4…
削除処理手段、5…検索処理手段、6…テキスト分割手
段、7…文書データ記憶部、8…検索用大規模全文索引
記憶部、9…登録用小規模全文索引記憶部、9a…登録
用小規模全文索引記憶部A、9b…登録用小規模全文索
引記憶部B、9c…登録用小規模全文索引記憶部C、1
0…削除用小規模全文索引記憶部、10a…削除用小規
模全文索引記憶部A、10b…削除用小規模全文索引記
憶部B、10c…削除用小規模全文索引記憶部C、11
…マージ手段、12…記憶部管理手段、21,31…入
力装置、22,32…表示装置、23,33…入出力制
御装置、24,34,52…主制御装置(CPU・メモ
リ)、25,53…記憶装置、30…クライアント、3
5,51…ネットワーク制御装置、40…ネットワー
ク、50…サーバ。
1 ... Input means, 2 ... Output means, 3 ... Registration processing means, 4 ...
Deletion processing means, 5 ... Search processing means, 6 ... Text dividing means, 7 ... Document data storage section, 8 ... Large-scale full-text index storage section for search, 9 ... Small-scale full-text index storage section for registration, 9a ... Small registration area Scale full-text index storage unit A, 9b ... Registration small-scale full-text index storage unit B, 9c ... Registration small-scale full-text index storage unit C, 1
0 ... Delete small-scale full-text index storage unit, 10a ... Delete small-scale full-text index storage unit A, 10b ... Delete small-scale full-text index storage unit B, 10c ... Delete small-scale full-text index storage unit C, 11
... merging means, 12 ... storage section managing means, 21, 31 ... input device, 22, 32 ... display device, 23, 33 ... input / output control device, 24, 34, 52 ... main control device (CPU / memory), 25 , 53 ... storage device, 30 ... client, 3
5, 51 ... Network control device, 40 ... Network, 50 ... Server.

───────────────────────────────────────────────────── フロントページの続き (72)発明者 池田 哲也 東京都大田区中馬込1丁目3番6号 株式 会社リコー内 (72)発明者 平岡 卓也 東京都大田区中馬込1丁目3番6号 株式 会社リコー内 (72)発明者 竹川 弘志 東京都大田区中馬込1丁目3番6号 株式 会社リコー内 (72)発明者 浅田 一繁 東京都大田区中馬込1丁目3番6号 株式 会社リコー内 Fターム(参考) 5B075 ND03 ND23 ND40 NK02 NK49 NR06 NR14 PP12 PP22 QM01 UU06    ─────────────────────────────────────────────────── ─── Continued front page    (72) Inventor Tetsuya Ikeda             1-3-3 Nakamagome, Ota-ku, Tokyo Stocks             Company Ricoh (72) Inventor Takuya Hiraoka             1-3-3 Nakamagome, Ota-ku, Tokyo Stocks             Company Ricoh (72) Inventor Hiroshi Takekawa             1-3-3 Nakamagome, Ota-ku, Tokyo Stocks             Company Ricoh (72) Inventor Kazushige Asada             1-3-3 Nakamagome, Ota-ku, Tokyo Stocks             Company Ricoh F term (reference) 5B075 ND03 ND23 ND40 NK02 NK49                       NR06 NR14 PP12 PP22 QM01                       UU06

Claims (42)

【特許請求の範囲】[Claims] 【請求項1】 複数の文書データから指定された文字列
を含む文書を検索する全文検索装置において、登録され
た文書データを保存する文書データ記憶部と、検索用の
全文索引記憶部と、文書データに関する登録処理を行う
登録処理手段と、文書データに関する削除処理を行う削
除処理手段と、検索処理を行う検索処理手段とを有し、
登録用の全文索引記憶部を、前記検索用の全文索引記憶
部とは別に有し、さらに、前記登録用の全文索引記憶部
から、前記検索用の全文索引記憶部へデータをマージす
るマージ手段を有することを特徴とする全文検索装置。
1. A full-text search device for searching a document containing a specified character string from a plurality of document data, a document data storage section for storing registered document data, a full-text index storage section for searching, and a document. A registration processing means for performing registration processing regarding data, a deletion processing means for performing deletion processing regarding document data, and a search processing means for performing search processing;
A merging unit that has a full-text index storage unit for registration separately from the full-text index storage unit for search, and further merges data from the full-text index storage unit for registration to the full-text index storage unit for search. A full-text search device comprising:
【請求項2】 前記マージ手段は、前記登録用の全文索
引記憶部から前記検索用の全文索引記憶部へデータをマ
ージする際に、全文索引の構成要素である転置リストご
とに処理を行うことを特徴とする請求項1記載の全文検
索装置。
2. The merging means, when merging data from the registration full-text index storage unit to the search full-text index storage unit, performs processing for each transposed list that is a component of the full-text index. The full-text search device according to claim 1.
【請求項3】 複数の文書データから指定された文字列
を含む文書を検索する全文検索装置において、登録され
た文書データを保存する文書データ記憶部と、検索用の
全文索引記憶部と、文書データに関する登録処理を行う
登録処理手段と、文書データに関する削除処理を行う削
除処理手段と、検索処理を行う検索処理手段とを有し、
登録用の全文索引記憶部と、削除用の全文索引記憶部と
を、前記検索用の全文索引記憶部とは別に有し、さら
に、前記登録用の全文索引記憶部及び削除用の全文索引
記憶部から、前記検索用の全文索引記憶部へデータをマ
ージするマージ手段を有することを特徴とする全文検索
装置。
3. A full-text search device for searching a document containing a specified character string from a plurality of document data, a document data storage section for storing registered document data, a full-text index storage section for searching, and a document. A registration processing unit that performs a registration process regarding data, a deletion processing unit that performs a deletion process regarding document data, and a search processing unit that performs a search process;
A full-text index storage unit for registration and a full-text index storage unit for deletion are provided separately from the full-text index storage unit for search, and further, the full-text index storage unit for registration and the full-text index storage for deletion are provided. A full-text search device comprising a merging unit for merging data from a section to the full-text index storage section for searching.
【請求項4】 前記マージ手段は、前記登録用の全文索
引記憶部及び削除用の全文索引記憶部から、前記検索用
の全文索引記憶部へデータをマージする際に、全文索引
の構成要素である転置リストごとに処理を行うことを特
徴とする請求項3記載の全文検索装置。
4. The merging means is a constituent element of a full-text index when merging data from the registration full-text index storage section and the deletion full-text index storage section to the search full-text index storage section. The full-text search device according to claim 3, wherein processing is performed for each transposed list.
【請求項5】 前記マージ手段は、前記登録用の全文索
引記憶部に登録された文書データ件数が予め指定された
件数に達したときに、前記検索用の全文索引記憶部にデ
ータをマージする処理を行うことを特徴とする請求項2
乃至4のいずれか1記載の全文検索装置。
5. The merging means merges the data into the full-text index storage unit for search when the number of document data items registered in the full-text index storage unit for registration reaches a predetermined number. The processing is performed.
4. The full-text search device according to any one of 4 to 4.
【請求項6】 前記マージ手段は、前記登録用の全文索
引記憶部の容量が予め指定された容量に達したときに、
前記検索用の全文索引記憶部にデータをマージする処理
を行うことを特徴とする請求項2乃至4のいずれか1記
載の全文検索装置。
6. The merging means, when the capacity of the full-text index storage unit for registration reaches a capacity designated in advance,
The full-text search device according to any one of claims 2 to 4, wherein a process of merging data into the full-text index storage unit for search is performed.
【請求項7】 前記登録用の全文索引記憶部を複数有
し、前記検索用の全文索引記憶部へデータをマージする
処理を行っている登録用全文索引記憶部とは異なる、他
の登録用全文索引記憶部を使用して、登録処理を行うこ
とを特徴とする請求項5又は6記載の全文検索装置。
7. Another registration different from the registration full-text index storage unit that has a plurality of registration full-text index storage units and performs a process of merging data into the search full-text index storage unit. 7. The full-text search device according to claim 5, wherein the full-text index storage unit is used to perform registration processing.
【請求項8】 前記登録用の全文索引記憶部を二つ有
し、うち一つの登録用全文索引記憶部から前記検索用の
全文索引記憶部へデータをマージする処理を行っている
間は、もう一つの登録用全文索引記憶部を使用して登録
処理を行うことを特徴とする請求項5又は6記載の全文
検索装置。
8. The apparatus has two full-text index storage units for registration, and while performing a process of merging data from one full-text index storage unit for registration to the full-text index storage unit for search, 7. The full-text search device according to claim 5, wherein the registration processing is performed using another full-text index storage unit for registration.
【請求項9】 前記登録用の全文索引記憶部とは異なる
他の登録用の全文索引記憶部を管理する記憶部管理手段
を有し、該記憶部管理手段は、前記登録処理に際して登
録用の全文索引を記憶する処理が可能な登録用全文索引
記憶部が存在しない場合に、他の登録用全文索引記憶部
を新規作成することを特徴とする請求項5又は6記載の
全文検索装置。
9. A storage unit management unit for managing another full-text index storage unit for registration different from the full-text index storage unit for registration, the storage unit management unit for registering during the registration processing. 7. The full-text search device according to claim 5, wherein another full-text index storage unit for registration is newly created when there is no full-text index storage unit for registration capable of storing the full-text index.
【請求項10】 前記記憶部管理手段は、余剰の登録用
全文索引記憶部を削除することを特徴とする請求項9記
載の全文検索装置。
10. The full-text search device according to claim 9, wherein the storage unit management unit deletes the surplus registration full-text index storage unit.
【請求項11】 前記登録処理手段は、登録用全文索引
記憶部のうち一つの登録用全文索引記憶部から前記検索
用の全文索引記憶部へデータをマージする処理を行って
いる間は、他の登録用全文索引記憶部を使用して、登録
処理を行うことを特徴とする請求項9又は10記載の全
文検索装置。
11. The registration processing means, while performing a process of merging data from one registration full-text index storage unit of the registration full-text index storage unit to the search full-text index storage unit, 11. The full-text search device according to claim 9, wherein the registration processing is performed using the full-text index storage unit for registration of.
【請求項12】 複数の文書データから指定された文字
列を含む文書を検索する全文検索装置において、登録さ
れた文書データを保存する文書データ記憶部と、検索用
の全文索引記憶部と、文書データに関する登録処理を行
う登録処理手段と、文書データに関する削除処理を行う
削除処理手段と、検索処理を行う検索処理手段とを有
し、削除用の全文索引記憶部を、前記検索用の全文索引
記憶部とは別に有し、さらに、前記削除用の全文索引記
憶部から、前記検索用の全文索引記憶部へデータをマー
ジするマージ手段を有することを特徴とする全文検索装
置。
12. A full-text search device for searching a document containing a designated character string from a plurality of document data, a document data storage section for storing registered document data, a full-text index storage section for searching, and a document. It has a registration processing means for performing a registration processing regarding data, a deletion processing means for performing a deletion processing regarding document data, and a search processing means for performing a search processing. A full-text search device, which is provided separately from the storage unit, and further has merge means for merging data from the full-text index storage unit for deletion to the full-text index storage unit for search.
【請求項13】 前記マージ手段は、前記削除用の全文
索引記憶部から前記検索用の全文索引記憶部へデータを
マージする際に、全文索引の構成要素である転置リスト
ごとに処理を行うことを特徴とする請求項12記載の全
文検索装置。
13. The merging means, when merging data from the deletion full-text index storage unit to the search full-text index storage unit, performs processing for each transposed list that is a constituent element of the full-text index. The full-text search device according to claim 12.
【請求項14】 前記マージ手段は、前記削除用の全文
索引記憶部に登録された文書データ件数が予め指定され
た件数に達したときに、前記検索用の全文索引記憶部に
データをマージする処理を行うことを特徴とする請求項
3乃至13のいずれか1記載の全文検索装置。
14. The merging means merges data into the full-text index storage unit for retrieval when the number of document data registered in the full-text index storage unit for deletion reaches a predetermined number. 14. The full-text search device according to claim 3, wherein the full-text search device performs processing.
【請求項15】 前記マージ手段は、前記削除用の全文
索引記憶部の容量が予め指定された容量に達したとき
に、前記検索用の全文索引記憶部にデータをマージする
処理を行うことを特徴とする請求項3乃至13のいずれ
か1記載の全文検索装置。
15. The merging means performs a process of merging data into the full-text index storage unit for retrieval when the capacity of the full-text index storage unit for deletion reaches a predetermined capacity. The full-text search device according to any one of claims 3 to 13, which is characterized in that.
【請求項16】 前記削除用の全文索引記憶部を複数有
し、前記検索用の全文索引記憶部へデータをマージする
処理を行っている削除用全文索引記憶部とは異なる、他
の削除用全文索引記憶部を使用して、削除処理を行うこ
とを特徴とする請求項14又は15記載の全文検索装
置。
16. Another deletion full-text index storage unit different from the deletion full-text index storage unit that has a plurality of deletion full-text index storage units and performs a process of merging data into the search full-text index storage unit. The full-text search device according to claim 14 or 15, wherein the full-text index storage unit is used to perform the deletion process.
【請求項17】 前記削除用の全文索引記憶部を二つ有
し、うち一つの削除用全文索引記憶部から前記検索用の
全文索引記憶部へデータをマージする処理を行っている
間は、もう一つの削除用全文索引記憶部を使用して、削
除処理を行うことを特徴とする請求項14又は15記載
の全文検索装置。
17. The apparatus includes two deletion full-text index storage units, and while performing a process of merging data from one deletion full-text index storage unit to the search full-text index storage unit, 16. The full-text search device according to claim 14, wherein the deletion processing is performed using another full-text index storage unit for deletion.
【請求項18】 前記削除用の全文索引記憶部とは異な
る他の削除用の全文索引記憶部を管理する記憶部管理手
段を有し、該記憶部管理手段は、前記削除処理に際して
削除用の全文索引を記憶する処理が可能な削除用全文索
引記憶部が存在しない場合に、他の削除用全文索引記憶
部を新規作成することを特徴とする請求項14又は15
記載の全文検索装置。
18. A storage unit managing unit that manages another full-text index storage unit for deletion, which is different from the full-text index storage unit for deletion, and the storage unit management unit deletes the full-text index storage unit for deletion during the deletion processing. 16. A new full-text index storage unit for deletion is newly created when there is no full-text index storage unit for deletion capable of storing a full-text index.
Full text search device described.
【請求項19】 前記記憶部管理手段は、余剰の削除用
全文索引記憶部を削除することを特徴とする請求項18
記載の全文検索装置。
19. The storage unit managing means deletes a surplus deletion full-text index storage unit.
Full text search device described.
【請求項20】 前記削除処理手段は、削除用全文索引
記憶部のうち一つの削除用全文索引記憶部から前記検索
用の全文索引記憶部へデータをマージする処理を行って
いる間は、他の削除用全文索引記憶部を使用して、削除
処理を行うことを特徴とする請求項18又は19記載の
全文検索装置。
20. While the deletion processing unit is performing a process of merging data from one deletion full-text index storage unit of the deletion full-text index storage unit to the search full-text index storage unit, 20. The full-text search device according to claim 18, wherein the deletion process is performed using the deletion full-text index storage unit.
【請求項21】 登録された文書データを保存する文書
データ記憶部と、検索用の全文索引を記憶する検索用の
全文索引記憶部と、文書データに関する登録処理を行う
登録処理手段と、文書データに関する削除処理を行う削
除処理手段と、検索処理を行う検索処理手段とを有し、
複数の文書データから指定された文字列を含む文書を検
索する全文検索システムにおける全文検索方法におい
て、前記検索用の全文索引記憶部とは別に備えた、登録
用の全文索引記憶部に対し、登録用の全文索引を記憶す
る索引記憶ステップと、前記登録用の全文索引記憶部か
ら前記検索用の全文索引記憶部へデータをマージするマ
ージステップとを有することを特徴とする全文検索方
法。
21. A document data storage unit for storing registered document data, a search full-text index storage unit for storing a search full-text index, registration processing means for performing registration processing on document data, and document data. And a search processing unit that performs a search process.
In a full-text search method in a full-text search system for searching a document containing a specified character string from a plurality of document data, a full-text index storage section for registration, which is provided separately from the full-text index storage section for search, is registered. A full-text search method, comprising: an index storage step of storing a full-text index for searching; and a merging step of merging data from the registration full-text index storage section to the search full-text index storage section.
【請求項22】 前記マージステップは、前記登録用の
全文索引記憶部から前記検索用の全文索引記憶部へデー
タをマージする際に、全文索引の構成要素である転置リ
ストごとに処理を行うことを特徴とする請求項21記載
の全文検索方法。
22. The merging step, when merging data from the registration full-text index storage unit to the search full-text index storage unit, performs processing for each transposed list that is a constituent element of the full-text index. The full-text search method according to claim 21, wherein:
【請求項23】 登録された文書データを保存する文書
データ記憶部と、検索用の全文索引を記憶する検索用の
全文索引記憶部と、文書データに関する登録処理を行う
登録処理手段と、文書データに関する削除処理を行う削
除処理手段と、検索処理を行う検索処理手段とを有し、
複数の文書データから指定された文字列を含む文書を検
索する全文検索システムにおける全文検索方法におい
て、前記検索用の全文索引記憶部とは別に備えた、登録
用の全文索引記憶部と削除用の全文索引記憶部とに対
し、夫々、登録用の全文索引、削除用の全文索引を記憶
する索引記憶ステップと、前記登録用の全文索引記憶部
及び削除用の全文索引記憶部から、前記検索用の全文索
引記憶部へデータをマージするマージステップとを有す
ることを特徴とする全文検索方法。
23. A document data storage unit for storing registered document data, a search full-text index storage unit for storing a full-text index for search, a registration processing unit for performing registration processing relating to document data, and document data. And a search processing unit that performs a search process.
In a full-text search method in a full-text search system for searching a document containing a specified character string from a plurality of document data, a full-text index storage section for registration and a full-text index storage section for deletion provided separately from the full-text index storage section for searching. An index storage step for storing a full-text index for registration and a full-text index for deletion, respectively, for the full-text index storage section; And a merging step of merging data into the full-text index storage unit.
【請求項24】 前記マージステップは、前記登録用の
全文索引記憶部及び削除用の全文索引記憶部から、前記
検索用全文索引記憶部へデータをマージする際に、全文
索引の構成要素である転置リストごとに処理を行うこと
を特徴とする請求項23記載の全文検索方法。
24. The merging step is a constituent element of a full-text index when merging data from the registration full-text index storage unit and the deletion full-text index storage unit to the search full-text index storage unit. 24. The full-text search method according to claim 23, wherein processing is performed for each transposed list.
【請求項25】 前記マージステップは、前記登録用の
全文索引記憶部に登録された文書データ件数が予め指定
された件数に達したときに、前記検索用の全文索引記憶
部にデータをマージする処理を行うことを特徴とする請
求項22乃至24のいずれか1記載の全文検索方法。
25. The merging step merges data into the full-text index storage unit for search when the number of document data items registered in the full-text index storage unit for registration reaches a predetermined number. 25. The full-text search method according to claim 22, wherein processing is performed.
【請求項26】 前記マージステップは、前記登録用の
全文索引記憶部の容量が予め指定された容量に達したと
きに、前記検索用の全文索引記憶部にデータをマージす
る処理を行うことを特徴とする請求項22乃至25のい
ずれか1記載の全文検索方法。
26. The merging step includes performing a process of merging data into the full-text index storage unit for search when the capacity of the full-text index storage unit for registration reaches a predetermined capacity. The full-text search method according to any one of claims 22 to 25.
【請求項27】 前記全文検索システムは前記登録用の
全文索引記憶部を複数有し、当該全文検索方法は、前記
検索用の全文索引記憶部へデータをマージする処理を行
っている登録用全文索引記憶部とは異なる、他の登録用
全文索引記憶部を使用して、登録処理を行うことを特徴
とする請求項25又は26記載の全文検索方法。
27. The full-text search system has a plurality of full-text index storage units for registration, and the full-text search method performs a process of merging data into the full-text index storage unit for search. 27. The full-text search method according to claim 25, wherein the registration process is performed by using another full-text index storage unit for registration different from the index storage unit.
【請求項28】 前記全文検索システムは前記登録用の
全文索引記憶部を二つ有し、当該全文検索方法は、うち
一つの登録用全文索引記憶部から前記検索用の全文索引
記憶部へデータをマージする処理を行っている間、もう
一つの登録用全文索引記憶部を使用して、登録処理を行
うことを特徴とする請求項25又は26記載の全文検索
方法。
28. The full-text search system has two full-text index storage units for registration, and the full-text search method is one of the full-text index storage unit for registration to the full-text index storage unit for search. 27. The full-text search method according to claim 25, wherein another registration full-text index storage unit is used during the merge processing to perform the registration processing.
【請求項29】 前記登録用の全文索引記憶部とは異な
る他の登録用の全文索引記憶部を管理する記憶部管理ス
テップを有し、該記憶部管理ステップは、前記登録処理
に際して登録用の全文索引を記憶する処理が可能な登録
用全文索引記憶部が存在しない場合に、他の登録用全文
索引記憶部を新規作成するステップを含むことを特徴と
する請求項25又は26記載の全文検索方法。
29. A storage unit management step of managing another full-text index storage unit for registration different from the full-text index storage unit for registration, the storage unit management step for registering at the time of the registration processing. 27. The full-text search according to claim 25 or 26, further comprising the step of newly creating another full-text index storage section for registration when there is no full-text index storage section for registration capable of storing a full-text index. Method.
【請求項30】 前記記憶部管理ステップは、余剰の登
録用全文索引記憶部を削除するステップを含むことを特
徴とする請求項29記載の全文検索方法。
30. The full-text search method according to claim 29, wherein the storage unit managing step includes a step of deleting an excessive registration full-text index storage unit.
【請求項31】 前記登録処理手段は、登録用全文索引
記憶部のうち一つの登録用全文索引記憶部から前記検索
用の全文索引記憶部へデータをマージする処理を行って
いる間は、他の登録用全文索引記憶部を使用して登録処
理を行うことを特徴とする請求項29又は30記載の全
文検索方法。
31. While the registration processing means is performing a process of merging data from one registration full-text index storage unit of the registration full-text index storage unit to the search full-text index storage unit, 31. The full-text search method according to claim 29, wherein the registration process is performed using the full-text index storage unit for registration.
【請求項32】 登録された文書データを保存する文書
データ記憶部と、検索用の全文索引を記憶する検索用の
全文索引記憶部と、文書データに関する登録処理を行う
登録処理手段と、文書データに関する削除処理を行う削
除処理手段と、検索処理を行う検索処理手段とを有し、
複数の文書データから指定された文字列を含む文書を検
索する全文検索システムにおける全文検索方法におい
て、前記検索用の全文索引記憶部とは別に備えた、削除
用の全文索引記憶部に対し、削除用の全文索引を記憶す
る索引記憶ステップと、前記削除用の全文索引記憶部か
ら前記検索用の全文索引記憶部へデータをマージするマ
ージステップとを有することを特徴とする全文検索方
法。
32. A document data storage unit for storing registered document data, a search full-text index storage unit for storing a full-text index for search, registration processing means for performing registration processing on document data, and document data. And a search processing unit that performs a search process.
In a full-text search method in a full-text search system for searching a document containing a specified character string from a plurality of document data, a full-text index storage section for deletion, which is provided separately from the full-text index storage section for search, is deleted. A full-text search method, comprising: an index storing step of storing a full-text index for use in a search; and a merging step of merging data from the delete full-text index storage into the search full-text index storage.
【請求項33】 前記マージステップは、前記削除用の
全文索引記憶部から前記検索用の全文索引記憶部へデー
タをマージする際に、全文索引の構成要素である転置リ
ストごとに処理を行うことを特徴とする請求項32記載
の全文検索方法。
33. The merging step, when merging data from the deletion full-text index storage unit to the search full-text index storage unit, performs processing for each transposed list that is a constituent element of the full-text index. 33. The full-text search method according to claim 32.
【請求項34】 前記マージステップは、前記削除用の
全文索引記憶部に登録された文書データ件数が予め指定
された件数に達したときに、前記検索用の全文索引記憶
部にデータをマージする処理を行うことを特徴とする請
求項23乃至33のいずれか1記載の全文検索方法。
34. The merging step merges data into the full-text index storage unit for retrieval when the number of document data items registered in the full-text index storage unit for deletion reaches a predetermined number. 34. The full-text search method according to claim 23, wherein processing is performed.
【請求項35】 前記マージステップは、前記削除用の
全文索引記憶部の容量が予め指定された容量に達したと
きに、前記検索用の全文索引記憶部にデータをマージす
る処理を行うことを特徴とする請求項23乃至33のい
ずれか1記載の全文検索方法。
35. The merging step performs a process of merging data into the full-text index storage unit for search when the capacity of the full-text index storage unit for deletion reaches a predetermined capacity. 34. The full-text search method according to claim 23, wherein the full-text search method is a full-text search method.
【請求項36】 前記全文検索システムは前記削除用の
全文索引記憶部を複数有し、当該全文検索方法は、前記
検索用の全文索引記憶部へデータをマージする処理を行
っている削除用全文索引記憶部とは異なる、他の削除用
全文索引記憶部を使用して、削除処理を行うことを特徴
とする請求項34又は35記載の全文検索方法。
36. The full-text search system has a plurality of full-text index storage units for deletion, and the full-text search method performs a process of merging data into the full-text index storage unit for search. 36. The full-text search method according to claim 34, wherein the deletion process is performed by using another deletion full-text index storage unit different from the index storage unit.
【請求項37】 前記全文検索システムは前記削除用の
全文索引記憶部を二つ有し、当該全文検索方法は、うち
一つの削除用全文索引記憶部から前記検索用の全文索引
記憶部へデータをマージする処理を行っている間、もう
一つの削除用全文索引記憶部を使用して、削除処理を行
うことを特徴とする請求項34又は35記載の全文検索
方法。
37. The full-text search system has two full-text index storage units for deletion, and the full-text search method is such that one of the deletion full-text index storage units transfers data to the full-text index storage unit for search. 36. The full-text search method according to claim 34, wherein another deletion full-text index storage unit is used to perform the deletion processing while the merging processing is performed.
【請求項38】 前記削除用の全文索引記憶部とは異な
る他の削除用の全文索引記憶部を管理する記憶部管理ス
テップを有し、該記憶部管理ステップは、前記削除処理
に際して削除用の全文索引を記憶する処理が可能な削除
用全文索引記憶部が存在しない場合に、他の削除用全文
索引記憶部を新規作成するステップを含むことを特徴と
する請求項34又は35記載の全文検索方法。
38. A storage unit management step of managing another full-text index storage unit for deletion different from the full-text index storage unit for deletion, the storage unit management step including a storage unit for deletion during the deletion processing. 36. The full-text search according to claim 34 or 35, further comprising the step of newly creating another full-text index storage section for deletion when a full-text index storage section for deletion capable of storing a full-text index does not exist. Method.
【請求項39】 前記記憶部管理ステップは、余剰の削
除用全文索引記憶部を削除するステップを含むことを特
徴とする請求項38記載の全文検索方法。
39. The full-text search method according to claim 38, wherein the storage management step includes a step of deleting a surplus deletion full-text index storage section.
【請求項40】 前記削除処理手段は、削除用全文索引
記憶部のうち一つの削除用全文索引記憶部から前記検索
用の全文索引記憶部へデータをマージする処理を行って
いる間は、他の削除用全文索引記憶部を使用して、削除
処理を行うことを特徴とする請求項38又は39記載の
全文検索装置。
40. While the deletion processing means is performing a process of merging data from one deletion full-text index storage unit of the deletion full-text index storage unit to the search full-text index storage unit, 40. The full-text search device according to claim 38, wherein the deletion process is performed using the deletion full-text index storage unit.
【請求項41】 コンピュータを請求項1乃至20のい
ずれか1記載の全文検索装置として機能させるための、
又は、コンピュータに請求項21乃至40のいずれか1
記載の全文検索方法を実行させるためのプログラム。
41. A computer for causing a computer to function as the full-text search device according to claim 1.
Alternatively, the computer according to any one of claims 21 to 40.
A program for executing the described full-text search method.
【請求項42】 請求項41記載のプログラムを記録し
たコンピュータ読み取り可能な記録媒体。
42. A computer-readable recording medium in which the program according to claim 41 is recorded.
JP2002214343A 2001-07-24 2002-07-23 Full-text search device, full-text search method, program, and recording medium Expired - Lifetime JP4219125B2 (en)

Priority Applications (5)

Application Number Priority Date Filing Date Title
JP2002214343A JP4219125B2 (en) 2001-07-24 2002-07-23 Full-text search device, full-text search method, program, and recording medium
US10/453,578 US7702666B2 (en) 2002-06-06 2003-06-04 Full-text search device performing merge processing by using full-text index-for-registration/deletion storage part with performing registration/deletion processing by using other full-text index-for-registration/deletion storage part
CNB031330142A CN1297933C (en) 2002-06-06 2003-06-06 Full-text search device that performs merge processing and registration/deletion processing
US11/647,380 US7644097B2 (en) 2002-06-06 2006-12-29 Full-text search device performing merge processing by using full-text index-for-registration/deletion storage part with performing registration/deletion processing by using other full-text index-for-registration/deletion storage part
US11/647,331 US7730069B2 (en) 2002-06-06 2006-12-29 Full-text search device performing merge processing by using full-text index-for-registration/ deletion storage part with performing registration/deletion processing by using other full-text index-for-registration/deletion storage part

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2001-223604 2001-07-24
JP2001223604 2001-07-24
JP2002214343A JP4219125B2 (en) 2001-07-24 2002-07-23 Full-text search device, full-text search method, program, and recording medium

Publications (2)

Publication Number Publication Date
JP2003122794A true JP2003122794A (en) 2003-04-25
JP4219125B2 JP4219125B2 (en) 2009-02-04

Family

ID=26619193

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002214343A Expired - Lifetime JP4219125B2 (en) 2001-07-24 2002-07-23 Full-text search device, full-text search method, program, and recording medium

Country Status (1)

Country Link
JP (1) JP4219125B2 (en)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009134627A (en) * 2007-11-30 2009-06-18 Mitsubishi Electric Corp N character index generation device, document search device, N character index generation method, document search method, N character index generation program, and document search program
JP2012064159A (en) * 2010-09-17 2012-03-29 Casio Comput Co Ltd Generation method and generation device for transposition index for n-gram retrieval, retrieval method and retrieval device using transposition index, and computer program
WO2012150637A1 (en) * 2011-05-02 2012-11-08 富士通株式会社 Extraction method, information processing method, extraction program, information processing program, extraction device, and information processing device
JP2013178711A (en) * 2012-02-29 2013-09-09 Ricoh Co Ltd Full-text search device, program, and recording medium

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009134627A (en) * 2007-11-30 2009-06-18 Mitsubishi Electric Corp N character index generation device, document search device, N character index generation method, document search method, N character index generation program, and document search program
JP2012064159A (en) * 2010-09-17 2012-03-29 Casio Comput Co Ltd Generation method and generation device for transposition index for n-gram retrieval, retrieval method and retrieval device using transposition index, and computer program
WO2012150637A1 (en) * 2011-05-02 2012-11-08 富士通株式会社 Extraction method, information processing method, extraction program, information processing program, extraction device, and information processing device
JP2013178711A (en) * 2012-02-29 2013-09-09 Ricoh Co Ltd Full-text search device, program, and recording medium

Also Published As

Publication number Publication date
JP4219125B2 (en) 2009-02-04

Similar Documents

Publication Publication Date Title
US8255398B2 (en) Compression of sorted value indexes using common prefixes
US9195738B2 (en) Tokenization platform
US6662189B2 (en) Method of performing data mining tasks for generating decision tree and apparatus therefor
JP3554459B2 (en) Text data registration search method
EP1508864A2 (en) Apparatus and method for searching data of structured document
US20070174261A1 (en) Database retrieval apparatus, retrieval method, storage medium, and progam
JP5023176B2 (en) Feature word extraction apparatus and program
JP2003122794A (en) Full-text search device, full-text search method, program, and recording medium
JP2001229060A (en) System and method for retrieving directory and computer readable recording medium with directory retrieval program recorded thereon
KR101299555B1 (en) Apparatus and method for text search using index based on hash function
CN107169065B (en) Method and device for removing specific content
JP2925042B2 (en) Information link generation method
JP3427679B2 (en) Computer-readable recording medium recording word search device and word search program
JP2000339323A (en) Document search method, document search device, document search system, and recording medium
JP2002140218A (en) Data processing method, computer-readable recording medium, and data processing device
JPH05307541A (en) Kana to kanji converting system
JP4014417B2 (en) Full-text search device
JP2001318935A (en) Information processor, its method, recording medium recording information processing software, and relational database
CN119718876A (en) Data set management method, model evaluation method, device, equipment and medium
JP2000132439A (en) System for retrieving file stored in hard disk of personal computer
JPH09259132A (en) Information registration search device and method thereof
JP2004013764A (en) Full-text search device, program, and recording medium
CN120030102A (en) Multimodal document retrieval method, device, electronic device and storage medium
JP2002073943A (en) Event transition pattern classification method and apparatus, and storage medium storing event transition pattern classification program
JP2003150636A (en) Document search device, document search method, program, and recording medium

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20041102

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050302

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20080418

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080507

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080704

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080805

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20081003

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20081111

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20081111

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111121

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4219125

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111121

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121121

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131121

Year of fee payment: 5

EXPY Cancellation because of completion of term