JP2001117934A - Electronic document management method and system, and recording medium - Google Patents
Electronic document management method and system, and recording mediumInfo
- Publication number
- JP2001117934A JP2001117934A JP29626199A JP29626199A JP2001117934A JP 2001117934 A JP2001117934 A JP 2001117934A JP 29626199 A JP29626199 A JP 29626199A JP 29626199 A JP29626199 A JP 29626199A JP 2001117934 A JP2001117934 A JP 2001117934A
- Authority
- JP
- Japan
- Prior art keywords
- document
- full
- text
- text search
- search index
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Document Processing Apparatus (AREA)
Abstract
(57)【要約】
【課題】ユーザがコンテンツの内容・種別・分類を意識
することなく、容易に文書を全文検索するための情報を
提供できる電子化文書管理方法を提供する。
【解決手段】全文検索用インデックスファイル作成機能
105は、一括して文書を指定し、指定された文書から
テキスト抽出を行い、それを全文検索用インデックスフ
ァイルとして登録する。テキスト抽出に際して、文書の
種別ごとに定義されたテキスト抽出ライブラリもしくは
関数を用い、抽出処理を行う。文書を作成したアプリケ
ーションが特定できなかった場合及び予め定められた条
件を満たした場合には、文書の書誌事項を取得し、この
情報から全文検索用インデックスファイルを作成する手
段を有する。また、この処理はバッチジョブとしてユー
ザにとって都合の良い時間に実行することができる。
(57) [Summary] [PROBLEMS] To provide an electronic document management method capable of easily providing information for full-text search of a document without the user being aware of the content, type, and classification of the content. A full-text search index file creation function 105 collectively specifies documents, extracts text from the specified documents, and registers them as a full-text search index file. At the time of text extraction, extraction processing is performed using a text extraction library or function defined for each document type. If the application that created the document could not be specified or if a predetermined condition was satisfied, there is provided a means for acquiring bibliographic items of the document and creating an index file for full-text search from this information. This process can be executed as a batch job at a time convenient for the user.
Description
【0001】[0001]
【発明の属する技術分野】本発明はコンピュータによる
電子文書管理システムに係り、各種文書作成プログラム
等の各種アプリケーションで作成された文書に対して全
文検索用インデックスを作成する方法及びシステム並び
に記録媒体に関するものである。BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a computer-based electronic document management system, and more particularly to a method and system for creating a full-text search index for a document created by various applications such as various document creation programs, and a recording medium. It is.
【0002】[0002]
【従来の技術】従来の文書管理方法においては、文書ご
とにクラス、プロパティ、コンテンツ、全文検索用イン
デックスファイルなどの情報をユーザが定義して文書管
理を行っている。また、全文検索を行うために文書から
テキスト部分のみを抽出する機能においては、予め決ま
った種類のアプリケーションで作成した文書に対しての
みテキスト抽出を行うことしかできず、このテキストフ
ァイルを文書の全文検索用インデックスとする場合に
は、別途、このファイルを全文検索インデックスファイ
ルとして登録する必要がある。2. Description of the Related Art In a conventional document management method, a user defines information such as a class, a property, a content, an index file for full-text search for each document, and manages the document. In addition, the function of extracting only a text portion from a document in order to perform a full-text search can only extract text from a document created by a predetermined type of application. In the case of a search index, it is necessary to separately register this file as a full-text search index file.
【0003】また、特開平9−204442号公報にあ
るように、従来の文書管理方法において、文書が更新さ
れたときは、データ更新トリガが発生し、このトリガを
受信した時に更新された文書データに基づいてインデッ
クスが更新される。As described in Japanese Patent Application Laid-Open No. 9-204442, in the conventional document management method, when a document is updated, a data update trigger is generated, and when the trigger is received, the updated document data is updated. The index is updated based on.
【0004】[0004]
【発明が解決しようとする課題】上記従来技術では、各
種アプリケーションで作成した文書から全文検索用イン
デックスを作成するには、ユーザが別途テキスト抽出プ
ログラムを用意して個別に作成・登録を行わなければな
らないが、この時、テキスト抽出できるアプリケーショ
ンは限られており、対象でないアプリケーションの場合
には処理が行えない。また、テキスト抽出対象となる文
書が画像や音声であったり、コンテンツにセキュリティ
がかかっているなど、データが複雑である場合には、テ
キスト抽出対象外のために処理が行えなかったり、仮に
テキスト抽出を行った場合にも、正常なテキスト抽出処
理が行えない場合や、抽出したものが文字化けしていた
り、有意義な情報が得られない場合がある。このため、
従来技術ではインデックス作成処理対象とできる文書の
種別が制限されていた。In the prior art, in order to create a full-text search index from documents created by various applications, a user must prepare a separate text extraction program and individually create and register it. However, at this time, the applications from which text can be extracted are limited, and processing cannot be performed for non-target applications. In addition, if the data to be extracted is text or images, or if the data is complicated, such as the security of the contents, processing cannot be performed because the text is not to be extracted. In some cases, normal text extraction processing cannot be performed, extracted characters are garbled, or meaningful information cannot be obtained. For this reason,
In the prior art, the types of documents that can be indexed are limited.
【0005】また、アプリケーションで作成された文書
からテキスト抽出を行い、インデックスを作成するに
は、一般に多大な時間とコンピュータ処理能力が必要と
されるが、従来技術では、文書更新時にインデックスを
作成するしかなかった。[0005] Also, in order to extract text and create an index from a document created by an application, a great deal of time and computer processing power are generally required. In the prior art, an index is created when a document is updated. There was only.
【0006】本発明では、ユーザがコンテンツの内容・
種別・分類を意識することなく、容易に文書を全文検索
するための情報を提供する電子化文書管理方法を提供す
ることを目的とする。また、インデックス作成処理を行
う時間を設定可能な電子化文書管理方法を提供すること
を目的とする。[0006] In the present invention, the user is required
It is an object of the present invention to provide a computerized document management method that provides information for easily performing full-text search of a document without being aware of the type and classification. It is another object of the present invention to provide an electronic document management method capable of setting a time for performing an index creation process.
【0007】[0007]
【課題を解決するための手段】上記目的は、一括して文
書を指定し、指定された文書ファイルからテキスト抽出
を行う手段と、前記文書ファイルを作成したアプリケー
ションが特定できない場合、若しくは前記全文検索用イ
ンデックスを作成する処理が予め定めた条件を満たした
場合に前記文書ファイルに対応した書誌事項から全文検
索インデックスを作成する手段と、前記インデックスを
登録する手段とからなる全文検索用インデックスファイ
ル作成処理手段を設けたことにより達成される。ここ
で、テキスト抽出を行う手段は、テキスト抽出に際して
は、文書の種別ごとに定義されたテキスト抽出ライブラ
リもしくは関数を用い、抽出処理を行う手段を有する。
また、書誌情報から全文検索インデックスを作成する手
段は、文書の種別が特定できなかった場合等に、予め定
められた文書の書誌事項をデータベースから取得し、こ
れを全文検索インデックスとして登録する手段を有す
る。尚、書誌情報から全文検索インデックスを作成する
条件としては、文書のコンテンツからテキスト抽出がで
きない場合、あるいはテキスト抽出が困難でありユーザ
が定義した時間よりも処理が長くかかる場合、あるいは
処理対象となる文書があらかじめレンディション定義フ
ァイルに定義されていないレンディションであった場
合、あるいはユーザがインデックスファイル領域に必要
となる資源を節約したい場合等がある。よって、前記予
め定めた条件としては、例えば全文検索用インデックス
作成処理時間、全文検索用インデックスの長さ、及び全
文検索用インデックス作成処理におけるエラー発生等の
少なくとも一つにすれば良い。The object of the present invention is to specify a document in a lump and to extract text from a specified document file, and to specify the application that created the document file or to perform the full-text search. Full-text search index file creation processing comprising: means for creating a full-text search index from bibliographic items corresponding to the document file when the processing for creating a search index satisfies a predetermined condition; and means for registering the index This is achieved by providing means. Here, the means for performing text extraction has means for performing extraction processing using a text extraction library or function defined for each document type when extracting text.
Further, the means for creating a full-text search index from bibliographic information includes a means for acquiring bibliographic items of a predetermined document from a database when the type of the document cannot be identified, and registering the bibliographic information as a full-text search index. Have. The condition for creating a full-text search index from bibliographic information is that text cannot be extracted from the contents of the document, or that text extraction is difficult and processing takes longer than the time defined by the user, or is subject to processing. The document may be a rendition not defined in the rendition definition file in advance, or the user may want to save resources required for the index file area. Therefore, the predetermined condition may be at least one of, for example, the time for full-text search index creation processing, the length of the full-text search index, and the occurrence of an error in the full-text search index creation processing.
【0008】また本発明では、インデックス作成処理を
バッチジョブとして、ユーザーにとって都合の良い時間
(夜間、または週末など比較的負担の少ない時等)に実
行することができる。これらは、文書更新状態を記憶し
ておき、前記全文検索用インデックス作成処理手段に、
作成処理の開始時刻及び現時刻からの経過時間の少なく
とも一方を受け付け、受け付けた指定を満足する時刻以
降に、前記全文検索処理を開始する手段を備えることに
より達成する。Further, according to the present invention, the index creation processing can be executed as a batch job at a time convenient for the user (for example, at night or on a weekend when the burden is relatively small). These store the document update state, and the full-text search index creation processing means:
This is achieved by providing means for receiving at least one of the start time of the creation processing and the elapsed time from the current time, and starting the full-text search processing after a time satisfying the received specification.
【0009】尚、上記目的を達成するためには、上述し
た方法及びシステムで実現している機能を実現するプロ
グラムを格納した記録媒体であっても良い。Incidentally, in order to achieve the above object, a recording medium storing a program for realizing the functions realized by the above-described method and system may be used.
【0010】[0010]
【発明の実施の形態】以下、本発明の一実施例について
図面を用いて説明する。DESCRIPTION OF THE PREFERRED EMBODIMENTS One embodiment of the present invention will be described below with reference to the drawings.
【0011】図1は本発明による全文検索用インデック
ス作成機能を持つ電子化文書管理方法のシステム構成例
である。文書管理ソフトウェア101はCD−ROM、
FDなどの媒体を通してクライアントにインストールさ
れ、サーバ103上の文書データベース102とネット
ワークを介して接続されており、オンライン処理するた
めの端末104からの入力操作が可能である。全文検索
用インデックス作成機能105は文書管理ソフトウェア
101の一部であるが、別のマシン上にあってもよい。FIG. 1 shows an example of a system configuration of an electronic document management method having a full-text search index creation function according to the present invention. The document management software 101 is a CD-ROM,
It is installed in a client through a medium such as an FD, is connected to a document database 102 on a server 103 via a network, and can perform an input operation from a terminal 104 for online processing. The full-text search index creation function 105 is a part of the document management software 101, but may be located on another machine.
【0012】図2は本発明における全文検索用インデッ
クス作成機能の入出力概要である。インデックス作成機
能105は、文書管理ソフトウェア101の一部であっ
て、入力ファイルとしてはレンディション定義ファイル
202、環境設定ファイル203を読み込み、文書デー
タベース102からインデックス作成対象文書を入力文
書204として取り出す。インデックス作成後は、全文
検索用インデックスファイル205を出力して文書デー
タベース102に格納するとともに、エラーログファイ
ル206およびトレースログファイル207を出力す
る。文書データベース102には文書のコンテンツおよ
び文書の書誌事項が予め格納されている。FIG. 2 shows an input / output outline of a full-text search index creation function according to the present invention. The index creation function 105 is a part of the document management software 101, reads a rendition definition file 202 and an environment setting file 203 as input files, and extracts an index creation target document from the document database 102 as an input document 204. After creating the index, the full-text search index file 205 is output and stored in the document database 102, and the error log file 206 and the trace log file 207 are output. The content of the document and the bibliographic items of the document are stored in the document database 102 in advance.
【0013】レンディション定義ファイル202の例を
図6に示す。レンディション定義ファイル202は、文
書がどのような文書作成プログラムすなわちアプリケー
ションで作成されたものかを文書の種別すなわちレンデ
ィションごとに定義するものであり、このレンディショ
ンとアプリケーションの関連を参照して、アプリケーシ
ョンに合った適正なテキスト抽出ライブラリもしくは関
数を選択してインデックス作成を行うためのものであ
る。このファイルは文書の実体ファイルの拡張子とアプ
リケーションの関連付けを定義したもので代用すること
が可能である。FIG. 6 shows an example of the rendition definition file 202. The rendition definition file 202 defines what kind of document creation program, that is, an application, the document is created for each document type, that is, for each rendition. Referring to the relationship between the rendition and the application, This is for creating an index by selecting an appropriate text extraction library or function suitable for the application. This file can be substituted with a file that defines the association between the extension of the document file and the application.
【0014】環境設定ファイル203の例を図7に示
す。環境設定ファイル203とは、インデックス作成処
理を行う上で必要となる、種々の前提条件、例えば、テ
キスト抽出用ライブラリもしくはコマンドの格納場所、
テキスト抽出処理時間全体の上限値や、一つの文書あた
りの処理時間上限値、一つの文書あたりに抽出されるテ
キスト長の上限値、書誌事項取得の有無、取得する書誌
事項の名称などを定義するためのファイルである。FIG. 7 shows an example of the environment setting file 203. The environment setting file 203 includes various prerequisites required for performing the index creation processing, for example, a storage location of a text extraction library or a command,
Defines the upper limit of the entire text extraction processing time, the upper limit of the processing time per document, the upper limit of the text length extracted per document, whether or not bibliographic information is acquired, and the name of the bibliographic information to be acquired File for
【0015】図3は本発明による全文検索用インデック
ス作成の処理フローの例である。本プログラムが起動さ
れると、処理301でレンディション定義ファイル20
2および環境設定ファイル203を読み込み、それぞれ
内部テーブルとして内部メモリに格納され、プログラム
実行中はこの値が参照される。FIG. 3 is an example of a processing flow for creating a full-text search index according to the present invention. When this program is started, the rendition definition file 20
2 and the environment setting file 203 are read and stored in the internal memory as internal tables, respectively, and these values are referred to during execution of the program.
【0016】次に処理302で文書データベース102
に接続する。Next, in process 302, the document database 102
Connect to
【0017】処理303で、コマンド実行時に引数とし
てプログラムに与えられた処理対象文書のプロパティを
文書データベース102から取得する。In step 303, the property of the document to be processed, which is given to the program as an argument when the command is executed, is acquired from the document database 102.
【0018】処理304で、取得した文書のプロパティ
の一つである登録ステータスを確認し、処理対象となり
える文書であれば、処理を続行する。処理対象となりえ
るのは、(1)未処理の文書、(2)処理されているが
その後更新された文書、および、(3)コマンド実行時
に全文書に対して上書き処理を指定された場合、全文書
が対象となる。In step 304, the registration status, which is one of the properties of the acquired document, is confirmed. If the document can be processed, the processing is continued. Possible processing targets are (1) an unprocessed document, (2) a document that has been processed but updated afterwards, and (3) if overwriting is specified for all documents when the command is executed, All documents are covered.
【0019】処理304で、処理対象でない文書であっ
た場合、例えば、すでに処理が実行されて全文検索用イ
ンデックス文書が作成されており、その後文書に変更が
ない場合など、には処理303に戻って次の処理対象文
書に移る。If it is determined in step 304 that the document is not a processing target, for example, if the process has already been executed to create an index document for full-text search, and there is no change in the document, the process returns to step 303. To the next document to be processed.
【0020】処理305で、処理対象文書のコンテンツ
を文書データベース102から取得する。In step 305, the contents of the document to be processed are obtained from the document database 102.
【0021】処理306ではコンテンツによって条件分
岐が行われる。In the process 306, a conditional branch is performed depending on the content.
【0022】まず、レンディション定義ファイルに定義
された文書種別であった場合は、デフォルトの処理とし
てテキスト抽出処理を行う。First, if the document type is defined in the rendition definition file, a text extraction process is performed as a default process.
【0023】テキスト抽出処理は、コンテンツからテキ
ストを抽出するライブラリを用いて行われる。このライ
ブラリは、コマンドもしくは環境設定ファイル203で
与えられた制限時間、制限字数内のときテキスト抽出処
理を行い、インデックス用のテキストファイルを作成す
る。このテキストファイルの例を図5に示す。テキスト
抽出処理中にエラーが発生したとき、またはテキスト抽
出処理が制限時間を超えたとき等に、処理307の書誌
情報からインデックスを作成する処理に移る。The text extraction process is performed using a library for extracting text from contents. This library performs a text extraction process when the number of characters is within the time limit and the number of characters given by the command or the environment setting file 203, and creates a text file for the index. FIG. 5 shows an example of this text file. When an error occurs during the text extraction process, or when the text extraction process exceeds the time limit, the process proceeds to the process of creating an index from the bibliographic information of the process 307.
【0024】また、処理306のコンテンツ取得時にレ
ンディション定義ファイルに定義されていない文書種別
であった場合も処理307の書誌情報からインデックス
を作成する処理を行う。If the document type is not defined in the rendition definition file at the time of acquiring the content in the process 306, the process of creating an index from the bibliographic information in the process 307 is also performed.
【0025】なおユーザがインデックス用の資源を節約
したい場合には、この処理306をスキップして処理3
07を常に行うように条件を設定すること、例えばテキ
スト抽出処理時間や抽出長さを極端に小さく定義するこ
とも可能である。If the user wants to save resources for the index, the process 306 is skipped and the process 3
07 can always be set, for example, the text extraction processing time and the extraction length can be defined to be extremely small.
【0026】処理307は書誌情報からインデックスを
作成する処理である。この処理の詳細を図4に示す。Process 307 is a process for creating an index from bibliographic information. The details of this process are shown in FIG.
【0027】処理401で、文書がレンディション定義
ファイルにアプリケーションが定義されていない、すな
わちアプリケーションが特定できないか、あるいは、イ
ンデックス作成時間が予め定められた条件を満たしてい
るか判定する。予め定められた条件とは、テキスト抽出
処理時間の上限値を超えたか、テキスト長さが上限値を
超えたか、あるいはテキスト抽出中にエラーが発生した
か、などである。In step 401, it is determined whether the document has no application defined in the rendition definition file, that is, whether the application cannot be specified, or whether the index creation time satisfies a predetermined condition. The predetermined condition is, for example, whether the upper limit of the text extraction processing time has been exceeded, the text length has exceeded the upper limit, or whether an error has occurred during text extraction.
【0028】処理402では環境設定ファイル203で
指定された書誌事項名称(カラム名)を取得する。In process 402, the bibliographic item name (column name) specified in the environment setting file 203 is obtained.
【0029】処理403では、処理402で指定された
書誌事項について、文書データベースから値を取得す
る。In step 403, the value of the bibliographic item specified in step 402 is obtained from the document database.
【0030】処理404では、処理403で取得した書
誌事項をプレーンテキスト形式に変換する。In step 404, the bibliographic items obtained in step 403 are converted into plain text format.
【0031】処理405では、処理404で得られた書
誌事項のテキスト形式から、全文検索用インデックスを
作成するためのテキストファイルを作成する。作成され
るテキストファイルの例を図5に示す。ここでは、書誌
事項として、文書のタイトル、コメント、作者名が指定
された場合を示している。In step 405, a text file for creating a full-text search index is created from the text format of the bibliographic items obtained in step 404. FIG. 5 shows an example of a text file to be created. Here, a case is shown where a document title, a comment, and an author name are specified as bibliographic items.
【0032】処理405を終了すると、処理308に戻
る。When the process 405 is completed, the process returns to the process 308.
【0033】処理308では、処理306または処理3
07で得たテキストファイルを全文検索用インデックス
ファイルに適した形式に変換し、全文検索用インデック
スファイルとしてデータベースに登録する。もしくは、
本実施例においては、データベースへの登録は、ユーザ
の定義によって、逐次実行する他にバッチジョブとして
ユーザにとって都合の良い時間に実行させることができ
る。バッチジョブとして遅延実行する場合には処理30
8において遅延処理に必要な情報を登録する。遅延処理
に必要な情報の例を図8に示す。遅延処理に必要な情報
は、少なくとも、処理開始時刻、対象となるテーブルの
カラムを取得するための情報、データベースに対して行
う操作の情報を持つ。この情報が定義されているとき、
データベースは遅延処理に必要な情報を取得して定めら
れた開始時間以降にデータベースに対する各処理を開始
することができる。なお、この時間までに、文書が更新
されていた場合には更新結果を反映することはできな
い。一般に全文検索用インデックス作成および登録処理
は時間がかかるので、ユーザは文書更新内容を逐次反映
する必要のないように予め定めた間隔で遅延更新を行う
ように文書データベースを運営管理している。In step 308, step 306 or step 3
The text file obtained in step 07 is converted into a format suitable for a full-text search index file, and registered in a database as a full-text search index file. Or
In the present embodiment, the registration in the database can be performed at a time convenient for the user as a batch job in addition to the sequential execution according to the definition of the user. Process 30 for delayed execution as a batch job
In step 8, information necessary for the delay processing is registered. FIG. 8 shows an example of information necessary for the delay processing. The information necessary for the delay processing includes at least the processing start time, information for acquiring the column of the target table, and information on the operation performed on the database. When this information is defined,
The database can acquire the information necessary for the delay processing and start each processing for the database after a predetermined start time. If the document has been updated by this time, the update result cannot be reflected. In general, since full-text search index creation and registration processing takes time, the user operates and manages the document database so as to perform delayed updates at predetermined intervals so that the document update contents do not need to be sequentially reflected.
【0034】処理309では処理308で登録した文書
について、登録ステータスを書き換える。In step 309, the registration status of the document registered in step 308 is rewritten.
【0035】処理310で文書データベース102を更
新し、次の文書のために処理303にもどる。In the process 310, the document database 102 is updated, and the process returns to the process 303 for the next document.
【0036】全文書を処理した後、処理311で文書デ
ータベース102との接続を切断し、終了処理を行う。After all the documents have been processed, the connection with the document database 102 is disconnected in a process 311, and an end process is performed.
【0037】本実施例のインデックス作成処理において
は、文書からテキスト抽出ができない場合に備えて、書
誌情報をインデックスとして登録することが可能であ
る。このことにより、例えば、アプリケーションによっ
て作成した文書からテキスト抽出する際に、一部あるい
は全部のテキストが文字化けする場合や、テキスト抽出
処理が制限時間内に終了できない、もしくは、全くでき
ない場合、特に画像や音声、セキュリティなどデータ量
が多くかつ複雑である場合に、処理対象文書の書誌情報
をテキスト化して、全文検索用インデックスファイルと
することで、処理時間を短縮するとともに、プログラム
がエラーで中断することを防ぎ、コンテンツの内容が文
字化けなどして有意義な情報が取得できなかった場合に
も書誌情報を取得しておくことで、全文検索する時に文
書について何らかの手がかりをユーザに与えることがで
き、また、コンテンツだけでなく、書誌情報に対して
も、全文検索の時の機能である、類似語検索、全角・半
角検索、かな・カタカナ検索など多様な検索機能が使用
できるようになる。従って、本実施例の全文検索用イン
デックス作成方法を利用することによって、ユーザはコ
ンテンツの種別、分類、画像や音声などを意識すること
なく、容易に文書を検索するための有意義な情報を取得
することが可能になるという効果が得られる。In the index creation process of this embodiment, bibliographic information can be registered as an index in case text cannot be extracted from a document. Thus, for example, when extracting text from a document created by an application, if some or all of the text is garbled, or if the text extraction process cannot be completed within the time limit, or if it cannot be performed at all, the image When the data volume is large and complicated such as data, voice, security, etc., the bibliographic information of the document to be processed is converted to text and used as an index file for full-text search, thereby shortening the processing time and interrupting the program with an error. By obtaining bibliographic information even if meaningful information could not be obtained due to garbled content of the content, it is possible to give the user some clue about the document when performing full-text search, Also, full-text search function for bibliographic information as well as content Some, similar words search, full-width-half-width search, kana-katakana search, such as a variety of search functions will be able to use. Therefore, by using the full-text search index creation method of the present embodiment, the user acquires meaningful information for easily searching for a document without being conscious of the type, classification, image, sound, and the like of the content. The effect that it becomes possible is obtained.
【0038】また、本実施例によれば、文書データベー
スから文書コンテンツのテキスト情報を取得して全文検
索用インデックスファイルを作成・登録することがで
き、時間のかかるインデクス登録処理をまとめてバッチ
ジョブなどでユーザにとって都合の良い時間に実行させ
ることができる効果が得られる。Further, according to the present embodiment, the text information of the document content can be acquired from the document database to create and register the full-text search index file. Thus, an effect of executing the program at a time convenient for the user is obtained.
【0039】以上説明したように、本発明では、文書を
作成したアプリケーションが特定できない場合にも書誌
事項から全文検索用インデックスを作成することができ
るので、どのような文書であっても、ユーザがコンテン
ツの内容・種別・分類を意識することなく容易に文書を
全文検索するための情報を提供できる効果がある。ま
た、アプリケーションが特定でき、テキスト抽出を行っ
てインデックスを作成する処理中にも、予め定めた条件
を満たした場合は同様にして書誌事項から全文検索イン
デックスを作成するので、プログラムが中断することな
く、また、ユーザの指定によってはデータベースの資源
を節約してインデックスを作成できるという効果があ
る。As described above, according to the present invention, a full-text search index can be created from bibliographic items even when the application that created the document cannot be specified. There is an effect that information for easily performing a full-text search of a document can be provided without being conscious of the content, type, and classification of the content. Also, during the process of identifying an application and extracting text and creating an index, if a predetermined condition is satisfied, a full-text search index is created from bibliographic items in the same way, so that the program is not interrupted. Also, there is an effect that the index can be created while saving the resources of the database depending on the specification of the user.
【0040】また本発明では、全文検索用インデックス
を作成するに当たり、作成処理の開始時刻及び現時刻か
らの経過時間の少なくとも一方の指定を受け付けること
ができ、この受け付けた指定を満足する時刻以降に全文
検索インデックス作成処理を開始することができるの
で、ユーザにとって都合の良い時間(例えば夜間や週末
など)に全文検索用インデックス作成処理を行うことが
できるという効果がある。According to the present invention, in creating the full-text search index, at least one of the start time of the creation process and the elapsed time from the current time can be accepted, and after the time satisfying the accepted designation, Since the full-text search index creation process can be started, there is an effect that the full-text search index creation process can be performed at a time convenient for the user (for example, at night or on a weekend).
【0041】[0041]
【発明の効果】本発明では、ユーザはコンテンツの種
別、分類、画像や音声などを意識することなく、容易に
文書を検索するための情報を取得することが可能にな
る。According to the present invention, a user can easily acquire information for searching a document without being conscious of the type, classification, image, sound, or the like of the content.
【図1】本発明による全文検索用インデックス作成機能
を持つ電子化文書管理方法のシステム構成例を示す図。FIG. 1 is a diagram showing a system configuration example of an electronic document management method having a full-text search index creation function according to the present invention.
【図2】本発明の全文検索用インデックス作成機能の入
出力機能概要図。FIG. 2 is a schematic diagram of an input / output function of a full-text search index creation function according to the present invention.
【図3】本発明による全文検索用インデックス作成の処
理フローの例。FIG. 3 is an example of a processing flow for creating a full-text search index according to the present invention.
【図4】本発明による全文検索用インデックス作成処理
における、書誌情報からインデックスを作成する処理フ
ローの例。FIG. 4 is an example of a process flow for creating an index from bibliographic information in a full-text search index creating process according to the present invention.
【図5】本発明によって作成される全文検索用インデッ
クスを作成するためのテキストファイルの例。FIG. 5 is an example of a text file for creating a full-text search index created by the present invention.
【図6】レンディション定義ファイルの例。FIG. 6 is an example of a rendition definition file.
【図7】環境設定ファイルの例。FIG. 7 is an example of an environment setting file.
【図8】遅延作成機能に必要な情報の例。FIG. 8 is an example of information necessary for a delay creation function.
101 文書管理ソフトウェア 102 文書データベース 105 インデックス作成機能 202 レンディション定義ファイル 203 環境設定ファイル 204 入力文書 205 全文検索用インデックスファイル 501 文書コンテンツからテキスト抽出された場合の
全文検索用インデックスを作成するためのテキストファ
イルの例 502 書誌事項から作成された場合の全文検索用イン
デックスを作成するためのテキストファイルの例 801 遅延作成機能に必要な情報の例101 Document Management Software 102 Document Database 105 Index Creation Function 202 Rendition Definition File 203 Configuration File 204 Input Document 205 Full Text Search Index File 501 Text File for Creating Full Text Search Index When Text is Extracted from Document Content Example 502 Example of text file for creating full-text search index when created from bibliographic items 801 Example of information required for delayed creation function
───────────────────────────────────────────────────── フロントページの続き (72)発明者 馬嶋 宏 神奈川県横浜市戸塚区戸塚町5030番地 株 式会社日立製作所ソフトウェア事業部内 Fターム(参考) 5B009 SA12 5B075 ND03 NK02 NK04 NK24 NR05 ────────────────────────────────────────────────── ─── Continuing on the front page (72) Inventor Hiroshi Majima 5030 Totsuka-cho, Totsuka-ku, Yokohama-shi, Kanagawa Prefecture F-term in the Software Division, Hitachi, Ltd. (Reference) 5B009 SA12 5B075 ND03 NK02 NK04 NK24 NR05
Claims (5)
イルを登録する際に、前記文書ファイルの書誌事項を予
め定めた形式で記憶し、前記文書ファイルの全文検索用
インデックスを作成する際に、前記全文検索用インデッ
クスを作成する処理が予め定めた条件を満たした場合、
前記文書ファイルに対応した前記書誌事項から全文検索
用インデックスを作成することを特徴とする電子化文書
管理方法。1. A method for managing a digitized document, comprising: storing a bibliographic item of the document file in a predetermined format when registering the document file; and creating a full-text search index of the document file. In the case where the process of creating the full-text search index satisfies a predetermined condition,
A computerized document management method, wherein a full-text search index is created from the bibliographic items corresponding to the document file.
て、前記予め定めた条件は、全文検索用インデックス作
成処理時間、全文検索用インデックスの長さ、及び全文
検索用インデックス作成処理におけるエラー発生の少な
くとも一つであることを特徴とする電子化文書管理方
法。2. The electronic document management method according to claim 1, wherein the predetermined conditions are: a full-text search index creation processing time, a full-text search index length, and a full-text search index creation process. An electronic document management method, characterized in that at least one error occurs.
らの全文検索用インデックス作成処理命令と当該作成処
理の開始時間の指定とを受け、インデックス作成対象と
なる文書ファイルを抽出し、前記開始時間以降に前記全
文検索用インデックス作成処理を開始することを特徴と
する電子化文書管理方法。3. A method for managing an electronic document, comprising: receiving a full-text search index creation processing command from a user and specifying a start time of the creation processing; extracting a document file to be indexed; An electronic document management method, wherein the full-text search index creation process is started after a start time.
ザーからの文書ファイルの指定を受け、当該文書ファイ
ルからテキスト抽出を行テキスト抽出手段と、前記テキ
スト抽出手段でテキストを抽出できない場合に前記文書
ファイルに対応した書誌事項を抽出する書誌事項抽出手
段と、前記テキスト抽出手段又は書誌事項抽出手段から
の情報を受けて全文検索用インデックスを作成する手段
とを備えたことを特徴とする電子化文書管理システム。4. A computerized document management system, comprising: receiving a designation of a document file from a user; extracting text from the document file by a line text extracting unit; Computerized bibliographic item extraction means for extracting a bibliographic item corresponding to a document file; and means for creating an index for full-text search in response to information from the text extracting unit or the bibliographic item extracting unit. Document management system.
であって、前記電子化文書管理方法は以下を含む:文書
ファイルを登録する際に、前記文書ファイルの書誌事項
を予め定めた形式で記憶し、前記文書ファイルの全文検
索用インデックスを作成する際に、前記文書ファイルを
作成した文書作成プログラムを特定できない場合、前記
文書ファイルに対応した前記書誌事項から全文検索用イ
ンデックスを作成する。5. A recording medium storing a method for managing a digitized document, wherein the method for managing a digitized document includes the following: when registering a document file, a bibliographic item of the document file is defined in a predetermined format If the document creation program that created the document file cannot be specified when creating a full-text search index for the document file, a full-text search index is created from the bibliographic items corresponding to the document file.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP29626199A JP3772606B2 (en) | 1999-10-19 | 1999-10-19 | Electronic document management method and system, and recording medium |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP29626199A JP3772606B2 (en) | 1999-10-19 | 1999-10-19 | Electronic document management method and system, and recording medium |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2001117934A true JP2001117934A (en) | 2001-04-27 |
| JP3772606B2 JP3772606B2 (en) | 2006-05-10 |
Family
ID=17831290
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP29626199A Expired - Fee Related JP3772606B2 (en) | 1999-10-19 | 1999-10-19 | Electronic document management method and system, and recording medium |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP3772606B2 (en) |
Cited By (12)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2006107446A (en) * | 2004-09-30 | 2006-04-20 | Microsoft Corp | Batch indexing system and method for network document |
| JP2006526190A (en) * | 2003-05-17 | 2006-11-16 | マイクロソフト コーポレーション | System and method for providing multiple renditions of document content |
| JP2008033663A (en) * | 2006-07-28 | 2008-02-14 | Fuji Xerox Co Ltd | Image processor, image processing method, and program |
| JP2008158993A (en) * | 2006-12-26 | 2008-07-10 | Hitachi Ltd | Storage system |
| JP2008527547A (en) * | 2005-01-07 | 2008-07-24 | トムソン グローバル リソーシーズ | System, method and software for distributed loading of databases |
| JP2008176545A (en) * | 2007-01-18 | 2008-07-31 | Cosmotec Patent Information Systems Inc | Computer system for data retrieval, computer program for realizing data retrieval and method thereof |
| JP2009026077A (en) * | 2007-07-19 | 2009-02-05 | Canon Inc | Image processing server, image processing method, computer program, and storage medium |
| US8738635B2 (en) | 2010-06-01 | 2014-05-27 | Microsoft Corporation | Detection of junk in search result ranking |
| US8812493B2 (en) | 2008-04-11 | 2014-08-19 | Microsoft Corporation | Search results ranking using editing distance and document information |
| US8843486B2 (en) | 2004-09-27 | 2014-09-23 | Microsoft Corporation | System and method for scoping searches using index keys |
| US9348912B2 (en) | 2007-10-18 | 2016-05-24 | Microsoft Technology Licensing, Llc | Document length as a static relevance feature for ranking search results |
| US9495462B2 (en) | 2012-01-27 | 2016-11-15 | Microsoft Technology Licensing, Llc | Re-ranking search results |
Citations (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH0887528A (en) * | 1995-09-11 | 1996-04-02 | Hitachi Ltd | Document filing system |
| JPH0887513A (en) * | 1994-09-16 | 1996-04-02 | Alpha Corp | File management device and method therefor |
| JPH1027183A (en) * | 1997-04-11 | 1998-01-27 | Hitachi Ltd | Data registration method and device |
| JPH10214268A (en) * | 1997-01-29 | 1998-08-11 | Omron Corp | Document search method and apparatus |
| JPH10240754A (en) * | 1997-02-26 | 1998-09-11 | Hitachi Ltd | Text data registration search method |
-
1999
- 1999-10-19 JP JP29626199A patent/JP3772606B2/en not_active Expired - Fee Related
Patent Citations (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH0887513A (en) * | 1994-09-16 | 1996-04-02 | Alpha Corp | File management device and method therefor |
| JPH0887528A (en) * | 1995-09-11 | 1996-04-02 | Hitachi Ltd | Document filing system |
| JPH10214268A (en) * | 1997-01-29 | 1998-08-11 | Omron Corp | Document search method and apparatus |
| JPH10240754A (en) * | 1997-02-26 | 1998-09-11 | Hitachi Ltd | Text data registration search method |
| JPH1027183A (en) * | 1997-04-11 | 1998-01-27 | Hitachi Ltd | Data registration method and device |
Cited By (12)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2006526190A (en) * | 2003-05-17 | 2006-11-16 | マイクロソフト コーポレーション | System and method for providing multiple renditions of document content |
| US8843486B2 (en) | 2004-09-27 | 2014-09-23 | Microsoft Corporation | System and method for scoping searches using index keys |
| JP2006107446A (en) * | 2004-09-30 | 2006-04-20 | Microsoft Corp | Batch indexing system and method for network document |
| JP2008527547A (en) * | 2005-01-07 | 2008-07-24 | トムソン グローバル リソーシーズ | System, method and software for distributed loading of databases |
| JP2008033663A (en) * | 2006-07-28 | 2008-02-14 | Fuji Xerox Co Ltd | Image processor, image processing method, and program |
| JP2008158993A (en) * | 2006-12-26 | 2008-07-10 | Hitachi Ltd | Storage system |
| JP2008176545A (en) * | 2007-01-18 | 2008-07-31 | Cosmotec Patent Information Systems Inc | Computer system for data retrieval, computer program for realizing data retrieval and method thereof |
| JP2009026077A (en) * | 2007-07-19 | 2009-02-05 | Canon Inc | Image processing server, image processing method, computer program, and storage medium |
| US9348912B2 (en) | 2007-10-18 | 2016-05-24 | Microsoft Technology Licensing, Llc | Document length as a static relevance feature for ranking search results |
| US8812493B2 (en) | 2008-04-11 | 2014-08-19 | Microsoft Corporation | Search results ranking using editing distance and document information |
| US8738635B2 (en) | 2010-06-01 | 2014-05-27 | Microsoft Corporation | Detection of junk in search result ranking |
| US9495462B2 (en) | 2012-01-27 | 2016-11-15 | Microsoft Technology Licensing, Llc | Re-ranking search results |
Also Published As
| Publication number | Publication date |
|---|---|
| JP3772606B2 (en) | 2006-05-10 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US6199081B1 (en) | Automatic tagging of documents and exclusion by content | |
| JP4445509B2 (en) | Structured document retrieval system and program | |
| JP5023715B2 (en) | Information processing system, information processing apparatus, and program | |
| US20040088281A1 (en) | Document management system, information processing apparatus, document management method and computer-readable recording medium | |
| JP2009003802A (en) | Information display device and information display method | |
| JP2008299478A (en) | Data file editing system, data file processing program, data file using program, data file using system, processing server, user client | |
| JP2001117934A (en) | Electronic document management method and system, and recording medium | |
| JP2008102765A (en) | Search processing method and search system | |
| JP5964847B2 (en) | Connecting dynamic image results | |
| JP2000076109A (en) | Data display device and data display method | |
| CN114936269A (en) | Document search platform, search method, device, electronic device and storage medium | |
| CA2414294A1 (en) | Search engine for computer graphic images | |
| JP2003058535A (en) | Information management device | |
| JP4354950B2 (en) | Information processing apparatus, information processing method, computer program, and storage medium | |
| JP2004086845A (en) | Apparatus, method, and program for expanding electronic document information, and recording medium storing the program | |
| JP2004145706A (en) | Multimedia data retrieval system | |
| CN113254500A (en) | Paging query method and device, electronic equipment and storage medium | |
| JP2005352980A (en) | Document difference display system, document difference display server and document difference display method and its program | |
| JP2007052737A (en) | Information processor and computer program | |
| JP3939477B2 (en) | Database search system and method, recording medium | |
| JP2000200278A (en) | System and method for text filtering | |
| JPH117445A (en) | Integrated document management device | |
| JP2002269136A (en) | Document search system and program | |
| JPH07120355B2 (en) | Image information memory retrieval method | |
| JP4521413B2 (en) | Database management system and program |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20050215 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20050404 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20050719 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20050920 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20051025 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20051222 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20060124 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20060206 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090224 Year of fee payment: 3 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100224 Year of fee payment: 4 |
|
| LAPS | Cancellation because of no payment of annual fees |