JP2000066945A - Document collection system, device and method and recording medium - Google Patents
Document collection system, device and method and recording mediumInfo
- Publication number
- JP2000066945A JP2000066945A JP10234099A JP23409998A JP2000066945A JP 2000066945 A JP2000066945 A JP 2000066945A JP 10234099 A JP10234099 A JP 10234099A JP 23409998 A JP23409998 A JP 23409998A JP 2000066945 A JP2000066945 A JP 2000066945A
- Authority
- JP
- Japan
- Prior art keywords
- document
- catalog
- server
- requesting
- identification information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims description 15
- 230000008859 change Effects 0.000 claims description 71
- 238000012986 modification Methods 0.000 claims description 37
- 230000004048 modification Effects 0.000 claims description 37
- 230000004044 response Effects 0.000 claims description 33
- 230000005540 biological transmission Effects 0.000 claims description 8
- 238000012217 deletion Methods 0.000 claims description 2
- 230000037430 deletion Effects 0.000 claims description 2
- 238000012545 processing Methods 0.000 description 44
- 238000004891 communication Methods 0.000 description 26
- 238000010586 diagram Methods 0.000 description 9
- 230000008569 process Effects 0.000 description 6
- 238000007689 inspection Methods 0.000 description 3
- 238000012546 transfer Methods 0.000 description 2
- 238000013480 data collection Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
Landscapes
- Information Transfer Between Computers (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
【0001】[0001]
【発明の属する技術分野】本発明は、World Wi
de Webなどの検索サービスにおいてドキュメント
の索引を作成する際に必要となるドキュメントを収集す
るドキュメント収集システム、装置及び方法、並びにそ
のためのプログラムを記録した記録媒体に関する。[0001] The present invention relates to World Wi
The present invention relates to a document collection system, an apparatus, and a method for collecting documents required when creating a document index in a search service such as de Web, and a recording medium on which a program for recording the documents is recorded.
【0002】[0002]
【従来の技術】インターネット上の情報発信手段とし
て、分散ハイパーメディアシステムであるWorld
Wide Web(以下、単に“Web”という)が普
及している。Web内に存在する複数のWebサーバ
が、ドキュメントを保持し、該保持するドキュメントを
公開している。ここで、Webでは、各ドキュメントの
存在場所は、URL(Uniform Resource Locators)と
呼ばれる書式の識別子で表され、各ドキュメントの転送
は、HTTP(HyperText Transfer Protcol)と呼ばれ
る手順に従って行われる。2. Description of the Related Art As a means for transmitting information on the Internet, World, a distributed hypermedia system, is used.
Wide Web (hereinafter, simply referred to as “Web”) is widely used. A plurality of Web servers existing in the Web hold documents and publish the held documents. Here, on the Web, the location of each document is represented by a format identifier called URL (Uniform Resource Locators), and the transfer of each document is performed according to a procedure called HTTP (HyperText Transfer Protocol).
【0003】このようなWeb内で公開されているドキ
ュメントは、膨大な数に上る。そこで、Web内には、
また、利用者が膨大な数のドキュメントの中から自分の
必要とする情報を探し出せるようにするためのサーチエ
ンジンと呼ばれる検索サービスが多数存在する。これら
の検索サービスでは、検索に使用する索引を作成する際
に必要となるドキュメントをWebサーバから収集する
ため、例えば、特開平8−77057号公報「ハイパー
メディアの探索方法」に述べられているようなドキュメ
ント収集装置が用いられている。[0003] The number of documents published on the Web is enormous. So, in the Web,
In addition, there are a large number of search services called search engines that allow users to search for information they need from a huge number of documents. In these search services, documents necessary for creating an index used for search are collected from a Web server. For example, as described in JP-A-8-77057, "Hypermedia Search Method" A simple document collection device is used.
【0004】図5は、従来のドキュメント収集装置の構
成を示すブロック図である。ドキュメント収集装置30
0は、インターネット330を介して接続されているW
ebサーバ310からドキュメントを収集するものであ
り、通信処理部301、ドキュメント処理部302、U
RLデータベース303及び収集したドキュメント30
4とから構成されている。FIG. 5 is a block diagram showing a configuration of a conventional document collection device. Document collection device 30
0 is W connected via the Internet 330
A document is collected from the web server 310. The communication processing unit 301, the document processing unit 302,
RL database 303 and collected documents 30
And 4.
【0005】ドキュメント収集装置300において、通
信処理部301が、HTTPに従ってWebサーバ31
0にドキュメントの送信を要求し、それに対する応答
(要求に従ったドキュメントを含む)を受信する。受信
したドキュメント304は、ドキュメント処理部302
によって処理され、そこからドキュメントの変更時刻や
ドキュメント中に記述されているハイパーリンクのリン
ク先URLが抽出される。そして、これらドキュメント
の変更時刻及びリンク先URLは、URLデータベース
303に登録される。[0005] In the document collection device 300, the communication processing unit 301 operates according to HTTP to the Web server 31.
0 requests the transmission of the document, and receives a response (including the document according to the request). The received document 304 is sent to the document processing unit 302.
From which the modification time of the document and the link destination URL of the hyperlink described in the document are extracted. Then, the modification time and the link destination URL of these documents are registered in the URL database 303.
【0006】ところで、Webで公開されているドキュ
メントの内容が変更された場合には、検索サービスの索
引も更新する必要がある。このため、ドキュメント収集
装置300は、変更されたドキュメントを再収集する必
要がある。ここで、HTTPに従えば、Webサーバ3
10にドキュメントを要求する際に時刻を指定し、その
時刻以後に変更されているドキュメントのみを実際に送
信するように指定することができる。When the contents of a document published on the Web are changed, it is necessary to update the index of the search service. Therefore, the document collection device 300 needs to re-collect the changed documents. Here, according to the HTTP, the Web server 3
It is possible to specify a time when requesting a document from the server 10, and to specify that only documents changed after that time are actually transmitted.
【0007】[0007]
【発明が解決しようとする課題】しかしながら、従来、
ドキュメント収集装置300においては、Webサーバ
310が保持するどのドキュメントが変更されているの
かを、ドキュメントの送信要求に先立って事前に知る手
段がなかった。このため、従来のドキュメント収集装置
300は、変更されていないものを含めてすべてのドキ
ュメントのについて、一つ一つWebサーバ310に送
信を要求しなければ、ドキュメントを再収集することが
できなかった。However, conventionally,
In the document collection device 300, there is no means to know in advance which document held by the Web server 310 has been changed prior to a document transmission request. For this reason, the conventional document collection device 300 cannot re-collect the documents without requesting the Web server 310 to transmit all the documents including those that have not been changed one by one. .
【0008】このことを図6のシーケンス図を参照し
て、具体的に説明する。例えば、Webサーバ310上
で、URL-1からURL-200までの200個のドキュメントが
公開されており、この200個のドキュメントの中で、
URL-17、URL-125、URL-144の3つのみが前回の収集時以
後変更されているという状況を想定する。このような場
合、URL-17、URL-125、URL-144のみの収集、すなわち図
中のシーケンス402、404、406の通信だけが、
必要不可欠な通信である。This will be specifically described with reference to the sequence diagram of FIG. For example, 200 documents from URL-1 to URL-200 are published on the Web server 310, and among these 200 documents,
Assume that only three of URL-17, URL-125, and URL-144 have been changed since the previous collection. In such a case, only the collection of URL-17, URL-125, and URL-144, that is, only the communication of the sequences 402, 404, and 406 in FIG.
Indispensable communication.
【0009】しかしながら、従来のドキュメント収集装
置300は、ドキュメントの変更を調べる手段がないた
め、URL-1からURL-200までのすべてについて、変更され
ていないものを含めて一つ一つ順番にドキュメントの送
信を要求しなければならなかった。従って、従来は、変
更されていないドキュメントの送信要求、すなわち図中
のシーケンス401、403、405、407で示され
る範囲の通信も行われており、Webサーバ310とイ
ンターネット330の資源を無駄遣いしていた。However, since the conventional document collection device 300 has no means for checking the change of the document, all the documents from the URL-1 to the URL-200 are sequentially converted into the document including the unchanged one. Had to request transmission. Therefore, conventionally, a request for transmitting a document that has not been changed, that is, communication in the range indicated by the sequences 401, 403, 405, and 407 in the figure, is also performed, and the resources of the Web server 310 and the Internet 330 are wasted. Was.
【0010】本発明は、上記従来技術の問題点を解消す
るためになされたものであり、ネットワーク上で公開さ
れているドキュメントを一つ一つ調べることなく、変更
のあったドキュメントを収集することができ、さらにそ
れらのドキュメントの収集時刻も知ることができるドキ
ュメント収集システム、装置及び方法、並びにそのため
のプログラムを記録した記録媒体を提供することを目的
とする。SUMMARY OF THE INVENTION The present invention has been made to solve the above-mentioned problems of the prior art, and it is an object of the present invention to collect changed documents without examining documents published on a network one by one. It is an object of the present invention to provide a document collection system, an apparatus and a method capable of knowing the collection time of those documents and a recording medium recording a program therefor.
【0011】[0011]
【課題を解決するための手段】上記目的を達成するた
め、本発明の第1の観点にかかるドキュメント収集シス
テムは、ネットワークを介して互いに接続され、前記ネ
ットワークを介して公開するドキュメントを保持するサ
ーバと、該ドキュメントを前記ネットワークを介して前
記サーバから収集するドキュメント収集装置とから構成
され、前記サーバは、保持するドキュメントの変更また
は新たに保持すべきドキュメントの作成があった場合
に、該ドキュメントの識別情報と変更または作成の時刻
を示す変更時刻とを対応付けて登録するカタログを作成
するカタログ作成手段と、前記ドキュメント収集装置か
らの要求に応じて、前記ネットワークを介して前記ドキ
ュメントまたは前記カタログを前記サーバに送信するサ
ーバ送信手段とを備え、前記ドキュメント収集装置は、
前記カタログ作成手段によって作成されたカタログを前
記ネットワークを介して前記サーバに要求し、前記サー
バ送信手段に送信させるカタログ要求手段と、前記カタ
ログ要求手段による要求に応答して、前記サーバ送信手
段から送信されたカタログを受信するカタログ受信手段
と、前記カタログ受信手段が受信したカタログを管理す
るカタログ管理手段と、前記サーバが保持するドキュメ
ントをその識別情報を指定して前記ネットワークを介し
て前記サーバに要求し、前記サーバ送信手段に送信させ
るドキュメント要求手段と、前記ドキュメント要求手段
による要求に応答して、前記サーバ送信手段から送信さ
れたドキュメントを、該ドキュメントの識別情報と変更
時刻と共に受信するドキュメント受信手段と、前記ドキ
ュメント受信手段が受信したドキュメントの識別情報と
変更時刻とを対応付けて登録するドキュメント情報登録
手段と、前記ドキュメント情報登録手段に登録されてい
るドキュメントの変更時刻と、前記カタログ管理手段で
管理されているカタログ中のドキュメントの変更時刻と
を、その識別情報が同一のもの同士、順次比較する変更
時刻比較手段とを備え、前記ドキュメント要求手段は、
前記変更時刻比較手段による比較の結果、前記カタログ
中のドキュメントの変更時刻の方が新しいと判断された
ドキュメントの送信を前記サーバに要求することを特徴
とする。In order to achieve the above object, a document collection system according to a first aspect of the present invention is a server which is connected to each other via a network and holds a document to be published via the network. And a document collection device that collects the document from the server via the network, wherein the server changes the document to be held or creates a document to be newly held when the document to be held is changed. Catalog creation means for creating a catalog for registering identification information in association with a change time indicating a time of change or creation, and in response to a request from the document collection device, the document or the catalog via the network. Server transmitting means for transmitting to the server. The document collection device,
A catalog requesting means for requesting the catalog created by the catalog creating means to the server via the network and transmitting the catalog to the server transmitting means; and transmitting the catalog from the server transmitting means in response to the request by the catalog requesting means. Catalog receiving means for receiving the received catalog, catalog managing means for managing the catalog received by the catalog receiving means, and requesting the document held by the server to the server via the network by designating its identification information. A document requesting means for transmitting the document to the server transmitting means; and a document receiving means for receiving, in response to the request by the document requesting means, the document transmitted from the server transmitting means together with the identification information of the document and the modification time. And the document receiving means A document information registration unit for registering the received document identification information and the modification time in association with each other; a modification time of the document registered in the document information registration unit; Document change time, the same identification information, the same, the change time comparing means for sequentially comparing, the document request means,
As a result of the comparison by the change time comparing means, the server requests the server to transmit a document in which the change time of the document in the catalog is determined to be newer.
【0012】上記ドキュメント収集システムでは、ドキ
ュメント要求手段は、カタログ中のドキュメントの変更
時間の方がドキュメント情報登録手段中のドキュメント
の変更時間よりも新しいと判断されたドキュメントにつ
いてのみ、その送信をサーバに要求すれば、前回の収集
時以降に変更のあったすべてのドキュメントを収集する
ことができる。これに対し、ドキュメントの収集に先立
って行うべきカタログを取得するには、その送信を1回
だけサーバに要求すればよい。このため、一般に、ドキ
ュメント収集装置からサーバへの要求の回数は、従来に
比べて大幅に小さくすることができ、ネットワークやサ
ーバの負担を少なくすることができると共に、ドキュメ
ントの収集のための処理時間も短くすることができる。[0012] In the above document collection system, the document requesting means transmits to the server only those documents whose change time of the document in the catalog is determined to be newer than the change time of the document in the document information registration means. If requested, all documents that have changed since the last collection can be collected. On the other hand, in order to obtain a catalog to be performed prior to collection of documents, it is only necessary to request the server to transmit the catalog once. Therefore, in general, the number of requests from the document collection device to the server can be significantly reduced as compared with the conventional case, so that the load on the network and the server can be reduced, and the processing time for collecting the document can be reduced. Can also be shortened.
【0013】上記目的を達成するため、本発明の第2の
観点にかかるドキュメント収集装置は、ネットワークを
介してドキュメントを公開するサーバから、該ドキュメ
ントを前記ネットワークを介して収集するドキュメント
収集装置であって、前記サーバが保持するドキュメント
の識別情報とその変更時刻とを対応付けて登録するカタ
ログを前記ネットワークを介して前記サーバに要求し、
前記サーバから送信させるカタログ要求手段と、前記カ
タログ要求手段による要求に応答して、前記サーバから
送信されたカタログを受信するカタログ受信手段と、前
記カタログ受信手段が受信したカタログを管理するカタ
ログ管理手段と、前記サーバが保持するドキュメントを
その識別情報を指定して前記ネットワークを介して前記
サーバに要求し、前記サーバから送信させるドキュメン
ト要求手段と、前記ドキュメント要求手段による要求に
応答して、前記サーバから送信されたドキュメントを、
該ドキュメントの識別情報と変更時刻と共に受信するド
キュメント受信手段と、前記ドキュメント受信手段が受
信したドキュメントの識別情報と変更時刻とを対応付け
て登録するドキュメント情報登録手段と、前記ドキュメ
ント情報登録手段に登録されているドキュメントの変更
時刻と、前記カタログ管理手段で管理されているカタロ
グ中のドキュメントの変更時刻とを、その識別情報が同
一のもの同士、順次比較する変更時刻比較手段とを備
え、前記ドキュメント要求手段は、前記変更時刻比較手
段による比較の結果、前記カタログ中のドキュメントの
変更時刻の方が新しいと判断されたドキュメントの送信
を前記サーバに要求することを特徴とする。[0013] To achieve the above object, a document collection device according to a second aspect of the present invention is a document collection device that collects a document from a server that publishes the document via a network via the network. Requesting the server via the network a catalog for registering the identification information of the document held by the server and its modification time in association with each other,
Catalog requesting means for transmitting from the server, catalog receiving means for receiving a catalog transmitted from the server in response to a request by the catalog requesting means, and catalog managing means for managing the catalog received by the catalog receiving means Requesting the server via the network by designating the identification information of the document held by the server, and requesting the server to transmit the document; and responding to the request by the document requesting means, Documents sent from
Document receiving means for receiving the document identification information and the modification time together with the document information, document information registration means for registering the document identification information and the modification time received by the document receiving means in association with each other, and registration in the document information registration means And a change time comparing means for sequentially comparing the change time of the document being changed and the change time of the document in the catalog managed by the catalog management means with those having the same identification information. The request means requests the server to transmit a document determined as a result of the comparison by the change time comparison means that the change time of the document in the catalog is newer.
【0014】上記ドキュメント収集装置において、前記
カタログ管理手段は、前記ドキュメント情報登録手段に
前記ドキュメントの識別情報と変更時刻とを登録したと
きに、該登録したものに対応する情報を前記カタログか
ら削除する削除手段を備えるものとしてもよい。In the above-mentioned document collection apparatus, when the identification information and the change time of the document are registered in the document information registration means, the catalog management means deletes the information corresponding to the registered information from the catalog. It may be provided with a deletion means.
【0015】この場合、前記ドキュメント情報登録手段
は、前記削除手段が削除すべきドキュメントの識別情報
と変更時刻とをすべて削除したときに、前記カタログ中
に残っているドキュメントの識別情報と変更時刻とをさ
らに登録するものとすることができる。In this case, the document information registering means, when the deleting means deletes all of the identification information and the change time of the document to be deleted, the identification information of the document remaining in the catalog and the change time. May be further registered.
【0016】なお、上記ドキュメント収集装置におい
て、前記ドキュメントの識別情報は、例えば、URLと
することができる。In the document collection device, the identification information of the document may be, for example, a URL.
【0017】上記目的を達成するため、本発明の第3の
観点にかかるドキュメント収集方法は、ネットワークを
介してドキュメントを公開するサーバから、該ドキュメ
ントを前記ネットワークを介して収集するドキュメント
収集方法であって、前記サーバが保持するドキュメント
の識別情報とその変更時刻とを対応付けて登録するカタ
ログを前記ネットワークを介して前記サーバに要求し、
前記サーバから送信させるカタログ要求ステップと、前
記カタログ要求ステップでの要求に応答して、前記サー
バから送信されたカタログを受信するカタログ受信ステ
ップと、前記カタログ受信ステップで受信したカタログ
を管理するカタログ管理ステップと、前記サーバが保持
するドキュメントをその識別情報を指定して前記ネット
ワークを介して前記サーバに要求し、前記サーバから送
信させるドキュメント要求ステップと、前記ドキュメン
ト要求ステップでの要求に応答して、前記サーバから送
信されたドキュメントを、該ドキュメントの識別情報と
変更時刻と共に受信するドキュメント受信ステップと、
前記ドキュメント受信ステップで受信したドキュメント
の識別情報と変更時刻とを対応付けて登録するドキュメ
ント情報登録ステップと、前記ドキュメント情報登録ス
テップで登録されているドキュメントの変更時刻と、前
記カタログ管理ステップで管理されているカタログ中の
ドキュメントの変更時刻とを、その識別情報が同一のも
の同士、順次比較する変更時刻比較ステップとを含み、
前記ドキュメント要求ステップは、前記変更時刻比較ス
テップでの比較の結果、前記カタログ中のドキュメント
の変更時刻の方が新しいと判断されたドキュメントの送
信を前記サーバに要求することを特徴とする。To achieve the above object, a document collection method according to a third aspect of the present invention is a document collection method for collecting a document from a server that publishes the document via a network via the network. Requesting the server via the network a catalog for registering the identification information of the document held by the server and its modification time in association with each other,
A catalog requesting step for transmitting from the server, a catalog receiving step for receiving a catalog transmitted from the server in response to the request in the catalog requesting step, and a catalog management for managing the catalog received in the catalog receiving step Requesting the document held by the server from the server via the network by specifying the identification information of the document, and requesting the server to transmit the document; and responding to the request in the document requesting step, A document receiving step of receiving the document transmitted from the server together with the identification information and the modification time of the document;
A document information registration step of registering the identification information and the modification time of the document received in the document reception step in association with each other; a modification time of the document registered in the document information registration step; And a change time comparison step of sequentially comparing the change times of the documents in the catalog with those having the same identification information,
The document requesting step requests the server to transmit a document whose change time is determined to be newer in the catalog as a result of the comparison in the change time comparison step.
【0018】上記目的を達成するため、本発明の第4の
観点にかかる記録媒体は、ネットワークを介してドキュ
メントを公開するサーバから、該ドキュメントを前記ネ
ットワークを介して収集するプログラムを記録する記録
媒体であって、前記サーバが保持するドキュメントの識
別情報とその変更時刻とを対応付けて登録するカタログ
を前記ネットワークを介して前記サーバに要求し、前記
サーバから送信させるカタログ要求ステップと、前記カ
タログ要求ステップでの要求に応答して、前記サーバか
ら送信されたカタログを受信するカタログ受信ステップ
と、前記カタログ受信ステップで受信したカタログを管
理するカタログ管理ステップと、前記サーバが保持する
ドキュメントをその識別情報を指定して前記ネットワー
クを介して前記サーバに要求し、前記サーバから送信さ
せるドキュメント要求ステップと、前記ドキュメント要
求ステップでの要求に応答して、前記サーバから送信さ
れたドキュメントを、該ドキュメントの識別情報と変更
時刻と共に受信するドキュメント受信ステップと、前記
ドキュメント受信ステップで受信したドキュメントの識
別情報と変更時刻とを対応付けて登録するドキュメント
情報登録ステップと、前記ドキュメント情報登録ステッ
プで登録されているドキュメントの変更時刻と、前記カ
タログ管理ステップで管理されているカタログ中のドキ
ュメントの変更時刻とを、その識別情報が同一のもの同
士、順次比較する変更時刻比較ステップとを実行し、前
記ドキュメント要求ステップは、前記変更時刻比較ステ
ップでの比較の結果、前記カタログ中のドキュメントの
変更時刻の方が新しいと判断されたドキュメントの送信
を前記サーバに要求するプログラムを記録することを特
徴とする。In order to achieve the above object, a recording medium according to a fourth aspect of the present invention is a recording medium for recording a program for collecting a document via a network from a server which publishes the document via a network. A catalog requesting step of requesting the server to register a catalog in which the identification information of a document held by the server and its modification time are associated with each other via the network and transmitting the catalog from the server; A catalog receiving step of receiving a catalog transmitted from the server in response to the request in step, a catalog managing step of managing the catalog received in the catalog receiving step, and identification information of a document held by the server. To specify the service via the network. Requesting a document to be transmitted from the server; and a document receiving step of receiving, in response to the request in the document requesting step, a document transmitted from the server together with the identification information of the document and a modification time. A document information registration step of registering the identification information and the modification time of the document received in the document reception step in association with each other; a modification time of the document registered in the document information registration step; And performing a change time comparison step of sequentially comparing the change times of the documents in the managed catalog with those having the same identification information, wherein the document requesting step includes the step of comparing in the change time comparison step. Result, the catalog The transmission of the document who is determined to new modification time documents characterized by recording a program for requesting the server.
【0019】[0019]
【発明の実施の形態】以下、添付図面を参照して、本発
明の実施の形態について説明する。Embodiments of the present invention will be described below with reference to the accompanying drawings.
【0020】図1は、この実施の形態にかかるドキュメ
ント収集システムの構成を示すブロック図である。図示
するように、このドキュメント収集システムは、インタ
ーネット130を介して互いに接続されたWebサーバ
100と、ドキュメント収集装置110とを含む。We
bサーバ100及びドキュメント収集装置110には、
それぞれ閲覧ソフト120が動作し、インターネット1
30を介して接続されたパーソナルコンピュータからア
クセスすることができる。FIG. 1 is a block diagram showing the configuration of a document collection system according to this embodiment. As illustrated, the document collection system includes a Web server 100 and a document collection device 110 connected to each other via the Internet 130. We
b server 100 and document collection device 110
The browsing software 120 operates and the Internet 1
30 can be accessed from a connected personal computer.
【0021】Webサーバ100は、サーバ通信処理部
101と、ドキュメント102と、ページカタログ作成
処理部103と、ページカタログ104とから構成され
ている。The Web server 100 includes a server communication processing unit 101, a document 102, a page catalog creation processing unit 103, and a page catalog 104.
【0022】サーバ通信処理部101は、プログラム制
御により動作するプロセッサとHTTPに従った通信を
行う通信装置とを備え、ドキュメント収集装置110ま
たは閲覧ソフト120からの要求を受信し、それに対す
る応答を送信する。サーバ通信処理部101が送信する
応答には、対応する要求の内容に応じてドキュメント1
02やページカタログ104が含まれることとなる。The server communication processing unit 101 includes a processor that operates under program control and a communication device that performs communication according to HTTP, receives a request from the document collection device 110 or the viewing software 120, and transmits a response to the request. I do. The response transmitted by the server communication processing unit 101 includes a document 1 according to the content of the corresponding request.
02 and the page catalog 104 are included.
【0023】ページカタログ作成処理部103は、ドキ
ュメント102に変更があったとき、当該ドキュメント
のURLに対応する変更時刻を更新した新たなページカ
タログ104を作成する。When there is a change in the document 102, the page catalog creation processing unit 103 creates a new page catalog 104 in which the change time corresponding to the URL of the document is updated.
【0024】なお、ドキュメント102とページカタロ
グ104とは、Webサーバ100内の磁気ディスク装
置などに保持され、Webサーバ100の構成要素とな
る。Note that the document 102 and the page catalog 104 are stored in a magnetic disk device or the like in the Web server 100 and become components of the Web server 100.
【0025】ドキュメント収集装置110は、通信処理
部111と、ドキュメント112と、ドキュメント処理
部113と、URLデータベース114と、ページカタ
ログ115と、ページカタログ管理部116と、変更時
刻比較部117とから構成されている。The document collection device 110 includes a communication processing unit 111, a document 112, a document processing unit 113, a URL database 114, a page catalog 115, a page catalog management unit 116, and a change time comparison unit 117. Have been.
【0026】通信処理部111は、プログラム制御によ
り動作するプロセッサとHTTPに従った通信を行う通
信装置とを備え、ページカタログ104またはドキュメ
ント102のドキュメント処理装置110への送信をW
ebサーバ100に要求する。通信処理部111は、ま
た、その要求に対してサーバ通信処理部101から送信
された応答(ページカタログ104またはドキュメント
102を含む)を受信し、ページカタログ115または
ドキュメント112としてドキュメント収集装置110
内に保持させる。The communication processing unit 111 includes a processor that operates under program control and a communication device that performs communication according to HTTP, and transmits the page catalog 104 or the document 102 to the document processing device 110 by W.
Request to the web server 100. The communication processing unit 111 also receives a response (including the page catalog 104 or the document 102) transmitted from the server communication processing unit 101 to the request, and sets the document collection device 110 as the page catalog 115 or the document 112.
Hold in.
【0027】ドキュメント処理部113は、通信処理部
111で受信し、内部に保持させたドキュメント112
の変更時刻と、ドキュメント112中に記述されている
ハイパーリンクのリンク先URLを抽出し、URLデー
タベース114に登録する。ドキュメント処理部113
は、後述するようにページカタログ115中に残ったU
RLをデータベースに登録する処理も行う。URLデー
タベース114は、ドキュメント112の変更時刻とリ
ンク先URLとを格納、管理する。The document processing unit 113 receives the document 112 received by the communication processing unit 111 and stores the document 112 therein.
, And the link destination URL of the hyperlink described in the document 112 is extracted and registered in the URL database 114. Document processing unit 113
Is the U remaining in the page catalog 115 as described later.
A process for registering the RL in the database is also performed. The URL database 114 stores and manages the modification time of the document 112 and the link destination URL.
【0028】ページカタログ管理部116は、ページカ
タログ115を管理し、変更時刻比較部117から要求
のあったURLに対応するドキュメントの変更時刻をペ
ージカタログ115から読み出す。変更時刻比較部11
7は、ページカタログ管理部116が読み出したドキュ
メントの変更時刻とURLデータベース114に登録さ
れているドキュメントの変更時刻とを比較する。The page catalog management unit 116 manages the page catalog 115 and reads from the page catalog 115 the change time of the document corresponding to the URL requested by the change time comparison unit 117. Change time comparison unit 11
Reference numeral 7 compares the change time of the document read by the page catalog management unit 116 with the change time of the document registered in the URL database 114.
【0029】なお、ドキュメント112とページカタロ
グ115とは、ドキュメント収集装置110内の磁気デ
ィスク装置などに保持され、ドキュメント収集装置11
0の構成要素となる。The document 112 and the page catalog 115 are stored in a magnetic disk device or the like in the document collection device 110, and the document collection device 11
0.
【0030】図2は、図1のドキュメント収集システム
におけるページカタログ104、115の例を示すもの
である。図示するように、ページカタログ104、11
5は、ドキュメントのURL501と、その変更時刻
(日付を含む)502とを対応付けて一覧形式で記憶し
ており、前述したようにWebサーバ100のページカ
タログ作成部103で作成され、ドキュメント収集装置
110のページカタログ管理部116で管理される。FIG. 2 shows an example of page catalogs 104 and 115 in the document collection system of FIG. As shown, the page catalogs 104, 11
Reference numeral 5 stores a document URL 501 and its modification time (including date) 502 in association with each other in a list format, and is created by the page catalog creation unit 103 of the Web server 100 as described above. 110 is managed by the page catalog management unit 116.
【0031】以下、この実施の形態にかかるドキュメン
ト収集システムにおける動作について、説明する。ここ
で、Webサーバ100においては、保持するドキュメ
ント102に変更があったときに、ページカタログ作成
処理部103が、当該ドキュメントのURL501と対
応付けられている変更時刻502を更新し、新たなペー
ジカタログ104を作成する。また、ページカタログ作
成処理部103は、新たにドキュメント102が作成さ
れた時も、そのURL501と変更(作成)時刻502
とを登録した新たなページカタログを作成する。The operation of the document collection system according to this embodiment will be described below. Here, in the Web server 100, when the held document 102 is changed, the page catalog creation processing unit 103 updates the change time 502 associated with the URL 501 of the document, and sets a new page catalog. Create 104. Also, when a new document 102 is created, the page catalog creation processing unit 103 changes the URL 501 and the change (creation) time 502.
Create a new page catalog in which is registered.
【0032】図3は、図1のドキュメント収集装置11
0が実行する処理を示すフローチャートである。このフ
ローチャートの処理は、ドキュメント収集装置110が
有するタイマなどによって定期的に、或いはオペレータ
の指示に従って不定期に、インターネット130を介し
て接続されている、ドキュメントを収集すべきWebサ
ーバ100毎に実行されるものである。FIG. 3 shows the document collection device 11 of FIG.
0 is a flowchart showing the processing executed. The processing of this flowchart is executed for each Web server 100 that is connected via the Internet 130 and that is to collect documents, periodically by a timer or the like of the document collection device 110 or irregularly in accordance with an instruction of an operator. Things.
【0033】処理が開始すると、通信処理部111は、
ページカタログ104のドキュメント処理装置110へ
の送信を要求するページカタログ要求を、Webサーバ
100に対して送信する(ステップ201)。そして、
通信処理部111は、Webサーバ100から送られて
きたページカタログ応答(ページカタログ104を含む
応答をいう)を受信し、ページカタログ115としてペ
ージカタログ管理部116に管理させる(ステップ20
2)。When the processing starts, the communication processing unit 111
A page catalog request for requesting transmission of the page catalog 104 to the document processing device 110 is transmitted to the Web server 100 (step 201). And
The communication processing unit 111 receives the page catalog response (referred to as a response including the page catalog 104) sent from the Web server 100, and causes the page catalog management unit 116 to manage the response as a page catalog 115 (step 20).
2).
【0034】次に、変更時刻比較部117は、URLデ
ータベース114に今回処理対象となっているドキュメ
ントのURL(ドキュメント収集装置110が通信を行
っているWebサーバ100に保持されているURL)
で、未処理のものが残っているかどうかを判定する(ス
テップ203)。Next, the change time comparison unit 117 stores the URL of the document to be processed this time in the URL database 114 (the URL held in the Web server 100 with which the document collection device 110 is communicating).
Then, it is determined whether or not unprocessed data remains (step 203).
【0035】URLデータベース114に未処理のUR
Lが残っていると判定された時は、変更時刻比較部11
7は、URLデータベース114に残っている未処理の
URLから1つURLを読み出し、これをURL−nと
する(ステップ204)。次に、変更時刻比較部117
は、ページカタログ管理部116に指示を出し、ページ
カタログ115中にURL−nが存在するかどうかを検
査させる(ステップ205)。An unprocessed UR is stored in the URL database 114.
When it is determined that L remains, the change time comparison unit 11
7 reads one URL from the unprocessed URLs remaining in the URL database 114 and sets it as URL-n (step 204). Next, the change time comparison unit 117
Sends an instruction to the page catalog management unit 116 to check whether the URL-n exists in the page catalog 115 (step 205).
【0036】検査の結果、ページカタログ115中にU
RL−nが存在しない場合には、ステップ207に進
む。一方、検査の結果、ページカタログ115中にUR
L−nが存在する場合には、変更時刻比較部117は、
URL−nに対応するページカタログ115中の変更時
刻とURLデータベース114中の変更時刻とを比較
し、ページカタログ115中の変更時刻の方が新しいか
どうかを判定する(ステップ206)。As a result of the inspection, U
If RL-n does not exist, the process proceeds to step 207. On the other hand, as a result of the inspection,
If L-n exists, the change time comparison unit 117
The change time in the page catalog 115 corresponding to the URL-n is compared with the change time in the URL database 114 to determine whether the change time in the page catalog 115 is newer (step 206).
【0037】ページカタログ115中の変更時刻の方が
新しくない、すなわち双方の変更時刻が同じ(URLデ
ータベース114中の変更時刻の方が新しくなること
は、障害発生の場合を除いてない)であると判定された
ときは、ステップ203に戻る。一方、ページカタログ
115中の変更時刻の方が新しいと判定されたときは、
ステップ207に進み、通信処理部111は、Webサ
ーバ100に対してURL−nに対応するドキュメント
102を送信させるための要求(以下、URL−nの要
求という)を送信する(ステップ207)。The change time in the page catalog 115 is not newer, that is, both change times are the same (the change time in the URL database 114 is newer except when a failure occurs). When the determination is made, the process returns to step 203. On the other hand, when it is determined that the change time in the page catalog 115 is newer,
Proceeding to step 207, the communication processing unit 111 transmits a request for transmitting the document 102 corresponding to the URL-n to the Web server 100 (hereinafter, referred to as a request for URL-n) (step 207).
【0038】そして、通信処理部111は、URL−n
の要求に対してWebサーバ100から送信された、U
RL−nに対応するドキュメントを含む応答(以下、U
RL−nの応答という)を受信し、受信したURL−n
の応答に含まれるドキュメントをドキュメント112と
してドキュメント収集装置110内に保持させる(ステ
ップ208)。Then, the communication processing unit 111 transmits the URL-n
Transmitted from the Web server 100 in response to the request
Response including a document corresponding to RL-n (hereinafter, U
RL-n response) and the received URL-n
Is stored in the document collection device 110 as the document 112 (step 208).
【0039】新たなドキュメント112が保持される
と、次に、ドキュメント処理部113は、当該ドキュメ
ント112の変更時刻と当該ドキュメント112に記述
されているハイパーリンクのリンク先とを抽出し、UR
Lデータベース114に登録する(ステップ209)。
そして、ページカタログ管理部115により、ページカ
タログ115に記録されている、処理が終了したURL
−nとそれに対応する変更時刻とを削除させる(ステッ
プ210)。そして、ステップ203の処理に戻り、U
RLデータベース114に今回処理対象となっているド
キュメントのURLで、未処理のものが残っているかど
うかを再び判定する。When the new document 112 is held, next, the document processing unit 113 extracts the modification time of the document 112 and the link destination of the hyperlink described in the document 112, and
It is registered in the L database 114 (step 209).
Then, the completed URL recorded in the page catalog 115 by the page catalog management unit 115.
-N and the corresponding change time are deleted (step 210). Then, returning to the processing of step 203, U
It is again determined whether or not any unprocessed URL remains in the RL database 114 as the URL of the document to be processed this time.
【0040】ステップ203でURLデータベース11
4に未処理のURLが残っていないと判定された時は、
ドキュメント処理部113に制御を移し、ドキュメント
処理部113は、ページカタログ管理部116にページ
カタログ115中に削除されずに残っているURLがあ
るかを検査させる(ステップ211)。In step 203, the URL database 11
When it is determined that there is no unprocessed URL remaining in 4,
The control is transferred to the document processing unit 113, and the document processing unit 113 causes the page catalog management unit 116 to check whether there is a URL remaining in the page catalog 115 without being deleted (step 211).
【0041】ページカタログ管理部116による検査の
結果、ページカタログ115中にURLが残っていない
場合には、そのままこのフローチャートの処理を終了す
る。一方、ページカタログ115中にURLが残ってい
る場合には、ドキュメント処理部113は、前回の処理
から今回の処理までの間にWebサーバ100で新たに
作成されたURLであると判断し、残っているURLを
すべてURLデータベース114に登録する(ステップ
212)。そして、このフローチャートの処理を終了す
る。If no URL remains in the page catalog 115 as a result of the inspection by the page catalog management unit 116, the process of this flowchart is terminated as it is. On the other hand, if the URL remains in the page catalog 115, the document processing unit 113 determines that the URL is a URL newly created in the Web server 100 between the previous processing and the current processing, and The URLs registered are all registered in the URL database 114 (step 212). Then, the process of this flowchart ends.
【0042】以上で、Webサーバ100からのデータ
収集装置110によるドキュメント112の収集が終了
するが、実際上は、さらに、こうして収集されたドキュ
メント112から検索サービスのためのドキュメントの
索引が作成される。With the above, the collection of the document 112 by the data collection device 110 from the Web server 100 is completed. In practice, a document index for a search service is created from the document 112 thus collected. .
【0043】以下、この実施の形態にかかるドキュメン
ト収集システムにおける動作を、具体例に従って詳細に
説明する。ここでは、Webサーバ100としてURL-1
からURL-200まで200個のドキュメントを公開してい
るものを想定し、これらの200個のドキュメントのう
ちでURL-17、URL-125、URL-144の3つのみが前回の収集
時以後内容が変更されているものとする。Hereinafter, the operation of the document collection system according to this embodiment will be described in detail with reference to a specific example. Here, URL-1 is used as the Web server 100.
Assuming that 200 documents are published from to 200, and only three of these 200 documents, URL-17, URL-125, and URL-144, are the contents since the last collection. Has been changed.
【0044】図4は、この例での動作を説明するための
シーケンス図である。最初に、ドキュメント収集装置1
10からWebサーバ100へページカタログ要求を送
信する。そして、ドキュメント収集装置110は、それ
に対してWebサーバ100から送信されたページカタ
ログを含む応答を受信する(シーケンス701)。FIG. 4 is a sequence diagram for explaining the operation in this example. First, the document collection device 1
10 transmits a page catalog request to the Web server 100. Then, document collection device 110 receives a response including the page catalog transmitted from Web server 100 in response thereto (sequence 701).
【0045】次に、ドキュメント収集装置110は、ペ
ージカタログ中の変更時刻とURLデータベースの比較を
行い、Webサーバ100へページカタログ中の変更時
刻の方が新しいURL-17の要求を送信する。そして、ドキ
ュメント収集装置110は、それに対してWebサーバ
100から送信されたURL-17のドキュメントを含む応答
を受信する(シーケンス702)。Next, the document collection device 110 compares the change time in the page catalog with the URL database, and sends the Web server 100 a request for a URL-17 with the newer change time in the page catalog. Then, document collection apparatus 110 receives a response including the document of URL-17 transmitted from Web server 100 thereto (sequence 702).
【0046】続いて、URL-125の要求とそれに対する応
答(シーケンス703)、URL-144の要求とそれに対する
応答(シーケンス704)により、URL-125のドキュメン
トとURL-140のドキュメントとがドキュメント収集装置
110に収集される。このように、前回収集時以後に変
更されたドキュメント数+1回の通信(要求の送信と応
答の受信)で、変更されたドキュメントを再収集するこ
とができる。Subsequently, the document of URL-125 and the document of URL-140 are collected by the request of URL-125 and the response thereto (sequence 703) and the request of URL-144 and the response thereto (sequence 704). Collected in device 110. As described above, the changed documents can be collected again by the communication of the number of documents changed after the previous collection time + 1 (transmission of the request and reception of the response).
【0047】以上説明したように、この実施の形態にか
かるドキュメント収集システムでは、Webサーバ10
0がページカタログ104を作成し、これをドキュメン
ト収集装置110が収集可能としているため、ドキュメ
ント収集装置110は、ドキュメントを1つ1つ要求し
なくても、各ドキュメントの変更時刻を知ることができ
る。As described above, in the document collection system according to this embodiment, the Web server 10
0 creates a page catalog 104, which can be collected by the document collection device 110. Therefore, the document collection device 110 can know the modification time of each document without requesting each document one by one. .
【0048】ドキュメント収集装置110は、ドキュメ
ントを収集する際に、まず、ページカタログ104の送
信をWebサーバ100に要求し、この要求に対して取
得したページカタログ115中のドキュメントの変更時
刻に基づいて、前回の収集時から変更のあったドキュメ
ント102のみの送信をWebサーバ100に対して要
求していた。すなわち、ドキュメント収集装置110
は、前回の収集時以降に変更のあったドキュメントの
み、Webサーバ100に対して要求すればよい。When collecting a document, the document collection device 110 first requests the Web server 100 to transmit the page catalog 104 and, based on the change time of the document in the page catalog 115 acquired in response to the request. Requesting the Web server 100 to transmit only the document 102 that has changed since the previous collection. That is, the document collection device 110
Only needs to request the Web server 100 for documents that have changed since the previous collection.
【0049】これに対し、ページカタログ104の送信
要求は1回だけで済み、通常、変更されていないドキュ
メント102の数よりもはるかに少なくて済む。このた
め、Webサーバ100やインターネット130の資源
を無駄に使うことなく、また、Webサーバ100から
のドキュメントの収集を迅速に行えるようになる。On the other hand, the page catalog 104 needs to be transmitted only once, which is usually much smaller than the number of the documents 102 that have not been changed. Therefore, it is possible to quickly collect documents from the Web server 100 without wasting resources of the Web server 100 or the Internet 130.
【0050】本発明は、上記の実施の形態に限られず、
種々の変形、応用が可能である。以下、本発明に適用可
能な上記の実施の形態の変形態様について説明する。The present invention is not limited to the above embodiment,
Various modifications and applications are possible. Hereinafter, modifications of the above-described embodiment applicable to the present invention will be described.
【0051】上記の実施の形態では、Webサーバ10
0において、ページカタログ104をドキュメント10
2とは別のものとして取り扱っていた。これに対し、ペ
ージカタログ104を、Webで公開するドキュメント
の一種として取り扱ってもよい。この場合、ドキュメン
ト収集装置110の通信処理部111は、ページカタロ
グ104のURLを指定して、その送信をWebサーバ
100に対して要求すればよい。In the above embodiment, the Web server 10
0, the page catalog 104 is stored in the document 10
It was treated as something different from 2. On the other hand, the page catalog 104 may be treated as a type of document published on the Web. In this case, the communication processing unit 111 of the document collection device 110 may specify the URL of the page catalog 104 and request the transmission to the Web server 100.
【0052】上記の実施の形態では、ドキュメント収集
装置110が、インターネット130を介して接続され
たWebサーバ100が保持するドキュメント102を
収集する場合について説明した。しかしながら、本発明
は、インターネットのようなオープン型のネットワーク
システムだけでなく、社内でのイントラネットのような
クローズド型のネットワークシステムにおいても適用す
ることができる。In the above-described embodiment, a case has been described where the document collection device 110 collects the documents 102 held by the Web server 100 connected via the Internet 130. However, the present invention can be applied not only to an open network system such as the Internet, but also to a closed network system such as an intranet in a company.
【0053】上記の実施の形態では、ドキュメント収集
装置110において、通信処理部111、ドキュメント
処理部113、ページカタログ管理部116及び変更時
刻比較部117がプログラム制御により動作するものと
し、Webサーバ100からページカタログ104を取
得し、取得したページカタログ115に基づいてWeb
サーバ100に対してドキュメント102のうちの変更
のあったものの送信を要求していた。これに対し、この
ような処理を行うためのプログラムをCD−ROMなど
のコンピュータ読み取り可能な記録媒体に格納して配布
し、汎用コンピュータのハードディスクにインストール
することによって、ドキュメント収集装置110の機能
を実現するものとしてもよい。In the above embodiment, in the document collection device 110, the communication processing unit 111, the document processing unit 113, the page catalog management unit 116, and the change time comparison unit 117 operate under program control. Acquires the page catalog 104 and, based on the acquired page catalog 115, the Web
It has requested the server 100 to transmit the changed document 102. On the other hand, the functions of the document collection device 110 are realized by storing and distributing a program for performing such processing on a computer-readable recording medium such as a CD-ROM and installing the program on a hard disk of a general-purpose computer. You may do it.
【0054】[0054]
【発明の効果】以上説明したように、本発明によれば、
前回の収集時以降に変更されていないドキュメントを要
求することなく、前回の収集時以降に変更されたすべて
のドキュメントを収集することができる。As described above, according to the present invention,
All documents that have changed since the previous collection can be collected without requiring documents that have not changed since the last collection.
【図1】本発明の実施の形態にかかるドキュメント収集
システムの構成を示すブロック図である。FIG. 1 is a block diagram showing a configuration of a document collection system according to an embodiment of the present invention.
【図2】図1のページカタログの例を示す図である。FIG. 2 is a diagram illustrating an example of a page catalog of FIG. 1;
【図3】本発明の実施の形態において、ドキュメント収
集装置が実行する処理を示すフローチャートである。FIG. 3 is a flowchart illustrating a process executed by the document collection device in the embodiment of the present invention.
【図4】本発明の実施の形態にかかるドキュメント収集
システムにおける動作を具体的に説明するシーケンス図
である。FIG. 4 is a sequence diagram specifically describing an operation in the document collection system according to the exemplary embodiment of the present invention.
【図5】従来例にかかるドキュメント収集システムの構
成を示すブロック図である。FIG. 5 is a block diagram showing a configuration of a document collection system according to a conventional example.
【図6】従来例にかかるドキュメント収集システムにお
ける動作を具体的に説明するシーケンス図である。FIG. 6 is a sequence diagram specifically describing an operation in a document collection system according to a conventional example.
100 Webサーバ 101 サーバ通信処理部 102 ドキュメント 103 ページカタログ作成処理部 104 ページカタログ 110 ドキュメント収集装置 111 通信処理部 112 ドキュメント 113 ドキュメント処理部 114 URLデータベース 115 ページカタログ 116 ページカタログ管理部 117 変更時刻比較部 120 閲覧ソフト 130 インターネット Reference Signs List 100 Web server 101 Server communication processing unit 102 Document 103 Page catalog creation processing unit 104 Page catalog 110 Document collection device 111 Communication processing unit 112 Document 113 Document processing unit 114 URL database 115 Page catalog 116 Page catalog management unit 117 Change time comparison unit 120 Browsing software 130 Internet
Claims (7)
記ネットワークを介して公開するドキュメントを保持す
るサーバと、該ドキュメントを前記ネットワークを介し
て前記サーバから収集するドキュメント収集装置とから
構成され、 前記サーバは、 保持するドキュメントの変更または新たに保持すべきド
キュメントの作成があった場合に、該ドキュメントの識
別情報と変更または作成の時刻を示す変更時刻とを対応
付けて登録するカタログを作成するカタログ作成手段
と、 前記ドキュメント収集装置からの要求に応じて、前記ネ
ットワークを介して前記ドキュメントまたは前記カタロ
グを前記サーバに送信するサーバ送信手段とを備え、 前記ドキュメント収集装置は、 前記カタログ作成手段によって作成されたカタログを前
記ネットワークを介して前記サーバに要求し、前記サー
バ送信手段に送信させるカタログ要求手段と、 前記カタログ要求手段による要求に応答して、前記サー
バ送信手段から送信されたカタログを受信するカタログ
受信手段と、 前記カタログ受信手段が受信したカタログを管理するカ
タログ管理手段と、 前記サーバが保持するドキュメントをその識別情報を指
定して前記ネットワークを介して前記サーバに要求し、
前記サーバ送信手段に送信させるドキュメント要求手段
と、 前記ドキュメント要求手段による要求に応答して、前記
サーバ送信手段から送信されたドキュメントを、該ドキ
ュメントの識別情報と変更時刻と共に受信するドキュメ
ント受信手段と、 前記ドキュメント受信手段が受信したドキュメントの識
別情報と変更時刻とを対応付けて登録するドキュメント
情報登録手段と、 前記ドキュメント情報登録手段に登録されているドキュ
メントの変更時刻と、前記カタログ管理手段で管理され
ているカタログ中のドキュメントの変更時刻とを、その
識別情報が同一のもの同士、順次比較する変更時刻比較
手段とを備え、 前記ドキュメント要求手段は、前記変更時刻比較手段に
よる比較の結果、前記カタログ中のドキュメントの変更
時刻の方が新しいと判断されたドキュメントの送信を前
記サーバに要求することを特徴とするドキュメント収集
システム。1. A server connected to each other via a network and holding a document to be published via the network, and a document collection device for collecting the document from the server via the network. Is used to create a catalog in which, when a document to be held is changed or a document to be newly held is created, the identification information of the document is associated with a change time indicating the time of the change or creation, and a catalog is created. Means, and a server transmitting means for transmitting the document or the catalog to the server via the network in response to a request from the document collecting apparatus, wherein the document collecting apparatus is created by the catalog creating means. Catalogs from the network Catalog requesting means for requesting the server via the server and transmitting the request to the server transmitting means; catalog receiving means for receiving a catalog transmitted from the server transmitting means in response to a request by the catalog requesting means; A catalog management unit that manages a catalog received by the catalog reception unit; and a request held by the server via the network by specifying a document held by the server through the network.
A document requesting means for causing the server transmitting means to transmit; a document receiving means for receiving, in response to a request by the document requesting means, a document transmitted from the server transmitting means together with the identification information and the modification time of the document; Document information registration means for registering the identification information of the document received by the document reception means and the modification time in association with each other; modification time of the document registered in the document information registration means; And a change time comparing unit for sequentially comparing the change times of the documents in the catalog with those having the same identification information. The document requesting unit includes: a result of the comparison by the change time comparing unit; Document has a newer modification time A document collection system requesting the server to transmit a document determined to be valid.
するサーバから、該ドキュメントを前記ネットワークを
介して収集するドキュメント収集装置であって、 前記サーバが保持するドキュメントの識別情報とその変
更時刻とを対応付けて登録するカタログを前記ネットワ
ークを介して前記サーバに要求し、前記サーバから送信
させるカタログ要求手段と、 前記カタログ要求手段による要求に応答して、前記サー
バから送信されたカタログを受信するカタログ受信手段
と、 前記カタログ受信手段が受信したカタログを管理するカ
タログ管理手段と、 前記サーバが保持するドキュメントをその識別情報を指
定して前記ネットワークを介して前記サーバに要求し、
前記サーバから送信させるドキュメント要求手段と、 前記ドキュメント要求手段による要求に応答して、前記
サーバから送信されたドキュメントを、該ドキュメント
の識別情報と変更時刻と共に受信するドキュメント受信
手段と、 前記ドキュメント受信手段が受信したドキュメントの識
別情報と変更時刻とを対応付けて登録するドキュメント
情報登録手段と、 前記ドキュメント情報登録手段に登録されているドキュ
メントの変更時刻と、前記カタログ管理手段で管理され
ているカタログ中のドキュメントの変更時刻とを、その
識別情報が同一のもの同士、順次比較する変更時刻比較
手段とを備え、 前記ドキュメント要求手段は、前記変更時刻比較手段に
よる比較の結果、前記カタログ中のドキュメントの変更
時刻の方が新しいと判断されたドキュメントの送信を前
記サーバに要求することを特徴とするドキュメント収集
装置。2. A document collection device for collecting a document from a server that publishes the document via a network via the network, wherein the identification information of the document held by the server is associated with a modification time. Requesting a catalog to be registered by the server via the network and transmitting the catalog from the server; and catalog receiving means for receiving a catalog transmitted from the server in response to a request from the catalog requesting means Requesting the server via the network by specifying the identification information of the document held by the server, the catalog management means for managing the catalog received by the catalog receiving means,
Document requesting means for transmitting from the server; document receiving means for receiving, in response to a request by the document requesting means, a document transmitted from the server together with identification information of the document and a modification time; A document information registration unit for registering the identification information of the received document and the modification time in association with each other, a modification time of the document registered in the document information registration unit, and a catalog managed by the catalog management unit. And a change time comparing means for sequentially comparing the change times of the documents with those having the same identification information, and the document requesting means, as a result of the comparison by the change time comparing means, Changed time is determined to be newer A document collection device requesting the server to transmit a document.
ト情報登録手段に前記ドキュメントの識別情報と変更時
刻とを登録したときに、該登録したものに対応する情報
を前記カタログから削除する削除手段を備えることを特
徴とする請求項2に記載のドキュメント収集装置。3. The catalog management means includes a deletion means for deleting information corresponding to the registered information from the catalog when the identification information and the modification time of the document are registered in the document information registration means. The document collection device according to claim 2, wherein:
除手段が削除すべきドキュメントの識別情報と変更時刻
とをすべて削除したときに、前記カタログ中に残ってい
るドキュメントの識別情報と変更時刻とをさらに登録す
ることを特徴とする請求項3に記載のドキュメント収集
装置。4. The document information registering means according to claim 1, wherein when the deleting means deletes all the identification information of the document to be deleted and the modification time, the identification information of the document remaining in the catalog and the modification time are changed. The document collection device according to claim 3, wherein registration is further performed.
あることを特徴とする請求項2乃至4のいずれか1項に
記載のドキュメント収集装置。5. The document collection apparatus according to claim 2, wherein the identification information of the document is a URL.
するサーバから、該ドキュメントを前記ネットワークを
介して収集するドキュメント収集方法であって、 前記サーバが保持するドキュメントの識別情報とその変
更時刻とを対応付けて登録するカタログを前記ネットワ
ークを介して前記サーバに要求し、前記サーバから送信
させるカタログ要求ステップと、 前記カタログ要求ステップでの要求に応答して、前記サ
ーバから送信されたカタログを受信するカタログ受信ス
テップと、 前記カタログ受信ステップで受信したカタログを管理す
るカタログ管理ステップと、 前記サーバが保持するドキュメントをその識別情報を指
定して前記ネットワークを介して前記サーバに要求し、
前記サーバから送信させるドキュメント要求ステップ
と、 前記ドキュメント要求ステップでの要求に応答して、前
記サーバから送信されたドキュメントを、該ドキュメン
トの識別情報と変更時刻と共に受信するドキュメント受
信ステップと、 前記ドキュメント受信ステップで受信したドキュメント
の識別情報と変更時刻とを対応付けて登録するドキュメ
ント情報登録ステップと、 前記ドキュメント情報登録ステップで登録されているド
キュメントの変更時刻と、前記カタログ管理ステップで
管理されているカタログ中のドキュメントの変更時刻と
を、その識別情報が同一のもの同士、順次比較する変更
時刻比較ステップとを含み、 前記ドキュメント要求ステップは、前記変更時刻比較ス
テップでの比較の結果、前記カタログ中のドキュメント
の変更時刻の方が新しいと判断されたドキュメントの送
信を前記サーバに要求することを特徴とするドキュメン
ト収集方法。6. A document collection method for collecting a document from a server that publishes the document via a network via the network, wherein the identification information of the document held by the server is associated with a modification time. Requesting a catalog to be registered by the server via the network and transmitting the catalog from the server; and receiving a catalog transmitted from the server in response to the request in the catalog requesting step. And a catalog management step of managing the catalog received in the catalog receiving step; requesting the document held by the server to the server via the network by specifying its identification information;
A document requesting step of transmitting the document from the server; a document receiving step of receiving, in response to the request in the document requesting step, a document transmitted from the server together with the identification information of the document and a modification time; A document information registration step of registering the identification information and the change time of the document received in the step in association with each other, a change time of the document registered in the document information registration step, and a catalog managed in the catalog management step And a change time comparison step for sequentially comparing the change times of the documents in the same document with those having the same identification information, and the document requesting step includes: a result of the comparison in the change time comparison step; Document A document transmission method for requesting the server to transmit a document determined to be newer at the change time of the document.
するサーバから、該ドキュメントを前記ネットワークを
介して収集するプログラムを記録する記録媒体であっ
て、 前記サーバが保持するドキュメントの識別情報とその変
更時刻とを対応付けて登録するカタログを前記ネットワ
ークを介して前記サーバに要求し、前記サーバから送信
させるカタログ要求ステップと、 前記カタログ要求ステップでの要求に応答して、前記サ
ーバから送信されたカタログを受信するカタログ受信ス
テップと、 前記カタログ受信ステップで受信したカタログを管理す
るカタログ管理ステップと、 前記サーバが保持するドキュメントをその識別情報を指
定して前記ネットワークを介して前記サーバに要求し、
前記サーバから送信させるドキュメント要求ステップ
と、 前記ドキュメント要求ステップでの要求に応答して、前
記サーバから送信されたドキュメントを、該ドキュメン
トの識別情報と変更時刻と共に受信するドキュメント受
信ステップと、 前記ドキュメント受信ステップで受信したドキュメント
の識別情報と変更時刻とを対応付けて登録するドキュメ
ント情報登録ステップと、 前記ドキュメント情報登録ステップで登録されているド
キュメントの変更時刻と、前記カタログ管理ステップで
管理されているカタログ中のドキュメントの変更時刻と
を、その識別情報が同一のもの同士、順次比較する変更
時刻比較ステップとを実行し、 前記ドキュメント要求ステップは、前記変更時刻比較ス
テップでの比較の結果、前記カタログ中のドキュメント
の変更時刻の方が新しいと判断されたドキュメントの送
信を前記サーバに要求するプログラムを記録することを
特徴とするコンピュータ読み取り可能な記録媒体。7. A recording medium for recording a program for collecting a document from a server which publishes the document via a network via the network, comprising: identification information of the document held by the server; Requesting a catalog to be registered in association with the server via the network and transmitting the catalog from the server; and receiving a catalog transmitted from the server in response to the request in the catalog requesting step. A catalog receiving step to perform, a catalog managing step to manage a catalog received in the catalog receiving step, and requesting the document held by the server to the server via the network by specifying its identification information,
A document requesting step of transmitting the document from the server; a document receiving step of receiving, in response to the request in the document requesting step, a document transmitted from the server together with the identification information of the document and a modification time; A document information registration step of registering the identification information and the change time of the document received in the step in association with each other, a change time of the document registered in the document information registration step, and a catalog managed in the catalog management step And performing a change time comparison step of sequentially comparing the change times of the documents in the document with those having the same identification information, and the document requesting step includes, as a result of the comparison in the change time comparison step, Document of A computer-readable recording medium for recording a program for requesting the server to transmit a document whose change time is determined to be newer.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP10234099A JP2000066945A (en) | 1998-08-20 | 1998-08-20 | Document collection system, device and method and recording medium |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP10234099A JP2000066945A (en) | 1998-08-20 | 1998-08-20 | Document collection system, device and method and recording medium |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JP2000066945A true JP2000066945A (en) | 2000-03-03 |
Family
ID=16965617
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP10234099A Pending JP2000066945A (en) | 1998-08-20 | 1998-08-20 | Document collection system, device and method and recording medium |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP2000066945A (en) |
Cited By (6)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2001306376A (en) * | 2000-04-26 | 2001-11-02 | Nikon Corp | Data file management recording medium, data file management device, image data transmission method, and data transmission method |
| JP2005122702A (en) * | 2003-10-16 | 2005-05-12 | Hitachi Ltd | Method and apparatus for improving coupling between a search engine and one or more file servers |
| JP2007141033A (en) * | 2005-11-21 | 2007-06-07 | Fujitsu Ltd | Content creation date management program and method and apparatus |
| JP2007156713A (en) * | 2005-12-02 | 2007-06-21 | Canon Inc | Image processing apparatus and control method thereof |
| US8730349B2 (en) | 2000-04-26 | 2014-05-20 | Nikon Corporation | Recording medium for data file management, apparatus for data file management, handling apparatus for image data, and image capturing system |
| JP2020502624A (en) * | 2016-12-22 | 2020-01-23 | バリパット エス.エー.Valipat S.A. | Method and system for collecting digital documents from multiple suppliers |
-
1998
- 1998-08-20 JP JP10234099A patent/JP2000066945A/en active Pending
Cited By (8)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2001306376A (en) * | 2000-04-26 | 2001-11-02 | Nikon Corp | Data file management recording medium, data file management device, image data transmission method, and data transmission method |
| US8730349B2 (en) | 2000-04-26 | 2014-05-20 | Nikon Corporation | Recording medium for data file management, apparatus for data file management, handling apparatus for image data, and image capturing system |
| JP2005122702A (en) * | 2003-10-16 | 2005-05-12 | Hitachi Ltd | Method and apparatus for improving coupling between a search engine and one or more file servers |
| JP2007141033A (en) * | 2005-11-21 | 2007-06-07 | Fujitsu Ltd | Content creation date management program and method and apparatus |
| JP2007156713A (en) * | 2005-12-02 | 2007-06-21 | Canon Inc | Image processing apparatus and control method thereof |
| US8488145B2 (en) | 2005-12-02 | 2013-07-16 | Canon Kabushiki Kaisha | Retrieving updated information from a server based on an update file in RSS or ATOM format |
| JP2020502624A (en) * | 2016-12-22 | 2020-01-23 | バリパット エス.エー.Valipat S.A. | Method and system for collecting digital documents from multiple suppliers |
| JP7041675B2 (en) | 2016-12-22 | 2022-03-24 | バリパット エス.エー. | Methods and systems for collecting digital documents from multiple suppliers |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US7174289B2 (en) | Translating system and translating apparatus in which translatable documents are associated with permission to translate | |
| JP3935986B2 (en) | Network information resource monitoring system for notifying changes in information resources in a network | |
| JP4629948B2 (en) | Content processing service control system | |
| US6105028A (en) | Method and apparatus for accessing copies of documents using a web browser request interceptor | |
| US6061686A (en) | Updating a copy of a remote document stored in a local computer system | |
| US7552220B2 (en) | System and method to refresh proxy cache server objects | |
| JP4179535B2 (en) | Network system, reverse proxy, computer apparatus, data processing method and program | |
| JP4757384B2 (en) | System and method for updating a remote database in a network | |
| US7277914B2 (en) | Proxy server apparatus and method for providing service using the same | |
| US5991760A (en) | Method and apparatus for modifying copies of remotely stored documents using a web browser | |
| US7496497B2 (en) | Method and system for selecting web site home page by extracting site language cookie stored in an access device to identify directional information item | |
| US20030093400A1 (en) | Method for updating a database from a browser | |
| JP2001519067A (en) | Method and apparatus for providing a user hit for a mirrored web site to a remote site operator | |
| JPH117405A (en) | File sharing system | |
| JPH0981445A (en) | Information management device | |
| US6883020B1 (en) | Apparatus and method for filtering downloaded network sites | |
| EP1204040A2 (en) | Method for managing alterations of contents | |
| CN101263494B (en) | Method and apparatus for monitoring transactions related to objects in a storage network | |
| CN100481011C (en) | Device and method for collecting information from information server | |
| JP2000066945A (en) | Document collection system, device and method and recording medium | |
| JP5135165B2 (en) | Content server system, content server, and client computer | |
| JP4634600B2 (en) | Proxy server | |
| CN113407367A (en) | Interface configuration method and system | |
| JP2003044346A (en) | Content providing method and network connection device | |
| US20050198331A1 (en) | Seamless system and recording medium, and computer system process continuing method |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A711 | Notification of change in applicant |
Effective date: 20040209 Free format text: JAPANESE INTERMEDIATE CODE: A712 |
|
| RD03 | Notification of appointment of power of attorney |
Effective date: 20040317 Free format text: JAPANESE INTERMEDIATE CODE: A7423 |
|
| A621 | Written request for application examination |
Effective date: 20051111 Free format text: JAPANESE INTERMEDIATE CODE: A621 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090210 |
|
| A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20090616 |