[go: up one dir, main page]

JP2006099341A - 更新履歴生成装置及びプログラム - Google Patents

更新履歴生成装置及びプログラム Download PDF

Info

Publication number
JP2006099341A
JP2006099341A JP2004283723A JP2004283723A JP2006099341A JP 2006099341 A JP2006099341 A JP 2006099341A JP 2004283723 A JP2004283723 A JP 2004283723A JP 2004283723 A JP2004283723 A JP 2004283723A JP 2006099341 A JP2006099341 A JP 2006099341A
Authority
JP
Japan
Prior art keywords
information
document
time
update date
update
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2004283723A
Other languages
English (en)
Inventor
Masayoshi Fukazawa
真義 深澤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
MUFG Bank Ltd
Original Assignee
Bank of Tokyo Mitsubishi UFJ Trust Co
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Bank of Tokyo Mitsubishi UFJ Trust Co filed Critical Bank of Tokyo Mitsubishi UFJ Trust Co
Priority to JP2004283723A priority Critical patent/JP2006099341A/ja
Publication of JP2006099341A publication Critical patent/JP2006099341A/ja
Withdrawn legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

【課題】 ウェブ文書上での検索対象の情報の正確な更新時期に基づく検索対象情報の検索を実現可能とする。
【解決手段】対応するウェブ文書の各項目毎のタイトル、要約文、更新日時等の属性情報を含む要約文書のURIを事前に収集・記憶しておき、要約文書のURIを取り込み(130)、要約文書の取得を試行し(132)、取得できた場合(136が肯定)には、同一の要約文書を過去に取得したか否か判定し(140,142)、過去に取得していなければ、今回取得した要約文書からウェブ文書の各項目毎の属性情報、最終更新日時を抽出し、ウェブ文書のURIと対応付け更新履歴情報としてDBに登録する(144,146)。過去に取得していた場合はDBに既に登録されている更新履歴情報と最終更新日時を比較し(148)、不一致であれば更新履歴情報に設定されている最終更新日時よりも後に更新された項目に対応する属性情報と最終更新日時を抽出し、抽出した情報により更新履歴情報を更新する。
【選択図】 図3

Description

本発明は更新履歴生成装置及びプログラムに係り、特に、ウェブ文書の更新を検知して更新履歴を生成する更新履歴生成装置、及び、コンピュータを前記更新履歴生成装置として機能させるための更新履歴生成プログラムに関する。
インターネット上で公開されている膨大な情報の中から所望の情報を検索するための有用なツールとして検索エンジンが知られている。一般的な検索エンジンである全文検索型検索エンジンでは、ウェブ文書の内容をデータベースに保存しておき、キーワードが指定されて検索が要求されると、指定されたキーワードでデータベースを検索して結果を出力する。全文検索型検索エンジンにおけるウェブ文書の収集・保存は検索ロボットによって行われ、検索ロボットはリンクを辿っていくことで多数のウェブ文書を順次閲覧し、未収集のウェブ文書や更新されたウェブ文書を発見する毎に、発見したウェブ文書の内容をデータベースへ保存したり、データベースに既に保存されている情報の更新を行う。
また、ウェブ文書の検索に関して、特許文献1には、インターネット上のウェブサイトに適時アクセスしてウェブページ情報を取得し、取得したウェブページ情報からテキストデータを抽出すると共に、ウェブページ画面の画像データを生成し、生成した画像データをデータベースに記録すると共に、抽出したテキストデータと、ウェブページ画面のURLと、取得年月日と、画像データのファイル名とを互いに関係付けてデータベースに記録しておき、ユーザ端末からの検索閲覧要求に応じてデータベースを検索し、該当するウェブページのテキストあるいは画像データをユーザ端末へ送信する技術が開示されている。
また、特許文献2には、リンク含有コンテンツがパソコンで表示されている状態で特定のリンクが指し示されると、特定のリンクのURI(Uniform Resource Identifier)がシステムサーバへ転送され、システムサーバは、ウェブサーバに対して転送されたURIのステータス情報を要求し、ステータス情報を取得できなかった場合は、データベースに蓄積するコンテンツに関する情報にコンテンツが存在しないという情報を挿入し、ステータス情報を取得した場合は、データベースに蓄積されているlast-modified情報を取得し、ステータス情報のLast-modified情報と比較し、一致しない場合はLast-modified情報及びデータベースのコンテンツに関する情報をオンデマンド更新することで、データベースの情報の更新頻度を向上させる技術が開示されている。
特開2002−073609号公報 特開2003−050735号公報
ところで、インターネットを利用した情報収集のニーズとして、例えば新たにリリースした個人向け商品が一般個人にどのように評価されているのかを知りたい、或いは、旅行に出かける際に訪問先の最近の評判やおすすめのお店といった最新情報を知りたい、といったニーズが存在している。しかしながら、上記のようなニーズでは、収集する情報が新しい情報であることが肝要であり、また収集対象の情報が、例えば個人が運営しているウェブサイト等のように、リンク数に基づくランク付けにおいて下位にランク付けされるウェブページ(以下、このようなウェブページを「マイナーなウェブページ」と称する)から発信されている情報であることが多く、既存の技術ではこのような情報を収集することは困難であった。
すなわち、前述した全文検索型検索エンジンでは、検索ロボットによるウェブ文書の閲覧・収集・保存が一巡する迄に膨大な時間がかかるため、或るウェブ文書が更新されてからこのウェブ文書の更新後の内容がデータベースに反映される迄にも長い時間がかかる。このため、全文検索型検索エンジンを利用して或るキーワードで検索を行った際に、例えば前記キーワードを含む文章が最近(例えば数日前に)追加されたウェブ文書が存在していたとしても、このようなウェブ文書は上記の検索では抽出されないので、存在を検知することができない。また、全文検索型検索エンジンでは、個々のウェブページを個々のウェブページへのリンク数に基づいてランク付けしていることが多く(例えばhttp://www.google.co.jp/)、検索によって抽出されたウェブページをランクの降順に表示するので、目的の情報を発信しているマイナーなウェブページが検索によって抽出されたとしても、表示された検索結果からこのウェブページの情報を見つけ出すには非常に手間がかかるという問題もある。
また、特許文献1に記載の技術は、全文検索型の検索において、過去にネットワーク上で公開されたウェブページ情報をユーザが検索閲覧することを可能とする技術であり、上述したように、或るウェブ文書が更新されてからこのウェブ文書の更新後の内容がデータベースに反映される迄に長い時間がかかるという問題は解決されていないので、情報の新しさを重要視して情報を収集するための検索には不向きである。
また、ウェブ文書の検索において、ウェブ文書が更新されているか否かの判断には、例えば特許文献2に記載のlast-modified情報やこれに類する情報(最終更新日時情報と称する)が用いられるが、この最終更新日時情報は対応するウェブ文書が更新される毎に、その更新箇所がウェブ文書上の何れの箇所であるかに拘らず更新される。このため、検索条件としてキーワードに加えてウェブ文書の最終更新日時の範囲を指定することで、検索対象のウェブ文書を絞り込んだとしても、検索によって抽出された個々のウェブ文書のうち指定した前記キーワードが存在する部分が最後に更新された日時が、指定した最終更新日時の範囲に入っているとは限らないという問題がある。また同様に、キーワードを指定して検索を行うことで抽出された複数のウェブ文書を、個々のウェブ文書の最終更新日時情報が表す最終更新日時の新しい順に並べ替えた場合にも、並べ替え後の個々のウェブ文書の順序が、個々のウェブ文書のうち前記キーワードが存在する部分が最後に更新された日時の新しい順に一致しているとは限らないという問題がある。
本発明は上記事実を考慮して成されたもので、ウェブ文書の更新がより短い時間で検索結果に反映されると共に、ウェブ文書上での検索対象の情報の正確な更新時期に基づく検索対象の情報の検索を実現可能な更新履歴生成装置及び更新履歴生成プログラムを得ることが目的である。
上記目的を達成するために請求項1記載の発明に係る更新履歴生成装置は、ウェブサーバに対してウェブ文書の配信を要求し、ウェブ文書の各項目毎の内容の要約を表す要約情報と前記各項目毎の更新日時を表す更新日時情報と前記ウェブ文書の最終更新日時を表す最終更新日時情報を含み、前記ウェブ文書が更新される毎に更新された項目に対応する前記要約情報及び前記更新日時情報と前記最終日時情報が更新される要約文書が存在するウェブ文書について、前記ウェブ文書中に設定される前記要約文書の場所を表す第1場所情報が、前記ウェブサーバから順次受信する前記ウェブ文書の情報に含まれているか否かを監視し、前記第1場所情報を検知すると前記ウェブサーバとの通信を切断すると共に、検知した第1場所情報を第1記憶手段に記憶させることを、不特定のウェブ文書について各々行う第1取得手段と、前記第1記憶手段に記憶されている第1場所情報に基づいて、ウェブサーバから前記要約文書を定期的に取得する第2取得手段と、前記第2取得手段によって取得された要約文書が初めて取得された要約文書である場合には、前記取得された要約文書からウェブ文書の各項目毎の前記要約情報及び前記更新日時情報と前記最終更新日時情報を各々抽出し更新履歴情報として第2記憶手段に記憶させ、前記第2取得手段によって取得された要約文書が過去にも取得が行われた要約文書であり、かつ前記取得された要約文書に含まれる最終更新日時情報が表す最終更新日時が、前記第2記憶手段に記憶されている対応する更新履歴情報に含まれる最終更新日時情報が表す最終更新日時よりも後である場合には、前記対応する更新履歴情報に含まれる最終更新日時情報が表す最終更新日時よりも後に更新されたウェブ文書の特定項目に対応する前記要約情報及び前記更新日時情報を前記取得された要約文書から抽出して前記更新履歴情報に追加すると共に、前記対応する更新履歴情報に含まれる最終日時情報を前記取得された要約文書に含まれる最終更新日時情報が表す最終更新日時へ更新する更新履歴生成手段と、を含んで構成されている。
ウェブ文書の中には、ウェブ文書の各項目毎の内容の要約を表す要約情報と、ウェブ文書の各項目毎の更新日時を表す更新日時情報と、ウェブ文書の最終更新日時を表す最終更新日時情報を含み、ウェブ文書が更新される毎に、更新された項目に対応する要約情報及び更新日時情報と最終日時情報が更新される要約文書が前記ウェブ文書と別に存在しているウェブ文書がある。この種のウェブ文書では、対応する要約文書の場所を表す第1場所情報(例えばURL(Uniform Resource Locator)等のURI)がウェブ文書中に設定される。なお、上記の要約文書としては、例えば請求項2に記載したように、RSS(RDF(Resource Description Framework) Site Summary又はRich Site Summary又はReally simple Syndication)フォーマット又はATOMフォーマットに従って記述されたXML文書が挙げられる。この場合、要約情報には、ウェブ文書のうち更新された部分のタイトルと該部分の要約文が含まれる。
請求項1記載の発明は上記のようなウェブ文書の要約文書を利用しており、請求項1記載の発明に係る第1取得手段は、ウェブサーバに対してウェブ文書の配信を要求し、ウェブサーバから順次受信するウェブ文書の情報に前述の第1場所情報が含まれているか否かを監視し、第1場所情報を検知するとウェブサーバとの通信を切断すると共に、検知した第1場所情報を第1記憶手段に記憶させることを、不特定のウェブ文書について各々行う。これにより、第1記憶手段には、対応する要約文書が存在しているウェブ文書について、対応する要約文書の場所を表す第1場所情報が各々記憶される。また、第2取得手段は、第1記憶手段に記憶されている第1場所情報に基づいて、ウェブサーバから要約文書を定期的に取得する。
そして更新履歴生成手段は、第2取得手段によって取得された要約文書が初めて取得された要約文書である場合には、取得された要約文書からウェブ文書の各項目毎の要約情報及び更新日時情報と最終更新日時情報を各々抽出し、更新履歴情報として第2記憶手段に記憶させる。また更新履歴生成手段は、第2取得手段によって取得された要約文書が過去にも取得が行われた要約文書であり、かつ取得された要約文書に含まれる最終更新日時情報が表す最終更新日時が、第2記憶手段に記憶されている対応する更新履歴情報に含まれる最終更新日時情報が表す最終更新日時よりも後である場合には、対応する更新履歴情報に含まれる最終更新日時情報が表す最終更新日時よりも後に更新されたウェブ文書の特定項目に対応する要約情報及び更新日時情報を、取得された要約文書から抽出して更新履歴情報に追加すると共に、対応する更新履歴情報に含まれる最終日時情報を取得された要約文書に含まれる最終更新日時情報が表す最終更新日時へ更新する。
このように、請求項1記載の発明では、ウェブ文書の各項目毎の内容の要約を表す要約情報とウェブ文書の各項目毎の更新日時を表す更新日時情報とウェブ文書の最終更新日時を表す最終更新日時情報を含み、ウェブ文書が更新される毎に更新された項目に対応する要約情報及び更新日時情報と最終日時情報が更新される要約文書を利用し、ウェブ文書の任意の項目の項目が更新されて対応する要約文書のうち前記項目に対応する要約情報及び更新日時情報が更新される毎に、これらの情報を要約文書から抽出して更新履歴情報に追加するので、第2記憶手段には、対応する要約文書が存在しているウェブ文書について、該ウェブ文書の更新履歴を表す更新履歴情報が各々記憶されることになる。
更新履歴情報に含まれる個々の要約情報は、ウェブ文書の各項目毎の最新の内容の要約を表しているのでウェブ文書に対する検索に利用可能であり、例えば指定されたキーワードが更新履歴情報の中の特定の要約情報中に存在していた場合、当該更新履歴情報に対応するウェブ文書本体にも指定されたキーワードが含まれていると判断できる。また更新履歴情報には、ウェブ文書の各項目毎の情報として、要約情報に加えて更新日時情報も設定されているので、指定されたキーワードが更新履歴情報の中の特定の要約情報中に存在していた場合に、この特定の要約情報に対応する更新日時情報を参照することで、ウェブ文書本体のうち指定されたキーワードを含む部分(項目)が更新された日時(指定されたキーワードを含む文章等がウェブ文書本体上で更新された日時)を判断することができる。
これにより、キーワードと更新日時の範囲が検索条件として指定された場合にも、請求項1記載の発明によって第2記憶手段に記憶される更新履歴情報を利用し、「要約情報に指定されたキーワードが含まれ、対応する更新日時情報が表す更新日時が指定された更新日時の範囲内」という条件に合致する要約情報と更新日時情報の組が含まれている更新履歴情報を検索することにより、指定されたキーワードを含む文章等が指定された更新日時の範囲内に更新されたウェブ文書を検索することができ、ウェブ文書上での検索対象の情報(例えば指定されたキーワードを含む文章)の正確な更新時期に基づく検索対象の情報の検索を実現することができる。
また、第1取得手段は、ウェブサーバから順次受信するウェブ文書の情報に第1場所情報が含まれているか否かを監視し、第1場所情報を検知すると(情報を受信しているウェブ文書が対応する要約文書が存在しているウェブ文書であることを検知すると)ウェブサーバとの通信を切断するので、ウェブ文書本体の情報を全て取得する場合と比較して極めて短い時間で通信が終了する。また、第2取得手段もウェブ文書本体よりも確実に情報量が少ない要約文書を取得するので、ウェブ文書本体の情報を全て取得する場合と比較して短時間で通信が終了する。従って、従来の検索ロボットによる情報収集と比較して情報収集に要する時間が短時間で済むので、より短い周期で情報収集(第1記憶手段に記憶されている第1場所情報及び第2記憶手段に記憶されている更新履歴情報の更新)を行うことができ、請求項1記載の発明によって第2記憶手段に記憶される更新履歴情報を利用すれば、ウェブ文書の更新がより短い時間で検索結果に反映される検索を実現することができる。
このように、請求項1記載の発明によれば、ウェブ文書の更新がより短い時間で検索結果に反映されると共に、ウェブ文書上での検索対象の情報の正確な更新時期に基づく検索対象の情報の検索を実現することが可能となる。また、指定されたキーワードを含むウェブ情報が検索により複数抽出された場合に、請求項1記載の発明によって第2記憶手段に記憶される更新履歴情報を利用し、個々のウェブ文書に対応する更新履歴情報のうち、指定されたキーワードを含む要約情報に対応する更新日時情報を参照することで、個々のウェブ文書のうち指定されたキーワードを含む部分(項目)の正確な更新日時を判断することができるので、ウェブ文書上での検索対象の情報の正確な更新時期に基づいて、検索結果(検索によって抽出された複数のウェブ文書)を並べ替えることも可能となる。
なお、請求項1記載の発明において、例えば請求項3に記載したように、検索条件としてキーワード及び更新日時の範囲が指定されると、第2記憶手段に記憶されている更新履歴情報のうち、更新日時情報が表す更新日時が前記指定された更新日時の範囲内で、かつ要約情報に前記指定されたキーワードが含まれている要約情報及び更新日時情報を検索し、該当する要約情報及び更新日時情報を検索結果として出力する検索手段を設けることが好ましい。これにより、ウェブ文書上での検索対象の情報(例えば指定されたキーワードを含む文章)の正確な更新時期に基づく検索対象の情報の検索を実現することができ、指定したキーワードを含みかつ最近更新された新しい情報の収集を所望している場合にも、例えば更新日時の範囲として現在の日時を含む比較的狭い範囲を指定する等により、指定したキーワードは含むものの該キーワードを含む部分とは別の部分が更新されたことで最終更新日時が最近の日時となっているウェブ文書を検索対象から除外させ、指定したキーワードを含みかつ該キーワードを含む文章が最近更新されたウェブ文書のみを検索させることができる。
また、ウェブ文書の中には、ウェブ文書の発信者の氏名を表す氏名情報、発信者の電子メールのアドレスを表すメールアドレス情報が設定された発信者識別文書が前記ウェブ文書と別に存在しているウェブ文書がある。この種のウェブ文書では、対応する発信者識別文書の場所を表す第2場所情報(例えばURL等のURI)がウェブ文書中に設定される。なお、上記の要約文書としては、例えば請求項5に記載したように、FOAFフォーマットに従って記述されたXML文書が挙げられる。
請求項1記載の発明において、上記の発信者識別文書を利用し、例えば請求項4に記載したように、第1取得手段は、ウェブサーバから順次受信するウェブ文書の情報に上記の第2場所情報が含まれているか否かも監視し、第1場所情報又は第2場所情報を検知すると、検知した場所情報を、該場所情報に対応する文書の種別を表す種別情報及びウェブ文書の場所を表す第3場所情報と対応付けて第1記憶手段に記憶させ、第2取得手段は、第1記憶手段に記憶されている第2場所情報に基づいてウェブサーバからの発信者識別文書の取得も定期的に行い、更新履歴生成手段は、更新履歴情報を第3場所情報と対応付けて第2記憶手段に記憶させると共に、第2取得手段によって取得された発信者識別文書が初めて取得された発信者識別文書である場合には、取得された発信者識別文書から氏名情報及びメールアドレス情報を抽出し、第3場所情報と対応付け発信者情報として第2記憶手段に記憶させ、第2取得手段によって取得された発信者識別文書が過去にも取得が行われた発信者識別文書であり、かつ取得された発信者識別文書に含まれる氏名情報及びメールアドレス情報が、第2記憶手段に記憶されている対応する発信者情報に含まれる氏名情報又はメールアドレス情報と相違している場合には、対応する発信者情報に含まれる氏名情報又はメールアドレス情報を、取得された発信者識別文書に含まれる氏名情報又はメールアドレス情報へ更新するようにしてもよい。
請求項4記載の発明では、対応する発信者識別文書が存在しているウェブ文書については発信者識別文書が定期的に取得され、発信者識別文書に含まれる氏名情報及びメールアドレス情報が発信者情報として第2記憶手段に記憶されると共に、発信者識別文書に含まれる氏名情報又はメールアドレス情報が変更される毎に、発信者情報として記憶している氏名情報又はメールアドレス情報が更新される。また、請求項4記載の発明では、更新履歴情報がウェブ文書の場所を表す第3場所情報と対応付けて第2記憶手段に記憶されると共に、発信者情報も第3場所情報と対応付けて第2記憶手段に記憶される。このため、対応する要約文書に加えて対応する発信者識別文書も存在しているウェブ文書については、対応する更新履歴情報及び発信者情報が第2記憶手段に各々記憶されると共に、これらが同一の第3場所情報によって対応付けされることになる。従って、或る検索条件に基づく検索によって抽出されたウェブ文書が、第2記憶手段に発信者情報が記憶されているウェブ文書であった場合に、第3場所情報をキーとして対応する発信者情報を特定することができ、前記ウェブ文書の発信者の氏名及び電子メールのアドレスを認識することが可能となる。
また、請求項4記載の発明において、例えば請求項6に記載したように、検索条件としてキーワード及び更新日時の範囲が指定されると、第2記憶手段に記憶されている更新履歴情報のうち、更新日時情報が表す更新日時が指定された更新日時の範囲内で、かつ要約情報に指定されたキーワードが含まれている要約情報及び更新日時情報を検索し、該当する要約情報及び更新日時情報を検索結果として出力すると共に、検索結果として出力する要約情報及び更新日時情報を含む更新履歴情報と同一の第3場所情報と対応付けられて第2記憶手段に記憶されている発信者情報を検索し、該当する発信者情報が抽出された場合は、抽出された発信者情報に含まれる氏名情報及びメールアドレス情報を、要約情報及び前記更新日時情報と共に出力する検索手段を設けることが好ましい。これにより、先に説明した請求項3記載の発明と同様に、ウェブ文書上での検索対象の情報(例えば指定されたキーワードを含む文章)の正確な更新時期に基づく検索対象の情報の検索を実現できると共に、検索によって抽出されたウェブ文書が、対応する発信者識別文書が存在しているウェブ文書であった場合には、前記ウェブ文書の発信者の氏名及び電子メールアドレスも出力されることになるので、検索によって抽出されたウェブ文書の発信者へ電子メールを送信することも可能となる。
請求項7記載の発明に係る更新履歴生成プログラムは、第1記憶手段及び第2記憶手段を備えたコンピュータを、ウェブサーバに対してウェブ文書の配信を要求し、ウェブ文書の各項目毎の内容の要約を表す要約情報と前記各項目毎の更新日時を表す更新日時情報と前記ウェブ文書の最終更新日時を表す最終更新日時情報を含み、前記ウェブ文書が更新される毎に更新された項目に対応する前記要約情報及び前記更新日時情報と前記最終日時情報が更新される要約文書が存在するウェブ文書について、前記ウェブ文書中に設定される前記要約文書の場所を表す第1場所情報が、前記ウェブサーバから順次受信する前記ウェブ文書の情報に含まれているか否かを監視し、前記第1場所情報を検知すると前記ウェブサーバとの通信を切断すると共に、検知した第1場所情報を第1記憶手段に記憶させることを、不特定のウェブ文書について各々行う第1取得手段、前記第1記憶手段に記憶されている第1場所情報に基づいて、ウェブサーバから前記要約文書を定期的に取得する第2取得手段、及び、前記第2取得手段によって取得された要約文書が初めて取得された要約文書である場合には、前記取得された要約文書からウェブ文書の各項目毎の前記要約情報及び前記更新日時情報と前記最終更新日時情報を各々抽出し更新履歴情報として第2記憶手段に記憶させ、前記第2取得手段によって取得された要約文書が過去にも取得が行われた要約文書であり、かつ前記取得された要約文書に含まれる最終更新日時情報が表す最終更新日時が、前記第2記憶手段に記憶されている対応する更新履歴情報に含まれる最終更新日時情報が表す最終更新日時よりも後である場合には、前記対応する更新履歴情報に含まれる最終更新日時情報が表す最終更新日時よりも後に更新されたウェブ文書の特定項目に対応する前記要約情報及び前記更新日時情報を前記取得された要約文書から抽出して前記更新履歴情報に追加すると共に、前記対応する更新履歴情報に含まれる最終日時情報を前記取得された要約文書に含まれる最終更新日時情報が表す最終更新日時へ更新する更新履歴生成手段として機能させる。
請求項7記載の発明に係る更新履歴生成プログラムは、第1記憶手段及び第2記憶手段を備えたコンピュータを、上記の第1取得手段、第2取得手段及び更新履歴生成手段として機能させるためのプログラムであるので、上記コンピュータが請求項7記載の発明に係る更新履歴生成プログラムを実行することにより、上記コンピュータが請求項1に記載の更新履歴生成装置として機能することになり、請求項1記載の発明と同様に、ウェブ文書の更新がより短い時間で検索結果に反映されると共に、ウェブ文書上での検索対象の情報の正確な更新時期に基づく検索対象の情報の検索が実現可能になる。
以上説明したように本発明は、ウェブ文書の各項目毎の内容の要約を表す要約情報と各項目毎の更新日時を表す更新日時情報とウェブ文書の最終更新日時を表す最終更新日時情報を含み、ウェブ文書が更新される毎に更新された項目に対応する要約情報及び更新日時情報と最終日時情報が更新される要約文書が存在するウェブ文書について、前記ウェブ文書中に設定される要約文書の場所を表す第1場所情報が、ウェブ文書の配信を要求することでウェブサーバから順次受信するウェブ文書の情報に含まれているか否かを監視し、第1場所情報を検知すると通信を切断すると共に、検知した第1場所情報を第1記憶手段に記憶させることを、不特定のウェブ文書について各々行う行うと共に、第1記憶手段に記憶されている第1場所情報に基づいて、ウェブサーバから要約文書を定期的に取得し、取得した要約文書が初めて取得した要約文書である場合には、取得した要約文書から各項目毎の要約情報及び更新日時情報と最終更新日時情報を各々抽出し更新履歴情報として第2記憶手段に記憶させ、取得した要約文書が過去にも取得が行われた要約文書であり、かつ取得した要約文書に含まれる最終更新日時情報が表す最終更新日時が、第2記憶手段に記憶されている対応する更新履歴情報に含まれる最終更新日時情報が表す最終更新日時よりも後である場合には、対応する更新履歴情報に含まれる最終更新日時情報が表す最終更新日時よりも後に更新されたウェブ文書の特定項目に対応する要約情報及び更新日時情報を抽出して更新履歴情報に追加し、対応する更新履歴情報に含まれる最終日時情報を取得した要約文書に含まれる最終更新日時情報が表す最終更新日時へ更新するようにしたので、ウェブ文書の更新がより短い時間で検索結果に反映されると共に、ウェブ文書上での検索対象の情報の正確な更新時期に基づく検索対象の情報の検索が実現可能となる、という優れた効果を有する。
以下、図面を参照して本発明の実施形態の一例を詳細に説明する。図1には本実施形態に係るコンピュータ・システム10が示されている。コンピュータ・システム10は、多数台のウェブ・サーバ12及び多数台のクライアント端末14が接続されたインターネット16に、本発明に係る更新履歴生成装置として機能する収集・検索サーバ18が接続されて構成されている。ウェブ・サーバ12はHDD(ハード・ディスク・ドライブ)等の記憶手段にウェブ文書の情報(及び後述する要約文書や発信者識別文書の情報)を保管しており、クライアント端末14等から所定のウェブ文書の場所(URI)が指定されて所定のウェブ文書の情報の配信がインターネット16経由で要求される毎に、要求元のクライアント端末14等へ所定のウェブ文書の情報を送信する処理を行うことで、記憶手段に保管しているウェブ文書をインターネット16上に公開している。なお、クライアント端末14はパーソナル・コンピュータ(PC)であってもよいし、インターネット16にアクセスする機能を備えた携帯端末であってもよい。
収集・検索サーバ18は、例えばワークステーション等のコンピュータから成り、CPU18A、ROM18B、RAM18C、入出力ポート18Dを備え、これらがアドレスバス、データバス、制御バス等のバス18Eを介して互いに接続されている。また入出力ポート18Dには、通信制御装置20、ディスプレイ22、マウス24、キーボード26、HDD28が各々接続されており、収集・検索サーバ18は通信制御装置20を介してインターネット16に接続されている。また、通信制御装置20にはPC等から成り、ディスプレイ等から成る表示装置、キーボードやマウス等から成る入力装置を備えたクライアント端末30が接続されている。なお、図1ではクライアント端末30が収集・検索サーバ18に直接接続された構成が示されているが、これに限られるものではなく、クライアント端末30はLAN等のネットワークを介して収集・検索サーバ18に接続されていてもよい。
収集・検索サーバ18のHDD28には、メタ情報URI収集処理を行うためのメタ情報URI収集プログラム、更新履歴情報収集処理を行うための更新履歴情報収集プログラム及び発信者情報収集処理を行うための発信者情報収集プログラムが各々インストールされている(上記各処理については後述する)。これらのプログラムは請求項7に記載の更新履歴生成プログラムに対応しており、収集・検索サーバ18のCPU18Aがこれらのプログラムを実行することで、収集・検索サーバ18は本発明に係る更新履歴生成装置として機能する。また、詳細は後述するが、収集・検索サーバ18のHDD28の記憶領域には、URI情報DB(データベース)、更新履歴情報DB、発信者情報DBが各々記憶されている。
次に本実施形態の作用として、収集・検索サーバ18のCPU18Aがメタ情報URI収集プログラムを実行することで収集・検索サーバ18によって行われるメタ情報URI収集処理について、図2のフローチャートを参照して説明する。なお、このメタ情報URI収集処理は、RSSフォーマット又はATOMフォーマットに従って記述されたXML文書である要約文書及びFOAFフォーマットに従って記述されたXML文書である発信者識別文書が存在しているウェブ文書を探索し、該当するウェブ文書に対応する要約文書や発信者識別文書のURIを収集してURI情報DBに記憶させる処理であり、収集・検索サーバ18によって常時又は定期的に実行される。このメタ情報URI収集処理は、本発明に係る第1取得手段(詳しくは請求項4に記載の第1取得手段)に相当する処理である。また、本実施形態では上記の要約文書と発信者識別文書を「メタ情報」と総称している。
ステップ100では多数台のウェブ・サーバ12によってインターネット16上で公開されている膨大な数のウェブ文書のうち、アクセス(情報取得)を行うウェブ文書のURIを決定する。このURIの決定は、例えばURIとしてURLを用いる場合には、スキーム名として「http」と設定すると共に、サーバ名としては公開されている多数のサーバ名の中から任意のサーバ名を選択・設定し、ウェブ・サーバ12内でのHTML文書の場所(パス)を表すパス名は乱数等を用いて設定することで行うことができる。ステップ102ではステップ100で決定したURIに対応するウェブ文書の配信を、該ウェブ文書を保管しているウェブ・サーバ12に対して要求する。ステップ104では、上記のウェブ・サーバ12と通信が可能か否か判定する。ステップ100で決定したURIに対応するウェブ文書が存在していない場合や、決定したURIに対応するウェブ文書は存在しているものの、該ウェブ文書を保管しているウェブ・サーバ12が稼働していなかった等の場合には上記判定が肯定され、何ら処理を行うことなくステップ126へ移行する。
一方、ステップ104の判定が肯定された場合はステップ106へ移行し、ウェブ・サーバ12から送信されるウェブ文書(HTML文書)の情報をインターネット16経由で順次受信すると共に、受信した情報の中に文字列「</HEAD>」及び文字列「<BODY>」が存在しているか否か判定する。判定が否定された場合はステップ108へ移行し、ウェブ文書の情報の受信が終了したか否か判定する。この判定も否定された場合はステップ106に戻り、何れかの判定が肯定される迄ステップ106、108を繰り返す。例として図5に示すように、対応するメタ情報が存在しているウェブ文書(HTML文書)には文字列「</HEAD>」及び文字列「<BODY>」が存在しており、この文字列「</HEAD>」及び文字列「<BODY>」の前に各メタ文書のURI等が設定されたリンク情報が各々存在している。ステップ108の判定が肯定された場合、ウェブ・サーバ12から情報を受信したウェブ文書にはリンク情報が設定されておらず、対応するメタ情報が存在していないと判断できるので、何ら処理を行うことなくステップ126へ移行する。
また、ステップ106の判定が肯定された場合(文字列「</HEAD>」及び文字列「<BODY>」を検知した場合)はステップ110へ移行し、ウェブ・サーバ12から既に受信した情報をメモリ(RAM18C等)に保存し、ウェブ・サーバ18との通信を切断する。上記の文字列</HEAD>及び文字列<BODY>は通常、ウェブ文書の情報のうちの先頭に近い位置に存在しており(従ってリンク情報も先頭に近い位置に存在している)、ステップ106の判定が肯定されると通信を切断することで、ウェブ・サーバ12との通信は非常に短い時間で完了する。ステップ112では、ステップ110でメモリに保存した受信済み情報に対し、各種メタ情報(RSSフォーマットに従って記述された要約文書(以下、RSS要約文書と称する)、ATOMフォーマットに従って記述された要約文書(以下、ATOM要約文書と称する)及びFOAFフォーマットに従って記述された発信者識別文書)に対応するリンク情報を検索し、該当するリンク情報が存在していた場合にはメタ情報のURIを抽出する。なお、RSS要約文書に対応するリンク情報とATOM要約情報に対応するリンク情報が各々存在していた場合、何れか一方のリンク情報(例えばATOM要約情報に対応するリンク情報)のURIのみを抽出するようにしてもよい。
具体的には、図5に示すように、RSS要約文書のリンク情報は、文字列「<LINK」と文字列「/>」によって挟まれ、かつ文字列「type="application/rss+xml"」を含む文字列であり、この文字列のうち、文字列「href="」と文字「"」によって挟まれた文字列(図5の例では「http://・・・」)がRSS要約文書のURIを表している。ステップ112では、ウェブ文書の情報の中に上記の条件に該当する文字列が存在していた場合に、当該文字列を抽出してRSS要約文書のURIとしてメモリ等に一時保存する。また、ATOM要約文書のリンク情報は、文字列「<LINK」と文字列「/>」によって挟まれ、かつ文字列「type="application/atom+xml"」を含む文字列であり、この文字列のうち、文字列「href="」と文字「"」によって挟まれた文字列(図5の例では「http://・・・」)がATOM要約文書のURIを表している。ステップ112では、ウェブ文書の情報の中に上記の条件に該当する文字列が存在していた場合に、当該文字列を抽出してATOM要約文書のURIとしてメモリ等に一時保存する。また、発信者識別文書のリンク情報は、文字列「<LINK」と文字列「/>」によって挟まれ、かつ文字列「type="application/rdf+xml"」を含む文字列であり、この文字列のうち、文字列「href="」と文字「"」によって挟まれた文字列(図5の例では「http://・・・」)が発信者識別文書のURIを表している。ステップ112では、ウェブ文書の情報の中に上記の条件に該当する文字列が存在していた場合に、当該文字列を抽出して発信者識別文書のURIとしてメモリ等に一時保存する。なお、上記の各メタ文書のURIのうち、RSS要約文書のURI及びATOM要約文書のURIは本発明に係る第1場所情報に、発信者識別文書のURIは本発明に係る第2場所情報に対応している。
次のステップ114では、ステップ112の処理により、少なくとも1つのメタ情報のURIを抽出できたか否か判定する。判定が否定された場合、ウェブ・サーバ12から情報を受信したウェブ文書には対応するメタ情報が存在していないと判断できるので、何ら処理を行うことなくステップ126へ移行する。また、ステップ114の判定が肯定された場合はステップ116へ移行し、ウェブ文書のURIをキーとしてURI情報DBを検索する。そしてステップ118では、ステップ116の検索によって該当するURI情報が抽出されたか否か判定する。
本実施形態に係るメタ情報URI収集処理では、対応するメタ情報が存在している新たなウェブ文書が発見される毎に、例として図6(A)に示すように、該ウェブ文書から抽出したメタ情報のURIをウェブ文書のURIと対応付け、URI情報DBにURI情報として登録しているので、ステップ116の検索によって該当するURI情報が抽出されなかった場合、今回の処理対象であるウェブ文書は、対応するメタ情報が存在している新たなウェブ文書であると判断できる。このため、ステップ118の判定が否定された場合はステップ120へ移行し、処理対象のウェブ文書から取得してメモリに一時保存しているメタ情報のURIを、メタ情報の種別(RSS要約文書/ATOM要約文書/発信者識別文書)を表す情報及びウェブ文書のURIと対応付け、URI情報DBにURI情報(図6(A)も参照)として新規に登録した後にステップ126へ移行する。このように、URI情報DBを記憶するHDDは本発明に係る第1記憶手段(詳しくは請求項4に記載の第1記憶手段)に対応している。また、対応するメタ情報が存在しているウェブ文書のURI(URI情報DBに登録するURI情報に含まれるウェブ文書のURI)は本発明に係る第3場所情報に対応している。
一方、ステップ116の検索によって該当するURI情報が抽出された場合には、今回の処理対象であるウェブ文書は、メタ情報URI収集処理によって過去にURI情報の登録が行われたウェブ文書であると判断できるので、ステップ118の判定が肯定されてステップ122へ移行し、処理対象のウェブ文書から取得してメモリに一時保存しているメタ情報のURIを、先のステップ116の検索によって抽出されたURI情報に設定されているメタ情報のURIと比較し、今回取得したメタ情報のURIがURI情報に設定されているメタ情報URIと一致しているか否か判定する。なお、処理対象のウェブ文書から複数種のメタ情報のURIが抽出された場合、上記のURIの比較はメタ情報の種別毎に行われる。
ステップ122の判定が肯定された場合は何ら処理を行うことなくステップ126へ移行する。また、メタ情報のURIが変更されたり、新たなメタ情報が追加されていた場合には、ステップ122の判定が否定されてステップ124へ移行し、処理対象のウェブ文書から取得したメタ情報のURIを、ステップ116の検索によって抽出されたURI情報の中に同一種別のURIが存在していれば該URIに上書きし、前記URI情報の中に同一種別のURIが存在していなければ前記URI情報に追加することでURI情報DBに登録する。次のステップ126では、メタ情報URI収集処理を終了するか否か判定する。判定が否定された場合はステップ100に戻り、ステップ100以降の処理を繰り返す。また、ステップ126の判定が肯定されると処理を終了する。
上記のメタ情報URI収集処理により、対応するメタ情報(RSS要約文書、ATOM要約文書及び発信者識別文書の少なくとも1つ)が存在しているウェブ文書を発見する毎に、該ウェブ文書からメタ情報のURIを取得し、取得したURIがURI情報DBに未登録であればURI情報DBに新規又は上書きして登録することが繰り返されるので、URI情報DBは、インターネット16に公開されているウェブ文書のうち対応するメタ情報が存在しているウェブ文書の各々について、対応するメタ情報の最新のURIが登録されている状態に保たれることになる。
次に、収集・検索サーバ18のCPU18Aが更新履歴情報収集プログラムを実行することで収集・検索サーバ18によって行われる更新履歴情報収集処理について、図3のフローチャートを参照して説明する。なお、この更新履歴情報収集処理は、URI情報DBにURIが記憶されているRSS要約文書又はATOM要約文書を取得し、取得した要約文書から抽出した情報を更新履歴情報DBに更新履歴情報として記憶させる処理であり、この更新履歴情報収集処理も先に説明したメタ情報URI収集処理と同様、収集・検索サーバ18によって常時又は定期的に実行される。
ステップ130では、URI情報DBからRSS要約文書又はATOM要約文書のURIを取り込み、次のステップ132では、ステップ130で取り込んだURIに対応する要約文書の配信を、該要約文書を保管しているウェブ・サーバ12に対して要求する。ステップ134では上記のウェブ・サーバ12と通信が可能か否か判定する。例えばウェブ・サーバ12が稼働していなかった等の場合には前記判定が肯定され、何ら処理を行うことなくステップ156へ移行する。また、ステップ134の判定が肯定された場合はステップ136へ移行し、ウェブ・サーバ12からの情報の受信を待ち、情報を受信すると該情報をメモリに一時保存させた後に、要約文書の情報を上記のウェブ・サーバ12から取得できたか否か判定する。なお、上述したステップ130〜ステップ136は本発明に係る第2取得手段に対応している。
ウェブ・サーバ12から受信した情報が、指定されたURIに対応する要約文書が存在していないことを意味する情報であった場合には、例えばウェブ文書の情報中のリンク情報の記述が誤っていた等の原因が考えられるので、上記判定が肯定されてステップ138へ移行し、ステップ130で取り込んだ要約文書のURIをURI情報DBから削除した後にステップ156へ移行する。なお、ステップ138において、削除したURIが設定されていたURI情報が、前記削除したURIのみがメタ情報のURIとして設定された情報であった場合には、当該URI情報自体もURI情報DBから削除する。
一方、ウェブ・サーバ12から受信してメモリに一時保存させた情報が要約文書の情報であった場合には、ステップ136の判定が肯定されてステップ140へ移行し、先のステップ130で取り込んだ要約文書のURIと対応付けられてURI情報DBに記憶されているウェブ文書(上記の要約文書に対応するウェブ文書)のURIをキーにして更新履歴情報DBを検索する。そしてステップ142では、ステップ140の検索によって該当する更新履歴情報が抽出されたか否か判定する。
一般にウェブ文書(HTML文書)には項目毎にタイトルが付与される。RSS要約文書やATOM要約文書は、対応するウェブ文書の見出しや要約を提示する文書であり、具体的には、例として図5に示すように、対応するウェブ文書の各項目(別々にタイトルが付与される部分を単位とする各部分)毎に、タイトル、要約文、更新日時、対応する本文のURI等の属性情報が文字列として設定される(なお、図5では各要約文書のうちウェブ文書中の単一の項目に対応する部分を抜粋して示している)。また、図示は省略するが、RSS要約文書やATOM要約文書は、上述した各項目毎の属性情報以外に、対応するウェブ文書の最終更新日時も文字列として設定される。RSS要約文書やATOM要約文書は、所定のプログラムが実行されることで自動的に生成されると共に、対応するウェブ文書が更新される毎に、更新された項目に対応する属性情報が更新され(更新日時が更新されると共に、タイトルが更新されればタイトルも、内容が更新されれば要約文も更新される)、かつ最終更新日時も更新される。
詳細は後述するが、本実施形態に係る更新履歴情報収集処理では、新たな要約文書を取得する毎に、例として図6(B)に示すように、取得した要約文書から各項目に対応する属性情報と最終更新日時を抽出し、抽出した各情報を対応するウェブ文書のURIと対応付け、更新履歴情報DBに更新履歴情報として登録しているので、ステップ140の検索によって該当する更新履歴情報が抽出されなかった場合、今回取得した要約文書は、過去に取得されていない要約文書であると判断できる。このため、ステップ142の判定が否定された場合はステップ144へ移行し、取得した要約文書からウェブ文書の各項目毎の属性情報(タイトル、要約文、更新日時、本文URI)を各々抽出すると共に、最終更新日時を抽出する。
具体的には、RSS要約文書では、図5に示すように文字列「<item>」と文字列「</item>」によって挟まれた文字列がウェブ文書中の単一の項目に対応する情報であり、この文字列のうち、文字列「<title>」と文字列「</title>」によって挟まれた文字列が対応する項目のタイトルを、文字列「<description>」と文字列「</description>」によって挟まれた文字列が対応する項目の要約文を、文字列「<dc:date>」と文字列「</dc:date>」によって挟まれた文字列が対応する項目の更新日時を、文字列「<link>」と文字列「</link>」によって挟まれた文字列が対応する本文(ウェブ文書)のURIを各々表している。またRSS要約文書では、要約文書中に最初に出現する文字列「<item>」と文字列「</item>」によって挟まれた文字列のうち、文字列「<dc:date>」と文字列「</dc:date>」によって挟まれた文字列がRSS要約文書の最終更新日時を表している。このため、取得した要約文書がRSS要約文書であった場合、ステップ144では上記の条件に従ってウェブ文書の各項目毎の属性情報を各々抽出すると共に最終更新日時を抽出する。
また、ATOM要約文書では、図5に示すように文字列「<entry>」と文字列「</entry>」によって挟まれた文字列がウェブ文書中の単一の項目に対応する情報であり、この文字列のうち、文字列「<title>」と文字列「</title>」によって挟まれた文字列が対応する項目のタイトルを、文字列「<summary>」と文字列「</summary>」によって挟まれた文字列が対応する項目の要約文を、文字列「<modified>」と文字列「</modified>」によって挟まれた文字列が対応する項目の更新日時を各々表している。また、ウェブ文書中の単一の項目に対応する文字列の中に、文字列「<link」と文字列「/>」によって挟まれた文字列が存在し、かつ該文字列中に文字列「type="text/html"」が存在している場合、それに続く文字列「href="」と文字「"」で挟まれた文字列は対応する本文(ウェブ文書)のURIを表している。更にATOM要約文書では、要約文書中に最初に出現する文字列「<entry>」と文字列「</entry>」によって挟まれた文字列のうち、文字列「<modified>」と文字列「</modified>」によって挟まれた文字列がATOM要約文書の最終更新日時を表している。このため、取得した要約文書がATOM要約文書であった場合、ステップ144では上記の条件に従ってウェブ文書の各項目毎の属性情報を各々抽出すると共に最終更新日時を抽出する。
ステップ146では、要約文書から抽出したウェブ文書の各項目毎の属性情報に、要約文書から抽出したウェブ文書の最終更新日時を付加し、対応するウェブ文書のURIと対応付けて更新履歴情報DBに更新履歴情報(図6(B)も参照)として新規に登録した後に、ステップ156へ移行する。
一方、ステップ140の検索によって該当する更新履歴情報が抽出された場合には、今回取得した要約文書は、更新履歴情報収集処理によって過去に更新履歴情報の登録が行われた要約文書であると判断できるので、ステップ142の判定が肯定されてステップ148へ移行し、ステップ140の検索によって抽出された更新履歴情報から最終更新日時を取り込むと共に、取得した要約文書の情報から最終更新日時を抽出して両者を比較し、次のステップ150で両者が一致しているか否か判定する。判定が肯定された場合は、今回取得した要約文書は更新履歴情報収集処理によって以前に取得した要約文書と同一の内容と判断できるので、何ら処理を行うことなくステップ156へ移行する。
また、ステップ150の判定が否定された場合は、取得した要約文書に対応するウェブ文書は、該ウェブ文書に対応する要約文書を以前に取得してから現在迄の間に更新されており、今回取得した要約文書の内容は以前に取得した要約文書の内容と相違していると判断できる。このため、ステップ150の判定が否定された場合はステップ152へ移行し、今回取得した要約文書のうち各項目毎の属性情報に含まれる更新日時を、更新履歴情報DBから抽出した更新履歴情報に設定されている最終更新日時と各々比較することで、ウェブ文書のうち更新履歴情報DBから抽出した更新履歴情報に設定されている最終更新日時よりも後の日時に更新された項目に対応する属性情報を判断し、今回取得した更新履歴情報から該当する属性情報(タイトル、要約文、更新日時、本文URI)を抽出する。
そしてステップ154では、ステップ152で要約文書から抽出した属性情報を、更新履歴情報DBに登録されている更新履歴情報に新たに追加すると共に、当該更新履歴情報の最終更新日時を、今回取得した要約文書に設定されている最終更新日時で上書きすることで更新する。対応する要約文書が存在しているウェブ文書が更新されると、対応する要約文書上でも、ウェブ文書中の更新された項目に対応する属性情報が更新(上書き)されるが、本実施形態に係る更新履歴情報収集処理では、ウェブ文書中の特定項目が更新されたことに伴って対応する要約文書中の特定項目に対応する属性情報が更新される毎に、更新履歴情報DBに既に登録されている更新履歴情報に含まれる特定項目に対応する属性情報を更新後の属性情報で上書きすることなく、更新履歴情報DBに既に登録されている更新履歴情報に更新後の属性情報を追加するので、更新履歴情報には、対応するウェブ文書の更新履歴を表す情報が逐次蓄積されることになる。
次のステップ156では、更新履歴情報収集処理を終了するか否か判定する。判定が否定された場合はステップ130に戻り、ステップ130以降の処理を繰り返す。また、ステップ156の判定が肯定されると処理を終了する。なお、上記の更新履歴情報収集処理におけるステップ140〜ステップ156の処理は本発明に係る更新履歴生成手段に対応しており、請求項4に記載の「更新履歴情報を第3場所情報と対応付けて第2記憶手段に記憶させる」更新履歴生成手段にも対応している。
上記の更新履歴情報収集処理により、更新履歴情報DBに未登録の要約文書が発見される毎に、該要約文書から属性情報等が抽出され更新履歴情報として更新履歴情報DBに登録されると共に、更新履歴情報DBに更新履歴情報として既に登録されている要約文書が更新されたことが発見される毎に、更新された要約文書から更新された属性情報のみが抽出され、更新履歴情報DBに既に登録されている更新履歴情報へ追加することが繰り返されることになる。要約文書は対応するウェブ文書よりも確実に情報量が少なく、ウェブ文書本体の情報を全て取得する場合よりも短時間で通信が終了するので、ウェブ文書本体の情報を全て取得して各ウェブ文書の更新履歴を収集する場合と比較して、ウェブ文書の更新がより短い時間で更新履歴情報DBに反映されることになり、更新履歴情報DBは、インターネット16に公開されているウェブ文書のうち対応する要約情報が存在しているウェブ文書の各々の最新の更新履歴が登録されている状態に保たれることになる。
更に、収集・検索サーバ18のCPU18Aが発信者情報収集プログラムを実行することで収集・検索サーバ18によって行われる発信者情報収集処理について、図4のフローチャートを参照して説明する。なお、この発信者情報収集処理は、URI情報DBにURIが記憶されている発信者識別文書を取得し、取得した発信者識別文書から抽出した情報を発信者情報DBに発信者情報として記憶させる処理であり、この発信者情報収集処理も先に説明したメタ情報URI収集処理、更新履歴情報収集処理と同様、収集・検索サーバ18によって常時又は定期的に実行される。
ステップ160では、URI情報DBから発信者識別文書のURIを取り込み、次のステップ162では、ステップ160で取り込んだURIに対応する発信者識別文書の配信を、該発信者識別文書を保管しているウェブ・サーバ12に対して要求する。ステップ164では上記のウェブ・サーバ12と通信が可能か否か判定する。例えばウェブ・サーバ12が稼働していなかった等の場合には前記判定が肯定され、何ら処理を行うことなくステップ186へ移行する。また、ステップ164の判定が肯定された場合はステップ166へ移行し、ウェブ・サーバ12からの情報の受信を待ち、情報を受信すると該情報をメモリに一時保存させた後に、発信者識別文書の情報を上記のウェブ・サーバ12から取得できたか否か判定する。なお、上述したステップ160〜ステップ166は請求項4に記載の第2取得手段に対応している。
ウェブ・サーバ12から受信した情報が、指定されたURIに対応する発信者識別文書が存在していないことを意味する情報であった場合には、例えばウェブ文書の情報中のリンク情報の記述が誤っていた等の原因が考えられるので、上記判定が肯定されてステップ168へ移行し、ステップ160で取り込んだ発信者識別文書のURIをURI情報DBから削除した後にステップ186へ移行する。なおステップ168において、削除したURIが設定されていたURI情報が、前記削除したURIのみがメタ情報のURIとして設定された情報であった場合には、当該URI情報自体もURI情報DBから削除する。
一方、ウェブ・サーバ12から受信してメモリに一時保存させた情報が発信者識別文書の情報であった場合には、ステップ166の判定が肯定されてステップ170へ移行し、先のステップ160で取り込んだ発信者識別文書のURIと対応付けられてURI情報DBに記憶されているウェブ文書(上記の発信者識別文書に対応するウェブ文書)のURIをキーにして発信者情報DBを検索する。そしてステップ172では、ステップ170の検索によって該当する発信者情報が抽出されたか否か判定する。
発信者識別文書は対応するウェブ文書の発信者を識別する情報を提示する文書であり、例として図5に示すように、対応するウェブ文書の発信者の氏名、発信者の電子メールのアドレス及びホームページのURIが設定される。詳細は後述するが、本実施形態に係る発信者情報収集処理では、新たな発信者識別文書を取得する毎に、例として図6(C)に示すように、取得した発信者識別文書から発信者の氏名、電子メールのアドレス及びホームページのURIを抽出し、抽出した情報に最終更新日時を付加し、対応するウェブ文書のURIと対応付けて発信者情報DBに発信者情報として登録しているので、ステップ170の検索によって該当する発信者情報が抽出されなかった場合には、今回取得した発信者識別文書は、過去に取得されていない発信者識別文書であると判断できる。このため、ステップ172の判定が否定された場合はステップ174へ移行し、取得した発信者識別文書から発信者の氏名、メールアドレス及びホームページのURIを抽出する。
なお、発信者識別文書では、図5に示すように文字列「<foaf:name>」と文字列「</foaf:name>」によって挟まれた文字列が発信者の氏名を、文字列「<foaf:mbox」と文字列「/>」によって挟まれた文字列のうち文字列「rdf:resource="」と文字「"」によって挟まれた文字列が発信者のメールアドレスのテキストを、文字列「<foaf:mbox_sha1sum>」と文字列「</foaf:mbox_sha1sum>」によって挟まれた文字列が発信者のメールアドレスのハッシュ値を、文字列「<foaf:homepage」と文字列「/>」によって挟まれた文字列のうち文字列「rdf:resource="」と文字「"」によって挟まれた文字列が発信者のホームページのURIを各々表している。このため、ステップ174では上記の条件に従ってウェブ文書の発信者の氏名、メールアドレス(テキスト及びハッシュ値の少なくとも一方)及びホームページのURIを各々抽出する。
そしてステップ176では、発信者識別文書から抽出した情報に現在の日時を最終更新日時として付加し、対応するウェブ文書のURIと対応付けて発信者情報DBに発信者情報(図6(C)も参照)として新規に登録した後に、ステップ186へ移行する。
一方、ステップ170の検索によって該当する発信者情報が抽出された場合には、今回取得した発信者識別文書は、発信者情報収集処理によって過去に発信者情報の登録が行われた発信者識別文書であると判断できるので、ステップ172の判定が肯定されてステップ178へ移行し、ステップ170の検索によって発信者情報DBから抽出された発信者情報に含まれる発信者氏名、メールアドレス、ホームページURIを、取得した発信者識別文書から抽出した発信者氏名、メールアドレス、ホームページURIと各々比較する。そしてステップ180では、両者の発信者氏名、メールアドレス、ホームページURIが各々一致したか否か判定する。ステップ180の判定が肯定された場合、今回取得した発信者識別文書は発信者情報収集処理によって以前に取得した発信者識別文書と同一の内容と判断できるので、何ら処理を行うことなくステップ186へ移行する。
また、ステップ180の判定が否定された場合は、今回取得した発信者識別文書は発信者情報収集処理によって以前に取得した発信者識別文書から更新されていると判断できるので、ステップ182において、発信者情報DBに登録されている発信者情報に設定されている各情報のうち、今回取得した発信者識別文書から取得した各情報と一致していない情報を、発信者識別文書から抽出した情報により上書きすることで、発信者情報DBに登録されている発信者情報を更新する。また、ステップ184では現在の日時を取得し、発信者情報DBに登録されている発信者識別情報のうちの最終更新日時を取得した現在の日時へ更新する。次のステップ186では発信者情報収集処理を終了するか否か判定する。判定が否定された場合はステップ160に戻り、ステップ160以降の処理を繰り返す。また、ステップ186の判定が肯定されると処理を終了する。なお、上述した発信者情報収集処理のステップ170〜ステップ186は請求項4に記載の更新履歴生成手段に対応している。
上記の発信者情報収集処理により、発信者情報DBに未登録の発信者識別文書を発見する毎に、該発信者識別文書から発信者の属性情報(発信者氏名、メールアドレス、ホームページURI)を抽出し発信者情報として発信者情報DBに登録し、発信者情報DBに発信者情報として既に登録されている発信者識別文書が更新されたことを発見する毎に、該発信者識別文書に設定されている各情報のうち更新された情報を、発信者情報DBに既に登録されている発信者情報に上書きして登録することが繰り返されるので、発信者情報DBは、発信者識別文書によってインターネット16に公開されている各発信者の最新の属性情報が登録されている状態に保たれることになる。
続いて、収集・検索サーバ18のCPU18Aが情報検索プログラムを実行することで収集・検索サーバ18によって行われる情報検索処理について、図7のフローチャートを参照して説明する。収集・検索サーバ18は、クライアント端末30から検索処理の実行が要求されると、検索処理に用いるキーワードを指定させるための検索キーワード入力画面(例えば図8(A)参照)や、検索対象の情報の更新日時の範囲を指定させるための更新日時指定画面(図示省略)の情報を順次クライアント端末30へ転送することで、クライアント端末30の表示装置に上記各画面を順次表示させる。そして、クライアント端末30の操作者が入力装置を操作して各画面の入力欄に対応する情報を各々入力することで、実行すべき検索処理に用いるキーワード及び更新日時の範囲を指定する情報がクライアント端末30から送信され収集・検索サーバ18で受信されると、収集・検索サーバ18によって情報検索処理が実行される。なお、情報検索処理は請求項3,6に記載の検索手段に対応している。
この情報検索処理では、まずステップ190において、今回の情報検索処理で未取り出しの更新履歴情報を処理対象の更新履歴情報として更新履歴情報DBから取り出す。次のステップ192では、ステップ190で取り出した処理対象の更新履歴情報に設定されている各属性情報のうち、今回の情報検索処理で未取り出しの属性情報(対応するウェブ文書のうちの特定項目に対応するタイトル、要約文、更新日時、本文URIの各情報)を処理対象の属性情報として取り出す。ステップ194では処理対象の属性情報に含まれる更新日時をクライアント端末30から受信した更新日時の範囲と比較することで、処理対象の属性情報に含まれる更新日時がクライアント端末30から指定された更新日時の範囲内か否か判定する。また、この判定が肯定された場合はステップ196へ移行し、処理対象の属性情報のうちのタイトル及び要約文に対してクライアント端末30から受信したキーワードの検索を行うことで、処理対象の属性情報のうちのタイトル及び要約文に、クライアント端末30から指定されたキーワードが含まれているか否か判定する。
ステップ194の判定が否定された場合には、処理対象の属性情報に対応するウェブ文書本体の特定項目は、指定された更新日時の範囲外の日時に更新されたと判断することができる。また、ステップ196の判定が否定された場合には、処理対象の属性情報に対応するウェブ文書本体の特定項目は、指定されたキーワードとは無関係な内容である可能性が高いと判断することができる。このため、ステップ194又はステップ196の判定が否定された場合は何ら処理を行うことなくステップ206へ移行し、処理対象の更新履歴情報から全ての属性情報の取り出しを行ったか否か判定する。判定が否定された場合はステップ192に戻る。これにより、ステップ206の判定が肯定される迄の間、ステップ192〜ステップ206が繰り返され、処理対象の更新履歴情報に含まれる全ての属性情報を順に取り出しながら、取り出した属性情報に対してステップ192以降の処理が各々行われることになる。また、ステップ206の判定が肯定されるとステップ208へ移行し、更新履歴情報DBに記憶されている全ての更新履歴情報の取り出しを行ったか否か判定する。判定が否定された場合はステップ190に戻る。これにより、ステップ208の判定が肯定される迄の間、ステップ190〜ステップ208が繰り返され、更新履歴情報DBに記憶されている全ての更新履歴情報を順に取り出しながら、取り出した更新履歴情報(に設定されている各属性情報)に対してステップ190以降の処理が各々行われることになる。
また、更新履歴情報DBに記憶されている各更新履歴情報の各属性情報に対して上記処理が繰り返されている間に、特定の属性情報に関してステップ194,196の判定が各々肯定された場合(属性情報に含まれる更新日時が指定された更新日時の範囲内で、属性情報に含まれるタイトル又は要約文に指定されたキーワードが含まれている場合)にはステップ198へ移行し、該特定の属性情報を含む更新履歴情報に付加されている、対応するウェブ文書のURIを更新履歴情報DBから抽出し、特定の属性情報を抽出したウェブ文書のURIと共に検索結果としてメモリに保存する。また、ステップ200では、ステップ198で抽出した対応するウェブ文書のURIをキーに発信者情報DBを検索し、次のステップ202では、ステップ200の検索によって該当する発信者情報が抽出されたか否か判定する。この判定が否定された場合には何ら処理を行うことなくステップ206へ移行するが、前記判定が肯定された場合はステップ204へ移行し、ステップ200の検索によって抽出された発信者情報を発信者情報DBから読み出し、読み出した発信者情報を先のステップ198でメモリに保存した属性情報に付加した後に、ステップ206へ移行する。
そして、更新履歴情報DBに記憶されている各更新履歴情報の各属性情報に対して上記処理が完了すると、ステップ208の判定が肯定されてステップ210へ移行する。上記の情報検索処理では、殆どの場合、複数の検索結果がメモリに保存される。このため、ステップ210ではメモリに保存されている個々の検索結果に含まれる更新日時を参照し、個々の検索結果を更新日時の降順でソートする。そして、例として図8に示すように、検索結果をソート後の順序で表示するための検索結果一覧表示画面を生成し、生成した検索結果表示画面の情報をクライアント端末30へ送信して処理を終了する。これにより、クライアント端末30の表示装置には図8に示すような検索結果一覧表示画面が表示されることになる。なお、図8に示す検索結果一覧表示画面では、個々の検索結果毎にタイトル、要約文、更新日時、発信者(配信者)の氏名及びメールアドレスが文字列で表示されており、要約文の文字列には本文のURIがリンク付けされ、発信者の氏名の文字列には発信者のホームページのURIがリンク付けされている。
クライアント端末30の表示装置に表示された上記の検索結果一覧表示画面を参照することで、クライアント端末30の操作者は、指定したキーワードを含み、かつ指定した更新日時の範囲内に更新された情報(ウェブ文書の単一の項目に相当する情報)を認識することができ、特定の検索結果における要約文の文字列を選択することで、収集・検索サーバ18を介して対応する本文(ウェブ文書)の情報を取得し、前記対応する本文を表示装置に表示させて内容を確認することができる。また、特定の検索結果における発信者氏名の文字列を選択することで、収集・検索サーバ18を介して発信者のホームページの情報を取得し、前記発信者のホームページを表示装置に表示させて内容を閲覧することも可能となる。
このように、本実施形態では、ウェブ文書の更新がより短い時間で更新履歴情報DBに反映され、更新履歴情報DBは、インターネット16に公開されているウェブ文書のうち対応する要約情報が存在しているウェブ文書の各々の最新の更新履歴が登録されている状態に保たれるので、ウェブ文書の更新がより短い時間で検索結果に反映される。また、本実施形態では、ウェブ文書の各項目毎のタイトル、要約文、更新日時等の属性情報を更新履歴情報として記憶し、ウェブ文書が更新される毎に、該ウェブ文書のうち更新された項目の属性情報を更新履歴情報に追加すると共に、キーワード及び更新日時の範囲が指定されて検索が指示されると、更新日時が指定された更新日時の範囲内で、タイトル又は要約文に指定されたキーワードが含まれている属性情報を検索し、該当する属性情報を検索結果として出力するので、検索結果として、指定したキーワードを含み、かつ指定した更新日時の範囲内に更新された情報を提示することができる。
また、上述したコンピュータ・システム10を利用することで、現時点での個々の顧客のニーズを的確に把握し、現時点での個々の顧客のニーズに合致した商品を個々の顧客へ直ちに紹介することも可能となる。すなわち、近年、ブログ(blog)或いはウェブログ(Weblog)とも称され、個人運営で日々更新される日記的なウェブサイト(以下、単に個人サイトと称する)が広範に普及してきている。この種の個人サイトは、発信者の行動記録、発信者が興味を持ったニュースの評論、他のウェブサイトの紹介が掲載されることが多く、発信者に旅行や自動車・住宅の購入等の予定があればこれらの予定も発信者の個人サイトに掲載される可能性が高い。また、極めて高い頻度で更新されることが多いという特徴がある。
本実施形態に係るコンピュータ・システム10では、ウェブ文書の更新がより短い時間で更新履歴情報DBに反映されると共に、更新日時の範囲を指定することができるので、例えば旅行や車・住宅の購入等の予定に関連するキーワードを指定すると共に、ごく最近に更新された情報のみが検索対象となるように指定する更新日時の範囲を絞り込むことで、旅行や自動車・住宅の購入等の予定があることを情報として発信している個人サイトを容易に抽出することができる。また、本実施形態に係るコンピュータ・システム10では、検索結果に対応する発信者情報が存在している場合には、検索結果に発信者の氏名やメールアドレス等の発信者情報も付加されるので、検索結果に相当する情報を発信している発信者に対して電子メールを送信することも可能である。
このため、本実施形態に係るコンピュータ・システム10を利用した検索により、例えば旅行の予定があることを個人サイトで情報として発信している発信者を発見した場合には、この発信者に対して旅行ローンを紹介する電子メールを送信し、自動車を購入する予定があることを個人サイトで情報として発信している発信者を発見した場合には、この発信者に対して自動車ローンを紹介する電子メールを送信し、自動車を購入する予定があることを個人サイトで情報として発信している発信者を発見した場合には、この発信者に対して自動車ローンを紹介する電子メールを送信し、住宅を購入する予定があることを個人サイトで情報として発信している発信者を発見した場合には、この発信者に対して住宅ローンを紹介する電子メールを送信する等により、現時点での個々の顧客のニーズに合致した商品を個々の顧客へ直ちに紹介することができる。
なお、上記では収集・検索サーバ18に直接接続されたクライアント端末30から検索要求を受信すると、情報検索処理を行って検索結果をクライアント端末30へ送信する態様を説明したが、これに限定されるものではなく、インターネット16に接続された各クライアント端末14に対し、上記の情報検索処理を検索エンジンサービスとして提供するようにしてもよい。この場合、収集・検索サーバ18をウェブ・サーバとしても機能させるようにしてもよいが、例えば図1で破線で示すように、インターネット16に接続された特定のウェブ・サーバ12と収集・検索サーバ18(の通信制御装置20)を直接接続し、クライアント端末14から指定されたキーワードや更新日時の範囲等の情報が特定のウェブ・サーバ12から収集・検索サーバ18へ送信されると共に、収集・検索サーバ18によって実行された情報検索処理の結果が収集・検索サーバ18から特定のウェブ・サーバ12へ送信されるように構成し、この特定のウェブ・サーバ12によって検索キーワード入力画面のウェブページや検索結果一覧表示画面のウェブページがクライアント端末14へ配信されるようにした方が、収集・検索サーバ18の負荷が軽減されるので好ましい。
また、上記では発信者識別文書を取得し、発信者の氏名やメールアドレスを発信者情報DBに発信者情報として記憶しておき、検索結果に対応する発信者情報が存在している場合には、検索結果と共に発信者情報を出力する処理を行う例を説明したが、上記の処理は必須ではなく、省略してもよい。
本実施形態に係るコンピュータ・システムの概略構成を示すブロック図である。 メタ情報URI収集処理の内容を示すフローチャートである。 更新履歴情報収集処理の内容を示すフローチャートである。 発信者情報収集処理の内容を示すフローチャートである。 ウェブ文書本体と要約文書・発信者識別文書の内容の一例を示すイメージ図である。 (A)はURI情報DB、(B)は更新履歴情報DB、(A)は発信者情報DBの一例を各々示すイメージ図である。 情報検索処理の内容を示すフローチャートである。 (A)は検索キーワード入力画面の一例、(B)は検索結果一覧表示画面の一例を各々示すイメージ図である。
符号の説明
10 コンピュータ・システム
12 ウェブ・サーバ
16 インターネット
18 ウェブ・サーバ
18 収集・検索サーバ
28 HDD
30 クライアント端末

Claims (7)

  1. ウェブサーバに対してウェブ文書の配信を要求し、ウェブ文書の各項目毎の内容の要約を表す要約情報と前記各項目毎の更新日時を表す更新日時情報と前記ウェブ文書の最終更新日時を表す最終更新日時情報を含み、前記ウェブ文書が更新される毎に更新された項目に対応する前記要約情報及び前記更新日時情報と前記最終日時情報が更新される要約文書が存在するウェブ文書について、前記ウェブ文書中に設定される前記要約文書の場所を表す第1場所情報が、前記ウェブサーバから順次受信する前記ウェブ文書の情報に含まれているか否かを監視し、前記第1場所情報を検知すると前記ウェブサーバとの通信を切断すると共に、検知した第1場所情報を第1記憶手段に記憶させることを、不特定のウェブ文書について各々行う第1取得手段と、
    前記第1記憶手段に記憶されている第1場所情報に基づいて、ウェブサーバから前記要約文書を定期的に取得する第2取得手段と、
    前記第2取得手段によって取得された要約文書が初めて取得された要約文書である場合には、前記取得された要約文書からウェブ文書の各項目毎の前記要約情報及び前記更新日時情報と前記最終更新日時情報を各々抽出し更新履歴情報として第2記憶手段に記憶させ、前記第2取得手段によって取得された要約文書が過去にも取得が行われた要約文書であり、かつ前記取得された要約文書に含まれる最終更新日時情報が表す最終更新日時が、前記第2記憶手段に記憶されている対応する更新履歴情報に含まれる最終更新日時情報が表す最終更新日時よりも後である場合には、前記対応する更新履歴情報に含まれる最終更新日時情報が表す最終更新日時よりも後に更新されたウェブ文書の特定項目に対応する前記要約情報及び前記更新日時情報を前記取得された要約文書から抽出して前記更新履歴情報に追加すると共に、前記対応する更新履歴情報に含まれる最終日時情報を前記取得された要約文書に含まれる最終更新日時情報が表す最終更新日時へ更新する更新履歴生成手段と、
    を含む更新履歴生成装置。
  2. 前記要約文書はRSSフォーマット又はATOMフォーマットに従って記述されたXML文書であり、前記要約情報は、前記更新された部分のタイトルと該部分の要約文を含むことを特徴とする請求項1記載の更新履歴生成装置。
  3. 検索条件としてキーワード及び更新日時の範囲が指定されると、前記第2記憶手段に記憶されている更新履歴情報のうち、前記更新日時情報が表す更新日時が前記指定された更新日時の範囲内で、かつ前記要約情報に前記指定されたキーワードが含まれている前記要約情報及び前記更新日時情報を検索し、該当する前記要約情報及び前記更新日時情報を検索結果として出力する検索手段を更に備えたことを特徴とする請求項1記載の更新履歴生成装置。
  4. 前記第1取得手段は、ウェブ文書の発信者の氏名を表す氏名情報、前記発信者の電子メールのアドレスを表すメールアドレス情報が設定された発信者識別文書が存在するウェブ文書について、前記ウェブ文書の情報中に設定される前記発信者識別文書の場所を表す第2場所情報が、前記ウェブサーバから順次受信する前記ウェブ文書の情報に含まれているか否かも監視し、前記第1場所情報又は前記第2場所情報を検知すると、検知した場所情報を、該場所情報に対応する文書の種別を表す種別情報及び前記ウェブ文書の場所を表す第3場所情報と対応付けて第1記憶手段に記憶させ、
    前記第2取得手段は、前記第1記憶手段に記憶されている前記第2場所情報に基づいてウェブサーバからの前記発信者識別文書の取得も定期的に行い、
    前記更新履歴生成手段は、前記更新履歴情報を前記第3場所情報と対応付けて前記第2記憶手段に記憶させると共に、前記第2取得手段によって取得された発信者識別文書が初めて取得された発信者識別文書である場合には、前記取得された発信者識別文書から前記氏名情報及び前記メールアドレス情報を抽出し、前記第3場所情報と対応付け発信者情報として第2記憶手段に記憶させ、前記第2取得手段によって取得された発信者識別文書が過去にも取得が行われた発信者識別文書であり、かつ前記取得された発信者識別文書に含まれる前記氏名情報及び前記メールアドレス情報が、前記第2記憶手段に記憶されている対応する発信者情報に含まれる前記氏名情報又は前記メールアドレス情報と相違している場合には、前記対応する発信者情報に含まれる前記氏名情報又は前記メールアドレス情報を、前記取得された発信者識別文書に含まれる前記氏名情報又は前記メールアドレス情報へ更新する
    ことを特徴とする請求項1記載の更新履歴生成装置。
  5. 前記発信者識別文書はFOAFフォーマットに従って記述されたXML文書であることを特徴とする請求項4記載の更新履歴生成装置。
  6. 検索条件としてキーワード及び更新日時の範囲が指定されると、前記第2記憶手段に記憶されている更新履歴情報のうち、前記更新日時情報が表す更新日時が前記指定された更新日時の範囲内で、かつ前記要約情報に前記指定されたキーワードが含まれている前記要約情報及び前記更新日時情報を検索し、該当する前記要約情報及び前記更新日時情報を検索結果として出力すると共に、検索結果として出力する前記要約情報及び前記更新日時情報を含む更新履歴情報と同一の第3場所情報と対応付けられて前記第2記憶手段に記憶されている前記発信者情報を検索し、該当する発信者情報が抽出された場合は、抽出された発信者情報に含まれる前記氏名情報及び前記メールアドレス情報を、前記要約情報及び前記更新日時情報と共に出力する検索手段を更に備えたことを特徴とする請求項4記載の更新履歴生成装置。
  7. 第1記憶手段及び第2記憶手段を備えたコンピュータを
    ウェブサーバに対してウェブ文書の配信を要求し、ウェブ文書の各項目毎の内容の要約を表す要約情報と前記各項目毎の更新日時を表す更新日時情報と前記ウェブ文書の最終更新日時を表す最終更新日時情報を含み、前記ウェブ文書が更新される毎に更新された項目に対応する前記要約情報及び前記更新日時情報と前記最終日時情報が更新される要約文書が存在するウェブ文書について、前記ウェブ文書中に設定される前記要約文書の場所を表す第1場所情報が、前記ウェブサーバから順次受信する前記ウェブ文書の情報に含まれているか否かを監視し、前記第1場所情報を検知すると前記ウェブサーバとの通信を切断すると共に、検知した第1場所情報を第1記憶手段に記憶させることを、不特定のウェブ文書について各々行う第1取得手段、
    前記第1記憶手段に記憶されている第1場所情報に基づいて、ウェブサーバから前記要約文書を定期的に取得する第2取得手段、
    及び、前記第2取得手段によって取得された要約文書が初めて取得された要約文書である場合には、前記取得された要約文書からウェブ文書の各項目毎の前記要約情報及び前記更新日時情報と前記最終更新日時情報を各々抽出し更新履歴情報として第2記憶手段に記憶させ、前記第2取得手段によって取得された要約文書が過去にも取得が行われた要約文書であり、かつ前記取得された要約文書に含まれる最終更新日時情報が表す最終更新日時が、前記第2記憶手段に記憶されている対応する更新履歴情報に含まれる最終更新日時情報が表す最終更新日時よりも後である場合には、前記対応する更新履歴情報に含まれる最終更新日時情報が表す最終更新日時よりも後に更新されたウェブ文書の特定項目に対応する前記要約情報及び前記更新日時情報を前記取得された要約文書から抽出して前記更新履歴情報に追加すると共に、前記対応する更新履歴情報に含まれる最終日時情報を前記取得された要約文書に含まれる最終更新日時情報が表す最終更新日時へ更新する更新履歴生成手段
    として機能させる更新履歴生成プログラム。
JP2004283723A 2004-09-29 2004-09-29 更新履歴生成装置及びプログラム Withdrawn JP2006099341A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004283723A JP2006099341A (ja) 2004-09-29 2004-09-29 更新履歴生成装置及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004283723A JP2006099341A (ja) 2004-09-29 2004-09-29 更新履歴生成装置及びプログラム

Publications (1)

Publication Number Publication Date
JP2006099341A true JP2006099341A (ja) 2006-04-13

Family

ID=36239101

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004283723A Withdrawn JP2006099341A (ja) 2004-09-29 2004-09-29 更新履歴生成装置及びプログラム

Country Status (1)

Country Link
JP (1) JP2006099341A (ja)

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006139470A (ja) * 2004-11-11 2006-06-01 Nippon Telegraph & Telephone East Corp 情報提供装置および情報提供方法ならびにそのプログラム
JP2007300484A (ja) * 2006-05-01 2007-11-15 Softbank Mobile Corp 移動通信端末およびサーバ
JP2007299274A (ja) * 2006-05-01 2007-11-15 Softbank Mobile Corp 移動体通信端末
JP2007310833A (ja) * 2006-05-22 2007-11-29 Nippon Telegr & Teleph Corp <Ntt> サーバ装置とそのクライアント装置及びプログラム
JP2008158589A (ja) * 2006-12-20 2008-07-10 Oki Electric Ind Co Ltd 更新情報通知装置及び更新情報通知プログラム
JP2009188951A (ja) * 2008-02-08 2009-08-20 Sharp Corp 画像処理方法、画像処理装置、画像読取装置、画像形成装置、画像処理システム、プログラムおよび記録媒体
JP2009545815A (ja) * 2006-07-31 2009-12-24 マイクロソフト コーポレーション ウェブシンジケーションを介した双方向マルチマスタ同期
JP2010211708A (ja) * 2009-03-12 2010-09-24 Brother Ind Ltd 通信装置、およびプログラム
EP2057555A4 (en) * 2006-08-28 2010-10-13 Korea Inst Sci & Tech SYSTEM FOR MANAGING RESULT INFORMATION BASED ON THE URI AND METHOD THEREFOR
JP2010231426A (ja) * 2009-03-26 2010-10-14 Brother Ind Ltd 通信装置
JP2011039884A (ja) * 2009-08-14 2011-02-24 Internatl Business Mach Corp <Ibm> 文書を収集するためのシステムおよびプログラム
JP2011519443A (ja) * 2008-03-28 2011-07-07 アルカテル−ルーセント 少なくとも1つのコンテンツに関する相補データを特定する方法、前記相補データを送信する方法、ならびに関連処理装置およびアプリケーションサーバ
JP2011216115A (ja) * 2011-07-15 2011-10-27 Hitachi Ltd ダウンロード制御装置
JP2012009024A (ja) * 2010-06-24 2012-01-12 Nhn Corp 文書収集システムおよび方法
US8291013B2 (en) 2009-03-12 2012-10-16 Brother Kogyo Kabushiki Kaisha Communication apparatus and storage medium storing program
JP2015191558A (ja) * 2014-03-28 2015-11-02 Kddi株式会社 電子機器、検索方法及びプログラム
US9576063B2 (en) 2007-04-20 2017-02-21 Hitachi Maxell, Ltd. Download control device
CN107360240A (zh) * 2017-07-20 2017-11-17 广东小天才科技有限公司 一种数据更新方法及系统
CN111782798A (zh) * 2019-04-03 2020-10-16 阿里巴巴集团控股有限公司 摘要生成方法、装置和设备以及项目管理方法

Cited By (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006139470A (ja) * 2004-11-11 2006-06-01 Nippon Telegraph & Telephone East Corp 情報提供装置および情報提供方法ならびにそのプログラム
JP2007300484A (ja) * 2006-05-01 2007-11-15 Softbank Mobile Corp 移動通信端末およびサーバ
JP2007299274A (ja) * 2006-05-01 2007-11-15 Softbank Mobile Corp 移動体通信端末
JP2007310833A (ja) * 2006-05-22 2007-11-29 Nippon Telegr & Teleph Corp <Ntt> サーバ装置とそのクライアント装置及びプログラム
JP2009545815A (ja) * 2006-07-31 2009-12-24 マイクロソフト コーポレーション ウェブシンジケーションを介した双方向マルチマスタ同期
US7904405B2 (en) 2006-08-28 2011-03-08 Korea Institute Of Science & Technology Information System and method for managing outcome information based on URI data wherein knowledge is extended by using an inference rule for an inference service based on the Semantic Web
EP2057555A4 (en) * 2006-08-28 2010-10-13 Korea Inst Sci & Tech SYSTEM FOR MANAGING RESULT INFORMATION BASED ON THE URI AND METHOD THEREFOR
JP2008158589A (ja) * 2006-12-20 2008-07-10 Oki Electric Ind Co Ltd 更新情報通知装置及び更新情報通知プログラム
US11973821B2 (en) 2007-04-20 2024-04-30 Maxell, Ltd. Download control device
US11641390B2 (en) 2007-04-20 2023-05-02 Maxell, Ltd. Download control device
US9576063B2 (en) 2007-04-20 2017-02-21 Hitachi Maxell, Ltd. Download control device
US11271988B2 (en) 2007-04-20 2022-03-08 Maxell, Ltd. Download control device
US10834172B2 (en) 2007-04-20 2020-11-10 Maxell, Ltd. Download control device
US10200449B2 (en) 2007-04-20 2019-02-05 Maxell, Ltd. Download control device
US10187449B2 (en) 2007-04-20 2019-01-22 Maxell, Ltd. Download control device
JP2009188951A (ja) * 2008-02-08 2009-08-20 Sharp Corp 画像処理方法、画像処理装置、画像読取装置、画像形成装置、画像処理システム、プログラムおよび記録媒体
US8300944B2 (en) 2008-02-08 2012-10-30 Sharp Kabushiki Kaisha Image processing method, image processing apparatus, image reading apparatus, image forming apparatus, image processing system, and storage medium
JP2011519443A (ja) * 2008-03-28 2011-07-07 アルカテル−ルーセント 少なくとも1つのコンテンツに関する相補データを特定する方法、前記相補データを送信する方法、ならびに関連処理装置およびアプリケーションサーバ
JP2010211708A (ja) * 2009-03-12 2010-09-24 Brother Ind Ltd 通信装置、およびプログラム
US8291013B2 (en) 2009-03-12 2012-10-16 Brother Kogyo Kabushiki Kaisha Communication apparatus and storage medium storing program
JP2010231426A (ja) * 2009-03-26 2010-10-14 Brother Ind Ltd 通信装置
US8229934B2 (en) 2009-08-14 2012-07-24 International Business Machines Corporation System and program for collecting documents
JP2011039884A (ja) * 2009-08-14 2011-02-24 Internatl Business Mach Corp <Ibm> 文書を収集するためのシステムおよびプログラム
JP2012009024A (ja) * 2010-06-24 2012-01-12 Nhn Corp 文書収集システムおよび方法
JP2011216115A (ja) * 2011-07-15 2011-10-27 Hitachi Ltd ダウンロード制御装置
JP2015191558A (ja) * 2014-03-28 2015-11-02 Kddi株式会社 電子機器、検索方法及びプログラム
CN107360240A (zh) * 2017-07-20 2017-11-17 广东小天才科技有限公司 一种数据更新方法及系统
CN111782798A (zh) * 2019-04-03 2020-10-16 阿里巴巴集团控股有限公司 摘要生成方法、装置和设备以及项目管理方法
CN111782798B (zh) * 2019-04-03 2024-01-12 阿里巴巴集团控股有限公司 摘要生成方法、装置和设备以及项目管理方法

Similar Documents

Publication Publication Date Title
US12417254B2 (en) Systems and methods for dynamically creating hyperlinks associated with relevant multimedia content
US7788274B1 (en) Systems and methods for category-based search
US8276065B2 (en) System and method for classifying electronically posted documents
US7146415B1 (en) Information source monitor device for network information, monitoring and display method for the same, storage medium storing the method as a program, and a computer for executing the program
JP2006099341A (ja) 更新履歴生成装置及びプログラム
US8849818B1 (en) Searching via user-specified ratings
US7707142B1 (en) Methods and systems for performing an offline search
US20030033298A1 (en) System and method for integrating on-line user ratings of businesses with search engines
US9529861B2 (en) Method, system, and graphical user interface for improved search result displays via user-specified annotations
US20060200740A1 (en) MIME type detection for feeds
US6938034B1 (en) System and method for comparing and representing similarity between documents using a drag and drop GUI within a dynamically generated list of document identifiers
US20100042594A1 (en) Method and system for indexing information and providing results for a search including objects having predetermined attributes
US20030018669A1 (en) System and method for associating a destination document to a source document during a save process
JP2010257453A (ja) サーチクエリデータを用いて文書にタグ付けするシステム
JP4963619B2 (ja) 情報検索システム、情報検索装置、検索結果画面情報生成方法及び検索結果画面情報生成処理プログラム
US9064014B2 (en) Information provisioning device, information provisioning method, program, and information recording medium
US8589391B1 (en) Method and system for generating web site ratings for a user
JP2006309515A (ja) 情報配信方法および情報配信サーバ
JP4027568B2 (ja) インターネット上の複数の検索エンジンを使ってクリッピングサービスを行う情報処理装置
JP2004206492A (ja) ドキュメント表示方法およびそれを用いたリンク先選択機能付ゲートウェイ装置
JP2010134651A (ja) 商品idサーバ装置、および商品idサーバ装置の制御方法
JP2009301540A (ja) 情報検索装置及び情報検索方法
WO2000008570A1 (en) Information access
JP5297295B2 (ja) WWW情報閲覧システムと方法およびWebブラウザとプログラム
US20110208718A1 (en) Method and system for adding anchor identifiers to search results

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20071204