JP2004070957A - 検索システム - Google Patents
検索システム Download PDFInfo
- Publication number
- JP2004070957A JP2004070957A JP2003285107A JP2003285107A JP2004070957A JP 2004070957 A JP2004070957 A JP 2004070957A JP 2003285107 A JP2003285107 A JP 2003285107A JP 2003285107 A JP2003285107 A JP 2003285107A JP 2004070957 A JP2004070957 A JP 2004070957A
- Authority
- JP
- Japan
- Prior art keywords
- data
- database
- search
- page
- robot
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Transfer Between Computers (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【解決手段】 ネットワーク上でロボットを用いて収集したデータをもとにデータベースを作成し、データベース検索を行なう検索システムにおいて、外部からの参照要求に応答して取得されたデータおよびロボットを用いて収集されたデータを保持するキャッシュ手段と、外部から参照要求が与えられた場合に、前記キャッシュ手段に該当するデータが保持されているならば、前記キャッシュ手段からデータを提供し、前記キャッシュ手段に該当するデータが保持されていないならば、該データを保持する本来のサーバから該データを取得して提供するデータ提供手段とを備える。
【選択図】 図10
Description
清水 奨,WWWサーバ上の検索システム構築,Interface,日本,CQ出版株式会社,1996年 7月 1日,第22巻 第6号,第130頁乃至第139頁。
例えばWWW上のページデータが1996年で世界で4000万以上あると言われ、今後も指数関数的に増加すると予想される。現在、ページ数も、1ページあたりのデータ量も急激に増大する傾向にある。
このように急増するデータを単に量により分割するだけでは、データベース管理が極めて困難である。
一日に何度も更新されるデータについては、現在の検索システムではロボット探索対象から外している。この理由は、頻繁に更新されるデータをロボットで情報収集してデータベース化しても、そのデータが検索される前に更新されることが少なくないからである。このような場合には、検索結果に現れたページを見ても、既になくなっていたり、内容が全く別のものに変更されたために利用者の意図したものとは別ものもが表示されたりする不都合が生じる。
(手順2)ロボットは、探訪リストに従いページを取得する。
(手順3)取得されたページを解析してURLを抽出する。
(手順4)抽出されたURLを探訪リストに追加する(ただし、URLの重複登録はしない)。
以降、手順2〜4を繰り返す。なお、ページの取得頻度は、該ページの更新頻度に応じて決めるようにしても良い。
まず、第1の実施形態について説明する。
(a)統計的更新頻度情報によって分担
(b)最終更新時刻によって分担
(c)統計的更新頻度情報と最終更新時刻との総合的情報によって分担
ここで、(b)の最終更新時刻によって分担する方法について説明する。
(1)サイト単位に格納すべきデータベースを決定する。この場合には、サイト内のデータの更新頻度の平均値を評価値に用いる。
(2)サイト内のディレクトリ単位に格納すべきデータベースを決定する。この場合には、ディレクトリ内のデータの更新頻度の平均値を評価値に用いる。
(3)データ単位に格納すべきデータベースを決定する。この場合には、そのデータの更新頻度を評価値に用いる。
次に、第2の実施形態について説明する。
まず、ロボット602を用いて、探訪リストに従って、ネットワーク600を介して他のWWWサイトからデータを収集する。もし自身も独自コンテンツを持つWWWサイトであるならば、自身からもデータを収集する。
その収集したものをキャッシュ603に格納する。
キャッシュ603に格納されているものの中からデータベース化部604により検索用データベース605を作成する。例えば、語単位でのキーワード検索を行なう場合には、データベース化部604では、キャッシュ603内のデータを形態素解析し、語単位でデータベース化する。これにより、利用者から特定の語を含む情報を要求された場合に、即座にデータベース検索が可能となる。ここで、本検索装置では、データベース化するときのデータの在処として、そのデータを取得したネットワーク上のアドレス(URL)ではなく、キャッシュ603に格納されているデータのアドレスを用いる。
その要求は、データベース・フロントエンド(DBF)607に伝えられ、複数のデータベースがある場合には、適切なデータベースが選択され、それに検索要求を出す。
データベース・フロントエンド(DBF)607では、複数のデータベースに検索要求を出した場合には、それらの結果を取りまとめて、WWWフロントエンド606を介して利用者に検索結果を提示する。
利用者は、検索結果の中で、さらにその中身を見てみたいと思うものがあれば、検索装置601のWWWフロントエンド606に参照要求を出す。
WWWフロントエンド606では、参照を要求されたページが自キャッシュ603に格納されているものであるならば、該ページをキャッシュ603から取り出して参照要求者に返す。もし自キャッシュ603になければ、その旨を参照要求者に返す。
http://www.tsb.co.jp/foo/1246389.html
このような場合には、このファイルを再び取得するのではなく、このファイルへのリンクを張っているファイルを取得し、そのファイルからリンクを辿った先のファイルを取得する。
(1)ロボットで収集したものに限る、
(2)プロキシーとしてデータを保持しているものに限る、
(3)同じ名前もしくはアドレスを持つ情報については最新のものだけに限る、
(4)CGIなどにより動的もしくは対話的に生成された情報は除く、
(5)指定したサイト群やURL群に限る。
元のURL http://www.foo.co.jp/bar/index.html
検索装置のドメイン名 www.search.co.jp
新たなURL http://www.search.co.jp/www.foo.co.jp/bar/index.html
このようにすることにより、データのミラー化が実現できる。
検索装置のドメイン名 www.search.co.jp
新たなURL http://www.search.co.jp/www.foo.co.jp/bar/index.html
さらに、これに時刻の情報も付与する。例えば、1996年3月23日16:39から1996年4月30日10:23まで有効であったデータならば、以下のようにする。
また、以下のような変形も考えられる。
なお、以上説明した本発明の実施の形態における各構成は、相当する手順あるいは手段をコンピュータに実行させるためのプログラムを作成し、これをコンピュータに実行させることにより実現可能である。
100,110,120,200,300,401,410,601…検索装置
102,112,122,204,602…ロボット
101,101−1,101−2,111,121,605…データベース
131,132…WWWサイト
133…利用者端末
301,301−1,301−2,607…データベース・フロントエンド (DBF) 603…キャッシュ
604…データベース化部
606…WWWフロントエンド
708…ユーザ要求記録部
Claims (5)
- ネットワーク上でロボットを用いて収集したデータをもとにデータベースを作成し、データベース検索を行なう検索システムにおいて、
外部からの参照要求に応答して取得されたデータおよびロボットを用いて収集されたデータを保持するキャッシュ手段と、
外部から参照要求が与えられた場合に、前記キャッシュ手段に該当するデータが保持されているならば、前記キャッシュ手段からデータを提供し、前記キャッシュ手段に該当するデータが保持されていないならば、該データを保持する本来のサーバから該データを取得して提供するデータ提供手段とを備えたことを特徴とする検索システム。 - 外部から参照要求されたデータについての統計処理を行って、今後参照要求されるデータを予測する予測手段と、
予測されたデータおよび予め明示的に指定されたデータを、ロボットを用いて取得し前記キャッシュ手段にプリフェッチするプリフェッチ手段とをさらに備えたことを特徴とする請求項1に記載の検索システム。 - 前記プリフェッチ手段は、取得対象となるデータの更新頻度に応じた頻度で該データを取り直すことを特徴とする請求項1に記載の検索システム。
- 前記検索要求に応答して行う検索で対象とするデータの範囲の制約条件として、ロボットで収集されたデータに限る条件、外部からの参照要求に応答して取得されたデータに限る条件、同じ名前またはアドレスを持つデータについては最新のものだけに限る条件、動的または対話的に生成されたデータ以外のものに限る条件、および指定されたサイト群またはデータ群に限る条件のうち少なくとも1つを課すことを特徴とする請求項1に記載の検索システム。
- 前記キャッシュ手段は、取得されたデータにその更新時刻情報および収集時刻情報の少なくとも一方を付加して保持することを特徴とする請求項1に記載の検索システム。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2003285107A JP2004070957A (ja) | 2003-08-01 | 2003-08-01 | 検索システム |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2003285107A JP2004070957A (ja) | 2003-08-01 | 2003-08-01 | 検索システム |
Related Parent Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP24504996A Division JP4025379B2 (ja) | 1996-09-17 | 1996-09-17 | 検索システム |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JP2004070957A true JP2004070957A (ja) | 2004-03-04 |
Family
ID=32025738
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2003285107A Pending JP2004070957A (ja) | 2003-08-01 | 2003-08-01 | 検索システム |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP2004070957A (ja) |
Cited By (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2007087349A (ja) * | 2005-09-20 | 2007-04-05 | Mitsuhiro Ishizaka | 情報共有システム |
| JP2011039899A (ja) * | 2009-08-17 | 2011-02-24 | Nippon Telegr & Teleph Corp <Ntt> | Web情報取得方法および装置 |
| JP2011070523A (ja) * | 2009-09-28 | 2011-04-07 | Nec Corp | 文書情報収集システム、文書情報収集方法、文書情報収集プログラム |
| JP2011215912A (ja) * | 2010-03-31 | 2011-10-27 | Yahoo Japan Corp | クローラ管理システム及び方法 |
-
2003
- 2003-08-01 JP JP2003285107A patent/JP2004070957A/ja active Pending
Cited By (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2007087349A (ja) * | 2005-09-20 | 2007-04-05 | Mitsuhiro Ishizaka | 情報共有システム |
| JP2011039899A (ja) * | 2009-08-17 | 2011-02-24 | Nippon Telegr & Teleph Corp <Ntt> | Web情報取得方法および装置 |
| JP2011070523A (ja) * | 2009-09-28 | 2011-04-07 | Nec Corp | 文書情報収集システム、文書情報収集方法、文書情報収集プログラム |
| JP2011215912A (ja) * | 2010-03-31 | 2011-10-27 | Yahoo Japan Corp | クローラ管理システム及び方法 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP4025379B2 (ja) | 検索システム | |
| US7398271B1 (en) | Using network traffic logs for search enhancement | |
| AU2001290363B2 (en) | A method for searching and analysing information in data networks | |
| US7565425B2 (en) | Server architecture and methods for persistently storing and serving event data | |
| US6718365B1 (en) | Method, system, and program for ordering search results using an importance weighting | |
| US7552109B2 (en) | System, method, and service for collaborative focused crawling of documents on a network | |
| US7440968B1 (en) | Query boosting based on classification | |
| US9380022B2 (en) | System and method for managing content variations in a content deliver cache | |
| US20100057802A1 (en) | Method and system for updating a search engine | |
| JP2001101061A (ja) | キャッシュサーバ | |
| WO2008117041A1 (en) | Electronic document retrieval system | |
| US20040205049A1 (en) | Methods and apparatus for user-centered web crawling | |
| JP2004070957A (ja) | 検索システム | |
| JP3506892B2 (ja) | グループ適応型情報検索装置 | |
| JP2001337973A (ja) | 検索システムのメンテナンス方法及び検索システム | |
| Li et al. | A hybrid cache and prefetch mechanism for scientific literature search engines | |
| Rajaram et al. | Web caching in Semantic Web based multiple search engines | |
| Xiao et al. | A similarity-aware multiagent-based web content management scheme | |
| JP2004348550A (ja) | ブラウジング履歴管理方法および装置およびプログラム | |
| Patel et al. | Web Crawler: An Intelligent Agent Through Intellect Webbot | |
| Moazzen et al. | Caching with Relation | |
| Fagni et al. | A hybrid strategy for caching web search engine results | |
| Xiao et al. | Similarity-aware Web content management and document pre-fetching | |
| Shenoy | Improving the Performance of a Proxy Server using Web log mining | |
| Ceri et al. | Search Engines |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20040601 |
|
| A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20040802 |
|
| A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20040907 |
|
| A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20041105 |
|
| A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20041112 |
|
| A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A711 Effective date: 20041203 |
|
| A912 | Re-examination (zenchi) completed and case transferred to appeal board |
Free format text: JAPANESE INTERMEDIATE CODE: A912 Effective date: 20041203 |
|
| A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20071101 |