[go: up one dir, main page]

JP4254511B2 - Tree structure data creation device and method - Google Patents

Tree structure data creation device and method Download PDF

Info

Publication number
JP4254511B2
JP4254511B2 JP2003407028A JP2003407028A JP4254511B2 JP 4254511 B2 JP4254511 B2 JP 4254511B2 JP 2003407028 A JP2003407028 A JP 2003407028A JP 2003407028 A JP2003407028 A JP 2003407028A JP 4254511 B2 JP4254511 B2 JP 4254511B2
Authority
JP
Japan
Prior art keywords
cluster
tree structure
document
directory
documents
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2003407028A
Other languages
Japanese (ja)
Other versions
JP2005165920A (en
Inventor
雅夫 額賀
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Fujifilm Business Innovation Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd, Fujifilm Business Innovation Corp filed Critical Fuji Xerox Co Ltd
Priority to JP2003407028A priority Critical patent/JP4254511B2/en
Publication of JP2005165920A publication Critical patent/JP2005165920A/en
Application granted granted Critical
Publication of JP4254511B2 publication Critical patent/JP4254511B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、ハイパーリンク構造をなす文書群の関係を木構造で表現するための装置及び方法に関する。   The present invention relates to an apparatus and a method for expressing a relation of a document group having a hyperlink structure in a tree structure.

WWW(ワールド・ワイド・ウェブ)上の文書群は、文書をノードとし、文書間のリンクをアークとするハイパーテキスト構造(ハイパーリンク構造とも呼ばれる)をなしている。このハイパーテキスト構造は、リンクにより任意の文書を容易に結びつけることができるという利点があるが、基本的にネットワーク構造であるため、文書数が増えて文書間の関係が複雑になると、人間が文書間の関係を把握することが困難となる。   A document group on the WWW (World Wide Web) has a hypertext structure (also called a hyperlink structure) in which a document is a node and a link between documents is an arc. This hypertext structure has the advantage that any document can be easily linked by a link. However, since it is basically a network structure, when the number of documents increases and the relationship between documents becomes complicated, humans can create documents. It becomes difficult to grasp the relationship between them.

これに対し、ハイパーテキスト構造を木(ツリー)構造に簡素化して表示する方法が従来より用いられている。特許文献1〜3には、文書群が構成するハイパーテキスト構造を、文書をノードとしリンクをエッジとした木構造の形式で表示するシステムが開示されている。   On the other hand, a method of displaying the hypertext structure in a simplified tree structure is conventionally used. Patent Documents 1 to 3 disclose a system that displays a hypertext structure formed by a document group in a tree structure format in which a document is a node and a link is an edge.

また、アドビシステムズ社のウェブサイト管理ツールである「GoLive」は、WWW上で始点文書を指定すると、その文書から順にリンクをたどって行くことでハイパーテキスト構造を調べ、そのハイパーテキスト構造中の1文書を指定すると、そのハイパーテキスト構造からその文書を根ノードとする木構造を作成して表示する機能を備えている。   In addition, “GoLive”, a website management tool of Adobe Systems, Inc., when specifying a starting document on the WWW, examines the hypertext structure by following links in order from that document, and 1 in the hypertext structure. When a document is specified, it has a function of creating and displaying a tree structure having the document as a root node from the hypertext structure.

特開平2−282829号公報JP-A-2-282929 特開平4−321144号公報JP-A-4-321144 特開平10−222415号公報Japanese Patent Laid-Open No. 10-222415

ウェブサイト上やイントラネット上の文書はそれぞれ随時内容が更新され、その結果文書群が構成するハイパーテキスト構造が更新される。このためハイパーテキスト構造から作成した木構造のデータを記憶装置に保持し、その木構造データを用いてサービスを行うシステムでは、ハイパーテキスト構造の変化に対応するため、記憶装置内の木構造データの更新を適宜実行する必要がある。   The contents of the documents on the website and the intranet are updated as needed, and as a result, the hypertext structure formed by the documents is updated. For this reason, in a system in which tree structure data created from a hypertext structure is stored in a storage device and a service is provided using the tree structure data, the tree structure data in the storage device is stored in order to cope with changes in the hypertext structure. Updates need to be performed accordingly.

このような木構造データの更新処理は、1つのトランザクションで実行しないと不具合が生じる。その理由は、一つには、更新処理を開始してから完了するまで、すなわち木構造の開始点の文書からリンクを順次たどって到達できる文書をすべて木構造データに組み込み終わるまでに、その処理を停止すると、記憶装置内の木構造データの内容に部分的な不整合が出てくるからである。つまり、処理停止時点で木構造に組み込み済みの文書については更新後のデータが記憶装置に登録され、その時点で木構造に組み込まれていない文書については更新前のデータが記憶装置に残るのである。このような不整合が残った状態では正しい情報サービスができない。   Such tree structure data update processing has a problem unless it is executed in one transaction. One reason for this is that update processing is started and completed, that is, until all documents that can be reached by sequentially following links from the document at the starting point of the tree structure are included in the tree structure data. This is because partial inconsistency appears in the contents of the tree structure data in the storage device. In other words, the updated data is registered in the storage device for the documents already incorporated in the tree structure when the processing is stopped, and the pre-update data remains in the storage device for the documents that are not incorporated in the tree structure at that time. . If such inconsistencies remain, correct information services cannot be performed.

ハイパーテキスト構造から作成した木構造のデータを記憶装置に保持し、これを用いて文書検索やナビゲーション(案内)のサービスを提供する場合、その木構造データには、各文書ごとに、その文書の木構造上での位置、すなわち木構造の根(ルート)からのパス情報(すなわち根の文書からどの文書を経て当該文書にたどり着くかを示す情報)を持たせる必要がある。ハイパーテキスト構造のリンクの変化に応じてこの木構造データを更新する場合、木構造の一部が変化すると、その変化部分より下位のすべてのノード(すなわち文書)のパス情報を書き換える必要が出てくる。その変化部分より下位のノード間の親子関係に変化が全くない場合にも、この書換は必要になる。したがって、木構造の大きさが大きくなると、1トランザクジョンの間に書換を行わなければならないノードの数が多くなってしまう。   When tree-structured data created from a hypertext structure is stored in a storage device and used to provide document search and navigation (guidance) services, the tree-structured data includes the document data for each document. It is necessary to have a position on the tree structure, that is, path information from the root of the tree structure (that is, information indicating which document is reached from the root document through which the document is reached). When updating this tree structure data in response to a change in the hypertext structure link, if a part of the tree structure changes, it is necessary to rewrite the path information of all nodes (ie, documents) below the changed part. come. This rewriting is also required when there is no change in the parent-child relationship between the nodes below the changed portion. Therefore, when the size of the tree structure increases, the number of nodes that must be rewritten during one transaction increases.

この一方、一般に、木構造作成の対象となる文書群の規模が大きくなると、ハイパーテキスト構造から木構造への変換の処理コスト、例えば処理のためのワークスペースとして必要なメモリの量や処理に要する時間が大きくなってしまう。したがって、1つのトランザクションの対象となる文書群の規模が大きくなると、上述のように処理量がそれに伴って上昇するので、トランザクションに要するコストが大きくなってしまう。木構造作成のためのシステムを安定して運用しようとすれば、1つのトランザクションのコストは一定以下に抑えることが望ましいので、上述のように木構造のサイズが大きくなるとシステムの安定運用の点で問題が出てくる。   On the other hand, in general, when the scale of a document group for which a tree structure is to be created increases, the processing cost of conversion from a hypertext structure to a tree structure, for example, the amount of memory required as a work space for processing and the processing required Time will increase. Therefore, when the scale of a document group that is the subject of one transaction increases, the amount of processing increases as described above, and the cost required for the transaction increases. If a system for creating a tree structure is to be operated stably, it is desirable to keep the cost of one transaction below a certain level. Therefore, as described above, if the size of the tree structure increases, Problems come out.

上述の各特許文献を初めとする従来技術は、いずれもこのような問題には考慮を払っていない。   None of the prior arts including the above-mentioned patent documents consider such a problem.

本発明は、これら従来技術の問題の少なくとも1つを解決するためのものである。   The present invention is directed to overcoming at least one of these prior art problems.

本発明の1つの側面では、階層的なディレクトリ構造内に含まれる文書群が構成するハイパーテキスト構造に基づき、該ハイパーテキスト構造に対応する木構造を表す統合木構造データを作成するための装置であって、前記文書群を複数のクラスタに分割する手段であって、各クラスタに含まれる文書数がそれぞれ所定の上限値以下となるように分割を行うクラスタ分割手段と、前記クラスタごとに、基準文書を選択し、当該基準文書を当該クラスタに対応する下部木構造データに組み込み、当該基準文書を起点に前記ハイパーテキスト構造のリンクを順次たどっていく際に、リンク先の文書が当該クラスタに属する場合にのみ当該リンク先の文書を当該クラスタに対応する下部木構造データに組み込むことで、当該基準文書を根ノードとした当該クラスタ内の文書群の木構造を示す下部木構造データを作成する下部木構造作成手段と、前記下部木構造作成手段で作成された前記クラスタごとの各下部木構造データを統合して統合木構造データを作成する統合木構造作成手段と、を備える木構造データ作成装置を提供する。
In one aspect of the present invention, an apparatus for creating integrated tree structure data representing a tree structure corresponding to a hypertext structure based on a hypertext structure formed by a group of documents included in a hierarchical directory structure. And means for dividing the document group into a plurality of clusters, the cluster dividing means for dividing the document group so that the number of documents included in each cluster is equal to or less than a predetermined upper limit, and a reference for each cluster. select the document, the reference document embedded in the lower tree structure data corresponding to the cluster, when going those said reference document Tsu sequentially Tado links of the hypertext structure starting from the link destination of the document is the the document of the landing only if it belongs to the cluster by incorporating a lower tree structure data corresponding to the cluster, the person the reference document and the root node A lower tree structure creating means for creating a lower tree structure data indicating a tree structure of documents in the cluster, integrated wood by integrating each of the lower tree structure data for each of the clusters created by the lower tree structure creating means There is provided a tree structure data creation device comprising integrated tree structure creation means for creating structure data.

本発明の好適な態様では、木構造データ作成装置は、前記各基準文書の前記ディレクトリ構造内での位置情報に基づき、前記各基準文書間の階層関係を表す上部木構造データを作成する上部木構造作成手段、を更に備え、前記統合木構造作成手段は、前記上部木構造データと前記各下部木構造データとを組み合わせることで統合木構造データを作成する。   In a preferred aspect of the present invention, the tree structure data creation device creates upper tree structure data representing a hierarchical relationship between the reference documents based on position information of the reference documents in the directory structure. The integrated tree structure creating means creates integrated tree structure data by combining the upper tree structure data and the lower tree structure data.

別の好適な態様では、前記クラスタ分割手段は、各クラスタが、それぞれ当該クラスタ内の属する最上位ディレクトリ以下のディレクトリ群に属する文書のみを含むように、前記文書群を複数のクラスタに分割する。   In another preferred aspect, the cluster dividing unit divides the document group into a plurality of clusters so that each cluster includes only documents belonging to a directory group below the highest directory to which the cluster belongs.

別の好適な態様では、前記クラスタ分割手段は、(a)指定された注目ディレクトリ以下のディレクトリ群に含まれる文書群を第1のクラスタとして求め、(b)第1のクラスタ内に含まれる文書の数を計数し、(c)ステップ(b)で求められた文書の数が所定の上限値を超えた場合には、注目ディレクトリの直下のディレクトリを新たな注目ディレクトリに選び、該新たな注目ディレクトリ以下のディレクトリ群に含まれる文書群を第2のクラスタとして求め、該第2のクラスタに含まれる文書群を前記第1のクラスタから削除し、(d)ステップ(c)で求められた前記第2のクラスタを新たな第1のクラスタとして前記ステップ(b)以下のステップを再帰的に繰り返す。   In another preferred aspect, the cluster dividing unit obtains (a) a document group included in a directory group below the designated target directory as a first cluster, and (b) a document included in the first cluster. (C) If the number of documents obtained in step (b) exceeds a predetermined upper limit, the directory immediately under the target directory is selected as a new target directory, and the new target directory is selected. The document group included in the directory group below the directory is obtained as a second cluster, the document group included in the second cluster is deleted from the first cluster, and (d) the step obtained in step (c) Steps (b) and subsequent steps are recursively repeated with the second cluster as the new first cluster.

以下、図面を参照して本発明の好適な実施の形態を説明する。   Preferred embodiments of the present invention will be described below with reference to the drawings.

図1は、本発明に係る統合木構造データ作成装置の機能ブロック図である。この構成において、リンク情報収集部10は、HTML等のハイパーテキスト記述言語で記述されたウェブ文書群のハイパーテキスト構造を求める機能モジュールである。リンク情報収集部10は、例えば、インターネット上にあるウェブ文書中のリンク記述をたどっていくことで、ウェブ文書間のリンク関係の情報(すなわちハイパーテキスト構造)を求める。   FIG. 1 is a functional block diagram of an integrated tree structure data creation device according to the present invention. In this configuration, the link information collection unit 10 is a functional module for obtaining a hypertext structure of a web document group described in a hypertext description language such as HTML. The link information collection unit 10 obtains link relationship information (ie, hypertext structure) between web documents, for example, by following link descriptions in web documents on the Internet.

すなわちリンク情報収集部10は、ウェブ文書を解析してアンカータグ(『<A HREF="...(リンク先のURLを示す文字列)">』)などの、HTMLのリンク記述を検出し、リンク記述を見つけるとそのリンク記述に示されるリンク先URLの文書の取得処理を実行する。この取得処理では、該リンク先URLで示される文書を要求する取得要求(GETリクエストなど)を発行する。この取得要求に対し、要求に係るURLの文書を管理するウェブサーバから該文書を取得できた場合、リンク情報収集部10は、取得した文書に対して、上述したリンク記述の検出処理及びそのリンク先の取得処理を実行する。リンク情報収集部10は、スタート地点として与えられた1以上のウェブ文書から解析を始め、上記のリンク記述の検出処理及びそのリンク先の取得処理を繰り返していくことで、ウェブ文書やそれらのリンク関係の情報を収集する。この繰り返しが、リンク情報収集部10によるウェブの「巡回」である。リンク情報収集部10は、この巡回の過程で取得したウェブ文書の実体データ(すなわちHTMLで記述された文書データ)を図示省略する文書格納装置へと格納し、同じく巡回処理の過程で検出したウェブ文書間のリンクの情報をハイパーテキスト構造記憶部12へと格納する。これまでに説明したリンク情報収集部10の機能は、ロボット検索型のサーチエンジンがウェブ文書を収集するために用いている既存のクローラー乃至スパイダーと同等のものである。   In other words, the link information collection unit 10 analyzes the web document and detects an HTML link description such as an anchor tag (“<A HREF="... (character string indicating the link destination URL)”>”). When the link description is found, the document acquisition processing of the link destination URL indicated in the link description is executed. In this acquisition process, an acquisition request (such as a GET request) for requesting the document indicated by the link destination URL is issued. In response to this acquisition request, when the document can be acquired from the web server that manages the document of the URL related to the request, the link information collection unit 10 performs the above-described link description detection process and its link for the acquired document. Execute the previous acquisition process. The link information collection unit 10 starts the analysis from one or more web documents given as start points, and repeats the above-described link description detection processing and link destination acquisition processing so that the web documents and their links are obtained. Collect relationship information. This repetition is a “tour” of the web by the link information collection unit 10. The link information collection unit 10 stores the actual data of the web document acquired in the circulation process (that is, document data described in HTML) in a document storage device (not shown), and also detects the web detected in the circulation process. Information on links between documents is stored in the hypertext structure storage unit 12. The function of the link information collection unit 10 described so far is equivalent to an existing crawler or spider used by a robot search type search engine to collect web documents.

以上のようなリンク情報収集部10による巡回処理により、ハイパーテキスト構造記憶部12には、巡回処理の過程で検出したウェブ文書についての管理情報が登録された文書テーブルと、検出したリンクについての管理情報が登録されたリンクテーブルとが形成される。文書テーブルのデータ内容の一例を図2に、リンクテーブルのデータ内容の一例を図3に示す。なお、図2及び図3は、図4に例示した文書30−1,2,・・・,11,・・・が成すハイパーテキスト構造の一部を表現したものである。   By the cyclic processing by the link information collecting unit 10 as described above, the hypertext structure storage unit 12 stores the document table in which management information about the web document detected during the cyclic processing is registered, and the management of the detected link. A link table in which information is registered is formed. An example of the data contents of the document table is shown in FIG. 2, and an example of the data contents of the link table is shown in FIG. 2 and 3 represent a part of the hypertext structure formed by the documents 30-1, 2,..., 11,.

文書テーブルには、図2に示すように、検出したウェブ文書ごとに、その文書に割り当てた一意的な文書ID102、その文書のURL104(プロトコル指定記述を除いたURI(Uniform Resource Identifier)でもよい)、その文書のタイトル106、及びその文書が存在するか否かを示す状態情報108が登録される。タイトル106には、文書のヘッダ内に<title>タグで示されたタイトル文字列が登録される。状態情報108の項目があるのは、次のような理由からである。すなわち、リンク情報収集部10の巡回処理の過程では、ウェブ文書が検出されるのは、スタート地点として与えられたウェブ文書を除き、他のウェブ文書中のリンク記述に示されるURL(又はURI)からである。しかし、そのURLには実際にはウェブ文書が存在しない(すなわち、取得要求に対してウェブサーバからウェブ文書が返されない)こともあり得る。したがって、リンク記述のURLから文書が取得できた場合は、状態情報108は「存在」となり、そうでない場合は「非存在」となる。なお、リンク情報収集部10が、ウェブ巡回の際に取得した各文書を当該統合木構造データ作成装置内に保存するようにすることもでき、その場合は、各文書の保存場所を示すアドレス情報を、文書テーブルの各文書のデータ項目として追加することも好適である。   In the document table, as shown in FIG. 2, for each detected web document, a unique document ID 102 assigned to the document and the URL 104 of the document (which may be a URI (Uniform Resource Identifier) excluding the protocol designation description) The title 106 of the document and the status information 108 indicating whether or not the document exists are registered. In the title 106, a title character string indicated by a <title> tag is registered in the header of the document. The item of the status information 108 is present for the following reason. That is, in the course of the cyclic processing of the link information collection unit 10, the web document is detected except for the web document given as the start point, except for the URL (or URI) indicated in the link description in the other web document. Because. However, it is possible that the web document does not actually exist in the URL (that is, the web document is not returned from the web server in response to the acquisition request). Therefore, when the document can be acquired from the URL of the link description, the status information 108 becomes “exist”, and otherwise “non-exist”. Note that the link information collection unit 10 may store each document acquired during the web tour in the integrated tree structure data creation apparatus. In this case, address information indicating a storage location of each document Is preferably added as a data item of each document in the document table.

リンクテーブルには、図3に示すように、検出されたリンクごとに、そのリンクのリンク元のウェブ文書の文書ID(リンク元ID112)と、リンク先のウェブ文書の文書ID(リンク先ID114)が登録される。リンク情報収集部10は、ウェブ文書中からリンク記述を検出した場合、リンクテーブルに1つのエントリを追加し、当該ウェブ文書の文書IDをそのエントリのリンク元に、そのリンク記述のURLが示すウェブ文書の文書IDをリンク先に、それぞれ登録する。   In the link table, as shown in FIG. 3, for each detected link, the document ID of the link source web document (link source ID 112) and the document ID of the link destination web document (link destination ID 114). Is registered. When the link information collection unit 10 detects a link description from a web document, the link information collection unit 10 adds one entry to the link table, and uses the document ID of the web document as the link source of the entry and indicates the web indicated by the URL of the link description. The document ID of the document is registered as a link destination.

リンク情報収集部10は、定期的に、あるいは所定の収集開始条件が満足される毎に、リンク情報の収集処理を実行する。リンク情報収集部10に対しては、収集処理の終了条件が設定可能であり、収集を開始した後その終了条件が満足されると、収集部10は収集処理を終える。終了条件は、例えば、リンク探索の起点として指定された1乃至複数の文書から、リンクを介して辿りうるすべての文書を検出し終わった時、収集を終了する、等の条件である。なお、リンク情報の収集を行う範囲を限定(例えば予め登録された1乃至複数のドメインに限定するなど)することもできる。   The link information collection unit 10 executes a link information collection process periodically or whenever a predetermined collection start condition is satisfied. A collection process end condition can be set for the link information collection unit 10, and after the collection is started, the collection unit 10 ends the collection process when the end condition is satisfied. The termination condition is, for example, a condition that collection is terminated when all documents that can be traced via a link are detected from one or more documents specified as a starting point of a link search. Note that the range for collecting link information can be limited (for example, limited to one or more domains registered in advance).

要求処理部14は、この統合木構造データ作成装置に対してLAN(ローカルエリアネットワーク)やインターネットなどのデータ通信ネットワークを介して接続されたクライアント装置から、統合木構造データ作成の要求(木構造要求200)を受け付けて処理する機能モジュールである。この木構造要求200には、統合木構造の作成範囲、すなわち統合木構造に組み込むべき文書群の所在範囲を特定する情報を含めることができる。作成範囲を特定するための情報としては、木構造作成の開始点とする文書(開始文書と呼ぶ)を特定する情報(例えばURL)や、ウェブサイトのドメイン名やホスト名などを用いることができる。作成範囲の情報を含んだ木構造要求200をクライアント装置から受け取る構成の場合、要求処理部14は、例えば、作成範囲を特定するための情報を入力するウェブページをクライアント装置に提供し、このウェブページに対して入力された情報を木構造要求200として受け取る。要求処理部14は、クライアント装置から木構造要求200を受け取った場合、統合制御部20に対して統合木構造データ202の作成を命令する。ここで要求処理部14は、統合木構造の作成範囲を特定するための情報を木構造要求200から抽出し、統合制御部20に渡す。なお、統合木構造の作成範囲を特定するための情報は、例えば各ユーザごとに、この統合木構造データ作成装置に登録できるようにしてもよい。この場合、木構造要求200にはその情報は必要ない。   The request processing unit 14 receives a request for creating an integrated tree structure data (a tree structure request) from a client apparatus connected to the integrated tree structure data creation apparatus via a data communication network such as a LAN (local area network) or the Internet. 200). The tree structure request 200 can include information for specifying the creation range of the integrated tree structure, that is, the location range of the document group to be incorporated into the integrated tree structure. As information for specifying the creation range, information (for example, URL) for identifying a document (called a start document) that is a starting point for creating a tree structure, a website domain name, a host name, or the like can be used. . In the case where the tree structure request 200 including the creation range information is received from the client device, the request processing unit 14 provides the client device with a web page for inputting information for specifying the creation range, for example. Information input to the page is received as a tree structure request 200. When receiving the tree structure request 200 from the client device, the request processing unit 14 instructs the integrated control unit 20 to create the integrated tree structure data 202. Here, the request processing unit 14 extracts information for specifying the creation range of the integrated tree structure from the tree structure request 200 and passes it to the integrated control unit 20. Note that the information for specifying the creation range of the integrated tree structure may be registered in the integrated tree structure data creation device for each user, for example. In this case, the tree structure request 200 does not require that information.

統合制御部20は、その命令に応じ、クラスタ分割部16及び木構造データ作成部17を制御して統合木構造データ202を作成する。このとき、統合制御部20は、クラスタ分割部16に対し、統合木構造の作成範囲を特定する情報を渡し、その作成範囲のクラスタ分割を指示する。なお、この作成処理の詳細については後で詳しく説明する。要求処理部14は、統合制御部20が作成した統合木構造データ202を受け取り、要求元のクライアント装置へ提供する。   The integrated control unit 20 controls the cluster dividing unit 16 and the tree structure data creating unit 17 to create the integrated tree structure data 202 in accordance with the command. At this time, the integration control unit 20 passes information for specifying the creation range of the integrated tree structure to the cluster division unit 16 and instructs cluster division of the creation range. Details of this creation process will be described later. The request processing unit 14 receives the integrated tree structure data 202 created by the integrated control unit 20 and provides it to the requesting client device.

クラスタ分割部16は、統合木構造の作成範囲を特定する情報に基づき、その作成範囲内に存在するウェブ文書群を複数のクラスタに分割する。クラスタ分割処理の詳細については、後に詳しく説明する。   The cluster dividing unit 16 divides a web document group existing in the creation range into a plurality of clusters based on information specifying the creation range of the integrated tree structure. Details of the cluster division processing will be described in detail later.

木構造データ作成部17は、クラスタ分割部16によるクラスタ分割処理の結果を受けて、クラスタごとの下部木構造と、それら下部木構造を統合する上部木構造とを作成する。この作成処理の詳細は、後で説明する。作成された下部木構造及び上部木構造のデータは、木構造データ記憶部18に蓄積される。それら下部木構造及び上部木構造のデータは、統合制御部20により統合され、統合木構造データ202となる。   The tree structure data creation unit 17 receives the result of the cluster division processing by the cluster division unit 16 and creates a lower tree structure for each cluster and an upper tree structure that integrates these lower tree structures. Details of this creation process will be described later. The data of the created lower tree structure and upper tree structure is stored in the tree structure data storage unit 18. The data of the lower tree structure and the upper tree structure are integrated by the integrated control unit 20 to become integrated tree structure data 202.

図5は、この統合木構造データ作成装置の全体的な処理手順を示すフローチャートである。この手順では、要求処理部14が、クライアント装置からの木構造要求200を受け取り、その要求に対応する統合木構造の作成範囲を特定する(S10)。木構造要求200中にその作成範囲の情報が含まれていればそれを抽出することで特定でき、当該装置に各ユーザの作成範囲の情報が登録されている場合には木構造要求200の発行元のユーザに対応する登録情報を取り出すことで作成範囲を特定できる。作成範囲を特定する情報としてドメイン名やウェブサーバのホスト名が指定されている場合は、そのドメインやウェブサーバの中の文書群が作成範囲となる。また、作成範囲の情報として、開始文書の格納場所の情報が指定されている場合は、その開始文書のあるディレクトリ(又はフォルダ)以下のディレクトリ群(すなわち、そのディレクトリを頂点とするディレクトリツリーの属するディレクトリ群)に属する文書群が、作成範囲となる。作成範囲として、ドメイン名やホスト名、又は開始文書を複数指定することも可能である。複数の開始文書が指定された場合は、個々の開始文書に対応する作成範囲の和集合が、その指定に対する全体的な作成範囲となる。   FIG. 5 is a flowchart showing an overall processing procedure of the integrated tree structure data creation device. In this procedure, the request processing unit 14 receives the tree structure request 200 from the client device, and specifies the creation range of the integrated tree structure corresponding to the request (S10). If information on the creation range is included in the tree structure request 200, it can be specified by extracting it. If the information on the creation range of each user is registered in the device, the tree structure request 200 is issued. The creation range can be specified by extracting the registration information corresponding to the original user. When a domain name or a web server host name is specified as information for specifying the creation range, a document group in the domain or web server is the creation range. If the storage location information of the start document is specified as the creation range information, a directory group under the directory (or folder) where the start document is located (that is, a directory tree having the directory at the top belongs to the directory group). A document group belonging to the directory group) is a creation range. It is also possible to specify a plurality of domain names, host names, or starting documents as the creation range. When a plurality of start documents are designated, the union of creation ranges corresponding to the individual start documents is the overall creation range for the designation.

次に、クラスタ分割部16が、その作成範囲を複数のクラスタに分割する(S12)。このクラスタ分割処理の具体例を、図6〜図8を参照して説明する。   Next, the cluster dividing unit 16 divides the creation range into a plurality of clusters (S12). A specific example of the cluster division processing will be described with reference to FIGS.

図6は、クラスタ分割処理の具体的な処理内容の一例を示すフローチャートである。この処理では、まず、作成範囲の最上位ディレクトリを注目ディレクトリに選び(S20)、S22に進む。S22以降の処理(図中では破線で囲んだ)は、論理的には、クラスタ単位の並列処理である。   FIG. 6 is a flowchart showing an example of specific processing contents of the cluster division processing. In this process, first, the highest directory in the creation range is selected as a target directory (S20), and the process proceeds to S22. The processes after S22 (enclosed by broken lines in the figure) are logically parallel processes in units of clusters.

S22では、その注目ディレクトリ以下の階層のディレクトリ群(すなわち注目ディレクトリを頂点とするディレクトリツリーに属するディレクトリ群)に含まれる文書群を、1つのクラスタと認識する(S22)。ハイパーテキスト構造記憶部12には個々の文書のURLが記憶されているので、そのURLを参照することでそのような認識が可能となる。このクラスタ認識の処理では、例えば、その注目ディレクトリ以下の階層のディレクトリ群からなるクラスタに対して一意なクラスタIDを付与し、そのクラスタの中のディレクトリに属する各文書とそのクラスタIDとを関連づける。関連づけの仕方としては、例えば、図7のように、作業範囲内の各文書の文書ID122ごとに、その文書が属するクラスタのクラスタID124を保持するクラスタ管理テーブルを作成する。   In S22, a document group included in a directory group in a hierarchy below the target directory (that is, a directory group belonging to a directory tree having the target directory as a vertex) is recognized as one cluster (S22). Since the hypertext structure storage unit 12 stores URLs of individual documents, such recognition can be performed by referring to the URLs. In this cluster recognition process, for example, a unique cluster ID is assigned to a cluster consisting of a directory group in a hierarchy below the target directory, and each document belonging to the directory in the cluster is associated with the cluster ID. As a method of association, for example, as shown in FIG. 7, for each document ID 122 of each document within the work range, a cluster management table that holds the cluster ID 124 of the cluster to which the document belongs is created.

図7の(a)は、作業範囲の最上位ディレクトリを注目ディレクトリとしたときのクラスタ管理テーブルの内容である。この場合、作業範囲内の全文書に対し、同じ最上位クラスタのID「C001」が関連づけられている。   FIG. 7A shows the contents of the cluster management table when the highest directory in the work range is the target directory. In this case, the ID “C001” of the same top-level cluster is associated with all the documents in the work range.

また、このように新しいクラスタの認識を行った場合、その新しいクラスタに属する文書群を、それら文書群がその前に属していたクラスタ(親クラスタと呼ぶ)から削除する(S24)。これにより、新たに認識したクラスタの文書数だけ、親クラスタの文書数が減ることになる。なお、作業範囲の最上位ディレクトリを注目ディレクトリとしたときは、S22で認識するのは最初のクラスタであり、それより上位のクラスタは存在していないので、S24では何も行わない。   When a new cluster is recognized in this way, the document group belonging to the new cluster is deleted from the cluster to which the document group previously belonged (referred to as a parent cluster) (S24). As a result, the number of documents in the parent cluster is reduced by the number of documents in the newly recognized cluster. When the highest directory in the work range is the target directory, the first cluster is recognized in S22, and no higher cluster exists, so nothing is performed in S24.

以上のS22及びS24がクラスタ構成の更新処理である。このクラスタ構成の更新が終わると、S22で新たに認識したクラスタ内の文書数を計数し(S26)、その計数結果の値が、予め定められた上限値以下であるかどうかを判定する(S28)。そして、計数した文書数がその上限値以下であれば、そのクラスタについての処理を終了する。   The above S22 and S24 are cluster configuration update processing. When the update of the cluster configuration is finished, the number of documents in the cluster newly recognized in S22 is counted (S26), and it is determined whether or not the value of the counting result is equal to or less than a predetermined upper limit value (S28). ). If the counted number of documents is equal to or less than the upper limit value, the process for the cluster is terminated.

S28で、計数したクラスタ内の文書数が上限値を超えたと判定した場合、その時の注目ディレクトリの直下の各ディレクトリを、それぞれ新たな注目ディレクトリに選び(S30)、それら新たな注目ディレクトリごとに、S22〜S30までの処理を再帰的に実行する。この場合、新たな注目ディレクトリについてのS22及びS24の処理では、その注目ディレクトリのクラスタに対して新たに一意なクラスタIDが付与され、クラスタ管理テーブルにおいて、その注目ディレクトリ以下に属する各文書のクラスタID124がその新たなクラスタIDに書き換えられる。図7の(b)は、そのような書き換えが行われた後のクラスタ管理テーブルのデータ内容の例を示す。このような処理により、上限数を超える文書数を有するクラスタが、より小さいクラスタへと再帰的に分割される。   When it is determined in S28 that the number of documents in the counted cluster has exceeded the upper limit, each directory immediately below the target directory at that time is selected as a new target directory (S30), and for each new target directory, The processes from S22 to S30 are recursively executed. In this case, in the processes of S22 and S24 for the new directory of interest, a new unique cluster ID is assigned to the cluster of the directory of interest, and the cluster ID 124 of each document belonging to the directory below the directory of interest in the cluster management table. Is rewritten to the new cluster ID. FIG. 7B shows an example of data contents of the cluster management table after such rewriting has been performed. By such processing, a cluster having the number of documents exceeding the upper limit number is recursively divided into smaller clusters.

図6の処理を、具体例に則して説明すると次のようになる。作成範囲が図8のようなディレクトリツリーであった場合において、最上位ディレクトリ40以下のディレクトリ(42〜48)群からなるクラスタ内の文書数が上述の上限値を超えた場合(S28)は、そのディレクトリ40の直下の各ディレクトリ42及び44が次の注目ディレクトリに選ばれる(S30)。そして、ディレクトリ42を頂点とするディレクトリツリー45、及びディレクトリ44を頂点とするディレクトリツリーが、それぞれ新たなクラスタと認識され(S22)、それら各クラスタが、親クラスタであるディレクトリ40のクラスタから削除される(S24)。これにより、ディレクトリ40のクラスタは、ディレクトリ40の直下の文書のみからなるクラスタとなる。ディレクトリ40の子孫のディレクトリ内の文書は別のクラスタに属することになる。そして、ディレクトリ44を頂点とするクラスタ内の文書数が、上述の上限値を超えていれば、その直下のディレクトリ46,48,・・・をそれぞれ頂点とするクラスタが、元のディレクトリ44のクラスタから分離される。   The processing of FIG. 6 is described as follows according to a specific example. When the creation range is a directory tree as shown in FIG. 8, when the number of documents in the cluster composed of the directories (42 to 48) below the highest directory 40 exceeds the above upper limit (S28), Each directory 42 and 44 immediately below the directory 40 is selected as the next directory of interest (S30). Then, the directory tree 45 having the directory 42 as a vertex and the directory tree having the directory 44 as a vertex are respectively recognized as new clusters (S22), and these clusters are deleted from the cluster of the directory 40 which is a parent cluster. (S24). Thereby, the cluster of the directory 40 becomes a cluster composed only of documents directly under the directory 40. Documents in the descendant directory of the directory 40 belong to another cluster. If the number of documents in the cluster having the directory 44 as a vertex exceeds the upper limit, the cluster having the directories 46, 48,... Separated from.

以上、1つの最上位ディレクトリ以下の階層についてのクラスタ分割の処理を説明した。統合木構造データの作成範囲として、複数の異なる範囲が指定された場合は、それら各範囲ごとに上述の処理を行えばよい。例えば、複数のホスト名が指定された場合は各ホストごとに上述の処理を行えばよい。また、ディレクトリ階層上の上下関係がない異なるディレクトリ内の文書が開始文書に指定されている場合は、それら各ディレクトリをそれぞれ最上位ディレクトリとして、それぞれ上述の処理を行えばよい。また、ディレクトリ階層上の上下関係がある異なるディレクトリ内の文書がそれぞれ開始文書として指定された場合は、下位のディレクトリ以下のディレクトリ群からなるクラスタを、上述と同様にして、上位のディレクトリ以下のディレクトリ群からなるクラスタから分離すればよい。   In the foregoing, the cluster division process for the hierarchy below one top directory has been described. When a plurality of different ranges are designated as the creation range of the integrated tree structure data, the above-described process may be performed for each range. For example, when a plurality of host names are designated, the above-described processing may be performed for each host. In addition, when a document in a different directory having no hierarchical relationship in the directory hierarchy is designated as the start document, the above-described processing may be performed with each of these directories as the top directory. In addition, when a document in a different directory having a hierarchical relationship in the directory hierarchy is designated as the start document, a cluster consisting of directories under the lower directory is defined as a directory under the upper directory in the same manner as described above. What is necessary is just to isolate | separate from the cluster which consists of a group.

再び図5の説明に戻る。このようにしてクラスタ分割が完了すると、クラスタ分割部16は、それら各クラスタから1つずつ、木構造の根ノードとする文書を選択する(S14)。ここで、統合木構造の作成範囲を特定する情報として開始文書が指定されている場合は、その開始文書を根ノードに選択する。開始文書が存在しないクラスタについては、予め定めたルールに従って、そのクラスタ内から根ノードの文書を選択する。この場合、クラスタの最上位ディレクトリ内の文書から根ノードを選択することが好適である。また、同じディレクトリ内の文書から根ノードを選択するルールとしては、例えば“index.htm”や“main.htm”等といった予め定められた文書名(これは予め本装置に登録しておく)を持つものがあれば、それを根ノードに選択する、というものもある。   Returning to the description of FIG. When cluster division is completed in this way, the cluster division unit 16 selects one document from each of these clusters as a root node of the tree structure (S14). Here, when a start document is specified as information for specifying the creation range of the integrated tree structure, the start document is selected as a root node. For a cluster for which no starting document exists, a root node document is selected from the cluster according to a predetermined rule. In this case, it is preferable to select the root node from the documents in the top directory of the cluster. As a rule for selecting a root node from documents in the same directory, for example, a predetermined document name such as “index.htm” or “main.htm” (which is registered in advance in the apparatus) is used. If there is something you have, you can select it as the root node.

このようにして各クラスタの根ノードの文書が決まると、次に木構造データ作成部17が、それら各文書ごとに、その文書を根ノードとした木構造を作成する(S16)。この処理では、根ノードの文書から順に、ハイパーテキスト構造記憶部12のリンクテーブルに登録されたリンクを深さ優先探索又は幅優先探索でたどっていくことで、ウェブ文書群がなす木構造を求め、その木構造を示す木構造データを作成する。なお、ハイパーリンク構造から木構造を作成する方法は、上述の特許文献をはじめとして様々なものが提案されており、木構造データ作成部17はそれら従来手法を用いたものでよい。木構造データ作成部17が作成した木構造データは、木構造データ記憶部18に蓄積される。   When the document of the root node of each cluster is determined in this way, the tree structure data creation unit 17 creates a tree structure with the document as the root node for each of the documents (S16). In this process, the tree structure formed by the web document group is obtained by following the links registered in the link table of the hypertext structure storage unit 12 in the depth-first search or the breadth-first search in order from the document of the root node. Tree structure data indicating the tree structure is created. Various methods for creating a tree structure from a hyperlink structure have been proposed including the above-mentioned patent documents, and the tree structure data creating unit 17 may use those conventional methods. The tree structure data created by the tree structure data creation unit 17 is stored in the tree structure data storage unit 18.

ただし、木構造データ作成部17の木構造の作成処理では、木構造に組み込む文書をクラスタ内部に限定するという点が、通常の木構造作成とは異なっている。すなわち、木構造データ作成部17は、根ノードの文書を起点にリンクテーブルのリンクをたどっていく際、リンク先の文書がどのクラスタに属するのかを、例えば図7のクラスタ管理テーブルを参照するなどにより求め、根ノードの文書と同じクラスタに属する場合だけ、作成中の木構造にそのリンク先文書を組み込む。このようにして1つの根ノードを起点として作成された木構造を、下部木構造と呼ぶことにする。下部木構造は、統合木構造の1つの部分木となる。   However, the tree structure creation processing of the tree structure data creation unit 17 is different from normal tree structure creation in that the documents to be incorporated into the tree structure are limited to the inside of the cluster. That is, the tree structure data creation unit 17 refers to the cluster to which the linked document belongs, for example, referring to the cluster management table in FIG. 7 when following the link of the link table starting from the document of the root node. The link destination document is incorporated into the tree structure being created only when it belongs to the same cluster as the root node document. A tree structure created with one root node as a starting point in this way is called a lower tree structure. The lower tree structure is one subtree of the integrated tree structure.

また木構造データ作成部17は、選択された根ノードの文書が属する各ディレクトリが構成する上部木構造を作成する(S16)。この上部木構造の作成処理では、まず根ノードの文書ごとに、当該文書のURLから、当該文書が属するディレクトリを求める。リソースのURLは、そのリソースを得るためのプロトコル名("http")と、そのリソースが格納されているホスト装置の名前と、該ホスト装置のファイルシステムにおけるそのリソースまでのパスとの組合せで構成される。したがって、根ノードの文書のURLから、該URLのパス部分の末尾に示されるファイル名を削除すると、残った文字列は該基準ページが属する仮想的なディレクトリを示していると捉えることができる。そして、各根ノードの文書が属するディレクトリ同士のディレクトリ階層構造上での上下関係に基づき、上部木構造を作成する。ある根ノードの文書が格納されているディレクトリ(仮にディレクトリaとする)が、別の根ノードの文書が格納されているディレクトリ(仮にディレクトリbとする)の下位ディレクトリであれば、上部木構造では、ディレクトリaに対応するノードは、ディレクトリbに対応するノードの子孫のノードになる。ここで、各根ノードの文書が属する各ディレクトリの中に、ディレクトリ階層上でディレクトリaとディレクトリbとの間に位置するディレクトリがなければ、上部木構造ではディレクトリaはディレクトリbの子ノードになる。このように木構造データ作成部17は、各クラスタの根ノードの文書が格納されたディレクトリ群の中で、ディレクトリ階層構造(ディレクトリツリー)上で直近の関係となるディレクトリ同士を、上部木構造上では親子関係で結ぶ。このような処理により、上部木構造が作成される。なお、これはあくまで一例であり、それら直近の関係となるディレクトリ同士の間に、ディレクトリ階層構造上、別のディレクトリが介在する場合に、その介在するディレクトリを上部木構造に組み込むようにしてももちろんよい。   Further, the tree structure data creation unit 17 creates an upper tree structure formed by each directory to which the document of the selected root node belongs (S16). In the process of creating the upper tree structure, first, for each root node document, the directory to which the document belongs is obtained from the URL of the document. The URL of a resource is composed of a combination of the protocol name ("http") for obtaining the resource, the name of the host device in which the resource is stored, and the path to the resource in the file system of the host device Is done. Therefore, if the file name indicated at the end of the path portion of the URL is deleted from the URL of the document of the root node, the remaining character string can be regarded as indicating a virtual directory to which the reference page belongs. Then, an upper tree structure is created on the basis of the hierarchical relationship on the directory hierarchical structure between the directories to which the documents of the respective root nodes belong. If the directory storing a document of a certain root node (assuming it is directory a) is a subordinate directory of the directory storing a document of another root node (assuming it is directory b), the upper tree structure The node corresponding to the directory a becomes a descendant node of the node corresponding to the directory b. Here, if the directory to which the document of each root node belongs does not have a directory located between the directory a and the directory b on the directory hierarchy, the directory a becomes a child node of the directory b in the upper tree structure. . As described above, the tree structure data creation unit 17 selects the directories in the directory tree structure (directory tree) in the directory tree in which the document of the root node of each cluster is stored, on the upper tree structure. Then, tie it with a parent-child relationship. By such processing, an upper tree structure is created. Note that this is only an example, and when there is another directory in the directory hierarchy between the directories in the immediate relationship, it is of course possible to incorporate the intervening directory in the upper tree structure. Good.

なお、作成範囲として、複数のサイトのホスト名が指定された場合などは、ホスト同士は階層構造上対等の関係なので、上述の方法ではホストごとに個別に上部木構造ができることになる。そこで、これらを1つの上部木構造にまとめるために、仮想的な最上位ノードを設け、その最上位ノードにそれら各ホストごとの上部木構造を接続するという方法も可能である。   When the host names of a plurality of sites are specified as the creation range, the hosts are in an equal relationship in the hierarchical structure, and therefore the upper tree structure can be individually created for each host in the above method. Therefore, in order to combine these into one upper tree structure, a method of providing a virtual uppermost node and connecting the upper tree structure for each host to the uppermost node is also possible.

このようにして作成された上部木構造のデータも、木構造データ記憶部18に格納される。   The data of the upper tree structure created in this way is also stored in the tree structure data storage unit 18.

このようにして各下部木構造、及び上部木構造が作成されると、統合制御部20が、木構造データ記憶部18に格納された上部木構造と複数の下部木構造のデータを合成して、木構造要求200に対応する全体の木構造をしめす統合木構造データ202を作成する。   When each lower tree structure and upper tree structure are created in this way, the integrated control unit 20 combines the data of the upper tree structure and the plurality of lower tree structures stored in the tree structure data storage unit 18. The integrated tree structure data 202 indicating the entire tree structure corresponding to the tree structure request 200 is created.

この統合処理では、各下部木構造の根ノードを、上部木構造のノードとリンクする。すなわち、上部木構造のノードに対し、そのノードに対応するディレクトリに格納された文書に対応する下部木構造の根ノードを、子ノードとして接続する。   In this integration process, the root node of each lower tree structure is linked to the node of the upper tree structure. In other words, the root node of the lower tree structure corresponding to the document stored in the directory corresponding to the node is connected as a child node to the node of the upper tree structure.

作成された統合木構造データ202は、要求処理部14により、木構造要求200の送信元のクライアント装置に対し送信される。   The created integrated tree structure data 202 is transmitted by the request processing unit 14 to the client device that is the transmission source of the tree structure request 200.

このようにして作成された統合木構造の一例を図9に示す。図9に示す例は、図4のハイパーテキスト構造のうちの「ABCD会社トップページ」が開始文書として指定された場合の例である。より詳しくは、その開始文書が属するディレクトリ"/abcd.co.jp/"以下の階層からなるクラスタに上限値を越える数の文書があったため、その直下の2つのディレクトリ"/abcd.co.jp/product/"及び"/abcd.co.jp/download/"をそれぞれ頂点とする2つのクラスタが分離された場合の例である(分離した2つのクラスタ内の文書数は上限値以下であるとする)。   An example of the integrated tree structure created in this way is shown in FIG. The example shown in FIG. 9 is an example when “ABCD company top page” in the hypertext structure of FIG. 4 is designated as the start document. More specifically, since there are more documents than the upper limit in the cluster consisting of the hierarchy below the directory “/abcd.co.jp/” to which the starting document belongs, the two directories “/abcd.co.jp” directly below the upper limit are included. This is an example when two clusters with vertices / product / "and" /abcd.co.jp/download/ "are separated (the number of documents in the two separated clusters is less than the upper limit value) To do).

図9の例では、各クラスタの最上位ディレクトリ50−1("/abcd.co.jp/")、50−2("/abcd.co.jp/product/")及び50−3("/abcd.co.jp/download/")が、上部木構造を構成している。例えば、ディレクトリ"/abcd.co.jp/product/"は、ディレクトリ"/abcd.co.jp/"の直接の下位にあるので、上部木構造ではディレクトリ50−1の子がディレクトリ50−2となっている。   In the example of FIG. 9, the top directory 50-1 ("/abcd.co.jp/"), 50-2 ("/abcd.co.jp/product/") and 50-3 ("/" abcd.co.jp/download/ ") constitutes the upper tree structure. For example, since the directory “/abcd.co.jp/product/” is directly below the directory “/abcd.co.jp/”, the child of the directory 50-1 is the directory 50-2 in the upper tree structure. It has become.

また、図9の例では、統合木構造には、下部木構造群として、開始文書であるABCD会社トップページ56−1、分離した各クラスタ中から選ばれた商品ページ56−2及びダウンロードページ56−6をそれぞれ根ノードとした部分木(サブツリー)55−1,55−2及び55−3が含まれる。商品ページ56−2及びダウンロードページ56−6は、それぞれ分離したクラスタの最上位ディレクトリ中にあり、"index.html"という名前の文書であることから、根ノードとして選択されたものである。   In the example of FIG. 9, the integrated tree structure includes an ABCD company top page 56-1 which is a start document, a product page 56-2 selected from each separated cluster, and a download page 56 as a lower tree structure group. Included are subtrees 55-1, 55-2 and 55-3, each having −6 as a root node. The merchandise page 56-2 and the download page 56-6 are selected as root nodes because they are in the top directory of the separated clusters and are documents named “index.html”.

そして、図9の木構造では、上部木構造の各ノード50−1,2,及び3に対し、それぞれ下部木構造55−1,2,3の根ノード56−1,2,6がそれぞれ子ノードとして接続されている。   In the tree structure of FIG. 9, the root nodes 56-1, 2 and 6 of the lower tree structure 55-1, 2 and 3 are children respectively for the nodes 50-1, 2, and 3 of the upper tree structure. Connected as a node.

図9の例では、上部木構造の1つのノードに対し、下部木構造の1つの根ノードが接続されているが、これはあくまで一例である。同じクラスタから複数の文書を根ノードに選ぶような処理も可能であり、このような処理を採用した場合、それら各根ノードを起点とした各下部木構造が作成され、それら各根ノードが上部木構造の同じディレクトリのノードに対して接続されることになる。   In the example of FIG. 9, one root node of the lower tree structure is connected to one node of the upper tree structure, but this is only an example. Processing such as selecting multiple documents from the same cluster as the root node is also possible. When such processing is adopted, each subtree structure starting from each root node is created, and each root node is the top node. It will be connected to nodes in the same directory of the tree structure.

このように、本実施の形態では、統合木構造の作成範囲をディレクトリ構造に従って複数のクラスタに分割し、各クラスタ内の文書からなる下部木構造を作成する。そして、各クラスタの下部木構造を、それら各クラスタの最上位ディレクトリ同士のディレクトリ構造上での階層関係を示した上部木構造に接続することにより、統合木構造を作成する。   As described above, in this embodiment, the creation range of the integrated tree structure is divided into a plurality of clusters according to the directory structure, and a lower tree structure made up of documents in each cluster is created. Then, an integrated tree structure is created by connecting the lower tree structure of each cluster to the upper tree structure showing the hierarchical relationship on the directory structure of the top directory of each cluster.

本実施形態では、上述のように各クラスタごとに下部木構造を作成しているので、従来の手法で作成した木構造よりも、概念的に分類が分かりやすくなっている。これは次のような理由からである。   In the present embodiment, since the lower tree structure is created for each cluster as described above, the classification is conceptually easier to understand than the tree structure created by the conventional method. This is for the following reason.

すなわち、まず、一般にウェブデザイナーがウェブサイトを設計する場合、データ管理の効率性から言って、個々の文書(ウェブページ)を記述したファイルを行き当たりばったりの場所(ディレクトリ)に保存するよりは、概念的に整理したディレクトリ構造を作成し、各文書のファイルをそのディレクトリ構造中の適切なディレクトリに保存することの方が多いと言える。理想的なケースでは、文書群が保存されるディレクトリ群の階層構造は、それら文書群が構成する階層的な概念分類を表現したものとなる。現実はこのように理想的なディレクトリ構造をなしているばかりとは限らないが、後々のデータ管理の効率を少しでも考慮すれば、ディレクトリ構造は多かれ少なかれ文書群の概念分類を反映したものとなる。一方、本実施の形態の統合木構造データ作成装置では、1つのクラスタはあるディレクトリとそれ以下の階層のディレクトリ群から構成されており、1つの下部木構造は1つのクラスタに属する文書のみから構成される。したがって、各下部木構造では、根ノードの下位(子孫)には、その根ノードの文書が属するディレクトリ、又はこのディレクトリの下位のディレクトリ群に属する文書しか現れない。したがって、各下部木構造は、各々の根ノードの文書が属するディレクトリに対応する概念分類に対応した部分木と捉えることができる。   First, in general, when a web designer designs a website, rather than saving a file describing individual documents (web pages) in a random place (directory) in terms of data management efficiency, It is more likely to create a conceptually organized directory structure and store each document file in the appropriate directory within that directory structure. In an ideal case, the hierarchical structure of the directory group in which the document group is stored represents a hierarchical concept classification formed by the document group. In reality, this is not necessarily the ideal directory structure, but if you consider the efficiency of the subsequent data management, the directory structure more or less reflects the concept classification of the document group. . On the other hand, in the integrated tree structure data creation device according to the present embodiment, one cluster is composed of a directory and a directory group having a lower hierarchy, and one lower tree structure is composed only of documents belonging to one cluster. Is done. Accordingly, in each sub-tree structure, only the directory to which the document of the root node belongs, or the document that belongs to the directory group under this directory appears below the root node (descendant). Therefore, each lower tree structure can be regarded as a subtree corresponding to the concept classification corresponding to the directory to which the document of each root node belongs.

このように本実施の形態の装置が作成する統合木構造では、各下部木構造55が概念分けされているので、ユーザがその統合木構造上で所望のウェブページを探すことが容易になる。例えば、図4のハイパーテキスト構造中の「商品Cのページ」は、「ABCD会社トップページ」からのリンクが存在するため、従来手法により作成した木構造ではその「ABCD会社トップページ」の子ノードとして現れるのに対し、本実施の形態により作成した図9の統合木構造では、「商品ページ」56−2の子ノード56−5となっている。   In this way, in the integrated tree structure created by the apparatus of the present embodiment, each lower tree structure 55 is divided into concepts, so that the user can easily find a desired web page on the integrated tree structure. For example, since the “product C page” in the hypertext structure of FIG. 4 has a link from “ABCD company top page”, a child node of “ABCD company top page” in the tree structure created by the conventional method. In the integrated tree structure of FIG. 9 created according to the present embodiment, it is a child node 56-5 of the “product page” 56-2.

統合木構造データ202を受け取ったクライアント装置にて、図9の統合木構造をブラウザのナビゲーション画面に表示すれば、少なくとも上部木構造の部分では、同じ階層には概念レベルが等しいディレクトリ群のノードが示される。また、下部木構造の根ノードは上部木構造のノードにリンクされ、その上部木構造はハイパーテキスト構造のリンクよりも変更されにくいディレクトリ構造(すなわちURLの階層構造)によって決まるので、全体的な木構造での根ノードの位置は変更されにくい。また、上部木構造のノードから延びる各下部木構造55には、同じディレクトリ、従って同じ概念分類、に属する文書群のノードが含まれる。また、文書中に記述されるリンクは更新により様々に変化するが、文書のファイル自身の格納場所はリンクに比べて変化しにくいと考えられるので、図9の統合木構造では、従来手法で作成した木構造に比べて、個々の文書を示すノードの位置が変化しにくいといえる。このようなことから、この統合木構造を用いれば、ユーザは、所望の文書を探索するのが容易になる。   If the client device that has received the integrated tree structure data 202 displays the integrated tree structure of FIG. 9 on the navigation screen of the browser, at least in the upper tree structure part, nodes in the directory group having the same concept level exist in the same hierarchy. Indicated. In addition, the root node of the lower tree structure is linked to the node of the upper tree structure, and the upper tree structure is determined by a directory structure (that is, a URL hierarchical structure) that is harder to change than a hypertext structure link. The position of the root node in the structure is difficult to change. Further, each lower tree structure 55 extending from the upper tree structure node includes nodes of document groups belonging to the same directory, and thus the same concept classification. In addition, the link described in the document changes variously due to the update, but it is considered that the storage location of the document file itself is less likely to change compared to the link, so the integrated tree structure in FIG. It can be said that the position of a node indicating an individual document is less likely to change compared to the tree structure. For this reason, if this integrated tree structure is used, the user can easily search for a desired document.

以上の例では、下部木構造には同じクラスタ内の文書のノードしか現れないが、これだとクラスタを跨ぐ文書間のリンクが表現できない。このようなクラスタを跨ぐリンクを表現するための変形例として、クラスタ外にあるリンク先文書を、クラスタ内の文書とはノード種別が異なる参照ノードとして下部木構造に組み込む方式がある。この変形例では、あるクラスタの下部木構造を作成する際、当該クラスタ内の文書は実ノードとして下部木構造に組み込む。一方、実ノードの文書から他のクラスタに属する文書へのリンクを検出した場合、そのリンク先文書を参照ノードとしてその下部木構造に組み込む。実ノードについては更にリンク先の文書を探索するが、参照ノードについてはそのノードから先のリンクは探索しない。すなわち参照ノードは木の葉(リーフ)として現れるだけである。このようにクラスタ外のリンク先を参照ノードとして組み込むことにより、クラスタ内の文書から下位木構造を作成するという原則を基本的に満足しつつ、クラスタを跨ぐリンク関係を表現することが可能になる。以上の説明から分かるように、本実施の形態の統合木構造の作成手順では、個々の文書は、統合木構造中において、当該文書が属するクラスタに対応する下位木構造中に1回だけ実ノードとして現れ、他の下位木構造中には現れるとしても参照ノードとして現れるのみである。   In the above example, only the nodes of the documents in the same cluster appear in the lower tree structure, but this cannot express a link between documents across the clusters. As a modified example for expressing such a link across clusters, there is a method of incorporating a link destination document outside the cluster into a lower tree structure as a reference node having a different node type from the document in the cluster. In this modification, when creating a lower tree structure of a cluster, documents in the cluster are incorporated into the lower tree structure as real nodes. On the other hand, when a link from a real node document to a document belonging to another cluster is detected, the link destination document is incorporated into the lower tree structure as a reference node. The link destination document is further searched for the real node, but the link beyond the node is not searched for the reference node. That is, the reference node only appears as a leaf. By incorporating a link destination outside the cluster as a reference node in this way, it is possible to express a link relationship across clusters while basically satisfying the principle of creating a subtree structure from documents in the cluster. . As can be seen from the above description, in the integrated tree structure creation procedure of the present embodiment, each document is a real node only once in the subordinate tree structure corresponding to the cluster to which the document belongs in the integrated tree structure. It appears as a reference node even if it appears in other subtree structures.

次に、統合木構造を示す統合木構造データのデータ内容を図10に示す。この統合木構造データは、図4のハイパーテキスト構造に対応するものであり、図9に示した統合木構造に、クラスタ外のリンク先文書を示す参照ノードを加えた場合の統合木構造のデータを示す。   Next, FIG. 10 shows data contents of the integrated tree structure data indicating the integrated tree structure. This integrated tree structure data corresponds to the hypertext structure shown in FIG. 4, and is an integrated tree structure data obtained by adding a reference node indicating a link destination document outside the cluster to the integrated tree structure shown in FIG. Indicates.

このデータは、統合木構造を構成する各ノードごとに、ノードID302、URL304、表示データ306、子ノード情報308、ノード種別情報310、及び木構造パス312が含まれている。このうち、ノードS001,S002,S003が上部木構造のノードであり、残りのノードI001以下が各下部木構造のノードである。ノードID302は、各ノードに一意に割り当てられた識別情報である。ノードID302は、その値に基づき上部木構造のノードか下部木構造のノードかが識別できるものが好適である。もっとも、ノードが上部木構造に属するか下部木構造に属するかを示す識別情報を別途各ノードごとに付加するようにすれば、そうでなくても構わない。URL304は、該ノードに対応する文書の所在位置を示すURLである。表示データ306は、ブラウザ等で該ノードを表示する際に用いる表示データであり、文書のノードの場合はその文書のタイトル(図2のタイトル106)を流用することができる。上部木構造のノードの場合は、当該ノードに対応するディレクトリのURLを表示データとして用いることができる。子ノード情報308は、該ノードが持つ子ノードのノードIDのリストである。ノード種別情報310は、該ノードが実ノードであるか参照ノードであるかを示す識別情報である。図10の例では、ノードI012,I013が参照ノードとなっている。ちなみに、参照ノードI013は、実ノードI008と同じ文書を示している。木構造パス312は、統合木構造の根ノード(図10の例ではノードS001)から当該ノードまでの、統合木構造中でのパスを示す情報である。図示例では、その根ノードから統合木構造の親子関係をたどって当該ノードに達するまでに通過するノードのIDを連ねたものとなっている。木構造パス312は、例えば「ノードI002以下の階層に属するノード」などといった、統合木構造での位置についての検索条件に対する検索処理を高速に実行するために設けられたデータ項目である。   This data includes a node ID 302, a URL 304, display data 306, child node information 308, node type information 310, and a tree structure path 312 for each node constituting the integrated tree structure. Among these, nodes S001, S002, and S003 are nodes of the upper tree structure, and the remaining nodes I001 and below are nodes of the lower tree structure. The node ID 302 is identification information uniquely assigned to each node. It is preferable that the node ID 302 can identify whether the node has an upper tree structure or a lower tree structure based on the value. Of course, this is not necessary if identification information indicating whether the node belongs to the upper tree structure or the lower tree structure is added separately for each node. URL 304 is a URL indicating the location of the document corresponding to the node. The display data 306 is display data used when the node is displayed by a browser or the like. In the case of a document node, the title of the document (title 106 in FIG. 2) can be used. In the case of a node having an upper tree structure, the URL of the directory corresponding to the node can be used as display data. The child node information 308 is a list of node IDs of child nodes possessed by the node. The node type information 310 is identification information indicating whether the node is a real node or a reference node. In the example of FIG. 10, nodes I012 and I013 are reference nodes. Incidentally, the reference node I013 indicates the same document as the real node I008. The tree structure path 312 is information indicating a path in the integrated tree structure from the root node (node S001 in the example of FIG. 10) of the integrated tree structure to the node. In the illustrated example, the parent-child relationship of the integrated tree structure is traced from the root node, and the IDs of the nodes that pass until the node is reached are linked. The tree structure path 312 is a data item provided to execute a search process for a search condition for a position in an integrated tree structure, such as “node belonging to a hierarchy below the node I002”, for example.

このような統合木構造データは、次のようにして作成できる。すなわち、まず作成範囲のクラスタ分割が終わり、各クラスタの根ノード文書を選択した時点で、上部木構造の各ノードについてのデータ項目はすべてその値を決定することができる。そして、上部木構造の各ノードの子孫となる各下部木構造のノードの各データ項目は、対応するクラスタ内のリンク関係をたどって木構造を作成していく過程で求めることができる。このような処理は、概念的にいって、上部木構造と各下部木構造とを統合する処理と等価である。   Such integrated tree structure data can be created as follows. That is, when the clustering of the creation range is finished and the root node document of each cluster is selected, the value of all data items for each node of the upper tree structure can be determined. Each data item of each node of the lower tree structure that is a descendant of each node of the upper tree structure can be obtained in the process of creating the tree structure by following the link relationship in the corresponding cluster. Such processing is conceptually equivalent to processing for integrating the upper tree structure and each lower tree structure.

以上、本実施の形態の統合木構造データ作成装置の構成と処理内容について説明した。以上に説明した本実施の形態の統合木構造データ作成装置は、一般的なコンピュータシステムを利用して構築することができる。典型的には、コンピュータシステムのハードディスク装置に、図1の各機能モジュール10,14,16,17,18,20の機能を記述したプログラムをインストールすることにより、統合木構造データ作成装置となる。   The configuration and processing contents of the integrated tree structure data creation device according to the present embodiment have been described above. The integrated tree structure data creation device of the present embodiment described above can be constructed using a general computer system. Typically, by installing a program describing the functions of the function modules 10, 14, 16, 17, 18, and 20 shown in FIG.

以上に説明した本実施の形態の装置では、統合木構造中の各下部木構造は、基本的に、それぞれ対応するクラスタ内の文書のみしか含まない。ここで上述のクラスタ分割処理によれば、1ディレクトリの直下の文書数が上限値を超えるという特別な場合を除き、作成範囲の文書群は、それぞれ上限値以下の文書数しかないクラスタに分割されることになる。   In the apparatus of the present embodiment described above, each lower tree structure in the integrated tree structure basically includes only the documents in the corresponding cluster. Here, according to the above-described cluster division processing, except in a special case where the number of documents directly under one directory exceeds the upper limit value, the document group in the creation range is divided into clusters each having a document number equal to or less than the upper limit value. Will be.

このようなことから、文書の更新などでハイパーテキスト構造のリンク関係が変化した場合でも、統合木構造中でその変化の影響を受けるのは、その変化したリンクに関するノードを含むクラスタの下部木構造のみに限定される。これは、本実施の形態の統合木構造作成では、クラスタ単位で下部木構造を作成しているので、ある実ノードに関するリンクが変化した場合でも、そのノードは他のクラスタの下部木構造には実ノードとしては登場しないからである。このように本実施の形態には、リンク変更の影響が及ぶ範囲を個々の下部木構造内に限定できるというメリットがある。   For this reason, even if the link relationship of the hypertext structure changes due to a document update, etc., the lower tree structure of the cluster that includes the node related to the changed link is affected by the change in the integrated tree structure. Limited to only. This is because in the creation of the integrated tree structure of this embodiment, the lower tree structure is created in units of clusters, so even if the link related to a certain real node changes, that node is not included in the lower tree structure of another cluster. This is because it does not appear as a real node. As described above, this embodiment has an advantage that the range affected by the link change can be limited to the individual lower tree structure.

また本実施の形態では、クラスタ内の文書数は、上述の特別な場合に該当するクラスタを除き所定の上限値以下なので、統合木構造データ中で1つのリンクの変化に対応してデータ内容の変更が必要となるノードの数は、上述の特別な場合を除き、高々上述の上限値だけである。例えば図10の統合木構造データでは、リンクの変化に応じて親となるノードが変わったノードとその子孫については、木構造パス312のデータ内容をすべて更新しなければならないが、そのような更新の対象のノード数は基本的に上記上限値以下となる。統合木構造中に参照ノードを加える構成の場合も、参照ノードは子孫を持たないので、データ内容の更新対象が爆発的に増大することはない。このようなことから、本実施の形態によれば、一つのリンクの変更に応じた統合木構造データの変更処理のコストを、上述の上限値に応じた値に制限することができるので、統合木構造データの作成及び更新のためのシステムの安定運用に貢献することができる。   In the present embodiment, the number of documents in the cluster is equal to or less than a predetermined upper limit except for the cluster corresponding to the special case described above, so the data content corresponds to the change of one link in the integrated tree structure data. The number of nodes that need to be changed is at most the above-described upper limit value, except for the above-mentioned special cases. For example, in the integrated tree structure data of FIG. 10, all the data contents of the tree structure path 312 must be updated for the node whose parent node has changed in accordance with the link change and its descendants. The number of target nodes is basically less than or equal to the above upper limit value. Even in a configuration in which a reference node is added to the integrated tree structure, since the reference node has no descendants, the data content update target does not increase explosively. For this reason, according to the present embodiment, the cost of the change process of the integrated tree structure data according to the change of one link can be limited to the value according to the above upper limit value. It is possible to contribute to stable operation of a system for creating and updating tree structure data.

なお、以上の例では、1ディレクトリ直下の文書数が上限値を超える場合でも、そのディレクトリを1つのクラスタとした。しかしながら、この代わりにそのようなディレクトリを複数のクラスタに分割することで、すべてのクラスタの文書数をすべて上限値以下にすることも、もちろん可能である。この場合、単に無作為に分割するのではなく、分割のルールを定めておき、それに従って分割することで、何度分割しても同じようにクラスタ分割されるようにすることができる。   In the above example, even if the number of documents directly under one directory exceeds the upper limit, that directory is defined as one cluster. However, it is of course possible to divide such a directory into a plurality of clusters instead so that the number of documents in all the clusters is less than or equal to the upper limit value. In this case, instead of simply dividing at random, by defining a division rule and performing division according to the rule, the cluster can be divided in the same manner no matter how many times the division is performed.

また以上の例では、あるクラスタの文書数が上限値を超えることが分かった場合、そのクラスタの最上位ディレクトリの直下にすべてのディレクトリを並列に注目ディレクトリに選んだが(図6のS30)、本発明はこのような処理手順に限るものではない。例えば、注目ディレクトリを1乃至複数ずつ選んではその注目ディレクトリを頂点とする1乃至複数のクラスタを元のクラスタから分離し、それでもまだ元のクラスタの文書数が上限値を超えていれば、更に1乃至複数ずつ注目ディレクトリを選んでクラスタの分離を行うという手順も可能である。   In the above example, when it is found that the number of documents in a cluster exceeds the upper limit value, all directories are selected as directories of interest directly under the top directory of the cluster (S30 in FIG. 6). The invention is not limited to such a processing procedure. For example, if one or more target directories are selected, one or more clusters having the target directory as a vertex are separated from the original cluster, and if the number of documents in the original cluster still exceeds the upper limit, an additional 1 It is also possible to perform a procedure of selecting clusters of interest and separating the clusters one by one.

また以上の例では、各クラスタから根ノードとする文書を1つずつ選んだが、これを複数ずつ選択するようにすることももちろん可能である。   In the above example, one document is selected as a root node from each cluster, but it is of course possible to select a plurality of documents.

また以上の例では、各クラスタの根ノードの属するディレクトリをノードとした上部木構造を作成し、各下部木構造をその上部木構造に接続することで統合木構造を作成したが、本発明はそのような実施の形態に限るものではない。例えば、各下部木構造の根ノードを1つの共通根ノードの子として接続することで、統合木構造を作成するような構成も本発明の範囲内である。   In the above example, an upper tree structure is created with the directory to which the root node of each cluster belongs as a node, and an integrated tree structure is created by connecting each lower tree structure to the upper tree structure. It is not limited to such an embodiment. For example, a configuration in which an integrated tree structure is created by connecting the root nodes of each lower tree structure as a child of one common root node is also within the scope of the present invention.

また以上では、統合木構造データ作成装置を、クライアント装置からの要求に応じて統合木構造データを作成し提供するサーバ装置として構成した例を示したが、この統合木構造データ作成装置に対し、作成した統合木構造データに基づき統合木構造を表示する表示処理部を設けた装置構成も、本発明の範囲に含まれる。   In the above, an example in which the integrated tree structure data creation device is configured as a server device that creates and provides integrated tree structure data in response to a request from a client device has been shown. An apparatus configuration provided with a display processing unit for displaying an integrated tree structure based on the generated integrated tree structure data is also included in the scope of the present invention.

本発明に係る統合木構造データ作成装置の構成を示す機能ブロック図である。It is a functional block diagram which shows the structure of the integrated tree structure data creation apparatus which concerns on this invention. 文書テーブルの一例を示す図である。It is a figure which shows an example of a document table. リンクテーブルの一例を示す図である。It is a figure which shows an example of a link table. ハイパーテキスト構造の一例を示す図である。It is a figure which shows an example of a hypertext structure. 統合木構造データ作成装置の全体的な処理手順を示すフローチャートである。It is a flowchart which shows the whole process sequence of an integrated tree structure data preparation apparatus. クラスタ分割部の処理手順を示すフローチャートである。It is a flowchart which shows the process sequence of a cluster division part. クラスタ管理テーブルを説明するための図である。It is a figure for demonstrating a cluster management table. クラスタ分割されるディレクトリツリーの具体例を示す図である。It is a figure which shows the specific example of the directory tree divided into clusters. 統合木構造の一例を示す図である。It is a figure which shows an example of an integrated tree structure. 統合木構造データの一例を示す図である。It is a figure which shows an example of integrated tree structure data.

符号の説明Explanation of symbols

10 リンク情報収集部、12 ハイパーテキスト構造記憶部、14 要求処理部、16 クラスタ分割部、17 木構造データ作成部、18 木構造データ記憶部、20 統合制御部。   DESCRIPTION OF SYMBOLS 10 Link information collection part, 12 Hypertext structure storage part, 14 Request processing part, 16 Cluster division part, 17 Tree structure data creation part, 18 Tree structure data storage part, 20 Integrated control part.

Claims (11)

階層的なディレクトリ構造内に含まれる文書群が構成するハイパーテキスト構造に基づき、該ハイパーテキスト構造に対応する木構造を表す統合木構造データを作成するための装置であって、
前記文書群を複数のクラスタに分割する手段であって、各クラスタに含まれる文書数がそれぞれ所定の上限値以下となるように分割を行うクラスタ分割手段と、
前記クラスタごとに、基準文書を選択し、当該基準文書を当該クラスタに対応する下部木構造データに組み込み、当該基準文書を起点に前記ハイパーテキスト構造のリンクを順次たどっていく際に、リンク先の文書が当該クラスタに属する場合にのみ当該リンク先の文書を当該クラスタに対応する下部木構造データに組み込むことで、当該基準文書を根ノードとした当該クラスタ内の文書群の木構造を示す下部木構造データを作成する下部木構造作成手段と、
前記下部木構造作成手段で作成された前記クラスタごとの各下部木構造データを統合して統合木構造データを作成する統合木構造作成手段と、
を備える木構造データ作成装置。
An apparatus for creating integrated tree structure data representing a tree structure corresponding to a hypertext structure based on a hypertext structure formed by a group of documents included in a hierarchical directory structure,
Means for dividing the document group into a plurality of clusters, wherein the number of documents included in each cluster is divided so as to be equal to or less than a predetermined upper limit value; and
For each of the clusters, select the reference document, when the reference document embedded in the lower tree structure data corresponding to the cluster, go to those the reference document starting from the Tsu sequentially Tado hypertext links structure, the document of the destination only when the link destination document belongs to the cluster by incorporating a lower tree structure data corresponding to the cluster, the documents in the cluster that the person the reference document and a root node tree Subtree structure creation means for creating subtree structure data indicating
Integrated tree structure creating means for creating integrated tree structure data by integrating the respective lower tree structure data for each cluster created by the lower tree structure creating means;
A tree structure data creation device comprising:
前記各基準文書の前記ディレクトリ構造内での位置情報に基づき、前記各基準文書間の階層関係を表す上部木構造データを作成する上部木構造作成手段、を更に備え、
前記統合木構造作成手段は、前記上部木構造データと前記各下部木構造データとを組み合わせることで統合木構造データを作成する、
請求項1記載の木構造データ作成装置。
Upper tree structure creation means for creating upper tree structure data representing a hierarchical relationship between the reference documents based on position information of the reference documents in the directory structure;
The integrated tree structure creation means creates integrated tree structure data by combining the upper tree structure data and the lower tree structure data.
The tree structure data creation device according to claim 1.
前記クラスタ分割手段は、各クラスタが、それぞれ当該クラスタ内の属する最上位ディレクトリ以下のディレクトリ群に属する文書のみを含むように、前記文書群を複数のクラスタに分割する、
ことを特徴とする請求項1又は2に記載の木構造データ作成装置。
The cluster dividing unit divides the document group into a plurality of clusters so that each cluster includes only documents belonging to a directory group below the highest directory to which the cluster belongs.
The tree structure data creation device according to claim 1 or 2, characterized in that.
前記クラスタ分割手段は、
(a)指定された注目ディレクトリ以下のディレクトリ群に含まれる文書群を第1のクラスタとして求め、
(b)第1のクラスタ内に含まれる文書の数を計数し、
(c)ステップ(b)で求められた文書の数が所定の上限値を超えた場合には、注目ディレクトリの直下のディレクトリを新たな注目ディレクトリに選び、該新たな注目ディレクトリ以下のディレクトリ群に含まれる文書群を第2のクラスタとして求め、該第2のクラスタに含まれる文書群を前記第1のクラスタから削除し、
(d)ステップ(c)で求められた前記第2のクラスタを新たな第1のクラスタとして前記ステップ(b)以下のステップを再帰的に繰り返す、
ことを特徴とする請求項1又は2に記載の木構造データ作成装置。
The cluster dividing means includes
(A) obtaining a document group included in a directory group below the designated directory of interest as a first cluster;
(B) counting the number of documents contained in the first cluster;
(C) When the number of documents obtained in step (b) exceeds a predetermined upper limit, a directory immediately below the target directory is selected as a new target directory, and the directory group below the new target directory is selected. Determining the included document group as a second cluster, deleting the document group included in the second cluster from the first cluster,
(D) recursively repeating the steps after step (b) with the second cluster obtained in step (c) as a new first cluster;
The tree structure data creation device according to claim 1 or 2, characterized in that.
前記ディレクトリ構造内での開始文書の指定を受け付ける手段を更に備え、
前記クラスタ分割手段は、前記開始文書の含まれるディレクトリを前記ステップ(a)における前記注目ディレクトリとして処理を実行し、
前記下部木構造作成手段は、前記ステップ(a)で求めたクラスタについての基準文書として、前記開始文書を選択する、
ことを特徴とする請求項4記載の木構造データ作成装置。
Means for accepting designation of a starting document in the directory structure;
The cluster dividing unit executes processing with the directory including the start document as the directory of interest in the step (a),
The lower tree structure creation means selects the start document as a reference document for the cluster obtained in step (a).
5. The tree structure data creating apparatus according to claim 4, wherein
前記下部木構造作成手段は、前記クラスタの基準文書から前記ハイパーテキスト構造のリンクを順次たどっていく処理において、該クラスタの中の文書から該クラスタの外の文書へのリンクを検出した場合、該リンクが示すリンク先の文書を、子ノードを持たない参照ノードとして前記下部木構造データに組み込む手段を更に備える、
ことを特徴とする請求項1〜5のいずれか1項に記載の木構造データ作成装置。
In the process of sequentially following the hypertext structure link from the reference document of the cluster, the lower tree structure creation means detects the link from a document in the cluster to a document outside the cluster. A means for incorporating a link destination document indicated by the link into the lower tree structure data as a reference node having no child node;
The tree structure data creation device according to any one of claims 1 to 5, wherein
階層的なディレクトリ構造内に含まれる文書群が構成するハイパーテキスト構造に基づき、該ハイパーテキスト構造に対応する木構造を表す統合木構造データを作成するための装置であって、
前記文書群を複数のクラスタに分割するクラスタ分割手段と、
前記クラスタごとに、基準文書を選択し、当該基準文書を当該クラスタに対応する下部木構造データに組み込み、当該基準文書を起点に前記ハイパーテキスト構造のリンクを順次たどっていく際に、リンク先の文書が当該クラスタに属する場合にのみ当該リンク先の文書を当該クラスタに対応する下部木構造データに組み込むことで、当該基準文書を根ノードとした当該クラスタ内の文書群の木構造を示す下部木構造データを作成する下部木構造作成手段と、
前記下部木構造作成手段で作成された前記クラスタごとの各下部木構造データを統合して統合木構造データを作成する統合木構造作成手段と、
を備え、
前記クラスタ分割手段が、
(a)指定された注目ディレクトリ以下のディレクトリ群に含まれる文書群を第1のクラスタとして求め、
(b)第1のクラスタ内に含まれる文書の数を計数し、
(c)ステップ(b)で求められた文書の数が所定の上限値を超えた場合には、注目ディレクトリの直下のディレクトリを新たな注目ディレクトリに選び、該新たな注目ディレクトリ以下のディレクトリ群に含まれる文書群を第2のクラスタとして求め、該第2のクラスタに含まれる文書群を前記第1のクラスタから削除し、
(d)ステップ(c)で求められた前記第2のクラスタを新たな第1のクラスタとして前記ステップ(b)以下のステップを再帰的に繰り返す、
木構造データ作成装置。
An apparatus for creating integrated tree structure data representing a tree structure corresponding to a hypertext structure based on a hypertext structure formed by a group of documents included in a hierarchical directory structure,
Cluster dividing means for dividing the document group into a plurality of clusters;
For each of the clusters, select the reference document, when the reference document embedded in the lower tree structure data corresponding to the cluster, go to those the reference document starting from the Tsu sequentially Tado hypertext links structure, the document of the destination only when the link destination document belongs to the cluster by incorporating a lower tree structure data corresponding to the cluster, the documents in the cluster that the person the reference document and a root node tree Subtree structure creation means for creating subtree structure data indicating
Integrated tree structure creating means for creating integrated tree structure data by integrating the respective lower tree structure data for each cluster created by the lower tree structure creating means;
With
The cluster dividing means is
(A) obtaining a document group included in a directory group below the designated directory of interest as a first cluster;
(B) counting the number of documents contained in the first cluster;
(C) When the number of documents obtained in step (b) exceeds a predetermined upper limit, the directory immediately below the target directory is selected as a new target directory, and the directory group below the new target directory is selected. Determining the included document group as a second cluster, deleting the document group included in the second cluster from the first cluster,
(D) recursively repeating the steps after step (b) with the second cluster obtained in step (c) as a new first cluster;
Tree structure data creation device.
階層的なディレクトリ構造内に含まれる文書群が構成するハイパーテキスト構造に基づき、該ハイパーテキスト構造に対応する木構造を表す統合木構造データを作成するための方法であって、
クラスタ分割手段が、前記文書群を複数のクラスタに分割する手段であって、各クラスタに含まれる文書数がそれぞれ所定の上限値以下となるように分割を行い、
下部木構造作成手段が、前記クラスタごとに、基準文書を選択し、当該基準文書を当該クラスタに対応する下部木構造データに組み込み、当該基準文書を起点に前記ハイパーテキスト構造のリンクを順次たどっていく際に、リンク先の文書が当該クラスタに属する場合にのみ当該リンク先の文書を当該クラスタに対応する下部木構造データに組み込むことで、当該基準文書を根ノードとした当該クラスタ内の文書群の木構造を示す下部木構造データを作成し、
統合木構造作成手段が、前記下部木構造作成手段で作成された前記クラスタごとの各下部木構造データを統合して統合木構造データを作成する、
木構造データ作成方法。
A method for creating integrated tree structure data representing a tree structure corresponding to a hypertext structure based on a hypertext structure formed by a group of documents included in a hierarchical directory structure,
Cluster dividing means is means for dividing the document group into a plurality of clusters, and performs division so that the number of documents included in each cluster is equal to or less than a predetermined upper limit,
A lower tree structure creation means, for each of the clusters, select the reference document, the reference document embedded in the lower tree structure data corresponding to the cluster were a link of the hypertext structure equivalent to the reference document in the origin sequentially when going throat Tsu, by incorporating the documents of the destination only if the document destination belongs to the cluster to the lower tree structure data corresponding to the cluster, the cluster of those said reference document and a root node Create sub-tree data indicating the tree structure of the documents
An integrated tree structure creating means integrates each lower tree structure data for each cluster created by the lower tree structure creating means to create integrated tree structure data;
Tree structure data creation method.
階層的なディレクトリ構造内に含まれる文書群が構成するハイパーテキスト構造に基づき、該ハイパーテキスト構造に対応する木構造を表す統合木構造データを作成するための方法であって、
クラスタ分割手段が、前記文書群を複数のクラスタに分割するクラスタ分割ステップと、
下部木構造作成手段が、前記クラスタごとに、基準文書を選択し、当該基準文書を当該クラスタに対応する下部木構造データに組み込み、当該基準文書を起点に前記ハイパーテキスト構造のリンクを順次たどっていく際に、リンク先の文書が当該クラスタに属する場合にのみ当該リンク先の文書を当該クラスタに対応する下部木構造データに組み込むことで、当該基準文書を根ノードとした当該クラスタ内の文書群の木構造を示す下部木構造データを作成する下部木構造作成ステップと、
統合木構造作成手段が、前記下部木構造作成手段で作成された前記クラスタごとの各下部木構造データを統合して統合木構造データを作成する統合ステップと、
を含み、
前記クラスタ分割ステップは、
(a)指定された注目ディレクトリ以下のディレクトリ群に含まれる文書群を第1のクラスタとして求め、
(b)第1のクラスタ内に含まれる文書の数を計数し、
(c)ステップ(b)で求められた文書の数が所定の上限値を超えた場合には、注目ディレクトリの直下のディレクトリを新たな注目ディレクトリに選び、該新たな注目ディレクトリ以下のディレクトリ群に含まれる文書群を第2のクラスタとして求め、該第2のクラスタに含まれる文書群を前記第1のクラスタから削除し、
(d)ステップ(c)で求められた前記第2のクラスタを新たな第1のクラスタとして前記ステップ(b)以下のステップを再帰的に繰り返す、
ことを特徴とする木構造データ作成方法。
A method for creating integrated tree structure data representing a tree structure corresponding to a hypertext structure based on a hypertext structure formed by a group of documents included in a hierarchical directory structure,
A cluster dividing means for dividing the document group into a plurality of clusters;
A lower tree structure creation means, for each of the clusters, select the reference document, the reference document embedded in the lower tree structure data corresponding to the cluster were a link of the hypertext structure equivalent to the reference document in the origin sequentially when going throat Tsu, by incorporating the documents of the destination only if the document destination belongs to the cluster to the lower tree structure data corresponding to the cluster, the cluster of those said reference document and a root node A sub-tree structure creation step for creating sub-tree data indicating the tree structure of the documents in the document group;
An integration step of integrating tree structure data by integrating each lower tree structure data for each cluster created by the lower tree structure creation means;
Including
The cluster dividing step includes:
(A) obtaining a document group included in a directory group below the designated directory of interest as a first cluster;
(B) counting the number of documents contained in the first cluster;
(C) When the number of documents obtained in step (b) exceeds a predetermined upper limit, a directory immediately below the target directory is selected as a new target directory, and the directory group below the new target directory is selected. Determining the included document group as a second cluster, deleting the document group included in the second cluster from the first cluster,
(D) recursively repeating the steps after step (b) with the second cluster obtained in step (c) as a new first cluster;
A tree structure data creation method characterized by the above.
コンピュータシステムを、階層的なディレクトリ構造内に含まれる文書群が構成するハイパーテキスト構造に基づき、該ハイパーテキスト構造に対応する木構造を表す統合木構造データを作成するための装置として機能させるためのプログラムであって、該コンピュータシステムを、
前記文書群を複数のクラスタに分割する手段であって、各クラスタに含まれる文書数がそれぞれ所定の上限値以下となるように分割を行うクラスタ分割手段、
前記クラスタごとに、基準文書を選択し、当該基準文書を当該クラスタに対応する下部木構造データに組み込み、当該基準文書を起点に前記ハイパーテキスト構造のリンクを順次たどっていく際に、リンク先の文書が当該クラスタに属する場合にのみ当該リンク先の文書を当該クラスタに対応する下部木構造データに組み込むことで、当該基準文書を根ノードとした当該クラスタ内の文書群の木構造を示す下部木構造データを作成する下部木構造作成手段、
前記下部木構造作成手段で作成された前記クラスタごとの各下部木構造データを統合して統合木構造データを作成する統合木構造作成手段、
として機能させるプログラム。
A computer system is made to function as an apparatus for creating integrated tree structure data representing a tree structure corresponding to a hypertext structure based on a hypertext structure formed by a group of documents included in a hierarchical directory structure. A computer program comprising:
Means for dividing the document group into a plurality of clusters, wherein the number of documents included in each cluster is divided so as to be equal to or less than a predetermined upper limit value;
For each of the clusters, select the reference document, when the reference document embedded in the lower tree structure data corresponding to the cluster, go to those the reference document starting from the Tsu sequentially Tado hypertext links structure, the document of the destination only when the link destination document belongs to the cluster by incorporating a lower tree structure data corresponding to the cluster, the documents in the cluster that the person the reference document and a root node tree Subtree structure creation means for creating subtree data indicating
Integrated tree structure creation means for creating integrated tree structure data by integrating each lower tree structure data for each cluster created by the lower tree structure creation means;
Program to function as.
コンピュータシステムを、階層的なディレクトリ構造内に含まれる文書群が構成するハイパーテキスト構造に基づき、該ハイパーテキスト構造に対応する木構造を表す統合木構造データを作成するための装置、として機能させるためのプログラムであって、該コンピュータシステムを、
前記文書群を複数のクラスタに分割するクラスタ分割手段、
前記クラスタごとに、基準文書を選択し、当該基準文書を当該クラスタに対応する下部木構造データに組み込み、当該基準文書を起点に前記ハイパーテキスト構造のリンクを順次たどっていく際に、リンク先の文書が当該クラスタに属する場合にのみ当該リンク先の文書を当該クラスタに対応する下部木構造データに組み込むことで、当該基準文書を根ノードとした当該クラスタ内の文書群の木構造を示す下部木構造データを作成する下部木構造作成手段、
前記下部木構造作成手段で作成された前記クラスタごとの各下部木構造データを統合して統合木構造データを作成する統合木構造作成手段、
として機能させ、
前記クラスタ分割手段が、
(a)指定された注目ディレクトリ以下のディレクトリ群に含まれる文書群を第1のクラスタとして求め、
(b)第1のクラスタ内に含まれる文書の数を計数し、
(c)ステップ(b)で求められた文書の数が所定の上限値を超えた場合には、注目ディレクトリの直下のディレクトリを新たな注目ディレクトリに選び、該新たな注目ディレクトリ以下のディレクトリ群に含まれる文書群を第2のクラスタとして求め、該第2のクラスタに含まれる文書群を前記第1のクラスタから削除し、
(d)ステップ(c)で求められた前記第2のクラスタを新たな第1のクラスタとして前記ステップ(b)以下のステップを再帰的に繰り返す、
というステップを含む処理を行うようにするためのプログラム。
To make a computer system function as an apparatus for creating integrated tree structure data representing a tree structure corresponding to a hypertext structure based on a hypertext structure formed by a group of documents included in a hierarchical directory structure A computer system comprising:
Cluster dividing means for dividing the document group into a plurality of clusters;
For each of the clusters, select the reference document, when the reference document embedded in the lower tree structure data corresponding to the cluster, go to those the reference document starting from the Tsu sequentially Tado hypertext links structure, the document of the destination only when the link destination document belongs to the cluster by incorporating a lower tree structure data corresponding to the cluster, the documents in the cluster that the person the reference document and a root node tree Subtree structure creation means for creating subtree data indicating
Integrated tree structure creation means for creating integrated tree structure data by integrating each lower tree structure data for each cluster created by the lower tree structure creation means;
Function as
The cluster dividing means is
(A) obtaining a document group included in a directory group below the designated directory of interest as a first cluster;
(B) counting the number of documents contained in the first cluster;
(C) When the number of documents obtained in step (b) exceeds a predetermined upper limit, a directory immediately below the target directory is selected as a new target directory, and the directory group below the new target directory is selected. Determining the included document group as a second cluster, deleting the document group included in the second cluster from the first cluster,
(D) recursively repeating the steps after step (b) with the second cluster obtained in step (c) as a new first cluster;
A program to perform processing including the steps.
JP2003407028A 2003-12-05 2003-12-05 Tree structure data creation device and method Expired - Fee Related JP4254511B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003407028A JP4254511B2 (en) 2003-12-05 2003-12-05 Tree structure data creation device and method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003407028A JP4254511B2 (en) 2003-12-05 2003-12-05 Tree structure data creation device and method

Publications (2)

Publication Number Publication Date
JP2005165920A JP2005165920A (en) 2005-06-23
JP4254511B2 true JP4254511B2 (en) 2009-04-15

Family

ID=34729202

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003407028A Expired - Fee Related JP4254511B2 (en) 2003-12-05 2003-12-05 Tree structure data creation device and method

Country Status (1)

Country Link
JP (1) JP4254511B2 (en)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7849090B2 (en) * 2005-03-30 2010-12-07 Primal Fusion Inc. System, method and computer program for faceted classification synthesis
JP5434500B2 (en) * 2009-11-13 2014-03-05 富士ゼロックス株式会社 Tree structure processing apparatus and program
JP6326886B2 (en) * 2014-03-19 2018-05-23 富士通株式会社 Software division program, software division apparatus, and software division method
CN114528623B (en) * 2022-02-11 2024-12-10 阳光新能源开发股份有限公司 Method and device for determining position of supplementary piles

Also Published As

Publication number Publication date
JP2005165920A (en) 2005-06-23

Similar Documents

Publication Publication Date Title
US7877677B2 (en) Methods and apparatus for enabling use of web content on various types of devices
JP3842573B2 (en) Structured document search method, structured document management apparatus and program
US5974572A (en) Software system and methods for generating a load test using a server access log
US7137065B1 (en) System and method for classifying electronically posted documents
US7428705B2 (en) Web map tool
CN110059282A (en) A kind of acquisition methods and system of interactive class data
US20090210780A1 (en) Document processing and management approach to creating a new document in a mark up language environment using new fragment and new scheme
US20020091835A1 (en) System and method for internet content collaboration
US20030088639A1 (en) Method and an apparatus for transforming content from one markup to another markup language non-intrusively using a server load balancer and a reverse proxy transcoding engine
US7912846B2 (en) Document processing method, recording medium, and document processing system
WO2006132793A2 (en) Learning facts from semi-structured text
US20170262539A1 (en) Method of retrieving attributes from at least two data sources
US7975218B2 (en) Apparatus and method for forming document group structure data and storage medium
US8219934B2 (en) Method and code module for facilitating navigation between webpages
JP3914081B2 (en) Access authority setting method and structured document management system
JP4254511B2 (en) Tree structure data creation device and method
JPH09146962A (en) Information space access support method and device
US20060212461A1 (en) System for organizing a plurality of data sources into a plurality of taxonomies
KR20030051577A (en) Display method for research result in internet site
JP3842576B2 (en) Structured document editing method and structured document editing system
JP4438392B2 (en) Tree structure data creation device and program
JP3725088B2 (en) Knowledge information collecting system and knowledge information collecting method
JP2002041407A (en) Information processing system, information disclosure server, and portal server
JP2000322167A (en) Data management system and data attribute display method
EP1681643B1 (en) Method and system for information extraction

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20061127

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20080723

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080805

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20081006

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090106

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090119

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120206

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130206

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130206

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140206

Year of fee payment: 5

LAPS Cancellation because of no payment of annual fees