JP4254511B2 - Tree structure data creation device and method - Google Patents
Tree structure data creation device and method Download PDFInfo
- Publication number
- JP4254511B2 JP4254511B2 JP2003407028A JP2003407028A JP4254511B2 JP 4254511 B2 JP4254511 B2 JP 4254511B2 JP 2003407028 A JP2003407028 A JP 2003407028A JP 2003407028 A JP2003407028 A JP 2003407028A JP 4254511 B2 JP4254511 B2 JP 4254511B2
- Authority
- JP
- Japan
- Prior art keywords
- cluster
- tree structure
- document
- directory
- documents
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000547 structure data Methods 0.000 title claims description 114
- 238000000034 method Methods 0.000 title claims description 46
- 238000012545 processing Methods 0.000 claims description 44
- 230000008569 process Effects 0.000 claims description 29
- 230000010354 integration Effects 0.000 claims description 3
- 238000004590 computer program Methods 0.000 claims 1
- 230000008859 change Effects 0.000 description 12
- 238000007726 management method Methods 0.000 description 9
- PCTMTFRHKVHKIS-BMFZQQSSSA-N (1s,3r,4e,6e,8e,10e,12e,14e,16e,18s,19r,20r,21s,25r,27r,30r,31r,33s,35r,37s,38r)-3-[(2r,3s,4s,5s,6r)-4-amino-3,5-dihydroxy-6-methyloxan-2-yl]oxy-19,25,27,30,31,33,35,37-octahydroxy-18,20,21-trimethyl-23-oxo-22,39-dioxabicyclo[33.3.1]nonatriaconta-4,6,8,10 Chemical compound C1C=C2C[C@@H](OS(O)(=O)=O)CC[C@]2(C)[C@@H]2[C@@H]1[C@@H]1CC[C@H]([C@H](C)CCCC(C)C)[C@@]1(C)CC2.O[C@H]1[C@@H](N)[C@H](O)[C@@H](C)O[C@H]1O[C@H]1/C=C/C=C/C=C/C=C/C=C/C=C/C=C/[C@H](C)[C@@H](O)[C@@H](C)[C@H](C)OC(=O)C[C@H](O)C[C@H](O)CC[C@@H](O)[C@H](O)C[C@H](O)C[C@](O)(C[C@H](O)[C@H]2C(O)=O)O[C@H]2C1 PCTMTFRHKVHKIS-BMFZQQSSSA-N 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 230000004044 response Effects 0.000 description 4
- 238000007796 conventional method Methods 0.000 description 3
- 125000004122 cyclic group Chemical group 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000013523 data management Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 241000239290 Araneae Species 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 239000002023 wood Substances 0.000 description 1
Images
Landscapes
- Document Processing Apparatus (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
本発明は、ハイパーリンク構造をなす文書群の関係を木構造で表現するための装置及び方法に関する。 The present invention relates to an apparatus and a method for expressing a relation of a document group having a hyperlink structure in a tree structure.
WWW(ワールド・ワイド・ウェブ)上の文書群は、文書をノードとし、文書間のリンクをアークとするハイパーテキスト構造(ハイパーリンク構造とも呼ばれる)をなしている。このハイパーテキスト構造は、リンクにより任意の文書を容易に結びつけることができるという利点があるが、基本的にネットワーク構造であるため、文書数が増えて文書間の関係が複雑になると、人間が文書間の関係を把握することが困難となる。 A document group on the WWW (World Wide Web) has a hypertext structure (also called a hyperlink structure) in which a document is a node and a link between documents is an arc. This hypertext structure has the advantage that any document can be easily linked by a link. However, since it is basically a network structure, when the number of documents increases and the relationship between documents becomes complicated, humans can create documents. It becomes difficult to grasp the relationship between them.
これに対し、ハイパーテキスト構造を木(ツリー)構造に簡素化して表示する方法が従来より用いられている。特許文献1〜3には、文書群が構成するハイパーテキスト構造を、文書をノードとしリンクをエッジとした木構造の形式で表示するシステムが開示されている。 On the other hand, a method of displaying the hypertext structure in a simplified tree structure is conventionally used. Patent Documents 1 to 3 disclose a system that displays a hypertext structure formed by a document group in a tree structure format in which a document is a node and a link is an edge.
また、アドビシステムズ社のウェブサイト管理ツールである「GoLive」は、WWW上で始点文書を指定すると、その文書から順にリンクをたどって行くことでハイパーテキスト構造を調べ、そのハイパーテキスト構造中の1文書を指定すると、そのハイパーテキスト構造からその文書を根ノードとする木構造を作成して表示する機能を備えている。 In addition, “GoLive”, a website management tool of Adobe Systems, Inc., when specifying a starting document on the WWW, examines the hypertext structure by following links in order from that document, and 1 in the hypertext structure. When a document is specified, it has a function of creating and displaying a tree structure having the document as a root node from the hypertext structure.
ウェブサイト上やイントラネット上の文書はそれぞれ随時内容が更新され、その結果文書群が構成するハイパーテキスト構造が更新される。このためハイパーテキスト構造から作成した木構造のデータを記憶装置に保持し、その木構造データを用いてサービスを行うシステムでは、ハイパーテキスト構造の変化に対応するため、記憶装置内の木構造データの更新を適宜実行する必要がある。 The contents of the documents on the website and the intranet are updated as needed, and as a result, the hypertext structure formed by the documents is updated. For this reason, in a system in which tree structure data created from a hypertext structure is stored in a storage device and a service is provided using the tree structure data, the tree structure data in the storage device is stored in order to cope with changes in the hypertext structure. Updates need to be performed accordingly.
このような木構造データの更新処理は、1つのトランザクションで実行しないと不具合が生じる。その理由は、一つには、更新処理を開始してから完了するまで、すなわち木構造の開始点の文書からリンクを順次たどって到達できる文書をすべて木構造データに組み込み終わるまでに、その処理を停止すると、記憶装置内の木構造データの内容に部分的な不整合が出てくるからである。つまり、処理停止時点で木構造に組み込み済みの文書については更新後のデータが記憶装置に登録され、その時点で木構造に組み込まれていない文書については更新前のデータが記憶装置に残るのである。このような不整合が残った状態では正しい情報サービスができない。 Such tree structure data update processing has a problem unless it is executed in one transaction. One reason for this is that update processing is started and completed, that is, until all documents that can be reached by sequentially following links from the document at the starting point of the tree structure are included in the tree structure data. This is because partial inconsistency appears in the contents of the tree structure data in the storage device. In other words, the updated data is registered in the storage device for the documents already incorporated in the tree structure when the processing is stopped, and the pre-update data remains in the storage device for the documents that are not incorporated in the tree structure at that time. . If such inconsistencies remain, correct information services cannot be performed.
ハイパーテキスト構造から作成した木構造のデータを記憶装置に保持し、これを用いて文書検索やナビゲーション(案内)のサービスを提供する場合、その木構造データには、各文書ごとに、その文書の木構造上での位置、すなわち木構造の根(ルート)からのパス情報(すなわち根の文書からどの文書を経て当該文書にたどり着くかを示す情報)を持たせる必要がある。ハイパーテキスト構造のリンクの変化に応じてこの木構造データを更新する場合、木構造の一部が変化すると、その変化部分より下位のすべてのノード(すなわち文書)のパス情報を書き換える必要が出てくる。その変化部分より下位のノード間の親子関係に変化が全くない場合にも、この書換は必要になる。したがって、木構造の大きさが大きくなると、1トランザクジョンの間に書換を行わなければならないノードの数が多くなってしまう。 When tree-structured data created from a hypertext structure is stored in a storage device and used to provide document search and navigation (guidance) services, the tree-structured data includes the document data for each document. It is necessary to have a position on the tree structure, that is, path information from the root of the tree structure (that is, information indicating which document is reached from the root document through which the document is reached). When updating this tree structure data in response to a change in the hypertext structure link, if a part of the tree structure changes, it is necessary to rewrite the path information of all nodes (ie, documents) below the changed part. come. This rewriting is also required when there is no change in the parent-child relationship between the nodes below the changed portion. Therefore, when the size of the tree structure increases, the number of nodes that must be rewritten during one transaction increases.
この一方、一般に、木構造作成の対象となる文書群の規模が大きくなると、ハイパーテキスト構造から木構造への変換の処理コスト、例えば処理のためのワークスペースとして必要なメモリの量や処理に要する時間が大きくなってしまう。したがって、1つのトランザクションの対象となる文書群の規模が大きくなると、上述のように処理量がそれに伴って上昇するので、トランザクションに要するコストが大きくなってしまう。木構造作成のためのシステムを安定して運用しようとすれば、1つのトランザクションのコストは一定以下に抑えることが望ましいので、上述のように木構造のサイズが大きくなるとシステムの安定運用の点で問題が出てくる。 On the other hand, in general, when the scale of a document group for which a tree structure is to be created increases, the processing cost of conversion from a hypertext structure to a tree structure, for example, the amount of memory required as a work space for processing and the processing required Time will increase. Therefore, when the scale of a document group that is the subject of one transaction increases, the amount of processing increases as described above, and the cost required for the transaction increases. If a system for creating a tree structure is to be operated stably, it is desirable to keep the cost of one transaction below a certain level. Therefore, as described above, if the size of the tree structure increases, Problems come out.
上述の各特許文献を初めとする従来技術は、いずれもこのような問題には考慮を払っていない。 None of the prior arts including the above-mentioned patent documents consider such a problem.
本発明は、これら従来技術の問題の少なくとも1つを解決するためのものである。 The present invention is directed to overcoming at least one of these prior art problems.
本発明の1つの側面では、階層的なディレクトリ構造内に含まれる文書群が構成するハイパーテキスト構造に基づき、該ハイパーテキスト構造に対応する木構造を表す統合木構造データを作成するための装置であって、前記文書群を複数のクラスタに分割する手段であって、各クラスタに含まれる文書数がそれぞれ所定の上限値以下となるように分割を行うクラスタ分割手段と、前記クラスタごとに、基準文書を選択し、当該基準文書を当該クラスタに対応する下部木構造データに組み込み、当該基準文書を起点に前記ハイパーテキスト構造のリンクを順次たどっていく際に、リンク先の文書が当該クラスタに属する場合にのみ当該リンク先の文書を当該クラスタに対応する下部木構造データに組み込むことで、当該基準文書を根ノードとした当該クラスタ内の文書群の木構造を示す下部木構造データを作成する下部木構造作成手段と、前記下部木構造作成手段で作成された前記クラスタごとの各下部木構造データを統合して統合木構造データを作成する統合木構造作成手段と、を備える木構造データ作成装置を提供する。
In one aspect of the present invention, an apparatus for creating integrated tree structure data representing a tree structure corresponding to a hypertext structure based on a hypertext structure formed by a group of documents included in a hierarchical directory structure. And means for dividing the document group into a plurality of clusters, the cluster dividing means for dividing the document group so that the number of documents included in each cluster is equal to or less than a predetermined upper limit, and a reference for each cluster. select the document, the reference document embedded in the lower tree structure data corresponding to the cluster, when going those said reference document Tsu sequentially Tado links of the hypertext structure starting from the link destination of the document is the the document of the landing only if it belongs to the cluster by incorporating a lower tree structure data corresponding to the cluster, the person the reference document and the root node A lower tree structure creating means for creating a lower tree structure data indicating a tree structure of documents in the cluster, integrated wood by integrating each of the lower tree structure data for each of the clusters created by the lower tree structure creating means There is provided a tree structure data creation device comprising integrated tree structure creation means for creating structure data.
本発明の好適な態様では、木構造データ作成装置は、前記各基準文書の前記ディレクトリ構造内での位置情報に基づき、前記各基準文書間の階層関係を表す上部木構造データを作成する上部木構造作成手段、を更に備え、前記統合木構造作成手段は、前記上部木構造データと前記各下部木構造データとを組み合わせることで統合木構造データを作成する。 In a preferred aspect of the present invention, the tree structure data creation device creates upper tree structure data representing a hierarchical relationship between the reference documents based on position information of the reference documents in the directory structure. The integrated tree structure creating means creates integrated tree structure data by combining the upper tree structure data and the lower tree structure data.
別の好適な態様では、前記クラスタ分割手段は、各クラスタが、それぞれ当該クラスタ内の属する最上位ディレクトリ以下のディレクトリ群に属する文書のみを含むように、前記文書群を複数のクラスタに分割する。 In another preferred aspect, the cluster dividing unit divides the document group into a plurality of clusters so that each cluster includes only documents belonging to a directory group below the highest directory to which the cluster belongs.
別の好適な態様では、前記クラスタ分割手段は、(a)指定された注目ディレクトリ以下のディレクトリ群に含まれる文書群を第1のクラスタとして求め、(b)第1のクラスタ内に含まれる文書の数を計数し、(c)ステップ(b)で求められた文書の数が所定の上限値を超えた場合には、注目ディレクトリの直下のディレクトリを新たな注目ディレクトリに選び、該新たな注目ディレクトリ以下のディレクトリ群に含まれる文書群を第2のクラスタとして求め、該第2のクラスタに含まれる文書群を前記第1のクラスタから削除し、(d)ステップ(c)で求められた前記第2のクラスタを新たな第1のクラスタとして前記ステップ(b)以下のステップを再帰的に繰り返す。 In another preferred aspect, the cluster dividing unit obtains (a) a document group included in a directory group below the designated target directory as a first cluster, and (b) a document included in the first cluster. (C) If the number of documents obtained in step (b) exceeds a predetermined upper limit, the directory immediately under the target directory is selected as a new target directory, and the new target directory is selected. The document group included in the directory group below the directory is obtained as a second cluster, the document group included in the second cluster is deleted from the first cluster, and (d) the step obtained in step (c) Steps (b) and subsequent steps are recursively repeated with the second cluster as the new first cluster.
以下、図面を参照して本発明の好適な実施の形態を説明する。 Preferred embodiments of the present invention will be described below with reference to the drawings.
図1は、本発明に係る統合木構造データ作成装置の機能ブロック図である。この構成において、リンク情報収集部10は、HTML等のハイパーテキスト記述言語で記述されたウェブ文書群のハイパーテキスト構造を求める機能モジュールである。リンク情報収集部10は、例えば、インターネット上にあるウェブ文書中のリンク記述をたどっていくことで、ウェブ文書間のリンク関係の情報(すなわちハイパーテキスト構造)を求める。
FIG. 1 is a functional block diagram of an integrated tree structure data creation device according to the present invention. In this configuration, the link
すなわちリンク情報収集部10は、ウェブ文書を解析してアンカータグ(『<A HREF="...(リンク先のURLを示す文字列)">』)などの、HTMLのリンク記述を検出し、リンク記述を見つけるとそのリンク記述に示されるリンク先URLの文書の取得処理を実行する。この取得処理では、該リンク先URLで示される文書を要求する取得要求(GETリクエストなど)を発行する。この取得要求に対し、要求に係るURLの文書を管理するウェブサーバから該文書を取得できた場合、リンク情報収集部10は、取得した文書に対して、上述したリンク記述の検出処理及びそのリンク先の取得処理を実行する。リンク情報収集部10は、スタート地点として与えられた1以上のウェブ文書から解析を始め、上記のリンク記述の検出処理及びそのリンク先の取得処理を繰り返していくことで、ウェブ文書やそれらのリンク関係の情報を収集する。この繰り返しが、リンク情報収集部10によるウェブの「巡回」である。リンク情報収集部10は、この巡回の過程で取得したウェブ文書の実体データ(すなわちHTMLで記述された文書データ)を図示省略する文書格納装置へと格納し、同じく巡回処理の過程で検出したウェブ文書間のリンクの情報をハイパーテキスト構造記憶部12へと格納する。これまでに説明したリンク情報収集部10の機能は、ロボット検索型のサーチエンジンがウェブ文書を収集するために用いている既存のクローラー乃至スパイダーと同等のものである。
In other words, the link
以上のようなリンク情報収集部10による巡回処理により、ハイパーテキスト構造記憶部12には、巡回処理の過程で検出したウェブ文書についての管理情報が登録された文書テーブルと、検出したリンクについての管理情報が登録されたリンクテーブルとが形成される。文書テーブルのデータ内容の一例を図2に、リンクテーブルのデータ内容の一例を図3に示す。なお、図2及び図3は、図4に例示した文書30−1,2,・・・,11,・・・が成すハイパーテキスト構造の一部を表現したものである。
By the cyclic processing by the link
文書テーブルには、図2に示すように、検出したウェブ文書ごとに、その文書に割り当てた一意的な文書ID102、その文書のURL104(プロトコル指定記述を除いたURI(Uniform Resource Identifier)でもよい)、その文書のタイトル106、及びその文書が存在するか否かを示す状態情報108が登録される。タイトル106には、文書のヘッダ内に<title>タグで示されたタイトル文字列が登録される。状態情報108の項目があるのは、次のような理由からである。すなわち、リンク情報収集部10の巡回処理の過程では、ウェブ文書が検出されるのは、スタート地点として与えられたウェブ文書を除き、他のウェブ文書中のリンク記述に示されるURL(又はURI)からである。しかし、そのURLには実際にはウェブ文書が存在しない(すなわち、取得要求に対してウェブサーバからウェブ文書が返されない)こともあり得る。したがって、リンク記述のURLから文書が取得できた場合は、状態情報108は「存在」となり、そうでない場合は「非存在」となる。なお、リンク情報収集部10が、ウェブ巡回の際に取得した各文書を当該統合木構造データ作成装置内に保存するようにすることもでき、その場合は、各文書の保存場所を示すアドレス情報を、文書テーブルの各文書のデータ項目として追加することも好適である。
In the document table, as shown in FIG. 2, for each detected web document, a
リンクテーブルには、図3に示すように、検出されたリンクごとに、そのリンクのリンク元のウェブ文書の文書ID(リンク元ID112)と、リンク先のウェブ文書の文書ID(リンク先ID114)が登録される。リンク情報収集部10は、ウェブ文書中からリンク記述を検出した場合、リンクテーブルに1つのエントリを追加し、当該ウェブ文書の文書IDをそのエントリのリンク元に、そのリンク記述のURLが示すウェブ文書の文書IDをリンク先に、それぞれ登録する。
In the link table, as shown in FIG. 3, for each detected link, the document ID of the link source web document (link source ID 112) and the document ID of the link destination web document (link destination ID 114). Is registered. When the link
リンク情報収集部10は、定期的に、あるいは所定の収集開始条件が満足される毎に、リンク情報の収集処理を実行する。リンク情報収集部10に対しては、収集処理の終了条件が設定可能であり、収集を開始した後その終了条件が満足されると、収集部10は収集処理を終える。終了条件は、例えば、リンク探索の起点として指定された1乃至複数の文書から、リンクを介して辿りうるすべての文書を検出し終わった時、収集を終了する、等の条件である。なお、リンク情報の収集を行う範囲を限定(例えば予め登録された1乃至複数のドメインに限定するなど)することもできる。
The link
要求処理部14は、この統合木構造データ作成装置に対してLAN(ローカルエリアネットワーク)やインターネットなどのデータ通信ネットワークを介して接続されたクライアント装置から、統合木構造データ作成の要求(木構造要求200)を受け付けて処理する機能モジュールである。この木構造要求200には、統合木構造の作成範囲、すなわち統合木構造に組み込むべき文書群の所在範囲を特定する情報を含めることができる。作成範囲を特定するための情報としては、木構造作成の開始点とする文書(開始文書と呼ぶ)を特定する情報(例えばURL)や、ウェブサイトのドメイン名やホスト名などを用いることができる。作成範囲の情報を含んだ木構造要求200をクライアント装置から受け取る構成の場合、要求処理部14は、例えば、作成範囲を特定するための情報を入力するウェブページをクライアント装置に提供し、このウェブページに対して入力された情報を木構造要求200として受け取る。要求処理部14は、クライアント装置から木構造要求200を受け取った場合、統合制御部20に対して統合木構造データ202の作成を命令する。ここで要求処理部14は、統合木構造の作成範囲を特定するための情報を木構造要求200から抽出し、統合制御部20に渡す。なお、統合木構造の作成範囲を特定するための情報は、例えば各ユーザごとに、この統合木構造データ作成装置に登録できるようにしてもよい。この場合、木構造要求200にはその情報は必要ない。
The
統合制御部20は、その命令に応じ、クラスタ分割部16及び木構造データ作成部17を制御して統合木構造データ202を作成する。このとき、統合制御部20は、クラスタ分割部16に対し、統合木構造の作成範囲を特定する情報を渡し、その作成範囲のクラスタ分割を指示する。なお、この作成処理の詳細については後で詳しく説明する。要求処理部14は、統合制御部20が作成した統合木構造データ202を受け取り、要求元のクライアント装置へ提供する。
The
クラスタ分割部16は、統合木構造の作成範囲を特定する情報に基づき、その作成範囲内に存在するウェブ文書群を複数のクラスタに分割する。クラスタ分割処理の詳細については、後に詳しく説明する。
The
木構造データ作成部17は、クラスタ分割部16によるクラスタ分割処理の結果を受けて、クラスタごとの下部木構造と、それら下部木構造を統合する上部木構造とを作成する。この作成処理の詳細は、後で説明する。作成された下部木構造及び上部木構造のデータは、木構造データ記憶部18に蓄積される。それら下部木構造及び上部木構造のデータは、統合制御部20により統合され、統合木構造データ202となる。
The tree structure
図5は、この統合木構造データ作成装置の全体的な処理手順を示すフローチャートである。この手順では、要求処理部14が、クライアント装置からの木構造要求200を受け取り、その要求に対応する統合木構造の作成範囲を特定する(S10)。木構造要求200中にその作成範囲の情報が含まれていればそれを抽出することで特定でき、当該装置に各ユーザの作成範囲の情報が登録されている場合には木構造要求200の発行元のユーザに対応する登録情報を取り出すことで作成範囲を特定できる。作成範囲を特定する情報としてドメイン名やウェブサーバのホスト名が指定されている場合は、そのドメインやウェブサーバの中の文書群が作成範囲となる。また、作成範囲の情報として、開始文書の格納場所の情報が指定されている場合は、その開始文書のあるディレクトリ(又はフォルダ)以下のディレクトリ群(すなわち、そのディレクトリを頂点とするディレクトリツリーの属するディレクトリ群)に属する文書群が、作成範囲となる。作成範囲として、ドメイン名やホスト名、又は開始文書を複数指定することも可能である。複数の開始文書が指定された場合は、個々の開始文書に対応する作成範囲の和集合が、その指定に対する全体的な作成範囲となる。
FIG. 5 is a flowchart showing an overall processing procedure of the integrated tree structure data creation device. In this procedure, the
次に、クラスタ分割部16が、その作成範囲を複数のクラスタに分割する(S12)。このクラスタ分割処理の具体例を、図6〜図8を参照して説明する。
Next, the
図6は、クラスタ分割処理の具体的な処理内容の一例を示すフローチャートである。この処理では、まず、作成範囲の最上位ディレクトリを注目ディレクトリに選び(S20)、S22に進む。S22以降の処理(図中では破線で囲んだ)は、論理的には、クラスタ単位の並列処理である。 FIG. 6 is a flowchart showing an example of specific processing contents of the cluster division processing. In this process, first, the highest directory in the creation range is selected as a target directory (S20), and the process proceeds to S22. The processes after S22 (enclosed by broken lines in the figure) are logically parallel processes in units of clusters.
S22では、その注目ディレクトリ以下の階層のディレクトリ群(すなわち注目ディレクトリを頂点とするディレクトリツリーに属するディレクトリ群)に含まれる文書群を、1つのクラスタと認識する(S22)。ハイパーテキスト構造記憶部12には個々の文書のURLが記憶されているので、そのURLを参照することでそのような認識が可能となる。このクラスタ認識の処理では、例えば、その注目ディレクトリ以下の階層のディレクトリ群からなるクラスタに対して一意なクラスタIDを付与し、そのクラスタの中のディレクトリに属する各文書とそのクラスタIDとを関連づける。関連づけの仕方としては、例えば、図7のように、作業範囲内の各文書の文書ID122ごとに、その文書が属するクラスタのクラスタID124を保持するクラスタ管理テーブルを作成する。
In S22, a document group included in a directory group in a hierarchy below the target directory (that is, a directory group belonging to a directory tree having the target directory as a vertex) is recognized as one cluster (S22). Since the hypertext
図7の(a)は、作業範囲の最上位ディレクトリを注目ディレクトリとしたときのクラスタ管理テーブルの内容である。この場合、作業範囲内の全文書に対し、同じ最上位クラスタのID「C001」が関連づけられている。 FIG. 7A shows the contents of the cluster management table when the highest directory in the work range is the target directory. In this case, the ID “C001” of the same top-level cluster is associated with all the documents in the work range.
また、このように新しいクラスタの認識を行った場合、その新しいクラスタに属する文書群を、それら文書群がその前に属していたクラスタ(親クラスタと呼ぶ)から削除する(S24)。これにより、新たに認識したクラスタの文書数だけ、親クラスタの文書数が減ることになる。なお、作業範囲の最上位ディレクトリを注目ディレクトリとしたときは、S22で認識するのは最初のクラスタであり、それより上位のクラスタは存在していないので、S24では何も行わない。 When a new cluster is recognized in this way, the document group belonging to the new cluster is deleted from the cluster to which the document group previously belonged (referred to as a parent cluster) (S24). As a result, the number of documents in the parent cluster is reduced by the number of documents in the newly recognized cluster. When the highest directory in the work range is the target directory, the first cluster is recognized in S22, and no higher cluster exists, so nothing is performed in S24.
以上のS22及びS24がクラスタ構成の更新処理である。このクラスタ構成の更新が終わると、S22で新たに認識したクラスタ内の文書数を計数し(S26)、その計数結果の値が、予め定められた上限値以下であるかどうかを判定する(S28)。そして、計数した文書数がその上限値以下であれば、そのクラスタについての処理を終了する。 The above S22 and S24 are cluster configuration update processing. When the update of the cluster configuration is finished, the number of documents in the cluster newly recognized in S22 is counted (S26), and it is determined whether or not the value of the counting result is equal to or less than a predetermined upper limit value (S28). ). If the counted number of documents is equal to or less than the upper limit value, the process for the cluster is terminated.
S28で、計数したクラスタ内の文書数が上限値を超えたと判定した場合、その時の注目ディレクトリの直下の各ディレクトリを、それぞれ新たな注目ディレクトリに選び(S30)、それら新たな注目ディレクトリごとに、S22〜S30までの処理を再帰的に実行する。この場合、新たな注目ディレクトリについてのS22及びS24の処理では、その注目ディレクトリのクラスタに対して新たに一意なクラスタIDが付与され、クラスタ管理テーブルにおいて、その注目ディレクトリ以下に属する各文書のクラスタID124がその新たなクラスタIDに書き換えられる。図7の(b)は、そのような書き換えが行われた後のクラスタ管理テーブルのデータ内容の例を示す。このような処理により、上限数を超える文書数を有するクラスタが、より小さいクラスタへと再帰的に分割される。
When it is determined in S28 that the number of documents in the counted cluster has exceeded the upper limit, each directory immediately below the target directory at that time is selected as a new target directory (S30), and for each new target directory, The processes from S22 to S30 are recursively executed. In this case, in the processes of S22 and S24 for the new directory of interest, a new unique cluster ID is assigned to the cluster of the directory of interest, and the
図6の処理を、具体例に則して説明すると次のようになる。作成範囲が図8のようなディレクトリツリーであった場合において、最上位ディレクトリ40以下のディレクトリ(42〜48)群からなるクラスタ内の文書数が上述の上限値を超えた場合(S28)は、そのディレクトリ40の直下の各ディレクトリ42及び44が次の注目ディレクトリに選ばれる(S30)。そして、ディレクトリ42を頂点とするディレクトリツリー45、及びディレクトリ44を頂点とするディレクトリツリーが、それぞれ新たなクラスタと認識され(S22)、それら各クラスタが、親クラスタであるディレクトリ40のクラスタから削除される(S24)。これにより、ディレクトリ40のクラスタは、ディレクトリ40の直下の文書のみからなるクラスタとなる。ディレクトリ40の子孫のディレクトリ内の文書は別のクラスタに属することになる。そして、ディレクトリ44を頂点とするクラスタ内の文書数が、上述の上限値を超えていれば、その直下のディレクトリ46,48,・・・をそれぞれ頂点とするクラスタが、元のディレクトリ44のクラスタから分離される。
The processing of FIG. 6 is described as follows according to a specific example. When the creation range is a directory tree as shown in FIG. 8, when the number of documents in the cluster composed of the directories (42 to 48) below the
以上、1つの最上位ディレクトリ以下の階層についてのクラスタ分割の処理を説明した。統合木構造データの作成範囲として、複数の異なる範囲が指定された場合は、それら各範囲ごとに上述の処理を行えばよい。例えば、複数のホスト名が指定された場合は各ホストごとに上述の処理を行えばよい。また、ディレクトリ階層上の上下関係がない異なるディレクトリ内の文書が開始文書に指定されている場合は、それら各ディレクトリをそれぞれ最上位ディレクトリとして、それぞれ上述の処理を行えばよい。また、ディレクトリ階層上の上下関係がある異なるディレクトリ内の文書がそれぞれ開始文書として指定された場合は、下位のディレクトリ以下のディレクトリ群からなるクラスタを、上述と同様にして、上位のディレクトリ以下のディレクトリ群からなるクラスタから分離すればよい。 In the foregoing, the cluster division process for the hierarchy below one top directory has been described. When a plurality of different ranges are designated as the creation range of the integrated tree structure data, the above-described process may be performed for each range. For example, when a plurality of host names are designated, the above-described processing may be performed for each host. In addition, when a document in a different directory having no hierarchical relationship in the directory hierarchy is designated as the start document, the above-described processing may be performed with each of these directories as the top directory. In addition, when a document in a different directory having a hierarchical relationship in the directory hierarchy is designated as the start document, a cluster consisting of directories under the lower directory is defined as a directory under the upper directory in the same manner as described above. What is necessary is just to isolate | separate from the cluster which consists of a group.
再び図5の説明に戻る。このようにしてクラスタ分割が完了すると、クラスタ分割部16は、それら各クラスタから1つずつ、木構造の根ノードとする文書を選択する(S14)。ここで、統合木構造の作成範囲を特定する情報として開始文書が指定されている場合は、その開始文書を根ノードに選択する。開始文書が存在しないクラスタについては、予め定めたルールに従って、そのクラスタ内から根ノードの文書を選択する。この場合、クラスタの最上位ディレクトリ内の文書から根ノードを選択することが好適である。また、同じディレクトリ内の文書から根ノードを選択するルールとしては、例えば“index.htm”や“main.htm”等といった予め定められた文書名(これは予め本装置に登録しておく)を持つものがあれば、それを根ノードに選択する、というものもある。
Returning to the description of FIG. When cluster division is completed in this way, the
このようにして各クラスタの根ノードの文書が決まると、次に木構造データ作成部17が、それら各文書ごとに、その文書を根ノードとした木構造を作成する(S16)。この処理では、根ノードの文書から順に、ハイパーテキスト構造記憶部12のリンクテーブルに登録されたリンクを深さ優先探索又は幅優先探索でたどっていくことで、ウェブ文書群がなす木構造を求め、その木構造を示す木構造データを作成する。なお、ハイパーリンク構造から木構造を作成する方法は、上述の特許文献をはじめとして様々なものが提案されており、木構造データ作成部17はそれら従来手法を用いたものでよい。木構造データ作成部17が作成した木構造データは、木構造データ記憶部18に蓄積される。
When the document of the root node of each cluster is determined in this way, the tree structure
ただし、木構造データ作成部17の木構造の作成処理では、木構造に組み込む文書をクラスタ内部に限定するという点が、通常の木構造作成とは異なっている。すなわち、木構造データ作成部17は、根ノードの文書を起点にリンクテーブルのリンクをたどっていく際、リンク先の文書がどのクラスタに属するのかを、例えば図7のクラスタ管理テーブルを参照するなどにより求め、根ノードの文書と同じクラスタに属する場合だけ、作成中の木構造にそのリンク先文書を組み込む。このようにして1つの根ノードを起点として作成された木構造を、下部木構造と呼ぶことにする。下部木構造は、統合木構造の1つの部分木となる。
However, the tree structure creation processing of the tree structure
また木構造データ作成部17は、選択された根ノードの文書が属する各ディレクトリが構成する上部木構造を作成する(S16)。この上部木構造の作成処理では、まず根ノードの文書ごとに、当該文書のURLから、当該文書が属するディレクトリを求める。リソースのURLは、そのリソースを得るためのプロトコル名("http")と、そのリソースが格納されているホスト装置の名前と、該ホスト装置のファイルシステムにおけるそのリソースまでのパスとの組合せで構成される。したがって、根ノードの文書のURLから、該URLのパス部分の末尾に示されるファイル名を削除すると、残った文字列は該基準ページが属する仮想的なディレクトリを示していると捉えることができる。そして、各根ノードの文書が属するディレクトリ同士のディレクトリ階層構造上での上下関係に基づき、上部木構造を作成する。ある根ノードの文書が格納されているディレクトリ(仮にディレクトリaとする)が、別の根ノードの文書が格納されているディレクトリ(仮にディレクトリbとする)の下位ディレクトリであれば、上部木構造では、ディレクトリaに対応するノードは、ディレクトリbに対応するノードの子孫のノードになる。ここで、各根ノードの文書が属する各ディレクトリの中に、ディレクトリ階層上でディレクトリaとディレクトリbとの間に位置するディレクトリがなければ、上部木構造ではディレクトリaはディレクトリbの子ノードになる。このように木構造データ作成部17は、各クラスタの根ノードの文書が格納されたディレクトリ群の中で、ディレクトリ階層構造(ディレクトリツリー)上で直近の関係となるディレクトリ同士を、上部木構造上では親子関係で結ぶ。このような処理により、上部木構造が作成される。なお、これはあくまで一例であり、それら直近の関係となるディレクトリ同士の間に、ディレクトリ階層構造上、別のディレクトリが介在する場合に、その介在するディレクトリを上部木構造に組み込むようにしてももちろんよい。
Further, the tree structure
なお、作成範囲として、複数のサイトのホスト名が指定された場合などは、ホスト同士は階層構造上対等の関係なので、上述の方法ではホストごとに個別に上部木構造ができることになる。そこで、これらを1つの上部木構造にまとめるために、仮想的な最上位ノードを設け、その最上位ノードにそれら各ホストごとの上部木構造を接続するという方法も可能である。 When the host names of a plurality of sites are specified as the creation range, the hosts are in an equal relationship in the hierarchical structure, and therefore the upper tree structure can be individually created for each host in the above method. Therefore, in order to combine these into one upper tree structure, a method of providing a virtual uppermost node and connecting the upper tree structure for each host to the uppermost node is also possible.
このようにして作成された上部木構造のデータも、木構造データ記憶部18に格納される。
The data of the upper tree structure created in this way is also stored in the tree structure
このようにして各下部木構造、及び上部木構造が作成されると、統合制御部20が、木構造データ記憶部18に格納された上部木構造と複数の下部木構造のデータを合成して、木構造要求200に対応する全体の木構造をしめす統合木構造データ202を作成する。
When each lower tree structure and upper tree structure are created in this way, the
この統合処理では、各下部木構造の根ノードを、上部木構造のノードとリンクする。すなわち、上部木構造のノードに対し、そのノードに対応するディレクトリに格納された文書に対応する下部木構造の根ノードを、子ノードとして接続する。 In this integration process, the root node of each lower tree structure is linked to the node of the upper tree structure. In other words, the root node of the lower tree structure corresponding to the document stored in the directory corresponding to the node is connected as a child node to the node of the upper tree structure.
作成された統合木構造データ202は、要求処理部14により、木構造要求200の送信元のクライアント装置に対し送信される。
The created integrated
このようにして作成された統合木構造の一例を図9に示す。図9に示す例は、図4のハイパーテキスト構造のうちの「ABCD会社トップページ」が開始文書として指定された場合の例である。より詳しくは、その開始文書が属するディレクトリ"/abcd.co.jp/"以下の階層からなるクラスタに上限値を越える数の文書があったため、その直下の2つのディレクトリ"/abcd.co.jp/product/"及び"/abcd.co.jp/download/"をそれぞれ頂点とする2つのクラスタが分離された場合の例である(分離した2つのクラスタ内の文書数は上限値以下であるとする)。 An example of the integrated tree structure created in this way is shown in FIG. The example shown in FIG. 9 is an example when “ABCD company top page” in the hypertext structure of FIG. 4 is designated as the start document. More specifically, since there are more documents than the upper limit in the cluster consisting of the hierarchy below the directory “/abcd.co.jp/” to which the starting document belongs, the two directories “/abcd.co.jp” directly below the upper limit are included. This is an example when two clusters with vertices / product / "and" /abcd.co.jp/download/ "are separated (the number of documents in the two separated clusters is less than the upper limit value) To do).
図9の例では、各クラスタの最上位ディレクトリ50−1("/abcd.co.jp/")、50−2("/abcd.co.jp/product/")及び50−3("/abcd.co.jp/download/")が、上部木構造を構成している。例えば、ディレクトリ"/abcd.co.jp/product/"は、ディレクトリ"/abcd.co.jp/"の直接の下位にあるので、上部木構造ではディレクトリ50−1の子がディレクトリ50−2となっている。 In the example of FIG. 9, the top directory 50-1 ("/abcd.co.jp/"), 50-2 ("/abcd.co.jp/product/") and 50-3 ("/" abcd.co.jp/download/ ") constitutes the upper tree structure. For example, since the directory “/abcd.co.jp/product/” is directly below the directory “/abcd.co.jp/”, the child of the directory 50-1 is the directory 50-2 in the upper tree structure. It has become.
また、図9の例では、統合木構造には、下部木構造群として、開始文書であるABCD会社トップページ56−1、分離した各クラスタ中から選ばれた商品ページ56−2及びダウンロードページ56−6をそれぞれ根ノードとした部分木(サブツリー)55−1,55−2及び55−3が含まれる。商品ページ56−2及びダウンロードページ56−6は、それぞれ分離したクラスタの最上位ディレクトリ中にあり、"index.html"という名前の文書であることから、根ノードとして選択されたものである。 In the example of FIG. 9, the integrated tree structure includes an ABCD company top page 56-1 which is a start document, a product page 56-2 selected from each separated cluster, and a download page 56 as a lower tree structure group. Included are subtrees 55-1, 55-2 and 55-3, each having −6 as a root node. The merchandise page 56-2 and the download page 56-6 are selected as root nodes because they are in the top directory of the separated clusters and are documents named “index.html”.
そして、図9の木構造では、上部木構造の各ノード50−1,2,及び3に対し、それぞれ下部木構造55−1,2,3の根ノード56−1,2,6がそれぞれ子ノードとして接続されている。 In the tree structure of FIG. 9, the root nodes 56-1, 2 and 6 of the lower tree structure 55-1, 2 and 3 are children respectively for the nodes 50-1, 2, and 3 of the upper tree structure. Connected as a node.
図9の例では、上部木構造の1つのノードに対し、下部木構造の1つの根ノードが接続されているが、これはあくまで一例である。同じクラスタから複数の文書を根ノードに選ぶような処理も可能であり、このような処理を採用した場合、それら各根ノードを起点とした各下部木構造が作成され、それら各根ノードが上部木構造の同じディレクトリのノードに対して接続されることになる。 In the example of FIG. 9, one root node of the lower tree structure is connected to one node of the upper tree structure, but this is only an example. Processing such as selecting multiple documents from the same cluster as the root node is also possible. When such processing is adopted, each subtree structure starting from each root node is created, and each root node is the top node. It will be connected to nodes in the same directory of the tree structure.
このように、本実施の形態では、統合木構造の作成範囲をディレクトリ構造に従って複数のクラスタに分割し、各クラスタ内の文書からなる下部木構造を作成する。そして、各クラスタの下部木構造を、それら各クラスタの最上位ディレクトリ同士のディレクトリ構造上での階層関係を示した上部木構造に接続することにより、統合木構造を作成する。 As described above, in this embodiment, the creation range of the integrated tree structure is divided into a plurality of clusters according to the directory structure, and a lower tree structure made up of documents in each cluster is created. Then, an integrated tree structure is created by connecting the lower tree structure of each cluster to the upper tree structure showing the hierarchical relationship on the directory structure of the top directory of each cluster.
本実施形態では、上述のように各クラスタごとに下部木構造を作成しているので、従来の手法で作成した木構造よりも、概念的に分類が分かりやすくなっている。これは次のような理由からである。 In the present embodiment, since the lower tree structure is created for each cluster as described above, the classification is conceptually easier to understand than the tree structure created by the conventional method. This is for the following reason.
すなわち、まず、一般にウェブデザイナーがウェブサイトを設計する場合、データ管理の効率性から言って、個々の文書(ウェブページ)を記述したファイルを行き当たりばったりの場所(ディレクトリ)に保存するよりは、概念的に整理したディレクトリ構造を作成し、各文書のファイルをそのディレクトリ構造中の適切なディレクトリに保存することの方が多いと言える。理想的なケースでは、文書群が保存されるディレクトリ群の階層構造は、それら文書群が構成する階層的な概念分類を表現したものとなる。現実はこのように理想的なディレクトリ構造をなしているばかりとは限らないが、後々のデータ管理の効率を少しでも考慮すれば、ディレクトリ構造は多かれ少なかれ文書群の概念分類を反映したものとなる。一方、本実施の形態の統合木構造データ作成装置では、1つのクラスタはあるディレクトリとそれ以下の階層のディレクトリ群から構成されており、1つの下部木構造は1つのクラスタに属する文書のみから構成される。したがって、各下部木構造では、根ノードの下位(子孫)には、その根ノードの文書が属するディレクトリ、又はこのディレクトリの下位のディレクトリ群に属する文書しか現れない。したがって、各下部木構造は、各々の根ノードの文書が属するディレクトリに対応する概念分類に対応した部分木と捉えることができる。 First, in general, when a web designer designs a website, rather than saving a file describing individual documents (web pages) in a random place (directory) in terms of data management efficiency, It is more likely to create a conceptually organized directory structure and store each document file in the appropriate directory within that directory structure. In an ideal case, the hierarchical structure of the directory group in which the document group is stored represents a hierarchical concept classification formed by the document group. In reality, this is not necessarily the ideal directory structure, but if you consider the efficiency of the subsequent data management, the directory structure more or less reflects the concept classification of the document group. . On the other hand, in the integrated tree structure data creation device according to the present embodiment, one cluster is composed of a directory and a directory group having a lower hierarchy, and one lower tree structure is composed only of documents belonging to one cluster. Is done. Accordingly, in each sub-tree structure, only the directory to which the document of the root node belongs, or the document that belongs to the directory group under this directory appears below the root node (descendant). Therefore, each lower tree structure can be regarded as a subtree corresponding to the concept classification corresponding to the directory to which the document of each root node belongs.
このように本実施の形態の装置が作成する統合木構造では、各下部木構造55が概念分けされているので、ユーザがその統合木構造上で所望のウェブページを探すことが容易になる。例えば、図4のハイパーテキスト構造中の「商品Cのページ」は、「ABCD会社トップページ」からのリンクが存在するため、従来手法により作成した木構造ではその「ABCD会社トップページ」の子ノードとして現れるのに対し、本実施の形態により作成した図9の統合木構造では、「商品ページ」56−2の子ノード56−5となっている。 In this way, in the integrated tree structure created by the apparatus of the present embodiment, each lower tree structure 55 is divided into concepts, so that the user can easily find a desired web page on the integrated tree structure. For example, since the “product C page” in the hypertext structure of FIG. 4 has a link from “ABCD company top page”, a child node of “ABCD company top page” in the tree structure created by the conventional method. In the integrated tree structure of FIG. 9 created according to the present embodiment, it is a child node 56-5 of the “product page” 56-2.
統合木構造データ202を受け取ったクライアント装置にて、図9の統合木構造をブラウザのナビゲーション画面に表示すれば、少なくとも上部木構造の部分では、同じ階層には概念レベルが等しいディレクトリ群のノードが示される。また、下部木構造の根ノードは上部木構造のノードにリンクされ、その上部木構造はハイパーテキスト構造のリンクよりも変更されにくいディレクトリ構造(すなわちURLの階層構造)によって決まるので、全体的な木構造での根ノードの位置は変更されにくい。また、上部木構造のノードから延びる各下部木構造55には、同じディレクトリ、従って同じ概念分類、に属する文書群のノードが含まれる。また、文書中に記述されるリンクは更新により様々に変化するが、文書のファイル自身の格納場所はリンクに比べて変化しにくいと考えられるので、図9の統合木構造では、従来手法で作成した木構造に比べて、個々の文書を示すノードの位置が変化しにくいといえる。このようなことから、この統合木構造を用いれば、ユーザは、所望の文書を探索するのが容易になる。
If the client device that has received the integrated
以上の例では、下部木構造には同じクラスタ内の文書のノードしか現れないが、これだとクラスタを跨ぐ文書間のリンクが表現できない。このようなクラスタを跨ぐリンクを表現するための変形例として、クラスタ外にあるリンク先文書を、クラスタ内の文書とはノード種別が異なる参照ノードとして下部木構造に組み込む方式がある。この変形例では、あるクラスタの下部木構造を作成する際、当該クラスタ内の文書は実ノードとして下部木構造に組み込む。一方、実ノードの文書から他のクラスタに属する文書へのリンクを検出した場合、そのリンク先文書を参照ノードとしてその下部木構造に組み込む。実ノードについては更にリンク先の文書を探索するが、参照ノードについてはそのノードから先のリンクは探索しない。すなわち参照ノードは木の葉(リーフ)として現れるだけである。このようにクラスタ外のリンク先を参照ノードとして組み込むことにより、クラスタ内の文書から下位木構造を作成するという原則を基本的に満足しつつ、クラスタを跨ぐリンク関係を表現することが可能になる。以上の説明から分かるように、本実施の形態の統合木構造の作成手順では、個々の文書は、統合木構造中において、当該文書が属するクラスタに対応する下位木構造中に1回だけ実ノードとして現れ、他の下位木構造中には現れるとしても参照ノードとして現れるのみである。 In the above example, only the nodes of the documents in the same cluster appear in the lower tree structure, but this cannot express a link between documents across the clusters. As a modified example for expressing such a link across clusters, there is a method of incorporating a link destination document outside the cluster into a lower tree structure as a reference node having a different node type from the document in the cluster. In this modification, when creating a lower tree structure of a cluster, documents in the cluster are incorporated into the lower tree structure as real nodes. On the other hand, when a link from a real node document to a document belonging to another cluster is detected, the link destination document is incorporated into the lower tree structure as a reference node. The link destination document is further searched for the real node, but the link beyond the node is not searched for the reference node. That is, the reference node only appears as a leaf. By incorporating a link destination outside the cluster as a reference node in this way, it is possible to express a link relationship across clusters while basically satisfying the principle of creating a subtree structure from documents in the cluster. . As can be seen from the above description, in the integrated tree structure creation procedure of the present embodiment, each document is a real node only once in the subordinate tree structure corresponding to the cluster to which the document belongs in the integrated tree structure. It appears as a reference node even if it appears in other subtree structures.
次に、統合木構造を示す統合木構造データのデータ内容を図10に示す。この統合木構造データは、図4のハイパーテキスト構造に対応するものであり、図9に示した統合木構造に、クラスタ外のリンク先文書を示す参照ノードを加えた場合の統合木構造のデータを示す。 Next, FIG. 10 shows data contents of the integrated tree structure data indicating the integrated tree structure. This integrated tree structure data corresponds to the hypertext structure shown in FIG. 4, and is an integrated tree structure data obtained by adding a reference node indicating a link destination document outside the cluster to the integrated tree structure shown in FIG. Indicates.
このデータは、統合木構造を構成する各ノードごとに、ノードID302、URL304、表示データ306、子ノード情報308、ノード種別情報310、及び木構造パス312が含まれている。このうち、ノードS001,S002,S003が上部木構造のノードであり、残りのノードI001以下が各下部木構造のノードである。ノードID302は、各ノードに一意に割り当てられた識別情報である。ノードID302は、その値に基づき上部木構造のノードか下部木構造のノードかが識別できるものが好適である。もっとも、ノードが上部木構造に属するか下部木構造に属するかを示す識別情報を別途各ノードごとに付加するようにすれば、そうでなくても構わない。URL304は、該ノードに対応する文書の所在位置を示すURLである。表示データ306は、ブラウザ等で該ノードを表示する際に用いる表示データであり、文書のノードの場合はその文書のタイトル(図2のタイトル106)を流用することができる。上部木構造のノードの場合は、当該ノードに対応するディレクトリのURLを表示データとして用いることができる。子ノード情報308は、該ノードが持つ子ノードのノードIDのリストである。ノード種別情報310は、該ノードが実ノードであるか参照ノードであるかを示す識別情報である。図10の例では、ノードI012,I013が参照ノードとなっている。ちなみに、参照ノードI013は、実ノードI008と同じ文書を示している。木構造パス312は、統合木構造の根ノード(図10の例ではノードS001)から当該ノードまでの、統合木構造中でのパスを示す情報である。図示例では、その根ノードから統合木構造の親子関係をたどって当該ノードに達するまでに通過するノードのIDを連ねたものとなっている。木構造パス312は、例えば「ノードI002以下の階層に属するノード」などといった、統合木構造での位置についての検索条件に対する検索処理を高速に実行するために設けられたデータ項目である。
This data includes a
このような統合木構造データは、次のようにして作成できる。すなわち、まず作成範囲のクラスタ分割が終わり、各クラスタの根ノード文書を選択した時点で、上部木構造の各ノードについてのデータ項目はすべてその値を決定することができる。そして、上部木構造の各ノードの子孫となる各下部木構造のノードの各データ項目は、対応するクラスタ内のリンク関係をたどって木構造を作成していく過程で求めることができる。このような処理は、概念的にいって、上部木構造と各下部木構造とを統合する処理と等価である。 Such integrated tree structure data can be created as follows. That is, when the clustering of the creation range is finished and the root node document of each cluster is selected, the value of all data items for each node of the upper tree structure can be determined. Each data item of each node of the lower tree structure that is a descendant of each node of the upper tree structure can be obtained in the process of creating the tree structure by following the link relationship in the corresponding cluster. Such processing is conceptually equivalent to processing for integrating the upper tree structure and each lower tree structure.
以上、本実施の形態の統合木構造データ作成装置の構成と処理内容について説明した。以上に説明した本実施の形態の統合木構造データ作成装置は、一般的なコンピュータシステムを利用して構築することができる。典型的には、コンピュータシステムのハードディスク装置に、図1の各機能モジュール10,14,16,17,18,20の機能を記述したプログラムをインストールすることにより、統合木構造データ作成装置となる。
The configuration and processing contents of the integrated tree structure data creation device according to the present embodiment have been described above. The integrated tree structure data creation device of the present embodiment described above can be constructed using a general computer system. Typically, by installing a program describing the functions of the
以上に説明した本実施の形態の装置では、統合木構造中の各下部木構造は、基本的に、それぞれ対応するクラスタ内の文書のみしか含まない。ここで上述のクラスタ分割処理によれば、1ディレクトリの直下の文書数が上限値を超えるという特別な場合を除き、作成範囲の文書群は、それぞれ上限値以下の文書数しかないクラスタに分割されることになる。 In the apparatus of the present embodiment described above, each lower tree structure in the integrated tree structure basically includes only the documents in the corresponding cluster. Here, according to the above-described cluster division processing, except in a special case where the number of documents directly under one directory exceeds the upper limit value, the document group in the creation range is divided into clusters each having a document number equal to or less than the upper limit value. Will be.
このようなことから、文書の更新などでハイパーテキスト構造のリンク関係が変化した場合でも、統合木構造中でその変化の影響を受けるのは、その変化したリンクに関するノードを含むクラスタの下部木構造のみに限定される。これは、本実施の形態の統合木構造作成では、クラスタ単位で下部木構造を作成しているので、ある実ノードに関するリンクが変化した場合でも、そのノードは他のクラスタの下部木構造には実ノードとしては登場しないからである。このように本実施の形態には、リンク変更の影響が及ぶ範囲を個々の下部木構造内に限定できるというメリットがある。 For this reason, even if the link relationship of the hypertext structure changes due to a document update, etc., the lower tree structure of the cluster that includes the node related to the changed link is affected by the change in the integrated tree structure. Limited to only. This is because in the creation of the integrated tree structure of this embodiment, the lower tree structure is created in units of clusters, so even if the link related to a certain real node changes, that node is not included in the lower tree structure of another cluster. This is because it does not appear as a real node. As described above, this embodiment has an advantage that the range affected by the link change can be limited to the individual lower tree structure.
また本実施の形態では、クラスタ内の文書数は、上述の特別な場合に該当するクラスタを除き所定の上限値以下なので、統合木構造データ中で1つのリンクの変化に対応してデータ内容の変更が必要となるノードの数は、上述の特別な場合を除き、高々上述の上限値だけである。例えば図10の統合木構造データでは、リンクの変化に応じて親となるノードが変わったノードとその子孫については、木構造パス312のデータ内容をすべて更新しなければならないが、そのような更新の対象のノード数は基本的に上記上限値以下となる。統合木構造中に参照ノードを加える構成の場合も、参照ノードは子孫を持たないので、データ内容の更新対象が爆発的に増大することはない。このようなことから、本実施の形態によれば、一つのリンクの変更に応じた統合木構造データの変更処理のコストを、上述の上限値に応じた値に制限することができるので、統合木構造データの作成及び更新のためのシステムの安定運用に貢献することができる。
In the present embodiment, the number of documents in the cluster is equal to or less than a predetermined upper limit except for the cluster corresponding to the special case described above, so the data content corresponds to the change of one link in the integrated tree structure data. The number of nodes that need to be changed is at most the above-described upper limit value, except for the above-mentioned special cases. For example, in the integrated tree structure data of FIG. 10, all the data contents of the
なお、以上の例では、1ディレクトリ直下の文書数が上限値を超える場合でも、そのディレクトリを1つのクラスタとした。しかしながら、この代わりにそのようなディレクトリを複数のクラスタに分割することで、すべてのクラスタの文書数をすべて上限値以下にすることも、もちろん可能である。この場合、単に無作為に分割するのではなく、分割のルールを定めておき、それに従って分割することで、何度分割しても同じようにクラスタ分割されるようにすることができる。 In the above example, even if the number of documents directly under one directory exceeds the upper limit, that directory is defined as one cluster. However, it is of course possible to divide such a directory into a plurality of clusters instead so that the number of documents in all the clusters is less than or equal to the upper limit value. In this case, instead of simply dividing at random, by defining a division rule and performing division according to the rule, the cluster can be divided in the same manner no matter how many times the division is performed.
また以上の例では、あるクラスタの文書数が上限値を超えることが分かった場合、そのクラスタの最上位ディレクトリの直下にすべてのディレクトリを並列に注目ディレクトリに選んだが(図6のS30)、本発明はこのような処理手順に限るものではない。例えば、注目ディレクトリを1乃至複数ずつ選んではその注目ディレクトリを頂点とする1乃至複数のクラスタを元のクラスタから分離し、それでもまだ元のクラスタの文書数が上限値を超えていれば、更に1乃至複数ずつ注目ディレクトリを選んでクラスタの分離を行うという手順も可能である。 In the above example, when it is found that the number of documents in a cluster exceeds the upper limit value, all directories are selected as directories of interest directly under the top directory of the cluster (S30 in FIG. 6). The invention is not limited to such a processing procedure. For example, if one or more target directories are selected, one or more clusters having the target directory as a vertex are separated from the original cluster, and if the number of documents in the original cluster still exceeds the upper limit, an additional 1 It is also possible to perform a procedure of selecting clusters of interest and separating the clusters one by one.
また以上の例では、各クラスタから根ノードとする文書を1つずつ選んだが、これを複数ずつ選択するようにすることももちろん可能である。 In the above example, one document is selected as a root node from each cluster, but it is of course possible to select a plurality of documents.
また以上の例では、各クラスタの根ノードの属するディレクトリをノードとした上部木構造を作成し、各下部木構造をその上部木構造に接続することで統合木構造を作成したが、本発明はそのような実施の形態に限るものではない。例えば、各下部木構造の根ノードを1つの共通根ノードの子として接続することで、統合木構造を作成するような構成も本発明の範囲内である。 In the above example, an upper tree structure is created with the directory to which the root node of each cluster belongs as a node, and an integrated tree structure is created by connecting each lower tree structure to the upper tree structure. It is not limited to such an embodiment. For example, a configuration in which an integrated tree structure is created by connecting the root nodes of each lower tree structure as a child of one common root node is also within the scope of the present invention.
また以上では、統合木構造データ作成装置を、クライアント装置からの要求に応じて統合木構造データを作成し提供するサーバ装置として構成した例を示したが、この統合木構造データ作成装置に対し、作成した統合木構造データに基づき統合木構造を表示する表示処理部を設けた装置構成も、本発明の範囲に含まれる。 In the above, an example in which the integrated tree structure data creation device is configured as a server device that creates and provides integrated tree structure data in response to a request from a client device has been shown. An apparatus configuration provided with a display processing unit for displaying an integrated tree structure based on the generated integrated tree structure data is also included in the scope of the present invention.
10 リンク情報収集部、12 ハイパーテキスト構造記憶部、14 要求処理部、16 クラスタ分割部、17 木構造データ作成部、18 木構造データ記憶部、20 統合制御部。
DESCRIPTION OF
Claims (11)
前記文書群を複数のクラスタに分割する手段であって、各クラスタに含まれる文書数がそれぞれ所定の上限値以下となるように分割を行うクラスタ分割手段と、
前記クラスタごとに、基準文書を選択し、当該基準文書を当該クラスタに対応する下部木構造データに組み込み、当該基準文書を起点に前記ハイパーテキスト構造のリンクを順次たどっていく際に、リンク先の文書が当該クラスタに属する場合にのみ当該リンク先の文書を当該クラスタに対応する下部木構造データに組み込むことで、当該基準文書を根ノードとした当該クラスタ内の文書群の木構造を示す下部木構造データを作成する下部木構造作成手段と、
前記下部木構造作成手段で作成された前記クラスタごとの各下部木構造データを統合して統合木構造データを作成する統合木構造作成手段と、
を備える木構造データ作成装置。 An apparatus for creating integrated tree structure data representing a tree structure corresponding to a hypertext structure based on a hypertext structure formed by a group of documents included in a hierarchical directory structure,
Means for dividing the document group into a plurality of clusters, wherein the number of documents included in each cluster is divided so as to be equal to or less than a predetermined upper limit value; and
For each of the clusters, select the reference document, when the reference document embedded in the lower tree structure data corresponding to the cluster, go to those the reference document starting from the Tsu sequentially Tado hypertext links structure, the document of the destination only when the link destination document belongs to the cluster by incorporating a lower tree structure data corresponding to the cluster, the documents in the cluster that the person the reference document and a root node tree Subtree structure creation means for creating subtree structure data indicating
Integrated tree structure creating means for creating integrated tree structure data by integrating the respective lower tree structure data for each cluster created by the lower tree structure creating means;
A tree structure data creation device comprising:
前記統合木構造作成手段は、前記上部木構造データと前記各下部木構造データとを組み合わせることで統合木構造データを作成する、
請求項1記載の木構造データ作成装置。 Upper tree structure creation means for creating upper tree structure data representing a hierarchical relationship between the reference documents based on position information of the reference documents in the directory structure;
The integrated tree structure creation means creates integrated tree structure data by combining the upper tree structure data and the lower tree structure data.
The tree structure data creation device according to claim 1.
ことを特徴とする請求項1又は2に記載の木構造データ作成装置。 The cluster dividing unit divides the document group into a plurality of clusters so that each cluster includes only documents belonging to a directory group below the highest directory to which the cluster belongs.
The tree structure data creation device according to claim 1 or 2, characterized in that.
(a)指定された注目ディレクトリ以下のディレクトリ群に含まれる文書群を第1のクラスタとして求め、
(b)第1のクラスタ内に含まれる文書の数を計数し、
(c)ステップ(b)で求められた文書の数が所定の上限値を超えた場合には、注目ディレクトリの直下のディレクトリを新たな注目ディレクトリに選び、該新たな注目ディレクトリ以下のディレクトリ群に含まれる文書群を第2のクラスタとして求め、該第2のクラスタに含まれる文書群を前記第1のクラスタから削除し、
(d)ステップ(c)で求められた前記第2のクラスタを新たな第1のクラスタとして前記ステップ(b)以下のステップを再帰的に繰り返す、
ことを特徴とする請求項1又は2に記載の木構造データ作成装置。 The cluster dividing means includes
(A) obtaining a document group included in a directory group below the designated directory of interest as a first cluster;
(B) counting the number of documents contained in the first cluster;
(C) When the number of documents obtained in step (b) exceeds a predetermined upper limit, a directory immediately below the target directory is selected as a new target directory, and the directory group below the new target directory is selected. Determining the included document group as a second cluster, deleting the document group included in the second cluster from the first cluster,
(D) recursively repeating the steps after step (b) with the second cluster obtained in step (c) as a new first cluster;
The tree structure data creation device according to claim 1 or 2, characterized in that.
前記クラスタ分割手段は、前記開始文書の含まれるディレクトリを前記ステップ(a)における前記注目ディレクトリとして処理を実行し、
前記下部木構造作成手段は、前記ステップ(a)で求めたクラスタについての基準文書として、前記開始文書を選択する、
ことを特徴とする請求項4記載の木構造データ作成装置。 Means for accepting designation of a starting document in the directory structure;
The cluster dividing unit executes processing with the directory including the start document as the directory of interest in the step (a),
The lower tree structure creation means selects the start document as a reference document for the cluster obtained in step (a).
5. The tree structure data creating apparatus according to claim 4, wherein
ことを特徴とする請求項1〜5のいずれか1項に記載の木構造データ作成装置。 In the process of sequentially following the hypertext structure link from the reference document of the cluster, the lower tree structure creation means detects the link from a document in the cluster to a document outside the cluster. A means for incorporating a link destination document indicated by the link into the lower tree structure data as a reference node having no child node;
The tree structure data creation device according to any one of claims 1 to 5, wherein
前記文書群を複数のクラスタに分割するクラスタ分割手段と、
前記クラスタごとに、基準文書を選択し、当該基準文書を当該クラスタに対応する下部木構造データに組み込み、当該基準文書を起点に前記ハイパーテキスト構造のリンクを順次たどっていく際に、リンク先の文書が当該クラスタに属する場合にのみ当該リンク先の文書を当該クラスタに対応する下部木構造データに組み込むことで、当該基準文書を根ノードとした当該クラスタ内の文書群の木構造を示す下部木構造データを作成する下部木構造作成手段と、
前記下部木構造作成手段で作成された前記クラスタごとの各下部木構造データを統合して統合木構造データを作成する統合木構造作成手段と、
を備え、
前記クラスタ分割手段が、
(a)指定された注目ディレクトリ以下のディレクトリ群に含まれる文書群を第1のクラスタとして求め、
(b)第1のクラスタ内に含まれる文書の数を計数し、
(c)ステップ(b)で求められた文書の数が所定の上限値を超えた場合には、注目ディレクトリの直下のディレクトリを新たな注目ディレクトリに選び、該新たな注目ディレクトリ以下のディレクトリ群に含まれる文書群を第2のクラスタとして求め、該第2のクラスタに含まれる文書群を前記第1のクラスタから削除し、
(d)ステップ(c)で求められた前記第2のクラスタを新たな第1のクラスタとして前記ステップ(b)以下のステップを再帰的に繰り返す、
木構造データ作成装置。 An apparatus for creating integrated tree structure data representing a tree structure corresponding to a hypertext structure based on a hypertext structure formed by a group of documents included in a hierarchical directory structure,
Cluster dividing means for dividing the document group into a plurality of clusters;
For each of the clusters, select the reference document, when the reference document embedded in the lower tree structure data corresponding to the cluster, go to those the reference document starting from the Tsu sequentially Tado hypertext links structure, the document of the destination only when the link destination document belongs to the cluster by incorporating a lower tree structure data corresponding to the cluster, the documents in the cluster that the person the reference document and a root node tree Subtree structure creation means for creating subtree structure data indicating
Integrated tree structure creating means for creating integrated tree structure data by integrating the respective lower tree structure data for each cluster created by the lower tree structure creating means;
With
The cluster dividing means is
(A) obtaining a document group included in a directory group below the designated directory of interest as a first cluster;
(B) counting the number of documents contained in the first cluster;
(C) When the number of documents obtained in step (b) exceeds a predetermined upper limit, the directory immediately below the target directory is selected as a new target directory, and the directory group below the new target directory is selected. Determining the included document group as a second cluster, deleting the document group included in the second cluster from the first cluster,
(D) recursively repeating the steps after step (b) with the second cluster obtained in step (c) as a new first cluster;
Tree structure data creation device.
クラスタ分割手段が、前記文書群を複数のクラスタに分割する手段であって、各クラスタに含まれる文書数がそれぞれ所定の上限値以下となるように分割を行い、
下部木構造作成手段が、前記クラスタごとに、基準文書を選択し、当該基準文書を当該クラスタに対応する下部木構造データに組み込み、当該基準文書を起点に前記ハイパーテキスト構造のリンクを順次たどっていく際に、リンク先の文書が当該クラスタに属する場合にのみ当該リンク先の文書を当該クラスタに対応する下部木構造データに組み込むことで、当該基準文書を根ノードとした当該クラスタ内の文書群の木構造を示す下部木構造データを作成し、
統合木構造作成手段が、前記下部木構造作成手段で作成された前記クラスタごとの各下部木構造データを統合して統合木構造データを作成する、
木構造データ作成方法。 A method for creating integrated tree structure data representing a tree structure corresponding to a hypertext structure based on a hypertext structure formed by a group of documents included in a hierarchical directory structure,
Cluster dividing means is means for dividing the document group into a plurality of clusters, and performs division so that the number of documents included in each cluster is equal to or less than a predetermined upper limit,
A lower tree structure creation means, for each of the clusters, select the reference document, the reference document embedded in the lower tree structure data corresponding to the cluster were a link of the hypertext structure equivalent to the reference document in the origin sequentially when going throat Tsu, by incorporating the documents of the destination only if the document destination belongs to the cluster to the lower tree structure data corresponding to the cluster, the cluster of those said reference document and a root node Create sub-tree data indicating the tree structure of the documents
An integrated tree structure creating means integrates each lower tree structure data for each cluster created by the lower tree structure creating means to create integrated tree structure data;
Tree structure data creation method.
クラスタ分割手段が、前記文書群を複数のクラスタに分割するクラスタ分割ステップと、
下部木構造作成手段が、前記クラスタごとに、基準文書を選択し、当該基準文書を当該クラスタに対応する下部木構造データに組み込み、当該基準文書を起点に前記ハイパーテキスト構造のリンクを順次たどっていく際に、リンク先の文書が当該クラスタに属する場合にのみ当該リンク先の文書を当該クラスタに対応する下部木構造データに組み込むことで、当該基準文書を根ノードとした当該クラスタ内の文書群の木構造を示す下部木構造データを作成する下部木構造作成ステップと、
統合木構造作成手段が、前記下部木構造作成手段で作成された前記クラスタごとの各下部木構造データを統合して統合木構造データを作成する統合ステップと、
を含み、
前記クラスタ分割ステップは、
(a)指定された注目ディレクトリ以下のディレクトリ群に含まれる文書群を第1のクラスタとして求め、
(b)第1のクラスタ内に含まれる文書の数を計数し、
(c)ステップ(b)で求められた文書の数が所定の上限値を超えた場合には、注目ディレクトリの直下のディレクトリを新たな注目ディレクトリに選び、該新たな注目ディレクトリ以下のディレクトリ群に含まれる文書群を第2のクラスタとして求め、該第2のクラスタに含まれる文書群を前記第1のクラスタから削除し、
(d)ステップ(c)で求められた前記第2のクラスタを新たな第1のクラスタとして前記ステップ(b)以下のステップを再帰的に繰り返す、
ことを特徴とする木構造データ作成方法。 A method for creating integrated tree structure data representing a tree structure corresponding to a hypertext structure based on a hypertext structure formed by a group of documents included in a hierarchical directory structure,
A cluster dividing means for dividing the document group into a plurality of clusters;
A lower tree structure creation means, for each of the clusters, select the reference document, the reference document embedded in the lower tree structure data corresponding to the cluster were a link of the hypertext structure equivalent to the reference document in the origin sequentially when going throat Tsu, by incorporating the documents of the destination only if the document destination belongs to the cluster to the lower tree structure data corresponding to the cluster, the cluster of those said reference document and a root node A sub-tree structure creation step for creating sub-tree data indicating the tree structure of the documents in the document group;
An integration step of integrating tree structure data by integrating each lower tree structure data for each cluster created by the lower tree structure creation means;
Including
The cluster dividing step includes:
(A) obtaining a document group included in a directory group below the designated directory of interest as a first cluster;
(B) counting the number of documents contained in the first cluster;
(C) When the number of documents obtained in step (b) exceeds a predetermined upper limit, a directory immediately below the target directory is selected as a new target directory, and the directory group below the new target directory is selected. Determining the included document group as a second cluster, deleting the document group included in the second cluster from the first cluster,
(D) recursively repeating the steps after step (b) with the second cluster obtained in step (c) as a new first cluster;
A tree structure data creation method characterized by the above.
前記文書群を複数のクラスタに分割する手段であって、各クラスタに含まれる文書数がそれぞれ所定の上限値以下となるように分割を行うクラスタ分割手段、
前記クラスタごとに、基準文書を選択し、当該基準文書を当該クラスタに対応する下部木構造データに組み込み、当該基準文書を起点に前記ハイパーテキスト構造のリンクを順次たどっていく際に、リンク先の文書が当該クラスタに属する場合にのみ当該リンク先の文書を当該クラスタに対応する下部木構造データに組み込むことで、当該基準文書を根ノードとした当該クラスタ内の文書群の木構造を示す下部木構造データを作成する下部木構造作成手段、
前記下部木構造作成手段で作成された前記クラスタごとの各下部木構造データを統合して統合木構造データを作成する統合木構造作成手段、
として機能させるプログラム。 A computer system is made to function as an apparatus for creating integrated tree structure data representing a tree structure corresponding to a hypertext structure based on a hypertext structure formed by a group of documents included in a hierarchical directory structure. A computer program comprising:
Means for dividing the document group into a plurality of clusters, wherein the number of documents included in each cluster is divided so as to be equal to or less than a predetermined upper limit value;
For each of the clusters, select the reference document, when the reference document embedded in the lower tree structure data corresponding to the cluster, go to those the reference document starting from the Tsu sequentially Tado hypertext links structure, the document of the destination only when the link destination document belongs to the cluster by incorporating a lower tree structure data corresponding to the cluster, the documents in the cluster that the person the reference document and a root node tree Subtree structure creation means for creating subtree data indicating
Integrated tree structure creation means for creating integrated tree structure data by integrating each lower tree structure data for each cluster created by the lower tree structure creation means;
Program to function as.
前記文書群を複数のクラスタに分割するクラスタ分割手段、
前記クラスタごとに、基準文書を選択し、当該基準文書を当該クラスタに対応する下部木構造データに組み込み、当該基準文書を起点に前記ハイパーテキスト構造のリンクを順次たどっていく際に、リンク先の文書が当該クラスタに属する場合にのみ当該リンク先の文書を当該クラスタに対応する下部木構造データに組み込むことで、当該基準文書を根ノードとした当該クラスタ内の文書群の木構造を示す下部木構造データを作成する下部木構造作成手段、
前記下部木構造作成手段で作成された前記クラスタごとの各下部木構造データを統合して統合木構造データを作成する統合木構造作成手段、
として機能させ、
前記クラスタ分割手段が、
(a)指定された注目ディレクトリ以下のディレクトリ群に含まれる文書群を第1のクラスタとして求め、
(b)第1のクラスタ内に含まれる文書の数を計数し、
(c)ステップ(b)で求められた文書の数が所定の上限値を超えた場合には、注目ディレクトリの直下のディレクトリを新たな注目ディレクトリに選び、該新たな注目ディレクトリ以下のディレクトリ群に含まれる文書群を第2のクラスタとして求め、該第2のクラスタに含まれる文書群を前記第1のクラスタから削除し、
(d)ステップ(c)で求められた前記第2のクラスタを新たな第1のクラスタとして前記ステップ(b)以下のステップを再帰的に繰り返す、
というステップを含む処理を行うようにするためのプログラム。 To make a computer system function as an apparatus for creating integrated tree structure data representing a tree structure corresponding to a hypertext structure based on a hypertext structure formed by a group of documents included in a hierarchical directory structure A computer system comprising:
Cluster dividing means for dividing the document group into a plurality of clusters;
For each of the clusters, select the reference document, when the reference document embedded in the lower tree structure data corresponding to the cluster, go to those the reference document starting from the Tsu sequentially Tado hypertext links structure, the document of the destination only when the link destination document belongs to the cluster by incorporating a lower tree structure data corresponding to the cluster, the documents in the cluster that the person the reference document and a root node tree Subtree structure creation means for creating subtree data indicating
Integrated tree structure creation means for creating integrated tree structure data by integrating each lower tree structure data for each cluster created by the lower tree structure creation means;
Function as
The cluster dividing means is
(A) obtaining a document group included in a directory group below the designated directory of interest as a first cluster;
(B) counting the number of documents contained in the first cluster;
(C) When the number of documents obtained in step (b) exceeds a predetermined upper limit, a directory immediately below the target directory is selected as a new target directory, and the directory group below the new target directory is selected. Determining the included document group as a second cluster, deleting the document group included in the second cluster from the first cluster,
(D) recursively repeating the steps after step (b) with the second cluster obtained in step (c) as a new first cluster;
A program to perform processing including the steps.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2003407028A JP4254511B2 (en) | 2003-12-05 | 2003-12-05 | Tree structure data creation device and method |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2003407028A JP4254511B2 (en) | 2003-12-05 | 2003-12-05 | Tree structure data creation device and method |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2005165920A JP2005165920A (en) | 2005-06-23 |
| JP4254511B2 true JP4254511B2 (en) | 2009-04-15 |
Family
ID=34729202
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2003407028A Expired - Fee Related JP4254511B2 (en) | 2003-12-05 | 2003-12-05 | Tree structure data creation device and method |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP4254511B2 (en) |
Families Citing this family (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US7849090B2 (en) * | 2005-03-30 | 2010-12-07 | Primal Fusion Inc. | System, method and computer program for faceted classification synthesis |
| JP5434500B2 (en) * | 2009-11-13 | 2014-03-05 | 富士ゼロックス株式会社 | Tree structure processing apparatus and program |
| JP6326886B2 (en) * | 2014-03-19 | 2018-05-23 | 富士通株式会社 | Software division program, software division apparatus, and software division method |
| CN114528623B (en) * | 2022-02-11 | 2024-12-10 | 阳光新能源开发股份有限公司 | Method and device for determining position of supplementary piles |
-
2003
- 2003-12-05 JP JP2003407028A patent/JP4254511B2/en not_active Expired - Fee Related
Also Published As
| Publication number | Publication date |
|---|---|
| JP2005165920A (en) | 2005-06-23 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US7877677B2 (en) | Methods and apparatus for enabling use of web content on various types of devices | |
| JP3842573B2 (en) | Structured document search method, structured document management apparatus and program | |
| US5974572A (en) | Software system and methods for generating a load test using a server access log | |
| US7137065B1 (en) | System and method for classifying electronically posted documents | |
| US7428705B2 (en) | Web map tool | |
| CN110059282A (en) | A kind of acquisition methods and system of interactive class data | |
| US20090210780A1 (en) | Document processing and management approach to creating a new document in a mark up language environment using new fragment and new scheme | |
| US20020091835A1 (en) | System and method for internet content collaboration | |
| US20030088639A1 (en) | Method and an apparatus for transforming content from one markup to another markup language non-intrusively using a server load balancer and a reverse proxy transcoding engine | |
| US7912846B2 (en) | Document processing method, recording medium, and document processing system | |
| WO2006132793A2 (en) | Learning facts from semi-structured text | |
| US20170262539A1 (en) | Method of retrieving attributes from at least two data sources | |
| US7975218B2 (en) | Apparatus and method for forming document group structure data and storage medium | |
| US8219934B2 (en) | Method and code module for facilitating navigation between webpages | |
| JP3914081B2 (en) | Access authority setting method and structured document management system | |
| JP4254511B2 (en) | Tree structure data creation device and method | |
| JPH09146962A (en) | Information space access support method and device | |
| US20060212461A1 (en) | System for organizing a plurality of data sources into a plurality of taxonomies | |
| KR20030051577A (en) | Display method for research result in internet site | |
| JP3842576B2 (en) | Structured document editing method and structured document editing system | |
| JP4438392B2 (en) | Tree structure data creation device and program | |
| JP3725088B2 (en) | Knowledge information collecting system and knowledge information collecting method | |
| JP2002041407A (en) | Information processing system, information disclosure server, and portal server | |
| JP2000322167A (en) | Data management system and data attribute display method | |
| EP1681643B1 (en) | Method and system for information extraction |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20061127 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20080723 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080805 |
|
| A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20081006 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20090106 |
|
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20090119 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120206 Year of fee payment: 3 |
|
| R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130206 Year of fee payment: 4 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130206 Year of fee payment: 4 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140206 Year of fee payment: 5 |
|
| LAPS | Cancellation because of no payment of annual fees |