WO2012035754A1

WO2012035754A1 - データ統合処理装置、システム、方法及びプログラム

Info

Publication number: WO2012035754A1
Application number: PCT/JP2011/005129
Authority: WO
Inventors: 有熊　威
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2010-09-13
Filing date: 2011-09-13
Publication date: 2012-03-22
Anticipated expiration: 2013-03-13
Also published as: CN103026358A; JPWO2012035754A1; US8972356B2; US20130091095A1

Abstract

　複数のグラフを統合するデータ統合処理装置であって、入力されたグラフ群の統合に用いる統合処理方法を選択する統合処理方法選択手段４と、統合処理方法を複数有し、複数の統合処理方法のうちの統合処理方法選択手段４が選択した統合処理方法に従って統合処理を実行することにより複数のグラフを統合する統合処理実行手段６とを備え、統合処理方法選択手段４は、入力されたグラフ中の各ノードについて、上位のノードが一致する際に、下位のノードが一致する頻度に応じて、下位のノードを統合するために用いる統合処理方法を選択する。

Description

データ統合処理装置、システム、方法及びプログラム

　本発明は、複数のグラフを統合するデータ統合処理装置、データ統合処理システム、データ統合処理方法及びデータ統合処理プログラムに関する。

　データ統合技術として、特許文献１や非特許文献１に記載されたシステムが知られている。

　まず、特許文献１に記載された有向グラフの単一化装置は、図１５に示すように、表現手段１３と、併合手段１４と、タグチェック手段１５とを備えている。そのような構成の有向グラフの単一化装置は、次のようにして有向グラフを統合する。

　まず、表現手段１３は、入力された有向グラフを、タグとそれに対応する部分有向グラフとのペアのリストとして表現する。このリストのことをタグリストと呼ぶ。次に、併合手段１４は、２つの有向グラフに対応するタグリストを併合する。

　次に、タグチェック手段１５は、併合されたタグリストにおける同じ名のタグに対応する部分有向グラフが同一であることをチェックする。

　また、非特許文献１に記載されたグラフ統合アルゴリズムでは、マップ関数として外部で定義された２つのグラフ間での同一ノード判定ルールを用いて、下記のアルゴリズムでグラフの一致を判定しながら統合を実施する。

　・マップＭはブランクノードをブランクノードへ写像する。

　・グラフＧのノードであるすべての具体的な値（ＲＤＦ　リテラル）ｌｉｔに対してＭ（ｌｉｔ）＝ｌｉｔとする。

　・Ｇのノードであるすべての中間ノード（ＲＤＦ　ＵＲＩ参照）ｕｒｉに対してＭ（ｕｒｉ）＝ｕｒｉとする。

　・ノードとノードとがエッジで繋がれている事を示すトリプル（ｓ，ｐ，ｏ）がＧ中であるならば、そのときに限ってかならずトリプル（Ｍ（ｓ），ｐ，Ｍ（ｏ））はＧ’中にある。

　上記アルゴリズムによりトリプル単位での一致・不一致を基にしてグラフの統合処理を行う。

特開平５－２０４６４７号公報

Graham Klyne et,al., "RDF Concepts and Abstract Syntax",W3C Recommendation, http://www.w3.org/TR/2004/REC-rdf-concepts-20040210/,(2004)

　上述した技術における問題点は、統合機能とスループットとが、トレードオフの関係にあることである。既存の統合手段では、特許文献１に記載された方法のように提供する統合機能を単純化し、［グラフ中のノード数］^２で処理を実現している。

　一方、非特許文献１に記載された方法のようにノードの周辺情報やマップに登録された同義語情報を元にトリプルの同一性を判定するような高度な統合機能を提供する手法の場合には、処理速度が（［グラフ中のノード数］×［ノードあたりの平均プロパティ数］）^２の処理時間が必要となる。このように、既存の技術では、統合処理とスループットとを両立できないという問題がある。

　そこで、本発明は、提供する統合機能への制限を低く抑えながら、高いスループットを実現することができるデータ統合処理装置、データ統合処理システム、データ統合処理方法及びデータ統合処理プログラムを提供することを目的とする。

　本発明によるデータ統合処理装置は、複数のグラフを統合するデータ統合処理装置であって、入力されたグラフ群の統合に用いる統合処理方法を選択する統合処理方法選択手段と、統合処理方法を複数有し、複数の統合処理方法のうちの統合処理方法選択手段が選択した統合処理方法に従って統合処理を実行することにより複数のグラフを統合する統合処理実行手段とを備え、統合処理方法選択手段は、入力されたグラフ中の各ノードについて、上位のノードが一致する際に、下位のノードが一致する頻度に応じて、下位のノードを統合するために用いる統合処理方法を選択することを特徴とする。

　本発明によるデータ統合処理システムは、複数のグラフを統合するデータ統合処理システムであって、入力されたグラフ群の統合に用いる統合処理方法を選択する統合処理方法選択手段と、統合処理方法を複数有し、複数の統合処理方法のうちの統合処理方法選択手段が選択した統合処理方法に従って統合処理を実行することにより複数のグラフを統合する統合処理実行手段とを含み、統合処理方法選択手段は、入力されたグラフ中の各ノードについて、上位のノードが一致する際に、下位のノードが一致する頻度に応じて、下位のノードを統合するために用いる統合処理方法を選択することを特徴とする。

　本発明によるデータ統合処理方法は、複数のグラフを統合するデータ統合処理方法であって、入力されたグラフ群の統合に用いる統合処理方法を選択し、統合処理方法を複数有し、複数の統合処理方法のうちの選択した統合処理方法に従って統合処理を実行することにより複数のグラフを統合し、統合処理方法を選択する際には、入力されたグラフ中の各ノードについて、上位のノードが一致する際に、下位のノードが一致する頻度に応じて、下位のノードを統合するために用いる統合処理方法を選択することを特徴とする。

　本発明によるデータ統合処理プログラムは、複数のグラフを統合するためのデータ統合処理プログラムであって、コンピュータに、入力されたグラフ群の統合に用いる統合処理方法を選択する統合処理方法選択処理と、統合処理方法を複数有し、複数の統合処理方法のうちの選択した統合処理方法に従って統合処理を実行することにより複数のグラフを統合する統合処理実行処理とを実行させ、統合処理方法選択処理で、入力されたグラフ中の各ノードについて、上位のノードが一致する際に、下位のノードが一致する頻度に応じて、下位のノードを統合するために用いる処理統合処理方法を選択する処理を実行させることを特徴とする。

　本発明によれば、提供する統合機能への制限を低く抑えながら、高いスループットを実現することができる。

本発明によるデータ統合処理システムの第１の実施形態の全体構成の一例を示す機能ブロック図である。データ統合処理システムに含まれる解析手段別特性記憶手段が格納する一致重複頻度テーブルのデータ構造の一例を示す概念図である。データ統合処理システムに含まれる解析手段別特性記憶手段が格納する矛盾重複頻度テーブルのデータ構造の一例を示す概念図である。データ統合処理システムに含まれる解析手段別特性記憶手段が格納するクラスプロパティ出現頻度テーブルのデータ構造の一例を示す概念図である。データ統合処理システムに含まれる統合処理方法選択ルール記憶手段記憶手段が格納する選択ルールテーブルのデータ構造の一例を示す概念図である。データ統合処理システムが実行するデータ統合処理の流れの一例を示すフローチャートである。データ統合処理システムが実行する統合処理選択処理の流れの一例を示すフローチャートである。データ統合処理システムが実行する特性学習処理の流れの一例を示すフローチャートである。データ統合処理システムの第２の実施形態の全体構成の一例を示す機能ブロック図である。データ統合処理システムが実行するデータ統合処理の流れの一例を示すフローチャートである。データ統合処理システムが実行するグラフ分割処理の流れの一例を示すフローチャートである。本発明の実施例における顧客情報検索エンジンが出力するモデルの一例を示す概念図である。社員情報検索エンジンが出力するモデルの一例を示す概念図である。人物動線検索エンジンが出力するモデルの一例を示す概念図である。第１の関連技術として、特許文献１に記載のデータ統合処理システムの構成を概略示すブロック図である。データ統合処理装置の最小の構成例を示す機能ブロック図である。

実施形態１．
　次に、本発明の第１の実施形態について図面を参照して詳細に説明する。図１は、本発明によるデータ統合処理システムの第１の実施形態の全体構成の一例を示す機能ブロック図である。図１に示すように、データ統合処理システムは、データ統合処理装置１と解析処理装置２とを含む。なお、本実施形態では、データ統合処理装置１と解析処理装置２とが異なる装置として構成されている例について説明するが、これに限らず、単一の装置によって構成されていてもよい。

　解析処理装置２は、具体的には、プログラムに従って動作するパーソナルコンピュータ等の情報処理装置によって実現される。解析処理装置２は、データを解析する複数の解析手段（図示せず）を備えている。

　データ統合処理装置１は、具体的には、プログラムに従って動作するパーソナルコンピュータ等の情報処理装置によって実現される。データ統合処理装置１は、解析手段別特性記憶手段５と、統合処理方法選択ルール記憶手段８と、統合処理方法選択手段４と、統合処理実行手段６と、特性学習手段７とを備えている。なお、各手段は、統合制御手段（図示せず）によって制御されているものとする。

　解析手段別特性記憶手段５は、解析処理装置２が備えている解析手段ごとに、解析結果を表現したグラフ内の部分グラフの特性情報を格納する。解析手段別特性記憶手段５は、具体的には、光ディスク装置や磁気ディスク装置等の記憶装置によって実現される。

　統合処理方法選択ルール記憶手段８は、グラフデータに最適な統合処理方法を選択するためのルールを示すルール情報（例えば、選択ルールテーブル８１０等）を格納する。統合処理方法選択ルール記憶手段８は、具体的には、光ディスク装置や磁気ディスク装置等の記憶装置によって実現される。

　統合処理方法選択手段４は、解析処理装置２から解析結果を表現したグラフ群とグラフ群を出力した解析手段群の情報とを受け取り、解析手段別特性記憶手段５が格納する特性情報と、統合処理方法選択ルール記憶手段８が格納するルール情報とに基づいて、適切な統合処理方法を選択する機能を備えている。統合処理方法選択手段４は、具体的には、プログラムに従って動作する情報処理装置のＣＰＵによって実現される。

　統合処理実行手段６は、統合処理方法選択手段４が選択した統合処理方法に従って統合処理を実行することでグラフの統合を実施し、結果を解析処理装置２に送信する機能を備えている。統合処理実行手段６は、具体的には、プログラムに従って動作する情報処理装置のＣＰＵによって実現される。

　また、統合処理実行手段６は、それぞれ異なる方法でグラフの統合処理を実行する第１の統合処理方法実行手段９、第２の統合処理方法実行手段１０および第３の統合処理方法実行手段１１を含む。本実施形態では、３つの異なる統合処理方法実行手段を含む例について説明するが、これに限らず、２つ以上であればいくつでもよい。また、各統合処理方法実行手段は、例えば情報処理装置のＣＰＵが既存のグラフ統合アルゴリズムに基づいて処理を実行することによって実現される。

　特性学習手段７は、統合処理方法選択手段４からグラフ群とグラフ群を出力した解析手段群の情報とを受け取り、解析手段別特性記憶手段５が記憶する情報を更新する機能を備えている。特性学習手段７は、具体的には、プログラムに従って動作する情報処理装置のＣＰＵによって実現される。

　解析手段別特性記憶手段５は、一致重複頻度テーブル５１０と、矛盾重複頻度テーブル５２０と、クラスプロパティ出現頻度テーブル５３０とを記憶している。

　一致重複頻度テーブル５１０は、図２に示すように、解析処理装置２が備えている解析手段のＩＤを縦軸、横軸に持つ。ここで、解析手段ＩＤの表現方法については、数字に限定する必要はなく、任意の文字列やＵＲＩなど、解析手段を一意に特定できる表現であれば、任意の表現を用いることができる。

　一致重複頻度テーブル５１０内の各セルは、セルの縦軸、横軸の解析手段ＩＤに対応する２つの解析手段がそれぞれ出力する解析結果において一致重複が発生する箇所とその頻度とを格納する。つまり、２つの解析手段がそれぞれ出力するグラフ中の各ノードについて、上位のノードが一致する際に、下位のノードが一致する箇所とその頻度とを格納する。なお、ここでは、２つのグラフについて、解析結果の要素データが重複している場合に、要素データを構成する情報が一致していることを一致重複と呼ぶ。一致重複が発生する箇所の表現には、処理対象となるグラフデータのノードのクラスや、グラフデータのエッジのラベルであるプロパティ名を用いることができる。

　矛盾重複頻度テーブル５２０は、図３に示すように、解析処理装置２が備えている解析手段のＩＤを縦軸、横軸に持つ。ここで、解析手段ＩＤの表現方法については、数字に限定する必要はなく、任意の文字列やＵＲＩなど、解析手段を一意に特定できる表現であれば、任意の表現を用いることができる。

　矛盾重複頻度テーブル５２０内の各セルは、セルの縦軸、横軸の解析手段ＩＤに対応する２つの解析手段がそれぞれ出力する解析結果において矛盾重複が発生する箇所とその頻度とを格納する。つまり、２つの解析手段がそれぞれ出力するグラフ中の各ノードについて、上位のノードが一致するが、下位のノードが一致しない箇所とその頻度とを格納する。なお、ここでは、２つのグラフについて、解析結果の要素データが重複している場合に、要素データを構成する情報が異なっていることを矛盾重複と呼ぶ。矛盾重複が発生する箇所の表現には、処理対象となるグラフデータのノードのクラスや、グラフデータのエッジのラベルであるプロパティ名を用いることができる。

　クラスプロパティ出現頻度テーブル５３０は、図４に示すように、解析手段ＩＤ５３１と、クラス／プロパティＩＤ５３２と、頻度５３３とを格納する。

　解析手段ＩＤ５３１は、一致重複管理テーブル５１０や矛盾重複頻度テーブル５２０と同様に、解析処理装置２が備えている解析手段を一意に特定するために用いられる。

　また、クラス／プロパティＩＤ５３２は、解析結果のグラフ中のデータに含まれるクラスやプロパティを一意に特定するために用いられる。ここで、クラス／プロパティＩＤ５３２の表現方法については、英文字に限定する必要はなく、任意の文字列やＵＲＩなど、クラスやプロパティを一意に特定できる表現であれば、任意の表現を用いることができる。

　頻度５３３は、解析手段ＩＤ５３１で特定される解析手段が解析結果として出力したグラフ中に含まれるクラスまたはプロパティ全体を母数として、クラス／プロパティＩＤ５３２で特定されるクラスまたはプロパティの出現頻度を算出した値である。ここで、頻度５３３の表現方法については、百分率に限定する必要はなく、任意の数値表現を用いることができる。

　統合処理方法選択ルール記憶手段８は、選択ルールテーブル８１０を記憶している。選択ルールテーブル８１０は、図５に示すように、選択ルールＩＤ８１１と、ルール８１２と、統合処理方法ＩＤ８１３とを格納する。

　選択ルールＩＤ８１１は、選択ルールを一意に識別するためのＩＤであり、選択ルールテーブル８１０の主キーである。ここで、選択ルールＩＤ８１１の表現方法については、数字に限定する必要はなく、任意の文字列やＵＲＩなど、選択ルールを一意に特定できる表現であれば、任意の表現を用いることができる。

　ルール８１２は、統合処理方法を選択するために用いられる。ルール８１２が含む条件に入力データが合致する場合には、使用する統合処理方法をルール８１２に対応付けられた統合処理方法ＩＤ８１３で指定する。

　ルール８１２には、例えば「一致重複頻度が高く、矛盾重複頻度が低いものは低機能で高速な統合処理方法を選択する。」や、「一致重複頻度が低く、矛盾重複頻度が高いものは高機能な統合処理方法を選択する。」といったルールが記述される。ルールの他の例としては、「一致重複頻度に基づく値が所定値よりも高い場合は、低機能で高速な統合処理方法を選択する。」や、「一致重複頻度に基づく値が所定値よりも低い場合は、高機能で低速な統合処理方法を選択する。」といったルールであってもよく、「一致重複頻度に基づく値が所定値よりも高く、矛盾重複頻度に基づく値が所定値よりも低い場合は、低機能で高速な統合処理方法を選択する。」や、「一致重複頻度に基づく値が所定値よりも低く、矛盾重複頻度に基づく値が所定値よりも高い場合は、高機能な統合処理方法を選択する。」といったルールであってもよい。例えば、図５に示すルールは、「一致重複頻度に後述する出現頻度をかけた値が所定値よりも高く、矛盾重複頻度に後述する出現頻度をかけた値が所定値以下である場合には、低機能で高速な統合処理方法を選択する。」や、「一致重複頻度に後述する出現頻度をかけた値が所定値以下であり、矛盾重複頻度に後述する出現頻度をかけた値が所定値よりも高い場合には、高機能な統合処理方法を選択する。」といったルールである。なお、ルール８１２の記述方法については、論理式に限定する必要はなく、決定木などの記述を用いることもできる。

　統合処理方法ＩＤは、統合処理方法（具体的には、統合処理方法実行手段（９～１１））を一意に特定するために用いられる。ここで、統合処理方法ＩＤの表現方法については、文字列に限定する必要はなく、任意の文字列やＵＲＩなど、統合処理方法を一意に特定できる表現であれば、任意の表現を用いることができる。

　次に、データ統合処理システムの第１の実施形態の動作例について説明する。

　第１の実施形態のデータ統合処理システムは、データ統合処理Ｓａと、統合処理方法選択処理Ｓｂと、特性学習処理Ｓｃとを実行する。

　データ統合処理Ｓａでは、データ統合処理システムは、解析処理装置２の要求に対して一連の統合処理を実行し、統合処理後の結果を返信する。

　また、統合処理方法選択処理Ｓｂでは、統合処理方法選択手段４が、統合対象のグラフ群に最適な統合処理方法群を選択する。

　また、特性学習処理Ｓｃでは、特性学習手段７が、統合処理方法選択手段４から統合対象のグラフ群とグラフ群を出力した解析手段群の情報とを受け取り、解析手段別特性記憶手段５が記憶する情報を更新する。

　まず、データ統合処理Ｓａについて、図を用いて説明する。図６に、データ統合処理システムが実行するデータ統合処理の流れの一例を示すフローチャートを示す。

　データ統合処理Ｓａでは、まず、統合処理方法選択手段４は、解析処理装置２からデータ統合処理の要求を受信する（ステップＳａ１）。

　次に、統合処理方法選択手段４は、解析処理装置２から、解析結果群を表現した解析結果グラフ群と、グラフを出力した解析手段のＩＤ群とを受信する（ステップＳａ２）。

　次に、統合処理方法選択手段４は、統合処理方法選択処理（ステップＳｂ）を行い、統合処理方法ＩＤ群を選択する。統合処理方法選択処理（ステップＳｂ）の詳細については後述する。

　次に、統合処理方法選択手段４は、解析結果グラフ群と、統合処理方法ＩＤ群とを、統合処理実行手段６に出力する。

　次に、統合処理実行手段６は、すべての解析結果グラフに対して、解析結果グラフに対応する統合処理方法ＩＤを統合処理方法ＩＤ群から抽出し、統合処理方法ＩＤに対応する統合処理方法実行手段９～１１のいずれかに２つのグラフの統合処理を実行させる（ステップＳａ３～Ｓａ５）。具体的には、統合処理実行手段６は、解析結果グラフに対応する統合処理方法ＩＤを抽出し、抽出した統合処理方法ＩＤによって特定される統合処理方法実行手段９～１１のいずれかに統合処理要求を出力する。すると、統合処理方法実行手段（９～１１のいずれか）は、要求に従って、２つのグラフを統合する処理を実行する。

　最後に、統合処理実行手段６は、解析処理装置２に統合処理後のグラフを送信する（ステップＳａ６）。

　次に、統合処理方法選択処理Ｓｂについて、図を用いて説明する。図７に、データ統合処理システムが実行する統合処理選択処理の流れの一例を示すフローチャートを示す。

　統合処理選択処理Ｓｂでは、まず、統合処理方法選択手段４は、すべての解析結果グラフと解析結果グラフを出力した解析手段のＩＤとに対して、対応する特性情報を解析手段別特性記憶手段５から抽出する。そして、統合処理方法選択手段４は、抽出した特性情報に基づいて、統合処理方法選択ルール記憶手段８が記憶するルール情報から適合するルールを特定する（ステップＳｂ３、ステップＳｂ４）。具体的には、統合処理方法選択手段４は、抽出した特性情報に含まれる一致重複頻度および矛盾重複頻度とその出現頻度とに基づいて、ルール８１２に記載された条件と一致する選択ルールＩＤを特定する。

　次に、統合処理方法選択手段４は、特定したルールに対応する統合処理方法ＩＤ８１３を統合処理方法選択ルール記憶手段８から取得し、内部的に保持する（ステップＳｂ５）。具体的には、統合処理方法選択手段４は、特定した選択ルールＩＤ８１１に対応する統合処理方法ＩＤ８１３を示す情報を統合処理方法選択ルール記憶手段８から抽出し、抽出した情報を記憶部に一時的に記憶させる。

　最後に、統合処理方法選択手段４は、統合処理方法ＩＤ群を統合制御手段に出力する（ステップＳｂ６）。具体的には、統合処理方法選択手段４は、抽出した統合処理方法ＩＤ８１３を示す情報をデータ統合処理装置２の各手段を制御する統合制御手段に出力する。

　次に、特性学習処理Ｓｃについて、図を用いて詳細に説明する。図８に、データ統合処理システムが実行する特性学習処理の流れの一例を示すフローチャートを示す。

　特性学習処理Ｓｃでは、まず、特性学習手段７は、統合処理方法選択手段４から解析結果のグラフ群と、グラフ群を出力した解析処理装置２の解析手段のＩＤ群とを受け取る（ステップＳｃ１）。

　次に、特性学習手段７は、受け取ったグラフ群のすべてのペアの組合せについて、以下の処理を実行する（ステップＳｃ２）。

　まず、特性学習手段７は、グラフのペアについて、解析結果グラフ間での一致重複頻度を算出する（ステップＳｃ３）。

　次に、特性学習手段７は、グラフのペアについて、解析結果グラフ間でのクラス／プロパティ出現頻度を算出する（ステップＳｃ４）。

　次に、特性学習手段７は、グラフのペアについて、解析結果グラフ間での矛盾重複頻度を算出する（ステップＳｃ５）。

　ここで、ステップＳｃ３、Ｓｃ４、Ｓｃ５の処理については、並列実行することが可能であり、実行順序は問わない。

　次に、特性学習手段７は、ステップＳｃ３～Ｓｃ５で算出した各頻度について、解析手段別特性記憶手段５から対応する頻度を示す情報を抽出し、それぞれ加重平均を求める（ステップＳｃ６）。

　最後に、特性学習手段７は、加重平均を求めた各頻度値を、解析手段別特性記憶手段５に記憶させる（ステップＳｃ７）。

　特性学習手段７は、すべてのグラフの組合せについて、ステップＳｃ３からＳｃ７までの処理を実行すると、学習処理を終了する（ステップＳｃ２）。データ統合処理システムは、このような特性学習処理Ｓｃを所定期間ごとに実行することにより、解析手段別特性記憶手段５が記憶している特性情報を随時更新する。

　次に、本実施形態の効果について説明する。

　本実施形態の効果は、２つのグラフの統合時に要求される機能を提供する統合処理方法を用いて統合処理を実行することにより、機能を制限することなく、統合処理のスループットを向上できることにある。

　この理由は、解析手段別特性記憶手段５が記憶しているグラフ間の統計情報に基づいて、統合処理方法選択手段４が適切な統合処理方法を選択することで、不用意に高度な処理をすべてのグラフへ適用することを防止し、無駄な処理を削減できるためである。

実施形態２．
　次に、本発明の第２の実施形態について説明する。図９に、データ統合処理システムの第２の実施形態の全体構成の一例を示す機能ブロック図を示す。

　第２の実施形態のデータ統合処理システムは、グラフ分割手段１２を含み、グラフ分割手段１２が統合前のグラフをサブグラフ群に分割する点で、第１の実施形態と相違している。

　図９において、グラフ分割手段１２以外の構成要素については、第１の実施形態と同様である。第１の実施形態と同様の構成要素については、図１と同一の符号を付し、詳細な説明を省略する。

　グラフ分割手段１２は、統合処理方法選択手段４から、統合対象のグラフ群とそのグラフ群を出力した解析手段ＩＤ群とを受け取る。そして、グラフ分割手段１２は、解析手段別特性記憶手段５内の特性情報に基づいて、グラフ内で同じ特性を示す部分をサブグラフとして抽出し、統合対象のグラフ群をサブグラフ群に分割する。グラフ分割手段１２は、具体的には、プログラムに従って動作する情報処理装置のＣＰＵによって実現される。

　次に、第２の実施形態の動作例について説明する。

　本実施形態では、第１の実施形態と同様に、データ統合処理Ｓｄと、統合処理選択処理Ｓｂと、特性学習処理Ｓｃとを実行する。ただし、本実施形態では、サブグラフ分割処理Ｓｅを実行し、データ統合処理Ｓｄにおいて、グラフ分割手段１２が、入力グラフをサブグラフへ分割する点で、第１の実施形態と異なる。

　統合処理選択処理Ｓｂと、特性学習処理Ｓｃとについては、第１の実施形態と同様であるため、詳細な説明を省略する。

　データ統合処理Ｓｄについて、図を用いて説明する。図１０に、データ統合処理システムが実行するデータ統合処理Ｓｄの流れの一例を示すフローチャートを示す。なお、図１０において第１の実施形態と同様の動作要素については、図６と同様の符号を付し、詳細な説明を省略する。

　まず、統合処理方法選択手段４は、解析処理装置２からデータ統合処理の要求を受け付ける（ステップＳａ１）。

　次に、統合処理方法選択手段４は、受信した解析結果グラフ群と、グラフを出力した解析手段のＩＤ群とをグラフ分割手段１２に出力する。すると、グラフ分割手段１２は、グラフをサブグラフに分割する（ステップＳｅ）。ステップＳｅの詳細については後述する。

　以降の処理については、第１の実施形態における処理（ステップＳｂ～Ｓａ６）と同様であるため、説明を省略する。

　サブグラフ分割処理Ｓｅについて、図を用いて説明する。図１１に、データ統合処理システムが実行するサブグラフ分割処理Ｓｅの流れの一例を示すフローチャートを示す。

　サブグラフ分割処理Ｓｅでは、まず、グラフ分割手段１２は、統合処理方法選択手段４から、解析結果グラフ群と、グラフを出力した解析処理装置２の解析手段のＩＤ群とを受け取り、すべてのグラフに対して、以下の処理を実施する（ステップＳｅ１）。

　まず、グラフ分割手段１２は、グラフを中に含まれるクラスとプロパティとについて、解析手段別特性記憶手段５から、一致重複度テーブル５１０と矛盾重複度テーブル５２０とを参照し、一致重複頻度が高く、矛盾重複頻度が低いものを列挙する（ステップＳｅ２）。

　次に、グラフ分割手段１２は、一致重複頻度が高く、矛盾重複頻度が低いクラス・プロパティを多く含む部分グラフを、高一致サブグラフとして抽出する（ステップＳｅ３）。

　次に、グラフ分割手段１２は、グラフの中に含まれるクラスとプロパティとについて、解析手段別特性記憶手段５から、一致重複度テーブル５１０と矛盾重複度テーブル５２０とを参照し、一致重複頻度が低く、矛盾重複頻度が高いものを列挙する（ステップＳｅ４）。

　次に、グラフ分割手段１２は、一致重複頻度が低く、矛盾重複頻度が高いクラス・プロパティを多く含む部分グラフを、高矛盾サブグラフとして抽出する（ステップＳｅ５）。

　次に、グラフ分割手段１２は、グラフ中において、高一致サブグラフと高矛盾サブグラフとのいずれにも含まれていないデータをサブグラフとして抽出する（ステップＳｅ６）。

　最後に、これらの処理をすべてのグラフに対して実行した後、グラフ分割手段１２は、抽出したサブグラフ群を統合処理方法選択手段４に出力する（ステップＳｅ８）。

　次に、本実施形態の効果について説明する。

　本実施形態の効果は、グラフのサイズが大きくなった際に、グラフを分割することで統合処理を高速化して処理時間を短縮できることにある。

　この理由は、グラフ分割手段１２が、グラフを類似した特性を持ったデータをまとめたサブグラフに分割できるため、各統合処理方法に従って効率的に統合処理を行えるためである。

実施形態３．
　次に、本発明の第３の実施形態について説明する。ここでは、解析処理装置２は、下記に示す解析手段を備えているものとする。

　（１）入力された名前に対応する、顧客の電子メールアドレス、住所、名前を出力する顧客情報検索エンジン

　（２）入力された名前に対応する、社員の電子メールアドレス、住所、名前、社員ＩＤを出力する社員情報検索エンジン

　（３）社員ＩＤのオフィスでの移動軌跡を出力する人物動線検索エンジン

　ここで、（１）から（３）の解析手段がそれぞれ出力する解析結果データの例を図１２から図１４に示す。なお、（１）から（３）の解析手段が出力する解析結果データについての特徴情報の内容は、図２から図４に示すものであるとする。

　また、本実施形態では、データ統合処理装置は、下記に示す統合処理方法に従って統合処理を実行可能であるものとする。

　（い）第１の統合処理方法：入力された２つのグラフについて、ノードのＩＤや値が同じノードを同一とみなして単純に統合する統合処理を実行する方法

　（ろ）第２の統合処理方法：入力された２つのグラフについて、同じノードＩＤが持つプロパティがさすノードの値が矛盾している（異なっている）場合には、２つの入力モデルを走査してどちらの値を使用するかを判定する統合処理を実行する方法

　ここで統合処理の計算量について比較すると、（い）の統合処理方法では、２つのグラフ間でノードの一致を走査する必要があるため、ノード数をＮとすると、Ｎ^２の計算量が必要である。一方、（ろ）の統合処理方法では、対象ノードのプロパティ統合時に、矛盾したノードの矛盾を解決するためにモデルを走査するため、Ｎ^２×Ｎ^２の計算量が必要である。

　上記の（１）から（３）の解析手段が出力する解析結果データの組合せと、必要とする統合機能のレベルとは、下記のような関係になる。

　（１）－（２）を統合：異なるプロパティがあった場合にはこの矛盾を解決しながら統合する

　（１）－（３）を統合：単純にすべて統合

　（２）－（３）を統合：単純にすべて統合

　また、統合処理方法選択ルール記憶手段８には、図５に示したルールが設定されているものとする。具体的には、統合処理方法選択ルール記憶手段８は、ルール情報として、図５に示す選択ルールテーブル８１０を記憶している。

　次に、具体的な動作例を示す。統合処理方法選択手段４は、解析処理装置２から、（１）および（２）の解析手段の解析結果データを受け取ると、次のように動作する。

　まず、統合処理方法選択手段４は、受信した解析結果データに含まれる解析手段ＩＤ群（この場合、顧客情報検索エンジンと社員情報検索エンジン）に基づいて、解析手段別特性記憶手段５から、一致重複頻度（Ｐｅｒｓｏｎ　７０％）と矛盾重複頻度（ｅ－ｍａｉｌ　８０％）とを抽出する。

　さらに、統合処理方法選択手段４は、受信した解析結果データに含まれる解析手段ＩＤに基づいて、解析手段別特性記憶手段５から、クラス／プロパティの出現頻度（Ｐｅｒｓｏｎ　３３％，ｅ－ｍａｉｌ　３３％）を抽出する。

　次に、統合処理方法選択手段４は、統合処理方法選択ルール記憶手段８が記憶するルール情報と抽出した上記の頻度情報とに基づいて、ルールに一致するか否かの判定を行う。

　ここでは、統合処理方法選択手段４は、ルールＩＤ：００２（図５参照）のルールに一致すると判定し、ルールＩＤ：００２に対応付けられた第２の統合処理方法を選択する。

　最後に、統合処理方法選択手段４は、統合制御手段に第２の統合処理方法を特定する統合処理方法ＩＤを出力する。この場合、データ統合処理装置１は、異なるプロパティがあった場合には、この矛盾を解決しながら統合する機能を提供する。そのため、計算時間（計算量）は、Ｎ^２×Ｎ^２となる。

　また、統合処理方法選択手段４は、解析処理装置２から（１）および（３）の解析手段の解析結果データを受け取ると、次のように動作する。

　まず、統合処理方法選択手段４は、受信した解析結果データに含まれる解析手段ＩＤ群（この場合、顧客情報検索エンジンと人物動線検索エンジン）に基づいて、解析手段別特性記憶手段５から、一致重複頻度（Ｐｅｒｓｏｎ　１００％）と矛盾重複頻度（なし）とを抽出する。

　さらに、統合処理方法選択手段４は、受信した解析結果データに含まれる解析手段ＩＤに基づいて、解析手段別特性記憶手段５から、クラス／プロパティの出現頻度（Ｐｅｒｓｏｎ　３３％）を抽出する。

　ここでは、統合処理方法選択手段４は、ルールＩＤ：００１（図５参照）のルールに一致すると判定し、ルールＩＤ：００１に対応付けられた第１の統合処理方法を選択する。

　最後に、統合処理方法選択手段４は、統合制御手段に第１の統合処理方法を特定する統合処理方法ＩＤを出力する。この場合、データ統合処理装置１は、単純なＩＤ一致型の統合機能を提供する。そのため、計算時間（計算量）は、Ｎ^２となる。

　上記のように、本実施形態では、統合機能として（ろ）が定義する機能を提供しつつ、その機能を必要としない場合には、より高速な（い）を適用する。そのため、システム全体のスループットを（ろ）のみを使用するシステムに対して向上させることができる。

　具体的には、（１）と（２）との解析結果の統合要求が２０％、（１）と（３）との解析結果の統合要求が８０％のシステムであれば、平均処理時間は、Ｎ^２×（０．８＋０．２×Ｎ^２）となる。そのため、（ろ）のみを使用するシステムの平均処理時間（Ｎ^２×Ｎ^２）より高速となる。

　以上のように、本発明は、複数の機能群を統合し動作する処理基盤における処理結果データの統合性能を向上させるためのものである。

　次に、本発明によるデータ統合処理装置の最小構成について説明する。図１６は、データ統合処理装置の最小の構成例を示すブロック図である。図１６に示すように、データ統合処理装置は、最小の構成要素として、入力されたグラフ群の統合に用いる統合処理方法を選択する統合処理方法選択手段４と、統合処理方法を複数有する統合処理実行手段６とを備えている。

　図１６に示す最小構成のデータ統合処理装置では、統合処理方法選択手段４は、入力されたグラフ中の各ノードについて、上位のノードが一致する際に、下位のノードが一致する頻度に応じて、下位のノードを統合するために用いる統合処理方法を選択する。そして、統合処理実行手段６は、複数の統合処理方法のうちの統合処理方法選択手段４が選択した統合処理方法に従って統合処理を実行することにより、入力された複数のグラフを統合する。

　従って、最小構成のデータ統合処理装置によれば、２つのグラフの統合時に要求される機能を提供する統合処理方法を適用することにより、機能を制限することなく、統合処理のスループットを向上できることにある。

　なお、本実施形態では、以下の（１）～（６）に示すようなデータ統合処理装置の特徴的構成が示されている。

　（１）データ統合処理装置は、複数のグラフ（例えば、解析処理装置２の解析手段による解析結果データ）を統合するデータ統合処理装置（例えば、データ統合処理装置１によって実現される）であって、入力されたグラフ群の統合に用いる統合処理方法（例えば、（い）第１の統合処理方法など）を選択する統合処理方法選択手段（例えば、統合処理方法選択手段４によって実現される）と、統合処理方法を複数有し、複数の統合処理方法のうちの統合処理方法選択手段が選択した統合処理方法に従って統合処理を実行することにより複数のグラフを統合する統合処理実行手段（例えば、統合処理実行手段６によって実現される）とを備え、統合処理方法選択手段は、入力されたグラフ中の各ノードについて、上位のノードが一致する際に、下位のノードが一致する頻度に応じて、下位のノードを統合するために用いる統合処理方法を選択することを特徴とする。

　（２）データ統合処理装置において、統合処理方法選択手段は、入力されたグラフ中の各ノードについて、上位のノードが一致する際に、下位のノードが一致する頻度である一致重複頻度と、下位のノードが存在するが一致しない頻度である矛盾重複頻度とに基づいて、下位のノードを統合するために用いる統合処理方法を選択するように構成されていてもよい。

　（３）データ統合処理装置において、統合処理実行手段は、統合機能が高く処理速度が遅い第２の統合処理方法または統合機能が低く処理速度が速い第１の統合処理方法に従って統合処理を実行可能であり、統合処理方法選択手段は、入力されたグラフ中の各ノードについて、上位のノードが一致する際に、下位のノードが一致する頻度が高い場合には、第１の統合処理方法を選択し、頻度が低い場合には、第２の統合処理方法を選択するように構成されていてもよい。

　（３－１）具体的に、統合処理実行手段は、所定の統合機能を有すると共に所定の処理速度で統合処理可能な第１の統合処理方法、または、当該第１の統合処理方法よりも統合機能が高いが処理速度が遅い第２の統合処理方法、に従って統合処理を実行可能であり、
　統合処理方法選択手段は、入力されたグラフ中の各ノードについて、上位のノードが一致する際に、下位のノードが一致する頻度に基づく値が所定値よりも高い場合には、第１の統合処理方法を選択し、頻度に基づく値が所定値よりも低い場合には、第２の統合処理方法を選択するよう構成されていてもよい。

　（３－２）さらに、統合処理方法選択手段は、入力されたグラフ中の各ノードについて、上位のノードが一致する際に、下位のノードが一致する頻度に基づく値が所定値よりも高く、一致しない頻度に基づく値が所定値よりも低い場合には、第１の統合処理方法を選択し、一致する頻度に基づく値が所定値よりも低く、一致しない頻度に基づく値が所定値よりも高い場合には、第２の統合処理方法を選択するよう構成されていてもよい。

　（４）データ統合処理装置において、入力されたグラフを複数のサブグラフに分割するグラフ分割手段（例えば、グラフ分割手段１２によって実現される）を備え、グラフ分割手段は、入力されたグラフ中の各ノードについて、上位のノードが一致する際に、下位のノードが一致する頻度に基づいてグラフをサブグラフに分割し、統合処理方法選択手段は、グラフ分割手段が分割したサブグラフ単位で統合処理方法を選択し、統合処理実行手段は、グラフ分割手段が分割したサブグラフ単位で統合処理を実行するように構成されていてもよい。

　（５）データ統合処理装置において、過去に入力されたグラフ中の各ノードについて、上位のノードが一致する際に、下位のノードが一致する統計頻度を、グラフを出力した解析手段と対応付けて格納する解析手段別特性記憶手段（例えば、解析手段別特性記憶手段５によって実現される）を備え、統合処理方法選択手段は、入力されたグラフを出力した解析手段に基づいて統計頻度を解析手段別特性記憶手段から抽出し、抽出した統計頻度に基づいてグラフを統合するために用いる統合処理方法を選択するように構成されていてもよい。

　（６）データ統合処理装置において、過去に入力されたグラフ中の各ノードについて、上位のノードが一致する際に、下位のノードが一致する統計頻度を算出し、解析手段別特性記憶手段に格納させる特性学習手段（例えば、特性学習手段７によって実現される）を備え、特性学習手段は、入力されたグラフを出力した解析手段を示す情報を統合処理方法選択手段から入力し、入力した情報に基づいて統計頻度を算出し、解析手段別特性記憶手段が格納する情報を順次更新するように構成されていてもよい。

　なお、上記各実施形態においてプログラムは、記憶装置に記憶されていたり、コンピュータが読み取り可能な記録媒体に記録されている。例えば、記録媒体は、フレキシブルディスク、光ディスク、光磁気ディスク、及び、半導体メモリ等の可搬性を有する媒体である。

　以上、上記各実施形態を参照して本願発明を説明したが、本願発明は、上述した実施形態に限定されるものではない。本願発明の構成や詳細には、本願発明の範囲内で当業者が理解しうる様々な変更をすることができる。

　なお、本発明は、日本国にて２０１０年９月１３日に特許出願された特願２０１０－２０４２１０の特許出願に基づく優先権主張の利益を享受するものであり、当該特許出願に記載された内容は、全て本明細書に含まれるものとする。

　本発明は、複数のグラフデータを統合する処理基盤における統合処理のスループットを向上させるための、データ統合処理装置やデータ統合処理装置をコンピュータに実現するためのプログラムといった用途に適用できる。

　１　データ統合処理装置
　２　解析処理装置
　４　統合処理方法選択手段
　５　解析手段別特性記憶手段
　６　統合処理実行手段
　７　特性学習手段
　８　統合手段選択ルール記憶手段
　９　第１の統合処理方法実行手段
　１０　第２の統合処理方法実行手段
　１１　第３の統合処理方法実行手段
　１２　グラフ分割手段
　５１０　一致重複頻度テーブル
　５２０　矛盾重複頻度テーブル
　５３０　クラスプロパティ出現頻度テーブル
　８１０　選択ルールテーブル

Claims

　複数のグラフを統合するデータ統合処理装置であって、
　入力されたグラフ群の統合に用いる統合処理方法を選択する統合処理方法選択手段と、
　統合処理方法を複数有し、該複数の統合処理方法のうちの前記統合処理方法選択手段が選択した統合処理方法に従って統合処理を実行することにより複数のグラフを統合する統合処理実行手段とを備え、
　前記統合処理方法選択手段は、入力されたグラフ中の各ノードについて、上位のノードが一致する際に、下位のノードが一致する頻度に応じて、前記下位のノードを統合するために用いる統合処理方法を選択する
　ことを特徴とするデータ統合処理装置。
　統合処理方法選択手段は、入力されたグラフ中の各ノードについて、上位のノードが一致する際に、下位のノードが一致する頻度である一致重複頻度と、下位のノードが存在するが一致しない頻度である矛盾重複頻度とに基づいて、前記下位のノードを統合するために用いる統合処理方法を選択する
　請求項１記載のデータ統合処理装置。
　統合処理実行手段は、統合機能が高く処理速度が遅い第２の統合処理方法または統合機能が低く処理速度が速い第１の統合処理方法に従って統合処理を実行可能であり、
　統合処理方法選択手段は、入力されたグラフ中の各ノードについて、上位のノードが一致する際に、下位のノードが一致する頻度が高い場合には、前記第１の統合処理方法を選択し、前記頻度が低い場合には、前記第２の統合処理方法を選択する
　請求項１又は請求項２記載のデータ統合処理装置。
　統合処理実行手段は、所定の統合機能を有すると共に所定の処理速度で統合処理可能な第１の統合処理方法、または、当該第１の統合処理方法よりも統合機能が高いが処理速度が遅い第２の統合処理方法、に従って統合処理を実行可能であり、
　統合処理方法選択手段は、入力されたグラフ中の各ノードについて、上位のノードが一致する際に、下位のノードが一致する頻度に基づく値が所定値よりも高い場合には、前記第１の統合処理方法を選択し、前記頻度に基づく値が所定値よりも低い場合には、前記第２の統合処理方法を選択する
　請求項１又は請求項２記載のデータ統合処理装置。
　入力されたグラフを複数のサブグラフに分割するグラフ分割手段を備え、
　前記グラフ分割手段は、入力されたグラフ中の各ノードについて、上位のノードが一致する際に、下位のノードが一致する頻度に基づいて前記グラフをサブグラフに分割し、
　統合処理方法選択手段は、前記グラフ分割手段が分割したサブグラフ単位で統合処理方法を選択し、
　統合処理実行手段は、前記グラフ分割手段が分割したサブグラフ単位で統合処理を実行する
　請求項１から請求項４のうちのいずれか１項に記載のデータ統合処理装置。
　過去に入力されたグラフ中の各ノードについて、上位のノードが一致する際に、下位のノードが一致する統計頻度を、該グラフを出力した解析手段と対応付けて格納する解析手段別特性記憶手段を備え、
　統合処理方法選択手段は、入力されたグラフを出力した解析手段に基づいて前記統計頻度を前記解析手段別特性記憶手段から抽出し、抽出した統計頻度に基づいて該グラフを統合する統合処理方法を選択する
　ことを特徴とした請求項１から請求項５のうちのいずれか１項に記載のデータ統合処理装置。
　過去に入力されたグラフ中の各ノードについて、上位のノードが一致する際に、下位のノードが一致する統計頻度を算出し、解析手段別特性記憶手段に格納させる特性学習手段を備え、
　前記特性学習手段は、入力されたグラフを出力した解析手段を示す情報を統合処理方法選択手段から入力し、入力した情報に基づいて統計頻度を算出し、前記解析手段別特性記憶手段が格納する情報を順次更新する
　請求項６記載のデータ統合処理装置。
　複数のグラフを統合するデータ統合処理システムであって、
　入力されたグラフ群の統合に用いる統合処理方法を選択する統合処理方法選択手段と、
　統合処理方法を複数有し、該複数の統合処理方法のうちの前記統合処理方法選択手段が選択した統合処理方法に従って統合処理を実行することにより複数のグラフを統合する統合処理実行手段とを含み、
　前記統合処理方法選択手段は、入力されたグラフ中の各ノードについて、上位のノードが一致する際に、下位のノードが一致する頻度に応じて、前記下位のノードを統合するために用いる統合処理方法を選択する
　ことを特徴とするデータ統合処理システム。
　複数のグラフを統合するデータ統合処理方法であって、
　入力されたグラフ群の統合に用いる統合処理方法を選択し、
　統合処理方法を複数有し、該複数の統合処理方法のうちの選択した統合処理方法に従って統合処理を実行することにより複数のグラフを統合し、
　統合処理方法を選択する際には、入力されたグラフ中の各ノードについて、上位のノードが一致する際に、下位のノードが一致する頻度に応じて、前記下位のノードを統合するために用いる統合処理方法を選択する
　ことを特徴とするデータ統合処理方法。
　複数のグラフを統合するためのデータ統合処理プログラムであって、
　コンピュータに、
　入力されたグラフ群の統合に用いる統合処理方法を選択する統合処理方法選択処理と、
　統合処理方法を複数有し、該複数の統合処理方法のうちの選択した統合処理方法に従って統合処理を実行することにより複数のグラフを統合する統合処理実行処理とを実行させ、
　前記統合処理方法選択処理で、入力されたグラフ中の各ノードについて、上位のノードが一致する際に、下位のノードが一致する頻度に応じて、前記下位のノードを統合するために用いる処理統合処理方法を選択する処理を
　実行させるためのデータ統合処理プログラム。