JP2012181605A - Data analysis support device and program - Google Patents
Data analysis support device and program Download PDFInfo
- Publication number
- JP2012181605A JP2012181605A JP2011042687A JP2011042687A JP2012181605A JP 2012181605 A JP2012181605 A JP 2012181605A JP 2011042687 A JP2011042687 A JP 2011042687A JP 2011042687 A JP2011042687 A JP 2011042687A JP 2012181605 A JP2012181605 A JP 2012181605A
- Authority
- JP
- Japan
- Prior art keywords
- attribute
- character string
- data table
- string type
- similarity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)
Abstract
【課題】任意のデータテーブル間において適切な属性の対応づけを行うことが可能なデータ分析支援装置およびプログラムを提供することにある。
【解決手段】第1の単語抽出手段は、第1のデータテーブルを構成する第1の文字列型属性が有する属性値から第1の単語を抽出する。第2の単語抽出手段は、第2のデータテーブルを構成する第2の文字列型属性が有する属性値から第2の単語を抽出する。類似度算出手段は、第1の抽出手段によって抽出された第1の単語および第2の抽出手段によって抽出された第2の単語に基づいて、第1のデータテーブルを構成する第1の文字列型属性および第2のデータテーブルを構成する第2の文字列型属性の類似度を算出する。類似属性候補抽出手段は、類似度算出手段によって算出された類似度に基づいて、第1の文字列型属性および第2の文字列型属性を類似属性候補として抽出する。
【選択図】図2An object of the present invention is to provide a data analysis support apparatus and program capable of associating appropriate attributes between arbitrary data tables.
A first word extracting unit extracts a first word from an attribute value of a first character string type attribute constituting a first data table. The second word extracting means extracts the second word from the attribute value of the second character string type attribute constituting the second data table. The similarity calculation means is configured to output a first character string constituting the first data table based on the first word extracted by the first extraction means and the second word extracted by the second extraction means. The similarity between the type attribute and the second character string type attribute constituting the second data table is calculated. The similar attribute candidate extraction unit extracts the first character string type attribute and the second character string type attribute as similar attribute candidates based on the similarity calculated by the similarity calculation unit.
[Selection] Figure 2
Description
本発明の実施形態は、複数のデータテーブル間で、同一の内容を表す属性を対応づけるためのデータ分析支援装置およびプログラムに関する。 Embodiments described herein relate generally to a data analysis support apparatus and program for associating attributes representing the same content among a plurality of data tables.
例えば複数の銀行等における業務ミスを分析するためには、当該業務ミスに関するデータ(情報)が蓄積された当該銀行毎の異なるデータテーブルを参照し、当該データテーブル間で同一の内容を表す属性を比較する必要がある。 For example, in order to analyze business mistakes at a plurality of banks or the like, refer to different data tables for each bank in which data (information) related to the business mistakes is stored, and set attributes that represent the same contents between the data tables. It is necessary to compare.
しかしながら、これらのデータテーブルは、一般的に各銀行において異なる定義がされており、例えば属性名または属性値の表記が異なる場合が多い。 However, these data tables are generally defined differently in each bank. For example, the attribute names or attribute values are often expressed differently.
したがって、異なる定義がされた複数のデータテーブル間において、同一の内容を表す属性を対応づけることは困難である。 Therefore, it is difficult to associate attributes representing the same contents between a plurality of data tables having different definitions.
これに関連して、例えばデータテーブルにおける主キーが共通する2つのデータテーブル間で、当該主キーの値が同一の行を比較し、当該主キー以外の属性の一致率を算出することで、両データテーブルに共通する属性を抽出する技術(以下、第1の技術と表記)が知られている。 In this connection, for example, by comparing rows having the same primary key value between two data tables having the same primary key in the data table, and calculating the matching rate of attributes other than the primary key, A technique for extracting attributes common to both data tables (hereinafter referred to as a first technique) is known.
また、例えば属性名、属性値の分布、属性値の文字素の分布および属性値の文字列長の分布(つまり、属性の特徴)の類似度を算出し、データテーブル間で対応する属性を抽出する技術(以下、第2の技術と表記)が知られている。 Also, for example, the similarity of attribute name, attribute value distribution, attribute value grapheme distribution and attribute value string length distribution (that is, attribute features) is calculated, and corresponding attributes are extracted between data tables. Technology (hereinafter referred to as second technology) is known.
しかしながら、上記した第1の技術によれば、例えば2つのデータテーブルの主キーが共通していなければならない。したがって、第1の技術では、主キーが共通していなければ、任意のデータテーブル間において類似する属性を抽出することはできない。 However, according to the first technique described above, for example, the primary keys of two data tables must be common. Therefore, in the first technique, similar attributes cannot be extracted between arbitrary data tables unless the primary keys are common.
一方、上記した第2の技術によれば、比較される属性の特徴のみを利用するため、任意のデータテーブル間において類似する属性を抽出することができる。しかしながら、第2の技術によれば、例えば文字列型の属性(つまり、文字列を含む属性値を有する属性)の場合に、当該属性値の意味を考慮していないため、適切な属性の対応づけができない場合がある。 On the other hand, according to the second technique described above, since only the feature of the attribute to be compared is used, it is possible to extract a similar attribute between arbitrary data tables. However, according to the second technique, for example, in the case of a character string type attribute (that is, an attribute having an attribute value including a character string), the meaning of the attribute value is not taken into consideration. There is a case that cannot be attached.
そこで、本発明が解決しようとする課題は、任意のデータテーブル間において適切な属性の対応づけを行うことが可能なデータ分析支援装置およびプログラムを提供することにある。 Therefore, the problem to be solved by the present invention is to provide a data analysis support apparatus and program capable of associating appropriate attributes between arbitrary data tables.
実施形態に係るデータ分析支援装置は、データテーブル格納手段と、第1の単語抽出手段と、第2の単語抽出手段と、類似度算出手段と、類似属性候補抽出手段とを具備する。 The data analysis support apparatus according to the embodiment includes a data table storage unit, a first word extraction unit, a second word extraction unit, a similarity calculation unit, and a similar attribute candidate extraction unit.
データテーブル格納手段は、文字列を含む属性値を有する第1の文字列型属性を含む第1の属性から構成される第1のデータテーブルおよび文字列を含む属性値を有する第2の文字列型属性を含む第2の属性から構成される第2のデータテーブルを予め格納する。 The data table storage means includes a first data table including a first attribute including a first character string type attribute having an attribute value including a character string, and a second character string including an attribute value including the character string. A second data table composed of second attributes including type attributes is stored in advance.
第1の単語抽出手段は、前記データテーブル格納手段に格納されている第1のデータテーブルを構成する第1の属性に含まれる第1の文字列型属性が有する属性値に含まれる文字列を構成する第1の単語を抽出する。 The first word extraction unit is configured to extract a character string included in the attribute value of the first character string type attribute included in the first attribute included in the first data table stored in the data table storage unit. A first word to be configured is extracted.
第2の単語抽出手段は、前記データテーブル格納手段に格納されている第2のデータテーブルを構成する第2の属性に含まれる第2の文字列型属性が有する属性値に含まれる文字列を構成する第2の単語を抽出する。 A second word extracting unit that extracts a character string included in an attribute value of a second character string type attribute included in a second attribute included in the second data table stored in the data table storing unit; A second word to be configured is extracted.
類似度算出手段は、前記第1の抽出手段によって抽出された第1の単語および前記第2の抽出手段によって抽出された第2の単語に基づいて、前記第1のデータテーブルを構成する第1の属性に含まれる第1の文字列型属性および前記第2のデータテーブルを構成する第2の属性に含まれる第2の文字列型属性の類似度を算出する。 The similarity calculation means includes a first data table constituting the first data table based on the first word extracted by the first extraction means and the second word extracted by the second extraction means. The similarity between the first character string type attribute included in the second attribute and the second character string type attribute included in the second attribute constituting the second data table is calculated.
類似属性候補抽出手段は、前記算出された類似度に基づいて、前記第1のデータテーブルを構成する第1の属性に含まれる第1の文字列型属性および前記第2のデータテーブルを構成する第2の属性に含まれる第2の文字列型属性を類似属性候補として抽出する。 The similar attribute candidate extracting unit configures the first character string type attribute included in the first attribute configuring the first data table and the second data table based on the calculated similarity. A second character string type attribute included in the second attribute is extracted as a similar attribute candidate.
以下、図面を参照して、各実施形態について説明する。 Hereinafter, each embodiment will be described with reference to the drawings.
(第1の実施形態)
図1は、第1の実施形態に係るデータ分析支援装置のハードウェア構成を示すブロック図である。図1に示すように、コンピュータ10は、例えばハードディスクドライブ(HDD:Hard Disk Drive)のような外部記憶装置20と接続されている。この外部記憶装置20は、コンピュータ10によって実行されるプログラム21を格納する。コンピュータ10および外部記憶装置20は、データ分析支援装置30を構成する。
(First embodiment)
FIG. 1 is a block diagram illustrating a hardware configuration of the data analysis support apparatus according to the first embodiment. As shown in FIG. 1, the
このデータ分析支援装置30は、例えばデータを分析する際に、異なる複数のデータテーブル(異なる定義がされたデータテーブル)間において属性を対応づけるために用いられる。
This data
図2は、図1に示すデータ分析支援装置30の主として機能構成を示すブロック図である。
FIG. 2 is a block diagram mainly showing a functional configuration of the data
図2に示すように、データ分析支援装置30は、属性型分類部31、数値型属性処理部32、文字列型属性処理部33、閾値入力部34および類似属性候補抽出部35を含む。本実施形態において、これらの各部31〜35は、図1に示すコンピュータ10が外部記憶装置20に格納されているプログラム21を実行することにより実現されるものとする。このプログラム21は、コンピュータ読み取り可能な記憶媒体に予め格納して頒布可能である。また、このプログラム21が、例えばネットワークを介してコンピュータ10にダウンロードされても構わない。
As shown in FIG. 2, the data
また、データ分析支援装置30は、データテーブル格納部22、数値型属性格納部23、文字列型属性格納部24、数値型属性類似度格納部25、文字列型属性類似度格納部26および類似属性候補格納部27を含む。本実施形態において、これらの各部22〜27は、例えば外部記憶装置20に格納される。
In addition, the data
データテーブル格納部22には、分析の対象となる異なる複数のデータテーブル(第1および第2のテーブル)が格納されている。このデータテーブル格納部22に格納されている複数のデータテーブルの各々は、属性から構成される。また、データテーブルを構成する属性には、例えば数値型属性および文字列型属性が含まれる。数値型属性は、数値を含む属性値を有する(つまり、数値を属性値としてとり得る)属性である。一方、文字列型属性は、文字列を含む属性値を有する(つまり、文字列を属性値としてとり得る)属性である。なお、文字列型属性が有する属性値に含まれる文字列は、例えば単語から構成される。
The data
属性型分類部31は、データテーブル格納部22に格納されているデータテーブルの各々を構成する属性を、数値型属性または文字列型属性に分類する。
The attribute
数値型属性格納部23および文字列型属性格納部24には、属性型分類部31による分類結果が格納される。具体的には、数値型属性格納部23には、データテーブル格納部22に格納されているデータテーブル毎に、当該データテーブルを構成する属性のうちの数値型属性(属性名および属性値)が格納される。また、文字列型属性格納部24には、データテーブル格納部22に格納されているデータテーブル毎に、当該データテーブルを構成する属性のうちの文字列型属性(属性名および属性値)が格納される。
In the numeric
数値型属性処理部32は、数値型属性格納部23に格納された異なるデータテーブルを構成する2つの数値型属性(第1および第2の数値型属性)が有する属性値(に含まれる数値)に基づいて、当該2つの数値型属性間の類似度を算出する。なお、数値型属性処理部32は、数値型属性格納部23に格納された異なるデータテーブルを構成する2つの数値型属性の組み合わせの全てについて類似度を算出する。
The numerical value
数値型属性類似度格納部25には、数値型属性処理部32によって算出された異なるデータテーブルを構成する2つの数値型属性の組み合わせ毎の類似度が格納される。
The numeric attribute
文字列型属性処理部33は、文字列型属性格納部24に格納された異なるデータテーブルを構成する2つの文字列型属性(第1および第2の文字列型属性)が有する属性値(に含まれる文字列)に基づいて、当該2つの文字列型属性間の類似度を算出する。なお、文字列型属性処理部33は、文字列型属性格納部24に格納された異なるデータテーブルを構成する2つの文字列型属性の組み合わせの全てについて類似度を算出する。
The character string type
文字列型属性類似度格納部26には、文字列型属性処理部33によって算出された異なるデータテーブルを構成する2つの文字列型属性の組み合わせ毎の類似度が格納される。
The character string type attribute
閾値入力部34は、異なるデータテーブル間において同一の内容を表す属性の候補(以下、類似属性候補と表記)を抽出する際に用いられる閾値を入力する。閾値入力部34によって入力される閾値は、例えばユーザによって指定される。
The threshold
類似属性候補抽出部35は、数値型属性類似度格納部25に格納された異なるデータテーブルを構成する2つの数値型属性の組み合わせ毎の類似度および閾値入力部34によって入力された閾値に基づいて、当該2つの数値型属性を類似属性候補として抽出する。また、類似属性候補抽出部35は、文字列型属性類似度格納部26に格納された異なるデータテーブルを構成する2つの文字列型属性の組み合わせ毎の類似度および閾値入力部34によって入力された閾値に基づいて、当該2つの文字列型属性を類似属性候補として抽出する。
The similar attribute
類似属性候補格納部27には、類似属性候補抽出部35によって抽出された類似属性候補が格納される。
The similar attribute
図3は、図2に示す数値型属性処理部32の機能構成を示すブロック図である。図3に示すように、数値型属性処理部32は、属性値数値範囲特定部321、属性値数値範囲格納部322および数値型属性類似度算出部323を含む。
FIG. 3 is a block diagram showing a functional configuration of the numerical
属性値数値範囲特定部321は、数値型属性格納部23に格納された数値型属性が有する属性値に含まれる数値の範囲(以下、当該属性値の数値範囲と表記)を特定する。なお、属性値数値範囲特定部321は、数値型属性格納部23に格納された全ての数値型属性に対して属性値の数値範囲を特定する。
The attribute value numerical value
属性値数値範囲格納部322には、属性値数値範囲特定部321によって特定された数値型属性が有する属性値の数値範囲が格納される。
The attribute value numerical value
数値型属性類似度算出部323は、属性値数値範囲格納部322に格納された各数値型属性が有する属性値の数値範囲に基づいて、異なるデータテーブルを構成する2つの数値型属性間の類似度を算出する。具体的には、数値型属性類似度算出部323は、異なるデータテーブルを構成する2つの数値型属性が有する属性値の数値範囲が重なる範囲に基づいて、当該2つの数値型属性間の類似度を算出する。なお、数値型属性類似度算出部323は、上記したように異なるデータテーブルを構成する2つの数値型属性の組み合わせの全てについて類似度を算出する。このように数値型属性類似度算出部323によって算出された類似度は、数値型属性類似度格納部25に格納される。
The numerical value type attribute
図4は、図2に示す文字列型属性処理部33の機能構成を示すブロック図である。図4に示すように、文字列型属性処理部33は、属性値単語抽出部331、属性値単語集合格納部332および文字列型属性類似度算出部333を含む。
FIG. 4 is a block diagram showing a functional configuration of the character string type
属性値単語抽出部331は、文字列型属性格納部24に格納された文字列型属性が有する属性値に含まれる文字列を形態素解析する。属性値単語抽出部331は、形態素解析結果に基づいて、文字列型属性格納部24に格納された文字列型属性が有する属性値に含まれる文字列を構成する単語を抽出する。これにより、属性値単語抽出部331は、文字列型属性が有する属性値に含まれる文字列を構成する単語の集合(以下、単に当該属性値の単語集合と表記)を作成する。なお、属性値単語抽出部331は、文字列型属性格納部24に格納された全ての文字列型属性に対して属性値の単語集合を作成する。
The attribute value
属性値単語集合格納部332には、属性値単語抽出部331によって作成された文字列型属性が有する属性値の単語集合が格納される。
The attribute value word set
文字列型属性類似度算出部333は、属性値単語集合格納部332に格納された各文字列型属性が有する属性値の単語集合に基づいて、異なるデータテーブルを構成する2つの文字列型属性間の類似度を算出する。具体的には、文字列型属性類似度算出部333は、異なるデータテーブルを構成する2つの文字列型属性が有する属性値の単語集合間で一致する単語の数に基づいて、当該2つの文字列型属性間の類似度を算出する。なお、文字列型属性類似度算出部333は、上記したように異なるデータテーブルを構成する2つの文字列型属性の組み合わせの全てについて類似度を算出する。このように文字列型属性類似度算出部333によって算出された類似度は、文字列型属性類似度格納部26に格納される。
The character string type attribute
ここで、図5〜図7を参照して、上記した図2に示すデータテーブル格納部22に格納されている異なる複数のデータテーブルについて説明する。
Here, a plurality of different data tables stored in the data
なお、本実施形態では、例えば複数の銀行における業務ミス(に関するデータ)の分析を支援することを想定する。ここでは、データテーブル格納部22に格納されている複数のデータテーブルは、例えばA〜C銀行の日々の業務で発生したミス(手数料間違い、口座番号指定間違い等)に関するデータ(情報)が蓄積された当該銀行毎のデータテーブル(つまり、A〜C銀行のデータテーブル)であるものとする。
In the present embodiment, for example, it is assumed that analysis of business errors (related data) in a plurality of banks is supported. Here, in the plurality of data tables stored in the data
図5は、データテーブル格納部22に格納されている複数のデータテーブルのうちのA銀行のデータテーブルのデータ構造の一例を示す。
FIG. 5 shows an example of the data structure of the bank A data table among the plurality of data tables stored in the data
図5に示すように、A銀行のデータテーブル221は、属性名(属性の名称)が「版」、「発生日」、「発見日」、「発生原因/発生者」、「現象/発生者」、「発生業務」、「発生者職位」、「損失金額(円)」、「発生店番号」および「発見店番号」である複数の属性から構成されている。以下の説明においては、例えば属性名が「版」である属性を単に「版」属性と称する。なお、他の属性についても同様に表記するものとする。 As shown in FIG. 5, the bank A data table 221 has attribute names (attribute names) of “version”, “occurrence date”, “discovery date”, “occurrence cause / occurrence person”, “phenomenon / occurrence person”. ”,“ Occurrence work ”,“ occurrence position ”,“ loss amount (yen) ”,“ occurrence store number ”, and“ discovered store number ”. In the following description, for example, an attribute whose attribute name is “version” is simply referred to as a “version” attribute. The other attributes are also expressed in the same manner.
ここで、図5に示すA銀行のデータテーブル221を構成する複数の属性のうち、例えば「損失金額(円)」属性は、「94500」、「300000」、「1500000」および「0」等の数値を含む属性値を有する。このため、「損失金額(円)」属性は、数値型属性である。なお、A銀行のデータテーブル221を構成する複数の属性のうちの「版」属性、「発生日」属性、「発見日」属性、「損失金額(円)」属性、「発生店番号」属性および「発見店番号」属性が数値型属性である。 Here, among the plurality of attributes constituting the bank A data table 221 shown in FIG. 5, for example, the “loss amount (yen)” attribute is “94500”, “300000”, “1500000”, “0”, and the like. Has an attribute value that contains a numeric value. Therefore, the “loss amount (yen)” attribute is a numerical attribute. The “version” attribute, the “occurrence date” attribute, the “discovery date” attribute, the “loss amount (yen)” attribute, the “occurrence store number” attribute, The “discovered store number” attribute is a numeric attribute.
また、図5に示すA銀行のデータテーブル221を構成する複数の属性のうち、例えば「発生原因/発生者」属性は、「経験不足」、「指導・教育不足」、「第三者による事故」および「お客様の依頼ミス・記入誤り」等の文字列を含む属性値を有する。このため、「発生原因/発生者」属性は、文字列型属性である。なお、A銀行のデータテーブル221を構成する複数の属性のうちの「発生原因/発生者」属性、「現象/発生者」属性、「発生業務」属性および「発生者職位」属性が文字列型属性である。 Further, among the plurality of attributes constituting the bank A data table 221 shown in FIG. 5, for example, the “occurrence cause / occurrence” attribute includes “insufficient experience”, “insufficient instruction / education”, “accident by third party” ”And attribute values including character strings such as“ customer request error / entry error ”. Therefore, the “occurrence cause / occurrence” attribute is a character string type attribute. Of the plurality of attributes constituting the bank A data table 221, the “occurrence / occurrence” attribute, the “phenomenon / occurrence” attribute, the “occurrence work” attribute, and the “occurrence position” attribute are character string types. Attribute.
図6は、データテーブル格納部22に格納されている複数のデータテーブルのうちのB銀行のデータテーブルのデータ構造の一例を示す。
FIG. 6 shows an example of the data structure of the B bank data table among the plurality of data tables stored in the data
図6に示すように、B銀行のデータテーブル222は、「発生日」属性、「バージョン」属性、「判明日」属性、「発生原因」属性、「概要」属性、「職位/発生者」属性、「職位/検証者」属性、「直接損失額(千円)」属性、「間接損失額(千円)」属性、「業務」属性および「発生店舗」属性から構成されている。なお、B銀行のデータテーブル222は、上述したA銀行のデータテーブル221と異なる定義がされているため、当該A銀行のデータテーブル221を構成する各属性と比較して属性名および属性値の表記が異なる。 As shown in FIG. 6, the data table 222 of the bank B includes an “occurrence date” attribute, a “version” attribute, a “found date” attribute, an “occurrence cause” attribute, an “overview” attribute, and a “job title / occurrence” attribute. , “Position / verifier” attribute, “direct loss (thousand yen)” attribute, “indirect loss (thousand yen)” attribute, “business” attribute, and “occurring store” attribute. Since the bank B data table 222 is defined differently from the bank A data table 221 described above, the attribute name and the attribute value notation are compared with the attributes constituting the bank A data table 221. Is different.
ここで、図6に示すB銀行のデータテーブル222を構成する複数の属性のうち、例えば「間接損失額(千円)」属性は、「0」、「400」、「0」および「0」等の数値を含む属性値を有する。このため、「間接損失額(千円)」は、数値型属性である。なお、B銀行のデータテーブル222を構成する複数の属性のうちの「発生日」属性、「バージョン」属性、「判明日」属性、「直接損失額(千円)」属性、「間接損失額(千円)」属性および「発生店舗」属性が数値型属性である。 Here, among the plurality of attributes constituting the bank B data table 222 shown in FIG. 6, for example, the “indirect loss amount (thousand yen)” attribute is “0”, “400”, “0”, and “0”. Attribute values including numerical values such as Therefore, the “indirect loss amount (thousand yen)” is a numerical attribute. The “occurrence date” attribute, the “version” attribute, the “identification date” attribute, the “direct loss (1,000 yen)” attribute, the “indirect loss ( The “1,000 yen)” attribute and the “occurring store” attribute are numeric attributes.
また、図6に示すB銀行のデータテーブル222を構成する複数の属性のうち、例えば「発生原因」属性は、「知識・経験・教育不足」、「顧客による事故」、「複雑な作業内容」および「ケアレスミス」等の文字列を含む属性値を有する。このため、「発生原因」属性は、文字列型属性である。なお、B銀行のデータテーブル222を構成する複数の属性のうちの「発生原因」属性、「概要」属性、「職位/発生者」属性、「職位/検証者」属性および「業務」属性が文字列型属性である。 Further, among the plurality of attributes constituting the bank B data table 222 shown in FIG. 6, for example, the “occurrence cause” attributes are “knowledge / experience / learning shortage”, “accident by customer”, “complex work contents”. And an attribute value including a character string such as “careless mistake”. For this reason, the “occurrence cause” attribute is a character string type attribute. Of the plurality of attributes constituting the bank B data table 222, the "occurrence cause" attribute, the "summary" attribute, the "position / issuer" attribute, the "position / verifier" attribute, and the "business" attribute are characters. It is a column type attribute.
図7は、データテーブル格納部22に格納されている複数のデータテーブルのうちのC銀行のデータテーブルのデータ構造の一例を示す。
FIG. 7 shows an example of the data structure of the C bank data table among the plurality of data tables stored in the data
図7に示すように、C銀行のデータテーブル223は、「判明日」属性、「発生日」属性、「版」属性、「発生店番号」属性、「発生原因/発生者」属性、「現象」属性、「発生業務」属性、「発生者職位」属性、「損失額(千円)」属性および「リスク評価」属性から構成されている。なお、C銀行のデータテーブル223は、上述したA銀行のデータテーブル221およびB銀行のデータテーブル222と異なる定義がされているため、当該A銀行のデータテーブル221およびB銀行のデータテーブル222を構成する各属性と比較して属性名および属性値の表記が異なる。 As shown in FIG. 7, the data table 223 of bank C includes a “found date” attribute, “occurrence date” attribute, “version” attribute, “occurrence store number” attribute, “occurrence cause / occurrence” attribute, “phenomenon” ”Attribute,“ occurrence work ”attribute,“ occurrence position ”attribute,“ loss (thousand yen) ”attribute, and“ risk evaluation ”attribute. Since the bank C data table 223 is defined differently from the bank A data table 221 and the bank B data table 222 described above, the bank A data table 221 and the bank B data table 222 are configured. The attribute name and attribute value are different from each other.
ここで、図7に示すC銀行のデータテーブル223を構成する複数の属性のうち、例えば「リスク評価」属性は、「1」、「0」、「3」および「0」等の数値を含む属性値を有する。このため、「リスク評価」属性は、数値型属性である。なお、C銀行のデータテーブル223を構成する複数の属性のうちの「判明日」属性、「発生日」属性、「版」属性、「発生店番号」属性、「損失額(千円)」属性および「リスク評価」属性が数値型属性である。 Here, among the plurality of attributes constituting the bank C data table 223 shown in FIG. 7, for example, the “risk evaluation” attribute includes numerical values such as “1”, “0”, “3”, and “0”. Has an attribute value. For this reason, the “risk evaluation” attribute is a numerical attribute. Of the plurality of attributes constituting the bank C data table 223, the “found date” attribute, the “occurrence date” attribute, the “version” attribute, the “occurrence store number” attribute, and the “loss (thousand yen)” attribute And the “risk assessment” attribute is a numeric attribute.
また、図7に示すC銀行のデータテーブル223を構成する複数の属性のうち、例えば「発生者職位」属性は、「一般行員」、「上級職」、「一般行員」および「パート」等の文字列を含む属性値を有する。このため、「発生者職位」属性は、文字列型属性である。なお、C銀行のデータテーブル223を構成する複数の属性のうちの「発生原因/発生者」属性、「現象」属性、「発生業務」属性および「発生者職位」属性が文字列型属性である。 Among the plurality of attributes constituting the bank C data table 223 shown in FIG. 7, for example, the “generator position” attribute includes “general employee”, “senior employee”, “general employee”, “part”, and the like. Has an attribute value that contains a string. For this reason, the “generation position” attribute is a character string type attribute. Of the plurality of attributes constituting the bank C data table 223, the “cause / occurrence” attribute, the “phenomenon” attribute, the “occurrence work” attribute, and the “occurrence position” attribute are character string type attributes. .
次に、図8のフローチャートを参照して、本実施形態に係るデータ分析支援装置30の処理手順について説明する。
Next, the processing procedure of the data
まず、属性型分類部31は、データテーブル格納部22に格納されている複数のデータテーブルを取得する(ステップS1)。
First, the attribute
次に、属性型分類部31は、取得されたデータテーブル毎に、当該データテーブルを構成する属性の各々を数値型属性または文字列型属性に分類する(ステップS2)。また、属性型分類部31は、数値型属性に分類された属性の各々を更に数値型属性小分類に分類する。この数値型属性小分類には、例えば整数型、浮動小数型および日付型が含まれる。
Next, the attribute
属性型分類部31は、取得されたデータテーブルを構成する属性が有する属性値を参照して当該属性の分類処理を実行する。なお、属性型分類部31によって取得されたデータテーブルを構成する属性の各々の型を特定する情報(型情報)が当該データテーブルに保持されている場合には、当該情報を参照して分類処理が実行されても構わない。
The attribute
属性型分類部31は、分類結果をデータテーブル毎に数値型属性格納部23および文字列型属性格納部24に格納する(ステップS3)。
The attribute
ここで、データテーブル格納部22に格納されている複数のデータテーブルが上記したA〜C銀行のデータテーブル221〜223である場合を想定する。
Here, it is assumed that the plurality of data tables stored in the data
この場合、数値型属性格納部23には、A〜C銀行のデータテーブル221〜223毎に数値型属性が格納される。具体的には、数値型属性格納部23には、A銀行のデータテーブル221を構成する複数の属性のうちの数値型属性(A銀行のデータテーブル221を構成する数値型属性)、B銀行のデータテーブル222を構成する複数の属性のうちの数値型属性(B銀行のデータテーブル222を構成する数値型属性)およびC銀行のデータテーブル223を構成する複数の属性のうちの数値型属性(C銀行のデータテーブル223を構成する数値型属性)が格納される。
In this case, the numeric
なお、数値型属性格納部23において、A銀行のデータテーブル221を構成する数値型属性は、上記したように整数型、浮動小数型および日付型に更に分類されている。B銀行のデータテーブル222を構成する数値型属性およびC銀行のデータテーブル223を構成する数値型属性についても同様である。
In the numeric
また、数値型属性格納部23に格納されたA〜C銀行のデータテーブル221〜223の数値型属性には、当該A〜C銀行のデータテーブル221〜223において当該数値型属性が有する属性値および当該数値型属性の属性名が含まれる。
The numerical type attributes of the bank data tables 221 to 223 stored in the numerical type
一方、文字列型属性格納部24には、A〜C銀行のデータテーブル221〜223毎に文字列型属性が格納される。具体的には、文字列型属性格納部24には、A銀行のデータテーブル221を構成する複数の属性のうちの文字列型属性(A銀行のデータテーブル221を構成する文字列型属性)、B銀行のデータテーブル222を構成する複数の属性のうちの文字列型属性(B銀行のデータテーブル222を構成する文字列型属性)およびC銀行のデータテーブル223を構成する複数の属性のうちの文字列型属性(C銀行のデータテーブル223を構成する文字列型属性)が格納される。
On the other hand, the character string type
また、文字列型属性格納部24に格納されたA〜C銀行のデータテーブル221〜223の文字列型属性には、当該A〜C銀行のデータテーブル221〜223において当該文字列型属性が有する属性値および当該文字列型属性の属性名が含まれる。
Further, the character string type attributes of the data tables 221 to 223 of the A to C banks stored in the character string type
次に、数値型属性格納部23および文字列型属性格納部24を参照して、類似度算出処理が実行される(ステップS4)。詳細については後述するが、この類似度算出処理には、数値型属性処理部32によって実行される数値型属性の類似度算出処理および文字列型属性処理部33によって実行される文字列型属性の類似度算出処理が含まれる。
Next, the similarity calculation process is executed with reference to the numerical
数値型属性の類似度算出処理においては、数値型属性格納部23に格納された異なるデータテーブル(の各々)を構成する2つの数値型属性が有する属性値(に含まれる数値)に基づいて、当該2つの数値型属性間の類似度が数値型属性処理部32によって算出される。なお、数値型属性類似度算出処理においては、上記した数値型属性小分類(つまり、分類先)が同一である2つの数値型属性間の類似度が算出される。この数値型属性の類似度算出処理では、数値型属性格納部23に格納された異なるデータテーブルを構成する2つの数値型属性であって数値型属性小分類が同一である2つの数値型属性の組み合わせの全てについて類似度が算出される。
In the numerical value attribute similarity calculation process, based on attribute values (numerical values included in) two numerical type attributes that constitute different data tables (each) stored in the numerical type
また、文字列型属性の類似度算出処理においては、文字列型属性格納部24に格納された異なるデータテーブルを構成する2つの文字列型属性が有する属性値(に含まれる文字列)に基づいて、当該2つの文字列型属性間の類似度が文字列型属性処理部33によって算出される。この文字列型属性の類似度算出処理では、文字列型属性格納部24に格納された異なるデータテーブルを構成する2つの文字列型属性の組み合わせの全てについて類似度が算出される。
Further, in the similarity calculation processing of the character string type attribute, based on the attribute values (character strings included in) the two character string type attributes constituting the different data tables stored in the character string type
ステップS4の処理が実行されると、数値型属性類似度格納部25には、数値型属性処理部32によって算出された類似度(異なるデータテーブルを構成する2つの数値型属性の組み合わせ毎の類似度)を含む類似度一覧表が格納され、文字列型属性類似度格納部26には、文字列型属性処理部33によって算出された類似度(異なるデータテーブルを構成する2つの文字列型属性の組み合わせ毎の類似度)を含む類似度一覧表が格納される(ステップS5)。なお、数値型属性類似度格納部25および文字列型属性類似度格納部25に格納される類似度一覧表の詳細については、後述する。
When the processing of step S4 is executed, the numerical attribute
ここで、閾値入力部34は、例えばユーザによって指定された閾値を入力する(ステップS6)。ここでは、閾値がユーザによって指定されるものとして説明したが、当該閾値は、例えばデータ分析支援装置30の内部で予め設定されていてもよいし、データテーブルの内容等に応じて動的に決定されても構わない。
Here, the threshold
次に、類似属性候補抽出部35は、数値型属性類似度格納部25に格納された類似度一覧表、文字列型属性類似度格納部26に格納された類似度一覧表および閾値入力部34によって入力された閾値に基づいて、類似属性候補を抽出する処理(以下、類似属性候補抽出処理と表記)を実行する(ステップS7)。この類似属性候補抽出処理において類似属性候補抽出部35によって抽出される類似属性候補には、上記した異なるデータテーブルを構成する2つの数値型属性の組み合わせ(数値型属性ペア)および異なるデータテーブルを構成する2つの文字列型属性の組み合わせ(文字列型属性ペア)が含まれる。なお、この類似属性候補抽出処理の詳細については後述する。
Next, the similarity attribute
ステップS7の処理が実行されると、類似属性候補抽出部35によって抽出された類似属性候補は、類似属性候補格納部27に格納される(ステップS8)。なお、類似属性候補格納部27に格納された類似属性候補は、データテーブル格納部22に格納されている異なる複数のデータテーブル間において同一の内容を表す属性の候補であるため、例えば当該複数のデータテーブルを比較する際に利用されることができる。
When the process of step S7 is executed, the similar attribute candidates extracted by the similar attribute
次に、図9のフローチャートを参照して、上述した類似度算出処理(図8に示すステップS4の処理)に含まれる数値型属性の類似度算出処理の処理手順について説明する。なお、この数値型属性の類似度算出処理は、数値型属性処理部32によって実行される。
Next, with reference to the flowchart of FIG. 9, the processing procedure of the similarity calculation process of the numerical attribute included in the above-described similarity calculation process (the process of step S4 shown in FIG. 8) will be described. The numerical value attribute similarity calculation processing is executed by the numerical value
まず、数値型属性処理部32は、数値型属性格納部23に格納された数値型属性の各々について以下のステップS11およびS12の処理を実行する。ここでは、この処理の対象となる数値型属性を対象数値型属性と称する。
First, the numerical type
数値型属性処理部32に含まれる属性値数値範囲特定部321は、数値型属性格納部23に格納された対象数値型属性が有する属性値の数値範囲を特定する(ステップS11)。この場合、属性値数値範囲特定部321は、数値型属性格納部23に格納された対象数値型属性が有する属性値(に含まれる数値)の最大値および最小値を特定し、当該最大値から最小値までの範囲を当該対象数値型属性が有する属性値の数値範囲とする。
The attribute value numerical value
属性値数値範囲特定部321は、特定された対象数値型属性が有する属性値の数値範囲を属性値数値範囲格納部322に格納する(ステップS12)。
The attribute value numerical
ここで、数値型属性格納部23に格納された全ての数値型属性について上記したステップS11およびS12の処理が実行されたか否かが判定される(ステップS13)。 Here, it is determined whether or not the processes of steps S11 and S12 described above have been executed for all the numeric type attributes stored in the numeric type attribute storage unit 23 (step S13).
数値型属性格納部23に格納された全ての数値型属性について処理が実行されていないと判定された場合(ステップS13のNO)、上記したステップS11に戻って処理が繰り返される。この場合、ステップS11およびS12の処理が実行されていない数値型属性を対象数値型属性として処理が実行される。このように、数値型属性格納部23に格納された全ての数値型属性についてステップS11およびS12の処理が実行されることによって、当該数値型属性毎に特定された当該数値型属性が有する属性値の数値範囲が属性値数値範囲格納部322に格納される。以下、属性値数値範囲格納部322に格納された数値型属性が有する属性値の数値範囲を単に当該数値型属性の数値範囲と称する。
If it is determined that processing has not been executed for all the numeric type attributes stored in the numeric type attribute storage unit 23 (NO in step S13), the process returns to step S11 described above and is repeated. In this case, the process is executed with the numeric type attribute for which the processes of steps S11 and S12 have not been executed as the target numeric type attribute. As described above, the processing of steps S11 and S12 is executed for all the numeric type attributes stored in the numeric type
一方、数値型属性格納部23に格納された全ての数値型属性について処理が実行されたと判定された場合(ステップS13のYES)、数値型属性類似度算出部323は、数値型属性格納部23に格納された異なるデータテーブルを構成する2つの数値型属性の組み合わせ(数値型属性ペア)の各々に対して以下のステップS14およびS15の処理を実行する。ここでは、この処理の対象となる数値型属性ペアを対象数値型属性ペアと称する。また、対象数値型属性ペアに含まれる一方の数値型属性を第1の数値型属性、他方の数値型属性を第2の数値型属性と称する。なお、第1の数値型属性および第2の数値型属性の数値型属性小分類(つまり、分類先)は同一であるものとする。
On the other hand, when it is determined that the processing has been executed for all the numeric type attributes stored in the numeric type attribute storage unit 23 (YES in step S13), the numeric type attribute
まず、数値型属性類似度算出部323は、対象数値型属性ペアに含まれる第1および第2の数値型属性の数値範囲を属性値数値範囲格納部322から取得する。
First, the numerical value attribute
次に、数値型属性類似度算出部323は、取得された第1および第2の数値型属性の数値範囲に基づいて、当該第1および第2の数値型属性間の類似度(対象数値型属性ペアの類似度)を算出する(ステップS14)。
Next, the numerical value attribute
ここで、数値型属性類似度算出部323によって取得された第1の数値型属性の数値範囲が第2の数値型属性の数値範囲より広い場合、または双方の数値範囲が同等の場合を想定する。この場合、数値型属性類似度算出部323は、第1の数値型属性の数値範囲に対する第1および第2の数値型属性の数値範囲の重なる範囲の割合(比率)を、当該第1および第2の数値型属性間の類似度として算出する。
Here, it is assumed that the numerical value range of the first numerical value attribute acquired by the numerical value attribute
一方、第1の数値型属性の数値範囲が第2の数値型属性の数値範囲より狭い場合、数値型属性類似度算出部323は、第2の数値型属性の数値範囲に対する第1および第2の数値型属性の数値範囲の重なる範囲の割合(比率)を、当該第1および第2の数値型属性間の類似度として算出する。
On the other hand, when the numerical value range of the first numerical value attribute is narrower than the numerical value range of the second numerical value attribute, the numerical value attribute
ここで、図10および図11を参照して、数値型属性類似度算出部323によって算出される第1および第2の数値型属性間の類似度について具体的に説明する。
Here, with reference to FIG. 10 and FIG. 11, the similarity between the first and second numerical type attributes calculated by the numerical type attribute
まず、図10においては、第1の数値型属性がA銀行のデータテーブル221を構成する「損失金額(円)」属性であり、第2の数値型属性がB銀行のデータテーブル222を構成する「直接損失額(千円)」属性であるものとする。また、第1の数値型属性(つまり、「損失金額(円)」属性)の数値範囲は0〜1500000であり、第2の数値型属性(つまり、「直接損失額(千円)」属性)の数値範囲は0〜1000000であるものとする。なお、第1および第2の数値型属性においては単位が「円」と「千円」とで異なっているが、例えば上記したように数値範囲が特定される際に同一の単位となるように補正されているものとする。 First, in FIG. 10, the first numeric type attribute is the “loss amount (yen)” attribute that constitutes the bank A data table 221, and the second numeric type attribute is the bank B data table 222. It is assumed that the attribute is “direct loss (1,000 yen)”. Further, the numerical range of the first numerical type attribute (that is, the “loss amount (yen)” attribute) is 0 to 1500000, and the second numerical type attribute (that is, the “direct loss amount (thousand yen)” attribute). The numerical range of is assumed to be 0 to 1000000. In the first and second numerical type attributes, the unit is different between “yen” and “thousand yen”. For example, when the numerical range is specified as described above, the unit is the same. It shall be corrected.
ここで、第1の数値型属性の数値範囲は、第2の数値型属性の数値範囲より広い。この場合、第1および第2の数値型属性間の類似度は、第1の数値型属性の数値範囲(ここでは、0〜1500000)に対する第1および第2の数値型属性の数値範囲の重なる範囲(ここでは、0〜1000000)の割合、つまり、1000000/1500000≒0.667と算出される。 Here, the numerical range of the first numerical attribute is wider than the numerical range of the second numerical attribute. In this case, the similarity between the first and second numeric type attributes overlaps the numeric range of the first and second numeric type attributes with respect to the numeric range of the first numeric type attribute (here, 0 to 1500000). The ratio of the range (here, 0 to 1000000), that is, 1000000 / 1500,000≈0.667 is calculated.
一方、図11においては、第1の数値型属性がA銀行のデータテーブル221を構成する「損失金額(円)」属性であり、第2の数値型属性がB銀行のデータテーブル222を構成する「発生店舗」属性であるものとする。また、第1の数値型属性(つまり、「損失金額(円)」属性)の数値範囲は0〜1500000であり、第2の数値型属性(つまり、「発生店舗」属性)の数値範囲は1〜145であるものとする。 On the other hand, in FIG. 11, the first numeric type attribute is the “loss amount (yen)” attribute constituting the bank A data table 221, and the second numeric type attribute constitutes the bank B data table 222. It is assumed that the attribute is “occurring store”. The numerical range of the first numerical type attribute (that is, the “loss amount (yen)” attribute) is 0 to 1500000, and the numerical range of the second numerical type attribute (that is, the “occurring store” attribute) is 1. ˜145.
ここで、第1の数値型属性の数値範囲は、第2の数値型属性の数値範囲より広い。この場合、第1および第2の数値型属性間の類似度は、第1の数値型属性の数値範囲(ここでは、0〜1500000)に対する第1および第2の数値型属性の数値範囲の重なる範囲(ここでは、1〜145)の割合、つまり、144/1500000≒0.000と算出される。 Here, the numerical range of the first numerical attribute is wider than the numerical range of the second numerical attribute. In this case, the similarity between the first and second numeric type attributes overlaps the numeric range of the first and second numeric type attributes with respect to the numeric range of the first numeric type attribute (here, 0 to 1500000). The ratio of the range (here, 1 to 145), that is, 144 / 1500000≈0.000 is calculated.
再び図9に戻ると、数値型属性類似度算出部323は、算出された第1および第2の数値型属性間の類似度を、類似度一覧表に格納する(ステップS15)。この場合、第1および第2の数値型属性間の類似度は、当該第1の数値型属性によって構成されるデータテーブルおよび当該第2の数値型属性によって構成されるデータテーブルの組み合わせに対して用意された、当該第1および第2の数値型属性の数値型属性小分類の類似度一覧表に格納される。具体的には、銀行Aのデータテーブル221を構成する整数型の第1の数値型属性および銀行Bのデータテーブル222を構成する整数型の第2の数値型属性間の類似度は、当該銀行Aのデータテーブル221および銀行Bのデータテーブル222の組み合わせに対して用意された整数型の類似度一覧表に格納される。
Returning to FIG. 9 again, the numerical attribute
なお、類似度一覧表は、類似度が算出される2つの数値型属性(つまり、第1および第2の数値型属性)の各々を構成する異なる2つのデータテーブルの組み合わせ毎に用意されている。また、異なる2つのデータテーブルの組み合わせ毎に用意されている類似度一覧表は、更に数値型小分類毎に用意されている。 Note that the similarity list is prepared for each combination of two different data tables constituting each of two numerical type attributes (that is, the first and second numerical type attributes) for which the similarity is calculated. . A similarity list prepared for each combination of two different data tables is further prepared for each numerical subclass.
例えばデータテーブル格納部22に格納されているデータテーブルの数がnであり、数値型属性が分類される数値型属性小分類の数がmである場合には、n*(n−1)*m/2の数の類度一覧表が用意されている。具体的には、例えばデータテーブル格納部22に3つのデータテーブル221〜223が格納されており、3つの数値型属性小分類(例えば、整数型、浮動小数型および日付型)があるような場合には、9つの類似度一覧表が用意されていることになる。
For example, when the number of data tables stored in the data
次に、異なるデータテーブルを構成する2つの数値型属性の組み合わせの全て(つまり、全ての数値型属性ペア)について上記したステップS14およびS15の処理が実行されたか否かが判定される(ステップS16)。 Next, it is determined whether or not the processes of steps S14 and S15 described above have been executed for all combinations of two numeric type attributes constituting different data tables (that is, all numeric type attribute pairs) (step S16). ).
全ての数値型属性ペアについて処理が実行されていないと判定された場合(ステップSS16のNO)、上記したステップS14に戻って処理が繰り返される。この場合、ステップS14およびS15の処理が実行されていない数値型属性ペアを対象数値型属性ペアとして処理が実行される。 When it is determined that the processing has not been executed for all the numeric attribute pairs (NO in step SS16), the processing returns to the above-described step S14 and is repeated. In this case, the process is executed with the numeric attribute pair that has not been subjected to the processes of steps S14 and S15 as the target numeric attribute pair.
一方、全ての数値型属性ペアについて処理が実行されたと判定された場合(ステップS16のYES)、数値型属性の類似度算出処理は終了される。 On the other hand, when it is determined that the processing has been executed for all the numerical attribute pairs (YES in step S16), the numerical attribute similarity calculation processing ends.
上記したように数値型属性の類似度算出処理が実行されると、用意されている全ての類似度一覧表(数値型属性の類似度一覧表)が作成される。なお、数値型属性の類似度算出処理において作成された類似度一覧表は、上述したように数値型属性類似度格納部25に格納される。
As described above, when the numerical attribute similarity calculation process is executed, all prepared similarity lists (numerical attribute similarity lists) are created. The similarity list created in the numerical attribute similarity calculation process is stored in the numerical attribute
なお、異なるデータテーブルを構成する2つの数値型属性間の類似度算出方法は、上記に限定されるものではなく、例えば平均または分散等の基本統計量を比較する、またはグラフを作成して当該グラフ同士の重なりを類似度とする等の他の方法を用いても構わない。 Note that the method of calculating the degree of similarity between two numeric attributes constituting different data tables is not limited to the above. For example, a basic statistic such as an average or a variance is compared, or a graph is created to calculate the similarity. Other methods such as making the overlap between graphs similar may be used.
ここで、図12を参照して、数値型属性の類似度算出処理において作成された類似度一覧表について具体的に説明する。図12は、A銀行のデータテーブル221およびB銀行のデータテーブル222の組み合わせに対して用意されている例えば整数型の類似度一覧表の一例を示す。 Here, with reference to FIG. 12, the similarity list created in the numerical value attribute similarity calculation processing will be specifically described. FIG. 12 shows an example of an integer type similarity list prepared for the combination of the bank A data table 221 and the bank B data table 222.
図12に示すように、類似度一覧表251中には、A銀行のデータテーブル221を構成する数値型属性およびB銀行のデータテーブル222を構成する数値型属性の各々が示されている。A銀行のデータテーブル221を構成する数値型属性には、「版」属性、「損失金額(円)」属性、「発生店番号」属性および「発見店番号」属性が含まれる。なお、これらの「版」属性、「損失金額(円)」属性、「発生店番号」属性および「発見店番号」属性は、整数型の数値型属性である。また、B銀行のデータテーブル222を構成する数値型属性には、「バージョン」属性、「直接損失額(千円)」属性、「間接損失額(千円)」属性および「発生店舗」属性が含まれる。同様に、これらの「バージョン」属性、「直接損失額(千円)」属性、「間接損失額(千円)」属性および「発生店舗」属性は、整数型の数値型属性である。
As shown in FIG. 12, in the
図12に示す例では、類似度一覧表251には、例えば「版」属性および「バージョン」属性に対応づけて0.805が格納されている。これによれば、異なるデータテーブル(ここでは、A銀行のデータテーブル221およびB銀行のデータテーブル222)を構成する「版」属性および「バージョン」属性間の類似度が0.805であることが示されている。
In the example illustrated in FIG. 12, the
なお、図12に示す類似度一覧表251には、「版」属性および「バージョン」属性以外の他の2つの数値型属性間の類似度についても同様に格納されている。つまり、類似度一覧表251には、A銀行のデータテーブル221を構成する整数型の数値型属性およびB銀行のデータテーブル222を構成する整数型の数値型属性の全ての組み合わせに対する類似度が格納されている。
In the
ここでは、A銀行のデータテーブル221およびB銀行のデータテーブル222の組み合わせに対して用意された整数型の類似度一覧表について説明したが、他の類似度一覧表についても同様であるため、その詳しい説明を省略する。 Here, the integer type similarity list prepared for the combination of the bank A data table 221 and the bank B data table 222 has been described, but the same applies to other similarity lists. Detailed description is omitted.
次に、図13のフローチャートを参照して、上述した類似度算出処理(図8に示すステップS4の処理)に含まれる文字列型属性の類似度算出処理の処理手順について説明する。なお、この文字列型属性の類似度算出処理は、文字列型属性処理部33によって実行される。
Next, with reference to the flowchart of FIG. 13, a processing procedure of the similarity calculation process of the character string type attribute included in the above-described similarity calculation process (the process of step S4 shown in FIG. 8) will be described. Note that the character string type attribute similarity calculation processing is executed by the character string type
まず、文字列型属性処理部33は、文字列型属性格納部24に格納された文字列型属性の各々について以下のステップS21およびS22の処理を実行する。ここでは、この処理の対象となる文字列型属性を対象文字列型属性と称する。
First, the character string type
文字列型属性処理部33に含まれる属性値単語抽出部331は、文字列型属性格納部24に格納された対象文字列型属性が有する属性値に含まれる文字列を形態素解析する。これにより、属性値単語抽出部331は、対象文字列型属性が有する属性値に含まれる文字列を構成する単語を抽出し、当該抽出された単語を含む単語集合(以下、対象文字列型属性の単語集合と表記)を作成する(ステップS21)。
The attribute value
ここで、図14を参照して、属性値単語抽出部331によって作成される対象文字列型属性の単語集合について具体的に説明する。ここでは、対象文字列型属性は、図5に示すA銀行のデータテーブル221を構成する「発生原因/発生者」属性であるものとする。
Here, with reference to FIG. 14, the word set of the object character string type | mold attribute produced by the attribute value
まず、対象文字列型属性によって構成されるデータテーブルにおいて当該対象文字列型属性が有する全ての属性値の集合(以下、対象文字列型属性の属性値集合と表記)が取得される。図14に示す例では、対象文字列型属性の属性値集合には、属性値「経験不足」、「指導・教育不足」、「第三者による事故」、「指導・教育不足」、「お客様の依頼ミス・記入誤り」、「経験不足」、「指導・教育不足」、「指導・教育不足」および「第三者による事故」が含まれている。 First, a set of all attribute values of the target character string type attribute (hereinafter referred to as an attribute value set of the target character string type attribute) in the data table configured by the target character string type attribute is acquired. In the example shown in FIG. 14, the attribute value set of the target string type attribute includes attribute values “insufficient experience”, “insufficient instruction / education”, “accident by third party”, “insufficient instruction / education”, “customer "Incorrect request / entry error", "insufficient experience", "insufficient instruction / education", "insufficient instruction / education", and "accidents by third parties".
次に、対象文字列型属性の属性値集合に含まれる属性値のうち同一の属性値を1つに集約する(つまり、重複を除く)ことにより、対象文字列型属性の一意な属性値集合が作成される(ステップS31)。図14に示す例では、対象文字列型属性の一意な属性値集合には、属性値「経験不足」、「指導・教育不足」、「第三者による事故」および「お客様の依頼ミス・記入誤り」が含まれている。上記した対象文字列型属性の属性値集合においては属性値「経験不足」、「指導・教育不足」および「第三者による事故」が複数含まれているため、これらの属性値については対象文字列型属性の一意な属性値集合において1つに集約されている。 Next, by collecting the same attribute values among the attribute values included in the attribute value set of the target string type attribute into one (that is, excluding duplicates), the unique attribute value set of the target string type attribute Is created (step S31). In the example shown in FIG. 14, the unique attribute value set of the target string type attribute includes attribute values “insufficient experience”, “insufficient instruction / education”, “accident by third party”, and “customer request error / entry "Error" is included. The attribute value set of the target string type attribute described above contains multiple attribute values “insufficient experience”, “insufficient teaching / education”, and “accidents by third parties”. The column type attributes are aggregated into one in a unique attribute value set.
次に、対象文字列型属性の一意な属性値集合に含まれる属性値(に含まれる文字列)を形態素解析することにより、当該文字列が単語に分割される。ここで、形態素解析処理とは、文字列を単語に分割し、当該分割された各単語に品詞を付与する処理である。具体的には、属性値「お客様の依頼ミス・記入誤り」は、形態素解析処理により、「お(接頭辞)/客(名詞)/様(接尾辞)/の(助詞)/依頼(名詞)/ミス(名詞)/・(記号)/記入(名詞)/誤り(名詞)」のように分割される。このような形態素解析処理結果から品詞が名詞である単語が抽出され、当該単語を含む単語集合が作成される(ステップS32)。なお、図14に示す例では、属性値単語抽出部331によって作成された単語集合には、単語「経験」、「不足」、「指導」、「教育」、「不足」、「第三者」、「事故」、「客」、「依頼」、「ミス」、「記入」および「誤り」が含まれている。
Next, the character string is divided into words by performing morphological analysis on the attribute value (character string included) included in the unique attribute value set of the target character string type attribute. Here, the morpheme analysis process is a process of dividing a character string into words and assigning parts of speech to the divided words. Specifically, the attribute value “Customer's request mistake / entry error” is converted into “O (prefix) / customer (noun) / like (suffix) / no (particle) / request (noun) by morphological analysis processing. / Miss (noun) /. (Symbol) / entry (noun) / error (noun) ”. A word whose part of speech is a noun is extracted from such a morphological analysis processing result, and a word set including the word is created (step S32). In the example illustrated in FIG. 14, the word set created by the attribute value
なお、ステップS32の処理においては、品詞が名詞である単語の他に例えば品詞が動詞である単語および未知語等があわせて抽出されても構わない。未知語とは、例えば形態素解析用の辞書に登録されていない語である。一般に、固有名詞または専門用語等が未知語となる可能性が高い。 In the process of step S32, in addition to the word whose part of speech is a noun, for example, a word whose part of speech is a verb, an unknown word, and the like may be extracted together. An unknown word is a word which is not registered in the dictionary for morphological analysis, for example. In general, there is a high possibility that proper nouns or technical terms become unknown words.
次に、作成された単語集合に含まれる単語のうち同一の単語を1つに集約する(つまり、重複を除く)ことにより、対象文字列型属性の一意な単語集合(属性値単語集合)が作成される(ステップS33)。図14に示す例では、対象文字列型属性の一意な単語集合には、単語「経験」、「不足」、「指導」、「教育」、「第三者」、「事故」、「客」、「依頼」、「ミス」、「記入」および「誤り」が含まれている。上記したステップS32において作成された単語集合においては単語「不足」が複数含まれているため、この単語については対象文字列型属性の一意な単語集合において1つに集約されている。 Next, by collecting the same words among the words included in the created word set into one (that is, excluding duplication), a unique word set (attribute value word set) of the target string type attribute is obtained. It is created (step S33). In the example shown in FIG. 14, the unique word set of the target character string type attribute includes the words “experience”, “insufficiency”, “guidance”, “education”, “third party”, “accident”, “customer”. , “Request”, “miss”, “entry”, and “error”. Since the word set created in step S32 described above includes a plurality of words “insufficiency”, these words are integrated into one in the unique word set of the target character string type attribute.
再び図13に戻ると、属性値単語抽出部331は、上記したように作成された対象文字列型属性の単語集合(対象文字列型属性の一意な単語集合)を属性値単語集合格納部332に格納する(ステップS22)。
Returning to FIG. 13 again, the attribute value
ここで、文字列型属性格納部24に格納された全ての文字列型属性について上記したステップS21およびS22の処理が実行されたか否かが判定される(ステップS23)。 Here, it is determined whether or not the processing of steps S21 and S22 described above has been executed for all the character string type attributes stored in the character string type attribute storage unit 24 (step S23).
文字列型属性格納部24に格納された全ての文字列型属性について処理が実行されていないと判定された場合(ステップS23のNO)、上記したステップS21に戻って処理が繰り返される。この場合、ステップS21およびS22の処理が実行されていない文字列型属性を対象文字列型属性として処理が実行される。このように、文字列型属性格納部24に格納された全ての文字列型属性についてステップS21およびS22の処理が実行されることによって、当該文字列型属性毎の単語集合が属性値単語集合格納部332に格納される。
When it is determined that processing has not been performed for all the character string type attributes stored in the character string type attribute storage unit 24 (NO in step S23), the process returns to the above step S21 and is repeated. In this case, the processing is executed with the character string type attribute for which the processing of steps S21 and S22 has not been executed as the target character string type attribute. As described above, by executing the processing of steps S21 and S22 for all the character string type attributes stored in the character string type
一方、文字列型属性格納部24に格納された全ての文字列型属性について処理が実行されたと判定された場合(ステップS23のYES)、文字列型属性類似度算出部333は、文字列型属性格納部24に格納された異なるデータテーブルを構成する2つの文字列型属性の組み合わせ(文字列型属性ペア)の各々に対して以下のステップS24〜S26の処理を実行する。ここでは、この処理の対象となる文字列型属性ペアを対象文字列型属性ペアと称する。また、対象文字列型属性ペアに含まれる一方の文字列型属性を第1の文字列型属性、他方の文字列型属性を第2の文字列型属性と称する。
On the other hand, if it is determined that the processing has been executed for all the character string type attributes stored in the character string type attribute storage unit 24 (YES in step S23), the character string type attribute
まず、文字列型属性類似度算出部333は、対象文字列型属性ペアに含まれる第1および第2の文字列型属性の単語集合を属性値単語集合格納部332から取得する。
First, the character string type attribute
次に、文字列型属性類似度算出部333は、取得された第1および第2の文字列型属性の単語集合を参照して、当該第1および第2の文字列型属性の単語集合間で一致する単語の数を特定する(ステップS24)。この場合、文字列型属性類似度算出部333は、第1の文字列型属性の単語集合に含まれる単語のうち、第2の文字列型属性の単語集合に含まれる単語と一致する単語の数(以下、第1の文字列型属性の一致数と表記)を特定する。また、文字列型属性類似度算出部333は、第2の文字列型属性の単語集合に含まれる語のうち、第1の文字列型属性の単語集合に含まれる単語と一致する単語の数(以下、第2の文字列型属性の一致数と表記)を特定する。
Next, the character string type attribute
文字列型属性類似度算出部333は、特定された第1および第2の文字列型属性の一致数に基づいて、当該第1および第2の文字列型属性間の類似度を算出する(ステップS25)。この場合、文字列型属性類似度算出部333は、第1の文字列型属性の単語集合に含まれる単語の一致率(以下、第1の文字列型属性の単語一致率と表記)および第2の文字列型属性の単語集合に含まれる単語の一致率(以下、第2の文字列型属性の単語一致率と表記)を利用して類似度を算出する。
The character string type attribute
ここで、第1の文字列型属性の単語一致率とは、第1の文字列型属性の単語集合に含まれる単語の数に対する上記したステップS24において特定された第1の文字列型属性の一致数の割合をいう。また、第2の文字列型属性の単語一致率とは、第2の文字列型属性の単語集合に含まれる単語の数に対する上記したステップS24において特定された第2の文字列型属性の一致数の割合をいう。 Here, the word match rate of the first character string type attribute is the first character string type attribute specified in step S24 described above with respect to the number of words included in the word set of the first character string type attribute. Refers to the percentage of matches. The word match rate of the second character string type attribute is the match of the second character string type attribute specified in step S24 described above with respect to the number of words included in the word set of the second character string type attribute. The ratio of numbers.
この場合、文字列型属性類似度算出部333は、第1および第2の文字列型属性の単語一致率の平均値を、当該第1および第2の文字列型属性間の類似度として算出する。
In this case, the character string type attribute
ここで、図15を参照して、文字列型属性類似度算出部333によって算出される第1および第2の文字列型属性間の類似度について具体的に説明する。
Here, with reference to FIG. 15, the similarity between the 1st and 2nd character string type | mold attributes calculated by the character string type | mold attribute
ここでは、第1の文字列型属性がA銀行のデータテーブル221を構成する「発生原因/発生者」属性であり、第2の文字列型属性がB銀行のデータテーブル222を構成する「発生原因」属性であるものとする。 Here, the first character string type attribute is the “cause / occurrence” attribute that constitutes the bank A data table 221, and the second character string type attribute is the “occurrence” that constitutes the bank B data table 222. Attribute.
図15に示すように、第1の文字列型属性(つまり、「発生原因/発生者」属性)の単語集合には、11個の単語、具体的には、単語「経験」、「不足」、「指導」、「教育」、「第三者」、「事故」、「客」、「依頼」、「ミス」、「記入」および「誤り」が含まれるものとする。また、第2の文字列型属性(つまり、「発生原因」属性)の単語集合には、10個の単語、具体的には、単語「知識」、「経験」、「教育」、「不足」、「顧客」、「事故」、「複雑」、「作業」、「内容」および「ケアレスミス」が含まれるものとする。 As shown in FIG. 15, the word set of the first string type attribute (that is, the “cause / occurrence” attribute) has 11 words, specifically, the words “experience” and “insufficient”. , “Guidance”, “education”, “third party”, “accident”, “customer”, “request”, “miss”, “entry” and “error”. The word set of the second character string type attribute (that is, the “occurrence cause” attribute) has 10 words, specifically, the words “knowledge”, “experience”, “education”, “insufficient”. , “Customer”, “accident”, “complexity”, “work”, “content” and “careless mistake”.
ここで、第1の文字列型属性の単語集合に含まれる単語のうち、第2の文字列型属性の単語集合に含まれる単語と一致する単語は、単語「経験」、「不足」、「教育」および「事故」である。この場合、第1の文字列型属性の一致数は4となる。一方、第2の文字列型属性の単語集合に含まれる単語のうち、第1の文字列型属性の単語集合に含まれる単語と一致する単語は、単語「経験」、「教育」、「不足」および「事故」である。この場合、第2の文字列型属性の一致数は4となる。 Here, among words included in the word set of the first character string type attribute, words that match the words included in the word set of the second character string type attribute are words “experience”, “insufficient”, “ “Education” and “Accident”. In this case, the number of matches of the first character string type attribute is 4. On the other hand, of the words included in the word set of the second string type attribute, the words that match the words included in the word set of the first string type attribute are the words “experience”, “education”, “insufficient” "And" accidents ". In this case, the number of matches of the second character string type attribute is 4.
また、上記したように第1の文字列型属性の単語集合に含まれる単語の数は11であるため、第1の文字列型属性の単語一致率は4/11である。また、第2の文字列型属性の単語集合に含まれる単語の数は10であるため、第2の文字列型属性の単語一致率は4/10である。 Moreover, since the number of words included in the word set of the first character string type attribute is 11 as described above, the word matching rate of the first character string type attribute is 4/11. Further, since the number of words included in the word set of the second character string type attribute is 10, the word matching rate of the second character string type attribute is 4/10.
これにより、第1および第2の文字列型属性間の類似度は、4/11と4/10との平均値、つまり、(4/11+4/10)/2≒0.382と算出される。 Accordingly, the similarity between the first and second character string type attributes is calculated as an average value of 4/11 and 4/10, that is, (4/11 + 4/10) /2≈0.382. .
再び図13に戻ると、文字列型属性類似度算出部333は、算出された第1および第2の文字列型属性間の類似度を、類似度一覧表に格納する(ステップS26)。この場合、第1および第2の文字列型属性間の類似度は、当該第1の文字列型属性によって構成されるデータテーブルおよび当該第2の文字列型属性によって構成されるデータテーブルの組み合わせに対して用意された類似度一覧表に格納される。具体的には、銀行Aのデータテーブル221を構成する第1の文字列型属性および銀行Bのデータテーブル222を構成する第2の文字列型属性間の類似度は、当該銀行Aのデータテーブル221および銀行Bのデータテーブル222の組み合わせに対して用意された類似度一覧表に格納される。
Returning to FIG. 13 again, the character string type attribute
なお、類似度一覧表は、類似度が算出される2つの文字列型属性(つまり、第1および第2の文字列型属性)の各々を構成する異なる2つのデータテーブルの組み合わせ毎に用意されている。 Note that the similarity list is prepared for each combination of two different data tables constituting each of the two character string type attributes (that is, the first and second character string type attributes) whose similarity is calculated. ing.
例えばデータテーブル格納部22に格納されているデータテーブルの数がnである場合には、n*(n−1)/2の数の類似度一覧表が用意されている。具体的には、例えばデータテーブル格納部22に3つのデータテーブル221〜223が格納されているような場合には、3つの類似度一覧表が用意されていることになる。
For example, when the number of data tables stored in the data
次に、異なるデータテーブルを構成する2つの文字列型属性の組み合わせの全て(つまり、全ての文字列型属性ペア)について上記したステップS24〜S26の処理が実行されたか否かが判定される(ステップS27)。 Next, it is determined whether or not the processing in steps S24 to S26 described above has been executed for all combinations of two character string type attributes constituting different data tables (that is, all character string type attribute pairs) ( Step S27).
全ての文字列型属性ペアについて処理が実行されていないと判定された場合(ステップS27のNO)、上記したステップS24に戻って処理が繰り返される。この場合、ステップS24〜S26の処理が実行されていない文字列型属性ペアを対象文字列型属性ペアとして処理が実行される。 When it is determined that the processing has not been executed for all the character string type attribute pairs (NO in step S27), the processing returns to the above-described step S24 and is repeated. In this case, the process is executed with the character string type attribute pair that has not been subjected to the processes of steps S24 to S26 as the target character string type attribute pair.
一方、全ての文字列型属性ペアについて処理が実行されたと判定された場合(ステップS27のYES)、文字列型属性の類似度算出処理は終了される。 On the other hand, when it is determined that the process has been executed for all the character string type attribute pairs (YES in step S27), the character string type attribute similarity calculation process ends.
上記したように文字列型属性の類似度算出処理が実行されると、用意されている全ての類似度一覧表(文字列型属性の類似度一覧表)が作成される。なお、文字列型属性の類似度算出処理において作成された類似度一覧表は、上述したように文字列型属性類似度格納部26に格納される。
As described above, when the character string type attribute similarity calculation process is executed, all prepared similarity degree lists (similarity list of character string type attributes) are created. The similarity list created in the character string attribute similarity calculation processing is stored in the character string attribute
ここで、図16を参照して、文字列型属性の類似度算出処理において作成された類似度一覧表について具体的に説明する。図16は、A銀行のデータテーブル221およびB銀行のデータテーブル222の組み合わせに対して用意されている類似度一覧表の一例を示す。 Here, the similarity list created in the similarity calculation process of the character string type attribute will be specifically described with reference to FIG. FIG. 16 shows an example of a similarity list prepared for a combination of the bank A data table 221 and the bank B data table 222.
図16に示すように、類似度一覧表261中には、A銀行のデータテーブル221を構成する文字列型属性およびB銀行のデータテーブル222を構成する文字列型属性の各々が示されている。A銀行のデータテーブル221を構成する文字列型属性には、「発生原因/発生者」属性、「現象/発生者」属性、「発生業務」属性および「発生者職位」属性が含まれる。また、B銀行のデータテーブル222を構成する文字列型属性には、「発生原因」属性、「概要」属性、「職位/発生者」属性および「職位/検証者」属性が含まれる。
As shown in FIG. 16, the
図16に示す例では、類似度一覧表261には、例えば「発生原因/発生者」属性および「発生原因」属性に対応づけて0.382が格納されている。これによれば、異なるデータテーブル(ここでは、A銀行のデータテーブル221およびB銀行のデータテーブル222)を構成する「発生原因/発生者」属性および「発生原因」属性間の類似度が0.382であることが示されている。
In the example shown in FIG. 16, the
なお、図16に示す類似度一覧表261には、「発生原因/発生者」属性および「発生原因」属性以外の他の2つの文字列型属性間の類似度についても同様に格納されている。つまり、類似度一覧表261には、A銀行のデータテーブル221を構成する文字列型属性およびB銀行のデータテーブル222を構成する文字列型属性の全ての組み合わせに対する類似度が格納されている。
The
ここでは、A銀行のデータテーブル221およびB銀行のデータテーブル222の組み合わせに対して用意された類似度一覧表について説明したが、他の類似度一覧表についても同様であるため、その詳しい説明を省略する。 Here, the similarity list prepared for the combination of the bank A data table 221 and the bank B data table 222 has been described, but the same applies to the other similarity lists, so a detailed description thereof will be given. Omitted.
次に、図17のフローチャートを参照して、上述した類似属性候補抽出処理(図8に示すステップS7の処理)の処理手順について説明する。この類似属性候補抽出処理は、数値型属性および文字列型属性に共通して実行される処理である。なお、この類似属性候補抽出処理は、類似属性候補抽出部35によって実行される。
Next, the procedure of the similar attribute candidate extraction process (the process of step S7 shown in FIG. 8) described above will be described with reference to the flowchart of FIG. This similar attribute candidate extraction process is a process executed in common for the numeric type attribute and the character string type attribute. This similar attribute candidate extraction process is executed by the similar attribute
類似属性候補抽出部35は、数値型属性類似度格納部25および文字列型属性類似度格納部26に格納された類似度一覧表の各々について以下のステップS41〜S49の処理を実行する。ここでは、この処理の対象となる類似度一覧表を対象類似度一覧表と称する。
The similar attribute
まず、類似属性候補抽出部35は、対象類似度一覧表を、数値型属性類似度格納部25または文字列型属性類似度格納部26から取り出す(ステップS41)。
First, the similar attribute
次に、類似属性候補抽出部35は、取得された対象類似度一覧表中の属性の各々について以下のステップS42〜S48の処理を実行する。ここでは、この処理の対象となる属性を対象属性と称する。
Next, the similar attribute
類似属性候補抽出部35は、対象類似度一覧表中の対象属性を取り出す(ステップS42)。
The similar attribute
類似属性候補抽出部35は、対象類似度一覧表において、取り出された対象属性との類似度が閾値入力部34によって入力された閾値(図8に示すステップS6において入力された閾値)以上である属性(対象属性とは異なるデータテーブルを構成する属性)を検索する。なお、この閾値は、類似属性候補を抽出するために十分な類似度を示す値である。
In the target similarity list, the similar attribute
以下の説明においては、対象属性との類似度が閾値以上である属性を該当属性と称する。 In the following description, an attribute whose similarity to the target attribute is equal to or greater than a threshold value is referred to as a corresponding attribute.
類似属性候補抽出部35は、検索された該当属性の数が2つ以上であるか否かを判定する(ステップS43)。
The similar attribute
該当属性の数が2つ以上でないと判定された場合(ステップS43のNO)、類似属性候補抽出部35は、検索された該当属性の数が1つであるか否かを判定する(ステップS44)。
When it is determined that the number of corresponding attributes is not two or more (NO in step S43), the similar attribute
該当属性の数が1つでない(つまり、該当属性が存在しない)と判定された場合(ステップS44のNO)、類似属性候補抽出部35は、対象類似度一覧表中の対象属性とは異なるデータテーブルを構成する属性のうち、予め定められた条件を満たす属性があるか否かを判定する(ステップS45)。ここで、予め定められた条件は、他の属性と比較して、対象属性と互いに類似度が最大となる属性が存在することを含む。
When it is determined that the number of corresponding attributes is not one (that is, the corresponding attribute does not exist) (NO in step S44), the similar attribute
ここで、対称属性と互いに類似度が最大となる属性が存在するか否かを判定する処理(つまり、ステップS45の処理)について具体的に説明する。ここでは、対象類似度一覧表は、上述した図16に示す類似度一覧表261であるものとする。また、閾値入力部34によって入力された閾値は0.8であるものとする。
Here, the process for determining whether or not there is an attribute having the maximum similarity to the symmetry attribute (that is, the process of step S45) will be specifically described. Here, it is assumed that the target similarity list is the above-described
まず、対象属性は、類似度一覧表261中のA銀行のデータテーブル221を構成する「現象/発生者」属性であるものとする。この場合、類似度一覧表261において、対象属性である「現象/発生者」属性との類似度が閾値(0.8)以上である属性(該当属性)は存在しないため、ステップS45の処理が実行される。
First, it is assumed that the target attribute is a “phenomenon / occurrence” attribute that configures the data table 221 of the bank A in the
図16に示す類似度一覧表261を参照すると、当該類似度一覧表261において、対象属性である「現象/発生者」属性との類似度が最大の属性は、「概要」属性である。
Referring to the
これに対して、類似度一覧表261において、「概要」属性との類似度が最大の属性は、対象属性である「現象/発生者」属性である。
On the other hand, in the
このように対象属性である「現象/発生者」属性と類似度が最大となる属性が「概要」属性であり、当該「概要」属性と類似度が最大となる属性が「現象/発生者」属性(つまり、対象属性)である場合には、当該対象属性と互いに類似度が最大となる属性(ここでは、「概要」属性)が存在すると判定される。 In this way, the attribute having the maximum similarity with the “phenomenon / occurrence” attribute as the target attribute is the “summary” attribute, and the attribute having the maximum similarity with the “summary” attribute is “phenomenon / occurrence”. In the case of an attribute (that is, a target attribute), it is determined that there is an attribute (here, “summary” attribute) having a maximum similarity to the target attribute.
次に、対象属性は、類似度一覧表261中のA銀行のデータテーブル221を構成する「発生業務」属性であるものとする。この場合、類似度一覧表261において、対象属性である「発生業務」属性との類似度が閾値(0.8)以上である属性(該当属性)は存在しないため、ステップS45の処理が実行される。
Next, it is assumed that the target attribute is an “occurring business” attribute that constitutes the data table 221 of the bank A in the
図16に示す類似度一覧表261を参照すると、当該類似度一覧表261において、対象属性である「発生業務」属性との類似度が最大の属性は、「発生原因」属性である。
Referring to the
これに対して、類似度一覧表261において、「発生原因」属性との類似度が最大の属性は、「発生原因/発生者」属性であり、対象属性である「発生業務」属性ではない。
On the other hand, in the
このように対象属性である「発生業務」属性と類似度が最大となる属性が「発生原因」属性であるが、当該「発生原因」属性との類似度が最大となる属性が「発生業務」属性(つまり、対象属性)でない場合には、当該対象属性と互いに類似度が最大となる属性が存在しないと判定される。 In this way, the attribute that has the maximum similarity to the “occurrence work” attribute that is the target attribute is the “occurrence cause” attribute, but the attribute that has the maximum similarity to the “occurrence cause” attribute is “occurrence work”. If it is not an attribute (that is, a target attribute), it is determined that there is no attribute having the maximum similarity with the target attribute.
上記したようにステップS45においては、対象属性と類似度が最大となる属性と類似度が最大となる属性が当該対象属性である場合には当該対象属性と互いに類似度が最大となる属性が存在すると判定され、対象属性と類似度が最大となる属性と類似度が最大となる属性が当該対象属性でない場合には当該対象属性と互いに類似度が最大となる属性が存在しない(つまり、類似属性候補はない)と判定される。 As described above, in step S45, when the attribute having the maximum similarity with the target attribute and the attribute having the maximum similarity are the target attributes, there is an attribute having the maximum similarity with the target attribute. If the attribute having the maximum similarity with the target attribute and the attribute having the maximum similarity are not the target attribute, there is no attribute having the maximum similarity with the target attribute (that is, the similar attribute No candidate).
対象属性と互いに類似度が最大となる属性が存在する、つまり、予め定められた条件を満たす属性があると判定された場合(ステップS45のYES)、当該属性および対象属性(の組み合わせ)を類似属性候補として抽出する(ステップS46)。 If it is determined that there is an attribute having the maximum degree of similarity with the target attribute, that is, it is determined that there is an attribute that satisfies a predetermined condition (YES in step S45), the attribute and the target attribute (combination) are similar Extracted as attribute candidates (step S46).
一方、対象属性と互いに類似度が最大となる属性が存在しない、つまり、予め定められた条件を満たす属性がないと判定された場合(ステップS45のNO)、ステップS46の処理は実行されない。 On the other hand, when it is determined that there is no attribute having the maximum similarity with the target attribute, that is, there is no attribute satisfying a predetermined condition (NO in step S45), the process in step S46 is not executed.
また、上記したステップS43において該当属性の数が2つ以上であると判定された場合、類似属性候補抽出部35は、当該該当属性毎に、対象属性の属性名および当該該当属性の属性名間の類似度を算出する(ステップS47)。なお、対象属性の属性名および該当属性の属性名間の類似度は、上述した2つの文字列型属性間の類似度と同様に算出される。
If it is determined in step S43 that the number of corresponding attributes is two or more, the similar attribute
ここで、図18および図19を参照して、類似属性候補抽出部35によって算出される対象属性の属性名および該当属性の属性名間の類似度について具体的に説明する。ここでは、対象類似度一覧表は、上述した図16に示す類似度一覧表261であるものとする。また、対象属性は、類似度一覧表261中のA銀行のデータテーブル221を構成する「発生者職位」属性であるものとする。なお、上記したように閾値入力部34によって入力された閾値は0.8であるものとする。
Here, with reference to FIG. 18 and FIG. 19, the similarity between the attribute name of the target attribute and the attribute name of the corresponding attribute calculated by the similar attribute
この場合、類似度一覧表261において、対象属性である「発生者職位」属性との類似度が閾値(0.8)以上である属性(該当属性)は、「職位/発生者」属性および「職位/検証者」属性の2つである。なお、「発生者職位」属性の属性名は「発生者職位」であり、「職位/発生者」属性の属性名は「職位/発生者」であり、「職位/検証者」属性の属性名は「職位/検証者」である。
In this case, in the
まず、図18を参照して、対象属性である「発生者職位」属性の属性名および該当属性である「職位/発生者」属性の属性名間の類似度について説明する。 First, with reference to FIG. 18, the similarity between the attribute name of the “occurrence position” attribute that is the target attribute and the attribute name of the “position / occurrence” attribute that is the corresponding attribute will be described.
この場合、上述した2つの文字列型属性間の類似度と同様に、対象属性である「発生者職位」属性の属性名および該当属性である「職位/発生者」属性の属性名が形態素解析処理されることにより、当該「発生者職位」属性の属性名の単語集合および当該「職位/発生者」属性の属性名の単語集合が作成される。ここで作成される単語集合には、例えば品詞が名詞の単語が含まれる。 In this case, similarly to the similarity between the two character string type attributes described above, the attribute name of the “occurrence position” attribute that is the target attribute and the attribute name of the “position / occurrence” attribute that is the corresponding attribute are morphologically analyzed. As a result of the processing, a word set of attribute names of the “occurrence position” attribute and a word set of attribute names of the “position / occurrence” attribute are created. The word set created here includes words whose part of speech is a noun, for example.
具体的には、「発生者職位」属性の属性名の単語集合には、単語「発生者」および「職位」が含まれる。また、「職位/発生者」属性の属性名の単語集合には、単語「職位」および「発生者」が含まれる。 Specifically, the word set of the attribute name of the “Gener position” attribute includes the words “Generator” and “Position”. In addition, the word set of the attribute name of the “position / occurrence” attribute includes the words “position” and “occurrence”.
ここで、「発生者職位」属性の属性名の単語集合に含まれる単語のうち、「職位/発生者」属性の属性名の単語集合に含まれる単語と一致する単語の数は2(単語「発生者」および「職位」)である。また、「職位/発生者」属性の属性名の単語集合に含まれる単語のうち、「職位/発生者」属性の属性名の単語集合に含まれる単語と一致する単語の数は2(単語「職位」および「発生者」)である。 Here, out of the words included in the word set of the attribute name of the “occurrence position” attribute, the number of words that match the word included in the word set of the attribute name of the “position / occurrence” attribute is 2 (the word “ Accrual ”and“ position ”). Of the words included in the word set of the attribute name of the “position / occurrence” attribute, the number of words matching the word included in the word set of the attribute name of the “position / occurrence” attribute is 2 (the word “ Position ”and“ occurrence ”).
また、上記したように「発生者職位」属性の属性名の単語集合に含まれる単語の数は2であるため、当該「発生者職位」属性の属性名の単語集合に含まれる単語の数に対する上記した「職位/発生者」属性の属性名の単語集合に含まれる単語と一致する単語の数の割合は2/2である。また、「職位/発生者」属性の属性名の単語集合に含まれる単語の数は2であるため、当該「職位/発生者」属性の属性名の単語集合に含まれる単語の数に対する上記した「発生者職位」属性の属性名の単語集合に含まれる単語と一致する単語の数の割合は2/2である。 Further, as described above, since the number of words included in the word set of the attribute name of the “Gener position” attribute is 2, the number of words included in the word set of the attribute name of the “Generator position” attribute is The ratio of the number of words that match the word included in the word set of the attribute name of the “job title / occurrence” attribute is 2/2. Further, since the number of words included in the word set of the attribute name of the “position / occurrence” attribute is 2, the number of words included in the word set of the attribute name of the “position / occurrence” attribute is described above. The ratio of the number of words that match the word included in the word set of the attribute name of the “generator title” attribute is 2/2.
これにより、対象属性である「発生者職位」属性の属性名および該当属性である「職位/発生者」属性の属性名間の類似度は、2/2と2/2との平均値、つまり、(2/2+2/2)/2=1と算出される。 Accordingly, the similarity between the attribute name of the “occurrence position” attribute that is the target attribute and the attribute name of the “position / occurrence” attribute that is the corresponding attribute is an average value of 2/2 and 2/2, that is, , (2/2 + 2/2) / 2 = 1.
次に、図19を参照して、対象属性である「発生者職位」属性の属性名および該当属性である「職位/検証者」属性の属性名間の類似度について説明する。 Next, with reference to FIG. 19, the similarity between the attribute name of the “occurrence position” attribute that is the target attribute and the attribute name of the “position / verifier” attribute that is the corresponding attribute will be described.
この場合、対象属性である「発生者職位」属性の属性名および該当属性である「職位/検証者」属性の属性名が形態素解析処理されることにより、当該「発生者職位」属性の属性名の単語集合および当該「職位/検証者」属性の属性名の単語集合が作成される。ここで作成される単語集合には、例えば品詞が名詞の単語が含まれる。 In this case, the attribute name of the “occurrence position” attribute is obtained by performing morphological analysis processing on the attribute name of the “occurrence position” attribute that is the target attribute and the attribute name of the “position / verifier” attribute that is the corresponding attribute. And a word set of attribute names of the “position / verifier” attribute are created. The word set created here includes words whose part of speech is a noun, for example.
具体的には、「発生者職位」属性の属性名の単語集合には、上記したように単語「発生者」および「職位」が含まれる。また、「職位/検証者」属性の属性名の単語集合には、単語「職位」および「検証者」が含まれる。 Specifically, as described above, the word set of the attribute name of the “Gener position” attribute includes the words “Generator” and “Position”. Further, the word set of attribute names of the “position / verifier” attribute includes the words “position” and “verifier”.
ここで、「発生者職位」属性の属性名の単語集合に含まれる単語のうち、「職位/検証者」属性の属性名の単語集合に含まれる単語と一致する単語の数は1(単語「職位」)である。また、「職位/検証者」属性の属性名の単語集合に含まれる単語のうち、「発生者職位」属性の属性名の単語集合に含まれる単語と一致する単語の数は1(単語「職位」)である。 Here, of the words included in the word set of the attribute name of the “occurrence position” attribute, the number of words that match the word included in the word set of the attribute name of the “position / verifier” attribute is 1 (the word “ Position ”). Further, among the words included in the word set of the attribute name of the “position / verifier” attribute, the number of words matching the word included in the word set of the attribute name of the “occurrence position” attribute is 1 (the word “position” ]).
また、上記したように「発生者職位」属性の属性名の単語集合に含まれる単語の数は2であるため、当該「発生者職位」属性の属性名の単語集合に含まれる単語の数に対する上記した「職位/検証者」属性の属性名の単語集合に含まれる単語と一致する単語の数の割合は1/2である。また、「職位/検証者」属性の属性名の単語集合に含まれる単語の数は2であるため、当該「職位/検証者」属性の属性名の単語集合に含まれる単語の数に対する上記した「発生者職位」属性の属性名の単語集合に含まれる単語と一致する単語の数の割合は1/2である。 Further, as described above, since the number of words included in the word set of the attribute name of the “Gener position” attribute is 2, the number of words included in the word set of the attribute name of the “Generator position” attribute is The ratio of the number of words that match the word included in the word set of the attribute name of the “position / verifier” attribute is 1/2. In addition, since the number of words included in the word set of the attribute name of the “position / verifier” attribute is 2, the number of words included in the word set of the attribute name of the “position / verifier” attribute is described above. The ratio of the number of words that match the word included in the word set of the attribute name of the “generator position” attribute is ½.
これにより、対象属性である「発生者職位」属性の属性名および該当属性である「職位/検証者」属性の属性名間の類似度は、1/2と1/2との平均値、つまり、(1/2+1/2)/2=1/2と算出される。 Accordingly, the similarity between the attribute name of the “occurrence position” attribute that is the target attribute and the attribute name of the “position / verifier” attribute that is the corresponding attribute is an average value of 1/2 and 1/2, that is, , (1/2 + 1/2) / 2 = 1/2.
再び図17に戻ると、類似属性候補抽出部35は、該当属性毎に算出された類似度(対象属性の属性名および当該該当属性の属性名間の類似度)に基づいて、当該該当属性に対して順位づけを行う(ステップS48)。具体的には、類似属性候補抽出部35は、算出された類似度が高い該当属性の優先順位を高くするような順位づけを行う。上記したように「発生者職位」属性が対象属性であり、「職位/発生者」属性および「職位/検証者」属性が該当属性である場合には、「発生者職位」属性の属性名および「職位/検証者」属性の属性名間の類似度より「発生者職位」属性の属性名および「職位/発生者」属性の属性名間の類似度の方が高いため、「職位/発生者」属性により高い優先順位が付与される。
Returning to FIG. 17 again, the similar attribute
次に、類似属性候補抽出部35は、ステップS46において類似属性候補を抽出する。この場合、類似属性候補抽出部35は、対象属性および該当属性の各々(の組み合わせ)を類似属性候補として抽出する。
Next, the similar attribute
一方、上記したステップS44において該当属性の数が1つであると判定された場合、類似属性候補抽出部35は、ステップS46において類似属性候補を抽出する。この場合、類似属性候補抽出部35は、対象属性および該当属性(の組み合わせ)を類似属性候補として抽出する。
On the other hand, when it is determined in step S44 that the number of corresponding attributes is one, the similar attribute
上記したステップS45において対象属性と互いに類似度が最大となる属性が存在しない、つまり、予め定められた条件を満たす属性がないと判定された場合、またはステップS46の処理が実行されると、対象類似度一覧表中の全ての属性について上記したステップS42〜S48の処理が実行されたか否かが判定される(ステップS49)。 When it is determined in step S45 that there is no attribute having the maximum similarity with the target attribute, that is, when there is no attribute that satisfies a predetermined condition, or when the process of step S46 is executed, It is determined whether or not the above-described steps S42 to S48 have been executed for all attributes in the similarity list (step S49).
対象類似度一覧表中の全ての属性について処理が実行されていないと判定された場合(ステップS49のNO)、上記したステップS42に戻って処理が繰り返される。この場合、ステップS42〜S48の処理が実行されていない属性を対象属性として処理が実行される。 If it is determined that processing has not been executed for all attributes in the target similarity list (NO in step S49), the process returns to step S42 described above and is repeated. In this case, the process is executed with an attribute for which the process of steps S42 to S48 has not been executed as a target attribute.
一方、対象類似度一覧表中の全てについて処理が実行されたと判定された場合(ステップS49のYES)、数値型属性類似度格納部25および文字列型属性類似度格納部26に格納された全ての類似度一覧表について上記したステップS41〜S49の処理が実行されたか否かが判定される(ステップS50)。
On the other hand, if it is determined that the processing has been executed for all of the target similarity list (YES in step S49), all the values stored in the numerical attribute
全ての類似度一覧表について処理が実行されていないと判定された場合(ステップS50のNO)、上記したステップS41に戻って処理が繰り返される。この場合、ステップS41〜S49の処理が実行されていない類似度一覧表を対象類似度一覧表として処理が実行される。 When it is determined that the process is not executed for all the similarity list (NO in step S50), the process returns to the above step S41 and is repeated. In this case, the process is executed using the similarity list that has not been subjected to the processes of steps S41 to S49 as the target similarity list.
一方、全ての類似度一覧表について処理が実行されたと判定された場合(ステップS50のYES)、類似属性候補抽出処理は終了される。 On the other hand, when it is determined that the process has been executed for all the similarity list (YES in step S50), the similar attribute candidate extraction process is terminated.
上記したように類似属性候補抽出処理が実行されると、当該類似属性候補抽出処理において抽出された類似属性候補が類似属性候補格納部27に格納される。
When the similar attribute candidate extraction process is executed as described above, the similar attribute candidates extracted in the similar attribute candidate extraction process are stored in the similar attribute
ここで、図20は、類似属性候補格納部27のデータ構造の一例を示す。類似属性候補格納部27には、上記したように類似属性候補として抽出された異なるデータテーブルを構成する2つの属性(の属性名)が対応づけて格納されている。
Here, FIG. 20 shows an example of the data structure of the similar attribute
図20に示す例では、類似属性候補格納部27には、例えばA銀行のデータテーブル221を構成する「発生原因/発生者」属性に対応づけてB銀行のデータテーブル222を構成する「発生原因」属性が格納されている。また、類似属性候補格納部27には、例えばA銀行のデータテーブル221を構成する「発生原因/発生者」属性に対応づけてC銀行のデータテーブル223を構成する「発生原因/発生者」属性が格納されている。
In the example illustrated in FIG. 20, the similar attribute
これによれば、A銀行のデータテーブル221を構成する「発生原因/発生者」属性およびB銀行のデータテーブル222を構成する「発生原因」属性が同一の内容を表す属性の候補(つまり、類似属性候補)であることが示されている。同様に、A銀行のデータテーブル221を構成する「発生原因/発生者」属性およびC銀行のデータテーブル223を構成する「発生原因/発生者」属性が同一の内容を現す属性の候補であることが示されている。 According to this, the “occurrence / occurrence” attribute constituting the bank A data table 221 and the “occurrence cause” attribute constituting the bank B data table 222 are attribute candidates representing the same contents (that is, similar Attribute candidate). Similarly, the “occurrence cause / occurrence” attribute constituting the bank A data table 221 and the “occurrence cause / occurrence” attribute constituting the bank C data table 223 are candidates for attributes representing the same contents. It is shown.
また、類似属性候補格納部27には、例えばA銀行のデータテーブル221を構成する「発生者職位」属性に対応づけてB銀行のデータテーブル222を構成する「職位/発生者」属性および「職位/検証者」属性が格納されている。これによれば、A銀行のデータテーブル221を構成する「発生者職位」属性およびB銀行のデータテーブル222を構成する「職位/発生者」属性が同一の内容を表す属性の候補であることが示されている。また、A銀行のデータテーブル221を構成する「発生者職位」属性およびB銀行のデータテーブル222を構成する「職位/検証者」属性が同一の内容を現す属性の候補であることが示されている。
Further, the similar attribute
なお、A銀行のデータテーブル221を構成する「発生者職位」属性に対応づけて類似属性候補格納部27に格納されている「職位/発生者」属性および「職位/検証者」は、上記した類似属性候補抽出処理において当該「職位/発生者」属性および「職位/検証者」属性(該当属性)に対して付与された優先順位の順番に並べられる。
Note that the “position / occurrence” attribute and the “position / verifier” stored in the similar attribute
図20に示すように、類似属性候補格納部27には、類似属性候補抽出処理において類似属性候補として抽出された2つの属性の組み合わせの全てが格納されている。
As shown in FIG. 20, the similar attribute
なお、図20に示す類似属性候補格納部27に格納された類似属性候補は、上述したように例えばデータテーブル格納部22に格納されたA〜C銀行のデータテーブル221〜223(に保持されるデータ)のデータ分析において当該A〜C銀行のデータテーブル221〜223を比較する際に利用されることができる。
The similar attribute candidates stored in the similar attribute
上記したように本実施形態においては、テーブル格納部22に格納されている複数のテーブルを構成する文字列型属性が有する属性値に含まれる文字列を構成する単語を抽出し、当該抽出された単語に基づいて異なるテーブルを構成する2つの文字列型属性間の類似度を算出し、当該算出された類似度に基づいて当該2つの文字列型属性を類似属性候補として抽出する構成により、属性の特徴のみを利用し、また属性値の意味を考慮して任意のデータテーブル間において適切な属性の対応づけを行うことが可能となる。
As described above, in the present embodiment, the words constituting the character strings included in the attribute values of the character string type attributes constituting the plurality of tables stored in the
また、本実施形態においては、テーブル格納部22に格納されている複数のテーブルを構成する数値型属性が有する属性値に含まれる数値の範囲に基づいて、異なるテーブルを構成する2つの数値型属性間の類似度を算出し、当該算出された類似度に基づいて当該2つの数値型属性を類似属性候補として抽出する構成により、数値型属性についても任意のデータテーブル間において適切な対応づけを行うことができる。
Further, in the present embodiment, two numerical type attributes that configure different tables based on the range of numerical values included in the attribute values of the numerical type attributes that configure the plurality of tables stored in the
更に、本実施形態においては、複数のテーブルを構成する数値型属性を数値型属性小分類に分類することにより、例えば数値範囲を比較することができない2つの数値型属性間の類似度を算出することを回避し、数値型属性の適切な対応づけを行うことができる。 Furthermore, in this embodiment, by classifying the numerical type attributes constituting a plurality of tables into numerical type attribute subcategories, for example, the similarity between two numerical type attributes that cannot be compared in numerical range is calculated. This can be avoided and appropriate association of numeric type attributes can be performed.
(第2の実施形態)
次に、第2の実施形態について説明する。本実施形態に係るデータ分析支援装置のハードウェア構成および機能構成は、前述した第1の実施形態と同様であるため、適宜、図1および図2を用いて説明する。
(Second Embodiment)
Next, a second embodiment will be described. The hardware configuration and functional configuration of the data analysis support apparatus according to this embodiment are the same as those of the first embodiment described above, and will be described with reference to FIGS. 1 and 2 as appropriate.
なお、本実施形態においては、データ分析支援装置30に含まれる文字列型属性処理部33が2つの文字列型属性の類似度を算出する際に類義語辞書を用いる点が、前述した第1の実施形態とは異なる。
In the present embodiment, the point that the character string type
ここで、図21は、本実施形態に係るデータ分析支援装置30に含まれる文字列型属性処理部33の機能構成を示すブロック図である。
Here, FIG. 21 is a block diagram illustrating a functional configuration of the character string type
文字列型属性処理部33は、類義語辞書格納部334および文字列型属性類似度算出部335を含む。本実施形態において、類義語辞書格納部334は、例えば図1に示す外部記憶装置20に格納される。
The character string type
類義語辞書格納部334には、意味が類似する(つまり、意味の似かよった)複数の単語が類義語として登録された類義語辞書が予め格納されている。
The synonym
文字列型属性類似度算出部335は、属性値単語集合格納部331によって格納された各文字列型属性の単語集合および類義語辞書格納部334に格納されている類義語辞書に基づいて、異なるデータテーブルを構成する2つの文字列型属性間の類似度を算出する。この場合、文字列型属性類似度算出部335は、前述した第1の実施形態における文字列型属性類似度算出部333と同様に、2つの文字列型属性(第1および第2の文字列型属性)の単語集合間で一致する単語の数を特定する。このとき、文字列型属性類似度算出部335によって特定される2つの文字列型属性の単語集合間で一致する単語には、完全に一致した単語だけではなく、類義語辞書格納部334に格納されている類義語辞書に登録されている意味が類似する単語が含まれる。つまり、本実施形態における文字列型属性類似度算出部335においては、意味が類似する単語についても一致したものとみなされる。
The character string type attribute
なお、文字列型属性類似度算出部335は、この点以外については、前述した第1の実施形態における文字列型属性類似度算出部333と同様の機能を有する。
The character string type attribute
ここで、本実施形態に係るデータ分析支援装置30の動作について説明する。なお、本実施形態に係るデータ分析支援装置30において実行される処理のうち類似度算出処理(前述した図8に示すステップS4の処理)に含まれる文字列型属性の類似度算出処理以外の処理については前述した第1の実施形態と同様であるため、その詳しい説明を省略する。
Here, the operation of the data
以下、本実施形態における文字列型属性の類似度算出処理の処理手順について説明する。ここでは、便宜的に、図13のフローチャートを参照して説明する。 Hereinafter, the processing procedure of the similarity calculation processing of the character string type attribute in this embodiment will be described. Here, for convenience, description will be made with reference to the flowchart of FIG.
まず、図13に示すステップS21〜S23の処理が実行される。このステップS21〜S23の処理については、前述した第1の実施形態において説明した通りであるため、その詳しい説明を省略する。 First, the processes of steps S21 to S23 shown in FIG. 13 are executed. Since the processes in steps S21 to S23 are the same as those described in the first embodiment, detailed description thereof is omitted.
ステップS23において文字列型属性格納部24に格納された全ての文字列型属性について処理が実行されたと判定された場合、文字列型属性類似度算出部335は、例えば文字列型属性格納部24に格納された異なるデータテーブルを構成する2つの文字列型属性の組み合わせ(文字列型属性ペア)の各々に対して以下のステップS24〜S26の処理を実行する。ここでは、この処理の対象となる文字列型属性ペアを対象文字列型属性ペアと称する。また、対象文字列型属性ペアに含まれる一方の文字列型属性を第1の文字列型属性、他方の文字列型属性を第2の文字列型属性と称する。
When it is determined in step S23 that processing has been executed for all the character string type attributes stored in the character string type
この場合、文字列型属性類似度算出部335は、対象文字列型属性ペアに含まれる第1および第2の文字列型属性の単語集合を属性値単語集合格納部332から取得する。
In this case, the character string type attribute
文字列型属性類似度算出部335は、取得された第1および第2の文字列型属性の単語集合と類義語辞書格納部334に格納されている類義語辞書を参照して、当該第1および第2の文字列型属性の単語集合間で一致する単語の数を特定する(ステップS24)。この場合、文字列型属性類似度算出部335は、第1の文字列型属性の単語集合に含まれる単語のうち、第2の文字列型属性の単語集合に含まれる単語と一致する単語および類似する単語の数(第1の文字列型属性の一致数)を特定する。また、文字列型属性類似度算出部335は、第2の文字列型属性の単語集合に含まれる単語のうち、第2の文字列型属性の単語集合に含まれる単語と一致する単語および類似する単語の数(第2の文字列型属性の一致数)を特定する。
The character string type attribute
文字列型属性類似度算出部335は、特定された第1および第2の文字列型属性の一致数に基づいて、当該第1および第2の文字列型属性間の類似度を算出する(ステップS25)。この場合、文字列型属性類似度算出部335は、前述した第1の実施形態と同様に、第1の文字列型属性の単語集合に含まれる単語の一致率(第1の文字列型属性の単語一致率)および第2の文字列型属性の単語集合に含まれる単語の一致率(第2の文字列型属性の単語一致率)を利用して類似度を算出する。
The character string type attribute
ここで、図22を参照して、文字列型属性類似度算出部335によって算出される第1および第2の文字列型属性間の類似度について具体的に説明する。
Here, the similarity between the first and second character string type attributes calculated by the character string type attribute
ここでは、第1の文字列型属性が前述した図5に示すA銀行のデータテーブル221を構成する「発生原因/発生者」属性であり、第2の文字列型属性が前述した図6に示すB銀行のデータテーブル222を構成する「発生原因」属性であるものとする。 Here, the first character string type attribute is the “cause / occurrence” attribute that constitutes the bank A data table 221 shown in FIG. 5, and the second character string type attribute is shown in FIG. It is assumed that it is an “occurrence cause” attribute constituting the data table 222 of the B bank shown.
図22に示すように、第1の文字列型属性(つまり、「発生原因/発生者」属性)の単語集合には、11個の単語、具体的には、単語「経験」、「不足」、「指導」、「教育」、「第三者」、「事故」、「客」、「依頼」、「ミス」、「記入」および「誤り」が含まれるものとする。また、第2の文字列型属性(つまり、「発生原因」属性)の単語集合には、10個の単語、具体的には、単語「知識」、「経験」、「教育」、「不足」、「顧客」、「事故」、「複雑」、「作業」、「内容」および「ケアレスミス」が含まれるものとする。 As shown in FIG. 22, the word set of the first character string type attribute (that is, the “occurrence cause / occurrence” attribute) has 11 words, specifically, the words “experience” and “insufficient”. , “Guidance”, “education”, “third party”, “accident”, “customer”, “request”, “miss”, “entry” and “error”. The word set of the second character string type attribute (that is, the “occurrence cause” attribute) has 10 words, specifically, the words “knowledge”, “experience”, “education”, “insufficient”. , “Customer”, “accident”, “complexity”, “work”, “content” and “careless mistake”.
なお、文字列型属性処理部33に含まれる類義語辞書格納部334に格納されている類義語辞書には、単語「指導」および「教育」が類義語として登録されているものとする。また、類義語辞書には、単語「客」および「顧客」が類義語として登録されているものとする。また、類義語辞書には、単語「ミス」、「誤り」および「ケアレスミス」が類義語として登録されているものとする。
It is assumed that the words “teaching” and “education” are registered as synonyms in the synonym dictionary stored in the synonym
ここで、第1の文字列型属性の単語集合に含まれる単語のうち、第2の文字列型属性の単語集合に含まれる単語と完全に一致する単語は、単語「経験」、「不足」、「教育」および「事故」である。また、上記した類義語辞書によれば、第1の文字列型属性の単語集合に含まれる単語のうち、第2の文字列型属性の単語集合に含まれる単語と意味が類似する単語(つまり、類義語)は、第2の文字列型属性の単語集合に含まれる単語「教育」と意味が類似する単語「指導」、単語「顧客」と意味が類似する単語「客」、単語「ケアレスミス」と意味が類似する単語「ミス」および「誤り」である。この場合、第1の文字列型属性の一致数は8(単語「経験」、「不足」、「指導」、「教育」、「事故」、「客」、「ミス」および「誤り」)となる。 Here, among words included in the word set of the first character string type attribute, words that completely match the word included in the word set of the second character string type attribute are the words “experience” and “insufficient”. , "Education" and "Accident". Further, according to the above synonym dictionary, among words included in the word set of the first character string type attribute, words having meanings similar to words included in the word set of the second character string type attribute (that is, Synonyms) are a word “teaching” having a similar meaning to the word “education” included in the word set of the second character string type attribute, a word “customer” having a similar meaning to the word “customer”, and a word “careless mistake”. The words “Miss” and “Miss” are similar in meaning. In this case, the number of matches of the first character string type attribute is 8 (words “experience”, “insufficient”, “teaching”, “education”, “accident”, “customer”, “miss” and “error”) Become.
一方、第2の文字列型属性の単語集合に含まれる単語のうち、第1の文字列型属性の単語集合に含まれる単語と完全に一致する単語は、単語「経験」、「教育」、「不足」および「事故」である。また、上記した類義語辞書によれば、第2の文字列型属性の単語集合に含まれる単語のうち、第1の文字列型属性の単語集合に含まれる単語と意味が類似する単語(つまり、類義語)は、第1の文字列型属性の単語集合に含まれる単語「指導」と意味が類似する単語「教育」と、単語「客」と意味が類似する単語「顧客」と、単語「ミス」および「誤り」と意味が類似する単語「ケアレスミス」である。この場合、第2の文字列型属性の一致数は6(単語「経験」、「教育」、「不足」、「顧客」、「事故」および「ケアレスミス」)となる。例えば単語「教育」および「ケアレスミス」のように、第1の文字列型属性の単語集合に含まれる単語と完全に一致する単語および類似する単語が複数存在する場合には、当該同一の単語は1つとして扱われる。 On the other hand, among words included in the word set of the second character string type attribute, words that completely match the words included in the word set of the first character string type attribute are the words “experience”, “education”, “Insufficient” and “Accident”. Further, according to the above synonym dictionary, among words included in the word set of the second character string type attribute, words having meanings similar to words included in the word set of the first character string type attribute (that is, Synonyms) include a word “education” similar in meaning to the word “guidance” included in the word set of the first string attribute, a word “customer” similar in meaning to the word “customer”, and a word “miss” "And" Error "are words" Careless Miss "that have similar meanings. In this case, the number of matches of the second character string type attribute is 6 (the words “experience”, “education”, “insufficient”, “customer”, “accident”, and “careless mistake”). For example, when there are a plurality of words and similar words that completely match a word included in the word set of the first character string type attribute, such as the words “education” and “careless mistake”, the same word Are treated as one.
なお、図22においては、完全に一致する2つの単語が実線でつながれており、意味が類似する2つの単語が破線でつながれている。 In FIG. 22, two completely matching words are connected by a solid line, and two words having similar meanings are connected by a broken line.
上記したように第1の文字列型属性の単語集合に含まれる単語の数は11であるため、第1の文字列型属性の単語一致率は8/11である。また、第2の文字列型属性の単語集合に含まれる単語の数は10であるため、第2の文字列型属性の単語一致率は6/10である。 As described above, since the number of words included in the word set of the first character string type attribute is 11, the word matching rate of the first character string type attribute is 8/11. Further, since the number of words included in the word set of the second character string type attribute is 10, the word matching rate of the second character string type attribute is 6/10.
これにより、第1および第2の文字列型属性間の類似度は、8/11と6/10との平均値、つまり、(8/11+6/10)/2≒0.664と算出される。 Accordingly, the similarity between the first and second character string type attributes is calculated as an average value of 8/11 and 6/10, that is, (8/11 + 6/10) /2≈0.664. .
再び図13に戻ると、ステップS25〜S27の処理が実行される。なお、このステップS25〜S27の処理は、前述した第1の実施形態において説明した通りであるため、その詳しい説明を省略する。 Returning to FIG. 13 again, the processing of steps S25 to S27 is executed. Note that the processing in steps S25 to S27 is the same as that described in the first embodiment, and a detailed description thereof will be omitted.
上記したように本実施形態においては、類義語辞書格納部334に格納されている類義語辞書を用いることにより2つの文字列型属性間の類似度が算出される際に特定される当該文字列型属性の単語集合間で一致する単語として意味が類似する単語(類義語)が含まれる構成により、前述した第1の実施形態においては当該単語集合間で一致する単語として扱われない単語であっても意味が類似する単語であれば当該一致する単語と同様に扱われるため、当該2つの文字列型属性間の類似度をより適切に算出することが可能となる。
As described above, in the present embodiment, the character string type attribute specified when the similarity between two character string type attributes is calculated by using the synonym dictionary stored in the synonym
なお、本実施形態においては、2つの文字列型属性間の類似度を算出する(単語集合間で一致する単語の数を特定する)際に類義語辞書を用いるものとして説明したが、前述した第1の実施形態において説明した属性名間の類似度を算出する際に類義語辞書を用いる構成であっても構わない。 In the present embodiment, the synonym dictionary is used when calculating the similarity between two character string type attributes (specifying the number of matching words between word sets). The synonym dictionary may be used when calculating the similarity between the attribute names described in the first embodiment.
以上説明した少なくとも1つの実施形態によれば、任意のデータテーブル間において適切な属性の対応づけを行うことが可能なデータ分析支援装置およびプログラムを提供することができる。 According to at least one embodiment described above, it is possible to provide a data analysis support apparatus and program capable of associating appropriate attributes between arbitrary data tables.
なお、本願発明は、上記各実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記各実施形態に開示されている複数の構成要素の適宜な組合せにより種々の発明を形成できる。例えば、各実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。更に、異なる実施形態に亘る構成要素を適宜組合せてもよい。 Note that the present invention is not limited to the above-described embodiments as they are, and can be embodied by modifying the constituent elements without departing from the scope of the invention in the implementation stage. Further, various inventions can be formed by appropriately combining a plurality of constituent elements disclosed in the above embodiments. For example, some components may be deleted from all the components shown in each embodiment. Furthermore, constituent elements over different embodiments may be appropriately combined.
10…コンピュータ、20…外部記憶装置、22…データテーブル格納部、23…数値型属性格納部、24…文字列型属性格納部、25…数値型属性類似度格納部、26…文字列型属性類似度格納部、27…類似属性候補格納部、31…属性型分類部、32…数値型属性処理部、33…文字列型属性処理部、34…閾値入力部、35…類似属性候補抽出部、321…属性値数値範囲特定部、322…属性値数値範囲格納部、323…数値型属性類似度算出部、331…属性値単語抽出部、332…属性値単語集合格納部、333…文字列型属性類似度算出部、334…類義語辞書格納部、335…文字列型属性類似度算出部。
DESCRIPTION OF
Claims (6)
前記データテーブル格納手段に格納されている第1のデータテーブルを構成する第1の属性に含まれる第1の文字列型属性が有する属性値に含まれる文字列を構成する第1の単語を抽出する第1の単語抽出手段と、
前記データテーブル格納手段に格納されている第2のデータテーブルを構成する第2の属性に含まれる第2の文字列型属性が有する属性値に含まれる文字列を構成する第2の単語を抽出する第2の単語抽出手段と、
前記第1の抽出手段によって抽出された第1の単語および前記第2の抽出手段によって抽出された第2の単語に基づいて、前記第1のデータテーブルを構成する第1の属性に含まれる第1の文字列型属性および前記第2のデータテーブルを構成する第2の属性に含まれる第2の文字列型属性の類似度を算出する類似度算出手段と、
前記算出された類似度に基づいて、前記第1のデータテーブルを構成する第1の属性に含まれる第1の文字列型属性および前記第2のデータテーブルを構成する第2の属性に含まれる第2の文字列型属性を類似属性候補として抽出する類似属性候補抽出手段と
を具備することを特徴とするデータ分析支援装置。 A first data table composed of a first attribute including a first character string type attribute having an attribute value including a character string and a second including a second character string type attribute having an attribute value including a character string Data table storage means for storing in advance a second data table comprising the attributes of:
Extracting the first word constituting the character string included in the attribute value of the first character string type attribute included in the first attribute constituting the first data table stored in the data table storage means First word extracting means for
Extracting the second word constituting the character string included in the attribute value of the second character string type attribute included in the second attribute included in the second data table stored in the data table storage means Second word extracting means for
Based on the first word extracted by the first extraction means and the second word extracted by the second extraction means, the first attribute included in the first data table is included in the first attribute included in the first data table. Similarity calculating means for calculating the similarity between the first character string type attribute and the second character string type attribute included in the second attribute constituting the second data table;
Based on the calculated similarity, the first character string type attribute included in the first attribute constituting the first data table and the second attribute constituting the second data table are included. A data analysis support apparatus comprising: similar attribute candidate extraction means for extracting the second character string type attribute as a similar attribute candidate.
前記データテーブル格納手段に格納されている第2のデータテーブルを構成する第2の属性は、複数の第2の文字列型属性を含み、
前記第1の単語抽出手段は、前記データテーブル格納手段に格納されている第1のデータテーブルを構成する第1の属性に含まれる第1の文字列型属性毎に、当該第1の文字列型属性が有する属性値に含まれる文字列を構成する第1の単語を抽出し、
前記第2の単語抽出手段は、前記データテーブル格納手段に格納されている第2のデータテーブルを構成する第2の属性に含まれる第2の文字列型属性毎に、当該第2の文字列型属性が有する属性値に含まれる文字列を構成する第2の単語を抽出し、
前記類似度算出手段は、前記第1の文字列型属性および前記第2の文字列型属性の組み合わせ毎に、前記第1の抽出手段によって抽出された当該第1の文字列型属性が有する属性値に含まれる文字列を構成する第1の単語および前記第2の抽出手段によって抽出された当該第2の文字列型属性が有する属性値に含まれる文字列を構成する第2の単語に基づいて、当該第1の文字列型属性および当該第2の文字列型属性の類似度を算出し、
前記類似属性候補抽出手段は、前記第1の文字列型属性および前記第2の文字列型属性の組み合わせ毎に算出された類似度に基づいて、他の第1の文字列型属性および第2の文字列型属性との類似度と比較して互いに類似度が最大となる第1の文字列型属性および第2の文字列型属性を類似属性候補として抽出する
ことを特徴とする請求項1記載のデータ分析支援装置。 The first attribute constituting the first data table stored in the data table storage means includes a plurality of first character string type attributes,
The second attribute constituting the second data table stored in the data table storage means includes a plurality of second character string type attributes,
The first word extraction unit is configured to output the first character string for each first character string type attribute included in the first attribute constituting the first data table stored in the data table storage unit. Extracting a first word constituting a character string included in an attribute value of a type attribute;
The second word extraction unit is configured to output the second character string for each second character string type attribute included in the second attribute that constitutes the second data table stored in the data table storage unit. Extracting a second word constituting the character string included in the attribute value of the type attribute;
The similarity calculation means includes attributes of the first character string type attribute extracted by the first extraction means for each combination of the first character string type attribute and the second character string type attribute. Based on the first word constituting the character string included in the value and the second word constituting the character string included in the attribute value included in the second character string type attribute extracted by the second extracting means Calculating the similarity between the first string type attribute and the second string type attribute,
The similar attribute candidate extraction unit is configured to generate another first character string type attribute and a second character string based on the similarity calculated for each combination of the first character string type attribute and the second character string type attribute. The first character string type attribute and the second character string type attribute that have a maximum degree of similarity with each other as compared with the degree of similarity with the character string type attribute are extracted as similar attribute candidates. The data analysis support device described.
前記データテーブル格納手段に格納されている第2のデータテーブルを構成する第2の属性は、数値を含む属性値を有する第2の数値型属性を更に含み、
前記類似度算出手段は、
前記第1の属性に含まれる第1の数値型属性が有する属性値に含まれる数値の範囲および前記第2の属性に含まれる第2の数値型属性が有する属性値に含まれる数値の範囲に基づいて、当該第1の数値型属性および当該第2の数値型属性の類似度を算出し、
前記類似属性候補抽出手段は、前記算出された前記第1の数値型属性および前記第2の数値型属性の類似度に基づいて、当該第1の数値型属性および当該第2の数値型属性を類似属性候補として抽出する
ことを特徴とする請求項1記載のデータ分析支援装置。 The first attribute constituting the first data table stored in the data table storage means further includes a first numeric type attribute having an attribute value including a numeric value,
The second attribute constituting the second data table stored in the data table storage means further includes a second numeric type attribute having an attribute value including a numeric value,
The similarity calculation means includes:
A numerical value range included in an attribute value included in the first numerical value attribute included in the first attribute and a numerical value range included in an attribute value included in the second numerical value attribute included in the second attribute. Based on this, the similarity between the first numeric type attribute and the second numeric type attribute is calculated,
The similar attribute candidate extracting means calculates the first numerical value attribute and the second numerical value attribute based on the calculated similarity between the first numerical value attribute and the second numerical value attribute. The data analysis support apparatus according to claim 1, wherein the data analysis support apparatus is extracted as a similar attribute candidate.
前記第2の数値型属性を当該第2の数値型属性が有する属性値に含まれる数値に応じて分類する第2の分類手段と
を更に具備し、
前記類似度算出手段は、前記第1の分類手段および前記第2の分類手段による分類先が同一である前記第1の数値型属性および前記第2の数値型属性の類似度を算出する
ことを特徴とする請求項4記載のデータ分析支援装置。 First classification means for classifying the first numeric type attribute according to a numeric value included in an attribute value of the first numeric type attribute;
A second classification means for classifying the second numeric type attribute according to a numeric value included in an attribute value of the second numeric type attribute;
The similarity calculation means calculates the similarity between the first numeric type attribute and the second numeric type attribute having the same classification destination by the first classification means and the second classification means. 5. The data analysis support apparatus according to claim 4, wherein
前記コンピュータに、
前記データテーブル格納手段に格納されている第1のデータテーブルを構成する第1の属性に含まれる第1の文字列型属性が有する属性値に含まれる文字列を構成する第1の単語を抽出するステップと、
前記データテーブル格納手段に格納されている第2のデータテーブルを構成する第2の属性に含まれる第2の文字列型属性が有する属性値に含まれる文字列を構成する第2の単語を抽出するステップと、
前記抽出された第1の単語および前記抽出された第2の単語に基づいて、前記第1のデータテーブルを構成する第1の属性に含まれる第1の文字列型属性および前記第2のデータテーブルを構成する第2の属性に含まれる第2の文字列型属性の類似度を算出するステップと、
前記算出された類似度に基づいて、前記第1のデータテーブルを構成する第1の属性に含まれる第1の文字列型属性および前記第2のデータテーブルを構成する第2の属性に含まれる第2の文字列型属性を類似度属性候補として抽出するステップと
を実行させるためのプログラム。 A first data table composed of a first attribute including a first character string type attribute having an attribute value including a character string and a second including a second character string type attribute having an attribute value including a character string In a data analysis support apparatus composed of an external storage device having a data table storage means for preliminarily storing a second data table composed of the attributes of and a computer using the external storage device, the data analysis support device is executed by the computer A program
In the computer,
Extracting the first word constituting the character string included in the attribute value of the first character string type attribute included in the first attribute constituting the first data table stored in the data table storage means And steps to
Extracting the second word constituting the character string included in the attribute value of the second character string type attribute included in the second attribute included in the second data table stored in the data table storage means And steps to
Based on the extracted first word and the extracted second word, the first character string type attribute and the second data included in the first attribute constituting the first data table Calculating the similarity of the second character string type attribute included in the second attribute constituting the table;
Based on the calculated similarity, the first character string type attribute included in the first attribute constituting the first data table and the second attribute constituting the second data table are included. Extracting the second character string type attribute as a similarity attribute candidate.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2011042687A JP5526057B2 (en) | 2011-02-28 | 2011-02-28 | Data analysis support apparatus and program |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2011042687A JP5526057B2 (en) | 2011-02-28 | 2011-02-28 | Data analysis support apparatus and program |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2012181605A true JP2012181605A (en) | 2012-09-20 |
| JP5526057B2 JP5526057B2 (en) | 2014-06-18 |
Family
ID=47012766
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2011042687A Active JP5526057B2 (en) | 2011-02-28 | 2011-02-28 | Data analysis support apparatus and program |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP5526057B2 (en) |
Cited By (6)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2014232389A (en) * | 2013-05-28 | 2014-12-11 | Kddi株式会社 | Dictionary generation apparatus |
| JP2016173678A (en) * | 2015-03-16 | 2016-09-29 | 富士通株式会社 | Relationship estimation method, relationship estimation program, and information processing apparatus |
| JP2017021634A (en) * | 2015-07-13 | 2017-01-26 | トヨタ自動車株式会社 | Data processing device and data processing method |
| WO2019171538A1 (en) * | 2018-03-08 | 2019-09-12 | 日本電気株式会社 | Meaning inference system, method, and program |
| WO2019171537A1 (en) * | 2018-03-08 | 2019-09-12 | 日本電気株式会社 | Meaning inference system, method, and program |
| CN112597154A (en) * | 2020-12-11 | 2021-04-02 | 广州橙行智动汽车科技有限公司 | Data storage method and device, electronic equipment and readable medium |
Citations (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH11250079A (en) * | 1998-02-27 | 1999-09-17 | Nippon Telegr & Teleph Corp <Ntt> | Database combining method and apparatus, and storage medium storing database combining program |
| JP2003271656A (en) * | 2002-03-19 | 2003-09-26 | Fujitsu Ltd | Association candidate generation device, association candidate generation method, association system, association candidate generation program, and computer-readable recording medium storing the program |
| JP2004086782A (en) * | 2002-08-29 | 2004-03-18 | Hitachi Ltd | Heterogeneous database integration support device |
| JP2011028379A (en) * | 2009-07-22 | 2011-02-10 | Toshiba Corp | Program and device for converting data structure |
-
2011
- 2011-02-28 JP JP2011042687A patent/JP5526057B2/en active Active
Patent Citations (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH11250079A (en) * | 1998-02-27 | 1999-09-17 | Nippon Telegr & Teleph Corp <Ntt> | Database combining method and apparatus, and storage medium storing database combining program |
| JP2003271656A (en) * | 2002-03-19 | 2003-09-26 | Fujitsu Ltd | Association candidate generation device, association candidate generation method, association system, association candidate generation program, and computer-readable recording medium storing the program |
| JP2004086782A (en) * | 2002-08-29 | 2004-03-18 | Hitachi Ltd | Heterogeneous database integration support device |
| JP2011028379A (en) * | 2009-07-22 | 2011-02-10 | Toshiba Corp | Program and device for converting data structure |
Cited By (10)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2014232389A (en) * | 2013-05-28 | 2014-12-11 | Kddi株式会社 | Dictionary generation apparatus |
| JP2016173678A (en) * | 2015-03-16 | 2016-09-29 | 富士通株式会社 | Relationship estimation method, relationship estimation program, and information processing apparatus |
| CN105989189A (en) * | 2015-03-16 | 2016-10-05 | 富士通株式会社 | Method of relation estimation, relation estimation program and information processing apparatus |
| JP2017021634A (en) * | 2015-07-13 | 2017-01-26 | トヨタ自動車株式会社 | Data processing device and data processing method |
| WO2019171538A1 (en) * | 2018-03-08 | 2019-09-12 | 日本電気株式会社 | Meaning inference system, method, and program |
| WO2019171537A1 (en) * | 2018-03-08 | 2019-09-12 | 日本電気株式会社 | Meaning inference system, method, and program |
| JPWO2019171537A1 (en) * | 2018-03-08 | 2021-02-12 | 日本電気株式会社 | Semantic estimation systems, methods and programs |
| JPWO2019171538A1 (en) * | 2018-03-08 | 2021-03-04 | 日本電気株式会社 | Semantic estimation systems, methods and programs |
| US11948098B2 (en) | 2018-03-08 | 2024-04-02 | Nec Corporation | Meaning inference system, method, and program |
| CN112597154A (en) * | 2020-12-11 | 2021-04-02 | 广州橙行智动汽车科技有限公司 | Data storage method and device, electronic equipment and readable medium |
Also Published As
| Publication number | Publication date |
|---|---|
| JP5526057B2 (en) | 2014-06-18 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US11762926B2 (en) | Recommending web API's and associated endpoints | |
| US8468167B2 (en) | Automatic data validation and correction | |
| CN110427618B (en) | Countermeasure sample generation method, medium, device and computing equipment | |
| US10409820B2 (en) | Semantic mapping of form fields | |
| JP6663826B2 (en) | Computer and response generation method | |
| Gao et al. | The application and comparison of web services for sentiment analysis in tourism | |
| US9754176B2 (en) | Method and system for data extraction from images of semi-structured documents | |
| JP5526057B2 (en) | Data analysis support apparatus and program | |
| CN102971729B (en) | Attributing actionable attributes to personally identifiable data | |
| KR101426765B1 (en) | System and method for supplying collaboration partner search service | |
| US20180181544A1 (en) | Systems for Automatically Extracting Job Skills from an Electronic Document | |
| US11030533B2 (en) | Method and system for generating a transitory sentiment community | |
| JP2013105321A (en) | Document processing device, method of analyzing relationship between document constituents and program | |
| US20240221727A1 (en) | Voice recognition model training method, voice recognition method, electronic device, and storage medium | |
| JP2017041171A (en) | Test scenario generation support device and test scenario generation support method | |
| Haris et al. | Sentiment classification from reviews for tourism analytics | |
| JP2015118498A (en) | Program, apparatus and method for creating similar sentence with same intention | |
| US11836201B2 (en) | System and method for automated data screening for background verification | |
| JP5752073B2 (en) | Data correction device | |
| JPWO2014170965A1 (en) | Document processing method, document processing apparatus, and document processing program | |
| JP5439235B2 (en) | Document classification method, document classification device, and program | |
| CN115687979B (en) | Identification methods and devices, electronic devices, and storage media for specified technologies in threat intelligence | |
| JP2011198285A (en) | Document processing system and program | |
| JP6303508B2 (en) | Document analysis apparatus, document analysis system, document analysis method, and program | |
| JP2019061522A (en) | Document recommendation system, document recommendation method and document recommendation program |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20120905 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20130719 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130723 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130924 |
|
| RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20131205 |
|
| RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20131212 |
|
| RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20131219 |
|
| RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20131226 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20140107 |
|
| RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20140109 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20140220 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140318 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140414 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 5526057 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
| S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
| R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |