[go: up one dir, main page]

JP2010191914A - Characteristic pattern extraction device, characteristic pattern extraction method, classification support device, and classification support method - Google Patents

Characteristic pattern extraction device, characteristic pattern extraction method, classification support device, and classification support method Download PDF

Info

Publication number
JP2010191914A
JP2010191914A JP2009038428A JP2009038428A JP2010191914A JP 2010191914 A JP2010191914 A JP 2010191914A JP 2009038428 A JP2009038428 A JP 2009038428A JP 2009038428 A JP2009038428 A JP 2009038428A JP 2010191914 A JP2010191914 A JP 2010191914A
Authority
JP
Japan
Prior art keywords
pattern
candidate
item
class
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2009038428A
Other languages
Japanese (ja)
Inventor
Shigeaki Sakurai
茂明 櫻井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2009038428A priority Critical patent/JP2010191914A/en
Publication of JP2010191914A publication Critical patent/JP2010191914A/en
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To efficiently generate information available for decision making support. <P>SOLUTION: A characteristic pattern extraction device includes: a reception part 111 for receiving input of an item set associated with a class for classifying the set, the set including at least one item showing information to be analyzed; a candidate generation part 113 for generating a candidate pattern including at least one item included in the item set, which is a candidate of a characteristic pattern characteristic to a pattern of the item included in the item set; a characteristic extraction part 114 for calculating an appearance frequency of a candidate pattern in the item set associated with the class in each class, and extracting the characteristic pattern which is a candidate pattern satisfying a condition with the calculated appearance frequency set thereto in advance; and a display part 130 for outputting the extracted characteristic pattern. <P>COPYRIGHT: (C)2010,JPO&INPIT

Description

本発明は、特徴パターン抽出装置、特徴パターン抽出方法、分類支援装置および分類支援方法に関する。   The present invention relates to a feature pattern extraction device, a feature pattern extraction method, a classification support device, and a classification support method.

非特許文献1では、購入されたアイテムのリストを示すレシートを多数収集することにより、特定のアイテムやアイテム集合に関連して購入される他のアイテムやアイテム集合を明らかにする相関ルールを効率的に発見する技術が提案されている。   In Non-Patent Document 1, by collecting a large number of receipts indicating a list of purchased items, an efficient association rule that reveals other items or item sets to be purchased in relation to a specific item or item set is efficiently used. The technology to discover is proposed.

非特許文献1の発見法は、小売業等で用いられるレシートを想定して開発された手法であるが、同種のデータを持つ多様な分野に活用されている。また、このような方法で発見された相関ルールは意思決定支援に活用されている。   The discovery method disclosed in Non-Patent Document 1 is a technique developed on the assumption of receipts used in the retail industry and the like, but is used in various fields having the same kind of data. Moreover, the correlation rule discovered by such a method is utilized for decision support.

特許文献1では、データ群ごとに相関ルールを発見するとともに、データ群を被説明変数、相関ルールの条件部、および結論部に対応するアイテムを説明変数として統計処理を実施する技術が提案されている。また、特許文献1では、各アイテムに対する条件部スコアおよび結論部スコアを付与することにより、相関ルールを座標上に展開して、データ群の傾向の相違を視覚化する技術が提案されている。   Patent Document 1 proposes a technique for discovering a correlation rule for each data group, and performing statistical processing using the data group as an explanatory variable, an item corresponding to a condition part of the correlation rule, and an item corresponding to a conclusion part as an explanatory variable. Yes. Further, Patent Document 1 proposes a technique for visualizing the difference in the tendency of data groups by assigning a condition part score and a conclusion part score to each item so that the correlation rules are developed on coordinates.

特開2002−259127号公報JP 2002-259127 A

“Mining Sequential Patterns”, R. Agrawal and R. Srikant, Proc. 11th Int. Conf. on Data Engineering, pp. 3-14 (1995)“Mining Sequential Patterns”, R. Agrawal and R. Srikant, Proc. 11th Int. Conf. On Data Engineering, pp. 3-14 (1995)

しかしながら、非特許文献1の方法は、アイテム集合の中に内在する特徴的なパターンを発見する方法であり、当該パターン間に内在する関係を発見することはできなかった。特許文献1の方法を利用すれば、異なるデータ群から得られた相関ルールを視覚的に比較することができる。しかし、特許文献1の方法では、異なるデータ群の違いが、いずれの部分のアイテムやアイテム集合に起因するかは、利用者が判断する必要があった。すなわち、データ群の違いを説明する要因を自動的に抽出し、その違いをモデル化することはできなかった。   However, the method of Non-Patent Document 1 is a method for finding a characteristic pattern inherent in an item set, and cannot find an underlying relationship between the patterns. If the method of patent document 1 is utilized, the correlation rule obtained from a different data group can be compared visually. However, in the method of Patent Document 1, it is necessary for a user to determine which part of an item or item set is caused by a difference in different data groups. In other words, it was not possible to automatically extract the factors that explain the difference between the data groups and model the difference.

本発明は、上記に鑑みてなされたものであって、意思決定支援に利用可能な情報を効率的に生成することができる特徴パターン抽出装置、特徴パターン抽出方法、分類支援装置および分類支援方法を提供することを目的とする。   The present invention has been made in view of the above, and provides a feature pattern extraction device, a feature pattern extraction method, a classification support device, and a classification support method that can efficiently generate information that can be used for decision support. The purpose is to provide.

上述した課題を解決し、目的を達成するために、本発明は、分析対象となる情報を表す少なくとも1つのアイテムを含む集合であって、前記集合が分類されるクラスを対応づけたアイテム集合の入力を受付ける受付部と、前記アイテム集合に含まれるアイテムのパターンのうち特徴的なパターンを表す特徴パターンの候補であって、前記アイテム集合に含まれる少なくとも1つのアイテムを含む候補パターンを生成する候補生成部と、前記クラスごとに、前記クラスに対応づけられた前記アイテム集合での前記候補パターンの出現頻度を算出し、算出した前記出現頻度が予め定められた条件を満たす前記候補パターンである前記特徴パターンを抽出する特徴抽出部と、抽出された前記特徴パターンを出力する出力部と、を備えることを特徴とする。   In order to solve the above-described problems and achieve the object, the present invention is a set including at least one item representing information to be analyzed, the item set being associated with a class into which the set is classified. An accepting unit that accepts an input, and a candidate for generating a candidate pattern that is a candidate for a feature pattern that represents a characteristic pattern among item patterns included in the item set, and that includes at least one item included in the item set For each class, the generation unit calculates the appearance frequency of the candidate pattern in the item set associated with the class, and the calculated appearance frequency is the candidate pattern that satisfies a predetermined condition A feature extraction unit that extracts a feature pattern; and an output unit that outputs the extracted feature pattern; That.

また、本発明は、分析対象となる情報を表す少なくとも1つのアイテムを含む集合であって、前記集合が分類されるクラスを対応づけたアイテム集合の入力を受付ける受付部と、前記アイテム集合に含まれるアイテムのパターンのうち特徴的なパターンを表す特徴パターンの候補であって、前記アイテム集合に含まれる少なくとも1つのアイテムを含む候補パターンを生成する候補生成部と、前記クラスごとに、前記クラスに対応づけられた前記アイテム集合での前記候補パターンの出現頻度を算出し、算出した前記出現頻度が予め定められた条件を満たす前記候補パターンである前記特徴パターンを抽出する特徴抽出部と、前記アイテム集合それぞれについて、抽出された前記特徴パターンが前記アイテム集合に含まれているか否かを表す属性ベクトルを生成する属性生成部と、生成された前記属性ベクトルと、前記アイテム集合に対応づけられている前記クラスとに基づいて、前記アイテムを含む集合を前記クラスのいずれかに分類するための分類モデルを生成するモデル生成部と、生成された前記分類モデルを出力する出力部と、を備えることを特徴とする。   In addition, the present invention is a set including at least one item representing information to be analyzed, and includes an accepting unit that receives an input of an item set that associates a class to which the set is classified, and the item set includes A candidate generation unit that generates a candidate pattern including at least one item included in the item set, and a candidate generation unit that generates a candidate pattern including a characteristic pattern among the item patterns to be generated, A feature extraction unit that calculates an appearance frequency of the candidate pattern in the associated item set, and extracts the feature pattern that is the candidate pattern in which the calculated appearance frequency satisfies a predetermined condition; and the item For each set, indicates whether the extracted feature pattern is included in the item set For classifying a set including the item into one of the classes based on an attribute generation unit that generates a sex vector, the generated attribute vector, and the class associated with the item set A model generation unit that generates a classification model, and an output unit that outputs the generated classification model.

また、本発明は、上記装置で実行することができる方法である。   The present invention is also a method that can be performed by the above apparatus.

本発明によれば、意思決定支援に利用可能な情報を効率的に生成することができるという効果を奏する。   According to the present invention, it is possible to efficiently generate information that can be used for decision support.

図1は、第1の実施の形態にかかる特徴パターン抽出装置の構成の一例を示すブロック図である。FIG. 1 is a block diagram illustrating an example of the configuration of the feature pattern extraction apparatus according to the first embodiment. 図2は、入力データ記憶部に記憶されるデータのデータ構造の一例を示す図である。FIG. 2 is a diagram illustrating an example of a data structure of data stored in the input data storage unit. 図3は、候補記憶部に記憶されるデータのデータ構造の一例を示す図である。FIG. 3 is a diagram illustrating an example of a data structure of data stored in the candidate storage unit. 図4は、特徴記憶部に記憶されるデータのデータ構造の一例を示す図である。FIG. 4 is a diagram illustrating an example of a data structure of data stored in the feature storage unit. 図5は、第1の実施の形態における特徴パターン表示処理の全体の流れを示すフローチャートである。FIG. 5 is a flowchart showing the overall flow of the feature pattern display process in the first embodiment. 図6は、第1の実施の形態における特徴パターン抽出処理の全体の流れを示すフローチャートである。FIG. 6 is a flowchart showing the overall flow of the feature pattern extraction process in the first embodiment. 図7は、第1の実施の形態における特徴パターン抽出処理の全体の流れを示すフローチャートである。FIG. 7 is a flowchart showing an overall flow of the feature pattern extraction process in the first embodiment. 図8は、候補パターンおよびクラスの組に対して算出された出現頻度の一例を示す図である。FIG. 8 is a diagram illustrating an example of the appearance frequency calculated for a set of candidate patterns and classes. 図9は、算出される出現頻度の算出結果の一例を示す図である。FIG. 9 is a diagram illustrating an example of a calculation result of the calculated appearance frequency. 図10は、算出される出現頻度の算出結果の一例を示す図である。FIG. 10 is a diagram illustrating an example of a calculation result of the calculated appearance frequency. 図11は、算出される出現頻度の算出結果の一例を示す図である。FIG. 11 is a diagram illustrating an example of a calculation result of the calculated appearance frequency. 図12は、第2の実施の形態にかかる分類支援装置の構成の一例を示すブロック図である。FIG. 12 is a block diagram illustrating an example of the configuration of the classification support apparatus according to the second embodiment. 図13は、第2の実施の形態における分類支援処理の全体の流れを示すフローチャートである。FIG. 13 is a flowchart illustrating an overall flow of the classification support processing in the second embodiment. 図14は、生成される属性ベクトルの一例を示す図である。FIG. 14 is a diagram illustrating an example of the generated attribute vector. 図15は、生成される分類モデルの一例を示す図である。FIG. 15 is a diagram illustrating an example of the generated classification model. 図16は、第1または第2の実施の形態にかかる装置のハードウェア構成を示す説明図である。FIG. 16 is an explanatory diagram illustrating a hardware configuration of the device according to the first or second embodiment.

以下に添付図面を参照して、この発明にかかる特徴パターン抽出装置、特徴パターン抽出方法、分類支援装置および分類支援方法の最良な実施の形態を詳細に説明する。   Exemplary embodiments of a feature pattern extraction device, a feature pattern extraction method, a classification support device, and a classification support method according to the present invention will be explained below in detail with reference to the accompanying drawings.

(第1の実施の形態)
非特許文献1および特許文献1のような従来の相関ルールの発見方法では、特段の区別がない多数のアイテム集合を入力として与えることを前提としている。このため、与えられたアイテム集合が何らかの基準によって分類されているとしても、その分類を考慮してアイテム集合を分析することはできなかった。
(First embodiment)
In the conventional correlation rule finding methods such as Non-Patent Document 1 and Patent Document 1, it is assumed that a large number of item sets that are not particularly distinguished are given as inputs. For this reason, even if a given item set is classified according to some criteria, the item set cannot be analyzed in consideration of the classification.

しかし、購買された商品のアイテム集合と購買されなかったアイテム集合のように、アイテム集合が何らかの基準によって分類されているデータは多数存在している。このため、特定の分類基準で決定されているクラスを考慮して、特定のアイテム部分集合間の関係を分析することが求められていた。   However, there are many data in which item sets are classified according to some criteria, such as an item set of purchased products and an item set not purchased. For this reason, it has been required to analyze the relationship between specific item subsets in consideration of classes determined by specific classification criteria.

例えば、RFIDタグおよびRFIDリーダーの普及に伴って、レジでの商品購入というイベント(商品購入イベント)を認識するだけでなく、棚から取り出された商品が再び棚に返却されるといったイベントも認識可能となっている。このような返却に伴うイベントは、商品が購入されなかったことを示すイベント(商品未購入イベント)と解釈することができる。そして、この例では、例えば商品購入イベントと商品未購入イベントとの間にある特徴を分析することが求められていた。   For example, with the spread of RFID tags and RFID readers, not only the event of product purchase at a cash register (product purchase event), but also the event that a product taken out of a shelf is returned to the shelf again can be recognized It has become. An event associated with such a return can be interpreted as an event indicating that a product has not been purchased (a product not purchased event). In this example, for example, it is required to analyze characteristics between a product purchase event and a product non-purchase event.

そこで、第1の実施の形態にかかる特徴パターン抽出装置は、予め定められた分類基準により決定されるクラスが付与されたアイテム集合を元に、当該クラスを考慮して特徴パターンを抽出して出力する。   Therefore, the feature pattern extraction apparatus according to the first embodiment extracts and outputs a feature pattern in consideration of the class based on an item set to which a class determined by a predetermined classification criterion is assigned. To do.

なお、アイテムとは、分析対象となる情報を表すものであり、所定の属性の値を表す属性値によって特徴づけられる。例えば、購買される商品がアイテムに相当する。この場合は、各商品名が属性値に対応する。以下では商品をアイテムとする例について説明するが、アイテムは商品に限られるものではない。例えば、商品の色やサイズなどのように、商品を特徴付ける個々の特徴をアイテムとみなすこともできる。   Note that an item represents information to be analyzed, and is characterized by an attribute value representing a value of a predetermined attribute. For example, a product to be purchased corresponds to an item. In this case, each product name corresponds to an attribute value. Although the example which uses goods as an item is demonstrated below, an item is not restricted to goods. For example, individual features that characterize a product, such as the color and size of the product, can be regarded as items.

クラスとは、アイテムの集合(アイテム集合)を分類するための分類情報を表す。例えば、商品をアイテムとする場合は、アイテム集合に含まれる各商品が購入されたか、購入されなかったかによって、当該アイテム集合を分類することができる。この場合、アイテム集合は、例えば「購入」または「未購入」のいずれかのクラスに分類される。なお、クラスはこれに限られるものではなく、所定の分類基準でアイテム集合を分類できる情報であればあらゆる情報を適用できる。また、2つに分類されるクラスだけでなく、3つ以上に分類されるクラスを用いてもよい。   A class represents classification information for classifying a set of items (item set). For example, when a product is an item, the item set can be classified according to whether or not each product included in the item set is purchased. In this case, the item set is classified into a class of “purchased” or “not purchased”, for example. The class is not limited to this, and any information can be applied as long as the information can classify the item set according to a predetermined classification standard. In addition to the class classified into two, a class classified into three or more may be used.

特徴パターンとは、アイテム集合に含まれるアイテムを組み合わせたパターンのうち特徴的なパターンを表す。   The characteristic pattern represents a characteristic pattern among patterns obtained by combining items included in the item set.

図1は、第1の実施の形態にかかる特徴パターン抽出装置100の構成の一例を示すブロック図である。図1に示すように、特徴パターン抽出装置100は、入力データ記憶部121と、候補記憶部122と、特徴記憶部123と、特徴生成部110と、表示部130と、を備えている。   FIG. 1 is a block diagram illustrating an example of the configuration of the feature pattern extraction apparatus 100 according to the first embodiment. As illustrated in FIG. 1, the feature pattern extraction apparatus 100 includes an input data storage unit 121, a candidate storage unit 122, a feature storage unit 123, a feature generation unit 110, and a display unit 130.

入力データ記憶部121は、クラスが付与されたアイテム集合を記憶する。図2は、入力データ記憶部121に記憶されるデータのデータ構造の一例を示す図である。図2に示すように、入力データ記憶部121は、アイテム集合と、クラスとを対応づけたデータを記憶している。なお、同図では、説明の便宜上、アイテム集合を識別する識別情報(t〜t)を記載しているが、入力データ記憶部121にこのような識別情報を記憶する必要はない。 The input data storage unit 121 stores an item set to which classes are assigned. FIG. 2 is a diagram illustrating an example of a data structure of data stored in the input data storage unit 121. As shown in FIG. 2, the input data storage unit 121 stores data in which an item set is associated with a class. In the figure, for convenience of explanation, identification information (t 0 to t 9 ) for identifying an item set is described, but such identification information need not be stored in the input data storage unit 121.

図1に戻り、候補記憶部122は、特徴パターンの候補となるパターンとして、後述する候補生成部113によって生成される候補パターンのうち、次に生成される候補パターンの要素となる候補パターン(以下、候補要素という)を記憶する。具体的には、候補記憶部122は、後述する特徴抽出部114によって特徴パターンであるか否かを判定できなかった候補パターン(以下、未定パターンという)を候補要素として記憶する。   Returning to FIG. 1, the candidate storage unit 122 is a candidate pattern (hereinafter referred to as an element of a candidate pattern to be generated next) among candidate patterns generated by a candidate generation unit 113 described later as a pattern that is a candidate for a feature pattern. , Called candidate elements). Specifically, the candidate storage unit 122 stores, as candidate elements, candidate patterns (hereinafter referred to as undetermined patterns) for which it was not possible to determine whether or not the feature patterns are feature patterns by the feature extraction unit 114 described later.

図3は、候補記憶部122に記憶されるデータのデータ構造の一例を示す図である。同図に示すように、候補記憶部122は、未定パターンと判定された候補パターンである候補要素を記憶する。なお、同図では、アイテム数が1個の候補要素のみが記載されているが、処理経過に伴いアイテム数が順次増加された候補要素が、候補記憶部122に記憶されうる。   FIG. 3 is a diagram illustrating an example of a data structure of data stored in the candidate storage unit 122. As shown in the figure, the candidate storage unit 122 stores candidate elements that are candidate patterns determined to be undetermined patterns. In the figure, only a candidate element having one item is described, but candidate elements whose number of items is sequentially increased as the process progresses can be stored in the candidate storage unit 122.

図1に戻り、特徴記憶部123は、後述する特徴抽出部114によって抽出される特徴パターンを記憶する。図4は、特徴記憶部123に記憶されるデータのデータ構造の一例を示す図である。図4に示すように、特徴記憶部123は、抽出された特徴パターンと、当該特徴パターンが頻出したクラスを表す頻出クラスとを対応づけたデータを記憶している。   Returning to FIG. 1, the feature storage unit 123 stores a feature pattern extracted by a feature extraction unit 114 described later. FIG. 4 is a diagram illustrating an example of a data structure of data stored in the feature storage unit 123. As illustrated in FIG. 4, the feature storage unit 123 stores data in which extracted feature patterns are associated with frequent classes that represent classes in which the feature patterns frequently occur.

なお、入力データ記憶部121、候補記憶部122、および特徴記憶部123は、HDD(Hard Disk Drive)、光ディスク、メモリカード、RAM(Random Access Memory)などの一般的に利用されているあらゆる記憶媒体により構成することができる。   The input data storage unit 121, the candidate storage unit 122, and the feature storage unit 123 are all commonly used storage media such as an HDD (Hard Disk Drive), an optical disk, a memory card, and a RAM (Random Access Memory). Can be configured.

図1に戻り、特徴生成部110は、入力データ記憶部121に記憶されているデータから特徴パターンを抽出して特徴記憶部123に保存する。特徴生成部110は、受付部111と、分割部112と、候補生成部113と、特徴抽出部114とを備えている。   Returning to FIG. 1, the feature generation unit 110 extracts a feature pattern from the data stored in the input data storage unit 121 and stores it in the feature storage unit 123. The feature generation unit 110 includes a reception unit 111, a division unit 112, a candidate generation unit 113, and a feature extraction unit 114.

受付部111は、特徴パターンを抽出する対象となる入力データを受付ける。本実施の形態では、入力データ記憶部121に記憶されている、クラスが付与されたアイテム集合を特徴パターンの抽出対象データとして受付ける。なお、データの入力方法はこれに限られるものではない。例えば、外部装置(図示せず)に記憶されたデータを受付けるように構成してもよい。   The accepting unit 111 accepts input data from which a feature pattern is to be extracted. In the present embodiment, an item set to which a class is assigned and stored in the input data storage unit 121 is received as feature pattern extraction target data. The data input method is not limited to this. For example, you may comprise so that the data memorize | stored in the external device (not shown) may be received.

分割部112は、受付部111によって入力データ記憶部121から読み込まれたクラス付きアイテム集合を、クラスごとの部分集合に分割する。   The dividing unit 112 divides the item set with class read from the input data storage unit 121 by the receiving unit 111 into a subset for each class.

候補生成部113は、クラスごとのアイテムの部分集合からアイテムを抽出し、抽出したアイテムを含む候補パターンを生成する。また、候補生成部113は、候補記憶部122に記憶されている候補要素から、アイテムの一部が相互に異なる複数の候補要素を取得し、複数の候補要素間で共通するアイテムと、複数の候補要素間で異なるアイテムとを含む候補パターンを新たな候補パターンとして生成する。   The candidate generation unit 113 extracts an item from a subset of items for each class, and generates a candidate pattern including the extracted item. In addition, the candidate generation unit 113 acquires a plurality of candidate elements in which some of the items are different from each other from the candidate elements stored in the candidate storage unit 122, and a common item among the plurality of candidate elements, A candidate pattern including items that differ between candidate elements is generated as a new candidate pattern.

特徴抽出部114は、クラスごとに、当該クラスに対応づけられたアイテム集合内での各候補パターンの出現頻度を算出し、出現頻度が予め定められた条件を満たす候補パターンを特徴パターンとして抽出する。例えば、特徴抽出部114は、予め定められた頻度閾値より大きいか否かを、予め定められた条件として用いることができる。この場合、特徴抽出部114は、いずれかのクラスでの出現頻度が頻度閾値より大きく、それ以外のクラスでの出現頻度が頻度閾値以下である候補パターンを特徴パターンとして抽出する。特徴パターン抽出処理の詳細については後述する。   The feature extraction unit 114 calculates, for each class, the appearance frequency of each candidate pattern in the item set associated with the class, and extracts a candidate pattern that satisfies a predetermined condition of the appearance frequency as a feature pattern. . For example, the feature extraction unit 114 can use whether or not it is larger than a predetermined frequency threshold as a predetermined condition. In this case, the feature extraction unit 114 extracts candidate patterns whose appearance frequency in any class is greater than the frequency threshold and whose appearance frequency in other classes is equal to or less than the frequency threshold as a feature pattern. Details of the feature pattern extraction process will be described later.

表示部130は、抽出された特徴パターンを出力する出力部として機能する、ディスプレイ装置などの表示装置である。   The display unit 130 is a display device such as a display device that functions as an output unit that outputs the extracted feature pattern.

次に、このように構成された第1の実施の形態にかかる特徴パターン抽出装置100による特徴パターン表示処理について図5を用いて説明する。図5は、第1の実施の形態における特徴パターン表示処理の全体の流れを示すフローチャートである。   Next, a feature pattern display process performed by the feature pattern extraction apparatus 100 according to the first embodiment configured as described above will be described with reference to FIG. FIG. 5 is a flowchart showing the overall flow of the feature pattern display process in the first embodiment.

まず、受付部111が、入力データ記憶部121に格納されているクラス付きアイテム集合の中から、1つのクラス付きアイテム集合を読み込む(ステップS501)。次に、分割部112が、読み込まれたクラス付きアイテム集合のクラスを参照することにより、当該クラス付きアイテム集合をクラスごとの部分集合に分割する(ステップS502)。   First, the reception unit 111 reads one item set with class from the item set with class stored in the input data storage unit 121 (step S501). Next, the dividing unit 112 divides the class-added item set into subsets for each class by referring to the class of the read class-added item set (step S502).

例えば、図2に示すような入力データ記憶部121から、クラス付きアイテム集合t〜tが入力された場合、分割部112は、これらのアイテム集合をクラス「購入」に対応する部分集合に割り当てる。これに対して、クラス付きアイテム集合t〜tが入力された場合、分割部112は、これらのアイテム集合をクラス「未購入」に対応する部分集合に割り当てる。 For example, when the class-attached item sets t 0 to t 4 are input from the input data storage unit 121 as illustrated in FIG. 2, the dividing unit 112 converts these item sets into subsets corresponding to the class “purchase”. assign. On the other hand, when the class-attached item sets t 5 to t 9 are input, the dividing unit 112 assigns these item sets to the subsets corresponding to the class “unpurchased”.

次に、受付部111は、入力データ記憶部121に未処理のデータ(クラス付きアイテム集合)が存在するか否かを判断する(ステップS503)。未処理のクラス付きアイテム集合が存在する場合は(ステップS503:YES)、次のアイテム集合を読み込んで処理を繰り返す(ステップS501)。   Next, the reception unit 111 determines whether or not unprocessed data (item set with class) exists in the input data storage unit 121 (step S503). If there is an unprocessed item set with class (step S503: YES), the next item set is read and the process is repeated (step S501).

未処理のアイテム集合が存在しない場合(ステップS503:NO)、特徴生成部110が、クラス付きアイテム集合から、クラス付きアイテム集合を特徴付ける特徴パターンを発見する特徴パターン抽出処理を実行する(ステップS504)。   When there is no unprocessed item set (step S503: NO), the feature generation unit 110 executes a feature pattern extraction process for finding a feature pattern that characterizes the class-equipped item set from the class-added item set (step S504). .

例えば、入力データ記憶部121に、図2に示すクラス付きアイテム集合t〜tが格納されているとする。また、各アイテム集合が上から順に読み込まれるとする。このとき、t〜tのクラス付きアイテム集合が読み込まれた後の場合には、次の未処理のデータが読み込まれる(ステップS501)。これに対して、tのクラス付きアイテム集合が読み込まれた後の場合には、未処理のデータが存在しないため、特徴パターン抽出処理が実行される(ステップS504)。 For example, it is assumed that the input data storage unit 121 stores the class-attached item sets t 0 to t 9 shown in FIG. Also, assume that each item set is read sequentially from the top. At this time, if the item set with classes t 0 to t 8 has been read, the next unprocessed data is read (step S501). In contrast, if after the class with item set t 9 is loaded, because the raw data does not exist, the characteristic pattern extracting process is executed (step S504).

特徴パターン抽出処理では、抽出過程で生成される候補要素が候補記憶部122に格納される一方、発見された特徴パターンが特徴記憶部123に格納される。例えば、特徴パターン抽出処理により、図2のようなクラス付きアイテム集合から、図4に示す特徴パターン(p〜p11)が発見される。特徴パターン抽出処理の詳細については後述する。 In the feature pattern extraction process, candidate elements generated in the extraction process are stored in the candidate storage unit 122, while the found feature patterns are stored in the feature storage unit 123. For example, the feature pattern extraction process finds the feature patterns (p 0 to p 11 ) shown in FIG. 4 from the class-attached item set as shown in FIG. Details of the feature pattern extraction process will be described later.

特徴パターン抽出処理の後、表示部130が、抽出された特徴パターンを表示し(ステップS505)、特徴パターン表示処理を終了する。   After the feature pattern extraction process, the display unit 130 displays the extracted feature pattern (step S505) and ends the feature pattern display process.

例えば、表示部130は、図4に示すように、頻出クラスを対応づけて表形式で表した特徴パターンを表示する。これにより、ユーザは、アイテムの組み合わせのパターンが、いずれのクラスに分類されるかを判断することができる。   For example, as shown in FIG. 4, the display unit 130 displays feature patterns that are associated with frequent classes and are represented in a table format. Thus, the user can determine which class the combination pattern of items is classified into.

例えば、小売業の販売員であるユーザは、このような特徴パターンを参照することにより、同時に購入される商品(アイテム)を認識し、顧客に薦めることが可能となる。また、このような特徴パターンを参照することにより、ユーザは、例えば同時に購入される頻度が高い商品をより近い場所に配置するといったことが可能となる。このように、本実施の形態によれば、ユーザの意思決定支援に利用可能な情報を効率的に生成して表示することができる。   For example, a user who is a salesperson in a retail business can recognize a product (item) purchased at the same time and recommend it to a customer by referring to such a feature pattern. Further, by referring to such a feature pattern, the user can arrange, for example, products that are frequently purchased at a closer location. Thus, according to the present embodiment, it is possible to efficiently generate and display information that can be used for user decision support.

なお、特徴パターンの出力方法は、表示部130に表示する方法に限られるものではない。例えば、プリンタ等により紙媒体に出力するように構成してもよい。   Note that the feature pattern output method is not limited to the method of displaying on the display unit 130. For example, it may be configured to output to a paper medium by a printer or the like.

次に、ステップS504の特徴パターン抽出処理の詳細について図6および図7を用いて説明する。図6および図7は、第1の実施の形態における特徴パターン抽出処理の全体の流れを示すフローチャートである。   Next, details of the feature pattern extraction processing in step S504 will be described with reference to FIGS. 6 and 7 are flowcharts showing the overall flow of the feature pattern extraction process in the first embodiment.

まず、候補生成部113が、分割部112により分割された部分集合を構成するクラスを抽出し、抽出したクラスを含むクラス集合を生成する(ステップS601)。例えば、図2のようなクラス付きアイテム集合に対しては、「購入」および「未購入」を含むクラス集合が生成される。   First, the candidate generation unit 113 extracts classes constituting the subset divided by the division unit 112, and generates a class set including the extracted classes (step S601). For example, a class set including “purchased” and “not purchased” is generated for an item set with classes as shown in FIG.

次に、候補生成部113が、受付部111によって読み込まれたクラス付きアイテム集合を構成するアイテム集合の中から、未処理のアイテムを候補パターンとして1つ抽出する(ステップS602)。   Next, the candidate generation unit 113 extracts one unprocessed item as a candidate pattern from the item set constituting the class-added item set read by the reception unit 111 (step S602).

例えば、図2に示すようなクラス付きアイテム集合では、各アイテム集合は、「ジャケット」、「ジーンズ」、「ポロシャツ」、「Yシャツ」、「ジャンパー」、「スラックス」、「ベルト」、および「ネクタイ」といったアイテムから構成されている。このため、当該アイテムのいずれかのアイテムが未処理の場合は、そのアイテムが候補パターンとして取得される。   For example, in the item set with classes as shown in FIG. 2, each item set includes “jacket”, “jeans”, “polo shirt”, “Y shirt”, “jumper”, “slack”, “belt”, and “belt”. It consists of items such as “tie”. For this reason, when any item of the item is unprocessed, the item is acquired as a candidate pattern.

次に、特徴抽出部114が、ステップS601で生成されたクラス集合に含まれるクラスの中から、ステップS602で抽出された候補パターンに関して、クラスごとの出現頻度を算出していない1つのクラスを選択する(ステップS603)。例えば、「購入」および「未購入」のクラスが抽出されており、候補パターンであるアイテム「ジャケット」に関しては、いずれかのクラスでまだ出現頻度を算出していない場合には、そのクラスが取得される。   Next, the feature extraction unit 114 selects one class for which the appearance frequency for each class is not calculated for the candidate pattern extracted in step S602 from the classes included in the class set generated in step S601. (Step S603). For example, “purchased” and “unpurchased” classes are extracted, and for the item “jacket” that is a candidate pattern, if the appearance frequency has not been calculated for any class, that class is acquired. Is done.

次に、特徴抽出部114が、選択されたクラスと一致するクラスが付与されたアイテム集合に対して、ステップS602で抽出された候補パターンを含むアイテム集合の個数を算出し、当該候補パターンおよび当該クラスでの出現頻度とする(ステップS604)。   Next, the feature extraction unit 114 calculates the number of item sets including the candidate pattern extracted in step S602 for the item set to which the class that matches the selected class is assigned, and the candidate pattern and the The appearance frequency in the class is set (step S604).

例えば、図2のクラス付きアイテム集合で、アイテム「ジャケット」が候補パターンとして抽出され、クラス「購入」が選択されている場合、アイテム集合t〜tに「ジャケット」が含まれているため、出現頻度は5となる。 For example, when the item “jacket” is extracted as a candidate pattern and the class “purchase” is selected in the item set with class of FIG. 2, the item set t 0 to t 4 includes “jacket”. The appearance frequency is 5.

また、アイテム「ジャケット」が候補パターンとして抽出され、クラス「未購入」が選択されている場合には、アイテム集合t、t、およびtに「ジャケット」が含まれているため、出現頻度は3となる。 In addition, when the item “jacket” is extracted as a candidate pattern and the class “unpurchased” is selected, the item set t 5 , t 6 , and t 9 includes “jacket”, and thus appears. The frequency is 3.

図8は、このような手順により各候補パターンおよびクラスの組に対して算出された出現頻度の一例を示す図である。同図では、各候補パターンに対して算出された各クラスの出現頻度である購入頻度および未購入頻度が示されている。なお、判定結果とは、各候補パターンに対して、特徴抽出部114により判定されたパターン種別の判定結果を表す(詳細は後述)。また、同図のcj,kは、アイテム数がj個であるk+1番目の候補パターンであることを表す。 FIG. 8 is a diagram showing an example of the appearance frequency calculated for each candidate pattern and class set by such a procedure. In the figure, the purchase frequency and the non-purchase frequency, which are the appearance frequencies of each class, calculated for each candidate pattern are shown. Note that the determination result represents the determination result of the pattern type determined by the feature extraction unit 114 for each candidate pattern (details will be described later). Also, c j, k in the figure represents the (k + 1) th candidate pattern having j items.

次に、候補生成部113は、すべてのクラスを処理したか否かを判断する(ステップS605)。すべてのクラスを処理していない場合(ステップS605:NO)、次の未処理のクラスをクラス集合から取得して処理を繰り返す(ステップS603)。   Next, the candidate generation unit 113 determines whether or not all classes have been processed (step S605). If not all classes have been processed (step S605: NO), the next unprocessed class is acquired from the class set and the process is repeated (step S603).

すべてのクラスを処理した場合(ステップS605:YES)はステップS606へ進む。例えば、候補パターンであるアイテム「ジャケット」に関しては、「購入」および「未購入」の両方で出現頻度を算出済みの場合には、ステップS606に進む。   If all classes have been processed (step S605: YES), the process proceeds to step S606. For example, regarding the item “jacket” that is a candidate pattern, if the appearance frequency has been calculated for both “purchase” and “not purchased”, the process proceeds to step S606.

ステップS606では、特徴抽出部114が、候補パターンとして抽出されているアイテムに対して、クラスごとの出現頻度を参照することにより、当該候補パターンのパターン種別を決定する(ステップS606)。パターン種別とは、候補パターンが特徴パターンであるか否かを表す情報である。本実施の形態では、パターン種別には、特徴パターン、未定パターン、および非特徴パターンが含まれる。特徴抽出部114は、各候補パターンを、この3つのパターン種別のいずれかに決定する。   In step S606, the feature extraction unit 114 determines the pattern type of the candidate pattern by referring to the appearance frequency for each class for the item extracted as the candidate pattern (step S606). The pattern type is information indicating whether the candidate pattern is a feature pattern. In the present embodiment, the pattern type includes a feature pattern, an undetermined pattern, and a non-feature pattern. The feature extraction unit 114 determines each candidate pattern as one of these three pattern types.

例えば、特徴抽出部114は、2種類のクラスを対象としている場合であれば、一方のクラスで頻出し、他方のクラスでは頻出しない候補パターンを特徴パターンに決定する。また、特徴抽出部114は、両方のクラスで頻出する候補パターンを未定パターンに決定する。さらに、特徴抽出部114は、両方のクラスで頻出しない候補パターンを非特徴パターンに決定する。なお、パターン種別の判定方法はこれに限られるものではない。   For example, if two types of classes are targeted, the feature extraction unit 114 determines candidate patterns that appear frequently in one class and do not appear frequently in the other class as feature patterns. Also, the feature extraction unit 114 determines candidate patterns that appear frequently in both classes as undetermined patterns. Furthermore, the feature extraction unit 114 determines candidate patterns that do not appear frequently in both classes as non-feature patterns. Note that the pattern type determination method is not limited to this.

特徴抽出部114は、出現頻度が頻度閾値以上になる場合を、頻出すると判断する。例えば、図2のようなクラス付きアイテム集合が入力され、頻度閾値として2が設定されているとする。この場合、候補パターン「ジャケット」は両方のクラスで頻出しているため、未定パターンと判定される。また、候補パターン「ベルト」は、クラス「購入」で頻出していない一方、クラス「未購入」で頻出しているため、特徴パターンと判定される。   The feature extraction unit 114 determines that the appearance frequency is frequent when the appearance frequency is equal to or higher than the frequency threshold. For example, it is assumed that an item set with classes as shown in FIG. 2 is input and 2 is set as the frequency threshold. In this case, since the candidate pattern “jacket” appears frequently in both classes, it is determined as an undetermined pattern. Further, the candidate pattern “belt” does not appear frequently in the class “purchase”, but frequently appears in the class “not purchased”, and thus is determined as a feature pattern.

同様に、図8の各候補パターンに対しては、同図の判定結果の列に示すように、「ジーンズ」、「ポロシャツ」、「Yシャツ」、「ジャンパー」、および「スラックス」が未定パターンと判定され、「ネクタイ」が特徴パターンと判定される。   Similarly, for each candidate pattern in FIG. 8, “Jeans”, “Polo shirt”, “Y shirt”, “Jumper”, and “Slacks” are undetermined patterns as shown in the determination result column of FIG. And “tie” is determined as the feature pattern.

次に、特徴抽出部114は、決定されたパターン種別が特徴パターンであるか否かを判断する(ステップS607)。パターン種別が特徴パターンである場合(ステップS607:YES)、特徴抽出部114は、候補パターンを特徴パターンとして特徴記憶部123に保存する(ステップS608)。   Next, the feature extraction unit 114 determines whether or not the determined pattern type is a feature pattern (step S607). When the pattern type is a feature pattern (step S607: YES), the feature extraction unit 114 stores the candidate pattern as a feature pattern in the feature storage unit 123 (step S608).

パターン種別が特徴パターンでない場合(ステップS607:NO)、特徴抽出部114は、さらに、パターン種別が未定パターンであるか否かを判断する(ステップS609)。パターン種別が未定パターンの場合(ステップS609:YES)、特徴抽出部114は、候補パターンを候補要素として候補記憶部122に保存する(ステップS610)。   If the pattern type is not a feature pattern (step S607: NO), the feature extraction unit 114 further determines whether or not the pattern type is an undetermined pattern (step S609). When the pattern type is an undetermined pattern (step S609: YES), the feature extraction unit 114 stores the candidate pattern as a candidate element in the candidate storage unit 122 (step S610).

パターン種別が未定パターンでないと判断された場合(ステップS609:NO)、および、ステップS608またはステップS610で候補パターンを保存した後、候補生成部113は、すべてのアイテムを処理したか否かを判断する(ステップS611)。   If it is determined that the pattern type is not an undetermined pattern (step S609: NO), and after storing the candidate pattern in step S608 or step S610, the candidate generation unit 113 determines whether all items have been processed. (Step S611).

すべてのアイテムを処理していない場合(ステップS611:NO)、候補生成部113は、次の未処理のアイテムを候補パターンとして取得して処理を繰り返す(ステップS602)。   If all items have not been processed (step S611: NO), the candidate generation unit 113 acquires the next unprocessed item as a candidate pattern and repeats the process (step S602).

すべてのアイテムを処理した場合(ステップS611:YES)、候補生成部113は、候補長を延伸できるか否かを判断する(ステップS612)。なお、候補長とは、現在処理対象としている候補パターンに含まれるアイテムの個数をいう。この時点では、1つのアイテムを候補パターンとして抽出していたため、候補長は1である。   When all items have been processed (step S611: YES), the candidate generation unit 113 determines whether the candidate length can be extended (step S612). The candidate length refers to the number of items included in the candidate pattern currently being processed. At this time, one item is extracted as a candidate pattern, so the candidate length is 1.

候補生成部113は、候補長を延伸できるか否かを、2つ以上の候補要素が候補記憶部122に格納されているか否かにより判定する。候補要素が2つ以上格納されている場合は、候補長の延伸が可能と判定し(ステップS612:YES)、候補生成部113は、2つの候補要素を元に候補長を延伸した候補パターンを生成するために、以下の処理を実行する(ステップS613〜ステップS614)。例えば、図3の例では、6個の候補要素が記憶されているため、候補長の延伸が可能と判定される。   The candidate generation unit 113 determines whether or not the candidate length can be extended based on whether or not two or more candidate elements are stored in the candidate storage unit 122. When two or more candidate elements are stored, it is determined that the candidate length can be extended (step S612: YES), and the candidate generation unit 113 selects a candidate pattern obtained by extending the candidate length based on the two candidate elements. In order to generate, the following processing is executed (step S613 to step S614). For example, in the example of FIG. 3, since six candidate elements are stored, it is determined that the candidate length can be extended.

候補要素が2つ以上存在しない場合(ステップS612:NO)、候補長の延伸ができず、これ以上候補パターンを生成して特徴パターンを抽出することができないため、特徴パターン抽出処理を終了する。   If two or more candidate elements do not exist (step S612: NO), the candidate length cannot be extended, and no more candidate patterns can be generated and feature patterns can be extracted. Therefore, the feature pattern extraction process ends.

候補長の延伸が可能な場合(ステップS612:YES)、候補生成部113は、候補記憶部122に格納されている候補要素のうち、現在の候補長(以下、候補長kという)に一致した長さを有し、最後のアイテム以外のアイテム部分集合が一致している2つの候補要素からなる候補要素対を取り出す(ステップS613)。なお、候補長kが1の場合、すなわち、候補要素に1つのアイテムのみが含まれる場合は、アイテムが一致する候補要素対は存在しない。したがって、2つの候補要素の組み合わせのすべてを、候補要素対として取り出す。   When the candidate length can be extended (step S612: YES), the candidate generation unit 113 matches the current candidate length (hereinafter referred to as candidate length k) among the candidate elements stored in the candidate storage unit 122. A candidate element pair consisting of two candidate elements having a length and matching item subsets other than the last item is extracted (step S613). When the candidate length k is 1, that is, when the candidate element includes only one item, there is no candidate element pair with which the item matches. Therefore, all combinations of two candidate elements are extracted as candidate element pairs.

ただし、各候補要素に含まれるアイテムは予め定められた基準に基づく順序で整列されていることを前提とする。候補生成部113は、取り出された候補要素対に含まれるアイテムのうち、共通するk−1個のアイテムと、各候補要素で相互に異なるアイテムとを含む、候補長がk+1となる候補パターンを生成する。以下では、候補長がk+1となる候補パターンを(k+1)次候補パターンと呼称する。なお、当該(k+1)次候補パターンでも、各アイテムは上記基準に基づく順序で整列されているものとする。   However, it is assumed that items included in each candidate element are arranged in an order based on a predetermined criterion. The candidate generation unit 113 includes candidate patterns having a candidate length of k + 1, including k−1 items in common among items included in the extracted candidate element pairs and items different from each other in each candidate element. Generate. Hereinafter, a candidate pattern whose candidate length is k + 1 is referred to as a (k + 1) -th candidate pattern. In the (k + 1) next candidate pattern, it is assumed that the items are arranged in the order based on the above criteria.

候補要素対を取り出した後(ステップS613)、候補生成部113は、候補要素対に含まれる2つの候補要素から、新たな候補パターンを生成する(ステップS614)。   After extracting the candidate element pair (step S613), the candidate generating unit 113 generates a new candidate pattern from the two candidate elements included in the candidate element pair (step S614).

例えば、現在の候補長kが1であり、候補記憶部122に格納されている候補要素の中から、「ジャケット」および「ジーンズ」が条件を満たす候補要素対として抽出されるとする。なお、以下では、各アイテムには、「ジャケット」、「ジーンズ」、「ポロシャツ」、「Yシャツ」、「ジャンパー」、「スラックス」、「ベルト」、および「ネクタイ」の順で整列するという整列基準が設定されているものとする。   For example, it is assumed that the current candidate length k is 1, and “jacket” and “jeans” are extracted from the candidate elements stored in the candidate storage unit 122 as candidate element pairs that satisfy the condition. In the following, each item is arranged in the order of “jacket”, “jeans”, “polo shirt”, “Y shirt”, “jumper”, “slacks”, “belt”, and “tie”. Assume that standards are set.

この場合、候補生成部113は、2つの候補要素間で異なるアイテムである「ジャケット」および「ジーンズ」を含む候補パターン「(ジャケット,ジーンズ)」を、新たな2次候補パターンとして生成する。   In this case, the candidate generation unit 113 generates a candidate pattern “(jacket, jeans)” including “jacket” and “jeans”, which are different items between two candidate elements, as a new secondary candidate pattern.

また、例えば、現在の候補長kが2であり、「(ジャケット,ジーンズ)」および「(ジャケット,Yシャツ)」が条件を満たす候補要素対として抽出されるとする。このとき、候補生成部113は、当該候補要素対から「(ジャケット,ジーンズ,Yシャツ)」といった3次候補パターンを生成することができる。   For example, it is assumed that the current candidate length k is 2, and “(jacket, jeans)” and “(jacket, Y shirt)” are extracted as candidate element pairs that satisfy the condition. At this time, the candidate generation unit 113 can generate a tertiary candidate pattern such as “(jacket, jeans, Y shirt)” from the candidate element pair.

さらに、現在の候補長kが3であり、「(ジャケット,ジーンズ,Yシャツ)」および「(ジャケット,ジーンズ, ジャンパー)」が条件を満たす候補要素対として抽出されるとする。このとき、候補生成部113は、当該候補要素対から「(ジャケット,ジーンズ,Yシャツ,ジャンパー)」といった4次候補パターンを生成することができる。   Further, it is assumed that the current candidate length k is 3, and “(jacket, jeans, Y shirt)” and “(jacket, jeans, jumper)” are extracted as candidate element pairs that satisfy the conditions. At this time, the candidate generation unit 113 can generate a quaternary candidate pattern such as “(jacket, jeans, Y shirt, jumper)” from the candidate element pair.

ステップS615からステップS622までは、ステップS603からステップS610までと同様の処理なので、詳細な説明を省略する。すなわち、ステップS603からステップS610では、1つのアイテムからなる候補パターンから特徴パターンを抽出していたのに対し、ステップS615からステップS622では、候補長を2以上に延伸した候補パターンから特徴パターンを抽出する。   Since steps S615 to S622 are the same as steps S603 to S610, detailed description thereof is omitted. That is, from step S603 to step S610, a feature pattern was extracted from a candidate pattern consisting of one item, whereas from step S615 to step S622, a feature pattern was extracted from a candidate pattern whose candidate length was extended to 2 or more. To do.

例えばステップS616の出現頻度算出処理では、候補パターン「(ジャケット,ジーンズ)」、クラス「購入」の場合であれば、出現頻度が3と計算される(図2参照)。また、候補パターン「(ジャケット,ジーンズ)」、クラス「未購入」の場合は、出現頻度は2と計算される。   For example, in the appearance frequency calculation process in step S616, if the candidate pattern is “(jacket, jeans)” and class “purchase”, the appearance frequency is calculated as 3 (see FIG. 2). In the case of the candidate pattern “(jacket, jeans)” and the class “not purchased”, the appearance frequency is calculated as 2.

図9〜図11は、このような手順により算出される出現頻度の算出結果の一例を示す図である。図9は、2次候補パターンc2,0〜c2,14に対する各クラスでの出現頻度を表している。図10は、3次候補パターンc3,0〜c3,3に対する各クラスでの出現頻度を表している。図11は、4次候補パターンc4,0に対する各クラスでの出現頻度を表している。 9 to 11 are diagrams illustrating an example of the calculation result of the appearance frequency calculated by such a procedure. FIG. 9 shows the appearance frequency in each class for the secondary candidate patterns c 2,0 to c 2,14 . FIG. 10 shows the appearance frequency in each class for the tertiary candidate patterns c 3,0 to c 3,3 . FIG. 11 shows the appearance frequency in each class for the quaternary candidate pattern c 4,0 .

また、例えばステップS619〜ステップS622のパターン種別判定処理では、頻度閾値として2が設定されている場合、図9〜図11に示す各候補パターンに対して、各図の判定結果の列に示す判定結果が得られる。   Further, for example, in the pattern type determination process in step S619 to step S622, when 2 is set as the frequency threshold, the determination shown in the determination result column of each figure for each candidate pattern shown in FIGS. Results are obtained.

パターン種別判定処理の後、候補生成部113は、すべての候補要素を処理したか否かを判断する(ステップS623)。すべての候補要素を処理していない場合(ステップS623:NO)、候補生成部113は、条件を満たす別の候補要素対を取得して処理を繰り返す(ステップS613)。すべての候補要素を処理した場合(ステップS623:YES)、候補生成部113は、さらに候補長を延伸できるか否かを判断する(ステップS612)。   After the pattern type determination process, the candidate generation unit 113 determines whether all candidate elements have been processed (step S623). If all candidate elements have not been processed (step S623: NO), the candidate generation unit 113 acquires another candidate element pair that satisfies the condition and repeats the process (step S613). When all candidate elements have been processed (step S623: YES), the candidate generation unit 113 determines whether the candidate length can be further extended (step S612).

すなわち、候補生成部113は、現在の候補長と一致する候補長を持つ2つ以上の候補要素が候補記憶部122に格納されているか否かを判定する。例えば、現在の候補長が2で、図9のような候補パターンが生成されている場合は、候補長が2となる未定パターンが6個存在しているため、候補長の延伸が可能と判定される。また、現在の候補長が3で、図10のような候補パターンが生成されている場合は、候補長が3となる未定パターンが2個存在しているため、候補長の延伸が可能と判定される。一方、現在の候補長が4で、図11のような候補パターンが生成されている場合は、候補長が4となる未定パターンが1個しか存在しないため、候補長の延伸が不能と判定される。   That is, the candidate generation unit 113 determines whether or not two or more candidate elements having a candidate length that matches the current candidate length are stored in the candidate storage unit 122. For example, if the current candidate length is 2 and a candidate pattern as shown in FIG. 9 is generated, there are 6 undetermined patterns with a candidate length of 2, so it is determined that the candidate length can be extended. Is done. If the current candidate length is 3 and a candidate pattern as shown in FIG. 10 is generated, it is determined that the candidate length can be extended because there are two undetermined patterns with a candidate length of 3. Is done. On the other hand, if the current candidate length is 4 and a candidate pattern as shown in FIG. 11 is generated, there is only one undetermined pattern with a candidate length of 4, so it is determined that the candidate length cannot be extended. The

以上に説明した処理を実施することにより、各クラスで傾向の異なるパターンを特徴パターンとして抽出することができる。当該特徴パターンは、各クラスでの傾向が異なるため、クラス間の違いを識別するための特徴量としては妥当なものと考えられる。   By performing the processing described above, patterns having different trends in each class can be extracted as feature patterns. Since the feature pattern has a different tendency in each class, it is considered that the feature pattern is appropriate as a feature amount for identifying a difference between classes.

なお、これまではクラスの種類が2種類の場合を例に説明したが、3種類以上のクラスを対象とすることが可能である。この場合は、例えば、2つのクラスの個数に関する閾値である下限個数Th1と、上限個数Th2とを設定する。そして、Th1以上かつTh2以下の個数内のクラスで頻出する一方、残りのクラスで頻出しない場合を特徴パターン、Th2を超える個数のクラスで頻出する一方、残りのクラスで頻出しない場合を未定パターン、Th1より小さい個数のクラスで頻出する一方、残りのクラスで頻出しない場合を非特徴パターンと判定するといった判定基準を用いることができる。   Although the case where there are two types of classes has been described as an example, three or more types of classes can be targeted. In this case, for example, a lower limit number Th1 and an upper limit number Th2 that are threshold values for the number of two classes are set. A characteristic pattern that appears frequently in classes within the number of Th1 or more and Th2 or less, but does not occur frequently in the remaining classes, an undetermined pattern that occurs frequently in classes exceeding the number Th2, but does not occur frequently in the remaining classes, A criterion that determines that a non-feature pattern is frequently used when the number of classes that are smaller than Th1 appears frequently but does not occur frequently in the remaining classes can be used.

このように、第1の実施の形態にかかる特徴パターン抽出装置では、多数のクラス付きアイテム集合を入力とすることにより、アイテム集合を特徴付けるアイテム部分集合とクラスとの間の関係を明らかにするための特徴パターンを抽出することができる。これにより、意思決定支援に利用可能な情報である特徴パターンを効率的に生成することができる。   As described above, in the feature pattern extraction apparatus according to the first embodiment, in order to clarify the relationship between the item subset characterizing the item set and the class by inputting a large number of item sets with classes. Feature patterns can be extracted. Thereby, it is possible to efficiently generate a feature pattern that is information that can be used for decision support.

(第2の実施の形態)
第2の実施の形態にかかる分類支援装置は、第1の実施の形態と同様の手法により抽出された特徴パターンからの有無に基づいて、アイテム集合をいずれかのクラスに分類するための分類モデルを生成する。すなわち、第2の実施の形態では、異なる条件の下で収集された複数のアイテム集合を、各条件に応じたクラスが付与されたクラス付きアイテム集合とし、当該クラス付きアイテム集合間でのクラスの差異の原因と考えられる分類モデルを学習する。そしてこの分類モデルにより、当該アイテムを扱う分野での人間の意思決定を支援可能とする。
(Second Embodiment)
The classification support apparatus according to the second embodiment is a classification model for classifying an item set into any class based on presence / absence from a feature pattern extracted by the same method as in the first embodiment. Is generated. That is, in the second embodiment, a plurality of item sets collected under different conditions are defined as class-attached item sets to which classes according to each condition are assigned, and the class sets between the class-added item sets are changed. Learn classification models that are considered to be the cause of differences. This classification model makes it possible to support human decision making in the field where the item is handled.

図12は、第2の実施の形態にかかる分類支援装置200の構成の一例を示すブロック図である。図12に示すように、分類支援装置200は、入力データ記憶部121と、候補記憶部122と、特徴記憶部123と、特徴生成部110と、表示部230と、属性生成部241と、事例生成部242と、モデル生成部243と、モデル記憶部224と、を備えている。   FIG. 12 is a block diagram illustrating an example of a configuration of the classification support apparatus 200 according to the second embodiment. As illustrated in FIG. 12, the classification support apparatus 200 includes an input data storage unit 121, a candidate storage unit 122, a feature storage unit 123, a feature generation unit 110, a display unit 230, an attribute generation unit 241, and an example. A generation unit 242, a model generation unit 243, and a model storage unit 224 are provided.

第2の実施の形態では、表示部230の機能と、属性生成部241、事例生成部242、モデル生成部243、およびモデル記憶部224を追加したことが第1の実施の形態と異なっている。その他の構成および機能は、第1の実施の形態にかかる特徴パターン抽出装置100の構成を表すブロック図である図1と同様であるので、同一符号を付し、ここでの説明は省略する。   The second embodiment is different from the first embodiment in that the function of the display unit 230 and the addition of an attribute generation unit 241, a case generation unit 242, a model generation unit 243, and a model storage unit 224 are added. . Other configurations and functions are the same as those in FIG. 1 which is a block diagram showing the configuration of the feature pattern extraction apparatus 100 according to the first embodiment.

属性生成部241は、クラス付きアイテム集合、および、抽出された特徴パターンを参照し、アイテム集合が特徴パターンを含むか否かを表すベクトルである属性ベクトルを生成する。この属性ベクトルでは、特徴パターンが属性に相当し、特徴パターンを含むか否かを表す情報(例えば、1(含む)、0(含まない))が属性値に相当する。   The attribute generation unit 241 refers to the item set with class and the extracted feature pattern, and generates an attribute vector that is a vector indicating whether the item set includes a feature pattern. In this attribute vector, the feature pattern corresponds to an attribute, and information indicating whether or not the feature pattern is included (for example, 1 (included), 0 (not included)) corresponds to the attribute value.

事例生成部242は、属性生成部241によって生成された属性ベクトルと、属性ベクトルに対応するアイテム集合に付与されたクラスとを対応づけた情報である事例の集合(事例集合)を生成する。   The case generation unit 242 generates a set of cases (case set) that is information in which the attribute vector generated by the attribute generation unit 241 is associated with the class assigned to the item set corresponding to the attribute vector.

モデル生成部243は、事例生成部242によって生成された事例集合から分類モデルを生成する。具体的には、モデル生成部243は、生成された事例集合を学習事例の集合とみなし、この事例集合に帰納学習法を適応することにより、属性(特徴パターン)によってクラスを識別する分類モデルを学習する。   The model generation unit 243 generates a classification model from the case set generated by the case generation unit 242. Specifically, the model generation unit 243 regards the generated case set as a set of learning cases, and applies a recursive learning method to the case set to identify a classification model that identifies a class by attribute (feature pattern). learn.

例えば、モデル生成部243は、学習事例の集合から木構造の分類モデルを学習するID3(“Induction of Decision Trees”, J. R. Quinlan, Machine Learning, vol. 1, no. 1,pp. 81-106 (1986))を用いて、事例集合から分類モデルを生成することができる。なお、適用可能な帰納学習法はID3に限られず、SVM(Support Vector Machine)、およびニューラルネットワークなどの他の帰納学習法を適用するように構成してもよい。   For example, the model generation unit 243 learns a tree structure classification model from a set of learning cases, ID3 (“Induction of Decision Trees”, JR Quinlan, Machine Learning, vol. 1, no. 1, pp. 81-106 ( 1986)) can be used to generate a classification model from a set of cases. The applicable inductive learning method is not limited to ID3, and other inductive learning methods such as SVM (Support Vector Machine) and a neural network may be applied.

モデル記憶部224は、モデル生成部243によって生成された分類モデルを記憶する。表示部230は、さらに生成された分類モデルを表示する点が、第1の実施の形態の表示部130と異なっている。   The model storage unit 224 stores the classification model generated by the model generation unit 243. The display unit 230 is different from the display unit 130 of the first embodiment in that the generated classification model is displayed.

次に、このように構成された第2の実施の形態にかかる分類支援装置200による分類支援処理について図13を用いて説明する。分類支援処理とは、抽出された特徴パターンから分類モデルを生成し、生成した分類モデルを表示することにより、ユーザがアイテム集合をクラスに分類することを支援可能とする処理をいう。図13は、第2の実施の形態における分類支援処理の全体の流れを示すフローチャートである。   Next, a classification support process performed by the classification support apparatus 200 according to the second embodiment configured as described above will be described with reference to FIG. The classification support process is a process that enables a user to assist in classifying an item set into a class by generating a classification model from the extracted feature patterns and displaying the generated classification model. FIG. 13 is a flowchart illustrating an overall flow of the classification support processing in the second embodiment.

ステップS1201からステップS1204までは、第1の実施の形態にかかる特徴パターン抽出装置100におけるステップS501からステップS504までと同様の処理なので、その説明を省略する。   Steps S1201 to S1204 are the same as steps S501 to S504 in the feature pattern extraction apparatus 100 according to the first embodiment, and thus the description thereof is omitted.

第1の実施の形態と同様の手順により特徴パターンを抽出した後、受付部111が、入力データ記憶部121に格納されているクラス付きアイテム集合の中から、1つのクラス付きアイテム集合を再度読み込む(ステップS1205)。   After extracting the feature pattern by the same procedure as in the first embodiment, the accepting unit 111 rereads one item set with class from the item set with class stored in the input data storage unit 121. (Step S1205).

次に、属性生成部241が、読み込まれたクラス付きアイテム集合、および、特徴記憶部123に格納されている特徴パターンを参照することにより、アイテム集合が特徴パターンを含むか否かを判定して、特徴パターンを含むか否かを表現する属性ベクトルを生成する(ステップS1206)。   Next, the attribute generation unit 241 determines whether the item set includes a feature pattern by referring to the read item set with class and the feature pattern stored in the feature storage unit 123. Then, an attribute vector expressing whether or not a feature pattern is included is generated (step S1206).

例えば、図2のようなクラス付きアイテム集合の中からtが読み込まれ、図4に示す特徴パターンが抽出されているとする。このとき、属性生成部241は、tを構成するアイテム集合が特徴パターンpおよびpを含んでいると判定する。pを構成するアイテムである「ジャケット」および「ポロシャツ」が、tを構成するアイテム集合の一部であり、pを構成するアイテムである「ジーンズ」および「ポロシャツ」が、tを構成するアイテム集合の一部であるためである。 For example, it is assumed that t 0 is read from the class-equipped item set as shown in FIG. 2 and the feature pattern shown in FIG. 4 is extracted. At this time, the attribute generation unit 241 determines that the item set constituting t 0 includes the feature patterns p 2 and p 4 . “Jacket” and “Polo shirt” which are items constituting p 2 are part of the item set constituting t 0 , and “Jeans” and “Polo shirt” which are items constituting p 4 are t 0 . This is because it is a part of the item set to be configured.

一方、図4のその他の特徴パターンに関しては、各特徴パターンを構成するアイテムのうち、少なくとも1つがtを構成するアイテム集合に含まれていない。このため、属性生成部241は、tを構成するアイテム集合が、当該特徴パターンを含んでいないと判定する。例えば、p10の場合は、p10を構成するアイテムである「ジャンパー」が、tを構成するアイテムではないため、属性生成部241は、tは特徴パターンp10を含んでいないと判定する。 On the other hand, with respect to other characteristic pattern of FIG. 4, among the items that make up each feature pattern, at least one is not included in the item set constituting the t 0. Therefore, attribute generation unit 241 determines that the item set forming a t 0 does not include the feature pattern. For example, the determination in the case of p 10, an item composing the p 10 "jumpers" are not the items that make up the t 0, attribute generation unit 241, and t 0 does not include a feature pattern p 10 To do.

そして、属性生成部241は、例えば、特徴パターンを含んでいる場合を1、含んでいない場合を0によって表現した属性ベクトルを生成する。図14は、生成される属性ベクトルの一例を示す図である。図14は、図2のようなクラス付きアイテム集合が入力され、図4に示す特徴パターンが抽出されている場合に生成される属性ベクトルの例を示している。例えば、図14のtの属性部分に示すベクトル(0、0、1、0、1、0、0、0、0、0、0、0)が、tに対する属性ベクトルを表す。 Then, for example, the attribute generation unit 241 generates an attribute vector expressing 1 when the feature pattern is included and 0 when the feature pattern is not included. FIG. 14 is a diagram illustrating an example of the generated attribute vector. FIG. 14 shows an example of the attribute vector generated when the class-equipped item set as shown in FIG. 2 is input and the feature pattern shown in FIG. 4 is extracted. For example, the vector (0, 0 , 1, 0 , 1, 0 , 0 , 0 , 0 , 0 , 0 , 0) shown in the attribute part of t 0 in FIG. 14 represents the attribute vector for t 0 .

図13に戻り、事例生成部242は、生成された属性ベクトルと、属性ベクトルを生成したアイテム集合に付与されたクラスとを組にすることにより事例を生成する(ステップS1207)。   Returning to FIG. 13, the case generation unit 242 generates a case by combining the generated attribute vector and the class assigned to the item set that generated the attribute vector (step S1207).

例えば、クラス付きアイテム集合としてtを処理対象としている場合には、事例生成部242は、図14のtの属性ベクトルと、クラス欄に記載されたクラス「購入」とを対応づけた事例を生成する。 For example, when t 0 is a processing target as an item set with class, the case generation unit 242 associates the attribute vector of t 0 in FIG. 14 with the class “purchase” described in the class column. Is generated.

次に、受付部111が、未処理のデータが存在するか否かを判断し(ステップS1208)、存在する場合は(ステップS1208:YES)、次の未処理のアイテム集合を入力して処理を繰り返す(ステップS1205)。例えば、図2のクラス付きアイテム集合と図4の特徴パターンに対して処理が繰り返し実施されることにより、最終的に図14に示す事例集合が生成される。   Next, the reception unit 111 determines whether or not unprocessed data exists (step S1208). If there is (step S1208: YES), the next unprocessed item set is input to perform processing. Repeat (step S1205). For example, the case set shown in FIG. 14 is finally generated by repeatedly performing the process on the item set with class shown in FIG. 2 and the feature pattern shown in FIG.

未処理のデータが存在しない場合(ステップS1208:NO)、モデル生成部243が、生成された事例集合を学習事例の集合とみなして、帰納学習法に適応することにより、属性(特徴パターン)によってクラスを識別する分類モデルを学習する(ステップS1209)。また、モデル生成部243は、学習した分類モデルをモデル記憶部224に格納する。   When there is no unprocessed data (step S1208: NO), the model generation unit 243 regards the generated case set as a set of learning cases and adapts it to the inductive learning method, thereby changing the attribute (feature pattern). A classification model for identifying a class is learned (step S1209). The model generation unit 243 stores the learned classification model in the model storage unit 224.

図15は、生成される分類モデルの一例を示す図である。図15は、図14の事例集合から生成される分類モデルの例を示している。同図では、白抜きの楕円によって表現されている分岐ノードに、属性(特徴パターン)のうちの1つが割り当てられており、灰色の楕円によって表現されている末端ノードに、クラスのうちの1つが割り当てられている。また、ノード間を結ぶ線が枝を表しており、当該枝には上位に位置付けられている属性の属性値のうちの1つが割り当てられている。   FIG. 15 is a diagram illustrating an example of the generated classification model. FIG. 15 shows an example of a classification model generated from the case set of FIG. In the figure, one of the attributes (feature patterns) is assigned to the branch node represented by the white ellipse, and one of the classes is assigned to the end node represented by the gray ellipse. Assigned. In addition, a line connecting the nodes represents a branch, and one of attribute values of attributes positioned at the upper level is assigned to the branch.

同図は、特徴パターンpを含むならばクラスは未購入、特徴パターンpを含まず特徴パターンpを含むならばクラスは購入、特徴パターンpおよびpを含まず、特徴パターンpを含むならばクラスは購入、特徴パターンp、p、およびpのいずれも含まないならばクラスは未購入、という意味を有する分類モデルの例を示している。 The figure, if it classes not purchased includes a feature pattern p 1, if including feature pattern p 4 does not contain the characteristic pattern p 1 class purchased, does not contain the characteristic pattern p 1 and p 4, characteristic patterns p 3 shows an example of a classification model that means that if 3 is included, the class is purchased, and if none of the feature patterns p 1 , p 4 , and p 3 is included, the class is not purchased.

図13に戻り、表示部230は、生成された分類モデルを表示し(ステップS1210)、分類支援処理を終了する。   Returning to FIG. 13, the display unit 230 displays the generated classification model (step S1210), and ends the classification support process.

例えば図15のような分類モデルを表示することにより、ユーザは、アイテムの組み合わせのパターンが、いずれのクラスに分類されるかを判断することができる。例えば、小売業の販売員であるユーザは、このような分類モデルを参照することにより、同時に購入される商品(アイテム)を認識し、顧客に薦めることが可能となる。   For example, by displaying the classification model as shown in FIG. 15, the user can determine which class the combination pattern of items is classified into. For example, a user who is a salesperson in a retail business can recognize a product (item) purchased at the same time and recommend it to a customer by referring to such a classification model.

また、例えば、顧客が購入しようとしている商品をリアルタイムで入力するとともに、分類モデルを参照して、入力された商品と同時に購入される可能性が高い他の商品を求め、販売員であるユーザに提示するように構成してもよい。これにより、ユーザは、顧客の行動に応じて顧客に薦めるべき商品をリアルタイムで把握できる。   In addition, for example, a customer inputs a product to be purchased in real time and refers to a classification model for other products that are likely to be purchased at the same time as the input product. You may comprise so that it may show. Thereby, the user can grasp | ascertain the goods which should be recommended to a customer according to a customer's action in real time.

このように、第2の実施の形態にかかる分類支援装置では、多数のクラス付きアイテム集合を入力し、アイテム集合を特徴付けるアイテム部分集合とクラスとの間の関係を明らかにする分類モデルを学習することができる。このため、従来の相関ルールの発見法では考慮できなかった、アイテム集合のクラスを考慮した分析を行うことができる。   As described above, the classification support apparatus according to the second embodiment inputs a large number of item sets with classes, and learns a classification model that clarifies the relationship between the item subsets that characterize the item sets and the classes. be able to. For this reason, it is possible to perform an analysis in consideration of the class of the item set, which cannot be considered in the conventional association rule finding method.

次に、第1または第2の実施の形態にかかる各装置(特徴パターン抽出装置、分類支援装置)のハードウェア構成について図16を用いて説明する。図16は、第1または第2の実施の形態にかかる装置のハードウェア構成を示す説明図である。   Next, the hardware configuration of each device (feature pattern extraction device, classification support device) according to the first or second embodiment will be described with reference to FIG. FIG. 16 is an explanatory diagram illustrating a hardware configuration of the device according to the first or second embodiment.

第1または第2の実施の形態にかかる装置は、CPU(Central Processing Unit)51などの制御装置と、ROM(Read Only Memory)52やRAM53などの記憶装置と、ネットワークに接続して通信を行う通信I/F54と、HDD(Hard Disk Drive)、CD(Compact Disc)ドライブ装置などの外部記憶装置と、ディスプレイ装置などの表示装置と、キーボードやマウスなどの入力装置と、各部を接続するバス61を備えており、通常のコンピュータを利用したハードウェア構成となっている。   The apparatus according to the first or second embodiment communicates with a control device such as a CPU (Central Processing Unit) 51 and a storage device such as a ROM (Read Only Memory) 52 and a RAM 53 by connecting to a network. A bus 61 that connects the communication I / F 54, an external storage device such as an HDD (Hard Disk Drive) and a CD (Compact Disc) drive device, a display device such as a display device, an input device such as a keyboard and a mouse, and the like. And has a hardware configuration using a normal computer.

第1または第2の実施の形態にかかる装置で実行されるプログラムは、インストール可能な形式又は実行可能な形式のファイルでCD−ROM(Compact Disk Read Only Memory)、FD(Floppy(登録商標)Disk)、CD−R(Compact Disk Recordable)、DVD(Digital Versatile Disk)等のコンピュータで読み取り可能な記録媒体に記録されてコンピュータプログラムプロダクトとして提供される。   A program executed by the apparatus according to the first or second embodiment is an installable or executable file, which is a CD-ROM (Compact Disk Read Only Memory) or FD (Floppy (registered trademark) Disk). ), A CD-R (Compact Disk Recordable), a DVD (Digital Versatile Disk), and the like, recorded on a computer-readable recording medium and provided as a computer program product.

また、第1または第2の実施の形態にかかる装置で実行されるプログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成してもよい。また、第1または第2の実施の形態にかかる装置で実行されるプログラムをインターネット等のネットワーク経由で提供または配布するように構成してもよい。   Further, the program executed by the apparatus according to the first or second embodiment may be stored on a computer connected to a network such as the Internet and provided by being downloaded via the network. Good. The program executed by the device according to the first or second embodiment may be provided or distributed via a network such as the Internet.

また、第1または第2の実施の形態にかかる装置で実行されるプログラムを、ROM等に予め組み込んで提供するように構成してもよい。   The program executed by the apparatus according to the first or second embodiment may be configured to be provided by being incorporated in advance in a ROM or the like.

第1または第2の実施の形態にかかる装置で実行されるプログラムは、上述した各部(受付部、分割部、候補生成部、特徴抽出部)を含むモジュール構成となっており、実際のハードウェアとしてはCPU51(プロセッサ)が上記記憶媒体からプログラムを読み出して実行することにより上記各部が主記憶装置上にロードされ、上述した各部が主記憶装置上に生成されるようになっている。   The program executed by the apparatus according to the first or second embodiment has a module configuration including the above-described units (accepting unit, dividing unit, candidate generating unit, feature extracting unit), and actual hardware. As described above, the CPU 51 (processor) reads the program from the storage medium and executes the program, so that the above-described units are loaded onto the main storage device, and the above-described units are generated on the main storage device.

なお、本発明は、上記実施の形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化することができる。また、上記実施の形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成することができる。例えば、実施の形態に示される全構成要素からいくつかの構成要素を削除してもよい。さらに、異なる実施の形態にわたる構成要素を適宜組み合わせても良い。   It should be noted that the present invention is not limited to the above-described embodiment as it is, and can be embodied by modifying the constituent elements without departing from the scope of the invention in the implementation stage. In addition, various inventions can be formed by appropriately combining a plurality of constituent elements disclosed in the above embodiments. For example, some components may be deleted from all the components shown in the embodiment. Furthermore, constituent elements over different embodiments may be appropriately combined.

51 CPU
52 ROM
53 RAM
54 通信I/F
61 バス
100 特徴パターン抽出装置
110 特徴生成部
111 受付部
112 分割部
113 候補生成部
114 特徴抽出部
121 入力データ記憶部
122 候補記憶部
123 特徴記憶部
130、230 表示部
200 分類支援装置
224 モデル記憶部
241 属性生成部
242 事例生成部
243 モデル生成部
51 CPU
52 ROM
53 RAM
54 Communication I / F
61 Bus 100 Feature Pattern Extraction Device 110 Feature Generation Unit 111 Reception Unit 112 Division Unit 113 Candidate Generation Unit 114 Feature Extraction Unit 121 Input Data Storage Unit 122 Candidate Storage Unit 123 Feature Storage Units 130 and 230 Display Unit 200 Classification Support Device 224 Model Storage Unit 241 attribute generation unit 242 case generation unit 243 model generation unit

Claims (10)

分析対象となる情報を表す少なくとも1つのアイテムを含む集合であって、前記集合が分類されるクラスを対応づけたアイテム集合の入力を受付ける受付部と、
前記アイテム集合に含まれるアイテムのパターンのうち特徴的なパターンを表す特徴パターンの候補であって、前記アイテム集合に含まれる少なくとも1つのアイテムを含む候補パターンを生成する候補生成部と、
前記クラスごとに、前記クラスに対応づけられた前記アイテム集合での前記候補パターンの出現頻度を算出し、算出した前記出現頻度が予め定められた条件を満たす前記候補パターンである前記特徴パターンを抽出する特徴抽出部と、
抽出された前記特徴パターンを出力する出力部と、
を備えることを特徴とする特徴パターン抽出装置。
A reception unit that receives an input of an item set that includes at least one item that represents information to be analyzed and is associated with a class into which the set is classified;
A candidate generation unit that generates a candidate pattern that includes at least one item that is a candidate for a feature pattern that represents a characteristic pattern among the patterns of items that are included in the item set;
For each class, the appearance frequency of the candidate pattern in the item set associated with the class is calculated, and the feature pattern that is the candidate pattern that satisfies the predetermined condition is calculated. A feature extraction unit,
An output unit for outputting the extracted feature pattern;
A feature pattern extraction apparatus comprising:
前記特徴抽出部は、前記クラスのうちいずれかのクラスである第1クラスでの前記出現頻度が前記条件を満たし、前記クラスに含まれる前記第1クラス以外のクラスでの前記出現頻度が前記条件を満たさない前記候補パターンを、前記特徴パターンとして抽出すること、
を特徴とする請求項1に記載の特徴パターン抽出装置。
In the feature extraction unit, the appearance frequency in a first class that is one of the classes satisfies the condition, and the appearance frequency in a class other than the first class included in the class is the condition. Extracting the candidate pattern not satisfying as the feature pattern;
The feature pattern extraction apparatus according to claim 1.
前記第1クラスは、前記クラスのうちいずれかのクラスであって、予め定められた下限個数以上かつ予め定められた上限個数以下の個数のクラスであること、
を特徴とする請求項2に記載の特徴パターン抽出装置。
The first class is any one of the classes, and is a class having a number equal to or more than a predetermined lower limit number and equal to or less than a predetermined upper limit number;
The feature pattern extraction apparatus according to claim 2.
前記特徴抽出部は、前記クラスのうち、予め定められた上限個数より大きい個数のクラスでの前記出現頻度が前記条件を満たす前記候補パターンを、前記特徴パターンであるか否かを定められない未定パターンとして抽出し、
前記候補生成部は、さらに、複数の前記未定パターンから抽出したアイテムを含む新たな候補パターンを生成すること、
を特徴とする請求項1に記載の特徴パターン抽出装置。
The feature extraction unit is not determined whether the candidate pattern satisfies the condition in which the appearance frequency in a number of classes greater than a predetermined upper limit number among the classes is the feature pattern. Extracted as a pattern,
The candidate generation unit further generates a new candidate pattern including items extracted from the plurality of undetermined patterns;
The feature pattern extraction apparatus according to claim 1.
前記候補生成部は、アイテムの一部のみが相互に異なる複数の前記未定パターンから、共通するアイテムと相互に異なるアイテムとを抽出し、共通するアイテムと相互に異なるアイテムとを含む新たな候補パターンを生成すること、
を特徴とする請求項4に記載の特徴パターン抽出装置。
The candidate generation unit extracts a common item and a different item from the plurality of undetermined patterns in which only some of the items are different from each other, and includes a new candidate pattern including a common item and a different item Generating,
The feature pattern extraction apparatus according to claim 4.
前記候補生成部は、相互に異なる1つのアイテムを含む複数の前記未定パターンから、相互に異なるアイテムをそれぞれ抽出し、抽出した2つのアイテムを含む新たな候補パターンを生成すること、
を特徴とする請求項4に記載の特徴パターン抽出装置。
The candidate generation unit extracts a different item from each of the plurality of undetermined patterns including one different item, and generates a new candidate pattern including the two extracted items;
The feature pattern extraction apparatus according to claim 4.
前記特徴抽出部は、前記クラスのうちいずれかのクラスであって、予め定められた下限個数より小さい個数のクラスである第1クラスでの前記出現頻度が前記条件を満たし、前記クラスに含まれる前記第1クラス以外のクラスでの前記出現頻度が前記条件を満たさない前記候補パターンを、前記特徴パターンとして抽出しないこと、
を特徴とする請求項1に記載の特徴パターン抽出装置。
The feature extraction unit satisfies any one of the classes, and the appearance frequency in the first class, which is a number of classes smaller than a predetermined lower limit number, satisfies the condition and is included in the class Not extracting the candidate pattern whose appearance frequency in a class other than the first class does not satisfy the condition as the feature pattern;
The feature pattern extraction apparatus according to claim 1.
分析対象となる情報を表す少なくとも1つのアイテムを含む集合であって、前記集合が分類されるクラスを対応づけたアイテム集合の入力を受付ける受付部と、
前記アイテム集合に含まれるアイテムのパターンのうち特徴的なパターンを表す特徴パターンの候補であって、前記アイテム集合に含まれる少なくとも1つのアイテムを含む候補パターンを生成する候補生成部と、
前記クラスごとに、前記クラスに対応づけられた前記アイテム集合での前記候補パターンの出現頻度を算出し、算出した前記出現頻度が予め定められた条件を満たす前記候補パターンである前記特徴パターンを抽出する特徴抽出部と、
前記アイテム集合それぞれについて、抽出された前記特徴パターンが前記アイテム集合に含まれているか否かを表す属性ベクトルを生成する属性生成部と、
生成された前記属性ベクトルと、前記アイテム集合に対応づけられている前記クラスとに基づいて、前記アイテムを含む集合を前記クラスのいずれかに分類するための分類モデルを生成するモデル生成部と、
生成された前記分類モデルを出力する出力部と、
を備えることを特徴とする分類支援装置。
A reception unit that receives an input of an item set that includes at least one item that represents information to be analyzed and is associated with a class into which the set is classified;
A candidate generation unit that generates a candidate pattern that includes at least one item that is a candidate for a feature pattern that represents a characteristic pattern among the patterns of items that are included in the item set;
For each class, the appearance frequency of the candidate pattern in the item set associated with the class is calculated, and the feature pattern that is the candidate pattern that satisfies the predetermined condition is calculated. A feature extraction unit,
An attribute generation unit that generates an attribute vector indicating whether or not the extracted feature pattern is included in the item set for each of the item sets;
A model generation unit that generates a classification model for classifying a set including the items into one of the classes based on the generated attribute vector and the class associated with the item set;
An output unit for outputting the generated classification model;
A classification support apparatus comprising:
受付部が、分析対象となる情報を表す少なくとも1つのアイテムを含む集合であって、前記集合が分類されるクラスを対応づけたアイテム集合の入力を受付ける受付ステップと、
候補生成部が、前記アイテム集合に含まれるアイテムのパターンのうち特徴的なパターンを表す特徴パターンの候補であって、前記アイテム集合に含まれる少なくとも1つのアイテムを含む候補パターンを生成する候補生成ステップと、
特徴抽出部が、前記クラスごとに、前記クラスに対応づけられた前記アイテム集合での前記候補パターンの出現頻度を算出し、算出した前記出現頻度が予め定められた条件を満たす前記候補パターンである前記特徴パターンを抽出する特徴抽出ステップと、
出力部が、抽出された前記特徴パターンを出力する出力ステップと、
を備えることを特徴とする特徴パターン抽出方法。
A reception step for receiving an input of an item set that is a set including at least one item representing information to be analyzed, and that associates a class into which the set is classified;
A candidate generation step in which the candidate generation unit generates a candidate pattern including at least one item included in the item set, which is a feature pattern candidate representing a characteristic pattern among the item patterns included in the item set. When,
The feature extraction unit calculates the appearance frequency of the candidate pattern in the item set associated with the class for each class, and the calculated appearance frequency is the candidate pattern that satisfies a predetermined condition. A feature extraction step of extracting the feature pattern;
An output unit that outputs the extracted feature pattern; and
A feature pattern extraction method comprising:
受付部が、分析対象となる情報を表す少なくとも1つのアイテムを含む集合であって、前記集合が分類されるクラスを対応づけたアイテム集合の入力を受付ける受付ステップと、
候補生成部が、前記アイテム集合に含まれるアイテムのパターンのうち特徴的なパターンを表す特徴パターンの候補であって、前記アイテム集合に含まれる少なくとも1つのアイテムを含む候補パターンを生成する候補生成ステップと、
特徴抽出部が、前記クラスごとに、前記クラスに対応づけられた前記アイテム集合での前記候補パターンの出現頻度を算出し、算出した前記出現頻度が予め定められた条件を満たす前記候補パターンである前記特徴パターンを抽出する特徴抽出ステップと、
属性生成部が、前記アイテム集合それぞれについて、抽出された前記特徴パターンが前記アイテム集合に含まれているか否かを表す属性ベクトルを生成する属性生成ステップと、
モデル生成部が、生成された前記属性ベクトルと、前記アイテム集合に対応づけられている前記クラスとに基づいて、前記アイテムを含む集合を前記クラスのいずれかに分類するための分類モデルを生成するモデル生成ステップと、
出力部が、生成された前記分類モデルを出力する出力ステップと、
を備えることを特徴とする分類支援方法。
A reception step for receiving an input of an item set that is a set including at least one item representing information to be analyzed, and that associates a class into which the set is classified;
A candidate generation step in which the candidate generation unit generates a candidate pattern including at least one item included in the item set, which is a feature pattern candidate representing a characteristic pattern among the item patterns included in the item set. When,
The feature extraction unit calculates the appearance frequency of the candidate pattern in the item set associated with the class for each class, and the calculated appearance frequency is the candidate pattern that satisfies a predetermined condition. A feature extraction step of extracting the feature pattern;
An attribute generating step for generating an attribute vector indicating whether or not the extracted feature pattern is included in the item set for each of the item sets;
A model generation unit generates a classification model for classifying a set including the items into one of the classes based on the generated attribute vector and the class associated with the item set. A model generation step;
An output unit that outputs the generated classification model; and
A classification support method comprising:
JP2009038428A 2009-02-20 2009-02-20 Characteristic pattern extraction device, characteristic pattern extraction method, classification support device, and classification support method Pending JP2010191914A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009038428A JP2010191914A (en) 2009-02-20 2009-02-20 Characteristic pattern extraction device, characteristic pattern extraction method, classification support device, and classification support method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009038428A JP2010191914A (en) 2009-02-20 2009-02-20 Characteristic pattern extraction device, characteristic pattern extraction method, classification support device, and classification support method

Publications (1)

Publication Number Publication Date
JP2010191914A true JP2010191914A (en) 2010-09-02

Family

ID=42817860

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009038428A Pending JP2010191914A (en) 2009-02-20 2009-02-20 Characteristic pattern extraction device, characteristic pattern extraction method, classification support device, and classification support method

Country Status (1)

Country Link
JP (1) JP2010191914A (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9354961B2 (en) 2012-03-23 2016-05-31 Hitachi, Ltd. Method and system for supporting event root cause analysis
JP2021064127A (en) * 2019-10-11 2021-04-22 東芝テック株式会社 Shopping support system and shopping support method

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
CSNG200800255001; 羽室行信、外2名: '統合化顕在パターン判別モデルによるWebアクセスログデータの分析' 経営の科学 オペレーションズ・リサーチ 第53巻,第2号, 20080201, p.75-84, 社団法人日本オペレーションズ・リサーチ学会 *
JPN6013017979; 羽室行信、外2名: '統合化顕在パターン判別モデルによるWebアクセスログデータの分析' 経営の科学 オペレーションズ・リサーチ 第53巻,第2号, 20080201, p.75-84, 社団法人日本オペレーションズ・リサーチ学会 *
JPN6013017981; 櫻井茂明: 'クラス付きアイテム集合からの頻出パターンの発見' 2010年度人工知能学会全国大会(第24回)論文集 [online] , 20100601, p.1-4(2A3-4) *
JPN7013001430; Shigeaki Sakurai: 'Discovery of Characteristic Patterns from Transactions with Their Classes' Applied Computational Intelligence and Soft Computing [online] 第2012巻,第13号, 201201, p.1-12, Hindawi Publishing Corp. *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9354961B2 (en) 2012-03-23 2016-05-31 Hitachi, Ltd. Method and system for supporting event root cause analysis
JP2021064127A (en) * 2019-10-11 2021-04-22 東芝テック株式会社 Shopping support system and shopping support method
JP7443016B2 (en) 2019-10-11 2024-03-05 東芝テック株式会社 Shopping support system and shopping support method

Similar Documents

Publication Publication Date Title
JP6629678B2 (en) Machine learning device
US8176050B2 (en) Method and apparatus of supporting creation of classification rules
JPWO2019102533A1 (en) Document classification device
CN111986007A (en) Method for commodity aggregation and similarity calculation
KR101896404B1 (en) Product Recommendation System Using Computer Vision
JP6624063B2 (en) Vending machine recognition device, merchandise shelf recognition device, vending machine recognition method, program and image processing device
CN103678460B (en) For identifying the method and system for the non-text elements for being suitable to be communicated in multi-language environment
JP2012198684A (en) Information processing device, business form type estimation method, and business form type estimation program
WO2020255307A1 (en) Information processing device, information processing method, and recording medium
KR20220039578A (en) Method for providing clothing recommendation information based on user-selected clothing, and server and program using the same
JP5455978B2 (en) Pattern extraction apparatus and method
JP5724142B1 (en) Trademark support system
WO2017203672A1 (en) Item recommendation method, item recommendation program, and item recommendation apparatus
JP6314071B2 (en) Information processing apparatus, information processing method, and program
JP2010061176A (en) Text mining device, text mining method, and text mining program
JP5117744B2 (en) Word meaning tag assigning device and method, program, and recording medium
WO2014061285A1 (en) Corpus generating device, corpus generating method, and corpus generating program
JP2010191914A (en) Characteristic pattern extraction device, characteristic pattern extraction method, classification support device, and classification support method
KR20180073851A (en) Apparatus and method for selecting image based on human affects
JP2011100208A (en) Action estimation device, action estimation method, and action estimation program
JP6869742B2 (en) Information processing equipment and programs
JP2021077256A (en) Document processing device, document review system, document processing device control method, document review service providing method, and control program
KR102078541B1 (en) Issue interest based news value evaluation apparatus and method, storage media storing the same
JP7663001B2 (en) Search system, search method, and program
JP4234841B2 (en) Data analyzer

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110916

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130416

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20130813