JP2010277481A

JP2010277481A - 擬似データ生成装置、擬似データ生成方法及びコンピュータプログラム

Info

Publication number: JP2010277481A
Application number: JP2009131508A
Authority: JP
Inventors: Junko Yano; 順子矢野; Shuhei Kuwata; 修平桑田; Keiichiro Nakagawa; 慶一郎中川
Original assignee: NTT Data Corp
Current assignee: NTT Data Group Corp
Priority date: 2009-05-29
Filing date: 2009-05-29
Publication date: 2010-12-09
Anticipated expiration: 2029-05-29
Also published as: JP5156692B2

Abstract

【課題】実データにおける各パラメータの設定値の分布傾向を保持した擬似データを生成する。
【解決手段】擬似データ生成装置１のパラメータ作成部６３は、所定の行動の発生確率の算出式である分析モデルに用いられている分析モデルパラメータの取りうる設定値の分布を示す値を、当該分析モデルパラメータに対応した実データ内のパラメータの設定値から算出する。擬似データ生成部６６は、分析モデルパラメータが取り得る設定値をランダムに決定し、分析モデルを用いて、ランダムに決定した分析モデルパラメータの設定値と、当該設定値の分布を示す値とから所定の行動の発生確率を算出し、算出した確率に基づいて擬似データの生成に用いるか否かを決定し、擬似データの生成に用いると決定した場合、ランダムに決定した分析モデルパラメータの設定値に基づいて擬似データを構成するパラメータの設定値を決定する処理を繰り返し、擬似データを生成する。
【選択図】図１

Description

本発明は、擬似データ生成装置、擬似データ生成方法及びコンピュータプログラムに関する。

近年、企業・公共機関を問わず、多くの組織において「情報活用」が注目されている。これは、業務のＩＴ（Information Technology）化によって蓄積された膨大な情報（データ）を、業務改善や意思決定に役立てようとする意識が高まっている現われであるといえる。

これに伴い、「ＢＩ（ビジネス・インテリジェンス）」が注目されることとなった。ＢＩとは、企業内外のデータを組織的かつ系統的に分析して、業務に有用な知識や洞察を生み出す仕組み、もしくは、その仕組みを実現するシステムやテクノロジであり、これまでに多くの企業が、経営の見える化や効果的な意思決定を行なうために、ＢＩを導入してきた。

ところが、多くの場合、ＢＩの導入効果を十分に発揮できずに終わっている。その原因は、分析スキルのある人材が不足しているために、ＢＩを使いこなすことが出来ず、結果として、意思決定につながる知識や洞察を抽出できなかったことにあると考えられる。

そこで、ＢＩを使いこなせるような、情報活用に関するスキルを身につけるための人材育成が急務である。このような人材育成の取り組みは、例えば、データ活用のコンサルティング会社等において行なわれているが、これには、過去のコンサルティング案件に基づいた「データ分析実習」を行なうことが効果的である。この実習とは、データを実際に分析することにより、データ分析のフレームワークや分析結果の解釈の仕方を学ぶ研修のことであり、分析コンサルティングのノウハウを学ぶことができる。

一方、非特許文献１には、自動解析機能により元データの文字列の意味を解析し、個人情報と判断されるテーブルの氏名、住所、電話番号などの情報を擬似データ変換機能により類似した内容の文字列に変換することにより、本番データからテスト・検証用の擬似データを安全に自動的に作成するアプリケーションが開示されている。これにより、データベース開発において、生成された擬似データを用いて、本番データを使用したテスト・検証と同様の成果を得ることができるとともに、擬似データ作成にかかっていた負荷を大幅に軽減して生産性の向上を図り、業務知識がなくても擬似データの作成と利用が可能となる。

シーネットネットワークスジャパン株式会社、DB開発時の疑似データ自動作成&レポート発行ツール「DB Secure Utility」発売，[online]，株式会社システムエグゼ，[平成２１年４月２７日検索]、インターネット<http://japan.zdnet.com/news/devsys/story/0,2000056182,20368504,00.htm>

上述したような「データ分析実習」においてデータを分析する際には、実際に収集したデータ（以下、「実データ」と記載）を用いることが理想的である。しかし、企業や公共機関において収集した実データは、個人情報保護や通信の秘密といった観点から非常に機密性の高いデータである。従って、データ活用のコンサルティングを行なっている会社では、お客様からコンサルティングのために預かった実データをそのまま保存したり、コンサルティング以外の目的で利用したりすることはできない場合がほとんどである。そこで、コンサルティング会社においては、擬似データを作成し、この擬似データによりデータ分析実習を行なう必要が生じている。また、実データが利用可能な場合であっても、実データは大規模であることが多いため、コストの観点から一部のみを抽出して小規模の擬似データを作成し、実データ自体は破棄しなければならない。作成される擬似データは、スキルを身につけたり、ノウハウを蓄積したりするために、実データと性質が近い、つまり、各パラメータの設定値の分布傾向が類似したものである必要があった。

また、大規模ＤＷＨ（Data WareHouse）・データマートなどのシステム開発を行なう場合、その開発工程では、ロードや集計速度などをできる限り精度高く把握し、より本番データに近いデータによる検証が要求されている。他の分析システムの開発においても同様に、分析モデルの構築を含めた分析時間についても時間的制約がある場合、より精度の高いデータによりシステムを検証することが要求される。この場合も、実データと各パラメータの設定値の分布傾向が類似した擬似データを用いる必要があった。

しかし、非特許文献１の技術では、文字列の意味を解釈し、その中の個人情報に関わるデータについてのみ文字列変換機能を実現するものであるが、実データ自体を保持しておき、当該実データの設定値自体をコピーする必要があり、また、実データよりも容量の少ない実データを生成する場合に、実データにおける各パラメータの設定値の分布傾向を保持した擬似データを生成するものではない。

本発明は、上記の事情に鑑みてなされたものであり、その目的は、実データ自体を蓄積しておかなくとも、実データにおける各パラメータの設定値の分布傾向を保持した、必要な容量の擬似データを生成することができる擬似データ生成装置、擬似データ生成方法及びコンピュータプログラムを提供することにある。

上記課題を解決するため、本発明は、実データを読み込む情報読込部と、所定の行動または事象の発生確率の算出式である分析モデルに用いられている分析モデルパラメータの取りうる設定値の分布を示す値を、当該分析モデルパラメータに対応した前記実データ内のパラメータの設定値から算出するパラメータ作成部と、前記分析モデルパラメータが取り得る設定値をランダムに決定し、前記分析モデルを用いて、ランダムに決定した当該分析モデルパラメータの設定値と、前記パラメータ作成部により作成された、当該分析モデルパラメータの設定値の分布を示す前記値とから前記所定の行動または事象の発生確率を算出し、算出した当該確率に基づいて擬似データの生成に前記ランダムに決定した当該分析モデルパラメータの設定値を用いるか否かを決定し、擬似データの生成に用いると決定した場合、当該ランダムに決定した前記分析モデルパラメータの設定値に基づいて擬似データを構成するパラメータの設定値を決定する処理を繰り返し、擬似データを生成する擬似データ生成部と、を備えることを特徴とする擬似データ生成装置である。

また、本発明は、上述した擬似データ生成装置であって、前記擬似データ生成部は、擬似データを構成するパラメータの設定値を、予め指定されたレコード数分生成することを特徴とする。

また、本発明は、上述した擬似データ生成装置であって、前記分析モデルに用いられている分析モデルパラメータの取りうる設定値の分布を示す値を、当該分析モデルパラメータに対応した前記擬似データ内のパラメータの設定値から算出し、算出した当該設定値の分布を示す値と、前記実データ内のパラメータの設定値に基づいて生成した当該設定値の分布を示す値とから設定値の分布が所定より乖離しているか否かを判定する検証部と、前記検証部により乖離している判断された場合、前記擬似データの一部または全てを削除し、前記擬似データ生成部に擬似データの作成を指示する擬似データ再生成部と、をさらに備えることを特徴とする。

また、本発明は、擬似データ生成装置に用いられる擬似データ生成方法であって、情報読込部が、実データを読み込む情報読込部ステップと、前記パラメータ作成部が、所定の行動または事象の発生確率の算出式である分析モデルに用いられている分析モデルパラメータの取りうる設定値の分布を示す値を、当該分析モデルパラメータに対応した前記実データ内のパラメータの設定値から算出するパラメータ作成ステップと、擬似データ生成部が、前記分析モデルパラメータが取り得る設定値をランダムに決定し、前記分析モデルを用いて、ランダムに決定した当該分析モデルパラメータの設定値と、前記パラメータ作成ステップにおいて作成された、当該分析モデルパラメータの設定値の分布を示す前記値とから前記所定の行動または事象の発生確率を算出し、算出した当該確率に基づいて擬似データの生成に前記ランダムに決定した当該分析モデルパラメータの設定値を用いるか否かを決定し、擬似データの生成に用いると決定した場合、当該ランダムに決定した前記分析モデルパラメータの設定値に基づいて擬似データを構成するパラメータの設定値を決定する処理を繰り返し、擬似データを生成する擬似データ生成ステップと、を有することを特徴とする擬似データ生成方法である。

また、本発明は、擬似データ生成装置として用いられるコンピュータを、所定の行動または事象の発生確率の算出式である分析モデルに用いられている分析モデルパラメータの取りうる設定値の分布を示す値を、当該分析モデルパラメータに対応した実データ内のパラメータの設定値から算出するパラメータ作成部、前記分析モデルパラメータが取り得る設定値をランダムに決定し、前記分析モデルを用いて、ランダムに決定した当該分析モデルパラメータの設定値と、前記パラメータ作成部により作成された、当該分析モデルパラメータの設定値の分布を示す前記値とから前記所定の行動または事象の発生確率を算出し、算出した当該確率に基づいて擬似データの生成に前記ランダムに決定した当該分析モデルパラメータの設定値を用いるか否かを決定し、擬似データの生成に用いると決定した場合、当該ランダムに決定した前記分析モデルパラメータの設定値に基づいて擬似データを構成するパラメータの設定値を決定する処理を繰り返し、擬似データを生成する擬似データ生成部、として機能させることを特徴とするコンピュータプログラムである。

本発明によれば、実データ自体を蓄積したり、その設定値をコピーして用いたりすることなく、実データにおける各パラメータの設定値の分布傾向を保持した、必要なデータサイズの擬似データを生成することができる。よって、コストを抑えながら擬似データを生成することが可能となるとともに、生成された擬似データをデータ分析の演習などに用いることにより、現実に近いデータ分析コンサルティングのノウハウを蓄積することが可能となる。また、この擬似データを、分析システムの検証に用い、精度の高い検証結果を得ることもできる。

本発明の一実施の形態による擬似データ生成装置の構成図である。同実施の形態による実データのデータ構成例を示す図である。同実施の形態による分析情報テーブルのデータ構成例を示す図である。同実施の形態による分析シナリオの例を示す図である。同実施の形態による擬似化パラメータテーブルのデータ構成例を示す図である。同実施の形態によるデータ蓄積処理の処理フローを示す図である。同実施の形態による擬似データ生成処理の処理フローを示す図である。同実施の形態による中間テーブルのデータ構成例を示す図である。同実施の形態による擬似データのデータ構成例を示す図である。

以下、図面を参照して本発明の実施形態の例について説明する。
図１は、本発明の一実施形態による擬似データ生成装置１の機能ブロック図である。同図において、擬似データ生成装置１は、例えば、サーバやパーソナルコンピュータなどのコンピュータ装置で実現することができ、制御部１０、入力部２０、情報読込部３０、表示部４０、記憶部５０及び処理部６０を備える。

制御部１０は、ＣＰＵ（central processing unit）及び各種メモリから構成され、各部の制御や、データの一時的な格納や、データの転送等を行う。入力部２０は、キーボードやマウス、ボタンなどであり、利用者の操作による情報の入力を受ける。表示部４０は、ＬＣＤ（Liquid Crystal Display）やＣＲＴ（cathode ray tube）などのディスプレイである。情報読込部３０は、磁気ディスクやＣＤ−ＲＯＭ等の可搬の記録媒体から情報を読み込む。あるいは、情報読込部３０は、ネットワークを介して接続される他のコンピュータ装置から情報を受信するものであってもよい。

記憶部５０は分析情報記憶部５１、分析モデル記憶部５２、実データ記憶部５３、中間データ記憶部５４、及び、抽出データ記憶部５５を備え、処理部６０は、分析情報書込部６１、分析モデル書込部６２、パラメータ作成部６３、分析情報検索部６４、抽出データ出力部６５、擬似データ生成部６６、検証部６７、及び、擬似データ再生成部６８を備える。

分析情報書込部６１は、実データを用いて行なった分析内容や、その分析内容による分析を行なった結果を示す分析情報を分析情報記憶部５１に書き込む。実データとは、各種サービス業務処理を実行する業務システムにおいて収集した、サービスの利用に関する情報である。このようなサービスには、例えば、商品の販売やウェブページの提供などがある。さらに、分析情報書込部６１は、実データを蓄積してもよい場合、情報読込部３０により読み込まれた実データを実データ記憶部５３へ書き込むとともに、分析情報記憶部５１に分析情報と実データとの対応付けを示す情報を書き込む。

分析モデル書込部６２は、ユーザにより選択された分析モデルを分析モデル記憶部５２に書き込む。分析モデルとは、所定のパラメータの設定値に基づいて、利用者がサービスを利用する確率を算出するための算出式である。なお、分析モデルに用いられるパラメータは、実データを構成するパラメータと対応付けられる。

パラメータ作成部６３は、情報読込部３０により読み込まれた実データから、分析モデルに用いられる各パラメータの設定値の分布を示す擬似化パラメータ情報を生成し、分析モデル記憶部５２に書き込む。さらに、パラメータ作成部６３は、実データに対応した分析情報と、当該実データに基づいて生成した擬似化パラメータ情報との対応付けを分析情報記憶部５１に書き込む。

分析情報検索部６４は、ユーザが入力した条件によって分析情報記憶部５１内の分析情報を検索し、検索結果を表示部４０に表示する。
抽出データ出力部６５は、ユーザによって選択された分析情報に実データが対応付けてられているときには、当該実データを抽出データ記憶部５５に書き込み、ユーザによって選択された分析情報に擬似化パラメータ情報が対応付けてられているときには、当該擬似化パラメータ情報を用いて生成された擬似データを抽出データ記憶部５５に書き込む。

擬似データ生成部６６は、ユーザにより選択された分析情報に対応付けられた擬似化パラメータ情報に基づいて擬似データを生成し、中間データ記憶部５４に書き込む。検証部６７は、擬似データ生成部６６により生成された擬似データから分析モデルを用いて検証用の擬似化パラメータ情報を生成し、当該擬似データの生成時に用いた擬似化パラメータ情報、つまり、実データから生成した元の擬似化パラメータ情報との乖離を検証する。擬似データ再生成部６８は、検証部６７による検証が不成功であった場合、擬似データの再生成を擬似データ生成部６６に指示する。

次に、各データの例について説明する。
図２は、擬似データ生成装置１に入力される実データのデータ構成例を示す図である。
同図において、実データは、ＰＯＳ（Point Of Sale）データ及び顧客属性データとからなる。ＰＯＳデータは、顧客が商品を購入した日付、曜日及び時間帯と、購入店舗の店舗コードと、購入商品を特定する商品コードと、商品の金額との情報が含まれる複数のレコードからなり、各レコードにはレコードを特定するＩＤが設定される。顧客属性データは、顧客の性別、年齢等を含む複数のレコードからなり、各レコードにはレコードを特定するＩＤが設定される。以下、実データを構成するパラメータの種別、例えば、ＰＯＳデータの日付、曜日、時間帯、店舗コード、商品コード、金額や、顧客属性データの性別や年齢などを「実データパラメータ」と記載する。

なお、上述したように、実データは、各種サービス業務における処理を実行する業務システムにおいて収集した、当該サービスの利用に関する情報である。つまり、本実施の形態において対象とする実データは、サービスを利用したなど、何らかの行動を行なった人の情報や、その行動が行なわれた状況に関して収集した情報である。あるいは、システム運用状況のログと発生した故障など、その事象が発生した状況に関して収集した情報とすることもできる。
例えば、ウェブ利用についての実データであれば、ＰＯＳデータに代えて、レコードを特定するＩＤと、顧客がウェブにアクセスした日付、曜日及び時間帯と、アクセス先ＵＲＬ（Universal Resource Locator）との情報を含む複数のレコードからなるアクセスログデータを用いることができる。

図３は、擬似データ生成装置１に入力され、分析情報記憶部５１に記憶される分析情報テーブルのデータ構成例を示す図である。
同図において、分析情報テーブルは、レコードを特定する分析番号と、分析タイトル、どのような業界あるいは分野に関する分析であるかを示す業界・分野キーワード、分析の目的、使用した分析シナリオ、分析シナリオによる分析内容、分析内容詳細、及び、分析結果詳細からなる分析情報と、擬似化パラメータテーブル（後述する図５参照）の有無、及び、分析用データ格納位置とを含むレコードからなる。分析用データ格納位置は、擬似化パラメータテーブル「無」の場合は、実データの格納位置を、擬似化パラメータテーブル「有」の場合は擬似化パラメータテーブルの格納位置が設定される。また、分析内容、分析内容詳細には、それらを記述した情報の格納位置が設定される。

図４は、分析シナリオの例を示す図である。図３に示す分析情報テーブルの分析シナリオには、図４に示す分析シナリオ類型が設定される。分析シナリオは、実データから得られるパラメータの設定値または当該設定値に対応して決定される値を、分析のための所定の式に代入して何らかの傾向や特徴を表す指標値を算出する過程を、所定の順序によって行っていくものである。このようにして得られた指標値を分析することにより、分析シナリオで目的とする内容についての傾向や特徴を判断することができる。

図５は、分析モデル記憶部５２に記憶される擬似化パラメータテーブルのデータ構成例を示す図である。
擬似化パラメータテーブルは、分析モデルに用いられる各パラメータの擬似化パラメータ情報からなる。以下、分析モデルに用いられるパラメータを「分析モデルパラメータ」と記載する。同図において、擬似化パラメータテーブルは、性別、年代、商品種別、店舗、時間帯、月などの各分析モデルパラメータに対応した擬似化パラメータ情報からなり、擬似化パラメータ情報は、分析モデルパラメータが取り得る設定値と、実データにおける当該設定値の分布を示す分布値とを対応付けた情報であることが示されている。

次に、本実施形態による擬似データ生成装置１の動作について説明する。
図６は、本実施の形態によるデータ蓄積処理の処理フローを示す図である。
同図において、ユーザは、擬似データ生成装置１の入力部２０により、実データを蓄積するか、擬似化パラメータ情報を生成するかの指示と、実データの格納場所とを入力する（ステップＳ１０５）。さらにユーザは、入力部２０により、分析タイトル、業界・分野キーワード、分析の目的、分析シナリオ、分析シナリオによる分析内容、分析内容詳細、及び、分析結果詳細からなる分析情報を入力する（ステップＳ１１０）。

ステップＳ１０５において、実データの蓄積指示が入力された場合（ステップＳ１１５：蓄積）、情報読込部３０は、入力された実データの格納場所に基づいて、可搬の記録媒体、あるいは、ネットワークを介して接続される他のコンピュータ装置から、実データを読み出して実データ記憶部５３へ書き込む（ステップＳ１２０）。さらに、分析情報書込部６１は、ステップＳ１１０において入力された分析情報と、ステップＳ１２０において実データを書き込んだ記憶領域を特定する情報と、擬似化パラメータテーブル「無」とを設定したレコードを、分析情報記憶部５１内の分析情報テーブルに追加する（ステップＳ１２５）。

一方、ステップＳ１０５において、擬似化パラメータ情報の生成指示が入力された場合（ステップＳ１１５：擬似化）、さらに、ユーザは入力部２０により、使用する分析モデルを入力する（ステップＳ１３０）。分析モデル書込部６２は、入力された分析モデルを分析モデル記憶部５２に書き込む。

なお、分析モデルは、予め分析モデル記憶部５２に予め記憶されている一覧の中から選択するようにしてもよい。分析モデルは、分析シナリオの一部として含まれているものでもよく、含まれていないものであってもよい。これは、例えば分析シナリオにおいて複数の分析モデルを利用する場合、全て同じ分析モデルを利用して疑似データを作成するよりも、簡易なモデルを適用した方が良い場合が考えられるためであるが、分析モデルには、データ分析実習やシステム検証に使用する分析シナリオの中で使用するパラメータが少なくとも含まれている必要がある。ここでは、以下の（式１）及び（式２）からなる分析モデルが入力されたものとする。

なお、ｍ個の設定値ｘ_ｎ１、ｘ_ｎ２、…、ｘ_ｎｍとりうる分析モデルパラメータｐｎに設定値ｘ_ｎｋ（ｋは１〜ｍのいずれか）が設定されている場合、（ｐｎ）_ｊ＝１（ｊ＝ｋ）、（ｐｎ）_ｊ＝０（ｊ≠ｋ）である。例えば、分析モデルパラメータｐ１が「性別」であり、設定値ｘ_１１＝「男」、設定値ｘ_１２＝「女」の２値をとりうるとき、「性別」に設定値「男」が設定されている場合、（ｐ１）_１＝１、（ｐ１）_２＝０となる。また、β_ｎｊは、分析モデルパラメータｐｎの設定値ｘ_ｎｊに対応した分布値を示す。また、β_７は定数項、ｔは「所定の単位で表される時間」の数値である。なお、γ_１ｉ、γ_２ｉは、ある分析モデルパラメータｐｎの設定値に対応して決定する値とする。

上記のように、分析モデルは、各分析モデルパラメータの設定値を用いて、サービスの利用など、実データが収集されたときと同様の行動または事象が発生する確率を算出するものである。なお、ここでは、各分析モデルパラメータの設定値は独立に決まり、複数の分析モデルパラメータの設定値間に相関関係はないものとする。

続いて、ユーザは、入力部２０により、分析モデルパラメータ及び実データパラメータ対応付けと、分析モデルパラメータの設定値と実データパラメータの設定値との対応づけを入力する。

例えば、分析モデルパラメータ「性別」は、顧客属性データの実データパラメータ「性別」に対応し、分析モデルパラメータ「性別」の設定値「男」、「女」は、顧客属性データの実データパラメータ「性別」の設定値「Ｍ」、「Ｆ」にそれぞれ対応することが入力される。
また、分析モデルパラメータ「商品種別」は、ＰＯＳデータの「商品コード」に対応し、分析モデルパラメータ「商品種別」の設定値「Ａ」、「Ｂ」、…は、ＰＯＳデータの実データパラメータ「商品コード」の設定値「０００１」、「０００２」、…にそれぞれ対応することが入力される。

また、分析モデルパラメータ「年代」は、顧客属性データの実データパラメータ「年齢」に対応し、分析モデルパラメータ「年代」の設定値「〜１９」、「２０〜２９」、…、「７０〜」は、顧客属性データの実データパラメータ「年齢」の設定値「０」から「１９」まで、「２０」から「２９」まで、…、「７０」以上にそれぞれ対応することが入力される。
ここでは、分析モデルパラメータの性別、年代、商品種別、店舗、時間帯、月は、それぞれ、顧客属性データの性別、年齢、ＰＯＳデータの商品コード、店舗コード、時間帯、日付に対応するものとする。

続いて、情報読込部３０が、入力された実データの格納領域に基づいて、可搬の記録媒体、あるいは、ネットワークを介して接続される他のコンピュータ装置から実データを読み込み、パラメータ作成部６３は、当該実データに基づいて擬似化パラメータテーブルを生成する（ステップＳ１３５）。ここでは、図２に示す実データが読み込まれたものとし、以下に擬似化パラメータテーブルの生成処理を詳細に説明する。

パラメータ作成部６３は、ステップＳ１３０において選択あるいは入力された分析モデルに使用されている分析モデルパラメータを順に選択すると、選択した各分析モデルパラメータそれぞれについて、当該分析モデルパラメータの各設定値に対応した実データパラメータの設定値が実データに設定されているレコード数、つまり、設定数をカウントする。

例えば、上記の例の場合、パラメータ作成部６３は、分析モデルパラメータの性別、年代、商品種別、店舗、時間帯、月を順に選択する。そして、現在選択している分析モデルパラメータが「性別」であった場合、対応する実データパラメータ、つまり、顧客属性データの実データパラメータ「性別」を特定する。パラメータ作成部６３は、特定した実データパラメータ「性別」に「Ｍ」が設定されているレコード数、「Ｆ」が設定されているレコード数をカウントし、それぞれ、分析モデルパラメータ「性別」の設定値「男」の設定数、設定値「女」の設定数とする。

また、現在選択している分析モデルパラメータが「年代」であった場合、対応する実データパラメータ、つまり、顧客属性データの実データパラメータ「年齢」を特定する。パラメータ作成部６３は、特定した実データパラメータ「年齢」に「０」から「１９」のいずれかの設定値が設定されているレコード数、「２０」から「２９」のいずれかの設定値が設定されているレコード数、…、「７０」以上のいずれかの設定値が設定されているレコード数を、分析モデルパラメータ「年齢」の設定値「〜１９」、「２０〜２９」、…、「７０〜」の設定数とする。

続いて、パラメータ作成部６３は、各分析モデルパラメータについて、以下の（式３）により各設定値の設定数の基準化を行い、分布値とする。なお、ｐｎは分析モデルパラメータの種類とし、ｍ個の設定値ｘ_ｎｋ（ｋ＝１〜ｍ）をとるものとする。

分析モデルパラメータｐｎの設定値ｘ_ｎｋの分布値＝｛（設定値ｘ_ｎｋの設定数）−（設定値ｘ_ｎ１〜ｘ_ｎｍの平均設定数）｝／（設定値ｘ_ｎ１〜ｘ_ｎｍの設定数の標準偏差） …（式３）

例えば、分析モデルパラメータＡがα、β、γの設定値（又は設定値の範囲）をとり、設定値α、β、γが設定されている実データのレコード数がそれぞれ１００、２００、３００であったとする。この場合、平均設定数は（１００＋２００＋３００）／３＝２００であり、分散＝（標準偏差σ）^２＝｛（１００−２００）^２＋（２００−２００）^２＋（３００−２００）^２｝／３である。よって、分析モデルパラメータＡの設定値αの分布値は、（１００−２００）／σとなる。
同様に、分析モデルパラメータＡがβ、γのときの分布値を算出すると、その算出結果から分析モデルパラメータＡの擬似化パラメータ情報を生成する。

なお、分布値を以下のように生成してもよい。例えば、ある店舗の全会員情報と、購入した会員の属性情報もしくは会員を特定できるコードがレコードに含まれたＰＯＳデータとが実データとして蓄積されていた場合、会員の内、購入した会員、購入していない会員の情報として取得できるため、顧客に対する購買確率が計算できる。よって、購買確率を分析モデルに設定し、パラメータの分布値を最尤推定法によって求めることが可能となる。具体的には、例えば実データから得られる購買確率を（式２），（式１）を利用してそれぞれのβを推定する処理を行う。ただし、推定の際にはランク落ちを防ぐためにパラメータの一つを除去したモデルにするなどの対応が必要となる。

パラメータ作成部６３は、各分析モデルパラメータについて、設定値と分布値とを対応付けた擬似化パラメータ情報を生成すると、分析モデル記憶部５２に、これらの擬似化パラメータ情報からなる擬似化パラメータテーブルを書き込むとともに（ステップＳ１４０）、擬似化パラメータテーブルを書き込んだ記憶領域を特定する情報と、ステップＳ１３０において入力された分析モデルとを対応付けて書き込む（ステップＳ１４５）。

さらに、分析情報書込部６１は、ステップＳ１１０において入力された分析情報と、擬似化パラメータテーブルを書き込んだ記憶領域を特定する情報と、擬似化パラメータテーブル「有」とを設定したレコードを、分析情報記憶部５１内に記憶している分析情報テーブルに追加する（ステップＳ１５０）。

図７は、本実施の形態による擬似データ生成処理の処理フローを示す図である。
同図において、ユーザは、擬似データ生成装置１の入力部２０により、データ分析実習やシステム検証に使用するデータの検索条件、例えば、分析タイトル、業界・分野キーワード、分析目的、分析シナリオなどの検索対象と、検索語を入力する（ステップＳ２０５）。分析情報検索部６４は、分析情報記憶部５１内の分析情報テーブルから、入力された検索条件で示される検索対象に、当該検索条件で示される検索語が設定されているレコードを特定すると、特定したレコードに設定されている分析情報を表示部４０に表示する（ステップＳ２１０）。ユーザは、出力された分析情報を確認し、適切な分析情報が表示されていない場合（ステップＳ２１５：ＮＯ）、再びステップＳ２０５からの処理を行い、検索条件の入力と検索結果の表示の処理を繰り返す。

ユーザは、表示された分析情報の中から適切な分析情報を選択すると、選択した分析情報を特定する情報を入力部２０により入力する（ステップＳ２１５：ＹＥＳ）。抽出データ出力部６５は、ステップＳ２１５において入力された情報により特定される分析情報が設定されている分析情報テーブルのレコードを特定し、当該レコードから擬似化パラメータテーブルの有無と分析用データ格納位置を読み出す。擬似化パラメータテーブル「無」が設定されている場合（ステップＳ２２０：ＮＯ）、抽出データ出力部６５は、実データ記憶部５３から分析用データ格納位置に記憶されている実データを読み出して抽出データ記憶部５５に書き込む（ステップＳ２２５）。

一方、抽出データ出力部６５は、擬似化パラメータテーブル「有」が設定されている場合（ステップＳ２２０：ＹＥＳ）、分析用データ格納位置を擬似データ生成部６６に出力し、擬似データの生成を指示する。擬似データ生成部６６は、表示部４０にトランザクション数を入力する指示するメッセージを表示させると、ユーザは、トランザクション数、つまり、擬似データを構成するレコード数を入力部２０により入力する（ステップＳ２３０）。

擬似データ生成部６６は、分析モデル記憶部５２内の分析用データ格納位置に記憶されている擬似化パラメータテーブルと、当該擬似化パラメータテーブルに対応付けられている分析モデルを読み出すと、以下のように擬似データを生成する（ステップＳ２３５）。

まず、擬似データ生成部６６は、読み出した分析モデルに含まれている各分析モデルパラメータそれぞれについて、当該分析モデルパラメータがとりうる各設定値に対応したカラムを有するレコードからなる中間テーブルを生成して、中間データ記憶部５４に書き込む。さらに、擬似データ生成部６６は、分析モデルパラメータに対応した実データパラメータからなる擬似データを中間データ記憶部５４に書き込む。

図８は、中間テーブルの例を示す図である。例えば、（式１）及び（式２）からなる分析モデルが読み出された場合、当該分析モデルに含まれる分析モデルパラメータ「性別」、「年代」、「商品種別」、「店舗」、「時間帯」、「月」について、これらの各分析モデルパラメータが取り得る設定値に対応したカラム、例えば、分析モデルパラメータ「性別」については設定値「男」、「女」のカラム、分析モデルパラメータ「年代」については設定値「〜１９」、「２０〜２９」、…、「７０〜」のカラム、分析モデルパラメータ「商品種別」については設定値「Ａ」、「Ｂ」、…のカラム、分析モデルパラメータ「時間帯」については設定値「０」、「１」、…、「２３」のカラム、…を有する中間テーブルが生成される。

擬似データ生成部６６は、中間テーブルに新たなレコードを追加する。この追加したレコードは、中間テーブルのｉ番目のレコードであるとする。よって、中間テーブルが生成された直後であれば、ｉは初期値１である。擬似データ生成部６６は、追加したレコードの各分析モデルパラメータについて、当該分析モデルパラメータが取り得る設定値を１つランダムに選択し、選択した設定値に対応したカラムに「１」を、他の設定値に対応したカラムに「０」を設定する。

例えば、図８に示す中間テーブルの１番目のレコードの場合、分析モデルパラメータ「性別」が取り得る設定値からランダムに選択された設定値「男」に対応するカラムに「１」が、選択されなかった設定値「女」に対応するカラムには「０」が設定されている。また、分析モデルパラメータ「年代」が取り得る設定値からランダムに選択された設定値「〜１９」に対応するカラムに「１」が、選択されなかった他の設定値「２０〜２９」、…、「７０〜」に対応したカラムには「０」が設定されている。分析モデルパラメータ「商品種別」、「店舗」、「時間帯」、「店舗」、「月」それぞれについても同様に、ランダムに選択した設定値に対応したカラムのみに「１」を、他の設定値に対応したカラムに「０」を設定する。

続いて、擬似データ生成部６６は、中間テーブルの設定値と、読み出した分析モデルとを用いてサービスの利用の確率を算出する。（式１）及び（式２）からなる分析モデルを使用する場合、まず、擬似データ生成部６６は、選好度を算出する。β_１１、β_１２はそれぞれ、図５に示す擬似化パラメータテーブルにおける、分析モデルパラメータｐ１「性別」の設定値「男」に対応した分布値「０．５」、設定値「女」に対応した分布値「０．４」である。また、（ｐ１）_１は設定値が「男」であれば「１」、「男」でないときには「０」であり、（ｐ１）_２は設定値が「女」であれば「１」、「女」でないときには「０」であるため、中間テーブルにおける「性別」の設定値「男」、「女」に対応したカラム設定されている値をそれぞれ「（ｐ１）_１」、「（ｐ１）_２」の値として用いることができる。よって、図８に示す中間テーブルの最初のレコードの場合、最初の項のΣは、「−０．０１×１＋０．０４×０」となる。

同様にβ_２１…、β_２６、β_２７はそれぞれ、図５に示す分析モデルパラメータｐ２「年代」の設定値「〜１９」に対応した分布値「１．５」、…、設定値「６０〜６９」に対応した分布値「０．２」、設定値「７０〜」に対応した分布値「−０．３」である。また、上記と同様に、中間テーブルにおける「年代」の設定値「〜１９」、…、「６０〜６９」、「７０〜」に対応したカラムに設定されている値をそれぞれ「（ｐ２）_１」、…、「（ｐ２）_６」、「（ｐ２）_７」の値として用いることができる。よって、図８に示す中間テーブルの最初のレコードの場合、２番目の項のΣは、「１．５×１＋…＋０．２×０＋（−０．３）×０」となる。
なお、ｔには、１が設定されている「時間帯」のカラムに対応した設定値が代入される。また、γ_１１、γ_２１には、所定の分析モデルパラメータの設定値に対応した所定の値とする。

上記のように、擬似データ生成部６６は、中間テーブルの設定値と、擬似化パラメータテーブルの分布値とを用いて（式１）により選好度Ｖ_ｉｔを算出すると、この算出された選好度Ｖ_ｉｔを用いて、（式２）により購買確率選好度ｐ_ｉｔを算出する。擬似データ生成部６６は、一様乱数（０，１）を発生させると、一様乱数（０，１）が購買確率ｐ_ｉｔよりも小さい場合は購買すると判断し、購買確率ｐ_ｉｔ以上である場合は購買しないと判断する。そして、購買すると判断した場合のみ、購買確率ｐ_ｉｔの算出に用いた中間テーブルのｉ番目のレコードに基づいて生成したレコードを擬似データへ追加する。
なお、一様乱数（０，１）は、所定の最大値を持つ自然乱数列を発生させ、それを当該最大値で割ることで得られる０以上１以下の乱数である。

図９は、擬似データのデータ例を示す図である。擬似データは、中間テーブル内の各分析モデルパラメータに対応した実データパラメータの設定値を含むレコードからなる。擬似データ生成部６６は、購買確率ｐ_ｉｔに基づいて購買すると判断した場合、擬似データに新たなレコードを追加すると、中間テーブルの各分析モデルパラメータから、「１」が設定されているカラムを特定し、当該カラムの設定値に対応した実データパラメータの設定値を、擬似データに追加したレコードに設定する。ただし、１つの分析モデルパラメータの設定値に対して、複数の実データパラメータの設定値が対応する場合、その対応する複数の実データパラメータの設定値から１つをランダムに選択する。
例えば、分析モデルパラメータ「年代」の設定値「〜１９」の場合、対応する実データパラメータ「年齢」の設定値「０」〜「１９」の中からランダムに選択した設定値とする。また、分析モデルパラメータ「月」の設定値「１月」の場合、対応する実データパラメータ「日付」の設定値「１月１日」〜「１月３１日」の中からランダムに選択した設定値とする。

上記のように、追加したレコードに擬似データの実データパラメータ「性別」、「年齢」、「商品コード」、「時間帯」、「日付」、「店舗コード」の設定値が設定されると、これら実データパラメータの設定値によって決定する他の実データパラメータの設定値を当該レコードに書き込む。例えば、日付の設定値に対応した曜日の設定値、商品コードの設定値に対応した金額を書き込む。さらには、追加したレコードにＩＤを書き込む。

なお、例えば、曜日の設定値分布を実データと同様にしたい場合、分析モデルパラメータ「曜日」の擬似化パラメータ情報を生成する。そして、中間テーブルのレコードから擬似データのレコードを生成する際には、当該曜日に対応した所定期間の日付の中からランダムに日付を選択する。この所定期間は、擬似データ生成の際にユーザが入力するようにしてもよく、実データから擬似化パラメータ情報を生成する際に、当該実データに含まれる日付により期間を取得して擬似化パラメータテーブル内に記憶しておくことでもよい。

上記のようにして、擬似データにレコードを追加すると、擬似データ生成部６６は、擬似データのレコード数がトランザクション数に達したかを判断する。達していない場合は、ｉの値を１加算した値に更新し、中間テーブルにｉ番目のレコードを追加して各分析モデルパラメータの設定値をランダムに選択し、分析モデルを使用してサービスを利用する確率を算出し、当該確率に基づいてサービスを利用の有無を決定し、サービス利用であると決定した場合には、当該中間テーブルのｉ番目のレコードに基づいた設定値のレコードを擬似データに追加する上記処理を繰り返す。

擬似データのレコード数がトランザクション数に達すると、検証部６７は、生成された擬似データと、分析モデルを用いて、図６のステップＳ１３５と同様の処理により、擬似データから擬似化パラメータ情報を生成する（ステップＳ２４０）。つまり、検証部６７は、分析モデルに使用されている分析モデルパラメータを順に選択すると、選択した各分析モデルパラメータそれぞれについて、当該分析モデルパラメータの各設定値に対応した擬似データにおける実データパラメータの設定値が設定されているレコード数をカウントする。そして、各分析モデルパラメータの各設定値について分布値を作成し、その算出結果から各分析モデルパラメータについての擬似化パラメータ情報からなる検証用擬似化パラメータテーブルを生成する。

検証部６７は、２つのデータ群の間に乖離があるか否かを統計的に調べる既存の手法により、ステップＳ２３５における擬似データの生成に用いた擬似化パラメータテーブル内の各擬似化パラメータ情報と、Ｓ２４０において生成した検証用擬似化パラメータテーブル内の各擬似化パラメータ情報について検証を行なう。
この検証には、例えば、２集団の平均値に差がないかを統計的に調べるｔ検定（平均値の差の検定）を用いることができる。具体的には、ｔ検定における帰無仮説を「２集団の平均値に差がない」とし、算出したｔ値が、当該自由度におけるｔ分布表（例えば、９５％信頼区間）の値よりも小さい場合、帰無仮説は棄却されず、平均に差がないという結果となり、検証成功となる。なお、検証には、各分析モデルパラメータの設定値に仮定される分布に応じた検証法方法を用いるようにする。

検証が不成功であった場合（ステップＳ２４５：ＮＯ）、再び擬似データを生成するステップＳ２３５からの処理を行なう。
再び擬似データを生成する場合、擬似データ再生成部６８は、以下のように現在中間データ記憶部５４に記憶されている擬似データからレコードを削除する。

（１）ステップＳ２４５による検証の結果、検証が不成功であった分析モデルパラメータを特定する。当該分析モデルパラメータの設定値が連続値をとる場合、平均が上回っているか下回っているかを判断する。平均が下回っている場合は、平均値より小さい設定値に対応する実データパラメータの設定値が設定されている実データのレコードを所定の割合だけ削除し、平均が上回っている場合は、平均値より大きい設定値に対応する実データパラメータの設定値が設定されている実データのレコードを所定の割合だけ削除する。
（２）ランダムに所定数または所定割合のレコードを削除する。例えば、設定値が２値である場合など、正規分布をとらない場合に用いられる。
（３）全レコードを削除する。

上記いずれかにより擬似データのレコードを削除したのち、擬似データ再生成部６８は、擬似データ生成部６６に擬似データの作成を指示する。これにより、擬似データ生成部６６は、中間テーブルにｉ番目のレコードを追加して各分析モデルパラメータの設定値をランダムに選択し、分析モデルを使用してサービスを利用する確率を算出し、当該確率に基づいてサービスを利用の有無を決定し、サービス利用であると決定した場合には、当該中間テーブルのｉ番目のレコードに基づいた設定値のレコードを擬似データに追加する上記処理を、擬似データのレコード数がトランザクション数に達するまで繰り返す。

一方、ステップＳ２４５において、擬似データの検証が成功した場合（ステップＳ２４５：ＹＥＳ）、抽出データ書込部６５は、ステップＳ２３５において生成され、中間データ記憶部５４に書き込まれた擬似データを、抽出データ記憶部５５に書き込む（ステップＳ２５０）。
ユーザは、抽出データ記憶部５５に出力された擬似データを用いて、データ分析実習や、システムテストを行なう。

上記実施形態によれば、ＢＩを使いこなせるような、蓄積データの分析スキルを身につけることを目的としたデータ分析実習を効果的に行なうために、過去の分析事例と、実データから生成した、当該実データの設定値分布を示す擬似化パラメータ情報とを対応づけて蓄積しておき、蓄積されている中から分析の目的に近いとして選択されたものを分析事例に対応した擬似化パラメータ情報から擬似データを生成することができる。よって、過去の分析事例から迅速に擬似データを用意することができ、実践的なデータ分析実習を行なうことができる。
また、擬似化パラメータ情報から、必要なトランザクション数の擬似データを生成することができるため、データ記憶領域を削減することが可能となり、コストを削減することができる。
また、一旦生成した擬似データの検証を行なうことにより、より実データに近い擬似データを生成することができ、より現実感のあるデータ分析演習を行なうことができる。
また、分析手順などのノウハウである分析事例を複数、同一の形式により蓄積することができるため、異なる内容の分析を統一的に検索したり、利用したりすることが可能となり、効果的な分析実習を行なうことが可能となる。
また、上記により生成した擬似データをシステムの検証に使用することにより、精度の高い検証結果を得ることができる。

上述の擬似データ生成装置１は、内部にコンピュータシステムを有している。そして、擬似データ生成装置１の分析情報書込部６１、分析モデル書込部６２、パラメータ作成部６３、分析情報検索部６４、抽出データ出力部６５、擬似データ生成部６６、検証部６７、及び、擬似データ再生成部６８の動作の過程は、プログラムの形式でコンピュータ読み取り可能な記録媒体に記憶されており、このプログラムをコンピュータシステムが読み出して実行することによって、上記処理が行われる。ここでいうコンピュータシステムとは、ＣＰＵ及び各種メモリやＯＳ、周辺機器等のハードウェアを含むものである。

また、「コンピュータシステム」は、ＷＷＷシステムを利用している場合であれば、ホームページ提供環境（あるいは表示環境）も含むものとする。
また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ−ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含むものとする。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。

なお、本発明は、上記において説明した実施形態に限定されるものではなく、その主旨を逸脱しない範囲において種々変更可能であり、それらも本発明の範囲内に包含されるものであることは言うまでもない。

１…擬似データ生成装置
１０…制御部
２０…入力部
３０…情報読込部
４０…表示部
５０…記憶部
５１…分析情報記憶部
５２…分析モデル記憶部
５３…実データ記憶部
５４…中間データ記憶部
５５…抽出データ記憶部
６０…処理部
６１…分析情報書込部
６２…分析モデル書込部
６３…パラメータ作成部
６４…分析情報検索部
６５…抽出データ書込部
６６…擬似データ生成部
６７…検証部
６８…擬似データ再生成部

Claims

実データを読み込む情報読込部と、
所定の行動または事象の発生確率の算出式である分析モデルに用いられている分析モデルパラメータの取りうる設定値の分布を示す値を、当該分析モデルパラメータに対応した前記実データ内のパラメータの設定値から算出するパラメータ作成部と、
前記分析モデルパラメータが取り得る設定値をランダムに決定し、前記分析モデルを用いて、ランダムに決定した当該分析モデルパラメータの設定値と、前記パラメータ作成部により作成された、当該分析モデルパラメータの設定値の分布を示す前記値とから前記所定の行動または事象の発生確率を算出し、算出した当該確率に基づいて擬似データの生成に前記ランダムに決定した当該分析モデルパラメータの設定値を用いるか否かを決定し、擬似データの生成に用いると決定した場合、当該ランダムに決定した前記分析モデルパラメータの設定値に基づいて擬似データを構成するパラメータの設定値を決定する処理を繰り返し、擬似データを生成する擬似データ生成部と、
を備えることを特徴とする擬似データ生成装置。
前記擬似データ生成部は、擬似データを構成するパラメータの設定値を、予め指定されたレコード数分生成することを特徴とする請求項１に記載の擬似データ生成装置。
前記分析モデルに用いられている分析モデルパラメータの取りうる設定値の分布を示す値を、当該分析モデルパラメータに対応した前記擬似データ内のパラメータの設定値から算出し、算出した当該設定値の分布を示す値と、前記実データ内のパラメータの設定値に基づいて生成した当該設定値の分布を示す値とから設定値の分布が所定より乖離しているか否かを判定する検証部と、
前記検証部により乖離している判断された場合、前記擬似データの一部または全てを削除し、前記擬似データ生成部に擬似データの作成を指示する擬似データ再生成部と、
をさらに備えることを特徴とする請求項１または２に記載の擬似データ生成装置。
擬似データ生成装置に用いられる擬似データ生成方法であって、
情報読込部が、実データを読み込む情報読込部ステップと、
前記パラメータ作成部が、所定の行動または事象の発生確率の算出式である分析モデルに用いられている分析モデルパラメータの取りうる設定値の分布を示す値を、当該分析モデルパラメータに対応した前記実データ内のパラメータの設定値から算出するパラメータ作成ステップと、
擬似データ生成部が、前記分析モデルパラメータが取り得る設定値をランダムに決定し、前記分析モデルを用いて、ランダムに決定した当該分析モデルパラメータの設定値と、前記パラメータ作成ステップにおいて作成された、当該分析モデルパラメータの設定値の分布を示す前記値とから前記所定の行動または事象の発生確率を算出し、算出した当該確率に基づいて擬似データの生成に前記ランダムに決定した当該分析モデルパラメータの設定値を用いるか否かを決定し、擬似データの生成に用いると決定した場合、当該ランダムに決定した前記分析モデルパラメータの設定値に基づいて擬似データを構成するパラメータの設定値を決定する処理を繰り返し、擬似データを生成する擬似データ生成ステップと、
を有することを特徴とする擬似データ生成方法。
擬似データ生成装置として用いられるコンピュータを、
所定の行動または事象の発生確率の算出式である分析モデルに用いられている分析モデルパラメータの取りうる設定値の分布を示す値を、当該分析モデルパラメータに対応した実データ内のパラメータの設定値から算出するパラメータ作成部、
前記分析モデルパラメータが取り得る設定値をランダムに決定し、前記分析モデルを用いて、ランダムに決定した当該分析モデルパラメータの設定値と、前記パラメータ作成部により作成された、当該分析モデルパラメータの設定値の分布を示す前記値とから前記所定の行動または事象の発生確率を算出し、算出した当該確率に基づいて擬似データの生成に前記ランダムに決定した当該分析モデルパラメータの設定値を用いるか否かを決定し、擬似データの生成に用いると決定した場合、当該ランダムに決定した前記分析モデルパラメータの設定値に基づいて擬似データを構成するパラメータの設定値を決定する処理を繰り返し、擬似データを生成する擬似データ生成部、
として機能させることを特徴とするコンピュータプログラム。