[go: up one dir, main page]

JP2010277481A - 擬似データ生成装置、擬似データ生成方法及びコンピュータプログラム - Google Patents

擬似データ生成装置、擬似データ生成方法及びコンピュータプログラム Download PDF

Info

Publication number
JP2010277481A
JP2010277481A JP2009131508A JP2009131508A JP2010277481A JP 2010277481 A JP2010277481 A JP 2010277481A JP 2009131508 A JP2009131508 A JP 2009131508A JP 2009131508 A JP2009131508 A JP 2009131508A JP 2010277481 A JP2010277481 A JP 2010277481A
Authority
JP
Japan
Prior art keywords
analysis model
parameter
pseudo data
data
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2009131508A
Other languages
English (en)
Other versions
JP5156692B2 (ja
Inventor
Junko Yano
順子 矢野
Shuhei Kuwata
修平 桑田
Keiichiro Nakagawa
慶一郎 中川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Data Group Corp
Original Assignee
NTT Data Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NTT Data Corp filed Critical NTT Data Corp
Priority to JP2009131508A priority Critical patent/JP5156692B2/ja
Publication of JP2010277481A publication Critical patent/JP2010277481A/ja
Application granted granted Critical
Publication of JP5156692B2 publication Critical patent/JP5156692B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

【課題】実データにおける各パラメータの設定値の分布傾向を保持した擬似データを生成する。
【解決手段】擬似データ生成装置1のパラメータ作成部63は、所定の行動の発生確率の算出式である分析モデルに用いられている分析モデルパラメータの取りうる設定値の分布を示す値を、当該分析モデルパラメータに対応した実データ内のパラメータの設定値から算出する。擬似データ生成部66は、分析モデルパラメータが取り得る設定値をランダムに決定し、分析モデルを用いて、ランダムに決定した分析モデルパラメータの設定値と、当該設定値の分布を示す値とから所定の行動の発生確率を算出し、算出した確率に基づいて擬似データの生成に用いるか否かを決定し、擬似データの生成に用いると決定した場合、ランダムに決定した分析モデルパラメータの設定値に基づいて擬似データを構成するパラメータの設定値を決定する処理を繰り返し、擬似データを生成する。
【選択図】図1

Description

本発明は、擬似データ生成装置、擬似データ生成方法及びコンピュータプログラムに関する。
近年、企業・公共機関を問わず、多くの組織において「情報活用」が注目されている。これは、業務のIT(Information Technology)化によって蓄積された膨大な情報(データ)を、業務改善や意思決定に役立てようとする意識が高まっている現われであるといえる。
これに伴い、「BI(ビジネス・インテリジェンス)」が注目されることとなった。BIとは、企業内外のデータを組織的かつ系統的に分析して、業務に有用な知識や洞察を生み出す仕組み、もしくは、その仕組みを実現するシステムやテクノロジであり、これまでに多くの企業が、経営の見える化や効果的な意思決定を行なうために、BIを導入してきた。
ところが、多くの場合、BIの導入効果を十分に発揮できずに終わっている。その原因は、分析スキルのある人材が不足しているために、BIを使いこなすことが出来ず、結果として、意思決定につながる知識や洞察を抽出できなかったことにあると考えられる。
そこで、BIを使いこなせるような、情報活用に関するスキルを身につけるための人材育成が急務である。このような人材育成の取り組みは、例えば、データ活用のコンサルティング会社等において行なわれているが、これには、過去のコンサルティング案件に基づいた「データ分析実習」を行なうことが効果的である。この実習とは、データを実際に分析することにより、データ分析のフレームワークや分析結果の解釈の仕方を学ぶ研修のことであり、分析コンサルティングのノウハウを学ぶことができる。
一方、非特許文献1には、自動解析機能により元データの文字列の意味を解析し、個人情報と判断されるテーブルの氏名、住所、電話番号などの情報を擬似データ変換機能により類似した内容の文字列に変換することにより、本番データからテスト・検証用の擬似データを安全に自動的に作成するアプリケーションが開示されている。これにより、データベース開発において、生成された擬似データを用いて、本番データを使用したテスト・検証と同様の成果を得ることができるとともに、擬似データ作成にかかっていた負荷を大幅に軽減して生産性の向上を図り、業務知識がなくても擬似データの作成と利用が可能となる。
シーネットネットワークスジャパン株式会社、DB開発時の疑似データ自動作成&レポート発行ツール「DB Secure Utility」発売,[online],株式会社システムエグゼ,[平成21年4月27日検索]、インターネット<http://japan.zdnet.com/news/devsys/story/0,2000056182,20368504,00.htm>
上述したような「データ分析実習」においてデータを分析する際には、実際に収集したデータ(以下、「実データ」と記載)を用いることが理想的である。しかし、企業や公共機関において収集した実データは、個人情報保護や通信の秘密といった観点から非常に機密性の高いデータである。従って、データ活用のコンサルティングを行なっている会社では、お客様からコンサルティングのために預かった実データをそのまま保存したり、コンサルティング以外の目的で利用したりすることはできない場合がほとんどである。そこで、コンサルティング会社においては、擬似データを作成し、この擬似データによりデータ分析実習を行なう必要が生じている。また、実データが利用可能な場合であっても、実データは大規模であることが多いため、コストの観点から一部のみを抽出して小規模の擬似データを作成し、実データ自体は破棄しなければならない。作成される擬似データは、スキルを身につけたり、ノウハウを蓄積したりするために、実データと性質が近い、つまり、各パラメータの設定値の分布傾向が類似したものである必要があった。
また、大規模DWH(Data WareHouse)・データマートなどのシステム開発を行なう場合、その開発工程では、ロードや集計速度などをできる限り精度高く把握し、より本番データに近いデータによる検証が要求されている。他の分析システムの開発においても同様に、分析モデルの構築を含めた分析時間についても時間的制約がある場合、より精度の高いデータによりシステムを検証することが要求される。この場合も、実データと各パラメータの設定値の分布傾向が類似した擬似データを用いる必要があった。
しかし、非特許文献1の技術では、文字列の意味を解釈し、その中の個人情報に関わるデータについてのみ文字列変換機能を実現するものであるが、実データ自体を保持しておき、当該実データの設定値自体をコピーする必要があり、また、実データよりも容量の少ない実データを生成する場合に、実データにおける各パラメータの設定値の分布傾向を保持した擬似データを生成するものではない。
本発明は、上記の事情に鑑みてなされたものであり、その目的は、実データ自体を蓄積しておかなくとも、実データにおける各パラメータの設定値の分布傾向を保持した、必要な容量の擬似データを生成することができる擬似データ生成装置、擬似データ生成方法及びコンピュータプログラムを提供することにある。
上記課題を解決するため、本発明は、実データを読み込む情報読込部と、所定の行動または事象の発生確率の算出式である分析モデルに用いられている分析モデルパラメータの取りうる設定値の分布を示す値を、当該分析モデルパラメータに対応した前記実データ内のパラメータの設定値から算出するパラメータ作成部と、前記分析モデルパラメータが取り得る設定値をランダムに決定し、前記分析モデルを用いて、ランダムに決定した当該分析モデルパラメータの設定値と、前記パラメータ作成部により作成された、当該分析モデルパラメータの設定値の分布を示す前記値とから前記所定の行動または事象の発生確率を算出し、算出した当該確率に基づいて擬似データの生成に前記ランダムに決定した当該分析モデルパラメータの設定値を用いるか否かを決定し、擬似データの生成に用いると決定した場合、当該ランダムに決定した前記分析モデルパラメータの設定値に基づいて擬似データを構成するパラメータの設定値を決定する処理を繰り返し、擬似データを生成する擬似データ生成部と、を備えることを特徴とする擬似データ生成装置である。
また、本発明は、上述した擬似データ生成装置であって、前記擬似データ生成部は、擬似データを構成するパラメータの設定値を、予め指定されたレコード数分生成することを特徴とする。
また、本発明は、上述した擬似データ生成装置であって、前記分析モデルに用いられている分析モデルパラメータの取りうる設定値の分布を示す値を、当該分析モデルパラメータに対応した前記擬似データ内のパラメータの設定値から算出し、算出した当該設定値の分布を示す値と、前記実データ内のパラメータの設定値に基づいて生成した当該設定値の分布を示す値とから設定値の分布が所定より乖離しているか否かを判定する検証部と、前記検証部により乖離している判断された場合、前記擬似データの一部または全てを削除し、前記擬似データ生成部に擬似データの作成を指示する擬似データ再生成部と、をさらに備えることを特徴とする。
また、本発明は、擬似データ生成装置に用いられる擬似データ生成方法であって、情報読込部が、実データを読み込む情報読込部ステップと、前記パラメータ作成部が、所定の行動または事象の発生確率の算出式である分析モデルに用いられている分析モデルパラメータの取りうる設定値の分布を示す値を、当該分析モデルパラメータに対応した前記実データ内のパラメータの設定値から算出するパラメータ作成ステップと、擬似データ生成部が、前記分析モデルパラメータが取り得る設定値をランダムに決定し、前記分析モデルを用いて、ランダムに決定した当該分析モデルパラメータの設定値と、前記パラメータ作成ステップにおいて作成された、当該分析モデルパラメータの設定値の分布を示す前記値とから前記所定の行動または事象の発生確率を算出し、算出した当該確率に基づいて擬似データの生成に前記ランダムに決定した当該分析モデルパラメータの設定値を用いるか否かを決定し、擬似データの生成に用いると決定した場合、当該ランダムに決定した前記分析モデルパラメータの設定値に基づいて擬似データを構成するパラメータの設定値を決定する処理を繰り返し、擬似データを生成する擬似データ生成ステップと、を有することを特徴とする擬似データ生成方法である。
また、本発明は、擬似データ生成装置として用いられるコンピュータを、所定の行動または事象の発生確率の算出式である分析モデルに用いられている分析モデルパラメータの取りうる設定値の分布を示す値を、当該分析モデルパラメータに対応した実データ内のパラメータの設定値から算出するパラメータ作成部、前記分析モデルパラメータが取り得る設定値をランダムに決定し、前記分析モデルを用いて、ランダムに決定した当該分析モデルパラメータの設定値と、前記パラメータ作成部により作成された、当該分析モデルパラメータの設定値の分布を示す前記値とから前記所定の行動または事象の発生確率を算出し、算出した当該確率に基づいて擬似データの生成に前記ランダムに決定した当該分析モデルパラメータの設定値を用いるか否かを決定し、擬似データの生成に用いると決定した場合、当該ランダムに決定した前記分析モデルパラメータの設定値に基づいて擬似データを構成するパラメータの設定値を決定する処理を繰り返し、擬似データを生成する擬似データ生成部、として機能させることを特徴とするコンピュータプログラムである。
本発明によれば、実データ自体を蓄積したり、その設定値をコピーして用いたりすることなく、実データにおける各パラメータの設定値の分布傾向を保持した、必要なデータサイズの擬似データを生成することができる。よって、コストを抑えながら擬似データを生成することが可能となるとともに、生成された擬似データをデータ分析の演習などに用いることにより、現実に近いデータ分析コンサルティングのノウハウを蓄積することが可能となる。また、この擬似データを、分析システムの検証に用い、精度の高い検証結果を得ることもできる。
本発明の一実施の形態による擬似データ生成装置の構成図である。 同実施の形態による実データのデータ構成例を示す図である。 同実施の形態による分析情報テーブルのデータ構成例を示す図である。 同実施の形態による分析シナリオの例を示す図である。 同実施の形態による擬似化パラメータテーブルのデータ構成例を示す図である。 同実施の形態によるデータ蓄積処理の処理フローを示す図である。 同実施の形態による擬似データ生成処理の処理フローを示す図である。 同実施の形態による中間テーブルのデータ構成例を示す図である。 同実施の形態による擬似データのデータ構成例を示す図である。
以下、図面を参照して本発明の実施形態の例について説明する。
図1は、本発明の一実施形態による擬似データ生成装置1の機能ブロック図である。同図において、擬似データ生成装置1は、例えば、サーバやパーソナルコンピュータなどのコンピュータ装置で実現することができ、制御部10、入力部20、情報読込部30、表示部40、記憶部50及び処理部60を備える。
制御部10は、CPU(central processing unit)及び各種メモリから構成され、各部の制御や、データの一時的な格納や、データの転送等を行う。入力部20は、キーボードやマウス、ボタンなどであり、利用者の操作による情報の入力を受ける。表示部40は、LCD(Liquid Crystal Display)やCRT(cathode ray tube)などのディスプレイである。情報読込部30は、磁気ディスクやCD−ROM等の可搬の記録媒体から情報を読み込む。あるいは、情報読込部30は、ネットワークを介して接続される他のコンピュータ装置から情報を受信するものであってもよい。
記憶部50は分析情報記憶部51、分析モデル記憶部52、実データ記憶部53、中間データ記憶部54、及び、抽出データ記憶部55を備え、処理部60は、分析情報書込部61、分析モデル書込部62、パラメータ作成部63、分析情報検索部64、抽出データ出力部65、擬似データ生成部66、検証部67、及び、擬似データ再生成部68を備える。
分析情報書込部61は、実データを用いて行なった分析内容や、その分析内容による分析を行なった結果を示す分析情報を分析情報記憶部51に書き込む。実データとは、各種サービス業務処理を実行する業務システムにおいて収集した、サービスの利用に関する情報である。このようなサービスには、例えば、商品の販売やウェブページの提供などがある。さらに、分析情報書込部61は、実データを蓄積してもよい場合、情報読込部30により読み込まれた実データを実データ記憶部53へ書き込むとともに、分析情報記憶部51に分析情報と実データとの対応付けを示す情報を書き込む。
分析モデル書込部62は、ユーザにより選択された分析モデルを分析モデル記憶部52に書き込む。分析モデルとは、所定のパラメータの設定値に基づいて、利用者がサービスを利用する確率を算出するための算出式である。なお、分析モデルに用いられるパラメータは、実データを構成するパラメータと対応付けられる。
パラメータ作成部63は、情報読込部30により読み込まれた実データから、分析モデルに用いられる各パラメータの設定値の分布を示す擬似化パラメータ情報を生成し、分析モデル記憶部52に書き込む。さらに、パラメータ作成部63は、実データに対応した分析情報と、当該実データに基づいて生成した擬似化パラメータ情報との対応付けを分析情報記憶部51に書き込む。
分析情報検索部64は、ユーザが入力した条件によって分析情報記憶部51内の分析情報を検索し、検索結果を表示部40に表示する。
抽出データ出力部65は、ユーザによって選択された分析情報に実データが対応付けてられているときには、当該実データを抽出データ記憶部55に書き込み、ユーザによって選択された分析情報に擬似化パラメータ情報が対応付けてられているときには、当該擬似化パラメータ情報を用いて生成された擬似データを抽出データ記憶部55に書き込む。
擬似データ生成部66は、ユーザにより選択された分析情報に対応付けられた擬似化パラメータ情報に基づいて擬似データを生成し、中間データ記憶部54に書き込む。検証部67は、擬似データ生成部66により生成された擬似データから分析モデルを用いて検証用の擬似化パラメータ情報を生成し、当該擬似データの生成時に用いた擬似化パラメータ情報、つまり、実データから生成した元の擬似化パラメータ情報との乖離を検証する。擬似データ再生成部68は、検証部67による検証が不成功であった場合、擬似データの再生成を擬似データ生成部66に指示する。
次に、各データの例について説明する。
図2は、擬似データ生成装置1に入力される実データのデータ構成例を示す図である。
同図において、実データは、POS(Point Of Sale)データ及び顧客属性データとからなる。POSデータは、顧客が商品を購入した日付、曜日及び時間帯と、購入店舗の店舗コードと、購入商品を特定する商品コードと、商品の金額との情報が含まれる複数のレコードからなり、各レコードにはレコードを特定するIDが設定される。顧客属性データは、顧客の性別、年齢等を含む複数のレコードからなり、各レコードにはレコードを特定するIDが設定される。以下、実データを構成するパラメータの種別、例えば、POSデータの日付、曜日、時間帯、店舗コード、商品コード、金額や、顧客属性データの性別や年齢などを「実データパラメータ」と記載する。
なお、上述したように、実データは、各種サービス業務における処理を実行する業務システムにおいて収集した、当該サービスの利用に関する情報である。つまり、本実施の形態において対象とする実データは、サービスを利用したなど、何らかの行動を行なった人の情報や、その行動が行なわれた状況に関して収集した情報である。あるいは、システム運用状況のログと発生した故障など、その事象が発生した状況に関して収集した情報とすることもできる。
例えば、ウェブ利用についての実データであれば、POSデータに代えて、レコードを特定するIDと、顧客がウェブにアクセスした日付、曜日及び時間帯と、アクセス先URL(Universal Resource Locator)との情報を含む複数のレコードからなるアクセスログデータを用いることができる。
図3は、擬似データ生成装置1に入力され、分析情報記憶部51に記憶される分析情報テーブルのデータ構成例を示す図である。
同図において、分析情報テーブルは、レコードを特定する分析番号と、分析タイトル、どのような業界あるいは分野に関する分析であるかを示す業界・分野キーワード、分析の目的、使用した分析シナリオ、分析シナリオによる分析内容、分析内容詳細、及び、分析結果詳細からなる分析情報と、擬似化パラメータテーブル(後述する図5参照)の有無、及び、分析用データ格納位置とを含むレコードからなる。分析用データ格納位置は、擬似化パラメータテーブル「無」の場合は、実データの格納位置を、擬似化パラメータテーブル「有」の場合は擬似化パラメータテーブルの格納位置が設定される。また、分析内容、分析内容詳細には、それらを記述した情報の格納位置が設定される。
図4は、分析シナリオの例を示す図である。図3に示す分析情報テーブルの分析シナリオには、図4に示す分析シナリオ類型が設定される。分析シナリオは、実データから得られるパラメータの設定値または当該設定値に対応して決定される値を、分析のための所定の式に代入して何らかの傾向や特徴を表す指標値を算出する過程を、所定の順序によって行っていくものである。このようにして得られた指標値を分析することにより、分析シナリオで目的とする内容についての傾向や特徴を判断することができる。
図5は、分析モデル記憶部52に記憶される擬似化パラメータテーブルのデータ構成例を示す図である。
擬似化パラメータテーブルは、分析モデルに用いられる各パラメータの擬似化パラメータ情報からなる。以下、分析モデルに用いられるパラメータを「分析モデルパラメータ」と記載する。同図において、擬似化パラメータテーブルは、性別、年代、商品種別、店舗、時間帯、月などの各分析モデルパラメータに対応した擬似化パラメータ情報からなり、擬似化パラメータ情報は、分析モデルパラメータが取り得る設定値と、実データにおける当該設定値の分布を示す分布値とを対応付けた情報であることが示されている。
次に、本実施形態による擬似データ生成装置1の動作について説明する。
図6は、本実施の形態によるデータ蓄積処理の処理フローを示す図である。
同図において、ユーザは、擬似データ生成装置1の入力部20により、実データを蓄積するか、擬似化パラメータ情報を生成するかの指示と、実データの格納場所とを入力する(ステップS105)。さらにユーザは、入力部20により、分析タイトル、業界・分野キーワード、分析の目的、分析シナリオ、分析シナリオによる分析内容、分析内容詳細、及び、分析結果詳細からなる分析情報を入力する(ステップS110)。
ステップS105において、実データの蓄積指示が入力された場合(ステップS115:蓄積)、情報読込部30は、入力された実データの格納場所に基づいて、可搬の記録媒体、あるいは、ネットワークを介して接続される他のコンピュータ装置から、実データを読み出して実データ記憶部53へ書き込む(ステップS120)。さらに、分析情報書込部61は、ステップS110において入力された分析情報と、ステップS120において実データを書き込んだ記憶領域を特定する情報と、擬似化パラメータテーブル「無」とを設定したレコードを、分析情報記憶部51内の分析情報テーブルに追加する(ステップS125)。
一方、ステップS105において、擬似化パラメータ情報の生成指示が入力された場合(ステップS115:擬似化)、さらに、ユーザは入力部20により、使用する分析モデルを入力する(ステップS130)。分析モデル書込部62は、入力された分析モデルを分析モデル記憶部52に書き込む。
なお、分析モデルは、予め分析モデル記憶部52に予め記憶されている一覧の中から選択するようにしてもよい。分析モデルは、分析シナリオの一部として含まれているものでもよく、含まれていないものであってもよい。これは、例えば分析シナリオにおいて複数の分析モデルを利用する場合、全て同じ分析モデルを利用して疑似データを作成するよりも、簡易なモデルを適用した方が良い場合が考えられるためであるが、分析モデルには、データ分析実習やシステム検証に使用する分析シナリオの中で使用するパラメータが少なくとも含まれている必要がある。ここでは、以下の(式1)及び(式2)からなる分析モデルが入力されたものとする。
Figure 2010277481
なお、m個の設定値xn1、xn2、…、xnmとりうる分析モデルパラメータpnに設定値xnk(kは1〜mのいずれか)が設定されている場合、(pn)=1(j=k)、(pn)=0(j≠k)である。例えば、分析モデルパラメータp1が「性別」であり、設定値x11=「男」、設定値x12=「女」の2値をとりうるとき、「性別」に設定値「男」が設定されている場合、(p1)=1、(p1)=0となる。また、βnjは、分析モデルパラメータpnの設定値xnjに対応した分布値を示す。また、βは定数項、tは「所定の単位で表される時間」の数値である。なお、γ1i、γ2iは、ある分析モデルパラメータpnの設定値に対応して決定する値とする。
上記のように、分析モデルは、各分析モデルパラメータの設定値を用いて、サービスの利用など、実データが収集されたときと同様の行動または事象が発生する確率を算出するものである。なお、ここでは、各分析モデルパラメータの設定値は独立に決まり、複数の分析モデルパラメータの設定値間に相関関係はないものとする。
続いて、ユーザは、入力部20により、分析モデルパラメータ及び実データパラメータ対応付けと、分析モデルパラメータの設定値と実データパラメータの設定値との対応づけを入力する。
例えば、分析モデルパラメータ「性別」は、顧客属性データの実データパラメータ「性別」に対応し、分析モデルパラメータ「性別」の設定値「男」、「女」は、顧客属性データの実データパラメータ「性別」の設定値「M」、「F」にそれぞれ対応することが入力される。
また、分析モデルパラメータ「商品種別」は、POSデータの「商品コード」に対応し、分析モデルパラメータ「商品種別」の設定値「A」、「B」、…は、POSデータの実データパラメータ「商品コード」の設定値「0001」、「0002」、…にそれぞれ対応することが入力される。
また、分析モデルパラメータ「年代」は、顧客属性データの実データパラメータ「年齢」に対応し、分析モデルパラメータ「年代」の設定値「〜19」、「20〜29」、…、「70〜」は、顧客属性データの実データパラメータ「年齢」の設定値「0」から「19」まで、「20」から「29」まで、…、「70」以上にそれぞれ対応することが入力される。
ここでは、分析モデルパラメータの性別、年代、商品種別、店舗、時間帯、月は、それぞれ、顧客属性データの性別、年齢、POSデータの商品コード、店舗コード、時間帯、日付に対応するものとする。
続いて、情報読込部30が、入力された実データの格納領域に基づいて、可搬の記録媒体、あるいは、ネットワークを介して接続される他のコンピュータ装置から実データを読み込み、パラメータ作成部63は、当該実データに基づいて擬似化パラメータテーブルを生成する(ステップS135)。ここでは、図2に示す実データが読み込まれたものとし、以下に擬似化パラメータテーブルの生成処理を詳細に説明する。
パラメータ作成部63は、ステップS130において選択あるいは入力された分析モデルに使用されている分析モデルパラメータを順に選択すると、選択した各分析モデルパラメータそれぞれについて、当該分析モデルパラメータの各設定値に対応した実データパラメータの設定値が実データに設定されているレコード数、つまり、設定数をカウントする。
例えば、上記の例の場合、パラメータ作成部63は、分析モデルパラメータの性別、年代、商品種別、店舗、時間帯、月を順に選択する。そして、現在選択している分析モデルパラメータが「性別」であった場合、対応する実データパラメータ、つまり、顧客属性データの実データパラメータ「性別」を特定する。パラメータ作成部63は、特定した実データパラメータ「性別」に「M」が設定されているレコード数、「F」が設定されているレコード数をカウントし、それぞれ、分析モデルパラメータ「性別」の設定値「男」の設定数、設定値「女」の設定数とする。
また、現在選択している分析モデルパラメータが「年代」であった場合、対応する実データパラメータ、つまり、顧客属性データの実データパラメータ「年齢」を特定する。パラメータ作成部63は、特定した実データパラメータ「年齢」に「0」から「19」のいずれかの設定値が設定されているレコード数、「20」から「29」のいずれかの設定値が設定されているレコード数、…、「70」以上のいずれかの設定値が設定されているレコード数を、分析モデルパラメータ「年齢」の設定値「〜19」、「20〜29」、…、「70〜」の設定数とする。
続いて、パラメータ作成部63は、各分析モデルパラメータについて、以下の(式3)により各設定値の設定数の基準化を行い、分布値とする。なお、pnは分析モデルパラメータの種類とし、m個の設定値xnk(k=1〜m)をとるものとする。
分析モデルパラメータpnの設定値xnkの分布値={(設定値xnkの設定数)−(設定値xn1〜xnmの平均設定数)}/(設定値xn1〜xnmの設定数の標準偏差) …(式3)
例えば、分析モデルパラメータAがα、β、γの設定値(又は設定値の範囲)をとり、設定値α、β、γが設定されている実データのレコード数がそれぞれ100、200、300であったとする。この場合、平均設定数は(100+200+300)/3=200であり、分散=(標準偏差σ)={(100−200)+(200−200)+(300−200)}/3である。よって、分析モデルパラメータAの設定値αの分布値は、(100−200)/σとなる。
同様に、分析モデルパラメータAがβ、γのときの分布値を算出すると、その算出結果から分析モデルパラメータAの擬似化パラメータ情報を生成する。
なお、分布値を以下のように生成してもよい。例えば、ある店舗の全会員情報と、購入した会員の属性情報もしくは会員を特定できるコードがレコードに含まれたPOSデータとが実データとして蓄積されていた場合、会員の内、購入した会員、購入していない会員の情報として取得できるため、顧客に対する購買確率が計算できる。よって、購買確率を分析モデルに設定し、パラメータの分布値を最尤推定法によって求めることが可能となる。具体的には、例えば実データから得られる購買確率を(式2),(式1)を利用してそれぞれのβを推定する処理を行う。ただし、推定の際にはランク落ちを防ぐためにパラメータの一つを除去したモデルにするなどの対応が必要となる。
パラメータ作成部63は、各分析モデルパラメータについて、設定値と分布値とを対応付けた擬似化パラメータ情報を生成すると、分析モデル記憶部52に、これらの擬似化パラメータ情報からなる擬似化パラメータテーブルを書き込むとともに(ステップS140)、擬似化パラメータテーブルを書き込んだ記憶領域を特定する情報と、ステップS130において入力された分析モデルとを対応付けて書き込む(ステップS145)。
さらに、分析情報書込部61は、ステップS110において入力された分析情報と、擬似化パラメータテーブルを書き込んだ記憶領域を特定する情報と、擬似化パラメータテーブル「有」とを設定したレコードを、分析情報記憶部51内に記憶している分析情報テーブルに追加する(ステップS150)。
図7は、本実施の形態による擬似データ生成処理の処理フローを示す図である。
同図において、ユーザは、擬似データ生成装置1の入力部20により、データ分析実習やシステム検証に使用するデータの検索条件、例えば、分析タイトル、業界・分野キーワード、分析目的、分析シナリオなどの検索対象と、検索語を入力する(ステップS205)。分析情報検索部64は、分析情報記憶部51内の分析情報テーブルから、入力された検索条件で示される検索対象に、当該検索条件で示される検索語が設定されているレコードを特定すると、特定したレコードに設定されている分析情報を表示部40に表示する(ステップS210)。ユーザは、出力された分析情報を確認し、適切な分析情報が表示されていない場合(ステップS215:NO)、再びステップS205からの処理を行い、検索条件の入力と検索結果の表示の処理を繰り返す。
ユーザは、表示された分析情報の中から適切な分析情報を選択すると、選択した分析情報を特定する情報を入力部20により入力する(ステップS215:YES)。抽出データ出力部65は、ステップS215において入力された情報により特定される分析情報が設定されている分析情報テーブルのレコードを特定し、当該レコードから擬似化パラメータテーブルの有無と分析用データ格納位置を読み出す。擬似化パラメータテーブル「無」が設定されている場合(ステップS220:NO)、抽出データ出力部65は、実データ記憶部53から分析用データ格納位置に記憶されている実データを読み出して抽出データ記憶部55に書き込む(ステップS225)。
一方、抽出データ出力部65は、擬似化パラメータテーブル「有」が設定されている場合(ステップS220:YES)、分析用データ格納位置を擬似データ生成部66に出力し、擬似データの生成を指示する。擬似データ生成部66は、表示部40にトランザクション数を入力する指示するメッセージを表示させると、ユーザは、トランザクション数、つまり、擬似データを構成するレコード数を入力部20により入力する(ステップS230)。
擬似データ生成部66は、分析モデル記憶部52内の分析用データ格納位置に記憶されている擬似化パラメータテーブルと、当該擬似化パラメータテーブルに対応付けられている分析モデルを読み出すと、以下のように擬似データを生成する(ステップS235)。
まず、擬似データ生成部66は、読み出した分析モデルに含まれている各分析モデルパラメータそれぞれについて、当該分析モデルパラメータがとりうる各設定値に対応したカラムを有するレコードからなる中間テーブルを生成して、中間データ記憶部54に書き込む。さらに、擬似データ生成部66は、分析モデルパラメータに対応した実データパラメータからなる擬似データを中間データ記憶部54に書き込む。
図8は、中間テーブルの例を示す図である。例えば、(式1)及び(式2)からなる分析モデルが読み出された場合、当該分析モデルに含まれる分析モデルパラメータ「性別」、「年代」、「商品種別」、「店舗」、「時間帯」、「月」について、これらの各分析モデルパラメータが取り得る設定値に対応したカラム、例えば、分析モデルパラメータ「性別」については設定値「男」、「女」のカラム、分析モデルパラメータ「年代」については設定値「〜19」、「20〜29」、…、「70〜」のカラム、分析モデルパラメータ「商品種別」については設定値「A」、「B」、…のカラム、分析モデルパラメータ「時間帯」については設定値「0」、「1」、…、「23」のカラム、…を有する中間テーブルが生成される。
擬似データ生成部66は、中間テーブルに新たなレコードを追加する。この追加したレコードは、中間テーブルのi番目のレコードであるとする。よって、中間テーブルが生成された直後であれば、iは初期値1である。擬似データ生成部66は、追加したレコードの各分析モデルパラメータについて、当該分析モデルパラメータが取り得る設定値を1つランダムに選択し、選択した設定値に対応したカラムに「1」を、他の設定値に対応したカラムに「0」を設定する。
例えば、図8に示す中間テーブルの1番目のレコードの場合、分析モデルパラメータ「性別」が取り得る設定値からランダムに選択された設定値「男」に対応するカラムに「1」が、選択されなかった設定値「女」に対応するカラムには「0」が設定されている。また、分析モデルパラメータ「年代」が取り得る設定値からランダムに選択された設定値「〜19」に対応するカラムに「1」が、選択されなかった他の設定値「20〜29」、…、「70〜」に対応したカラムには「0」が設定されている。分析モデルパラメータ「商品種別」、「店舗」、「時間帯」、「店舗」、「月」それぞれについても同様に、ランダムに選択した設定値に対応したカラムのみに「1」を、他の設定値に対応したカラムに「0」を設定する。
続いて、擬似データ生成部66は、中間テーブルの設定値と、読み出した分析モデルとを用いてサービスの利用の確率を算出する。(式1)及び(式2)からなる分析モデルを使用する場合、まず、擬似データ生成部66は、選好度を算出する。β11、β12はそれぞれ、図5に示す擬似化パラメータテーブルにおける、分析モデルパラメータp1「性別」の設定値「男」に対応した分布値「0.5」、設定値「女」に対応した分布値「0.4」である。また、(p1)は設定値が「男」であれば「1」、「男」でないときには「0」であり、(p1)は設定値が「女」であれば「1」、「女」でないときには「0」であるため、中間テーブルにおける「性別」の設定値「男」、「女」に対応したカラム設定されている値をそれぞれ「(p1)」、「(p1)」の値として用いることができる。よって、図8に示す中間テーブルの最初のレコードの場合、最初の項のΣは、「−0.01×1+0.04×0」となる。
同様にβ21…、β26、β27はそれぞれ、図5に示す分析モデルパラメータp2「年代」の設定値「〜19」に対応した分布値「1.5」、…、設定値「60〜69」に対応した分布値「0.2」、設定値「70〜」に対応した分布値「−0.3」である。また、上記と同様に、中間テーブルにおける「年代」の設定値「〜19」、…、「60〜69」、「70〜」に対応したカラムに設定されている値をそれぞれ「(p2)」、…、「(p2)」、「(p2)」の値として用いることができる。よって、図8に示す中間テーブルの最初のレコードの場合、2番目の項のΣは、「1.5×1+…+0.2×0+(−0.3)×0」となる。
なお、tには、1が設定されている「時間帯」のカラムに対応した設定値が代入される。また、γ11、γ21には、所定の分析モデルパラメータの設定値に対応した所定の値とする。
上記のように、擬似データ生成部66は、中間テーブルの設定値と、擬似化パラメータテーブルの分布値とを用いて(式1)により選好度Vitを算出すると、この算出された選好度Vitを用いて、(式2)により購買確率選好度pitを算出する。擬似データ生成部66は、一様乱数(0,1)を発生させると、一様乱数(0,1)が購買確率pitよりも小さい場合は購買すると判断し、購買確率pit以上である場合は購買しないと判断する。そして、購買すると判断した場合のみ、購買確率pitの算出に用いた中間テーブルのi番目のレコードに基づいて生成したレコードを擬似データへ追加する。
なお、一様乱数(0,1)は、所定の最大値を持つ自然乱数列を発生させ、それを当該最大値で割ることで得られる0以上1以下の乱数である。
図9は、擬似データのデータ例を示す図である。擬似データは、中間テーブル内の各分析モデルパラメータに対応した実データパラメータの設定値を含むレコードからなる。擬似データ生成部66は、購買確率pitに基づいて購買すると判断した場合、擬似データに新たなレコードを追加すると、中間テーブルの各分析モデルパラメータから、「1」が設定されているカラムを特定し、当該カラムの設定値に対応した実データパラメータの設定値を、擬似データに追加したレコードに設定する。ただし、1つの分析モデルパラメータの設定値に対して、複数の実データパラメータの設定値が対応する場合、その対応する複数の実データパラメータの設定値から1つをランダムに選択する。
例えば、分析モデルパラメータ「年代」の設定値「〜19」の場合、対応する実データパラメータ「年齢」の設定値「0」〜「19」の中からランダムに選択した設定値とする。また、分析モデルパラメータ「月」の設定値「1月」の場合、対応する実データパラメータ「日付」の設定値「1月1日」〜「1月31日」の中からランダムに選択した設定値とする。
上記のように、追加したレコードに擬似データの実データパラメータ「性別」、「年齢」、「商品コード」、「時間帯」、「日付」、「店舗コード」の設定値が設定されると、これら実データパラメータの設定値によって決定する他の実データパラメータの設定値を当該レコードに書き込む。例えば、日付の設定値に対応した曜日の設定値、商品コードの設定値に対応した金額を書き込む。さらには、追加したレコードにIDを書き込む。
なお、例えば、曜日の設定値分布を実データと同様にしたい場合、分析モデルパラメータ「曜日」の擬似化パラメータ情報を生成する。そして、中間テーブルのレコードから擬似データのレコードを生成する際には、当該曜日に対応した所定期間の日付の中からランダムに日付を選択する。この所定期間は、擬似データ生成の際にユーザが入力するようにしてもよく、実データから擬似化パラメータ情報を生成する際に、当該実データに含まれる日付により期間を取得して擬似化パラメータテーブル内に記憶しておくことでもよい。
上記のようにして、擬似データにレコードを追加すると、擬似データ生成部66は、擬似データのレコード数がトランザクション数に達したかを判断する。達していない場合は、iの値を1加算した値に更新し、中間テーブルにi番目のレコードを追加して各分析モデルパラメータの設定値をランダムに選択し、分析モデルを使用してサービスを利用する確率を算出し、当該確率に基づいてサービスを利用の有無を決定し、サービス利用であると決定した場合には、当該中間テーブルのi番目のレコードに基づいた設定値のレコードを擬似データに追加する上記処理を繰り返す。
擬似データのレコード数がトランザクション数に達すると、検証部67は、生成された擬似データと、分析モデルを用いて、図6のステップS135と同様の処理により、擬似データから擬似化パラメータ情報を生成する(ステップS240)。つまり、検証部67は、分析モデルに使用されている分析モデルパラメータを順に選択すると、選択した各分析モデルパラメータそれぞれについて、当該分析モデルパラメータの各設定値に対応した擬似データにおける実データパラメータの設定値が設定されているレコード数をカウントする。そして、各分析モデルパラメータの各設定値について分布値を作成し、その算出結果から各分析モデルパラメータについての擬似化パラメータ情報からなる検証用擬似化パラメータテーブルを生成する。
検証部67は、2つのデータ群の間に乖離があるか否かを統計的に調べる既存の手法により、ステップS235における擬似データの生成に用いた擬似化パラメータテーブル内の各擬似化パラメータ情報と、S240において生成した検証用擬似化パラメータテーブル内の各擬似化パラメータ情報について検証を行なう。
この検証には、例えば、2集団の平均値に差がないかを統計的に調べるt検定(平均値の差の検定)を用いることができる。具体的には、t検定における帰無仮説を「2集団の平均値に差がない」とし、算出したt値が、当該自由度におけるt分布表(例えば、95%信頼区間)の値よりも小さい場合、帰無仮説は棄却されず、平均に差がないという結果となり、検証成功となる。なお、検証には、各分析モデルパラメータの設定値に仮定される分布に応じた検証法方法を用いるようにする。
検証が不成功であった場合(ステップS245:NO)、再び擬似データを生成するステップS235からの処理を行なう。
再び擬似データを生成する場合、擬似データ再生成部68は、以下のように現在中間データ記憶部54に記憶されている擬似データからレコードを削除する。
(1)ステップS245による検証の結果、検証が不成功であった分析モデルパラメータを特定する。当該分析モデルパラメータの設定値が連続値をとる場合、平均が上回っているか下回っているかを判断する。平均が下回っている場合は、平均値より小さい設定値に対応する実データパラメータの設定値が設定されている実データのレコードを所定の割合だけ削除し、平均が上回っている場合は、平均値より大きい設定値に対応する実データパラメータの設定値が設定されている実データのレコードを所定の割合だけ削除する。
(2)ランダムに所定数または所定割合のレコードを削除する。例えば、設定値が2値である場合など、正規分布をとらない場合に用いられる。
(3)全レコードを削除する。
上記いずれかにより擬似データのレコードを削除したのち、擬似データ再生成部68は、擬似データ生成部66に擬似データの作成を指示する。これにより、擬似データ生成部66は、中間テーブルにi番目のレコードを追加して各分析モデルパラメータの設定値をランダムに選択し、分析モデルを使用してサービスを利用する確率を算出し、当該確率に基づいてサービスを利用の有無を決定し、サービス利用であると決定した場合には、当該中間テーブルのi番目のレコードに基づいた設定値のレコードを擬似データに追加する上記処理を、擬似データのレコード数がトランザクション数に達するまで繰り返す。
一方、ステップS245において、擬似データの検証が成功した場合(ステップS245:YES)、抽出データ書込部65は、ステップS235において生成され、中間データ記憶部54に書き込まれた擬似データを、抽出データ記憶部55に書き込む(ステップS250)。
ユーザは、抽出データ記憶部55に出力された擬似データを用いて、データ分析実習や、システムテストを行なう。
上記実施形態によれば、BIを使いこなせるような、蓄積データの分析スキルを身につけることを目的としたデータ分析実習を効果的に行なうために、過去の分析事例と、実データから生成した、当該実データの設定値分布を示す擬似化パラメータ情報とを対応づけて蓄積しておき、蓄積されている中から分析の目的に近いとして選択されたものを分析事例に対応した擬似化パラメータ情報から擬似データを生成することができる。よって、過去の分析事例から迅速に擬似データを用意することができ、実践的なデータ分析実習を行なうことができる。
また、擬似化パラメータ情報から、必要なトランザクション数の擬似データを生成することができるため、データ記憶領域を削減することが可能となり、コストを削減することができる。
また、一旦生成した擬似データの検証を行なうことにより、より実データに近い擬似データを生成することができ、より現実感のあるデータ分析演習を行なうことができる。
また、分析手順などのノウハウである分析事例を複数、同一の形式により蓄積することができるため、異なる内容の分析を統一的に検索したり、利用したりすることが可能となり、効果的な分析実習を行なうことが可能となる。
また、上記により生成した擬似データをシステムの検証に使用することにより、精度の高い検証結果を得ることができる。
上述の擬似データ生成装置1は、内部にコンピュータシステムを有している。そして、擬似データ生成装置1の分析情報書込部61、分析モデル書込部62、パラメータ作成部63、分析情報検索部64、抽出データ出力部65、擬似データ生成部66、検証部67、及び、擬似データ再生成部68の動作の過程は、プログラムの形式でコンピュータ読み取り可能な記録媒体に記憶されており、このプログラムをコンピュータシステムが読み出して実行することによって、上記処理が行われる。ここでいうコンピュータシステムとは、CPU及び各種メモリやOS、周辺機器等のハードウェアを含むものである。
また、「コンピュータシステム」は、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。
また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含むものとする。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。
なお、本発明は、上記において説明した実施形態に限定されるものではなく、その主旨を逸脱しない範囲において種々変更可能であり、それらも本発明の範囲内に包含されるものであることは言うまでもない。
1…擬似データ生成装置
10…制御部
20…入力部
30…情報読込部
40…表示部
50…記憶部
51…分析情報記憶部
52…分析モデル記憶部
53…実データ記憶部
54…中間データ記憶部
55…抽出データ記憶部
60…処理部
61…分析情報書込部
62…分析モデル書込部
63…パラメータ作成部
64…分析情報検索部
65…抽出データ書込部
66…擬似データ生成部
67…検証部
68…擬似データ再生成部

Claims (5)

  1. 実データを読み込む情報読込部と、
    所定の行動または事象の発生確率の算出式である分析モデルに用いられている分析モデルパラメータの取りうる設定値の分布を示す値を、当該分析モデルパラメータに対応した前記実データ内のパラメータの設定値から算出するパラメータ作成部と、
    前記分析モデルパラメータが取り得る設定値をランダムに決定し、前記分析モデルを用いて、ランダムに決定した当該分析モデルパラメータの設定値と、前記パラメータ作成部により作成された、当該分析モデルパラメータの設定値の分布を示す前記値とから前記所定の行動または事象の発生確率を算出し、算出した当該確率に基づいて擬似データの生成に前記ランダムに決定した当該分析モデルパラメータの設定値を用いるか否かを決定し、擬似データの生成に用いると決定した場合、当該ランダムに決定した前記分析モデルパラメータの設定値に基づいて擬似データを構成するパラメータの設定値を決定する処理を繰り返し、擬似データを生成する擬似データ生成部と、
    を備えることを特徴とする擬似データ生成装置。
  2. 前記擬似データ生成部は、擬似データを構成するパラメータの設定値を、予め指定されたレコード数分生成することを特徴とする請求項1に記載の擬似データ生成装置。
  3. 前記分析モデルに用いられている分析モデルパラメータの取りうる設定値の分布を示す値を、当該分析モデルパラメータに対応した前記擬似データ内のパラメータの設定値から算出し、算出した当該設定値の分布を示す値と、前記実データ内のパラメータの設定値に基づいて生成した当該設定値の分布を示す値とから設定値の分布が所定より乖離しているか否かを判定する検証部と、
    前記検証部により乖離している判断された場合、前記擬似データの一部または全てを削除し、前記擬似データ生成部に擬似データの作成を指示する擬似データ再生成部と、
    をさらに備えることを特徴とする請求項1または2に記載の擬似データ生成装置。
  4. 擬似データ生成装置に用いられる擬似データ生成方法であって、
    情報読込部が、実データを読み込む情報読込部ステップと、
    前記パラメータ作成部が、所定の行動または事象の発生確率の算出式である分析モデルに用いられている分析モデルパラメータの取りうる設定値の分布を示す値を、当該分析モデルパラメータに対応した前記実データ内のパラメータの設定値から算出するパラメータ作成ステップと、
    擬似データ生成部が、前記分析モデルパラメータが取り得る設定値をランダムに決定し、前記分析モデルを用いて、ランダムに決定した当該分析モデルパラメータの設定値と、前記パラメータ作成ステップにおいて作成された、当該分析モデルパラメータの設定値の分布を示す前記値とから前記所定の行動または事象の発生確率を算出し、算出した当該確率に基づいて擬似データの生成に前記ランダムに決定した当該分析モデルパラメータの設定値を用いるか否かを決定し、擬似データの生成に用いると決定した場合、当該ランダムに決定した前記分析モデルパラメータの設定値に基づいて擬似データを構成するパラメータの設定値を決定する処理を繰り返し、擬似データを生成する擬似データ生成ステップと、
    を有することを特徴とする擬似データ生成方法。
  5. 擬似データ生成装置として用いられるコンピュータを、
    所定の行動または事象の発生確率の算出式である分析モデルに用いられている分析モデルパラメータの取りうる設定値の分布を示す値を、当該分析モデルパラメータに対応した実データ内のパラメータの設定値から算出するパラメータ作成部、
    前記分析モデルパラメータが取り得る設定値をランダムに決定し、前記分析モデルを用いて、ランダムに決定した当該分析モデルパラメータの設定値と、前記パラメータ作成部により作成された、当該分析モデルパラメータの設定値の分布を示す前記値とから前記所定の行動または事象の発生確率を算出し、算出した当該確率に基づいて擬似データの生成に前記ランダムに決定した当該分析モデルパラメータの設定値を用いるか否かを決定し、擬似データの生成に用いると決定した場合、当該ランダムに決定した前記分析モデルパラメータの設定値に基づいて擬似データを構成するパラメータの設定値を決定する処理を繰り返し、擬似データを生成する擬似データ生成部、
    として機能させることを特徴とするコンピュータプログラム。
JP2009131508A 2009-05-29 2009-05-29 擬似データ生成装置、擬似データ生成方法及びコンピュータプログラム Expired - Fee Related JP5156692B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009131508A JP5156692B2 (ja) 2009-05-29 2009-05-29 擬似データ生成装置、擬似データ生成方法及びコンピュータプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009131508A JP5156692B2 (ja) 2009-05-29 2009-05-29 擬似データ生成装置、擬似データ生成方法及びコンピュータプログラム

Publications (2)

Publication Number Publication Date
JP2010277481A true JP2010277481A (ja) 2010-12-09
JP5156692B2 JP5156692B2 (ja) 2013-03-06

Family

ID=43424358

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009131508A Expired - Fee Related JP5156692B2 (ja) 2009-05-29 2009-05-29 擬似データ生成装置、擬似データ生成方法及びコンピュータプログラム

Country Status (1)

Country Link
JP (1) JP5156692B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018180575A (ja) * 2017-04-03 2018-11-15 カタリナ マーケティング ジャパン株式会社 購買動向分析システム、及びそれを用いたクーポン発行システム
CN110716963A (zh) * 2019-09-09 2020-01-21 平安证券股份有限公司 提供自适应配置的用户数据的方法及相关设备
WO2022107285A1 (ja) * 2020-11-19 2022-05-27 日本電信電話株式会社 疑似データ生成装置、疑似データ生成方法及びプログラム

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001175684A (ja) * 1999-12-22 2001-06-29 Nec Corp 姓データの生成方法及びその生成装置
JP2004326510A (ja) * 2003-04-25 2004-11-18 Daiwa Securities Group Inc テストデータ生成装置、テストデータ生成方法およびプログラム
WO2008114452A1 (ja) * 2007-03-20 2008-09-25 Fujitsu Limited 模擬処理装置、模擬処理システム及びコンピュータプログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001175684A (ja) * 1999-12-22 2001-06-29 Nec Corp 姓データの生成方法及びその生成装置
JP2004326510A (ja) * 2003-04-25 2004-11-18 Daiwa Securities Group Inc テストデータ生成装置、テストデータ生成方法およびプログラム
WO2008114452A1 (ja) * 2007-03-20 2008-09-25 Fujitsu Limited 模擬処理装置、模擬処理システム及びコンピュータプログラム

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018180575A (ja) * 2017-04-03 2018-11-15 カタリナ マーケティング ジャパン株式会社 購買動向分析システム、及びそれを用いたクーポン発行システム
CN110716963A (zh) * 2019-09-09 2020-01-21 平安证券股份有限公司 提供自适应配置的用户数据的方法及相关设备
CN110716963B (zh) * 2019-09-09 2023-09-01 平安证券股份有限公司 提供自适应配置的用户数据的方法及相关设备
WO2022107285A1 (ja) * 2020-11-19 2022-05-27 日本電信電話株式会社 疑似データ生成装置、疑似データ生成方法及びプログラム
JP7452700B2 (ja) 2020-11-19 2024-03-19 日本電信電話株式会社 疑似データ生成装置、疑似データ生成方法及びプログラム

Also Published As

Publication number Publication date
JP5156692B2 (ja) 2013-03-06

Similar Documents

Publication Publication Date Title
US11436430B2 (en) Feature information extraction method, apparatus, server cluster, and storage medium
Van Der Aalst Data science in action
US10614077B2 (en) Computer system for automated assessment at scale of topic-specific social media impact
US20140189000A1 (en) Social media impact assessment
CN119721689B (zh) 业务风险评估方法、装置、计算机设备及存储介质
Anderson Statistics for big data for dummies
CN114003567A (zh) 数据采集的方法及相关装置
CN115578138A (zh) 营销方法、装置、介质和计算设备
JP5156692B2 (ja) 擬似データ生成装置、擬似データ生成方法及びコンピュータプログラム
US20200160359A1 (en) User-experience development system
CN110428342A (zh) 数据修复方法、服务器、客服端及存储介质
CN114511356A (zh) 用于银行智能柜台的广告信息推送方法及装置
US20220253690A1 (en) Machine-learning systems for simulating collaborative behavior by interacting users within a group
Mia Big data analytics
Kokkaew et al. Modelling completion risk using stochastic critical path‐envelope method: a BOT highway project application
Huang Experimental riskology: a new discipline for risk analysis
Karunarathna et al. Determinants that drive the behavioural intention of employees in the IT industry to use CI/CD framework: A study based on Sri Lankan IT companies
US12493897B2 (en) Artificial intelligence-based methods and systems for generating responses, ratings, and feedback of social media marketing campaigns
Alam et al. A Multi-modal Approach Using Game Theory for Android Forensics Tool Selection
JP7660530B2 (ja) プロジェクト成否予測装置、予測モデルの機械学習方法、およびプロジェクト成否予測方法
JP2020204836A (ja) 生活保護に関する情報処理方法及び装置
Jelonek Use of Predictive Analytics in Humanitarian Operations
US20240281767A1 (en) Recruitment augmentation with digital footprint utilization
Khalili et al. SimGine: A simulation engine for stochastic discrete-event systems based on SDES description
Lehman et al. Practical spreadsheet risk modeling for management

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110324

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120821

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20121016

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20121113

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20121210

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20151214

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 5156692

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees