JP2010277481A - 擬似データ生成装置、擬似データ生成方法及びコンピュータプログラム - Google Patents
擬似データ生成装置、擬似データ生成方法及びコンピュータプログラム Download PDFInfo
- Publication number
- JP2010277481A JP2010277481A JP2009131508A JP2009131508A JP2010277481A JP 2010277481 A JP2010277481 A JP 2010277481A JP 2009131508 A JP2009131508 A JP 2009131508A JP 2009131508 A JP2009131508 A JP 2009131508A JP 2010277481 A JP2010277481 A JP 2010277481A
- Authority
- JP
- Japan
- Prior art keywords
- analysis model
- parameter
- pseudo data
- data
- value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
【解決手段】擬似データ生成装置1のパラメータ作成部63は、所定の行動の発生確率の算出式である分析モデルに用いられている分析モデルパラメータの取りうる設定値の分布を示す値を、当該分析モデルパラメータに対応した実データ内のパラメータの設定値から算出する。擬似データ生成部66は、分析モデルパラメータが取り得る設定値をランダムに決定し、分析モデルを用いて、ランダムに決定した分析モデルパラメータの設定値と、当該設定値の分布を示す値とから所定の行動の発生確率を算出し、算出した確率に基づいて擬似データの生成に用いるか否かを決定し、擬似データの生成に用いると決定した場合、ランダムに決定した分析モデルパラメータの設定値に基づいて擬似データを構成するパラメータの設定値を決定する処理を繰り返し、擬似データを生成する。
【選択図】図1
Description
図1は、本発明の一実施形態による擬似データ生成装置1の機能ブロック図である。同図において、擬似データ生成装置1は、例えば、サーバやパーソナルコンピュータなどのコンピュータ装置で実現することができ、制御部10、入力部20、情報読込部30、表示部40、記憶部50及び処理部60を備える。
抽出データ出力部65は、ユーザによって選択された分析情報に実データが対応付けてられているときには、当該実データを抽出データ記憶部55に書き込み、ユーザによって選択された分析情報に擬似化パラメータ情報が対応付けてられているときには、当該擬似化パラメータ情報を用いて生成された擬似データを抽出データ記憶部55に書き込む。
図2は、擬似データ生成装置1に入力される実データのデータ構成例を示す図である。
同図において、実データは、POS(Point Of Sale)データ及び顧客属性データとからなる。POSデータは、顧客が商品を購入した日付、曜日及び時間帯と、購入店舗の店舗コードと、購入商品を特定する商品コードと、商品の金額との情報が含まれる複数のレコードからなり、各レコードにはレコードを特定するIDが設定される。顧客属性データは、顧客の性別、年齢等を含む複数のレコードからなり、各レコードにはレコードを特定するIDが設定される。以下、実データを構成するパラメータの種別、例えば、POSデータの日付、曜日、時間帯、店舗コード、商品コード、金額や、顧客属性データの性別や年齢などを「実データパラメータ」と記載する。
例えば、ウェブ利用についての実データであれば、POSデータに代えて、レコードを特定するIDと、顧客がウェブにアクセスした日付、曜日及び時間帯と、アクセス先URL(Universal Resource Locator)との情報を含む複数のレコードからなるアクセスログデータを用いることができる。
同図において、分析情報テーブルは、レコードを特定する分析番号と、分析タイトル、どのような業界あるいは分野に関する分析であるかを示す業界・分野キーワード、分析の目的、使用した分析シナリオ、分析シナリオによる分析内容、分析内容詳細、及び、分析結果詳細からなる分析情報と、擬似化パラメータテーブル(後述する図5参照)の有無、及び、分析用データ格納位置とを含むレコードからなる。分析用データ格納位置は、擬似化パラメータテーブル「無」の場合は、実データの格納位置を、擬似化パラメータテーブル「有」の場合は擬似化パラメータテーブルの格納位置が設定される。また、分析内容、分析内容詳細には、それらを記述した情報の格納位置が設定される。
擬似化パラメータテーブルは、分析モデルに用いられる各パラメータの擬似化パラメータ情報からなる。以下、分析モデルに用いられるパラメータを「分析モデルパラメータ」と記載する。同図において、擬似化パラメータテーブルは、性別、年代、商品種別、店舗、時間帯、月などの各分析モデルパラメータに対応した擬似化パラメータ情報からなり、擬似化パラメータ情報は、分析モデルパラメータが取り得る設定値と、実データにおける当該設定値の分布を示す分布値とを対応付けた情報であることが示されている。
図6は、本実施の形態によるデータ蓄積処理の処理フローを示す図である。
同図において、ユーザは、擬似データ生成装置1の入力部20により、実データを蓄積するか、擬似化パラメータ情報を生成するかの指示と、実データの格納場所とを入力する(ステップS105)。さらにユーザは、入力部20により、分析タイトル、業界・分野キーワード、分析の目的、分析シナリオ、分析シナリオによる分析内容、分析内容詳細、及び、分析結果詳細からなる分析情報を入力する(ステップS110)。
また、分析モデルパラメータ「商品種別」は、POSデータの「商品コード」に対応し、分析モデルパラメータ「商品種別」の設定値「A」、「B」、…は、POSデータの実データパラメータ「商品コード」の設定値「0001」、「0002」、…にそれぞれ対応することが入力される。
ここでは、分析モデルパラメータの性別、年代、商品種別、店舗、時間帯、月は、それぞれ、顧客属性データの性別、年齢、POSデータの商品コード、店舗コード、時間帯、日付に対応するものとする。
同様に、分析モデルパラメータAがβ、γのときの分布値を算出すると、その算出結果から分析モデルパラメータAの擬似化パラメータ情報を生成する。
同図において、ユーザは、擬似データ生成装置1の入力部20により、データ分析実習やシステム検証に使用するデータの検索条件、例えば、分析タイトル、業界・分野キーワード、分析目的、分析シナリオなどの検索対象と、検索語を入力する(ステップS205)。分析情報検索部64は、分析情報記憶部51内の分析情報テーブルから、入力された検索条件で示される検索対象に、当該検索条件で示される検索語が設定されているレコードを特定すると、特定したレコードに設定されている分析情報を表示部40に表示する(ステップS210)。ユーザは、出力された分析情報を確認し、適切な分析情報が表示されていない場合(ステップS215:NO)、再びステップS205からの処理を行い、検索条件の入力と検索結果の表示の処理を繰り返す。
なお、tには、1が設定されている「時間帯」のカラムに対応した設定値が代入される。また、γ11、γ21には、所定の分析モデルパラメータの設定値に対応した所定の値とする。
なお、一様乱数(0,1)は、所定の最大値を持つ自然乱数列を発生させ、それを当該最大値で割ることで得られる0以上1以下の乱数である。
例えば、分析モデルパラメータ「年代」の設定値「〜19」の場合、対応する実データパラメータ「年齢」の設定値「0」〜「19」の中からランダムに選択した設定値とする。また、分析モデルパラメータ「月」の設定値「1月」の場合、対応する実データパラメータ「日付」の設定値「1月1日」〜「1月31日」の中からランダムに選択した設定値とする。
この検証には、例えば、2集団の平均値に差がないかを統計的に調べるt検定(平均値の差の検定)を用いることができる。具体的には、t検定における帰無仮説を「2集団の平均値に差がない」とし、算出したt値が、当該自由度におけるt分布表(例えば、95%信頼区間)の値よりも小さい場合、帰無仮説は棄却されず、平均に差がないという結果となり、検証成功となる。なお、検証には、各分析モデルパラメータの設定値に仮定される分布に応じた検証法方法を用いるようにする。
再び擬似データを生成する場合、擬似データ再生成部68は、以下のように現在中間データ記憶部54に記憶されている擬似データからレコードを削除する。
(2)ランダムに所定数または所定割合のレコードを削除する。例えば、設定値が2値である場合など、正規分布をとらない場合に用いられる。
(3)全レコードを削除する。
ユーザは、抽出データ記憶部55に出力された擬似データを用いて、データ分析実習や、システムテストを行なう。
また、擬似化パラメータ情報から、必要なトランザクション数の擬似データを生成することができるため、データ記憶領域を削減することが可能となり、コストを削減することができる。
また、一旦生成した擬似データの検証を行なうことにより、より実データに近い擬似データを生成することができ、より現実感のあるデータ分析演習を行なうことができる。
また、分析手順などのノウハウである分析事例を複数、同一の形式により蓄積することができるため、異なる内容の分析を統一的に検索したり、利用したりすることが可能となり、効果的な分析実習を行なうことが可能となる。
また、上記により生成した擬似データをシステムの検証に使用することにより、精度の高い検証結果を得ることができる。
また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含むものとする。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。
10…制御部
20…入力部
30…情報読込部
40…表示部
50…記憶部
51…分析情報記憶部
52…分析モデル記憶部
53…実データ記憶部
54…中間データ記憶部
55…抽出データ記憶部
60…処理部
61…分析情報書込部
62…分析モデル書込部
63…パラメータ作成部
64…分析情報検索部
65…抽出データ書込部
66…擬似データ生成部
67…検証部
68…擬似データ再生成部
Claims (5)
- 実データを読み込む情報読込部と、
所定の行動または事象の発生確率の算出式である分析モデルに用いられている分析モデルパラメータの取りうる設定値の分布を示す値を、当該分析モデルパラメータに対応した前記実データ内のパラメータの設定値から算出するパラメータ作成部と、
前記分析モデルパラメータが取り得る設定値をランダムに決定し、前記分析モデルを用いて、ランダムに決定した当該分析モデルパラメータの設定値と、前記パラメータ作成部により作成された、当該分析モデルパラメータの設定値の分布を示す前記値とから前記所定の行動または事象の発生確率を算出し、算出した当該確率に基づいて擬似データの生成に前記ランダムに決定した当該分析モデルパラメータの設定値を用いるか否かを決定し、擬似データの生成に用いると決定した場合、当該ランダムに決定した前記分析モデルパラメータの設定値に基づいて擬似データを構成するパラメータの設定値を決定する処理を繰り返し、擬似データを生成する擬似データ生成部と、
を備えることを特徴とする擬似データ生成装置。 - 前記擬似データ生成部は、擬似データを構成するパラメータの設定値を、予め指定されたレコード数分生成することを特徴とする請求項1に記載の擬似データ生成装置。
- 前記分析モデルに用いられている分析モデルパラメータの取りうる設定値の分布を示す値を、当該分析モデルパラメータに対応した前記擬似データ内のパラメータの設定値から算出し、算出した当該設定値の分布を示す値と、前記実データ内のパラメータの設定値に基づいて生成した当該設定値の分布を示す値とから設定値の分布が所定より乖離しているか否かを判定する検証部と、
前記検証部により乖離している判断された場合、前記擬似データの一部または全てを削除し、前記擬似データ生成部に擬似データの作成を指示する擬似データ再生成部と、
をさらに備えることを特徴とする請求項1または2に記載の擬似データ生成装置。 - 擬似データ生成装置に用いられる擬似データ生成方法であって、
情報読込部が、実データを読み込む情報読込部ステップと、
前記パラメータ作成部が、所定の行動または事象の発生確率の算出式である分析モデルに用いられている分析モデルパラメータの取りうる設定値の分布を示す値を、当該分析モデルパラメータに対応した前記実データ内のパラメータの設定値から算出するパラメータ作成ステップと、
擬似データ生成部が、前記分析モデルパラメータが取り得る設定値をランダムに決定し、前記分析モデルを用いて、ランダムに決定した当該分析モデルパラメータの設定値と、前記パラメータ作成ステップにおいて作成された、当該分析モデルパラメータの設定値の分布を示す前記値とから前記所定の行動または事象の発生確率を算出し、算出した当該確率に基づいて擬似データの生成に前記ランダムに決定した当該分析モデルパラメータの設定値を用いるか否かを決定し、擬似データの生成に用いると決定した場合、当該ランダムに決定した前記分析モデルパラメータの設定値に基づいて擬似データを構成するパラメータの設定値を決定する処理を繰り返し、擬似データを生成する擬似データ生成ステップと、
を有することを特徴とする擬似データ生成方法。 - 擬似データ生成装置として用いられるコンピュータを、
所定の行動または事象の発生確率の算出式である分析モデルに用いられている分析モデルパラメータの取りうる設定値の分布を示す値を、当該分析モデルパラメータに対応した実データ内のパラメータの設定値から算出するパラメータ作成部、
前記分析モデルパラメータが取り得る設定値をランダムに決定し、前記分析モデルを用いて、ランダムに決定した当該分析モデルパラメータの設定値と、前記パラメータ作成部により作成された、当該分析モデルパラメータの設定値の分布を示す前記値とから前記所定の行動または事象の発生確率を算出し、算出した当該確率に基づいて擬似データの生成に前記ランダムに決定した当該分析モデルパラメータの設定値を用いるか否かを決定し、擬似データの生成に用いると決定した場合、当該ランダムに決定した前記分析モデルパラメータの設定値に基づいて擬似データを構成するパラメータの設定値を決定する処理を繰り返し、擬似データを生成する擬似データ生成部、
として機能させることを特徴とするコンピュータプログラム。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2009131508A JP5156692B2 (ja) | 2009-05-29 | 2009-05-29 | 擬似データ生成装置、擬似データ生成方法及びコンピュータプログラム |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2009131508A JP5156692B2 (ja) | 2009-05-29 | 2009-05-29 | 擬似データ生成装置、擬似データ生成方法及びコンピュータプログラム |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2010277481A true JP2010277481A (ja) | 2010-12-09 |
| JP5156692B2 JP5156692B2 (ja) | 2013-03-06 |
Family
ID=43424358
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2009131508A Expired - Fee Related JP5156692B2 (ja) | 2009-05-29 | 2009-05-29 | 擬似データ生成装置、擬似データ生成方法及びコンピュータプログラム |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP5156692B2 (ja) |
Cited By (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2018180575A (ja) * | 2017-04-03 | 2018-11-15 | カタリナ マーケティング ジャパン株式会社 | 購買動向分析システム、及びそれを用いたクーポン発行システム |
| CN110716963A (zh) * | 2019-09-09 | 2020-01-21 | 平安证券股份有限公司 | 提供自适应配置的用户数据的方法及相关设备 |
| WO2022107285A1 (ja) * | 2020-11-19 | 2022-05-27 | 日本電信電話株式会社 | 疑似データ生成装置、疑似データ生成方法及びプログラム |
Citations (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2001175684A (ja) * | 1999-12-22 | 2001-06-29 | Nec Corp | 姓データの生成方法及びその生成装置 |
| JP2004326510A (ja) * | 2003-04-25 | 2004-11-18 | Daiwa Securities Group Inc | テストデータ生成装置、テストデータ生成方法およびプログラム |
| WO2008114452A1 (ja) * | 2007-03-20 | 2008-09-25 | Fujitsu Limited | 模擬処理装置、模擬処理システム及びコンピュータプログラム |
-
2009
- 2009-05-29 JP JP2009131508A patent/JP5156692B2/ja not_active Expired - Fee Related
Patent Citations (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2001175684A (ja) * | 1999-12-22 | 2001-06-29 | Nec Corp | 姓データの生成方法及びその生成装置 |
| JP2004326510A (ja) * | 2003-04-25 | 2004-11-18 | Daiwa Securities Group Inc | テストデータ生成装置、テストデータ生成方法およびプログラム |
| WO2008114452A1 (ja) * | 2007-03-20 | 2008-09-25 | Fujitsu Limited | 模擬処理装置、模擬処理システム及びコンピュータプログラム |
Cited By (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2018180575A (ja) * | 2017-04-03 | 2018-11-15 | カタリナ マーケティング ジャパン株式会社 | 購買動向分析システム、及びそれを用いたクーポン発行システム |
| CN110716963A (zh) * | 2019-09-09 | 2020-01-21 | 平安证券股份有限公司 | 提供自适应配置的用户数据的方法及相关设备 |
| CN110716963B (zh) * | 2019-09-09 | 2023-09-01 | 平安证券股份有限公司 | 提供自适应配置的用户数据的方法及相关设备 |
| WO2022107285A1 (ja) * | 2020-11-19 | 2022-05-27 | 日本電信電話株式会社 | 疑似データ生成装置、疑似データ生成方法及びプログラム |
| JP7452700B2 (ja) | 2020-11-19 | 2024-03-19 | 日本電信電話株式会社 | 疑似データ生成装置、疑似データ生成方法及びプログラム |
Also Published As
| Publication number | Publication date |
|---|---|
| JP5156692B2 (ja) | 2013-03-06 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US11436430B2 (en) | Feature information extraction method, apparatus, server cluster, and storage medium | |
| Van Der Aalst | Data science in action | |
| US10614077B2 (en) | Computer system for automated assessment at scale of topic-specific social media impact | |
| US20140189000A1 (en) | Social media impact assessment | |
| CN119721689B (zh) | 业务风险评估方法、装置、计算机设备及存储介质 | |
| Anderson | Statistics for big data for dummies | |
| CN114003567A (zh) | 数据采集的方法及相关装置 | |
| CN115578138A (zh) | 营销方法、装置、介质和计算设备 | |
| JP5156692B2 (ja) | 擬似データ生成装置、擬似データ生成方法及びコンピュータプログラム | |
| US20200160359A1 (en) | User-experience development system | |
| CN110428342A (zh) | 数据修复方法、服务器、客服端及存储介质 | |
| CN114511356A (zh) | 用于银行智能柜台的广告信息推送方法及装置 | |
| US20220253690A1 (en) | Machine-learning systems for simulating collaborative behavior by interacting users within a group | |
| Mia | Big data analytics | |
| Kokkaew et al. | Modelling completion risk using stochastic critical path‐envelope method: a BOT highway project application | |
| Huang | Experimental riskology: a new discipline for risk analysis | |
| Karunarathna et al. | Determinants that drive the behavioural intention of employees in the IT industry to use CI/CD framework: A study based on Sri Lankan IT companies | |
| US12493897B2 (en) | Artificial intelligence-based methods and systems for generating responses, ratings, and feedback of social media marketing campaigns | |
| Alam et al. | A Multi-modal Approach Using Game Theory for Android Forensics Tool Selection | |
| JP7660530B2 (ja) | プロジェクト成否予測装置、予測モデルの機械学習方法、およびプロジェクト成否予測方法 | |
| JP2020204836A (ja) | 生活保護に関する情報処理方法及び装置 | |
| Jelonek | Use of Predictive Analytics in Humanitarian Operations | |
| US20240281767A1 (en) | Recruitment augmentation with digital footprint utilization | |
| Khalili et al. | SimGine: A simulation engine for stochastic discrete-event systems based on SDES description | |
| Lehman et al. | Practical spreadsheet risk modeling for management |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20110324 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120821 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20121016 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20121113 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20121210 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20151214 Year of fee payment: 3 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 5156692 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| LAPS | Cancellation because of no payment of annual fees |