JP2013152670A - Database disturbance parameter setting device, database disturbance system and method, and database disturbance device - Google Patents
Database disturbance parameter setting device, database disturbance system and method, and database disturbance device Download PDFInfo
- Publication number
- JP2013152670A JP2013152670A JP2012013873A JP2012013873A JP2013152670A JP 2013152670 A JP2013152670 A JP 2013152670A JP 2012013873 A JP2012013873 A JP 2012013873A JP 2012013873 A JP2012013873 A JP 2012013873A JP 2013152670 A JP2013152670 A JP 2013152670A
- Authority
- JP
- Japan
- Prior art keywords
- disturbance
- attribute
- parameter
- database
- attribute value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
この発明は、プライバシーを保護しながらデータマイニングを行う技術に関する。 The present invention relates to a technique for performing data mining while protecting privacy.
いわゆるPk−匿名性を満たすデータベース撹乱技術及びそのデータベース撹乱技術で用いられるパラメータ決定技術が、非特許文献1で提案されている(例えば、非特許文献1参照。)。具体的には、非特許文献1には、攻撃者がA個の属性の全てを見ることができるとした場合にPk−匿名性を実現するためのデータベース撹乱技術及びパラメータ決定技術が記載されている。 A database disturbance technique that satisfies so-called Pk-anonymity and a parameter determination technique used in the database disturbance technique have been proposed in Non-Patent Document 1 (for example, see Non-Patent Document 1). Specifically, Non-Patent Document 1 describes a database disturbance technique and a parameter determination technique for realizing Pk-anonymity when an attacker can see all of the A attributes. Yes.
Pk−匿名性は、データベースの各レコードと、その各レコードに対応する個人とを1/k以上の確率で結びつけることができないという性質である。 Pk-anonymity is a property that each record in the database and an individual corresponding to each record cannot be associated with a probability of 1 / k or more.
しかしながら、MをA−1以下の整数として、攻撃者がA個の属性のうち任意のM個の属性を見ることができるとした場合にPk−匿名性を実現するための技術は、非特許文献1には記載されていない。 However, a technique for realizing Pk-anonymity when M is an integer equal to or less than A-1 and an attacker can view any M attributes among the A attributes is not patented. It is not described in Document 1.
この発明は、攻撃者がA個の属性のうち任意のM個の属性を見ることができるとした場合にPk−匿名性を実現するためのデータベース撹乱パラメータ設定装置、データベース撹乱システム及び方法並びにデータベース撹乱装置を提供することを目的とする。 The present invention relates to a database disturbance parameter setting device, a database disturbance system and method, and a database for realizing Pk-anonymity when an attacker can view any M attributes of A attributes. An object is to provide a disturbance device.
この発明の一態様によるデータベース撹乱パラメータ設定装置は、テーブルは複数のレコードを含み、Aを所定の2以上の整数とし、各レコードはレコード識別子及びA個の属性値を含み、kをセキュリティパラメータとし、|N|をレコードの数とし、MをA−1以下の所定の自然数とし、α=((k−1)/(N−1))1/Mとして、ess inf・を・の本質的下限として、テーブルに含まれる属性のそれぞれについて、そのそれぞれの属性aの属性値をvとし、撹乱前の属性値v,uの定義域をVaとし、撹乱後の属性値v’,u’の定義域をV’aとして、所定のパラメータpaにより定まる関数Aa(pa)v,v’に基づく撹乱を行い撹乱後の属性値v’とすることによりテーブルの撹乱を行うデータベース撹乱装置に用いられるパラメータpaを決定するデータベース撹乱パラメータ決定装置において、下記式を満たすパラメータpaを決定するパラメータ決定部 In the database disturbance parameter setting device according to one aspect of the present invention, the table includes a plurality of records, A is a predetermined integer of 2 or more, each record includes a record identifier and A attribute values, and k is a security parameter. , | N | is the number of records, M is a predetermined natural number less than or equal to A-1, α = ((k−1) / (N−1)) 1 / M , and ess inf is essentially the lower limit for each attribute included in the table, then the attribute values of the respective attributes a and v, disturbance before an attribute value v, the domain of u and V a, the attribute values v after disturbance ', u' Database disturbance in which a domain is defined as V ′ a , disturbance is performed based on a function A a (pa) v, v ′ determined by a predetermined parameter pa, and the attribute value v ′ after the disturbance is used to disturb the table Used in equipment In Database disturbance parameter determining device for determining a that parameter p a, parameter determination unit determining a parameter p a satisfying the following formula
を含む。 including.
この発明の一態様によるデータベース撹乱システムは、上記データベース撹乱パラメータ決定装置と、上記データベース撹乱装置と、を含む。 The database disturbance system by one aspect | mode of this invention contains the said database disturbance parameter determination apparatus and the said database disturbance apparatus.
この発明の一態様によるデータベース撹乱装置は、テーブルは複数のレコードを含み、Aを所定の2以上の整数とし、各レコードはレコード識別子及び少なくとも1つの属性値を含み、kをセキュリティパラメータとし、|N|をレコードの数とし、MをA−1以下の所定の自然数とし、α=((k−1)/(N−1))1/Mとして、ess inf・を・の本質的下限として、テーブルに含まれるM以下の個数の属性のそれぞれについて、そのそれぞれの属性aの属性値をvとし、撹乱前の属性値v,uの定義域をVaとし、撹乱後の属性値v’,u’の定義域をV’aとして、所定のパラメータpaにより定まる関数Aa(pa)v,v’に基づく撹乱を行い撹乱後の属性値v’とすることによりテーブルの撹乱を行う撹乱部を含み、パラメータpaは、下記式の関係を満たす。 In the database disturbance device according to an aspect of the present invention, the table includes a plurality of records, A is a predetermined integer equal to or greater than 2, each record includes a record identifier and at least one attribute value, k is a security parameter, N | is the number of records, M is a predetermined natural number equal to or less than A-1, α = ((k−1) / (N−1)) 1 / M , and ess inf · is an essential lower limit of for each attribute of the following number M included in the table, then the attribute values of the respective attributes a and v, disturbance before an attribute value v, the domain of u and V a, the attribute values v after disturbance ' , U ′ is defined as V ′ a , disturbance based on the function A a (p a ) v, v ′ determined by a predetermined parameter pa is performed, and the attribute value v ′ after the disturbance is set, thereby disturbing the table. Including the disturbance section to perform Over data p a satisfy the relationship of the following formula.
攻撃者がA個の属性のうち任意のM個の属性を見ることができるとした場合にも、Pk−匿名性を実現することができる。 Pk-anonymity can also be realized when an attacker can view any M attributes of A attributes.
以下、図面を参照して、この発明の実施形態を説明する。 Embodiments of the present invention will be described below with reference to the drawings.
[第一実施形態]
第一実施形態のデータベース撹乱システムは、図1に例示するように、データ提供者装置2、匿名データサーバ1及び分析ユーザ装置3を備えている。
[First embodiment]
The database disturbance system of 1st embodiment is provided with the data provider apparatus 2, the anonymous data server 1, and the analysis user apparatus 3, as illustrated in FIG.
匿名データサーバ1は、匿名化されたデータを記憶するサーバである。匿名データサーバ1は、パラメータ決定部11及び記憶部12を例えば備えている。パラメータ決定部11が、特許請求の範囲のデータベース撹乱パラメータ決定装置に対応している。
The anonymous data server 1 is a server that stores anonymized data. The anonymous data server 1 includes, for example, a
データ提供者装置2は、データを匿名データサーバ1に預けようとする主体である。データ提供者装置2は、例えば、データを匿名データサーバ1に預けようとするユーザが有するPC、携帯情報端末装置等のコンピュータである。データ提供者装置2は、2以上存在していてもよい。データ提供者装置2は、撹乱部21を例えば備えている。撹乱部21が、特許請求の範囲のデータベース撹乱装置に対応している。
The data provider device 2 is a subject that intends to deposit data in the anonymous data server 1. The data provider device 2 is, for example, a computer such as a PC or a portable information terminal device possessed by a user who wants to deposit data in the anonymous data server 1. Two or more data provider devices 2 may exist. The data provider device 2 includes a
分析ユーザ装置3は、匿名化されたデータに基づいて集計処理を行う装置である。分析ユーザ装置3も、2以上存在していてもよい。 The analysis user device 3 is a device that performs aggregation processing based on anonymized data. Two or more analysis user devices 3 may exist.
まず、撹乱の対象となるデータベースについて説明する。撹乱の対象となるデータベースは、図3及び図2に例示するように、複数のレコードから構成されている。 First, a database to be disturbed will be described. The database to be disturbed is composed of a plurality of records as illustrated in FIGS. 3 and 2.
各レコードは、レコード識別子と少なくとも1つの属性値とから構成されている。レコード識別子は、個人を識別する識別子であり、いわゆるレコードIDである。レコード識別子は、例えば氏名や氏名に対応するID番号である。この実施形態では、レコード識別子は、データ提供者又はデータ提供者装置2を識別する識別子である。 Each record is composed of a record identifier and at least one attribute value. The record identifier is an identifier for identifying an individual and is a so-called record ID. The record identifier is, for example, a name or an ID number corresponding to the name. In this embodiment, the record identifier is an identifier for identifying the data provider or the data provider device 2.
各属性値は、n次元実数ベクトルの部分集合Vに含まれるベクトルであり、いわゆる数値属性値である。nは、1以上の整数である。n=1であり属性が例えば「中間テストの点数」や「期末テストの点数」である場合には、属性値は0から100までの何れかの整数である。 Each attribute value is a vector included in the subset V of the n-dimensional real vector, and is a so-called numerical attribute value. n is an integer of 1 or more. When n = 1 and the attribute is, for example, “intermediate test score” or “term test score”, the attribute value is any integer from 0 to 100.
また、各属性値は、いわゆるカテゴリ属性値であってもよい。カテゴリ属性値とは、例えば性別等の属性値であり、数値属性値とは異なり属性値の取り得る値がいくつかに制限されている属性値のことである。 Each attribute value may be a so-called category attribute value. The category attribute value is, for example, an attribute value such as gender, and is an attribute value that is limited to several values that the attribute value can take, unlike the numerical attribute value.
図3は、各属性が数値属性である場合のデータベースを例示している。一方、図4は、数値属性の属性とカテゴリ属性の属性との両方を含むデータベースを例示している。 FIG. 3 illustrates a database when each attribute is a numerical attribute. On the other hand, FIG. 4 illustrates a database including both numerical attribute attributes and category attribute attributes.
<ステップS1>
まず、匿名データサーバ1のパラメータ決定部11は、下記式を満たすパラメータpaを決定する(ステップS1)。決定されたパラメータpaは、各データ提供者装置2に送信される。属性の種類の数をAとする。Aは、2以上の所定の整数である。パラメータ決定部11は、属性a(a=1,2,…,A)のそれぞれについて、パラメータpaを決定する。パラメータpaは、例えばいわゆる二分法により計算される。
<Step S1>
First, the
ここで、kをセキュリティパラメータとし、|N|をレコードの数とし、MをA−1以下の所定の自然数として、α=((k−1)/(N−1))1/Mである。また、ess inf・は、・の本質的下限である。 Here, α = ((k−1) / (N−1)) 1 / M , where k is a security parameter, | N | is the number of records, and M is a predetermined natural number equal to or less than A-1. . In addition, ess inf · is an essential lower limit of ·.
関数f(x)の定義域をχとすると、関数f(x)の本質的下限ess inf f(x)は、具体的には以下のように書ける。μ({f<b})を、関数f(x)<bとなる領域の測度(例えば、面積又は体積)とする。下記式のRは実数を意味する。 When the domain of the function f (x) is χ, the essential lower limit ess inf f (x) of the function f (x) can be specifically written as follows. Let μ ({f <b}) be a measure (eg, area or volume) of the region where the function f (x) <b. R in the following formula means a real number.
Vaは属性aの撹乱前の属性値v,uの定義域であり、V’aは属性aの撹乱後の属性値v’,u’の定義域である。Aa(pa)v,v’は、所定のパラメータpaにより定まる関数であり、撹乱前の属性値vが撹乱後に属性値v’となる確率を表す。Aa(pa)u,v’、Aa(pa)v,u’及びAa(pa)u,u’についても、Aa(pa)v,v’と同様である。 V a is a definition area of the attribute values v and u before the disturbance of the attribute a, and V ′ a is a definition area of the attribute values v ′ and u ′ of the attribute a after the disturbance. A a (p a ) v, v ′ is a function determined by a predetermined parameter pa, and represents the probability that the attribute value v before disturbance becomes the attribute value v ′ after disturbance. A a (p a) u, v ', A a (p a) v, u' and A a (p a) u, ' for even, A a (p a) v , v' u is the same as.
属性aが数値属性であり、関数Aa(pa)v,v’が下記式により定義される分散2pa 2のラプラス分布である確率密度関数である場合には、 Attribute a is a numeric attribute, if the function A a (p a) v, v ' is the probability density function is a Laplacian distribution of the dispersed 2p a 2 defined by the following equation,
パラメータ決定部11は、具体的には下記式を満たすパラメータpaを決定する。μは、例えば0である。下記式において、||・||1は・のL1ノルムであり、logの底はネイピア数eである。
また、属性aがカテゴリ属性であり、関数Aa(pa)v,v’が、属性値vを、所定の確率(pa+(1−pa)/|Va|)で維持し、所定の確率(1−pa)/|Va|で属性aの属性値v以外の属性値v’に置換する関数である場合には、パラメータ決定部11は、下記式を満たすパラメータpaを決定する。|Va|は、集合Vaの要素の数である。 The attribute a is category attribute, the function A a (p a) v, v ' is an attribute value v, a predetermined probability and maintained at (p a + (1-p a) / | | V a) In the case of a function that replaces the attribute value v ′ other than the attribute value v of the attribute a with a predetermined probability (1−p a ) / | V a | a is determined. | V a | is the number of elements in the set V a .
<ステップS2>
各データ提供者装置2の撹乱部21は、撹乱の対象となる各属性の属性値について、パラメータpaにより定まる関数Aa(pa)v,v’に基づく撹乱を行い撹乱する(ステップS2)。この実施形態では、各データ提供者装置2の撹乱部21が、自身が持つ各属性aの属性値vについて、パラメータpaにより定まる関数Aa(pa)v,v’に基づく撹乱を行い撹乱後の属性値v’とする。撹乱後の各属性値v’は、匿名データサーバ1に送信される。
<Step S2>
撹乱の対象となる属性aが数値属性である場合には、上記関数Aa(pa)v,v’は確率密度関数である。例えば、関数Aa(pa)v,v’は、下記式により定義される分散2pa 2のラプラス分布である確率密度関数である。||・||1は、・のL1ノルムである。例えば、μ=0とする。 If attribute a subject to disturbance is numeric attribute, the function A a (p a) v, v ' is the probability density function. For example, the function A a (p a ) v, v ′ is a probability density function that is a Laplace distribution with a variance 2 p a 2 defined by the following equation. || · || 1 is the L1 norm of. For example, μ = 0.
撹乱の対象となる属性aが数値属性である場合には、関数Aa(p)v,v’に基づく撹乱とは、属性aの撹乱前の属性値v’に確率密度関数Aa(p)v,v’に従う値を加算して撹乱後の属性値v’とすることを意味する。すなわち、撹乱後の属性値v’=撹乱前の属性値v+確率密度関数Aa(p)v,v’に従う値となる。 When the attribute a to be disturbed is a numerical attribute, the disturbance based on the function A a (p) v, v ′ is the probability density function A a (p ) It means that the value according to v and v ′ is added to obtain the attribute value v ′ after disturbance. That is, the attribute value v ′ after disturbance is equal to the attribute value v before disturbance + the probability density function A a (p) v, v ′ .
以下、「確率密度関数fに従う値」及び「ラプラス分布に従う値」について説明する。ここでは表記の簡略化のために、確率密度関数fと書く。確率密度関数fは上記確率密度関数Aa(p)v,v’と同じと考えてよい。 Hereinafter, the “value according to the probability density function f” and the “value according to the Laplace distribution” will be described. Here, in order to simplify the notation, the probability density function f is written. The probability density function f may be considered to be the same as the probability density function A a (p) v, v ′ .
1.「確率密度関数fに従う値」について
(1)確率密度関数fの定義域及び属性値が1次元の場合
(i)累積分布関数F(x)=∫−∞ xf(x’)dx’を求める。
(ii)累積分布関数F(x)の逆関数F−1を求める。
(iii)区間[0,1]上の一様乱数rを生成する。
(iv)F−1(r)を「確率密度関数fに従う値」として出力する。
1. Regarding “value according to probability density function f” (1) When domain and attribute value of probability density function f are one-dimensional (i) Cumulative distribution function F (x) = ∫− ∞ x f (x ′) dx ′ Ask.
(Ii) An inverse function F −1 of the cumulative distribution function F (x) is obtained.
(Iii) Generate a uniform random number r on the interval [0, 1].
(Iv) F −1 (r) is output as “a value according to the probability density function f”.
累積分布関数F(x)や逆関数F−1が数式で得られる場合にはその数式に基づいてF−1(r)を計算してもよいし、そうでない場合には数値計算によってF−1(r)を計算してもよい。 When the cumulative distribution function F (x) or the inverse function F −1 is obtained by a mathematical formula, F −1 (r) may be calculated based on the mathematical formula. Otherwise, F − is calculated by numerical calculation. 1 (r) may be calculated.
(2)確率密度関数fの定義域及び属性値がn次元の場合
1.i=0,…,n−1のそれぞれに対して、以下の(i)(ii)を行う。
(2) When the domain and the attribute value of the probability density function f are n-dimensional The following (i) and (ii) are performed for each of i = 0,.
(i)x0からxi−1までを固定し、xi+1からxn−1までを積分し、xiだけを変数として残した確率密度関数fiを求める。 (I) x 0 to x i−1 are fixed, x i + 1 to x n−1 are integrated, and a probability density function f i in which only x i is left as a variable is obtained.
(ii)確率密度関数fiの定義域は1次元なので、上記「(1)確率密度関数fの定義域及び属性値が1次元の場合」で示した方法と同様の方法により、「確率密度関数fiに従う値」を計算する。 (Ii) Since the domain of the probability density function f i is one-dimensional, the “probability density” is determined by a method similar to the method described above in “(1) When the domain and attribute value of the probability density function f are one-dimensional”. The value according to the function f i is calculated.
i=0,…,n−1のそれぞれに対して「確率密度関数fiに従う値」を計算することにより、n個の「確率密度関数fiに従う値」が得られる。 By calculating “value according to probability density function f i ” for each of i = 0,..., n−1, n “values according to probability density function f i ” are obtained.
なお、確率密度関数がラプラス分布の場合には、以下のようになる。 In the case where the probability density function is a Laplace distribution, it is as follows.
2.「ラプラス分布に従う値」について
(1)ラプラス分布の定義域及び属性値が1次元の場合
(i)区間[0,1]上の一様乱数r、区間(0,1)上の一様乱数bを生成する。
(ii)(−1)bσlogr+μを「ラプラス分布に従う値」として出力する。
2. About “value according to Laplace distribution” (1) When the domain and attribute value of Laplace distribution are one-dimensional (i) Uniform random number r on interval [0, 1], Uniform random number on interval (0, 1) b is generated.
(Ii) (-1) b σlogr + μ is output as “value according to Laplace distribution”.
(2)ラプラス分布の定義域及び属性値がn次元の場合
(i)上記「(1)ラプラス分布の定義域及び属性値が1次元の場合」で示した方法と同様の方法により、n個の「ラプラス分布に従う値」であるx0,x1,…,xn−1を計算する。
(ii)これらのx0,x1,…,xn−1を「ラプラス分布に従う値」として出力する。
(2) When the domain and attribute value of the Laplace distribution are n-dimensional (i) n in the same manner as the method described in “(1) When the domain and attribute value of the Laplace distribution is one-dimensional” above X 0 , x 1 ,..., X n−1 which are “values according to the Laplace distribution”.
(Ii) These x 0 , x 1 ,..., X n−1 are output as “values according to Laplace distribution”.
撹乱の対象となる属性aがカテゴリ属性である場合には、関数Aa(pa)v,v’は、属性値vを、所定の確率(pa+(1−pa)/|Va|)で維持し、所定の確率(1−pa)/|Va|で属性aの属性値v以外の属性値v’に置換する関数である。属性値vを属性aの属性値v以外の属性値v’に置換するとは、例えば、属性aが性別であり属性値vが「男」である場合には、その属性値「男」を属性値「女」に置換することを意味する。維持確率ρの維持−置換撹乱の詳細については、参考文献1を参照のこと。
〔参考文献〕特開2011−100116号公報
If attribute a subject to disturbance is category attribute, the function A a (p a) v, v ' is an attribute value v, a predetermined probability (p a + (1-p a) / | V a |), and a function that replaces an attribute value v ′ other than the attribute value v of the attribute a with a predetermined probability (1−p a ) / | V a |. The attribute value v is replaced with an attribute value v ′ other than the attribute value v of the attribute a. For example, when the attribute a is gender and the attribute value v is “male”, the attribute value “m” is attributed. It means replacing with the value “female”. See Reference 1 for details of maintenance-replacement perturbation of maintenance probability ρ.
[References] JP 2011-100116 A
このようにして、属性値を撹乱することにより、攻撃者がA個の属性のうち任意のM個の属性を見ることができるとした場合において、Pk−匿名性を実現することができる。ここでは、その証明を省略する。 In this way, by disturbing the attribute value, Pk-anonymity can be realized when an attacker can view any M attributes among the A attributes. Here, the proof is omitted.
<ステップS3>
匿名データサーバ1は、各データ提供者装置2から受信した撹乱後の各属性値v’を、その各データ提供者装置2に対応付けて記憶部12に記憶する(ステップS3)。すなわち、データ提供者装置2のレコード識別子とそのデータ提供者装置から受信した撹乱後の各属性値v’との組の複数が、匿名化されたデータベースとして記憶部12に記憶される。
<Step S3>
The anonymous data server 1 stores each attribute value v ′ after disturbance received from each data provider device 2 in the
<ステップS4>
分析ユーザ装置3は、予め指定されたM個の属性についての情報である指定情報を、匿名データサーバ1に送信する(ステップS4)。M個の属性は、分析ユーザ装置3を操作する分析ユーザによって予め指定されていてもよいし、分析ユーザ自身によって予め指定されていてもよい。
<Step S4>
The analysis user device 3 transmits designation information that is information about M attributes designated in advance to the anonymous data server 1 (step S4). The M attributes may be specified in advance by the analysis user who operates the analysis user device 3, or may be specified in advance by the analysis user itself.
<ステップS5>
匿名データサーバ1は、記憶部12に記憶されたデータベースの中から、受信した指定情報により特定されるM個の属性の属性値の列を取り出して、分析ユーザ装置3に送信する(ステップS5)。例えば、データベースが図3に例示するデータベースであり、M=2であり、「中間テストの点数」及び「期末テストの点数」という2個の属性が指定されている場合には、属性「中間テストの点数」の属性値により構成される属性値の列a1と、属性「期末テストの点数」の属性値により構成される属性値の列a2とが、分析ユーザ装置3に送信される。
<Step S5>
The anonymous data server 1 extracts a column of attribute values of M attributes specified by the received designation information from the database stored in the
<ステップS6>
分析ユーザ装置3の集計部31は、受信したM個の属性値の列を用いて集計処理を行う(ステップS6)。集計部31は、例えば、参考文献2に記載された反復ベイズ手法等を用いて、クロス集計等の集計結果を推定する。
<Step S6>
The
〔参考文献2〕
五十嵐大,外2名,「多値属性に適用可能な効率的プライバシー保護クロス集計」,コンピュータセキュリティシンポジウム2008
[Reference 2]
University of Igarashi, 2 others, “Efficient privacy protection cross-tabulation applicable to multi-valued attributes”, Computer Security Symposium 2008
[変形例等]
撹乱部21は、匿名データサーバ1に備えられていてもよい。すなわち、この場合、各データ提供者装置2から受信した属性値を、匿名データサーバ1に備えられた撹乱部21が上記と同様に撹乱をして記憶部12に記憶する。
[Modifications, etc.]
The
また、パラメータ決定部11が、各データ提供者装置2に備えられていてもよい。
Moreover, the
また、データ提供者装置2と匿名データサーバ1とが同一の装置に備えられていてもよい。 Further, the data provider device 2 and the anonymous data server 1 may be provided in the same device.
その他、この発明は上述の実施形態に限定されるものではない。例えば、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。 In addition, the present invention is not limited to the above-described embodiment. For example, the various processes described above are not only executed in time series according to the description, but may also be executed in parallel or individually as required by the processing capability of the apparatus that executes the processes.
また、上述の構成をコンピュータによって実現する場合、各装置が有すべき各部の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、各部がコンピュータ上で実現される。 Further, when the above-described configuration is realized by a computer, the processing content of each unit that each device should have is described by a program. Each part is realized on the computer by executing this program on the computer.
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。 The program describing the processing contents can be recorded on a computer-readable recording medium. As the computer-readable recording medium, any recording medium such as a magnetic recording device, an optical disk, a magneto-optical recording medium, and a semiconductor memory may be used.
その他、この発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。 Needless to say, other modifications are possible without departing from the spirit of the present invention.
1 匿名データサーバ
11 パラメータ決定部
12 記憶部
2 データ提供者装置
21 撹乱部
3 分析ユーザ装置
31 集計部
DESCRIPTION OF SYMBOLS 1
Claims (5)
下記式を満たすパラメータpaを決定するパラメータ決定部
を含むデータベース撹乱パラメータ決定装置。 The table includes a plurality of records, A is a predetermined integer of 2 or more, each record includes a record identifier and A attribute values, k is a security parameter, | N | is the number of records, and M is A With respect to each of the attributes included in the table, a predetermined natural number of −1 or less, α = ((k−1) / (N−1)) 1 / M , ess inf · the attribute value of the respective attribute a and v, disturbance before an attribute value v, the domain of u and V a, the attribute values v after disturbance ', u' the domain of the V 'a, predetermined parameters determining the parameter p a used in database disruptor for performing disturbance of the table by a p a the determined function a a (p a) v, v ' attribute value after disturbance performed disturbance based on v' Database disturbance parameter In over data determining device,
Parameter determination unit determining a parameter p a satisfying the following formula
A database disturbance parameter determination device including:
上記属性aが数値属性であり、上記関数Aa(pa)v,v’が下記式により定義される分散2pa 2のラプラス分布である確率密度関数である場合には、||・||1を・のL1ノルムとして、
上記パラメータ決定部は、下記式を満たすパラメータpaを決定し、
|Va|を集合Vaの要素の数として、上記属性aがカテゴリ属性であり、上記関数Aa(pa)v,v’が上記属性値vを所定の確率(pa+(1−pa)/|Va|)で維持し所定の確率(1−pa)/|Va|で上記属性aの属性値v以外の属性値に置換する関数である場合には、上記パラメータ決定部は、下記式を満たすパラメータpaを決定する、
データベース撹乱パラメータ決定装置。 In the database disturbance parameter determination apparatus of Claim 1,
When the attribute a is a numerical attribute and the function A a (p a ) v, v ′ is a probability density function that is a Laplace distribution with a variance 2pa 2 defined by the following equation: | 1 as the L1 norm of
The parameter determination unit determines a parameter pa satisfying the following formula,
| V a | as the number of the set V a elements, the attribute a is category attribute, the function A a (p a) v, v 'is given the attribute values v probability (p a + (1 −p a ) / | V a |), and a function that replaces an attribute value other than the attribute value v of the attribute a with a predetermined probability (1-p a ) / | V a | parameter determination unit determines parameters p a satisfying the following equation,
Database disturbance parameter determination device.
上記データベース撹乱装置と、
を含むデータベース撹乱システム。 The database disturbance parameter determination device according to claim 1 or 2,
The database disruptor;
Including database disturbance system.
上記パラメータpaは、下記式の関係を満たす、
データベース撹乱装置。 The table includes a plurality of records, A is a predetermined integer of 2 or more, each record includes a record identifier and at least one attribute value, k is a security parameter, | N | is the number of records, and M is A −1 or less, α = ((k−1) / (N−1)) 1 / M , ess inf · for each attribute, the attribute values of the respective attributes a and v, disturbance before an attribute value v, the domain of u and V a, the attribute values v after disturbance ', u' V the domain of 'a as includes a disturbance unit which performs disturbance of the table by a predetermined parameter p a the determined function a a (p a) v, v ' performs disturbance based on disturbance after the attribute values v',
The parameter p a satisfies the relation of the following formula,
Database disturbance device.
パラメータ決定部が、下記式を満たすパラメータpaを決定するパラメータ決定ステップと、
撹乱部が、上記テーブルに含まれるM以下の個数の各属性aの属性値vについて、所定のパラメータpaにより定まる関数Aa(pa)v,v’に基づく撹乱を行い撹乱後の属性値v’とする上記撹乱ステップと、
を含むデータベース撹乱方法。 The table includes a plurality of records, A is a predetermined integer of 2 or more, each record includes a record identifier and at least one attribute value, k is a security parameter, | N | is the number of records, and M is A −1 or less, α = ((k−1) / (N−1)) 1 / M , ess inf · for each attribute, the attribute values of the respective attributes a and v, disturbance before an attribute value v, the domain of u and V a, the attribute values v after disturbance ', u' V the domain of 'a In the database disturbance method in which disturbance is performed based on a function A a (pa) v, v ′ determined by a predetermined parameter pa and the attribute value v ′ after the disturbance is set to disturb the table.
Parameter determination unit, a parameter determining step of determining a parameter p a satisfying the following equation,
Disturbance portion, the attribute value v for each attribute a of M following number contained in the table, the function A a (p a) determined by the predetermined parameters p a v, v attributes after disturbance performed disturbance based on ' The disturbance step with value v ′;
Database disruption method including.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2012013873A JP5639094B2 (en) | 2012-01-26 | 2012-01-26 | Database disturbance parameter determination apparatus, database disturbance system and method, and database disturbance apparatus |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2012013873A JP5639094B2 (en) | 2012-01-26 | 2012-01-26 | Database disturbance parameter determination apparatus, database disturbance system and method, and database disturbance apparatus |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2013152670A true JP2013152670A (en) | 2013-08-08 |
| JP5639094B2 JP5639094B2 (en) | 2014-12-10 |
Family
ID=49048946
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2012013873A Active JP5639094B2 (en) | 2012-01-26 | 2012-01-26 | Database disturbance parameter determination apparatus, database disturbance system and method, and database disturbance apparatus |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP5639094B2 (en) |
Cited By (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2017203904A (en) * | 2016-05-12 | 2017-11-16 | 株式会社Nttドコモ | Privacy protection device |
| US11163895B2 (en) | 2016-12-19 | 2021-11-02 | Mitsubishi Electric Corporation | Concealment device, data analysis device, and computer readable medium |
Citations (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US20050049991A1 (en) * | 2003-08-14 | 2005-03-03 | International Business Machines Corporation | Methods and apparatus for privacy preserving data mining using statistical condensing approach |
| JP2007288480A (en) * | 2006-04-17 | 2007-11-01 | Mitsubishi Electric Corp | Statistical processing method, data providing apparatus, and statistical processing system |
| US20080275900A1 (en) * | 2007-05-02 | 2008-11-06 | Sap Ag | Anonymizing infocube data |
-
2012
- 2012-01-26 JP JP2012013873A patent/JP5639094B2/en active Active
Patent Citations (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US20050049991A1 (en) * | 2003-08-14 | 2005-03-03 | International Business Machines Corporation | Methods and apparatus for privacy preserving data mining using statistical condensing approach |
| JP2007288480A (en) * | 2006-04-17 | 2007-11-01 | Mitsubishi Electric Corp | Statistical processing method, data providing apparatus, and statistical processing system |
| US20080275900A1 (en) * | 2007-05-02 | 2008-11-06 | Sap Ag | Anonymizing infocube data |
Non-Patent Citations (6)
| Title |
|---|
| CSNG201000073033; 五十嵐 大、外2名: 'k-匿名性の確率的指標への拡張とその適用例' コンピュータセキュリティシンポジウム2009 論文集 [第二分冊] 第2009巻,第11号, 20091019, p.763-768, 社団法人情報処理学会 * |
| CSNG201100778069; 五十嵐 大、外2名: 'ランダム化データベース上のk-匿名性の一般的算出法' CSS2011コンピュータセキュリティシンポジウム2011論文集 併催 マルウェア対策研究人材育成ワ 第2011巻,第3号, 20111216, p.444-449, 一般社団法人情報処理学会 コンピュータセキュリティ * |
| CSNG201100778070; 五十嵐 大、外2名: '数値属性における,k-匿名性を満たすランダム化手法' CSS2011コンピュータセキュリティシンポジウム2011論文集 併催 マルウェア対策研究人材育成ワ 第2011巻,第3号, 20111216, p.450-455, 一般社団法人情報処理学会 コンピュータセキュリティ * |
| JPN6014031952; 五十嵐 大、外2名: '数値属性における,k-匿名性を満たすランダム化手法' CSS2011コンピュータセキュリティシンポジウム2011論文集 併催 マルウェア対策研究人材育成ワ 第2011巻,第3号, 20111216, p.450-455, 一般社団法人情報処理学会 コンピュータセキュリティ * |
| JPN6014031953; 五十嵐 大、外2名: 'k-匿名性の確率的指標への拡張とその適用例' コンピュータセキュリティシンポジウム2009 論文集 [第二分冊] 第2009巻,第11号, 20091019, p.763-768, 社団法人情報処理学会 * |
| JPN6014031954; 五十嵐 大、外2名: 'ランダム化データベース上のk-匿名性の一般的算出法' CSS2011コンピュータセキュリティシンポジウム2011論文集 併催 マルウェア対策研究人材育成ワ 第2011巻,第3号, 20111216, p.444-449, 一般社団法人情報処理学会 コンピュータセキュリティ * |
Cited By (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2017203904A (en) * | 2016-05-12 | 2017-11-16 | 株式会社Nttドコモ | Privacy protection device |
| US11163895B2 (en) | 2016-12-19 | 2021-11-02 | Mitsubishi Electric Corporation | Concealment device, data analysis device, and computer readable medium |
Also Published As
| Publication number | Publication date |
|---|---|
| JP5639094B2 (en) | 2014-12-10 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| Neto et al. | Developing a global data breach database and the challenges encountered | |
| US11409911B2 (en) | Methods and systems for obfuscating sensitive information in computer systems | |
| Doğan et al. | The effect of different data structures, sample sizes on model fit measures | |
| Gursoy et al. | Privacy-preserving learning analytics: challenges and techniques | |
| US10848501B2 (en) | Real time pivoting on data to model governance properties | |
| Pika et al. | Towards privacy-preserving process mining in healthcare | |
| US10176340B2 (en) | Abstracted graphs from social relationship graph | |
| Shrivastva et al. | Big data privacy based on differential privacy a hope for big data | |
| JP2017091515A (en) | Computer-implemented system and method for automatically identifying attributes for anonymization | |
| CN113272809B (en) | Method for creating avatar protecting sensitive data | |
| US20240020415A1 (en) | Method of anonymizing a multi-relational dataset | |
| Ngesa | Tackling security and privacy challenges in the realm of big data analytics | |
| Silva et al. | Privacy in the cloud: A survey of existing solutions and research challenges | |
| Sun et al. | A systematic review on privacy-preserving distributed data mining | |
| Mansour et al. | Quasi‐Identifier Recognition Algorithm for Privacy Preservation of Cloud Data Based on Risk Reidentification | |
| Prasser et al. | An open source tool for game theoretic health data de-identification | |
| Jändel | Decision support for releasing anonymised data | |
| JP5639094B2 (en) | Database disturbance parameter determination apparatus, database disturbance system and method, and database disturbance apparatus | |
| JP6618875B2 (en) | Evaluation apparatus, evaluation method, and evaluation program | |
| JP5651568B2 (en) | Database disturbance device, system, method and program | |
| Rodrigues et al. | PTMOL: a suitable approach for modeling privacy threats in online social networks | |
| JP2020003989A (en) | Personal information analysis system and personal information analysis method | |
| Dhotre et al. | “Take It or Leave It”: Effective Visualization of Privacy Policies | |
| US20220004544A1 (en) | Anonymity evaluation apparatus, anonymity evaluation method, and program | |
| Basu et al. | Measuring discrepancies in airbnb guest acceptance rates using anonymized demographic data |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20140206 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20140624 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20140729 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20140926 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20141014 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20141023 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 5639094 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
| S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
| R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |