[go: up one dir, main page]

JP2013152670A - Database disturbance parameter setting device, database disturbance system and method, and database disturbance device - Google Patents

Database disturbance parameter setting device, database disturbance system and method, and database disturbance device Download PDF

Info

Publication number
JP2013152670A
JP2013152670A JP2012013873A JP2012013873A JP2013152670A JP 2013152670 A JP2013152670 A JP 2013152670A JP 2012013873 A JP2012013873 A JP 2012013873A JP 2012013873 A JP2012013873 A JP 2012013873A JP 2013152670 A JP2013152670 A JP 2013152670A
Authority
JP
Japan
Prior art keywords
disturbance
attribute
parameter
database
attribute value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2012013873A
Other languages
Japanese (ja)
Other versions
JP5639094B2 (en
Inventor
Masaru Igarashi
大 五十嵐
Koji Senda
浩司 千田
Akira Kikuchi
亮 菊池
Hiroki Hamada
浩気 濱田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Inc
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2012013873A priority Critical patent/JP5639094B2/en
Publication of JP2013152670A publication Critical patent/JP2013152670A/en
Application granted granted Critical
Publication of JP5639094B2 publication Critical patent/JP5639094B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

PROBLEM TO BE SOLVED: To provide a technique capable of achieving Pk-anonymity even if an attacker can view arbitrary M attributes among A attributes.SOLUTION: A database disturbance parameter setting device uses a database disturbance parameter determination part 11 for determining a parameter pused for a database disturbance part 21 which performs disturbance of a table by performing disturbance based on a function A(p)determined by a prescribed parameter pto make an attribute v' after disturbance, assuming that |N| is the number of records, M is a prescribed natural number not more than A-1, α=((k-1)/(N-1)), ess inf * is essential lower limit of *, the attribute value of each attribute a is v for each of the attributes included in a table, the domain of attribute values u, v before disturbance is V, and attribute values v', u' after disturbance is V'.

Description

この発明は、プライバシーを保護しながらデータマイニングを行う技術に関する。   The present invention relates to a technique for performing data mining while protecting privacy.

いわゆるPk−匿名性を満たすデータベース撹乱技術及びそのデータベース撹乱技術で用いられるパラメータ決定技術が、非特許文献1で提案されている(例えば、非特許文献1参照。)。具体的には、非特許文献1には、攻撃者がA個の属性の全てを見ることができるとした場合にPk−匿名性を実現するためのデータベース撹乱技術及びパラメータ決定技術が記載されている。   A database disturbance technique that satisfies so-called Pk-anonymity and a parameter determination technique used in the database disturbance technique have been proposed in Non-Patent Document 1 (for example, see Non-Patent Document 1). Specifically, Non-Patent Document 1 describes a database disturbance technique and a parameter determination technique for realizing Pk-anonymity when an attacker can see all of the A attributes. Yes.

Pk−匿名性は、データベースの各レコードと、その各レコードに対応する個人とを1/k以上の確率で結びつけることができないという性質である。   Pk-anonymity is a property that each record in the database and an individual corresponding to each record cannot be associated with a probability of 1 / k or more.

五十嵐大、他2名、「数値属性におけるk−匿名性を満たすランダム化手法」、CSS2011、2011University of Igarashi, 2 others, “Randomization method that satisfies k-anonymity in numerical attributes”, CSS 2011, 2011

しかしながら、MをA−1以下の整数として、攻撃者がA個の属性のうち任意のM個の属性を見ることができるとした場合にPk−匿名性を実現するための技術は、非特許文献1には記載されていない。   However, a technique for realizing Pk-anonymity when M is an integer equal to or less than A-1 and an attacker can view any M attributes among the A attributes is not patented. It is not described in Document 1.

この発明は、攻撃者がA個の属性のうち任意のM個の属性を見ることができるとした場合にPk−匿名性を実現するためのデータベース撹乱パラメータ設定装置、データベース撹乱システム及び方法並びにデータベース撹乱装置を提供することを目的とする。   The present invention relates to a database disturbance parameter setting device, a database disturbance system and method, and a database for realizing Pk-anonymity when an attacker can view any M attributes of A attributes. An object is to provide a disturbance device.

この発明の一態様によるデータベース撹乱パラメータ設定装置は、テーブルは複数のレコードを含み、Aを所定の2以上の整数とし、各レコードはレコード識別子及びA個の属性値を含み、kをセキュリティパラメータとし、|N|をレコードの数とし、MをA−1以下の所定の自然数とし、α=((k−1)/(N−1))1/Mとして、ess inf・を・の本質的下限として、テーブルに含まれる属性のそれぞれについて、そのそれぞれの属性aの属性値をvとし、撹乱前の属性値v,uの定義域をVとし、撹乱後の属性値v’,u’の定義域をV’として、所定のパラメータpにより定まる関数A(pv,v’に基づく撹乱を行い撹乱後の属性値v’とすることによりテーブルの撹乱を行うデータベース撹乱装置に用いられるパラメータpを決定するデータベース撹乱パラメータ決定装置において、下記式を満たすパラメータpを決定するパラメータ決定部 In the database disturbance parameter setting device according to one aspect of the present invention, the table includes a plurality of records, A is a predetermined integer of 2 or more, each record includes a record identifier and A attribute values, and k is a security parameter. , | N | is the number of records, M is a predetermined natural number less than or equal to A-1, α = ((k−1) / (N−1)) 1 / M , and ess inf is essentially the lower limit for each attribute included in the table, then the attribute values of the respective attributes a and v, disturbance before an attribute value v, the domain of u and V a, the attribute values v after disturbance ', u' Database disturbance in which a domain is defined as V ′ a , disturbance is performed based on a function A a (pa) v, v ′ determined by a predetermined parameter pa, and the attribute value v ′ after the disturbance is used to disturb the table Used in equipment In Database disturbance parameter determining device for determining a that parameter p a, parameter determination unit determining a parameter p a satisfying the following formula

Figure 2013152670
Figure 2013152670

を含む。 including.

この発明の一態様によるデータベース撹乱システムは、上記データベース撹乱パラメータ決定装置と、上記データベース撹乱装置と、を含む。   The database disturbance system by one aspect | mode of this invention contains the said database disturbance parameter determination apparatus and the said database disturbance apparatus.

この発明の一態様によるデータベース撹乱装置は、テーブルは複数のレコードを含み、Aを所定の2以上の整数とし、各レコードはレコード識別子及び少なくとも1つの属性値を含み、kをセキュリティパラメータとし、|N|をレコードの数とし、MをA−1以下の所定の自然数とし、α=((k−1)/(N−1))1/Mとして、ess inf・を・の本質的下限として、テーブルに含まれるM以下の個数の属性のそれぞれについて、そのそれぞれの属性aの属性値をvとし、撹乱前の属性値v,uの定義域をVとし、撹乱後の属性値v’,u’の定義域をV’として、所定のパラメータpにより定まる関数A(pv,v’に基づく撹乱を行い撹乱後の属性値v’とすることによりテーブルの撹乱を行う撹乱部を含み、パラメータpは、下記式の関係を満たす。 In the database disturbance device according to an aspect of the present invention, the table includes a plurality of records, A is a predetermined integer equal to or greater than 2, each record includes a record identifier and at least one attribute value, k is a security parameter, N | is the number of records, M is a predetermined natural number equal to or less than A-1, α = ((k−1) / (N−1)) 1 / M , and ess inf · is an essential lower limit of for each attribute of the following number M included in the table, then the attribute values of the respective attributes a and v, disturbance before an attribute value v, the domain of u and V a, the attribute values v after disturbance ' , U ′ is defined as V ′ a , disturbance based on the function A a (p a ) v, v ′ determined by a predetermined parameter pa is performed, and the attribute value v ′ after the disturbance is set, thereby disturbing the table. Including the disturbance section to perform Over data p a satisfy the relationship of the following formula.

Figure 2013152670
Figure 2013152670

攻撃者がA個の属性のうち任意のM個の属性を見ることができるとした場合にも、Pk−匿名性を実現することができる。   Pk-anonymity can also be realized when an attacker can view any M attributes of A attributes.

第一実施形態のデータベース撹乱システムを説明するためのブロック図。The block diagram for demonstrating the database disturbance system of 1st embodiment. 第一実施形態のデータベース撹乱システムを説明するための流れ図。The flowchart for demonstrating the database disturbance system of 1st embodiment. 撹乱の対象となるデータベースの例を説明するための図。The figure for demonstrating the example of the database used as the object of disturbance. 撹乱の対象となるデータベースの例を説明するための図。The figure for demonstrating the example of the database used as the object of disturbance.

以下、図面を参照して、この発明の実施形態を説明する。   Embodiments of the present invention will be described below with reference to the drawings.

[第一実施形態]
第一実施形態のデータベース撹乱システムは、図1に例示するように、データ提供者装置2、匿名データサーバ1及び分析ユーザ装置3を備えている。
[First embodiment]
The database disturbance system of 1st embodiment is provided with the data provider apparatus 2, the anonymous data server 1, and the analysis user apparatus 3, as illustrated in FIG.

匿名データサーバ1は、匿名化されたデータを記憶するサーバである。匿名データサーバ1は、パラメータ決定部11及び記憶部12を例えば備えている。パラメータ決定部11が、特許請求の範囲のデータベース撹乱パラメータ決定装置に対応している。   The anonymous data server 1 is a server that stores anonymized data. The anonymous data server 1 includes, for example, a parameter determination unit 11 and a storage unit 12. The parameter determination unit 11 corresponds to the database disturbance parameter determination device in the claims.

データ提供者装置2は、データを匿名データサーバ1に預けようとする主体である。データ提供者装置2は、例えば、データを匿名データサーバ1に預けようとするユーザが有するPC、携帯情報端末装置等のコンピュータである。データ提供者装置2は、2以上存在していてもよい。データ提供者装置2は、撹乱部21を例えば備えている。撹乱部21が、特許請求の範囲のデータベース撹乱装置に対応している。   The data provider device 2 is a subject that intends to deposit data in the anonymous data server 1. The data provider device 2 is, for example, a computer such as a PC or a portable information terminal device possessed by a user who wants to deposit data in the anonymous data server 1. Two or more data provider devices 2 may exist. The data provider device 2 includes a disturbing unit 21, for example. The disturbing unit 21 corresponds to the database disturbing device recited in the claims.

分析ユーザ装置3は、匿名化されたデータに基づいて集計処理を行う装置である。分析ユーザ装置3も、2以上存在していてもよい。   The analysis user device 3 is a device that performs aggregation processing based on anonymized data. Two or more analysis user devices 3 may exist.

まず、撹乱の対象となるデータベースについて説明する。撹乱の対象となるデータベースは、図3及び図2に例示するように、複数のレコードから構成されている。   First, a database to be disturbed will be described. The database to be disturbed is composed of a plurality of records as illustrated in FIGS. 3 and 2.

各レコードは、レコード識別子と少なくとも1つの属性値とから構成されている。レコード識別子は、個人を識別する識別子であり、いわゆるレコードIDである。レコード識別子は、例えば氏名や氏名に対応するID番号である。この実施形態では、レコード識別子は、データ提供者又はデータ提供者装置2を識別する識別子である。   Each record is composed of a record identifier and at least one attribute value. The record identifier is an identifier for identifying an individual and is a so-called record ID. The record identifier is, for example, a name or an ID number corresponding to the name. In this embodiment, the record identifier is an identifier for identifying the data provider or the data provider device 2.

各属性値は、n次元実数ベクトルの部分集合Vに含まれるベクトルであり、いわゆる数値属性値である。nは、1以上の整数である。n=1であり属性が例えば「中間テストの点数」や「期末テストの点数」である場合には、属性値は0から100までの何れかの整数である。   Each attribute value is a vector included in the subset V of the n-dimensional real vector, and is a so-called numerical attribute value. n is an integer of 1 or more. When n = 1 and the attribute is, for example, “intermediate test score” or “term test score”, the attribute value is any integer from 0 to 100.

また、各属性値は、いわゆるカテゴリ属性値であってもよい。カテゴリ属性値とは、例えば性別等の属性値であり、数値属性値とは異なり属性値の取り得る値がいくつかに制限されている属性値のことである。   Each attribute value may be a so-called category attribute value. The category attribute value is, for example, an attribute value such as gender, and is an attribute value that is limited to several values that the attribute value can take, unlike the numerical attribute value.

図3は、各属性が数値属性である場合のデータベースを例示している。一方、図4は、数値属性の属性とカテゴリ属性の属性との両方を含むデータベースを例示している。   FIG. 3 illustrates a database when each attribute is a numerical attribute. On the other hand, FIG. 4 illustrates a database including both numerical attribute attributes and category attribute attributes.

<ステップS1>
まず、匿名データサーバ1のパラメータ決定部11は、下記式を満たすパラメータpを決定する(ステップS1)。決定されたパラメータpは、各データ提供者装置2に送信される。属性の種類の数をAとする。Aは、2以上の所定の整数である。パラメータ決定部11は、属性a(a=1,2,…,A)のそれぞれについて、パラメータpを決定する。パラメータpは、例えばいわゆる二分法により計算される。
<Step S1>
First, the parameter determination unit 11 of the anonymous data server 1 determines parameters p a satisfying the following equation (step S1). Determined parameter p a is transmitted to the data provider device 2. Let A be the number of attribute types. A is a predetermined integer of 2 or more. Parameter determination unit 11, the attribute a (a = 1,2, ..., A) for each, to determine the parameters p a. Parameter p a is calculated by for example the so-called bisection method.

Figure 2013152670
Figure 2013152670

ここで、kをセキュリティパラメータとし、|N|をレコードの数とし、MをA−1以下の所定の自然数として、α=((k−1)/(N−1))1/Mである。また、ess inf・は、・の本質的下限である。 Here, α = ((k−1) / (N−1)) 1 / M , where k is a security parameter, | N | is the number of records, and M is a predetermined natural number equal to or less than A-1. . In addition, ess inf · is an essential lower limit of ·.

関数f(x)の定義域をχとすると、関数f(x)の本質的下限ess inf f(x)は、具体的には以下のように書ける。μ({f<b})を、関数f(x)<bとなる領域の測度(例えば、面積又は体積)とする。下記式のRは実数を意味する。   When the domain of the function f (x) is χ, the essential lower limit ess inf f (x) of the function f (x) can be specifically written as follows. Let μ ({f <b}) be a measure (eg, area or volume) of the region where the function f (x) <b. R in the following formula means a real number.

Figure 2013152670
Figure 2013152670

は属性aの撹乱前の属性値v,uの定義域であり、V’は属性aの撹乱後の属性値v’,u’の定義域である。A(pv,v’は、所定のパラメータpにより定まる関数であり、撹乱前の属性値vが撹乱後に属性値v’となる確率を表す。A(pu,v’、A(pv,u’及びA(pu,u’についても、A(pv,v’と同様である。 V a is a definition area of the attribute values v and u before the disturbance of the attribute a, and V ′ a is a definition area of the attribute values v ′ and u ′ of the attribute a after the disturbance. A a (p a ) v, v ′ is a function determined by a predetermined parameter pa, and represents the probability that the attribute value v before disturbance becomes the attribute value v ′ after disturbance. A a (p a) u, v ', A a (p a) v, u' and A a (p a) u, ' for even, A a (p a) v , v' u is the same as.

属性aが数値属性であり、関数A(pv,v’が下記式により定義される分散2p のラプラス分布である確率密度関数である場合には、 Attribute a is a numeric attribute, if the function A a (p a) v, v ' is the probability density function is a Laplacian distribution of the dispersed 2p a 2 defined by the following equation,

Figure 2013152670
Figure 2013152670

パラメータ決定部11は、具体的には下記式を満たすパラメータpを決定する。μは、例えば0である。下記式において、||・||は・のL1ノルムであり、logの底はネイピア数eである。 Parameter determining unit 11 is specifically determine the parameters p a satisfying the following equation. μ is, for example, 0. In the following equation, || · || 1 is the L1 norm of •, and the bottom of log is the Napier number e.

Figure 2013152670
Figure 2013152670

また、属性aがカテゴリ属性であり、関数A(pv,v’が、属性値vを、所定の確率(p+(1−p)/|V|)で維持し、所定の確率(1−p)/|V|で属性aの属性値v以外の属性値v’に置換する関数である場合には、パラメータ決定部11は、下記式を満たすパラメータpを決定する。|V|は、集合Vの要素の数である。 The attribute a is category attribute, the function A a (p a) v, v ' is an attribute value v, a predetermined probability and maintained at (p a + (1-p a) / | | V a) In the case of a function that replaces the attribute value v ′ other than the attribute value v of the attribute a with a predetermined probability (1−p a ) / | V a | a is determined. | V a | is the number of elements in the set V a .

Figure 2013152670
Figure 2013152670

<ステップS2>
各データ提供者装置2の撹乱部21は、撹乱の対象となる各属性の属性値について、パラメータpにより定まる関数A(pv,v’に基づく撹乱を行い撹乱する(ステップS2)。この実施形態では、各データ提供者装置2の撹乱部21が、自身が持つ各属性aの属性値vについて、パラメータpにより定まる関数A(pv,v’に基づく撹乱を行い撹乱後の属性値v’とする。撹乱後の各属性値v’は、匿名データサーバ1に送信される。
<Step S2>
Disturbance portion 21 of each of the data provider device 2, the attribute value of each attribute to be disturbance, disrupting performed disturbance based on determined by the parameter p a function A a (p a) v, v '( step S2 ). In this embodiment, disturbance portion 21 of each data provider apparatus 2, the attribute value v for each attribute a having itself performs disturbance based on the parameter p a the determined function A a (p a) v, v ' The attribute value v ′ after the disturbance is assumed. Each attribute value v ′ after the disturbance is transmitted to the anonymous data server 1.

撹乱の対象となる属性aが数値属性である場合には、上記関数A(pv,v’は確率密度関数である。例えば、関数A(pv,v’は、下記式により定義される分散2p のラプラス分布である確率密度関数である。||・||は、・のL1ノルムである。例えば、μ=0とする。 If attribute a subject to disturbance is numeric attribute, the function A a (p a) v, v ' is the probability density function. For example, the function A a (p a ) v, v ′ is a probability density function that is a Laplace distribution with a variance 2 p a 2 defined by the following equation. || · || 1 is the L1 norm of. For example, μ = 0.

Figure 2013152670
Figure 2013152670

撹乱の対象となる属性aが数値属性である場合には、関数A(p)v,v’に基づく撹乱とは、属性aの撹乱前の属性値v’に確率密度関数A(p)v,v’に従う値を加算して撹乱後の属性値v’とすることを意味する。すなわち、撹乱後の属性値v’=撹乱前の属性値v+確率密度関数A(p)v,v’に従う値となる。 When the attribute a to be disturbed is a numerical attribute, the disturbance based on the function A a (p) v, v ′ is the probability density function A a (p ) It means that the value according to v and v ′ is added to obtain the attribute value v ′ after disturbance. That is, the attribute value v ′ after disturbance is equal to the attribute value v before disturbance + the probability density function A a (p) v, v ′ .

以下、「確率密度関数fに従う値」及び「ラプラス分布に従う値」について説明する。ここでは表記の簡略化のために、確率密度関数fと書く。確率密度関数fは上記確率密度関数A(p)v,v’と同じと考えてよい。 Hereinafter, the “value according to the probability density function f” and the “value according to the Laplace distribution” will be described. Here, in order to simplify the notation, the probability density function f is written. The probability density function f may be considered to be the same as the probability density function A a (p) v, v ′ .

1.「確率密度関数fに従う値」について
(1)確率密度関数fの定義域及び属性値が1次元の場合
(i)累積分布関数F(x)=∫−∞ f(x’)dx’を求める。
(ii)累積分布関数F(x)の逆関数F−1を求める。
(iii)区間[0,1]上の一様乱数rを生成する。
(iv)F−1(r)を「確率密度関数fに従う値」として出力する。
1. Regarding “value according to probability density function f” (1) When domain and attribute value of probability density function f are one-dimensional (i) Cumulative distribution function F (x) = ∫− x f (x ′) dx ′ Ask.
(Ii) An inverse function F −1 of the cumulative distribution function F (x) is obtained.
(Iii) Generate a uniform random number r on the interval [0, 1].
(Iv) F −1 (r) is output as “a value according to the probability density function f”.

累積分布関数F(x)や逆関数F−1が数式で得られる場合にはその数式に基づいてF−1(r)を計算してもよいし、そうでない場合には数値計算によってF−1(r)を計算してもよい。 When the cumulative distribution function F (x) or the inverse function F −1 is obtained by a mathematical formula, F −1 (r) may be calculated based on the mathematical formula. Otherwise, F is calculated by numerical calculation. 1 (r) may be calculated.

(2)確率密度関数fの定義域及び属性値がn次元の場合
1.i=0,…,n−1のそれぞれに対して、以下の(i)(ii)を行う。
(2) When the domain and the attribute value of the probability density function f are n-dimensional The following (i) and (ii) are performed for each of i = 0,.

(i)xからxi−1までを固定し、xi+1からxn−1までを積分し、xだけを変数として残した確率密度関数fを求める。 (I) x 0 to x i−1 are fixed, x i + 1 to x n−1 are integrated, and a probability density function f i in which only x i is left as a variable is obtained.

Figure 2013152670
Figure 2013152670

(ii)確率密度関数fの定義域は1次元なので、上記「(1)確率密度関数fの定義域及び属性値が1次元の場合」で示した方法と同様の方法により、「確率密度関数fに従う値」を計算する。 (Ii) Since the domain of the probability density function f i is one-dimensional, the “probability density” is determined by a method similar to the method described above in “(1) When the domain and attribute value of the probability density function f are one-dimensional”. The value according to the function f i is calculated.

i=0,…,n−1のそれぞれに対して「確率密度関数fに従う値」を計算することにより、n個の「確率密度関数fに従う値」が得られる。 By calculating “value according to probability density function f i ” for each of i = 0,..., n−1, n “values according to probability density function f i ” are obtained.

なお、確率密度関数がラプラス分布の場合には、以下のようになる。   In the case where the probability density function is a Laplace distribution, it is as follows.

2.「ラプラス分布に従う値」について
(1)ラプラス分布の定義域及び属性値が1次元の場合
(i)区間[0,1]上の一様乱数r、区間(0,1)上の一様乱数bを生成する。
(ii)(−1)σlogr+μを「ラプラス分布に従う値」として出力する。
2. About “value according to Laplace distribution” (1) When the domain and attribute value of Laplace distribution are one-dimensional (i) Uniform random number r on interval [0, 1], Uniform random number on interval (0, 1) b is generated.
(Ii) (-1) b σlogr + μ is output as “value according to Laplace distribution”.

(2)ラプラス分布の定義域及び属性値がn次元の場合
(i)上記「(1)ラプラス分布の定義域及び属性値が1次元の場合」で示した方法と同様の方法により、n個の「ラプラス分布に従う値」であるx,x,…,xn−1を計算する。
(ii)これらのx,x,…,xn−1を「ラプラス分布に従う値」として出力する。
(2) When the domain and attribute value of the Laplace distribution are n-dimensional (i) n in the same manner as the method described in “(1) When the domain and attribute value of the Laplace distribution is one-dimensional” above X 0 , x 1 ,..., X n−1 which are “values according to the Laplace distribution”.
(Ii) These x 0 , x 1 ,..., X n−1 are output as “values according to Laplace distribution”.

撹乱の対象となる属性aがカテゴリ属性である場合には、関数A(pv,v’は、属性値vを、所定の確率(p+(1−p)/|V|)で維持し、所定の確率(1−p)/|V|で属性aの属性値v以外の属性値v’に置換する関数である。属性値vを属性aの属性値v以外の属性値v’に置換するとは、例えば、属性aが性別であり属性値vが「男」である場合には、その属性値「男」を属性値「女」に置換することを意味する。維持確率ρの維持−置換撹乱の詳細については、参考文献1を参照のこと。
〔参考文献〕特開2011−100116号公報
If attribute a subject to disturbance is category attribute, the function A a (p a) v, v ' is an attribute value v, a predetermined probability (p a + (1-p a) / | V a |), and a function that replaces an attribute value v ′ other than the attribute value v of the attribute a with a predetermined probability (1−p a ) / | V a |. The attribute value v is replaced with an attribute value v ′ other than the attribute value v of the attribute a. For example, when the attribute a is gender and the attribute value v is “male”, the attribute value “m” is attributed. It means replacing with the value “female”. See Reference 1 for details of maintenance-replacement perturbation of maintenance probability ρ.
[References] JP 2011-100116 A

このようにして、属性値を撹乱することにより、攻撃者がA個の属性のうち任意のM個の属性を見ることができるとした場合において、Pk−匿名性を実現することができる。ここでは、その証明を省略する。   In this way, by disturbing the attribute value, Pk-anonymity can be realized when an attacker can view any M attributes among the A attributes. Here, the proof is omitted.

<ステップS3>
匿名データサーバ1は、各データ提供者装置2から受信した撹乱後の各属性値v’を、その各データ提供者装置2に対応付けて記憶部12に記憶する(ステップS3)。すなわち、データ提供者装置2のレコード識別子とそのデータ提供者装置から受信した撹乱後の各属性値v’との組の複数が、匿名化されたデータベースとして記憶部12に記憶される。
<Step S3>
The anonymous data server 1 stores each attribute value v ′ after disturbance received from each data provider device 2 in the storage unit 12 in association with each data provider device 2 (step S3). That is, a plurality of pairs of the record identifier of the data provider device 2 and each attribute value v ′ after the disturbance received from the data provider device are stored in the storage unit 12 as an anonymized database.

<ステップS4>
分析ユーザ装置3は、予め指定されたM個の属性についての情報である指定情報を、匿名データサーバ1に送信する(ステップS4)。M個の属性は、分析ユーザ装置3を操作する分析ユーザによって予め指定されていてもよいし、分析ユーザ自身によって予め指定されていてもよい。
<Step S4>
The analysis user device 3 transmits designation information that is information about M attributes designated in advance to the anonymous data server 1 (step S4). The M attributes may be specified in advance by the analysis user who operates the analysis user device 3, or may be specified in advance by the analysis user itself.

<ステップS5>
匿名データサーバ1は、記憶部12に記憶されたデータベースの中から、受信した指定情報により特定されるM個の属性の属性値の列を取り出して、分析ユーザ装置3に送信する(ステップS5)。例えば、データベースが図3に例示するデータベースであり、M=2であり、「中間テストの点数」及び「期末テストの点数」という2個の属性が指定されている場合には、属性「中間テストの点数」の属性値により構成される属性値の列a1と、属性「期末テストの点数」の属性値により構成される属性値の列a2とが、分析ユーザ装置3に送信される。
<Step S5>
The anonymous data server 1 extracts a column of attribute values of M attributes specified by the received designation information from the database stored in the storage unit 12, and transmits it to the analysis user device 3 (step S5). . For example, when the database is the database illustrated in FIG. 3, M = 2, and two attributes “intermediate test score” and “term test score” are designated, the attribute “intermediate test” The attribute value column a1 composed of the attribute value of “number of points” and the attribute value column a2 composed of the attribute value of the attribute “score for the term test” are transmitted to the analysis user device 3.

<ステップS6>
分析ユーザ装置3の集計部31は、受信したM個の属性値の列を用いて集計処理を行う(ステップS6)。集計部31は、例えば、参考文献2に記載された反復ベイズ手法等を用いて、クロス集計等の集計結果を推定する。
<Step S6>
The aggregation unit 31 of the analysis user device 3 performs an aggregation process using the received M attribute value sequence (step S6). The tabulation unit 31 estimates a tabulation result such as cross tabulation using, for example, an iterative Bayesian method described in Reference Document 2.

〔参考文献2〕
五十嵐大,外2名,「多値属性に適用可能な効率的プライバシー保護クロス集計」,コンピュータセキュリティシンポジウム2008
[Reference 2]
University of Igarashi, 2 others, “Efficient privacy protection cross-tabulation applicable to multi-valued attributes”, Computer Security Symposium 2008

[変形例等]
撹乱部21は、匿名データサーバ1に備えられていてもよい。すなわち、この場合、各データ提供者装置2から受信した属性値を、匿名データサーバ1に備えられた撹乱部21が上記と同様に撹乱をして記憶部12に記憶する。
[Modifications, etc.]
The disturbing unit 21 may be provided in the anonymous data server 1. That is, in this case, the disturbing unit 21 provided in the anonymous data server 1 disturbs the attribute value received from each data provider device 2 in the same manner as described above and stores it in the storage unit 12.

また、パラメータ決定部11が、各データ提供者装置2に備えられていてもよい。   Moreover, the parameter determination part 11 may be provided in each data provider apparatus 2. FIG.

また、データ提供者装置2と匿名データサーバ1とが同一の装置に備えられていてもよい。   Further, the data provider device 2 and the anonymous data server 1 may be provided in the same device.

その他、この発明は上述の実施形態に限定されるものではない。例えば、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。   In addition, the present invention is not limited to the above-described embodiment. For example, the various processes described above are not only executed in time series according to the description, but may also be executed in parallel or individually as required by the processing capability of the apparatus that executes the processes.

また、上述の構成をコンピュータによって実現する場合、各装置が有すべき各部の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、各部がコンピュータ上で実現される。   Further, when the above-described configuration is realized by a computer, the processing content of each unit that each device should have is described by a program. Each part is realized on the computer by executing this program on the computer.

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。   The program describing the processing contents can be recorded on a computer-readable recording medium. As the computer-readable recording medium, any recording medium such as a magnetic recording device, an optical disk, a magneto-optical recording medium, and a semiconductor memory may be used.

その他、この発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。   Needless to say, other modifications are possible without departing from the spirit of the present invention.

1 匿名データサーバ
11 パラメータ決定部
12 記憶部
2 データ提供者装置
21 撹乱部
3 分析ユーザ装置
31 集計部
DESCRIPTION OF SYMBOLS 1 Anonymous data server 11 Parameter determination part 12 Storage part 2 Data provider apparatus 21 Disturbance part 3 Analysis user apparatus 31 Total part

Claims (5)

テーブルは複数のレコードを含み、Aを所定の2以上の整数とし、各レコードはレコード識別子及びA個の属性値を含み、kをセキュリティパラメータとし、|N|をレコードの数とし、MをA−1以下の所定の自然数とし、α=((k−1)/(N−1))1/Mとして、ess inf・を・の本質的下限として、上記テーブルに含まれる属性のそれぞれについて、そのそれぞれの属性aの属性値をvとし、撹乱前の属性値v,uの定義域をVとし、撹乱後の属性値v’,u’の定義域をV’として、所定のパラメータpにより定まる関数A(pv,v’に基づく撹乱を行い撹乱後の属性値v’とすることにより上記テーブルの撹乱を行うデータベース撹乱装置に用いられる上記パラメータpを決定するデータベース撹乱パラメータ決定装置において、
下記式を満たすパラメータpを決定するパラメータ決定部
Figure 2013152670

を含むデータベース撹乱パラメータ決定装置。
The table includes a plurality of records, A is a predetermined integer of 2 or more, each record includes a record identifier and A attribute values, k is a security parameter, | N | is the number of records, and M is A With respect to each of the attributes included in the table, a predetermined natural number of −1 or less, α = ((k−1) / (N−1)) 1 / M , ess inf · the attribute value of the respective attribute a and v, disturbance before an attribute value v, the domain of u and V a, the attribute values v after disturbance ', u' the domain of the V 'a, predetermined parameters determining the parameter p a used in database disruptor for performing disturbance of the table by a p a the determined function a a (p a) v, v ' attribute value after disturbance performed disturbance based on v' Database disturbance parameter In over data determining device,
Parameter determination unit determining a parameter p a satisfying the following formula
Figure 2013152670

A database disturbance parameter determination device including:
請求項1のデータベース撹乱パラメータ決定装置において、
上記属性aが数値属性であり、上記関数A(pv,v’が下記式により定義される分散2p のラプラス分布である確率密度関数である場合には、||・||を・のL1ノルムとして、
Figure 2013152670

上記パラメータ決定部は、下記式を満たすパラメータpを決定し、
Figure 2013152670

|V|を集合Vの要素の数として、上記属性aがカテゴリ属性であり、上記関数A(pv,v’が上記属性値vを所定の確率(p+(1−p)/|V|)で維持し所定の確率(1−p)/|V|で上記属性aの属性値v以外の属性値に置換する関数である場合には、上記パラメータ決定部は、下記式を満たすパラメータpを決定する、
Figure 2013152670

データベース撹乱パラメータ決定装置。
In the database disturbance parameter determination apparatus of Claim 1,
When the attribute a is a numerical attribute and the function A a (p a ) v, v ′ is a probability density function that is a Laplace distribution with a variance 2pa 2 defined by the following equation: | 1 as the L1 norm of
Figure 2013152670

The parameter determination unit determines a parameter pa satisfying the following formula,
Figure 2013152670

| V a | as the number of the set V a elements, the attribute a is category attribute, the function A a (p a) v, v 'is given the attribute values v probability (p a + (1 −p a ) / | V a |), and a function that replaces an attribute value other than the attribute value v of the attribute a with a predetermined probability (1-p a ) / | V a | parameter determination unit determines parameters p a satisfying the following equation,
Figure 2013152670

Database disturbance parameter determination device.
請求項1又は2のデータベース撹乱パラメータ決定装置と、
上記データベース撹乱装置と、
を含むデータベース撹乱システム。
The database disturbance parameter determination device according to claim 1 or 2,
The database disruptor;
Including database disturbance system.
テーブルは複数のレコードを含み、Aを所定の2以上の整数とし、各レコードはレコード識別子及び少なくとも1つの属性値を含み、kをセキュリティパラメータとし、|N|をレコードの数とし、MをA−1以下の所定の自然数とし、α=((k−1)/(N−1))1/Mとして、ess inf・を・の本質的下限として、上記テーブルに含まれるM以下の個数の属性のそれぞれについて、そのそれぞれの属性aの属性値をvとし、撹乱前の属性値v,uの定義域をVとし、撹乱後の属性値v’,u’の定義域をV’として、所定のパラメータpにより定まる関数A(pv,v’に基づく撹乱を行い撹乱後の属性値v’とすることにより上記テーブルの撹乱を行う撹乱部を含み、
上記パラメータpは、下記式の関係を満たす、
Figure 2013152670

データベース撹乱装置。
The table includes a plurality of records, A is a predetermined integer of 2 or more, each record includes a record identifier and at least one attribute value, k is a security parameter, | N | is the number of records, and M is A −1 or less, α = ((k−1) / (N−1)) 1 / M , ess inf · for each attribute, the attribute values of the respective attributes a and v, disturbance before an attribute value v, the domain of u and V a, the attribute values v after disturbance ', u' V the domain of 'a as includes a disturbance unit which performs disturbance of the table by a predetermined parameter p a the determined function a a (p a) v, v ' performs disturbance based on disturbance after the attribute values v',
The parameter p a satisfies the relation of the following formula,
Figure 2013152670

Database disturbance device.
テーブルは複数のレコードを含み、Aを所定の2以上の整数とし、各レコードはレコード識別子及び少なくとも1つの属性値を含み、kをセキュリティパラメータとし、|N|をレコードの数とし、MをA−1以下の所定の自然数とし、α=((k−1)/(N−1))1/Mとして、ess inf・を・の本質的下限として、上記テーブルに含まれるM以下の個数の属性のそれぞれについて、そのそれぞれの属性aの属性値をvとし、撹乱前の属性値v,uの定義域をVとし、撹乱後の属性値v’,u’の定義域をV’として、所定のパラメータpにより定まる関数A(pv,v’に基づく撹乱を行い撹乱後の属性値v’とすることにより上記テーブルの撹乱を行うデータベース撹乱方法において、
パラメータ決定部が、下記式を満たすパラメータpを決定するパラメータ決定ステップと、
Figure 2013152670

撹乱部が、上記テーブルに含まれるM以下の個数の各属性aの属性値vについて、所定のパラメータpにより定まる関数A(pv,v’に基づく撹乱を行い撹乱後の属性値v’とする上記撹乱ステップと、
を含むデータベース撹乱方法。
The table includes a plurality of records, A is a predetermined integer of 2 or more, each record includes a record identifier and at least one attribute value, k is a security parameter, | N | is the number of records, and M is A −1 or less, α = ((k−1) / (N−1)) 1 / M , ess inf · for each attribute, the attribute values of the respective attributes a and v, disturbance before an attribute value v, the domain of u and V a, the attribute values v after disturbance ', u' V the domain of 'a In the database disturbance method in which disturbance is performed based on a function A a (pa) v, v ′ determined by a predetermined parameter pa and the attribute value v ′ after the disturbance is set to disturb the table.
Parameter determination unit, a parameter determining step of determining a parameter p a satisfying the following equation,
Figure 2013152670

Disturbance portion, the attribute value v for each attribute a of M following number contained in the table, the function A a (p a) determined by the predetermined parameters p a v, v attributes after disturbance performed disturbance based on ' The disturbance step with value v ′;
Database disruption method including.
JP2012013873A 2012-01-26 2012-01-26 Database disturbance parameter determination apparatus, database disturbance system and method, and database disturbance apparatus Active JP5639094B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012013873A JP5639094B2 (en) 2012-01-26 2012-01-26 Database disturbance parameter determination apparatus, database disturbance system and method, and database disturbance apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012013873A JP5639094B2 (en) 2012-01-26 2012-01-26 Database disturbance parameter determination apparatus, database disturbance system and method, and database disturbance apparatus

Publications (2)

Publication Number Publication Date
JP2013152670A true JP2013152670A (en) 2013-08-08
JP5639094B2 JP5639094B2 (en) 2014-12-10

Family

ID=49048946

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012013873A Active JP5639094B2 (en) 2012-01-26 2012-01-26 Database disturbance parameter determination apparatus, database disturbance system and method, and database disturbance apparatus

Country Status (1)

Country Link
JP (1) JP5639094B2 (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017203904A (en) * 2016-05-12 2017-11-16 株式会社Nttドコモ Privacy protection device
US11163895B2 (en) 2016-12-19 2021-11-02 Mitsubishi Electric Corporation Concealment device, data analysis device, and computer readable medium

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050049991A1 (en) * 2003-08-14 2005-03-03 International Business Machines Corporation Methods and apparatus for privacy preserving data mining using statistical condensing approach
JP2007288480A (en) * 2006-04-17 2007-11-01 Mitsubishi Electric Corp Statistical processing method, data providing apparatus, and statistical processing system
US20080275900A1 (en) * 2007-05-02 2008-11-06 Sap Ag Anonymizing infocube data

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050049991A1 (en) * 2003-08-14 2005-03-03 International Business Machines Corporation Methods and apparatus for privacy preserving data mining using statistical condensing approach
JP2007288480A (en) * 2006-04-17 2007-11-01 Mitsubishi Electric Corp Statistical processing method, data providing apparatus, and statistical processing system
US20080275900A1 (en) * 2007-05-02 2008-11-06 Sap Ag Anonymizing infocube data

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
CSNG201000073033; 五十嵐 大、外2名: 'k-匿名性の確率的指標への拡張とその適用例' コンピュータセキュリティシンポジウム2009 論文集 [第二分冊] 第2009巻,第11号, 20091019, p.763-768, 社団法人情報処理学会 *
CSNG201100778069; 五十嵐 大、外2名: 'ランダム化データベース上のk-匿名性の一般的算出法' CSS2011コンピュータセキュリティシンポジウム2011論文集 併催 マルウェア対策研究人材育成ワ 第2011巻,第3号, 20111216, p.444-449, 一般社団法人情報処理学会 コンピュータセキュリティ *
CSNG201100778070; 五十嵐 大、外2名: '数値属性における,k-匿名性を満たすランダム化手法' CSS2011コンピュータセキュリティシンポジウム2011論文集 併催 マルウェア対策研究人材育成ワ 第2011巻,第3号, 20111216, p.450-455, 一般社団法人情報処理学会 コンピュータセキュリティ *
JPN6014031952; 五十嵐 大、外2名: '数値属性における,k-匿名性を満たすランダム化手法' CSS2011コンピュータセキュリティシンポジウム2011論文集 併催 マルウェア対策研究人材育成ワ 第2011巻,第3号, 20111216, p.450-455, 一般社団法人情報処理学会 コンピュータセキュリティ *
JPN6014031953; 五十嵐 大、外2名: 'k-匿名性の確率的指標への拡張とその適用例' コンピュータセキュリティシンポジウム2009 論文集 [第二分冊] 第2009巻,第11号, 20091019, p.763-768, 社団法人情報処理学会 *
JPN6014031954; 五十嵐 大、外2名: 'ランダム化データベース上のk-匿名性の一般的算出法' CSS2011コンピュータセキュリティシンポジウム2011論文集 併催 マルウェア対策研究人材育成ワ 第2011巻,第3号, 20111216, p.444-449, 一般社団法人情報処理学会 コンピュータセキュリティ *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017203904A (en) * 2016-05-12 2017-11-16 株式会社Nttドコモ Privacy protection device
US11163895B2 (en) 2016-12-19 2021-11-02 Mitsubishi Electric Corporation Concealment device, data analysis device, and computer readable medium

Also Published As

Publication number Publication date
JP5639094B2 (en) 2014-12-10

Similar Documents

Publication Publication Date Title
Neto et al. Developing a global data breach database and the challenges encountered
US11409911B2 (en) Methods and systems for obfuscating sensitive information in computer systems
Doğan et al. The effect of different data structures, sample sizes on model fit measures
Gursoy et al. Privacy-preserving learning analytics: challenges and techniques
US10848501B2 (en) Real time pivoting on data to model governance properties
Pika et al. Towards privacy-preserving process mining in healthcare
US10176340B2 (en) Abstracted graphs from social relationship graph
Shrivastva et al. Big data privacy based on differential privacy a hope for big data
JP2017091515A (en) Computer-implemented system and method for automatically identifying attributes for anonymization
CN113272809B (en) Method for creating avatar protecting sensitive data
US20240020415A1 (en) Method of anonymizing a multi-relational dataset
Ngesa Tackling security and privacy challenges in the realm of big data analytics
Silva et al. Privacy in the cloud: A survey of existing solutions and research challenges
Sun et al. A systematic review on privacy-preserving distributed data mining
Mansour et al. Quasi‐Identifier Recognition Algorithm for Privacy Preservation of Cloud Data Based on Risk Reidentification
Prasser et al. An open source tool for game theoretic health data de-identification
Jändel Decision support for releasing anonymised data
JP5639094B2 (en) Database disturbance parameter determination apparatus, database disturbance system and method, and database disturbance apparatus
JP6618875B2 (en) Evaluation apparatus, evaluation method, and evaluation program
JP5651568B2 (en) Database disturbance device, system, method and program
Rodrigues et al. PTMOL: a suitable approach for modeling privacy threats in online social networks
JP2020003989A (en) Personal information analysis system and personal information analysis method
Dhotre et al. “Take It or Leave It”: Effective Visualization of Privacy Policies
US20220004544A1 (en) Anonymity evaluation apparatus, anonymity evaluation method, and program
Basu et al. Measuring discrepancies in airbnb guest acceptance rates using anonymized demographic data

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140206

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140624

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140729

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140926

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20141014

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20141023

R150 Certificate of patent or registration of utility model

Ref document number: 5639094

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350