[go: up one dir, main page]

JP2014106691A - 匿名化処理方法及び装置 - Google Patents

匿名化処理方法及び装置 Download PDF

Info

Publication number
JP2014106691A
JP2014106691A JP2012258555A JP2012258555A JP2014106691A JP 2014106691 A JP2014106691 A JP 2014106691A JP 2012258555 A JP2012258555 A JP 2012258555A JP 2012258555 A JP2012258555 A JP 2012258555A JP 2014106691 A JP2014106691 A JP 2014106691A
Authority
JP
Japan
Prior art keywords
data
data block
item value
grouped
group
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2012258555A
Other languages
English (en)
Other versions
JP5974858B2 (ja
Inventor
Mebae Ushida
芽生恵 牛田
Koichi Ito
孝一 伊藤
Hiroshi Tsuda
宏 津田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2012258555A priority Critical patent/JP5974858B2/ja
Publication of JP2014106691A publication Critical patent/JP2014106691A/ja
Application granted granted Critical
Publication of JP5974858B2 publication Critical patent/JP5974858B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】情報損失を抑制する。
【解決手段】本方法は、第1データ項目値と当該第1データ項目値を匿名化するために一般化され得る第2データ項目値と当該第2データ項目値の一般化のためにグループ化すべきデータの数とを含む複数のデータから、グループを代表する第1データを選択する処理、第2データ項目値に基づき算出される、第1データとの距離が閾値未満であり且つグループ化すべきデータの数が閾値以上である第2データを抽出する処理、第1データ及び第2データの数が、第1データに含まれる、グループ化すべきデータの数以上であれば、第2データの少なくとも一部及び第1データをグループ化する処理、上記選択する処理と抽出する処理とグループ化する処理を、グループ化すべきデータの数が大きいデータの順に実行する処理と、グループ毎に、当該グループに含まれるデータにおける第2データ項目値を、所定のルールに従って一般化する処理とを含む。
【選択図】図6

Description

本技術は、情報の匿名化技術に関する。
病院などが有する、個人の病歴などのデータを基にデータ分析を行って、例えば「○○代の××地区に住んでいる人は△△病になりやすい」といった有益な情報が得られることが期待されている。
このようなデータ分析処理は、データ分析についてノウハウを有する有識者がおり且つ複数の病院などから大量のデータを受け付けることができる大規模リソースを有する外部のクラウドコンピューティングなどの第三者機関に委託できることが望ましい。しかし、個人の機微なプライバシ情報である病歴データなどを、そのまま外部の第三者機関に公開することは出来ない。そこで、個人のプライバシ情報を保護するための匿名化技術が用いられることになる。
匿名化の最も基本的な方法として、情報提供者についての複数のデータ項目値を含む各レコードから、名前などの個人を識別するための情報(すなわちID)を除去するというものが考えられる。例えば図1に示されたようなデータが存在するものとする。図1の例では、IDと、年齢と、性別と、住所と、病気というデータ項目の各々についてデータ項目値を含む3つのレコードが示されている。そして、このようなレコード群からIDを除去すると、図2に示すようなデータが得られる。
しかし、IDが除去されたデータから、組み合わせることで個人を特定できる可能性があるデータ項目(住所や年齢など)を基に、個人とデータ(例えば病気)を紐付け、個人のプライバシ情報を取得するという攻撃方法が存在する。例えば、X病院に24歳男性のAが通院していることを攻撃者が知っているとする。X病院が公開した匿名化データ(図2)に、「24歳男性」のレコードが1つしかなければ、それはAのレコードであると容易に特定できる。これにより、Aのものであろうレコードを確認することで、Aの機微なプライバシ情報である病歴などが漏洩してしまう。
そこで、組み合わせることで個人を特定できる可能性があるデータ項目から個人を一意に特定できないように、同じデータ項目値を有するレコードがレコード群中にk個以上存在するようになるまでデータ項目値を一般化するk−匿名化技術が提案されている。
例えば、図2のようなデータであれば、Aの年齢「24歳」を「20代」に、Bの年齢「26歳」を「20代」に一般化すれば、k=2を満たすk−匿名化がなされたことになる。なお、図3の例では、さらに住所についても、「埼玉」や「東京」を「関東」に一般化することで匿名化を行っている。
同じデータ項目値を有するレコードをk個以上にすることによって、攻撃者は、ある人物に関するレコードをk個以上絞り込めない。攻撃者は、24歳男性のAに相当する「20代男性」のレコードが、X病院が公開した匿名化データにk個以上存在することから、k個のうちいずれがAのレコードなのか特定できず、Aの機微なプライバシ情報を得ることは出来なくなる。
k−匿名化されたレコード群のプライバシレベルはk−匿名化のパラメータであるkの値によって決まる。一般に、kが大きければ大きいほど高いプライバシを保つことが出来るが、その分データが一般化されすぎたり、k個のレコードを揃えることができなくなって、レコードそのものを削除することになったりして、匿名化による情報損失も多くなる。
一方、プライバシに対する考え方は人それぞれであり、それほど高いプライバシを要求しない情報提供者も存在する。そのような情報提供者の有益な情報までも、既存のk−匿名化技術では失われてしまう。
特開2005−78138号公報 特開2009−31900号公報 特開2006−339895号公報 特開2012−3440号公報
従って、本技術の目的は、一側面によれば、情報損失を抑制する匿名化処理技術を提供することである。
本技術の一側面に係る匿名化処理方法は、(A)第1のデータ項目値と当該第1のデータ項目値を匿名化するために一般化され得る第2のデータ項目値と当該第2のデータ項目値の一般化のためにグループ化すべきデータブロックの数とを含むデータブロックを複数格納するデータ格納部から、グループを代表する第1のデータブロックを選択する処理と、(B)データ格納部から、第2のデータ項目値に基づき算出される、第1のデータブロックとの距離が閾値未満であり且つグループ化すべきデータブロックの数が閾値以上である第2のデータブロックを抽出する処理と、(C)第1のデータブロック及び第2のデータブロックの数が、第1のデータブロックに含まれる、グループ化すべきデータブロックの数以上であれば、第2のデータブロックの少なくとも一部及び第1のデータブロックをグループ化する処理と、(D)上記選択する処理と上記抽出する処理と上記グループ化する処理とを、データ格納部に格納されたデータブロックのうち、グループ化すべきデータブロックの数が大きいデータブロックの順に実行する処理と、(E)グループ毎に、当該グループに含まれるデータブロックにおける第2のデータ項目値を、所定のルールに従って一般化する処理とを含む。
一側面によれば、匿名化処理において情報損失を抑制することができるようになる。
図1は、レコードの一例を示す図である。 図2は、IDを除去したレコードの一例を示す図である。 図3は、k−匿名化の処理結果の一例を示す図である。 図4は、本技術の実施の形態に係るシステムの概要を示す図である。 図5は、情報収集者装置の機能ブロック図である。 図6は、第1データ格納部に格納されるデータの一例を示す図である。 図7は、設定データ格納部に格納される一般化階層木の一例を示す図である。 図8は、設定データ格納部に格納される一般化階層木の一例を示す図である。 図9は、一般化階層木のバリエーションを説明するための図である。 図10は、設定データ格納部に格納される定義データの一例を示す図である。 図11は、実施の形態に係るメインの処理フローを示す図である。 図12は、レコード探索処理の処理フローを示す図である。 図13は、k−匿名化処理を説明するための図である。 図14は、k−匿名化処理を説明するための図である。 図15は、k−匿名化処理を説明するための図である。 図16は、k−匿名化処理を説明するための図である。 図17は、本実施の形態の概要を説明するための図である。 図18は、本実施の形態の概要を説明するための図である。 図19は、レコード探索処理の処理フローを示す図である。 図20は、距離算出処理の処理フローを示す図である。 図21は、距離算出処理を説明するための図である。 図22は、距離算出処理を説明するための図である。 図23は、レコードグループ生成処理の処理フローを示す図である。 図24は、統合又は削除処理の処理フローを示す図である。 図25は、一般化処理の処理フローを示す図である。 図26は、一般化処理を説明するための図である。 図27は、処理結果の一例を示す図である。 図28は、情報分析者装置における処理を説明するための図である。 図29は、情報分析者装置における処理を説明するための図である。 図30は、コンピュータの機能ブロック図である。
本技術の実施の形態では、情報提供者毎に異なる匿名化希望レベルkを設定して、当該情報提供者毎に異なる匿名化希望レベルkに基づき匿名化処理を実行する。但し、匿名化希望レベルkの値が大きい情報提供者のレコードと、匿名化希望レベルkの値が小さい情報提供者のレコードとが一緒に匿名化のために一般化されることがないようにして、情報損失を抑制する。
具体的に、本実施の形態に係る処理を行うシステムの構成例を図4に示す。図4に示すように、例えばインターネットなどのネットワーク1には、例えば患者のデータを分析のために提供する複数の情報提供者装置(図4では情報提供者装置A及びB)と、データ分析のために匿名化処理を実行する情報収集者装置3と、情報収集者装置3から匿名化データの提供を受けて分析処理を実行する情報分析者装置5とが接続されている。これらの装置は、情報処理装置であり、記憶装置、通信機能、演算機能を有している。
情報提供者は、自らの個人のデータを提供する者である場合もあれば、病院などの複数の患者のデータを提供する者である場合もある。また、ネットワーク1を介する通信については、暗号化などで秘匿化されているものとする。
情報提供者装置A及びBは、自らが保持しているデータをネットワーク1を介して情報収集者装置3に送信する。この際、送信するデータには、識別子(ID)と、組み合わせることで個人を特定できる可能性があるデータ(qID(quasi-ID)と呼ぶ)と、プライバシデータ又はセンシティブデータと、匿名化希望レベルとが含まれる。匿名化希望レベルは、k−匿名化におけるkに相当する値であり、同一値がk個以上となるようにqIDの値を一般化するものとする。
情報収集者装置3は、以下で述べるような匿名化処理を実施して、匿名化データを保持しておく。そして、情報収集者装置3は、情報分析者装置5からの要求に応じて、匿名化データを、情報分析者装置5に送信する。情報分析装置5は、匿名化データを用いて所定の分析処理を実施し、何らかの分析結果を出力する。
本実施の形態に係る主要な処理を実施する情報収集者装置3は、図5に示すような構成を有する。情報収集者装置3は、受信部31と、第1データ格納部32と、グループ化処理部33と、設定データ格納部34と、第2データ格納部35と、一般化処理部36と、第3データ格納部37と、送信部38とを有する。
受信部31は、情報提供者装置A及びBからデータを受信し、第1データ格納部32に格納する。第1データ格納部32には、例えば図6に示すようなデータが格納される。図6の例では、IDである名前と、qIDである年齢及び住所と、センシティブデータである病気及び体重と、匿名化希望レベルkとが、各レコード(データブロックとも呼ぶ)に含まれるようになっている。匿名化希望レベルkは、各レコードで異なり得るものである。
グループ化処理部33は、設定データ格納部34に格納されているデータに基づき、第1データ格納部32に格納されているレコード群をグループ化する処理を実行し、処理結果を第2データ格納部35に格納する。一般化処理部36は、第2データ格納部35に格納されている各グループについて、qIDのデータを、設定データ格納部34に格納されているデータに従って一般化する処理を実行し、処理結果を第3データ格納部37に格納する。送信部38は、情報分析者装置5の要求等に応じて、当該情報分析者装置5等に、第3データ格納部37に格納するデータを送信する。
設定データ格納部34には、各qIDについて、例えば図7に示すような一般化階層木のデータを保持しておく。図7は、住所というqIDについての一般化階層木の一部を示しており、最上層として「日本」、第2階層として「東日本」「西日本」、第3階層として「東日本」の配下に「東北」及び「関東」など、「西日本」の配下に「関西」及び「九州」などがノードとして配置されている。住所であれば、例えば出現し得る住所のうち市区町村が葉ノードとなるように階層構造を予め用意しておく。このような一般化階層木を用いて、レコード間の距離や一般化処理を行う。
また、年齢というqIDについての一般化階層木の一部を図8に示す。図8では、20代というノード以下の部分木を示している。このように、20代というノードの配下には「20代前半」及び「20代後半」というノードが配置されており、20代前半というノードの配下には20歳から24歳までのノードが配置されており、20代後半というノードの配下には25歳から29歳までのノードが配置されている。この場合、葉ノードは、qIDとして実際に出現する値となっている。
以下でも説明するが、本実施の形態では、階層の深さで距離を算出するようになっているので、ブランクの中間ノードを設けることで、階層の深さを調節して距離に対する重み付けを行ってもよい。例えば、図9に示すように、若者というノードの配下には、10歳未満というノードと10代というノードとを並列に配置するのではなく、10代の階層を深くするために、10歳未満というノードと並列にブランク{blank}というノードを配置している。このように予め一般化処理や距離を算出する上で適切に設計された一般化階層木のデータを用意しておく。
また、本実施の形態では、設定データ格納部34には、図10に示すような定義データについても格納しておく。図10の例では、IDと取り扱われるべきカラムが「名前」カラムであり、qIDとして取り扱われるべきカラムが「年齢」及び「住所」であり、センシティブデータとして取り扱われるべきカラムが「病気」及び「体重」であることが示されている。以下の処理では、IDについては除去され、qIDについては距離を算出する際や一般化する際に用いられるので、本データは他の属性のカラムと区別するために用いられる。
次に、図11乃至図29を用いて、情報収集者装置3の処理内容について説明する。なお、既に受信部31が、情報提供者装置A及びB等からデータを受信して第1データ格納部32に格納する処理が完了しているものとする。
グループ化処理部33は、第1データ格納部32に格納されている処理すべきレコードを、レコードrの集合Xに設定する(図11:ステップS1)。例えば、ID以外のデータ項目値を含むものとしてレコードrを特定する。すなわち、r={qID1,...,qIDn,SD1,..,SDm,k}。但し、SDはセンシティブデータを表し、qIDの数はn、センシティブデータの項目数がmであるものとする。例えば、図6のAという患者の場合、r={23,東京,胃炎,67,1}となっており、23及び東京はqIDであり、胃炎及び「67」はSDであり、1はkである。
次に、グループ化処理部33は、レコードグループeの集合Y={}(空集合)を設定する(ステップS3)。本実施の形態におけるレコードグループeは、当該グループの代表レコードと、グループに含まれるレコードの集合Rとで表される。例えば、e={re,R={r1,...,rl}}。なお、lは、Rに含まれるレコードの匿名化希望レベルkのうちの最大値以上の整数である。
そして、グループ化処理部33は、集合Xにおいて匿名化希望レベルが最大のレコードのうち、1つのレコードを代表レコードr_maxとして選択する(ステップS5)。匿名化希望レベルが大きいほどグループ化しにくいので、匿名化希望レベルが大きい順に優先的にグループ化するものである。
その後、グループ化処理部33は、レコードr_maxに基づき、レコード探索処理を実行する(ステップS7)。レコード探索処理については、図12乃至図22を用いて説明する。
まず、グループ化処理部33は、レコードr_maxについてのレコードグループe={r_max,R={r_max}}を生成する(ステップS21)。また、グループ化処理部33は、グループに含めるべきレコードの集合Rc={}(空集合)を設定する(ステップS23)。
さらに、グループ化処理部33は、r_maxの匿名化希望レベルk_maxからk_a=α×k_maxを算出する(ステップS25)。k_aは、グループ化する際に他のレコードの匿名化希望レベルの閾値として用いられる。αについては、例えば設定データ格納部34に予め格納しておく係数である。
また、グループ化処理部33は、距離についての閾値Δ_a=β×k_maxを算出する(ステップS27)。βについても、例えば設定データ格納部34に予め格納しておく係数である。
ここで、一般的なk−匿名化との差を具体的に示しておく。例えば図13に示すような年齢及び住所というqIDを含むレコードをk=3でk−匿名化する場合には、図14に模式的に示すようにqIDの値が近いk個のレコードでグループ(図14中点線丸)を生成し、グループ内のレコードが同じqIDとなるように、値を一般化する。そうすると、図15に示すように、qIDである年齢及び住所は一般化される。このように一般的なk−匿名化ではkは全てのレコードについて同一であるが、本実施の形態のようにレコード毎に匿名化希望レベルkが設定される場合には、同一のkを有するレコードのみからなるグループを形成しようとすると情報損失が大きくなってしまう。例えば、図16に示すように、k=5のレコードを表す丸が4つしかないと、×印が付されているようにそれらのレコードは削除されてしまう。一方、k=3のレコードを表す丸は3つ存在しているが、大きく離れており、これらのqIDを同一の値に一般化してしまうと、情報が一般化されすぎてしまう。さらに、削除される4つのレコードの近くには、1つk=3のレコードがあるのにグループ化されない。
本実施の形態では、代表レコードr_maxについてのkに基づき算出されるk_a以上であれば、同じkでなくとも、以下で説明する距離がΔ_a以下であれば同じグループに纏めてしまう。図16と同じようなレコード群をグループ化する際に、図17に模式的に示すように、k=5のレコード4つと、k=3の1つのレコードは、kの値が近く且つ距離も近いため1つのグループ(点線丸)に纏められる。この際、k=5のレコードに応じて5つのレコードでグループ化する。また、k=3の2つのレコードとk=1の1つのレコードについても、kの値が近く且つ距離も近いため1つのグループ(点線丸)に纏められる。この際、k=3のレコードに応じて3つのレコードでグループ化する。
より具体的には、図18に示すように、代表レコード100を中心に、距離の閾値Δ_a以内(一点鎖線の範囲)に入るレコードがグループ化の対象となる。但し、代表レコード100の匿名化希望レベルkは「3」でα=0.6であるとすると、k_a=1.8以上のkを有するレコードでなければグループ化しないので、k=1のレコード101については同じグループには入れられない。
なお、当初は、Δ_a以内に入るレコードが代表レコードの匿名化希望レベルkを超えて見つかるかもしれない。例えば、代表レコード110の場合、距離の閾値Δ_a以内の範囲111に4つのレコードが見つかるが、最も距離が遠いレコード112は、一旦グループから除外される。但し、レコード112を代表レコードとしてグループ化を行った結果、当該レコード112の匿名化希望レベルk=2以上のレコードが見つからなかった場合には、レコード112は代表レコード110のグループに入れられる。なお、レコード102のように孤立してしまっている、すなわち距離と匿名化希望レベルと個数の要件を満たす他のレコードが見つからない場合には、削除される。
以下、図12の処理フローに戻って具体的な処理内容について説明する。グループ化処理部33は、集合Xに含まれる未処理のレコードr_jを1つ選択する(ステップS29)。処理は端子Aを介して図19の処理に移行する。
図19の処理の説明に移行して、グループ化処理部33は、レコードr_jの匿名化希望レベルがk_a以上であるか判断する(ステップS31)。レコードr_jの匿名化希望レベルがk_a未満であれば処理はステップS39に移行する。
一方、レコードr_jの匿名化希望レベルがk_a以上であれば、グループ化処理部33は、代表レコードr_maxとレコードr_jとの間の距離Δ_jを算出する距離算出処理を実行する(ステップS33)。距離算出処理については、図20乃至図22を用いて説明する。
まず、グループ化処理部33は、距離Δを0に設定する(図20:ステップS41)。そして、グループ化処理部33は、全てのqIDのうち未処理のqIDiを選択する(ステップS43)。その後、グループ化処理部33は、設定データ格納部34におけるqIDiについての一般化階層木から、距離を算出すべきレコードr0及びr1のqIDiの値を含む最小の部分木の深さDepth_pを特定する(ステップS45)。
図8のような部分木が一般化階層木であるとすると、図21に示すように、レコードr0のqIDiである年齢が「20歳」で、レコードr1のqIDiである年齢が「24歳」であれば、レコードr0及びr1の値を両方とも含む部分木は点線Xで囲まれたものである。そうすると、部分木の深さはAの矢印で示された深さであり、Depth_p=1となる。一方、一般化階層木の深さは「2」となる。
一方、図22に示すように、レコードr0のqIDiである年齢が「20歳」で、レコードr1のqIDiである年齢が「29歳」であれば、レコードr0及びr1の値を両方とも含む部分木は点線Yで囲まれた一般化階層木全体となる。従って、部分木の深さはBの矢印で示された深さであり、Depth_p=2となる。
そして、グループ化処理部33は、qIDiについての距離Δ_i=Depth_p/{qIDiの一般化階層木の深さ}を算出する(ステップS47)。さらに、グループ化処理部33は、Δ=Δ+Δ_iを算出する(ステップS49)。すなわち、qIDiについて算出された距離Δ_iの総和が、レコード間の距離となる。
そして、グループ化処理部33は、未処理のqIDiが存在するか判断する(ステップS51)。未処理のqIDiが存在する場合には、処理はステップS43に戻る。一方、未処理のqIDiが存在しない場合には、処理は呼出元の処理に戻る。
図19の処理の説明に戻って、代表レコードr_max及びレコードr_jの間の距離が算出されると、グループ化処理部33は、Δ_j≦Δ_aであるか判断する(ステップS35)。すなわち、代表レコードr_max及びレコードr_jの間の距離Δ_jが閾値Δ_a以下であるかを判断する。距離Δ_jが閾値Δ_aを超える場合には処理はステップS39に移行する。
一方、距離Δ_jが閾値Δ_a以下である場合には、グループ化処理部33は、集合Rcに、レコードr_j及び距離Δ_jを設定する(ステップS37)。その後、グループ化処理部33は、集合Xにおいて未処理のレコードが存在するか判断する(ステップS39)。そして、集合Xにおいて未処理のレコードが存在しない場合には、端子Bを介して図12のステップS29に戻る。
このようにすれば、距離と匿名化レベルとについて条件を満たすレコード及びそのレコードとの距離とが集合Rcに登録される。
図11の処理の説明に戻って、グループ化処理部33は、Rcの要素数がk_max−1以上であるか判断する(ステップS9)。Rcの要素数がk_max−1以上であれば、グループ化処理部33は、レコードグループ生成処理を実行する(ステップS11)。レコードグループ生成処理については図23を用いて説明する。レコードグループ生成処理が終了するとステップS15に移行する。
グループ化処理部33は、集合RcにおいてΔ_jが小さい順にレコードr_jをk_max−1個抽出し、集合Rに対して抽出したレコードr_jを追加する(ステップS61)。できるだけレコードを何らかのグループに含めるためには、当初は集合Rに代表レコードr_maxを含めてk_max個のレコードを含めるだけにしておく。結果としては、このグループにはk_max個以上のレコードが含まれる場合もある。
また、グループ化処理部33は、レコードグループeを集合Yに追加する(ステップS63)。集合Yについてのデータは、第2データ格納部35に格納される。
さらに、グループ化処理部33は、集合Xから集合Rに含まれるレコードを除外する(ステップS65)。そして処理は、呼出元の処理に戻る。
このような処理を実施することで、いっしょに一般化すべきレコードグループeが1つできあがったことになる。但し、レコードグループeには、まだレコードが追加される可能性はある。
図11の処理の説明に戻って、一方、集合Rcの要素数がk_max−1未満であれば、グループ化処理部33は、統合又は削除処理を実行する(ステップS13)。統合又は削除処理については、図24を用いて説明する。なお、この処理が終了すると、処理はステップS15に移行する。
グループ化処理部33は、代表レコードr_maxと、集合Yに含まれるレコードグループeの代表レコードr_oとの距離Δ(r_o,r_max)が最小のレコードグループe_minを特定する(図24:ステップS71)。
そして、グループ化処理部33は、Δ(r_o,r_max)≦β×{代表レコードr_oの匿名化希望レベル}であるかを判断する(ステップS73)。自らの周辺に十分なレコードが存在しなかった代表レコードr_maxであっても、他のレコードグループの代表レコードとの距離のうち最も短い距離が、当該他のレコードグループの代表レコードの圏内(β×{代表レコードr_oの匿名化希望レベル)であれば、例えば図23のステップS61で選に漏れたレコードである。従って、ここで再確認を行うものである。
この処理フローでは、最初に距離が最小のレコードグループe_minを特定しているが、距離Δ(r_o,r_max)が、β×{代表レコードr_oの匿名化希望レベル}以下という条件を満たすレコードグループであれば、そのレコードグループにレコードr_maxを含めるようにしても大きな問題は無い。
Δ(r_o,r_max)≦β×{代表レコードr_oの匿名化希望レベル}ではない場合には、処理はステップS77に移行する。すなわち、代表レコードr_maxは、削除されることになる。
一方、Δ(r_o,r_max)≦β×{代表レコードr_oの匿名化希望レベル}である場合には、グループ化処理部33は、レコードグループe_minのレコード集合R_minに処理に係るレコードr_maxを追加する(ステップS75)。
そして、グループ化処理部33は、集合Xからレコードr_maxを除外する(ステップS77)。これによって、レコードr_maxは、これ以降の処理の対象から除外される。そして処理は呼出元の処理に戻る。
図11の処理の説明に戻って、グループ化処理部33は、集合Xが空集合であるか判断する(ステップS15)。集合Xが空集合でない場合には、グループ化処理部33は、集合Xにおいて匿名化希望レベルが最大のレコードのうち、現r_maxとの距離が最大となるレコードrを新r_maxと設定する(ステップS17)。そして処理はステップS7に戻る。
このように現r_maxと距離が最大となるレコードrを抽出すれば、レコードrのグループ生成が効率的に行われるようになる。すなわち、まだレコードrの周辺により多くのレコードが残っていることが期待されるためである。但し、現r_maxから距離Δ_aを超えた位置にあるレコードであれば、このステップで新たなr_maxとして選択しても処理は可能である。
一方、集合Xが空集合であれば、一般化処理部36は、設定データ格納部34に格納されているデータを用いて、一般化処理を実行し、処理結果を第3データ格納部37に格納する(ステップS19)。一般化処理については、図25乃至図27を用いて説明する。
一般化処理部36は、集合Yに含まれるレコードグループeのうち未処理のレコードグループを特定する(図25:ステップS81)。そして、一般化処理部36は、未処理のqIDiを1つ選択する(ステップS83)。
その後、一般化処理部36は、レコードグループeの集合Rに含まれるレコードのqIDiの値について共通の親を一般化階層木から特定し、集合Rに含まれるレコードのqIDiの値を、共通の親の値で置換する(ステップS85)。例えば、図26に示すように、qIDiである年齢の値が「20歳」「24歳」「25歳」であるレコード群が集合Rに含まれている場合には、共通の親「20代」に、置換される。
そして、一般化処理部36は、未処理のqIDiが存在するか判断する(ステップS87)。未処理のqIDiが存在する場合には、処理はステップS83に戻る。一方、未処理のqIDiが存在しない場合には、一般化処理部36は、未処理のレコードグループeが集合Yに存在しているか判断する(ステップS89)。未処理のレコードグループeが存在する場合にはステップS81に戻る。一方、未処理のレコードグループeが存在していない場合には、一般化処理部36は、集合Yに含まれる全てのレコードグループe及び当該レコードグループeの集合Rに含まれるレコードのデータを、第3データ格納部37に格納する(ステップS91)。
以上のような処理を実行することで、レコード毎に匿名化希望レベルkが異なる場合であっても、情報損失を抑えつつ匿名化することができるようになる。
例えば図6のようなデータを上で述べたような処理を実行すれば、図27に示すようなデータが得られる。図27の例では、年齢及び住所といったqIDについては一般化されている。
このような処理を行った後、図27に示すようなデータは、送信部38により、例えば情報分析者装置5からの要求に応じて、情報分析者装置5へ送信される。
しかしながら、例えば図28に示すように、できるだけ情報損失が少なくなるように匿名化しているが、住所が「東京都」や「関東」、年齢が「20代」と「23歳」といったようにデータの粒度が異なるとデータ分析がやりにくいという側面もある。従って、これに対しては図29に示すように、一般化階層木の階層に従って属性を分割し、一般化されてしまっており不明な属性値についてはブランク「blank」として設定する。すなわち、住所が「関東」でどの県か不明な場合には、県属性は「blank」となる。また、年齢が「20代」で二十何歳か分からないので、年齢属性は「blank」となる。このような処理を情報分析者装置5で実施すれば、相関関係抽出などのデータ分析が容易になる。
以上本技術の実施の形態を説明したが、本技術はこれに限定されるものではない。例えば、図5に示した情報収集装置3の機能ブロック図は、プログラムモジュール構成とは一致しない場合もある。また、処理フローについても、処理結果が変わらない限り、ステップの順番を入れ替えたり、並列実行できる場合もある。
また、医療情報の例を示しているが、これは一例であってどのようなデータであっても良い。
なお、上で述べた情報提供者装置A及びB、情報収集者装置3及び情報分析者装置5は、コンピュータ装置であって、図30に示すように、メモリ2501とCPU(Central Processing Unit)2503とハードディスク・ドライブ(HDD:Hard Disk Drive)2505と表示装置2509に接続される表示制御部2507とリムーバブル・ディスク2511用のドライブ装置2513と入力装置2515とネットワークに接続するための通信制御部2517とがバス2519で接続されている。オペレーティング・システム(OS:Operating System)及び本実施例における処理を実施するためのアプリケーション・プログラムは、HDD2505に格納されており、CPU2503により実行される際にはHDD2505からメモリ2501に読み出される。CPU2503は、アプリケーション・プログラムの処理内容に応じて表示制御部2507、通信制御部2517、ドライブ装置2513を制御して、所定の動作を行わせる。また、処理途中のデータについては、主としてメモリ2501に格納されるが、HDD2505に格納されるようにしてもよい。本技術の実施例では、上で述べた処理を実施するためのアプリケーション・プログラムはコンピュータ読み取り可能なリムーバブル・ディスク2511に格納されて頒布され、ドライブ装置2513からHDD2505にインストールされる。インターネットなどのネットワーク及び通信制御部2517を経由して、HDD2505にインストールされる場合もある。このようなコンピュータ装置は、上で述べたCPU2503、メモリ2501などのハードウエアとOS及びアプリケーション・プログラムなどのプログラムとが有機的に協働することにより、上で述べたような各種機能を実現する。
以上述べた本実施の形態をまとめると、以下のようになる。
本実施の形態に係る匿名化処理方法は、(A)第1のデータ項目値と当該第1のデータ項目値を匿名化するために一般化され得る第2のデータ項目値と当該第2のデータ項目値の一般化のためにグループ化すべきデータブロックの数とを含むデータブロックを複数格納するデータ格納部から、グループを代表する第1のデータブロックを選択する処理と、(B)データ格納部から、第2のデータ項目値に基づき算出される、第1のデータブロックとの距離が閾値未満であり且つグループ化すべきデータブロックの数が閾値以上である第2のデータブロックを抽出する処理と、(C)第1のデータブロック及び第2のデータブロックの数が、第1のデータブロックに含まれる、グループ化すべきデータブロックの数以上であれば、第2のデータブロックの少なくとも一部及び第1のデータブロックをグループ化する処理と、(D)上記選択する処理と上記抽出する処理と上記グループ化する処理とを、データ格納部に格納されたデータブロックのうち、グループ化すべきデータブロックの数が大きいデータブロックの順に実行する処理と、(E)グループ毎に、当該グループに含まれるデータブロックにおける第2のデータ項目値を、所定のルールに従って一般化する処理とを含む。
このような処理を実行すれば、データブロック毎に上記グループ化すべきデータブロックの数(実施の形態における匿名化希望レベルに相当)が設定されていても、情報損失を抑えつつ適切に匿名化を行うことができるようになる。
上記実行する処理において、直前に選択された第1のデータブロックとの距離が最大となるデータブロック又は直前に選択された第1のデータブロックとの距離が上記閾値を超えるデータブロックを選択するようにしても良い。前者であれば効率的にグループ化を行うことができるようになる。
また、上記距離が、第2のデータ項目値を段階的に一般化する階層木のデータにおいて、2つの第2のデータ項目値を含む最小の部分木における階層数と、階層木の階層数とから算出されるようにしても良い。このようにすれば、適切に距離を定義できるようになる。
また、上記距離の閾値が、第1のデータブロックに含まれる、グループ化すべきデータブロックの数に応じて決定されるようにしても良い。例えばグループ化すべきデータブロックの数が大きければ閾値を大きくし、小さければ閾値を小さくして、データブロックをグループ化する範囲を適切に調節するものである。
さらに、データブロックの数の閾値が、第1のデータブロックに含まれる、グループ化すべきデータブロックの数に応じて決定されるようにしても良い。あまりにグループ化すべきデータブロックの数が異なるデータブロックがグループ化されると、一般化されすぎるので、制限を加えて情報損失を抑えるものである。
さらに、上記匿名化処理方法は、上記第1のデータブロック及び第2のデータブロックの数が、第1のデータブロックに含まれる、グループ化すべきデータブロックの数未満である場合、他のグループに含まれる第1のデータブロックとの距離が閾値以下であれば、当該他のグループに上記選択する処理において選択された第1のデータブロックを追加する処理をさらに含むようにしても良い。このようにすれば破棄されるデータブロックの数を抑えることができるようになる。また、追加の条件として、「最短の距離が閾値以下」という条件を付しても良い。
さらに、上記匿名化処理方法は、上記他のグループに含まれる第1のデータブロックとの距離が閾値を超える場合には、第1のデータブロックを破棄する処理をさらに含むようにしても良い。
なお、上で述べたような処理をコンピュータに実行させるためのプログラムを作成することができ、当該プログラムは、例えばフレキシブル・ディスク、CD−ROMなどの光ディスク、光磁気ディスク、半導体メモリ(例えばROM)、ハードディスク等のコンピュータ読み取り可能な記憶媒体又は記憶装置に格納される。
以上の実施例を含む実施形態に関し、さらに以下の付記を開示する。
(付記1)
第1のデータ項目値と当該第1のデータ項目値を匿名化するために一般化され得る第2のデータ項目値と当該第2のデータ項目値の一般化のためにグループ化すべきデータブロックの数とを含むデータブロックを複数格納するデータ格納部から、グループを代表する第1のデータブロックを選択する処理と、
前記データ格納部から、第2のデータ項目値に基づき算出される、前記第1のデータブロックとの距離が閾値未満であり且つグループ化すべきデータブロックの数が閾値以上である第2のデータブロックを抽出する処理と、
前記第1のデータブロック及び前記第2のデータブロックの数が、前記第1のデータブロックに含まれる、グループ化すべきデータブロックの数以上であれば、前記第2のデータブロックの少なくとも一部及び前記第1のデータブロックをグループ化する処理と、
前記選択する処理と前記抽出する処理と前記グループ化する処理とを、前記データ格納部に格納されたデータブロックのうち、前記グループ化すべきデータブロックの数が大きいデータブロックの順に実行する処理と、
グループ毎に、当該グループに含まれるデータブロックにおける第2のデータ項目値を、所定のルールに従って一般化する処理と、
を含み、コンピュータにより実行される匿名化処理方法。
(付記2)
前記実行する処理において、
直前に選択された前記第1のデータブロックとの距離が最大となるデータブロック又は前記直前に選択された前記第1のデータブロックとの距離が前記閾値を超えるデータブロックを選択する
付記1記載の匿名化処理方法。
(付記3)
前記距離が、
第2のデータ項目値を段階的に一般化する階層木のデータにおいて、2つの第2のデータ項目値を含む最小の部分木における階層数と、前記階層木の階層数とから算出される
付記1又は2記載の匿名化処理方法。
(付記4)
前記距離の閾値が、
前記第1のデータブロックに含まれる、グループ化すべきデータブロックの数に応じて決定される
付記1乃至3のいずれか1つ記載の匿名化処理方法。
(付記5)
前記データブロックの数の閾値が、
前記第1のデータブロックに含まれる、グループ化すべきデータブロックの数に応じて決定される
付記1乃至4のいずれか1つ記載の匿名化処理方法。
(付記6)
前記第1のデータブロック及び前記第2のデータブロックの数が、前記第1のデータブロックに含まれる、グループ化すべきデータブロックの数未満である場合、他のグループに含まれる第1のデータブロックとの距離が閾値以下であれば、当該他のグループに前記選択する処理において選択された前記第1のデータブロックを追加する処理
をさらに含む付記1乃至5のいずれか1つ記載の匿名化処理方法。
(付記7)
前記他のグループに含まれる第1のデータブロックとの距離が閾値を超える場合には、前記第1のデータブロックを破棄する処理
をさらに含む付記6記載の匿名化処理方法。
(付記8)
第1のデータ項目値と当該第1のデータ項目値を匿名化するために一般化され得る第2のデータ項目値と当該第2のデータ項目値の一般化のためにグループ化すべきデータブロックの数とを含むデータブロックを複数格納するデータ格納部から、グループを代表する第1のデータブロックを選択する処理と、
前記データ格納部から、第2のデータ項目値に基づき算出される、前記第1のデータブロックとの距離が閾値未満であり且つグループ化すべきデータブロックの数が閾値以上である第2のデータブロックを抽出する処理と、
前記第1のデータブロック及び前記第2のデータブロックの数が、前記第1のデータブロックに含まれる、グループ化すべきデータブロックの数以上であれば、前記第2のデータブロックの少なくとも一部及び前記第1のデータブロックをグループ化する処理と、
前記選択する処理と前記抽出する処理と前記グループ化する処理とを、前記データ格納部に格納されたデータブロックのうち、前記グループ化すべきデータブロックの数が大きいデータブロックの順に実行する処理と、
グループ毎に、当該グループに含まれるデータブロックにおける第2のデータ項目値を、所定のルールに従って一般化する処理と、
を、コンピュータに実行させるための匿名化処理プログラム。
(付記9)
第1のデータ項目値と当該第1のデータ項目値を匿名化するために一般化され得る第2のデータ項目値と当該第2のデータ項目値の一般化のためにグループ化すべきデータブロックの数とを含むデータブロックを複数格納するデータ格納部から、グループを代表する第1のデータブロックを選択する処理と、前記データ格納部から、第2のデータ項目値に基づき算出される、前記第1のデータブロックとの距離が閾値未満であり且つグループ化すべきデータブロックの数が閾値以上である第2のデータブロックを抽出する処理と、前記第1のデータブロック及び前記第2のデータブロックの数が、前記第1のデータブロックに含まれる、グループ化すべきデータブロックの数以上であれば、前記第2のデータブロックの少なくとも一部及び前記第1のデータブロックをグループ化する処理とを、前記データ格納部に格納されたデータブロックのうち、前記グループ化すべきデータブロックの数が大きいデータブロックの順に実行する第1処理部と、
グループ毎に、当該グループに含まれるデータブロックにおける第2のデータ項目値を、所定のルールに従って一般化する第2処理部と、
を有する情報処理装置。
3 情報収集者装置
31 受信部
32 第1データ格納部
33 グループ化処理部
34 設定データ格納部
35 第2データ格納部
36 一般化処理部
37 第3データ格納部
38 送信部

Claims (9)

  1. 第1のデータ項目値と当該第1のデータ項目値を匿名化するために一般化され得る第2のデータ項目値と当該第2のデータ項目値の一般化のためにグループ化すべきデータブロックの数とを含むデータブロックを複数格納するデータ格納部から、グループを代表する第1のデータブロックを選択する処理と、
    前記データ格納部から、第2のデータ項目値に基づき算出される、前記第1のデータブロックとの距離が閾値未満であり且つグループ化すべきデータブロックの数が閾値以上である第2のデータブロックを抽出する処理と、
    前記第1のデータブロック及び前記第2のデータブロックの数が、前記第1のデータブロックに含まれる、グループ化すべきデータブロックの数以上であれば、前記第2のデータブロックの少なくとも一部及び前記第1のデータブロックをグループ化する処理と、
    前記選択する処理と前記抽出する処理と前記グループ化する処理とを、前記データ格納部に格納されたデータブロックのうち、前記グループ化すべきデータブロックの数が大きいデータブロックの順に実行する処理と、
    グループ毎に、当該グループに含まれるデータブロックにおける第2のデータ項目値を、所定のルールに従って一般化する処理と、
    を含み、コンピュータにより実行される匿名化処理方法。
  2. 前記実行する処理において、
    直前に選択された前記第1のデータブロックとの距離が最大となるデータブロック又は前記直前に選択された前記第1のデータブロックとの距離が前記閾値を超えるデータブロックを選択する
    請求項1記載の匿名化処理方法。
  3. 前記距離が、
    第2のデータ項目値を段階的に一般化する階層木のデータにおいて、2つの第2のデータ項目値を含む最小の部分木における階層数と、前記階層木の階層数とから算出される
    請求項1又は2記載の匿名化処理方法。
  4. 前記距離の閾値が、
    前記第1のデータブロックに含まれる、グループ化すべきデータブロックの数に応じて決定される
    請求項1乃至3のいずれか1つ記載の匿名化処理方法。
  5. 前記データブロックの数の閾値が、
    前記第1のデータブロックに含まれる、グループ化すべきデータブロックの数に応じて決定される
    請求項1乃至4のいずれか1つ記載の匿名化処理方法。
  6. 前記第1のデータブロック及び前記第2のデータブロックの数が、前記第1のデータブロックに含まれる、グループ化すべきデータブロックの数未満である場合、他のグループに含まれる第1のデータブロックとの距離が閾値以下であれば、当該他のグループに前記選択する処理において選択された前記第1のデータブロックを追加する処理
    をさらに含む請求項1乃至5のいずれか1つ記載の匿名化処理方法。
  7. 前記他のグループに含まれる第1のデータブロックとの距離が閾値を超える場合には、前記第1のデータブロックを破棄する処理
    をさらに含む請求項6記載の匿名化処理方法。
  8. 第1のデータ項目値と当該第1のデータ項目値を匿名化するために一般化され得る第2のデータ項目値と当該第2のデータ項目値の一般化のためにグループ化すべきデータブロックの数とを含むデータブロックを複数格納するデータ格納部から、グループを代表する第1のデータブロックを選択する処理と、
    前記データ格納部から、第2のデータ項目値に基づき算出される、前記第1のデータブロックとの距離が閾値未満であり且つグループ化すべきデータブロックの数が閾値以上である第2のデータブロックを抽出する処理と、
    前記第1のデータブロック及び前記第2のデータブロックの数が、前記第1のデータブロックに含まれる、グループ化すべきデータブロックの数以上であれば、前記第2のデータブロックの少なくとも一部及び前記第1のデータブロックをグループ化する処理と、
    前記選択する処理と前記抽出する処理と前記グループ化する処理とを、前記データ格納部に格納されたデータブロックのうち、前記グループ化すべきデータブロックの数が大きいデータブロックの順に実行する処理と、
    グループ毎に、当該グループに含まれるデータブロックにおける第2のデータ項目値を、所定のルールに従って一般化する処理と、
    を、コンピュータに実行させるための匿名化処理プログラム。
  9. 第1のデータ項目値と当該第1のデータ項目値を匿名化するために一般化され得る第2のデータ項目値と当該第2のデータ項目値の一般化のためにグループ化すべきデータブロックの数とを含むデータブロックを複数格納するデータ格納部から、グループを代表する第1のデータブロックを選択する処理と、前記データ格納部から、第2のデータ項目値に基づき算出される、前記第1のデータブロックとの距離が閾値未満であり且つグループ化すべきデータブロックの数が閾値以上である第2のデータブロックを抽出する処理と、前記第1のデータブロック及び前記第2のデータブロックの数が、前記第1のデータブロックに含まれる、グループ化すべきデータブロックの数以上であれば、前記第2のデータブロックの少なくとも一部及び前記第1のデータブロックをグループ化する処理とを、前記データ格納部に格納されたデータブロックのうち、前記グループ化すべきデータブロックの数が大きいデータブロックの順に実行する第1処理部と、
    グループ毎に、当該グループに含まれるデータブロックにおける第2のデータ項目値を、所定のルールに従って一般化する第2処理部と、
    を有する情報処理装置。
JP2012258555A 2012-11-27 2012-11-27 匿名化処理方法及び装置 Expired - Fee Related JP5974858B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012258555A JP5974858B2 (ja) 2012-11-27 2012-11-27 匿名化処理方法及び装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012258555A JP5974858B2 (ja) 2012-11-27 2012-11-27 匿名化処理方法及び装置

Publications (2)

Publication Number Publication Date
JP2014106691A true JP2014106691A (ja) 2014-06-09
JP5974858B2 JP5974858B2 (ja) 2016-08-23

Family

ID=51028133

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012258555A Expired - Fee Related JP5974858B2 (ja) 2012-11-27 2012-11-27 匿名化処理方法及び装置

Country Status (1)

Country Link
JP (1) JP5974858B2 (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016018379A (ja) * 2014-07-08 2016-02-01 Kddi株式会社 プライバシー保護装置、方法及びプログラム
JP2016206896A (ja) * 2015-04-21 2016-12-08 トヨタ自動車株式会社 位置情報匿名化方法、移動情報匿名化方法、および装置
JP2017182342A (ja) * 2016-03-29 2017-10-05 西日本電信電話株式会社 グループ化装置、グループ化方法及びコンピュータプログラム
CN108885673A (zh) * 2016-02-22 2018-11-23 塔塔顾问服务有限公司 用于计算数据隐私-效用折衷的系统和方法
US10360405B2 (en) 2014-12-05 2019-07-23 Kabushiki Kaisha Toshiba Anonymization apparatus, and program
KR20200026559A (ko) * 2018-09-03 2020-03-11 (주)아이알컴퍼니 K-익명성 모델 이용 데이터 셋 비식별화 방법 및 장치

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012022315A (ja) * 2010-07-02 2012-02-02 Nec (China) Co Ltd データ匿名化の方法と装置
WO2013031997A1 (ja) * 2011-09-02 2013-03-07 日本電気株式会社 匿名化装置、及び、匿名化方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012022315A (ja) * 2010-07-02 2012-02-02 Nec (China) Co Ltd データ匿名化の方法と装置
WO2013031997A1 (ja) * 2011-09-02 2013-03-07 日本電気株式会社 匿名化装置、及び、匿名化方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
JPN7016001582; Charu C. Aggarwal et al.: 'On variable Constraints in Privacy Preserving Data Mining' Proceedings of the 2005 SIAM International Conference on Data Mining , 20050421, p.115-125 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016018379A (ja) * 2014-07-08 2016-02-01 Kddi株式会社 プライバシー保護装置、方法及びプログラム
US10360405B2 (en) 2014-12-05 2019-07-23 Kabushiki Kaisha Toshiba Anonymization apparatus, and program
JP2016206896A (ja) * 2015-04-21 2016-12-08 トヨタ自動車株式会社 位置情報匿名化方法、移動情報匿名化方法、および装置
CN108885673A (zh) * 2016-02-22 2018-11-23 塔塔顾问服务有限公司 用于计算数据隐私-效用折衷的系统和方法
JP2019512128A (ja) * 2016-02-22 2019-05-09 タタ コンサルタンシー サービシズ リミテッドTATA Consultancy Services Limited データの秘匿性−実用性間のトレードオフを算出するためのシステムおよび方法
JP2017182342A (ja) * 2016-03-29 2017-10-05 西日本電信電話株式会社 グループ化装置、グループ化方法及びコンピュータプログラム
KR20200026559A (ko) * 2018-09-03 2020-03-11 (주)아이알컴퍼니 K-익명성 모델 이용 데이터 셋 비식별화 방법 및 장치
KR102126386B1 (ko) 2018-09-03 2020-06-24 (주)아이알컴퍼니 K-익명성 모델 이용 데이터 셋 비식별화 방법 및 장치

Also Published As

Publication number Publication date
JP5974858B2 (ja) 2016-08-23

Similar Documents

Publication Publication Date Title
JP5974858B2 (ja) 匿名化処理方法及び装置
US11853329B2 (en) Metadata classification
US10817621B2 (en) Anonymization processing device, anonymization processing method, and program
US11449674B2 (en) Utility-preserving text de-identification with privacy guarantees
JP7106643B2 (ja) データを非特定化する方法、データを非特定化するためのシステム、および非データを特定化するためのコンピュータ・プログラム
JP6015658B2 (ja) 匿名化装置、及び、匿名化方法
JP5511532B2 (ja) 公開情報のプライバシー保護装置、公開情報のプライバシー保護方法およびプログラム
Anjum et al. An efficient approach for publishing microdata for multiple sensitive attributes
JP5611852B2 (ja) 公開情報のプライバシー保護装置、公開情報のプライバシー保護方法およびプログラム
US12147572B2 (en) Controlling access to de-identified data sets based on a risk of re-identification
US20170083708A1 (en) Utility-Aware Anonymization of Sequential and Location Datasets
CN109992982A (zh) 大数据访问授权方法、装置和大数据平台
Abbasi et al. A clustering‐based anonymization approach for privacy‐preserving in the healthcare cloud
US10154041B2 (en) Website access control
US10956664B2 (en) Automated form generation and analysis
CN104866781A (zh) 面向社区检测应用的社会网络数据发布隐私保护方法
JP5782636B2 (ja) 情報匿名化システム、情報損失判定方法、及び情報損失判定プログラム
CN113051619A (zh) 一种基于k-匿名的中药处方数据隐私保护方法
CN110390211B (zh) 一种敏感属性数据的处理方法及系统
JP5720536B2 (ja) 秘匿化データの検索のための情報処理方法及び装置
WO2014112045A1 (ja) 秘匿化データ生成方法及び装置
JP7288194B2 (ja) 秘密情報管理プログラム、秘密情報管理方法、および秘密情報管理システム
Verma et al. DF 2.0: Designing an automated, privacy preserving, and efficient digital forensic framework
JP6450098B2 (ja) 匿名化装置、匿名化方法及び匿名化プログラム
JP2017076170A (ja) リスク評価装置、リスク評価方法及びリスク評価プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150706

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20160518

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160621

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160704

R150 Certificate of patent or registration of utility model

Ref document number: 5974858

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees