TWM561264U

TWM561264U - 去識別化資料驗證系統

Info

Publication number: TWM561264U
Application number: TW106218424U
Authority: TW
Inventors: 萬幼筠; 吳佳翰; 曾韵; 紀宜均; 范毓庭
Original assignee: 勤業眾信風險管理諮詢股份有限公司
Priority date: 2017-12-12
Filing date: 2017-12-12
Publication date: 2018-06-01

Abstract

去識別化資料驗證系統包含輸入裝置、顯示裝置、處理器及資料庫。輸入裝置用以輸入去識別化資料。顯示裝置用以顯示操作介面。處理器耦接於輸入裝置及顯示裝置，用以驗證去識別化資料重新被識別的風險。資料庫耦接於處理器，用以儲存去識別化資料及複數個驗證演算法的資料。去識別化資料透過輸入裝置輸入至處理器後，於操作介面由該些驗證演算法中選擇一種驗證演算法。處理器利用驗證演算法驗證去識別化資料，並產生驗證結果於顯示裝置上。

Description

去識別化資料驗證系統

本創作描述了一種去識別化資料驗證系統，尤指一種利用不同驗證演算法對去識別化資料進行驗證的去識別化資料驗證系統。

隨著大數據及資料探勘技術的發展，保護個人隱私的「去識別化」相關技術與標準化的需求也日益受到重視。近年來，相關的隱私洩漏事件已清楚地證明了資料庫的公開，往往隱藏著當事人的資料被識別的風險。為此，各方提出了各種保護個人隱私資料的方法、去識別化的實作方法、以及訂定相關標準試圖降低隱私資料被識別甚至被盜用的風險。

以目前的大數據資料而言，各機關盤點出來的資料大致可分成：一、資料直接可以開放，二、涉及個資需先處理後才能開放，三、涉及敏感性資料不予開放等三類。但對於有一些必須要先將個人資料匿名化和去識別化後才能開放的資料，其作業流程必定會造成許多機關的壓力。原因為，個人資料匿名化的程度必須要在隱私保護的強度與資料損失的多寡之間取得平衡。個人資料去識別化的程度越大，越能提供高強度的隱私保護，然而，資料嚴重損失(被隱匿)的結果將造成大數據資料的搜尋、分析以及建立不易。因此，過度去識別化的資料將失去其分析參考價值。反之，個人資料的去識別化的程度越小，隱私保護的強度越差。然而，輕微去識別化的資料由於資料損失的程度較小，因此將可以快速地被搜尋、分析以及建立。

因此，驗證各機關盤點出來的去識別化資料的隱私強度、重新被識別的風險、以及可分析性將是當今非常重要的議題。

本創作一實施例提出一種去識別化資料驗證系統，包含輸入裝置、顯示裝置、處理器及資料庫。輸入裝置用以輸入去識別化資料。顯示裝置用以顯示操作介面。處理器耦接於輸入裝置及顯示裝置，用以驗證去識別化資料重新被識別的風險。資料庫耦接於處理器，用以儲存去識別化資料及複數個驗證演算法的資料。去識別化資料透過輸入裝置輸入至處理器後，於操作介面由該些驗證演算法中選擇一種驗證演算法。處理器利用驗證演算法驗證去識別化資料，並產生驗證結果於顯示裝置上。

第1圖係為本創作之去識別化資料驗證系統100之實施例的方塊圖。去識別化資料驗證系統100包含輸入裝置10、顯示裝置11、處理器12及資料庫13。輸入裝置10用以輸入去識別化資料。輸入裝置10可為有線或無線的輸入裝置，或是具備連網能力的輸入裝置。例如，輸入裝置10可為具有Wi-Fi無線協定的通訊裝置或具有藍芽(Bluetooth)無線協定的通訊裝置，去識別化資料DAD可用無線傳輸的方式透過輸入裝置10傳送至去識別化資料驗證系統100內。輸入裝置10也可為具有通用序列匯流排(Universal Serial Bus，USB)的通訊裝置、或具有傳輸線(Cable)的通訊裝置等等。輸入裝置10也可為實體鍵盤或是滑鼠，使用者亦可以透過輸入裝置10編輯去識別化資料DAD。顯示裝置11用以顯示操作介面。操作介面可提供後文所述之驗證演算法之選擇操作。操作介面可為任何形式的操作介面，例如包含各種不同選擇按鈕的操作介面，或是包含各種不同的圖形化用戶介面(Graphical User Interface，GUI)等等。顯示裝置11也可以顯示去識別化資料DAD，例如以表格化(EXCEL)的方式顯示去識別化資料DAD。顯示裝置11可為電腦的顯示螢幕、或是工作站的顯示器等等。處理器12耦接於輸入裝置10及顯示裝置11，用以驗證去識別化資料DAD重新被識別的風險。處理器12可為任何形式的邏輯運算裝置，例如中央處理器、微處理器或是處理晶片、或是雲端處理陣列等等。資料庫13耦接於處理器12，用以儲存去識別化資料DAD及複數個驗證演算法的資料。資料庫13可為硬碟、非揮發性記憶體、雲端磁碟陣列等任何具備資料儲存能力的裝置。在去識別化資料驗證系統100中，資料庫13可儲存K-匿名法(K-Anonymity)的資料DK、L-多樣性法(L-Diversity)的資料DL、T-相似性法(T-Closeness)的資料DT以及輸入裝置10所輸入之去識別化資料DAD。K-匿名法、L-多樣性法以及T-相似性法為三種去識別化資料的驗證演算法，後文將詳述其特性和原理。在去識別化資料驗證系統100中，去識別化資料DAD透過輸入裝置10輸入至處理器12後會被暫存在資料庫13內。接著，操作人員可於操作介面由該些驗證演算法中選擇一種驗證演算法(例如由K-匿名法、L-多樣性法以及T-相似性法中選擇一種驗證演算法)。處理器12利用被選擇的驗證演算法驗證去識別化資料DAD重新被識別的風險，並產生驗證結果於顯示裝置11上。因此，操作人員可依據驗證結果，編輯分析報告或是提供適當建議以告知提供去識別化資料的機關，其提供的去識別化資料之重新被識別的風險、安全性或是可分析性是否達到標準。

第2圖係為去識別化資料驗證系統100中，去識別化資料DAD的示意圖。如前述提及，去識別化資料DAD內包含個人資訊，因此，當去識別化資料需要被公開時，往往隱藏著當事人的資料被識別的風險。如第2圖所示，去識別化資料DAD中包含個人訊息欄位C1、個體識別欄位C2以及敏感屬性欄位C3。個人訊息欄位C1的定義為可表明個人訊息的欄位(Explicit Identifier，EID)。例如，個人訊息欄位C1可包含姓名資料或是身分證資料。也因為個人訊息欄位C1中的資料只要被公開，個人資料將會立刻失去隱匿性，外人可以直接透過例如姓名資料或是身分證資料找到特定的人物。因此，在去識別化資料DAD中，個人訊息欄位C1的資料會被去識別化，以代碼或是遮罩的方式將其資料隱匿。個體識別欄位C2的定義為可結合外部訊息以識別個體的欄位(Quasi Identifier，QID)。例如，個體識別欄位C2可包含地址資料。例如「台北市中正區重慶南路一段122號」，此為總統府的地址。然而，因為個體識別欄位C2的資料也與特定人物或是特定地點有高度的相關性，因此，在去識別化資料DAD中，個體識別欄位C2的資料可以選擇性地去識別化。例如，「台北市中正區重慶南路一段122號」可以用遮罩的方式產生如「台北市中正區重慶南路一段***號」，即可增加其隱匿性。敏感屬性欄位C3的定義為特殊的觀察欄位(Sensitive Attribute，SA)。例如，非婚生女的個數、健康狀態、疾病狀態、等等的特別註記。敏感屬性欄位C3可被大數據分析。如以上定義，去識別化資料DAD的個人資訊可以表示為例如「姓名***、男性、30-35歲、住在台北市中正區重慶南路***段***號、健康狀態為肝癌患者」。因此，就算去識別化的資料DAD被公開，外人也無法實質上地知悉精確的特定人物或是特定地點的狀態，因此具有隱私保護的功能。

第3圖係為去識別化資料驗證系統100中，以K-匿名法驗證去識別化資料DAD的示意圖。如前文提及，去識別化資料DAD中可包含個人訊息欄位C1、個體識別欄位C2以及敏感屬性欄位C3。而在去識別化資料DAD中，會針對特定條件而將去識別化資料DAD分類為許多群組集合。例如，去識別化資料DAD可以根據地址的差異性分為許多群組集合。舉例而言，在去識別化資料DAD中，群組集合A可表示「住在新北市中和區的30-35歲男性」的資料集合。類似地，群組集合B可表示「住在新北市永和區的30-35歲男性」的資料集合。因此，群組集合A以及群組集合B具有許多筆的資料。在第3圖中，群組集合A具有K筆的資料，而群組集合B具有(K+n)比的資料。在K-匿名法驗證程序中，K必須要為大於1以上的正整數。換句話說，去識別化資料DAD中的每一群組集合內的元素個數都不能為1，若某個群組集合內僅有單一元素時，會失去隱匿性而被識別。舉例而言，若群組集合A表示「住在台東市海端鄉的30-35歲男性」的資料集合。然而，因台東市海端鄉的30-35歲男性的人數只有一位，因此群組集合A內的資料會僅有一筆(K=1)。如此，當此資料被公開時，外人可以立即地根據群組集合A唯一的資料而識別特定人物，或是查找到這位唯一的台東市海端鄉的30-35歲男性，即可輕易地透過網路撈取其他被隱匿的資料(因為已經知道是哪位人物了)。因此，在K-匿名法驗證程序中，處理器12可驗證去識別化資料DAD中，每一個群組集合內的元素個數，若某個群組集合內僅有單一元素時，處理器12可產生警示訊息至顯示裝置11。並且，警示訊息可包含此群組集合不符合K-匿名法的驗證標準之訊息。然而，在K-匿名法驗證程序中，也可以自訂數量門檻值K。門檻值K設定的越大，表示去識別化資料DAD中，每一個群組集合內的元素個數的需求越高，隱私保護的強度會越強，但資料損失的資訊會越多(因太多資訊被遮罩，例如地址由鄉鎮名稱遮到剩下市區名稱)。因此，藉由自訂門檻值K，去識別化資料驗證系統100可用客製化且更有彈性的驗證方式來驗證去識別化資料DAD重新被識別的風險。

第4圖係為去識別化資料驗證系統100中，以L-多樣性法驗證去識別化資料DAD的示意圖。如前文提及，去識別化資料DAD中可包含個人訊息欄位C1、個體識別欄位C2以及敏感屬性欄位C3。而在去識別化資料DAD中，會針對特定條件而將去識別化資料DAD分類為許多群組集合。在L-多樣性法驗證程序中，處理器12會取得每一個群組集合內的敏感屬性欄位的敏感屬性，或稱為特殊標記。例如，處理器12會取得對應於群組集合A內的敏感屬性欄位SAA的敏感屬性。處理器12會取得對應於群組集合B內的敏感屬性欄位SAB的敏感屬性。若某個群組集合內的敏感屬性欄位僅有單一的敏感屬性，則敏感屬性的部分會失去隱匿性而被識別。並且，雖然去識別化資料驗證系統100可以接受群組集合內具有二分法的敏感屬性(2-Diversity Sensitive Attributes)，然而，二分法的敏感屬性在某些情況下會導致去識別化資料被重新識別的風險增高。舉例而言，群組集合A內的敏感屬性欄位SAA的敏感屬性均為「肝癌患者」，導致群組集合A的資訊變成「住在新北市中和區的30-35歲男性均為肝癌患者」。這種資訊將會使敏感屬性的隱匿性喪失。原因為，隨便取樣一位符合新北市中和區的30-35歲男性，他必定是肝癌患者。換言之，符合新北市中和區的30-35歲男性，罹患肝癌的機率是100%，因此失去了敏感值的多樣性。然而，若是群組集合B內的敏感屬性欄位SAB的敏感屬性為多樣的敏感屬性，則敏感屬性的部分就不易被輕易對應至符合條件之特定人物而被識別。舉例而言，群組集合B內的敏感屬性欄位SAB的敏感屬性為「肝癌患者、肺癌患者或胃癌患者」，導致群組集合B的資訊變成「住在新北市中和區的30-35歲男性，有些是肝癌患者、有些是肺癌患者、有些是胃癌患者」。這種資訊將會使敏感屬性的隱匿性保持。原因為，隨便取樣一位符合新北市中和區的30-35歲男性，外人無法判斷他罹患了哪一種的疾病。因此，群組集合B就算被公開，外人也無法將其疾病的描述特性對應至符合條件之特定的人物，因此隱私保護的強度會較強。因此，在L-多樣性法驗證程序中，處理器12可驗證去識別化資料DAD中，每一個群組集合內的敏感屬性欄位，若某個群組集合內的敏感屬性欄位僅有單一的敏感屬性或僅有二分法的敏感屬性，處理器12可產生警示訊息至顯示裝置11。警示訊息可包含群組集合不符合L-多樣性法的驗證標準之訊息。

第5圖係為去識別化資料驗證系統100中，以T-相似性法驗證去識別化資料DAD的示意圖。如前述提及，個人資料的去識別化的程度越大，越能提供高強度的隱私保護，然而，資料嚴重損失(被隱匿)的結果將造成大數據資料的搜尋、分析以及建立不易。而過度去識別化的資料將失去其參考價值。反之，個人資料的去識別化的程度越小，隱私保護的強度越差。因此，在T-相似性法驗證程序中，會基於K-匿名法以及L-多樣性法的驗證標準下，判斷每一個群組集合是否有分析價值，描述如下。在T-相似性法驗證程序中，於每一個群組都符合敏感屬性為多樣的敏感屬性之條件下，處理器12會比較每一個群組集合內的敏感屬性欄位內的敏感屬性分佈狀態與母體資料之敏感屬性分佈狀態。舉例而言，在第5圖中，群組集合A的敏感屬性分佈P2以及群組集合B的敏感屬性分佈P3，會與母體資料之敏感屬性分佈P1進行比較。雖然群組集合A的敏感屬性以及群組集合B的敏感屬性都為多樣性的敏感屬性(非單一性，符合L-多樣性法的驗證標準)，然而，群組集合A的敏感屬性分佈P2與母體資料之敏感屬性分佈P1之差距過大，因此處理器12將會判斷群組集合A之分析參考價值較弱。群組集合B的敏感屬性分佈P3與母體資料之敏感屬性分佈P1之差距在容忍範圍內，因此處理器12將會判斷群組集合B具有分析參考價值。在第5圖中，Y軸座標表示敏感值分佈，X軸座標表示各群組集合內的敏感屬性。處理器12計算群組集合之敏感屬性分佈與母體資料之敏感屬性分佈P1之方式，可為利用相異性誤差值進行比較，或是利用公式比較兩分佈的相關係數。本創作不限制用何種演算法來比較兩敏感屬性分佈的差異性。因此，在T-相似性法驗證程序中，處理器12可驗證去識別化資料DAD中，每一個群組集合內的敏感屬性欄位。若某個群組集合內的敏感屬性欄位內的敏感屬性分佈狀態不符合母體資料之敏感屬性分佈狀態，處理器12可產生警示訊息至顯示裝置11。警示訊息可包含群組集合不符合該T-相似性法的驗證標準之訊息。

在去識別化資料驗證系統100中，輸入裝置10所輸入的去識別化資料DAD可以包含如第2圖所述之敏感屬性欄位C3。然而，去識別化資料DAD也可不包含敏感屬性欄位C3。當識別化資料DAD未包含敏感屬性欄位C3時，去識別化資料驗證系統100之處理器12僅能以K-匿名法驗證去識別化資料DAD重新被識別的風險。原因為，K-匿名法驗證程序與敏感屬性欄位C3沒有關聯，僅是初步地偵測去識別化資料DAD中，每一個群組集合內的元素數量是否有符合門檻值K而已。當識別化資料DAD包含敏感屬性欄位C3時，去識別化資料驗證系統100之處理器12可用K-匿名法、L-多樣性法及T-相似性法中的任何一種方法驗證去識別化資料DAD重新被識別的風險。而如前述，顯示裝置11可顯示各種不同選擇按鈕的操作介面，或是包含各種不同的圖形化用戶介面以供操作人員依據去識別化資料DAD的狀態，由K-匿名法、L-多樣性法及T-相似性法中選擇一種驗證演算法來驗證去識別化資料DAD重新被識別的風險。而無論使用哪一種驗證演算法來驗證去識別化資料DAD重新被識別的風險，當識別化資料DAD的某些群組集合不符合被選擇之驗證演算法的標準時，操作人員可以依據驗證結果，編輯分析報告或是提供適當建議以告知提供去識別化資料的機關其提供的去識別化資料之重新被識別的風險、安全性或是可分析性是否達到標準。例如，當去識別化資料DAD的某些群組集合不符合T-相似性法的驗證，因此被視為無分析參考價值。操作人員可以建議提供去識別化資料的機關，將這些不符合T-相似性法驗證的群組集合設定為不公開。

第6圖係為去識別化資料驗證系統100中，執行去識別化資料驗證的流程圖。去識別化資料驗證的流程包含步驟S601至步驟S604。任何合理的步驟異動都屬於本創作所揭露的範疇。步驟S601至步驟S604描述於下： <TABLE border="1" borderColor="#000000" width="85%"><TBODY><tr><td> 步驟S601： </td><td> 去識別化資料DAD透過輸入裝置10輸入至處理器12； </td></tr><tr><td> 步驟S602： </td><td> 選擇一種驗證演算法； </td></tr><tr><td> 步驟S603： </td><td> 處理器12利用驗證演算法驗證去識別化資料DAD重新被識別的風險； </td></tr><tr><td> 步驟S604： </td><td> 產生驗證結果。 </td></tr></TBODY></TABLE>

步驟S601至步驟S604的說明已於前文中詳述，故於此將不再贅述。去識別化資料驗證系統100可經由步驟S601至步驟S604的流程，驗證去識別化資料DAD的隱私保護強度以及可分析性，並依據驗證結果提供適當建議以告知相應的機關或企業。

綜上所述，本創作描述了一種去識別化資料驗證系統。去識別化資料驗證系統100可支援多種的驗證演算法，例如K-匿名法、L-多樣性法及T-相似性法。操作人員可以依據去識別化資料選擇適當的驗證演算法來驗證去識別化資料重新被識別的風險。並且，操作人員也可以依據選擇的驗證演算法所對應之驗證結果，取得去識別化資料的隱私保護強度以及可分析性，因此亦可以建議或告知提供去識別化資料的機關，其提供的去識別化資料之重新被識別的風險、安全性或是可分析性是否達到標準。

100‧‧‧去識別化資料驗證系統
10‧‧‧輸入裝置
11‧‧‧顯示裝置
12‧‧‧處理器
13‧‧‧資料庫
DK‧‧‧K-匿名法的資料
DL‧‧‧L-多樣性法的資料
DT‧‧‧T-相似性法的資料
DAD‧‧‧去識別化資料
C1‧‧‧個人訊息欄位
C2‧‧‧個體識別欄位
C3、SAA及SAB‧‧‧敏感屬性欄位
A及B‧‧‧群組集合
P1、P2及P3‧‧‧敏感屬性分佈
S601至S604‧‧‧步驟

第1圖係為本創作之去識別化資料驗證系統之實施例的方塊圖。第2圖係為第1圖之去識別化資料驗證系統中，去識別化資料的示意圖。第3圖係為第1圖之去識別化資料驗證系統中，以K-匿名法驗證去識別化資料的示意圖。第4圖係為第1圖之去識別化資料驗證系統中，以L-多樣性法驗證去識別化資料的示意圖。第5圖係為第1圖之去識別化資料驗證系統中，以T-相似性法驗證去識別化資料的示意圖。第6圖係為第1圖之去識別化資料驗證系統中，執行去識別化資料驗證的流程圖。

Claims

一種去識別化資料驗證系統，包含：一輸入裝置，用以輸入去識別化資料；一顯示裝置，用以顯示一操作介面；一處理器，耦接於該輸入裝置及該顯示裝置，用以驗證該去識別化資料重新被識別的風險；及一資料庫，耦接於該處理器，用以儲存該去識別化資料及複數個驗證演算法的資料；其中該去識別化資料透過該輸入裝置輸入至該處理器後，於該操作介面由該些驗證演算法中選擇一驗證演算法，該處理器利用該驗證演算法驗證該去識別化資料重新被識別的風險，並產生一驗證結果於該顯示裝置上。
如請求項1所述之系統，其中該些驗證演算法的資料包含K-匿名法(K-Anonymity)的資料、L-多樣性法(L-Diversity)的資料及T-相似性法(T-Closeness)的資料。
如請求項2所述之系統，其中當該處理器利用該K-匿名法驗證該去識別化資料重新被識別的風險時，該處理器驗證該去識別化資料中，每一群組集合內的元素個數，及若一群組集合內僅有單一元素時，該處理器產生一警示訊息至該顯示裝置，且該警示訊息包含該群組集合不符合該K-匿名法的驗證標準之一訊息。
如請求項2所述之系統，其中當該處理器利用該L-多樣性法驗證該去識別化資料重新被識別的風險時，該處理器驗證該去識別化資料中，每一群組集合內的一敏感屬性欄位，及若一群組集合內的一敏感屬性欄位僅有單一的敏感屬性或僅有二分法的敏感屬性(2-Diversity Sensitive Attributes)，該處理器產生一警示訊息至該顯示裝置，且該警示訊息包含該群組集合不符合該L-多樣性法的驗證標準之一訊息。
如請求項2所述之系統，其中當該處理器利用該T-相似性法驗證該去識別化資料重新被識別的風險時，該處理器驗證該去識別化資料中，每一群組集合內的一敏感屬性欄位，及若一群組集合內的一敏感屬性欄位內的一敏感屬性分佈狀態不符合一母體資料之一敏感屬性分佈狀態，該處理器產生一警示訊息至該顯示裝置，且該警示訊息包含該群組集合不符合該T-相似性法的驗證標準之一訊息。
如請求項2所述之系統，若該去識別化資料包含一敏感屬性欄位，該處理器利用該K-匿名法、該L-多樣性法的資料或該T-相似性法驗證該去識別化資料重新被識別的風險。
如請求項2所述之系統，若該去識別化資料未包含一敏感屬性欄位，該處理器利用該K-匿名法驗證該去識別化資料重新被識別的風險。
如請求項4至7任一項所述之系統，其中該敏感屬性欄位包含健康狀況資料，且該去識別化資料包含一個人訊息欄位及一個體識別欄位。
如請求項8所述之系統，其中該個人訊息欄位包含姓名資料或身分證資料，該個體識別欄位包含地址資料，該個人訊息欄位的資料被去識別化，且該個體識別欄位的資料被選擇性地去識別化。
如請求項1所述之系統，其中該驗證結果包含該去識別化資料中，至少一個不符合該驗證演算法之群組，及至少一個不符合該驗證演算法之群組中，驗證失敗的至少一個欄位的資料。