TW201907318A

TW201907318A - 基於隱私保護的訓練樣本生成方法和裝置

Info

Publication number: TW201907318A
Application number: TW107116557A
Authority: TW
Inventors: 王力; 趙沛霖; 周俊; 小龍李
Original assignee: 香港商阿里巴巴集團服務有限公司
Priority date: 2017-07-07
Filing date: 2018-05-16
Publication date: 2019-02-16
Also published as: US20200143080A1; SG11201912390YA; CN109214404A; EP3644231A4; WO2019007417A1; EP3644231A1; US10878125B2

Abstract

本說明書提供一種基於隱私保護的訓練樣本生成方法，被挖掘的原始資料包括m個原始樣本，每個原始樣本包括d維的原始向量

和輸出標記值

，m、d為自然數，所述方法包括：生成n個d維的轉換向量

，每個轉換向量

由隨機選取的若干個原始樣本的

之和確定；將所述n個轉換向量

Description

基於隱私保護的訓練樣本生成方法和裝置

本說明書涉及資料處理技術領域，尤其涉及一種基於隱私保護的訓練樣本生成方法和裝置。

隨著網際網路的發展和普及，各種基於網路進行的活動都在源源不斷的產生資料，許多企業、政府甚至個人等都掌握著大量的用戶資料。資料挖掘技術能夠從大量的資料中發現有價值的知識、模式、規則等資訊，為科學研究、商業決策、過程控制等提供輔助支持，成為資料利用的重要方式。　　在一些應用場景中，用於挖掘的資料包含了很多敏感資訊，例如金融行業的資料、政府部門的資料等。如何將這些敏感資訊在資料挖掘的過程中作為隱私保護起來，成為一個越來越受人關注的問題。

有鑑於此，本說明書提供一種基於隱私保護的訓練樣本生成方法，被挖掘的原始資料包括m個原始樣本，每個原始樣本包括d維的原始向量和輸出標記值，m、d為自然數，所述方法包括：　　生成n個d維的轉換向量，每個轉換向量由隨機選取的若干個原始樣本的之和確定；　　將所述n個轉換向量作為二分類模型的訓練樣本。　　本說明書提供的一種基於隱私保護的二分類模型訓練方法，包括：　　獲取n個d維的轉換向量作為訓練樣本；每個所述轉換向量由隨機選取的若干個原始樣本的之和確定，所述原始樣本為原始資料的m個樣本之一，每個原始樣本包括d維的原始向量和輸出標記值，m、d為自然數，　　基於所述訓練樣本，對二分類模型進行訓練，得到結果模型。　　本說明書還提供了一種基於隱私保護的訓練樣本生成裝置，被挖掘的原始資料包括m個原始樣本，每個原始樣本包括d維的原始向量和輸出標記值，m、d為自然數，所述裝置包括：　　轉換向量生成單元，用於生成n個d維的轉換向量，每個轉換向量由隨機選取的若干個原始樣本的之和確定；　　訓練樣本生成單元，用於將所述n個轉換向量作為二分類模型的訓練樣本。　　本說明書提供的一種基於隱私保護的二分類模型訓練裝置，包括：　　訓練樣本獲取單元，用於獲取n個d維的轉換向量作為訓練樣本；每個所述轉換向量由隨機選取的若干個原始樣本的之和確定，所述原始樣本為原始資料的m個樣本之一，每個原始樣本包括d維的原始向量和輸出標記值，m、d為自然數，　　模型訓練單元，用於基於所述訓練樣本，對二分類模型進行訓練，得到結果模型。　　本說明書提供的一種電腦設備，包括：儲存器和處理器；所述儲存器上儲存有可由處理器運行的電腦程式；所述處理器運行所述電腦程式時，執行上述基於隱私保護的訓練樣本生成方法所述的步驟。　　本說明書提供的一種電腦設備，包括：儲存器和處理器；所述儲存器上儲存有可由處理器運行的電腦程式；所述處理器運行所述電腦程式時，執行上述基於隱私保護的二分類模型訓練方法所述的步驟。　　本說明書提供的一種電腦可讀儲存媒體，其上儲存有電腦程式，所述電腦程式被處理器運行時，執行上述基於隱私保護的訓練樣本生成方法所述的步驟。　　本說明書提供的一種電腦可讀儲存媒體，其上儲存有電腦程式，所述電腦程式被處理器運行時，執行上述基於隱私保護的模型訓練方法所述的步驟。　　由以上技術方案可見，本說明書的實施例中，採用m個原始樣本中的原始向量和輸出標記值，將隨機選取的若干個之和作為轉換向量，使得採用n個轉換向量進行二分類模型訓練得到的結果模型、與採用原始資料進行訓練相一致，不會受到隨機量的影響，並且每個轉換向量均由若干個原始樣本和隨機量生成，極難從轉換向量還原出原始資料，因此本說明書的實施例既能為隱私資訊提供良好的保護，又能得到與採用原始資料相一致的挖掘結果。

本說明書的實施例提出一種新的基於隱私保護的訓練樣本生成方法和一種新的基於隱私保護的二分類模型訓練方法，從m（m為自然數）個d（d為自然數）維的原始向量和輸出標記值，隨機生成n（n為自然數）個d維的轉換向量，轉換向量的生成方式使得令基於轉換向量的損失函數最小的二分類模型，即是令基於原始向量和輸出標記值的損失函數最小的模型，從而可以將採用轉換向量訓練所得的結果模型作為原始資料的資料挖掘結果。　　本說明書的實施例可以運行在任何具有計算和儲存能力的設備上，如手機、平板電腦、PC（Personal Computer，個人電腦）、筆記型電腦、伺服器等設備；還可以由運行在兩個或兩個以上設備的邏輯節點，相互協同來實現本說明書實施例中的各項功能。　　本說明書的實施例中，原始資料為帶有輸出標記值的訓練樣本，樣本容量為m，即包括m個樣本（將原始資料的樣本稱為原始樣本），每個原始樣本包括d維的原始向量、以及輸出標記值。設第i（i為從1到m的自然數）個原始樣本中，原始向量為，輸出標記值為。　　本說明書的實施例中，基於隱私保護的訓練樣本生成方法的流程如圖1所示，基於隱私保護的模型訓練方法的流程如圖2所示。　　步驟110，生成n個d維的轉換向量，每個轉換向量由隨機選取的0到m個原始樣本的之和確定。　　在m個原始樣本中，隨機選出0到m個原始樣本，計算每個選出的原始樣本的，將這些的和值作為一個轉換向量。每次選出的原始樣本的數目可以是固定的，也可以是隨機的，不做限定。　　由於每個是一個d維的向量，所生成的轉換向量也是一個d維的向量。　　生成轉換向量的具體方式可以有多種，本說明書的實施例不做限定，以下舉兩個例子進行說明。　　第一個例子：在一些應用場景中，採用正負符號來作為二分類的輸出標記值，即的取值為-v或v（v為實數）。這種情形下，可以這樣生成轉換向量：　　生成一個m維向量，隨機將-v或v作為每一維的取值，將作為一個轉換向量；其中，為向量的第i維；　　重複上述過程n次得到n個轉換向量。　　由於或者為0，或者為，轉換向量可以是任意的0到m個原始樣本的的和值。　　在第一個例子中，設基於原始資料的線性模型為：式1 　　式1中，為d維的權重向量，則基於原始資料的二分類算法的損失函數如式2所示：式2 　　式2中，。　　設基於轉換向量的線性模型為：式3 　　則基於轉換向量的二分類算法的損失函數如式4所示：式4 　　式4中，為由生成的轉換向量，。　　以下以為例，來說明與之間存在與無關的線性關係，推導過程如下：　　定義：，轉換向量可以表示為：，則以下等式成立：可見，與之間為線性關係。當時，與之間的線性關係仍然成立，並且與無關。這樣，使得最小的就是使得最小的，即式5成立：式5 　　從上述論證過程可以得知，採用若干個轉換向量對二分類模型進行訓練，與採用原始資料對二分類模型進行訓練，得出的結果模型是一致的。　　第二個例子：生成一個m維向量，隨機將0或者1作為每一維的取值，將作為一個轉換向量。其中，為向量的第i維。重複上述過程n次可以得到n個轉換向量。　　由於或者為0，或者為1，轉換向量可以是任意的0到m個原始樣本的的和值。第二個例子中對y 的取值沒有限制。　　基於類似於第一個例子中的論證過程可以得出同樣的結論，採用若干個轉換向量對二分類模型進行訓練，會得到與採用原始資料對二分類模型進行訓練相一致的結果模型，具體的論證過程不再贅述。　　在資料提供方，步驟120，將所述n個轉換向量作為二分類模型的訓練樣本。　　在資料挖掘方，步驟210，獲取n個d維的轉換向量作為訓練樣本；每個轉換向量由隨機選取的若干個原始樣本的之和確定，原始樣本為原始資料的m個樣本之一，每個原始樣本包括d維的原始向量和輸出標記值。　　資料提供方將步驟120中生成的訓練樣本，輸出至資料挖掘方。資料挖掘方可以採用任意的方式從資料提供方獲得訓練樣本，本說明書的實施例不做限定。　　在資料挖掘方，步驟220，基於該訓練樣本，對二分類模型進行訓練，得到結果模型。　　資料挖掘方在得到訓練樣本後，以該訓練樣本來對二分類模型進行訓練。由於原始資料中的輸出標記值已經體現在轉換向量中，而由n個轉換向量構成的訓練樣本沒有標記值，可以採用無監督學習算法進行訓練，得出結果模型。　　本說明書的實施例對二分類模型沒有限制，例如可以採用Boosting（增強）算法、SGD（Stochastic gradient descent，隨機梯度下降）、SVRG（Stochastic variance reduced gradient，隨機方差減小梯度）、Adagrad（Adaptive Gradient，自適應梯度）等等。　　採用某種具體的二分類模型訓練n個轉換向量構成的訓練樣本的方式與現有技術相同。以下給出採用Boosting算法進行訓練的一個例子，其他算法可參照實現，不再詳述。　　Boosting算法的初始化：設n個轉換向量構成的樣本空間為：；預設Boosting算法的迭代次數T（T為自然數）；將線性模型的初始值置為d維的0向量；將n維中間變量的初始值置為每個維度均等於；預先計算，k為從1到d的每個自然數，為n個轉換向量在第k個維度的最大值。　　Boosting算法的從第1輪到第T輪的迭代過程：　　設當前的迭代輪次為t，對於的每一維k，計算：，將使（的絕對值）最大的k記為，根據式6和式7計算和：式6式7 　　再按照式8計算用於下一迭代輪次的n維中間變量的每一維度的值：式8 　　式8中，j為從1到n的每個自然數。　　在T輪迭代完畢後，可根據式9得到訓練所得的結果模型：式9 　　式9中，為d維向量的第k維。　　可見，本說明書的實施例中，從m個d維的原始向量和輸出標記值，隨機生成n個d維的轉換向量，每個轉換向量由隨機選取的若干個之和確定，並以n個轉換向量為訓練樣本進行二分類模型訓練，得到與採用原始資料進行訓練相一致的結果模型，從而不僅因在生成轉換向量的過程中，因採用了多個原始樣本且引入了隨機量，使得還原原始資料極其困難，並且能得到與採用原始資料相一致的挖掘結果，避免了資訊失真。　　上述對本說明書特定實施例進行了描述。其它實施例在所附申請專利範圍的範圍內。在一些情況下，在申請專利範圍中記載的動作或步驟可以按照不同於實施例中的順序來執行並且仍然可以實現期望的結果。另外，在附圖中描繪的過程不一定要求示出的特定順序或者連續順序才能實現期望的結果。在某些實施方式中，多任務處理和並行處理也是可以的或者可能是有利的。　　在本說明書的一個應用示例中，資料提供方委託資料挖掘方進行分類規則的資料挖掘，資料挖掘方以二分類線性模型為基礎來構建資料分類規則。資料提供方的原始資料，其中（即為d維向量），（即輸出標記值的取值為-1或1）。由於資料提供方的原始資料中包含用戶的敏感資訊，需要進行隱私保護。　　能夠提供隱私保護的分類資料挖掘流程如圖3所示。　　步驟310，獲取原始資料的m個樣本。　　步驟320，採用原始資料計算n個Rado（Rademacher Observations，拉德馬赫觀察資料）。每個Rado為一個d維向量，記為，是本應用示例中的轉換向量。　　每個Rado的計算方法如下：生成m為向量，每一維的取值為-1或者1，隨機確定；根據式10確定對應於該的Rado：式10 　　以下舉例說明：假設原始資料共5個樣本，原始向量的維度m=4，原始資料如表1所示：表1 　　設在生成一個Rado時，向量的隨機值為，根據式10計算的各個維度值：　　第1維：第2維：第3維：第4維：可以得到一個Rado為。　　隨機生成n個向量，即可得到n個Rado。　　步驟310和320運行在資料提供方控制的設備或邏輯節點上。資料提供方將生成n個Rado作為待挖掘的資料，提供給資料挖掘方。　　步驟330，採用Boosting算法，以n個Rado為訓練樣本，對二分類線性模型進行訓練，得到結果模型。　　步驟330運行在資料提供方控制的設備或邏輯節點上。資料提供方根據訓練所得的二分類線性結果模型，生成多分類規則，交付給資料提供方。將數個二分類線性結果模型轉換為多分類規則的方式可參照現有技術實現，不再贅述。　　與上述流程實現對應，本說明書的實施例還提供了一種基於隱私保護的訓練樣本生成裝置、和一種基於隱私保護的二分類模型訓練裝置。上述裝置均可以透過軟體實現，也可以透過硬體或者軟硬體結合的方式實現。以軟體實現為例，作為邏輯意義上的裝置，是所在設備的CPU（Central Process Unit，中央處理器）將對應的電腦程式指令讀取到內存記憶體中運行形成的。從硬體層面而言，除了圖4所示的CPU、內存記憶體以及儲存器之外，上述裝置所在的設備通常還包括用於進行無線信號收發的晶片等其他硬體，和/或用於實現網路通信功能的板卡等其他硬體。　　圖5所示為本說明書實施例提供的一種基於隱私保護的訓練樣本生成裝置，被挖掘的原始資料包括m個原始樣本，每個原始樣本包括d維的原始向量和輸出標記值，m、d為自然數，所述裝置包括轉換向量生成單元和訓練樣本生成單元，其中：轉換向量生成單元用於生成n個d維的轉換向量，每個轉換向量由隨機選取的若干個原始樣本的之和確定；訓練樣本生成單元用於將所述n個轉換向量作為二分類模型的訓練樣本。　　可選的，所述的取值為-v或v，v為實數；所述轉換向量生成單元具體用於：生成一個m維向量，隨機將-v或v作為每一維的取值，將作為一個轉換向量，為第i個原始樣本的輸出標記值，為第i個原始樣本的原始向量，為向量的第i維；重複上述過程n次得到n個轉換向量。　　可選的，所述轉換向量生成單元具體用於：生成一個m維向量，隨機將0或者1作為每一維的取值，將作為一個轉換向量，為向量的第i維，為第i個原始樣本的輸出標記值，為第i個原始樣本的原始向量；重複上述過程n次得到n個轉換向量。　　圖6所示為本說明書實施例提供的一種基於隱私保護的二分類模型訓練裝置，包括訓練樣本獲取單元和模型訓練單元，其中：訓練樣本獲取單元用於獲取n個d維的轉換向量作為訓練樣本；每個所述轉換向量由隨機選取的若干個原始樣本的之和確定，所述原始樣本為原始資料的m個樣本之一，每個原始樣本包括d維的原始向量和輸出標記值，m、d為自然數，模型訓練單元用於基於所述訓練樣本，二分類模型進行訓練，得到結果模型。　　可選的，所述二分類模型包括：增強Boosting算法、隨機梯度下降SGD算法、隨機方差減小梯度SVRG算法、或自適應梯度Adagrad算法。　　本說明書的實施例提供了一種電腦設備，該電腦設備包括儲存器和處理器。其中，儲存器上儲存有能夠由處理器運行的電腦程式；處理器在運行儲存的電腦程式時，執行本說明書實施例中基於隱私保護的訓練樣本生成方法的各個步驟。對基於隱私保護的訓練樣本生成方法的各個步驟的詳細描述請參見之前的內容，不再重複。　　本說明書的實施例提供了一種電腦設備，該電腦設備包括儲存器和處理器。其中，儲存器上儲存有能夠由處理器運行的電腦程式；處理器在運行儲存的電腦程式時，執行本說明書實施例中基於隱私保護的二分類模型訓練方法的各個步驟。對基於隱私保護的二分類模型訓練方法的各個步驟的詳細描述請參見之前的內容，不再重複。　　本說明書的實施例提供了一種電腦可讀儲存媒體，該儲存媒體上儲存有電腦程式，這些電腦程式在被處理器運行時，執行本說明書實施例中基於隱私保護的訓練樣本生成方法的各個步驟。對基於隱私保護的訓練樣本生成方法的各個步驟的詳細描述請參見之前的內容，不再重複。　　本說明書的實施例提供了一種電腦可讀儲存媒體，該儲存媒體上儲存有電腦程式，這些電腦程式在被處理器運行時，執行本說明書實施例中基於隱私保護的二分類模型訓練方法的各個步驟。對基於隱私保護的二分類模型訓練方法的各個步驟的詳細描述請參見之前的內容，不再重複。　　以上所述僅為本說明書的較佳實施例而已，並不用以限制本申請，凡在本申請的精神和原則之內，所做的任何修改、等同替換、改進等，均應包含在本申請保護的範圍之內。　　在一個典型的配置中，計算設備包括一個或多個處理器（CPU）、輸入/輸出介面、網路介面和內存記憶體。　　內存記憶體可能包括電腦可讀媒體中的非永久性儲存器，隨機存取儲存器（RAM）和/或非揮發性內存記憶體等形式，如只讀儲存器（ROM）或快閃內存記憶體（flash RAM）。內存記憶體是電腦可讀媒體的示例。　　電腦可讀媒體包括永久性和非永久性、可移動和非可移動媒體可以由任何方法或技術來實現資訊儲存。資訊可以是電腦可讀指令、資料結構、程式的模組或其他資料。電腦的儲存媒體的例子包括，但不限於相變記憶體（PRAM）、靜態隨機存取記憶體（SRAM）、動態隨機存取記憶體（DRAM）、其他類型的隨機存取記憶體（RAM）、唯讀記憶體（ROM）、電可擦除可編程唯讀記憶體（EEPROM）、快閃記憶體或其他內存記憶體技術、唯讀光碟唯讀記憶體（CD-ROM）、數位多功能光碟（DVD）或其他光學儲存、磁盒式磁帶，磁帶磁磁碟儲存或其他磁性儲存設備或任何其他非傳輸媒體，可用於儲存可以被計算設備存取的資訊。按照本文中的界定，電腦可讀媒體不包括暫存電腦可讀媒體（transitory media），如調變的資料信號和載波。　　還需要說明的是，術語“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含，從而使得包括一系列要素的過程、方法、商品或者設備不僅包括那些要素，而且還包括沒有明確列出的其他要素，或者是還包括為這種過程、方法、商品或者設備所固有的要素。在沒有更多限制的情況下，由語句“包括一個……”限定的要素，並不排除在包括所述要素的過程、方法、商品或者設備中還存在另外的相同要素。　　本領域技術人員應明白，本說明書的實施例可提供為方法、系統或電腦程式產品。因此，本說明書的實施例可採用完全硬體實施例、完全軟體實施例或結合軟體和硬體態樣的實施例的形式。而且，本說明書的實施例可採用在一個或多個其中包含有電腦可用程式代碼的電腦可用儲存媒體（包括但不限於磁碟儲存器、CD-ROM、光學儲存器等）上實施的電腦程式產品的形式。

圖1是本說明書實施例中一種應用基於隱私保護的訓練樣本生成方法的流程圖；　　圖2是本說明書實施例中一種基於隱私保護的二分類模型訓練方法的流程圖；　　圖3是本說明書應用示例中一種資料挖掘過程的流程示意圖；　　圖4是運行本說明書實施例的設備的一種硬體結構圖；　　圖5是本說明書實施例中一種基於隱私保護的訓練樣本生成裝置的邏輯結構圖；　　圖6是本說明書實施例中一種基於隱私保護的模型訓練裝置的邏輯結構圖。

Claims

一種基於隱私保護的訓練樣本生成方法，被挖掘的原始資料包括m個原始樣本，每個原始樣本包括d維的原始向量和輸出標記值，m、d為自然數，該方法包括：　　生成n個d維的轉換向量，每個轉換向量由隨機選取的若干個原始樣本的之和確定；　　將該n個轉換向量作為二分類模型的訓練樣本。
根據申請專利範圍第1項所述的方法，該的取值為-v或v，v為實數；　　該生成n個d維的轉換向量，每個轉換向量由隨機選取的若干個原始樣本的之和確定，包括：生成一個m維向量，隨機將-v或v作為每一維的取值，將作為一個轉換向量，為第i個原始樣本的輸出標記值，為第i個原始樣本的原始向量，為向量的第i維；重複上述過程n次得到n個轉換向量。
根據申請專利範圍第1項所述的方法，該生成n個d維的轉換向量，每個轉換向量由隨機選取的若干個原始樣本的之和確定，包括：生成一個m維向量，隨機將0或者1作為每一維的取值，將作為一個轉換向量，為向量的第i維，為第i個原始樣本的輸出標記值，為第i個原始樣本的原始向量；重複上述過程n次得到n個轉換向量。
一種基於隱私保護的二分類模型訓練方法，包括：　　獲取n個d維的轉換向量作為訓練樣本；每個該轉換向量由隨機選取的若干個原始樣本的之和確定，該原始樣本為原始資料的m個樣本之一，每個原始樣本包括d維的原始向量和輸出標記值，m、d為自然數，　　基於該訓練樣本，對二分類模型進行訓練，得到結果模型。
根據申請專利範圍第4項所述的方法，該二分類模型包括：增強Boosting算法、隨機梯度下降SGD算法、隨機方差減小梯度SVRG算法、或自適應梯度Adagrad算法。
一種基於隱私保護的訓練樣本生成裝置，被挖掘的原始資料包括m個原始樣本，每個原始樣本包括d維的原始向量和輸出標記值，m、d為自然數，該裝置包括：　　轉換向量生成單元，用於生成n個d維的轉換向量，每個轉換向量由隨機選取的若干個原始樣本的之和確定；　　訓練樣本生成單元，用於將該n個轉換向量作為二分類模型的訓練樣本。
根據申請專利範圍第6項所述的裝置，該的取值為-v或v，v為實數；　　該轉換向量生成單元具體用於：生成一個m維向量，隨機將-v或v作為每一維的取值，將作為一個轉換向量，為第i個原始樣本的輸出標記值，為第i個原始樣本的原始向量，為向量的第i維；重複上述過程n次得到n個轉換向量。
根據申請專利範圍第6項所述的裝置，該轉換向量生成單元具體用於：生成一個m維向量，隨機將0或者1作為每一維的取值，將作為一個轉換向量，為向量的第i維，為第i個原始樣本的輸出標記值，為第i個原始樣本的原始向量；重複上述過程n次得到n個轉換向量。
一種基於隱私保護的二分類模型訓練裝置，包括：　　訓練樣本獲取單元，用於獲取n個d維的轉換向量作為訓練樣本；每個該轉換向量由隨機選取的若干個原始樣本的之和確定，該原始樣本為原始資料的m個樣本之一，每個原始樣本包括d維的原始向量和輸出標記值，m、d為自然數，　　模型訓練單元，用於基於該訓練樣本，對二分類模型進行訓練，得到結果模型。
根據申請專利範圍第8項所述的裝置，該二分類模型包括：增強Boosting算法、隨機梯度下降SGD算法、隨機方差減小梯度SVRG算法、或自適應梯度Adagrad算法。
一種電腦設備，包括：儲存器和處理器；該儲存器上儲存有可由處理器運行的電腦程式；該處理器運行該電腦程式時，執行如申請專利範圍第1到3項任意一項所述的步驟。
一種電腦設備，包括：儲存器和處理器；該儲存器上儲存有可由處理器運行的電腦程式；該處理器運行該電腦程式時，執行如申請專利範圍第4到5項任意一項所述的步驟。
一種電腦可讀儲存媒體，其上儲存有電腦程式，該電腦程式被處理器運行時，執行如申請專利範圍第1到3項任意一項所述的步驟。
一種電腦可讀儲存媒體，其上儲存有電腦程式，該電腦程式被處理器運行時，執行如申請專利範圍第4到5項任意一項所述的步驟。