TWI712981B

TWI712981B - 風險辨識模型訓練方法、裝置及伺服器

Info

Publication number: TWI712981B
Application number: TW108134795A
Authority: TW
Inventors: 程羽; 劉騰飛; 劉曉韻; 陸遜; 弢陳; 楊洋; 徐軼
Original assignee: 開曼群島商創新先進技術有限公司
Priority date: 2018-12-13
Filing date: 2019-09-26
Publication date: 2020-12-11
Also published as: EP3819835A1; CN110009174A; WO2020119272A1; EP3819835A4; US20210166140A1; CN110009174B; TW202022769A; SG11202100953WA

Abstract

本說明書實施例提供了一種風險辨識模型訓練方法，由於不同類型的無監督機器學習算法對特徵的要求不同，所以，可以首先確定目標無監督機器學習算法的所屬類型，再從輸入資訊中抽取各類的特徵資訊，再按與所屬類型對應的特徵提取方式從特徵資訊中提取目標特徵資訊。由於提取出適配於該目標無監督機器學習算法的目標特徵資訊，所以，基於目標無監督機器學習算法對該目標特徵資訊進行訓練，獲得的與目標無監督機器學習算法對應的目標風險辨識模型的辨識精度會更高，確保了風險辨識的準確性。

Description

風險辨識模型訓練方法、裝置及伺服器

本說明書實施例涉及網際網路技術領域，尤其涉及一種風險辨識模型訓練方法、裝置及伺服器。

隨著網際網路的快速發展，越來越多的業務可以透過網路實現，如線上支付、線上購物、線上轉帳等網際網路業務。網際網路在給人們生活提供便利的同時，也帶來了風險。有一類風險主要是用戶透過自己的帳戶以套取非法利益為目的進行的交易，這些交易本身因非實際購買為目的因此常具有虛假性，把此類風險稱為虛假交易風險。對虛假交易的辨識是資金安全保障的重要組成部分和基石，但此類風險通常難以獲取壞人的歷史交易標籤，因此對虛假交易的辨識屬無監督機器學習問題。如何透過無監督機器學習算法訓練得到辨識精度較高的虛假交易的風險辨識模型是風險決策的關鍵。

本說明書實施例提供及一種風險辨識模型訓練方法、裝置及伺服器。

第一方面，本說明書實施例提供一種風險辨識模型訓練方法，包括：確定目標無監督機器學習算法的所屬類型；從輸入資訊中抽取特徵資訊，按與所述所屬類型對應的特徵提取方式從所述特徵資訊中提取目標特徵資訊；基於所述目標特徵資訊，採用所述目標無監督機器學習算法對風險辨識模型進行訓練，得到與所述目標無監督機器學習算法對應的目標風險辨識模型。

第二方面，本說明書實施例提供一種風險辨識方法，包括：根據第一方面所述的方法訓練得到與多個目標無監督機器學習算法對應的多個目標風險辨識模型，從所述多個目標風險辨識模型中確定辨識精度滿足預設條件的第一風險辨識模型，基於所述第一風險辨識模型對新進樣本進行風險辨識，獲得風險辨識結果。

第三方面，本說明書實施例提供一種風險辨識模型訓練裝置，包括：確定單元，用於確定目標無監督機器學習算法的所屬類型；特徵提取單元，用於從輸入資訊中抽取特徵資訊，按與所述所屬類型對應的特徵提取方式從所述特徵資訊中提取目標特徵資訊；訓練單元，用於基於所述目標特徵資訊，採用所述目標無監督機器學習算法對風險辨識模型進行訓練，得到與所述目標無監督機器學習算法對應的目標風險辨識模型。

第四方面，本說明書實施例提供一種伺服器，包括儲存器、處理器及儲存在儲存器上並可在處理器上運行的電腦程式，所述處理器執行所述程式時實現上述任一項所述風險辨識模型訓練方法的步驟。

第五方面，本說明書實施例提供一種電腦可讀儲存媒體，其上儲存有電腦程式，該程式被處理器執行時實現上述任一項所述風險辨識模型訓練方法的步驟。

本說明書實施例有益效果如下：本說明書實施例中，由於不同類型的無監督機器學習算法對特徵的要求不同，所以，可以首先確定目標無監督機器學習算法的所屬類型，再從輸入資訊中抽取各類的特徵資訊，再按與所屬類型對應的特徵提取方式從特徵資訊中提取目標特徵資訊。由於提取出適配於該目標無監督機器學習算法的目標特徵資訊，所以，將目標特徵作為訓練樣本，採用目標無監督機器學習算法對目標風險辨識模型進行訓練，得到的目標風險辨識模型的辨識精度會更高，確保了風險辨識的準確性。並且，在風險辨識領域，實現針對特定類型的無監督機器學習算法的自動模型特徵處理以及風險辨識建模。可將透過自動的方式廣泛建設風險辨識模型，提升對單個模型和方案局限的改進。

100:終端

200:伺服器

S201:步驟

S202:步驟

S203:步驟

301:確定單元

302:特徵提取單元

303:訓練單元

400:匯流排

401:接收器

402:處理器

403:發送器

404:儲存器

406:匯流排介面

[圖1]為本說明書實施例風險辨識模型訓練的應用場景示意圖； [圖2]為本說明書實施例第一方面風險辨識模型訓練方法流程圖；[圖3]為本說明書實施例第二方面風險辨識模型訓練裝置結構示意圖；[圖4]為本說明書實施例第三方面風險辨識模型訓練對應的伺服器結構示意圖。

為了更好的理解上述技術方案，下面透過圖式以及具體實施例對本說明書實施例的技術方案做詳細的說明，應當理解本說明書實施例以及實施例中的具體特徵是對本說明書實施例技術方案的詳細的說明，而不是對本說明書技術方案的限定，在不衝突的情況下，本說明書實施例以及實施例中的技術特徵可以相互組合。

請參見圖1，為本說明書實施例的風險辨識模型訓練應用場景示意圖。終端100位於用戶側，與網路側的伺服器200通訊。用戶可透過終端100中的APP或網站產生的交易資訊以及與該交易對應的各類資訊。伺服器200收集各個終端產生的交易資訊以及各類資訊，並據此實施本實施例中風險辨識模型訓練方法。本實施例可應用於風險辨識場景，如：反套現攔截場景、虛假交易辨識場景等。

第一方面，本說明書實施例提供一種風險辨識模型訓練方法，請參考圖2，包括步驟S201-S204。

S201：確定目標無監督機器學習算法的所屬類型； S202：從輸入資訊中抽取特徵資訊，按與所屬類型對應的特徵提取方式從特徵資訊中提取目標特徵資訊；S203：基於目標特徵資訊，採用目標無監督機器學習算法對風險辨識模型進行訓練，得到與目標無監督機器學習算法對應的目標風險辨識模型。

其中，輸入資訊包括用戶畫像資訊、歷史交易資訊、設備媒體資訊、地理位置資訊、通訊錄資訊和外部資訊中任意一種或多種組合。

具體的，本實施例中方法，主要應用於虛假交易、反套現交易的風險辨識等場景。比如：在無線支付領域，有一類風險主要是用戶透過自己的帳戶以套取非法利益為目的進行的交易，這些交易本身因非實際購買為目的因此常具有虛假性，此類風險稱為虛假交易風險。比如，用戶為套取支付平臺的人傳人獎勵資源，而進行了一筆交易，當資源到手後，再勾結商家把交易部分金額款項轉給用戶本人。這樣的虛假交易行為極大地傷害了支付平臺的利益。對虛假交易的辨識是資金安全保障的重要組成部分和基石，但此類風險通常難以獲取壞人的歷史交易標籤。因此，對虛假交易的辨識屬無監督機器學習問題。

無監督機器學習一直以來是機器學習以及風險控制領域的難點。本實施例主要以針對虛假交易的辨識的場景為例，對本實施例中的方法進行詳細闡述說明。不同於傳統的無監督機器學習，本實施例將虛假交易的辨識抽象成為異常檢測問題，並且從資料層面、特徵處理層面以及模型選擇層面進行模組設計和自動建模方法構建，針對不同類型的具體問題和資料進行自動的解決方案匹配和模型產出應用。

進一步，常用的無監督機器學習算法有很多，本實施例中的方法，針對常用的無監督機器學習算法進行了歸類，並針對不同的類型選擇特徵處理的方法。首先，本實施例中的方法，可以透過不同類型的無監督機器學習算法訓練得到多個風險辨識模型。假設對應有無監督機器學習算法A，屬類型1、無監督機器學習算法B，屬類型2、無監督機器學習算法C，屬類型3。伺服器可以採用上述每個無監督機器學習算法分別進行訓練，得到與之對應的風險辨識模型。

具體的，在進行風險辨識模型訓練時，首先透過步驟S201確定目標無監督機器學習算法的所屬類型。比如：採用無監督機器學習算法C進行模型訓練時，確定出無監督機器學習算法C的所屬類型為類型3。

進一步，在本實施例中，伺服器維護了各個用戶產生的交易資訊，並可透過用戶授權方式獲得產生交易的各個終端的設備資訊，伺服器可獲得多維度的輸入資訊，主要包含了各種資料表和歷史資訊。在本實施例中，主要輸入資訊類型列舉如下：全量的用戶畫像資訊，包括用戶的基本屬性，如用戶年齡、性別、職業、愛好等，以及綜合評價類指標，如：用戶的帳戶安全等級、垃圾註冊風險評分、作弊風險評分等。這些畫像資訊資料從用戶的基本資訊到帳戶風險進行刻畫，綜合評分類畫像主要來自一些風險控制系統、或者營銷體系內對帳戶的評價和刻畫。

歷史交易資訊，主要指用戶歷史上的交易行為，主要也可以分為兩類，一類是用戶歷史一段時間內的交易明細，包括交易的時間、金額、收款方、交易設備和IP等。另一類是匯總資料，比如用戶歷史上一段時間內的交易次數、交易累計金額等。

設備媒體資訊，主要對於設備的屬性及綜合評分的刻畫，比如：某一個設備的啟用時間，設備在歷史上登錄帳戶數等。另外也包括一些風險控制對設備的評價綜合打分情況，比如：一個設備上是否發生過盜用，以及一個設備歷史上做虛假交易的情況等。

地理位置資訊，主要包含了各種位置資料，包含了交易的地址，交易對應的門市或者商家的地址，同時也有針對各種風險的各地聚集性的風險資料。

通訊錄資訊，包含用戶的手機號碼和手機通訊錄兩部分。手機號碼資料是對每一個手機號的畫像，包含了這個手機號碼作為帳號使用時的各種自然人資訊及帳戶風險資訊。另一部分是透過該手機號對應的通訊錄刻畫該帳號與其他帳號直接的關係，如親密程度，或透過其他手機號在通訊錄中對該帳號的描述反推帳號背後自然人的性質及特徵。

外部資訊，主要指一個體系或系統內無法直接獲得的資料，比如：對金融支付平臺來說，帳戶對應自然人在銀行的流水、借貸信用等資訊，在其他行動支付端的支付資訊等，這些對於金融平臺來說都是非常重要的增益。

上述輸入資訊中涉及用戶隱私的輸入資訊，如通訊錄資訊、設備媒體資訊、地理位置資訊、外部資訊等，可透過用戶授權方式獲得。在具體實施過程中，輸入資訊可根據實際場景的需要進行設定，在此，本申請不做限制。

進一步，本實施例中，可透過步驟S202，根據輸入資訊自動生成各個類型的特徵。特徵資訊自動生成目的是生成大量的特徵作為備選入模變量，主要對特徵類型的豐富程度進行擴展和衍生。在本實施例中，特徵資訊的類型大致分為了頻次特徵、位置特徵、圖特徵以及序列特徵幾大類，主要透過資料層中不同的資料類型進行自動生成。

頻次類特徵資訊：例如從上述的輸入資訊中可統計出用戶過去一段時間內的登錄次數，交易天數。該類特徵資訊主要基於不同資料主體進行不同時間窗口以及累計函數的組合遍歷。比如：頻次類特徵主要由三個部分組成。

1)主體：主要是輸入資料的維度，包括用戶維度、設備維度、環境維度、位置維度、通訊標識維度等。

2)累計窗口：通常情況下選取幾個代表著短期、中期和長期的不同時間長度，如1小時、1天、7天、30天。

3)累計函數：主要指做何種操作，比如次數、天數、最大值、最小值、求和等。因此，可以透過以上組合自動生成大量特徵變量。

位置類特徵資訊：針對歷史交易資訊和地理位置資訊，可提取主要包括了交易的地理座標、商家的座標、交易所在城市地區等特徵。

圖特徵：具體的，可以根據上述輸入資訊中的歷史交易資訊，以買賣家為節點(頂點)，買賣家之間的交易為邊可以構建交易圖，圖中的資訊可以用來構建變量特徵，大致可分為兩類：

1)直接對圖中節點或邊的資訊進行特徵刻畫，比如：當前買家(用戶)交易的商家數，賣家交易的買家個數。

2)根據一些社區發現算法對圖中聚集性進行發掘，然後對具有聚集性的子圖構建類似如上的圖特徵。典型的特徵舉例，如：買家在子圖中的交易占該買家所有交易筆數的比例，此特徵可以用來反映一些團夥特徵。

行為序列特徵資訊：主要用來刻畫用戶的行為特徵，主要分成兩類：

1)對不同的行為類型進行頻次類統計，比如對每一種點擊行為進行次數統計。

2)對序列進行基於深度學習的嵌入embedding，將每一個行為序列透過一個向量來進行表達，比如透過長短期記憶網路(long short term memory，LSTM)將一個行為序列變成一個n維向量，該向量對應為n維特徵。

上述生成的各類特徵資訊均可以作為各個無監督機器學習算法的候選特徵。本實施例中，由於不同類型的無監督機器學習算法需要抽取的特徵資訊不同。特徵的選擇、變換和無監督機器學習算法的類型有關。因此，需要透過步驟S202，針對不同類型的無監督機器學習算法，從前述不同類型的特徵資訊中提取出適配於該算法的特徵資訊。

進一步，在異常交易辨識場景中，無監督異常檢測模型主要用來辨識樣本中與其他絕大多數不同的個體。比如：在虛假交易辨識中，可以認為絕大多數的交易都是真實的合法的，僅有一小部分人在嘗試做虛假的交易行為。本實施例中，對於異常檢測，採用的無監督機器學習算法常用的類型包括基於樹的類型和基於距離的類型，下面針對這兩種類型的無監督機器學習算法的特徵資訊提取方式進行詳細說明。

第一種，基於樹的無監督機器學習類型。目標特徵資訊提取方式可以是：確定每個特徵資訊的關鍵績效指標值；基於每個特徵資訊的關鍵績效指標值，按預設策略從特徵資訊中提取目標特徵資訊。

具體的，在本實施例中，以異常交易辨識場景為例，需要採用基於樹類型的無監督機器學習算法對目標特徵資訊進行訓練，得到異常交易辨識模型(即：目標風險辨識模型)。這類算法包括：Isolation Forest(孤立森林)算法，基於樹類型無監督機器學習算法對特徵資訊的分佈有較高的要求，一方面是希望特徵具有比較強的可解釋性，另一方面對“少量即是異常”有較高要求。比如：絕大多數的正常用戶單日的交易筆數都在10筆以內，那麼單日交易數超過10筆的人會很少，但這少部分人就屬異常的範疇。因此以“用戶單日交易筆數”為特徵，滿足少部分分佈(大於10筆)的即為異常。

所以，在本實施例中，針對每個特徵資訊，可以確定每個特徵資訊的關鍵績效指標值(KPI)，該關鍵績效指標值包括峰度值及/或分散度值。按每個特徵資訊的KPI，可以按預設策略從前述的多類型的特徵資訊中提取與基於樹的無監督機器學習類型對應的目標特徵資訊。

然後，可以將關鍵績效指標值與預設績效指標值的關係滿足預設關係的特徵資訊作為目標特徵資訊；或基於每個特徵資訊的關鍵績效指標值，按預設方式對特徵資訊進行排序，將排在前預設數值的特徵資訊作為目標特徵資訊。

具體的，特徵資訊的峰度值可以反應該特徵資訊的集中性，峰度值越大，表明該特徵資訊越集中。對於基於樹型的無監督機器學習算法，需要選取具有集中性的特徵入模進行訓練。所以，可以將KPI設定為峰度值，可以獲得每個特徵資訊的峰度，對於具有n個值的特徵資訊，該特徵樣本的峰度值為：

。其中，m4是四階樣本中心矩，m2是二階中心矩(即使樣本標準差)，xi是第i個值，

是n個值的平均值。

然後，根據每個特徵資訊的峰度值，進行特徵選擇，選擇出與基於樹類型的無監督機器學習算法對應的目標特徵。從大量的已有特徵中選擇最合適的一部分入模。自動進行特徵選擇的核心在於根據模型對異常的定義，根據峰度值選擇合適的目標特徵資訊。因此，會遍歷所有的特徵資訊，根據特徵資訊的峰度值由大致小的順序，對特徵資訊進行排序，選擇前M個特徵資訊作為目標特徵資訊入模。在具體實施過程中，M的數值可根據經驗值進行設定，也可經多次試驗後確定出的匹配值，在此，本申請不做限制。

當然，還可以設定一個預設峰度值，當特徵資訊的峰度值大於預設峰度值，將其作為目標特徵。在具體實施過程中，預設峰度值可根據實際需要進行設定，在此，本申請不做限制。

具體的，特徵資訊的分散度值可以反應該特徵資訊的集中性，分散度值越小，表明該特徵資訊越集中。對於基於樹型的無監督機器學習算法，需要選取具有集中性的特徵入模進行訓練。所以，可以將KPI設定為分散度值，可以獲得每個特徵資訊的分散度度。

然後，根據每個特徵資訊的分散度值，進行特徵選擇，選擇出與基於樹類型的無監督機器學習算法對應的目標特徵。從大量的已有特徵中選擇最合適的一部分入模。自動進行特徵選擇的核心在於根據模型對異常的定義，根據分散度值選擇合適的目標特徵資訊。因此，會遍歷所有的特徵資訊，根據特徵資訊的峰度值由小致大的順序，對特徵資訊進行排序，選擇前K個特徵資訊作為目標特徵資訊入模。在具體實施過程中，K的數值可根據經驗值進行設定，也可經多次試驗後確定出的匹配值，在此，本申請不做限制。

當然，還可以設定一個預設分散度值，當特徵資訊的峰度值小於預設峰度值，將其作為目標特徵。在具體實施過程中，預設分散度值可根據實際需要進行設定，在此，本申請不做限制。

第二種，基於距離的無監督機器學習類型。目標特徵資訊提取方式可以是：對特徵資訊進行降維變換，獲得目標特徵資訊。

具體的，在本實施例中，對於基於距離的無監督機器學習類型，比如：鄰近算法KNN、基於鏈接的離群點檢測算法COF。這類無監督機器學習算法對於高維資料效果不好。比如像計算用戶之間的相似度把相似的歸結為一類。在距離計算中，非常重要的一部分就是特徵的維度，一般情況下，對於高維(特徵數多)的情況距離計算難以準確、效果不佳。所以，在針對這類的無監督機器學習算法，需要對特徵資訊進行降維變換，得到降維後的目標特徵資訊。在具體實施過程中，降維的方法很多，簡單的比如主成分分析方法PCA，專門針對異常檢測辨識的變換方法，如離群點檢測的降維方法DROD(Dimensionality Reduction for Outerlier Detection)等。在具體實施過程中，採用的降維方法可根據實際需要進行選擇，在此，本申請不做限制。

當然，在具體實施過程中，可設置多類的無監督機器學習算法，每類的無監督機器學習算法均對應有適配於該類算法的特徵提取方式，提取出最適配於該類型的無監督機器學習算法的目標特徵資訊。

進而，針對目標無監督機器學習算法，按與之對應的特徵提取方式提取出目標特徵資訊後，採用步驟S203，基於目標無監督機器學習算法對目標特徵資訊進行訓練，獲得與所屬類型對應的目標風險辨識模型。

透過這樣的方式，可獲得多個目標無監督機器學習算法對應的目標風險辨識模型。最後，從多個目標風險辨識模型中確定辨識精度滿足預設條件的第一風險辨識模型，基於第一風險辨識模型對新進樣本進行風險辨識，獲得風險辨識結果。

具體的，在本實施例中，可以針對不同類型的無監督機器學習算法，提取出與之適配的目標特徵資訊，然後將目標特徵資訊作為目標無監督機器學習算法的訓練樣本，進行模型訓練後，得到最終的目標風險辨識模型。

舉例而言，假設對應有無監督機器學習算法A，屬類型1、無監督機器學習算法B，屬類型2、無監督機器學習算法C，屬類型3。針對無監督機器學習算法A，提取與類型1對應的目標特徵資訊1，採用無監督機器學習算法A對目標特徵資訊1進行訓練後得到目標風險辨識模型1。同理，針對無監督機器學習算法B，提取與類型2對應的目標特徵資訊2，採用無監督機器學習算法B對目標特徵資訊1進行訓練後得到目標風險辨識模型2。同理，針對無監督機器學習算法C，提取與類型3對應的目標特徵資訊3，採用無監督機器學習算法C對目標特徵資訊3進行訓練後得到目標風險辨識模型3。

針對目標風險辨識模型1、目標風險辨識模型2、目標風險辨識模型3，可以採用已知屬性的樣本對其進行精度驗證，獲得每個目標風險辨識模型的辨識精度，從中挑選出辨識精度最高的目標風險辨識模型，假設為目標風險辨識模型3，採用目標風險辨識模型3對新進樣本進行風險辨識。

進一步，在本實施例中，可按預設時間間隔(如1個月、2個月等)對目標風險辨識模型的精度進行驗證，如果目標風險辨識模型的精度下降較多，模型退化較多，可重新訓練得到目標風險辨識模型，以確保風險辨識的準確性。

這樣，透過本實施例中的方法，可以透過確定目標無監督機器學習算法的所屬類型，按與該目標無監督機器學習算法的所屬類型對應的特徵提取方式從特徵資訊中提取目標特徵資訊。由於提取出適配於該目標無監督機器學習算法的特徵資訊，所以，最後基於目標無監督機器學習算法對目標特徵資訊進行訓練，獲得的與所屬類型對應的目標風險辨識模型的辨識精度會更高。並且，由於本實施例中訓練了多種類型對應的目標風險辨識模型，最後挑選出辨識精度最高的目標風險辨識模型對新進樣本進行辨識，可以進一步確保風險辨識的準確性，也保障了根據風險辨識結果做出相關的風險決策的穩定性。

第二方面，基於同一發明構思，本說明書第二實施例提供一種風險辨識模型訓練裝置，請參考圖3，包括：確定單元301，用於確定目標無監督機器學習算法的所屬類型；特徵提取單元302，用於從輸入資訊中抽取特徵資訊，按與所屬類型對應的特徵提取方式從特徵資訊中提取目標特徵資訊；訓練單元303，用於基於目標特徵資訊，採用目標無監督機器學習算法對風險辨識模型進行訓練，得到與目標無監督機器學習算法對應的目標風險辨識模型。

在一種可選實現方式中，特徵提取單元302具體用於：如果所屬類型為基於樹的無監督機器學習類型，確定每個特徵資訊的關鍵績效指標值；基於每個特徵資訊的關鍵績效指標值，按預設策略從特徵資訊中提取目標特徵資訊。

在一種可選實現方式中，特徵提取單元302具體用於：將關鍵績效指標值與預設績效指標值的關係滿足預設關係的特徵資訊作為目標特徵資訊；或基於每個特徵資訊的關鍵績效指標值，按預設方式對特徵資訊進行排序，將排在前預設數值的特徵資訊作為目標特徵資訊。

在一種可選實現方式中，特徵提取單元302具體用於：如果所屬類型為基於距離的無監督機器學習類型，對特徵資訊進行降維變換，獲得目標特徵資訊。

在一種可選實現方式中，輸入資訊包括用戶畫像資訊、歷史交易資訊、設備媒體資訊、地理位置資訊、通訊錄資訊和外部資訊中任意一種或多種組合。

第三方面，基於同一發明構思，本說明書第三實施例提供一種風險辨識裝置，包括：風險辨識單元，用於根據前述第二實施例中的風險辨識模型訓練裝置訓練得到與多個目標無監督機器學習算法對應的多個目標風險辨識模型，從多個目標風險辨識模型中確定辨識精度滿足預設條件的第一風險辨識模型，基於第一風險辨識模型對新進樣本進行風險辨識，獲得風險辨識結果。

第四方面，基於與前述實施例中風險辨識模型訓練方法同樣的發明構思，本發明還提供一種伺服器，如圖4所示，包括儲存器404、處理器402及儲存在儲存器404上並可在處理器402上運行的電腦程式，處理器402執行程式時實現前文風險辨識模型訓練方法和風險辨識方法中的任一方法的步驟。

其中，在圖4中，匯流排架構(用匯流排400來代表)，匯流排400可以包括任意數量的互聯的匯流排和橋，匯流排400將包括由處理器402代表的一個或多個處理器和儲存器404代表的儲存器的各種電路鏈接在一起。匯流排400還可以將諸如外圍設備、穩壓器和功率管理電路等之類的各種其他電路鏈接在一起，這些都是本領域所公知的，因此，本文不再對其進行進一步描述。匯流排介面406在匯流排400和接收器401和發送器403之間提供介面。接收器401和發送器403可以是同一個元件，即收發機，提供用於在傳輸媒體上與各種其他裝置通訊的單元。處理器402負責管理匯流排400和通常的處理，而儲存器404可以被用於儲存處理器402在執行操作時所使用的資料。

第四方面，基於與前述實施例中風險辨識模型訓練方法和風險辨識方法的發明構思，本發明還提供一種電腦可讀儲存媒體，其上儲存有電腦程式，該程式被處理器執行時實現前文風險辨識模型訓練的方法的任一方法的步驟。

本說明書是參照根據本說明書實施例的方法、設備(系統)、和電腦程式產品的流程圖及/或方塊圖來描述的。應理解可由電腦程式指令實現流程圖及/或方塊圖中的每一流程及/或方塊、以及流程圖及/或方塊圖中的流程及/或方塊的結合。可提供這些電腦程式指令到通用電腦、專用電腦、嵌入式處理機或其他可程式化資料處理設備的處理器以產生一個機器，使得透過電腦或其他可程式化資料處理設備的處理器執行的指令產生用於實現在流程圖一個流程或多個流程及/或方塊圖一個方塊或多個方塊中指定的功能的設備。

這些電腦程式指令也可儲存在能引導電腦或其他可程式化資料處理設備以特定方式工作的電腦可讀儲存器中，使得儲存在該電腦可讀儲存器中的指令產生包括指令設備的製造品，該指令設備實現在流程圖一個流程或多個流程及/或方塊圖一個方塊或多個方塊中指定的功能。

這些電腦程式指令也可裝載到電腦或其他可程式化資料處理設備上，使得在電腦或其他可程式化設備上執行一系列操作步驟以產生電腦實現的處理，從而在電腦或其他可程式化設備上執行的指令提供用於實現在流程圖一個流程或多個流程及/或方塊圖一個方塊或多個方塊中指定的功能的步驟。

儘管已描述了本說明書的較佳實施例，但本領域內的技術人員一旦得知了基本進步性概念，則可對這些實施例作出另外的變更和修改。所以，所附請求項意欲解釋為包括較佳實施例以及落入本說明書範圍的所有變更和修改。

顯然，本領域的技術人員可以對本說明書進行各種改動和變形而不脫離本說明書的精神和範圍。這樣，倘若本說明書的這些修改和變形屬本說明書請求項及其等同技術的範圍之內，則本說明書也意圖包含這些改動和變形在內。

Claims

一種風險辨識模型訓練方法，包括：按如下步驟訓練得到與多個目標無監督機器學習算法對應的多個目標風險辨識模型：確定目標無監督機器學習算法的所屬類型；從輸入資訊中抽取特徵資訊，按與所述所屬類型對應的特徵提取方式從所述特徵資訊中提取目標特徵資訊；基於所述目標特徵資訊，採用所述目標無監督機器學習算法對風險辨識模型進行訓練，得到與所述目標無監督機器學習算法對應的目標風險辨識模型；從所述多個目標風險辨識模型中確定辨識精度滿足預設條件的第一風險辨識模型，其中，所述辨識精度為採用已知屬性的樣本對每個目標風險辨識模型進行精度驗證得到的，基於所述第一風險辨識模型對新進樣本進行風險辨識，獲得風險辨識結果，所述風險辨識結果用於表示所述新進樣本是否為虛假交易。
根據請求項1所述的方法，所述輸入資訊包括用戶畫像資訊、歷史交易資訊、設備媒體資訊、地理位置資訊、通訊錄資訊和外部資訊中任意一種或多種組合。
根據請求項2所述的方法，所述特徵資訊包括所述輸入資訊中的頻次類特徵資訊、位置類特徵資訊、圖特徵資訊、行為序列特徵中任意一種或多種組合。
根據請求項1所述的方法，所述按與所述所屬類型對應的特徵提取方式從所述特徵資訊中提取目標特徵資訊，包括：如果所述所屬類型為基於樹的無監督機器學習類型，確定每個特徵資訊的關鍵績效指標值；基於每個特徵資訊的關鍵績效指標值，按預設策略從所述特徵資訊中提取目標特徵資訊。
根據請求項4所述的方法，基於每個特徵資訊的關鍵績效指標值，按預設策略從所述特徵資訊中提取目標特徵資訊，包括：將關鍵績效指標值與預設績效指標值的關係滿足預設關係的特徵資訊作為目標特徵資訊；或基於每個特徵資訊的關鍵績效指標值，按預設方式對特徵資訊進行排序，將排在前預設數值的特徵資訊作為目標特徵資訊。
根據請求項4所述的方法，所述關鍵績效指標值包括峰度值及/或分散度值。
根據請求項1所述的方法，所述按與所述所屬類型對應的特徵提取方式從所述特徵資訊中提取目標特徵資訊，包括：如果所述所屬類型為基於距離的無監督機器學習類型，對所述特徵資訊進行降維變換，獲得目標特徵資訊。
一種風險辨識模型訓練裝置，包括：確定單元，用於確定目標無監督機器學習算法的所屬類型；特徵提取單元，用於從輸入資訊中抽取特徵資訊，按與所述所屬類型對應的特徵提取方式從所述特徵資訊中提取目標特徵資訊；訓練單元，用於基於所述目標特徵資訊，採用所述目標無監督機器學習算法對風險辨識模型進行訓練，得到與所述目標無監督機器學習算法對應的目標風險辨識模型；風險辨識單元，用於透過所述確定單元、所述特徵提取單元、所述訓練單元訓練得到與多個目標無監督機器學習算法對應的多個目標風險辨識模型後，從所述多個目標風險辨識模型中確定辨識精度滿足預設條件的第一風險辨識模型，其中，所述辨識精度為採用已知屬性的樣本對每個目標風險辨識模型進行精度驗證得到的，基於所述第一風險辨識模型對新進樣本進行風險辨識，獲得風險辨識結果，所述風險辨識結果用於表示所述新進樣本是否為虛假交易。
根據請求項8所述的裝置，所述特徵提取單元具體用於：如果所述所屬類型為基於樹的無監督機器學習類型，確定每個特徵資訊的關鍵績效指標值；基於每個特徵資訊的關鍵績效指標值，按預設策略從所述特徵資訊中提取目標特徵資訊。
根據請求項9所述的裝置，所述特徵提取單元具體用於：將關鍵績效指標值與預設績效指標值的關係滿足預設關係的特徵資訊作為目標特徵資訊；或基於每個特徵資訊的關鍵績效指標值，按預設方式對特徵資訊進行排序，將排在前預設數值的特徵資訊作為目標特徵資訊。
根據請求項8所述的裝置，所述特徵提取單元具體用於：如果所述所屬類型為基於距離的無監督機器學習類型，對所述特徵資訊進行降維變換，獲得目標特徵資訊。
一種伺服器，包括儲存器、處理器及儲存在儲存器上並可在處理器上運行的電腦程式，所述處理器執行所述程式時實現請求項1至7中任一項所述方法的步驟。
一種電腦可讀儲存媒體，其上儲存有電腦程式，該程式被處理器執行時實現請求項1至7中任一項所述方法的步驟。