TW201721460A

TW201721460A - 計算方法及計算系統

Info

Publication number: TW201721460A
Application number: TW104140612A
Authority: TW
Inventors: 王俊昌; 林芳妤; 郭士彰
Original assignee: 英業達股份有限公司
Priority date: 2015-12-03
Filing date: 2015-12-03
Publication date: 2017-06-16

Abstract

一種適用於多個輸入資料的計算方法包含將輸入資料拆分為訓練資料與測試資料，將訓練資料個別輸入多個數學模型進行運算獲得運算結果，比對運算結果與測試資料得到相似程度並依據相似程度反覆調整該些數學模型的參數組合，依據相似程度及參數組合於多個數學模型挑選其中一者。

Description

計算方法及計算系統

本揭示文件關於一種計算方法及計算系統，特別是關於基於參數調整進而挑選數學模型的計算方法及計算系統。

現行的百貨及零售商場提供智慧型的商品推薦引擎，該些商品推薦引擎通常是利用後台的資料(例如會員資料、產品資料、交易紀錄等)，運用數學模型演算出顧客及產品相關的相似度資訊，再搭配網路輿情資料及短距離傳輸技術進一步提供使用者推薦的產品。然而，數學模型的種類很多，每一數學模型在不同情形下所演算出的結果也會不同，也就是每一數學模型於不同情況下各有優缺點，所推薦的商品不一定符合使用者的預期。

依據本揭示文件之一實施態樣提出一種適用於多個輸入資料的計算方法包含將輸入資料拆分為訓練資料與測試資料，將訓練資料個別輸入多個數學模型進行運算獲得運算結果，比對運算結果與測試資料得到相似程度並依據相似程度反覆調整該些數學模型的參數組合，依據相似程度及參數組合於多個數學模型挑選其中一者。

依據本揭示文件之另一實施態樣提出一種計算系統包含資料庫、分割單元、處理模組及選擇單元。資料庫用以儲存多個輸入資料，分割單元用以將輸入資料拆分成訓練資料以及測試資料，處理模組包含儲存模組、運算單元以及比對單元。儲存模組用以儲存多個數學模型並將數學模型載入運算單元，運算單元用以將訓練資料個別輸入數學模型進行運算得到運算結果，比對單元用以比對運算結果與測試資料獲得相似程度，依據相似程度反覆調整數學模型的參數，選擇單元用以依據相似程度及參數組合挑選多個數學模型中一者。

第1圖繪示本揭示文件之一實施例的計算系統100的方塊圖。計算系統100包含資料庫110、分割單元120、處理模組130以及選擇單元140。

資料庫110用以儲存多筆的輸入資料，這些輸入資料包含了已存在之產品資料、顧客資料或是交易紀錄。其中產品資料可以是屬於任何類型產品所包含的資料，例如家電用品、書籍、服飾、食品等。顧客資料可以包含顧客的姓名、地址、電子信箱、電話號碼等。交易紀錄可以是顧客曾經所購買產品之類型、購買數量、購買次數或是針對購買過之商品的評價等。

分割單元120用以將多個輸入資料分成訓練資料以及測試資料。於一實施例中，可以將輸入資料切分成80%的訓練資料及20%的測試資料，也可以將輸入資料切分成90%的訓練資料及10%的測試資料。上述分割的比例僅作為舉例說明，本揭示文件所涵蓋的範圍不限定於上述的實施例。

處理模組130包含了儲存單元131、運算單元132以及比對單元133。儲存單元131用以儲存各種不同演算法的數學模型並將該些數學模型載入運算單元132(例如CPU)，其中這些數學模型是用以計算一群集合物件之間的相似度。常見的數學模型例如Euclidean Distance、Pearson correlation、Tanimoto coefficient、log-likelihood ratio、singular value decomposition 、alternating least squares等。

運算單元132用以將訓練資料輸入至數學模型中得到運算結果。舉例來說，每一用戶針對購買過的多個產品給予評分，將這些評分資料其中一部分當成訓練資料輸入數學模型，藉由數學模型進行相似度運算，便可以得到用戶與用戶之間、產品與產品之間的相似度，也就是運算結果。，於一些實施例中，運算單元132可為具有運算能力的裝置，例如中央處理器(CPU)。

比對單元133用以將在運算單元132得到的運算結果比對測試資料得到相似程度。依據相似程度對數學模型的參數反覆地進行調整。也就是說依據相似程度調整參數，基於調整後的新參數進行演算會得到新的運算結果，再將新的運算結果比對測試資料得到新的相似程度，比對單元133持續地以上述手法以自動化的方式調整數學模型的參數直到達到最高的相似程度。

選擇單元140用以依據相似程度及參數組合(也就是調整後的參數)在多個數學模型中挑選出最適合之一者，也就是挑選上述所說達到最高相似程度的參數組合所對應的數學模型。關於如何依據相似程度自動地調整數學模型之參數及挑選最適合之數學模型，將於下列段落中有詳細描述。

請一併參照第2圖，其繪示本揭示文件之一實施例之適用於多個輸入資料IPT之計算方法200的方法流程圖。在步驟S202中，由資料庫110中提取多個輸入資料，如上述所說，輸入資料可以包含產品資料、顧客資料或是交易紀錄等已經存在的歷史資料。

請一併參照第3圖，其繪示本揭示文件之一實施例之輸入資料IPT的示意圖。如第3圖所示，用戶U1~U3針對觀看過的電影I1~I10進行了評分。其中數字代表用戶U1~U3對於電影I1~I10的滿意度評價，數字越大代表滿意度越高，用戶越喜歡該電影，反之，數字越小代表用戶越不喜歡該電影。於實施例中，用戶與用戶之間、產品與產品之間的相似度是透過用戶評分資料進行運算。於其他實施例中，用戶與用戶之間、產品與產品之間的相似度可以透過其他的資料(例如產品資料/類型、客戶基本資料或是歷史交易紀錄等)來進行運算。

在步驟S204中，分割單元120將輸入資料IPT分割成訓練資料與測試資料。於一些實施例，訓練資料與測試資料分割的比例為70%與30% 、80%與20%或是90%與10%等。請一併參照第4圖，其繪示本揭示文件之一實施例之輸入資料IPT分割之示意圖。如第4圖所示，用戶對十部電影I1~I10皆進行了評分並且將評分資料(也就是上述的輸入資料IPT)依比例70%與30%分割成訓練資料TRN與測試資料TST，其中黑色方方框所包含的就是測試資料TST，未被黑色方框所包含的就是訓練資料TRN。要注意的是，針對訓練資料與測試資料分割的比例以及方式，本揭示文件所涵蓋的範圍並不限於上述實施例中。

將輸入資料IPT分割成訓練資料TRN與測試資料TST後，在步驟S206中，運算單元132將訓練資料TRN輸入數學模型中進行運算可以得到運算結果。如上述段落所說，數學模型為目前相關領域中常用的相似度模型，例如Euclidean Distance、Pearson correlation、Tanimoto coefficient等，其中每一種數學模型皆有其可調整之參數。基於這些參數，透過這些模型的運算，進行客戶比對程序或產品比對程序分別可以得到客戶與客戶(於實施例中也就是用戶U1~U3)之間的相似度或是產品與產品(於實施例中也就是電影I1~I10)之間得相似度。

舉例來說，請一併參照第5圖，其繪示本揭示文件之一實施例之運算結果的示意圖，如第5圖所示，將訓練資料TRN(也就是第4圖中未被黑色方框所包含的資料)輸入數學模型M1來運算用戶U1~U3之間的相似度，其中數學模型M1具有可調整之參數P1及P2，數學模型M1基於參數P1及P2經過運算後可以得到運算結果EST1~EST9，也就是說運算結果EST1~EST3所代表的就是經由數學模型M1基於這一些訓練資料推測出用戶U1對電影I3、I6、I9的喜好程度。

同樣地，運算結果EST4~EST6所代表的就是經由數學模型M1基於這一些訓練資料推測出用戶U2對電影I1、I5、I8的喜好程度。運算結果EST7~EST9所代表的就是經由數學模型M1基於這一些訓練資料推測出用戶U3對電影I2、I7、I10的喜好程度。

請一併參照第6圖，其繪示本揭示文件之一實施例之測試資料TST的示意圖。在步驟S208中，比對單元133將運算結果與測試資料進行比對。於實施例中，也就是將第5圖的運算結果EST1~EST9與第6圖的測試資料TST比對得到相似程度。換句話說，運算結果EST1~EST3比對第6圖的用戶U1對電影所做的評分U1：[I3：2，I6：3，I9：5]，運算結果EST4~EST6比對第6圖的用戶U2對電影所做的評分U2：[I1：2，I5：9，I8：7]，運算結果EST7~EST9比對第6圖的用戶U3對電影所做的評分U3：[I2：8，I7：3，I10：9]。

由於數學模型M1基於參數P1及P2所運算出來的運算結果EST1~EST9(也就是第一運算結果)與實際上的測試資料TST之間的相似程度(也就是第一相似程度)低，運算結果EST1~EST9(也就是第一運算結果)與測試資料之間的誤差相當大。也就是說，數學模型M1的初始參數P1及P2的組合並不是最適合此次的輸入資料。

此時在步驟S210中，比對單元133自動地依據第一運算結果與測試資料TST之間的第一相似程度將數學模型所包含的可調整之參數進行調整，基於調整過後的參數(也就是第一參數組合)，再一次進行運算並得到新的運算結果(也就是第二運算結果)，再將第二運算結果與測試資料TST比對可以得到第二相似程度，若第二相似程度仍然很低，此時再一次調整參數，可再一次得到新的參數(也就是第二參數組合)。

於此實施例中，依據運算結果EST1~EST9(也就是第一運算結果)與測試資料TST之間的相似程度(也就是第一相似程度)對數學模型M1的初始參數P1及P2進行適當的調整可以得到第一參數組合，基於該第一參數組合再一次將第4圖的訓練資料TRN輸入數學模型M1得到新的運算結果EST1~EST9(也就是第二運算結果)。比對單元133再將新的運算結果EST1~EST9(也就是第二運算結果)與測試資料TST進行比對進而得到第二相似程度。

倘若將參數P1及P2調整之後，得到的新的運算結果EST1~EST9與測試資料之間的第二相似程度仍然很低，此時比對單元133可以自動地依據上述的第二相似程度，再一次對調整後的參數P1及P2再進行一次的調整。要注意的是，於不同實施例中，調整參數的次數不一定相同。

上述所說基於運算結果EST1~EST9與測試資料TST之間的相似程度反覆進行參數的調整，其實施的方式為一自動化的過程。也就是說，當第一次所得到的相似程度很低時，比對單元133會自動地根據該相似程度，對數學模型內的可允許調整的參數進行調整，並且依據調整後的新參數再進行第二次運算得到第二運算結果EST1~EST9，將第二運算結果EST1~EST9比對測試資料TST得到第二相似程度。應該了解到的是第二相似程度高於第一相似程度。換句話說，比對單元133每次自動調整一次參數，其所得到新的相似程度會比前一次所得到的相似程度更高。運算結果EST1~EST9與測試資料TST之間的相似程度隨著多次自動化的運算及調整後會越來越高，直到運算結果EST1~EST9趨近於實際的測試資料TST。

上述實施例僅針對數學模型M1來做描述，實際上，於實施例中，儲存模組131內儲存了其他的數學模型M2及M3。依照上述相同的做法，將相同的訓練資料TRN輸入數學模型M2及M3得到運算結果，並且比對運算結果與測試資料得到相似程度，再針對數學模型M2及M3的可調整之參數進行反覆調整。於不同實施例，其調整數學模型參數的次數皆不相同(例如3次、5次、20次)。

實施例中所述之數學模型M1、M2及M3皆可能具有不同的可調整參數，也就是說其參數的屬性或是參數調整的方式皆可能不同(例如將參數比重或權重向上調整)。本揭示文件所涵蓋之範圍不限定於上述實施例。

當每一數學模型所包含之可調整的參數經過多次反覆的調整之後，在步驟S212中，選擇單元140依照相似程度以及參數組合自動地挑選出一個數學模型，其中該數學模型具有最佳的參數組合而且基於該參數組合得到的運算結果與測試資料TST具有最高的相似度。

舉例來說，於實施例中，數學模型M1所包含之可調整的參數P1及P2經過多次調整後，基於該多次調整後的參數P1及P2所得到之運算結果EST1~EST9與測試資料TST比對，發現運算結果EST1~EST9與測試資料TST之間的相似程度很高，也就是運算結果EST1~EST9與測試資料之間所具有之誤差相當低。

另一方面數學模型M2及M3以相同手法經過多次的參數調整，其運算結果EST1~EST9與測試資料之間的相似程度也很高，此時將數學模型M2及M3所得到的相似程度與數學模型M1所得到的相似程度相比較，基於多次調整後之參數組合的數學模型M1，其運算結果與實際的測試資料之間的相似程度為三個模型中最為相近的，上述多次調整後的參數P1及P2即為最佳參數組合，此時選擇單元140便挑選數學模型M1。

上述所說的運算結果是以用戶I1~U3的角度來做運算得到用戶U1~U3之間的相似度，於另一個例子，運算結果是以產品的角度來做運算，也就是運算產品之間的相似度。於實施例中，也就是以電影I1~I10的角度來做運算得到電影I1~I10之間的相似度。其挑選數學模型的實施方式與上述實施例相同，在此不另贅述。

綜合以上，可以了解當輸入資料不同時，其所分割出的訓練資料以及測試資料會不同，運算結果也會不同，參數調整的方式及次數也會有差異，最後挑選出的數學模型也不同。

舉例來說，若第3圖的輸入資料IPT的內容改變，其訓練資料TRN以及測試資料TST也有所改變，此時將訓練資料TRN輸入同樣的數學模型M1、M2及M3，其運算結果EST1~EST9及各個數學模型之參數調整也會不同，依此道理，最後挑選到的對應最佳參數的數學模型不一定是數學模型M1(可能是數學模型M2或M3)。

換句話說，於本揭示文件之實施例所述之數學模型M1、M2及M3並無絕對的好壞差異，在一些情形下，數學模型M2比數學模型M1、M3更適合，在另一些情形下，數學模型M3比數學模型M1、M2更適合。因此本揭示文件所揭示的內容強調考量特定的輸入資料，透過自動化的過程於不同的數學模型中挑選出最適合此次輸入資料內容的數學模型。

為了讓該領域具有通常知識之人更容易了解本揭示文件之上述的特徵、優點及實施例，所附符號說明如下：
100‧‧‧資料庫
120‧‧‧分割單元
130‧‧‧處理模組
131‧‧‧儲存模組
132‧‧‧運算單元
133‧‧‧比對單元
140‧‧‧選擇單元
200‧‧‧計算方法
S202~S212‧‧‧步驟
U1~U3‧‧‧用戶
I1~I10‧‧‧電影
1~10‧‧‧評分
IPT‧‧‧輸入資料
TRN‧‧‧訓練資料
TST‧‧‧測試資料
EST1~EST9‧‧‧運算結果
M1~M3‧‧‧數學模型
P1、P2‧‧‧參數

第1圖繪示本揭示文件之一實施例的計算系統的方塊圖。第2圖繪示本揭示文件之一實施例之適用於多個輸入資料之計算方法的方法流程圖。第3圖繪示本揭示文件之一實施例之輸入資料的示意圖。第4圖繪示本揭示文件之一實施例之輸入資料分割之示意圖。第5圖本揭示文件之一實施例之運算結果的示意圖。第6圖繪示本揭示文件之一實施例之測試資料的示意圖。

200‧‧‧計算方法

S202~S212‧‧‧步驟

Claims

一種計算方法，適用於複數個輸入資料，該計算方法包含：將該些輸入資料拆分為複數個訓練資料與複數個測試資料；將該些訓練資料個別輸入複數個數學模型進行運算獲得複數個運算結果；比對該些運算結果與該些測試資料得到複數個相似程度並依據該些相似程度反覆調整該些數學模型的複數個參數組合；以及依據該些相似程度及該些參數組合挑選該些數學模型其中一者。
如請求項1所述之計算方法，其中該些輸入資料包含複數個產品資料，將該些訓練資料個別輸入該些數學模型之運算包含一產品比對程序，該產品比對程序依據該些產品資料所對應之複數個類型對該些產品資料進行分類獲得複數個產品相似度，其中該些運算結果包含該些產品相似度。
如請求項1所述之計算方法，其中該些輸入資料包含複數個顧客資料，將該些訓練資料個別輸入該些數學模型之運算包含一顧客比對程序，該顧客比對程序依據該些顧客資料所對應之複數個交易紀錄對該些顧客資料進行分類獲得複數個顧客相似度，其中該些運算結果包含該些顧客相似度。
如請求項1所述之計算方法，該些運算結果包含複數個第一運算結果與複數個第二運算結果，該些相似程度包含複數個第一相似程度與複數個第二相似程度，該些參數組合包含複數個第一參數組合與複數個第二參數組合，比對該些第一運算結果與該些測試資料得到該些第一相似程度並依據該些第一相似程度產生該些數學模型的該些第一參數組合，使該些數學模型採用該些第一參數組合對該些訓練資料重新計算得到該些第二運算結果，比對該些第二運算結果與該些測試資料得到該些第二相似程度，並依據該些第二相似程度產生該些第二參數組合。
如請求項4所述之計算方法，其中該些第二相似程度包含一最高相似程度，該些第二參數組合包含一最佳參數組合，該最高相似程度對應該最佳參數組合，挑選該些數學模型中對應該最佳參數組合。
一種計算系統，包含：一資料庫，用以儲存複數個輸入資料；一分割單元，耦接該資料庫，用以將該些輸入資料拆分成複數個訓練資料以及複數個測試資料；一處理模組，耦接該分割單元，該處理模組包含：一儲存模組，用以儲存複數個數學模型；一運算單元，用以將該些訓練資料個別輸入該些數學模型進行運算得到複數個運算結果；以及一比對單元，用以比對該些運算結果與該些測試資料獲得複數個相似程度，依據該些相似程度反覆調整該些數學模型的複數個參數組合；以及一選擇單元，耦接該處理模組，用以依據該些相似程度及該些參數組合挑選該些數學模型中一者。
如請求項6所述之計算系統，其中該些輸入資料包含複數個產品資料，其中將該些訓練資料個別輸入該些數學模型之運算包含一產品比對程序，該產品比對程序依據該些產品資料所對應之複數個類型對該些產品資料進行分類獲得複數個產品相似度，其中該些運算結果包含該些產品相似度。
如請求項6所述之計算系統，其中該些輸入資料包含複數個顧客資料，其中將該些訓練資料個別輸入該些數學模型之運算包含一顧客比對程序，該顧客比對程序依據該些顧客資料所對應之複數個交易紀錄對該些顧客資料進行分類獲得複數個顧客相似度，其中該些運算結果包含該些顧客相似度。
如請求項6所述之計算系統，該些運算結果包含複數個第一運算結果與複數個第二運算結果，該些相似程度包含複數個第一相似程度與複數個第二相似程度，該些參數組合包含複數個第一參數組合與複數個第二參數組合，比對該些第一運算結果與該些測試資料得到該些第一相似程度並依據該些第一相似程度產生該些數學模型的該些第一參數組合，使該些數學模型採用該些第一參數組合對該些訓練資料重新計算得到該些第二運算結果，比對該些第二運算結果與該些測試資料得到該些第二相似程度，並依據該些第二相似程度產生該些第二參數組合。
如請求項9所述之計算系統，其中該些第二相似程度包含一最高相似程度，該些第二參數組合包含一最佳參數組合，該最高相似程度對應該最佳參數組合，挑選該些數學模型中對應該最佳參數組合。