TWI755995B

TWI755995B - 對工程資料進行篩選以得到特徵的方法與系統、對工程資料進行多次篩選以得到特徵的方法、產生預測模型的方法以及將工程資料線上特徵化的系統

Info

Publication number: TWI755995B
Application number: TW109145986A
Authority: TW
Inventors: 顏均泰; 高志強; 蔡紹軍
Original assignee: 科智企業股份有限公司
Priority date: 2020-12-24
Filing date: 2020-12-24
Publication date: 2022-02-21
Also published as: TW202226007A

Abstract

本發明提供一種對工程資料進行篩選以得到特徵的方法與系統、對工程資料進行多次篩選以得到特徵的方法、產生預測模型的方法以及將工程資料線上特徵化的系統。該對工程資料進行篩選以得到特徵的系統包括：判斷單元、統計單元與處理單元。判斷單元供判斷一工程資料為數值型資料或類別型資料。統計單元供若該判斷單元判斷該工程資料為數值型資料，則將該工程資料中之每一類別與其對應的多個欄位進行柯爾莫哥洛夫-斯米爾諾夫檢驗，藉以確認該工程資料是否為常態分佈。該處理單元供分別檢查該等類別中之每一者是否達到該第一、第二、第三、第四門檻值群組中所對應的門檻值，將有達到門檻值的類別定義為有效特徵。

Description

對工程資料進行篩選以得到特徵的方法與系統、對工程資料進行多次篩選以得到特徵的方法、產生預測模型的方法以及將工程資料線上特徵化的系統

本發明關於一種對工程資料進行篩選以得到特徵的方法、對工程資料進行篩選以得到特徵的系統、產生預測模型的方法以及將工程資料線上特徵化的系統。尤指在各種工程領域中，對工程資料進行有效快速的篩選與處理的方法與系統。

一般而言，對各種工程資料如醫學工程、電機工程、機械工程領域中於過程中所產生的各種數據，需要經過取得資料、處理資料、選擇模型、訓練、評估、超參數調整的步驟，方能進入預測模型的產生，習知的資料科學家需要花費極多的時間方能正確建構出預測模型。換言之，於習知技術中，清理與組織資料花費時間太長，使得機器學習的技術無法有效的被運用。另一方面，提取特徵的過程是一個冗長的過程，習知技術中通常依賴於人工於領域知識、經驗和繁複的資料操作，且最終得到的特徵將會受到人工的主觀限制。儘管機器學習具有很多已證明的好處，但是成功地利用機器學習需要人付出巨大的努力，因為沒有一種演算法或模型可以解決所有可能的情況。例如，儘管醫學工程的研究人員熟悉臨床數據，但他們仍然缺乏將這些連床數據應用於大數據源所需的機器學習專業知識。

當遇到有監督的機器學習問題時，數據科學家通常會負責創建解釋變量(也稱為特徵)，這些變量可以預測感興趣的結果。理想的特徵工程需要建構特徵，這些特徵不僅可以提供對數據本身的有用見解，還需考慮所使用的學習算法的任何限制。這不是一項瑣碎的過程，因為給定的機器學習算法的性能在很大程度上取決於輸入資料的品質。意即，從原始資料的建構特徵通常需要廣泛的領域知識，因此通常是由人類專家以反覆試驗的方式手動執行的。這使得特徵工程成為機器學習流程中至關重要且耗時的步驟。特徵工程也被稱為特徵建構，是從現有資料中建構新的特徵藉以訓練機器學習模型的過程。特徵建構比實際上使用的模型更重要，因為一個機器學習演算法只能從給定的資料中學習，所以如何建構一個和所需目標相關的特徵是至關重要的。

再，目前在資料分析的領域中，研究員常利用特徵工具中的關連式資料庫，藉由資料表與資料表間的關連，自動找出潛在的特徵，達成自動化且接近資料科學家手動的結果。然而，藉由關連式資料庫中資料表與資料表間的關連的分析方法只能應用在關連式資料庫的有關數據，即，數值型數據上，在具有類別特徵的資料上無法使用。

再，於習知技術中，針對數值型特徵，窮舉出各種計算，再利用模型驗證看是否有提升結果，如果有則納入下一代的起始特徵，直到結果不再提升。然而，此種方法只適用在數值型數據上，在類別型的資料上無法使用。

因此，為了克服前述問題，遂有本發明產生。

為克服前述技術問題，本發明採用多個方向生成新特徵：時間欄位資料群、關聯欄位資料群、領域欄位資料群：與習知技術相比，針對不同技術領域提供特定的特徵生成處理；利用統計分布比對2個資料集中各特徵相似性，去除不相似的特徵，同時支援數值與類別特徵；藉以不使用習知技術中複雜的演算法、關聯層數或模型檢驗等方法來尋找、評估特徵、也不需要使用經訓練後的演算法將找出的特徵進行檢查，不僅大幅度且全面地提昇選擇有效特徵的效能，且能自動化處理，達成與資料科學家相比更佳的準確率。

為達前述目的，本發明提供一種對工程資料進行篩選以得到特徵的方法，其包括：

A：判斷工程資料為數值型資料或類別型資料，若該工程資料為數值型資料，則進行步驟A1，若判斷該工程資料為類別型資料，則進行步驟A2；

其中該步驟A1、A2如下：

A1：將該數值型資料中之每一類別與其對應的多個欄位進行柯爾莫哥洛夫-斯米爾諾夫檢驗(Kolmogorov-Smirnov Test)，藉以確認該工程資料是否為常態分佈；若檢驗結果為常態分佈，則執行步驟B1，若檢驗結果為非常態分佈，則執行步驟B2；

A2：將該類別型資料中之每一類別與其對應的多個欄位進行克雷莫V係數檢定而得到多個門檻值所組成的第一門檻值群組，然後進行步驟C1；

其中步驟B1、B2如下：

B1：將該數值型資料中之每一類別與其對應的多個欄位進行T-test檢定而得到多個門檻值所組成的第二門檻值群組；然後進行步驟C2；

B2：分別檢定該數值型資料中之每一類別所對應的多個欄位之離散度；若判斷該每一類別所對應的多個欄位之離散度超過預設值，則進行K-L散度(Kullback-Leibler divergence)檢定而得到多個門檻值所組成的第三門檻值群組，然後進行步驟C3；若判斷該數值型資料中之每一類別所對應的多個欄位之離散度未超過預設值，則進行Mann-Whitney U test而得到多個門檻值所組成的第四門檻值群組，然後進行步驟C4；

其中該步驟C1、C2、C3、C4如下：

C1：分別檢查該等類別中之每一者是否達到該第一門檻值群組中所對應的門檻值，將有達到門檻值的類別定義為特徵；

C2：分別檢查該等類別中之每一者是否達到該第二門檻值群組中對應的門檻值，將有達到門檻值的類別定義為特徵；

C3：分別檢查該等類別中之每一者是否達到該第三門檻值群組中對應的門檻值，將有達到門檻值的類別定義為特徵；

C4：分別檢查該等類別中之每一者是否達到該第四門檻值群組中對應的門檻值，將有達到門檻值的類別定義為特徵。

實施時，於該步驟A更包括：判斷工程資料為數值型資料或類別型資料，若該工程資料為數值型資料，將該數值型資料進行分為兩個群組並將該兩個群組進行相似性檢定，留下該數值型資料中具有顯著相同的類別與其所對應的欄位後進行該步驟A1；若判斷該工程資料為類別型資料，將該類別型資料進行分為兩個群組並將該兩個群組進行相似性檢定，留下該類別型資料中具有顯著性的類別與其所對應的欄位後進行該步驟A2。

本發明另提供一種對工程資料進行多次篩選以得到特徵的方法，其包括

a.對工程資料進行資料清理，其包含：

b.補償該工程資料中的欄位缺失值；從該工程資料產生多個欄位資料群，其中該等欄位資料群包括：時間欄位資料群、領域欄位資料群或關聯欄位資料群；其中該產生領域欄位資料群的步驟包含：對數值欄位資料群與類別欄位資料群進行拆解與組合而產生該領域欄位資料群；其中該生成關聯欄位資料群的步驟包含：以關聯性統計檢定從該數值欄位資料群與類別欄位資料群中具有顯著正或負相關者；；以及將該具有顯著正或負相關者進行運算及組合而產生關聯欄位資料群；

c.將該等時間欄位資料群、領域欄位資料群或關聯欄位資料群以如前述方法進行篩選，而得到經篩選的特徵。

實施時，於該步驟c之後更包括：

d1：將該等經篩選的特徵以至少一機器學習演算法進行對抗式學習以驗證該等經篩選的特徵的相似性；以及

d2：該等經篩選的特徵相似性不顯著者以網格搜索(Grid Search)調整該驗證相似性的門檻值，並重新進行步驟A1；保留該等經篩選的特徵相似性顯著者。

實施時，於該步驟a中，該補償該工程資料中的欄位缺失值的步驟包含：利用中位數補值、利用極小值補值、利用極大值補值、利用眾數補值、利用4分位數補值或利用其它相似列補值；其中於該步驟a中更包括去除該等類別中所對應不同欄位但卻無變化者。

實施時，於該步驟b中更包括產生類別欄位資料群的步驟，其包含：合併該類別欄位資料群中的第一筆、合併該類別欄位資料群中的最後一筆、合併該類別欄位資料群中的中間筆、合併該類別欄位資料群中出現最多者或合併該類別欄位資料群中之有變化者。

實施時，於該步驟b中更包括產生該時間欄位資料群的步驟包括：取該等欄位所對應的時間包含：年、月、日、星期、時、分、秒、或每15分。

實施時，該生成產生領域欄位資料群的步驟更包含：對該數值欄位資料群拆解與組合而產生該領域欄位資料群的步驟包含：藉由該數值欄位資料群產生2進位的單位數領域欄位資料群或產生10進位的單位數領域欄位資料；其中該針對該類別欄位資料群進行拆解與組合的步驟包含：將該類別欄位資料群中的字串進行分割而產生多個經分割的字串：統計該等經分割的字串中之每一者出現的次數，留下次數門檻值以上的經分割的字串；以及將該等經留下的分割的字串中之每一者進行編碼，該等編碼中之每一者是為彼此相異。

實施時，該關聯欄位資料群產生的步驟更包含：

對該數值欄位資料群進行相關性檢定，將具有顯著正或負相關的數值欄位資料，進行下列運算而產生關聯欄位資料群：：

加、減、乘、除、取LOG值、取三角函數的角度；或

對該類別型欄位資料群進行相關性檢定，將具有顯著正或負相關的類別型欄位資料群進行下列運算而產生關聯欄位資料群：將字串重新排列組合；或將該經重新排列組合之字串中之每一者進行編碼而產生關聯欄位資料群，其中該等編碼中之每一者為彼此相異。

本發明另提供一種產生預測模型的方法，包括：

X：將以前述之方法所產生的經篩選的特徵標記為訓練群或測試群；

Y：將該等經篩選的特徵混合；

Z：透過至少一機器學習演算法區分該訓練群或該測試群，藉以建立預測模型。

本發明另提供一種對工程資料進行篩選以得到特徵的系統，其包括：處理器，該處理器包含判斷單元、統計單元以及處理單元。判斷單元供判斷工程資料為數值型資料或類別型資料；統計單元供若該判斷單元判斷該工程資料為數值型資料，則將該工程資料中之每一類別與其對應的多個欄位進行柯爾莫哥洛夫-斯米爾諾夫檢驗(Kolmogorov-Smirnov Test)，藉以確認該工程資料是否為常態分佈。若該判斷單元判斷該工程資料非為數值型資料，則該統計單元將該工程資料中之每一類別與其對應的多個欄位進行克雷莫V係數檢定而得到多個門檻值所組成的第一門檻值群組；其中若該統計單元12之檢驗結果為常態分佈，則該統計單元將該工程資料中之每一類別與其對應的多個欄位進行T-test檢定而得到多個門檻值所組成的第二門檻值群組。若該統計單元的檢驗結果為非常態分佈，則該統計單元分別檢定每一類別所對應的多個欄位之離散度；若統計單元判斷該每一類別所對應的多個欄位之離散度超過預設值，則進行K-L散度(Kullback-Leibler divergence)檢定而得到多個門檻值所組成的第三門檻值群組。若該統計單元判斷每一類別所對應的多個欄位之離散度未超過預設值，則進行Mann-Whitney U test而得到多個門檻值所組成的第四門檻值群組。該處理單元供分別檢查該等類別中之每一者是否達到該第一、第二、第三、第四門檻值群組中所對應的門檻值，將有達到門檻值的類別定義為特徵。

本發明另提供一種將工程資料線上特徵化的系統，其包括：伺服器，該伺服器包括處理器，所述處理器包括儲存單元以及處理單元。該儲存單元供接收來自客戶端所輸入之原始工程資料並將該原始工程資料儲存；其中該處理單元供讀取來自該儲存單元的該原始工程資料並將該原始工程資料以前述的方法進行處理而得到多個經篩選的特徵。

為進一步瞭解本發明，以下舉較佳之實施例，配合圖式、圖號，將本發明之具體構成內容及其所達成的功效詳細說明如下。

A、A1、A2、B1、B2、C1、C2、C3、C4、a、b、c、d、d1、d2:步驟

1:處理器

11:判斷單元

12:統計單元

13:處理單元

2:將工程資料線上特徵化的系統

第1圖為本發明之用於對工程資料進行篩選以得到特徵的方法之實施例的流程圖。

第2圖為本發明之對工程資料進行多次篩選以得到特徵的方法之實施例的流程圖。

第3圖為本發明之對工程資料中之特徵進行篩選的系統之實施例之示意圖。

第4圖為本發明之將工程資料線上特徵化的系統之實施例之示意圖。

第5圖為本發明之用於對工程資料進行篩選以得到特徵的方法之實施例的原始工程資料表。

第6圖為本發明之用於對工程資料進行篩選以得到特徵的方法之實施例經時序抽樣處理後工程資料表。

第7圖為本發明之用於對工程資料進行篩選以得到特徵的方法之實施例的將工程資料經時間特徵生成。

第8圖與第9圖為本發明之用於對工程資料進行篩選以得到特徵的方法之實施例

第10圖為本發明之用於對工程資料進行篩選以得到特徵的方法之實施例的將工程資料經特徵相關性統計。

第11圖為本發明之用於對工程資料進行篩選以得到特徵的方法之實施例的將工程資料經關連特徵生成。

第12-15圖為本發明之用於對工程資料進行篩選以得到特徵的方法之實施例的將工程資料經特徵過濾。

第16圖為本發明之用於對工程資料進行篩選以得到特徵的方法之實施例的將工程資料經篩選後保留的特徵。

請參考第1圖，本發明提供一種對工程資料進行篩選以得到特徵的方法，其包括：

其中所述步驟A1、A2如下：

A1：將該數值型資料中之每一類別與其對應的多個欄位進行柯爾莫哥洛夫-斯米爾諾夫檢驗(Kolmogorov-Smirnov Test)，藉以確認該工程資料是否為常態分佈；若檢驗結果為常態分佈，則執行一步驟B1，若檢驗結果為非常態分佈，則執行一步驟B2；

A2：將該類別型資料中之每一類別與其對應的多個欄位進行克雷莫V係數檢定而得到多個門檻值所組成的第一門檻值群組，然後進行一步驟C1；

其中所述步驟B1、B2如下：

B2：分別檢定該數值型資料中之每一類別所對應的多個欄位之離散度；若判斷該每一類別所對應的多個欄位之離散度超過一預設值，則進行K-L散度(Kullback-Leibler divergence)檢定而得到多個門檻值所組成的第三門檻值群組，然後進行步驟C3；若判斷該數值型資料中之每一類別所對應的多個欄位之離散度未超過一預設值，則進行Mann-Whitney U test而得到多個門檻值所組成的第四門檻值群組，然後進行步驟C4；

其中所述步驟C1、C2、C3、C4如下：

C1：分別檢查該等類別中之每一者是否達到該第一門檻值群組中所對應的門檻值，將有達到門檻值的類別定義為一特徵；

C2：分別檢查該等類別中之每一者是否達到該第二門檻值群組中對應的門檻值，將有達到門檻值的類別定義為一特徵；

C3：分別檢查該等類別中之每一者是否達到該第三門檻值群組中對應的門檻值，將有達到門檻值的類別定義為一特徵；

C4：分別檢查該等類別中之每一者是否達到該第四門檻值群組中對應的門檻值，將有達到門檻值的類別定義為一特徵。

請參考第3圖，本發明另提供一種對工程資料中進行篩選以得到特徵的系統，其包括處理器1，該處理器1包括：判斷單元11、統計單元12與處理單元13。判斷單元11供判斷一工程資料為數值型資料或類別型資料；統計單元12供若該判斷單元11判斷該工程資料為數值型資料，則將該工程資料中之每一類別與其對應的多個欄位進行柯爾莫哥洛夫-斯米爾諾夫檢驗(Kolmogorov-Smirnov Test)，藉以確認該工程資料是否為常態分佈。若該判斷單元11判斷該工程資料非為數值型資料，則該統計單元12將該工程資料中之每一類別與其對應的多個欄位進行克雷莫V係數檢定而得到多個門檻值所組成的第一門檻值群組；其中若該統計單元12之檢驗結果為常態分佈，則該統計單元12將該工程資料中之每一類別與其對應的多個欄位進行T-test檢定而得到多個門檻值所組成的第二門檻值群組。若該統計單元12的檢驗結果為非常態分佈，則該統計單元12分別檢定每一類別所對應的多個欄位之離散度；若統計單元12判斷該每一類別所對應的多個欄位之離散度超過一預設值，則進行K-L散度(Kullback-Leibler divergence)檢定而得到多個門檻值所組成的第三門檻值群組。若該統計單元12判斷每一類別所對應的多個欄位之離散度未超過一預設值，則進行Mann-Whitney U test而得到多個門檻值所組成的第四門檻值群組。該處理單元13供分別檢查該等類別中之每一者是否達到該第一、第二、第三、第四門檻值群組中所對應的門檻值，將有達到門檻值的類別定義為一特徵。

以下詳述本發明的方法與系統。首先，本發明對工程資料進行篩選以得到特徵的方法與系統乃是供處理各種工程資料的方法與系統，工程資料的類型包括但不限於；金融工程、化學工程、機械工程、生醫工程等各領域的工程資料。首先，於該步驟A中，該判斷單元11判斷工程資料為數值型資料或類別型資料。若該工程資料為數值型資料，則進行步驟A1，若該判斷單元11判斷該工程資料為類別型資料，則進行步驟A2。所述步驟A1、A2說明如下。於該步驟A1中，以該統計單元12將該數值型資料中之每一類別與其對應的多個欄位進行柯爾莫哥洛夫-斯米爾諾夫檢驗(Kolmogorov-Smirnov Test)，藉以確認該工程資料是否為常態分佈；若檢驗結果為常態分佈，則執行步驟B1，若檢驗結果為非常態分佈，則執行步驟B2。柯爾莫哥洛夫-斯米爾諾夫檢驗(以下簡稱KS-test)是統計學上的數據分析方法，其專門針對分佈型數值型資料(distributed data set)進行檢定，而非對離散數據。KS-test不需對數值型資料之分佈做任何假設且對數值型資料之CDF(累計分佈函數曲線)的形狀及位置敏銳度高，能準確評估數值型資料間的相對分佈。若檢驗結果為常態分佈(p值>0.05)，則執行該步驟B1，若檢驗結果為非常態分佈(p值<0.05)，則執行該步驟B2。

再，於該步驟A2中，該統計單元12將該類別型資料中之每一類別與其對應的多個欄位進行克雷莫V係數檢定而得到多個門檻值所組成的第一門檻值群組，然後進行步驟C1。對於與卡方檢定(Chi-Square test)相關的統計檢定而言，此類統計檢定所使用的強度檢定就為克雷莫V係數檢定，克雷莫V係數檢定會對每個該類別型資料中之每一類別分別產生第一門檻值，該等第一門檻值用於衡量至少兩類別間中的多個欄位之間的相關程度。

該步驟B1、B2說明如下。於該B1步驟中，該統計單元12將該數值型資料中之每一類別與其對應的多個欄位進行T-test檢定而得到多個門檻值所組成的第二門檻值群組；然後進行步驟C2。T-test檢定的預設條件為類別所對應的欄位(依變數)為連續變數、類別所對應的欄位是從母群體中隨機抽樣而得；且母群體是為常態分佈。由於本發明與此步驟中之數值型資料已經經過KS-test，所以是符合T-test的預設條件。再，於步驟B2中，該統計單元12分別檢定該數值型資料中之每一類別所對應的多個欄位之離散度。若判斷該每一類別所對應的多個欄位之離散度超過一預設值，則該統計單元12進行K-L散度檢定而得到多個門檻值所組成的第三門檻值群組，然後進行步驟C3。K-L散度檢定乃是用於評估當使用一種假設分佈來近似另一種假設分佈時所損失的資訊量。若該統計單元12判斷該數值型資料中之每一類別所對應的多個欄位之離散度未超過一預設值，則進行Mann-Whitney U test而得到多個門檻值所組成的第四門檻值群組，然後進行步驟C4。該統計單元12進行Mann-Whitney U test檢定的目的是比較至少兩個隨機樣本之差異而推論到兩個母群體間的差異。做推論之依據是以工程資料所組成之抽樣分配為基礎，根據樣本中變項分數之等級，計算出檢定統計值U。

所述步驟C1、C2、C3、C4分別如下。於步驟C1中，該處理單元13分別檢查該等類別中之每一者是否達到該第一門檻值群組中所對應的門檻值，將有達到門檻值的類別定義為一特徵。於步驟C2中，該處理單元13分別檢查該等類別中之每一者是否達到該第二門檻值群組中對應的門檻值，將有達到門檻值的類別定義為一特徵。於步驟C3中，該處理單元13分別檢查該等類別中之每一者是否達到該第三門檻值群組中對應的門檻值，將有達到門檻值的類別定義為一特徵。於步驟C4中，該處理單元13分別檢查該等類別中之每一者是否達到該第四門檻值群組中對應的門檻值，將有達到門檻值的類別定義為一特徵。

本發明前述技術方案乃是利用統計分析方法比對多個資料集中各特徵相似性，去除不相似的工程資料，且同時適用於工程資料中的數值型與類別型類別，藉以不使用習知技術中的各種演算法如：經大量資料訓練的演算法來尋找、評估工程資料中的特徵也能達到使用演算法尋找的高效之技術效果。於本發明的其他實施例中，機械製造領域的工程數據常用U-Test(在同台或同類型備數據值相近的條件下)，醫療領域的工程數據常用U-Test(類似儀器判斷值數值相近)，而金融領域的工程數據常用K-L test，因為金融工程的數值變化在不同日期、不同地區都有差異。

在另一實施例中，於該步驟A中更包括：判斷工程資料為數值型資料或類別型資料，若該工程資料為數值型資料，將該數值型資料進行分為兩個群組並將該兩個群組進行相似性檢定，留下該數值型資料中具有顯著性的類別與其所對應的欄位後進行該步驟A1。本發明的相似性分析用於分類、聚類的資料處理流程。相似性需依據工程數據本身的屬性取值而加以分析，包括：屬性值處理、相似性度量標準等。若判斷該工程資料為類別型資料，將該類別型資料進行分為兩個群組並將該兩個群組進行相似性檢定，留下該類別型資料中具有顯著性的類別與其所對應的欄位後進行該步驟A2。本發明相似性度量標準包括：歐氏距離(Euclidean Distance)、曼哈頓距離(Manhattan Distance)、切比雪夫距離(Chebyshev Distance)、閔可夫斯基距離(Minkowski Distance)、標準化歐氏距離(Standardized Euclidean distance)、馬氏距離(Mahalanobis Distance)、夾角餘弦(Cosine)、漢明距離(Hamming distance)、傑卡德距離(Jaccard distance)與傑卡德相似係數(Jaccard similarity coefficient)、相關係數(Correlation coefficient)與相關距離(Correlation distance)、信息熵(Information Entropy)等，在此不贅述。

請參考第2圖，本發明另提供一種對工程資料進行多次篩選以得到特徵的方法，其包括：

a.對一工程資料進行資料清理，其包含：

b.補償該工程資料中的欄位缺失值；從該工程資料產生多個欄位資料群，其中該等欄位資料群包括：一時間欄位資料群、一領域欄位資料群或一關聯欄位資料群；其中該產生領域欄位資料群的步驟包含：對一數值欄位資料群或一類別欄位資料群進行拆解與組合而產生該領域欄位資料群；

其中該產生關聯欄位資料群的步驟包含：以關聯性統計檢定從該數值欄位資料群與類別欄位資料群中具有顯著正或負相關者；以及將該具有顯著正或負相關者進行運算及組合而產生關聯欄位資料群；

c.將該等時間欄位資料群、領域欄位資料群或關聯欄位資料群以前述對工程資料進行篩選以得到特徵的方法之實施例進行篩選，而得到經多次篩選的特徵。

以下詳述本發明對工程資料進行多次篩選以得到特徵的方法。首先，於該步驟a中，對工程資料，包括：金融工程、化學工程、機械工程、生醫工程等各領域的工程資料進行資料清理，資料清理乃是資料科學(DS)或機器學習(ML)的首要步驟，以便後續的步驟中能夠逐步找到真正關鍵的特徵。在另一實施例中，本發明進行資料清理的步驟包含：補償該工程資料中的欄位缺失值、去除該工程資料中欄位無變動的類別、檢查離群值資料群等。一般而言，各領域的工程資料很難是完整的，所以需要補償該工程資料中的欄位缺失值或去除該工程資料中欄位無變動的類別，以免影響後續訓練模型的建構以及找到沒有幫助的特徵而導致過度擬合。

再，在某些情況下，工程資料會隱藏著與主要資料非常不同的另幾種資料群，所以在其他實施例中，於該步驟a中，也需要檢查出離群值資料群單獨或分開處理。於該步驟a中，該補償該工程資料中的欄位缺失值的步驟包含：利用中位數補值、利用極小值補值、利用極大值補值、利用眾數補值、利用4分位數補值或利用其它相似列補值。在另一實施例中，於該步驟a中更包括去除該工程資料中欄位無變動的類別的步驟，例如，去除該等類別中所對應不同欄位但卻無變化者，藉以不讓此種類別不會影響到後續資料處理的分析與預測結果。

再，於步驟b中，從該工程資料找出多個欄位資料群，其中該等欄位資料群包括：時間欄位資料群、領域欄位資料群或關聯欄位資料群。該產生領域欄位資料群的步驟包含：對一數值欄位資料群或一類別欄位資料群進行拆解與組合而產生該領域欄位資料群。在一實施例中，該生成關聯欄位資料群的步驟包含：以關聯性統計檢定從該數值欄位資料群與類別欄位資料群中具有顯著正或負相關者；以及將該具有顯著正或負相關者進行運算及組合而產生該關聯欄位資料群。再，於另一實施例中，產生前述數值欄位資料群的步驟包含；合併該等工程資料中之類別中之欄位所對應之欄位內的最大值、最小值、平均值、中位數或內眾數。於該步驟b中，更包括產生類別欄位資料群的步驟，其包含：合併該類別欄位資料群中的第一筆、合併該類別欄位資料群中的最後一筆、合併該類別欄位資料群中的中間筆、合併該類別欄位資料群中出現最多者或合併該類別欄位資料群中之有變化者。產生該時間欄位資料群的步驟包括：取該等欄位所對應的時間包含：年、月、日、星期、時、分、秒、或每15分。

請參考第4圖，本發明另提供一種將工程資料自動特徵化的系統，該系統2包括：伺服器。該伺服器包括一處理器，該處理器包括一儲存單元以及一處理單元，其中該儲存單元供接收來自客戶端所輸入之一原始工程資料並將該原始工程資料儲存；其中該處理單元供讀取來自該儲存單元的該原始工程資料並將該原始工程資料以請前述實施例所述的方法進行處理而得到多個經篩選的特徵。在其他實施例中，本發明所請求保護的方法可以設置於一雲端系統中，讓客戶端以網際網路或區域網路的方式讓客戶從遠端輸入工程資料，客戶端所輸入的原始工程資料經由本發明前述實施例中所述的方法篩選出重要的特徵。

以下係以機械工程領域的工程資料來說明本發明的方法與系統。請參考第5圖，第5圖的表列出一種刀具加工的原始工程資料，包括時間戳記、命令轉速、實際轉速、主軸電流、刀具補償比例、閒置原因等。再，請參考第6圖，第6圖列出將前述刀具加工的原始工程資料根據數據的取樣率，自動推算數據適合的時間頻率，進行數據時間合併。例如：取樣率1秒的數據，自動合併成10秒1筆的數據等，因為根據採樣理論，取樣率必須比要觀察現象高至少10倍，才能觀察。

再，請參考第7圖，第7圖列出將前述刀具加工的原始工程資料中時間戳記進行產生該時間特徵的步驟包括：取該等欄位所對應的時間包含：年、月、日、星期、時、分、秒、或每15分。

在另一實施例中，於該步驟c之後更包括：於步驟d1中，將該等經篩選的特徵以至少一機器學習演算法進行對抗式學習以驗證該等經篩選的特徵的相似性。於步驟d2中，該等經篩選的特徵相似性不顯著者以網格搜索(Grid Search)調整該驗證相似性的門檻值，並重新進行步驟A1；保留該等經篩選的特徵相似性顯著者。機器學習中分類模型有非常多種，例如LR、SVM或XGBoost；以及深度學習模型CNN、LSTM等，然而，不同的模型都具有不同的參數設定需自行調整與選擇。當工程資料的數據量太大，網格搜索很容易成為一種消耗系統資源，所以本發明在經過前述多個步驟之後才使用網格搜索，大幅提昇網格搜索的效能。

再，於其他實施例中，前述其中該領域欄位資料群產生的步驟更包含：對該數值欄位資料群拆解與組合而產生該領域欄位資料群的步驟包含藉由該數值欄位資料群產生2進位單位數領域欄位資料群或產生10進位單位數領域欄位資料。該對該類別欄位資料群進行拆解與組合的步驟包含：將該類別欄位資料群中的字串進行分割而產生多個經分割的字串、統計該等經分割的字串中之每一者出現的次數，留下一次數門檻值以上的經分割的字串；以及將該等留下的經分割的字串中之每一者進行編碼，該等編碼中之每一者為彼此相異，使每一個編碼都具有獨立性，本發明藉以從類別欄位資料群中產生新的、有意義的類別欄位資料。

再，請參考第8圖，其列出前述該生成領域欄位資料群的步驟：藉由該數值欄位資料群產生2進位單位數數值欄位資料群。再，請參考第9圖，其列出對數值欄位資料群進行拆解與組合而產生該領域欄位資料群的實施例。請參考第10圖，第10圖示出本發明之關聯欄位資料群產生的步驟：針對該數值型資料進行相關性檢定後，將具有顯著相關的數值型資料(p值<0.05)，進行等加/減/乘/除、取LOG、取三角函數的角度等步驟產生第11圖之結果。例如，在第10圖中，將具有相關性的類別實際轉速最大乘以主軸電流最大值而產生領域欄位資料群。

在另一實施例中，該關聯欄位資料群產生的步驟更包含：將該數值型資料進行相關性檢定，將具有顯著正或負相關的數值型資料，進行下列運算而產生數值型欄位資料群。前述運算包括：加/減/乘/除、取LOG值、取各種三角函數的各種角度；或將該類別型資料群進行相關性檢定，包括卡方檢定相關系列檢定等，將具有顯著正或負相關的類別型欄位資料群進行下列運算而產生關聯欄位資料群。前述運算幫包括：將字串重新排列組合，例如，將字母A、B、C重新牌溜組合為ABC、ACB、BCA等；或將該經重新排列組合之字串中之每一者進行編碼而產生關聯欄位資料群，其中該等編碼中之每一者為彼此相異。例如，將字串AB、AC、分別對應110、101、111。

本發明另提供一種產生預測模型的方法，包括以下步驟。於步驟X中，將以本發明前述實施例中之方法所產生的經篩選的特徵標記為訓練群或測試群，訓練群用為測試資料，測試群作為測試資料；藉以確定本發明的方法與系統所找出的特徵是否準確。再於步驟Y中將該等經篩選的特徵混合。再，於步驟Z中，透過至少一機器學習演算法區分該訓練群或該測試群，藉以由此建立一預測模型。

第12圖至第16圖示出本發明前述實施例中由步驟A開始至步驟C1、C2、C3與C4的過程。以處理單元13分別檢查該等類別中之每一者是否達到該第一、第二、第三、第四門檻值群組中所對應的門檻值，將有達到門檻值的類別定義為一特徵，沒有達到門檻值的類別則移除。例如，如第12圖所示，將超過所設定的相似性門檻值(0.5)經過KS-Test、U-Test的類別實際轉速最大值保留；移除未達到所設定的門檻值的實際轉速最小值。再，第12圖至第16圖中更列出了如本發明實施例中步驟d1、d2所述的將該等經篩選的特徵以至少一機器學習演算法進行對抗式學習以驗證該等經篩選的特徵的相似性的結果。例如，如第12圖所示，對抗式驗證的結果AUC的值為0.98，之後以網格搜索調整前述相似門檻值。請再參考第13圖，以調整後的相似性門檻值留下或移除類別，例如，類別中之命令轉速於此步驟中被移除。最後，請參考第16圖，直到AUC的值穩定後，得到本實施例最後篩選出的5個特徵。

因此，本發明具有以下之優點：

1.本發明較現有特徵篩選方法而言，從原始工程資料中增加時間合併及領域特徵分解處理。

2.本發明利用多個統計檢定的組合快速篩選與評估特徵，不需要利用耗時的多種演算法以及習知的關聯層數或模型檢驗就可以快速篩選出有效的特徵。

3.利用相似性來選擇特徵，可以有效去除高相關但低相似的特徵，減少後續模組過度擬合的現象，提升模型的準確率。

4.本發明自動化處理、達成與資料科學家相近的準確率、支援數值型與類別型的特徵以及提高找出有效特徵的效率

以上所述乃是本發明之具體實施例及所運用之技術手段，根據本文的揭露或教導可衍生推導出許多的變更與修正，仍可視為本發明之構想所作之等效改變，其所產生之作用仍未超出說明書及圖式所涵蓋之實質精神，均應視為在本發明之技術範疇之內，合先陳明。

綜上所述，依上文所揭示之內容，本發明確可達到發明之預期目的，提供一種對工程資料進行篩選以得到特徵的方法與系統、對工程資料進行多次篩選以得到特徵的方法、產生預測模型的方法以及將工程資料線上特徵化的系統，不需要利用複雜的演算法可以快速評估有效特徵，極具產業上利用之價植，爰依法提出發明專利申請。

A、A1、A2、B1、B2、C1、C2、C3、C4:步驟

Claims

一種對工程資料進行篩選以得到特徵的方法，其包括：

A：判斷一工程資料為數值型資料或類別型資料，若該工程資料為數值型資料，則進行一步驟A1，若判斷該工程資料為類別型資料，則進行一步驟 A2；

其中該步驟A1、A2如下：

A1：將該數值型資料中之每一類別與其對應的多個欄位進行柯爾莫哥洛夫-斯米爾諾夫檢驗(Kolmogorov-Smirnov Test)，藉以確認該工程資料是否為常態分佈；若檢驗結果為常態分佈，則執行一步驟B1，若檢驗結果為非常態分佈，則執行一步驟B2；

A2：將該類別型資料中之每一類別與其對應的多個欄位進行克雷莫V係數檢定而得到多個門檻值所組成的第一門檻值群組，然後進行一步驟C1；

其中該步驟B1、B2如下：

B1：將該數值型資料中之每一類別與其對應的多個欄位進行T-test檢定而得到多個門檻值所組成的第二門檻值群組；然後進行一步驟C2；

B2：分別檢定該數值型資料中之每一類別所對應的多個欄位之離散度；若判斷該每一類別所對應的多個欄位之離散度超過一預設值，則進行K-L散度(Kullback-Leibler divergence)檢定而得到多個門檻值所組成的第三門檻值群組，然後進行一步驟C3；若判斷該數值型資料中之每一類別所對應的多個欄位之離散度未超過一預設值，則進行Mann-Whitney U test而得到多個門檻值所組成的第四門檻值群組，然後進行一步驟C4；

其中該步驟C1、C2、C3、C4如下：

C1：分別檢查該等類別中之每一者是否達到該第一門檻值群組中所對應的門檻值，將有達到門檻值的類別定義為一特徵；

C2：分別檢查該等類別中之每一者是否達到該第二門檻值群組中對應的門檻值，將有達到門檻值的類別定義為一特徵；

C3：分別檢查該等類別中之每一者是否達到該第三門檻值群組中對應的門檻值，將有達到門檻值的類別定義為一特徵；

C4：分別檢查該等類別中之每一者是否達到該第四門檻值群組中對應的門檻值，將有達到門檻值的類別定義為一特徵。
如請求項1所述的方法，其中於該步驟A更包括：

判斷一工程資料為數值型資料或類別型資料，若該工程資料為數值型資料，將該數值型資料進行分為兩個群組，並將該兩個群組進行相似性檢定，留下該數值型資料中具有顯著性的類別與其所對應的欄位後，進行該步驟A1；

若判斷該工程資料為類別型資料，將該類別型資料進行分為兩個群組並將該兩個群組進行相似性檢定，留下該類別型資料中具有顯著相同的類別與其所對應的欄位後進行該步驟A2。
一種對工程資料進行多次篩選以得到特徵的方法，其包括

a.對一工程資料進行資料清理，其包含：

補償該工程資料中的欄位缺失值；

b.從該工程資料產生多個欄位資料群，其中該等欄位資料群包括：一時間欄位資料群、一領域欄位資料群或一關聯欄位資料群；

其中該產生領域欄位資料群的步驟包含：對一數值欄位資料群或一類別欄位資料群進行拆解與組合而產生該領域欄位資料群；

其中該產生關聯欄位資料群的步驟包含：

以關聯性統計檢定從該數值欄位資料群與類別欄位資料群中具有顯著正或負相關者；以及

將該等具有顯著正或負相關者進行運算及組合而產生關聯欄位資料群；

c.將該等時間欄位資料群、領域欄位資料群或關聯欄位資料群以如請求項1所述的方法進行篩選，而得到經多次篩選的特徵。
如請求項3所述的方法，於該步驟c之後更包括：

d1：將該等經篩選的特徵以至少一機器學習演算法進行對抗式學習以驗證該等經篩選的特徵的相似性；以及

d2：該等經篩選的特徵相似性不顯著者以網格搜索(Grid Search)調整該驗證相似性的門檻值，並重新進行步驟A1；保留該等經篩選的特徵相似性顯著者。
如請求項3所述的方法，其中於該步驟a中，該補償該工程資料中的欄位缺失值的步驟包含：利用中位數補值、利用極小值補值、利用極大值補值、利用眾數補值、利用4分位數補值或利用其它相似列補值；其中於該步驟a中更包括去除該等類別中所對應不同欄位但卻無變化者。
如請求項3所述的方法，其中於該步驟b中更包括產生一類別欄位資料群的步驟，其包含：合併該類別欄位資料群中的第一筆、合併該類別欄位資料群中的最後一筆、合併該類別欄位資料群中的中間筆、合併該類別欄位資料群中出現最多者或合併該類別欄位資料群中之有變化者。
如請求項3所述的方法，其中於該步驟b中更包括更包括產生該時間欄位資料群的步驟包括：取該等欄位所對應的時間包含：年、月、日、星期、時、分、秒或每15分。
如請求項3所述的方法，其中該生成產生領域欄位資料群的步驟更包含：

對該數值欄位資料群拆解與組合而產生該領域欄位資料群的步驟包含：

藉由該數值欄位資料群產生2進位的單位數領域欄位資料群或產生10進位的單位數領域欄位資料；

對該類別欄位資料群進行拆解與組合的步驟包含：

將該類別欄位資料群中的字串進行分割而產生多個經分割的字串；

統計該等經分割的字串中之每一者出現的次數，留下一次數門檻值以上的經分割的字串；以及

將該等留下的經分割的字串中之每一者進行編碼，該等編碼中之每一者是為彼此相異。
如請求項3所述的方法，其中該關聯欄位資料群產生的步驟更包含：

對該數值欄位資料群進行相關性檢定，將具有顯著正或負相關的數值欄位資料，進行下列運算而產生關聯欄位資料群：

加、減、乘、除、取LOG值、取三角函數的角度；或

對該類別型欄位資料群進行相關性檢定，將具有顯著正或負相關的類別型欄位資料群進行下列運算而產生關聯欄位資料群：

將字串重新排列組合；或將該經重新排列組合之字串中之每一者進行編碼而產生關聯欄位資料群，其中該等編碼中之每一者為彼此相異。
一種產生預測模型的方法，包括：

X：將以請求項1至請求項9中任一項所述之方法所產生的特徵標記為一訓練群或一測試群；

Y：將該等經篩選的特徵混合；

Z：透過至少一機器學習演算法區分該訓練群或該測試群，藉以建立一預測模型。
一種對工程資料進行篩選以得到特徵的系統，其包括：

一處理器，該處理器包含一判斷單元、一統計單元以及一處理單元；

其中該判斷單元供判斷一工程資料為數值型資料或類別型資料；

其中該統計單元供若該判斷單元判斷該工程資料為數值型資料，則將該工程資料中之每一類別與其對應的多個欄位進行柯爾莫哥洛夫-斯米爾諾夫檢驗(Kolmogorov-Smirnov Test)，藉以確認該工程資料是否為常態分佈；

其中若該判斷單元判斷該工程資料非為數值型資料，則該統計單元將該工程資料中之每一類別與其對應的多個欄位進行克雷莫V係數檢定而得到多個門檻值所組成的第一門檻值群組；

其中若該統計單元之檢驗結果為常態分佈，則該統計單元將該工程資料中之每一類別與其對應的多個欄位進行T-test檢定而得到多個門檻值所組成的第二門檻值群組；

其中若該統計單元的檢驗結果為非常態分佈，則該統計單元分別檢定每一類別所對應的多個欄位之離散度；若統計單元判斷該每一類別所對應的多個欄位之離散度超過一預設值，則進行K-L散度(Kullback-Leibler divergence)檢定而得到多個門檻值所組成的第三門檻值群組；若該統計單元判斷每一類別所對應的多個欄位之離散度未超過一預設值，則進行Mann-Whitney U test而得到多個門檻值所組成的第四門檻值群組；

其中該處理單元供分別檢查該等類別中之每一者是否達到該第一、第二、第三、第四門檻值群組中所對應的門檻值，將有達到門檻值的類別定義為特徵。
一種將工程資料線上特徵化的系統，其包括：

一伺服器，其包括一處理器，該處理器包括一儲存單元以及一處理單元，其中該儲存單元供接收來自客戶端所輸入之一原始工程資料並將該原始工程資料儲存；其中該處理單元供讀取來自該儲存單元的該原始工程資料並將該原始工程資料以請求項1至9中任一項所述的方法進行處理而得到特徵。