TWI755995B - 對工程資料進行篩選以得到特徵的方法與系統、對工程資料進行多次篩選以得到特徵的方法、產生預測模型的方法以及將工程資料線上特徵化的系統 - Google Patents
對工程資料進行篩選以得到特徵的方法與系統、對工程資料進行多次篩選以得到特徵的方法、產生預測模型的方法以及將工程資料線上特徵化的系統 Download PDFInfo
- Publication number
- TWI755995B TWI755995B TW109145986A TW109145986A TWI755995B TW I755995 B TWI755995 B TW I755995B TW 109145986 A TW109145986 A TW 109145986A TW 109145986 A TW109145986 A TW 109145986A TW I755995 B TWI755995 B TW I755995B
- Authority
- TW
- Taiwan
- Prior art keywords
- data
- group
- category
- field
- test
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 66
- 238000012216 screening Methods 0.000 title claims abstract description 35
- 238000012545 processing Methods 0.000 claims abstract description 34
- 238000001276 Kolmogorov–Smirnov test Methods 0.000 claims abstract description 14
- 238000012360 testing method Methods 0.000 claims description 76
- 239000006185 dispersion Substances 0.000 claims description 23
- 238000009826 distribution Methods 0.000 claims description 21
- 238000010801 machine learning Methods 0.000 claims description 19
- 238000004422 calculation algorithm Methods 0.000 claims description 18
- 238000003860 storage Methods 0.000 claims description 9
- 238000012549 training Methods 0.000 claims description 9
- 238000000585 Mann–Whitney U test Methods 0.000 claims description 8
- 238000000528 statistical test Methods 0.000 claims description 7
- 238000004140 cleaning Methods 0.000 claims description 6
- 230000006870 function Effects 0.000 claims description 5
- 230000000295 complement effect Effects 0.000 claims description 4
- 238000012795 verification Methods 0.000 claims description 4
- 230000008859 change Effects 0.000 claims description 3
- 230000002159 abnormal effect Effects 0.000 claims description 2
- 239000000203 mixture Substances 0.000 claims description 2
- 230000000875 corresponding effect Effects 0.000 description 57
- 230000008569 process Effects 0.000 description 7
- 238000005070 sampling Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 4
- 238000011089 mechanical engineering Methods 0.000 description 4
- 239000013589 supplement Substances 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 238000010276 construction Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000003889 chemical engineering Methods 0.000 description 2
- 238000000546 chi-square test Methods 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 2
- 230000002596 correlated effect Effects 0.000 description 2
- 238000007405 data analysis Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000000717 retained effect Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000005315 distribution function Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000004870 electrical engineering Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
Images
Landscapes
- Complex Calculations (AREA)
Abstract
本發明提供一種對工程資料進行篩選以得到特徵的方法與系統、對工程資料進行多次篩選以得到特徵的方法、產生預測模型的方法以及將工程資料線上特徵化的系統。該對工程資料進行篩選以得到特徵的系統包括:判斷單元、統計單元與處理單元。判斷單元供判斷一工程資料為數值型資料或類別型資料。統計單元供若該判斷單元判斷該工程資料為數值型資料,則將該工程資料中之每一類別與其對應的多個欄位進行柯爾莫哥洛夫-斯米爾諾夫檢驗,藉以確認該工程資料是否為常態分佈。該處理單元供分別檢查該等類別中之每一者是否達到該第一、第二、第三、第四門檻值群組中所對應的門檻值,將有達到門檻值的類別定義為有效特徵。
Description
本發明關於一種對工程資料進行篩選以得到特徵的方法、對工程資料進行篩選以得到特徵的系統、產生預測模型的方法以及將工程資料線上特徵化的系統。尤指在各種工程領域中,對工程資料進行有效快速的篩選與處理的方法與系統。
一般而言,對各種工程資料如醫學工程、電機工程、機械工程領域中於過程中所產生的各種數據,需要經過取得資料、處理資料、選擇模型、訓練、評估、超參數調整的步驟,方能進入預測模型的產生,習知的資料科學家需要花費極多的時間方能正確建構出預測模型。換言之,於習知技術中,清理與組織資料花費時間太長,使得機器學習的技術無法有效的被運用。另一方面,提取特徵的過程是一個冗長的過程,習知技術中通常依賴於人工於領域知識、經驗和繁複的資料操作,且最終得到的特徵將會受到人工的主觀限制。儘管機器學習具有很多已證明的好處,但是
成功地利用機器學習需要人付出巨大的努力,因為沒有一種演算法或模型可以解決所有可能的情況。例如,儘管醫學工程的研究人員熟悉臨床數據,但他們仍然缺乏將這些連床數據應用於大數據源所需的機器學習專業知識。
當遇到有監督的機器學習問題時,數據科學家通常會負責創建解釋變量(也稱為特徵),這些變量可以預測感興趣的結果。理想的特徵工程需要建構特徵,這些特徵不僅可以提供對數據本身的有用見解,還需考慮所使用的學習算法的任何限制。這不是一項瑣碎的過程,因為給定的機器學習算法的性能在很大程度上取決於輸入資料的品質。意即,從原始資料的建構特徵通常需要廣泛的領域知識,因此通常是由人類專家以反覆試驗的方式手動執行的。這使得特徵工程成為機器學習流程中至關重要且耗時的步驟。特徵工程也被稱為特徵建構,是從現有資料中建構新的特徵藉以訓練機器學習模型的過程。特徵建構比實際上使用的模型更重要,因為一個機器學習演算法只能從給定的資料中學習,所以如何建構一個和所需目標相關的特徵是至關重要的。
再,目前在資料分析的領域中,研究員常利用特徵工具中的關連式資料庫,藉由資料表與資料表間的關連,自動找出潛在的特徵,達成自動化且接近資料科學家手動的結果。然而,藉由關連式資料庫中資料表與資料表間的關連的分析方法只能應用在關連式資料庫的有關數據,即,數值型數據上,在具有類別特徵的資料上無法使用。
再,於習知技術中,針對數值型特徵,窮舉出各種計算,再利用模型驗證看是否有提升結果,如果有則納入下一代的起始特徵,直到
結果不再提升。然而,此種方法只適用在數值型數據上,在類別型的資料上無法使用。
因此,為了克服前述問題,遂有本發明產生。
為克服前述技術問題,本發明採用多個方向生成新特徵:時間欄位資料群、關聯欄位資料群、領域欄位資料群:與習知技術相比,針對不同技術領域提供特定的特徵生成處理;利用統計分布比對2個資料集中各特徵相似性,去除不相似的特徵,同時支援數值與類別特徵;藉以不使用習知技術中複雜的演算法、關聯層數或模型檢驗等方法來尋找、評估特徵、也不需要使用經訓練後的演算法將找出的特徵進行檢查,不僅大幅度且全面地提昇選擇有效特徵的效能,且能自動化處理,達成與資料科學家相比更佳的準確率。
為達前述目的,本發明提供一種對工程資料進行篩選以得到特徵的方法,其包括:
A:判斷工程資料為數值型資料或類別型資料,若該工程資料為數值型資料,則進行步驟A1,若判斷該工程資料為類別型資料,則進行步驟A2;
其中該步驟A1、A2如下:
A1:將該數值型資料中之每一類別與其對應的多個欄位進行柯爾莫哥洛夫-斯米爾諾夫檢驗(Kolmogorov-Smirnov Test),藉以確認該工程資料是否為常態分佈;若檢驗結果為常態分佈,則執行步驟B1,若檢驗結果為非常態分佈,則執行步驟B2;
A2:將該類別型資料中之每一類別與其對應的多個欄位進行克雷莫V係數
檢定而得到多個門檻值所組成的第一門檻值群組,然後進行步驟C1;
其中步驟B1、B2如下:
B1:將該數值型資料中之每一類別與其對應的多個欄位進行T-test檢定而得到多個門檻值所組成的第二門檻值群組;然後進行步驟C2;
B2:分別檢定該數值型資料中之每一類別所對應的多個欄位之離散度;若判斷該每一類別所對應的多個欄位之離散度超過預設值,則進行K-L散度(Kullback-Leibler divergence)檢定而得到多個門檻值所組成的第三門檻值群組,然後進行步驟C3;若判斷該數值型資料中之每一類別所對應的多個欄位之離散度未超過預設值,則進行Mann-Whitney U test而得到多個門檻值所組成的第四門檻值群組,然後進行步驟C4;
其中該步驟C1、C2、C3、C4如下:
C1:分別檢查該等類別中之每一者是否達到該第一門檻值群組中所對應的門檻值,將有達到門檻值的類別定義為特徵;
C2:分別檢查該等類別中之每一者是否達到該第二門檻值群組中對應的門檻值,將有達到門檻值的類別定義為特徵;
C3:分別檢查該等類別中之每一者是否達到該第三門檻值群組中對應的門檻值,將有達到門檻值的類別定義為特徵;
C4:分別檢查該等類別中之每一者是否達到該第四門檻值群組中對應的門檻值,將有達到門檻值的類別定義為特徵。
實施時,於該步驟A更包括:判斷工程資料為數值型資料或類別型資料,若該工程資料為數值型資料,將該數值型資料進行分為兩個群組並將該兩個群組進行相似性檢定,留下該數值型資料中具有顯著相同
的類別與其所對應的欄位後進行該步驟A1;若判斷該工程資料為類別型資料,將該類別型資料進行分為兩個群組並將該兩個群組進行相似性檢定,留下該類別型資料中具有顯著性的類別與其所對應的欄位後進行該步驟A2。
本發明另提供一種對工程資料進行多次篩選以得到特徵的方法,其包括
a.對工程資料進行資料清理,其包含:
b.補償該工程資料中的欄位缺失值;從該工程資料產生多個欄位資料群,其中該等欄位資料群包括:時間欄位資料群、領域欄位資料群或關聯欄位資料群;其中該產生領域欄位資料群的步驟包含:對數值欄位資料群與類別欄位資料群進行拆解與組合而產生該領域欄位資料群;其中該生成關聯欄位資料群的步驟包含:以關聯性統計檢定從該數值欄位資料群與類別欄位資料群中具有顯著正或負相關者;;以及將該具有顯著正或負相關者進行運算及組合而產生關聯欄位資料群;
c.將該等時間欄位資料群、領域欄位資料群或關聯欄位資料群以如前述方法進行篩選,而得到經篩選的特徵。
實施時,於該步驟c之後更包括:
d1:將該等經篩選的特徵以至少一機器學習演算法進行對抗式學習以驗證該等經篩選的特徵的相似性;以及
d2:該等經篩選的特徵相似性不顯著者以網格搜索(Grid Search)調整該驗證相似性的門檻值,並重新進行步驟A1;保留該等經篩選的特徵相
似性顯著者。
實施時,於該步驟a中,該補償該工程資料中的欄位缺失值的步驟包含:利用中位數補值、利用極小值補值、利用極大值補值、利用眾數補值、利用4分位數補值或利用其它相似列補值;其中於該步驟a中更包括去除該等類別中所對應不同欄位但卻無變化者。
實施時,於該步驟b中更包括產生類別欄位資料群的步驟,其包含:合併該類別欄位資料群中的第一筆、合併該類別欄位資料群中的最後一筆、合併該類別欄位資料群中的中間筆、合併該類別欄位資料群中出現最多者或合併該類別欄位資料群中之有變化者。
實施時,於該步驟b中更包括產生該時間欄位資料群的步驟包括:取該等欄位所對應的時間包含:年、月、日、星期、時、分、秒、或每15分。
實施時,該生成產生領域欄位資料群的步驟更包含:對該數值欄位資料群拆解與組合而產生該領域欄位資料群的步驟包含:藉由該數值欄位資料群產生2進位的單位數領域欄位資料群或產生10進位的單位數領域欄位資料;其中該針對該類別欄位資料群進行拆解與組合的步驟包含:將該類別欄位資料群中的字串進行分割而產生多個經分割的字串:統計該等經分割的字串中之每一者出現的次數,留下次數門檻值以上的經分割的字串;以及將該等經留下的分割的字串中之每一者進行編碼,該等編碼中之每一者是為彼此相異。
實施時,該關聯欄位資料群產生的步驟更包含:
對該數值欄位資料群進行相關性檢定,將具有顯著正或負相關的數值欄
位資料,進行下列運算而產生關聯欄位資料群::
加、減、乘、除、取LOG值、取三角函數的角度;或
對該類別型欄位資料群進行相關性檢定,將具有顯著正或負相關的類別型欄位資料群進行下列運算而產生關聯欄位資料群:將字串重新排列組合;或將該經重新排列組合之字串中之每一者進行編碼而產生關聯欄位資料群,其中該等編碼中之每一者為彼此相異。
本發明另提供一種產生預測模型的方法,包括:
X:將以前述之方法所產生的經篩選的特徵標記為訓練群或測試群;
Y:將該等經篩選的特徵混合;
Z:透過至少一機器學習演算法區分該訓練群或該測試群,藉以建立預測模型。
本發明另提供一種對工程資料進行篩選以得到特徵的系統,其包括:處理器,該處理器包含判斷單元、統計單元以及處理單元。判斷單元供判斷工程資料為數值型資料或類別型資料;統計單元供若該判斷單元判斷該工程資料為數值型資料,則將該工程資料中之每一類別與其對應的多個欄位進行柯爾莫哥洛夫-斯米爾諾夫檢驗(Kolmogorov-Smirnov Test),藉以確認該工程資料是否為常態分佈。若該判斷單元判斷該工程資料非為數值型資料,則該統計單元將該工程資料中之每一類別與其對應的多個欄位進行克雷莫V係數檢定而得到多個門檻值所組成的第一門檻值群組;其中若該統計單元12之檢驗結果為常態分佈,則該統計單元將該工程資料中之每一類別與其對應的多個欄位進行T-test檢定而得到多個門檻值所組成的第二門檻值群組。若該
統計單元的檢驗結果為非常態分佈,則該統計單元分別檢定每一類別所對應的多個欄位之離散度;若統計單元判斷該每一類別所對應的多個欄位之離散度超過預設值,則進行K-L散度(Kullback-Leibler divergence)檢定而得到多個門檻值所組成的第三門檻值群組。若該統計單元判斷每一類別所對應的多個欄位之離散度未超過預設值,則進行Mann-Whitney U test而得到多個門檻值所組成的第四門檻值群組。該處理單元供分別檢查該等類別中之每一者是否達到該第一、第二、第三、第四門檻值群組中所對應的門檻值,將有達到門檻值的類別定義為特徵。
本發明另提供一種將工程資料線上特徵化的系統,其包括:伺服器,該伺服器包括處理器,所述處理器包括儲存單元以及處理單元。該儲存單元供接收來自客戶端所輸入之原始工程資料並將該原始工程資料儲存;其中該處理單元供讀取來自該儲存單元的該原始工程資料並將該原始工程資料以前述的方法進行處理而得到多個經篩選的特徵。
為進一步瞭解本發明,以下舉較佳之實施例,配合圖式、圖號,將本發明之具體構成內容及其所達成的功效詳細說明如下。
A、A1、A2、B1、B2、C1、C2、C3、C4、a、b、c、d、d1、d2:步驟
1:處理器
11:判斷單元
12:統計單元
13:處理單元
2:將工程資料線上特徵化的系統
第1圖為本發明之用於對工程資料進行篩選以得到特徵的方法之實施例的流程圖。
第2圖為本發明之對工程資料進行多次篩選以得到特徵的方法之實施例的流程圖。
第3圖為本發明之對工程資料中之特徵進行篩選的系統之實施例之示意圖。
第4圖為本發明之將工程資料線上特徵化的系統之實施例之示意圖。
第5圖為本發明之用於對工程資料進行篩選以得到特徵的方法之實施例的原始工程資料表。
第6圖為本發明之用於對工程資料進行篩選以得到特徵的方法之實施例經時序抽樣處理後工程資料表。
第7圖為本發明之用於對工程資料進行篩選以得到特徵的方法之實施例的將工程資料經時間特徵生成。
第8圖與第9圖為本發明之用於對工程資料進行篩選以得到特徵的方法之實施例
第10圖為本發明之用於對工程資料進行篩選以得到特徵的方法之實施例的將工程資料經特徵相關性統計。
第11圖為本發明之用於對工程資料進行篩選以得到特徵的方法之實施例的將工程資料經關連特徵生成。
第12-15圖為本發明之用於對工程資料進行篩選以得到特徵的方法之實施例的將工程資料經特徵過濾。
第16圖為本發明之用於對工程資料進行篩選以得到特徵的方法之實施例的將工程資料經篩選後保留的特徵。
請參考第1圖,本發明提供一種對工程資料進行篩選以得到特徵的方法,其包括:
A:判斷工程資料為數值型資料或類別型資料,若該工程資料為數值型資
料,則進行步驟A1,若判斷該工程資料為類別型資料,則進行步驟A2;
其中所述步驟A1、A2如下:
A1:將該數值型資料中之每一類別與其對應的多個欄位進行柯爾莫哥洛夫-斯米爾諾夫檢驗(Kolmogorov-Smirnov Test),藉以確認該工程資料是否為常態分佈;若檢驗結果為常態分佈,則執行一步驟B1,若檢驗結果為非常態分佈,則執行一步驟B2;
A2:將該類別型資料中之每一類別與其對應的多個欄位進行克雷莫V係數檢定而得到多個門檻值所組成的第一門檻值群組,然後進行一步驟C1;
其中所述步驟B1、B2如下:
B1:將該數值型資料中之每一類別與其對應的多個欄位進行T-test檢定而得到多個門檻值所組成的第二門檻值群組;然後進行步驟C2;
B2:分別檢定該數值型資料中之每一類別所對應的多個欄位之離散度;若判斷該每一類別所對應的多個欄位之離散度超過一預設值,則進行K-L散度(Kullback-Leibler divergence)檢定而得到多個門檻值所組成的第三門檻值群組,然後進行步驟C3;若判斷該數值型資料中之每一類別所對應的多個欄位之離散度未超過一預設值,則進行Mann-Whitney U test而得到多個門檻值所組成的第四門檻值群組,然後進行步驟C4;
其中所述步驟C1、C2、C3、C4如下:
C1:分別檢查該等類別中之每一者是否達到該第一門檻值群組中所對應的門檻值,將有達到門檻值的類別定義為一特徵;
C2:分別檢查該等類別中之每一者是否達到該第二門檻值群組中對應的門檻值,將有達到門檻值的類別定義為一特徵;
C3:分別檢查該等類別中之每一者是否達到該第三門檻值群組中對應的門檻值,將有達到門檻值的類別定義為一特徵;
C4:分別檢查該等類別中之每一者是否達到該第四門檻值群組中對應的門檻值,將有達到門檻值的類別定義為一特徵。
請參考第3圖,本發明另提供一種對工程資料中進行篩選以得到特徵的系統,其包括處理器1,該處理器1包括:判斷單元11、統計單元12與處理單元13。判斷單元11供判斷一工程資料為數值型資料或類別型資料;統計單元12供若該判斷單元11判斷該工程資料為數值型資料,則將該工程資料中之每一類別與其對應的多個欄位進行柯爾莫哥洛夫-斯米爾諾夫檢驗(Kolmogorov-Smirnov Test),藉以確認該工程資料是否為常態分佈。若該判斷單元11判斷該工程資料非為數值型資料,則該統計單元12將該工程資料中之每一類別與其對應的多個欄位進行克雷莫V係數檢定而得到多個門檻值所組成的第一門檻值群組;其中若該統計單元12之檢驗結果為常態分佈,則該統計單元12將該工程資料中之每一類別與其對應的多個欄位進行T-test檢定而得到多個門檻值所組成的第二門檻值群組。若該統計單元12的檢驗結果為非常態分佈,則該統計單元12分別檢定每一類別所對應的多個欄位之離散度;若統計單元12判斷該每一類別所對應的多個欄位之離散度超過一預設值,則進行K-L散度(Kullback-Leibler divergence)檢定而得到多個門檻值所組成的第三門檻值群組。若該統計單元12判斷每一類別所對應的多個欄位之離散度未超過一預設值,則進行Mann-Whitney U test而得到多個門檻值所組成的第四門檻值群組。該處理單元13供分別檢查該等類別中之每一者是否達到該第一、第二、第三、第四門檻值群組中所
對應的門檻值,將有達到門檻值的類別定義為一特徵。
以下詳述本發明的方法與系統。首先,本發明對工程資料進行篩選以得到特徵的方法與系統乃是供處理各種工程資料的方法與系統,工程資料的類型包括但不限於;金融工程、化學工程、機械工程、生醫工程等各領域的工程資料。首先,於該步驟A中,該判斷單元11判斷工程資料為數值型資料或類別型資料。若該工程資料為數值型資料,則進行步驟A1,若該判斷單元11判斷該工程資料為類別型資料,則進行步驟A2。所述步驟A1、A2說明如下。於該步驟A1中,以該統計單元12將該數值型資料中之每一類別與其對應的多個欄位進行柯爾莫哥洛夫-斯米爾諾夫檢驗(Kolmogorov-Smirnov Test),藉以確認該工程資料是否為常態分佈;若檢驗結果為常態分佈,則執行步驟B1,若檢驗結果為非常態分佈,則執行步驟B2。柯爾莫哥洛夫-斯米爾諾夫檢驗(以下簡稱KS-test)是統計學上的數據分析方法,其專門針對分佈型數值型資料(distributed data set)進行檢定,而非對離散數據。KS-test不需對數值型資料之分佈做任何假設且對數值型資料之CDF(累計分佈函數曲線)的形狀及位置敏銳度高,能準確評估數值型資料間的相對分佈。若檢驗結果為常態分佈(p值>0.05),則執行該步驟B1,若檢驗結果為非常態分佈(p值<0.05),則執行該步驟B2。
再,於該步驟A2中,該統計單元12將該類別型資料中之每一類別與其對應的多個欄位進行克雷莫V係數檢定而得到多個門檻值所組成的第一門檻值群組,然後進行步驟C1。對於與卡方檢定(Chi-Square test)相關的統計檢定而言,此類統計檢定所使用的強度檢定就為克雷莫V係數檢定,克雷莫V係數檢定會對每個該類別型資料中之每一類別分別產生第一門
檻值,該等第一門檻值用於衡量至少兩類別間中的多個欄位之間的相關程度。
該步驟B1、B2說明如下。於該B1步驟中,該統計單元12將該數值型資料中之每一類別與其對應的多個欄位進行T-test檢定而得到多個門檻值所組成的第二門檻值群組;然後進行步驟C2。T-test檢定的預設條件為類別所對應的欄位(依變數)為連續變數、類別所對應的欄位是從母群體中隨機抽樣而得;且母群體是為常態分佈。由於本發明與此步驟中之數值型資料已經經過KS-test,所以是符合T-test的預設條件。再,於步驟B2中,該統計單元12分別檢定該數值型資料中之每一類別所對應的多個欄位之離散度。若判斷該每一類別所對應的多個欄位之離散度超過一預設值,則該統計單元12進行K-L散度檢定而得到多個門檻值所組成的第三門檻值群組,然後進行步驟C3。K-L散度檢定乃是用於評估當使用一種假設分佈來近似另一種假設分佈時所損失的資訊量。若該統計單元12判斷該數值型資料中之每一類別所對應的多個欄位之離散度未超過一預設值,則進行Mann-Whitney U test而得到多個門檻值所組成的第四門檻值群組,然後進行步驟C4。該統計單元12進行Mann-Whitney U test檢定的目的是比較至少兩個隨機樣本之差異而推論到兩個母群體間的差異。做推論之依據是以工程資料所組成之抽樣分配為基礎,根據樣本中變項分數之等級,計算出檢定統計值U。
所述步驟C1、C2、C3、C4分別如下。於步驟C1中,該處理單元13分別檢查該等類別中之每一者是否達到該第一門檻值群組中所對應的門檻值,將有達到門檻值的類別定義為一特徵。於步驟C2中,該處理單
元13分別檢查該等類別中之每一者是否達到該第二門檻值群組中對應的門檻值,將有達到門檻值的類別定義為一特徵。於步驟C3中,該處理單元13分別檢查該等類別中之每一者是否達到該第三門檻值群組中對應的門檻值,將有達到門檻值的類別定義為一特徵。於步驟C4中,該處理單元13分別檢查該等類別中之每一者是否達到該第四門檻值群組中對應的門檻值,將有達到門檻值的類別定義為一特徵。
本發明前述技術方案乃是利用統計分析方法比對多個資料集中各特徵相似性,去除不相似的工程資料,且同時適用於工程資料中的數值型與類別型類別,藉以不使用習知技術中的各種演算法如:經大量資料訓練的演算法來尋找、評估工程資料中的特徵也能達到使用演算法尋找的高效之技術效果。於本發明的其他實施例中,機械製造領域的工程數據常用U-Test(在同台或同類型備數據值相近的條件下),醫療領域的工程數據常用U-Test(類似儀器判斷值數值相近),而金融領域的工程數據常用K-L test,因為金融工程的數值變化在不同日期、不同地區都有差異。
在另一實施例中,於該步驟A中更包括:判斷工程資料為數值型資料或類別型資料,若該工程資料為數值型資料,將該數值型資料進行分為兩個群組並將該兩個群組進行相似性檢定,留下該數值型資料中具有顯著性的類別與其所對應的欄位後進行該步驟A1。本發明的相似性分析用於分類、聚類的資料處理流程。相似性需依據工程數據本身的屬性取值而加以分析,包括:屬性值處理、相似性度量標準等。若判斷該工程資料為類別型資料,將該類別型資料進行分為兩個群組並將該兩個群組進行相似性檢定,留下該類別型資料中具有顯著性的類別與其所對應的欄位後進
行該步驟A2。本發明相似性度量標準包括:歐氏距離(Euclidean Distance)、曼哈頓距離(Manhattan Distance)、切比雪夫距離(Chebyshev Distance)、閔可夫斯基距離(Minkowski Distance)、標準化歐氏距離(Standardized Euclidean distance)、馬氏距離(Mahalanobis Distance)、夾角餘弦(Cosine)、漢明距離(Hamming distance)、傑卡德距離(Jaccard distance)與傑卡德相似係數(Jaccard similarity coefficient)、相關係數(Correlation coefficient)與相關距離(Correlation distance)、信息熵(Information Entropy)等,在此不贅述。
請參考第2圖,本發明另提供一種對工程資料進行多次篩選以得到特徵的方法,其包括:
a.對一工程資料進行資料清理,其包含:
b.補償該工程資料中的欄位缺失值;從該工程資料產生多個欄位資料群,其中該等欄位資料群包括:一時間欄位資料群、一領域欄位資料群或一關聯欄位資料群;其中該產生領域欄位資料群的步驟包含:對一數值欄位資料群或一類別欄位資料群進行拆解與組合而產生該領域欄位資料群;
其中該產生關聯欄位資料群的步驟包含:以關聯性統計檢定從該數值欄位資料群與類別欄位資料群中具有顯著正或負相關者;以及將該具有顯著正或負相關者進行運算及組合而產生關聯欄位資料群;
c.將該等時間欄位資料群、領域欄位資料群或關聯欄位資料群以前述對工程資料進行篩選以得到特徵的方法之實施例進行篩選,而得到經多次篩選的特徵。
以下詳述本發明對工程資料進行多次篩選以得到特徵的方
法。首先,於該步驟a中,對工程資料,包括:金融工程、化學工程、機械工程、生醫工程等各領域的工程資料進行資料清理,資料清理乃是資料科學(DS)或機器學習(ML)的首要步驟,以便後續的步驟中能夠逐步找到真正關鍵的特徵。在另一實施例中,本發明進行資料清理的步驟包含:補償該工程資料中的欄位缺失值、去除該工程資料中欄位無變動的類別、檢查離群值資料群等。一般而言,各領域的工程資料很難是完整的,所以需要補償該工程資料中的欄位缺失值或去除該工程資料中欄位無變動的類別,以免影響後續訓練模型的建構以及找到沒有幫助的特徵而導致過度擬合。
再,在某些情況下,工程資料會隱藏著與主要資料非常不同的另幾種資料群,所以在其他實施例中,於該步驟a中,也需要檢查出離群值資料群單獨或分開處理。於該步驟a中,該補償該工程資料中的欄位缺失值的步驟包含:利用中位數補值、利用極小值補值、利用極大值補值、利用眾數補值、利用4分位數補值或利用其它相似列補值。在另一實施例中,於該步驟a中更包括去除該工程資料中欄位無變動的類別的步驟,例如,去除該等類別中所對應不同欄位但卻無變化者,藉以不讓此種類別不會影響到後續資料處理的分析與預測結果。
再,於步驟b中,從該工程資料找出多個欄位資料群,其中該等欄位資料群包括:時間欄位資料群、領域欄位資料群或關聯欄位資料群。該產生領域欄位資料群的步驟包含:對一數值欄位資料群或一類別欄位資料群進行拆解與組合而產生該領域欄位資料群。在一實施例中,該生成關聯欄位資料群的步驟包含:以關聯性統計檢定從該數值欄位資料群與類別欄位資料群中具有顯著正或負相關者;以及將該具有顯著正或負相關
者進行運算及組合而產生該關聯欄位資料群。再,於另一實施例中,產生前述數值欄位資料群的步驟包含;合併該等工程資料中之類別中之欄位所對應之欄位內的最大值、最小值、平均值、中位數或內眾數。於該步驟b中,更包括產生類別欄位資料群的步驟,其包含:合併該類別欄位資料群中的第一筆、合併該類別欄位資料群中的最後一筆、合併該類別欄位資料群中的中間筆、合併該類別欄位資料群中出現最多者或合併該類別欄位資料群中之有變化者。產生該時間欄位資料群的步驟包括:取該等欄位所對應的時間包含:年、月、日、星期、時、分、秒、或每15分。
請參考第4圖,本發明另提供一種將工程資料自動特徵化的系統,該系統2包括:伺服器。該伺服器包括一處理器,該處理器包括一儲存單元以及一處理單元,其中該儲存單元供接收來自客戶端所輸入之一原始工程資料並將該原始工程資料儲存;其中該處理單元供讀取來自該儲存單元的該原始工程資料並將該原始工程資料以請前述實施例所述的方法進行處理而得到多個經篩選的特徵。在其他實施例中,本發明所請求保護的方法可以設置於一雲端系統中,讓客戶端以網際網路或區域網路的方式讓客戶從遠端輸入工程資料,客戶端所輸入的原始工程資料經由本發明前述實施例中所述的方法篩選出重要的特徵。
以下係以機械工程領域的工程資料來說明本發明的方法與系統。請參考第5圖,第5圖的表列出一種刀具加工的原始工程資料,包括時間戳記、命令轉速、實際轉速、主軸電流、刀具補償比例、閒置原因等。再,請參考第6圖,第6圖列出將前述刀具加工的原始工程資料根據數據的取樣率,自動推算數據適合的時間頻率,進行數據時間合併。例如:取樣
率1秒的數據,自動合併成10秒1筆的數據等,因為根據採樣理論,取樣率必須比要觀察現象高至少10倍,才能觀察。
再,請參考第7圖,第7圖列出將前述刀具加工的原始工程資料中時間戳記進行產生該時間特徵的步驟包括:取該等欄位所對應的時間包含:年、月、日、星期、時、分、秒、或每15分。
在另一實施例中,於該步驟c之後更包括:於步驟d1中,將該等經篩選的特徵以至少一機器學習演算法進行對抗式學習以驗證該等經篩選的特徵的相似性。於步驟d2中,該等經篩選的特徵相似性不顯著者以網格搜索(Grid Search)調整該驗證相似性的門檻值,並重新進行步驟A1;保留該等經篩選的特徵相似性顯著者。機器學習中分類模型有非常多種,例如LR、SVM或XGBoost;以及深度學習模型CNN、LSTM等,然而,不同的模型都具有不同的參數設定需自行調整與選擇。當工程資料的數據量太大,網格搜索很容易成為一種消耗系統資源,所以本發明在經過前述多個步驟之後才使用網格搜索,大幅提昇網格搜索的效能。
再,於其他實施例中,前述其中該領域欄位資料群產生的步驟更包含:對該數值欄位資料群拆解與組合而產生該領域欄位資料群的步驟包含藉由該數值欄位資料群產生2進位單位數領域欄位資料群或產生10進位單位數領域欄位資料。該對該類別欄位資料群進行拆解與組合的步驟包含:將該類別欄位資料群中的字串進行分割而產生多個經分割的字串、統計該等經分割的字串中之每一者出現的次數,留下一次數門檻值以上的經分割的字串;以及將該等留下的經分割的字串中之每一者進行編碼,該等編碼中之每一者為彼此相異,使每一個編碼都具有獨立性,本發明藉以
從類別欄位資料群中產生新的、有意義的類別欄位資料。
再,請參考第8圖,其列出前述該生成領域欄位資料群的步驟:藉由該數值欄位資料群產生2進位單位數數值欄位資料群。再,請參考第9圖,其列出對數值欄位資料群進行拆解與組合而產生該領域欄位資料群的實施例。請參考第10圖,第10圖示出本發明之關聯欄位資料群產生的步驟:針對該數值型資料進行相關性檢定後,將具有顯著相關的數值型資料(p值<0.05),進行等加/減/乘/除、取LOG、取三角函數的角度等步驟產生第11圖之結果。例如,在第10圖中,將具有相關性的類別實際轉速最大乘以主軸電流最大值而產生領域欄位資料群。
在另一實施例中,該關聯欄位資料群產生的步驟更包含:將該數值型資料進行相關性檢定,將具有顯著正或負相關的數值型資料,進行下列運算而產生數值型欄位資料群。前述運算包括:加/減/乘/除、取LOG值、取各種三角函數的各種角度;或將該類別型資料群進行相關性檢定,包括卡方檢定相關系列檢定等,將具有顯著正或負相關的類別型欄位資料群進行下列運算而產生關聯欄位資料群。前述運算幫包括:將字串重新排列組合,例如,將字母A、B、C重新牌溜組合為ABC、ACB、BCA等;或將該經重新排列組合之字串中之每一者進行編碼而產生關聯欄位資料群,其中該等編碼中之每一者為彼此相異。例如,將字串AB、AC、分別對應110、101、111。
本發明另提供一種產生預測模型的方法,包括以下步驟。於步驟X中,將以本發明前述實施例中之方法所產生的經篩選的特徵標記為訓練群或測試群,訓練群用為測試資料,測試群作為測試資料;藉以確定本
發明的方法與系統所找出的特徵是否準確。再於步驟Y中將該等經篩選的特徵混合。再,於步驟Z中,透過至少一機器學習演算法區分該訓練群或該測試群,藉以由此建立一預測模型。
第12圖至第16圖示出本發明前述實施例中由步驟A開始至步驟C1、C2、C3與C4的過程。以處理單元13分別檢查該等類別中之每一者是否達到該第一、第二、第三、第四門檻值群組中所對應的門檻值,將有達到門檻值的類別定義為一特徵,沒有達到門檻值的類別則移除。例如,如第12圖所示,將超過所設定的相似性門檻值(0.5)經過KS-Test、U-Test的類別實際轉速最大值保留;移除未達到所設定的門檻值的實際轉速最小值。再,第12圖至第16圖中更列出了如本發明實施例中步驟d1、d2所述的將該等經篩選的特徵以至少一機器學習演算法進行對抗式學習以驗證該等經篩選的特徵的相似性的結果。例如,如第12圖所示,對抗式驗證的結果AUC的值為0.98,之後以網格搜索調整前述相似門檻值。請再參考第13圖,以調整後的相似性門檻值留下或移除類別,例如,類別中之命令轉速於此步驟中被移除。最後,請參考第16圖,直到AUC的值穩定後,得到本實施例最後篩選出的5個特徵。
因此,本發明具有以下之優點:
1.本發明較現有特徵篩選方法而言,從原始工程資料中增加時間合併及領域特徵分解處理。
2.本發明利用多個統計檢定的組合快速篩選與評估特徵,不需要利用耗時的多種演算法以及習知的關聯層數或模型檢驗就可以快速篩選出有效的特徵。
3.利用相似性來選擇特徵,可以有效去除高相關但低相似的特徵,減少後續模組過度擬合的現象,提升模型的準確率。
4.本發明自動化處理、達成與資料科學家相近的準確率、支援數值型與類別型的特徵以及提高找出有效特徵的效率
以上所述乃是本發明之具體實施例及所運用之技術手段,根據本文的揭露或教導可衍生推導出許多的變更與修正,仍可視為本發明之構想所作之等效改變,其所產生之作用仍未超出說明書及圖式所涵蓋之實質精神,均應視為在本發明之技術範疇之內,合先陳明。
綜上所述,依上文所揭示之內容,本發明確可達到發明之預期目的,提供一種對工程資料進行篩選以得到特徵的方法與系統、對工程資料進行多次篩選以得到特徵的方法、產生預測模型的方法以及將工程資料線上特徵化的系統,不需要利用複雜的演算法可以快速評估有效特徵,極具產業上利用之價植,爰依法提出發明專利申請。
A、A1、A2、B1、B2、C1、C2、C3、C4:步驟
Claims (12)
- 一種對工程資料進行篩選以得到特徵的方法,其包括:A:判斷一工程資料為數值型資料或類別型資料,若該工程資料為數值型資料,則進行一步驟A1,若判斷該工程資料為類別型資料,則進行一步驟 A2;其中該步驟A1、A2如下:A1:將該數值型資料中之每一類別與其對應的多個欄位進行柯爾莫哥洛夫-斯米爾諾夫檢驗(Kolmogorov-Smirnov Test),藉以確認該工程資料是否為常態分佈;若檢驗結果為常態分佈,則執行一步驟B1,若檢驗結果為非常態分佈,則執行一步驟B2;A2:將該類別型資料中之每一類別與其對應的多個欄位進行克雷莫V係數檢定而得到多個門檻值所組成的第一門檻值群組,然後進行一步驟C1;其中該步驟B1、B2如下:B1:將該數值型資料中之每一類別與其對應的多個欄位進行T-test檢定而得到多個門檻值所組成的第二門檻值群組;然後進行一步驟C2;B2:分別檢定該數值型資料中之每一類別所對應的多個欄位之離散度;若判斷該每一類別所對應的多個欄位之離散度超過一預設值,則進行K-L散度(Kullback-Leibler divergence)檢定而得到多個門檻值所組成的第三門檻值群組,然後進行一步驟C3;若判斷該數值型資料中之每一類別所對應的多個欄位之離散度未超過一預設值,則進行Mann-Whitney U test而得到多個門檻值所組成的第四門檻值群組,然後進行一步驟C4;其中該步驟C1、C2、C3、C4如下:C1:分別檢查該等類別中之每一者是否達到該第一門檻值群組中所對應的門檻值,將有達到門檻值的類別定義為一特徵;C2:分別檢查該等類別中之每一者是否達到該第二門檻值群組中對應的門檻值,將有達到門檻值的類別定義為一特徵;C3:分別檢查該等類別中之每一者是否達到該第三門檻值群組中對應的門檻值,將有達到門檻值的類別定義為一特徵;C4:分別檢查該等類別中之每一者是否達到該第四門檻值群組中對應的門檻值,將有達到門檻值的類別定義為一特徵。
- 如請求項1所述的方法,其中於該步驟A更包括:判斷一工程資料為數值型資料或類別型資料,若該工程資料為數值型資料,將該數值型資料進行分為兩個群組,並將該兩個群組進行相似性檢定,留下該數值型資料中具有顯著性的類別與其所對應的欄位後,進行該步驟A1;若判斷該工程資料為類別型資料,將該類別型資料進行分為兩個群組並將該兩個群組進行相似性檢定,留下該類別型資料中具有顯著相同的類別與其所對應的欄位後進行該步驟A2。
- 一種對工程資料進行多次篩選以得到特徵的方法,其包括a.對一工程資料進行資料清理,其包含:補償該工程資料中的欄位缺失值;b.從該工程資料產生多個欄位資料群,其中該等欄位資料群包括:一時間欄位資料群、一領域欄位資料群或一關聯欄位資料群;其中該產生領域欄位資料群的步驟包含:對一數值欄位資料群或一 類別欄位資料群進行拆解與組合而產生該領域欄位資料群;其中該產生關聯欄位資料群的步驟包含:以關聯性統計檢定從該數值欄位資料群與類別欄位資料群中具有顯著正或負相關者;以及將該等具有顯著正或負相關者進行運算及組合而產生關聯欄位資料群;c.將該等時間欄位資料群、領域欄位資料群或關聯欄位資料群以如 請求項1所述的方法進行篩選,而得到經多次篩選的特徵。
- 如請求項3所述的方法,於該步驟c之後更包括:d1:將該等經篩選的特徵以至少一機器學習演算法進行對抗式學習以驗證該等經篩選的特徵的相似性;以及d2:該等經篩選的特徵相似性不顯著者以網格搜索(Grid Search)調整該驗證相似性的門檻值,並重新進行步驟A1;保留該等經篩選的特徵相似性顯著者。
- 如請求項3所述的方法,其中於該步驟a中,該補償該工程資料中的欄位缺失值的步驟包含:利用中位數補值、利用極小值補值、利用極大值補值、利用眾數補值、利用4分位數補值或利用其它相似列補值;其中於該步驟a中更包括去除該等類別中所對應不同欄位但卻無變化者。
- 如請求項3所述的方法,其中於該步驟b中更包括產生一類別欄位資料群的步驟,其包含:合併該類別欄位資料群中的第一筆、合併該類別欄位資料群中的最後一筆、合併該類別欄位資料群中的中間 筆、合併該類別欄位資料群中出現最多者或合併該類別欄位資料群中之有變化者。
- 如請求項3所述的方法,其中於該步驟b中更包括更包括產生該時間欄位資料群的步驟包括:取該等欄位所對應的時間包含:年、月、日、星期、時、分、秒或每15分。
- 如請求項3所述的方法,其中該生成產生領域欄位資料群的步驟更包含:對該數值欄位資料群拆解與組合而產生該領域欄位資料群的步驟包含:藉由該數值欄位資料群產生2進位的單位數領域欄位資料群或產生10進位的單位數領域欄位資料;對該類別欄位資料群進行拆解與組合的步驟包含:將該類別欄位資料群中的字串進行分割而產生多個經分割的字串;統計該等經分割的字串中之每一者出現的次數,留下一次數門檻值以上的經分割的字串;以及將該等留下的經分割的字串中之每一者進行編碼,該等編碼中之每一者是為彼此相異。
- 如請求項3所述的方法,其中該關聯欄位資料群產生的步驟更包含:對該數值欄位資料群進行相關性檢定,將具有顯著正或負相關的數值欄位資料,進行下列運算而產生關聯欄位資料群:加、減、乘、除、取LOG值、取三角函數的角度;或對該類別型欄位資料群進行相關性檢定,將具有顯著正或負相關的類別 型欄位資料群進行下列運算而產生關聯欄位資料群:將字串重新排列組合;或將該經重新排列組合之字串中之每一者進行編碼而產生關聯欄位資料群,其中該等編碼中之每一者為彼此相異。
- 一種產生預測模型的方法,包括:X:將以請求項1至請求項9中任一項所述之方法所產生的特徵標記為一訓練群或一測試群;Y:將該等經篩選的特徵混合;Z:透過至少一機器學習演算法區分該訓練群或該測試群,藉以建立一預測模型。
- 一種對工程資料進行篩選以得到特徵的系統,其包括:一處理器,該處理器包含一判斷單元、一統計單元以及一處理單元;其中該判斷單元供判斷一工程資料為數值型資料或類別型資料;其中該統計單元供若該判斷單元判斷該工程資料為數值型資料,則將該工程資料中之每一類別與其對應的多個欄位進行柯爾莫哥洛夫-斯米爾諾夫檢驗(Kolmogorov-Smirnov Test),藉以確認該工程資料是否為常態分佈;其中若該判斷單元判斷該工程資料非為數值型資料,則該統計單元將該工程資料中之每一類別與其對應的多個欄位進行克雷莫V係數檢定而得到多個門檻值所組成的第一門檻值群組;其中若該統計單元之檢驗結果為常態分佈,則該統計單元將該工程資料中之每一類別與其對應的多個欄位進行T-test檢定而得到多個門檻值所組成的第二門檻值群組;其中若該統計單元的檢驗結果為非常態分佈,則該統計單元分別檢定每一類別所對應的多個欄位之離散度;若統計單元判斷該每一類別所對應的多個欄位之離散度超過一預設值,則進行K-L散度(Kullback-Leibler divergence)檢定而得到多個門檻值所組成的第三門檻值群組;若該統計單元判斷每一類別所對應的多個欄位之離散度未超過一預設值,則進行Mann-Whitney U test而得到多個門檻值所組成的第四門檻值群組;其中該處理單元供分別檢查該等類別中之每一者是否達到該第一、第二、第三、第四門檻值群組中所對應的門檻值,將有達到門檻值的類別定義為特徵。
- 一種將工程資料線上特徵化的系統,其包括:一伺服器,其包括一處理器,該處理器包括一儲存單元以及一處理單元,其中該儲存單元供接收來自客戶端所輸入之一原始工程資料並將該原始工程資料儲存;其中該處理單元供讀取來自該儲存單元的該原始工程資料並將該原始工程資料以請求項1至9中任一項所述的方法進行處理而得到特徵。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| TW109145986A TWI755995B (zh) | 2020-12-24 | 2020-12-24 | 對工程資料進行篩選以得到特徵的方法與系統、對工程資料進行多次篩選以得到特徵的方法、產生預測模型的方法以及將工程資料線上特徵化的系統 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| TW109145986A TWI755995B (zh) | 2020-12-24 | 2020-12-24 | 對工程資料進行篩選以得到特徵的方法與系統、對工程資料進行多次篩選以得到特徵的方法、產生預測模型的方法以及將工程資料線上特徵化的系統 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| TWI755995B true TWI755995B (zh) | 2022-02-21 |
| TW202226007A TW202226007A (zh) | 2022-07-01 |
Family
ID=81329424
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| TW109145986A TWI755995B (zh) | 2020-12-24 | 2020-12-24 | 對工程資料進行篩選以得到特徵的方法與系統、對工程資料進行多次篩選以得到特徵的方法、產生預測模型的方法以及將工程資料線上特徵化的系統 |
Country Status (1)
| Country | Link |
|---|---|
| TW (1) | TWI755995B (zh) |
Cited By (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN118051763A (zh) * | 2024-04-16 | 2024-05-17 | 湖南麓川信息科技有限公司 | 一种基于深度学习的大数据特征析取方法及系统 |
| TWI882504B (zh) * | 2023-11-01 | 2025-05-01 | 高雄榮民總醫院 | 建立ai預測模型的電腦程式及電腦可讀取媒體 |
Citations (6)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| TW201232297A (en) * | 2011-01-28 | 2012-08-01 | Univ Nat Sun Yat Sen | Fuzzy self-constructing feature clustering algorithm for text classification |
| CN103020288A (zh) * | 2012-12-28 | 2013-04-03 | 大连理工大学 | 一种动态数据环境下的数据流分类方法 |
| TWI592810B (zh) * | 2016-08-30 | 2017-07-21 | 力晶科技股份有限公司 | 衡量二元資料於時間等級的群聚級別的無母數分析方法 |
| TWI638275B (zh) * | 2017-04-12 | 2018-10-11 | 哈沙斯特醫學研發有限公司 | 跨平台臨床醫療數據分析及顯示系統 |
| TWI681304B (zh) * | 2018-12-14 | 2020-01-01 | 財團法人工業技術研究院 | 自適應性調整關連搜尋詞的系統及其方法 |
| US10824607B2 (en) * | 2016-07-21 | 2020-11-03 | Ayasdi Ai Llc | Topological data analysis of data from a fact table and related dimension tables |
-
2020
- 2020-12-24 TW TW109145986A patent/TWI755995B/zh active
Patent Citations (6)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| TW201232297A (en) * | 2011-01-28 | 2012-08-01 | Univ Nat Sun Yat Sen | Fuzzy self-constructing feature clustering algorithm for text classification |
| CN103020288A (zh) * | 2012-12-28 | 2013-04-03 | 大连理工大学 | 一种动态数据环境下的数据流分类方法 |
| US10824607B2 (en) * | 2016-07-21 | 2020-11-03 | Ayasdi Ai Llc | Topological data analysis of data from a fact table and related dimension tables |
| TWI592810B (zh) * | 2016-08-30 | 2017-07-21 | 力晶科技股份有限公司 | 衡量二元資料於時間等級的群聚級別的無母數分析方法 |
| TWI638275B (zh) * | 2017-04-12 | 2018-10-11 | 哈沙斯特醫學研發有限公司 | 跨平台臨床醫療數據分析及顯示系統 |
| TWI681304B (zh) * | 2018-12-14 | 2020-01-01 | 財團法人工業技術研究院 | 自適應性調整關連搜尋詞的系統及其方法 |
Cited By (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| TWI882504B (zh) * | 2023-11-01 | 2025-05-01 | 高雄榮民總醫院 | 建立ai預測模型的電腦程式及電腦可讀取媒體 |
| CN118051763A (zh) * | 2024-04-16 | 2024-05-17 | 湖南麓川信息科技有限公司 | 一种基于深度学习的大数据特征析取方法及系统 |
| CN118051763B (zh) * | 2024-04-16 | 2024-07-05 | 湖南麓川信息科技有限公司 | 一种基于深度学习的大数据特征析取方法及系统 |
Also Published As
| Publication number | Publication date |
|---|---|
| TW202226007A (zh) | 2022-07-01 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CN115357764B (zh) | 一种异常数据检测方法及装置 | |
| CN111914090B (zh) | 一种企业行业分类识别及其特征污染物识别的方法及装置 | |
| CN110245802B (zh) | 基于改进梯度提升决策树的卷烟空头率预测方法及系统 | |
| Sawatsky et al. | Partial least squares regression in the social sciences | |
| JP2020500420A (ja) | マシンラーニング基盤の半導体製造の収率予測システム及び方法 | |
| EP3514700A1 (en) | Dynamic outlier bias reduction system and method | |
| Deming et al. | Exploratory data analysis and visualization for business analytics | |
| CN107168995B (zh) | 一种数据处理方法及服务器 | |
| US20140258987A1 (en) | Determining correctness of an application | |
| JP4627674B2 (ja) | データ処理方法及びプログラム | |
| WO2020029851A1 (zh) | 一种基于工作流的振动光谱分析模型优化方法 | |
| CN113454661A (zh) | 产品不良成因分析的系统和方法、计算机可读介质 | |
| TWI755995B (zh) | 對工程資料進行篩選以得到特徵的方法與系統、對工程資料進行多次篩選以得到特徵的方法、產生預測模型的方法以及將工程資料線上特徵化的系統 | |
| CN113283512A (zh) | 数据异常检测方法、装置、设备及存储介质 | |
| CN105184078A (zh) | 基于专利相对量分析的技术成熟度评价方法 | |
| CN119557607A (zh) | 基于大数据和区块链多维特征的数据溯源方法及系统 | |
| Ou et al. | First time quality diagnostics and improvement through data analysis: A study of a crankshaft line | |
| CN107644145B (zh) | 一种基于蒙特卡洛和决策逻辑的故障行为仿真方法 | |
| CN114066049A (zh) | 一种用户投诉行为预测方法、系统、设备及介质 | |
| CN116933119A (zh) | 一种基于卷积神经网络的信号数据去除趋势方法 | |
| CN114037137A (zh) | 对象预测方法、系统及介质 | |
| CN110175191B (zh) | 数据分析中的数据过滤规则建模方法 | |
| CN117453805B (zh) | 一种不确定性数据的可视化分析方法 | |
| CN112927012A (zh) | 营销数据的处理方法及装置、营销模型的训练方法及装置 | |
| CN118965968A (zh) | 一种焊接用导电嘴铜管制造优化方法及系统 |