TWI748749B

TWI748749B - 短文自動化萃取分類及關鍵字方法及採用該方法之裝置

Info

Publication number: TWI748749B
Application number: TW109139905A
Authority: TW
Inventors: 張凱喬; 黃戎歆; 曾文彥
Original assignee: 威聯通科技股份有限公司
Priority date: 2020-11-16
Filing date: 2020-11-16
Publication date: 2021-12-01
Also published as: TW202221528A; CN114510565A; CN114510565B

Abstract

本發明揭露一種短文自動化萃取分類及關鍵字方法，包含輸入複數個短文；對該複數個短文進行一預處理，以產生複數個預處理短文；根據一文本主題分析模型，將該複數個預處理短文分為不同主題之複數個類別，並輸出該複數個預處理短文及相對應複數個類別標籤；根據該複數個預處理短文、該複數個類別標籤、一開源詞向量預訓練集及一配適度演算法，萃取該複數個類別之相對應複數組關鍵字；以及根據該複數個類別及該複數組關鍵字，建立一詞向量短文分類器。

Description

短文自動化萃取分類及關鍵字方法及採用該方法之裝置

本發明係指一種短文自動化萃取分類及關鍵字方法，尤指一種可在小樣本量透過關鍵字進行詞向量分類訓練的短文自動化萃取分類及關鍵字方法。

目前的短文分類模型之訓練數據集多為新聞資料庫，且大多係應用於新聞採集或網路輿情分析等，其特性包含文本數量充足、文章的主題一致、句法結構清楚等，因此適合用習知技術之訓練詞向量與分類器方法進行分類。

然而，針對一般企業處理客服進件時(如電子郵件或訊息提問)，由於進件量較少(如界於10到100萬筆之間)不易執行一般的聚類與分類的自然語言處理(Natural Language Processing，NLP)模型，習知技術訓練詞向量及分類器進行分類僅適用於大樣本數，另外，習知技術由機器學習所訓練得出的分類器較耗費時間與資源，且建立後無法依需求再進行微調，如果因應業務需求而要新增產品名稱或功能名稱等關鍵字時，僅能重新進行訓練而缺乏彈性。

有鑑於此，習知技術實有改進之必要。

因此，本發明之短文自動化萃取分類及關鍵字方法及裝置之主要目的在於藉由使用配適度演算法遴選出最佳候選關鍵字做為特定類別所對應之關鍵字，使得該組關鍵字從詞向量分析之角度足以代表大部分短文的重點，俾於能在小樣本量透過關鍵字進行詞向量分類。

本發明之短文自動化萃取分類及關鍵字方法及裝置之另一主要目的在於藉由引入開源詞向量預訓練字詞集以解決先前技術採用字詞向量訓練在小樣本數中分析效率不佳的問題。

本發明之短文自動化萃取分類及關鍵字方法及裝置之又一主要目的具有關鍵字萃取模組能對被合併類別之關鍵字再次萃取及進行更新，用於修正習知技術類別關鍵字代表性不彰之問題。

本發明之短文自動化萃取分類及關鍵字方法及裝置之又一主要目的在於相較習知技術執行分類時，本發明不需訓練詞向量及透過機器學習訓練分類器俾於達到節省系統資源之目的。

本發明之短文自動化萃取分類及關鍵字方法及裝置之又一主要目的在於藉由採用開源詞向量預訓練集且搭配適度演算法，取出最佳之複數組關鍵字並結合詞向量相似度分類模組進行分類，俾於在未來需要進行關鍵字調整時(譬如因應業務需求要新增產品名稱或功能名稱)，不須重新進行訓練俾於達到更敏捷、更有彈性之目的。

10:短文自動化萃取分類及關鍵字裝置

102:前處理模組

104:短文主題分類模組

106:關鍵字萃取模組

108:關鍵字合併模組

110:相似度分類模組

12:輸入裝置

14:輸出裝置

T1~Tm:短文

T1’~Tm’:預處理短文

C1~Cn:類別

TI1~TIm:類別標籤

KW1~KWn:關鍵字

60:流程

600~612:步驟

第1圖為本發明實施例一短文自動化萃取分類及關鍵字裝置之示意圖。

第2圖至第5圖為本發明實施例第1圖所示短文自動化萃取分類及關鍵字裝置之操作示意圖。

第6圖為本發明實施例一短文自動化萃取分類及關鍵字流程之示意圖。

請參考第1圖，第1圖為本發明實施例一短文自動化萃取分類及關鍵字裝置10之示意圖。如第1圖所示，短文自動化萃取分類及關鍵字裝置10包含一前處理模組102、一短文主題分類模組104、一關鍵字萃取模組106、一關鍵字合併模組108以及一相似度分類模組110。簡單來說，一輸入裝置12輸入短文T1~Tm至前處理模組102，前處理模組102對短文T1~Tm進行分詞、停用詞、大小寫、詞性還原、動詞型態處理等預處理，以產生預處理短文T1’~Tm’；短文主題分類模組104可根據一文本主題分析模型，將預處理短文T1’~Tm’分為不同主題的類別C1~Cn，並輸出預處理短文T1’~Tm’及相對應類別標籤TI1~Tim；關鍵字萃取模組106根據預處理短文T1’~Tm’、類別標籤TI1~TIm、一開源詞向量預訓練集及一配適度演算法，萃取類別C1~Cn之相對應關鍵字KW1~KWn；關鍵字合併模組108判斷關鍵字KW1~KWn之間之向量距離，並將類別C1~Cn中所對應關鍵字之向量距離小於一門檻之類別進行合併；關鍵字萃取模組106對被類別C1~Cn中合併類別再次萃取關鍵字進行更新，以修正被合併類別關鍵字代表性不彰之問題。最後，相似度分類模組110可根據關鍵字KW1~KWn及其詞向量計算距離，建立一詞向量短文分類器並提供至一輸出裝置14，提高後續小樣本數短文之關鍵字與分類識別準確率(如計算後續特定短文與關鍵字KW1~KWn中何組關鍵字相似度最高，則判斷特定短文屬於相對應類別)。如此一來，本發明可在小樣本量透過關鍵字做詞向量分類而較具彈性，且不需訓練詞向量及分類器而簡省資源。

具體而言，請參考第2圖至第5圖，第2圖至第5圖為本發明實施例短文自動化萃取分類及關鍵字裝置10之操作示意圖。如第2圖所示，短文T1~T6經前處理模組102進行分詞處理、停用詞處理、大小寫處理、詞性還原處理、動詞型態處理等預處理後，可產生僅具重要文字及適合處理之預處理短文T1’~T6’並提供給預處理短文主題分類模組104，預處理為本領域通常技術者所熟知，於此不再贅述。接著，如第3圖所示，短文主題分類模組104將預處理短文T1’~T6’分為類別C1~C4，並決定相對應類別標籤TI1~TI6分別為類別C1、C2、C2、C3、C1、C4，而可將短文進行主體分類而將相近主題短文放在同一類別，然後關鍵字萃取模組106萃取類別C1~C4之相對應關鍵字KW1~KW4以代表各類別。然後，如第4圖所示，關鍵字合併模組108判斷關鍵字KW2、KW3之向量距離小於門檻而將類別C3併入類別C2，以將接近的類別合併，再由關鍵字萃取模組106對合併後類別C2萃取關鍵字，即如第5圖所示更新關鍵字KW2(原本類別標籤TI4亦更新為類別C2)。

詳細來說，短文主題分類模組104之文本主題分析模型可包含一狄利克雷多項式混合模型的吉布斯採樣算法(Gibbs Sampling Dirichlet Multinomial Mixture Model，GSDMM)、一狄利克雷多項式混合模型(Dirichlet Mixture Model，DMM)、一應用GPU改善狄利克雷多項式混合模型(Generalized Polya Urn-Dirichlet Multinomial Mixture，GPU-DMM)、一隱含狄利克雷分佈模型(Latent Dirichlet Allocation，LDA)、一主題代表詞發現(Topic Representative Term Discovery，TRTD)、一雙詞主題模型(Biterm Topic Model，BTM)、一隱含語意索引(Latent Semantic Indexing，LSI)以及一潛在語義分析(Latent Semantic Analysis，LSA)當中至少一者。舉例來說，GSDMM先隨機將預處理短文T1’~Tm’分群，然後再依移動各短文直到不同主題的類別C1~Cn中各類別中短文性質相似為止，GSDMM及其它作法為本領域所熟知，於此不再贅述以求簡潔。

另一方面，關鍵字萃取模組106中開源詞向量預訓練集可包含預訓練集wiki-news-300d-1M.vec、wiki-news-300d-1M-subword、crawl-300d-2M.vec以及crawl-300d-2M-subword當中至少一者，針對於小樣本數，字詞向量訓練無法有好的效果，因此透過引入開源詞向量預訓練字詞集，以提升分析效率，開源詞向量預訓練集亦為本領域所熟知，於此不再贅述以求簡潔。

在此情況下，關鍵字萃取模組106執行配適度演算法，根據類別C1~Cn中一特定類別所對應複數組候選關鍵字之複數個相似度加總或複數個通過門檻短文比例當中至少一者，決定該特定類別所對應之關鍵字。詳細來說，關鍵字萃取模組106根據開源詞向量預訓練集，計算各組候選關鍵字與特定類別中所有預處理短文之相似度，然後將相似度加總或設定一門檻(如0.3)再計算通過門檻短文比例(如相似度大於0.3之短文數為70，而特定類別中所有短文數為100，則通過門檻短文比例為0.7)，接著將特定類別中具有最高相似度加總或一最高通過門檻短文比例之一最佳候選關鍵字做為特定類別所對應之關鍵字。其中，關鍵字與短文之相似度之計算係將其映射到向量空間，再計算不同的向量之差異之大小來計算相似度，如[“hello”,“world”]/[“hi”,“world”]可計算出相似度為0.76，相似度計算亦為本領域所熟知，於此不再贅述以求簡潔。

值得注意的是，上述實施例主要在於執行配適度演算法，以將特定類別中具有最高相似度加總或一最高通過門檻短文比例之候選關鍵字做為特定類別所對應之關鍵字，以萃取類別C1~Cn之相對應關鍵字KW1~KWn，再建立一詞向量短文分類器對後續短文進行分類，本領域具通常知識者當可據以進行修飾或變化，而不限於此。舉例來說，上述實施例在第一次萃取類別C1~Cn之相對應關鍵字KW1~KWn後，會將類別C1~Cn中所對應關鍵字之向量距離小於一門檻之類別進行合併，以修正代表性不彰之問題，但在其它實施例中，亦可不進行合併。此外，上述實施例係以類別C1~Cn之相對應關鍵字KW1~KWn建立詞向量短文分類器對後續短文進行分類，因此在實際應用上相似度分類模組110亦可依需求調整類別C1~Cn及關鍵字KW1~KWn建立詞向量短文分類器(如增加或減少類別)，而可具有較佳彈性。

另一方面，上述實施例將複數組候選關鍵字中具有最高相似度加總或一最高通過門檻短文比例之一最佳候選關鍵字做為特定類別所對應之關鍵字，在一實施例中，可根據一基因演算法產生該複數組候選關鍵字，並於該基因演算法執行一指定迴圈數，或者一最佳候選關鍵字之一最高相似度加總或一最高通過門檻短文比例大於一配適度門檻時，配適度演算法以該最佳候選關鍵字做為特定類別所對應之關鍵字。

舉例來說，基因演算法可由特定類別中複數個字詞進行編碼產生複數組母體候選關鍵字，如在5個字詞中任選3個字詞做為一組母體候選關鍵字，然後產生具有10-20組母體候選關鍵字，接著配適度演算法計算10-20組候選關鍵字之相似度加總或通過門檻短文比例，並保留母體候選關鍵字中相似度加總或通過門檻短文比例大於特定值(如通過門檻短文比例大於0.8)之保留候選關鍵字，接著基因演算法再將保留候選關鍵字進行交配。舉例來說，可以二元碼表示5個字詞有無如下表，兩組保留候選關鍵字中一字詞原本一組有、一組沒有，交配後變成兩組皆有(第一字詞)、兩組皆無(第三字詞)，或者原本有的變沒有而原本沒有的變有(第四字詞)：

此外，基因演算法亦可進行突變，以一定機率(設定為低概率)隨機改變保留候選關鍵字中特定字詞的有無，如保留候選關鍵字原本不具有第三字詞突變為具有第三字詞。在此情況下，基因演算法可對保留候選關鍵字進行交配或突變，而形成一迴圈產生新候選關鍵字，再由配適度演算法計算新的候選關鍵字之相似度加總或通過門檻短文比例。如此一來，於該基因演算法執行一指定迴圈數，或者一最佳候選關鍵字之一最高相似度加總或一最高通過門檻短文比例大於一配適度門檻時，配適度演算法以該最佳候選關鍵字做為特定類別所對應之關鍵字，並結束基因演算法之迴圈。

因此，短文自動化萃取分類及關鍵字裝置10之操作，可歸納為一短文自動化萃取分類及關鍵字流程60，如第6圖所示，其包含以下步驟：

步驟600：開始。

步驟602：輸入複數個短文。

步驟604：對該複數個短文進行一預處理，以產生複數個預處理短文。

步驟606：根據一文本主題分析模型，將該複數個預處理短文分為不同主題之複數個類別，並輸出該複數個預處理短文及相對應複數個類別標籤

步驟608：根據該複數個預處理短文、該複數個類別標籤、一開源詞向量預訓練集及一配適度演算法，萃取該複數個類別之相對應複數組關鍵字

步驟610：根據該複數個類別及該複數組關鍵字，建立一詞向量短文分類器

步驟612：結束。

短文自動化萃取分類及關鍵字流程60之詳細操作可參考短文自動化萃取分類及關鍵字裝置10之相關內容，於此不再贅述以求簡潔。

此外，短文自動化萃取分類及關鍵字裝置10可包含一處理裝置及一儲存單元。處理裝置可為一微處理器或一特殊應用積體電路(application-specific integrated circuit，ASIC)。儲存單元可為任一資料儲存裝置，用來儲存一程式碼，並透過處理裝置讀取及執行程式碼，以執行前處理模組102、短文主題分類模組104、關鍵字萃取模組106、關鍵字合併模組108以及相似度分類模組110之功能，進而完成短文自動化萃取分類及關鍵字流程60之各步驟。儲存單元可為用戶識別模組(subscriber identity module，SIM)、唯讀式記憶體(read-only memory，ROM)、隨機存取記憶體(random-access memory，RAM)、光碟唯讀記憶體(CD-ROMs)、磁帶(magnetic tapes)、軟碟(floppy disks)、光學資料儲存裝置(optical data storage devices)等等，而不限於此。

綜上所述，本發明可執行配適度演算法以利用開源詞向量預訓練集，在小樣本量萃取各類別相對應關鍵字，再根據關鍵字建立詞向量短文分類器對後續短文進行分類，而較具彈性且不需訓練詞向量及分類器以節省資源。

以上所述僅為本發明之較佳實施例，凡依本發明申請專利範圍所做之均等變化與修飾，皆應屬本發明之涵蓋範圍。

60:流程

600~612:步驟

Claims

一種短文自動化萃取分類及關鍵字方法，包含：輸入複數個短文；對該複數個短文進行一預處理，以產生複數個預處理短文；根據一文本主題分析模型，該複數個預處理短文分為不同主題之複數個類別，並輸出該複數個預處理短文相對應之複數個類別標籤，且各複數個類別均各具有複數個對應之候選關鍵字；根據該複數個預處理短文、該複數個預處理短文相對應之複數個類別標籤、一開源詞向量預訓練集、該複數個類別及該複數個對應之候選關鍵字及一配適度演算法，以將該複數個類別之各類別中複數個相似度加總或複數個通過門檻短文比例當中至少一者，決定該複數個類別之各類別所對應之關鍵字；再進行該配適度演算法，並判斷該複數個類別之各類別所對應關鍵字之間之向量距離，將該其向量距離小於一門檻之類別進行合併，對已合併類別再次萃取相對應關鍵字進行更新；以及根據該複數個類別及該複數個類別之各類別所對應之關鍵字，建立一詞向量短文分類器，以達到短文自動化萃取分類之目的。
如請求項1所述之短文自動化萃取分類及關鍵字方法，其中該預處理包含一分詞處理、一停用詞處理、一大小寫處理、一詞性還原處理、一動詞型態處理中至少一者。
如請求項1所述之短文自動化萃取分類及關鍵字方法，其中該文本主題分析模型包含一狄利克雷多項式混合模型的吉布斯採樣算法(Gibbs Sampling Dirichlet Multinomial Mixture Model，GSDMM)、一狄利克雷多項式混合模型(Dirichlet Mixture Model，DMM)、一應用GPU改善狄利克雷多項式混合模型(Generalized Polya Urn-Dirichlet Multinomial Mixture，GPU-DMM)、一隱含狄利克雷分佈模型(Latent Dirichlet Allocation，LDA)、一主題代表詞發現(Topic Representative Term Discovery，TRTD)、一雙詞主題模型(Biterm Topic Model，BTM)、一隱含語意索引(Latent Semantic Indexing，LSI)以及一潛在語義分析(Latent Semantic Analysis，LSA)當中至少一者；該開源詞向量預訓練集包含預訓練集wiki-news-300d-1M.vec、wiki-news-300d-1M-subword、crawl-300d-2M.vec以及crawl-300d-2M-subword當中至少一者。
如請求項1所述之短文自動化萃取分類及關鍵字方法，其另包含有：該配適度演算法將該特定類別中具有一最高相似度加總或一最高通過門檻短文比例之一最佳候選關鍵字做為該特定類別所對應之該關鍵字。
如請求項1所述之短文自動化萃取分類及關鍵字方法，其另包含有：根據一基因演算法產生該複數組候選關鍵字；以及於該基因演算法執行一指定迴圈數，或者一最佳候選關鍵字之一最高相似度加總或一最高通過門檻短文比例大於一配適度門檻時，該配適度演算法以該最佳候選關鍵字做為該特定類別所對應之該關鍵字。
如請求項5所述之短文自動化萃取分類及關鍵字方法，其中根據該基因演算法產生該複數組候選關鍵字之步驟包含有：對該特定類別中複數個字詞進行編碼產生該複數組候選關鍵字中複數組母體候選關鍵字。
如請求項5所述之短文自動化萃取分類及關鍵字方法，其另包含有：對該複數組母體候選關鍵字中複數個相似度或複數個通過門檻短文比例大於一特定值之複數個保留候選關鍵字進行交配或突變，以產生該複數組候選關鍵字中複數組新候選關鍵字。
一種短文自動化萃取分類及關鍵字系統，包含有：一處理器，用來執行一程式；以及一儲存單元，耦接於該處理器，用來儲存該程式；其中該程式用來指示該處理器執行如請求項1至請求項7所述之短文自動化萃取分類及關鍵字方法。