TWI802459B - 基於資料增強推薦問答的系統及方法 - Google Patents
基於資料增強推薦問答的系統及方法 Download PDFInfo
- Publication number
- TWI802459B TWI802459B TW111124715A TW111124715A TWI802459B TW I802459 B TWI802459 B TW I802459B TW 111124715 A TW111124715 A TW 111124715A TW 111124715 A TW111124715 A TW 111124715A TW I802459 B TWI802459 B TW I802459B
- Authority
- TW
- Taiwan
- Prior art keywords
- data
- training
- domain
- module
- category
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 19
- 238000012549 training Methods 0.000 claims abstract description 200
- 230000003190 augmentative effect Effects 0.000 claims abstract description 8
- 238000013145 classification model Methods 0.000 claims description 16
- 238000004458 analytical method Methods 0.000 claims description 13
- 239000013598 vector Substances 0.000 claims description 13
- 230000011218 segmentation Effects 0.000 claims description 8
- 238000013528 artificial neural network Methods 0.000 claims description 7
- 239000000284 extract Substances 0.000 claims description 7
- 238000004422 calculation algorithm Methods 0.000 claims description 5
- 238000007619 statistical method Methods 0.000 claims description 4
- 238000012795 verification Methods 0.000 claims description 4
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 230000002708 enhancing effect Effects 0.000 claims 2
- 238000013434 data augmentation Methods 0.000 claims 1
- 238000010586 diagram Methods 0.000 description 16
- 238000004364 calculation method Methods 0.000 description 8
- 230000008901 benefit Effects 0.000 description 6
- 230000006870 function Effects 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 238000010801 machine learning Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 230000003321 amplification Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000003199 nucleic acid amplification method Methods 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000035935 pregnancy Effects 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
- Telephonic Communication Services (AREA)
Abstract
一種基於資料增強推薦問答的系統,包括收發器、儲存媒體以及處理器。儲存媒體儲存多個模組及資料庫。處理器耦接儲存媒體和收發器,並且存取和執行預訓練模型選取模組、資料增強模組、意圖辨識模組及回覆檢索模組。預訓練模型選取模組對應產生特定領域訓練子集及通用領域訓練子集。資料增強模組用以生成增強訓練資料集。意圖辨識模組接收使用者輸入的資料輸出類別標籤及關鍵詞組合。回覆檢索模組基於類別標籤及關鍵詞組合從資料庫檢索最佳推薦資料並且推薦至使用者。
Description
本發明是有關於一種推薦問答的系統及方法,且特別是有關於一種基於資料增強推薦問答的系統及方法。
監督式學習 (Supervised Learning) 依賴大量已標註資料進行訓練,在訓練分類模型時,若訓練資料集的數量不足會降低模型的正則化能力,可能會導致機器學習發生擬合過度 (Overfitting) 問題,這是因為資料範圍的限制降低了模型的正則化 (Regularization) 能力,以至於很難有效的發揮前瞻演算法的效力。而訓練具有良好正則化能力的模型高度依賴數量足夠且質量良好的資料,但是在資料收集過程中的成本往往非常昂貴。
本發明提供一種基於資料增強推薦問答的系統及方法,通過生成高質量的增強資料集來擴充訓練資料集,以避免機器學習發生擬合過度 (Overfitting) 的問題。
本發明的一種基於資料增強推薦問答的系統,包括收發器、儲存媒體以及處理器。儲存媒體儲存多個模組及資料庫。處理器耦接儲存媒體和收發器,並且存取和執行該些模組,其中該些模組包括預訓練模型選取模組、資料增強模組、意圖辨識模組及回覆檢索模組。預訓練模型選取模組根據訓練資料將訓練資料分類為特定領域資料及通用領域資料,選取特定領域預訓練模型及通用領域預訓練模型分別將特定領域資料及通用領域資料對應產生特定領域訓練子集及通用領域訓練子集。資料增強模組與預訓練模型選取模組電性連接,依據特定領域訓練子集及通用領域訓練子集分別提取候選關鍵詞,並生成類別關鍵詞清單,將類別關鍵詞清單與特定領域預訓練模型及通用領域預訓練模型進行資料增強以生成增強訓練資料集。意圖辨識模組與資料增強模組電性連接,接收使用者輸入的資料以基於增強訓練資料集訓練的分類模型辨識資料的類別標籤並且輸出類別標籤,並基於類別關鍵詞清單及資料提取並且輸出資料的關鍵詞組合。回覆檢索模組與意圖辨識模組電性連接,基於類別標籤及關鍵詞組合從資料庫檢索最佳推薦資料並且推薦至使用者。
在本發明的一實施例中,上述的基於資料增強推薦問答的系統,其中預訓練模型選取模組更用以依據機率閾值將訓練資料分類為特定領域資料及通用領域資料。
在本發明的一實施例中,上述的基於資料增強推薦問答的系統,其中特定領域訓練子集為屬於與特定領域相關的訓練資料,通用領域訓練子集為屬於與特定領域不相關的訓練資料。
在本發明的一實施例中,上述的基於資料增強推薦問答的系統,其中資料增強模組更用以計算特定領域訓練子集及通用領域訓練子集中各類別標籤的類別向量,計算候選關鍵詞與各類別標籤的類別向量的相似度以生成類別關鍵詞清單,基於類別關鍵詞清單、特定領域預訓練模型以及通用領域預訓練模型生成相似詞,利用相似詞擴充訓練資料集並且生成增強訓練資料集。
在本發明的一實施例中,上述的基於資料增強推薦問答的系統,其中資料增強模組更用以將特定領域訓練子集及通用領域訓練子集中的停滯詞 (Stop Words)過濾後進行斷詞並且輸出斷詞結果資訊,基於統計方法以對斷詞結果資訊提取候選關鍵詞。
在本發明的一實施例中,上述的基於資料增強推薦問答的系統,其中意圖辨識模組更用以基於增強訓練資料集、驗證資料集以及神經網路架構訓練分類模型,以對使用者的對話經語音轉換文字後輸入的資料進行類別標籤預測,以取得資料的類別標籤。
在本發明的一實施例中,上述的基於資料增強推薦問答的系統,其中回覆檢索模組包括對話式語意解析模組以及對話狀態追蹤模組。
在本發明的一實施例中,上述的基於資料增強推薦問答的系統,其中回覆檢索模組更用以將資料的類別標籤及關鍵詞組合經對話式語意解析模組後將使用者的對話儲存於對話狀態追蹤模組,並對資料與資料庫中儲存的推薦資料進行相似度計算,經由對話式語意解析模組將最佳推薦資料推薦至使用者。
在本發明的一實施例中,上述的基於資料增強推薦問答的系統,其中回覆檢索模組更用以基於Top-N推薦算法以經由對話式語意解析模組根據語意強度、對話時間和點擊數對資料庫中儲存的推薦資料進行排序,以將最佳推薦資料推薦至使用者。
本發明的一種基於資料增強推薦問答的的方法,包括:根據訓練資料將訓練資料分類為特定領域資料及通用領域資料,選取特定領域預訓練模型及通用領域預訓練模型分別將特定領域資料及通用領域資料對應產生特定領域訓練子集及通用領域訓練子集;依據特定領域訓練子集及通用領域訓練子集分別提取關鍵詞,並生成類別關鍵詞清單,將類別關鍵詞清單與特定領域預訓練模型及通用領域預訓練模型進行資料增強以生成增強訓練資料集;接收使用者輸入的資料以基於增強訓練資料集訓練的分類模型辨識資料的類別標籤並且輸出類別標籤,並基於類別關鍵詞清單及資料提取並且輸出資料的關鍵詞組合;以及基於類別標籤及關鍵詞組合從資料庫檢索最佳推薦資料並且推薦至使用者。
基於上述,本發明提供一種基於資料增強推薦問答的系統及方法,將訓練資料集中的語句依據領域相關性分為特定領域訓練子集以及通用領域訓練子集,透過提取訓練子集中的類別關鍵詞並基於對應領域的預訓練模型將關鍵詞生成相似詞,其生成之相似詞可以保留該類別標籤的關鍵訊息,通過生成高質量的增強資料集來擴充訓練資料集,以避免機器學習發生擬合過度 (Overfitting) 的問題。
為讓本發明的上述特徵和優點能更明顯易懂,下文特舉實施例,並配合所附圖式作詳細說明如下。
本發明的部份實施例接下來將會配合附圖來詳細描述,以下的描述所引用的元件符號,當不同附圖出現相同的元件符號將視為相同或相似的元件。這些實施例只是本發明的一部份,並未揭示所有本發明的可實施方式。更確切的說,這些實施例只是本發明的專利申請範圍中的方法、電子裝置以及電腦可讀取儲存媒體的範例。
圖1是依照本發明的一實施例的基於資料增強推薦問答的系統的示意圖。
請參照圖1,基於資料增強推薦問答的系統10包括收發器110、儲存媒體120以及處理器130。
收發器110以無線或有線的方式傳送及接收訊號。收發器110還可以執行例如低噪聲放大、阻抗匹配、混頻、向上或向下頻率轉換、濾波、放大以及類似的操作。
儲存媒體120例如是任何型態的固定式或可移動式的隨機存取記憶體(random access memory,RAM)、唯讀記憶體(read-only memory,ROM)、快閃記憶體(flash memory)、硬碟(hard disk drive,HDD)、固態硬碟(solid state drive,SSD)或類似元件或上述元件的組合,儲存裝置102用以記錄可由處理器130執行的多個指令,更用於儲存可由處理器130執行的多個模組或各種應用程式。
處理器130例如是中央處理單元(central processing unit,CPU),或是其他可程式化之一般用途或特殊用途的微控制單元(micro control unit,MCU)、微處理器(microprocessor)、數位訊號處理器(digital signal processor,DSP)、可程式化控制器、特殊應用積體電路(application specific integrated circuit,ASIC)、圖形處理器(graphics processing unit,GPU)、算數邏輯單元(arithmetic logic unit,ALU)、複雜可程式邏輯裝置(complex programmable logic device,CPLD)、現場可程式化邏輯閘陣列(field programmable gate array,FPGA)或其他類似元件或上述元件的組合。處理器130可耦接至儲存媒體120以及收發器110,並且存取和執行儲存於儲存媒體120中的多個模組和各種應用程式,以控制基於資料增強推薦問答的系統10的整體運作。
在一實施例中,儲存媒體120可儲存包括預訓練模型選取模組1201、資料增強模組1202、意圖辨識模組1203以及回覆檢索模組1204等多個模組以及資料庫1205,其中資料庫1205中儲存多個推薦資料,回覆檢索模組1204包括對話式語意解析模組113以及對話狀態追蹤模組114,其功能將於後續說明。
圖2是依照本發明的一實施例的使用預訓練模型選取模組分類的示意圖。
請參照圖2,預訓練模型選取模組1201根據訓練資料以及機率閾值將原始訓練資料集101經領域分類器102分類為特定領域資料及通用領域資料,並且選取特定領域預訓練模型及通用領域預訓練模型分別將特定領域資料及通用領域資料對應產生特定領域訓練子集104及通用領域訓練子集103,其中特定領域訓練子集104為屬於與特定領域較為相關的訓練資料,通用領域訓練子集103為屬於與特定領域較不相關的訓練資料,原始訓練資料集101包括特定領域訓練子集104的資料以及通用領域訓練子集103的資料。於本實施例中,領域分類器102為預訓練二元分類模型,通常是透過預先收集的特定領域內與特定領域外的資料或是基於網路爬蟲技術 (Web Crawler) 透過預先收集的領域關鍵詞清單獲取大量領域內 (即關鍵詞清單內的內容) 與領域外 (即關鍵詞清單外的內容) 的資料來訓練的二元分類模型。
圖3是依照本發明的一實施例的使用資料增強模組的示意圖。
請參照圖3,資料增強模組1202與預訓練模型選取模組1201電性連接,資料增強模組1202將特定領域訓練子集104及通用領域訓練子集103經文字前處理。具體來說,資料增強模組1202將特定領域訓練子集104及通用領域訓練子集103中的停滯詞 (Stop Words)過濾後進行斷詞,並且輸出斷詞結果資訊,基於統計方法並且依據類別對斷詞結果資訊提取候選關鍵詞,計算特定領域訓練子集104及通用領域訓練子集103中各訓練資料對應的類別標籤的類別向量,且計算候選關鍵詞與各類別標籤的類別向量的相似度以生成類別關鍵詞清單111,基於類別關鍵詞清單111、特定領域預訓練模型以及通用領域預訓練模型生成相似詞105,於本實施例中,相似詞105是基於類別標籤中具有代表此類別標籤的關鍵價值提取的關鍵詞,可用以保留該類別標籤的關鍵訊息。且利用相似詞105擴充原始訓練資料集101,並且生成增強訓練資料集106。
圖4是依照本發明的一實施例的使用意圖辨識模組的示意圖。
請參照圖4,意圖辨識模組1203與資料增強模組1202電性連接,意圖辨識模組1203對使用者的對話經語音轉換文字後,接收使用者輸入的資料110,對資料110進行類別標籤預測,以取得資料110的類別標籤,並且意圖辨識模組1203基於增強訓練資料集106、驗證資料集107以及神經網路架構108訓練分類模型109,以基於類別關鍵詞清單111及資料110的關鍵詞提取輸出資料110的類別標籤與關鍵詞組合112。
圖5是依照本發明的一實施例的使用回覆檢索模組的示意圖。
請參照圖5,回覆檢索模組1204與意圖辨識模組1203電性連接,回覆檢索模組1204將資料110的類別標籤與關鍵詞組合112經對話式語意解析模組113後將對應資料110的使用者的對話儲存於對話狀態追蹤模組114,並對資料110與資料庫1205中儲存的推薦資料進行相似度計算,基於Top-N推薦算法以經由對話式語意解析模組113根據語意強度、對話時間和點擊數對資料庫1205中儲存的推薦資料進行排序,以將最佳推薦資料推薦至使用者。
圖6是依照本發明的一實施例的基於資料增強推薦問答的方法的流程圖。
請參照圖6,於步驟S601中,預訓練模型選取模組1201根據訓練資料將訓練資料分類為特定領域資料及通用領域資料,選取特定領域預訓練模型及通用領域預訓練模型分別將特定領域資料及通用領域資料對應產生特定領域訓練子集及通用領域訓練子集。
於步驟S602中,資料增強模組1202依據特定領域訓練子集及通用領域訓練子集分別提取候選關鍵詞,並生成類別關鍵詞清單111,將類別關鍵詞清單111與特定領域預訓練模型及通用領域預訓練模型進行資料增強以生成增強訓練資料集。
於步驟S603中,意圖辨識模組1203接收使用者輸入的資料以基於增強訓練資料集訓練的分類模型辨識資料的類別標籤並且輸出類別標籤,並基於類別關鍵詞清單111及資料提取並且輸出資料的關鍵詞組合。
於步驟S604中,回覆檢索模組1204基於類別標籤及關鍵詞組合從資料庫1205檢索最佳推薦資料並且推薦至使用者。
於一實施例中,以使用者操作音箱情境進行說明,使用者通過終端設備 (例如:音箱、手機…等) 與基於資料增強推薦問答的系統10進行互動,資料集以勞工保險相關問答資料輔以說明。此基於資料增強推薦問答的系統可提供勞工保險相關領域的問與答服務,例如:勞工退休金繳款單補單方式、農保生育給付請領辦法…等。
結合圖1,於本實施例中,當使用者輸入一問句 “勞保老年給付年齡的計算說明”,音箱接收完此問句後,會透過網路將此問句經語音轉換文字操作之後的資訊傳遞至基於資料增強推薦問答的系統10,此時基於資料增強推薦問答的系統10會依序經由意圖辨識模組1203、回覆檢索模組1204而從資料庫120中檢索最佳推薦資料(即答案)並且將答案同樣地經文字轉換語音操作後傳遞至使用者音箱設備,因此使用者透過音箱會聽到答案:“勞保老年給付年齡計算依戶籍記載,自出生之日起實足計算”。而預訓練模型選取和資料增強於預訓練階段完成,不參與此問答歷程。以下詳細說明基於資料增強推薦問答的系統10如何處理問答的過程。
首先將原始訓練資料集101通過預訓練的領域分類器102以基於機率閾值、選取特定領域預訓練模型及通用領域預訓練模型分別將原始訓練資料集101分為特定領域訓練子集104以及通用領域訓練子集103,例如:原始訓練資料集101中包含“個別勞工退休金專戶的收益金額與計算方式”與“為什麼我沒有收到電子帳單”兩句訓練語句,並將領域分類器 102 機率閾值設為0.7,其中語句“個別勞工退休金專戶的收益金額與計算方式”透過領域分類器 102 預測後得到的機率為0.73,另外語句“為什麼我沒有收到電子帳單”透過領域分類器 102 預測後得到的機率為0.42,基於前述結果,語句“個別勞工退休金專戶的收益金額與計算方式”會被分至特定領域訓練子集 104,另外語句“為什麼我沒有收到電子帳單”會被分至通用領域訓練子集 103。隨後將得到的特定領域訓練子集104以及通用領域訓練子集103選取對應的特定領域預訓練模型及通用領域預訓練模型經訓練後傳送至資料增強模組1202。其中特定領域預訓練模型通常透過包含數億個字的特定領域的文本資料集並基於深度神經網路進行訓練而成,其中通用領域預訓練模型通常透過包含數億個字的通用領域的文本資料集並基於深度神經網路進行訓練而成。
當資料增強模組1202 接收到上述預訓練模型選取模組1201的特定領域訓練子集104、通用領域訓練子集103、特定領域預訓練模型與通用領域預訓練模型後,開始進行資料增強。首先對特定領域訓練子集104、通用領域訓練子集103進行基本的文字前處理。具體來說,先將語句中的停滯詞刪除並給予適當的斷詞,例如:原始訓練資料集101中包含語句“個別勞工退休金專戶的收益金額與計算方式”,其透過文字前處理後會轉換成 [“個別” “勞工” “退休金” “專戶” “收益” “金額” “計算” “方式”]。隨後基於統計方法中的詞頻逆向檔案頻率 (Term Frequency–Inverse Document Frequency, TF-IDF) 從兩個訓練子集(特定領域訓練子集104、通用領域訓練子集103)的斷詞結果中提取候選關鍵詞,如圖7所示。
圖7是依照本發明的一實施例的候選關鍵詞的示意圖。將兩個訓練子集(特定領域訓練子集104、通用領域訓練子集103)分別透過選取的特定領域預訓練模型及通用領域預訓練模型利用公式1計算兩個訓練子集中各類別標籤的類別向量,其公式1如下所示。
其中
為各訓練子集中類別標籤的數量、
為類別標籤、
為各類別標籤中包含的資料集數量以及
為向量的維度大小,
為第
個句子word embedding向量的第
維。隨後將上述候選關鍵詞與各類別標籤的類別向量透過餘弦相似度 (Cosine Similarity) 計算相似性(即公式2),從而獲得類別關鍵詞清單111,其公式2如下所示。
其中的
和
分別代表
和
的向量,相似性範圍為
,
表示
和
兩個向量指向的方向完全相反,即相似性完全不同,另外
表示兩個向量指向的方向完全相同,即相似性完全相同。得到類別關鍵詞清單111後,基於上述對應的特定通用領域預訓練模型及通用領域預訓練模型將圖7中各類別標籤的關鍵詞生成相似詞,透過其生成的相似詞可以保留該類別標籤的關鍵訊息,如圖8所示。圖8是依照本發明的一實施例的類別關鍵詞的示意圖。生成相似詞後,基於相似詞來擴充原始訓練資料集101以得到增強訓練資料集106。重複此步驟至完成對所有的特定領域訓練子集104、通用領域訓練子集103以進行資料增強,合併所有擴充的增強訓練資料集106以作為最後的增強訓練資料集,如圖9所示,圖9是依照本發明的一實施例的增強訓練資料集的示意圖。
其中分類模型109是透過上述增強訓練資料集106基於神經網路架108設置 softmax作為激勵函數進行訓練並基於驗證資料集107評估當前的分類模型好壞而修正此分類模型。公式3中softmax 的輸出表示不同類別標籤之間相對的機率,其公式3如下。
其中
表示類別標籤,
表示資料
為類別標籤
的機率。另外為了預防過擬合,在模型訓練中加入了
正則化,其增加一個索引來描述公式4中損失函數 (Loss Function) 中模型的複雜度,其公式4如下。
使用者輸入經過語音轉換文字得到文字內容為“勞保老年給付年齡的計算說明”的問句後,並將此問句輸入至分類模型109進行使用者的類別標籤預測,隨後可以得到預測此問句的類別標籤為“勞工保險”。另外透過前述的類別關鍵詞清單111對此問句進行關鍵詞提取,可以得到內容為“勞保”以及“老年給付”的關鍵詞,隨後將上述的類別標籤與關鍵詞組合112提交至回覆檢索模組1204。
對話式語意解析模組113透過上述類別標籤與關鍵詞組合112以基於最小編輯距離(Minimum Edit Distance)的相似度計算及其他指標,從資料庫1205(於本實施例中,可以為問答知識庫115)中找出較相近的結果。其中最小編輯距離我們採用Levenshtein的定義。若一個字串編輯成另一個字串可以進行下列三種動作:
最後結合多種指標,例如:對話狀態追蹤模組114中的關鍵詞、對話時間和點擊次數,進行排序,據以提升推薦結果的準確度,最後經由Top-N算法推薦最佳推薦資料給使用者。
基於上述,本發明提供一種基於資料增強推薦問答的系統及方法,將訓練資料集中的語句依據領域相關性分為特定領域訓練子集以及通用領域訓練子集,透過提取訓練子集中的類別關鍵詞並基於對應領域的預訓練模型將關鍵詞生成相似詞,其生成之相似詞可以保留該類別標籤的關鍵訊息,通過生成高質量的增強資料集來擴充訓練資料集,以避免機器學習發生擬合過度 (Overfitting) 的問題。
雖然本揭露已以實施例揭露如上,然其並非用以限定本揭露,任何所屬技術領域中具有通常知識者,在不脫離本揭露的精神和範圍內,當可作些許的更動與潤飾,故本揭露的保護範圍當視後附的申請專利範圍所界定者為準。
10:基於資料增強推薦問答的系統
110:收發器
120:儲存媒體
130:處理器
1201:預訓練模型選取模組
1202:資料增強模組
1203:意圖辨識模組
1204:回覆檢索模組
1205:資料庫
101:原始訓練資料集
102:領域分類器
103:通用領域訓練子集
104:特定領域訓練子集
105:相似詞
106:增強訓練資料集
107:驗證資料集
108:神經網路架構
109:分類模型
110:資料
111:類別關鍵詞清單
112:類別標籤與關鍵詞組合
113:對話式語意解析模組
114:對話狀態追蹤模組
115:問答知識庫
S601、S602、S603、S604:步驟
圖1是依照本發明的一實施例的基於資料增強推薦問答的系統的示意圖。
圖2是依照本發明的一實施例的使用預訓練模型選取模組分類的示意圖。
圖3是依照本發明的一實施例的使用資料增強模組的示意圖。
圖4是依照本發明的一實施例的使用意圖辨識模組的示意圖。
圖5是依照本發明的一實施例的使用回覆檢索模組的示意圖。
圖6是依照本發明的一實施例的基於資料增強推薦問答的方法的流程圖。
圖7是依照本發明的一實施例的候選關鍵詞的示意圖。
圖8是依照本發明的一實施例的類別關鍵詞的示意圖。
圖9是依照本發明的一實施例的增強訓練資料集的示意圖。
10:基於資料增強推薦問答的系統
110:收發器
120:儲存媒體
130:處理器
1201:預訓練模型選取模組
1202:資料增強模組
1203:意圖辨識模組
1204:回覆檢索模組
1205:資料庫
Claims (10)
- 一種基於資料增強推薦問答的系統,包括: 收發器; 儲存媒體,儲存多個模組及資料庫;以及 處理器,耦接該儲存媒體和該收發器,並且存取和執行該些模組,其中該些模組包括: 預訓練模型選取模組,根據訓練資料將該訓練資料分類為特定領域資料及通用領域資料,選取特定領域預訓練模型及通用領域預訓練模型分別將該特定領域資料及該通用領域資料對應產生特定領域訓練子集及通用領域訓練子集; 資料增強模組,與該預訓練模型選取模組電性連接,依據該特定領域訓練子集及該通用領域訓練子集分別提取候選關鍵詞,並生成類別關鍵詞清單,將該類別關鍵詞清單與該特定領域預訓練模型及該通用領域預訓練模型進行資料增強以生成增強訓練資料集; 意圖辨識模組,與該資料增強模組電性連接,接收使用者輸入的資料以基於該增強訓練資料集訓練的分類模型辨識該資料的類別標籤並且輸出該類別標籤,並基於該類別關鍵詞清單及該資料提取並且輸出該資料的關鍵詞組合;以及 回覆檢索模組,與該意圖辨識模組電性連接,基於該類別標籤及該關鍵詞組合從該資料庫檢索最佳推薦資料並且推薦至該使用者。
- 如請求項1所述的基於資料增強推薦問答的系統,其中該預訓練模型選取模組更用以依據機率閾值將該訓練資料分類為該特定領域資料及該通用領域資料。
- 如請求項1所述的基於資料增強推薦問答的系統,其中該特定領域訓練子集為屬於與特定領域相關的該訓練資料,該通用領域訓練子集為屬於與特定領域不相關的該訓練資料。
- 如請求項1所述的基於資料增強推薦問答的系統,其中該資料增強模組更用以計算該特定領域訓練子集及該通用領域訓練子集中各類別標籤的類別向量,計算該候選關鍵詞與各類別標籤的類別向量的相似度以生成類別關鍵詞清單,基於該類別關鍵詞清單、該特定領域預訓練模型以及通用領域預訓練模型生成相似詞,利用該相似詞擴充該訓練資料集並且生成該增強訓練資料集。
- 如請求項1所述的基於資料增強推薦問答的系統,其中該資料增強模組更用以將該特定領域訓練子集及該通用領域訓練子集中的停滯詞 (Stop Words)過濾後進行斷詞並且輸出斷詞結果資訊,基於統計方法以對該斷詞結果資訊提取該候選關鍵詞。
- 如請求項1所述的基於資料增強推薦問答的系統,其中該意圖辨識模組更用以基於該增強訓練資料集、驗證資料集以及神經網路架構訓練分類模型,以對該使用者的對話經語音轉換文字後輸入的該資料進行類別標籤預測,以取得該資料的類別標籤。
- 如請求項6所述的基於資料增強推薦問答的系統,其中該回覆檢索模組包括對話式語意解析模組以及對話狀態追蹤模組。
- 如請求項7所述的基於資料增強推薦問答的系統,其中該回覆檢索模組更用以將該資料的類別標籤及該關鍵詞組合經對話式語意解析模組後將該使用者的該對話儲存於對話狀態追蹤模組,並對該資料與該資料庫中儲存的推薦資料進行相似度計算,經由該對話式語意解析模組將最佳推薦資料推薦至該使用者。
- 如請求項8所述的基於資料增強推薦問答的系統,其中該回覆檢索模組更用以基於Top-N推薦算法以經由該對話式語意解析模組根據語意強度、對話時間和點擊數對該資料庫中儲存的推薦資料進行排序,以將該最佳推薦資料推薦至該使用者。
- 一種基於資料增強推薦問答的方法,包括: 根據訓練資料將該訓練資料分類為特定領域資料及通用領域資料,選取特定領域預訓練模型及通用領域預訓練模型分別將該特定領域資料及該通用領域資料對應產生特定領域訓練子集及通用領域訓練子集; 依據該特定領域訓練子集及該通用領域訓練子集分別提取關鍵詞,並生成類別關鍵詞清單,將該類別關鍵詞清單與該特定領域預訓練模型及該通用領域預訓練模型進行資料增強以生成增強訓練資料集; 接收使用者輸入的資料以基於該增強訓練資料集訓練的分類模型辨識該資料的類別標籤並且輸出該類別標籤,並基於該類別關鍵詞清單及該資料提取並且輸出該資料的關鍵詞組合;以及 基於該類別標籤及該關鍵詞組合從該資料庫檢索最佳推薦資料並且推薦至該使用者。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| TW111124715A TWI802459B (zh) | 2022-07-01 | 2022-07-01 | 基於資料增強推薦問答的系統及方法 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| TW111124715A TWI802459B (zh) | 2022-07-01 | 2022-07-01 | 基於資料增強推薦問答的系統及方法 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| TWI802459B true TWI802459B (zh) | 2023-05-11 |
| TW202403608A TW202403608A (zh) | 2024-01-16 |
Family
ID=87424357
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| TW111124715A TWI802459B (zh) | 2022-07-01 | 2022-07-01 | 基於資料增強推薦問答的系統及方法 |
Country Status (1)
| Country | Link |
|---|---|
| TW (1) | TWI802459B (zh) |
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| TWI863792B (zh) * | 2024-01-02 | 2024-11-21 | 中華電信股份有限公司 | 支援人機協作的應答輔助系統及應答輔助方法 |
Citations (7)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| TW202001623A (zh) * | 2018-06-29 | 2020-01-01 | 香港商阿里巴巴集團服務有限公司 | 問答系統的建立方法、裝置、儲存媒體及電子設備 |
| TWI690811B (zh) * | 2019-03-26 | 2020-04-11 | 中華電信股份有限公司 | 智能線上客服匯流核心系統 |
| CN112131364A (zh) * | 2020-09-22 | 2020-12-25 | 沈阳东软智能医疗科技研究院有限公司 | 问答方法、装置、电子设备和存储介质 |
| CN112860892A (zh) * | 2021-02-05 | 2021-05-28 | 深圳点猫科技有限公司 | 一种ai模型中的数据标注方法、装置及设备 |
| TWI732271B (zh) * | 2018-08-29 | 2021-07-01 | 大陸商騰訊科技(深圳)有限公司 | 人機對話方法、裝置、電子設備及電腦可讀媒體 |
| TWI761090B (zh) * | 2021-02-25 | 2022-04-11 | 中華電信股份有限公司 | 對話資料處理系統、其方法及電腦可讀媒介 |
| TWI768513B (zh) * | 2020-10-20 | 2022-06-21 | 宏碁股份有限公司 | 人工智慧模型訓練系統及人工智慧模型訓練方法 |
-
2022
- 2022-07-01 TW TW111124715A patent/TWI802459B/zh active
Patent Citations (7)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| TW202001623A (zh) * | 2018-06-29 | 2020-01-01 | 香港商阿里巴巴集團服務有限公司 | 問答系統的建立方法、裝置、儲存媒體及電子設備 |
| TWI732271B (zh) * | 2018-08-29 | 2021-07-01 | 大陸商騰訊科技(深圳)有限公司 | 人機對話方法、裝置、電子設備及電腦可讀媒體 |
| TWI690811B (zh) * | 2019-03-26 | 2020-04-11 | 中華電信股份有限公司 | 智能線上客服匯流核心系統 |
| CN112131364A (zh) * | 2020-09-22 | 2020-12-25 | 沈阳东软智能医疗科技研究院有限公司 | 问答方法、装置、电子设备和存储介质 |
| TWI768513B (zh) * | 2020-10-20 | 2022-06-21 | 宏碁股份有限公司 | 人工智慧模型訓練系統及人工智慧模型訓練方法 |
| CN112860892A (zh) * | 2021-02-05 | 2021-05-28 | 深圳点猫科技有限公司 | 一种ai模型中的数据标注方法、装置及设备 |
| TWI761090B (zh) * | 2021-02-25 | 2022-04-11 | 中華電信股份有限公司 | 對話資料處理系統、其方法及電腦可讀媒介 |
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| TWI863792B (zh) * | 2024-01-02 | 2024-11-21 | 中華電信股份有限公司 | 支援人機協作的應答輔助系統及應答輔助方法 |
Also Published As
| Publication number | Publication date |
|---|---|
| TW202403608A (zh) | 2024-01-16 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CN111046133B (zh) | 基于图谱化知识库的问答方法、设备、存储介质及装置 | |
| CN109872162B (zh) | 一种处理用户投诉信息的风控分类识别方法及系统 | |
| US11810596B2 (en) | Apparatus and method for speech-emotion recognition with quantified emotional states | |
| CN112417894A (zh) | 一种基于多任务学习的对话意图识别方法及识别系统 | |
| CN106503805A (zh) | 一种基于机器学习的双模态人人对话情感分析系统及其方法 | |
| CN110347823A (zh) | 基于语音的用户分类方法、装置、计算机设备及存储介质 | |
| CN111428028A (zh) | 基于深度学习的信息分类方法及相关设备 | |
| CN105139237A (zh) | 信息推送的方法和装置 | |
| CN107908715A (zh) | 基于Adaboost和分类器加权融合的微博情感极性判别方法 | |
| CN110992988B (zh) | 一种基于领域对抗的语音情感识别方法及装置 | |
| CN113742733B (zh) | 阅读理解漏洞事件触发词抽取和漏洞类型识别方法及装置 | |
| CN104834940A (zh) | 一种基于支持向量机的医疗影像检查疾病分类方法 | |
| CN112749274A (zh) | 基于注意力机制和干扰词删除的中文文本分类方法 | |
| Dorle et al. | Political Sentiment Assessment through Social Media | |
| Houjeij et al. | A novel approach for emotion classification based on fusion of text and speech | |
| CN111159405B (zh) | 基于背景知识的讽刺检测方法 | |
| CN113722582A (zh) | 基于宠物特征标签的推荐方法、系统、程序产品及介质 | |
| CN118585641A (zh) | 一种基于预训练模型的文本摘要生成方法 | |
| CN114091469A (zh) | 基于样本扩充的网络舆情分析方法 | |
| TWI802459B (zh) | 基於資料增強推薦問答的系統及方法 | |
| CN106710588B (zh) | 语音数据句类识别方法和装置及系统 | |
| CN112562665A (zh) | 一种基于信息交互的语音识别方法、存储介质及系统 | |
| Setiawan et al. | Multilabel classification of student feedback data using BERT and machine learning methods | |
| CN113111855B (zh) | 一种多模态情感识别方法、装置、电子设备及存储介质 | |
| Wang et al. | Weakly Supervised Chinese short text classification algorithm based on ConWea model |