TWI731469B - 資訊檢測裝置及方法 - Google Patents
資訊檢測裝置及方法 Download PDFInfo
- Publication number
- TWI731469B TWI731469B TW108140846A TW108140846A TWI731469B TW I731469 B TWI731469 B TW I731469B TW 108140846 A TW108140846 A TW 108140846A TW 108140846 A TW108140846 A TW 108140846A TW I731469 B TWI731469 B TW I731469B
- Authority
- TW
- Taiwan
- Prior art keywords
- knowledge graph
- information
- detected
- information detection
- keywords
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
- G06N5/022—Knowledge engineering; Knowledge acquisition
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/217—Validation; Performance evaluation; Active pattern learning techniques
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/29—Graphical models, e.g. Bayesian networks
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/042—Knowledge-based neural networks; Logical representations of neural networks
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/04—Inference or reasoning models
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Animal Behavior & Ethology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一種資訊檢測裝置及方法。該資訊檢測裝置包含一儲存器及一處理器,且二者彼此電性連接。該儲存器儲存一參考知識圖譜。該處理器以一知識圖譜引擎產生一待檢測文章之一待檢測知識圖譜,且藉由比對該待檢測知識圖譜及該參考知識圖譜,以產生該待檢測文章之一檢測結果。該知識圖譜引擎可依據具有標記的複數參考文章,搜尋複數相關文章進行自動標記,以產生該參考知識圖譜。
Description
本發明係關於一種資訊檢測裝置及方法。具體而言,本發明係關於一種利用知識圖譜檢測異常資訊的資訊檢測裝置及方法。
隨著網際網路的快速發展,目前已進入每個人都是自媒體可發布且散播消息的時代。基於各種利益,不少團體及個人會在數位媒體持續且刻意地發布且散播變造過的消息或異常資訊,試圖影響民眾對事實的認知。目前已有一些技術利用關鍵字的比對來找出異常資訊。然而,有些異常資訊包含大量正確的關鍵字卻夾帶一些變造過或不正確的資訊,這類的異常資訊便無法藉由單純的關鍵字比對來找出,通常需仰賴人工進行檢視或查對。
有鑑於此,如何利用分析技術正確且快速地檢測出數位媒體中的異常資訊,仍為本領域亟需解決的技術問題。
為解決上述的技術問題且為正確地檢測出數位媒體中的異常資訊,本發明提供一種資訊檢測裝置及方法。
本發明所提供的資訊檢測裝置包含一儲存器及一處理器,且二者彼此電性連接。該儲存器儲存一參考知識圖譜(Knowledge Graph)。該
處理器以一知識圖譜引擎產生一待檢測文章之一待檢測知識圖譜,且藉由比對該待檢測知識圖譜及該參考知識圖譜,以產生該待檢測文章之一檢測結果。該知識圖譜引擎可依據具有標記的複數參考文章,搜尋複數相關文章進行自動標記,以產生該參考知識圖譜。
本發明所提供的另一種資訊檢測裝置包含一儲存器及一處理器,且二者彼此電性連接。該儲存器儲存一參考知識圖譜。該處理器以一知識圖譜引擎產生一待檢測文章之一待檢測知識圖譜,將該待檢測知識圖譜降維成一待檢測資料,將該參考知識圖譜降維成一參考資料,以及藉由比對該待檢測資料及該參考資料以產生該待檢測文章之一檢測結果。
本發明所提供的資訊檢測方法適用於一電子計算裝置。該資訊檢測方法包含下列步驟:(a)以一知識圖譜引擎產生一待檢測文章之一待檢測知識圖譜,以及(b)藉由比對該待檢測知識圖譜及一參考知識圖譜以產生該待檢測文章之一檢測結果。該知識圖譜引擎可依據具有標記的複數參考文章,搜尋複數相關文章進行自動標記,以產生該參考知識圖譜。
本發明所提供的另一種資訊檢測方法適用於一電子計算裝置。該資訊檢測方法包含下列步驟:(a)以一知識圖譜引擎產生一待檢測文章之一待檢測知識圖譜,(b)將該待檢測知識圖譜降維成一待檢測資料,(c)將一參考知識圖譜降維成一參考資料,以及(d)藉由比對該待檢測資料及該參考資料以產生該待檢測文章之一檢測結果。
本發明所提供的資訊檢測技術(至少包含裝置及方法)利用知識圖譜的相關技術來檢測一待檢測文章是否具有需確認資訊(亦即,異常資訊)。由於一知識圖譜包含多個關鍵字以及關鍵字間的關聯資訊,因此本
發明所提供的資訊檢測技術除了能找出異常的關鍵字,還能找出異常的關聯資訊,大幅度地改善習知技術的缺點。
以下結合圖式闡述本發明的詳細技術及實施方式,俾使本發明所屬技術領域中具有通常知識者能理解所請求保護的發明的技術特徵。
1:資訊檢測裝置
10:知識圖譜引擎
11:儲存器
12:待檢測文章
13:處理器
14a、……、14d、……、14z:參考文章
15:傳輸介面
17:顯示螢幕
KG1:參考知識圖譜
KG2:待檢測知識圖譜
E1、E2、E3、E4、E5、E6:關鍵字
R1、R2、R3、R4、R5、R6:關聯資訊
RD1:參考資料
RD2:待檢測資料
E1’、E2’、E3’、E4’、E5’、E6’:圓點
S201~S203、S213~S219、S221~S229:步驟
第1A圖描繪第一實施方式的資訊檢測裝置1的架構示意圖;第1B圖描繪參考知識圖譜KG1的一具體範例;第1C圖描繪待檢測知識圖譜KG2的一具體範例;第1D圖描繪參考資料RD1的一具體範例;第1E圖描繪待檢測資料RD2的一具體範例;第1F圖描繪參考文章14a中其被標記的關鍵字與關聯資訊的示意圖;第2A圖描繪第二實施方式的資訊檢測方法的主要流程圖;第2B圖描繪某些實施方式的資訊檢測方法的主要流程圖;以及第2C圖描繪某些實施方式用以建立及更新參考知識圖譜的流程圖。
以下將透過實施方式來解釋本發明所提供的資訊檢測裝置及方法。然而,該等實施方式並非用以限制本發明需在如該等實施方式所述的任何環境、應用或方式方能實施。因此,關於以下實施方式的說明僅在於闡釋本發明的目的,而非用以限制本發明的範圍。應理解,在以下實施方式
及圖式中,與本發明非直接相關的元件已省略而未繪示,且圖式中各元件的尺寸以及元件間的尺寸比例僅為便於繪示及說明,而非用以限制本發明的範圍。
本發明的第一實施方式為一資訊檢測裝置1,其架構示意圖係描繪於第1A圖。資訊檢測裝置1包含一儲存器11及一處理器13,且二者彼此電性連接。儲存器11可為一記憶體、一硬碟(Hard Disk Drive;HDD)、一通用串列匯流排(Universal Serial Bus;USB)碟、一光碟(Compact Disk;CD)或本發明所屬技術領域中具有通常知識者所知的任何其他具有雷同功能的非暫態儲存媒體或裝置。處理器13可為各種處理器、中央處理單元(Central Processing Unit;CPU)、微處理器(Microprocessor Unit;MPU)、數位訊號處理器(Digital Signal Processor;DSP)或本發明所屬技術領域中具有通常知識者所知的任何其他具有雷同功能的計算裝置。
儲存器11儲存一參考知識圖譜(Knowledge Graph)KG1,其中參考知識圖譜KG1包含複數個關鍵字及該等關鍵字間的複數個關聯資訊。在一些實施例中,參考知識圖譜KG1可為專屬於某一領域(例如:新聞、醫療)的知識圖譜,以提升檢測的準確性和降低知識圖譜的複雜度。在另一些實施例中,參考知識圖譜KG1也可不限定於某一領域。為便於理解,請參第1B圖所示的一具體範例,但該具體範例並非用以限制本發明的範圍。於第1B圖所示的具體範例中,參考知識圖譜KG1包含五個關鍵字E1、E2、E3、E4、E5以及五個具有方向性的關聯資訊R1、R2、R3、R4、R5,其中關聯資訊R1係由關鍵字E1指向關鍵字E2,關聯資訊R2係由關鍵字E1指向關鍵字E3,關聯資訊R3係由關鍵字E2指向關鍵字E3,關聯資訊R4係由關鍵字E1指
向關鍵字E4,且關聯資訊R5係由關鍵字E1指向關鍵字E5。
於本實施方式中,儲存器11還儲存一待檢測文章12。在某些實施方式中,資訊檢測裝置1可透過一傳輸介面15接收待檢測文章12,再將待檢測文章12儲存於儲存器11。前述傳輸介面15可電性連接至處理器13,且經由有線或無線方式連接至一網路或一硬體以收送訊號及接收資料。
處理器13執行一知識圖譜引擎10,且根據待檢測文章12以知識圖譜引擎10產生待檢測文章12的一待檢測知識圖譜KG2。類似的,待檢測知識圖譜KG2包含複數個關鍵字及該等關鍵字間的複數個關聯資訊。為便於理解,請參第1C圖所示的一具體範例,但該具體範例並非用以限制本發明的範圍。於第1C圖所示的具體範例中,待檢測知識圖譜KG2包含四個關鍵字E1、E2、E3、E6以及四個具有方向性的關聯資訊R1、R2、R3、R6,其中關聯資訊R1係由關鍵字E1指向關鍵字E2,關聯資訊R2係由關鍵字E1指向關鍵字E3,關聯資訊R3係由關鍵字E2指向關鍵字E3,且關聯資訊R6係由關鍵字E1指向關鍵字E6。
接著,處理器13藉由比對待檢測知識圖譜KG2及參考知識圖譜KG1,產生待檢測文章12的一檢測結果(未繪示)。於某些實施方式中,處理器13藉由比對待檢測知識圖譜KG2及參考知識圖譜KG1,判斷待檢測知識圖譜KG2是否具有至少一離群者(outlier)。若處理器13在比對待檢測知識圖譜KG2及參考知識圖譜KG1後找出待檢測知識圖譜KG2具有一或多個離群者,代表待檢測文章12的檢測結果為待檢測文章12具有一或多個需確認資訊,這些需要確認資訊可經由其他人員(例如:使用者)或是更進一步的檢測系統或方法來確認其正確性。需說明者,每一離群者對應至二個關鍵字
及該二關鍵字間的關聯資訊,而該二個關鍵字及該二關鍵字間的關聯資訊即為需確認資訊。若處理器13在比對待檢測知識圖譜KG2及參考知識圖譜KG1後未找出待檢測知識圖譜KG2具有離群者,代表待檢測文章12的檢測結果為待檢測文章12的內容為正確,不需使用者進一步地確認。
以第1B圖所示的參考知識圖譜KG1以及第1C圖所示的待檢測知識圖譜KG2為例,處理器13比對待檢測知識圖譜KG2及參考知識圖譜KG1後,找出待檢測知識圖譜KG2中的關鍵字E6為離群者。由於關鍵字E6為離群者,因此需確認資訊包括關鍵字E6(亦即,離群者自己)以及關鍵字E1和關鍵字E6間的關聯資訊R6(亦即,關鍵字E1與離群者相連的關聯資訊)。
在某些實施方式中,處理器13則可採用另一種方式來產生待檢測文章12的檢測結果。具體而言,處理器13以一降維演算法(例如:一圖形嵌入(Graph Embedding)演算法、網絡嵌入(Network Embeddings)演算法、網絡表示(Network Representation)演算法等,但不以此為限)將參考知識圖譜降KG1降維成一參考資料RD1,且以相同的降維演算法將待檢測知識圖譜KG2降維成一待檢測資料RD2。在一些實施例中,可將參考知識圖譜KG1和待檢測知識圖譜KG2中的各關鍵字和關聯資訊,降維到一個二維的向量空間,以二維座標來做表示參考資料RD1和待檢測資料RD2,其中參考資料RD1和待檢測資料RD2各包含複數個點。之後,處理器13再藉由比對待檢測資料RD2及參考資料RD1以產生待檢測文章12的檢測結果。
舉例而言,若處理器13比對待檢測資料RD2及參考資料RD1中的各點後,找出待檢測資料RD2具有一或多個點在參考資料RD1中沒有對
應點(亦即,沒有相同或相近的點存在),代表待檢測文章12的檢測結果為待檢測文章12具有一或多個需確認資訊。類似的,每一個在參考資料RD1中沒有對應點的點對應至待檢測知識圖譜KG2中的二個關鍵字及該二關鍵字間的關聯資訊,而該二個關鍵字及該二關鍵字間的關聯資訊即為需確認資訊。若處理器13比對待檢測資料RD2及參考資料RD1後確認待檢測資料RD2中的每一個點在參考資料RD1中都有對應的點,代表待檢測文章12的檢測結果為待檢測文章12的內容為正確,不需使用者進一步地確認。
為便於理解,請參第1D圖及第1E圖所示的具體範例,但該等具體範例並非用以限制本發明的範圍。第1D圖描繪將第1B圖所示的參考知識圖譜KG1降維後所得的參考資料RD1的示意圖,其中圓點E1’、E2’、E3’、E4’、E5’分別對應至參考知識圖譜KG1中的關鍵字E1、E2、E3、E4、E5。第1D圖中的圓點E1’、E2’、E3’、E4’、E5’的二維座標用以表示參考知識圖譜KG1中的關鍵字E1、E2、E3、E4、E5及其關聯資訊性降維度後在二維向量空間中的相對位置。第1E圖則描繪將第1C圖所示的待檢測知識圖譜KG2降維後所得的待檢測資料RD2的示意圖,其中圓點E1’、E2’、E3’、E6’分別對應至待檢測知識圖譜KG2中的關鍵字E1、E2、E3、E6。第1E圖中的圓點E1’、E2’、E3’、E6’的二維座標用以表示待檢測知識圖譜KG2中的關鍵字E1、E2、E3、E6及其關聯資訊降維度後在二維向量空間中的相對位置。處理器13在比對待檢測資料RD2及參考資料RD1兩者中各點的二維座標值,找出圓點E6’在第1D圖中沒有對應點。由於處理器13找出待檢測資料RD2中的圓點E6’在第1D圖中沒有對應點(亦即,第1D圖中並未有和圓點E6’的座標為相同或相近的點存在),便可推導出圓點E6’所對應的關鍵字E6、關聯資訊R6
與關鍵字E1為一離群者,表示關鍵字E6、關聯資訊R6與關鍵字E1之間的關聯可能為異常。
在某些實施方式中,在處理器13產生待檢測文章12的檢測結果後,便可提供該檢測結果給使用者參考。本發明未限制資訊檢測裝置1提供該檢測結果給使用者的方式。舉例而言,若資訊檢測裝置1包含傳輸介面15,則可透過傳輸介面15傳送待檢測文章12的檢測結果。再舉例而言,若資訊檢測裝置1還包含一顯示螢幕17,則可於顯示螢幕17顯示該檢測結果。前述顯示螢幕17係電性連接至處理器13,且可為液晶顯示螢幕(Liquid Crystal Display;LCD)、有機發光二極體(Organic Light Emitting Diode;OLED)螢幕、電子紙螢幕或其他能顯示數位資訊之裝置。
在某些實施方式中,若待檢測文章12的檢測結果為待檢測文章12具有一需確認資訊,若經使用者確認該需確認資訊為正確的資訊,則處理器13還可利用已確認過的該需確認資訊來更新參考知識圖譜KG1。具體而言,由於該需確認資訊為一離群者所對應的二個關鍵字及該二關鍵字間的關聯資訊,因此處理器13便可利用該離群者所對應的二個關鍵字及該二關鍵字間的關聯資訊加入原來的參考知識圖譜KG1中,以更新參考知識圖譜KG1。
於本實施方式中,儲存器11在初始階段所儲存的參考知識圖譜KG1可由知識圖譜引擎10依據具有標記的複數篇參考文章14a、……、14z,搜尋複數相關文章進行自動標記來產生。參考文章14a、……、14z皆為經使用者確認其內容為正確的文章。在某些實施方式中,參考文章14a、……、14z可預先地儲存於儲存器11。在某些實施方式中,資訊檢測裝置1則是透過
傳輸介面15接收參考文章14a、……、14z,再將參考文章14a、……、14z儲存於儲存器11。以下將詳述幾種產生參考知識圖譜KG1的方式。
在某些實施方式中,處理器13會針對參考文章14a、……、14z的每一篇進行一斷詞處理(未繪示)及一詞頻-逆文件頻率(Term Frequency-Inverse Document Frequency;TF-IDF)演算法處理(未繪示),藉此得到參考文章14a、……、14z的每一篇的複數個關鍵字。另外,資訊檢測裝置1陸續地於顯示螢幕17上顯示參考文章14a、……、14z的每一篇及其關鍵字,可經由一輸入介面供使用者標記其關聯資訊。為便於理解,請參第1F圖所示的一具體範例,但該具體範例並非用以限制本發明的範圍。第1F圖係顯示參考文章14a與參考文章14a中的關鍵字E1、E2、E3、E4、E5。使用者可透過輸入介面(例如:滑鼠、直接觸控顯示螢幕17)標記出關鍵字間的關聯資訊。於第1F圖所示的具體範例中,使用者係於參考文章14a標記出具方向性的關聯資訊R1、R3,其中關聯資訊R1係由關鍵字E1指向關鍵字E2,且關聯資訊R3係由關鍵字E2指向關鍵字E3。
在某些實施方式中,處理器13不會針對參考文章14a、……、14z的每一篇進行斷詞處理及詞頻-逆文件頻率演算法處理。於這些實施方式中,資訊檢測裝置1則是陸續地於顯示螢幕17上顯示較少數量的參考文章14a、……、14d的每一篇,供使用者直接標記出各參考文章的關鍵字及關鍵字間的至少一關聯資訊。
為減少讓使用者透過輸入介面來進行標記的數量,更快速建立參考知識圖譜KG1,在某些實施方式中,在參考文章14a、……、14d的每一篇被標記出複數個關鍵字與至少一關聯資訊後,知識圖譜引擎10根據參
考文章14a、……、14d的該等關聯資訊產生複數個三元組訊息(未繪示)。以第1F圖所示的參考文章14a為例,知識圖譜引擎10會產生二個三元組訊息,其中一個三元組訊息包含關鍵字E1、關聯資訊R1及關鍵字E2,而另一個三元組訊息則包含關鍵字E2、關聯資訊R3及關鍵字E3。在知識圖譜引擎10產生所有的參考文章14a、……、14d的三元組訊息後,知識圖譜引擎10便根據該等三元組訊息建立參考知識圖譜KG1。舉例而言,知識圖譜引擎10可整合該等三元組訊息所對應的關鍵字及關聯資訊於一圖形(Graph)以作為參考知識圖譜KG1。
由於使用較少數量的參考文章14a、……、14d,為了建立完整的參考知識圖譜KG1,知識圖譜引擎10更具有自動標記的功能,可依據該等三元組訊息於一資料庫(未繪示)中尋找出複數個相似句,自動進行標記以擴增三元組訊息。(未繪示)。舉例而言,知識圖譜引擎10可利用Elasticsearch搜尋引擎對一資料庫中的複數篇文章進行全文檢索,藉此找出該等相似句。知識圖譜引擎10還自動標記各該相似句的二個關鍵字及對應的一關聯資訊。需說明者,知識圖譜引擎10對各相似句所標記的各關鍵字係與某一個三元組訊息中的關鍵字相同或相似(例如:關鍵字「肺癌」與關鍵字「癌症」相近)。藉由對該等相似句標記出關鍵字及關聯資訊,知識圖譜引擎10產生複數個擴增三元組訊息(未繪示)。接著,知識圖譜引擎10再根據該等擴增三元組訊息更新參考知識圖譜KG1。
在某些實施方式中,處理器13還可根據該等三元組及該等擴增三元組訊息,建立或更新一消歧異資料庫(未繪示)。該消歧異資料庫記載了哪些關鍵字為相似或同義的關鍵字,且儲存已進行消歧異處理所獲得
複數個已消歧異句子(未繪示)。在這些實施方式中,處理器13可利用該等已消歧異句子訓練一神經網路模型,處理器13可依據該神經網路模型對參考文章14a、……、14d進行消歧異之後,再由知識圖譜引擎10來建置或更新參考知識圖譜KG1。
綜上所述,資訊檢測裝置1藉由比對待檢測文章12的待檢測知識圖譜KG2與參考知識圖譜KG1來檢測出待檢測文章12是否具有需確認資訊。由於一知識圖譜(例如:參考知識圖譜KG1、待檢測知識圖譜KG2)包含多個關鍵字以及關鍵字間的關聯資訊,因此資訊檢測裝置1除了能找出異常的關鍵字,還能找出異常的關聯資訊,大幅度地改善習知技術的缺點。此外,資訊檢測裝置1還可藉由標記參考文章產生三元組訊息,利用三元組訊息找出複數個相似句,利用該等相似句產生複數個擴增三元組訊息,進而建置或更新參考知識圖譜KG1。藉由更完整的參考知識圖譜KG1,資訊檢測裝置1對待檢測文章的檢測結果將會更為精準。
本發明的第二實施方式為一資訊檢測方法,其主要流程圖係描繪於第2A圖。資訊檢測方法適用於一電子計算裝置,例如:第一實施方式所述的資訊檢測裝置1。
資訊檢測方法至少包含步驟S201及步驟S203。於步驟S201,由該電子計算裝置以一知識圖譜引擎產生一待檢測文章之一待檢測知識圖譜。於步驟S203,由該電子計算裝置藉由比對該待檢測知識圖譜及一參考知識圖譜以產生該待檢測文章的一檢測結果。需說明者,該知識圖譜引擎可依據具有標記的複數篇參考文章,搜尋複數相關文章進行自動標記,以產生該參考知識圖譜。
於某些實施方式中,步驟S203可包含一步驟,由該電子計算裝置藉由比對該待檢測知識圖譜及該參考知識圖譜判斷出該待檢測知識圖譜中是否具有一離群者。若找出該待檢測知識圖譜中具有一離群者,則代表該待檢測文章具有一需確認資訊。這些需要確認資訊可經由一顯示介面以提供給其他人員(例如:使用者)或是更進一步的檢測系統或方法來確認其正確性。若未找出該待檢測知識圖譜中具有一離群者,則代表該待檢測文章不具有一需確認資訊。在某些實施方式中,若離群者所對應的需確認資訊經使用者確認為正確的資訊,資訊檢測方法還可執行一步驟,由該電子計算裝置根據該離群者所對應的二個關鍵字及該二關鍵字間的關聯資訊更新該參考知識圖譜。
在某些實施方式中,資訊檢測方法的主要流程圖則如第2B圖。於該等實施方式中,資訊檢測方法亦先執行步驟S201。接著,於步驟S213,由該電子計算裝置將該待檢測知識圖譜降維成一待檢測資料。於步驟S215,由該電子計算裝置將一參考知識圖譜降維成一參考資料。在一些實施方式中,步驟S213可將該待檢測知識圖譜中的各關鍵字和關聯資訊,降維到一個二維的向量空間,以二維座標來做表示該待檢測資料,其中該待檢測資料包含複數個點。步驟S215可將該參考知識圖譜中的各關鍵字和關聯資訊,降維到一個二維的向量空間,以二維座標來做表示該參考資料,其中該參考資料包含複數個點。需說明者,在某些實施方式中,步驟S215可早於步驟S213執行,甚至可早於步驟S201執行,可依據實際作業需要而調整。之後,於步驟S217,由該電子計算裝置藉由比對該待檢測資料及該參考資料以產生該待檢測文章之一檢測結果。
於某些實施方式中,步驟S217可包含一步驟,由該電子計算裝置藉由比對該待檢測資料及該參考資料判斷出該待檢測知識圖譜中是否具有一離群者。若找出該待檢測知識圖譜中具有一離群者,則代表該待檢測文章具有一需確認資訊。若未找出該待檢測知識圖譜中具有一離群者,則代表該待檢測文章不具有一需確認資訊。在某些實施方式中,若離群者所對應的需確認資訊經使用者確認為正確的資訊,資訊檢測方法還可執行步驟S219。於步驟S219,由該電子計算裝置根據該離群者所對應的二個關鍵字及該二關鍵字間的關聯資訊加入原來的參考知識圖譜中,以更新該參考知識圖譜。
於某些實施方式中,資訊檢測方法還可由該電子計算裝置執行如第2C圖所示的流程來建立參考知識圖譜,甚至更新參考知識圖譜。
於該等實施方式中,該電子計算裝置儲存複數篇參考文章,其中各該參考文章具有複數個關鍵字並被定義至少一關聯資訊,且各該至少一關聯資訊個別地對應至該等關鍵字其中之二。舉例而言,該資訊檢測方法可藉由對各該參考文章進行一斷詞處理及一詞頻-逆文件頻率演算法處理以得到各該參考文章之該等關鍵字。此外,該資訊檢測方法還可經由一顯示介面來顯示各該參考文章以提供一使用者對各該參考文章進行標記,藉此標記出各該參考文章中的關鍵字及其關聯資訊。之後,於步驟S221,由該知識圖譜引擎根據該等參考文章之該等關聯資訊產生複數個三元組訊息。於步驟S223,由該知識圖譜引擎根據該等三元組訊息建立該參考知識圖譜。
步驟S225、S227及S229則用以更新參考知識圖譜。於步驟S225,由該知識圖譜引擎依據該等三元組訊息於一資料庫中尋找出複數個
相似句。於步驟S227,由該知識圖譜引擎自動標記各該相似句的二個關鍵字及對應的一關聯資訊,藉此產生複數個擴增三元組訊息。於步驟S229,由該知識圖譜引擎還根據該等擴增三元組訊息更新該參考知識圖譜。
於某些實施方式中,資訊檢測方法還可由該電子計算裝置執行一步驟以根據該等三元組及該等擴增三元組訊息,建立一消歧異資料庫。該消歧異資料庫記載了哪些關鍵字為相似或同義的關鍵字,且儲存已進行消歧異處理所獲得複數個已消歧異句子。於這些實施方式中,資訊檢測方法還可由該電子計算裝置執行一步驟,利用該等已消歧異句子訓練一神經網路模型,進行消歧異之後,再由該知識圖譜引擎來建置或更新該參考知識圖譜。
除了上述步驟,第二實施方式還能執行第一實施方式所描述的資訊檢測裝置1所能執行的所有運作及步驟,具有同樣的功能,且達到同樣的技術效果。本發明所屬技術領域中具有通常知識者可直接瞭解第二實施方式如何基於上述第一實施方式以執行此等運作及步驟,具有同樣的功能,並達到同樣的技術效果,故不贅述。
由上述說明可知,本發明所提供的資訊檢測技術(至少包含裝置及方法)藉由比對待檢測文章的待檢測知識圖譜與參考知識圖譜來檢測出待檢測文章是否具有需確認資訊。由於一知識圖譜包含多個關鍵字以及關鍵字間的關聯資訊,因此本發明所提供的資訊檢測技術除了能找出異常的關鍵字,還能找出異常的關聯資訊,大幅度地改善習知技術的缺點。此外,本發明所提供的資訊檢測技術還可藉由標記參考文章產生三元組訊息,利用三元組訊息找出複數個相似句,利用該等相似句產生複數個擴增三元
組訊息,進而更新參考知識圖譜。藉由更新參考知識圖譜,本發明所提供的資訊檢測技術對待檢測文章的檢測結果將會更為精準。
上述各實施方式係用以例示性地說明本發明的部分實施態樣,以及闡釋本發明的技術特徵,而非用來限制本發明的保護範疇及範圍。任何本發明所屬技術領域中具有通常知識者可輕易完成的改變或均等性的安排均屬於本發明所主張的範圍,本發明的權利保護範圍以申請專利範圍為準。
1‧‧‧資訊檢測裝置
10‧‧‧知識圖譜引擎
11‧‧‧儲存器
12‧‧‧待檢測文章
13‧‧‧處理器
14a、…14d、…、14z‧‧‧參考文章
15‧‧‧傳輸介面
17‧‧‧顯示螢幕
KG1‧‧‧參考知識圖譜
Claims (20)
- 一種資訊檢測裝置,包含:一儲存器,儲存一參考知識圖譜(Knowledge Graph;KG);以及一處理器,電性連接至該儲存器,其中該處理器以一知識圖譜引擎產生一待檢測文章之一待檢測知識圖譜,以及藉由比對該待檢測知識圖譜及該參考知識圖譜,以產生該待檢測文章之一檢測結果,其中,該知識圖譜引擎可依據具有複數個標記的複數參考文章,搜尋複數相關文章進行自動標記,以產生該參考知識圖譜,其中,該等參考文章所具有的該等標記包含複數個關鍵字及複數個關聯資訊,其中各該關聯資訊個別地對應至該等關鍵字其中之二。
- 如請求項1所述之資訊檢測裝置,其中該知識圖譜引擎還根據該等參考文章之該等關聯資訊產生複數個三元組訊息,且根據該等三元組訊息建立該參考知識圖譜。
- 如請求項2所述之資訊檢測裝置,其中該知識圖譜引擎依據該等三元組訊息於一資料庫中尋找出複數個相似句,該知識圖譜引擎還自動標記各該相似句的二個關鍵字及對應的一關聯資訊,藉此產生複數個擴增三元組訊息,該知識圖譜引擎還根據該等擴增三元組訊息更新該參考知識圖譜。
- 如請求項1所述之資訊檢測裝置,其中該處理器係藉由比對該待檢測知識圖譜及該參考知識圖譜找出該待檢測知識圖譜中之一離群者(outlier),且基於找出該離群者而決定該檢測結果為該待檢測文章具有一需確認資訊。
- 如請求項4所述之資訊檢測裝置,其中該離群者對應至二個關鍵字及該二個關鍵字間之一關聯資訊,該處理器還根據該二個關鍵字及該關聯資訊更新該參考知識圖譜。
- 如請求項2所述之資訊檢測裝置,還包含:一顯示螢幕,電性連接至該處理器,用以顯示各該參考文章以提供一使用者對各該參考文章進行標記。
- 如請求項2所述之資訊檢測裝置,其中該處理器藉由對各該參考文章進行一斷詞處理及一詞頻-逆文件頻率(Term Frequency-Inverse Document Frequency;TF-IDF)演算法處理以得到各該參考文章之該等關鍵字。
- 如請求項3所述之資訊檢測裝置,其中該處理器還根據該等三元組訊息及該等擴增三元組訊息,建立一消歧異資料庫。
- 如請求項8所述之資訊檢測裝置,其中該消歧異資料庫係用以儲存已進行消歧異處理所獲得複數個已消歧異句子,且該處理器利用該等已消歧異句子訓練一神經網路模型作為該知識圖譜引擎。
- 一種資訊檢測裝置,包含:一儲存器,儲存一參考知識圖譜;以及一處理器,電性連接至該儲存器,以一知識圖譜引擎產生一待檢測文章之一待檢測知識圖譜,將該待檢測知識圖譜降維成一待檢測資料,將該參考知識圖譜降維成一參考資料,以及藉由比對該待檢測資料及該參考資料以產生該待檢測文章之一檢測結果。
- 一種資訊檢測方法,適用於一電子計算裝置,該資訊檢測方法包含下列步驟: 以一知識圖譜引擎產生一待檢測文章之一待檢測知識圖譜;以及藉由比對該待檢測知識圖譜及一參考知識圖譜以產生該待檢測文章之一檢測結果,其中,該知識圖譜引擎可依據具有複數個標記的複數參考文章,搜尋複數相關文章進行自動標記,以產生該參考知識圖譜,其中,該等參考文章所具有的該等標記包含複數個關鍵字及複數個關聯資訊,其中各該關聯資訊個別地對應至該等關鍵字其中之二。
- 如請求項11所述之資訊檢測方法,還包含下列步驟:由該知識圖譜引擎根據該等參考文章之該等關聯資訊產生複數個三元組訊息;以及由該知識圖譜引擎根據該等三元組訊息建立該參考知識圖譜。
- 如請求項12所述之資訊檢測方法,還包含下列步驟:由該知識圖譜引擎依據該等三元組訊息於一資料庫中尋找出複數個相似句;由該知識圖譜引擎自動標記各該相似句的二個關鍵字及對應的一關聯資訊,藉此產生複數個擴增三元組訊息;以及由該知識圖譜引擎還根據該等擴增三元組訊息更新該參考知識圖譜。
- 如請求項11所述之資訊檢測方法,其中產生該檢測結果之步驟包含下列步驟:藉由比對該待檢測知識圖譜及該參考知識圖譜找出該待檢測知識圖譜中之一離群者;以及 基於找出該離群者而決定該檢測結果為該待檢測文章具有一需確認資訊。
- 如請求項14所述之資訊檢測方法,其中該離群者對應至二個關鍵字及該二個關鍵字間之一關聯資訊,該資訊檢測方法還包含下列步驟:由該知識圖譜引擎根據該二個關鍵字及該關聯資訊更新該參考知識圖譜。
- 如請求項12所述之資訊檢測方法,還包含下列步驟:顯示各該參考文章以提供一使用者對各該參考文章進行標記。
- 如請求項12所述之資訊檢測方法,還包含下列步驟:藉由對各該參考文章進行一斷詞處理及一詞頻-逆文件頻率演算法處理以得到各該參考文章之該等關鍵字。
- 如請求項13所述之資訊檢測方法,還包含下列步驟:根據該等三元組訊息及該等擴增三元組訊息,建立一消歧異資料庫。
- 如請求項18所述之資訊檢測方法,其中該消歧異資料庫係用以儲存已進行消歧異處理所獲得複數個已消歧異句子,該資訊檢測方法還包含下列步驟:利用該等已消歧異句子訓練一神經網路模型作為該知識圖譜引擎。
- 一種資訊檢測方法,適用於一電子計算裝置,該資訊檢測方法包含下列步驟:以一知識圖譜引擎產生一待檢測文章之一待檢測知識圖譜;將該待檢測知識圖譜降維成一待檢測資料; 將一參考知識圖譜降維成一參考資料;以及藉由比對該待檢測資料及該參考資料以產生該待檢測文章之一檢測結果。
Priority Applications (3)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| TW108140846A TWI731469B (zh) | 2019-11-11 | 2019-11-11 | 資訊檢測裝置及方法 |
| CN201911126054.1A CN112784005A (zh) | 2019-11-11 | 2019-11-18 | 信息检测装置及方法 |
| US16/702,354 US20210142117A1 (en) | 2019-11-11 | 2019-12-03 | Apparatus and method for verfication of information |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| TW108140846A TWI731469B (zh) | 2019-11-11 | 2019-11-11 | 資訊檢測裝置及方法 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| TW202119234A TW202119234A (zh) | 2021-05-16 |
| TWI731469B true TWI731469B (zh) | 2021-06-21 |
Family
ID=75749851
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| TW108140846A TWI731469B (zh) | 2019-11-11 | 2019-11-11 | 資訊檢測裝置及方法 |
Country Status (3)
| Country | Link |
|---|---|
| US (1) | US20210142117A1 (zh) |
| CN (1) | CN112784005A (zh) |
| TW (1) | TWI731469B (zh) |
Families Citing this family (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US11314938B2 (en) * | 2019-07-29 | 2022-04-26 | Accenture Global Solutions Limited | Extracting actionable items from documents and assigning the actionable items to responsible parties |
| US11423094B2 (en) * | 2020-06-09 | 2022-08-23 | International Business Machines Corporation | Document risk analysis |
Citations (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US20160212163A1 (en) * | 2015-01-16 | 2016-07-21 | The Trustees Of The Stevens Institute Of Technology | Method and Apparatus to Identify the Source of Information or Misinformation in Large-Scale Social Media Networks |
| US20180324127A1 (en) * | 2015-06-11 | 2018-11-08 | International Business Machines Corporation | Electronic rumor cascade management in computer network communications |
| CN108830630A (zh) * | 2018-04-09 | 2018-11-16 | 平安科技(深圳)有限公司 | 一种虚假消息的识别方法及其设备 |
| TWI645348B (zh) * | 2015-05-26 | 2018-12-21 | 鴻海精密工業股份有限公司 | 商品相關網路文章之自動圖文摘要方法及系統 |
| CN110399515A (zh) * | 2019-06-28 | 2019-11-01 | 中山大学 | 图片检索方法、装置及图片检索系统 |
Family Cites Families (9)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US20130268203A1 (en) * | 2012-04-09 | 2013-10-10 | Vincent Thekkethala Pyloth | System and method for disease diagnosis through iterative discovery of symptoms using matrix based correlation engine |
| US20190252074A1 (en) * | 2016-10-25 | 2019-08-15 | Koninklijke Philips N.V. | Knowledge graph-based clinical diagnosis assistant |
| CN107357970B (zh) * | 2017-06-23 | 2020-08-11 | 清华大学 | 基于数据挖掘的建筑信息模型异常元素检测装置和方法 |
| US10824647B2 (en) * | 2017-11-17 | 2020-11-03 | Accenture Global Solutions Limited | Real-time prediction and explanation of sequences of abnormal events |
| CN108170813A (zh) * | 2017-12-29 | 2018-06-15 | 智搜天机(北京)信息技术有限公司 | 一种全媒体内容智能审核的方法及其系统 |
| US11016985B2 (en) * | 2018-05-22 | 2021-05-25 | International Business Machines Corporation | Providing relevant evidence or mentions for a query |
| TWI682287B (zh) * | 2018-10-25 | 2020-01-11 | 財團法人資訊工業策進會 | 知識圖譜產生裝置、方法及其電腦程式產品 |
| CN109767840A (zh) * | 2018-12-13 | 2019-05-17 | 平安科技(深圳)有限公司 | 一种异常检测方法、异常检测装置及计算机可读存储介质 |
| CN109977291B (zh) * | 2019-03-20 | 2021-03-02 | 武汉市软迅科技有限公司 | 基于物理知识图谱的检索方法、装置、设备及存储介质 |
-
2019
- 2019-11-11 TW TW108140846A patent/TWI731469B/zh active
- 2019-11-18 CN CN201911126054.1A patent/CN112784005A/zh active Pending
- 2019-12-03 US US16/702,354 patent/US20210142117A1/en not_active Abandoned
Patent Citations (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US20160212163A1 (en) * | 2015-01-16 | 2016-07-21 | The Trustees Of The Stevens Institute Of Technology | Method and Apparatus to Identify the Source of Information or Misinformation in Large-Scale Social Media Networks |
| TWI645348B (zh) * | 2015-05-26 | 2018-12-21 | 鴻海精密工業股份有限公司 | 商品相關網路文章之自動圖文摘要方法及系統 |
| US20180324127A1 (en) * | 2015-06-11 | 2018-11-08 | International Business Machines Corporation | Electronic rumor cascade management in computer network communications |
| CN108830630A (zh) * | 2018-04-09 | 2018-11-16 | 平安科技(深圳)有限公司 | 一种虚假消息的识别方法及其设备 |
| CN110399515A (zh) * | 2019-06-28 | 2019-11-01 | 中山大学 | 图片检索方法、装置及图片检索系统 |
Also Published As
| Publication number | Publication date |
|---|---|
| TW202119234A (zh) | 2021-05-16 |
| US20210142117A1 (en) | 2021-05-13 |
| CN112784005A (zh) | 2021-05-11 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US9842110B2 (en) | Content based similarity detection | |
| US9558264B2 (en) | Identifying and displaying relationships between candidate answers | |
| US9146987B2 (en) | Clustering based question set generation for training and testing of a question and answer system | |
| US12266203B2 (en) | Multiple input machine learning framework for anomaly detection | |
| US20140358922A1 (en) | Routing of Questions to Appropriately Trained Question and Answer System Pipelines Using Clustering | |
| CN107408115B (zh) | web站点过滤器、控制对内容的访问的方法和介质 | |
| US20150186787A1 (en) | Cloud-based plagiarism detection system | |
| TWI682287B (zh) | 知識圖譜產生裝置、方法及其電腦程式產品 | |
| WO2013070673A1 (en) | Systems and methods for generating and displaying hierarchical search results | |
| Kim et al. | Testing measurement invariance across groups in longitudinal data: Multigroup second-order latent growth model | |
| US12182098B1 (en) | Curating ambiguous data for use in a data pipeline through interaction with a data source | |
| US20140244634A1 (en) | Systems and Methods for Providing Personalized Search Results Based on Prior User Interactions | |
| TWI731469B (zh) | 資訊檢測裝置及方法 | |
| WO2022078145A1 (zh) | 面向本质计算与推理的跨dikw模态文本歧义处理方法 | |
| US9569510B2 (en) | Crowd-powered self-improving interactive visualanalytics for user-generated opinion data | |
| US20150081718A1 (en) | Identification of entity interactions in business relevant data | |
| CN111602129B (zh) | 针对注释和墨迹的智能搜索 | |
| CN112596725A (zh) | 编程作品的评分方法、评分装置、终端设备及存储介质 | |
| US10318084B2 (en) | Methods and systems for matrix electrode arrays | |
| WO2019225007A1 (ja) | 入力ミス検知装置、入力ミス検知方法および入力ミス検知プログラム | |
| KR102909036B1 (ko) | 전자 문서 상에서 동일 콘텐츠를 표시하는 방법 및 장치 | |
| Akter | Mopsi Geo-tagged Photo Search | |
| Morrison et al. | Data shopping in an open marketplace: Introducing the Ontogrator web application for marking up data using ontologies and browsing using facets | |
| Ruan et al. | An algorithm for calculating the degree of similarity between English words through the different position and appearance coefficients of letters: C. Ruan et al. | |
| KR20250151926A (ko) | 데이터 일관성 기반의 의료데이터 품질 평가 장치 및 방법 |