TWI493479B - 一種知識本體增補方法與其系統 - Google Patents
一種知識本體增補方法與其系統 Download PDFInfo
- Publication number
- TWI493479B TWI493479B TW101146124A TW101146124A TWI493479B TW I493479 B TWI493479 B TW I493479B TW 101146124 A TW101146124 A TW 101146124A TW 101146124 A TW101146124 A TW 101146124A TW I493479 B TWI493479 B TW I493479B
- Authority
- TW
- Taiwan
- Prior art keywords
- knowledge
- ontology
- concept
- candidate
- information
- Prior art date
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
本發明是關於一種資料增補方法與系統,且特別是一種知識本體增補的方法與系統。
隨著資訊時代的到來,資訊的數量每日都在快速的增長。因此若無妥善管理資訊的方式,則資訊中所含有的知識就無法迅速的被使用者利用。因此不論在何種專業領域中,都可以運用知識本體(Ontology)技術對該領域內的知識進行整理。
知識本體是一種用來表達知識的方式,其被廣泛的應用於各種領域中。知識本體利用簡潔的方式表示該領域中所含有的知識概念以及知識概念相互之間的關係。然而目前在建置知識本體的流程上,並未有統一的標準與方法。在建置知識本體的過程中,需要許多領域專家的參與,並且隨著專業領域中知識的發展,必須不斷的對知識本體的內容進行修正與增補。因此發展知識本體的過程中將耗費許多時間與人力。
為減少建置特定領域的知識本體時,所需花費的時間與人力,本發明實施例提出一種使用資訊檢索技術的知識本體增補方法與其系統。
本發明實施例提供一種知識本體增補方法。首先,接收至少一輸入資訊需求。然後,基於知識本體,擴張每一輸入資訊需求,以產生對應每一輸入資訊需求的至少一擴張資訊需求。接著,基於檢索模型,依據每一擴
張資訊需求,對文件集合進行檢索,以獲得對應每一擴張資訊需求的檢索結果。之後,根據每一檢索結果,擷取對應每一檢索結果的多筆候選增補知識概念。最後,選擇性地將每一檢索結果的多筆候選增補知識概念增補至知識本體。
本發明實施例提供一種知識本體增補系統,此知識本體增補系統包括伺服器。伺服器包括資訊需求擴張模組、資訊檢索模組與增補模組。輸入模組用以接收接受至少一輸入資訊需求。資訊需求擴張模組基於知識本體,擴張每一輸入資訊需求,以產生對應每一輸入資訊需求的至少一擴張資訊需求。資訊檢索模組依據每一擴張資訊需求,對文件集合進行檢索,以獲得對應每一擴張資訊需求的檢索結果。增補模組根據每一檢索結果,擷取對應每一檢索結果的多筆候選增補知識概念,並選擇性地將每一檢索結果的多筆候選增補知識概念增補至知識本體。
綜合以上所述,本發明實施例所提供的知識本體增補方法會基於目前之知識本體的知識概念對使用者輸入的輸入資訊需求進行擴張,且利用資訊檢索技術以更加準確與快速地獲得所需要增補的知識概念。因此,所述知識本體增補方法及其系統可以有效地減少建置特定領域的知識本體時,所需花費的時間與人力。
為使能更進一步瞭解本發明之特徵及技術內容,請參閱以下有關本發明之詳細說明與附圖,但是此等說明與所附圖式僅係用來說明本發明,而非對本發明的權利範圍作任何的限制。
本發明為減少建置特定領域的知識本體時,所需花費的時間與人力。提出一種利用資訊檢索技術進行知識本體增補方法與其系統。此知識本體增補方法依據目前的知識本體對資訊需求進行擴張,並使用資訊檢索技術依據擴張資訊需求對文件集合檢索,以獲得多筆檢索結果。接著,依據每一檢索結果獲得對應的多筆候選增補知識概念,並選擇性地將多筆候選增補知識概念增補至知識本體。為了使本發明之內容更為明確,以下特舉實施例作為本發明確實能夠據以實施的範例。
圖1為依照本發明實施例所繪示的知識本體增補方法的流程圖。在本實施例中,輸入資訊需求與擴張資訊需求可以為文字檢索中的檢索詞彙(query)。使用者在使用資訊檢索系統時,可以利用簡單的詞彙來表達自己的輸入資訊需求,以依據輸入資訊需求來增補目前的知識本體。另外知識本體增補方法可以執行於具有計算功能的電子裝置(例如為伺服器),但本發明卻不限定於此。另外,輸入資訊需求與擴張資訊需求的形式並非用以限制本發明,其他例如圖案、圖形或聲音等信息皆可以作為本發明實施例中的輸入資訊需求與擴張資訊需求。
首先,在步驟S11中,伺服器接收至少一輸入資訊需求。在此請注意,使用者可以透過用戶端輸入資訊需求,且用戶端透過網路連結伺服器,以將輸入資訊需求傳送給伺服器,或者,使用者將輸入資訊需求直接輸入於伺服器。總而言之,輸入資訊需求的產生方式並非用以限制本發明。
接著,於步驟S12中,伺服器基於知識本體,擴張每一輸入資訊需求,以產生對應每一輸入資訊需求的至少一擴張資訊需求。擴張資訊需求為伺服器對輸入資訊需求,查找知識本體中與資訊需求相關的知識概念,來對輸入資訊需求進行擴充,其相關細節將於後文中描述。在此請注意,知識本體可以儲存於伺服器中的資料庫,或者,伺服器由對外連結的儲存設備之資料庫獲取知識本體,總而言之,知識本體的儲存位置並非用以限制本發明。
接著,於步驟S13中,伺服器基於檢索模型,依據每一擴張資訊需求,對文件集合進行檢索,以獲得對應每一擴張資訊需求的檢索結果。文件集合為收集特定領域相關的文件,以供伺服器進行檢索。伺服器會將資訊需求與文件集合透過檢索模型進行相關性計算,以找出較為符合擴張資訊需求的多筆文件,並依多筆文件與擴張資訊需求的相關程度,對被檢出的多筆文件進行排序,以產生對應擴張資訊需求的檢索結果。在此請注意,文件集合的儲存位置同樣並非用以限制本發明,文件集合例如可以儲存於伺服器或外部之儲存設備的資料庫中。另外,檢索模型可以例如是向量檢索模型,然而,本發明並不限定於此。
接著,在步驟S14中,伺服器根據每一檢索結果,擷取對應每一檢索結果的多筆候選增補知識概念。候選增補知識概念為在以知識概念作為擴張資訊需求時之檢索結果的多筆文件中所擷取出的關鍵字。在此請注意,檢索結果之多筆文件可以利用斷詞技術將多筆文件中
排名最高的前幾名關鍵字作為對應擴張資訊需求的多筆候選增補知識概念。
在步驟S15中,伺服器選擇性地將每一檢索結果的多筆候選增補知識概念增補至知識本體。簡單地說,對應多個擴張資訊需求的多筆候選增補知識概念之間可能會有所重複或可能已經增補至知識本體中,因此,伺服器會依據特定選擇方式選擇性地將多筆候選增補知識概念增補至知識本體中。另外,上述特定選擇方式的其中一種實現方式將於後文中搭配圖8進行詳細描述,但要說明的是,此種特定選擇方式並非用以限制本發明。
接著,在步驟S16中,伺服器判斷是否需要修訂增補後的知識本體。如果伺服器判斷需要修訂增補後的知識本體,則步驟S17會被執行;否則,則步驟S18會被執行。伺服器可以透過提供使用者介面來讓使用者對知識本體增補的結果進行回饋。透過使用者對於每一次增補進知識本體中的候選增補知識概念進行回饋,將可以確定候選增補知識概念的表達方式與在知識本體架構中的位置是否合適。
在步驟S17中,伺服器修訂知識本體。如果候選增補知識概念的表達方式與在知識本體架構中的位置並不合適,則使用者可以透過使用者介面回饋建議的修訂方式,並且伺服器可以依據此建議的修訂方式去修訂增補後的知識本體。如果候選增補知識概念的表達方式與在知識本體架構中的位置並無不合適,則步驟S18會被執行。然而,要說明的是,步驟S16與S17的有無與實
現方式並非用以限制本發明。舉例來說,步驟S17可以更換為伺服器單純地捨棄此次增補後的知識本體。
接著,在步驟S18中,伺服器判斷是否需要繼續增補知識本體。若伺服器判斷需要繼續增補知識本體,則接著步驟S12會再次被執行;否則,則伺服器結束知識本體增補方法,並產出知識領域的知識本體。伺服器能夠提供使用者介面讓使用者評估增補後的知識本體之完善性是否已足夠代表知識領域,以確定是否繼續再次進行增補。若需繼續進行增補,則步驟S12~S15會再次地被執行,利用增補後的知識本體進行知識本體增補的流程。
在此請注意,參與回饋的使用者數量可為複數,且使用者可以為領域專家或一般使用者,其中領域專家與一般使用者可被賦予不同的權重值。伺服器會加總使用者之回饋權重值,並判斷回饋權重值是否大於閥值,其中閥值係依據使用者數量來決定。若回饋權重值大於閥值,則給伺服器修訂或繼續增補知識本體;否則,則伺服器將不修訂與繼續增補知識本體。
請參照圖2,圖2為本發明實施例之知識本體增補系統的架構圖。在本實施例中,知識本體增補系統2至少包括一用戶端23和伺服器21。伺服器21與用戶端23透過網路22連結,或者直接連結。如同前面所述,在其他實施例中,使用者可以直接將輸入資訊需求輸入至伺服器21,故用戶端23並非為知識本體增補系統2的必要元件。總而言之,用戶端23的數量與有無並非用以限制本發明。
用戶端23包括輸入模組231。輸入模組231用以提供使用者將輸入資訊需求輸入,並且接收使用者所回饋的回饋權重值,其中此回饋權重值可用以決定是否需修訂或繼續增補增補後的知識本體。顯示模組232接收並顯示伺服器所提供的使用者介面,所述使用者介面可以提供使用者得知增補後的知識本體。
伺服器21包括資料庫211、資訊需求擴張模組212、資訊檢索模組213與增補模組214。資料庫211用以儲存知識本體2111與文件集合2112。如同前面所述,資料庫211可以被移除,而知識本體2111與文件集合2112可以儲存於外部儲存設備的資料庫中。甚至,知識本體2111與文件集合2112可以各別分開儲存於資料庫211與外部儲存設備的資料庫中。總而言之,知識本體2111與文件集合2112的儲存位置並非用以限制本發明。
資訊需求擴張模組212基於知識本體2111,擴張每一輸入資訊需求,以產生對應每一輸入資訊需求的至少一擴張資訊需求。資訊檢索模組213基於檢索模型,依據每一擴張資訊需求,對文件集合2112進行檢索,以獲得對應每一擴張資訊需求的檢索結果。接著,資訊檢索模組213還根據每一檢索結果,擷取對應每一檢索結果的多筆候選增補知識概念。
增補模組214選擇性地將每一檢索結果的多筆候選增補知識概念增補至知識本體2111。另外,增補模組214還會判斷是否需要修訂增補後的知識本體,以及判斷是否需要繼續增補知識本體。若判斷需要修訂或繼續增補
增補後的知識本體,則增補模組214會修訂增補後的知識本體或者指示資訊需求擴張模組212基於增補後的知識本體,擴張每一輸入資訊需求,以產生對應每一輸入資訊需求的至少一擴張資訊需求,以接著再次地增補知識本體。因此,直到增補後的知識本體之完整性達到需求時,否則所述知識本體增補系統2會不斷重覆地增補知識本體。
於本發明之實施例中,知識本體2111可以例如為建築資訊模型(building information modeling)領域的知識本體2111。另外,知識本體2111亦可以是環境物質領域的知識本體2111。值得說明的是,知識本體2111的特定領域並非用以限制本發明。
請參照圖3,圖3為本發明實施例之建築資訊模型之知識本體的架構示意圖。建築資訊模型之知識本體係由多個知識概念建置而成,其中多個知識概念係從與建築資訊模型相關的文獻資料中整理並分析建築資訊模型領域而獲得,其中這些知識概念建置成建築資訊模型的知識本體。
若使用者以圖3的知識本體進行增補,並例如輸入「建築資訊模型」、「營運」這兩個輸入資訊需求的檢索詞彙時,所述知識本體增補方法或系統就會認為使用者是想要查找在「建築資訊模型」領域中與「營運」相關的文件。
依據上述的知識增補方法,首先,圖3中知識本體中與「營運」相關的知識概念會被查找,以對輸入資訊需求進行擴張,而產生擴張資訊需求。於此實施例中,
與「營運」相關之下面層級的知識概念會被選擇出來,以作為其中多個擴張資訊需求,進而讓擴張資訊需求能包含較多的資訊。換言之,多個擴張資訊需求為「建築管理記錄」、「建築性能」、「設備維護管理」、「防災計畫」與「營運」等知識概念的檢索詞彙。
由於在知識本體中不同的層級的知識概念與「營運」的相關性不盡相同,因此,根據圖3之知識本體的結構,每一個選擇作為擴張資訊需求的知識概念會有不同的權重。於本發明實施例中,權重分配方式為從使用者所輸入的輸入資訊需求開始,往下一層級的知識概念開始分配權重。然而,值得說明的是,本發明並不限制權重的分配方式。
請參照圖4與圖5,圖4為本發明實施例之知識本體的架構示意圖,圖5為本發明實施例之根據輸入資訊需求對知識本體中各知識概念進行權重分配的示意圖。若知識本體的架構如圖4所示,各節點分別代表一個知識概念,且此時使用者的輸入資訊需求對應為節點E,則權重分配方式為由節點E開始往下找尋至沒有子節點的節點。依照此實施例,無子節點的節點為P、Q、R、S、T、U。當節點的子節點越多,則代表此節點所蘊含的知識概念越多,故此節點的重要程度也較高。因此將這些沒有子節點的節點之權重初始化為1。接著,將節點的權重賦予此節點的父節點。
舉例來說,節點M為節點S、T、U的父節點,因此節點M的權重為3。依照相同計算方式,則節點K的權重為2,節點L的權重為1。接著,將節點K、L、M
的權重賦予三節點K、L、M的父節點E,因此,節點E的權重為6,而其他所有節點的權重為0(如圖5所示)。
在得到節點E的權重地圖後,則需要考慮使用者所輸入的另一資訊需求,「建築資訊模型」。由於「建築資訊模型」與節點E皆為使用者輸入的資訊需求,所以兩者的重要性一樣重要。因此,將節點E的權重賦予給「建築資訊模型」,也就是「建築資訊模型」的權重與節點E的權重相等。因為,建築資訊模型為整個知識本體架構中最上層的知識概念,所以在圖4的例子中節點A所代表的知識概念即為建築資訊模型。
因此,可以將節點E的權重賦予給節點A,也就是節點A的權重為6。為了使每一筆資訊需求的重要性都相等,權重地圖會進行正規化,以讓權重地圖上的所有權重加總起來為1,以保持每一筆輸入資訊需求的重要性皆相等。
根據以上步驟,使用者的輸入資訊需求,就能夠基於知識本體進行擴張,產生出擴張資訊需求。擴張資訊需求(包括權重與知識概念),在本發明實施例中,可以轉換為向量空間模型中的資訊需求向量,並依照向量空間模型的相關性評估方式,來獲得對應之擴張資訊需求的檢索結果。
本發明實施例的檢索模型採用向量空間模型(vector space model)進行建置。向量空間模型為在資訊檢索技術中常見的檢索模型,其將文件集合中之文件與擴張資訊需求都轉換為向量的表示方式。在向量空間中,當兩向
量的夾角越小時,代表兩向量越為相似。因此利用轉換而成的向量可以求出文件與擴張資訊需求之間的相關程度。
轉換文件向量的方式為向量的每一個維度代表在文件中每一個詞彙的權重,其中詞彙的權重計算是以詞頻-逆向文件頻率(term frequency-inverse document frequency)方法來進行計算。為當目標詞彙在某一文件出現越多次,則表示詞頻越高。當目標詞彙在許多文件皆出現時,則逆向文件頻率越小。換言之,詞頻與逆向文件頻率兩數值相乘後則為在文件向量中某一個維度的詞彙權重。計算完每一個詞彙的權重後,這些不同維度的權重就會組合成文件的向量。當擴張資訊需求產生時,會對擴張資訊需求用同一方式建置此擴張資訊需求之向量,接著在利用向量內積來求擴張資訊需求與文件之間的相關性。
向量空間模型的相關性計算為當兩向量所夾的角度越小,則該資訊需求與該文件的相關性就越高。因此可利用向量內積來進行計算。當向量內積的結果越大時,則相關性越高。因此,根據向量空間模型可以將文件集合中的文件依照與擴張資訊需求的相關性進行排序,就得到上述每一擴張資訊需求的檢索結果。
檢索結果具有與擴張資訊需求相關的文件的排名順序之資訊。若文件在檢索結果中的排名越高就代表此文件與對應的此筆擴張資訊需求越相關。因此在檢索結果中排名較高的文件,就是與知識本體中的知識概念相關性較高的文件。在本發明中實施例,例如可以選取相
關性排名前3名的文件做為擴張資訊需求的檢索結果。
為了對知識本體的內容進行增補,故知識本體增補方法僅針對在相關性中排名較高的前幾名文件進行分析。在同一篇文件中會包含許多知識概念,除了與擴張資訊需求相關的知識概念外,文件仍會含有其他的知識概念。這些知識概念會與擴張資訊需求中的知識概念同時出現在同一篇文件中,故代表這兩個知識概念之間相關性較高。因此應將這些知識概念增補進知識本體。所以藉由相關性排名較高之前幾名文件中的知識概念,就可以對知識本體的知識概念進行增補。
得到某一筆擴張資訊需求的檢索結果後,對相關性排名較高的前幾名文件擷取候選增補知識概念。在中文的文件中,代表此篇文件所包含的知識概念則為此文件中所出現的詞彙。因此為了擷取出每篇文件的知識概念,就須對文件中的語句進行分析。語句分析就是如何將語句拆分成詞彙,在資訊檢索中此項技術稱之為斷詞技術。
斷詞技術為讓文件內容裡的語句依照正確的語意,以詞彙為單位來進行儲存。因為每種語言在詞彙組合成語句的規則上並不相同,故如何將語句以正確的方式進行斷詞,在不同語言中就會有著不同的方式。。
在本發明實施例中,採用n-gram斷詞方法對文件進行分析,其優點為無需先建置辭典,而是直接針對文件的內容進行分析,來擷取出文件中所出現的詞彙。因此n-gram方法在擷取新發展的知識領域的詞彙時,就不會因新發展的知識領域的詞彙尚未被編進辭典中,而無法
對文件的內容進行斷詞。
n-gram方法為假設每個語句都存在有一個最小的表示單位。在中文裡最小的表示單位為「字」。每個最小表示單位可以跟另一個最小的表示單位合成為一個概念,也就是中文的「詞」。n-gram方法並不限定多少個最小表示單位來進行組合成一個概念。若只用一個最小表示單位稱之為unigram。以兩個單位的長度進行連接稱bigram。以三個單位的長度進行連結稱為trigram。
在實際進行斷詞時需要多少個最小表示單位組合成一個概念,則是由語言特性與文件內容來決定的。請參照圖6與圖7,圖6是本發明實施例之「工程變更設計」以bigram切分的示意圖,而圖7是本發明實施例之「工程變更設計」以trigram切分的示意圖。
對語句進行以n-gram方法的不同長度切分後,為得到這些詞彙的重要程度,因此對這些詞彙進行詞頻的計算。詞頻為計算每一個詞彙在文件中所出現的頻率,其計算方式為該詞彙在文件中所出現的次數除以整篇文件中的總詞彙數量。
文件的總詞彙數量的計算方法則是根據n-gram方法的不同切分長度來進行計算。每個詞彙在計算詞頻時的分母為詞彙的切分長度的總字彙數量。如圖6所示,例如依照「工程變更設計」此語句,「工程」此詞彙在計算詞頻的時候的分母為5。因為該語句在兩個單位的長度下被切分為5個詞彙。如圖7所示,「工程變」此詞彙的分母則為4,因為在三個單位的長度下,該語句
被切分為4個詞彙。因此切分長度較長的詞彙,其分母較小,詞頻的數值就會較高,以凸顯長詞彙的重要性。
請參照圖8,圖8為本發明實施例中選擇性地將每一檢索結果的多筆候選增補知識概念增補至知識本體的方法之流程圖。如圖8所示,首先,在步驟S81中,選擇未選擇之擴張資訊需求中最底層者。接著,在步驟S82中,選擇所選之擴張資訊需求之第i名候選增補知識概念(i的初始值為1)。接著,在步驟S83中,檢查選擇的候選增補知識概念是否已存在於知識本體。若選擇的候選增補知識概念未存在於知識本體中,則步驟S84會被執行;否則,則步驟S87會被執行。在步驟S84中,檢查選擇的候選增補知識概念與同一層其他擴張資訊需求之第i名的候選增補知識概念是否相同。若選擇的候選增補知識概念與同一層其他擴張資訊需求之第i名的候選增補知識概念不同,則步驟S85會被執行;否則,步驟S86會被執行。
在步驟S85中,將候選增補知識概念增補至知識本體。在步驟S86中,檢查選擇的候選增補知識概念於其父擴張資訊需求的排名是否大於同一層之另一擴張資訊需求之父擴張資訊需求的排名。若選擇的候選增補知識概念於其父擴張資訊需求的排名大於同一層之另一擴張資訊需求之父擴張資訊需求的排名,則步驟S86會被執行;否則,則步驟S87會被執行。在步驟S87中,更新i,其中i=i+1。在步驟S88中,判斷i是否大於K,K為所選之擴張資訊需求之前第K名候選增補知識概念。在本發明中,選用K=4做為自動知識本體增補的參數值。若i小於K,則步驟S82或重複被執行;否則,步驟S89會被執行。在步驟S89中
,判斷是否還有未選擇的擴張資訊需求。若還有未選擇的擴張資訊需求,則步驟S81會被重複地執行;否則,則結束此次知識本體的增補。
請參照圖9,圖9為本發明實施例之知識概念關鍵字排名表的示意圖。圖9的知識本體未進行增補前,例如為圖3的建築資訊模型之知識本體。另外,本實施例選用了100年電子計算機於土木水利工程應用研討會的所有論文共124篇,扣除掉內容為英文的文章,實際使用117篇文件作為文件集合。
於圖9的實施例中,以「敷地計畫」作為擴張資訊需求進行檢索後,則可得到此擴張資訊需求的關鍵字排名表。在此排名表中第一名為「建築資訊模型」,但因此知識概念已在知識本體中,故不將「建築資訊模型」增補至知識本體,而接著選取第二名的「植栽」之候選增補知識概念增補至知識本體中之「敷地計畫」的下層。
再以圖9為例,「工程分析」與「工地規劃與利用」其關鍵字排名相同。排名第一名的「建築資訊模型」已在知識本體2111中,因此,選用第二順位的「進度」之候選增補知識概念,但「進度」是另一知識概念的第一名的關鍵字。因此,無法將「進度」之知識概念作為候選增補知識概念增補至知識本體之「工程分析」的下層。
接著,第三名的「專業分包商」之候選增補知識概念會被選取。然而,因「專業分包商」同時為「工程分析」與「工地規劃與利用」的候選增補知識概念。因此需進行圖8之步驟S86,來確定「專業分包商」為哪一
個知識概念的候選增補知識概念。根據上述例子,須判斷「工程分析」與「工地規劃與利用」之兩知識概念的候選增補知識概念在父知識概念的排名順序。「工程分析」與「工地規劃與利用」之兩知識概念的父知識概念分別為「規劃與設計」與「施工」。
如圖9所示,在「規劃與設計」的排名表中「專業分包商」為第四名,而在「施工」的排名表中「專業分包商」為第三名。因此候選增補知識概念之「專業分包商」會增補至知識本體之「工地規劃與利用」的下層,而需要增補至「工程分析」下層的候選增補知識概念則需要再次地尋找。
圖8所表示的選擇性地將每一檢索結果的多筆候選增補知識概念增補至知識本體的方法之流程,係從知識本體最下層的擴張資訊需求開始進行增補,逐步地對選取的候選增補知識概念進行檢驗,判斷是否需要增補至知識本體,並逐步往上層擴張資訊需求進行候選增補知識概念的檢驗,直到所有擴張資訊需求都檢驗結束為止。
若於圖8所示的選擇性地將每一檢索結果的多筆候選增補知識概念增補至知識本體的方法中,選用相關性較高的前3篇文件與文件前4名的候選增補知識概念為參數,對知識本體進行增補。以下將展示依照圖1與圖8的流程,圖3之知識本體經過了四次增補的結果。
請參照圖10,圖10為本發明實施例之建築資訊模型的知識本體進行第一次增補後的結果示意圖。如圖10所示,與原本知識本體的架構相比,增補後的知識本體多增加
了一層,變為五層架構,增加了17個知識概念。在此次迭代中增加的知識概念以方框標示,分別為甘特圖、WBBIMS、變更、消防安全設備、救災、領域團隊、銷售、植栽、施工介面、檢查、施工規範、團隊、介面溝通、專業分包商、進度、檢查維護與疏散。
請參照圖11,圖11為本發明實施例之建築資訊模型的知識本體進行第二次增補後的結果示意圖。如圖11所示,以圖10之第一次增補的知識本體為基礎,再次依據擴張資訊需求對知識本體進行增補,其成果為第二次增補的知識本體的架構又多增加了一層,變為六層架構,共增加13個知識概念。在此增補過程中增加的知識概念以方框標示,分別為工程進度、版次、類行、救災人員、跨領域、維護人員、景觀、建築、施工介面溝通、衝突檢、更新、檢查維護人員與避難,其中「類行」這個知識概念,經過檢查文件中的內容後,確定為「人類行為」斷詞錯誤的結果。另一個「衝突檢」則為「衝突檢查」斷詞錯誤的結果。
請參照圖12,圖12為本發明實施例之建築資訊模型的知識本體進行第四次增補後的結果示意圖。如圖12所示,在此次增補過程中,知識本體的架構又多增加了一層,變為八層架構,但只增加1個知識概念,此知識概念為界面問題(增加的知識概念以方框標示)。
根據以上知識本體增補的流程,在使用以知識本體為基礎對輸入資訊需求進行擴張後,會選取在每筆擴張資訊需求之相關性較高的前N篇文件的關鍵字排名表,將前N篇文件的關鍵字進行排名,得到擴張資訊需求的關鍵字排名表。接著,檢視排名表的前K個候選增補知識概念是否
已出現在知識本體中,若候選增補知識概念沒有出現於知識本體中,則增加該關鍵字到知識本體中。若關鍵字排名表的前K個候選增補知識概念皆已出現在知識本體,則結束知識本體增補方法,並輸出增補後的知識本體。
上述知識本體增補的流程中,如果增補的知識概念為錯誤斷詞結果的詞彙,又或者於知識本體中增補的知識概念並不恰當,則可以如同前面所述,可以經由使用者介面來作進一步的修訂,來維持知識本體的正確性。
請參照圖13,圖13為本發明實施例之環境物質的知識本體的架構示意圖。環境物質的知識本體定義了有關環境物質相關的概念與這些概念之間的關係。根據使用者的輸入資訊需求,知識本體中與輸入資訊需求相關的知識概念會被查找,以獲得擴張資訊需求。如圖13所示,當使用者檢索鹵水(brine)時,知識本體會被查找,而得到「水」這個知識概念作為擴張資訊需求的一者。在此實施例中,文件集合為與環境物質領域相關的文件,擴張資訊需求(此例中為水與鹵水)與處理好的文件透過檢索模型進行相關性計算,以找出相關性較高的文件。
在此實施例中,以Google搜尋做為檢索模型。檢索結果為以Google檢索的結果,可得到有關鹵水相關的檢索結果。接著,對檢索結果中排名較高的文件進行候選增補知識概念的擷取。針對每一筆擴張資訊需求的檢索結果,擷取在檢索結果中排名較高的文件的候選增補知識概念,並對這些候選增補知識概念進行排序。接著判斷排名較高的候選增補知識概念是否已在原本的知識本體中。若知識概念不存在於目前的知識本體中,則增加知識概念於知識本體中。
請參照圖14,圖14為本發明實施例之環境物質的知識
本體進行增補後的結果示意圖。在此實施例中,經由分析文件中的候選增補知識概念,可以發現培根醃漬鹵水(bacon curing brine)是較為重要的知識概念,而目前的知識本體2111中並未出現該知識概念。因此,可以將培根醃漬鹵水加入鹵水的下層。
綜合以上所述,本發明實施例所提供的知識本體增補方法會基於目前之知識本體的知識概念對使用者輸入的輸入資訊需求進行擴張,且利用資訊檢索技術以更加準確與快速地獲得所需要增補的知識概念。因此,所述知識本體增補方法及其系統可以有效地減少建置特定領域的知識本體時,所需花費的時間與人力。除此之外,本發明實施例的知識本體增補方法還提供了使用者介面給使用者判斷增補後的知識本體是否需要進行修訂或者繼續增補,以提昇知識本體的完整性與準確性。
以上所述僅為本發明之實施例,其並非用以侷限本發明之專利範圍。
S11~S18‧‧‧步驟流程
2‧‧‧知識本體增補系統
21‧‧‧伺服器
211‧‧‧資料庫
2111‧‧‧知識本體
2112‧‧‧文件集合
212‧‧‧資訊需求擴張模組
213‧‧‧資訊檢索模組
214‧‧‧增補模組
22‧‧‧網路
23‧‧‧用戶端
231‧‧‧輸入模組
232‧‧‧顯示模組
S81~S89‧‧‧步驟流程
圖1為本發明實施例之知識本體增補之方法的流程圖。
圖2為本發明實施例之知識本體增補系統的架構圖。
圖3為本發明實施例之建築資訊模型之知識本體的架構示意圖。
圖4為本發明實施例之知識本體的架構示意圖。
圖5為本發明實施例之根據輸入資訊需求對知識本體中各知識概念進行權重分配的示意圖。
圖6是本發明實施例之「工程變更設計」以bigram
切分的示意圖。
圖7是本發明實施例之「工程變更設計」以trigram切分的示意圖。
圖8為本發明實施例中選擇性地將每一檢索結果的多筆候選增補知識概念增補至知識本體的方法之流程圖。
圖9為本發明實施例之知識概念關鍵字排名表的示意圖。
圖10為本發明實施例之建築資訊模型的知識本體進行第一次增補後的結果示意圖。
圖11為本發明實施例之建築資訊模型的知識本體進行第二次增補後的結果示意圖。
圖12為本發明實施例之建築資訊模型的知識本體進行第四次增補後的結果示意圖。
圖13為本發明實施例之環境物質的知識本體的架構示意圖。
圖14為本發明實施例之環境物質的知識本體進行增補後的結果示意圖。
S11~S18‧‧‧步驟流程
Claims (10)
- 一種知識本體增補方法,該方法包括:步驟A:接收至少一輸入資訊需求;步驟B:基於知識本體,擴張每一輸入資訊需求,以產生對應每一輸入資訊需求的至少一擴張資訊需求;步驟C:基於一檢索模型,依據每一擴張資訊需求,對文件集合進行檢索,以獲得對應每一擴張資訊需求的檢索結果;步驟D:根據每一檢索結果,擷取對應每一檢索結果的多筆候選增補知識概念;以及步驟E:選擇性地將每一檢索結果的多筆候選增補知識概念增補至該知識本體;其中,該步驟E更包括:步驟E-1:選擇其中一個擴張資訊需求之一第i名的候選增補知識概念,其中i為索引值;步驟E-2:檢查該第i名的候選增補知識概念與同一層其他擴張資訊需求之一第i名的候選增補知識概念是否相同,以據此選擇性地將該第i名的候選增補知識概念增補至該知識本體。
- 如申請專利範圍第1項所述之知識本體增補方法,更包括:步驟F:判斷是否需要修訂增補後的該知識本體;以及步驟G:若判斷需要修訂增補後的該知識本體,則修訂增補後的該知識本體。
- 如申請專利範圍第1項所述之知識本體增補方法,更包括: 步驟H:判斷是否需要繼續增補該知識本體;以及步驟I:若判斷需要繼續增補該知識本體,則重複執行步驟A~步驟E與步驟H。
- 如申請專利範圍第2或3項所述之知識本體增補方法,其中提供一使用者介面以供至少一使用者決定是否修訂增補後的該知識本體或繼續增補該知識本體。
- 如申請專利範圍第4項所述之知識本體增補方法,該使用者為一一般使用者或一領域專家,且該一般使用者與該領域專家被賦以不同的回饋權重。
- 如申請專利範圍第1項所述之知識本體增補方法,其中該檢索模型為一向量空間模型。
- 如申請專利範圍第1項所述之知識本體增補方法,其中對該每一檢索結果,使用一n-gram斷詞方法擷取對應每一檢索結果的該些候選增補知識概念。
- 如申請專利範圍第1項所述之知識本體增補方法,其中該候選增補知識概念未出現於該知識本體中,則將該候選增補知識概念增補置該知識本體中。
- 一種知識本體增補系統,該系統包括:一伺服器,包括:一資訊需求擴張模組,基於知識本體,擴張每一輸入資訊需求,以產生對應每一輸入資訊需求的至少一擴張資訊需求;一資訊檢索模組,基於一檢索模型,依據每一擴張資訊需求,對文件集合進行檢索,以獲得對應每一擴張資訊需求的檢索結果,並且根據每一檢索結果,擷取對應每一檢索結果的多筆候選增補知識 概念;以及一增補模組,選擇性地將每一檢索結果的多筆候選增補知識概念增補至該知識本體;其中,該增補模組選擇其中一個擴張資訊需求之一第i名的候選增補知識概念,其中i為索引值;該增補模組檢查該第i名的候選增補知識概念與同一層其他擴張資訊需求之一第i名的候選增補知識概念是否相同,以據此選擇性地將該第i名的候選增補知識概念增補至該知識本體。
- 如申請專利範圍第9項所述之知識本體增補系統,其中該伺服器更包括:一資料庫,該資料庫儲存知識本體與文件集合。
Priority Applications (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| TW101146124A TWI493479B (zh) | 2012-12-07 | 2012-12-07 | 一種知識本體增補方法與其系統 |
| US13/906,941 US9104755B2 (en) | 2012-12-07 | 2013-05-31 | Ontology enhancement method and system |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| TW101146124A TWI493479B (zh) | 2012-12-07 | 2012-12-07 | 一種知識本體增補方法與其系統 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| TW201423614A TW201423614A (zh) | 2014-06-16 |
| TWI493479B true TWI493479B (zh) | 2015-07-21 |
Family
ID=50882164
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| TW101146124A TWI493479B (zh) | 2012-12-07 | 2012-12-07 | 一種知識本體增補方法與其系統 |
Country Status (2)
| Country | Link |
|---|---|
| US (1) | US9104755B2 (zh) |
| TW (1) | TWI493479B (zh) |
Families Citing this family (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO2017021420A1 (en) | 2015-08-03 | 2017-02-09 | Here Global B.V. | Method and apparatus for syncing an embedded system with plurality of devices |
| US11100415B2 (en) * | 2016-10-04 | 2021-08-24 | University Of Louisiana At Lafayette | Architecture and method for providing insights in networks domain |
| CN112084347B (zh) * | 2020-09-15 | 2023-08-25 | 东北大学 | 一种基于知识表示学习的数据检索方法及系统 |
Family Cites Families (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US7562069B1 (en) * | 2004-07-01 | 2009-07-14 | Aol Llc | Query disambiguation |
| US8566256B2 (en) * | 2008-04-01 | 2013-10-22 | Certona Corporation | Universal system and method for representing and predicting human behavior |
| US8489523B2 (en) * | 2010-03-31 | 2013-07-16 | Alcatel Lucent | Categorization automation based on category ontology |
-
2012
- 2012-12-07 TW TW101146124A patent/TWI493479B/zh active
-
2013
- 2013-05-31 US US13/906,941 patent/US9104755B2/en active Active
Non-Patent Citations (1)
| Title |
|---|
| 江舜絃,中央大學資訊管理研究所,以知識本體為基礎的中文查詢擴展,2009/07/16 林顯堂,台灣大學土木工程系,以知識本體為基礎之特定領域文件段落擷取方法及應用,2009/07 李佳學,海洋大學資訊工程系,結合知識本體推論與詞彙分析技術之網際服務探索機制,2011/07 * |
Also Published As
| Publication number | Publication date |
|---|---|
| TW201423614A (zh) | 2014-06-16 |
| US20140164432A1 (en) | 2014-06-12 |
| US9104755B2 (en) | 2015-08-11 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US10223441B2 (en) | Scoring candidates using structural information in semi-structured documents for question answering systems | |
| US8910120B2 (en) | Software debugging recommendations | |
| JP5816936B2 (ja) | 質問に対する解答を自動的に生成するための方法、システム、およびコンピュータ・プログラム | |
| CN103229162B (zh) | 使用候选答案逻辑综合提供问题答案 | |
| US10095690B2 (en) | Automated ontology building | |
| US9773053B2 (en) | Method and apparatus for processing electronic data | |
| CN103229223A (zh) | 使用多个候选答案评分模型提供问题答案 | |
| JPWO2011078186A1 (ja) | 文書クラスタリングシステム、文書クラスタリング方法およびプログラム | |
| US10678820B2 (en) | System and method for computerized semantic indexing and searching | |
| JP2021144348A (ja) | 情報処理装置及び情報処理方法 | |
| CN110704613B (zh) | 词汇数据库构建及查询方法、数据库系统、设备及介质 | |
| TWI493479B (zh) | 一種知識本體增補方法與其系統 | |
| Deliiska | Thesaurus and domain ontology of geoinformatics | |
| Rana et al. | A textual description based approach to process matching | |
| CN108614821B (zh) | 地质资料互联互查系统 | |
| Chen et al. | Construction methods of knowledge mapping for full service power data semantic search system | |
| Neves et al. | Automatic content recommendation and aggregation according to scorm | |
| Shao | Research on fuzzy ontology e-learning based on user profile | |
| RU2643438C2 (ru) | Обнаружение языковой неоднозначности в тексте | |
| Ellouze et al. | CITOM: An incremental construction of multilingual topic maps | |
| CN120353940B (zh) | 一种知识图谱构建方法、装置、设备及产品 | |
| Flores et al. | Automated Information Extraction from Construction Regulations Using LangChain: A Case Study in Aguascalientes | |
| Misale et al. | A survey on recommendation system for technical paper reviewer assignment | |
| English | An extensible schema for building large weakly-labeled semantic corpora | |
| CN119829760A (zh) | 演讲大纲生成方法、装置及存储介质 |