TWI611308B - 網頁資料擷取裝置及其網頁資料擷取方法 - Google Patents
網頁資料擷取裝置及其網頁資料擷取方法 Download PDFInfo
- Publication number
- TWI611308B TWI611308B TW105135730A TW105135730A TWI611308B TW I611308 B TWI611308 B TW I611308B TW 105135730 A TW105135730 A TW 105135730A TW 105135730 A TW105135730 A TW 105135730A TW I611308 B TWI611308 B TW I611308B
- Authority
- TW
- Taiwan
- Prior art keywords
- webpage
- data
- node data
- node
- group
- Prior art date
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/955—Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
- G06F16/9566—URL specific, e.g. using aliases, detecting broken or misspelled links
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/02—Protocols based on web technology, e.g. hypertext transfer protocol [HTTP]
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/958—Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
- G06F16/986—Document structures and storage, e.g. HTML extensions
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L61/00—Network arrangements, protocols or services for addressing or naming
- H04L61/45—Network directories; Name-to-address mapping
- H04L61/457—Network directories; Name-to-address mapping containing identifiers of data entities on a computer, e.g. file names
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Computer Hardware Design (AREA)
- Information Transfer Between Computers (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一種網頁資料擷取裝置及其網頁資料擷取方法。網頁資料擷取裝置執行:根據網頁資料之URL之位址關聯性,將網頁資料分為URL群組;自URL群組之網頁資料中挑選第一網頁資料以及第二網頁資料;解析第一網頁資料以及第二網頁資料得網頁節點資料集合;根據網頁節點資料集合之網頁節點資料之XML路徑語言之路徑關聯性以及文字內容之文字關聯性,將網頁節點資料集合之網頁節點資料分為複數網頁節點資料群組;分別計算各網頁節點資料群組之一文字內容總和;根據文字內容總和,判斷網頁節點資料群組之主要網頁節點資料群組;根據主要網頁節點資料群組包含之網頁節點資料之XML路徑語言決定網頁主要內容擷取資訊。
Description
本發明係關於一種網頁資料擷取裝置及其網頁資料擷取方法;更具體而言,本發明係關於一種自動化之網頁資料擷取裝置及其網頁資料擷取方法。
隨著網際網路應用發展,各式各樣的資訊皆可從不同之網頁獲取,因此,當有特定資料分析需求時,便可針對相關網站之網頁,擷取其主要內容後分析處理。
而習知之網頁主要內容擷取方式中,多採人工抓取分析進行,然而,以人工之方式針對不同網站之不同網頁進行主要內容判斷,其效率相當不理想。據此,為提升網頁主要內容擷取效率,便有以客製程式為主,針對網頁之各種樣板(templates)及其排版(layout)作為訓練資料(training data),進行網頁分析及主要內容擷取之技術。
惟此種客製程式之方式,僅能針對特定網頁之樣板及排版進行處理,因此,當網頁改版或其語法結構稍微調整,若不針對客製程式進行相應之調整,將會導致分析及擷取之結果發生
明顯錯誤。
更者,因網頁格式排版日趨複雜,因此網頁資訊量亦大幅大幅增加,單一網頁之網頁節點(webpage node)可能高達近千個,據此,當網頁之結構或型態發生更動時,客製程式調整的複雜程度將更顯困難,甚至可能需要重新撰寫客製程式,如此,同樣導致網頁主要內容判斷之效率不佳。
因此,如何改進習知網頁主要內容擷取效率不佳之缺點,乃業界須共同努力之目標。
本發明之主要目的係提供一種用於網頁資料擷取裝置之網頁資料擷取方法。網頁資料擷取裝置自網頁伺服器接收複數網頁資料。網頁資料擷取方法包含:(a)令網頁資料擷取裝置根據複數網頁資料之複數統一資源定址器(uniform resource locator,URL)之位址關聯性,將複數網頁資料分為至少一URL群組。其中,至少一URL群組包含第一URL群組,第一URL群組包含至少部分複數網頁資料;(b)令網頁資料擷取裝置自第一URL群組之部分複數網頁資料中,挑選第一網頁資料以及第二網頁資料;(c)令網頁資料擷取裝置解析第一網頁資料以及第二網頁資料得網頁節點資料集合。其中,網頁節點資料集合包含複數網頁節點資料,各網頁節點資料包含相對應之XML路徑語言(XML Path Language)以及文字內容。
前述網頁資料擷取方法進一步包含:(d)令網頁資料
擷取裝置根據網頁節點資料集合之複數網頁節點資料之複數XML路徑語言之路徑關聯性以及複數文字內容之文字關聯性,將網頁節點資料集合之複數網頁節點資料分為複數網頁節點資料群組。其中,各網頁節點資料群組至少包含部分複數網頁節點資料;(e)令網頁資料擷取裝置分別計算各網頁節點資料群組之部分複數網頁節點資料之文字內容總和;(f)令網頁資料擷取裝置根據複數文字內容總和,判斷複數網頁節點資料群組之至少一主要網頁節點資料群組;(g)令網頁資料擷取裝置根據至少一主要網頁節點資料群組包含之部分複數網頁節點資料之複數XML路徑語言,決定網頁主要內容擷取資訊。
為達上述目的,本發明揭露一種網頁資料擷取裝置,包含接收單元以及處理單元。接收單元用以自網頁伺服器接收複數網頁資料。處理單元用以:根據複數網頁資料之複數URL之位址關聯性,將複數網頁資料分為至少一URL群組。其中,至少一URL群組包含第一URL群組,第一URL群組包含至少部分複數網頁資料;自第一URL群組之部分複數網頁資料中,挑選第一網頁資料以及第二網頁資料;解析第一網頁資料以及第二網頁資料得網頁節點資料集合。其中,網頁節點資料集合包含複數網頁節點資料,各網頁節點資料包含相對應之XML路徑語言以及文字內容。
前述處理單元進一步用以:根據網頁節點資料集合之複數網頁節點資料之複數XML路徑語言之路徑關聯性以及複數文字內容之文字關聯性,將網頁節點資料集合之複數網頁節點資
料分為複數網頁節點資料群組。其中,各網頁節點資料群組至少包含部分複數網頁節點資料;分別計算各網頁節點資料群組之部分複數網頁節點資料之文字內容總和;根據複數文字內容總和,判斷複數網頁節點資料群組之至少一主要網頁節點資料群組;根據至少一主要網頁節點資料群組包含之部分複數網頁節點資料之複數XML路徑語言,決定網頁主要內容擷取資訊。
此外在參閱圖式及隨後描述之實施方式後,此技術領域具有通常知識者便可瞭解本發明之其他目的,以及本發明之技術手段及實施態樣。
1、2‧‧‧網頁資料擷取裝置
11、21‧‧‧接收單元
13、23‧‧‧處理單元
wp‧‧‧網頁資料
ul‧‧‧統一資源定址器
ug‧‧‧至少一URL群組
UL1‧‧‧第一URL群組
WP1‧‧‧第一網頁資料
WP2‧‧‧第二網頁資料
ND‧‧‧網頁節點資料
NDX‧‧‧XML路徑語言
NDT‧‧‧文字內容
wpg‧‧‧網頁節點資料集合
ndg‧‧‧網頁節點資料群組
MNDG‧‧‧至少一主要網頁節點資料群組
MX‧‧‧網頁主要內容擷取資訊
第1A圖係本發明第一實施例之網頁資料擷取操作示意圖;第1B圖係本發明第一實施例之網頁資料擷取裝置之方塊圖;第2A圖係本發明第二實施例之網頁資料擷取操作示意圖;第2B圖係本發明第二實施例之網頁資料擷取裝置之方塊圖;第3圖係本發明第三實施例之網頁資料擷取方法之流程圖;以及第4A-4B圖係本發明第四實施例之網頁資料擷取方法之流程圖。
下將透過實施方式來解釋本發明之內容。須說明者,本發明的實施例並非用以限制本發明須在如實施例所述之任何特
定的環境、應用或特殊方式方能實施。因此,有關實施例之說明僅為闡釋本發明之目的,而非用以限制本發明,且本案所請求之範圍,以申請專利範圍為準。除此之外,於以下實施例及圖式中,與本發明非直接相關之元件已省略而未繪示,且以下圖式中各元件間之尺寸關係僅為求容易瞭解,非用以限制實際比例。
請參考第1A~1B圖。第1A圖係本發明第一實施例之網頁資料擷取操作示意圖,第1B圖係本本發明第一實施例之一網頁資料擷取裝置1之方塊圖。網頁資料擷取裝置1包含一接收單元11以及一處理單元13,並透過接收單元11與一網頁伺服器9連線。元件間之互動將於下文中進一步闡述。
首先,當需要分析網頁伺服器9之網頁時,網頁資料擷取裝置1之接收單元11自網頁伺服器9接收複數網頁資料wp。其中,基於網際網路使用原則,各網頁資料wp皆有其相應之統一資源定址器(uniform resource locator,URL)ul。
接著,網頁資料擷取裝置1之處理單元13便根據複數網頁資料wp之複數URL ul之位址關聯性,將複數網頁資料wp分為至少一URL群組ug。其中,至少一URL群組u1包含一第一URL群組UL1,而第一URL群組UL1包含至少部分網頁資料wp。
須說明,此分群用意在於,初步地根據URL特性,將網頁內容相似度較高之網頁進行分類,以利後續比對分析。換言之,由於相同樣板及排版之網頁,其URL位址之形式通常較為相近,因此,根據網頁資料之URL之位址關聯性,便可進行初步分群。
隨後,網頁資料擷取裝置1之處理單元13自第一URL群組UL1之部分網頁資料中,挑選一第一網頁資料WP1以及一第二網頁資料WP2,並解析第一網頁資料WP1以及第二網頁資料WP2得一網頁節點資料集合wpg。
詳言之,由於單一網頁中包含多個網頁節點(webpage node),因此,解析第一網頁資料WP1以及第二網頁資料WP2之語法便可得到包含複數網頁節點資料ND之網頁節點資料集合wpg。其中,各網頁節點資料ND包含相對應之一XML路徑語言(XML Path Language)NDX以及一文字內容NDT。
據此,網頁資料擷取裝置1之處理單元13便可根據網頁節點資料集合wpg之複數網頁節點資料ND之複數XML路徑語言NDX之路徑關聯性以及複數文字內容NDT之文字關聯性,將網頁節點資料集合wpg之複數網頁節點資料ND分為複數網頁節點資料群組ndg。其中,各網頁節點資料群組ndg至少包含部分網頁節點資料ND。
須說明,類似地,此分群用意在於,根據XML語法以及文字內容之特性,將內容相似度較高之網頁節點進行分類,以利後續主要內容之判斷。換言之,即根據網頁節點之XML路徑語言之路徑關聯性,將XML語法相似度較高之網頁節點分群,另一方面,亦可根據網頁節點之文字內容之文字關聯性,將內容相似度較高之網頁節點分群。
接著,網頁資料擷取裝置1之處理單元13分別計算各
網頁節點資料群組ndg之部分網頁節點資料ND之一文字內容總和(未繪示),即計算同一網頁節點資料群組ndg之網頁節點資料ND之文字總長度,並根據複數文字內容總和,判斷複數網頁節點資料群組ndg之至少一主要網頁節點資料群組MNDG。
具體而言,由於同一網路頁面中,具有主要內容之網頁節點資料通常具有資料量較大之文字內容,因此,前述分群主要係根據同一網頁節點資料群組之網頁節點資料之文字內容總和,將具有主要內容之網頁節點資料與不具有主要內容之網頁節點資料進行劃分。
據此,網頁資料擷取裝置1之處理單元13便可根據至少一主要網頁節點資料群組MNDG包含之部分網頁節點資料ND之XML路徑語言NDX,決定一網頁主要內容擷取資訊MX。更進一步來說,網頁主要內容擷取資訊MX主要係XML路徑語言NDX之集合。
如此一來,在前述URL群組具有相同性質(例如樣板及排版)網頁之情況下,網頁資料擷取裝置1之處理單元13後續便可直接根據此XML路徑語言NDX之集合,於URL群組中直接選擇具有主要內容之網頁節點,俾後續主要內容之分析及利用。
請參考第2A-2B圖。第2A圖係本發明第二實施例之網頁資料擷取操作示意圖,第2B圖係本本發明第二實施例之一網頁資料擷取裝置2之方塊圖。網頁資料擷取裝置2包含一接收單元21以及一處理單元23,並透過接收單元21與網頁伺服器9連線。第
二實施例主要係進一步用範例解釋網頁資料擷取裝置2擷取分析網頁之細節。
同樣地,當需要分析網頁伺服器9之網頁時,網頁資料擷取裝置2之接收單元21自網頁伺服器9接收複數網頁資料wp,而基於網際網路使用原則,各網頁資料wp皆有其相應之URL ul,其中,網頁資料wp及相對應之URL ul如下表格繪示:
接著,網頁資料擷取裝置2之處理單元23便根據複數網頁資料wp之複數URL ul之位址關聯性,將複數網頁資料wp分為至少一URL群組ug。其中,至少一URL群組ul包含第一URL群組UL1,而第一URL群組UL1包含至少部分網頁資料WP。須說明,第二實施例中,此處之URL分群組主要係基於最小編輯距離(Minimum Edit Distance,MED)完成。
據此,網頁資料擷取裝置2之處理單元23可根據上表內容,將MED值小於一URL門檻值之網頁資料配對加至同一URL群組中。以第二實施例來說,URL門檻值為2,因此,MED值為1之網頁配對將分在同一URL群組。
詳言之,第一URL群組UL1所包含之至少部分網頁資料WP即為http://www.aaaaa.com/item1~3.html。另外,至少一URL群組ul亦可包含一第二URL群組(未繪示),且第二URL群組包含至少部分網頁資料WP,即http://www.aaaaa.com/list1~2.html,惟相同URL群組之操作相同,後續將僅以第一URL群組UL1為主。
接著,網頁資料擷取裝置2之處理單元23自第一URL群組UL1之部分網頁資料中,挑選資料量(即網頁資料之HTML size)最高之第一網頁資料WP1以及資料量第二高之第二網頁資料WP2,並解析第一網頁資料WP1以及第二網頁資料WP2得網頁節點資料集合wpg。
詳言之,由於單一網頁中包含多個網頁節點,因此,解析第一網頁資料WP1以及第二網頁資料WP2之語法便可得到包含複數網頁節點資料ND之網頁節點資料集合wpg。其中,各網頁節點資料ND包含相對應之XML路徑語言NDX以及文字內容NDT,內容詳如下表:
隨後,於第二實施例中,可進一步將重複或無效之網頁節點資料ND自網頁節點資料集合wpg中刪除。具體而言,網頁
資料擷取裝置2之處理單元23根據上述表格,自文字內容NDT中挑選至少一無效文字內容以及至少一重複節點資料。以前述表格為例,無效文字內容為‘0’以及’null’,重複節點資料為’html/body/div[1]/div[2]/div[2]/div[3]/div[3]/div[6]∥返回首頁’。因此,調整後之網頁節點資料集合wpg之網頁節點資料ND內容如下表所示:
隨即,網頁資料擷取裝置2之處理單元23便可根據網頁節點資料集合wpg之複數網頁節點資料ND之複數XML路徑語言NDX之路徑關聯性以及複數文字內容NDT之文字關聯性,將網頁節點資料集合wpg之複數網頁節點資料ND分為複數網頁節點資料群組ndg。
更詳細而言,第二實施例中,此處之網頁節點資料分群組之技術主要可分為兩部分進行。首先,第一部分,類似地,將前述表格之網頁節點資料ND之XML路徑語言NDX兩兩進行最小編輯距離計算,並將MED值小於一XML門檻值(未繪示)之網頁節點資料ND配對加至同一路徑群組XG中。以第二實施例來說,分組狀況如下表所示:
接著,第二部分,於各路徑群組XG中,針對網頁節點資料ND之文字內容NDT進行TF-IDF(term frequency-inverse document frequency)計算,得相應之複數用語頻率向量,並計算兩兩文字內容之用語頻率向量間之餘弦值,若大於一文字內容門
檻值(未繪示),則將其加至同一網頁節點資料群組ndg中。以第二實施例來說,分組狀況如下表所示:
須說明,利用關鍵字針對文字內容進行TF-IDF計算得相關向量,並計算兩兩向量之餘弦值以判斷向量間之關聯性之技術,應為本領域技術人員透過習知技術可輕易理解之內容,於此不再贅述,本發明主要係將其用於分組之關聯性依據。
隨後,網頁資料擷取裝置2之處理單元23計算排序後之文字總和序列中,相鄰文字內容總和之差值:1、2、1、44、1,並挑選最大差值,即44。據此,同樣地,由於同一網路頁面中,具有主要內容之網頁節點資料通常具有資料量較大之文字內容,因此,最大差值出現之處,即為主要內容之網頁節點資料與不具有主要內容之網頁節點資料之分界。
隨後,網頁資料擷取裝置2之處理單元23便可針對主要網頁節點資料群組MNDG包含之部分網頁節點資料ND之XML路徑語言NDX,進行最長共同子序列(Longest Common Subsequence)演算法,決定網頁主要內容擷取資訊MX。於第二實施例中,網頁主要內容擷取資訊MX為:’html/body/div[1]/main[1]/article[[0-9]+].*’。
如此一來,在前述URL群組(即http://www.aaaaa.com/item1~3.html)具有相同性質(例如樣板及
排版)網頁之情況下,網頁資料擷取裝置2之處理單元23後續便可選擇具有相同主要內容擷取資訊MX(即html/body/div[1]/main[1]/article[[0-9]+].*)之網頁節點,俾後續主要內容之分析及利用。
本發明之第三實施例為網頁資料擷取方法,其流程圖請參考第3圖。第三實施例之方法係用於一網頁資料擷取裝置(例如前述實施例之網頁資料擷取裝置1)。網頁資料擷取裝置自一網頁伺服器接收複數網頁資料。第三實施例之詳細步驟如下所述。
首先,執行步驟301,令網頁資料擷取裝置根據複數網頁資料之複數URL之位址關聯性,將複數網頁資料分為至少一URL群組。其中,至少一URL群組包含一第一URL群組,第一URL群組包含至少部分網頁資料。執行步驟302,令網頁資料擷取裝置自第一URL群組之部分網頁資料中,挑選一第一網頁資料以及一第二網頁資料。
執行步驟303,令網頁資料擷取裝置解析第一網頁資料以及第二網頁資料得一網頁節點資料集合。其中,網頁節點資料集合包含複數網頁節點資料,各網頁節點資料包含相對應之一XML路徑語言以及一文字內容。
執行步驟304,令網頁資料擷取裝置根據網頁節點資料集合之網頁節點資料之XML路徑語言之路徑關聯性以及文字內容之文字關聯性,將網頁節點資料集合之複數網頁節點資料分為
複數網頁節點資料群組。其中,各網頁節點資料群組至少包含部分網頁節點資料。
執行步驟305,令網頁資料擷取裝置分別計算各網頁節點資料群組之部分網頁節點資料之一文字內容總和。執行步驟306,令網頁資料擷取裝置根據複數文字內容總和,判斷複數網頁節點資料群組之至少一主要網頁節點資料群組。最後,執行步驟307,令網頁資料擷取裝置根據至少一主要網頁節點資料群組包含之部分網頁節點資料之XML路徑語言,決定一網頁主要內容擷取資訊。
本發明之第四實施例為網頁資料擷取方法,其流程圖請參考第4圖。第四實施例之方法係用於一網頁資料擷取裝置(例如前述實施例之網頁資料擷取裝置2)。網頁資料擷取裝置自一網頁伺服器接收複數網頁資料。第四實施例之詳細步驟如下所述。
首先,執行步驟401,令網頁資料擷取裝置根據複數網頁資料之複數URL之位址關聯性,將複數網頁資料分為至少一URL群組。其中,至少一URL群組包含一第一URL群組,第一URL群組包含至少部分網頁資料,且第一URL群組中,部分網頁資料之URL間之最小編輯距離皆小於一URL門檻值。
執行步驟402,令網頁資料擷取裝置自第一URL群組之部分網頁資料中,挑選資料量最高之一第一網頁資料以及資料量第二高之一第二網頁資料。執行步驟403,令網頁資料擷取裝置
解析第一網頁資料以及第二網頁資料得一網頁節點資料集合。其中,網頁節點資料集合包含複數網頁節點資料,各網頁節點資料包含相對應之一XML路徑語言以及一文字內容。
執行步驟404,令網頁資料擷取裝置自文字內容中挑選至少一無效文字內容以及至少一重複節點資料,並將相對應於至少一無效文字內容以及至少一重複節點資料之網頁節點自網頁節點資料集合中刪除。
執行步驟405,令網頁資料擷取裝置根據網頁節點資料集合之複數網頁節點資料之XML路徑語言之路徑關聯性,將網頁節點資料集合之複數網頁節點資料分為複數路徑群組。其中,各路徑群組之部分網頁節點資料之XML路徑語言間之最小編輯距離皆小於一XML門檻值。
執行步驟406,令網頁資料擷取裝置針對各路徑群組,根據部分網頁節點資料之文字內容之文字關聯性,將各路徑群組分為複數網頁節點資料群組。其中,各路徑群組中,部分網頁節點資料之各文字內容具有一用語頻率向量,且各路徑群組中,各網頁節點資料群組之部分網頁節點資料之文字內容之用語頻率向量間之餘弦值大於一文字內容門檻值。
執行步驟407,令網頁資料擷取裝置將複數文字內容總和排序成一文字內容總和序列。執行步驟408,令網頁資料擷取裝置計算文字內容總和序列中相鄰文字內容總和之複數差值。執行步驟409,令網頁資料擷取裝置挑選複數差值之一最大差值。執
行步驟410,令網頁資料擷取裝置根據最大差值,將文字內容總和序列分為一主要區域以及一次要區域。
執行步驟411,令網頁資料擷取裝置根據主要區域,判斷複數網頁節點資料群組之至少一主要網頁節點資料群組。執行步驟412,令網頁資料擷取裝置針對至少一主要網頁節點資料群組包含之部分網頁節點資料之XML路徑語言,進行最長共同子序列演算法。執行步驟413,令網頁資料擷取裝置根據步驟412之結果,決定網頁主要內容擷取資訊。
綜合上述,本發明之網頁資料擷取裝置及其網頁資料擷取方法,主要可自動地分析不同網頁群組之樣板及排版之語法,並且據以自動地找出具有主要內容之網頁節點。如此一來,便可更有效率地完成網頁資料之擷取,俾利進行後續相關數據分析。
惟上述實施例僅為例示性說明本發明之實施態樣,以及闡釋本發明之技術特徵,並非用來限制本發明之保護範疇。任何熟悉此技藝之人士可輕易完成之改變或均等性之安排均屬於本發明所主張之範圍,本發明之權利保護範圍應以申請專利範圍為準。
301~307‧‧‧步驟
Claims (14)
- 一種用於網頁資料擷取裝置之網頁資料擷取方法,該網頁資料擷取裝置自一網頁伺服器接收複數網頁資料,該網頁資料擷取方法包含:(a)令該網頁資料擷取裝置根據該等網頁資料之複數統一資源定址器(uniform resource locator,URL)之位址關聯性,將該等網頁資料分為至少一URL群組,其中,該至少一URL群組包含一第一URL群組,該第一URL群組包含至少部分該等網頁資料;(b)令該網頁資料擷取裝置自該第一URL群組之部分該等網頁資料中,挑選一第一網頁資料以及一第二網頁資料;(c)令該網頁資料擷取裝置解析該第一網頁資料以及該第二網頁資料得一網頁節點資料集合,其中,該網頁節點資料集合包含複數網頁節點資料,各該網頁節點資料包含相對應之一XML路徑語言(XML Path Language)以及一文字內容;(d)令該網頁資料擷取裝置根據該網頁節點資料集合之該等網頁節點資料之該等XML路徑語言之路徑關聯性以及該等文字內容之文字關聯性,將該網頁節點資料集合之該等網頁節點資料分為複數網頁節點資料群組,其中,各該網頁節點資料群組至少包含部分該等網頁節點資料;(e)令該網頁資料擷取裝置分別計算各該網頁節點資料群組之部分該等網頁節點資料之一文字內容總和;(f)令該網頁資料擷取裝置根據該等文字內容總和,判斷該等網頁節點資料群組之至少一主要網頁節點資料群組;(g)令該網頁資料擷取裝置根據該至少一主要網頁節點資料群組包 含之部分該等網頁節點資料之該等XML路徑語言,決定一網頁主要內容擷取資訊。
- 如請求項1所述之網頁資料擷取方法,其中,該第一URL群組中,部分該等網頁資料之該等URL間之最小編輯距離(Minimum Edit Distance)皆小於一URL門檻值。
- 如請求項1所述之網頁資料擷取方法,其中,步驟(b)更包含:(b1)令該網頁資料擷取裝置自該第一URL群組之部分該等網頁資料中,挑選資料量最高之該第一網頁資料以及資料量第二高之該第二網頁資料。
- 如請求項1所述之網頁資料擷取方法,其中,步驟(c)後更包含:(c1)令該網頁資料擷取裝置自該等文字內容中挑選至少一無效文字內容以及至少一重複節點資料,並將相對應於該至少一無效文字內容以及至少一重複節點資料之網頁節點自該網頁節點資料集合中刪除。
- 如請求項1所述之網頁資料擷取方法,其中,步驟(d)更包含:(d1)令網頁資料擷取裝置根據該網頁節點資料集合之該等網頁節點資料之該等XML路徑語言之路徑關聯性,將該網頁節點資料集合之該等網頁節點資料分為複數路徑群組,其中,各該路徑群組之部分該等網頁節點資料之該等XML路徑語言間之最小編輯距離皆小於一XML門檻值;(d2)令該網頁資料擷取裝置針對各該路徑群組,根據部分該等網頁節點資料之該等文字內容之文字關聯性,將各該路徑群組分為該等網頁節點資料群組; 其中,各該路徑群組中,部分該等網頁節點資料之各該文字內容具有一用語頻率向量;其中,各該路徑群組中,各該網頁節點資料群組之部分該等網頁節點資料之該等文字內容之該等用語頻率向量間之餘弦值大於一文字內容門檻值。
- 如請求項1所述之網頁資料擷取方法,其中,步驟(f)更包含:(f1)令該網頁資料擷取裝置將該等文字內容總和排序成一文字內容總和序列;(f2)令該網頁資料擷取裝置計算該文字內容總和序列中相鄰文字內容總和之複數差值;(f3)令該網頁資料擷取裝置挑選該等差值之一最大差值;(f4)令該網頁資料擷取裝置根據該最大差值,將該文字內容總和序列分為一主要區域以及一次要區域;(f5)令該網頁資料擷取裝置根據該主要區域,判斷該等網頁節點資料群組之該至少一主要網頁節點資料群組。
- 如請求項1所述之網頁資料擷取方法,其中,步驟(g)更包含:(g1)令該網頁資料擷取裝置針對該至少一主要網頁節點資料群組包含之部分該等網頁節點資料之該等XML路徑語言,進行最長共同子序列(Longest Common Subsequence)演算法;(g2)令網頁資料擷取裝置根據步驟(g1)之結果,決定該網頁主要內容擷取資訊。
- 一種網頁資料擷取裝置,包含: 一接收單元,用以自一網頁伺服器接收複數網頁資料;以及一處理單元,用以:根據該等網頁資料之複數統一資源定址器(uniform resource locator,URL)之位址關聯性,將該等網頁資料分為至少一URL群組,其中,該至少一URL群組包含一第一URL群組,該第一URL群組包含至少部分該等網頁資料;自該第一URL群組之部分該等網頁資料中,挑選一第一網頁資料以及一第二網頁資料;解析該第一網頁資料以及該第二網頁資料得一網頁節點資料集合,其中,該網頁節點資料集合包含複數網頁節點資料,各該網頁節點資料包含相對應之一XML路徑語言(XML Path Language)以及一文字內容;根據該網頁節點資料集合之該等網頁節點資料之該等XML路徑語言之路徑關聯性以及該等文字內容之文字關聯性,將該網頁節點資料集合之該等網頁節點資料分為複數網頁節點資料群組,其中,各該網頁節點資料群組至少包含部分該等網頁節點資料;分別計算各該網頁節點資料群組之部分該等網頁節點資料之一文字內容總和;根據該等文字內容總和,判斷該等網頁節點資料群組之至少一主要網頁節點資料群組;根據該至少一主要網頁節點資料群組包含之部分該等網頁節點資料之該等XML路徑語言,決定一網頁主要內容擷取資訊。
- 如請求項8所述之網頁資料擷取裝置,其中,該第一URL群組中,部分該等網頁資料之該等URL間之最小編輯距離(Minimum Edit Distance)皆小於一URL門檻值。
- 如請求項8所述之網頁資料擷取裝置,其中,該處理單元更用以:自該第一URL群組之部分該等網頁資料中,挑選資料量最高之該第一網頁資料以及資料量第二高之該第二網頁資料。
- 如請求項8所述之網頁資料擷取裝置,其中,該處理單元更用以:自該等文字內容中挑選至少一無效文字內容以及至少一重複節點資料,並將相對應於該至少一無效文字內容以及至少一重複節點資料之網頁節點自該網頁節點資料集合中刪除。
- 如請求項8所述之網頁資料擷取裝置,其中,該處理單元更用以:根據該網頁節點資料集合之該等網頁節點資料之該等XML路徑語言之路徑關聯性,將該網頁節點資料集合之該等網頁節點資料分為複數路徑群組,其中,各該路徑群組之部分該等網頁節點資料之該等XML路徑語言間之最小編輯距離皆小於一XML門檻值;針對各該路徑群組,根據部分該等網頁節點資料之該等文字內容之文字關聯性,將各該路徑群組分為該等網頁節點資料群組;其中,各該路徑群組中,部分該等網頁節點資料之各該文字內容具有一用語頻率向量;其中,各該路徑群組中,各該網頁節點資料群組之部分該等網頁節點資料之該等文字內容之該等用語頻率向量間之餘弦值大於一文字內容門檻值。
- 如請求項8所述之網頁資料擷取裝置,其中,該處理單元更用以:將該等文字內容總和排序成一文字內容總和序列;計算該文字內容總和序列中相鄰文字內容總和之複數差值;挑選該等差值之一最大差值;根據該最大差值,將該文字內容總和序列分為一主要區域以及一次要區域;根據該主要區域,判斷該等網頁節點資料群組之該至少一主要網頁節點資料群組。
- 如請求項8所述之網頁資料擷取裝置,其中,該處理單元更用以:針對該至少一主要網頁節點資料群組包含之部分該等網頁節點資料之該等XML路徑語言,進行最長共同子序列(Longest Common Subsequence)演算法;根據最長共同子序列演算法之結果,決定該網頁主要內容擷取資訊。
Priority Applications (3)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| TW105135730A TWI611308B (zh) | 2016-11-03 | 2016-11-03 | 網頁資料擷取裝置及其網頁資料擷取方法 |
| CN201611000331.0A CN108021600A (zh) | 2016-11-03 | 2016-11-14 | 网页数据捕获设备及其网页数据撷取方法 |
| US15/358,119 US20180121558A1 (en) | 2016-11-03 | 2016-11-21 | Webpage data extraction device and webpage data extraction method thereof |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| TW105135730A TWI611308B (zh) | 2016-11-03 | 2016-11-03 | 網頁資料擷取裝置及其網頁資料擷取方法 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| TWI611308B true TWI611308B (zh) | 2018-01-11 |
| TW201818268A TW201818268A (zh) | 2018-05-16 |
Family
ID=61728282
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| TW105135730A TWI611308B (zh) | 2016-11-03 | 2016-11-03 | 網頁資料擷取裝置及其網頁資料擷取方法 |
Country Status (3)
| Country | Link |
|---|---|
| US (1) | US20180121558A1 (zh) |
| CN (1) | CN108021600A (zh) |
| TW (1) | TWI611308B (zh) |
Families Citing this family (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP6697123B2 (ja) * | 2017-03-03 | 2020-05-20 | 日本電信電話株式会社 | プロファイル生成装置、攻撃検知装置、プロファイル生成方法、および、プロファイル生成プログラム |
| US10977289B2 (en) * | 2019-02-11 | 2021-04-13 | Verizon Media Inc. | Automatic electronic message content extraction method and apparatus |
| CN110134901B (zh) * | 2019-04-30 | 2023-06-16 | 哈尔滨英赛克信息技术有限公司 | 一种基于流量分析的多链路网页篡改判定方法 |
| CN110704761A (zh) * | 2019-09-25 | 2020-01-17 | 恩亿科(北京)数据科技有限公司 | 网页信息的获取方法和计算机存储介质 |
Citations (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| TW200900957A (en) * | 2007-03-15 | 2009-01-01 | Seung-June Song | Internet service system in connection with a contacted website and a method for the same |
| CN101517570A (zh) * | 2006-07-10 | 2009-08-26 | 网圣公司 | 分析网络内容的系统和方法 |
| TW201030542A (en) * | 2008-11-18 | 2010-08-16 | Yahoo Inc | System and method for URL based query for retrieving data related to a context |
| US20120054129A1 (en) * | 2010-08-30 | 2012-03-01 | International Business Machines Corporation | Method for classification of objects in a graph data stream |
| CN105843965A (zh) * | 2016-04-20 | 2016-08-10 | 广州精点计算机科技有限公司 | 一种基于url主题分类的深层网络爬虫表单填充方法和装置 |
Family Cites Families (8)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US20090063538A1 (en) * | 2007-08-30 | 2009-03-05 | Krishna Prasad Chitrapura | Method for normalizing dynamic urls of web pages through hierarchical organization of urls from a web site |
| CN102314497B (zh) * | 2011-08-26 | 2014-12-10 | 百度在线网络技术(北京)有限公司 | 一种用于识别标记语言文件主体内容的方法和设备 |
| CN102298638A (zh) * | 2011-08-31 | 2011-12-28 | 北京中搜网络技术股份有限公司 | 使用网页标签聚类提取新闻网页内容的方法和系统 |
| US20150324091A1 (en) * | 2012-04-28 | 2015-11-12 | Li-Mei Jiao | Detecting valuable sections in webpage |
| US20150067476A1 (en) * | 2013-08-29 | 2015-03-05 | Microsoft Corporation | Title and body extraction from web page |
| RU2638726C1 (ru) * | 2014-06-26 | 2017-12-15 | Гугл Инк. | Оптимизированный процесс воспроизведения браузера |
| CN106021582B (zh) * | 2016-06-02 | 2020-06-05 | 腾讯科技(深圳)有限公司 | 位置信息过滤的方法、提取有效网页信息的方法及装置 |
| US10148700B2 (en) * | 2016-06-30 | 2018-12-04 | Fortinet, Inc. | Classification of top-level domain (TLD) websites based on a known website classification |
-
2016
- 2016-11-03 TW TW105135730A patent/TWI611308B/zh active
- 2016-11-14 CN CN201611000331.0A patent/CN108021600A/zh active Pending
- 2016-11-21 US US15/358,119 patent/US20180121558A1/en not_active Abandoned
Patent Citations (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN101517570A (zh) * | 2006-07-10 | 2009-08-26 | 网圣公司 | 分析网络内容的系统和方法 |
| TW200900957A (en) * | 2007-03-15 | 2009-01-01 | Seung-June Song | Internet service system in connection with a contacted website and a method for the same |
| TW201030542A (en) * | 2008-11-18 | 2010-08-16 | Yahoo Inc | System and method for URL based query for retrieving data related to a context |
| US20120054129A1 (en) * | 2010-08-30 | 2012-03-01 | International Business Machines Corporation | Method for classification of objects in a graph data stream |
| CN105843965A (zh) * | 2016-04-20 | 2016-08-10 | 广州精点计算机科技有限公司 | 一种基于url主题分类的深层网络爬虫表单填充方法和装置 |
Also Published As
| Publication number | Publication date |
|---|---|
| CN108021600A (zh) | 2018-05-11 |
| US20180121558A1 (en) | 2018-05-03 |
| TW201818268A (zh) | 2018-05-16 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| KR101715432B1 (ko) | 단어쌍취득장치, 단어쌍취득방법 및 기록 매체 | |
| JP6203374B2 (ja) | ウェブページ・スタイルアドレスの統合 | |
| US20160314104A1 (en) | Methods and systems for efficient and accurate text extraction from unstructured documents | |
| TWI611308B (zh) | 網頁資料擷取裝置及其網頁資料擷取方法 | |
| CN104331438B (zh) | 对小说网页内容选择性抽取方法和装置 | |
| CN105528422A (zh) | 一种主题爬虫处理方法及装置 | |
| CN104133870B (zh) | 一种网页相似度计算方法及装置 | |
| CN103853834A (zh) | 基于文本结构分析的Web文档摘要的生成方法 | |
| CN110210038B (zh) | 核心实体确定方法及其系统、服务器和计算机可读介质 | |
| US8090720B2 (en) | Method for merging document clusters | |
| CN108959329A (zh) | 一种文本分类方法、装置、介质及设备 | |
| US7231626B2 (en) | Method of implementing an engineering change order in an integrated circuit design by windows | |
| CN114996458A (zh) | 文本处理方法和装置、设备、介质 | |
| CN113486187A (zh) | 佛学知识图谱构建方法、装置、设备及存储介质 | |
| KR20230036792A (ko) | 자연어 처리 장치 및 방법 | |
| CN105426500B (zh) | 网页脚本动态生成的链接的提取方法及装置 | |
| Tiedemann | Improved text extraction from PDF documents for large-scale natural language processing | |
| CN104778232B (zh) | 一种基于长查询的搜索结果的优化方法和装置 | |
| Nethra et al. | WEB CONTENT EXTRACTION USING HYBRID APPROACH. | |
| CN104317903B (zh) | 章节式文本的章节完整性的识别方法和装置 | |
| CN112989163A (zh) | 一种垂直搜索方法和系统 | |
| CN108614825A (zh) | 一种网页特征提取方法和装置 | |
| CN107545020A (zh) | 一种网页分类的确定方法及装置 | |
| CN104978431B (zh) | 网页数据融合方法和装置 | |
| CN104063506A (zh) | 重复网页识别方法和装置 |