[go: up one dir, main page]

TWI611308B - 網頁資料擷取裝置及其網頁資料擷取方法 - Google Patents

網頁資料擷取裝置及其網頁資料擷取方法 Download PDF

Info

Publication number
TWI611308B
TWI611308B TW105135730A TW105135730A TWI611308B TW I611308 B TWI611308 B TW I611308B TW 105135730 A TW105135730 A TW 105135730A TW 105135730 A TW105135730 A TW 105135730A TW I611308 B TWI611308 B TW I611308B
Authority
TW
Taiwan
Prior art keywords
webpage
data
node data
node
group
Prior art date
Application number
TW105135730A
Other languages
English (en)
Other versions
TW201818268A (zh
Inventor
黃奕翔
邱育賢
蕭暉議
Original Assignee
財團法人資訊工業策進會
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 財團法人資訊工業策進會 filed Critical 財團法人資訊工業策進會
Priority to TW105135730A priority Critical patent/TWI611308B/zh
Priority to CN201611000331.0A priority patent/CN108021600A/zh
Priority to US15/358,119 priority patent/US20180121558A1/en
Application granted granted Critical
Publication of TWI611308B publication Critical patent/TWI611308B/zh
Publication of TW201818268A publication Critical patent/TW201818268A/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9566URL specific, e.g. using aliases, detecting broken or misspelled links
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/02Protocols based on web technology, e.g. hypertext transfer protocol [HTTP]
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • G06F16/986Document structures and storage, e.g. HTML extensions
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L61/00Network arrangements, protocols or services for addressing or naming
    • H04L61/45Network directories; Name-to-address mapping
    • H04L61/457Network directories; Name-to-address mapping containing identifiers of data entities on a computer, e.g. file names

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Computer Hardware Design (AREA)
  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一種網頁資料擷取裝置及其網頁資料擷取方法。網頁資料擷取裝置執行:根據網頁資料之URL之位址關聯性,將網頁資料分為URL群組;自URL群組之網頁資料中挑選第一網頁資料以及第二網頁資料;解析第一網頁資料以及第二網頁資料得網頁節點資料集合;根據網頁節點資料集合之網頁節點資料之XML路徑語言之路徑關聯性以及文字內容之文字關聯性,將網頁節點資料集合之網頁節點資料分為複數網頁節點資料群組;分別計算各網頁節點資料群組之一文字內容總和;根據文字內容總和,判斷網頁節點資料群組之主要網頁節點資料群組;根據主要網頁節點資料群組包含之網頁節點資料之XML路徑語言決定網頁主要內容擷取資訊。

Description

網頁資料擷取裝置及其網頁資料擷取方法
本發明係關於一種網頁資料擷取裝置及其網頁資料擷取方法;更具體而言,本發明係關於一種自動化之網頁資料擷取裝置及其網頁資料擷取方法。
隨著網際網路應用發展,各式各樣的資訊皆可從不同之網頁獲取,因此,當有特定資料分析需求時,便可針對相關網站之網頁,擷取其主要內容後分析處理。
而習知之網頁主要內容擷取方式中,多採人工抓取分析進行,然而,以人工之方式針對不同網站之不同網頁進行主要內容判斷,其效率相當不理想。據此,為提升網頁主要內容擷取效率,便有以客製程式為主,針對網頁之各種樣板(templates)及其排版(layout)作為訓練資料(training data),進行網頁分析及主要內容擷取之技術。
惟此種客製程式之方式,僅能針對特定網頁之樣板及排版進行處理,因此,當網頁改版或其語法結構稍微調整,若不針對客製程式進行相應之調整,將會導致分析及擷取之結果發生 明顯錯誤。
更者,因網頁格式排版日趨複雜,因此網頁資訊量亦大幅大幅增加,單一網頁之網頁節點(webpage node)可能高達近千個,據此,當網頁之結構或型態發生更動時,客製程式調整的複雜程度將更顯困難,甚至可能需要重新撰寫客製程式,如此,同樣導致網頁主要內容判斷之效率不佳。
因此,如何改進習知網頁主要內容擷取效率不佳之缺點,乃業界須共同努力之目標。
本發明之主要目的係提供一種用於網頁資料擷取裝置之網頁資料擷取方法。網頁資料擷取裝置自網頁伺服器接收複數網頁資料。網頁資料擷取方法包含:(a)令網頁資料擷取裝置根據複數網頁資料之複數統一資源定址器(uniform resource locator,URL)之位址關聯性,將複數網頁資料分為至少一URL群組。其中,至少一URL群組包含第一URL群組,第一URL群組包含至少部分複數網頁資料;(b)令網頁資料擷取裝置自第一URL群組之部分複數網頁資料中,挑選第一網頁資料以及第二網頁資料;(c)令網頁資料擷取裝置解析第一網頁資料以及第二網頁資料得網頁節點資料集合。其中,網頁節點資料集合包含複數網頁節點資料,各網頁節點資料包含相對應之XML路徑語言(XML Path Language)以及文字內容。
前述網頁資料擷取方法進一步包含:(d)令網頁資料 擷取裝置根據網頁節點資料集合之複數網頁節點資料之複數XML路徑語言之路徑關聯性以及複數文字內容之文字關聯性,將網頁節點資料集合之複數網頁節點資料分為複數網頁節點資料群組。其中,各網頁節點資料群組至少包含部分複數網頁節點資料;(e)令網頁資料擷取裝置分別計算各網頁節點資料群組之部分複數網頁節點資料之文字內容總和;(f)令網頁資料擷取裝置根據複數文字內容總和,判斷複數網頁節點資料群組之至少一主要網頁節點資料群組;(g)令網頁資料擷取裝置根據至少一主要網頁節點資料群組包含之部分複數網頁節點資料之複數XML路徑語言,決定網頁主要內容擷取資訊。
為達上述目的,本發明揭露一種網頁資料擷取裝置,包含接收單元以及處理單元。接收單元用以自網頁伺服器接收複數網頁資料。處理單元用以:根據複數網頁資料之複數URL之位址關聯性,將複數網頁資料分為至少一URL群組。其中,至少一URL群組包含第一URL群組,第一URL群組包含至少部分複數網頁資料;自第一URL群組之部分複數網頁資料中,挑選第一網頁資料以及第二網頁資料;解析第一網頁資料以及第二網頁資料得網頁節點資料集合。其中,網頁節點資料集合包含複數網頁節點資料,各網頁節點資料包含相對應之XML路徑語言以及文字內容。
前述處理單元進一步用以:根據網頁節點資料集合之複數網頁節點資料之複數XML路徑語言之路徑關聯性以及複數文字內容之文字關聯性,將網頁節點資料集合之複數網頁節點資 料分為複數網頁節點資料群組。其中,各網頁節點資料群組至少包含部分複數網頁節點資料;分別計算各網頁節點資料群組之部分複數網頁節點資料之文字內容總和;根據複數文字內容總和,判斷複數網頁節點資料群組之至少一主要網頁節點資料群組;根據至少一主要網頁節點資料群組包含之部分複數網頁節點資料之複數XML路徑語言,決定網頁主要內容擷取資訊。
此外在參閱圖式及隨後描述之實施方式後,此技術領域具有通常知識者便可瞭解本發明之其他目的,以及本發明之技術手段及實施態樣。
1、2‧‧‧網頁資料擷取裝置
11、21‧‧‧接收單元
13、23‧‧‧處理單元
wp‧‧‧網頁資料
ul‧‧‧統一資源定址器
ug‧‧‧至少一URL群組
UL1‧‧‧第一URL群組
WP1‧‧‧第一網頁資料
WP2‧‧‧第二網頁資料
ND‧‧‧網頁節點資料
NDX‧‧‧XML路徑語言
NDT‧‧‧文字內容
wpg‧‧‧網頁節點資料集合
ndg‧‧‧網頁節點資料群組
MNDG‧‧‧至少一主要網頁節點資料群組
MX‧‧‧網頁主要內容擷取資訊
第1A圖係本發明第一實施例之網頁資料擷取操作示意圖;第1B圖係本發明第一實施例之網頁資料擷取裝置之方塊圖;第2A圖係本發明第二實施例之網頁資料擷取操作示意圖;第2B圖係本發明第二實施例之網頁資料擷取裝置之方塊圖;第3圖係本發明第三實施例之網頁資料擷取方法之流程圖;以及第4A-4B圖係本發明第四實施例之網頁資料擷取方法之流程圖。
下將透過實施方式來解釋本發明之內容。須說明者,本發明的實施例並非用以限制本發明須在如實施例所述之任何特 定的環境、應用或特殊方式方能實施。因此,有關實施例之說明僅為闡釋本發明之目的,而非用以限制本發明,且本案所請求之範圍,以申請專利範圍為準。除此之外,於以下實施例及圖式中,與本發明非直接相關之元件已省略而未繪示,且以下圖式中各元件間之尺寸關係僅為求容易瞭解,非用以限制實際比例。
請參考第1A~1B圖。第1A圖係本發明第一實施例之網頁資料擷取操作示意圖,第1B圖係本本發明第一實施例之一網頁資料擷取裝置1之方塊圖。網頁資料擷取裝置1包含一接收單元11以及一處理單元13,並透過接收單元11與一網頁伺服器9連線。元件間之互動將於下文中進一步闡述。
首先,當需要分析網頁伺服器9之網頁時,網頁資料擷取裝置1之接收單元11自網頁伺服器9接收複數網頁資料wp。其中,基於網際網路使用原則,各網頁資料wp皆有其相應之統一資源定址器(uniform resource locator,URL)ul。
接著,網頁資料擷取裝置1之處理單元13便根據複數網頁資料wp之複數URL ul之位址關聯性,將複數網頁資料wp分為至少一URL群組ug。其中,至少一URL群組u1包含一第一URL群組UL1,而第一URL群組UL1包含至少部分網頁資料wp。
須說明,此分群用意在於,初步地根據URL特性,將網頁內容相似度較高之網頁進行分類,以利後續比對分析。換言之,由於相同樣板及排版之網頁,其URL位址之形式通常較為相近,因此,根據網頁資料之URL之位址關聯性,便可進行初步分群。
隨後,網頁資料擷取裝置1之處理單元13自第一URL群組UL1之部分網頁資料中,挑選一第一網頁資料WP1以及一第二網頁資料WP2,並解析第一網頁資料WP1以及第二網頁資料WP2得一網頁節點資料集合wpg。
詳言之,由於單一網頁中包含多個網頁節點(webpage node),因此,解析第一網頁資料WP1以及第二網頁資料WP2之語法便可得到包含複數網頁節點資料ND之網頁節點資料集合wpg。其中,各網頁節點資料ND包含相對應之一XML路徑語言(XML Path Language)NDX以及一文字內容NDT。
據此,網頁資料擷取裝置1之處理單元13便可根據網頁節點資料集合wpg之複數網頁節點資料ND之複數XML路徑語言NDX之路徑關聯性以及複數文字內容NDT之文字關聯性,將網頁節點資料集合wpg之複數網頁節點資料ND分為複數網頁節點資料群組ndg。其中,各網頁節點資料群組ndg至少包含部分網頁節點資料ND。
須說明,類似地,此分群用意在於,根據XML語法以及文字內容之特性,將內容相似度較高之網頁節點進行分類,以利後續主要內容之判斷。換言之,即根據網頁節點之XML路徑語言之路徑關聯性,將XML語法相似度較高之網頁節點分群,另一方面,亦可根據網頁節點之文字內容之文字關聯性,將內容相似度較高之網頁節點分群。
接著,網頁資料擷取裝置1之處理單元13分別計算各 網頁節點資料群組ndg之部分網頁節點資料ND之一文字內容總和(未繪示),即計算同一網頁節點資料群組ndg之網頁節點資料ND之文字總長度,並根據複數文字內容總和,判斷複數網頁節點資料群組ndg之至少一主要網頁節點資料群組MNDG。
具體而言,由於同一網路頁面中,具有主要內容之網頁節點資料通常具有資料量較大之文字內容,因此,前述分群主要係根據同一網頁節點資料群組之網頁節點資料之文字內容總和,將具有主要內容之網頁節點資料與不具有主要內容之網頁節點資料進行劃分。
據此,網頁資料擷取裝置1之處理單元13便可根據至少一主要網頁節點資料群組MNDG包含之部分網頁節點資料ND之XML路徑語言NDX,決定一網頁主要內容擷取資訊MX。更進一步來說,網頁主要內容擷取資訊MX主要係XML路徑語言NDX之集合。
如此一來,在前述URL群組具有相同性質(例如樣板及排版)網頁之情況下,網頁資料擷取裝置1之處理單元13後續便可直接根據此XML路徑語言NDX之集合,於URL群組中直接選擇具有主要內容之網頁節點,俾後續主要內容之分析及利用。
請參考第2A-2B圖。第2A圖係本發明第二實施例之網頁資料擷取操作示意圖,第2B圖係本本發明第二實施例之一網頁資料擷取裝置2之方塊圖。網頁資料擷取裝置2包含一接收單元21以及一處理單元23,並透過接收單元21與網頁伺服器9連線。第 二實施例主要係進一步用範例解釋網頁資料擷取裝置2擷取分析網頁之細節。
同樣地,當需要分析網頁伺服器9之網頁時,網頁資料擷取裝置2之接收單元21自網頁伺服器9接收複數網頁資料wp,而基於網際網路使用原則,各網頁資料wp皆有其相應之URL ul,其中,網頁資料wp及相對應之URL ul如下表格繪示:
Figure TWI611308BD00001
接著,網頁資料擷取裝置2之處理單元23便根據複數網頁資料wp之複數URL ul之位址關聯性,將複數網頁資料wp分為至少一URL群組ug。其中,至少一URL群組ul包含第一URL群組UL1,而第一URL群組UL1包含至少部分網頁資料WP。須說明,第二實施例中,此處之URL分群組主要係基於最小編輯距離(Minimum Edit Distance,MED)完成。
詳言之,網頁資料擷取裝置2之處理單元23將複數網頁資料wp之複數URL ul兩兩進行最小編輯距離計算,得結果如下 表:
Figure TWI611308BD00002
據此,網頁資料擷取裝置2之處理單元23可根據上表內容,將MED值小於一URL門檻值之網頁資料配對加至同一URL群組中。以第二實施例來說,URL門檻值為2,因此,MED值為1之網頁配對將分在同一URL群組。
詳言之,第一URL群組UL1所包含之至少部分網頁資料WP即為http://www.aaaaa.com/item1~3.html。另外,至少一URL群組ul亦可包含一第二URL群組(未繪示),且第二URL群組包含至少部分網頁資料WP,即http://www.aaaaa.com/list1~2.html,惟相同URL群組之操作相同,後續將僅以第一URL群組UL1為主。
接著,網頁資料擷取裝置2之處理單元23自第一URL群組UL1之部分網頁資料中,挑選資料量(即網頁資料之HTML size)最高之第一網頁資料WP1以及資料量第二高之第二網頁資料WP2,並解析第一網頁資料WP1以及第二網頁資料WP2得網頁節點資料集合wpg。
詳言之,由於單一網頁中包含多個網頁節點,因此,解析第一網頁資料WP1以及第二網頁資料WP2之語法便可得到包含複數網頁節點資料ND之網頁節點資料集合wpg。其中,各網頁節點資料ND包含相對應之XML路徑語言NDX以及文字內容NDT,內容詳如下表:
Figure TWI611308BD00003
隨後,於第二實施例中,可進一步將重複或無效之網頁節點資料ND自網頁節點資料集合wpg中刪除。具體而言,網頁 資料擷取裝置2之處理單元23根據上述表格,自文字內容NDT中挑選至少一無效文字內容以及至少一重複節點資料。以前述表格為例,無效文字內容為‘0’以及’null’,重複節點資料為’html/body/div[1]/div[2]/div[2]/div[3]/div[3]/div[6]∥返回首頁’。因此,調整後之網頁節點資料集合wpg之網頁節點資料ND內容如下表所示:
Figure TWI611308BD00004
隨即,網頁資料擷取裝置2之處理單元23便可根據網頁節點資料集合wpg之複數網頁節點資料ND之複數XML路徑語言NDX之路徑關聯性以及複數文字內容NDT之文字關聯性,將網頁節點資料集合wpg之複數網頁節點資料ND分為複數網頁節點資料群組ndg。
更詳細而言,第二實施例中,此處之網頁節點資料分群組之技術主要可分為兩部分進行。首先,第一部分,類似地,將前述表格之網頁節點資料ND之XML路徑語言NDX兩兩進行最小編輯距離計算,並將MED值小於一XML門檻值(未繪示)之網頁節點資料ND配對加至同一路徑群組XG中。以第二實施例來說,分組狀況如下表所示:
Figure TWI611308BD00005
接著,第二部分,於各路徑群組XG中,針對網頁節點資料ND之文字內容NDT進行TF-IDF(term frequency-inverse document frequency)計算,得相應之複數用語頻率向量,並計算兩兩文字內容之用語頻率向量間之餘弦值,若大於一文字內容門 檻值(未繪示),則將其加至同一網頁節點資料群組ndg中。以第二實施例來說,分組狀況如下表所示:
Figure TWI611308BD00006
如此一來,整合前述二部分之分組方式,便形成網頁節點資料群組ndg,如下表所示:
Figure TWI611308BD00007
Figure TWI611308BD00008
須說明,利用關鍵字針對文字內容進行TF-IDF計算得相關向量,並計算兩兩向量之餘弦值以判斷向量間之關聯性之技術,應為本領域技術人員透過習知技術可輕易理解之內容,於此不再贅述,本發明主要係將其用於分組之關聯性依據。
接著,網頁資料擷取裝置2之處理單元23分別計算各網頁節點資料群組ndg之部分網頁節點資料ND之文字內容總和,即計算同一網頁節點資料群組ndg之網頁節點資料ND之文字總長度,詳如下表:
Figure TWI611308BD00009
Figure TWI611308BD00010
接著,網頁資料擷取裝置2之處理單元23將相應於不同網頁節點資料群組ndg之文字內容總和排序成一文字內容總和序列,如下表所示:
Figure TWI611308BD00011
隨後,網頁資料擷取裝置2之處理單元23計算排序後之文字總和序列中,相鄰文字內容總和之差值:1、2、1、44、1,並挑選最大差值,即44。據此,同樣地,由於同一網路頁面中,具有主要內容之網頁節點資料通常具有資料量較大之文字內容,因此,最大差值出現之處,即為主要內容之網頁節點資料與不具有主要內容之網頁節點資料之分界。
因此,網頁資料擷取裝置2之處理單元23便可根據最大差值,將文字內容總和序列分為一主要區域以及一次要區域,並根據主要區域,判斷網頁節點資料群組ndg之至少一主要網頁節點資料群組MNDG,如下表所示:
Figure TWI611308BD00012
Figure TWI611308BD00013
因此,於第二實施例中,主要網頁節點資料群組MNDG包含之部分網頁節點資料ND之XML路徑語言NDX如下表所示:
Figure TWI611308BD00014
隨後,網頁資料擷取裝置2之處理單元23便可針對主要網頁節點資料群組MNDG包含之部分網頁節點資料ND之XML路徑語言NDX,進行最長共同子序列(Longest Common Subsequence)演算法,決定網頁主要內容擷取資訊MX。於第二實施例中,網頁主要內容擷取資訊MX為:’html/body/div[1]/main[1]/article[[0-9]+].*’。
如此一來,在前述URL群組(即http://www.aaaaa.com/item1~3.html)具有相同性質(例如樣板及 排版)網頁之情況下,網頁資料擷取裝置2之處理單元23後續便可選擇具有相同主要內容擷取資訊MX(即html/body/div[1]/main[1]/article[[0-9]+].*)之網頁節點,俾後續主要內容之分析及利用。
本發明之第三實施例為網頁資料擷取方法,其流程圖請參考第3圖。第三實施例之方法係用於一網頁資料擷取裝置(例如前述實施例之網頁資料擷取裝置1)。網頁資料擷取裝置自一網頁伺服器接收複數網頁資料。第三實施例之詳細步驟如下所述。
首先,執行步驟301,令網頁資料擷取裝置根據複數網頁資料之複數URL之位址關聯性,將複數網頁資料分為至少一URL群組。其中,至少一URL群組包含一第一URL群組,第一URL群組包含至少部分網頁資料。執行步驟302,令網頁資料擷取裝置自第一URL群組之部分網頁資料中,挑選一第一網頁資料以及一第二網頁資料。
執行步驟303,令網頁資料擷取裝置解析第一網頁資料以及第二網頁資料得一網頁節點資料集合。其中,網頁節點資料集合包含複數網頁節點資料,各網頁節點資料包含相對應之一XML路徑語言以及一文字內容。
執行步驟304,令網頁資料擷取裝置根據網頁節點資料集合之網頁節點資料之XML路徑語言之路徑關聯性以及文字內容之文字關聯性,將網頁節點資料集合之複數網頁節點資料分為 複數網頁節點資料群組。其中,各網頁節點資料群組至少包含部分網頁節點資料。
執行步驟305,令網頁資料擷取裝置分別計算各網頁節點資料群組之部分網頁節點資料之一文字內容總和。執行步驟306,令網頁資料擷取裝置根據複數文字內容總和,判斷複數網頁節點資料群組之至少一主要網頁節點資料群組。最後,執行步驟307,令網頁資料擷取裝置根據至少一主要網頁節點資料群組包含之部分網頁節點資料之XML路徑語言,決定一網頁主要內容擷取資訊。
本發明之第四實施例為網頁資料擷取方法,其流程圖請參考第4圖。第四實施例之方法係用於一網頁資料擷取裝置(例如前述實施例之網頁資料擷取裝置2)。網頁資料擷取裝置自一網頁伺服器接收複數網頁資料。第四實施例之詳細步驟如下所述。
首先,執行步驟401,令網頁資料擷取裝置根據複數網頁資料之複數URL之位址關聯性,將複數網頁資料分為至少一URL群組。其中,至少一URL群組包含一第一URL群組,第一URL群組包含至少部分網頁資料,且第一URL群組中,部分網頁資料之URL間之最小編輯距離皆小於一URL門檻值。
執行步驟402,令網頁資料擷取裝置自第一URL群組之部分網頁資料中,挑選資料量最高之一第一網頁資料以及資料量第二高之一第二網頁資料。執行步驟403,令網頁資料擷取裝置 解析第一網頁資料以及第二網頁資料得一網頁節點資料集合。其中,網頁節點資料集合包含複數網頁節點資料,各網頁節點資料包含相對應之一XML路徑語言以及一文字內容。
執行步驟404,令網頁資料擷取裝置自文字內容中挑選至少一無效文字內容以及至少一重複節點資料,並將相對應於至少一無效文字內容以及至少一重複節點資料之網頁節點自網頁節點資料集合中刪除。
執行步驟405,令網頁資料擷取裝置根據網頁節點資料集合之複數網頁節點資料之XML路徑語言之路徑關聯性,將網頁節點資料集合之複數網頁節點資料分為複數路徑群組。其中,各路徑群組之部分網頁節點資料之XML路徑語言間之最小編輯距離皆小於一XML門檻值。
執行步驟406,令網頁資料擷取裝置針對各路徑群組,根據部分網頁節點資料之文字內容之文字關聯性,將各路徑群組分為複數網頁節點資料群組。其中,各路徑群組中,部分網頁節點資料之各文字內容具有一用語頻率向量,且各路徑群組中,各網頁節點資料群組之部分網頁節點資料之文字內容之用語頻率向量間之餘弦值大於一文字內容門檻值。
執行步驟407,令網頁資料擷取裝置將複數文字內容總和排序成一文字內容總和序列。執行步驟408,令網頁資料擷取裝置計算文字內容總和序列中相鄰文字內容總和之複數差值。執行步驟409,令網頁資料擷取裝置挑選複數差值之一最大差值。執 行步驟410,令網頁資料擷取裝置根據最大差值,將文字內容總和序列分為一主要區域以及一次要區域。
執行步驟411,令網頁資料擷取裝置根據主要區域,判斷複數網頁節點資料群組之至少一主要網頁節點資料群組。執行步驟412,令網頁資料擷取裝置針對至少一主要網頁節點資料群組包含之部分網頁節點資料之XML路徑語言,進行最長共同子序列演算法。執行步驟413,令網頁資料擷取裝置根據步驟412之結果,決定網頁主要內容擷取資訊。
綜合上述,本發明之網頁資料擷取裝置及其網頁資料擷取方法,主要可自動地分析不同網頁群組之樣板及排版之語法,並且據以自動地找出具有主要內容之網頁節點。如此一來,便可更有效率地完成網頁資料之擷取,俾利進行後續相關數據分析。
惟上述實施例僅為例示性說明本發明之實施態樣,以及闡釋本發明之技術特徵,並非用來限制本發明之保護範疇。任何熟悉此技藝之人士可輕易完成之改變或均等性之安排均屬於本發明所主張之範圍,本發明之權利保護範圍應以申請專利範圍為準。
301~307‧‧‧步驟

Claims (14)

  1. 一種用於網頁資料擷取裝置之網頁資料擷取方法,該網頁資料擷取裝置自一網頁伺服器接收複數網頁資料,該網頁資料擷取方法包含:(a)令該網頁資料擷取裝置根據該等網頁資料之複數統一資源定址器(uniform resource locator,URL)之位址關聯性,將該等網頁資料分為至少一URL群組,其中,該至少一URL群組包含一第一URL群組,該第一URL群組包含至少部分該等網頁資料;(b)令該網頁資料擷取裝置自該第一URL群組之部分該等網頁資料中,挑選一第一網頁資料以及一第二網頁資料;(c)令該網頁資料擷取裝置解析該第一網頁資料以及該第二網頁資料得一網頁節點資料集合,其中,該網頁節點資料集合包含複數網頁節點資料,各該網頁節點資料包含相對應之一XML路徑語言(XML Path Language)以及一文字內容;(d)令該網頁資料擷取裝置根據該網頁節點資料集合之該等網頁節點資料之該等XML路徑語言之路徑關聯性以及該等文字內容之文字關聯性,將該網頁節點資料集合之該等網頁節點資料分為複數網頁節點資料群組,其中,各該網頁節點資料群組至少包含部分該等網頁節點資料;(e)令該網頁資料擷取裝置分別計算各該網頁節點資料群組之部分該等網頁節點資料之一文字內容總和;(f)令該網頁資料擷取裝置根據該等文字內容總和,判斷該等網頁節點資料群組之至少一主要網頁節點資料群組;(g)令該網頁資料擷取裝置根據該至少一主要網頁節點資料群組包 含之部分該等網頁節點資料之該等XML路徑語言,決定一網頁主要內容擷取資訊。
  2. 如請求項1所述之網頁資料擷取方法,其中,該第一URL群組中,部分該等網頁資料之該等URL間之最小編輯距離(Minimum Edit Distance)皆小於一URL門檻值。
  3. 如請求項1所述之網頁資料擷取方法,其中,步驟(b)更包含:(b1)令該網頁資料擷取裝置自該第一URL群組之部分該等網頁資料中,挑選資料量最高之該第一網頁資料以及資料量第二高之該第二網頁資料。
  4. 如請求項1所述之網頁資料擷取方法,其中,步驟(c)後更包含:(c1)令該網頁資料擷取裝置自該等文字內容中挑選至少一無效文字內容以及至少一重複節點資料,並將相對應於該至少一無效文字內容以及至少一重複節點資料之網頁節點自該網頁節點資料集合中刪除。
  5. 如請求項1所述之網頁資料擷取方法,其中,步驟(d)更包含:(d1)令網頁資料擷取裝置根據該網頁節點資料集合之該等網頁節點資料之該等XML路徑語言之路徑關聯性,將該網頁節點資料集合之該等網頁節點資料分為複數路徑群組,其中,各該路徑群組之部分該等網頁節點資料之該等XML路徑語言間之最小編輯距離皆小於一XML門檻值;(d2)令該網頁資料擷取裝置針對各該路徑群組,根據部分該等網頁節點資料之該等文字內容之文字關聯性,將各該路徑群組分為該等網頁節點資料群組; 其中,各該路徑群組中,部分該等網頁節點資料之各該文字內容具有一用語頻率向量;其中,各該路徑群組中,各該網頁節點資料群組之部分該等網頁節點資料之該等文字內容之該等用語頻率向量間之餘弦值大於一文字內容門檻值。
  6. 如請求項1所述之網頁資料擷取方法,其中,步驟(f)更包含:(f1)令該網頁資料擷取裝置將該等文字內容總和排序成一文字內容總和序列;(f2)令該網頁資料擷取裝置計算該文字內容總和序列中相鄰文字內容總和之複數差值;(f3)令該網頁資料擷取裝置挑選該等差值之一最大差值;(f4)令該網頁資料擷取裝置根據該最大差值,將該文字內容總和序列分為一主要區域以及一次要區域;(f5)令該網頁資料擷取裝置根據該主要區域,判斷該等網頁節點資料群組之該至少一主要網頁節點資料群組。
  7. 如請求項1所述之網頁資料擷取方法,其中,步驟(g)更包含:(g1)令該網頁資料擷取裝置針對該至少一主要網頁節點資料群組包含之部分該等網頁節點資料之該等XML路徑語言,進行最長共同子序列(Longest Common Subsequence)演算法;(g2)令網頁資料擷取裝置根據步驟(g1)之結果,決定該網頁主要內容擷取資訊。
  8. 一種網頁資料擷取裝置,包含: 一接收單元,用以自一網頁伺服器接收複數網頁資料;以及一處理單元,用以:根據該等網頁資料之複數統一資源定址器(uniform resource locator,URL)之位址關聯性,將該等網頁資料分為至少一URL群組,其中,該至少一URL群組包含一第一URL群組,該第一URL群組包含至少部分該等網頁資料;自該第一URL群組之部分該等網頁資料中,挑選一第一網頁資料以及一第二網頁資料;解析該第一網頁資料以及該第二網頁資料得一網頁節點資料集合,其中,該網頁節點資料集合包含複數網頁節點資料,各該網頁節點資料包含相對應之一XML路徑語言(XML Path Language)以及一文字內容;根據該網頁節點資料集合之該等網頁節點資料之該等XML路徑語言之路徑關聯性以及該等文字內容之文字關聯性,將該網頁節點資料集合之該等網頁節點資料分為複數網頁節點資料群組,其中,各該網頁節點資料群組至少包含部分該等網頁節點資料;分別計算各該網頁節點資料群組之部分該等網頁節點資料之一文字內容總和;根據該等文字內容總和,判斷該等網頁節點資料群組之至少一主要網頁節點資料群組;根據該至少一主要網頁節點資料群組包含之部分該等網頁節點資料之該等XML路徑語言,決定一網頁主要內容擷取資訊。
  9. 如請求項8所述之網頁資料擷取裝置,其中,該第一URL群組中,部分該等網頁資料之該等URL間之最小編輯距離(Minimum Edit Distance)皆小於一URL門檻值。
  10. 如請求項8所述之網頁資料擷取裝置,其中,該處理單元更用以:自該第一URL群組之部分該等網頁資料中,挑選資料量最高之該第一網頁資料以及資料量第二高之該第二網頁資料。
  11. 如請求項8所述之網頁資料擷取裝置,其中,該處理單元更用以:自該等文字內容中挑選至少一無效文字內容以及至少一重複節點資料,並將相對應於該至少一無效文字內容以及至少一重複節點資料之網頁節點自該網頁節點資料集合中刪除。
  12. 如請求項8所述之網頁資料擷取裝置,其中,該處理單元更用以:根據該網頁節點資料集合之該等網頁節點資料之該等XML路徑語言之路徑關聯性,將該網頁節點資料集合之該等網頁節點資料分為複數路徑群組,其中,各該路徑群組之部分該等網頁節點資料之該等XML路徑語言間之最小編輯距離皆小於一XML門檻值;針對各該路徑群組,根據部分該等網頁節點資料之該等文字內容之文字關聯性,將各該路徑群組分為該等網頁節點資料群組;其中,各該路徑群組中,部分該等網頁節點資料之各該文字內容具有一用語頻率向量;其中,各該路徑群組中,各該網頁節點資料群組之部分該等網頁節點資料之該等文字內容之該等用語頻率向量間之餘弦值大於一文字內容門檻值。
  13. 如請求項8所述之網頁資料擷取裝置,其中,該處理單元更用以:將該等文字內容總和排序成一文字內容總和序列;計算該文字內容總和序列中相鄰文字內容總和之複數差值;挑選該等差值之一最大差值;根據該最大差值,將該文字內容總和序列分為一主要區域以及一次要區域;根據該主要區域,判斷該等網頁節點資料群組之該至少一主要網頁節點資料群組。
  14. 如請求項8所述之網頁資料擷取裝置,其中,該處理單元更用以:針對該至少一主要網頁節點資料群組包含之部分該等網頁節點資料之該等XML路徑語言,進行最長共同子序列(Longest Common Subsequence)演算法;根據最長共同子序列演算法之結果,決定該網頁主要內容擷取資訊。
TW105135730A 2016-11-03 2016-11-03 網頁資料擷取裝置及其網頁資料擷取方法 TWI611308B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
TW105135730A TWI611308B (zh) 2016-11-03 2016-11-03 網頁資料擷取裝置及其網頁資料擷取方法
CN201611000331.0A CN108021600A (zh) 2016-11-03 2016-11-14 网页数据捕获设备及其网页数据撷取方法
US15/358,119 US20180121558A1 (en) 2016-11-03 2016-11-21 Webpage data extraction device and webpage data extraction method thereof

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
TW105135730A TWI611308B (zh) 2016-11-03 2016-11-03 網頁資料擷取裝置及其網頁資料擷取方法

Publications (2)

Publication Number Publication Date
TWI611308B true TWI611308B (zh) 2018-01-11
TW201818268A TW201818268A (zh) 2018-05-16

Family

ID=61728282

Family Applications (1)

Application Number Title Priority Date Filing Date
TW105135730A TWI611308B (zh) 2016-11-03 2016-11-03 網頁資料擷取裝置及其網頁資料擷取方法

Country Status (3)

Country Link
US (1) US20180121558A1 (zh)
CN (1) CN108021600A (zh)
TW (1) TWI611308B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6697123B2 (ja) * 2017-03-03 2020-05-20 日本電信電話株式会社 プロファイル生成装置、攻撃検知装置、プロファイル生成方法、および、プロファイル生成プログラム
US10977289B2 (en) * 2019-02-11 2021-04-13 Verizon Media Inc. Automatic electronic message content extraction method and apparatus
CN110134901B (zh) * 2019-04-30 2023-06-16 哈尔滨英赛克信息技术有限公司 一种基于流量分析的多链路网页篡改判定方法
CN110704761A (zh) * 2019-09-25 2020-01-17 恩亿科(北京)数据科技有限公司 网页信息的获取方法和计算机存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW200900957A (en) * 2007-03-15 2009-01-01 Seung-June Song Internet service system in connection with a contacted website and a method for the same
CN101517570A (zh) * 2006-07-10 2009-08-26 网圣公司 分析网络内容的系统和方法
TW201030542A (en) * 2008-11-18 2010-08-16 Yahoo Inc System and method for URL based query for retrieving data related to a context
US20120054129A1 (en) * 2010-08-30 2012-03-01 International Business Machines Corporation Method for classification of objects in a graph data stream
CN105843965A (zh) * 2016-04-20 2016-08-10 广州精点计算机科技有限公司 一种基于url主题分类的深层网络爬虫表单填充方法和装置

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090063538A1 (en) * 2007-08-30 2009-03-05 Krishna Prasad Chitrapura Method for normalizing dynamic urls of web pages through hierarchical organization of urls from a web site
CN102314497B (zh) * 2011-08-26 2014-12-10 百度在线网络技术(北京)有限公司 一种用于识别标记语言文件主体内容的方法和设备
CN102298638A (zh) * 2011-08-31 2011-12-28 北京中搜网络技术股份有限公司 使用网页标签聚类提取新闻网页内容的方法和系统
US20150324091A1 (en) * 2012-04-28 2015-11-12 Li-Mei Jiao Detecting valuable sections in webpage
US20150067476A1 (en) * 2013-08-29 2015-03-05 Microsoft Corporation Title and body extraction from web page
RU2638726C1 (ru) * 2014-06-26 2017-12-15 Гугл Инк. Оптимизированный процесс воспроизведения браузера
CN106021582B (zh) * 2016-06-02 2020-06-05 腾讯科技(深圳)有限公司 位置信息过滤的方法、提取有效网页信息的方法及装置
US10148700B2 (en) * 2016-06-30 2018-12-04 Fortinet, Inc. Classification of top-level domain (TLD) websites based on a known website classification

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101517570A (zh) * 2006-07-10 2009-08-26 网圣公司 分析网络内容的系统和方法
TW200900957A (en) * 2007-03-15 2009-01-01 Seung-June Song Internet service system in connection with a contacted website and a method for the same
TW201030542A (en) * 2008-11-18 2010-08-16 Yahoo Inc System and method for URL based query for retrieving data related to a context
US20120054129A1 (en) * 2010-08-30 2012-03-01 International Business Machines Corporation Method for classification of objects in a graph data stream
CN105843965A (zh) * 2016-04-20 2016-08-10 广州精点计算机科技有限公司 一种基于url主题分类的深层网络爬虫表单填充方法和装置

Also Published As

Publication number Publication date
CN108021600A (zh) 2018-05-11
US20180121558A1 (en) 2018-05-03
TW201818268A (zh) 2018-05-16

Similar Documents

Publication Publication Date Title
KR101715432B1 (ko) 단어쌍취득장치, 단어쌍취득방법 및 기록 매체
JP6203374B2 (ja) ウェブページ・スタイルアドレスの統合
US20160314104A1 (en) Methods and systems for efficient and accurate text extraction from unstructured documents
TWI611308B (zh) 網頁資料擷取裝置及其網頁資料擷取方法
CN104331438B (zh) 对小说网页内容选择性抽取方法和装置
CN105528422A (zh) 一种主题爬虫处理方法及装置
CN104133870B (zh) 一种网页相似度计算方法及装置
CN103853834A (zh) 基于文本结构分析的Web文档摘要的生成方法
CN110210038B (zh) 核心实体确定方法及其系统、服务器和计算机可读介质
US8090720B2 (en) Method for merging document clusters
CN108959329A (zh) 一种文本分类方法、装置、介质及设备
US7231626B2 (en) Method of implementing an engineering change order in an integrated circuit design by windows
CN114996458A (zh) 文本处理方法和装置、设备、介质
CN113486187A (zh) 佛学知识图谱构建方法、装置、设备及存储介质
KR20230036792A (ko) 자연어 처리 장치 및 방법
CN105426500B (zh) 网页脚本动态生成的链接的提取方法及装置
Tiedemann Improved text extraction from PDF documents for large-scale natural language processing
CN104778232B (zh) 一种基于长查询的搜索结果的优化方法和装置
Nethra et al. WEB CONTENT EXTRACTION USING HYBRID APPROACH.
CN104317903B (zh) 章节式文本的章节完整性的识别方法和装置
CN112989163A (zh) 一种垂直搜索方法和系统
CN108614825A (zh) 一种网页特征提取方法和装置
CN107545020A (zh) 一种网页分类的确定方法及装置
CN104978431B (zh) 网页数据融合方法和装置
CN104063506A (zh) 重复网页识别方法和装置