JP7434867B2 - Methods, devices and storage media for extracting information from web pages - Google Patents
Methods, devices and storage media for extracting information from web pages Download PDFInfo
- Publication number
- JP7434867B2 JP7434867B2 JP2019223095A JP2019223095A JP7434867B2 JP 7434867 B2 JP7434867 B2 JP 7434867B2 JP 2019223095 A JP2019223095 A JP 2019223095A JP 2019223095 A JP2019223095 A JP 2019223095A JP 7434867 B2 JP7434867 B2 JP 7434867B2
- Authority
- JP
- Japan
- Prior art keywords
- node
- leaf
- tree structure
- navigation bar
- determining
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/957—Browsing optimisation, e.g. caching or content distillation
- G06F16/9577—Optimising the visualization of content, e.g. distillation of HTML documents
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/954—Navigation, e.g. using categorised browsing
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/955—Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Information Transfer Between Computers (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
本開示は、自然言語処理に関し、具体的には、複数のウェブページに基づく情報抽出に関する。 TECHNICAL FIELD This disclosure relates to natural language processing, and specifically to information extraction based on multiple web pages.
インターネットから情報を収集、抽出することは、知識ベースを構築する重要な手段である。例えば、電子商取引会社のウェブページから製品の情報を抽出し、製品の知識ベースを構築することができる。従来の方法は、主に2種類の方法に分類される。 Collecting and extracting information from the Internet is an important means of building a knowledge base. For example, product information can be extracted from an e-commerce company's web pages to build a product knowledge base. Conventional methods are mainly classified into two types.
1種類目の方法は、類似の構造を有するページ(例えば、電子商取引会社のウェブサイトの製品リストのページでは、各ページの構造は類似する)の場合は、手動でテンプレートを作成し、或いは教師なし、教師ありの方法によりウェブページに含まれる製品情報の構造テンプレートを学習して、これらの学習により得られた構造テンプレートを用いて他の類似のウェブページを解析してもよい。図1Aに示すように、携帯電話のページの構造情報を学習することで、図書及び靴の製品情報を抽出してもよい。 The first method is to manually create a template or have a teacher create a template for pages with a similar structure (for example, the product list page of an e-commerce company's website has a similar structure). It is also possible to learn structural templates of product information included in web pages using a non-supervised method, and use the structural templates obtained by these learning methods to analyze other similar web pages. As shown in FIG. 1A, product information on books and shoes may be extracted by learning the structure information of the mobile phone page.
2種類目の方法は、単一の構造を有する(非類似の)ページの場合は、図1Bに示すように、ウェブページの構造を動的に解析し、キーワードのリストにより関連情報のウェブページにおける位置を特定し、値を抽出してもよい。 In the case of pages with a single structure (dissimilar), the second method dynamically analyzes the structure of the web page and searches the web page for related information using a list of keywords, as shown in Figure 1B. You may also specify the position in and extract the value.
以下は、本発明の態様を基本的に理解させるために、本発明の簡単な概要を説明する。なお、この簡単な概要は、本発明を網羅的な概要ではなく、本発明のポイント又は重要な部分を意図的に特定するものではなく、本発明の範囲を意図的に限定するものではなく、後述するより詳細的な説明の前文として、単なる概念を簡単な形で説明することを目的とする。 The following presents a brief summary of the invention in order to provide a basic understanding of aspects of the invention. This brief summary is not an exhaustive summary of the present invention, does not intentionally specify the main points or important parts of the present invention, and is not intended to intentionally limit the scope of the present invention. Its sole purpose is to present some concepts in a simplified form as a prelude to the more detailed description that is presented later.
本発明は、ウェブページから情報を抽出する方法、装置及び記憶媒体を提供する。 The present invention provides a method, apparatus, and storage medium for extracting information from web pages.
本発明の1つの態様では、ウェブページから情報を抽出する方法であって、前記ウェブページ及びその全ての拡張ウェブページにおける前記ウェブページのドメイン名を含む各ページについて木構造を生成するステップと、前記木構造におけるナビゲーションバーノードを決定するステップと、前記ナビゲーションバーノードによりカバーされる、1つ又は複数のキーワードにマッチする葉ノードを決定するステップと、マッチする葉ノードに対応するページにおける情報を抽出するステップと、を含む、方法を提供する。 In one aspect of the invention, a method for extracting information from a web page includes the steps of: generating a tree structure for each page containing the domain name of the web page in the web page and all extended web pages thereof; determining a navigation bar node in the tree structure; determining a leaf node covered by the navigation bar node that matches one or more keywords; and determining information on a page corresponding to the matching leaf node. A method is provided, comprising: extracting.
本発明のもう1つの態様では、ウェブページから情報を抽出する装置であって、前記ウェブページ及びその全ての拡張ウェブページにおける前記ウェブページのドメイン名を含む各ページについて木構造を生成する木構造生成手段と、前記木構造におけるナビゲーションバーノードを決定するナビゲーションバーノード決定手段と、前記ナビゲーションバーノードによりカバーされる、1つ又は複数のキーワードにマッチする葉ノードを決定するマッチノード決定手段と、マッチする葉ノードに対応するページにおける情報を抽出する情報抽出手段と、を含む、装置を提供する。 Another aspect of the present invention provides an apparatus for extracting information from a web page, the apparatus generating a tree structure for each page containing a domain name of the web page in the web page and all extended web pages thereof. a generation means; a navigation bar node determination means for determining a navigation bar node in the tree structure; a match node determination means for determining a leaf node covered by the navigation bar node that matches one or more keywords; and an information extraction means for extracting information in a page corresponding to a matching leaf node.
本発明の他の態様では、対応するコンピュータプログラムコード、コンピュータ読み取り可能な記憶媒体及びコンピュータプログラムプロダクトをさらに提供する。 Other aspects of the invention further provide corresponding computer program code, computer readable storage media, and computer program products.
本発明に係るウェブページから情報を抽出する方法及び装置によれば、ホームページのURL(ユニフォームリソースロケータ)に基づいて、同一のドメイン名において分布している複数のウェブページから必要な情報を抽出することができる。 According to the method and apparatus for extracting information from web pages according to the present invention, necessary information is extracted from a plurality of web pages distributed under the same domain name based on the URL (uniform resource locator) of the home page. be able to.
以下は図面を参照しながら本発明の好ましい実施形態を詳細に説明することにより、本発明の上記及び他の利点はより明確になる。 The above and other advantages of the present invention will become clearer through the following detailed description of preferred embodiments of the present invention with reference to the drawings.
本開示の上記及び他の利点及び特徴を理解させるために、以下は図面を参照しながら本開示の具体的な実施形態を詳細に説明する。図面及び以下の詳細な説明は本明細書に含まれ、本明細書の一部を構成する。同一の機能及び構造を有する素子は同一の符号で示される。なお、これらの図面は単なる本開示の典型的な例を説明するためのものであり、本開示の範囲を限定するものではない。
以下、図面を参照しながら本発明の例示的な実施例を詳細に説明する。説明の便宜上、明細書には実際の実施形態の全ての特徴が示されていない。なお、実際に実施する際に、開発者の具体的な目標を実現するために、特定の実施形態を変更してもよい、例えばシステム及び業務に関する制限条件に応じて実施形態を変更してもよい。また、開発作業が非常に複雑であり、且つ時間がかかるが、本公開の当業者にとって、この開発作業は単なる例の作業である。 Hereinafter, exemplary embodiments of the present invention will be described in detail with reference to the drawings. For convenience of explanation, not all features of an actual implementation are described in the specification. Note that during actual implementation, the specific embodiment may be changed in order to realize the specific goals of the developer, for example, the embodiment may be changed depending on the system and business constraints. good. In addition, the development work is very complex and time-consuming, but for those skilled in the art to whom this disclosure is concerned, this development work is just an example work.
なお、本発明を明確にするために、図面には本発明に密に関連する装置の構成要件及び/又は処理のステップのみが示され、本発明と関係のない細部が省略されている。 It should be noted that, in order to make the present invention clear, only the structural features of the apparatus and/or process steps closely related to the present invention are shown in the drawings, and details unrelated to the present invention are omitted.
上述したように、インターネットから情報を収集、抽出することは、知識ベースを構築する重要な手段である。図1A及び図1Bに示す従来技術は、一部の要求を満たすことができるが、依然として限界がある。 As mentioned above, collecting and extracting information from the Internet is an important means of building a knowledge base. Although the prior art shown in FIGS. 1A and 1B can meet some requirements, it still has limitations.
図2Aに示すように、http://owtware.comは会社のホームページのURLであり、製品、協力会社、連絡先などの会社の情報は異なるページに分布し、3つのページの主要情報の所在する部分も類似の構造を有しない。 As shown in Figure 2A, http://owtware.com is the URL of the company's homepage, and the company's information such as products, partner companies, and contacts are distributed on different pages, and the main information location of the three pages is The parts that do not have a similar structure.
ホームページのURLのみが既知である場合、従来方法は、このような複数のページに分布している情報を抽出することができない。一方、通常ホームページのURLは容易に入手できる。このため、ホームページのURL情報を拡張して他の情報を抽出する方法は、依然として解決すべき問題である。 If only the URL of the home page is known, conventional methods cannot extract such information distributed across multiple pages. On the other hand, the URL of a home page is usually easily obtainable. Therefore, a method for extracting other information by extending the URL information of a home page remains a problem to be solved.
従来技術に存在する問題を解決するために、本発明は、ホームページURLのみが既知である場合、(1)関連情報を含む他のページを自動的に拡張し、(2)各関連ページから主要情報を含む位置を取得し、(3)異なる属性タイプを有するページについて個別の情報抽出を行うことができる、複数のページに基づく情報抽出方法を提供する。 To solve the problems existing in the prior art, the present invention (1) automatically expands other pages containing related information when only the home page URL is known; and (2) extracts the main page from each related page. A multi-page based information extraction method is provided that can obtain locations containing information and (3) perform separate information extraction for pages with different attribute types.
図2Bは本発明の方法の全体的な流れの例を示す図である。図2Bに示すように、本発明に係る方法は、主に以下の3つの部分を含む。 FIG. 2B is a diagram showing an example of the overall flow of the method of the present invention. As shown in FIG. 2B, the method according to the present invention mainly includes the following three parts.
(1)ホームページを拡張することで複数のページの集合を取得する。 (1) Obtain a set of multiple pages by expanding the homepage.
(2)統計的方法を用いてウェブページの集合に対して統計的な分類を行い、ナビゲーションバーノード(navigation bar node)を取得し、そして、キーワード辞書を用いてナビゲーションバーノードに含まれる葉ノードのテキストのマッチングを行い、マッチするノード情報に基づいて抽出すべきページを取得する。 (2) Perform statistical classification on a set of web pages using a statistical method to obtain navigation bar nodes, and then use a keyword dictionary to classify leaf nodes included in the navigation bar nodes. , and retrieve the page to be extracted based on the matching node information.
(3)抽出すべきページの情報タイプに応じて、異なる解析器を用いて抽出を行う。 (3) Extraction is performed using different analyzers depending on the information type of the page to be extracted.
以下は、図3、図4A及び図4Bを参照しながら、本発明の実施形態に係るウェブページから情報を抽出する方法を詳細に説明する。 Hereinafter, a method for extracting information from a web page according to an embodiment of the present invention will be described in detail with reference to FIGS. 3, 4A, and 4B.
図3は本発明の実施形態に係るウェブページから情報を抽出する方法の流れを示すフローチャートである。 FIG. 3 is a flowchart illustrating a method for extracting information from a web page according to an embodiment of the present invention.
まず、ステップ301において、ウェブページ及びその全ての拡張ウェブページにおける該ウェブページのドメイン名を含む各ページについて木構造を生成する。具体的には、本実施形態では、図2Aに示すURLを一例にすると、会社ホームページURLはuroot=http://www.owtware.com/であり、抽出すべき情報は該会社の他の属性、例えば製品、連絡先などである。
First, in
まず、クローラー(crawler)を用いてurootに対応するHTMLページprootをクロールし、ページを解析してそれに含まれる全てのURLの集合u=[u0,u1,u2,…,un]を取得する。ページに含まれるURLが該会社に関連する場合があり、関連しない場合もあり、例えば広告や外部リンクなどの場合もあると考慮すると、特定のルールに従って一部のURLの集合u’=[u’0,u’1,u’2,…,u’n]を選択し、ここで、u’iにはdomain(uroot)が含まれ、domain(URL)はURLトップレベルドメイン名を抽出する操作であり、例えばdomain(uroot)=www.owtware.com。このように、同一のドメイン名を有する全てのURL、例えばhttp://www.owtware.com/index.php/zh/products/を保持することができる。 First, use a crawler to crawl the HTML page root corresponding to u root , analyze the page, and set all URLs contained therein u = [u 0 , u 1 , u 2 ,..., u n ]. Considering that the URLs contained in a page may or may not be related to the company, such as advertisements or external links, a set of some URLs u' = [u ' 0 , u' 1 , u' 2 , ..., u' n ], where u' i contains domain(u root ) and domain(URL) extracts the URL top-level domain name. For example, domain(u root )=www. outsideware. com. In this way, all URLs with the same domain name, for example http://www.owtware.com/index.php/zh/products/, can be kept.
好ましくは、u’iに対応するページpiは他のURL情報を含む可能性があると考慮するため、piをさらに拡張してもよい。各piについて、同様のルールでURL及び対応するページを拡張し、毎回の拡張の後に同一のURL及びページを併合する。拡張のプロセスはn回だけ繰り返してもよい。一定の数のページを取得でき、且つページの数が多すぎないように、通常n=2にしてもよい。これによって、同一のドメイン名を有するページの集合p=[<p0,u0>,<p1,u1>,<p2,u2>,…,<pn,un>]を取得でき、ここで、piはウェブページを表し、uiはウェブページに対応するURLを表す。 Preferably, p i may be further expanded to take into account that the page p i corresponding to u' i may include other URL information. For each pi, expand URLs and corresponding pages using similar rules, and merge identical URLs and pages after each expansion. The expansion process may be repeated n times. Normally, n may be set to 2 so that a certain number of pages can be obtained and the number of pages is not too large. As a result, a set of pages with the same domain name p = [<p 0 , u 0 >, <p 1 , u 1 >, <p 2 , u 2 >, ..., <p n , un >] where p i represents a web page and u i represents a URL corresponding to the web page.
次に、ステップ302において、木構造におけるナビゲーションバーノードを決定する。具体的には、本実施形態では、集合pからナビゲーションバーノードを取得する。上述したように、目的は、集合pから該会社情報を含むページ、例えば製品、連絡先などを取得することである。通常、ナビゲーションバーノードにおけるリンクにより、これらの情報に対応するページを取得できる。ナビゲーションバーノードを情報アンカーとして選択する主な理由は3つある。
Next, in
(1)情報は正確である。ナビゲーションバーノードに含まれるリンクが指向するページは、会社の紹介と見なすことができる。例えば、「製品とサービス」に対応するページは該会社の製品を紹介し、「連絡先」は会社の住所、電話番号などの情報のページにリンクする。ウェブページにおける他の部分に出現するリンクは、必ずしも該会社の情報を説明するものではなく、他の会社の紹介や広告などの情報である可能性がある。 (1) Information is accurate. The page to which the link contained in the navigation bar node points can be considered an introduction to the company. For example, a page corresponding to "Products and Services" introduces the company's products, and "Contact Information" links to a page with information such as the company's address and phone number. Links that appear in other parts of the web page do not necessarily explain information about the company, but may be information such as introductions or advertisements for other companies.
(2)情報は全面的である。ナビゲーションバーノードは基本的に該会社に関連する全ての情報を含み、ナビゲーションバーノードを取得すると、関連情報を含む全てのページを取得でき、これは後続の情報抽出に非常に役に立つ。 (2) Information is comprehensive. The navigation bar node basically contains all the information related to the company, and when you get the navigation bar node, you can get all the pages containing related information, which is very useful for subsequent information extraction.
(3)比較的に取得しやすい。異なるウェブページは異なる構造を有する可能性があるが、ナビゲーションバーノードの様式は殆ど同じである。このような共通性により、ウェブ構造からナビゲーションバーノードの位置を正確に見つけることができる。 (3) Relatively easy to obtain. Although different web pages may have different structures, the style of navigation bar nodes is largely the same. This commonality allows navigation bar nodes to be accurately located in the web structure.
以下は、ナビゲーションバーノードの決定方法を例示的に説明する。 Below, a method for determining a navigation bar node will be exemplified.
上記の3つの特徴により、各ページpi(pi∈p)におけるノードを計数することで、頻繁に出現するノードを取得してもよい。これらのノードにはナビゲーションバーノードが含まれるため、特徴値に基づいてこれらの頻繁に出現するノードを並び替えることでナビゲーションバーノードを取得してもよい。具体的な方法は以下の通りである。 Due to the above three characteristics, frequently appearing nodes may be obtained by counting the nodes in each page p i (p i ∈p). Since these nodes include navigation bar nodes, the navigation bar nodes may be obtained by rearranging these frequently appearing nodes based on feature values. The specific method is as follows.
図4Aに示すように、集合pにおける各ページpiについて、まずpiをDom木の構造に変換する。 As shown in FIG. 4A, for each page p i in the set p, p i is first converted into a Dom tree structure.
Dom木における各葉ノードnodeiについて、nodeiの経路パターンpathiを取得し、pathiは、該葉ノードに対応するテキストと、n番目の先祖ノードまでの経路により構成される。実際の経験によると、殆どのページでは、nは5以上の整数値であってもよい。例えば、ナビゲーションバーノード「連絡先」について、n=5の場合は、pathi=「ul_li_ul_li_a_連絡先」を取得できる。 For each leaf node node i in the Dom tree, a path pattern path i of node i is obtained, and path i is composed of the text corresponding to the leaf node and the path to the n-th ancestor node. Practical experience shows that for most pages, n may be an integer value greater than or equal to 5. For example, for the navigation bar node "Contact", if n=5, path i = "ul_li_ul_li_a_contact" can be obtained.
次に、各pathiの文書頻度dfi、即ちpathiが異なる文書に出現する回数を算出する。統計により経路頻度辞書node_pattern_dictionary{<path1,df1>,…,<pathn,dfn>}を取得してもよく、ここで、dfi>t、tは次のように設定された閾値である。
ページ数|p|の最終結果への影響を低減するために、閾値tを段階的に設定する。 In order to reduce the influence of the number of pages |p| on the final result, the threshold value t is set in stages.
経路頻度辞書を取得した後、集合pにおける各piに対応するDom木構造に対して2回目の走査を行い、今回は、各非葉ノードnodeiについて、それによりカバーされる全てのNULLでない葉ノードの集合がc=[c0,c1,c2,…,cn]となると仮定すると、各ciについて、pathi(ci)が経路頻度辞書node_pattern_dictionaryに存在する場合、該nodeiの情報を記録する。最後に、候補辞書candidate_pattern_dictionary{<path1,[df1,cn1]>,…,<pathn,[dfn,cnn]>}を取得してもよく、ここで、pathiは非葉ノードnodeiから先祖ノードまでの経路情報を表し、dfiは文書頻度を表し、cniはnodeiによりカバーされる全てのNULLでない葉ノードの数を表す。葉ノードのpathiとは異なって、非葉ノードのpathiはテキスト情報を含まない。図4Aにおける3に示すように、「連絡先」からulノードまでの対応する経路はul_li_ul_div_divであり、n=5となる。 After obtaining the path frequency dictionary, a second scan is performed on the Dom tree structure corresponding to each p i in the set p, and this time, for each non-leaf node node i , all non-NULLs covered by it are scanned. Assuming that the set of leaf nodes is c = [c 0 , c 1 , c 2 , ..., c n ], for each c i , if path i (c i ) exists in the path frequency dictionary node_pattern_dictionary, then the node Record the information of i . Finally, a candidate dictionary candidate_pattern_dictionary {<path 1 ,[df 1 ,cn 1 ]>,...,<path n ,[df n ,cn n ]>} may be obtained, where path i is a non-leaf It represents the path information from node i to the ancestor node, df i represents the document frequency, and cn i represents the number of all non-NULL leaf nodes covered by node i . Unlike path i of leaf nodes, path i of non-leaf nodes does not contain textual information. As shown at 3 in FIG. 4A, the corresponding path from the "contact" to the ul node is ul_li_ul_div_div, and n=5.
最後に、(cn*df/|p|)の値に従って候補辞書candidate_pattern_dictionaryを並び替え、最大値に対応する経路をナビゲーションバーノード経路テンプレートとして取得し、該最大値に対応する経路における先祖ノードをナビゲーションバーノードとして決定してもよい。該会社のホームページの下にある所定のHTMLページについて、該テンプレートを用いてナビゲーションバーノードの位置を特定してもよい。 Finally, sort the candidate dictionary candidate_pattern_dictionary according to the value of (cn*df/|p|), obtain the route corresponding to the maximum value as a navigation bar node route template, and navigate the ancestor node in the route corresponding to the maximum value. It may also be determined as a bar node. The template may be used to locate navigation bar nodes for a given HTML page under the company's home page.
なお、上記の統計的方法を用いてナビゲーションバーノードを決定することは、単なるナビゲーションバーノードの決定方法の一例である。本発明は、これに限定されず、他の適切な方法を用いてナビゲーションバーノードを決定してもよい。 Note that determining a navigation bar node using the above statistical method is merely an example of a method for determining a navigation bar node. The present invention is not limited thereto, and other suitable methods may be used to determine navigation bar nodes.
次に、ステップ303において、ナビゲーションバーノードによりカバーされる、1つ又は複数のキーワードにマッチする葉ノードを決定する。具体的には、本実施形態では、ステップ302においてナビゲーションバーノードが取得された後に、該ナビゲーションバーノードによりカバーされる各NULLでない葉ノードについて、辞書keyword_dictを用いて葉ノードに対応するテキストのマッチングを行う。辞書keyword_dictには、例えば「製品紹介」、「連絡先」などの所定のキーワードが含まれる。葉ノードがキーワードにマッチする場合、対応するHTML要素から「href」属性を検索してもよく、その属性値は対応するウェブページのURLである。例えば、図4Aにおける「連絡先」ノードに対応するHTML要素には次のリンクが含まれる。
Next, in
href=http://www.owtware.com/index.php/zh/about/contact-us/
従って、集合pから関連情報を含むウェブページの集合p’=[<p’0,u’0,t’0>,<p’1,u’1,t’1>,<p’2,u’2,t’2>,…,<p’n,u’n,t’n>]を選択してもよく、ここで、p’i及びu’iは上記の定義されたpi及びuiと同じであり、t’iは、該ページに対応するタイプ、例えば製品、人物、連絡先などを表す。これによって、ページの異なるタイプに応じて、異なる解析器を選択して抽出を行うことができる。
href=http://www.owtware.com/index.php/zh/about/contact-us/
Therefore, a set of web pages containing related information from the set p' = [<p' 0 , u' 0 , t' 0 >, <p' 1 , u' 1 , t' 1 >, <p' 2 , u' 2 , t' 2 >, ..., <p' n , u' n , t' n >], where p' i and u' i are the above defined p i and u i , and t' i represents the type corresponding to the page, such as product, person, contact information, etc. This allows different analyzers to be selected for extraction depending on different types of pages.
各p’iについて、まず、HTMLページを前処理する必要がある。前処理の目的は、まずページにおける主要情報を抽出することである。このプロセスは共通のものであり、ウェブページのタイプt’とは関係がない。抽出された結果は、後で抽出を行う時の入力としてもよい。図4Bの(1)に示すように、元のHTMLページには多くの内容が含まれているが、実線の枠で示される部分のみが必要な内容であり、ナビゲーションバーノード、サイドリスト、ラベルFooterなどの要素を含む他の部分を全て除去する必要があり、除去しないと、抽出時にノイズデータの影響を受けやすくなる。 For each p' i , we first need to preprocess the HTML page. The purpose of preprocessing is to first extract the main information on the page. This process is common and independent of the web page type t'. The extracted results may be used as input when performing extraction later. As shown in (1) of Figure 4B, the original HTML page contains a lot of content, but only the parts shown in solid lines are necessary, including navigation bar nodes, side lists, and labels. It is necessary to remove all other parts including elements such as Footer, otherwise the extraction will be susceptible to noise data.
ステップ302において生成された経路頻度辞書node_pattern_dictionary及び候補辞書candidate_pattern_dictionaryを考慮すると、以下の方法を用いてナビゲーションバーノードによりカバーされる1つ又は複数のキーワードにマッチする葉ノードを決定してもよい。
Considering the route frequency dictionary node_pattern_dictionary and the candidate dictionary candidate_pattern_dictionary generated in
集合p’iにおける非葉ノードnodeiについて、それによりカバーされる全てのNULLでない葉ノードの集合がc=[c0,c1,c2,…,cn]であると仮定すると、次の3つの条件が同時に満たされた場合、nodeiが1つ又は複数のキーワードにマッチする葉ノードを含むターゲット内容ノードであると決定してもよい。
ここで、ciはnodeiによりカバーされるNULLでない葉ノードであり、cjはnodejによりカバーされるNULLでない葉ノードであり、i≠jとなり、text_len(*)は葉ノードに対応するテキストの長さを表す。言い換えれば、nodeiによりカバーされる全てのNULLでない葉ノードのテキストの合計長さは、他のノードnodejによりカバーされる全てのNULLでない葉ノードのテキストの合計長さよりも大きい。 Here, c i is a non-NULL leaf node covered by node i , c j is a non-NULL leaf node covered by node j , i≠j, and text_len(*) corresponds to a leaf node. Represents the length of the text. In other words, the total length of the text of all non-NULL leaf nodes covered by node i is greater than the total length of the text of all non-NULL leaf nodes covered by another node node j .
上記の3つの条件を同時に満たすノードnodeiが決定されると、所定のキーワードにマッチする葉ノードが決定されることを意味する。 When a node i that simultaneously satisfies the above three conditions is determined, this means that a leaf node that matches a predetermined keyword is determined.
最後に、ステップ304において、マッチする葉ノードに対応するページにおける情報を抽出する。具体的には、本実施形態では、上記3つの条件を満たすノードnodeiが決定された後、該ノードによりカバーされる葉ノードに含まれる情報を抽出してもよい。
Finally, in
好ましくは、その各葉ノードを独立した属性抽出空間としてもよく、図4Bにおける(2)及び(3)に示すように、各ノード<div class=“panel-grid-cell”…>を独立した属性空間とする。これによって、属性値の境界を決定することができ、即ち、各値はセクション{{…}}からの値のみである。例えば、人物情報を抽出する場合、セクション{{…}}に含まれる情報は同一の人物を表すためのものであり、異なる{{…}}の情報は異なる人物を表すと見なしてもよいため、抽出エラーを回避することができる。 Preferably, each leaf node may be made into an independent attribute extraction space, and each node <div class="panel-grid-cell"...> may be made into an independent attribute extraction space, as shown in (2) and (3) in FIG. 4B. Let it be an attribute space. This allows determining the boundaries of the attribute values, ie each value is only a value from section {{...}}. For example, when extracting person information, the information included in section {{…}} may be considered to represent the same person, and the information in different {{…}} may be considered to represent different people. , extraction errors can be avoided.
好ましくは、抽出範囲が決定された後、p’iのタイプt’iに応じて、異なる解析器、例えばエンティティ認識器(NER)、固有名詞認識器、数値認識器などを選択して特定情報の抽出を行ってもよい。図4Bの(3)では、固有名詞認識器の結果の例を示している。 Preferably, after the extraction range is determined, a different analyzer, such as an entity recognizer (NER), a proper noun recognizer, or a numerical value recognizer, is selected depending on the type t' i of p' i to extract the specific information. may be extracted. (3) in FIG. 4B shows an example of the results of the proper noun recognizer.
なお、以上は会社ホームページに基づいて関連情報を抽出することを説明しているが、本発明はこれに限定されず、必要に応じて任意のウェブページの任意の情報の抽出に拡張されてもよい。 Although the above describes extracting related information based on a company homepage, the present invention is not limited to this, and may be extended to extracting any information from any web page as necessary. good.
上記の方法は、コンピュータ実行可能なプログラムにより完全に実現されてもよいし、ハードウェア及び/又はファームウェアを用いて部分的又は完全に実現されてもよい。ハードウェア及び/又はファームウェアにより実現される場合、又はコンピュータ実行可能なプログラムがプログラムを実行可能なハードウェア装置にロードされる場合、後述するウェブページから情報を抽出する装置が実現される。以下は、上述した詳細な内容を省略し、これらの装置の概要を説明する。なお、これらの装置は上記の方法を実行することができるが、上記方法は後述する装置の構成部を採用し、或いは構成部により実行されるものに限定されない。 The above method may be fully implemented by a computer-executable program, or may be partially or completely implemented using hardware and/or firmware. When implemented in hardware and/or firmware, or when a computer executable program is loaded onto a hardware device capable of executing the program, an apparatus for extracting information from a web page as described below is implemented. In the following, the detailed contents mentioned above will be omitted and an overview of these devices will be explained. Note that these devices can execute the above-mentioned method, but the above-mentioned method is not limited to one that employs or is executed by a component of the device described later.
図5は本発明の実施形態に係るウェブページから情報を抽出する装置500の例を示すブロック図である。装置500は、木構造生成部501、ナビゲーションバーノード決定部502、マッチノード決定部503及び情報抽出部504を含む。木構造生成部501は、ウェブページ及びその全ての拡張ウェブページにおける該ウェブページのドメイン名を含む各ページについて木構造を生成する。ナビゲーションバーノード決定部502は、該木構造におけるナビゲーションバーノードを決定する。マッチノード決定部503は、該ナビゲーションバーノードによりカバーされる、1つ又は複数のキーワードにマッチする葉ノードを決定する。情報抽出部504は、マッチする葉ノードに対応するページにおける情報を抽出する。
FIG. 5 is a block diagram illustrating an example of an apparatus 500 for extracting information from a web page according to an embodiment of the present invention. The device 500 includes a tree structure generation section 501, a navigation bar
図5に示すウェブページから情報を抽出する装置500は図3に示す方法に対応する。よって、ウェブページから情報を抽出する装置500の詳細は、図3におけるウェブページから情報を抽出する方法について説明において既に詳細に説明され、ここでその説明を省略する。 The apparatus 500 for extracting information from a web page shown in FIG. 5 corresponds to the method shown in FIG. Accordingly, the details of the apparatus 500 for extracting information from a web page have already been described in detail in the description of the method for extracting information from a web page in FIG. 3, and the description thereof will be omitted here.
上記処理及び装置はソフトウェア及び/又はファームウェアにより実現されてもよい。ソフトウェア及び/又はファームウェアにより実施されている場合、記憶媒体又はネットワークから専用のハードウェア構成を有するコンピュータ(例えば図6示されている汎用パーソナルコンピュータ600)に上記方法を実施するためのソフトウェアを構成するプログラムをインストールしてもよく、該コンピュータは各種のプログラムがインストールされている場合は各種の機能などを実行できる。
The above processes and devices may be implemented by software and/or firmware. When implemented by software and/or firmware, the software for implementing the above method is configured from a storage medium or a network to a computer having a dedicated hardware configuration (e.g., general purpose
図6は本発明の実施形態に係る方法及び/又は装置を実現可能な汎用パーソナルコンピュータの例示的な構成を示すブロック図である。図6において、中央処理部(CPU)601は、読み出し専用メモリ(ROM)602に記憶されているプログラム、又は記憶部608からランダムアクセスメモリ(RAM)603にロードされたプログラムにより各種の処理を実行する。RAM603には、必要に応じて、CPU601が各種の処理を実行するに必要なデータが記憶されている。CPU601、ROM602、及びRAM603は、バス604を介して互いに接続されている。入力/出力インターフェース605もバス604に接続されている。
FIG. 6 is a block diagram illustrating an exemplary configuration of a general-purpose personal computer that can implement the method and/or apparatus according to the embodiments of the present invention. In FIG. 6, a central processing unit (CPU) 601 executes various processes using programs stored in a read-only memory (ROM) 602 or programs loaded into a random access memory (RAM) 603 from a
入力部606(キーボード、マウスなどを含む)、出力部607(ディスプレイ、例えばブラウン管(CRT)、液晶ディスプレイ(LCD)など、及びスピーカなどを含む)、記憶部608(例えばハードディスクなどを含む)、通信部609(例えばネットワークのインタフェースカード、例えばLANカード、モデムなどを含む)は、入力/出力インターフェース605に接続されている。通信部609は、ネットワーク、例えばインターネットを介して通信処理を実行する。必要に応じて、ドライバ610は、入力/出力インターフェース605に接続されてもよい。取り外し可能な媒体611は、例えば磁気ディスク、光ディスク、光磁気ディスク、半導体メモリなどであり、必要に応じてドライバ610にセットアップされて、その中から読みだされたコンピュータプログラムは必要に応じて記憶部608にインストールされている。
Input unit 606 (including a keyboard, mouse, etc.), output unit 607 (including a display, such as a cathode ray tube (CRT), liquid crystal display (LCD), etc., and speakers, etc.), storage unit 608 (including, for example, a hard disk), communication A unit 609 (including, for example, a network interface card, such as a LAN card, modem, etc.) is connected to the input/
ソフトウェアにより上記処理を実施する場合、ネットワーク、例えばインターネット、又は記憶媒体、例えば取り外し可能な媒体611を介してソフトウェアを構成するプログラムをインストールする。
When implementing the above processing using software, a program constituting the software is installed via a network, such as the Internet, or a storage medium, such as the
なお、これらの記憶媒体は、図6に示されている、プログラムを記憶し、機器と分離してユーザへプログラムを提供する取り外し可能な媒体611に限定されない。取り外し可能な媒体611は、例えば磁気ディスク(フロッピーディスク(登録商標)を含む)、光ディスク(光ディスク-読み出し専用メモリ(CD-ROM)、及びデジタル多目的ディスク(DVD)を含む)、光磁気ディスク(ミニディスク(MD)(登録商標))及び半導体メモリを含む。或いは、記憶媒体は、ROM602、記憶部608に含まれるハードディスクなどであってもよく、プログラムを記憶し、それらを含む機器と共にユーザへ提供される。
Note that these storage media are not limited to the
本発明は、対応するコンピュータプログラムコード、機器が読み取り可能な命令コードが記憶されているコンピュータプログラムプロダクトをさらに提供する。該命令コードは、機器により読み取られ、実行される際に、上記の本発明の実施例に係る方法を実行することができる。 The invention further provides a computer program product in which a corresponding computer program code, machine readable instruction code is stored. The instruction code, when read and executed by the device, can perform the method according to the embodiment of the invention described above.
それに応じて、本発明は、機器が読み取り可能な命令コードを含むプログラムプロダクトが記録されている記憶媒体をさらに含む。該記憶媒体は、フロッピーディスク、光ディスク、光磁気ディスク、メモリカード、メモリスティック等を含むが、これらに限定されない。 Accordingly, the invention further includes a storage medium having recorded thereon a program product including machine readable instruction codes. The storage medium includes, but is not limited to, a floppy disk, an optical disk, a magneto-optical disk, a memory card, a memory stick, and the like.
また、上述の各実施例を含む実施形態に関し、更に以下の付記を開示する。
(付記1)
ウェブページから情報を抽出する方法であって、
前記ウェブページ及びその全ての拡張ウェブページにおける前記ウェブページのドメイン名を含む各ページについて木構造を生成するステップと、
前記木構造におけるナビゲーションバーノードを決定するステップと、
前記ナビゲーションバーノードによりカバーされる、1つ又は複数のキーワードにマッチする葉ノードを決定するステップと、
マッチする葉ノードに対応するページにおける情報を抽出するステップと、を含む、方法。
(付記2)
統計的方法を用いて前記ナビゲーションバーノードを決定する、付記1に記載の方法。
(付記3)
前記木構造におけるナビゲーションバーノードを決定するステップは、
前記木構造に出現する回数が所定閾値よりも大きい葉ノードのみを含む非葉ノードを決定するステップと、
前記非葉ノードを並び替えて前記ナビゲーションバーノードを決定するステップと、を含む、付記2に記載の方法。
(付記4)
葉ノードの出現回数が所定閾値よりも大きいか否かを決定することは、
前記葉ノードのテキスト及び経路情報の前記木構造における出現回数が前記所定閾値よりも大きいか否かを決定すること、を含む、付記3に記載の方法。
(付記5)
前記経路情報は、前記葉ノードからそのn番目の先祖ノードまでの経路であり、nは正整数である、付記4に記載の方法。
(付記6)
nは5以上である、付記5に記載の方法。
(付記7)
前記非葉ノードを並び替えて前記ナビゲーションバーノードを決定するステップは、
前記非葉ノードの特徴値を計算するステップであって、前記特徴値は、前記非葉ノードによりカバーされる葉ノードの数及び前記回数により決定される、ステップと、
前記非葉ノードのうちの最大の特徴値を有する非葉ノードを前記ナビゲーションバーノードとして決定するステップと、を含む、付記3に記載の方法。
(付記8)
前記特徴値は、前記非葉ノードによりカバーされる葉ノードの数と前記回数との積の、前記ウェブページのドメイン名を含むページの総数に対する比率である、付記7に記載の方法。
(付記9)
マッチする葉ノードに対応するページにおける情報を抽出するステップは、
前記マッチする葉ノードに対応するページに含まれるターゲットノードを決定するステップと、
前記ターゲットノードによりカバーされる各葉ノードのテキストをそれぞれ抽出するステップと、を含む、付記1乃至8の何れかに記載の方法。
(付記10)
前記ターゲットノードは、
前記ターゲットノードに含まれる各葉ノードのテキスト及び経路情報の前記木構造における出現回数が前記所定閾値以下であること、
前記ターゲットノードが、前記木構造に出現する回数が所定閾値よりも大きい葉ノードのみを含む非葉ノードのうちの非葉ノードではないこと、及び
前記ターゲットノードに含まれる全ての葉ノードのテキストの合計長さが該木構造における他の非葉ノードのテキストの合計長さよりも大きいこと、により決定される、付記9に記載の方法。
(付記11)
前記ターゲットノードによりカバーされる各葉ノードのテキストをそれぞれ抽出するステップは、
前記ターゲットノードに対応するページのタイプに応じて、異なる解析器を選択して抽出を行うステップ、を含む、付記9に記載の方法。
(付記12)
前記ターゲットノードの各葉ノードを独立した属性抽出空間とする、付記11に記載の方法。
(付記13)
前記解析器は、エンティティ認識器、固有名詞認識器又は数値認識器である、付記11に記載の方法。
(付記14)
決定されたナビゲーションバーノードの経路情報を用いて前記ウェブページ及びその全ての拡張ウェブページにおけるナビゲーションバーノードを決定する、付記1乃至8の何れかに記載の方法。
(付記15)
URLトップレベルドメイン名を抽出することにより、前記ウェブページ及びその全ての拡張ウェブページにおける前記ウェブページのドメイン名を含むページを決定する、付記1乃至8の何れかに記載の方法。
(付記16)
前記木構造は、HTML文書オブジェクトモデル(DOM)である、付記1乃至8の何れかに記載の方法。
(付記17)
前記キーワードは、所定のキーワードである、付記1乃至8の何れかに記載の方法。
(付記18)
前記拡張ウェブページをn回だけ拡張して前記ウェブページのドメイン名を含むページを取得し、nは2以上の整数である、付記1乃至8の何れかに記載の方法。
(付記19)
ウェブページから情報を抽出する装置であって、
前記ウェブページ及びその全ての拡張ウェブページにおける前記ウェブページのドメイン名を含む各ページについて木構造を生成する木構造生成手段と、
前記木構造におけるナビゲーションバーノードを決定するナビゲーションバーノード決定手段と、
前記ナビゲーションバーノードによりカバーされる、1つ又は複数のキーワードにマッチする葉ノードを決定するマッチノード決定手段と、
マッチする葉ノードに対応するページにおける情報を抽出する情報抽出手段と、を含む、装置。
(付記20)
プログラムを記憶したコンピュータ読み取り可能な記憶媒体であって、前記プログラムがプロセッサにより実行される際に、
ウェブページ及びその全ての拡張ウェブページにおける前記ウェブページのドメイン名を含む各ページについて木構造を生成するステップと、
前記木構造におけるナビゲーションバーノードを決定するステップと、
前記ナビゲーションバーノードによりカバーされる、1つ又は複数のキーワードにマッチする葉ノードを決定するステップと、
マッチする葉ノードに対応するページにおける情報を抽出するステップと、を実行させる、記憶媒体。
Further, regarding the embodiments including the above-mentioned examples, the following additional notes are further disclosed.
(Additional note 1)
A method for extracting information from a web page, the method comprising:
generating a tree structure for each page containing the domain name of the web page in the web page and all its extended web pages;
determining a navigation bar node in the tree structure;
determining leaf nodes covered by the navigation bar node that match one or more keywords;
extracting information in a page corresponding to a matching leaf node.
(Additional note 2)
The method of
(Additional note 3)
The step of determining a navigation bar node in the tree structure includes:
determining non-leaf nodes that include only leaf nodes whose number of appearances in the tree structure is greater than a predetermined threshold;
3. The method of
(Additional note 4)
Determining whether the number of occurrences of a leaf node is greater than a predetermined threshold includes:
3. The method according to claim 3, comprising determining whether the number of occurrences of text and route information of the leaf node in the tree structure is greater than the predetermined threshold.
(Appendix 5)
The method according to appendix 4, wherein the route information is a route from the leaf node to its nth ancestor node, where n is a positive integer.
(Appendix 6)
The method according to appendix 5, wherein n is 5 or more.
(Appendix 7)
sorting the non-leaf nodes to determine the navigation bar node;
calculating a feature value of the non-leaf node, the feature value being determined by the number of leaf nodes covered by the non-leaf node and the number of times;
3. The method according to claim 3, comprising determining a non-leaf node having a maximum feature value among the non-leaf nodes as the navigation bar node.
(Appendix 8)
8. The method of claim 7, wherein the feature value is a ratio of the product of the number of leaf nodes covered by the non-leaf nodes and the number of times to the total number of pages containing the domain name of the web page.
(Appendix 9)
The step of extracting information on the page corresponding to the matching leaf node is as follows:
determining a target node included in a page corresponding to the matching leaf node;
9. A method according to any one of
(Appendix 10)
The target node is
The number of occurrences of text and route information of each leaf node included in the target node in the tree structure is equal to or less than the predetermined threshold;
The target node is not a non-leaf node among non-leaf nodes that include only leaf nodes whose number of occurrences in the tree structure is greater than a predetermined threshold, and the text of all leaf nodes included in the target node is 9. The method of clause 9, wherein the total length is determined by being greater than the total length of text of other non-leaf nodes in the tree structure.
(Appendix 11)
Respectively extracting the text of each leaf node covered by the target node comprises:
The method according to appendix 9, comprising selecting different analyzers to perform the extraction depending on the type of page corresponding to the target node.
(Appendix 12)
The method according to appendix 11, wherein each leaf node of the target node is an independent attribute extraction space.
(Appendix 13)
12. The method according to appendix 11, wherein the analyzer is an entity recognizer, a proper noun recognizer, or a numerical value recognizer.
(Appendix 14)
9. The method according to any one of
(Additional note 15)
9. The method according to any one of
(Appendix 16)
9. The method according to any one of
(Appendix 17)
9. The method according to any one of
(Appendix 18)
9. The method according to any one of
(Appendix 19)
A device for extracting information from a web page, the device comprising:
Tree structure generating means for generating a tree structure for each page including the domain name of the web page in the web page and all extended web pages thereof;
navigation bar node determining means for determining a navigation bar node in the tree structure;
match node determining means for determining a leaf node covered by the navigation bar node that matches one or more keywords;
an information extraction means for extracting information in a page corresponding to a matching leaf node.
(Additional note 20)
A computer-readable storage medium storing a program, the program being executed by a processor;
generating a tree structure for each page containing the domain name of the web page in the web page and all its extended web pages;
determining a navigation bar node in the tree structure;
determining leaf nodes covered by the navigation bar node that match one or more keywords;
and extracting information in a page corresponding to a matching leaf node.
なお、用語「含む」、「有する」又は他の任意の変形は、排他的に含むことに限定されず、一連の要素を含むプロセス、方法、物又は装置は、これらの要素を含むことだけではなく、明示的に列挙されていない他の要素、又はこのプロセス、方法、物若しくは装置の固有の要素を含む。また、さらなる制限がない限り、用語「1つの…を含む」より限定された要素は、該要素を含むプロセス、方法、物又は装置に他の同一の要素が存在することを排除しない。 Note that the terms "comprising," "having," or any other variations are not limited to exclusive inclusion, and a process, method, object, or device that includes a series of elements is not limited to just including those elements. and includes other elements not explicitly listed or elements inherent in the process, method, object, or apparatus. Also, unless there are further limitations, the term "comprising an" more restricted element does not exclude the presence of other identical elements in a process, method, article, or apparatus that includes the element.
以上は図面を参照しながら本発明の好ましい実施例を説明しているが、上記実施例及び例は例示的なものであり、制限的なものではない。当業者は、特許請求の範囲の主旨及び範囲内で本発明に対して各種の修正、改良、均等的なものに変更してもよい。これらの修正、改良又は均等的なものに変更することは本発明の保護範囲に含まれるものである。 Although preferred embodiments of the present invention have been described above with reference to the drawings, the embodiments and examples described above are illustrative and not restrictive. Those skilled in the art may make various modifications, improvements, and equivalent changes to the present invention within the spirit and scope of the claims. These modifications, improvements, or equivalent changes are included within the protection scope of the present invention.
Claims (10)
前記ウェブページ及びその全ての拡張ウェブページにおける前記ウェブページのドメイン名を含む各ページについて木構造を生成するステップと、
前記木構造におけるナビゲーションバーノードを決定するステップと、
前記ナビゲーションバーノードによりカバーされる、1つ又は複数のキーワードにマッチする葉ノードを決定するステップと、
マッチする葉ノードに対応するページにおける情報を抽出するステップと、を実行する、方法。 A method for extracting information from a web page, the method comprising:
generating a tree structure for each page containing the domain name of the web page in the web page and all its extended web pages;
determining a navigation bar node in the tree structure;
determining leaf nodes covered by the navigation bar node that match one or more keywords;
A method for performing the steps of: extracting information in a page corresponding to a matching leaf node.
前記木構造に出現する回数が所定閾値よりも大きい葉ノードのみを含む非葉ノードを決定するステップと、
前記非葉ノードを並び替えて前記ナビゲーションバーノードを決定するステップと、を含む、請求項1に記載の方法。 The step of determining a navigation bar node in the tree structure includes:
determining non-leaf nodes that include only leaf nodes whose number of appearances in the tree structure is greater than a predetermined threshold;
2. The method of claim 1, comprising reordering the non-leaf nodes to determine the navigation bar node.
前記葉ノードのテキスト及び経路情報の前記木構造における出現回数が前記所定閾値よりも大きいか否かを決定すること、を含む、請求項2に記載の方法。 Determining whether the number of occurrences of a leaf node is greater than a predetermined threshold includes:
3. The method of claim 2, comprising determining whether the number of occurrences of text and route information of the leaf node in the tree structure is greater than the predetermined threshold.
前記非葉ノードの特徴値を計算するステップであって、前記特徴値は、前記非葉ノードによりカバーされる葉ノードの数及び前記回数により決定される、ステップと、
前記非葉ノードのうちの最大の特徴値を有する非葉ノードを前記ナビゲーションバーノードとして決定するステップと、を含む、請求項2に記載の方法。 sorting the non-leaf nodes to determine the navigation bar node;
calculating a feature value of the non-leaf node, the feature value being determined by the number of leaf nodes covered by the non-leaf node and the number of times;
3. The method of claim 2, comprising: determining the non-leaf node having the largest feature value among the non-leaf nodes as the navigation bar node.
前記マッチする葉ノードに対応するページに含まれるターゲットノードを決定するステップと、
前記ターゲットノードによりカバーされる各葉ノードのテキストをそれぞれ抽出するステップと、を含む、請求項1乃至6の何れかに記載の方法。 The step of extracting information on the page corresponding to the matching leaf node is as follows:
determining a target node included in a page corresponding to the matching leaf node;
7. A method according to any preceding claim, comprising the step of respectively extracting the text of each leaf node covered by the target node.
前記ターゲットノードに含まれる各葉ノードのテキスト及び経路情報の前記木構造における出現回数が所定閾値以下であること、
前記ターゲットノードが、前記木構造に出現する回数が所定閾値よりも大きい葉ノードのみを含む非葉ノードのうちの非葉ノードではないこと、及び
前記ターゲットノードに含まれる全ての葉ノードのテキストの合計長さが該木構造における他の非葉ノードのテキストの合計長さよりも大きいこと、により決定される、請求項7に記載の方法。 The target node is
The number of occurrences of text and route information of each leaf node included in the target node in the tree structure is equal to or less than a predetermined threshold;
The target node is not a non-leaf node among non-leaf nodes that include only leaf nodes whose number of occurrences in the tree structure is greater than a predetermined threshold, and the text of all leaf nodes included in the target node is 8. The method of claim 7, wherein the total length is determined by being greater than the total length of text of other non-leaf nodes in the tree structure.
前記ウェブページ及びその全ての拡張ウェブページにおける前記ウェブページのドメイン名を含む各ページについて木構造を生成する木構造生成手段と、
前記木構造におけるナビゲーションバーノードを決定するナビゲーションバーノード決定手段と、
前記ナビゲーションバーノードによりカバーされる、1つ又は複数のキーワードにマッチする葉ノードを決定するマッチノード決定手段と、
マッチする葉ノードに対応するページにおける情報を抽出する情報抽出手段と、を含む、装置。 A device for extracting information from a web page, the device comprising:
Tree structure generating means for generating a tree structure for each page including the domain name of the web page in the web page and all extended web pages thereof;
navigation bar node determining means for determining a navigation bar node in the tree structure;
match node determining means for determining a leaf node covered by the navigation bar node that matches one or more keywords;
an information extraction means for extracting information in a page corresponding to a matching leaf node.
ウェブページ及びその全ての拡張ウェブページにおける前記ウェブページのドメイン名を含む各ページについて木構造を生成するステップと、
前記木構造におけるナビゲーションバーノードを決定するステップと、
前記ナビゲーションバーノードによりカバーされる、1つ又は複数のキーワードにマッチする葉ノードを決定するステップと、
マッチする葉ノードに対応するページにおける情報を抽出するステップと、を実行させる、記憶媒体。 A computer-readable storage medium storing a program, the program being executed by a processor;
generating a tree structure for each page containing the domain name of the web page in the web page and all its extended web pages;
determining a navigation bar node in the tree structure;
determining leaf nodes covered by the navigation bar node that match one or more keywords;
and extracting information in a page corresponding to a matching leaf node.
Applications Claiming Priority (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN201811549030.2 | 2018-12-18 | ||
| CN201811549030.2A CN111339457B (en) | 2018-12-18 | 2018-12-18 | Methods and devices and storage media for extracting information from web pages |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2020098596A JP2020098596A (en) | 2020-06-25 |
| JP7434867B2 true JP7434867B2 (en) | 2024-02-21 |
Family
ID=71105986
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2019223095A Active JP7434867B2 (en) | 2018-12-18 | 2019-12-10 | Methods, devices and storage media for extracting information from web pages |
Country Status (2)
| Country | Link |
|---|---|
| JP (1) | JP7434867B2 (en) |
| CN (1) | CN111339457B (en) |
Families Citing this family (6)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN111768234B (en) * | 2020-06-28 | 2023-12-19 | 百度在线网络技术(北京)有限公司 | Method and equipment for generating recommended text for user, electronic equipment and medium |
| CN113918460A (en) * | 2021-10-15 | 2022-01-11 | 京东科技信息技术有限公司 | Page testing method, device, equipment and medium |
| CN114201971B (en) * | 2021-12-13 | 2023-06-13 | 海南港航控股有限公司 | Method and system for extracting character attribute from webpage |
| CN116955755A (en) * | 2022-04-19 | 2023-10-27 | 北京国双科技有限公司 | A method, device, electronic device and storage medium for obtaining page elements |
| CN117009682B (en) * | 2023-08-08 | 2025-01-21 | 中交(厦门)电子商务有限公司 | A web page search content matching method and system |
| JP7597963B1 (en) | 2024-02-06 | 2024-12-10 | 株式会社ビズリーチ | Recruitment support system, recruitment support method and program |
Citations (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2009042908A (en) | 2007-08-07 | 2009-02-26 | Nec Corp | Device for extracting news article, method for specifying news article link and program for extracting news article |
| CN103823824A (en) | 2013-11-12 | 2014-05-28 | 哈尔滨工业大学深圳研究生院 | Method and system for automatically constructing text classification corpus by aid of internet |
| CN105069107A (en) | 2015-08-07 | 2015-11-18 | 北京百度网讯科技有限公司 | Method and device for monitoring website |
| JP2016201112A (en) | 2015-04-13 | 2016-12-01 | 富士通株式会社 | Web page processing apparatus and web page processing method |
Family Cites Families (9)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN101872350A (en) * | 2009-04-24 | 2010-10-27 | 富士通株式会社 | Web page text extraction method and device |
| CN102043802B (en) * | 2009-10-16 | 2013-09-25 | 上海飞机制造有限公司 | Method for searching XML (Extensive Makeup Language) key words based on structural abstract |
| CN102662969B (en) * | 2012-03-11 | 2013-11-27 | 复旦大学 | A Method for Locating Internet Information Objects Based on Webpage Structural Semantics |
| CN102760150A (en) * | 2012-04-05 | 2012-10-31 | 中国人民解放军国防科学技术大学 | Webpage extraction method based on attribute reproduction and labeled path |
| CN103246732B (en) * | 2013-05-10 | 2016-02-24 | 合肥工业大学 | A method and system for extracting online web news content |
| CN104809125A (en) * | 2014-01-24 | 2015-07-29 | 腾讯科技(深圳)有限公司 | Method and device for identifying webpage categories |
| CN105893389A (en) * | 2015-01-26 | 2016-08-24 | 阿里巴巴集团控股有限公司 | Voice message search method, device and server |
| CN105630941B (en) * | 2015-12-23 | 2018-11-06 | 成都云数未来信息科学有限公司 | Web body matter abstracting methods based on statistics and structure of web page |
| CN107229668B (en) * | 2017-03-07 | 2020-04-21 | 桂林电子科技大学 | A text extraction method based on keyword matching |
-
2018
- 2018-12-18 CN CN201811549030.2A patent/CN111339457B/en active Active
-
2019
- 2019-12-10 JP JP2019223095A patent/JP7434867B2/en active Active
Patent Citations (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2009042908A (en) | 2007-08-07 | 2009-02-26 | Nec Corp | Device for extracting news article, method for specifying news article link and program for extracting news article |
| CN103823824A (en) | 2013-11-12 | 2014-05-28 | 哈尔滨工业大学深圳研究生院 | Method and system for automatically constructing text classification corpus by aid of internet |
| JP2016201112A (en) | 2015-04-13 | 2016-12-01 | 富士通株式会社 | Web page processing apparatus and web page processing method |
| CN105069107A (en) | 2015-08-07 | 2015-11-18 | 北京百度网讯科技有限公司 | Method and device for monitoring website |
Also Published As
| Publication number | Publication date |
|---|---|
| JP2020098596A (en) | 2020-06-25 |
| CN111339457B (en) | 2023-09-08 |
| CN111339457A (en) | 2020-06-26 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP7434867B2 (en) | Methods, devices and storage media for extracting information from web pages | |
| CN104462126B (en) | A kind of entity link method and device | |
| CN106372060B (en) | Method and device for labeling search text | |
| US7669119B1 (en) | Correlation-based information extraction from markup language documents | |
| US20090248707A1 (en) | Site-specific information-type detection methods and systems | |
| US8359307B2 (en) | Method and apparatus for building sales tools by mining data from websites | |
| JP2007528520A (en) | Method and system for managing websites registered with search engines | |
| CN111191012B (en) | Knowledge graph generation device and method and computer readable storage medium thereof | |
| Uzun et al. | An effective and efficient Web content extractor for optimizing the crawling process | |
| KR20170134191A (en) | Software domain topics extraction system using PageRank and topic modeling | |
| CN112380337A (en) | Highlight method and device based on rich text | |
| CN112818279A (en) | Method and device for determining similarity of web pages and computer-readable storage medium | |
| CN113569044A (en) | A classification method of web page text content based on natural language processing technology | |
| CN106372232B (en) | Information mining method and device based on artificial intelligence | |
| JPH11110384A (en) | Structured document search and display method and apparatus | |
| CN103514194B (en) | Determine method and apparatus and the classifier training method of the dependency of language material and entity | |
| JP3743204B2 (en) | Data analysis support method and apparatus | |
| US20140279743A1 (en) | Jabba-type override for correcting or improving output of a model | |
| JP3518998B2 (en) | Method and apparatus for creating semantic attribute dictionary and recording medium recording semantic attribute dictionary creating program | |
| Kaddu et al. | To extract informative content from online web pages by using hybrid approach | |
| JP4143085B2 (en) | Synonym acquisition method and apparatus, program, and computer-readable recording medium | |
| CN115422078A (en) | Method and device for generating description document of test function operation step | |
| JP2001101184A (en) | Structured document generation method and apparatus, and storage medium storing structured document generation program | |
| CN108694206A (en) | Information processing method and device | |
| Mukherjee et al. | Browsing fatigue in handhelds: semantic bookmarking spells relief |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220809 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20230719 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230808 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20231004 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20240109 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20240122 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 7434867 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |