CN111581478A

CN111581478A - 一种特定主体的跨网站通用新闻采集方法

Info

Publication number: CN111581478A
Application number: CN202010378695.2A
Authority: CN
Inventors: 冯翱; 王维宽; 宋馨宇; 徐天豪
Original assignee: Chengdu Dianshi Ruida Technology Co ltd; Chengdu University of Information Technology
Current assignee: Chengdu Dianshi Ruida Technology Co ltd; Chengdu University of Information Technology
Priority date: 2020-05-07
Filing date: 2020-05-07
Publication date: 2020-08-25

Abstract

本发明涉及一种特定主体的跨网站通用新闻采集方法,包括：步骤1：引入疏密度判断的方法，对采集到的新闻页面使用行块分布函数进行预处理；步骤2：根据行块分布函数中显示的文本的分布情况，通过预先设定的阈值，确定可能包含正文的区域；步骤3：将预处理过的页面源码重构为DOM树；步骤4：对其使用readability算法进行加减权操作，根据设定的分数要求，判断正文内容或无用元素；步骤5：对处理后的内容，根据分数进行重新拼接，重组后生成正文内容。本发明将行块分布函数与Readability算法相结合，进行参数调优后，可快速准确提取网页的新闻数据，采用分布式部署及反爬、去重模块，系统整体具有效率高，鲁棒性好等特点。

Description

一种特定主体的跨网站通用新闻采集方法

技术领域

本发明涉及数据分析及处理领域，尤其涉及一种特定主体的跨网站通用新闻采集系方法。

背景技术

互联网上存在海量的信息，而Web数据通常是非结构化的，这意味着它包含噪声和无用数据，因此通过手动提取以从所有网站获取数据是不现实的，这样不仅要消耗大量的时间、人力成本，也不能保证准确性和时效性。网络数据提取在很多领域都是普遍面临的问题，其中涉及到广泛的科学工具和应用。目前很多技术的研究和发展是以数据为基础，如自然语言处理所需要的文本数据、计算机视觉研究需要的图像数据等。在各种项目的实际应用中，数据的收集也是必不可少的部分。而如何高效准确的抓取数据，保证数据的时效性，减少人工的参与，是系统实现主要面临的问题。本系统开发主要面向财经领域，财经新闻数据的特点可以很好地衡量系统的有效性，数据量大、时效性高，所获取的数据也可用于进一步的分析与处理。

目前国内外对于网页正文提取的算法主要分为4大类：

基于模板规则。这类算法从大量网页中生成模板，进而通过模板匹配来过滤网页噪音从而生成网页正文。通常，不同的网站拥有不同的网页布局，同一网站下的网页拥有相似网页布局。基于模板规则的正文提取方法复杂度较低，但由于其主要针对一个或相似网页布局的网站，不具有通用性。

基于视觉分块。这类算法根据网页中的位置视觉信息来确定正文区域块，虽然提取效果很好但其依赖于浏览器内核代码，耗时长，算法复杂度高。

基于启发式规则。这类算法首先将HTML解析成DOM树或某种特定格式，根据正文特征如文本长度、纯文本比率、标点，人为指定若干规则最终找到正文块并提取正文内容，复杂度较低，针对新闻、博客类网站有较好的正文提取效果。

基于机器学习。这类算法使用机器学习算法，如粒子群算法、决策树算法，对网页正文特征，如文本特征密度、特征标签个数、标点个数或标点密度等确定其影响因子权值，根据目标函数最大值确定正文内容。该类算法适应性较高，但其运算量较大，算法复杂度较高。

Readability内容分析算法作为一种启发式算法，以其高效过滤网页噪音，目前已被应用到多种浏览器的文本浏览应用中。该算法通过遍历DOM对象，结合标签和属性值对节点进行加权计分(部分加减权如表1所示)，根据分数和文本特性重新整合出页面内容。

表1正则表达式匹配

1.原始Readability算法在应用到不同风格的网页正文抽取中时，容易遗漏正文内部数据信息。

2.Readability算法对网页处理过程中需要将页面重构为DOM树，虽然可以保证高准确率，但是处理时间过长，在面对海量数据时有待优化。

3.目前的研究主要集中在算法部分，而系统架构也是影响提取效果的重要因素，面向实际应用目的进行开发而不能只考虑准确率，也是当前技术方案需要解决的问题。

发明内容

针对现有技术之不足，一种特定主体的跨网站通用新闻采集方法，所述方法包括：

步骤1：引入疏密度判断的方法，对采集到的新闻页面使用行块分布函数进行预处理；

疏密度判断包括基于对网页的内容分析，可以得出页面内数据的分布情况；

步骤2：根据行块分布函数中显示的文本的分布情况，通过预先设定的阈值，确定可能包含正文的区域，并对网页源码进行处理，只保留预测的正文区域部分；

步骤3：将预处理过的页面源码重构为DOM树；

步骤4：此时DOM树中包含的元素相对刚开始的完整页面已大大减少，对其使用readability算法进行加减权操作，根据设定的分数要求，判断正文内容或无用元素；

步骤5：对处理后的内容，根据分数进行重新拼接，重组后生成正文内容。

根据一种优选的实施方式，在确定了正文的区域后，提取正文区域的HTML源代码，使用readability算法进行进一步的精准提取，输出正文文本内容，步骤4具体步骤包括：

步骤41：HTML解析，将HTML解析成一棵DOM树，通过遍历树节点，操作HTML标签；

步骤42：遍历标签节点，提取其类别属性和ID属性进行正则匹配；

步骤43：确定正文主块节点，针对段落标签p，对其父节点和祖父节点进行计分；计分因子包括段落标签所含文本长度、包含标点个数、节点标签名，若段落标签文本长度达标，将其父节点和祖父节点加入候选节点列表，最后通过遍历候选节点，结合纯文本比率选出最高分数的标签节点作为正文主块节点；

步骤44：正文块生成，遍历正文主块节点的同辈节点，判断其是否为正文节点；

首先评估其节点分数，若节点分数达标则标注为正文节点，否则判断其是否为段落标签p节点，若为段落标签p节点且其文本特性达标则同样标注为正文节点；

然后创建一容器节点作为正文块节点，将筛选得到的正文节点与正文主块节点拼接到正文块节点中；

步骤45：剪枝，对正文块节点中的特定标签进行清理，遍历其中的<div>、<table>、<ul>标签节点，依据节点权重、标签个数、纯文本比率等因素进行标签清除，达到清除块内网页噪音的效果。其中，positive和negative以节点的标签属性进行正则匹配产生节点权重；

步骤46：经过Readability算法处理后，输出文本数据。

根据一种优选的实施方式，采用所述行块分布函数进行预处理的方包括：

步骤11：将网页HTML标签去掉，只保留正文，保留下的信息成为中心文本；

步骤12：获取行块，以所述中心文本中的行号为轴，取当前行周围K行构成一个行块；

步骤13：计算行块长度，对一个行块去掉其中的所有空白符后的字符总数称为该行块的长度；

步骤14：获得行块分布函数，以所述中心文本每行为轴，共有Z个行块，做出以[1,Z]为横轴，以其各自的行块长度为纵轴的分布函数，Z＝中心文本行数目-K。

本发明的有益效果在于：

本发明将行块分布函数与Readability算法相结合，进行参数调优后，可快速准确提取网页的新闻数据，采用分布式部署及反爬、去重模块，系统整体具有效率高，鲁棒性好等特点。可面向特定主体进行配置，也可广泛应用于各类数据提取，达到准确率和效率的平衡，达到实际应用的要求。

附图说明

图1为本发明新闻采集方法流程示意图；

图2所示为行块分布函数的一种效果图。

具体实施方式

下面结合附图进行详细说明。

为使本发明的目的、技术方案和优点更加清楚明了，下面结合具体实施方式并参照附图，对本发明进一步详细说明。应该理解，这些描述只是示例性的，而并非要限制本发明的范围。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本发明的概念。

针对现有技术存在的不足，本发明提出一种特定主体的跨网站通用新闻采集方法，图1本发明新闻采集方法流程示意图，现结合图1，对本发明的方法进行详细的阐述，方法包括：

步骤1：引入疏密度判断的方法，对采集到的新闻页面使用行块分布函数进行预处理。

疏密度判断包括基于对网页的内容分析，可以得出页面内数据的分布情况。此步用途是缩小readability算法处理的数据范围，提高整体速度。

步骤2：根据行块分布函数中显示的文本的分布情况，通过预先设定的阈值，确定可能包含正文的区域，并对网页源码进行处理，只保留预测的正文区域部分。

步骤3：将预处理过的页面源码重构为DOM树。

步骤4：此时DOM树中包含的元素相对刚开始的完整页面已大大减少，对其使用readability算法进行加减权操作，根据设定的分数要求，判断正文内容或无用元素。

在确定了正文的区域后，提取正文区域的HTML源代码，使用readability算法进行进一步的精准提取，输出正文文本内容，步骤4具体步骤包括：

步骤41：HTML解析，将HTML解析成一棵DOM树，通过遍历树节点，操作HTML标签。

步骤42：遍历标签节点，提取其类别属性和ID属性进行正则匹配。

步骤43：确定正文主块节点，针对段落标签p，对其父节点和祖父节点进行计分；计分因子包括段落标签所含文本长度、包含标点个数、节点标签名，若段落标签文本长度达标，阈值设定为25，将其父节点和祖父节点加入候选节点列表，最后通过遍历候选节点，结合纯文本比率选出最高分数的标签节点作为正文主块节点。

步骤44：正文块生成，遍历正文主块节点的同辈节点，判断其是否为正文节点。

首先评估其节点分数，若节点分数达标则标注为正文节点，否则判断其是否为段落标签p节点，若为段落标签p节点且其文本特性达标则同样标注为正文节点。

然后创建一容器节点作为正文块节点，将筛选得到的正文节点与正文主块节点拼接到正文块节点中。

步骤45：剪枝，对正文块节点中的特定标签进行清理，遍历其中的<div>、<table>、<ul>标签节点，依据节点权重、标签个数、纯文本比率等因素进行标签清除，达到清除块内网页噪音的效果。其中，positive和negative以节点的标签属性进行正则匹配产生节点权重。

步骤46：经过Readability算法处理后，输出文本数据。

采用行块分布函数进行预处理的依据包括：

依据1：网页正文区域一定是文字信息分布最密集的区域之一。

依据2：行块的长度信息可以有效地将正文区域与导航区、评论区进行区分。

行块分布函数进行预处理的方包括：

步骤12：获取行块，以中心文本中的行号为轴，取当前行周围K行构成一个行块。

行块i是以Ctext中行号i为轴的行块。可以向下取，也可以向上取，也可以上下各多少行。取值为1至5。

步骤13：计算行块长度，对一个行块去掉其中的所有空白符()后的字符总数称为该行块的长度；空白字符包括但不限于\n,\r,\t等。

步骤14：获得行块分布函数，以中心文本每行为轴，共有LinesNum(Ctext)-K个行块，做出以[1,LinesNum(Ctext)-K]为横轴，以其各自的行块长度为纵轴的分布函数。

图2所示为行块分布函数的一种效果图。取自新浪新闻，正确文本区域行号为136-145，从图2中可以看出，在136-145行的分数最大，通过这种方法可大体定位正文的分布区域。

:需要注意的是，上述具体实施例是示例性的，本领域技术人员可以在本发明公开内容的启发下想出各种解决方案，而这些解决方案也都属于本发明的公开范围并落入本发明的保护范围之内。本领域技术人员应该明白，本发明说明书及其附图均为说明性而并非构成对权利要求的限制。本发明的保护范围由权利要求及其等同物限定。

Claims

1.一种特定主体的跨网站通用新闻采集方法，其特征在于，所述方法包括：

步骤3：将预处理过的页面源码重构为DOM树；

2.如权利要求1所述的跨网站通用新闻采集方法，其特征在于，在确定了正文的区域后，提取正文区域的HTML源代码，使用readability算法进行进一步的精准提取，输出正文文本内容，步骤4具体步骤包括：

步骤46：经过Readability算法处理后，输出文本数据。

3.如权利要求2所述的跨网站通用新闻采集方法，其特征在于，采用所述行块分布函数进行预处理的方包括：