WO2018006217A1

WO2018006217A1 - 基于网络邮件数据的抓取方法及系统

Info

Publication number: WO2018006217A1
Application number: PCT/CN2016/088306
Authority: WO
Inventors: 马岩
Original assignee: Individual
Current assignee: Individual
Priority date: 2016-07-04
Filing date: 2016-07-04
Publication date: 2018-01-11
Anticipated expiration: 2019-01-04

Abstract

一种基于网络邮件数据的抓取方法及系统，所述方法包括如下步骤：获取该抓取邮件数据的关键字（101）；依据该关键字获取该关键字的类别，在网络邮件数据中抓取该类别对应的邮件数据（102）；在该类别对应的邮件数据中筛选包含该关键字或该关键字的同义字的邮件数据（103）。上述技术方案具有邮件数据抓取有效的优点。

Description

基于网络邮件数据的抓取方法及系统

技术领域

本发明涉及通信领域，尤其涉及一种基于网络邮件数据的抓取方法及系统。

背景技术

互联网（internet），是由一些使用公用语言互相通信的计算机连接而成的全球网络，即广域网、局域网及单机按照一定的通讯协议组成的国际计算机网络。互联网是一种公用信息的载体，这种大众传媒比以往的任何一种通讯媒体都要快。互联网中的邮件数据是海量的邮件数据，如何依据该海量的邮件数据进行抓取是一个值得研究的方向，现有的邮件数据抓取方法无法对网络邮件数据进行有效的抓取。

技术问题

本申请提供一种网络邮件数据的抓取方法。其解决现有技术的技术方案无法对网络邮件数据进行有效抓取的缺点。

技术解决方案

一方面，提供一种基于网络邮件数据的抓取方法，所述方法包括如下步骤：

获取该抓取邮件数据的关键字；

依据该关键字获取该关键字的类别，在网络邮件数据中抓取该类别对应的邮件数据；

在该类别对应的邮件数据中筛选包含该关键字或该关键字的同义字的邮件数据。

可选的，所述方法还包括：

统计筛选后的邮件数据的数量。

可选的，所述方法还包括：

获取筛选后的邮件数据的关键字或同义字的出现次数。

第二方面，提供一种基于网络邮件数据的抓取系统，所述系统包括：

获取单元，用于获取该抓取邮件数据的关键字；

类别单元，用于依据该关键字获取该关键字的类别，在网络邮件数据中抓取该类别对应的邮件数据；

筛选单元，用于在该类别对应的邮件数据中筛选包含该关键字或该关键字的同义字的邮件数据。

可选的，所述系统还包括：

统计单元，用于统计筛选后的邮件数据的数量。

可选的，所述系统还包括：

次数单元，用于获取筛选后的邮件数据的关键字或同义字的出现次数。

有益效果

本发明提供的技术方案获取该抓取邮件数据的关键字，依据该关键字获取该关键字的类别，在网络邮件数据中抓取该类别对应的邮件数据，在该类别对应的邮件数据中筛选包含该关键字或该关键字的同义字的邮件数据，所以其具有对网络邮件数据有效抓取的优点。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明第一较佳实施方式提供的一种基于网络邮件数据的抓取方法的流程图；

图2为本发明第二较佳实施方式提供的一种基于网络邮件数据的抓取系统的结构图。

本发明的实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参考图1，图1是本发明第一较佳实施方式提出的一种基于网络邮件数据的抓取方法，该方法如图1所示，包括如下步骤：

步骤S101、获取该抓取邮件数据的关键字；

步骤S102、依据该关键字获取该关键字的类别，在网络邮件数据中抓取该类别对应的邮件数据；

步骤S103、在该类别对应的邮件数据中筛选包含该关键字或该关键字的同义字的邮件数据。

可选的，上述方法在步骤S103之后还可以包括：

统计筛选后的邮件数据的数量。

可选的，上述方法在步骤S103之后还可以包括：

获取筛选后的邮件数据的关键字或同义字的出现次数。

请参考图2，图2是本发明第二较佳实施方式提出的一种基于网络邮件数据的抓取系统，该系统包括：

获取单元201，用于获取该抓取邮件数据的关键字；

类别单元202，用于依据该关键字获取该关键字的类别，在网络邮件数据中抓取该类别对应的邮件数据；

筛选单元203，用于在该类别对应的邮件数据中筛选包含该关键字或该关键字的同义字的邮件数据。

可选的，上述系统还可以包括：

统计单元204，用于统计筛选后的邮件数据的数量。

可选的，上述系统还可以包括：

次数单元205，用于获取筛选后的邮件数据的关键字或同义字的出现次数。

需要说明的是，对于前述的各个方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某一些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详细描述的部分，可以参见其他实施例的相关描述。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器（英文：Read-Only Memory ，简称：ROM）、随机存取器（英文：Random Access Memory，简称：RAM）、磁盘或光盘等。

以上对本发明实施例所提供的内容下载方法及相关设备、系统进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

一种基于网络邮件数据的抓取方法，其特征在于，所述方法包括如下步骤：

获取该抓取邮件数据的关键字；

依据该关键字获取该关键字的类别，在网络邮件数据中抓取该类别对应的邮件数据；

在该类别对应的邮件数据中筛选包含该关键字或该关键字的同义字的邮件数据。
根据权利要求1所述的方法，其特征在于，所述方法还包括：

统计筛选后的邮件数据的数量。
根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取筛选后的邮件数据的关键字或同义字的出现次数。
一种基于网络邮件数据的抓取系统，其特征在于，所述系统包括：

获取单元，用于获取该抓取邮件数据的关键字；

类别单元，用于依据该关键字获取该关键字的类别，在网络邮件数据中抓取该类别对应的邮件数据；

筛选单元，用于在该类别对应的邮件数据中筛选包含该关键字或该关键字的同义字的邮件数据。
根据权利要求4所述的系统，其特征在于，所述系统还包括：

统计单元，用于统计筛选后的邮件数据的数量。
根据权利要求4所述的系统，其特征在于，所述系统还包括：

次数单元，用于获取筛选后的邮件数据的关键字或同义字的出现次数。