[go: up one dir, main page]

WO2018006217A1 - Procédé et système de récupération basés sur des données de courrier de réseau - Google Patents

Procédé et système de récupération basés sur des données de courrier de réseau Download PDF

Info

Publication number
WO2018006217A1
WO2018006217A1 PCT/CN2016/088306 CN2016088306W WO2018006217A1 WO 2018006217 A1 WO2018006217 A1 WO 2018006217A1 CN 2016088306 W CN2016088306 W CN 2016088306W WO 2018006217 A1 WO2018006217 A1 WO 2018006217A1
Authority
WO
WIPO (PCT)
Prior art keywords
mail data
keyword
category
network
data corresponding
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Ceased
Application number
PCT/CN2016/088306
Other languages
English (en)
Chinese (zh)
Inventor
马岩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to PCT/CN2016/088306 priority Critical patent/WO2018006217A1/fr
Publication of WO2018006217A1 publication Critical patent/WO2018006217A1/fr
Anticipated expiration legal-status Critical
Ceased legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor

Definitions

  • the present invention relates to the field of communications, and in particular, to a method and system for crawling based on network mail data.
  • the Internet is a global network connected by computers that communicate with each other using a common language, that is, an international computer network composed of a wide area network, a local area network, and a single unit in accordance with a certain communication protocol.
  • the Internet is a carrier of public information, and this mass media is faster than any previous communication medium.
  • the mail data on the Internet is a huge amount of mail data. How to crawl according to the massive mail data is a research direction worthwhile.
  • the existing mail data capture method cannot effectively capture the network mail data.
  • the application provides a method for crawling network mail data. It solves the shortcoming that the prior art technical solution cannot effectively capture the network mail data.
  • a method for crawling based on webmail data comprising the following steps:
  • the mail data including the keyword or the synonym of the keyword is filtered in the mail data corresponding to the category.
  • the method further includes:
  • the method further includes:
  • a crawling system based on webmail data comprising:
  • An obtaining unit configured to acquire a keyword of the captured mail data
  • a category unit configured to acquire a category of the keyword according to the keyword, and capture the mail data corresponding to the category in the network mail data;
  • a filtering unit configured to filter, in the mail data corresponding to the category, mail data including the keyword or a synonym of the keyword.
  • system further includes:
  • a statistical unit that counts the number of mail data after filtering is
  • system further includes:
  • the number of times unit used to obtain the number of occurrences of keywords or synonyms of the filtered mail data.
  • the technical solution provided by the present invention acquires the keyword of the captured mail data, obtains the category of the keyword according to the keyword, and captures the mail data corresponding to the category in the network mail data, and filters the mail data corresponding to the category.
  • the mail data containing the keyword or the synonym of the keyword so it has the advantage of effectively crawling the web mail data.
  • FIG. 1 is a flowchart of a method for crawling based on network mail data according to a first preferred embodiment of the present invention
  • FIG. 2 is a structural diagram of a network mail data-based crawling system according to a second preferred embodiment of the present invention.
  • FIG. 1 is a schematic diagram of a method for capturing data based on network mail data according to a first preferred embodiment of the present invention. The method is as shown in FIG.
  • Step S101 Obtain a keyword of the captured mail data.
  • Step S102 Obtain a category of the keyword according to the keyword, and retrieve the mail data corresponding to the category in the network mail data;
  • Step S103 Filtering the mail data including the keyword or the synonym of the keyword in the mail data corresponding to the category.
  • the technical solution provided by the present invention acquires the keyword of the captured mail data, obtains the category of the keyword according to the keyword, and captures the mail data corresponding to the category in the network mail data, and filters the mail data corresponding to the category.
  • the mail data containing the keyword or the synonym of the keyword so it has the advantage of effectively crawling the web mail data.
  • the foregoing method may further include:
  • the foregoing method may further include:
  • FIG. 2 is a schematic diagram of a webmail data-based crawling system according to a second preferred embodiment of the present invention.
  • the system includes:
  • the obtaining unit 201 is configured to acquire a keyword of the captured mail data.
  • the class unit 202 is configured to acquire the category of the keyword according to the keyword, and capture the mail data corresponding to the category in the network mail data;
  • the filtering unit 203 is configured to filter, in the mail data corresponding to the category, mail data including the keyword or a synonym of the keyword.
  • the technical solution provided by the present invention acquires the keyword of the captured mail data, obtains the category of the keyword according to the keyword, and captures the mail data corresponding to the category in the network mail data, and filters the mail data corresponding to the category.
  • the mail data containing the keyword or the synonym of the keyword so it has the advantage of effectively crawling the web mail data.
  • the above system may further include:
  • the statistic unit 204 is configured to count the number of mail data after the screening.
  • the above system may further include:
  • the number of times unit 205 is used to obtain the number of occurrences of the keyword or synonym of the filtered mail data.
  • the program may be stored in a computer readable storage medium, and the storage medium may include: Flash drive, read-only memory (English: Read-Only Memory, referred to as: ROM), random accessor (English: Random Access Memory, referred to as: RAM), disk or CD.
  • ROM Read-Only Memory
  • RAM Random Access Memory

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

Procédé et système de récupération basés sur des données de courrier de réseau. Le procédé comprend : l'acquisition d'un mot-clé pour récupérer des données de courrier (101) ; l'acquisition, selon le mot-clé, d'une catégorie du mot-clé pour récupérer, dans des données de courrier de réseau, des données de courrier correspondant à la catégorie (102) ; et le filtrage et la sélection, dans les données de courrier correspondant à la catégorie, de données de courrier contenant le mot-clé ou un synonyme du mot-clé (103). La solution technique ci-décrite présente l'avantage de récupérer efficacement des données de courrier.
PCT/CN2016/088306 2016-07-04 2016-07-04 Procédé et système de récupération basés sur des données de courrier de réseau Ceased WO2018006217A1 (fr)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/CN2016/088306 WO2018006217A1 (fr) 2016-07-04 2016-07-04 Procédé et système de récupération basés sur des données de courrier de réseau

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CN2016/088306 WO2018006217A1 (fr) 2016-07-04 2016-07-04 Procédé et système de récupération basés sur des données de courrier de réseau

Publications (1)

Publication Number Publication Date
WO2018006217A1 true WO2018006217A1 (fr) 2018-01-11

Family

ID=60901256

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2016/088306 Ceased WO2018006217A1 (fr) 2016-07-04 2016-07-04 Procédé et système de récupération basés sur des données de courrier de réseau

Country Status (1)

Country Link
WO (1) WO2018006217A1 (fr)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101751459A (zh) * 2009-12-31 2010-06-23 深圳市蓝凌软件股份有限公司 一种电子设备中数据处理的方法和装置
CN102341800A (zh) * 2009-03-17 2012-02-01 富士通株式会社 检索处理方法以及装置
US20120191750A1 (en) * 2008-03-27 2012-07-26 Brother Kogyo Kabushiki Kaisha Content management device, content management system, and content management method
CN105488062A (zh) * 2014-09-19 2016-04-13 鞍钢股份有限公司 一种精准信息系统数据搜索方法
CN105608227A (zh) * 2016-01-26 2016-05-25 唐山新质点科技有限公司 文档数据检索方法及装置
CN106209507A (zh) * 2016-07-04 2016-12-07 马岩 基于网络邮件数据的抓取方法及系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120191750A1 (en) * 2008-03-27 2012-07-26 Brother Kogyo Kabushiki Kaisha Content management device, content management system, and content management method
CN102341800A (zh) * 2009-03-17 2012-02-01 富士通株式会社 检索处理方法以及装置
CN101751459A (zh) * 2009-12-31 2010-06-23 深圳市蓝凌软件股份有限公司 一种电子设备中数据处理的方法和装置
CN105488062A (zh) * 2014-09-19 2016-04-13 鞍钢股份有限公司 一种精准信息系统数据搜索方法
CN105608227A (zh) * 2016-01-26 2016-05-25 唐山新质点科技有限公司 文档数据检索方法及装置
CN106209507A (zh) * 2016-07-04 2016-12-07 马岩 基于网络邮件数据的抓取方法及系统

Similar Documents

Publication Publication Date Title
WO2019000304A1 (fr) Procédé et système de surveillance de l'opinion publique
WO2018006254A1 (fr) Procédé et système de récupération basés sur des données de courrier de réseau local
WO2012095042A2 (fr) Procédé et dispositif de suppression d'une commande de configuration dans un équipement de communication
WO2018006217A1 (fr) Procédé et système de récupération basés sur des données de courrier de réseau
WO2018006218A1 (fr) Procédé et système de récupération basés sur des données de courrier locales
WO2018006255A1 (fr) Procédé et système de collecte de données de messagerie de réseau
WO2018006256A1 (fr) Procédé et système de collecte de données de courrier locales
WO2018014316A1 (fr) Procédé et système de collecte de données de courrier électronique d'un réseau local
WO2017128357A1 (fr) Procédé à base de mégadonnées et système d'analyse de page web
WO2018032249A1 (fr) Procédé et système d'extraction de données audio
WO2017117716A1 (fr) Procédé et système de gestion de positionnement en extérieur pour ville intelligente
WO2018027928A1 (fr) Procédé et système de capture de mégadonnées de forum
WO2018157330A1 (fr) Procédé et système de partitionnement de mégadonnées
WO2018032246A1 (fr) Procédé et système de recherche de mégadonnées(big data) dans un réseau local
WO2018032245A1 (fr) Procédé et système de recherche de données destinés à des données de commentaire d'un logiciel de réseautage social
WO2018032253A1 (fr) Procédé et système de recherche sécurisée pour mégadonnées d'images
WO2018032251A1 (fr) Procédé et système pour appliquer un niveau de sécurité à l'extraction de mégadonnées
WO2018032254A1 (fr) Procédé et système d'extraction de vidéo de confiance dans des mégadonnées
WO2018032250A1 (fr) Procédé et système de recherche de données de texte destinés à des données volumineuses
WO2018027927A1 (fr) Procédé et système de recherche de données de page web
WO2018032252A1 (fr) Procédé et système de recherche sécurisée de mégadonnées sur des forums de discussion
WO2019061384A1 (fr) Procédé et système de sélection d'un gestionnaire de tâches dans un système de robot web distribué
WO2018014317A1 (fr) Procédé et système de tri et de sauvegarde de données de courrier électronique
WO2017190284A1 (fr) Système et procédé d'acquisition d'utilisateur de cours en ligne
WO2018165837A1 (fr) Procédé et système pour recuperer des informations à partir d'un réseau

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 16907726

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 16907726

Country of ref document: EP

Kind code of ref document: A1