WO2018006217A1 - Procédé et système de récupération basés sur des données de courrier de réseau - Google Patents
Procédé et système de récupération basés sur des données de courrier de réseau Download PDFInfo
- Publication number
- WO2018006217A1 WO2018006217A1 PCT/CN2016/088306 CN2016088306W WO2018006217A1 WO 2018006217 A1 WO2018006217 A1 WO 2018006217A1 CN 2016088306 W CN2016088306 W CN 2016088306W WO 2018006217 A1 WO2018006217 A1 WO 2018006217A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- mail data
- keyword
- category
- network
- data corresponding
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Ceased
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
Definitions
- the present invention relates to the field of communications, and in particular, to a method and system for crawling based on network mail data.
- the Internet is a global network connected by computers that communicate with each other using a common language, that is, an international computer network composed of a wide area network, a local area network, and a single unit in accordance with a certain communication protocol.
- the Internet is a carrier of public information, and this mass media is faster than any previous communication medium.
- the mail data on the Internet is a huge amount of mail data. How to crawl according to the massive mail data is a research direction worthwhile.
- the existing mail data capture method cannot effectively capture the network mail data.
- the application provides a method for crawling network mail data. It solves the shortcoming that the prior art technical solution cannot effectively capture the network mail data.
- a method for crawling based on webmail data comprising the following steps:
- the mail data including the keyword or the synonym of the keyword is filtered in the mail data corresponding to the category.
- the method further includes:
- the method further includes:
- a crawling system based on webmail data comprising:
- An obtaining unit configured to acquire a keyword of the captured mail data
- a category unit configured to acquire a category of the keyword according to the keyword, and capture the mail data corresponding to the category in the network mail data;
- a filtering unit configured to filter, in the mail data corresponding to the category, mail data including the keyword or a synonym of the keyword.
- system further includes:
- a statistical unit that counts the number of mail data after filtering is
- system further includes:
- the number of times unit used to obtain the number of occurrences of keywords or synonyms of the filtered mail data.
- the technical solution provided by the present invention acquires the keyword of the captured mail data, obtains the category of the keyword according to the keyword, and captures the mail data corresponding to the category in the network mail data, and filters the mail data corresponding to the category.
- the mail data containing the keyword or the synonym of the keyword so it has the advantage of effectively crawling the web mail data.
- FIG. 1 is a flowchart of a method for crawling based on network mail data according to a first preferred embodiment of the present invention
- FIG. 2 is a structural diagram of a network mail data-based crawling system according to a second preferred embodiment of the present invention.
- FIG. 1 is a schematic diagram of a method for capturing data based on network mail data according to a first preferred embodiment of the present invention. The method is as shown in FIG.
- Step S101 Obtain a keyword of the captured mail data.
- Step S102 Obtain a category of the keyword according to the keyword, and retrieve the mail data corresponding to the category in the network mail data;
- Step S103 Filtering the mail data including the keyword or the synonym of the keyword in the mail data corresponding to the category.
- the technical solution provided by the present invention acquires the keyword of the captured mail data, obtains the category of the keyword according to the keyword, and captures the mail data corresponding to the category in the network mail data, and filters the mail data corresponding to the category.
- the mail data containing the keyword or the synonym of the keyword so it has the advantage of effectively crawling the web mail data.
- the foregoing method may further include:
- the foregoing method may further include:
- FIG. 2 is a schematic diagram of a webmail data-based crawling system according to a second preferred embodiment of the present invention.
- the system includes:
- the obtaining unit 201 is configured to acquire a keyword of the captured mail data.
- the class unit 202 is configured to acquire the category of the keyword according to the keyword, and capture the mail data corresponding to the category in the network mail data;
- the filtering unit 203 is configured to filter, in the mail data corresponding to the category, mail data including the keyword or a synonym of the keyword.
- the technical solution provided by the present invention acquires the keyword of the captured mail data, obtains the category of the keyword according to the keyword, and captures the mail data corresponding to the category in the network mail data, and filters the mail data corresponding to the category.
- the mail data containing the keyword or the synonym of the keyword so it has the advantage of effectively crawling the web mail data.
- the above system may further include:
- the statistic unit 204 is configured to count the number of mail data after the screening.
- the above system may further include:
- the number of times unit 205 is used to obtain the number of occurrences of the keyword or synonym of the filtered mail data.
- the program may be stored in a computer readable storage medium, and the storage medium may include: Flash drive, read-only memory (English: Read-Only Memory, referred to as: ROM), random accessor (English: Random Access Memory, referred to as: RAM), disk or CD.
- ROM Read-Only Memory
- RAM Random Access Memory
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Transfer Between Computers (AREA)
Abstract
Procédé et système de récupération basés sur des données de courrier de réseau. Le procédé comprend : l'acquisition d'un mot-clé pour récupérer des données de courrier (101) ; l'acquisition, selon le mot-clé, d'une catégorie du mot-clé pour récupérer, dans des données de courrier de réseau, des données de courrier correspondant à la catégorie (102) ; et le filtrage et la sélection, dans les données de courrier correspondant à la catégorie, de données de courrier contenant le mot-clé ou un synonyme du mot-clé (103). La solution technique ci-décrite présente l'avantage de récupérer efficacement des données de courrier.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| PCT/CN2016/088306 WO2018006217A1 (fr) | 2016-07-04 | 2016-07-04 | Procédé et système de récupération basés sur des données de courrier de réseau |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| PCT/CN2016/088306 WO2018006217A1 (fr) | 2016-07-04 | 2016-07-04 | Procédé et système de récupération basés sur des données de courrier de réseau |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| WO2018006217A1 true WO2018006217A1 (fr) | 2018-01-11 |
Family
ID=60901256
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| PCT/CN2016/088306 Ceased WO2018006217A1 (fr) | 2016-07-04 | 2016-07-04 | Procédé et système de récupération basés sur des données de courrier de réseau |
Country Status (1)
| Country | Link |
|---|---|
| WO (1) | WO2018006217A1 (fr) |
Citations (6)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN101751459A (zh) * | 2009-12-31 | 2010-06-23 | 深圳市蓝凌软件股份有限公司 | 一种电子设备中数据处理的方法和装置 |
| CN102341800A (zh) * | 2009-03-17 | 2012-02-01 | 富士通株式会社 | 检索处理方法以及装置 |
| US20120191750A1 (en) * | 2008-03-27 | 2012-07-26 | Brother Kogyo Kabushiki Kaisha | Content management device, content management system, and content management method |
| CN105488062A (zh) * | 2014-09-19 | 2016-04-13 | 鞍钢股份有限公司 | 一种精准信息系统数据搜索方法 |
| CN105608227A (zh) * | 2016-01-26 | 2016-05-25 | 唐山新质点科技有限公司 | 文档数据检索方法及装置 |
| CN106209507A (zh) * | 2016-07-04 | 2016-12-07 | 马岩 | 基于网络邮件数据的抓取方法及系统 |
-
2016
- 2016-07-04 WO PCT/CN2016/088306 patent/WO2018006217A1/fr not_active Ceased
Patent Citations (6)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US20120191750A1 (en) * | 2008-03-27 | 2012-07-26 | Brother Kogyo Kabushiki Kaisha | Content management device, content management system, and content management method |
| CN102341800A (zh) * | 2009-03-17 | 2012-02-01 | 富士通株式会社 | 检索处理方法以及装置 |
| CN101751459A (zh) * | 2009-12-31 | 2010-06-23 | 深圳市蓝凌软件股份有限公司 | 一种电子设备中数据处理的方法和装置 |
| CN105488062A (zh) * | 2014-09-19 | 2016-04-13 | 鞍钢股份有限公司 | 一种精准信息系统数据搜索方法 |
| CN105608227A (zh) * | 2016-01-26 | 2016-05-25 | 唐山新质点科技有限公司 | 文档数据检索方法及装置 |
| CN106209507A (zh) * | 2016-07-04 | 2016-12-07 | 马岩 | 基于网络邮件数据的抓取方法及系统 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| WO2019000304A1 (fr) | Procédé et système de surveillance de l'opinion publique | |
| WO2018006254A1 (fr) | Procédé et système de récupération basés sur des données de courrier de réseau local | |
| WO2012095042A2 (fr) | Procédé et dispositif de suppression d'une commande de configuration dans un équipement de communication | |
| WO2018006217A1 (fr) | Procédé et système de récupération basés sur des données de courrier de réseau | |
| WO2018006218A1 (fr) | Procédé et système de récupération basés sur des données de courrier locales | |
| WO2018006255A1 (fr) | Procédé et système de collecte de données de messagerie de réseau | |
| WO2018006256A1 (fr) | Procédé et système de collecte de données de courrier locales | |
| WO2018014316A1 (fr) | Procédé et système de collecte de données de courrier électronique d'un réseau local | |
| WO2017128357A1 (fr) | Procédé à base de mégadonnées et système d'analyse de page web | |
| WO2018032249A1 (fr) | Procédé et système d'extraction de données audio | |
| WO2017117716A1 (fr) | Procédé et système de gestion de positionnement en extérieur pour ville intelligente | |
| WO2018027928A1 (fr) | Procédé et système de capture de mégadonnées de forum | |
| WO2018157330A1 (fr) | Procédé et système de partitionnement de mégadonnées | |
| WO2018032246A1 (fr) | Procédé et système de recherche de mégadonnées(big data) dans un réseau local | |
| WO2018032245A1 (fr) | Procédé et système de recherche de données destinés à des données de commentaire d'un logiciel de réseautage social | |
| WO2018032253A1 (fr) | Procédé et système de recherche sécurisée pour mégadonnées d'images | |
| WO2018032251A1 (fr) | Procédé et système pour appliquer un niveau de sécurité à l'extraction de mégadonnées | |
| WO2018032254A1 (fr) | Procédé et système d'extraction de vidéo de confiance dans des mégadonnées | |
| WO2018032250A1 (fr) | Procédé et système de recherche de données de texte destinés à des données volumineuses | |
| WO2018027927A1 (fr) | Procédé et système de recherche de données de page web | |
| WO2018032252A1 (fr) | Procédé et système de recherche sécurisée de mégadonnées sur des forums de discussion | |
| WO2019061384A1 (fr) | Procédé et système de sélection d'un gestionnaire de tâches dans un système de robot web distribué | |
| WO2018014317A1 (fr) | Procédé et système de tri et de sauvegarde de données de courrier électronique | |
| WO2017190284A1 (fr) | Système et procédé d'acquisition d'utilisateur de cours en ligne | |
| WO2018165837A1 (fr) | Procédé et système pour recuperer des informations à partir d'un réseau |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| 121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 16907726 Country of ref document: EP Kind code of ref document: A1 |
|
| NENP | Non-entry into the national phase |
Ref country code: DE |
|
| 122 | Ep: pct application non-entry in european phase |
Ref document number: 16907726 Country of ref document: EP Kind code of ref document: A1 |