CN105162822A - 一种网站日志数据处理方法及装置 - Google Patents
一种网站日志数据处理方法及装置 Download PDFInfo
- Publication number
- CN105162822A CN105162822A CN201510377886.6A CN201510377886A CN105162822A CN 105162822 A CN105162822 A CN 105162822A CN 201510377886 A CN201510377886 A CN 201510377886A CN 105162822 A CN105162822 A CN 105162822A
- Authority
- CN
- China
- Prior art keywords
- data collection
- website
- log data
- website log
- module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/02—Protocols based on web technology, e.g. hypertext transfer protocol [HTTP]
- H04L67/025—Protocols based on web technology, e.g. hypertext transfer protocol [HTTP] for remote control or remote monitoring of applications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/02—Standardisation; Integration
- H04L41/024—Standardisation; Integration using relational databases for representation of network management data, e.g. managing via structured query language [SQL]
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Transfer Between Computers (AREA)
- Debugging And Monitoring (AREA)
Abstract
本发明提供了一种网站日志数据处理方法及装置,上述方法包括以下步骤:网站日志数据收集模块根据终端用户访问网站类型,确定数据收集类型并将收集的所述数据收集类型对应的访问数据发送至网站日志数据处理模块;所述网站日志数据处理模块对所述数据收集类型对应的访问数据进行处理后,输出至目标存储区域;实现了对不同类型网站对应的不同访问数据进行有效收集,为网站建设提供了重要数据支撑。
Description
技术领域
本发明属于日志管理领域,尤其涉及一种网站日志数据处理方法及装置。
背景技术
现有技术中公开了一种网站数据分析方法及分析系统,能够从数据流的角度对全网数据进行分析。所述方法包括:通过分析网站日志数据,获得访问数据流,所述访问数据流记录了访问网页的顺序;剔除不包含重要页面的访问数据流,其中,所述重要页面为符合预定义属性的页面;对剩余的包含重要页面的访问数据流进行频繁挖掘计算,得到出现频率高的前m个访问数据流及每个访问数据流的出现频度;针对所述m个访问数据流,计算每个数据流中出现重要页面的次数,以及每个数据流的长度;利用每个访问数据流的出现频度、出现重要页面的次数和数据流的长度,计算得出所述m个访问数据流中每个数据流的优质度。
上述方案仅仅揭示了如何对收集的网站日志数据进行分析,但是上述方案并未揭示如何有效收集网站日志数据。
发明内容
为了解决上述技术问题,本发明提供了一种网站日志数据处理方法及装置,以解决上述技术问题。
为了达到本发明目的,本发明提供了一种网站日志数据处理方法,上述方法包括以下步骤:网站日志数据收集模块根据终端用户访问网站类型,确定数据收集类型并将收集的所述数据收集类型对应的访问数据发送至网站日志数据处理模块;
所述网站日志数据处理模块对所述数据收集类型对应的访问数据进行处理后,输出至目标存储区域。
本发明还提供一种网站日志数据处理装置,包括网站日志数据收集模块、网站日志数据处理模块;其中,所述网站日志数据收集模块与所述网站日志数据处理模块相连;
所述网站日志数据收集模块,用于根据终端用户访问网站类型,确定数据收集类型并将收集的所述数据收集类型对应的访问数据发送至网站日志数据处理模块;
所述网站日志数据处理模块,用于对所述数据收集类型对应的访问数据进行处理后,输出至目标存储区域。
通过以下方案:网站日志数据收集模块根据终端用户访问网站类型,确定数据收集类型并将收集的所述数据收集类型对应的访问数据发送至网站日志数据处理模块;所述网站日志数据处理模块对所述数据收集类型对应的访问数据进行处理后,输出至目标存储区域;实现了对不同类型网站对应的不同访问数据进行有效收集,为网站建设提供了重要数据支撑。
通过以下方案:所述数据收集类型包括访问时间、IP地址、域名、URL、页面标题、参照文档、浏览客户端、客户端语言、访客标识、网站标识;多样化的数据类型,保证数据采集的全面性及准确性。
附图说明
附图用来提供对本发明技术方案的进一步理解,并且构成说明书的一部分,与本申请的实施例一起用于解释本发明的技术方案,并不构成对本发明技术方案的限制。
图1为实现本发明实施例1的网站日志数据处理方法流程图;
图2为根据本发明实施例2的网站日志数据处理装置结构图;
图3为根据本发明实施例3的网站日志数据处理装置又一结构图;
图4为根据本发明实施例4的网站日志数据处理装置又一结构图。
具体实施方式
下文中将参考附图并结合实施例来详细说明本发明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
图1为实现本发明实施例1的网站日志数据处理方法流程图,包括以下步骤:
步骤101:网站日志数据收集模块根据终端用户访问网站类型,确定数据收集类型并将收集的所述数据收集类型对应的访问数据发送至网站日志数据处理模块;
进一步地,网站日志数据收集模块收集所述数据收集类型对应的访问数据的过程为:
网站日志数据收集模块通过执行设置的埋点程序,收集所述数据收集类型对应的访问数据。
进一步地,所述埋点程序的执行过程为:通过在页面中加入一段javascript代码,并动态创建一个script标签,并将src指向一个单独的javascript文件并由所述javascript文件收集所述数据收集类型对应的访问数据。
进一步地,所述javascript文件将收集的所述数据收集类型对应的访问数据,通过http参数的方式传递给网站日志数据处理模块。
进一步地,所述数据收集类型包括访问时间、IP地址、域名、URL、页面标题、参照文档、浏览客户端、客户端语言、访客标识、网站标识。
进一步地,网站日志数据收集模块预先存储网站类型与数据收集类型对照表。
进一步地,网站类型与数据收集类型对照表,例如表1所示:
网站类型与数据收集类型对照表
表1
步骤102:所述网站日志数据处理模块对所述数据收集类型对应的访问数据进行处理后,输出至目标存储区域。
进一步地,所述网站日志数据处理模块对所述数据收集类型对应的访问数据进行处理后,输出至目标存储区域的过程为:
所述网站日志数据处理模块解析所述javascript文件发送的http参数信息后,设置相应的网站日志数据格式的变量并将所述数据收集类型对应的访问数据记录到日志文件中,输出至目标存储区域。
图2为根据本发明实施例2的网站日志数据处理装置结构图,包括网站日志数据收集模块201、网站日志数据处理模块202;其中,所述网站日志数据收集模块201与所述网站日志数据处理模块202相连;
所述网站日志数据收集模块201,用于根据终端用户访问网站类型,确定数据收集类型并将收集的所述数据收集类型对应的访问数据发送至网站日志数据处理模块202;
所述网站日志数据处理模块202,用于对所述数据收集类型对应的访问数据进行处理后,输出至目标存储区域。
图3为根据本发明实施例3的网站日志数据处理装置又一结构图,还包括设置模块200;其中,所述设置模块200与所述网站日志数据收集模块201相连;
所述设置模块200,用于设置数据收集类型并将所述数据收集类型信息发送至所述网站日志数据收集模块201;其中,所述数据收集类型包括访问时间、IP地址、域名、URL、页面标题、参照文档、浏览客户端、客户端语言、访客标识、网站标识。
图4为根据本发明实施例4的网站日志数据处理装置又一结构图,还包括存储模块203;其中,所述存储模块203与所述网站日志数据处理模块202;
所述网站日志数据处理模块202,用于对所述数据收集类型对应的访问数据进行处理后,输出至所述存储模块203进行存储。
通过以下方案:网站日志数据收集模块根据终端用户访问网站类型,确定数据收集类型并将收集的所述数据收集类型对应的访问数据发送至网站日志数据处理模块;所述网站日志数据处理模块对所述数据收集类型对应的访问数据进行处理后,输出至目标存储区域;实现了对不同类型网站对应的不同访问数据进行有效收集,为网站建设提供了重要数据支撑。
通过以下方案:所述数据收集类型包括访问时间、IP地址、域名、URL、页面标题、参照文档、浏览客户端、客户端语言、访客标识、网站标识;多样化的数据类型,保证数据采集的全面性及准确性。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种网站日志数据处理方法,其特征在于,包括以下步骤:
网站日志数据收集模块根据终端用户访问网站类型,确定数据收集类型并将收集的所述数据收集类型对应的访问数据发送至网站日志数据处理模块;
所述网站日志数据处理模块对所述数据收集类型对应的访问数据进行处理后,输出至目标存储区域。
2.根据权利要求1所述的方法,其特征在于,网站日志数据收集模块收集所述数据收集类型对应的访问数据的过程为:
网站日志数据收集模块通过执行设置的埋点程序,收集所述数据收集类型对应的访问数据。
3.根据权利要求2所述的方法,其特征在于,所述埋点程序的执行过程为:通过在页面中加入一段javascript代码,并动态创建一个script标签,并将src指向一个单独的javascript文件并由所述javascript文件收集所述数据收集类型对应的访问数据。
4.根据权利要求3所述的方法,其特征在于,所述javascript文件将收集的所述数据收集类型对应的访问数据,通过http参数的方式传递给网站日志数据处理模块。
5.根据权利要求1所述的方法,其特征在于,所述数据收集类型包括访问时间、IP地址、域名、URL、页面标题、参照文档、浏览客户端、客户端语言、访客标识、网站标识。
6.根据权利要求1所述的方法,其特征在于,网站日志数据收集模块预先存储网站类型与数据收集类型对照表。
7.根据权利要求1所述的方法,其特征在于,所述网站日志数据处理模块对所述数据收集类型对应的访问数据进行处理后,输出至目标存储区域的过程为:
所述网站日志数据处理模块解析所述javascript文件发送的http参数信息后,设置相应的网站日志数据格式的变量并将所述数据收集类型对应的访问数据记录到日志文件中,输出至目标存储区域。
8.一种网站日志数据处理装置,其特征在于,包括网站日志数据收集模块、网站日志数据处理模块;其中,所述网站日志数据收集模块与所述网站日志数据处理模块相连;
所述网站日志数据收集模块,用于根据终端用户访问网站类型,确定数据收集类型并将收集的所述数据收集类型对应的访问数据发送至网站日志数据处理模块;
所述网站日志数据处理模块,用于对所述数据收集类型对应的访问数据进行处理后,输出至目标存储区域。
9.根据权利要求8所述的网站日志数据处理装置,其特征在于,还包括设置模块;其中,所述设置模块与所述网站日志数据收集模块相连;
所述设置模块,用于设置数据收集类型并将所述数据收集类型信息发送至所述网站日志数据收集模块;其中,所述数据收集类型包括访问时间、IP地址、域名、URL、页面标题、参照文档、浏览客户端、客户端语言、访客标识、网站标识。
10.根据权利要求8所述的网站日志数据处理装置,其特征在于,还包括存储模块;其中,所述存储模块与所述网站日志数据处理模块;
所述网站日志数据处理模块,用于对所述数据收集类型对应的访问数据进行处理后,输出至所述存储模块进行存储。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN201510377886.6A CN105162822A (zh) | 2015-06-30 | 2015-06-30 | 一种网站日志数据处理方法及装置 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN201510377886.6A CN105162822A (zh) | 2015-06-30 | 2015-06-30 | 一种网站日志数据处理方法及装置 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| CN105162822A true CN105162822A (zh) | 2015-12-16 |
Family
ID=54803576
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| CN201510377886.6A Pending CN105162822A (zh) | 2015-06-30 | 2015-06-30 | 一种网站日志数据处理方法及装置 |
Country Status (1)
| Country | Link |
|---|---|
| CN (1) | CN105162822A (zh) |
Cited By (7)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN106204238A (zh) * | 2016-07-19 | 2016-12-07 | 荆伟 | 一种商品展示系统及方法 |
| CN106469185A (zh) * | 2016-08-29 | 2017-03-01 | 浪潮电子信息产业股份有限公司 | 一种网站统计中进行数据收集的方法 |
| WO2017167042A1 (zh) * | 2016-04-01 | 2017-10-05 | 阿里巴巴集团控股有限公司 | 前端用户行为统计方法及装置 |
| CN108920948A (zh) * | 2018-05-25 | 2018-11-30 | 众安信息技术服务有限公司 | 一种反欺诈流式计算装置及方法 |
| CN108921400A (zh) * | 2018-06-14 | 2018-11-30 | 万翼科技有限公司 | 房产信息的统计方法、服务器及存储介质 |
| CN110830321A (zh) * | 2018-08-13 | 2020-02-21 | 阿里巴巴集团控股有限公司 | 网站的检测调度方法及装置、存储介质、系统 |
| CN117473200A (zh) * | 2023-12-26 | 2024-01-30 | 天津戎行集团有限公司 | 一种用于网站信息数据的综合采集分析方法 |
Citations (8)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO2006107314A1 (en) * | 2005-03-30 | 2006-10-12 | Google, Inc. | Adjusting an advertising cost, such as a per-ad impression cost, using a likelihood that the ad will be sensed or perceived by users |
| CN101038596A (zh) * | 2007-04-29 | 2007-09-19 | 北京搜狗科技发展有限公司 | 一种网站分类方法及系统 |
| CN101118553A (zh) * | 2007-08-09 | 2008-02-06 | 姜边 | 一种策略导向的面向领域的互联网信息采集方法 |
| CN101159592A (zh) * | 2007-08-10 | 2008-04-09 | 北大方正集团有限公司 | 互联网数据信息点击量的统计方法和装置 |
| CN101551806A (zh) * | 2008-04-03 | 2009-10-07 | 北京搜狗科技发展有限公司 | 一种个性化网址导航的方法和系统 |
| EP2417540A1 (en) * | 2009-04-08 | 2012-02-15 | Google, Inc. | Generating improved document classification data using historical search results |
| CN103412890A (zh) * | 2013-07-19 | 2013-11-27 | 北京亿赞普网络技术有限公司 | 一种网页加载方法和装置 |
| CN103678422A (zh) * | 2012-09-25 | 2014-03-26 | 北京亿赞普网络技术有限公司 | 网页分类方法和装置、网页分类器的训练方法和装置 |
-
2015
- 2015-06-30 CN CN201510377886.6A patent/CN105162822A/zh active Pending
Patent Citations (8)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO2006107314A1 (en) * | 2005-03-30 | 2006-10-12 | Google, Inc. | Adjusting an advertising cost, such as a per-ad impression cost, using a likelihood that the ad will be sensed or perceived by users |
| CN101038596A (zh) * | 2007-04-29 | 2007-09-19 | 北京搜狗科技发展有限公司 | 一种网站分类方法及系统 |
| CN101118553A (zh) * | 2007-08-09 | 2008-02-06 | 姜边 | 一种策略导向的面向领域的互联网信息采集方法 |
| CN101159592A (zh) * | 2007-08-10 | 2008-04-09 | 北大方正集团有限公司 | 互联网数据信息点击量的统计方法和装置 |
| CN101551806A (zh) * | 2008-04-03 | 2009-10-07 | 北京搜狗科技发展有限公司 | 一种个性化网址导航的方法和系统 |
| EP2417540A1 (en) * | 2009-04-08 | 2012-02-15 | Google, Inc. | Generating improved document classification data using historical search results |
| CN103678422A (zh) * | 2012-09-25 | 2014-03-26 | 北京亿赞普网络技术有限公司 | 网页分类方法和装置、网页分类器的训练方法和装置 |
| CN103412890A (zh) * | 2013-07-19 | 2013-11-27 | 北京亿赞普网络技术有限公司 | 一种网页加载方法和装置 |
Cited By (11)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO2017167042A1 (zh) * | 2016-04-01 | 2017-10-05 | 阿里巴巴集团控股有限公司 | 前端用户行为统计方法及装置 |
| CN107295050A (zh) * | 2016-04-01 | 2017-10-24 | 阿里巴巴集团控股有限公司 | 前端用户行为统计方法及装置 |
| CN107295050B (zh) * | 2016-04-01 | 2021-05-11 | 阿里巴巴集团控股有限公司 | 前端用户行为统计方法及装置 |
| TWI753887B (zh) * | 2016-04-01 | 2022-02-01 | 香港商阿里巴巴集團服務有限公司 | 前端用戶行為統計方法及裝置 |
| CN106204238A (zh) * | 2016-07-19 | 2016-12-07 | 荆伟 | 一种商品展示系统及方法 |
| CN106469185A (zh) * | 2016-08-29 | 2017-03-01 | 浪潮电子信息产业股份有限公司 | 一种网站统计中进行数据收集的方法 |
| CN108920948A (zh) * | 2018-05-25 | 2018-11-30 | 众安信息技术服务有限公司 | 一种反欺诈流式计算装置及方法 |
| CN108921400A (zh) * | 2018-06-14 | 2018-11-30 | 万翼科技有限公司 | 房产信息的统计方法、服务器及存储介质 |
| CN110830321A (zh) * | 2018-08-13 | 2020-02-21 | 阿里巴巴集团控股有限公司 | 网站的检测调度方法及装置、存储介质、系统 |
| CN117473200A (zh) * | 2023-12-26 | 2024-01-30 | 天津戎行集团有限公司 | 一种用于网站信息数据的综合采集分析方法 |
| CN117473200B (zh) * | 2023-12-26 | 2024-03-08 | 天津戎行集团有限公司 | 一种用于网站信息数据的综合采集分析方法 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CN105162822A (zh) | 一种网站日志数据处理方法及装置 | |
| US20130185429A1 (en) | Processing Store Visiting Data | |
| CN103942335B (zh) | 一种针对网页结构变化的不间断爬虫系统构建方法 | |
| CN102486799B (zh) | 一种环球信息网www页面处理方法和装置 | |
| CN106021583B (zh) | 页面流量数据的统计方法及其系统 | |
| CN103279567A (zh) | 一种基于AJAX的Web数据采集方法及系统 | |
| US8909765B2 (en) | Analyzing webpage users' web access actions by using a defined focal region | |
| CN106469185A (zh) | 一种网站统计中进行数据收集的方法 | |
| CN108304410A (zh) | 一种异常访问页面的检测方法、装置及数据分析方法 | |
| JP2010528348A (ja) | ウェブサイトの接続者別に接続統計を生成する方法 | |
| WO2017071179A1 (zh) | 基于流量分析识别用户行为对象的方法和装置 | |
| WO2017124692A1 (zh) | 查找表单页面和目标页面转化关系的方法和装置 | |
| CN101441629A (zh) | 一种非结构化网页信息的自动采集方法 | |
| CN102857369A (zh) | 一种网站日志保存系统及方法和装置 | |
| CN104462540A (zh) | 网页信息抽取方法 | |
| CN103577447A (zh) | 一种用于确定目标页面的页面类型信息的方法和设备 | |
| CN106294885A (zh) | 一种面向异构网页的数据收集与标注方法 | |
| CN105653724B (zh) | 一种页面曝光量的监控方法和装置 | |
| CN103164438B (zh) | 一种网络评论的采集方法及系统 | |
| CN104376066B (zh) | 一种网络特定内容挖掘方法和装置、及一种电子设备 | |
| CN103744944A (zh) | 网络爬虫在抓取网页或数据时再过滤的方法 | |
| CN103246680B (zh) | 一种在浏览器中将网页内容聚合展现的方法及装置 | |
| CN103354546A (zh) | 报文过滤方法与装置 | |
| CN108108381B (zh) | 页面的监测方法及装置 | |
| CN104021143A (zh) | 一种记录网页访问行为的方法及装置 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| C06 | Publication | ||
| PB01 | Publication | ||
| C10 | Entry into substantive examination | ||
| SE01 | Entry into force of request for substantive examination | ||
| RJ01 | Rejection of invention patent application after publication | ||
| RJ01 | Rejection of invention patent application after publication |
Application publication date: 20151216 |