[go: up one dir, main page]

CN105338070A - 基于广告监测的数据采集方法及系统 - Google Patents

基于广告监测的数据采集方法及系统 Download PDF

Info

Publication number
CN105338070A
CN105338070A CN201510664789.5A CN201510664789A CN105338070A CN 105338070 A CN105338070 A CN 105338070A CN 201510664789 A CN201510664789 A CN 201510664789A CN 105338070 A CN105338070 A CN 105338070A
Authority
CN
China
Prior art keywords
advertisement
uniform resource
url
resource locator
reptile task
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510664789.5A
Other languages
English (en)
Inventor
洪倍
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
JINGSHUO CENTURY TECHNOLOGY (BEIJING) Co Ltd
Original Assignee
JINGSHUO CENTURY TECHNOLOGY (BEIJING) Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by JINGSHUO CENTURY TECHNOLOGY (BEIJING) Co Ltd filed Critical JINGSHUO CENTURY TECHNOLOGY (BEIJING) Co Ltd
Priority to CN201510664789.5A priority Critical patent/CN105338070A/zh
Publication of CN105338070A publication Critical patent/CN105338070A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/02Protocols based on web technology, e.g. hypertext transfer protocol [HTTP]

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了基于广告监测的数据采集方法和数据采集系统。其中,包括:接收来自终端的广告获取请求;针对所述广告获取请求向所述终端发送广告效果地址;接收来自终端的通知消息,所述广告获取请求和来自终端的通知消息均包括统一资源定位符和终端信息;根据所述统一资源定位符和所述终端信息设置爬虫任务,其中,对引发所述广告获取请求的原因内容、结果内容和环境内容执行所述爬虫任务。根据本发明的具体实施例将HTTP采集与爬虫技术结合,更深一步地采集用户访问广告网页的原因内容、结果内容和环境内容,从而更精确地分析投放效果、去除垃圾流量并为广告投放提供更多维度的数据。

Description

基于广告监测的数据采集方法及系统
技术领域
本发明涉及数据采集领域,特别是基于广告监测的数据采集方法和数据采集系统。
背景技术
广告投放者需要区分每个用户,记录其广告交互过程并进行建模,以期更精准的投放广告。
在现有技术中,在互联网上,广告投放流程是:步骤一,向用户进行初级广告页面展示;步骤二,接收用户对初级广告页面的点击;步骤三,向用户展示其点击相应的次级广告页面。
对于互联网广告来说,步骤一和步骤二都发生在广告投放载体的页面上,而步骤三发生在广告投放主体的页面上,因此可以对广告投放载体和广告投放主体的页面进行网页数据采集(HTTP采集),网页数据采集技术通过HTTP协议在用户发送HTTP请求(即点击)时得到设备硬件信息、操作系统信息、IP信息、cookie信息。
举例而言,广告投放载体通过在浏览器中为每个用户存入唯一的cookie来区分用户。因为整个广告投放的过程都是在用户的浏览器中完成的,所以用户在整个广告投放过程中的行为,包括看到哪些广告、点击哪些广告、在广告投放主体的页面上有哪些交互(比如浏览商品、提交注册信息等),都可以通过cookie关联至同一个用户。
如果要更精确地分析用户的购买行为,或者要进一步分析广告投放效果,需要更大量、更完备的数据采集,现有技术仅仅通过网页数据采集往往无法满足这种需求。
发明内容
有鉴于此,本发明提供一种基于广告监测的数据采集方法,包括:步骤100,接收来自终端的广告获取请求;步骤200,针对所述广告获取请求向所述终端发送广告效果地址;步骤300,接收来自终端的通知消息,所述广告获取请求和所述通知消息均包括统一资源定位符和终端信息;步骤400,根据所述统一资源定位符和所述终端信息设置爬虫任务,其中,对所述广告获取请求的原因内容、结果内容和环境内容执行所述爬虫任务。
优选地,所述统一资源定位符与广告效果地址相关。
优选地,所述统一资源定位符包括当前页面地址,请求来源地址、广告效果地址中的一种或多种。
优选地,所述统一资源定位符包括网页跳转地址。
优选地,所述终端信息包括cookie、IP地址、终端机型、操作系统中的一种或多种。
优选地,所述cookie包括浏览器cookie和/或flashcookie。
优选地,所述步骤400包括:判断所述统一资源定位符是否已经经过爬虫任务处理:若是,则放弃爬虫任务;若否,则启动爬虫任务。
优选地,所述步骤400包括:根据特定策略对所述爬虫任务进行调度。
优选地,所述特定策略为按照所述网页数据采集得出的统计结果的排序相应地对所述统一资源定位符进行所述爬虫任务。
优选地,所述统计结果包括以下至少一个:统一资源定位符的用户访问量、重点用户访问的统一资源定位符或统一资源定位符的集中度。
优选地,所述步骤400包括模拟终端设置爬虫任务。
优选地,所述模拟终端包括配置cookie、终端机型、IP地址、操作系统中的一种或多种。
优选地,进一步包括:步骤500,对所述爬虫任务得出的结果进行校验。
优选地,所述步骤500包括:判断所述爬虫任务得出的结果与历史库对比是否相似:若是,则校验结果显示正确;若否,则校验结果显示错误。
优选地,所述步骤100还包括对所述广告获取请求的来源进行网页数据数据采集。
本发明还提供一种基于广告监测的数据采集系统,包括:第一接收模块,用于接收来自终端的广告获取请求;发送模块,用于针对所述广告获取请求向所述终端发送广告效果地址;第二接收模块,用于接收来自终端的通知消息,其中,所述广告获取请求和来自终端的通知消息均包括与所述广告效果地址相关的统一资源定位符和终端信息;设置执行模块,用于根据所述统一资源定位符和所述终端信息设置执行爬虫任务,其中,对所述广告获取请求的原因内容、结果内容和环境内容执行所述爬虫任务。
优选地,进一步包括:校验模块,用于对所述爬虫任务得出的结果进行校验。
根据本发明的具体实施例的基于广告监测的数据采集方法,能够将HTTP采集技术与爬虫技术结合,更深一步地采集用户访问广告网页的原因内容、结果内容和环境内容,从而更精确地分析投放效果、去除垃圾流量并为广告投放提供更多维度的数据。
附图说明
下面将通过参照附图详细描述本发明的优选实施例,使本领域的普通技术人员更清楚本发明的上述及其它特征和优点,附图中:
图1是根据本发明的具体实施例的基于广告监测的数据采集方法的步骤图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,以下举具体实施例对本发明进一步详细说明。
图1是根据本发明的具体实施例的基于广告监测的数据采集方法的步骤图。如图1所示,根据本发明的具体实施例的基于广告监测的数据采集方法,包括:步骤100,接收来自终端的广告获取请求;步骤200,针对所述广告获取请求向所述终端发送广告效果地址;步骤300,接收来自终端的通知消息,所述广告获取请求和所述通知消息均包括与所述广告效果地址相关的统一资源定位符和cookie;步骤400,根据所述统一资源定位符和所述cookie设置爬虫任务,其中,对所述广告获取请求的原因内容、结果内容和环境内容执行所述爬虫任务。
具体而言:
步骤100,接收来自终端的广告获取请求。
一般而言,多由广告服务器接收来自终端的广告获取请求,该广告服务器可以包括广告业务服务器和广告监测服务器,其中,该广告获取请求可同时发送给广告业务服务器再由其转发至广告监测服务器,也可以由终端直接发送给广告监测服务器。所述广告信息获取请求携带有被请求的广告的名称以及所述终端的标识等信息。
同时,对所述广告获取请求的来源进行网页数据数据采集,即获取所述广告获取请求的来源的设备硬件信息、所述广告获取请求的来源的操作系统信息、所述广告获取请求的来源的用户的IP信息和cookie信息,等等。
步骤200,针对所述广告获取请求向所述终端发送广告效果地址。
广告服务器中存储有广告投放主体的广告内容,当广告业务服务器接收到终端发送的广告信息获取请求后,查找与所述广告信息获取请求对应的广告内容,将广告内容返回给终端。与此同时,根据广告内容,广告服务器(广告业务服务器或广告监测服务器)同时针对所述广告获取请求向所述终端发送广告效果地址(广告监测服务器发送给广告业务服务器再由广告业务服务器转发至终端,或广告监测服务器直接发送至终端)。其中,广告投放主体会针对每个广告设置广告效果地址,广告效果地址指的是广告投放主体希望用户触发的,触发后需要对广告平台付费的地址,例如广告效果地址可以是用户购买、收藏广告中商品的地址。
步骤300,接收来自终端的通知消息,所述广告获取请求和所述通知消息均包括与所述广告效果地址相关的统一资源定位符和cookie。
终端在接收到与广告信息获取请求对应的广告及广告效果地址之后,终端进一步监测用户对广告内容的响应,获取用户对广告内容的响应信息,判断响应信息中是否包含有与广告效果地址匹配的地址,若有,则向广告监测服务器发送通知消息。
如上所述,对所述广告获取请求的来源进行网页数据数据采集,即获取所述广告获取请求的来源的设备硬件信息、所述广告获取请求的来源的操作系统信息、所述广告获取请求的来源的用户的IP信息和cookie信息,等等。接收来自终端的通知消息也包括与所述广告效果地址相关的统一资源定位符和cookie。
在接下来的步骤中,本发明的具体实施例的基于广告监测的数据采集方法将对上述信息进行处理从而利用处理结果完根据本发明的具体实施例的基于广告监测的数据采集方法。
具体地,当返回给终端的与广告信息获取请求对应的广告效果地址只有一个时,终端判断响应信息中是否包含有与广告效果地址匹配的地址具体为:终端判断响应信息中是否包含一个与终端接收到的一个广告效果地址匹配的地址,若响应信息中包含有一个与终端接收到的一个广告效果地址匹配的地址,则确定响应信息中包含有与广告效果地址匹配的地址。而当返回给终端的与广告信息获取请求对应的广告效果地址有多个时,终端判断响应信息中是否包含有与广告效果地址匹配的地址具体为:终端判断响应信息中是否包含有至少一个与终端接收到的多个广告效果地址匹配的地址,若响应信息中包含有至少一个与终端接收到的多个广告效果地址匹配的地址,则确定响应信息中包含有与广告效果地址匹配的地址。
终端向广告监测服务器发送的通知消息中的参数至少包括与所述广告效果地址相关的统一资源定位符。
统一资源定位符(UniformResourceLocator,URL)也被称为网页地址,是因特网(Internet)上标准的资源的地址。终端访问Internet通常是通过超文本传输协议(HyperTextTransferProtocol,HTTP)访问URL来实现的。
另外,需要说明的是,本实施例的广告业务服务器与广告监测服务器可以是两个独立的服务器,分别用于存储广告内容及广告效果地址,也可以是集成在一个服务器中的两个单元,分别用于存储广告内容及广告效果地址,此处不做具体限定。
步骤400,根据所述统一资源定位符和所述cookie设置爬虫任务,其中,对所述广告获取请求的原因内容、结果内容和环境内容执行所述爬虫任务。
所述广告获取请求的原因内容与HTTP请求中的Referrer中的信息相关;环境内容与发起请求时的当前页面的内容相关,结果内容与HTTP请求中Response中的地址以及终端发回的通知消息所涉及的内容相关。
根据所述统一资源定位符,广告监测服务器对所述广告效果地址执行爬虫任务。
为了节约资源,可以首先执行一个判断步骤,具体而言,判断所述统一资源定位符是否已经经过爬虫任务处理:若是,则放弃爬虫任务;若否,则启动爬虫任务。该判断步骤,例如,是将所述统一资源定位符与已执行过爬虫任务的统一资源定位符的数据库进行比较,若所述统一资源定位符已经存在于该数据库,则放弃对其执行爬虫任务;反之,则启动对其执行爬虫任务,并将该统一资源定位符保存于该数据库。
除此之外,根据本发明的具体实施例的基于广告监测的数据采集方法根据特定策略对所述爬虫任务进行调度。其中,同样出于节约资源提高效率的因素,所述特定策略为按照某种特定顺序对所述统一资源定位符进行所述爬虫任务,所述特定策略为按照所述网页数据采集得出的统计结果的排序相应地对所述统一资源定位符进行所述爬虫任务。换而言之,根据所述网页数据采集得出的统计结果的排序为多个所述资源定位符设置优先级,根据该优先级对多个所述资源定位符执行爬虫任务。
具体而言,所述特定策略为按照统计结果的排序相应地对所述统一资源定位符进行爬虫任务,所述统计结果包括以下至少一个:统一资源定位符的用户访问量、重点用户访问的统一资源定位符或统一资源定位符的集中度。
针对整个搜索引擎的需要,爬虫任务包括深度优先、广度优先和最佳优先的方式,具体而言:
深度优先,即从起始网页开始,选择一个URL,进入,分析这个网页中的URL,选择一个再进入。如此一个链接一个链接地深入追踪下去,处理完一条路线之后再处理下一条路线。该类爬虫任务较为简单。然而深度优先的爬虫任务存在一个问题:门户网站提供的链接往往最具价值,PageRank也很高,而每深入一层,网页价值和PageRank都会相应地有所下降。这暗示了重要网页通常距离种子较近,而过度深入抓取到的网页却价值很低。
广度优先(又称宽度优先),即从起始网页开始,抓取其中所有链接的网页,然后从中选择一个,继续抓取该网页中的所有链接页面。网络爬虫在抓取网页时普遍采用这种策略,这其中有两个原因:
第一,万维网的实际深度最大能达到17层,网页之间四通八达,因此存在从一个网页到另一个网页的最短路径问题。如果采用深度优先,则有可能从一个PageRank很低的网页爬取到一个PageRank实际很高的网页,不方便计算PageRank。
第二,采用宽度优先策略有利于多个爬虫并行爬取。这种多爬虫合作抓取通常是先抓取站内链接,遇到站外连接就爬出去,抓取的封闭性很强。
广度优先策略的优点在于其设计和实现相对简单,且这种策略的基本思想是:与种子在一定距离内的网页重要度较高,符合实际。在聚焦爬虫的应用中,广度优先策略可以与网页过滤技术结合,即先用广度优先抓取一些网页,再将其中与主题无关的过滤掉。但这种方法的缺点是随着抓取网页的增多,算法的效率会变低。
另外,还有一种常用于聚焦爬虫的网页搜索策略——最佳优先策略。
最佳优先,即按照某种网页分析算法预测候选URL与目标网页的相似度,或主题的相关性,并选取其中评价最好的一个或几个URL进行进一步的爬取。这种策略的缺陷是可能会有很多相关网页被忽略,但相对的,这种策略可以将无关网页数量降低30%—90%。
针对根据本发明的具体实施例的基于广告监测的数据采集方法,所述统计结果包括以下至少一个:统一资源定位符的用户访问量、重点用户访问的统一资源定位符或统一资源定位符的集中度。针对爬虫任务的上述三种方式,利用所述统计结果对爬虫任务进行设置,例如:
将按照统一资源定位符的用户访问量的顺序作为对统一资源定位符进行爬虫任务的顺序,也就是说优先对用户访问量大的资源定位符进行爬虫任务(PageRank高)。同时,从深度而言,对用户访问量大的统一资源定位符进行深度更大的爬虫任务。例如,设置对爬虫任务的不同深度设置相应的统一资源定位符的用户访问量的阈值范围;也就是说对落入不同阈值范围的用户访问量的统一资源定位符进行不同深度的爬虫任务,用户访问量越大爬虫任务的深度越大。
将重点用户访问的统一资源定位符作为对统一资源定位符进行爬虫任务的优先对象,也就是说优先对重点用户的资源定位符进行爬虫任务(PageRank高)。同时,从广度而言,对重点用户的统一资源定位符进行广度更大的爬虫任务。例如,设置对爬虫任务的不同广度设置相应的重点用户的列表;也就是说对属于重点用户的列表的用户的统一资源定位符进行不同广度的爬虫任务,用户的重要性越大爬虫任务的广度越大。
将统一资源定位符的集中度作为对统一资源定位符进行爬虫任务的优先对象,也就是说优先对集中度高的统一资源定位符进行爬虫任务(PageRank高)。同时,从广度而言,对集中度高的统一资源定位符进行广度更大的爬虫任务。例如,设置对爬虫任务的不同广度设置相应的集中度(或者按照集中度排序);也就是说对集中度高的统一资源定位符进行更大广度的爬虫任务。
在一些情况下,有一些URL是终端敏感型,一般的爬虫任务终端单一无法下载。需要根据正常HTTP采集时的终端信息,包括但不限于cookie、IP地址、终端机型、操作系统等中的一种或多种来模拟正常终端启动爬虫任务。
根据本发明的具体实施例的基于广告监测的数据采集方法进一步包括:步骤500,对所述爬虫任务得出的结果进行校验。
其中,所述步骤500包括:判断所述爬虫任务得出的结果与历史库对比是否相似:若是,则校验结果显示正确;若否,则校验结果显示错误。其中,从以下角度至少之一判断所述爬虫任务得出的结果与历史库对比是否相似:自然语言、语法、词序或页面布局。
具体而言,由针对特定广告进行的监测可知,该特定广告的周边环境信息具有固定特征,比如:投放在特定电视剧之前的广告所处的环境(自然语言、语法、词序或页面布局)与该特定电视剧(或其他特定主题)有关,因此爬虫任务获得的信息通过自然语言、语法、词序或页面布局等涉及该特定电视剧。
将该特定电视剧(或其他特定主题)的环境(自然语言、语法、词序或页面布局)信息保存在历史(数据)库中:判断所述爬虫任务得出的结果与历史库对比是否相似:若是,则校验结果显示正确;若否,则校验结果显示错误。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于广告监测的数据采集方法,包括:
步骤100,接收来自终端的广告获取请求;
步骤200,针对所述广告获取请求向所述终端发送广告效果地址;
步骤300,接收来自终端的通知消息,所述广告获取请求和所述通知消息均包括统一资源定位符和终端信息;
步骤400,根据所述统一资源定位符和所述终端信息设置爬虫任务,其中,对所述广告获取请求的原因内容、结果内容和环境内容执行所述爬虫任务。
2.如权利要求1所述的方法,其中,所述步骤400包括:判断所述统一资源定位符是否已经经过爬虫任务处理:若是,则放弃爬虫任务;若否,则启动爬虫任务。
3.如权利要求1所述的方法,其中,所述步骤400包括:根据特定策略对所述爬虫任务进行调度。
4.如权利要求3所述的方法,其中,所述特定策略为按照所述网页数据采集得出的统计结果的排序相应地对所述统一资源定位符进行所述爬虫任务。
5.如权利要求4所述的方法,其中,所述统计结果包括以下至少一个:统一资源定位符的用户访问量、重点用户访问的统一资源定位符或统一资源定位符的集中度。
6.如权利要求1所述的方法,其中,进一步包括:
步骤500,对所述爬虫任务得出的结果进行校验。
7.如权利要求6所述的方法,其中,所述步骤500包括:
判断所述爬虫任务得出的结果与历史库对比是否相似:若是,则校验结果显示正确;若否,则校验结果显示错误。
8.如权利要求1所述的方法,其中,所述步骤100还包括对所述广告获取请求的来源进行网页数据数据采集。
9.一种基于广告监测的数据采集系统,包括:
第一接收模块,用于接收来自终端的广告获取请求;
发送模块,用于针对所述广告获取请求向所述终端发送广告效果地址;
第二接收模块,用于接收来自终端的通知消息,
其中,所述广告获取请求和来自终端的通知消息均包括统一资源定位符和终端信息;
设置执行模块,用于根据所述统一资源定位符和所述终端信息设置执行爬虫任务,其中,对所述广告获取请求的原因内容、结果内容和环境内容执行所述爬虫任务。
10.如权利要求9所述的系统,其中,进一步包括:
校验模块,用于对所述爬虫任务得出的结果进行校验。
CN201510664789.5A 2015-10-15 2015-10-15 基于广告监测的数据采集方法及系统 Pending CN105338070A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510664789.5A CN105338070A (zh) 2015-10-15 2015-10-15 基于广告监测的数据采集方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510664789.5A CN105338070A (zh) 2015-10-15 2015-10-15 基于广告监测的数据采集方法及系统

Publications (1)

Publication Number Publication Date
CN105338070A true CN105338070A (zh) 2016-02-17

Family

ID=55288345

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510664789.5A Pending CN105338070A (zh) 2015-10-15 2015-10-15 基于广告监测的数据采集方法及系统

Country Status (1)

Country Link
CN (1) CN105338070A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107302584A (zh) * 2017-07-11 2017-10-27 上海精数信息科技有限公司 一种高效的数据采集方法
CN109598530A (zh) * 2017-09-30 2019-04-09 北京国双科技有限公司 一种软文广告投放的监测方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101655868A (zh) * 2009-09-03 2010-02-24 中国人民解放军信息工程大学 网络数据挖掘方法、网络数据推送方法及设备
CN102084388A (zh) * 2008-06-23 2011-06-01 双重验证有限公司 基于因特网的广告的自动监控和验证
CN103295150A (zh) * 2013-05-20 2013-09-11 厦门告之告信息技术有限公司 一种精确量化及准确统计投放效果的广告发布系统及方法
CN103559625A (zh) * 2013-09-18 2014-02-05 东莞市东信网络技术有限公司 一种广告效果监测的方法及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102084388A (zh) * 2008-06-23 2011-06-01 双重验证有限公司 基于因特网的广告的自动监控和验证
CN101655868A (zh) * 2009-09-03 2010-02-24 中国人民解放军信息工程大学 网络数据挖掘方法、网络数据推送方法及设备
CN103295150A (zh) * 2013-05-20 2013-09-11 厦门告之告信息技术有限公司 一种精确量化及准确统计投放效果的广告发布系统及方法
CN103559625A (zh) * 2013-09-18 2014-02-05 东莞市东信网络技术有限公司 一种广告效果监测的方法及系统

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107302584A (zh) * 2017-07-11 2017-10-27 上海精数信息科技有限公司 一种高效的数据采集方法
CN109598530A (zh) * 2017-09-30 2019-04-09 北京国双科技有限公司 一种软文广告投放的监测方法及装置
CN109598530B (zh) * 2017-09-30 2021-01-22 北京国双科技有限公司 一种软文广告投放的监测方法及装置

Similar Documents

Publication Publication Date Title
CN104216921B (zh) 一种实现浏览器中快速链接的添加提示方法、装置及系统
CN103605738B (zh) 网页访问数据统计方法及装置
CN107609135B (zh) 页面元素确定方法及设备、用户行为路径确定方法及装置
US11989247B2 (en) Indexing access limited native applications
CN106844522B (zh) 一种网络数据爬取方法和装置
CN104601573B (zh) 一种Android平台URL访问结果验证方法及装置
US20120047122A1 (en) System, method and computer readable medium for web crawling
CN103530365B (zh) 获取资源的下载链接的方法及系统
CN105956175A (zh) 网页内容爬取的方法和装置
CN110020062B (zh) 一种可定制的网络爬虫方法及系统
CN103279538B (zh) 预加载访问网站中网页的服务器、浏览器客户端和方法
CN104657659B (zh) 一种存储跨站攻击脚本漏洞检测方法、装置及系统
CN107357903B (zh) 用户行为数据整合方法、装置及电子设备
CN102710646B (zh) 一种钓鱼网站的收集方法和系统
CN107463641A (zh) 用于改进对搜索结果的访问的系统和方法
CN105516734B (zh) 一种视频可播放性的检测方法和装置
CN107885777A (zh) 一种基于协作式爬虫的抓取网页数据的控制方法及系统
CN105868256A (zh) 处理用户行为数据的方法和系统
CN108959595B (zh) 基于虚拟与现实的网站构建和体验方法及其装置
CN111859234A (zh) 一种非法内容识别方法、装置、电子设备及存储介质
CN106126747A (zh) 基于爬虫的数据获取方法及装置
CN104572777A (zh) 基于UIWebView组件的网页加载方法及装置
CN106446113A (zh) 移动大数据解析方法及装置
CN105991634A (zh) 访问控制的方法和装置
CN109391584A (zh) 一种疑似恶意网站的识别方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 100144, room 9, building 3, building 30, 9014 Xing Xing street, Beijing, Shijingshan District

Applicant after: Jing Shuo Technology (Beijing) Limited by Share Ltd

Address before: 100010 Beijing city Dongcheng District bamboo rod alley No. 1 9 1007

Applicant before: JINGSHUO CENTURY TECHNOLOGY (BEIJING) CO., LTD.

CB02 Change of applicant information
RJ01 Rejection of invention patent application after publication

Application publication date: 20160217

RJ01 Rejection of invention patent application after publication