CN106657057A - 反爬虫系统及方法 - Google Patents
反爬虫系统及方法 Download PDFInfo
- Publication number
- CN106657057A CN106657057A CN201611183559.8A CN201611183559A CN106657057A CN 106657057 A CN106657057 A CN 106657057A CN 201611183559 A CN201611183559 A CN 201611183559A CN 106657057 A CN106657057 A CN 106657057A
- Authority
- CN
- China
- Prior art keywords
- access
- behavior
- access behavior
- blacklist rule
- abnormal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 35
- 230000002159 abnormal effect Effects 0.000 claims abstract description 50
- 238000004458 analytical method Methods 0.000 claims abstract description 46
- 239000000284 extract Substances 0.000 claims abstract description 14
- 238000001914 filtration Methods 0.000 claims description 13
- GOLXNESZZPUPJE-UHFFFAOYSA-N spiromesifen Chemical compound CC1=CC(C)=CC(C)=C1C(C(O1)=O)=C(OC(=O)CC(C)(C)C)C11CCCC1 GOLXNESZZPUPJE-UHFFFAOYSA-N 0.000 claims description 5
- 230000006399 behavior Effects 0.000 abstract 5
- 241000270322 Lepidosauria Species 0.000 description 3
- 230000009194 climbing Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 206010000117 Abnormal behaviour Diseases 0.000 description 1
- 230000005856 abnormality Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000036632 reaction speed Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/10—Network architectures or network communication protocols for network security for controlling access to devices or network resources
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/02—Network architectures or network communication protocols for network security for separating internal from external traffic, e.g. firewalls
- H04L63/0227—Filtering policies
- H04L63/0236—Filtering by address, protocol, port number or service, e.g. IP-address or URL
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/10—Network architectures or network communication protocols for network security for controlling access to devices or network resources
- H04L63/105—Multiple levels of security
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1408—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
- H04L63/1416—Event detection, e.g. attack signature detection
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1408—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
- H04L63/1425—Traffic logging, e.g. anomaly detection
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1433—Vulnerability analysis
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/20—Network architectures or network communication protocols for network security for managing network security; network security policies in general
- H04L63/205—Network architectures or network communication protocols for network security for managing network security; network security policies in general involving negotiation or determination of the one or more network security mechanisms to be used, e.g. by negotiation between the client and the server or between peers or by selection according to the capabilities of the entities involved
Landscapes
- Engineering & Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- Computer Hardware Design (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本发明公开了一种反爬虫系统,包括:分析模块,其判断访问行为是否正常;获取模块,其获取经所述分析模块判断为不正常访问行为的访问日志;学习模块,其具有可更新的黑名单规则库,所述学习模块根据不正常访问行为的访问日志提取出新的黑名单规则,以更新所述黑名单规则库;过滤模块,其禁止所述黑名单规则库所囊括的访问行为。本发明还提供了一种反爬虫方法。本发明一方面可以根据分析模块的分析进行反爬,另一方面学习模块能够从不正常访问行为的访问日志提取出新的黑名单规则,不断更新黑名单规则库来帮助反爬,因而兼具准确度和速度。
Description
技术领域
本发明涉及反爬虫技术领域。更具体地说,本发明涉及能够自学习的反爬虫系统和方法。
背景技术
爬数据是指未经服务器主允许,通过软件程序模拟人的操作,抓取页面上的数据。常见的反爬数据的方法有两个:1)通过给页面设置验证码进行验证,因为这些验证码计算机难以识别。但是有的计算机还是能够识别,而有的会通过雇人识别的方式进行识别,因此不能根本解决问题;2)通过监测IP地址的异常行为,比如某个IP地址的客户端不是用浏览器调用,或者说调用速度过快,调用量过大等。设置规则,封这些IP。但是这样会导致反应速度比较慢,在发现异常之后,需要人为设定规则,才能实现反爬。而用户往往会通过IP代理的方式,调用各种伪IP来爬数据。因此,必须设计一种能够自己学习反爬规则的系统和方法。
发明内容
本发明的一个目的是提供一种能够从不正常访问行为的访问日志提取出新的黑名单规则,以不断更新黑名单规则库,进而来进行反爬的系统和方法。
为了实现根据本发明的这些目的和其它优点,提供了一种反爬虫系统,包括:
分析模块,其判断访问行为是否正常;
获取模块,其获取经所述分析模块判断为不正常访问行为的访问日志;
学习模块,其具有可更新的黑名单规则库,所述学习模块根据不正常访问行为的访问日志提取出新的黑名单规则,以更新所述黑名单规则库;
过滤模块,其禁止所述黑名单规则库所囊括的访问行为。
优选的是,所述的反爬虫系统,所述过滤模块存储可更新的IP黑名单,所述过滤模块将所述黑名单规则库所囊括的访问行为对应的IP地址加入所述IP黑名单,并禁止该IP地址的访问行为。
优选的是,所述的反爬虫系统,若一访问行为不被所述黑名单规则库囊括,则调用所述分析模块对该访问行为进行分析,如果该访问行为为不正常,则所述过滤模块禁止该访问行为;若一访问行为被所述黑名单规则库囊括,则不调用所述分析模块继续对该访问行为进行分析。
优选的是,所述的反爬虫系统,所述分析模块判断访问行为是否正常的方法包括:
获取访问行为在第一预设时间段内的访问次数,并且检测是否存在鼠标行为;
若在第一预设时间内的访问次数超过预设阈值,且未检测到鼠标行为,则判断该访问行为为不正常。
优选的是,所述的反爬虫系统,所述学习模块根据不正常访问行为的访问日志提取出新的黑名单规则的方法包括:
计算不正常访问行为在第一预设时间段内的单位时间访问次数和单位时间预设阈值;提取的新的黑名单规则为:访问行为的单位时间访问次数高于单位时间预设阈值。
优选的是,所述的反爬虫系统,所述分析模块判断访问行为是否正常的方法包括:
获取访问行为在各第二预设时间段内的访问次数以及各访问次数对应的时间点,然后将第二预设时间段划分为N个分时间段,分别计算各个分时间段的访问频率;
若N个分时间段的访问频率均低于第一阈值,则将下一个第二预设时间段划分为N/2个分时间段,然后分别计算各个分时间段的访问频率;
若N个分时间段的访问频率均高于第二阈值,则将下一个第二预设时间段划分为2N个分时间段,然后分别计算各个分时间段的访问频率;
若N个分时间段的访问频率均高于第一阈值并低于第二阈值,则将下一个第二预设时间段划分为N个分时间段,然后分别计算各个分时间段的访问频率;
其中,若访问行为在任一分时间段内的访问频率高于频率阈值,则访问行为为不正常;
其中,N≥10;
其中,第一阈值为频率阈值的1/4,第二阈值为频率阈值的3/4。
一种反爬虫方法,包括:
判断访问行为是否正常;
获取经判断为不正常访问行为的访问日志;
根据不正常访问行为的访问日志提取出新的黑名单规则,以更新黑名单规则库;
禁止所述黑名单规则库所囊括的访问行为。
优选的是,所述的反爬虫方法,还包括:
将所述黑名单规则库所囊括的访问行为对应的IP地址加入所述IP黑名单,并禁止该IP地址的访问行为。
优选的是,所述的反爬虫方法,还包括:
若一访问行为不被所述黑名单规则库囊括,则对该访问行为进行分析,如果该访问行为为不正常,则禁止该访问行为;若一访问行为被所述黑名单规则库囊括,则不继续对该访问行为进行分析。
优选的是,所述的反爬虫方法,判断访问行为是否正常的方法包括:
获取访问行为在第一预设时间段内的访问次数,并且检测是否存在鼠标行为;
若在第一预设时间内的访问次数超过预设阈值,且未检测到鼠标行为,则判断该访问行为为不正常。
本发明至少包括以下有益效果:
本发明一方面可以根据分析模块的分析进行反爬,另一方面学习模块能够从不正常访问行为的访问日志提取出新的黑名单规则,不断更新黑名单规则库,进而可以直接根据黑名单规则库对访问行为进行封禁,两者结合兼具反爬速度和反爬准确度,相比于只用分析模块,反爬速度明显提升。
本发明的其它优点、目标和特征将部分通过下面的说明体现,部分还将通过对本发明的研究和实践而为本领域的技术人员所理解。
具体实施方式
下面结合实例对本发明做进一步的详细说明,以令本领域技术人员参照说明书文字能够据以实施。
本发明提供一种反爬虫系统,包括:
分析模块,其判断访问行为是否正常;
获取模块,其获取经所述分析模块判断为不正常访问行为的访问日志;
学习模块,其具有可更新的黑名单规则库,所述学习模块根据不正常访问行为的访问日志提取出新的黑名单规则,以更新所述黑名单规则库;
过滤模块,其禁止所述黑名单规则库所囊括的访问行为。
在上述技术方案中,分析模块、获取模块、学习模块和过滤模块均为独立的服务器群,所以在硬件上具有很高的分析性能和效率。分析模块对访问行为的分析方法与现有技术中的分析方法相同,比如根据访问行为的IP、访问时间和访问次数来判断是否为正常访问行为,例如,一个IP在三个小时以上的时间内访问页面次数超过3000次,且检测不到鼠标,就认为是非正常访问。获取模块用于获取客户端的访问日志。学习模块根据分析模块得出的非正常访问,提取出新的黑名单规则,该新的黑名单规则可以直接与分析模块对该非正常访问的判断规则相同,也可以是该非正常访问的判断规则的改进。这样,分析模块、获取模块和学习模块重复工作,不断更新黑名单规则库。过滤模块将下一个访问行为与黑名单规则库中的黑名单规则进行比较,若访问行为符合其中一个黑名单规则,则禁止该访问行为。
在另一种实例中,所述的反爬虫系统,所述过滤模块存储可更新的IP黑名单,所述过滤模块将所述黑名单规则库所囊括的访问行为对应的IP地址加入所述IP黑名单,并禁止该IP地址的访问行为。这里,也可以根据黑名单规则库不断充实IP黑名单,使系统根据IP黑名单直接封禁已经出现过非正常访问的IP,不用再比较访问行为与黑名单规则库。
在另一种实例中,所述的反爬虫系统,若一访问行为不被所述黑名单规则库囊括,则调用所述分析模块对该访问行为进行分析,如果该访问行为为不正常,则所述过滤模块禁止该访问行为;若一访问行为被所述黑名单规则库囊括,则不调用所述分析模块继续对该访问行为进行分析。这里,对分析模块的调用作了优化,如果一访问行为符合一种黑名单规则,则封禁该访问行为,而不再调用分析模块进行分析,如果一访问行为不符合任何一种黑名单规则,则调用分析模块进行分析其是否应该封禁。
在另一种实例中,所述的反爬虫系统,所述分析模块判断访问行为是否正常的方法包括:
获取访问行为在第一预设时间段内的访问次数,并且检测是否存在鼠标行为;
若在第一预设时间内的访问次数超过预设阈值,且未检测到鼠标行为,则判断该访问行为为不正常。
上述技术方案提供了一种判断访问行为是否正常的可行方法,即判断访问行为在一定时间段内的访问次数是否超过预设阈值,若超过,且未检测到鼠标行为,则判定该访问行为不正常。例如,分析模块的判断规则是一个IP在三个小时以上的时间内访问页面次数超过3000次,且检测不到鼠标,认为是非正常访问。
在另一种实例中,所述的反爬虫系统,所述学习模块根据不正常访问行为的访问日志提取出新的黑名单规则的方法包括:
计算不正常访问行为在第一预设时间段内的单位时间访问次数和单位时间预设阈值;提取的新的黑名单规则为:访问行为的单位时间访问次数高于单位时间预设阈值。
上述技术方案提供了从不正常访问行为中提取新的黑名单规则的方法,即用访问次数和预设阈值分别除以第一预设时间,得到单位时间访问次数和单位时间预设阈值,新的黑名单规则为:访问行为的单位时间访问次数高于单位时间预设阈值,且未检测到鼠标行为。即提取的黑名单规则相比与分析模块的判断规则更加灵活、简便。例如,某次分析模块检测到了鼠标,但这个IP在三个小时以上的时间内访问页面次数也超过3000次,最终分析模块认定这个访问也属于非正常访问,则分析模块会将这些访问日志发给学习模块作为负样本(之前学习模块也会得到一些正样本和负样本供学习)。学习模块会根据这些负样本,提取出新的黑名单规则,供下次使用。例如在第二天,另一个IP的访问频率也达到了每小时一千次,虽然还没有达到三个小时,分析模块还没有认定这个访问属于非正常访问,而学习模块的黑名单规则库已经囊括了这种非正常访问。
在另一种实例中,所述的反爬虫系统,所述分析模块判断访问行为是否正常的方法包括:
获取访问行为在各第二预设时间段内的访问次数以及各访问次数对应的时间点,然后将第二预设时间段划分为N个分时间段,分别计算各个分时间段的访问频率;
若N个分时间段的访问频率均低于第一阈值,则将下一个第二预设时间段划分为N/2个分时间段,然后分别计算各个分时间段的访问频率;
若N个分时间段的访问频率均高于第二阈值,则将下一个第二预设时间段划分为2N个分时间段,然后分别计算各个分时间段的访问频率;
若N个分时间段的访问频率均高于第一阈值并低于第二阈值,则将下一个第二预设时间段划分为N个分时间段,然后分别计算各个分时间段的访问频率;
其中,若访问行为在任一分时间段内的访问频率高于频率阈值,则访问行为为不正常;
其中,N≥10;
其中,第一阈值为频率阈值的1/4,第二阈值为频率阈值的3/4。
上述技术方案提供了一种分析模块判断访问行为是否正常的方法,即将第二预设时间段分为若干分时间段,分别用各分时间段的访问次数除以分时间段的时间长度计算得到各分时间段的访问频率,然后将各分时间段的访问频率与频率阈值比对,若其中一个访问频率高于频率阈值,则判断该访问行为不正常;这样可以更准确地识别爬虫,避免爬虫利用系统漏动时而提高访问频率时而降低访问频率。为了减少计算量,本发明还在各分时间段的访问频率低于第一阈值时,减少访问频率技术次数,在访问频率高于第二阈值时,提高访问频率计算次数,防止漏报爬虫。本发明还提供了第一阈值和第二阈值的优选值以及减少计算访问频率次数的优选值。
本发明还提供一种反爬虫方法,包括:
判断访问行为是否正常;
获取经判断为不正常访问行为的访问日志;
根据不正常访问行为的访问日志提取出新的黑名单规则,以更新黑名单规则库;
禁止所述黑名单规则库所囊括的访问行为。
在上述技术方案中,首先对访问行为的分析方法与现有技术中的分析方法相同,比如根据访问行为的IP、访问时间和访问次数来判断是否为正常访问行为,例如,一个IP在三个小时以上的时间内访问页面次数超过3000次,且检测不到鼠标,就认为是非正常访问。然后获取客户端的访问日志。随后根据非正常访问提取出新的黑名单规则,该新的黑名单规则可以直接与该非正常访问的判断规则相同,也可以是该非正常访问的判断规则的改进。这样,就可以不断更新黑名单规则库,并将下一个访问行为与黑名单规则库中的黑名单规则进行比较,若访问行为符合其中一个黑名单规则,则禁止该访问行为。
在另一种实例中,所述的反爬虫方法,还包括:
将所述黑名单规则库所囊括的访问行为对应的IP地址加入所述IP黑名单,并禁止该IP地址的访问行为。这里,也可以根据黑名单规则库不断充实IP黑名单,使系统根据IP黑名单直接封禁已经出现过非正常访问的IP,不用再比较访问行为与黑名单规则库。
在另一种实例中,所述的反爬虫方法,还包括:
若一访问行为不被所述黑名单规则库囊括,则对该访问行为进行分析,如果该访问行为为不正常,则禁止该访问行为;若一访问行为被所述黑名单规则库囊括,则不继续对该访问行为进行分析。这里,对分析的调用作了优化,如果一访问行为符合一种黑名单规则,则封禁该访问行为,而不再进行分析,如果一访问行为不符合任何一种黑名单规则,则继续进行分析其是否应该封禁。
在另一种实例中,所述的反爬虫方法,判断访问行为是否正常的方法包括:
获取访问行为在第一预设时间段内的访问次数,并且检测是否存在鼠标行为;
若在第一预设时间内的访问次数超过预设阈值,且未检测到鼠标行为,则判断该访问行为为不正常。上述技术方案提供了一种判断访问行为是否正常的可行方法,即判断访问行为在一定时间段内的访问次数是否超过预设阈值,若超过,且未检测到鼠标行为,则判定该访问行为不正常。例如,判断规则是一个IP在三个小时以上的时间内访问页面次数超过3000次,且检测不到鼠标,符合该规则就认为是非正常访问。
尽管本发明的实施方案已公开如上,但其并不仅仅限于说明书和实施方式中所列运用,它完全可以被适用于各种适合本发明的领域,对于熟悉本领域的人员而言,可容易地实现另外的修改,因此在不背离权利要求及等同范围所限定的一般概念下,本发明并不限于特定的细节和这里示出与描述的实例。
Claims (10)
1.一种反爬虫系统,其特征在于,包括:
分析模块,其判断访问行为是否正常;
获取模块,其获取经所述分析模块判断为不正常访问行为的访问日志;
学习模块,其具有可更新的黑名单规则库,所述学习模块根据不正常访问行为的访问日志提取出新的黑名单规则,以更新所述黑名单规则库;
过滤模块,其禁止所述黑名单规则库所囊括的访问行为。
2.如权利要求1所述的反爬虫系统,其特征在于,所述过滤模块存储可更新的IP黑名单,所述过滤模块将所述黑名单规则库所囊括的访问行为对应的IP地址加入所述IP黑名单,并禁止该IP地址的访问行为。
3.如权利要求2所述的反爬虫系统,其特征在于,若一访问行为不被所述黑名单规则库囊括,则调用所述分析模块对该访问行为进行分析,如果该访问行为为不正常,则所述过滤模块禁止该访问行为;若一访问行为被所述黑名单规则库囊括,则不调用所述分析模块继续对该访问行为进行分析。
4.如权利要求1所述的反爬虫系统,其特征在于,所述分析模块判断访问行为是否正常的方法包括:
获取访问行为在第一预设时间段内的访问次数,并且检测是否存在鼠标行为;
若在第一预设时间内的访问次数超过预设阈值,且未检测到鼠标行为,则判断该访问行为为不正常。
5.如权利要求4所述的反爬虫系统,其特征在于,所述学习模块根据不正常访问行为的访问日志提取出新的黑名单规则的方法包括:
计算不正常访问行为在第一预设时间段内的单位时间访问次数和单位时间预设阈值;提取的新的黑名单规则为:访问行为的单位时间访问次数高于单位时间预设阈值。
6.如权利要求1所述的反爬虫系统,其特征在于,所述分析模块判断访问行为是否正常的方法包括:
获取访问行为在各第二预设时间段内的访问次数以及各访问次数对应的时间点,然后将第二预设时间段划分为N个分时间段,分别计算各个分时间段的访问频率;
若N个分时间段的访问频率均低于第一阈值,则将下一个第二预设时间段划分为N/2个分时间段,然后分别计算各个分时间段的访问频率;
若N个分时间段的访问频率均高于第二阈值,则将下一个第二预设时间段划分为2N个分时间段,然后分别计算各个分时间段的访问频率;
若N个分时间段的访问频率均高于第一阈值并低于第二阈值,则将下一个第二预设时间段划分为N个分时间段,然后分别计算各个分时间段的访问频率;
其中,若访问行为在任一分时间段内的访问频率高于频率阈值,则访问行为为不正常;
其中,N≥10;
其中,第一阈值为频率阈值的1/4,第二阈值为频率阈值的3/4。
7.一种反爬虫方法,其特征在于,包括:
判断访问行为是否正常;
获取经判断为不正常访问行为的访问日志;
根据不正常访问行为的访问日志提取出新的黑名单规则,以更新黑名单规则库;
禁止所述黑名单规则库所囊括的访问行为。
8.如权利要求7所述的反爬虫方法,其特征在于,还包括:
将所述黑名单规则库所囊括的访问行为对应的IP地址加入所述IP黑名单,并禁止该IP地址的访问行为。
9.如权利要求8所述的反爬虫方法,其特征在于,还包括:
若一访问行为不被所述黑名单规则库囊括,则对该访问行为进行分析,如果该访问行为为不正常,则禁止该访问行为;若一访问行为被所述黑名单规则库囊括,则不继续对该访问行为进行分析。
10.如权利要求1所述的反爬虫方法,其特征在于,判断访问行为是否正常的方法包括:
获取访问行为在第一预设时间段内的访问次数,并且检测是否存在鼠标行为;
若在第一预设时间内的访问次数超过预设阈值,且未检测到鼠标行为,则判断该访问行为为不正常。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN201611183559.8A CN106657057B (zh) | 2016-12-20 | 2016-12-20 | 反爬虫系统及方法 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN201611183559.8A CN106657057B (zh) | 2016-12-20 | 2016-12-20 | 反爬虫系统及方法 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| CN106657057A true CN106657057A (zh) | 2017-05-10 |
| CN106657057B CN106657057B (zh) | 2020-09-29 |
Family
ID=58833462
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| CN201611183559.8A Active CN106657057B (zh) | 2016-12-20 | 2016-12-20 | 反爬虫系统及方法 |
Country Status (1)
| Country | Link |
|---|---|
| CN (1) | CN106657057B (zh) |
Cited By (14)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN107196968A (zh) * | 2017-07-12 | 2017-09-22 | 深圳市活力天汇科技股份有限公司 | 一种爬虫识别方法 |
| CN107547548A (zh) * | 2017-09-05 | 2018-01-05 | 北京京东尚科信息技术有限公司 | 数据处理方法及系统 |
| CN108133140A (zh) * | 2017-12-08 | 2018-06-08 | 成都数聚城堡科技有限公司 | 一种动态防爬虫的方式 |
| CN109241733A (zh) * | 2018-08-07 | 2019-01-18 | 北京神州绿盟信息安全科技股份有限公司 | 基于Web访问日志的爬虫行为识别方法及装置 |
| CN109246064A (zh) * | 2017-07-11 | 2019-01-18 | 阿里巴巴集团控股有限公司 | 安全访问控制、网络访问规则的生成方法、装置及设备 |
| CN109246141A (zh) * | 2018-10-26 | 2019-01-18 | 电子科技大学 | 一种基于sdn的反过度爬虫方法 |
| CN109818949A (zh) * | 2019-01-17 | 2019-05-28 | 济南浪潮高新科技投资发展有限公司 | 一种基于神经网络的反爬虫方法 |
| CN110020512A (zh) * | 2019-04-12 | 2019-07-16 | 重庆天蓬网络有限公司 | 一种反爬虫的方法、装置、设备及存储介质 |
| CN110781366A (zh) * | 2019-09-09 | 2020-02-11 | 深圳壹账通智能科技有限公司 | 网页数据处理方法、装置、计算机设备和存储介质 |
| CN111355728A (zh) * | 2020-02-27 | 2020-06-30 | 紫光云技术有限公司 | 一种恶意爬虫防护方法 |
| CN111625700A (zh) * | 2020-05-25 | 2020-09-04 | 北京世纪家天下科技发展有限公司 | 防抓取的方法、装置、设备及计算机存储介质 |
| CN112003833A (zh) * | 2020-07-30 | 2020-11-27 | 瑞数信息技术(上海)有限公司 | 异常行为检测方法和装置 |
| CN112688919A (zh) * | 2020-12-11 | 2021-04-20 | 杭州安恒信息技术股份有限公司 | 一种基于app接口的反爬虫方法、设备及介质 |
| CN113536301A (zh) * | 2021-07-19 | 2021-10-22 | 北京计算机技术及应用研究所 | 一种基于行为特征分析的反爬方法 |
Citations (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN103107948A (zh) * | 2011-11-15 | 2013-05-15 | 阿里巴巴集团控股有限公司 | 一种流量控制方法和装置 |
| CN103297435A (zh) * | 2013-06-06 | 2013-09-11 | 中国科学院信息工程研究所 | 一种基于web日志的异常访问行为检测方法与系统 |
| CN103475637A (zh) * | 2013-04-24 | 2013-12-25 | 携程计算机技术(上海)有限公司 | 基于ip访问行为的网络访问控制方法及系统 |
| US20140373139A1 (en) * | 2013-06-13 | 2014-12-18 | Alibaba Group Holding Limited | Method and system of distinguishing between human and machine |
| CN104902008A (zh) * | 2015-04-26 | 2015-09-09 | 成都创行信息科技有限公司 | 一种针对爬虫的数据处理方法 |
-
2016
- 2016-12-20 CN CN201611183559.8A patent/CN106657057B/zh active Active
Patent Citations (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN103107948A (zh) * | 2011-11-15 | 2013-05-15 | 阿里巴巴集团控股有限公司 | 一种流量控制方法和装置 |
| CN103475637A (zh) * | 2013-04-24 | 2013-12-25 | 携程计算机技术(上海)有限公司 | 基于ip访问行为的网络访问控制方法及系统 |
| CN103297435A (zh) * | 2013-06-06 | 2013-09-11 | 中国科学院信息工程研究所 | 一种基于web日志的异常访问行为检测方法与系统 |
| US20140373139A1 (en) * | 2013-06-13 | 2014-12-18 | Alibaba Group Holding Limited | Method and system of distinguishing between human and machine |
| CN104902008A (zh) * | 2015-04-26 | 2015-09-09 | 成都创行信息科技有限公司 | 一种针对爬虫的数据处理方法 |
Cited By (17)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN109246064A (zh) * | 2017-07-11 | 2019-01-18 | 阿里巴巴集团控股有限公司 | 安全访问控制、网络访问规则的生成方法、装置及设备 |
| CN107196968A (zh) * | 2017-07-12 | 2017-09-22 | 深圳市活力天汇科技股份有限公司 | 一种爬虫识别方法 |
| CN107547548A (zh) * | 2017-09-05 | 2018-01-05 | 北京京东尚科信息技术有限公司 | 数据处理方法及系统 |
| CN107547548B (zh) * | 2017-09-05 | 2020-06-30 | 北京京东尚科信息技术有限公司 | 数据处理方法及系统 |
| CN108133140A (zh) * | 2017-12-08 | 2018-06-08 | 成都数聚城堡科技有限公司 | 一种动态防爬虫的方式 |
| CN109241733A (zh) * | 2018-08-07 | 2019-01-18 | 北京神州绿盟信息安全科技股份有限公司 | 基于Web访问日志的爬虫行为识别方法及装置 |
| CN109246141B (zh) * | 2018-10-26 | 2021-03-12 | 电子科技大学 | 一种基于sdn的反过度爬虫方法 |
| CN109246141A (zh) * | 2018-10-26 | 2019-01-18 | 电子科技大学 | 一种基于sdn的反过度爬虫方法 |
| CN109818949A (zh) * | 2019-01-17 | 2019-05-28 | 济南浪潮高新科技投资发展有限公司 | 一种基于神经网络的反爬虫方法 |
| CN110020512A (zh) * | 2019-04-12 | 2019-07-16 | 重庆天蓬网络有限公司 | 一种反爬虫的方法、装置、设备及存储介质 |
| CN110781366A (zh) * | 2019-09-09 | 2020-02-11 | 深圳壹账通智能科技有限公司 | 网页数据处理方法、装置、计算机设备和存储介质 |
| CN111355728A (zh) * | 2020-02-27 | 2020-06-30 | 紫光云技术有限公司 | 一种恶意爬虫防护方法 |
| CN111625700A (zh) * | 2020-05-25 | 2020-09-04 | 北京世纪家天下科技发展有限公司 | 防抓取的方法、装置、设备及计算机存储介质 |
| CN111625700B (zh) * | 2020-05-25 | 2023-04-07 | 北京世纪家天下科技发展有限公司 | 防抓取的方法、装置、设备及计算机存储介质 |
| CN112003833A (zh) * | 2020-07-30 | 2020-11-27 | 瑞数信息技术(上海)有限公司 | 异常行为检测方法和装置 |
| CN112688919A (zh) * | 2020-12-11 | 2021-04-20 | 杭州安恒信息技术股份有限公司 | 一种基于app接口的反爬虫方法、设备及介质 |
| CN113536301A (zh) * | 2021-07-19 | 2021-10-22 | 北京计算机技术及应用研究所 | 一种基于行为特征分析的反爬方法 |
Also Published As
| Publication number | Publication date |
|---|---|
| CN106657057B (zh) | 2020-09-29 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CN106657057A (zh) | 反爬虫系统及方法 | |
| CN106936781B (zh) | 一种用户操作行为的判定方法及装置 | |
| CN118677804B (zh) | 一种数据中心网络设备实时监控方法及系统 | |
| CN106295349A (zh) | 账号被盗的风险识别方法、识别装置及防控系统 | |
| CN104391979A (zh) | 网络恶意爬虫识别方法及装置 | |
| CN108200030A (zh) | 恶意流量的检测方法、系统、装置及计算机可读存储介质 | |
| CN108111463A (zh) | 基于平均值和标准差的多维度基线自学习和异常行为分析 | |
| CN107016298B (zh) | 一种网页篡改监测方法及装置 | |
| CN118487872B (zh) | 一种面向核电行业的网络异常行为检测分析方法 | |
| CN110519266A (zh) | 一种基于统计学方法的cc攻击检测的方法 | |
| CN110598959A (zh) | 一种资产风险评估方法、装置、电子设备及存储介质 | |
| CN118118212A (zh) | 边缘智能的工业互联网入侵检测预警系统 | |
| CN116668185A (zh) | 一种api异常访问行为的检测方法和系统 | |
| CN107172033B (zh) | 一种waf误判识别方法以及装置 | |
| CN114745143B (zh) | 一种访问控制策略自动生成方法及装置 | |
| CN118075017A (zh) | 一种网络信息安全防护检测方法及系统 | |
| CN112380126B (zh) | Web系统健康预测装置及方法 | |
| CN110135162A (zh) | Webshell后门识别方法、装置、设备及存储介质 | |
| CN108366274B (zh) | 一种刷播放量的检测方法和装置 | |
| CN108959860A (zh) | 一种检测Android系统是否被破解和破解记录获取方法 | |
| CN105429792A (zh) | 用户行为流量获取方法及装置、用户行为分析方法及系统 | |
| CN109190408B (zh) | 一种数据信息的安全处理方法及系统 | |
| CN104426836A (zh) | 一种入侵检测方法及装置 | |
| CN119004213B (zh) | 独立站运营数据分类与深度多维处理方法和系统 | |
| CN119382999B (zh) | 一种反爬虫方法、装置、设备及介质 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| PB01 | Publication | ||
| PB01 | Publication | ||
| SE01 | Entry into force of request for substantive examination | ||
| SE01 | Entry into force of request for substantive examination | ||
| GR01 | Patent grant | ||
| GR01 | Patent grant |