[go: up one dir, main page]

CN111859234A - 一种非法内容识别方法、装置、电子设备及存储介质 - Google Patents

一种非法内容识别方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN111859234A
CN111859234A CN202010494955.2A CN202010494955A CN111859234A CN 111859234 A CN111859234 A CN 111859234A CN 202010494955 A CN202010494955 A CN 202010494955A CN 111859234 A CN111859234 A CN 111859234A
Authority
CN
China
Prior art keywords
illegal
access
users
honeypot
website
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010494955.2A
Other languages
English (en)
Inventor
韩睿
李晓宇
李明
张伟东
张月鹏
王志慧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Ultrapower Intelligent Data Technology Co ltd
Original Assignee
Beijing Ultrapower Intelligent Data Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Ultrapower Intelligent Data Technology Co ltd filed Critical Beijing Ultrapower Intelligent Data Technology Co ltd
Priority to CN202010494955.2A priority Critical patent/CN111859234A/zh
Publication of CN111859234A publication Critical patent/CN111859234A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9566URL specific, e.g. using aliases, detecting broken or misspelled links

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本申请公开了一种非法内容识别方法、装置、电子设备及存储介质。非法内容识别方法,包括:根据用户访问蜜罐的蜜罐访问记录,得到目标样本用户集,所述蜜罐是基于用户感兴趣的网页内容生成的用于吸引用户访问的诱饵;获取所述目标样本用户集中各用户的待分析访问记录,对获取的待分析访问记录进行统计分析,确定出潜在非法网站;发送访问请求至确定出的潜在非法网站,根据潜在非法网站返回的响应数据,确定潜在非法网站是否包含非法内容。本申请实施例主动出击有效识别深网中隐藏的非法内容、确定高风险信息的直接来源或间接出处,降低了非法内容识别难度,为非法内容整治和网站风险防控提供了基础保障。

Description

一种非法内容识别方法、装置、电子设备及存储介质
技术领域
本申请涉及网络技术领域,具体涉及一种非法内容识别方法、装置、电子设备及存储介质。
背景技术
在移动互联网时代,访问流量使免费网站有了经济收入,使得一些不法分子为了引流推广铤而走险:发布网络贷款广告、网络赌博平台入口、色情图片等非法内容。通常这些敏感、非法内容隐匿在深网(指互联网上那些不能被标准搜索引擎索引的非表面网络内容),搜索引擎和人工检索不到,识别难度大,整治和风险控制效果不佳。
发明内容
鉴于上述问题,提出了本申请以便提供一种克服上述问题或者至少部分地解决上述问题的非法内容识别方法、装置、电子设备及存储介质。
依据本申请的一个方面,提供了一种非法内容识别方法,包括:
根据用户访问蜜罐的蜜罐访问记录,得到目标样本用户集,所述蜜罐是基于用户感兴趣的网页内容生成的用于吸引用户访问的诱饵;
获取所述目标样本用户集中各用户的待分析访问记录,对获取的待分析访问记录进行统计分析,确定出潜在非法网站;
发送访问请求至确定出的潜在非法网站,根据潜在非法网站返回的响应数据,确定潜在非法网站是否包含非法内容。
依据本申请的另一方面,提供了一种非法内容识别装置,包括:
样本单元,用于根据用户访问蜜罐的蜜罐访问记录,得到目标样本用户集,所述蜜罐是基于用户感兴趣的网页内容生成的用于吸引用户访问的诱饵;
统计分析单元,用于获取所述目标样本用户集中各用户的待分析访问记录,对获取的待分析访问记录进行统计分析,确定出潜在非法网站;
识别单元,用于发送访问请求至确定出的潜在非法网站,根据潜在非法网站返回的响应数据,确定潜在非法网站是否包含非法内容。
依据本申请的又一方面,提供了一种电子设备,包括:处理器;以及被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行如上述所述的方法。
依据本申请的再一方面,提供了一种计算机可读存储介质,其中,所述计算机可读存储介质存储一个或多个程序,所述一个或多个程序当被处理器执行时,实现如上述任一所述的方法。
由上述可知,本申请的技术方案,根据用户访问蜜罐的蜜罐访问记录,得到目标样本用户集,这里的蜜罐是依据用户感兴趣的网页内容生成的诱饵,其目的是诱导用户访问从而获取用户的访问记录。在得到目标样本用户集之后,根据其中各用户的待分析访问记录,进行统计分析,确定出潜在的非法网站;发送访问请求至潜在的非法网站,依据潜在的非法网站返回的响应数据,确定潜在非法网站是否包含非法内容。从而主动出击有效识别深网中的非法内容,找到高风险信息的直接来源或间接出处,提高了非法内容识别效率,为非法内容整治和网站风险防控提供了基础保障。此外,本申请实施例不需要大量专业人员去处理举报投诉,人力成本低廉。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本申请的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了根据本申请一个实施例的非法内容识别方法的流程示意图;
图2示出了根据本申请一个实施例的目标样本用户集的形成过程示意图;
图3示出了根据本申请一个实施例的潜在非法网站的确定流程示意图;
图4示出了根据本申请一个实施例的对潜在非法网站的审核确认流程示意图;
图5示出了根据本申请一个实施例的非法内容识别装置的框图;
图6示出了根据本申请一个实施例的电子设备的结构示意图;
图7示出了根据本申请一个实施例的计算机可读存储介质的结构示意图。
具体实施方式
下面将参照附图更详细地描述本申请的示例性实施例。虽然附图中显示了本申请的示例性实施例,然而应当理解,可以以各种形式实现本申请而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本申请,并且能够将本申请的范围完整的传达给本领域的技术人员。
针对不法分子为了引流推广在网站发布网贷广告、色情图片等敏感甚至非法内容,传统的识别整治方案主要有:
1.举报受理。在网站上提供投诉通道,如果用户在某网站进行投诉,则实时进行审查,人工屏蔽。
2.风险控制部门集中处理。由风险控制部门对违规域名和违法违规敏感信息进行查找、整治。
3.搜索引擎统一爬取。由搜索引擎过滤敏感词汇与风险内容,避免非法内容被普通用户搜索到。
以上几种方案的历史实践都暴露出一些问题:比如,举报受理需要人工审查,从人员上看成本相当巨大、且专业人员有数量缺口。风险控制部门集中处理方案也无法完全自动化,只能通过经验来小规模发布策略,效果不理想。而搜索引擎的方案则只能被动处理违规内容,也就是说,如果搜索引擎没有抓取到的网站无法进行拦截等处理。此外,拦截与上报都有时滞,时效性较差。
对此,本申请实施例提供了基于大数据的非法内容识别方案:将频繁访问非法内容的用户设备予以聚合,形成目标样本客群。这些用户访问互联网时往往带有倾向性,比如访问过非法内容网站的人往往会再次访问其他涉政网站,在网络上浏览色情图片的人看到相似的内容会再次点击等等。利用样本的这一特性,通过统计样本的访问记录,主动出击找出非法内容(这些内容往往隐匿在深网,搜索引擎和人工无法检索到),并做出相应处理,从而提供了一种主动识别非法内容的方案,降低了非法内容识别的难度以及人力成本,大大方便了非法内容整治以及网站风险控制。
为便于理解,这里先对本申请实施例的一些技术名词进行解释说明。
URL:Uniform Resource Locator,统一资源定位符。比如 www.baidu.com/q=xxx就是一个URL,用于唯一标识网络上的资源。
域名:由一串用点号分隔的名字组成的互联网上某一台计算机或计算机组的名称,用于在数据传输时对计算机的定位标识(有时也指地理位置)。对于前述的URL,www.baidu.com就是它的域名。
访问记录(或称,访问日志):用户在上网、使用手机上网等过程中会产生大量的访问记录,记录中包括URL、域名等资源信息。
蜜罐:预先布置的具有诱饵性质的标题、图片等网页内容吸引感兴趣的访客进行访问,蜜罐的内容不是真正的非法内容,而是以标题党、擦边球等间接方式伪装网页内容吸引客群。访问过蜜罐的IP(Internet Protocol,网际互连协议)或设备会被贴上“鱼腥”标识。
“鱼腥”:任意设备访问过蜜罐后,则会产生包括蜜罐URL的访问记录,并被聚合在大数据内。由于URL的唯一确定性,这条带着URL的访问记录就是“鱼腥”。通过“鱼腥”,可以快速标识出哪些设备是访问过蜜罐的,哪些设备是没有访问过蜜罐的。
图1示出了根据本申请一个实施例的非法内容识别方法的流程示意图,参见图1,非法内容识别方法包括下列步骤:
步骤S110,根据用户访问蜜罐的蜜罐访问记录,得到目标样本用户集,所述蜜罐是基于用户感兴趣的网页内容生成的用于吸引用户访问的诱饵。
本申请实施例有目的、预先根据用户感兴趣的内容制作蜜罐,比如蜜罐是一张模拟网络赌博平台的图片,蜜罐的作用是吸引用户访问从而使用户沾染“鱼腥”,将各沾染“鱼腥”的用户聚合,即可得到目标样本用户集。
需要说明的是,目标样本用户集中包括的是样本用户的蜜罐访问记录,蜜罐访问记录中包括用户的设备型号信息、跳转路由信息、访问域名信息、URL信息,以及根据访问域名得到的IP地址信息等等。
步骤S120,获取所述目标样本用户集中各用户的待分析访问记录,对获取的待分析访问记录进行统计分析,确定出潜在非法网站。
实际应用中大量用户的访问日志聚合在一起形成的大数据,是用于过滤目标信息的基础原料。利用大数据技术分析海量用户的统计日志,从中截获沾染“鱼腥”的用户的待分析访问记录,分析这些沾染“鱼腥”的用户的访问记录确定出潜在的非法网站。
如前述,用户访问互联网时往往带有倾向性,访问过非法内容网站的人往往会再次访问其他涉政网站,在网络上浏览色情图片的人看到相似的内容会再次点击等等。基于此,本申请实施例对沾染“鱼腥”的样本用户的所有访问日志进行分析,从而主动发现那些可能包含非法内容的网站。
注:待分析访问记录是用户一段时间内(比如一年、半年、3个月)访问普通网页内容行为产生的访问记录,不包括蜜罐访问记录。考虑到待分析访问记录的数量与潜在非法网站发现概率之间的关系,应尽可能多的获取用户的待分析访问记录,比如获取用户的能够检索到的所有访问记录。
步骤S130,发送访问请求至确定出的潜在非法网站,根据潜在非法网站返回的响应数据,确定潜在非法网站是否包含非法内容。
为提高识别准确性,本申请实施例发送访问请求至确定出的潜在非法网站,根据潜在非法网站返回的响应数据,来确定潜在非法网站是否真的包含非法内容。
由图1所示可知,本申请实施例的非法内容识别方法,通过将访问过蜜罐的用户的蜜罐访问记录聚合,得到目标样本用户集,获取目标样本用户集中各用户的待分析访问记录并进行统计分析,以确定出潜在非法网站,进一步的,根据潜在非法网站返回的响应数据,判断潜在非法网站是否真的包含非法内容,从而可以有效分辨深网中的非法内容,确定高风险信息的来源或间接出处,为非法内容整治和网站风险防控等提供了坚实的基础保障。
具体实施时,本申请实施例的应用场景包括但不限于:识别网站是否在客观意义上包含赌博、诈骗、色情、恐怖主义等非法内容。识别频繁访问同类网站的人群,并基于人群特征进行用户画像。打击网络违法犯罪,对利用网络宣传封建迷信、淫秽、诈骗等违法行为进行鉴别与预防。通信基础设施 (如微信、QQ、微博)拦截非法的外部内容,减少风险控制成本并提高风险控制效果。
整体上来说,本申请实施例的非法内容识别方法包括:步骤一,获取目标样本客群,步骤二,处理目标样本客群的访问记录,步骤三,以AI(Artificial Intelligence,人工智能)模型或人工识别的形式进行确认。以下结合附图2 至4进行说明。
步骤一,获取目标样本客群。
图2示出了根据本申请一个实施例的目标样本用户集的形成过程示意图,本申请实施例中,目标样本用户集,即目标样本客群。
根据用户访问蜜罐的蜜罐访问记录,得到目标样本用户集制作包含蜜罐的网页,将网页投放到网络,以吸引用户访问;当所述网页被用户访问时,执行所述网页中预设的JS脚本,以访问所述蜜罐的目标URL,添加时间戳到目标URL并生成包含目标URL的蜜罐访问记录;将访问同种目标URL 的蜜罐访问记录聚合,得到目标样本用户集。
注:同种目标URL是种类相同的蜜罐的URL,种类相同的蜜罐比如都是模拟色情内容的蜜罐,或者都是模拟诈骗内容的URL等等。可知本申请实施例按照蜜罐种类对客群聚类。
结合图2,目标样本客群获取方式包括:
制作蜜罐并投放。
判断用户是否被蜜罐吸引,是则,用户访问蜜罐触发JS埋点,访问唯一 URL,沾染鱼腥。否则,不计入用户集。
举例而言,先制作蜜罐,并以明显的标题或图片在公网进行投放,吸引用户点击。需要强调的是,本申请实施例蜜罐的HTML(Hyper Text Markup Language,超文本标记语言)文件中携带JS(JavaScript,是一种具有函数优先的轻量级,解释型或即时编译型的编程语言)脚本,或称JS埋点,JS脚本内联访问一个精心制作且带有时间戳的URL,并体现在用户的访问记录中,一条蜜罐访问记录示意如下:
www.yzt.xyz/?t=155328142&refer=www.baidu.com。
注:当用户未被蜜罐吸引时,表明用户对蜜罐不感兴趣所以并不会点击蜜罐,对本申请实施例而言,不被蜜罐吸引的用户不在关注之列。
参见图2,大数据批处理将所有沾染鱼腥的用户设备聚合。
也就是说,所有访问过蜜罐的用户沾上“鱼腥”,所有粘上同种“鱼腥”的用户被归类到同一个客群。
这里的将所述网页投放到网络,以吸引用户访问包括两种具体实现方式,分别是:
创建文本文件robots.txt,在文本文件robots.txt中声明允许所述网页被搜索引擎爬取,以将所述网页混入搜索引擎的搜索结果中;或者,按照预设投放时间段将所述网页以在线广告的形式投放到网络。从而将蜜罐以合法方式投放,避免误伤。
即,可以配置robots.txt配合搜索引擎抓取,以将蜜罐混入搜索引擎的查询结果中,吸引感兴趣的用户进行访问。另外,也可以按照预设投放时间段将所述网页以在线广告的形式投放到网络,比如,把蜜罐投放到廉价时段的在线广告,以吸引感兴趣的用户进行点击。
robots协议也叫robots.txt,是一种存放于网站根目录下的ASCII编码的文本文件,它通常告诉网络搜索引擎的网络蜘蛛,此网站中的哪些内容是不应被搜索引擎的网络蜘蛛获取的,哪些是可以被网络蜘蛛获取。
由于互联网上大量(50%以上)的流量都是爬虫,而爬虫会使目标样本客群的特征无效化,所以本申请实施例中需要过滤掉无效样本。
参见图2,判断是否为爬虫或恶意请求,如果不是爬虫或恶意请求则将用户样本放入用户集,从而形成目标样本用户集,如果是爬虫或恶意请求,则过滤样本,不计入用户集。也就是说,根据用户访问蜜罐的蜜罐访问记录,得到目标样本用户集包括:对用户访问蜜罐的当前蜜罐访问记录进行判断,如果当前蜜罐访问记录对应的访问请求为爬虫或恶意请求,则将当前蜜罐访问记录确定为无效样本并删除。
需要说明的是,如何判断访问请求是否为爬虫或恶意请求属于现有技术,比如,可以利用大型互联网公司共享的反爬库查看用户设备型号是否包括在内,从而判断出访问请求是否为爬虫。或者,根据HTTP(Hyper Text Transfer Protocol,超文本传输协议)协议头域的组成部分User Agent(简称UA)来判断是否为爬虫。User Agent是一种向访问网站提供用户所使用的浏览器类型、操作系统及版本、浏览器渲染引擎、浏览器语言、浏览器插件等信息的标识。UA字符串在每次浏览器HTTP请求时发送到服务器。
至此,获得了目标样本客群。
步骤二,处理目标样本客群的访问记录。
在步骤一得到的目标样本客群的基础上,本步骤中处理目标样本客群的访问记录。具体的,获取目标样本用户集中各用户的待分析访问记录,对获取的待分析访问记录进行统计分析,确定出潜在非法网站,包括:利用大数据批处理算法获取所述目标样本用户集中各用户的待分析访问记录;对获取的待分析访问记录按照域名进行聚合,统计各域名的访问频率;根据访问频率从高到低对域名排序,提取前预设个数个域名作为高频域名,由各高频域名确定出潜在非法网站。
本申请实施例之所以确定目标样本客群是为了获取这些样本用户的待分析访问记录,从待分析访问记录中挖掘分析出潜在的非法网站,从而能够主动找出隐藏在深网中的非法内容。
图3示出了根据本申请一个实施例的潜在非法网站的确定流程示意图,参见图3,潜在非法网站的确定过程包括:
大数据清洗,提取目标样本用户集中各用户的待分析访问记录。
通过Map Reduce和Spark等大数据批处理算法,分析海量用户的统计日志,从中截获目标样本客群(即目标样本用户集)的所有访问记录,截获之后进行初步清洗,再进行排序。由于排序靠前的往往都是广告SDK(Software Development Kit,软件开发工具包)的地址、搜索引擎、微信等服务器的URL,而经过清洗过滤后,高频访问的网站包含非法内容的可能性大大提升。注:广告SDK是广告商提供给开发者的接口服务,以在APP(Application)应用或者网站内嵌入广告,为开发者提供了变现和盈利的途径。
按照域名聚合并统计排序。
按照待分析访问记录中域名信息,将待分析访问记录聚合,并统计各域名的访问频率,按照访问频率由高到低排序,从这一步可以得出潜在的非法网站。
比如,目标样本用户集中所有用户的待分析访问记录总计300(仅为示例)条,按照域名聚合之后得出访问A域名的有150(仅为示例)条记录,访问B域名的有100(仅为示例)条记录,访问C域名的有50(仅为示例) 条记录,按照访问频率由高到低排序:A-B-C,取前预设个数(如2)个域名作为高频域名,那么高频域名即为A和B。
过滤白名单域名。
对于前述高频域名,这里进行筛选,将白名单域名过滤掉,因为白名单域名不认为是非法网站。
也就是说,由各高频域名确定出潜在非法网站包括:将各高频域名与预设白名单中的域名进行匹配,如果匹配成功,则过滤所述高频域名,由过滤后的高频域名确定出潜在非法网站。应当理解,实际应用中可根据需求设置白名单,将可靠的域名添加到白名单中,以避免误判。
接上例,假设白名单中包括域名B,那么将提取的高频域名A和B与白名单匹配,则B匹配成功,从而将B过滤掉,剩域名A。
提取高频域名,确定潜在非法网站。
至此,提取高频域名确定潜在非法网站。即将域名A指示的网站作为潜在的非法网站。
实际应用中,潜在的非法网站可能数量巨大,而为了优先处理重要的潜在非法网站,本申请实施例可以基于各潜在非法网站的预设权重以及访问频率计算生成访问频率基数,访问频率基数越大,优先级越高,越有可能被先处理(如审核确认)。
本申请实施例在确定出潜在的非法网站之后,进一步对潜在非法网站的审核确认。也就是说,根据潜在非法网站返回的响应数据,确定潜在非法网站是否包含非法内容包括:将所述响应数据输入到根据历史数据集预先训练得到的深度学习模型中,如果深度学习模型发现所述响应数据中存在与已知非法内容相似度大于阈值的非法内容,则输出潜在非法网站包含非法内容的识别结果;或者,将所述响应数据批量聚合到一个窗口中展示供人工审核,得出潜在非法网站是否包含非法内容的识别结果。
具体的,在人工审核过程中,如果所述响应数据是完整且可渲染的HTML 文件,则将网页聚合到一个窗口中展示供人工判断该HTML文件是否包含非法内容;如果所述响应数据是JSON字符串或图片、视频的字节码,则转换处理后将JSON字符串或图片、视频的字节码聚合到一个窗口中展示供人工判断是否包含非法内容。
图4示出了根据本申请一个实施例的对潜在非法网站的审核确认流程示意图,参见图4,对于包括潜在的非法网站的潜在非法网站结果集,本申请实施例批量获取响应数据。
比如,使用爬虫+正向代理获取各潜在非法网站的HTTP response数据 (HTTP响应数据),以确认HTTP response数据内是否包含广义上的非法内容。实际应用中确立爬虫策略,利用批处理获取响应数据,将潜在非法网站返回的响应数据统一存入Hive数据库作为样本,等待AI或人工确权。注: Hive是基于开源大数据平台Hadoop的一个数据仓库工具。
继续参见图4,对于响应数据有两种审核方式,分别是AI审核和人工审核。所谓的AI审核是指机器模型审核,本申请实施例中,根据历史数据集预先训练得到的深度学习模型,比如,利用深度学习技术,预先对Hive数据库内的响应数据进行建模,得到深度学习模型。如果深度学习模型发现相似度较高(即,计算当前响应数据中的内容与已知非法内容的相似度,相似度大于阈值则相似度较高)的非法内容,则为当前域名打上非法标识,得出非法内容识别结果,整个过程完全自动化。
如果响应数据为图片或字节码等格式,在利用模型审核确认之前可以先对可视化的HTML文件进行文字提取,例如使用OCR(Optical Character Recognition,光学字符识别)技术提取文字,然后将提取的文字输入深度学习模型中得到识别结果。
与AI审核相比,人工审核更准确但成本高、效率低。人工审核是人工对响应数据进行判断并得出识别结果的方式。为了提高效率,本申请实施例将分属不同网站的多个网页聚合到一个窗口中展示以同时审核多个网页,得出非法内容识别结果。
参见图4,人工审核根据响应数据的不同而有所不同,如果HTTP响应数据是一个完整且可以正常被浏览器执行的HTML文件,即,可渲染的 HTML文件,则将所述响应数据批量聚合到一个窗口中展示供人工审核,人工可以在网页上主观判断此网页是否包含非法内容,得出非法内容识别结果,并在包含非法内容时为网页添加标识。
如果HTTP响应数据内包含的是JSON(JavaScript Object Notation,JS对象简谱)字符串或者图片、视频的字节码,则借助辅助程序,将字符或字符形式的接口内容输入到辅助程序中判断辅助程序能否解析。例如使用正则与特殊字符匹配自动机,对敏感词汇进行快速检索、使用字节码注入或读取程序对视频流或图片进行渲染,达到人眼可视并做出主观判断的目的。
当辅助程序不能解析时,将潜在非法网站从结果集(即潜在非法网站结果集)中删除。当辅助程序能解析时,辅助程序将响应数据解析成可渲染的 HTML文件供人工审核得出非法内容识别结果。
需要说明的是,实际应用中,在利用AI审核或人工审核确定出识别结果之后,可以提取包含非法内容的非法网站的域名、IP地址等信息,将提取出的内容作为深度学习模型的历史数据集进行优化训练,以提高深度学习模型的处理速度和精度。
至此,对于潜在的非法网站,本申请实施例完成了进一步的审核确认,对于确定存在非法内容的,后续可以将非法内容相关信息提交给相应的云主机、运营商等以进行业务冻结。或者作为证据批量提交至网监部门,方便网监部门进行举报查封处理。也可以与网站的风险控制中心沟通,以及时拦截对非法内容的访问请求,提高风险控制效果。
与前述非法内容识别方法同属一个技术构思,本申请实施例还提供了非法内容识别装置,图5示出了根据本申请一个实施例的非法内容识别装置的框图,参见图5,本申请实施例的非法内容识别装置500包括:
样本单元510,用于根据用户访问蜜罐的蜜罐访问记录,得到目标样本用户集,所述蜜罐是基于用户感兴趣的网页内容生成的用于吸引用户访问的诱饵;
统计分析单元520,用于获取所述目标样本用户集中各用户的待分析访问记录,对获取的待分析访问记录进行统计分析,确定出潜在非法网站;
识别单元530,用于发送访问请求至确定出的潜在非法网站,根据潜在非法网站返回的响应数据,确定潜在非法网站是否包含非法内容。
本申请实施例中,样本单元510,具体用于对用户访问蜜罐的当前蜜罐访问记录进行判断,如果当前蜜罐访问记录对应的访问请求为爬虫或恶意请求,则将当前蜜罐访问记录确定为无效样本并删除。
本申请实施例中,样本单元510,用于制作包含蜜罐的网页,将所述网页投放到网络,以吸引用户访问;当所述网页被用户访问时,执行所述网页中预设的JS脚本,以访问所述蜜罐的目标URL,添加时间戳到目标URL并生成包含目标URL的蜜罐访问记录;将访问同种目标URL的蜜罐访问记录聚合,得到目标样本用户集。
本申请实施例中,样本单元510,用于创建文本文件robots.txt,在文本文件robots.txt中声明允许所述网页被搜索引擎爬取,以将所述网页混入搜索引擎的搜索结果中;或者,按照预设投放时间段将所述网页以在线广告的形式投放到网络。
本申请实施例中,统计分析单元520,具体用于利用大数据批处理算法获取所述目标样本用户集中各用户的待分析访问记录;对获取的待分析访问记录按照域名进行聚合,统计各域名的访问频率;根据访问频率从高到低对域名排序,提取前预设个数个域名作为高频域名,由各高频域名确定出潜在非法网站。
本申请实施例中,统计分析单元520,用于将各高频域名与预设白名单中的域名进行匹配,如果匹配成功,则过滤所述高频域名,由过滤后的高频域名确定出潜在非法网站。
本申请实施例中,识别单元530,具体用于将所述响应数据输入到根据历史数据集预先训练得到的深度学习模型中,如果深度学习模型发现所述响应数据中存在与已知非法内容相似度大于阈值的非法内容,则输出潜在非法网站包含非法内容的识别结果;或者,将所述响应数据批量聚合到一个窗口中展示供人工审核,得出潜在非法网站是否包含非法内容的识别结果。
需要说明的是,上述装置实施例的具体实施方式可以参照前述对应方法实施例的具体实施方式进行,在此不再赘述。
综上所述,本申请实施例的非法内容识别技术方案,根据用户访问蜜罐的蜜罐访问记录,得到目标样本用户集,而后根据目标样本用户集中各用户的待分析访问记录进行统计分析,确定出潜在的非法网站,发送访问请求至潜在的非法网站,基于潜在的非法网站返回的响应数据,确定潜在非法网站是否包含非法内容,从而主动出击有效识别深网中的非法内容、确定高风险信息的直接来源或间接出处,为后续非法内容整治和网站风险防控提供了基础保障。
需要说明的是:
在此提供的算法和显示不与任何特定计算机、虚拟装置或者其它设备固有相关。各种通用装置也可以与基于在此的示教一起使用。根据上面的描述,构造这类装置所要求的结构是显而易见的。此外,本申请也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本申请的内容,并且上面对特定语言所做的描述是为了披露本申请的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本申请的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本申请并帮助理解各个发明方面中的一个或多个,在上面对本申请的示例性实施例的描述中,本申请的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本申请要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本申请的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本申请的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本申请的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本申请实施例的非法内容识别装置中的一些或者全部部件的一些或者全部功能。本申请还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本申请的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
例如,图6示出了根据本申请一个实施例的电子设备的结构示意图。该电子设备600包括处理器610和被安排成存储计算机可执行指令(计算机可读程序代码)的存储器620。存储器620可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。存储器620具有存储用于执行上述方法中的任何方法步骤的计算机可读程序代码631的存储空间630。例如,用于存储计算机可读程序代码的存储空间630 可以包括分别用于实现上面的方法中的各种步骤的各个计算机可读程序代码631。计算机可读程序代码631可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。这些计算机程序产品包括诸如硬盘,紧致盘(CD)、存储卡或者软盘之类的程序代码载体。这样的计算机程序产品通常为例如图7所述的计算机可读存储介质。图7示出了根据本申请一个实施例的一种计算机可读存储介质的结构示意图。该计算机可读存储介质700存储有用于执行根据本申请的方法步骤的计算机可读程序代码 631,可以被电子设备600的处理器610读取,当计算机可读程序代码631 由电子设备600运行时,导致该电子设备600执行上面所描述的方法中的各个步骤,具体来说,该计算机可读存储介质存储的计算机可读程序代码631 可以执行上述任一实施例中示出的方法。计算机可读程序代码631可以以适当形式进行压缩。
应该注意的是上述实施例对本申请进行说明而不是对本申请进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本申请可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

Claims (10)

1.一种非法内容识别方法,其特征在于,包括:
根据用户访问蜜罐的蜜罐访问记录,得到目标样本用户集,所述蜜罐是基于用户感兴趣的网页内容生成的用于吸引用户访问的诱饵;
获取所述目标样本用户集中各用户的待分析访问记录,对获取的待分析访问记录进行统计分析,确定出潜在非法网站;
发送访问请求至确定出的潜在非法网站,根据潜在非法网站返回的响应数据,确定潜在非法网站是否包含非法内容。
2.如权利要求1所述的方法,其特征在于,所述根据用户访问蜜罐的蜜罐访问记录,得到目标样本用户集包括:
对用户访问蜜罐的当前蜜罐访问记录进行判断,
如果当前蜜罐访问记录对应的访问请求为爬虫或恶意请求,则将当前蜜罐访问记录确定为无效样本并删除。
3.如权利要求1所述的方法,其特征在于,所述根据用户访问蜜罐的蜜罐访问记录,得到目标样本用户集包括:
制作包含蜜罐的网页,将所述网页投放到网络,以吸引用户访问;
当所述网页被用户访问时,执行所述网页中预设的JS脚本,以访问所述蜜罐的目标URL,添加时间戳到目标URL并生成包含目标URL的蜜罐访问记录;
将访问同种目标URL的蜜罐访问记录聚合,得到目标样本用户集。
4.如权利要求3所述的方法,其特征在于,所述将所述网页投放到网络,以吸引用户访问包括:
创建文本文件robots.txt,在文本文件robots.txt中声明允许所述网页被搜索引擎爬取,以将所述网页混入搜索引擎的搜索结果中;
或者,按照预设投放时间段将所述网页以在线广告的形式投放到网络。
5.如权利要求1所述的方法,其特征在于,获取所述目标样本用户集中各用户的待分析访问记录,对获取的待分析访问记录进行统计分析,确定出潜在非法网站包括:
利用大数据批处理算法获取所述目标样本用户集中各用户的待分析访问记录;
对获取的待分析访问记录按照域名进行聚合,统计各域名的访问频率;
根据访问频率从高到低对域名排序,提取前预设个数个域名作为高频域名,由各高频域名确定出潜在非法网站。
6.如权利要求5所述的方法,其特征在于,所述由各高频域名确定出潜在非法网站包括:
将各高频域名与预设白名单中的域名进行匹配,如果匹配成功,则过滤所述高频域名,由过滤后的高频域名确定出潜在非法网站。
7.如权利要求1-6中任一项所述的方法,其特征在于,所述根据潜在非法网站返回的响应数据,确定潜在非法网站是否包含非法内容包括:
将所述响应数据输入到根据历史数据集预先训练得到的深度学习模型中,如果深度学习模型发现所述响应数据中存在与已知非法内容相似度大于阈值的非法内容,则输出潜在非法网站包含非法内容的识别结果;
或者,将所述响应数据批量聚合到一个窗口中展示供人工审核,得出潜在非法网站是否包含非法内容的识别结果。
8.一种非法内容识别装置,其特征在于,包括:
样本单元,用于根据用户访问蜜罐的蜜罐访问记录,得到目标样本用户集,所述蜜罐是基于用户感兴趣的网页内容生成的用于吸引用户访问的诱饵;
统计分析单元,用于获取所述目标样本用户集中各用户的待分析访问记录,对获取的待分析访问记录进行统计分析,确定出潜在非法网站;
识别单元,用于发送访问请求至确定出的潜在非法网站,根据潜在非法网站返回的响应数据,确定潜在非法网站是否包含非法内容。
9.一种电子设备,其特征在于,该电子设备包括:处理器;以及被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行如权利要求1-7中任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储一个或多个程序,所述一个或多个程序当被处理器执行时,实现如权利要求1-7中任一项所述的方法。
CN202010494955.2A 2020-06-03 2020-06-03 一种非法内容识别方法、装置、电子设备及存储介质 Pending CN111859234A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010494955.2A CN111859234A (zh) 2020-06-03 2020-06-03 一种非法内容识别方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010494955.2A CN111859234A (zh) 2020-06-03 2020-06-03 一种非法内容识别方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN111859234A true CN111859234A (zh) 2020-10-30

Family

ID=72985438

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010494955.2A Pending CN111859234A (zh) 2020-06-03 2020-06-03 一种非法内容识别方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN111859234A (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112634090A (zh) * 2020-12-15 2021-04-09 深圳市彬讯科技有限公司 家装信息举报管理方法、系统、计算机设备及存储介质
CN112733057A (zh) * 2020-11-27 2021-04-30 杭州安恒信息安全技术有限公司 网络内容安全检测方法、电子装置和存储介质
CN113204695A (zh) * 2021-05-12 2021-08-03 北京百度网讯科技有限公司 网站识别方法和装置
CN113505317A (zh) * 2021-06-15 2021-10-15 山东伏羲智库互联网研究院 一种违规广告识别方法、装置、电子设备及存储介质
CN113505287A (zh) * 2021-06-24 2021-10-15 微梦创科网络科技(中国)有限公司 一种网站链接检测方法及系统
CN113852611A (zh) * 2021-09-09 2021-12-28 上海理想信息产业(集团)有限公司 网站拦截平台的ip引流方法、计算机设备及存储介质
CN115643044A (zh) * 2022-09-13 2023-01-24 烽台科技(北京)有限公司 数据处理方法、装置、服务器及存储介质
CN116070040A (zh) * 2021-11-02 2023-05-05 中国移动通信集团广东有限公司 基于页面跳转的非法网站识别方法及装置
CN118227871A (zh) * 2024-01-08 2024-06-21 华南师范大学 基于用户类型的人工智能治理网络内容方法和机器人

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103795748A (zh) * 2012-10-30 2014-05-14 工业和信息化部电信传输研究所 一种移动互联网网站内容信息下载的方法
US20140279614A1 (en) * 2013-03-14 2014-09-18 Wayne D. Lonstein Methods and systems for detecting, preventing and monietizing attempted unauthorized use and unauthorized use of media content
CN110324313A (zh) * 2019-05-23 2019-10-11 平安科技(深圳)有限公司 基于蜜罐系统的恶意用户的识别方法及相关设备
CN110336811A (zh) * 2019-06-29 2019-10-15 上海淇馥信息技术有限公司 一种基于蜜罐系统的网络威胁分析方法、装置和电子设备
CN110619075A (zh) * 2018-06-04 2019-12-27 阿里巴巴集团控股有限公司 一种网页识别方法与设备

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103795748A (zh) * 2012-10-30 2014-05-14 工业和信息化部电信传输研究所 一种移动互联网网站内容信息下载的方法
US20140279614A1 (en) * 2013-03-14 2014-09-18 Wayne D. Lonstein Methods and systems for detecting, preventing and monietizing attempted unauthorized use and unauthorized use of media content
CN110619075A (zh) * 2018-06-04 2019-12-27 阿里巴巴集团控股有限公司 一种网页识别方法与设备
CN110324313A (zh) * 2019-05-23 2019-10-11 平安科技(深圳)有限公司 基于蜜罐系统的恶意用户的识别方法及相关设备
CN110336811A (zh) * 2019-06-29 2019-10-15 上海淇馥信息技术有限公司 一种基于蜜罐系统的网络威胁分析方法、装置和电子设备

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112733057A (zh) * 2020-11-27 2021-04-30 杭州安恒信息安全技术有限公司 网络内容安全检测方法、电子装置和存储介质
CN112634090A (zh) * 2020-12-15 2021-04-09 深圳市彬讯科技有限公司 家装信息举报管理方法、系统、计算机设备及存储介质
CN113204695A (zh) * 2021-05-12 2021-08-03 北京百度网讯科技有限公司 网站识别方法和装置
CN113204695B (zh) * 2021-05-12 2023-09-26 北京百度网讯科技有限公司 网站识别方法和装置
CN113505317A (zh) * 2021-06-15 2021-10-15 山东伏羲智库互联网研究院 一种违规广告识别方法、装置、电子设备及存储介质
CN113505317B (zh) * 2021-06-15 2024-11-29 山东伏羲智库互联网研究院 一种违规广告识别方法、装置、电子设备及存储介质
CN113505287A (zh) * 2021-06-24 2021-10-15 微梦创科网络科技(中国)有限公司 一种网站链接检测方法及系统
CN113852611A (zh) * 2021-09-09 2021-12-28 上海理想信息产业(集团)有限公司 网站拦截平台的ip引流方法、计算机设备及存储介质
CN113852611B (zh) * 2021-09-09 2023-05-09 上海理想信息产业(集团)有限公司 网站拦截平台的ip引流方法、计算机设备及存储介质
CN116070040A (zh) * 2021-11-02 2023-05-05 中国移动通信集团广东有限公司 基于页面跳转的非法网站识别方法及装置
CN115643044A (zh) * 2022-09-13 2023-01-24 烽台科技(北京)有限公司 数据处理方法、装置、服务器及存储介质
CN118227871A (zh) * 2024-01-08 2024-06-21 华南师范大学 基于用户类型的人工智能治理网络内容方法和机器人

Similar Documents

Publication Publication Date Title
CN111859234A (zh) 一种非法内容识别方法、装置、电子设备及存储介质
US8972401B2 (en) Search spam analysis and detection
CN113098870B (zh) 一种网络诈骗检测方法、装置、电子设备及存储介质
CN104766014B (zh) 用于检测恶意网址的方法和系统
US9430577B2 (en) Search ranger system and double-funnel model for search spam analyses and browser protection
US10212175B2 (en) Attracting and analyzing spam postings
US8667117B2 (en) Search ranger system and double-funnel model for search spam analyses and browser protection
US9912766B2 (en) System and method for identifying a link and generating a link identifier for the link on a webpage
CN103401835A (zh) 一种展现微博页面的安全检测结果的方法及装置
US20110214163A1 (en) Automated analysis of cookies
Wondracek et al. Is the Internet for Porn? An Insight Into the Online Adult Industry.
Liao et al. Characterizing long-tail SEO spam on cloud web hosting services
US9904704B2 (en) System and method for controlling audience data and tracking
CN112347457A (zh) 异常账户检测方法、装置、计算机设备和存储介质
Koide et al. To get lost is to learn the way: Automatically collecting multi-step social engineering attacks on the web
CN113723980A (zh) 广告落地页的检测方法、装置、电子设备及存储介质
Angus et al. Enabling online advertising transparency through data donation methods
CN117056582A (zh) 一种异常网站置信度评估方法、装置、设备及存储介质
CN108804444B (zh) 信息抓取方法和装置
CN119324789B (zh) 蜜罐防护方法、装置、设备和介质
Shimamura et al. An analysis of the relationship between black-hat seo malware families leveraging information from redirected fake e-commerce scam sites
CN117221135A (zh) 数据分析方法、装置、设备及计算机可读存储介质
CN107438053B (zh) 域名识别方法、装置及服务器
CA2824977A1 (en) Online content collection
US20120323883A1 (en) Online content collection

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20201030

WD01 Invention patent application deemed withdrawn after publication