CN112328936A

CN112328936A - 一种网站识别方法、装置、设备及计算机可读存储介质

Info

Publication number: CN112328936A
Application number: CN202011203397.6A
Authority: CN
Inventors: 宋建昌; 孙学军
Original assignee: Hangzhou Anheng Information Security Technology Co Ltd
Current assignee: Hangzhou Anheng Information Security Technology Co Ltd
Priority date: 2020-11-02
Filing date: 2020-11-02
Publication date: 2021-02-05

Abstract

本申请公开了一种网站识别方法，包括根据识别指令进行网站探测，获得具有预设关键字的目标网站；对所述目标网站中的各网页进行特征提取，获得目标特征信息；根据所述目标特征信息对所述目标网站进行评估，获得网站评估值；根据所述网站评估值确定所述目标网站的网站类型；该网站识别方法可以更为快速准确的实现网站识别，保证网络安全。本申请还公开了一种网站识别装置、设备及计算机可读存储介质，均具有上述有益效果。

Description

一种网站识别方法、装置、设备及计算机可读存储介质

技术领域

本申请涉及互联网技术领域，特别涉及一种网站识别方法，还涉及一种网站识别装置、设备及计算机可读存储介质。

背景技术

随着互联网技术的快速发展，经济犯罪渐渐结合互联网演变出一些新型犯罪，而传销则是其中影响相对较大的一种犯罪形式。网络传销因为线上操作隐秘、扩散遍历以及可快速复制，使得发现和打击网络传销变得十分困难，加之互联网上的网站基数很大，靠人力识别传销网站更加难以实现。相关技术中，更多的是通过互联网舆情、线下情报采集等手段去获取网络传销疑似目标，但该种实现方式不仅命中率低，而且具有较低的准确性，难以保证网络安全和用户信息安全。

因此，如何更为快速准确的实现网站识别，保证网络安全是本领域技术人员亟待解决的问题。

发明内容

本申请的目的是提供一种网站识别方法，该网站识别方法可以更为快速准确的实现网站识别，保证网络安全；本申请的另一目的是提供一种网站识别装置、设备及计算机可读存储介质，均具有上述有益效果。

第一方面，本申请提供了一种网站识别方法，包括：

根据识别指令进行网站探测，获得具有预设关键字的目标网站；

对所述目标网站中的各网页进行特征提取，获得目标特征信息；

根据所述目标特征信息对所述目标网站进行评估，获得网站评估值；

根据所述网站评估值确定所述目标网站的网站类型。

优选的，所述根据识别指令进行网站探测，获得具有预设关键字的目标网站，包括：

当接收到所述识别指令时，利用网络爬虫技术进行网站探测，获得具有所述预设关键字的所述目标网站。

优选的，所述对所述目标网站中的各网页进行特征提取，获得目标特征信息之前，还包括：

通过所述网络爬虫技术对所述目标网站进行遍历，获得所述目标网站中的各所述网页。

优选的，所述对所述目标网站中的各网页进行特征提取，获得目标特征信息，包括：

利用网页结构化解析技术对各所述网页进行特征提取，获得推荐安置关系特征。

利用预设特征提取算法对各所述网页进行特征提取，获得目标文本特征。

优选的，所述网站识别方法还包括：

获取所述目标网站的ICP备案信息；

根据所述ICP备案信息确定所述目标网站的备案用户；

查询所述备案用户的网络信息；

对所述网络信息进行特征提取，获得所述目标特征信息。

优选的，所述根据所述网站评估值确定所述目标网站的网站类型，包括：

将所述网站评估值与预设置信度进行对比，获得对比结果；

根据所述对比结果确定目标网站的网站类型。

第二方面，本申请还公开了一种网站识别装置，包括：

网站探测模块，用于根据识别指令进行网站探测，获得具有预设关键字的目标网站；

特征提取模块，用于对所述目标网站中的各网页进行特征提取，获得目标特征信息；

网站评估模块，用于根据所述目标特征信息对所述目标网站进行评估，获得网站评估值；

网站识别模块，用于根据所述网站评估值确定所述目标网站的网站类型。

第三方面，本申请还公开了一种点击控制设备，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如上所述的任一种网站识别方法的步骤。

第四方面，本申请还公开了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如上所述的任一种网站识别方法的步骤。

本申请所提供的一种网站识别方法，包括根据识别指令进行网站探测，获得具有预设关键字的目标网站；对所述目标网站中的各网页进行特征提取，获得目标特征信息；根据所述目标特征信息对所述目标网站进行评估，获得网站评估值；根据所述网站评估值确定所述目标网站的网站类型。

可见，本申请所提供的网站识别方法，通过基于预设关键字的网站探测实现目标网站的筛选，基于指定特征的特征提取实现目标网站的评估，进而完成网站类型识别，相较于现有技术中的人工识别，该种实现方式更为快速便捷，无需人工操作即可实现互联网网站的自动识别，有效地保证了识别结果的准确性性，进一步提高了网络安全；此外，该种实现方式适用于各种类型的网站识别，具有较高的适用性。

本申请所提供的一种网站识别装置、设备及计算机可读存储介质，均具有上述有益效果，在此不再赘述。

附图说明

为了更清楚地说明现有技术和本申请实施例中的技术方案，下面将对现有技术和本申请实施例描述中需要使用的附图作简要的介绍。当然，下面有关本申请实施例的附图描述的仅仅是本申请中的一部分实施例，对于本领域普通技术人员来说，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图，所获得的其他附图也属于本申请的保护范围。

图1为本申请所提供的一种网站识别方法的流程示意图；

图2为本申请所提供的一种网站识别方法的流程示意图；

图3为本申请所提供的一种网站识别装置的结构示意图；

图4为本申请所提供的一种网站识别设备的结构示意图。

具体实施方式

本申请的核心是提供一种网站识别方法，该网站识别方法可以更为快速准确的实现网站识别，保证网络安全；本申请的另一核心是提供一种网站识别装置、设备及计算机可读存储介质，也具有上述有益效果。

为了对本申请实施例中的技术方案进行更加清楚、完整地描述，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行介绍。显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

请参考图1，图1为本申请所提供的一种网站识别方法的流程示意图，该网站识别方法可包括：

S101：根据识别指令进行网站探测，获得具有预设关键字的目标网站；

本步骤旨在实现目标网站的探测，基于预设关键字的网站探测实现，其中，目标网站是指需要识别的某一类型的互联网网站，如购物网站、交友网站、传销网站等。当然，该目标网站的数量并不唯一，可以理解的是，对互联网中的所有网站进行网站探测，所获得的目标网站的数量一般为多个。

具体而言，当接收到识别指令时，即可对互联网中的各个网站进行预设关键字的网站探测，获得具有该预设关键字的目标网站。其中，预设关键字对应于目标网站，不同的目标网站可能对应于不同的预设关键字，当需要进行某一类别的网站识别时，采用该网站对应的预设关键字即可。例如，对于购物网站的识别，其对应的预设关键字可以为“价格”、“购物券”、“退货”等，对于交友网站的识别，其对应的预设关键字可以为“交友”、“年龄”、“兴趣”等，对于传销网站的识别，其对应的预设关键字可以为“传销”、“诈骗”等。此外，该预设关键字的具体内容可以通过对识别指令进行解析操作获得，也可以由技术人员直接输入设定，本申请对此不做限定。

作为一种优选实施例，上述根据识别指令进行网站探测，获得具有预设关键字的目标网站，可以包括：当接收到识别指令时，利用网络爬虫技术进行网站探测，获得具有预设关键字的目标网站。

本优选实施例提供了一种具体的目标网站的获取方法，即基于网络爬虫技术实现，当接收到识别指令时，可以直接利用网络爬虫爬取互联网中具有预设关键字的目标网站。其中，网络爬虫技术是一种按照一定的规则，自动地抓取万维网信息的程序或脚本的技术，效率高且覆盖面广泛，具有较高的准确性。

S102：对目标网站中的各网页进行特征提取，获得目标特征信息；

本步骤旨在实现特征提取，获得目标网站中的目标特征信息，具体是对目标网站中的各个网页进行特征提取。其中，目标特征信息类似于上述预设关键字，不同类型的网站所需提取的特征信息不同，根据所需识别的网站类型设定需要提取的特征内容即可，例如，对于购物网站，需要提取的目标特征信息可以为交易下单特征、用户评价特征等，对于传销网站，需要提取的目标特征信息可以为推荐安置关系特征、奖金制度特征等。需要说明的是，特征提取的具体实现方法并不影响本技术方案的实施，由技术人员根据实际情况进行设定即可，本申请对此不做限定。

作为一种优选实施例，上述对目标网站中的各网页进行特征提取，获得目标特征信息之前，还可以包括：通过网络爬虫技术对目标网站进行遍历，获得目标网站中的各网页。

具体的，在对网页内容进行特征提取之前，还需进行目标网站中各个网页的获取，其实现过程同样可基于网络爬虫技术实现。当然，该网页获取方法仅为本优选实施例所提供的一种实现方式，还可以通过其他技术实现，如正则表达式等，本申请对此不做限定。

作为一种优选实施例，上述对目标网站中的各网页进行特征提取，获得目标特征信息，可以包括：利用网页结构化解析技术对各网页进行特征提取，获得推荐安置关系特征。

本优选实施例提供了一种具体类型的特征信息，即推荐安置关系特征，通过网页结构化解析技术可以获得目标网站中的推荐安置关系特征。具体的，对传销网站而言，当用户需要在该网站进行注册时，一般需要在表单输入框中提交推荐码或安置关系人等，因此，可以通过页面结构化解析技术对表单输入框进行识别，获得推荐安置关系特征。其中，页面结构化解析技术是一种根据xml结构规则，对html文本进行结构化的技术，常见的工具有Dom4j、Jsoup等。

作为一种优选实施例，上述对目标网站中的各网页进行特征提取，获得目标特征信息，可以包括：利用预设特征提取算法对各网页进行特征提取，获得目标文本特征。

本优选实施例提供了另一种具体类型的特征信息，即目标文本特征，通过预设特征提取算法可以获得目标网站中的目标文本特征，该目标文本特征类似于上述预设关键字，具体可以是预先指定的某一类特征的文本信息。其中，预设特征提取算法可以为任意一种可用于实现特征信息提取的算法，如文章关联性算法、向量机算法、语义分析算法、图片识别算法等。

作为一种优选实施例，该网站识别方法还可以包括：获取目标网站的ICP备案信息；根据ICP(Internet Content Provider，网络内容服务商)备案信息确定目标网站的备案用户；查询备案用户的网络信息；对网络信息进行特征提取，获得目标特征信息。

本优选实施例提供了另一种获取目标特征信息的实现方式，即基于ICP备案信息实现。其中，ICP是指为向广大用户提供互联网信息业务和增值业务的电信运营商，是经国家主管部门批准的正式运营企业或部门，国家对经营性互联网信息服务实行许可制度，对非经营性互联网信息服务实行备案制度，未取得许可或者未履行备案手续的，不得从事互联网信息服务，因此，通过ICP备案信息可以将企事业单位、个人和互联网网站关联起来。具体的，首先根据ICP备案信息确定目标网站的备案用户，进一步对备案用户的网络信息进行特征提取，获得目标特征信息，其中，备案用户的网络信息包括但不限于相关网络舆情、软文等。

S103：根据目标特征信息对目标网站进行评估，获得网站评估值；

本步骤旨在实现网站评估，根据所提取的目标特征信息对目标网站进行评估即可获得网站评估值，该网站评估值用于实现目标网站的网站类型识别。具体的，在网站评估过程中，可以通过预设的算法模型将提取到的目标特征信息进行数值化，获得上述网站评估值。

S104：根据网站评估值确定目标网站的网站类型。

本步骤旨在实现网站类型的确定，即确定该目标网站是否属于某一特定类型的网站，根据网站评估值进行确定即可，具体可以参照预设的评估等级表、标准评估值等实现。

作为一种优选实施例，上述根据网站评估值确定目标网站的网站类型，可以包括：将网站评估值与预设置信度进行对比，获得对比结果；根据对比结果确定目标网站的网站类型。

本优选实施例提供了一种具体的网站类型的确定方法，即基于预设置信度实现，通过将网站评估值与预设置信度进行对比确定目标网站的网站类型。例如，当网站评估值超出预设置信度时，则认为该目标网站属于某一类型的网站，否则判定不属于该类型。当然，上述预设置信度的具体取值并不影响本技术方案的实施，由技术人员根据实际情况进行设定即可，本申请对此不做限定。

本申请实施例提供了另一种网站识别方法。

本申请实施例所提供的网站识别方法，以识别传销网站为例对该网站识别方法进行介绍，请参考图2，图2为本申请所提供的一种网站识别方法的流程示意图，该网站识别方法的具体实现流程可包括：

步骤一、通过网络爬虫技术在互联网中探测网站，寻找存在传销关键词或者推荐安置关系关键词的网站(目标网站)。

步骤二、对于符合条件的网站，利用深度爬虫技术遍历得到该网站下所有的子页内容。

步骤三、对于网站下所有的页面内容，利用网页结构化解析技术，识别获得推荐安置特征信息：

(1)将页面通过网页结构化解析技术进行结构化处理，此处可以使用Jsoup工具，可以更加快速的找到页面内的表单和输入框内容；

(2)识别获得推荐安置特征信息：分析页面中每一个表单中的输入框，判断输入框是否与推荐安置关系关键词相关联，若关联，则认为符合推荐安置特征。

步骤四、利用传销奖金制度识别技术对页面内容进行分析，判断该网站是否存在奖金制度；其中，传销奖金制度识别技术是一种基于图片识别和语义分析的传销项目奖金制度的智能识别方法，可以通过新词发现、文章关联性算法、特征提取和支持向量机等获得传销项目的奖金制度疑似文本，并通过图片识别和数字梯度矩阵精确判断出传销项目的奖金制度。

步骤五、利用ICP备案信息识别获得奖金制度特征：

(1)获取该网站的ICP备案信息；

(2)通过ICP备案信息进行运营主体企业的获取，若能够获取到备案公司，则根据备案公司查询到相关的互联网舆情和宣传软文；

(3)利用传销奖金制度识别技术识别舆情和软文中是否存在传销奖金制度；

(4)对于存在奖金制度的网页，获取其在搜索引擎上的pagerank值(网页排名)并记录。

步骤六、建立传销算法模型将步骤三、四、五中的分析结果进行数值化，获得该网站的评估值，假设：

(1)网站存在推荐安置关系特征的分值为：f(x)＝ln(x)，(0<＝x)，其中x为与推荐安置关系关键词相关联的表单输入框的出现次数；

(2)网站本身存在奖金制度的分值为：g(n)＝n，其中n为常数；

(3)网站对应企业的舆情或软文中存在奖金制度的单个网页分值为：o(g)＝g，其中g为pagerank值；则该匹配项的总值为

其中m为存在奖金制度的舆情或软文存在的次数；

由此，该网站的最终评估结果为F(x,z,m)＝f(x)+g(n)+O(m)。

步骤七、根据网站评估结果F确定该网站是否处于传销网站，F取值越大，代表该网站为传销网站的几率越大，此处，可预先设定最小置信度y，当网站评估结果F大于y时，即可判定该网站为传销网站。

基于以上阐述可知，该传销网站的识别方法能够通过网络爬虫技术、页面结构化解析技术、传销网站特征识别技术等，从互联网中获取存在推荐安置关系的网站，对此类网站进行深度扫描，挖掘奖金制度证据，同时通过调取ICP备案信息得到网站运营主体，爬取运营主体相关的舆情和软文，挖掘奖金制度证据，最终达到网络传销挖掘和识别的目的，其中，通过对推荐安置关系识别、网站奖金制度识别、运营主体舆情分析这三个维度的分析结果进行建模分析，能够更加准确的对疑似传销主体进行评分，进而保证识别结果的准确性。

可见，本申请实施例所提供的网站识别方法，通过基于预设关键字的网站探测实现目标网站的筛选，基于指定特征的特征提取实现目标网站的评估，进而完成网站类型识别，相较于现有技术中的人工识别，该种实现方式更为快速便捷，无需人工操作即可实现互联网网站的自动识别，有效地保证了识别结果的准确性性，进一步提高了网络安全；此外，该种实现方式适用于各种类型的网站识别，具有较高的适用性。

为解决上述技术问题，本申请还提供了一种网站识别装置，请参考图3，图3为本申请所提供的一种网站识别装置的结构示意图，该网站识别装置可包括：

网站探测模块1，用于根据识别指令进行网站探测，获得具有预设关键字的目标网站；

特征提取模块2，用于对目标网站中的各网页进行特征提取，获得目标特征信息；

网站评估模块3，用于根据目标特征信息对目标网站进行评估，获得网站评估值；

网站识别模块4，用于根据网站评估值确定目标网站的网站类型。

可见，本申请实施例所提供的网站识别装置，通过基于预设关键字的网站探测实现目标网站的筛选，基于指定特征的特征提取实现目标网站的评估，进而完成网站类型识别，相较于现有技术中的人工识别，该种实现方式更为快速便捷，无需人工操作即可实现互联网网站的自动识别，有效地保证了识别结果的准确性性，进一步提高了网络安全；此外，该种实现方式适用于各种类型的网站识别，具有较高的适用性。

作为一种优选实施例，上述网站探测模块1可具体用于当接收到识别指令时，利用网络爬虫技术进行网站探测，获得具有预设关键字的目标网站。

作为一种优选实施例，该网站识别装置还可包括网页获取模块，用于在上述对目标网站中的各网页进行特征提取，获得目标特征信息之前，通过网络爬虫技术对目标网站进行遍历，获得目标网站中的各网页。

作为一种优选实施例，上述特征提取模块2可具体用于利用网页结构化解析技术对各网页进行特征提取，获得推荐安置关系特征。

作为一种优选实施例，上述特征提取模块2可具体用于利用预设特征提取算法对各网页进行特征提取，获得目标文本特征。

作为一种优选实施例，该网站识别装置还可包括备案特征提取模块，用于获取目标网站的ICP备案信息；根据ICP备案信息确定目标网站的备案用户；查询备案用户的网络信息；对网络信息进行特征提取，获得目标特征信息。

作为一种优选实施例，上述网站识别模块4可具体用于将网站评估值与预设置信度进行对比，获得对比结果；根据对比结果确定目标网站的网站类型。

对于本申请提供的装置的介绍请参照上述方法实施例，本申请在此不做赘述。

为解决上述技术问题，本申请还提供了一种网站识别设备，请参考图4，图4为本申请所提供的一种网站识别设备的结构示意图，该网站识别设备可包括：

存储器10，用于存储计算机程序；

处理器20，用于执行计算机程序时可实现如上述任意一种网站识别方法的步骤。

对于本申请提供的设备的介绍请参照上述方法实施例，本申请在此不做赘述。

为解决上述问题，本申请还提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时可实现如上述任意一种网站识别方法的步骤。

该计算机可读存储介质可以包括：U盘、移动硬盘、只读存储器(Read-OnlyMemory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

对于本申请提供的计算机可读存储介质的介绍请参照上述方法实施例，本申请在此不做赘述。

说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM或技术领域内所公知的任意其它形式的存储介质中。

以上对本申请所提供的技术方案进行了详细介绍。本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想。应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以对本申请进行若干改进和修饰，这些改进和修饰也落入本申请的保护范围内。

Claims

1.一种网站识别方法，其特征在于，包括：

根据所述网站评估值确定所述目标网站的网站类型。

2.根据权利要求1所述的网站识别方法，其特征在于，所述根据识别指令进行网站探测，获得具有预设关键字的目标网站，包括：

3.根据权利要求2所述的网站识别方法，其特征在于，所述对所述目标网站中的各网页进行特征提取，获得目标特征信息之前，还包括：

4.根据权利要求1所述的网站识别方法，其特征在于，所述对所述目标网站中的各网页进行特征提取，获得目标特征信息，包括：

5.根据权利要求1所述的网站识别方法，其特征在于，所述对所述目标网站中的各网页进行特征提取，获得目标特征信息，包括：

6.根据权利要求1至5任意一项所述的网站识别方法，其特征在于，还包括：

获取所述目标网站的ICP备案信息；

根据所述ICP备案信息确定所述目标网站的备案用户；

查询所述备案用户的网络信息；

对所述网络信息进行特征提取，获得所述目标特征信息。

7.根据权利要求6所述的网站识别方法，其特征在于，所述根据所述网站评估值确定所述目标网站的网站类型，包括：

将所述网站评估值与预设置信度进行对比，获得对比结果；

根据所述对比结果确定目标网站的网站类型。

8.一种网站识别装置，其特征在于，包括：

9.一种网站识别设备，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如权利要求1至7任一项所述的网站识别方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的网站识别方法的步骤。