[go: up one dir, main page]

CN109255024A - 一种异常用户同党的搜索方法,装置,及系统 - Google Patents

一种异常用户同党的搜索方法,装置,及系统 Download PDF

Info

Publication number
CN109255024A
CN109255024A CN201710566597.XA CN201710566597A CN109255024A CN 109255024 A CN109255024 A CN 109255024A CN 201710566597 A CN201710566597 A CN 201710566597A CN 109255024 A CN109255024 A CN 109255024A
Authority
CN
China
Prior art keywords
user
target members
ally
abnormal
abnormal user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710566597.XA
Other languages
English (en)
Inventor
尉鑫伟
邵王镇
韩晓璇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Che Bole (beijing) Mdt Infotech Ltd
Original Assignee
Che Bole (beijing) Mdt Infotech Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Che Bole (beijing) Mdt Infotech Ltd filed Critical Che Bole (beijing) Mdt Infotech Ltd
Priority to CN201710566597.XA priority Critical patent/CN109255024A/zh
Publication of CN109255024A publication Critical patent/CN109255024A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请实施例公开了一种异常用户同党的搜索方法,装置,及系统,本申请实施例示出的搜索方法,一方面通过“收集”与“聚类”方式的结合将凌乱的基础数据整合成以用户为单位的有序数据,在搜索过程中无需遍历多个列表,减少终端与应用平台服务器之间的访问次数;进一步,本申请实施例示出的搜索方法,首先,在众多用户中搜索出异常用户之间的具有直接的关联关系的目标成员,然后通过目标成员的发文内容,确定异常用户同党,可见本申请实施例示出的方法,仅需分析目标成员的发文内容,大大减少了应用平台服务器处理的数据量,进一步,缩短了应用平台服务器的等待时间,提高了系统带宽、数据库等资源的利用率。

Description

一种异常用户同党的搜索方法,装置,及系统
技术领域
本发明涉及信息搜索技术领域,特别涉及一种异常用户同党的搜索方法,装置,及系统。
背景技术
随着互联网技术的发展,基于互联网的应用服务系统也越来越多。典型的基于互联网的应用服务系统如图1所示,这个系统一般有一个应用平台服务器1,以及,与其连接的数据存储服务器2,该数据存储服务器2设置在平台服务器1内部或独立设置,以及,与应用平台服务器1通过互联网3或移动互联网3连接的终端4,通常,应用平台服务器1为终端4提供应用服务。
用户异常行为监测统就是一个如图1所示的系统。在这个具体的应用系统中,用户的行为信息存储在存储服务器2中;终端4是一个安装了具有信息发布功能的用户APP(Application,应用程序);应用平台服务器1通过用户行为的监测,以及,对用户行为的甄别,找出异常用户同党。具体的,首先,用户启动终端4,应用平台服务器1实时的监测每个终端1上的用户行为信息,应用平台服务器1通过对用户行为的甄别,确定一个终端1上的用户为异常行为用户;应用平台服务器1首先确定所述异常用户的发帖IP,然后,遍历发帖IP列表,筛选出相同发帖IP用户,形成相同发帖IP集,所述相同发帖IP用户为发帖IP与异常用户的发帖IP相同的用户,相同发帖IP集中,遍历注册IP列表,筛选出相同注册IP用户,所述相同注册IP用户为注册IP与异常用户的注册IP相同的用户,依次遍历其他列表,然后将具有相同用户行为的用户筛选出来,最终找出异常用户同党。
但是,发明人发现现有技术提供的在异常用户同党的搜索过程中,存在搜索操作效率低以及,搜索操作过多占用系统资源的问题。例如,应用平台服务器1需要通过分析4项用户行为,最终,找出异常用户同党,在此过程中,应用平台服务器1需要遍历4个相关列表搜索出与异常行为用户具有相同用户行为的用户,最终找出异常用户同党。应用平台服务器1在遍历4个相关列表的过程中,用户异常行为监测系统的应用平台服务器1长时间处于等待状态,降低了系统带宽、数据库等资源的利用率。
发明内容
本发明的发明目的在于提供一种异常用户同党的搜索方法,装置,及系统,以解决现有的用户异常行为监测统,存在搜索操作效率低以及,搜索操作过多占用系统资源的问题。
根据本发明的实施例,提供了一种异常用户同党的搜索方法,包括:
获取用户数据表中的基础数据;
以用户为单位,将所述基础数据进行聚类,生成用户维度统计表;
筛选出所述用户维度统计表中的目标成员,所述目标成员与异常用户之间的具有直接的关联关系;根据所述目标成员的发文内容,确定异常用户同党。
本申请实施例第二方面示出的一种异常用户同党的搜索装置,包括:
数据获取单元,用于获取用户数据表中的基础数据;
聚类单元,用于以用户为单位,将所述基础数据进行聚类,生成用户维度统计表;
第一筛选单元,用于筛选出所述用户维度统计表中的目标成员;
第二筛选单元,用于根据所述目标成员的发文内容,确定异常用户同党。
本申请实施例第三方面示出的一种异常用户同党的搜索系统,包括,应用平台服务器,与所述应用平台服务器连接的数据存储服务器,所述数据存储服务器设置在所述应用平台服务器内部或独立设置,以及,与应用平台服务器通过互联网或移动互联网连接的终端;
所述终端,用于接收用户数据表的基础数据,并将所述用户数据表的基础数据上传至应用平台服务器;
所述应用平台服务器,用于获取用户数据表中的基础数据;
以用户为单位,将所述基础数据进行聚类,生成用户维度统计表;
筛选出所述用户维度统计表中的目标成员,所述目标成员与异常用户之间的具有直接的关联关系;
根据所述目标成员的发文内容,确定异常用户同党;
所述数据存储服务器,用于相关数据的存储。
由以上技术方案可知,本申请实施例示出的异常用户同党的搜索方法,装置,及系统,通过一个脚本实时的获取用户数据表中的基础数据,然后以用户为单位,将所述基础数据进行聚类,生成用户维度统计表;获得与异常用户账号关联的目标成员,分析目标成员的发文内容,进而确定异常用户同党。由于本申请实施例示出的方法,首先,收集用户数据表中的基础数据,然后,将基础数据进行聚类,在搜索操作过程中,仅需遍历聚类后的基础数据,便可识别出与异常用户之间的具有直接的关联关系的目标成员,然后通过目标成员的发文内容,确定异常用户同党。
本申请实施例示出的搜索方法,一方面通过“收集”与“聚类”方式的结合将凌乱的基础数据整合成以用户为单位的有序数据,在搜索过程中无需遍历多个列表,减少了终端与应用平台服务器之间的访问次数,缩短了应用平台服务器的等待时间,提高了系统带宽、数据库等资源的利用率。
进一步,本申请实施例示出的搜索方法,首先,在众多用户中搜索出异常用户之间的具有直接的关联关系的目标成员,然后通过目标成员的发文内容,确定异常用户同党,可见本申请实施例示出的方法,仅需分析目标成员的发文内容,大大减少了应用平台服务器处理的数据量,进一步,缩短了应用平台服务器的等待时间,提高了系统带宽、数据库等资源的利用率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为基于互联网的应用服务系统的场景示意图;
图2为根据一优选实施例示出的一种异常用户同党的搜索方法的流程图;
图3为根据一优选实施例示出用户维度统计表的显示界面;
图4为根据一优选实施例示出步骤S101的详细流程图;
图5为根据一优选实施例示出步骤S104的详细流程图;
图6为根据又一优选实施例示出步骤S104的详细流程图;
图7为根据再一优选实施例示出步骤S104的详细流程图;
图8为根据一优选实施例示出的一种异常用户同党的搜索装置的结构框图;
图9-1为根据一优选实施例示出的一种异常用户同党的搜索系统的结构框图;
图9-2为根据又一优选实施例示出的一种异常用户同党的搜索系统的结构框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本申请使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本申请实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本申请可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本申请范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”
请参阅图1,本申请实施例示出一种异常用户同党的搜索方法,所述方法包括:
S101获取用户数据表中的基础数据;
其中,不同业务的应用平台服务器可以支持不同的业务,并能获取到对应业务的用户数据表,例如,金融业务应用平台服务器获取金融业务的用户数据表,认证业务服务器获取认证业务用户数据表;
本申请实施例通过一个脚本收集所有终端的基础数据,并将所述基础数据存储于用户数据表中,应用平台服务器获取用户数据表中的基础数据,并将所述基础数据聚类。
S102以用户为单位,将所述基础数据进行聚类,生成用户维度统计表;
请参阅图3,本申请实施例示出用户维度统计表的显示界面如图3所示,本申请实施例将用户数据表中的基础数据重新聚类,并以图3的展示形式进行显示。
S103筛选出所述用户维度统计表中的目标成员,所述目标成员与异常用户之间的具有直接的关联关系;
其中,对于不同类型的业务来说,其对应的用于识别异常用户的指标不同,例如,对于认证业务来说,可以将认证失败次数超过认证阈值的用户被认定为异常用户又例如,对于金融业务来说,可以将在一天内转账次数超过转账阈值的用户被认定为异常用户,对于一些评论性的业务,例如:微博上的恶意性的评论,或一些“水军”,异常用户的确定过程为:首先,终端向应用平台服务器发送可疑用户的发文内容,应用平台服务器通过对可疑用户的发文内容,以及,所述可疑用户的历史发文内容,经过分析确定该用户是否为异常用户。当确定该用户为异常用户时,应用平台服务器获取异常用户的行为信息。
本实施例中,识别设备可以采用ETL(Extract-Transform-Load,萃取-转置-加载)方式加工异常用户与目标成员维度关系,最终找出包括:初始可疑成员账号和潜在可疑成员账号的目标成员。
所述目标成员为:与异常用户之间的具有直接的关联关系的用户;例如:与异常用户具有相同注册IP的用户,与异常用户具有相同发帖IP的用户;与异常用户具有相同发帖IP的用户;与异常用户具有相同设备号的用户。
S104根据所述目标成员的发文内容,确定异常用户同党。
筛选出目标成员后,依次分析目标成员的发文内容,根据分析结果确定所述目标成员是否为异常用户同党。
通常异常用户同党之间的发文内容存在一些关联,例如,对某一篇文章的评论,或者,用过激的语言去评价某一个人,或某一件事,再或者,对一个人或者事物过度的赞扬等等。应用平台服务器根据所述目标成员的发文内容,确定异常用户同党。
实施例1:
首先,终端实时的记录下来用户在注册、登录、发表内容、评论时,相关的IP和设备号等基础数据。应用平台服务器通过定时脚本持续监控用户的注册用户数据表、登录用户数据表、发表内容用户数据表、评论数据用户列表等用户数据列表的基础数据。
值得注意的是,本申请实施例中的基础数据包括用户的行为信息和用户的发文信息,用户的评论信息等等。
应用平台管理器以用户为单位,将所述基础数据进行聚类,生成用户维度统计表。展示各用户的注册时间、注册IP、最后登录IP、最后登录地区、最后发帖IP、最后发帖设备号、发表的评论数、回复评论数等基础数据。
然后,以异常用户的注册时间,和/或,注册IP,和/或,最后登录IP,和/或,最后登录地区,和/或,最后发帖IP,和/或,最后发帖设备号等行为信息为关键字,搜索与所述异常用户相关联的目标成员。
所述目标成员包括:与异常用户具有相同注册IP的用户,与异常用户具有相同发帖IP的用户;与异常用户具有相同发帖IP的用户;与异常用户具有相同设备号的用户等等。
筛选出目标成员后,依次分析目标成员的发文内容,根据分析结果确定所述目标成员是否为异常用户同党。
本申请实施例示出的搜索方法,一方面通过“收集”与“聚类”方式的结合将凌乱的基础数据整合成以用户为单位的有序数据,在搜索过程中无需遍历多个列表,减少了终端与应用平台服务器之间的访问次数,缩短了应用平台服务器的等待时间,提高了系统带宽、数据库等资源的利用率。
进一步,本申请实施例示出的搜索方法,首先,在众多用户中搜索出异常用户之间的具有直接的关联关系的目标成员,然后通过目标成员的发文内容,确定异常用户同党,可见本申请实施例示出的方法,仅需分析目标成员的发文内容,大大减少了应用平台服务器处理的数据量,进一步,缩短了应用平台服务器的等待时间,提高了系统带宽、数据库等资源的利用率。
可选择的,为了进一步提高搜索效率,本申请实施例示出了一种,基础数据获取方法的详细步骤:
请参阅图4,实施例1示出的方法中步骤S101步骤包括:
S1011每间隔预置时间段,扫描一次用户数据表;
本申请实施例示出的方法采用“增量更新”的方法实时的获取基础数据。
具体的,在基础数据的获取过程中,本申请实施例采用“增量更新”的方法获取基础数据,就是只扫描用户数据表在当前预置时间段内变化的基础数据,这样就需要根据用户数据表中每条基础数据发生变化的预置时间去扫描和筛选出变化的基础数据。
S1012获取所述用户数据表在所述预置时间段内增加的基础数据。
本申请实施例示出的方法只获取预置时间段内增加的基础数据,在预置时间段内增加的基础数据中搜索出目标成员,可见本申请实施例示出的方法大大减少了应用平台服务器处理的数据量,进一步,缩短了应用平台服务器的等待时间,提高了系统带宽、数据库等资源的利用率。
实施例2:
首先,终端实时的记录下来用户在注册、登录、发表内容、评论时,相关的IP和设备号等行为信息。应用平台服务器通过定时脚本每隔预置时间段扫描一回,用户的注册用户数据表、登录用户数据表、发表内容用户数据表、评论数据用户列表等用户数据列表,并将预置时间段内增加的基础数据的记录。
应用平台管理器以用户为单位,将所述预置时间段内增加的基础数据进行聚类,生成用户维度统计表,并展示各用户的注册时间、注册IP、最后登录IP、最后登录地区、最后发帖IP、最后发帖设备号、发表的评论数、回复评论数等基础数据。
然后,以异常用户的注册时间,和/或,注册IP,和/或,最后登录IP,和/或,最后登录地区,和/或,最后发帖IP,和/或,最后发帖设备号等行为信息为关键字,搜索与所述异常用户相关联的目标成员。
本申请实施例2示出的方法只获取预置时间段内增加的基础数据,在预置时间段内增加的基础数据中搜索出目标成员,可见本申请实施例示出的方法大大减少了应用平台服务器处理的数据量,进一步,缩短了应用平台服务器的等待时间,提高了系统带宽、数据库等资源的利用率。
通常情况下,目标成员与异常用户之间的相似度越高,目标成员是异常用户同党的可能性越大,在此条件下,如果优先对与异常用户相似度高的目标成员的发文内容进行分析,将会更早的异常用户同党,进一步提高搜索效率。
为了进一步提高搜索效率,本申请实施例示出了一种对目标成员发文内容的分析顺序的详细步骤:
请参阅图5,实施例1示出的方法中步骤S104步骤包括:
S10411分别计算出所述目标成员的维度与所述异常用户的维度之间的相似度;
以异常用户的注册时间,和/或,注册IP,和/或,最后登录IP,和/或,最后登录地区,和/或,最后发帖IP,和/或,最后发帖设备号等行为信息为关键字,搜索与所述异常用户相关联的目标成员,分别计算出所述目标成员的维度与所述异常用户的维度之间的相似度;所述维度包括:注册IP,登入IP,发帖IP,以及,设备号四个维度。
S10412按照所述相似度由大到小的顺序,依次识别所述目标成员的发文内容,确定异常用户同党。
其中,相似度由大到小的顺序为:目标成员的注册IP,登入IP,发帖IP,以及,设备号均与异常用户的注册IP,登入IP,发帖IP,以及,设备号相同,相似度为100%。
目标成员的注册IP,登入IP,发帖IP,以及,设备号中的3个维度均与异常用户的注册IP,登入IP,发帖IP,以及,设备号中的3个维度相同,相似度为75%。
目标成员的注册IP,登入IP,发帖IP,以及,设备号中的2个维度均与异常用户的注册IP,登入IP,发帖IP,以及,设备号中的2个维度相同,相似度为50%。
目标成员的注册IP,登入IP,发帖IP,以及,设备号中的1个维度均与异常用户的注册IP,登入IP,发帖IP,以及,设备号中的1个维度相同,相似度为25%。
实施例3:
首先,终端实时的记录下来用户在注册、登录、发表内容、评论时,相关的IP和设备号等行为信息。应用平台服务器通过定时脚本持续监控用户的注册用户数据表、登录用户数据表、发表内容用户数据表、评论数据用户列表等用户数据列表的基础数据。
应用平台管理器以用户为单位,将所述基础数据进行聚类,生成用户维度统计表。展示各用户的注册时间、注册IP、最后登录IP、最后登录地区、最后发帖IP、最后发帖设备号、发表的评论数、回复评论数等基础数据。
然后,以异常用户的注册IP,和/或,登入IP,和/或,发帖IP,和/或设备号为关键字,搜索与所述异常用户相关联的目标成员,搜索出目标成员1,目标成员2,目标成员3,以及,目标成员4;
计算目标成员1,目标成员2,目标成员3,以及,目标成员4与异常用户之间的相似度。
其中,目标成员1与异常用户之间的相似度为100%;
目标成员2与异常用户之间的相似度为75%;
目标成员3与异常用户之间的相似度为50%;
目标成员4与异常用户之间的相似度为25%;
应用平台服务器依次分析所述目标成员1,目标成员2,目标成员3,以及,目标成员4的发文内容,然后筛选出目标成员1和目标成员2为异常用户同党。
可见本申请实施例3根据目标成员与异常用户之间的相似度,来决定应用平台服务器分析发文内容的顺序,本实施例中目标成员1和目标成员2均为异常用户同党。采用本申请实施例3示出的方法,首先对目标成员1的发文内容进行分析,确定目标成员1为异常用户,然后对目标成员2的发文内容进行分析,确定目标成员2为异常用户,然后依次对目标成员3,以及,目标成员4的发文内容进行分析,然后确定目标成员3,以及,目标成员4为正常用户。可见实施例2示出的方法可在较短的时间内搜索出异常用户同党,在一定程度上提高了搜索的效率。
综上,目标成员与异常用户之间的相似度越高,目标成员是异常用户同党的可能性越大,在此条件下,如果优先对异常用户相似度高的目标成员的发文内容进行分析,将会更早的搜索出异常用户同党,进一步提高搜索效率。
通常异常用户同党之间的发文内容存在一些关联。通常异常用户同党会对同一篇文章进行评论,同一篇文章评论的人数越多,参与该文章评论的用户中存在异常用户同党的概率越高。在此条件下,优先对参与评论数多的文章进行评论的目标成员的发文内容进行分析,将会更早的异常用户同党,进一步提高搜索效率。
可选择的,为了进一步提高搜索效率,本申请又一实施例示出了一种对目标成员发文内容的分析顺序的详细步骤:
请参阅图6,实施例1示出的方法中步骤S104步骤包括:
S10421统计每篇文章参与评论的目标成员的人数;
S10422根据所述人数由大到小的顺序,依次识别所述目标成员的发文内容,确定异常用户同党。
实施例4:
首先,终端实时的记录下来用户在注册、登录、发表内容、评论时,相关的IP和设备号等行为信息。应用平台服务器通过定时脚本持续监控用户的注册用户数据表、登录用户数据表、发表内容用户数据表、评论数据用户列表等用户数据列表的基础数据。
应用平台管理器以用户为单位,将所述基础数据进行聚类,生成用户维度统计表。展示各用户的注册时间、注册IP、最后登录IP、最后登录地区、最后发帖IP、最后发帖设备号、发表的评论数、回复评论数等基础数据。
然后,以异常用户的注册IP,和/或,登入IP,和/或,发帖IP,和/或设备号为关键字,搜索与所述异常用户相关联的目标成员;
然后统计所述目标成员共参与了4个作品的评论,其中对作品1的评论人数为100人,对作品2的评论人数为75人,对作品3的评论人数为50人,对作品4的评论人数为25人。
应用平台服务器,按照人数由大到小的顺序,依次识别所述目标成员的发文内容,确定对作品1的评论人数100人中有80人为异常用户同党。
对作品2的评论人数75人中有50人为异常用户同党;
对作品3的评论人数50人中有20人为异常用户同党;
对作品3的评论人数25人中有5人为异常用户同党;
可见本申请实施例4根据参与同一篇文章的评论人数,来决定应用平台服务器分析发文内容的顺序,本申请实施例4中参与作品1的评论的目标成员中有80人,其中异常用户同党占80%。参与作品2的评论的目标成员中有50人,其中异常用户同党占66.7%。参与作品3的评论的目标成员中有20人,其中异常用户同党占40%。参与作品4的评论的目标成员中有5人,其中异常用户同党占20%。
参与同一篇作品评论的人数越多,在所述参与同一篇作品评论的目标成员中存在异常用户同党的可能性越大,在此条件下,如果优先对参与同一篇作品评论多的作品的目标成员的发文内容进行分析,将会更早的搜索出异常用户同党,进一步提高搜索效率。
进一步,缩小应用平台服务器在搜索过程中的数据处理量,本申请实施例预先分析目标成员的发文本内容,提取所述发文内容的关键字生成相应的标签,在应用平台服务器分析目标用户的发文内容的过程中,仅需对标签的内容进行分析。通过用户的发文内容与所述标签的相似度,筛选出目标成员中的异常用户同党。
具体的,请参阅图7,实施例1示出的方法中步骤S104步骤包括:
S10431分析每个目标成员的发文内容,根据分析结果生成相应的标签,将所述标签与目标成员建立联系;
S10432根据异常用户的发文内容与所述标签的相似度,筛选出目标成员中的异常用户同党。
实施例5:
首先,终端实时的记录下来用户在注册、登录、发表内容、评论时相关的IP和设备号等行为信息。应用平台服务器通过定时脚本持续监控用户的注册用户数据表、登录用户数据表、发表内容用户数据表、评论数据用户列表等用户数据列表的基础数据。
应用平台管理器以用户为单位,将所述基础数据进行聚类,生成用户维度统计表。展示各用户的注册时间、注册IP、最后登录IP、最后登录地区、最后发帖IP、最后发帖设备号、发表的评论数、回复评论数等基础数据。
然后,以异常用户的注册IP,和/或,登入IP,和/或,发帖IP,和/或设备号为关键字,搜索与所述异常用户相关联的目标成员,搜索出目标成员1,目标成员2,目标成员3,以及,目标成员4;
然后提取所述目标成员1发文内容的关键字1;
提取所述目标成员2发文内容的关键字2;
提取所述目标成员3发文内容的关键字3;
提取所述目标成员4发文内容的关键字4;
应用平台服务器依次计算所述关键字1,关键字2,关键字3,以及,关键字4与异常用户的发文内容之间的相似度,若果相似度大于预置阈值,则该目标用户为异常用户同党。
可见本申请实施例5,首先提取出所述目标用户发文内容的关键字,生成相应的标签,应用平台服务器在确定异常用户同党的过程中,仅需计算异常用户的发文内容与所述标签之间的相似度,根据异常用户的发文内容与所述标签之间的相似度,确定所述目标用户是否为异常用户同党。
可见本申请实施例5示出的方法在搜索过程中,无需对目标用户的全部发文信息进行分析,缩小应用平台服务器的数据处理量。本申请实施例5示出的方法预先分析目标成员的发文本内容,提取所述发文内容的关键字生成相应的标签,在应用平台服务器分析目标用户的发文内容的过程中,仅需对标签的内容进行分析。通过用户的发文内容与所述标签的相似度,筛选出目标成员中的异常用户同党。进一步提高搜索效率。
请参阅图8,本申请实施例第二方面示出一种异常用户同党的搜索装置,包括:
数据获取单元21,用于获取用户数据表中的基础数据;
聚类单元22,用于以用户为单位,将所述基础数据进行聚类,生成用户维度统计表;
第一筛选单元23,用于筛选出所述用户维度统计表中的目标成员;
第二筛选单元24,用于根据所述目标成员的发文内容,确定异常用户同党。
本申请实施例示出的搜索装置,一方面通过“收集”与“聚类”方式的结合将凌乱的基础数据整合成以用户为单位的有序数据,在搜索过程中无需遍历多个列表,减少了终端与应用平台服务器之间的访问次数,缩短了应用平台服务器的等待时间,提高了系统带宽、数据库等资源的利用率。
进一步,本申请实施例示出的搜索装置,首先,在众多用户中搜索出异常用户之间的具有直接的关联关系的目标成员,然后通过目标成员的发文内容,确定异常用户同党,可见本申请实施例示出的装置,仅需分析目标成员的发文内容,大大减少了应用平台服务器处理的数据量,进一步,缩短了应用平台服务器的等待时间,提高了系统带宽、数据库等资源的利用率。
请参阅图9-1,以及,9-2,本申请实施例第三方面示出一种异常用户同党的搜索系统,包括:
应用平台服务器31,与所述应用平台服务器31连接的数据存储服务器32,所述数据存储服务器32设置在所述应用平台服务器31内部或独立设置,以及,与应用平台服务器31通过互联网或移动互联网连接的终端33;
所述终端33,用于接收用户数据表的基础数据,并将所述用户数据表的基础数据上传至应用平台服务器;
所述应用平台服务器31,用于获取用户数据表中的基础数据;
以用户为单位,将所述基础数据进行聚类,生成用户维度统计表;
筛选出所述用户维度统计表中的目标成员,所述目标成员与异常用户之间的具有直接的关联关系;
根据所述目标成员的发文内容,确定异常用户同党;
所述数据存储服务器32,用于相关数据的存储。
本申请实施例示出的搜索系统,一方面通过“收集”与“聚类”方式的结合将凌乱的基础数据整合成以用户为单位的有序数据,在搜索过程中无需遍历多个列表,减少了终端与应用平台服务器之间的访问次数,缩短了应用平台服务器的等待时间,提高了系统带宽、数据库等资源的利用率。
进一步,本申请实施例示出的搜索系统,首先,在众多用户中搜索出异常用户之间的具有直接的关联关系的目标成员,然后通过目标成员的发文内容,确定异常用户同党,可见本申请实施例示出的系统,仅需分析目标成员的发文内容,大大减少了应用平台服务器处理的数据量,进一步,缩短了应用平台服务器的等待时间,提高了系统带宽、数据库等资源的利用率。
由以上技术方案可知,申请实施例示出的异常用户同党的搜索方法,装置,及系统,通过一个脚本实时的获取用户数据表中的基础数据,然后以用户为单位,将所述基础数据进行聚类,生成用户维度统计表;获得与异常用户账号关联的目标成员,分析目标成员的发文内容,进而确定异常用户同党。由于本申请实施例示出的方法,首先,收集用户数据表中的基础数据,然后,将基础数据进行聚类,在搜索操作过程中,仅需遍历聚类后的基础数据,便可识别出与异常用户之间的具有直接的关联关系的目标成员,然后通过目标成员的发文内容,确定异常用户同党。
本申请实施例示出的搜索方法,一方面通过“收集”与“聚类”方式的结合将凌乱的基础数据整合成以用户为单位的有序数据,在搜索过程中无需遍历多个列表,减少了终端与应用平台服务器之间的访问次数,缩短了应用平台服务器的等待时间,提高了系统带宽、数据库等资源的利用率。
进一步,本申请实施例示出的搜索方法,首先,在众多用户中搜索出异常用户之间的具有直接的关联关系的目标成员,然后通过目标成员的发文内容,确定异常用户同党,可见本申请实施例示出的方法,仅需分析目标成员的发文内容,大大减少了应用平台服务器处理的数据量,进一步,缩短了应用平台服务器的等待时间,提高了系统带宽、数据库等资源的利用率。
本发明可用于众多通用或专用的计算系统环境或配置中,例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。
本发明可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本发明,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由下面的权利要求指出。
应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims (10)

1.一种异常用户同党的搜索方法,其特征在于,包括:
获取用户数据表中的基础数据;
以用户为单位,将所述基础数据进行聚类,生成用户维度统计表;
筛选出所述用户维度统计表中的目标成员,所述目标成员与异常用户之间的具有直接的关联关系;
根据所述目标成员的发文内容,确定异常用户同党。
2.根据权利要求1所述的搜索方法,其特征在于,所述获取用户数据表中的基础数据的步骤包括:
每间隔预置时间段扫描一次用户数据表;
获取所述用户数据表在所述预置时间段内增加的基础数据。
3.根据权利要求1所述的搜索方法,其特征在于,所述根据目标成员的发文内容,确定异常用户同党的步骤包括:
分别计算出所述目标成员的维度与所述异常用户的维度之间的相似度;
按照所述相似度由大到小的顺序,依次识别所述目标成员的发文内容,确定异常用户同党。
4.根据权利要求1所述的搜索方法,其特征在于,所述根据目标成员的发文内容,确定异常用户同党的步骤包括:
统计每篇文章参与评论的目标成员的人数;
根据所述人数由大到小的顺序,依次识别所述目标成员的发文内容,确定异常用户同党。
5.根据权利要求1所述的搜索方法,其特征在于,所述根据目标成员的发文内容,确定异常用户同党的步骤包括:
统计同一个作者参与评论的目标成员的人数;
根据所述人数由大到小的顺序,依次识别所述目标成员的发文内容,确定异常用户同党。
6.根据权利要求1所述的搜索方法,其特征在于,所述根据目标成员的发文内容,确定异常用户同党的步骤包括:
分析每个目标成员的发文内容,根据分析结果生成相应的标签,将所述标签与目标成员建立联系;
根据异常用户的发文内容与所述标签的相似度,筛选出目标成员中的异常用户同党。
7.根据权利要求1所述的搜索方法,其特征在于,所述用户维度统计表包括:注册IP,登入IP,发帖IP,以及,设备号四个维度。
8.根据权利要求1所述的搜索方法,其特征在于,所述用户数据表包括:注册用户列表,登录用户列表,发文用户列表,以及,评论数据用户列表。
9.一种异常用户同党的搜索装置,其特征在于,包括:
数据获取单元,用于获取用户数据表中的基础数据;
聚类单元,用于以用户为单位,将所述基础数据进行聚类,生成用户维度统计表;
第一筛选单元,用于筛选出所述用户维度统计表中的目标成员;
第二筛选单元,用于根据所述目标成员的发文内容,确定异常用户同党。
10.一种异常用户同党的搜索系统,其特征在于,包括,应用平台服务器,与所述应用平台服务器连接的数据存储服务器,所述数据存储服务器设置在所述应用平台服务器内部或独立设置,以及,与应用平台服务器通过互联网或移动互联网连接的终端;
所述终端,用于接收用户数据表的基础数据,并将所述用户数据表的基础数据上传至应用平台服务器;
所述应用平台服务器,用于获取用户数据表中的基础数据;
以用户为单位,将所述基础数据进行聚类,生成用户维度统计表;
筛选出所述用户维度统计表中的目标成员,所述目标成员与异常用户之间的具有直接的关联关系;
根据所述目标成员的发文内容,确定异常用户同党;
所述数据存储服务器,用于相关数据的存储。
CN201710566597.XA 2017-07-12 2017-07-12 一种异常用户同党的搜索方法,装置,及系统 Pending CN109255024A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710566597.XA CN109255024A (zh) 2017-07-12 2017-07-12 一种异常用户同党的搜索方法,装置,及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710566597.XA CN109255024A (zh) 2017-07-12 2017-07-12 一种异常用户同党的搜索方法,装置,及系统

Publications (1)

Publication Number Publication Date
CN109255024A true CN109255024A (zh) 2019-01-22

Family

ID=65051518

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710566597.XA Pending CN109255024A (zh) 2017-07-12 2017-07-12 一种异常用户同党的搜索方法,装置,及系统

Country Status (1)

Country Link
CN (1) CN109255024A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110059725A (zh) * 2019-03-21 2019-07-26 中国科学院计算技术研究所 一种基于搜索关键词的检测恶意搜索系统及方法
WO2021143270A1 (zh) * 2020-01-14 2021-07-22 腾讯科技(深圳)有限公司 数据处理方法、装置、存储介质及设备
WO2021159766A1 (zh) * 2020-02-11 2021-08-19 腾讯科技(深圳)有限公司 一种数据识别方法、装置、设备以及可读存储介质
CN113642919A (zh) * 2021-08-27 2021-11-12 上海掌门科技有限公司 风险控制方法、电子设备和存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102571484A (zh) * 2011-12-14 2012-07-11 上海交通大学 一种检测网络水军以及找到网络水军的方法
CN102629904A (zh) * 2012-02-24 2012-08-08 安徽博约信息科技有限责任公司 一种网络水军的探测与判定方法
CN103581355A (zh) * 2012-08-02 2014-02-12 北京千橡网景科技发展有限公司 用户行为异常处理方法和设备
CN103746901A (zh) * 2013-12-26 2014-04-23 中国联合网络通信集团有限公司 信息处理方法及系统
CN104572646A (zh) * 2013-10-11 2015-04-29 富士通株式会社 异常信息确定装置和方法以及电子设备
CN105634906A (zh) * 2014-10-27 2016-06-01 青岛金讯网络工程有限公司 信息处理方法及系统
CN105630904A (zh) * 2015-12-21 2016-06-01 中国电子科技集团公司第十五研究所 一种互联网账户信息挖掘的方法和装置
US20160253328A1 (en) * 2013-10-21 2016-09-01 Zte Corporation Information collection method and device

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102571484A (zh) * 2011-12-14 2012-07-11 上海交通大学 一种检测网络水军以及找到网络水军的方法
CN102629904A (zh) * 2012-02-24 2012-08-08 安徽博约信息科技有限责任公司 一种网络水军的探测与判定方法
CN103581355A (zh) * 2012-08-02 2014-02-12 北京千橡网景科技发展有限公司 用户行为异常处理方法和设备
CN104572646A (zh) * 2013-10-11 2015-04-29 富士通株式会社 异常信息确定装置和方法以及电子设备
US20160253328A1 (en) * 2013-10-21 2016-09-01 Zte Corporation Information collection method and device
CN103746901A (zh) * 2013-12-26 2014-04-23 中国联合网络通信集团有限公司 信息处理方法及系统
CN105634906A (zh) * 2014-10-27 2016-06-01 青岛金讯网络工程有限公司 信息处理方法及系统
CN105630904A (zh) * 2015-12-21 2016-06-01 中国电子科技集团公司第十五研究所 一种互联网账户信息挖掘的方法和装置

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110059725A (zh) * 2019-03-21 2019-07-26 中国科学院计算技术研究所 一种基于搜索关键词的检测恶意搜索系统及方法
CN110059725B (zh) * 2019-03-21 2021-07-09 中国科学院计算技术研究所 一种基于搜索关键词的检测恶意搜索系统及方法
WO2021143270A1 (zh) * 2020-01-14 2021-07-22 腾讯科技(深圳)有限公司 数据处理方法、装置、存储介质及设备
WO2021159766A1 (zh) * 2020-02-11 2021-08-19 腾讯科技(深圳)有限公司 一种数据识别方法、装置、设备以及可读存储介质
CN113642919A (zh) * 2021-08-27 2021-11-12 上海掌门科技有限公司 风险控制方法、电子设备和存储介质

Similar Documents

Publication Publication Date Title
US11593894B2 (en) Interest recommendation method, computer device, and storage medium
US9424319B2 (en) Social media based content selection system
Chittaranjan et al. Who's who with big-five: Analyzing and classifying personality traits with smartphones
US9894169B2 (en) System and method for displaying contextual activity streams
CN110337059B (zh) 一种用户家庭关系的分析算法、服务器及网络系统
US20150032751A1 (en) Methods and Systems for Utilizing Subject Matter Experts in an Online Community
US20140025734A1 (en) Dynamic Community Generation Based Upon Determined Trends Within a Social Software Environment
Caetano et al. Analyzing and characterizing political discussions in WhatsApp public groups
CN112104642A (zh) 一种异常账号确定方法和相关装置
CN104157065B (zh) 一种网络投票方法和装置
CN109255024A (zh) 一种异常用户同党的搜索方法,装置,及系统
CN107515915A (zh) 基于用户行为数据的用户标识关联方法
KR20150096295A (ko) 문답 데이터베이스 구축 시스템 및 방법, 그리고 이를 이용한 검색 시스템 및 방법
Chavoshi et al. On-demand bot detection and archival system
KR101559719B1 (ko) 효과적인 마케팅을 도출하는 자동학습 시스템 및 방법
CN107766234A (zh) 一种基于移动设备的网页健康度的测评方法、装置及系统
CN105976226A (zh) 一种互联网电子商务平台
CN107832333B (zh) 基于分布式处理和dpi数据构建用户网络数据指纹的方法和系统
CN106713950A (zh) 一种基于用户行为预测分析的视频服务系统
Gupta et al. Suicidal tendency on social media: a case study
CN110944290B (zh) 一种伴随关系的分析方法及装置
US20190197069A1 (en) Social Media Based Content Selection System
CN117611256A (zh) 基于银行大数据的双向营销方法及系统
CN106547913B (zh) 页面信息的收集分类反馈方法、装置及系统
Wu et al. Towards better understanding of app transitions in mobile search

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20190122

RJ01 Rejection of invention patent application after publication