CN114912008A - 用户画像构建方法、系统、计算机设备及存储介质 - Google Patents
用户画像构建方法、系统、计算机设备及存储介质 Download PDFInfo
- Publication number
- CN114912008A CN114912008A CN202110182298.2A CN202110182298A CN114912008A CN 114912008 A CN114912008 A CN 114912008A CN 202110182298 A CN202110182298 A CN 202110182298A CN 114912008 A CN114912008 A CN 114912008A
- Authority
- CN
- China
- Prior art keywords
- user
- tag
- label
- rule
- attribute data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2455—Query execution
- G06F16/24564—Applying rules; Deductive queries
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Fuzzy Systems (AREA)
- Mathematical Physics (AREA)
- Probability & Statistics with Applications (AREA)
- Software Systems (AREA)
- Stored Programmes (AREA)
Abstract
本申请公开了一种用户画像构建方法、系统、计算机设备及存储介质。所述用户画像构建方法包括:获取用户属性数据和预设的标签生成规则;基于标签生成规则和用户属性数据,构建用户画像。本申请的用户画像构建方法,有利于标签生成规则的管理,降低维护成本,实时性高,有利于提高效率,同时保证实际运营业务的正常进行。
Description
技术领域
本发明一般涉及计算机技术领域,具体涉及一种用户画像构建方法、系统、计算机设备及存储介质。
背景技术
用户画像,又称为用户角色,是一种用于勾画目标用户、联系用户诉求与设计方向的有效工具,是大数据技术的重要应用,因此,用户画像在各个领域均得到了广泛的应用。例如,具体实现是,可以将用户画像作为用于刻画用户特征的标签集合,比如年龄、性别等基本属性,也包括用于的兴趣特征、如理财、消费等。用户画像的构建对于后续信息的定向传播,例如股票交易的推荐或规划有着重要的意义。
目前,现有的用户画像系统一般依靠定时任务等手段定期生成用户标签,导致用户画像构建实时性较差;标签生成规则不支持灵活配置,导致每次创建新的画像标签都需要开发人员介入。
发明内容
鉴于现有技术中的上述缺陷或不足,期望提供一种用户画像构建方法、系统、计算机设备及存储介质,实现了标签生成规则的灵活配置,且实时性高。
第一方面,本申请提供一种用户画像构建方法,包括:
获取用户属性数据和预设的标签生成规则;
基于标签生成规则和用户属性数据,构建用户画像。
作为可选的方案,标签生成规则包括第一规则和至少一个第二规则,基于标签生成规则和用户属性数据,构建用户画像,包括:
根据第一规则筛选用户属性数据,得到第一数据,第一数据是指用户属性数据中符合第一规则的用户属性数据;
基于第一数据和至少一个第二规则,构建用户画像。
作为可选的方案,基于第一数据和至少一个第二规则,构建用户画像,包括:
根据至少一个第二规则,从第一数据中匹配与每一个第二规则对应的用户属性数据,生成至少一个匹配结果;
根据至少一个匹配结果生成至少一个用户标签,用户标签与第二规则一一对应;
将至少一个用户标签的集合确定为用户画像。
作为可选的方案,标签生成规则还包括第三规则,将至少一个用户标签的集合确定为用户画像,包括:
判断至少一个用户标签中是否存在关联标签,关联标签包括具有关联关系的至少两个用户标签;
当至少一个用户标签中存在关联标签时,则根据第三规则更新关联标签,并将更新后的关联标签和其余用户标签的集合确定为用户画像;
当至少一个用户标签中不存在关联标签时,则直接将至少一个用户标签的集合确定为用户画像。
作为可选的方案,判断至少一个用户标签中是否存在关联标签,包括:
比较至少一个用户标签中任意两个或两个以上的用户标签分别对应的用户属性数据中是否存在相同的用户属性数据;
若是,则确定用户标签中存在关联标签;
若否,则确定用户标签中不存在关联标签。
作为可选的方案,在将至少一个用户标签的集合确定为用户画像之后,方法还包括:
采集样本用户标签集,样本用户标签集是从至少一个用户标签中选取预设数量的用户标签;
计算样本用户标签集中每个用户标签对应的准确率;
根据准确率分别确定每个用户标签是否为异常标签;
当用户标签为异常标签时,则发送告警信息,告警信息用于指示用户标签为异常标签需下架异常标签。
作为可选的方案,根据每个准确率分别确定每个用户标签是否为异常标签,包括:
依次判断每个准确率是否小于预设阈值;
若是,则确定准确率对应的用户标签为异常标签;
若否,则确定准确率对应的用户标签为正常标签。
第二方面,本申请提供一种用户画像构建系统,包括:
获取模块,用于获取用户属性数据和预设的标签生成规则;
构建模块,用于基于标签生成规则和用户属性数据,构建用户画像。
第三方面,本发明提供一种计算机设备,计算机设备包括存储器、处理器以及存储在存储器并可在处理器上运行的计算机程序,处理器用于执行程序时实现第一方面所述的方法。
第四方面,本发明提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序用于实现如第一方面所述的方法。
本申请的用户画像构建方法通过获取用户属性数据和预设的标签生成规则,基于标签生成规则和用户属性数据,构建用户画像。本申请的标签生成规则可以根据对用户标签的实际需要灵活配置,无需系统配置,有利于标签生成规则的管理,有利于降低维护成本;并且根据获取的标签生成规则和用户属性数据构建用户画像,实时性高,有利于提高效率,同时保证实际营销业务的正常进行。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1为本发明的实施例提供的一种用户画像构建方法的实施场景图;
图2为本发明的实施例提供的一种用户画像构建方法的流程示意图;
图3为本发明的实施例提供的另一种用户画像构建方法的流程示意图;
图4为本发明的实施例提供的另一种用户画像构建方法的流程示意图;
图5为本发明的实施例提供的另一种用户画像构建方法的流程示意图;
图6为本发明的实施例提供的一种用户画像构建系统的结构示意图;
图7为本发明的实施例提供的另一种用户画像构建系统的结构示意图;
图8为本发明的实施例提供的一种计算机设备的结构示意图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
现有的用户画像生成系统普遍采用的是定时任务的形式,定时从数据库内轮询数据生成相应的标签,由于数据库轮询数据需要耗费一定的时间,任务的执行周期不可能降到分钟以下,随着用户标签的数量增加,用户标签的实时性已不能满足业务方的需求。并且现有技术方案中,标签的生成规则主要是通过SQL+代码结合的形式完成的,不便于标签的管理,且新增标签或修改标签生成规则时必须由开发人员介入,维护成本高,造成使用不便。
针对上述技术问题,本申请的实施例提供了一种用户画像构建方法,该方法可以基于实时获取的用户属性数据和预设的标签生成规则和,构建用户画像。其中,标签生成规则可以根据对用户标签的实际需要灵活配置,无需系统配置,有利于标签生成规则的管理,有利于降低维护成本;并且根据标签生成规则和实时获取的用户属性数据构建用户画像,实时性高,有利于提高效率,同时保证实际营销业务的正常进行。
为了便于理解本申请实施例提供的技术方案,下面对本申请实施例提供的一种用户画像构建方法的实施场景图进行示例性介绍。
图1为本申请实施例提供的一种用户画像构建方法的实施场景图。如图1所示,该实施场景包括:终端设备100和服务器200。
终端设备100与服务器200配合实现用户画像构建。
其中,用户在终端设备100上进行各种行为操作,引起用户个人信息变更或产生各种行为数据并传输至服务器200;
服务器200上可以设置有数据库binlog和业务埋点用以获取用户属性数据,服务器200具有数据处理功能;在服务器200上设置业务埋点,服务器200通过与终端设备100的信息交互(例如,采集用户在终端设备100上的操作使用服务器200过程中的请求数据)获取用户属性数据;管理人员将标签生成规则录入服务器200,服务器200根据接收到的标签生成规则和获取的用户属性数据,构建用户画像。
服务200构建完成用户画像后,将用户画像发送至终端设备100上的应用程序中,以使应用程序根据用户画像向用户提供推荐信息。
需要说明的是,数据库binlog是指一系列日志数据,通过日志数据可以获取用户属性数据的变更,且仅需处理变更的数据,无需对数据库进行数据轮询。
业务埋点是指按照预设的规则和类型在APP/PC上设置埋点SDK代码,当用户的行为满足某种条件的时候,比如进入某个页面、点击某个按钮等,会自动触发记录和存储,然后这些数据会被收集并被传输,将收集到的数据统一转化为kafka消息,用于用户画像标签的生成。业务埋点主要解决了数据库binlog不能获取或不便获取用户属性数据的情况,如用户行为不落库、用户单个行为落库分散导致单条binlog消息不足以提取出需要的用户属性数据。
可以理解的是,终端设备100可以是硬件,也可以是软件。当终端设备101为硬件时,可以是各种电子设备,包括但不限于智能手机、平板电脑、笔记本电脑、个人数字终端、台式计算机、智能音箱、智能手表等电子设备,但不局限于此。当终端设备100为软件时,可以安装在前述的各种电子设备中。其也可以实现为单个或多个软件或软件模块。本申请实施例对终端设备的具体类型不作任何限制。
服务器200是多个物理服务器构成的服务器集群或者分布式系统。服务器200可以提供各种服务的服务器,例如,响应于终端设备100提供用户操作行为,对用户操作行为进行处理得到处理结果,并将该处理结果返回给终端。服务器200可以是硬件,也可以是软件。服务器200还可以提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。服务器可以单个或多个软件模块构成的,本申请实施例对服务器的具体类型不作任何限制。
终端设备100和服务器200之间可通过通信网络相互连接,通信网络可以包括各种连接类型,例如有线通信链路、无线通信链路或者光纤光缆等,本申请的实施例在此不做限制。
应当理解,图1所示的实施场景仅为示例,在实际应用中,本申请实施例提供的用户画像构建方法不仅可以适用于图1所示的实施场景,还可以适用于其他实施场景,在此不对本申请实施例提供的用户画像构建方法适用的实施场景做任何限定。
图2为根据本申请实施例示出的一种用户画像构建方法的流程图。图2所示的方法可以由服务器执行,如图2所示,该方法包括以下步骤:
S100、获取用户属性数据和预设的标签生成规则;
其中,获取用户属性数据和预设的标签生成规则不限定先后顺序。
预设的标签生成规则是指根据实际运营需要预先统一配置的标签生成规则,根据运营需要可以实时灵活调整。
作为一种可实现的方式,获取预设的标签生成规则时,终端设备或服务器会发送获取指令至管理平台,用户通过管理平台录入预设的标签生成规则,以使服务器获取到标签生成规则。
用户属性数据是基于数据库binlog和业务埋点获取的;其中,数据库binlog是指一系列日志数据,通过日志数据可以获取用户属性数据的变更,且仅需处理变更的数据,无需对数据库进行数据轮询。
业务埋点是指按照预设的规则和类型在APP/PC上设置埋点SDK代码,当用户的行为满足某种条件的时候,比如进入某个页面、点击某个按钮等,会自动触发记录和存储,然后这些数据会被收集并被传输,将收集到的数据统一转化为kafka消息,用于用户画像标签的生成。业务埋点主要解决了数据库binlog不能获取或不便获取用户属性数据的情况,如用户行为不落库、用户单个行为落库分散导致单条binlog消息不足以提取出需要的用户属性数据。
其中,用户属性数据包括用户基本数据和用户行为数据;其中,用户基本数据包括:性别、年龄、地域、职业、学历、星座属相等;用户行为数据包括:单次交易金额、交易数量、持仓、账户金额、购物偏好、品牌购买量、购物金额、消费种类等。
标签生成规则可以包括根据用户属性数据定义出用户标签的规则;
在具体实施例中可以是:
用户在预设时间内每一次交易的股票或者有超过预设比例“例如,80%”的交易股票从买到卖的时间间隔小于等于48小时,则该用户“偏好短线交易”;
当大盘处于上升通道时,用户每次买卖股票后的股票仓位大于等于60%或者有超过预设比例“例如,80%”的股票买卖后的股票仓位大于等于60%,则该用户“偏好大盘上升时高仓位”;
当大盘处于下降通道时,用户每次买卖股票后的股票仓位小于等于40%或者有超过预设比例“例如,80%”的股票买卖后的股票仓位小于等于40%,则该用户“偏好大盘下降时低仓位”;
经营金、银、铜、铁、锡、煤、石油等预先确定的资源的企业对应的股票为资源型股;
当客户每次买卖的股票均为资源型股或者有超过预设比例“例如,80%”的股票为资源型股时,则该用户“偏好资源型股”;
在其他实施例中,标签生成规则还可以是:
学历为本科及以上,该用户为“高学历用户”;
学历为大专及以下,该用户为“低学历用户”;
账户余额和持仓的和为“用户总资产”;
账户余额和/或持仓大于等于10万,该用户为“高级用户”;
设置账户余额和/或持仓小于10万,该用户为“低级用户”;
用户总资产大于大于等于10万,该用户为“高级用户”;
用户总资产小于10万,该用户为“低级用户”;
需要说明的是,标签生成规则还可以包括用户属性数据的范围,即获取的用户属性数据中哪些可以用于生成用户标签,哪些不能用于生成用户标签;还可以包括:关联标签之间的关联关系,即标签C受标签A、标签B共同影响,当标签A和/或标签B的值变更时,标签C的值也会相应的变更;例如,用户标签“用户等级”受用户标签“总资产”的影响,当用户标签“总资产”变化为50万,则对应的用户标签“用户等级”变化为高级用户。
S200、基于标签生成规则和用户属性数据,构建用户画像。
标签生成规则可以对用户属性数据中的部分字段或全部字段采取直接提取;或者优先级、求和、求平均值、最大值、最小值、中位数、技术等聚合计算方法得到用户标签。
在具体实施例中,根据标签生成规则和用户属性数据构建用户画像可以是上述聚合计算方法中一种、两种或两种以上,本实施例对此不做具体限定。
例如:用户属性数据包括:购买数量最多的理财产品是股票,则直接提取“股票”,生成用户标签“理财偏好股票”;
再例如,用户属性数据包括交易数量、持仓,则求取持仓与交易数量的和,生成用户标签“资产”;
又例如,用户属性数据为关键词搜索量、收藏夹股票代码、浏览股票代码的次数等,则根据关键词搜索量的最大值和浏览股票代码次数的最大值,以及直接提取股票代码,生成用户标签“最想买股票代码”。
即用户画像是至少一个上述用户标签的集合。
本申请实施例的用户画像构建方法,通过获取预设的标签生成规则,预先设置标签生成规则有利于根据实际运营需要实时调整,灵活配置,操作简单,无需开发人员参与,维护成本低;并且实时获取用户属性数据,根据标签生成规则和用户属性数据构建用户画像,实时性高,有利于满足精细化运营。
在上述实施例的基础上,图3为本申请另一实施例提供的用户画像构建方法的流程示意图,如图3所示,包括:
S100、获取用户属性数据和预设的标签生成规则;
其中步骤S100与上述实施例相同,不同的是,标签生成规则包括第一规则和至少一个第二规则,S200、基于标签生成规则和用户属性数据,构建用户画像,具体包括:
S210、根据第一规则筛选用户属性数据,得到第一数据,第一数据是指用户属性数据中符合第一规则的用户属性数据;
其中,第一规则是指预先设置的用户属性数据范围,例如预先设置100个binlog消息中用户属性数据用户构建用户画像;
根据第一规则筛选用户属性数据,即是将超过100个binlog消息的消息进行删除,不作为构建用户画像的用户属性数据。
S220、基于第一数据和至少一个第二规则,构建用户画像。
其中,第二规则是指根据根据用户属性数据如何定义对应的用户标签的规则;由于用户标签包括至少一个,因此预先设置的第二规则也应当是至少一个,每个用户标签的生成均对应一个标签生成规则。
在上述实施例的基础上,图4为本申请另一实施例提供的用户画像构建方法的流程示意图。其中,如图4所示,S220、基于第一数据和至少一个第二规则,构建用户画像,包括:
S221、根据至少一个第二规则,从第一数据中匹配与每一个第二规则对应的用户属性数据,生成至少一个匹配结果;
需要说明的是,从第一数据中匹配与每一个第二规则对应的用户属性数据是指将第一数据中包括的用户属性数据按照与每一个第二规则进行匹配;
例如:用户属性数据:在预设时间内交易股票从买到卖的时间为20小时,应当匹配到第二规则中的用户在预设时间内每一次交易的股票或者有超过预设比例“例如,80%”的交易股票从买到卖的时间间隔小于等于48小时,则该用户“偏好短线交易”的规则;
再例如:用户属性数据:持仓10股、账户余额5w,应当匹配到账户余额和持仓的和为“用户总资产”的规则;以及,账户余额和/或持仓大于等于10万,该用户为“高级用户”;的规则。
S222、根据至少一个匹配结果生成至少一个用户标签,用户标签与第二规则一一对应;
将第一数据中的用户属性数据按照第二规则匹配后,根据匹配结果对应的生成至少一个用户标签,其中每个用户标签都对应一个第二规则。
S223、将至少一个用户标签的集合确定为用户画像。
作为可实现的方式,标签生成规则还包括第三规则,S223、将至少一个用户标签的集合确定为用户画像,包括:
判断至少一个用户标签中是否存在关联标签,关联标签包括具有关联关系的至少两个用户标签;
当至少一个用户标签中存在关联标签时,则根据第三规则更新关联标签,并将更新后的关联标签和其余用户标签的集合确定为用户画像;
当至少一个用户标签中不存在关联标签时,则直接将至少一个用户标签的集合确定为用户画像。
需要说明的是,第三规则是指预先设置的关联的两个或两个以上用户标签之间的关联关系,即就是关联标签中一个用户标签的变化如何影响另一个用户标签的变化,也可以是两个用户标签之间相互影响;例如:用户标签“总资产”和用户标签“用户等级”为关联标签,第三规则规定了总资产大于等于20w,则用户等级为高级用户。
当存在关联标签时,根据第三规则的规定更新关联标签,将更新后的标签和其余用户标签的集合确定为用户画像,有利于进一步提高用户画像构建的准确性和实时性。
作为可实现的方式,判断至少一个用户标签中是否存在关联标签,包括:
比较至少一个用户标签中任意两个或两个以上的用户标签分别对应的用户属性数据中是否存在相同的用户属性数据;
若是,则确定用户标签中存在关联标签;
若否,则确定用户标签中不存在关联标签。
需要说明的是,用户标签对应的用户属性数据是指生成该用户标签所用到的用户属性数据;当任意两个或两个以上用户标签对应的用户属性数据存在相同的用户属性数据,则说明当该用户属性数据变化时,同时影响对应的两个或两个以上用户标签,可以理解的是,该两个或两个以上用户标签之间可以相互影响,也可以是其中一个或几个影响另一个用户标签。例如,用户标签“总资产”和用户标签“用户等级”相同的用户属性数据为账户余额或持仓,因此这两个属于关联标签。
图5示出了本发明的另一实施例的一种用户画像构建方法。本实施例提供的一种用户画像构建方法与上述实施例不同的是,在S223、将至少一个用户标签的集合确定为用户画像之后,如图5所示,还包括:
S224、采集样本用户标签集,样本用户标签集是从至少一个用户标签中选取的预设数量的用户标签;
S225、计算样本用户标签集中每个用户标签对应的准确率;
S226、根据准确率分别确定每个用户标签是否为异常标签;
S227、当用户标签为异常标签时,则发送告警信息,告警信息用于指示用户标签为异常标签需下架异常标签。
需要说明的是,样本用户标签集可以是从至少一个用户标签中采用随机抽样选取预设数量的用户标签;也可以是采用分层抽样选取预设数量的用户标签。
其中,随机抽样是针对通用型标签,从所有用户中随机抽取一定数量的样本进行准确率统计;例如:对于用户标签“资产”,可以随机抽取系统中多个用户的该用户标签;
分层抽样是针对非通用型标签,视具体标签特点,从某个特定用户中随机抽取一定数量的用户标签进行准确率统计,有利于避免因总体过大,抽样得到的样本都不拥有或很少拥有该标签属性。
计算准确率可以是:对于样本用户标签集中的每个用户标签,人工获取数据库binlog日志数据和业务埋点采集的对应的用户属性数据,根据用户属性数据和标签生成规则计算得到对比用户标签;
将对比用户标签和样本用户标签集中的用户标签进行比对,可得到每个标签的准确率。
作为可实现的方式,S226、根据准确率分别确定每个用户标签是否为异常标签,包括:
依次判断每个所述准确率是否小于预设阈值;
若是,则确定所述准确率对应的所述用户标签为异常标签;
若否,则确定所述准确率对应的所述用户标签为正常标签。
预设阈值是根据实际运营需要设定的,可以是一个具体数值,也可以是一个具体范围,本实例对此不做具体限定。
综上所述,本申请的方法通过获取预设的标签生成规则和用户属性数据,基于预设的标签生成规则和所述用户属性数据,构建用户画像。其中,预设的标签生成规则可以根据对用户标签的实际需要灵活配置,无需系统配置,有利于标签生成规则的管理,有利于降低维护成本;并且根据获取的标签生成规则和用户属性数据构建用户画像,实时性高,有利于提高效率,同时保证实际营销业务的正常进行;
并且,在生成用户标签后,计算用户标签的准确率,对异常标签及时下架处理,有利于提高用户画像的准确性。
为了实现上述实施例,本发明还提出一种用户画像构建系统,本发明实施例的用户画像构建系统可用于执行前述实施例的用户画像构建系统。图6为本发明一实施例提出的用户画像构建系统的结构示意图。如图6所示,该用户画像构建系统300包括:
获取模块301,用于获取用户属性数据预设的标签生成规则和;
构建模块302,用于基于标签生成规则和用户属性数据,构建用户画像。
进一步地,标签生成规则包括第一规则和至少一个第二规则,构建模块302在执行基于标签生成规则和用户属性数据,构建用户画像的过程,包括:
根据第一规则筛选用户属性数据,得到第一数据,第一数据是指用户属性数据中符合第一规则的用户属性数据;
基于第一数据和至少一个第二规则,构建用户画像。
进一步地,构建模块302执行基于第一数据和至少一个第二规则,构建用户画像的过程,包括:
根据至少一个第二规则,从第一数据中匹配与每一个第二规则对应的用户属性数据,生成至少一个匹配结果;
根据至少一个匹配结果生成至少一个用户标签,用户标签与第二规则一一对应;
将至少一个用户标签的集合确定为用户画像。
进一步地,构建模块302执行将至少一个用户标签的集合确定为用户画像的过程,包括:
判断至少一个用户标签中是否存在关联标签,关联标签包括具有关联关系的至少两个用户标签;
当至少一个用户标签中存在关联标签时,则根据第三规则更新关联标签,并将更新后的关联标签和其余用户标签的集合确定为用户画像;
当至少一个用户标签中不存在关联标签时,则直接将至少一个用户标签的集合确定为用户画像。
进一步地,构建模块302执行判断至少一个用户标签中是否存在关联标签的过程,包括:
比较至少一个用户标签中任意两个或两个以上的用户标签分别对应的用户属性数据中是否存在相同的用户属性数据;
若是,则确定用户标签中存在关联标签;
若否,则确定用户标签中不存在关联标签。
进一步地,如图7所示,还包括:
采集模块303,用于采集样本用户标签集,样本用户标签集是从至少一个用户标签中选取预设数量的用户标签;
计算模块304,用于计算样本用户标签集中每个用户标签对应的准确率;
确定模块305,用于根据准确率分别确定每个用户标签是否为异常标签;
当用户标签为异常标签时,则发送告警信息,告警信息用于指示用户标签为异常标签需下架异常标签。
进一步地,确定模块305执行根据准确率分别确定每个用户标签是否为异常标签的过程,包括:
依次判断每个准确率是否小于预设阈值;
若是,则确定准确率对应的用户标签为异常标签;
若否,则确定准确率对应的用户标签为正常标签。
需要说明的是,前述对用户画像构建方法实施例的解释说明也适用于该实施例的用户画像构建系统,此处不再赘述。
应当理解,用户画像构建系统中记载的诸单元或模块与参考图2描述的方法中的各个步骤相对应。由此,上文针对方法描述的操作和特征同样适用于用户画像构建系统及其中包含的单元,在此不再赘述。用户画像构建系统可以预先实现在电子设备的浏览器或其他安全应用中,也可以通过下载等方式而加载到电子设备的浏览器或其安全应用中。用户画像构建系统中的相应单元可以与电子设备中的单元相互配合以实现本申请实施例的方案。在上文详细描述中提及的若干模块或者单元,这种划分并非强制性的。实际上,根据本申请的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
下面参考图8,其示出了适于用来实现本申请实施例的终端设备或服务器的计算机设备400的结构示意图。
如图8所示,计算机设备400包括中央处理单元(CPU)401,其可以根据存储在只读存储器(ROM)402中的程序或者从存储部分408加载到随机访问存储器(RAM)403中的程序而执行各种适当的动作和处理。在RAM 403中,还存储有系统400操作所需的各种程序和数据。CPU401、ROM 402以及RAM 403通过总线404彼此相连。输入/输出(I/O)接口405也连接至总线404。
以下部件连接至I/O接口405:包括键盘、鼠标等的输入部分406;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分407;包括硬盘等的存储部分408;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分409。通信部分409经由诸如因特网的网络执行通信处理。驱动器410也根据需要连接至I/O接口405。可拆卸介质411,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器410上,以便于从其上读出的计算机程序根据需要被安装入存储部分408。
特别地,根据本申请的实施例,上文参考图2-图6描述的过程可以被实现为计算机软件程序。例如,本申请的实施例包括一种计算机程序产品,其包括有形地包含在机器可读介质上的计算机程序,该计算机程序包含用于执行图2-6的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分409从网络上被下载和安装,和/或从可拆卸介质411被安装。
需要说明的是,本申请所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,前述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本申请实施例中所涉及到的单元或模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元或模块也可以设置在处理器中,例如,可以描述为:一种处理器包括获取模块和构建模块。其中,这些单元或模块的名称在某种情况下并不构成对该单元或模块本身的限定,例如,构建模块还可以被描述为“用于基于标签生成规则和用户属性数据,构建用户画像的模块”。
作为另一方面,本申请还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施例中前述装置中所包含的计算机可读存储介质;也可以是单独存在,未装配入设备中的计算机可读存储介质。计算机可读存储介质存储有一个或者一个以上程序,前述程序被一个或者一个以上的处理器用来执行描述于本申请的提供的用户画像构建方法。
以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离所述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
Claims (10)
1.一种用户画像构建方法,其特征在于,包括:
获取用户属性数据和预设的标签生成规则;
基于所述标签生成规则和所述用户属性数据,构建用户画像。
2.根据权利要求1所述的方法,其特征在于,所述标签生成规则包括第一规则和至少一个第二规则,基于所述标签生成规则和所述用户属性数据,构建用户画像,包括:
根据所述第一规则筛选所述用户属性数据,得到第一数据,所述第一数据是指所述用户属性数据中符合所述第一规则的用户属性数据;
基于所述第一数据和所述至少一个第二规则,构建所述用户画像。
3.根据权利要求2所述的方法,其特征在于,基于所述第一数据和所述至少一个第二规则,构建所述用户画像,包括:
根据所述至少一个第二规则,从所述第一数据中匹配与每个所述第二规则对应的用户属性数据,生成至少一个匹配结果;
根据所述至少一个匹配结果生成至少一个用户标签,所述用户标签与所述第二规则一一对应;
将所述至少一个用户标签的集合确定为所述用户画像。
4.根据权利要求3所述的方法,其特征在于,所述标签生成规则还包括第三规则,将所述至少一个用户标签的集合确定为所述用户画像,包括:
判断所述至少一个用户标签中是否存在关联标签,所述关联标签包括具有关联关系的至少两个所述用户标签;
当所述至少一个用户标签中存在关联标签时,则根据所述第三规则更新所述关联标签,并将更新后的所述关联标签和其余所述用户标签的集合确定为所述用户画像;
当所述至少一个用户标签中不存在关联标签时,则直接将所述至少一个用户标签的集合确定为所述用户画像。
5.根据权利要求4所述的方法,其特征在于,判断所述至少一个用户标签中是否存在关联标签,包括:
比较所述至少一个用户标签中任意两个或两个以上的所述用户标签分别对应的所述用户属性数据中是否存在相同的所述用户属性数据;
若是,则确定所述用户标签中存在关联标签;
若否,则确定所述用户标签中不存在关联标签。
6.根据权利要求3所述的方法,其特征在于,在将所述至少一个用户标签的集合确定为所述用户画像之后,所述方法还包括:
采集样本用户标签集,所述样本用户标签集是从所述至少一个用户标签中选取预设数量的所述用户标签;
计算所述样本用户标签集中每个所述用户标签对应的准确率;
根据所述准确率分别确定每个所述用户标签是否为异常标签;
当所述用户标签为异常标签时,则发送告警信息,所述告警信息用于指示所述用户标签为异常标签需下架所述异常标签。
7.根据权利要求6所述的方法,其特征在于,根据每个所述准确率分别确定每个所述用户标签是否为异常标签,包括:
依次判断每个所述准确率是否小于预设阈值;
若是,则确定所述准确率对应的所述用户标签为异常标签;
若否,则确定所述准确率对应的所述用户标签为正常标签。
8.一种用户画像构建系统,其特征在于,包括:
获取模块,用于获取用户属性数据和预设的标签生成规则;
构建模块,用于基于所述标签生成规则和所述用户属性数据,构建用户画像。
9.一种计算机设备,其特征在于,所述计算机设备包括存储器、处理器以及存储在存储器并可在处理器上运行的计算机程序,所述处理器用于执行所述程序时实现如权利要求1-7任一项所述的方法。
10.一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序用于实现如权利要求1-7任一项所述的方法。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN202110182298.2A CN114912008A (zh) | 2021-02-08 | 2021-02-08 | 用户画像构建方法、系统、计算机设备及存储介质 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN202110182298.2A CN114912008A (zh) | 2021-02-08 | 2021-02-08 | 用户画像构建方法、系统、计算机设备及存储介质 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| CN114912008A true CN114912008A (zh) | 2022-08-16 |
Family
ID=82761061
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| CN202110182298.2A Pending CN114912008A (zh) | 2021-02-08 | 2021-02-08 | 用户画像构建方法、系统、计算机设备及存储介质 |
Country Status (1)
| Country | Link |
|---|---|
| CN (1) | CN114912008A (zh) |
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN115392965A (zh) * | 2022-08-23 | 2022-11-25 | 德邦证券股份有限公司 | 用户画像的生成方法、装置以及存储介质 |
Citations (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN105590230A (zh) * | 2014-10-23 | 2016-05-18 | 亿阳信通股份有限公司 | 一种户外广告精准投放系统和方法 |
| CN109872173A (zh) * | 2017-12-04 | 2019-06-11 | 北京京东尚科信息技术有限公司 | 构建用户画像标签的方法、系统及终端设备 |
| CN112035742A (zh) * | 2020-08-28 | 2020-12-04 | 康键信息技术(深圳)有限公司 | 用户画像生成方法、装置、设备及存储介质 |
| CN112131321A (zh) * | 2020-08-06 | 2020-12-25 | 亿存(北京)信息科技有限公司 | 用户画像标签的生成方法和装置、计算机设备、存储介质 |
-
2021
- 2021-02-08 CN CN202110182298.2A patent/CN114912008A/zh active Pending
Patent Citations (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN105590230A (zh) * | 2014-10-23 | 2016-05-18 | 亿阳信通股份有限公司 | 一种户外广告精准投放系统和方法 |
| CN109872173A (zh) * | 2017-12-04 | 2019-06-11 | 北京京东尚科信息技术有限公司 | 构建用户画像标签的方法、系统及终端设备 |
| CN112131321A (zh) * | 2020-08-06 | 2020-12-25 | 亿存(北京)信息科技有限公司 | 用户画像标签的生成方法和装置、计算机设备、存储介质 |
| CN112035742A (zh) * | 2020-08-28 | 2020-12-04 | 康键信息技术(深圳)有限公司 | 用户画像生成方法、装置、设备及存储介质 |
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN115392965A (zh) * | 2022-08-23 | 2022-11-25 | 德邦证券股份有限公司 | 用户画像的生成方法、装置以及存储介质 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CN109460513B (zh) | 用于生成点击率预测模型的方法和装置 | |
| US11443305B2 (en) | Context augmentation for processing data from multiple sources | |
| CN110020876B (zh) | 一种信息生成方法和装置 | |
| WO2022156589A1 (zh) | 一种直播点击率的确定方法和装置 | |
| CN109961299A (zh) | 数据分析的方法和装置 | |
| CN113434754A (zh) | 确定推荐api服务的方法、装置、电子设备和存储介质 | |
| CN112016793B (zh) | 基于目标用户群的资源分配方法、装置及电子设备 | |
| CN113763112A (zh) | 一种信息推送方法及装置 | |
| CN115330540A (zh) | 一种处理交易数据的方法和装置 | |
| CN112287208B (zh) | 用户画像生成方法、装置、电子设备及存储介质 | |
| CN110866040A (zh) | 用户画像生成方法、装置和系统 | |
| CN112819619A (zh) | 一种交易处理方法和装置 | |
| CN114581179A (zh) | 产品推荐方法、装置、设备及介质 | |
| CN115936764A (zh) | 一种产品推广方法和装置 | |
| CN113781062A (zh) | 一种用户标签的展示方法和装置 | |
| CN110348922B (zh) | 用于生成信息的方法和装置 | |
| CN113822734B (zh) | 用于生成信息的方法和装置 | |
| CN114996579A (zh) | 信息推送方法、装置、电子设备和计算机可读介质 | |
| CN114912008A (zh) | 用户画像构建方法、系统、计算机设备及存储介质 | |
| CN113269600B (zh) | 一种信息发送的方法和装置 | |
| CN114610996A (zh) | 一种信息推送的方法和装置 | |
| CN113743906A (zh) | 一种确定业务处理策略的方法和装置 | |
| CN112862608A (zh) | 一种交易数据匹配方法和装置 | |
| CN111833085A (zh) | 一种计算物品价格的方法和装置 | |
| CN113763083B (zh) | 信息处理方法及装置 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| PB01 | Publication | ||
| PB01 | Publication | ||
| SE01 | Entry into force of request for substantive examination | ||
| SE01 | Entry into force of request for substantive examination |