CN104657506A - 一种基于用户场景的数据处理方法和装置 - Google Patents
一种基于用户场景的数据处理方法和装置 Download PDFInfo
- Publication number
- CN104657506A CN104657506A CN201510112047.1A CN201510112047A CN104657506A CN 104657506 A CN104657506 A CN 104657506A CN 201510112047 A CN201510112047 A CN 201510112047A CN 104657506 A CN104657506 A CN 104657506A
- Authority
- CN
- China
- Prior art keywords
- user
- time
- tlv triple
- attributive character
- scene
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 12
- 238000000034 method Methods 0.000 claims abstract description 22
- 238000006243 chemical reaction Methods 0.000 claims description 9
- 230000037396 body weight Effects 0.000 claims description 6
- 235000013410 fast food Nutrition 0.000 description 6
- 235000013305 food Nutrition 0.000 description 4
- 238000013507 mapping Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000004308 accommodation Effects 0.000 description 2
- 230000009471 action Effects 0.000 description 2
- 230000002776 aggregation Effects 0.000 description 2
- 238000004220 aggregation Methods 0.000 description 2
- 230000032683 aging Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 235000012054 meals Nutrition 0.000 description 2
- 230000008901 benefit Effects 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了基于用户场景的数据处理方法和装置。该方法可包括:获取用户在预定时间段内的轨迹数据,轨迹数据包括一个以上三元组(用户,时间,位置),其中,三元组中各元素均具有一个或一个以上属性特征;根据三元组中各元素的一个或一个以上属性特征对轨迹数据聚类,并根据聚类结果中具有显著性的属性特征确定用户当前所处的场景信息;向用户发送与当前所处的场景信息关联的消息。实施上述方法和装置,与仅基于地理位置的场景刻画相比,改善了对用户场景的刻画精度,可区分处于同一地理位置上的不同场景。
Description
技术领域
本发明涉及数据处理领域,更为具体而言,涉及一种基于用户场景的数据处理方法和装置。
背景技术
在线上进行信息推送或推荐的情形下,现有技术大多利用用户当前所在的页面来确定向用户推送的信息。例如,电商网站会根据用户当前所在的页面类型(例如,首页、分页类、搜索结果页面、商品详情页面、加入购物车页面、购买成功页面、购物车页面等),设定不同的推送内容。类似地,与地理位置相关的信息推送中,现有技术也大多利用用户当前所在的位置作来确定向用户推送信息的参数。对于不同用户,以及同一个用户不同时间位于同一个位置的情形下,用户的需求差别非常大。也就是说,现有技术基本上仅仅利用用户当前所在的页面或位置作为向用户需要因素进行信息推送或推荐,对用户的需求刻画较为粗糙。
发明内容
为解决上述技术问题,本发明提供了基于用户场景的数据处理方法和装置,该方法通过将用户在预定时间段内的包括用户、时间、位置三元素的轨迹数据根据各元素中的多个属性特征进行聚类,并基于聚类结果中具有显著性的属性特征确定用户当前所处的场景,向用户发送与当前所处的场景关联的消息,与现有技术中仅基于地理位置的刻画方式相比,改善了对用户场景的刻画精度,可区分处于同一地理位置上的不同场景,从消息推送或推荐的角度而言,大大提高了消息推送或推荐等应用的有效性。
根据本发明实施方式的第一方面,提供了一种基于用户场景的数据处理方法,该方法可包括:
获取用户在预定时间段内的轨迹数据,所述轨迹数据包括一个以上三元组(用户,时间,位置),其中,三元组中各元素均具有一个或一个以上属性特征;
根据所述三元组中各元素的一个或一个以上属性特征对所述轨迹数据聚类,并根据聚类结果中具有显著性的属性特征确定所述用户当前所处的场景信息;
向所述用户发送与当前所处的场景信息关联的消息。
在本发明的一些实施方式中,所述三元组中的时间为所述预定时间段内的一个时间点,位置为该用户在所述一个时间点所在的位置,并且所述轨迹数据包括该用户到达当前位置的时间点。
在本发明的一些实施方式中,所述三元组(用户,时间,位置)中的用户元素具有下述一个或一个以上属性特征:性别、年龄、职业、收入、学历、身高、体重、民族、国籍、就业状态、婚姻状态;所述三元组(用户,时间,位置)中的时间元素具有下述一个或一个以上属性特征:早晨、中午、下午、晚上、工作日、节假日;所述三元组(用户,时间,位置)中的位置元素具有下述一个或一个以上属性特征:一个或多个兴趣点POI、各兴趣点POI的类别、各兴趣点POI的价位、移动速度、停留时间。
在本发明的一些实施方式中,所述方法进一步包括:根据外部数据确定所述用户当前所处的场景信息,其中,所述外部数据包括下述的一种或一种以上:该用户的搜索数据、社交网页数据。
在本发明的一些实施方式中,所述方法进一步包括:根据所述用户当前所处的场景信息和所述用户的场景转换历史确定所述用户的下一个场景信息。
根据本发明实施方式的第二方面,提供了一种基于用户场景的数据处理装置,该装置可包括:
获取模块,用于:
获取用户在预定时间段内的轨迹数据,所述轨迹数据包括一个以上三元组(用户,时间,位置),其中,三元组中各元素均具有一个或一个以上属性特征;
处理模块,用于根据所述三元组中各元素的一个或一个以上属性特征对所述轨迹数据聚类,并根据聚类结果中具有显著性的属性特征确定所述用户当前所处的场景信息;
发送模块,用于向所述用户发送与当前所处的场景信息关联的消息。
在本发明的一些实施方式中,所述三元组中的时间为所述预定时间段内的一个时间点,位置为该用户在所述一个时间点所在的位置,并且所述轨迹数据包括该用户到达当前位置的时间点。
在本发明的一些实施方式中,所述三元组(用户,时间,位置)中的用户元素具有下述一个或一个以上属性特征:性别、年龄、职业、收入、学历、身高、体重、民族、国籍、就业状态、婚姻状态;所述三元组(用户,时间,位置)中的时间元素具有下述一个或一个以上属性特征:早晨、中午、下午、晚上、工作日、节假日;所述三元组(用户,时间,位置)中的位置元素具有下述一个或一个以上属性特征:一个或多个兴趣点POI、各兴趣点POI的类别、各兴趣点POI的价位、移动速度、停留时间。
在本发明的一些实施方式中,所述处理模块,还用于根据外部数据确定所述用户当前所处的场景信息,其中,所述外部数据包括:该用户的搜索数据、社交网页数据。
在本发明的一些实施方式中,所述处理模块,还用于根据所述用户当前所处的场景信息和所述用户的场景转换历史确定所述用户的下一个场景信息。
本发明实施方式提供的基于用户场景的数据处理方法和装置,通过将预定时间段内的轨迹数据根据轨迹数据中用户、时间、位置元素的多个属性特征进行聚类,获取聚类结果中具有显著性属性用于确定用户当前的场景,显著改善了用户场景需求刻画的时间维度方面的精度;其次,将用户当前到达某一位置的时间点纳入轨迹数据,与现有技术中仅基于地理位置信息的场景刻画粒度相比,进一步改善了当前场景刻画的精确度;再次,列明了三元组中各元素的属性特征,丰富了轨迹数据的聚类特征;再次,通过诸如用户的搜索数据、网页数据之类的外部数据辅助确定用户当前的场景,进一步改善了用户场景刻画的扩展维度;再次,根据用户当前所处的场景信息和场景转换历史确定用户的下一个场景信息,便于向用户提供下一步规划的建议。
附图说明
图1概要图示了根据本发明一种实施方式的基于用户场景的数据处理方法的流程示意图;
图2概要图示了根据本发明一种实施方式的基于用户场景的数据处理装置的结构示意图。
具体实施方式
为使本发明的实施例的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述。
参见图1,图1概要图示了根据本发明一种实施方式的基于用户场景的数据处理方法的流程示意图,该方法可包括:
S101,获取用户在预定时间段内的轨迹数据,轨迹数据包括一个以上三元组(用户,时间,位置),其中,三元组中各元素均具有一个或一个以上属性特征;
S102,根据三元组中各元素的一个或一个以上属性特征对轨迹数据聚类,并根据聚类结果中具有显著性的属性特征确定用户当前所处的场景信息;
S103,向该用户发送与当前所处的场景信息关联的消息。
在本发明的实施方式中,基于用户场景的数据处理方法可包括步骤S101,获取用户在预定时间段内的轨迹数据,轨迹数据包括一个以上三元组(用户,时间,位置),其中,三元组中的时间为该预定时间段内的一个时间点,位置为该用户在该一个时间点所在的位置,并且三元组中各元素均具有一个或一个以上属性特征。步骤S101中,预定时间段可根据应用需要进行选择,例如,可以是几个小时或几天等。轨迹数据可以是用户user1的具有时间和定位功能的移动终端(例如,手机、平板电脑等)在预定时间段的某一个时间点time1、在该时间点的位置location1,例如,可以是三元组(user1,time1,location1)。在预定时间段内,可以获取多个三元组。而且,三元组中的用户、时间、位置元素可分别具有一个或一个以上属性特征。例如,三元组(用户,时间,位置)中的用户元素可具有下述一个或一个以上属性特征:性别、年龄、职业、收入、学历、身高、体重、民族、国籍、就业状态、婚姻状态,例如,可通过用户的移动终端上的信息获取用户的上述用户属性信息;三元组(用户,时间,位置)中的时间元素具有下述一个或一个以上属性特征:该时间点是早晨、中午、下午或晚上,该时间点是工作日或节假日,例如,可以获取到时间点之后,对该时间点的属性进行标签标识;三元组(用户,时间,位置)中的位置元素具有下述一个或一个以上属性特征:位于该位置的一个或多个兴趣点POI、各兴趣点POI的类别、各兴趣点POI的价位、处于该位置的用户移动速度、以及用户在该位置上的停留时间等。
步骤S101的轨迹数据获取中,对于每个(user1,time1,location1)的三元组,根据User,Time,Location分别具有的属性特征,得到各个属性的三元组。例如,user1为男性,time1是周一下午7pm,location1为某个kfc的情况下。我们可以得到若干如下形式的三元组:(user1,Monday,location1),(user1,Monday,kfc),(user1,Monday,快餐),(user1,7pm,kfc),(user1,7pm,快餐),(male,7pm,kfc),(male,7pm,快餐)。需要注意的是,因为用户位置在不同时间段的稀疏程度不一致,位置的选择是在用户停留点计算的基础之上进行。在用户在一定时间段内出现在同一个位置(位置之间的直线距离小于预定阈值,例如,处于某一饭店或超市内等)的多个停留点的情形下,需要进行一定的过滤,去掉一些位置之间直线距离小于预定阈值的停留点信息,例如,可以将在一个饭店或超市的多个停留点的信息作为一个位置信息。
步骤S101获取用户的轨迹数据之后,执行步骤S102,根据三元组中各元素的一个或一个以上属性特征对轨迹数据聚类,并根据聚类结果中具有显著性的属性特征确定用户当前所处的场景信息。例如,在获得上面描述的多个三元组,统计各个三元组出现的频率,例如,假如该用户为男性,是晚上7点出现在kfc。那么,通过统计,我们得到frequency(男,7pm,location1)=2,frequency(男,7pm,kfc)=3,frequency(user1,7pm,kfc)=3,frequency(男,7pm,餐饮)=9等统计值。在得到每个三元组以及它的频率的情况下,对于频率超过某个给定阈值的三元组,我们计算每个三元组出现的显著性,比如,为了计算某个兴趣点(point of interest,POI)某个时间点下用户性别的显著性,我们记W(男,7pm,kfc;性别=男)=frequency(男,7pm,kfc)/(frequency(男,7pm,kfc)+frequency(女,7pm,kfc))。通过这样的计算,可以得到一个三元组的频率和它的显著性。这样的计算方法,对计算资源和存储资源的要求较高,适用于计算资源和存储资源较为充裕的场景。
步骤S102的聚类除了采用上述方式之外,还可以采用其他的方式。在特征空间的不同位置上不同特征的重要性不同(例如,Locality-sensitiveclustering)。将每个特征映射到其它特征或其它特征的组合(例如,将用户年龄特征映射到时间和位置的组合特征空间),根据这个特征的显著性,确定该特征在其它特征组合上的重要性。例如,可以根据某一个维度的聚集程度确定,某个维度的上instance(用户的行为轨迹)越聚集,该维度就越重要。例如,可以根据维度的显著性选择聚类维度,根据每个特征在本地的显著性,确定它和维度、时间(例如,演唱会、机场或学校等聚集的人群和基准在年龄、收入、手机价格等维度上都明显区别于基础人群,并且某些人群的聚集是有时效性的(即区别于该位置下其它时间下的人群))。确定目标维度,以及目标维度和时间、空间的关系。例如,可以根据当前位置上的显著特征定义instance之间的距离,并把instance聚类。在定义两个instance距离时,两个instance可以在不同的维度设置不同的权重。即,两个instance在显著特征这一维度的距离近,而在非显著特征这些维度下的距离远。在聚类的过程中,可以考虑各元素的一个或多个属性特征,例如,可以考虑位置元素对应的一个或多个POI属性特征(例如,可以是一个或多个商家),还可以考虑用户元素的一个或多个属性特征(例如,用户的职业、年龄、收入),还可以考虑时间元素的一个或多个属性特征,聚类也具有时效性,随着时间的变化,当一些维度上的聚集效应不存在时,相应的维度在聚类时便不考虑。在聚类时,可以考虑上述各元素的一个或一个以上属性特征,也可以将两个或两个以上元素的属性特征组合。例如,一个地理位置上的标签分布可以影响在该位置有过签到的用户的标签,用户和用户群的归属关系,以及用户群的标签。也可以影响该位置上商家的标签,商家和分类体系的归宿关系等。反过来,用户的标签,用户群的标签分布可以影响一个位置的标签分布,商家和分类体系的归属关系,以及商家分类体系上的标签分布。一个商家分类体系上的属性和价位等标签可以用来影响用户的标签,用户群的标签分布,以及一个地理位置的标签分布。又例如,用户在一个POI停留的时间是判断该用户到访该POI的因素,这样可以将时间元素和位置元素的多个属性特征结合进行聚类。又例如,一个用户到访的POI的某个属性特征可具有一定的规律性,用户较长时间段内均在某一价位的酒店住宿,这样位置元素的一个属性特征就具有明显的显著性。在步骤S102中,根据各元素的一个或一个以上属性特征对用户的轨迹数据进行聚类后,根据聚类结果中具有显著性的属性特征确定用户当前所处的场景信息。例如,在演唱会开场的情形下,对聚集来听演唱会的听众而言,对“用户的当前位置×年龄×用户n个小时前的位置”这几个属性特征进行聚类,能够确定这些听众在当前的位置,他们或她们的行为路径(最近n个小时才到达当前位置),用户的年龄属性特征,这些特征组合上聚类比较集中,具有显著性,能够确定这些听众所处场景为听演唱会。但同一时间从路上走过或演唱会会场的工作人员因为属性(年龄区间等)或行为路径(最近n个小时到达)上的不同而不会被考虑到聚类中。又例如,机场中刚刚到达的乘客,和打算离开的乘客也会因为他们或她们的在预定时间段内轨迹特征上的不同(例如,预定时间段内位置属性特征)而被聚集成不同的聚类。又例如,对于学校、工厂等的用户群,根据用户的学历、年龄、职业等数个属性特征进行聚类,确定出具有显著性的几个属性特征,基于具有显著性的这些特征可以确定用户所处的场景确定为在上学、在工厂上班。学校中的老师因为年龄等属性特征而不会被确定为在上学的场景。
在步骤S102的用户场景信息确定过程中,还可以根据外部数据确定用户当前所处的场景信息,例如,外部数据可包括该用户的搜索数据、社交网页数据(例如,用户的推特、微博、微信等社交网页上的文本数据或图片数据等)。例如,通过一个用户在社交网页上的文本数据或图片数据,可确定所有处于当前场景的用户所共同关心的信息。
在步骤S102确定出用户当前所处的场景信息,接下来,执行步骤S103,向该用户发送与当前所处的场景信息关联的消息。例如,在确定用户在机场刚刚下飞机的场景之后,可以向该用户发送机场便捷打车的关联消息或机场周围餐饮、住宿的消息等。又例如,在确定用户在餐馆等待就餐的场景下,可以向该用户发送推荐的菜肴关联的消息。
用户的各个场景类似于一个状态机的各个状态,用户在各个场景随着时间进行转换。本发明的方法还可以包括根据用户当前所处的场景信息与该用户的场景转换历史确定该用户的下一个场景信息。用户的场景信息受到不同场景之间转换的影响。用户的场景之间并不是孤立存在的,例如,看完演唱会的演出之后,用户人群的下一个场景可以是回家的路上。吃饭场景之前的场景可能是逛街或者看电影。用户当前所处的场景具有一定的概率分布。根据一定时间段内用户场景转换的历史数据可以获得用户在各个场景的概率值,结合用户当前所处的场景信息,可以确定用户的下一个场景,可以是概率值较高的几个场景。那么,在步骤S103中,可以根据确定出与当前所处场景关联(例如,下一个场景所需)的消息。这样的消息发送方式,给用户的下一步规划提供了有效的建议。
本发明提供的方法可具有各种不同的应用,例如,在步骤S103向用户发送关联消息中,不仅可以向用户发送一个位置上的多个商家的关联消息,还可以发送具有相同用户属性特征(例如,相同职业、年龄等)的用户互助、沟通的关联消息。又例如,同去一个境外国家旅游的人,具有相同国籍属性特征的多个人可通过上述方法互相发送互助、沟通消息。
上面结合具体实施方式描述了本发明的基于用户场景的数据处理方法,下面将结合具体实施方式描述与上述方法对应的基于用户场景的数据处理装置。
参见图2,概要图示了根据本发明一种实施方式的基于用户场景的数据处理装置的结构示意图,该装置200可包括:
获取模块201,用于:
获取用户在预定时间段内的轨迹数据,所述轨迹数据包括一个以上三元组(用户,时间,位置),其中,三元组中各元素均具有一个或一个以上属性特征;
处理模块202,用于根据所述三元组中各元素的一个或一个以上属性特征对所述轨迹数据聚类,并根据聚类结果中具有显著性的属性特征确定所述用户当前所处的场景信息;
发送模块203,用于向所述用户发送与当前所处的场景信息关联的消息。
在本发明的实施方式中,基于用户场景的数据处理装置200可包括获取模块201、处理模块202和发送模块203。装置200的各模块可分别设置于可通信的服务器上,与服务器的其他功能模块相互调用。其中,获取模块201可获取用户在预定时间段内的轨迹数据,轨迹数据包括一个以上三元组(用户,时间,位置),其中,三元组中的时间为该预定时间段内的一个时间点,位置为该用户在该一个时间点所在的位置,并且三元组中各元素均具有一个或一个以上属性特征。预定时间段可根据应用需要进行选择,例如,可以是几个小时或几天等。轨迹数据可以是用户user1的具有时间和定位功能的移动终端(例如,手机、平板电脑等)在预定时间段的某一个时间点time1、在该时间点的位置location1,例如,可以是三元组(user1,time1,location1)。在预定时间段内,可以获取多个三元组。而且,三元组中的用户、时间、位置元素可分别具有一个或一个以上属性特征。例如,三元组(用户,时间,位置)中的用户元素可具有下述一个或一个以上属性特征:性别、年龄、职业、收入、学历、身高、体重、民族、国籍、就业状态、婚姻状态,例如,可通过用户的移动终端上的信息获取用户的上述用户属性信息;三元组(用户,时间,位置)中的时间元素具有下述一个或一个以上属性特征:该时间点是早晨、中午、下午或晚上,该时间点是工作日或节假日,例如,可以获取到时间点之后,对该时间点的属性进行标签标识;三元组(用户,时间,位置)中的位置元素具有下述一个或一个以上属性特征:位于该位置的一个或多个兴趣点POI、各兴趣点POI的类别、各兴趣点POI的价位、处于该位置的用户移动速度、以及用户在该位置上的停留时间等。
获取模块201的轨迹数据获取中,对于每个(user1,time1,location1)的三元组,根据User,Time,Location分别具有的属性特征,得到各个属性的三元组。例如,user1为男性,time1是周一下午7pm,location1为某个kfc的情况下。我们可以得到若干如下形式的三元组:(user1,Monday,location1),(user1,Monday,kfc),(user1,Monday,快餐),(user1,7pm,kfc),(user1,7pm,快餐),(male,7pm,kfc),(male,7pm,快餐)。需要注意的是,因为用户位置在不同时间段的稀疏程度不一致,位置的选择是在用户停留点计算的基础之上进行。在用户在一定时间段内出现在同一个位置(位置之间的直线距离小于预定阈值,例如,处于某一饭店或超市内等)的多个停留点的情形下,需要进行一定的过滤,去掉一些位置之间直线距离小于预定阈值的停留点信息,例如,可以将在一个饭店或超市的多个停留点的信息作为一个位置信息。
获取模块201获取用户的轨迹数据之后,处理模块202根据三元组中各元素的一个或一个以上属性特征对轨迹数据聚类,并根据聚类结果中具有显著性的属性特征确定用户当前所处的场景信息。例如,在获得上面描述的多个三元组,统计各个三元组出现的频率,例如,假如该用户为男性,是晚上7点出现在kfc。那么,通过统计,我们得到frequency(男,7pm,location1)=2,frequency(男,7pm,kfc)=3,frequency(user1,7pm,kfc)=3,frequency(男,7pm,餐饮)=9等统计值。在得到每个三元组以及它的频率的情况下,对于频率超过某个给定阈值的三元组,我们计算每个三元组出现的显著性,比如,为了计算某个兴趣点(point of interest,POI)某个时间点下用户性别的显著性,我们记W(男,7pm,kfc;性别=男)=frequency(男,7pm,kfc)/(frequency(男,7pm,kfc)+frequency(女,7pm,kfc))。通过这样的计算,可以得到一个三元组的频率和它的显著性。这样的计算方法,对计算资源和存储资源的要求较高,适用于计算资源和存储资源较为充裕的场景。
处理模块202的聚类除了采用上述方式之外,还可以采用其他的方式。在特征空间的不同位置上不同特征的重要性不同(例如,Locality-sensitiveclustering)。将每个特征映射到其它特征或其它特征的组合(例如,将用户年龄特征映射到时间和位置的组合特征空间),根据这个特征的显著性,确定该特征在其它特征组合上的重要性。例如,可以根据某一个维度的聚集程度确定,某个维度的上instance(用户的行为轨迹)越聚集,该维度就越重要。例如,可以根据维度的显著性选择聚类维度,根据每个特征在本地的显著性,确定它和维度、时间(例如,演唱会、机场或学校等聚集的人群和基准在年龄、收入、手机价格等维度上都明显区别于基础人群,并且某些人群的聚集是有时效性的(即区别于该位置下其它时间下的人群))。确定目标维度,以及目标维度和时间、空间的关系。例如,可以根据当前位置上的显著特征定义instance之间的距离,并把instance聚类。在定义两个instance距离时,两个instance可以在不同的维度设置不同的权重,即,两个instance在显著特征这一维度的距离近,而在非显著特征这些维度下的距离远。在聚类的过程中,可以考虑各元素的一个或多个属性特征,例如,可以考虑位置元素对应的一个或多个POI属性特征(例如,可以是一个或多个商家),还可以考虑用户元素的一个或多个属性特征(例如,用户的职业、年龄、收入),还可以考虑时间元素的一个或多个属性特征,聚类也具有时效性,随着时间的变化,当一些维度上的聚集效应不存在时,相应的维度在聚类时便不考虑。在聚类时,可以考虑上述各元素的一个或一个以上属性特征,也可以将两个或两个以上元素的属性特征组合。例如,一个地理位置上的标签分布可以影响在该位置有过签到的用户的标签,用户和用户群的归属关系,以及用户群的标签。也可以影响该位置上商家的标签,商家和分类体系的归宿关系等。反过来,用户的标签,用户群的标签分布可以影响一个位置的标签分布,商家和分类体系的归属关系,以及商家分类体系上的标签分布。一个商家分类体系上的属性和价位等标签可以用来影响用户的标签,用户群的标签分布,以及一个地理位置的标签分布。又例如,用户在一个POI停留的时间是判断该用户到访该POI的因素,这样可以将时间元素和位置元素的多个属性特征结合进行聚类。又例如,一个用户到访的POI的某个属性特征可具有一定的规律性,用户较长时间段内均在某一价位的酒店住宿,这样位置元素的一个属性特征就具有明显的显著性。在步骤S102中,根据各元素的一个或一个以上属性特征对用户的轨迹数据进行聚类后,根据聚类结果中具有显著性的属性特征确定用户当前所处的场景信息。例如,在演唱会开场的情形下,对聚集来听演唱会的听众而言,对“用户的当前位置×年龄×用户n个小时前的位置”这几个属性特征进行聚类,能够确定这些听众在当前的位置,他们或她们的行为路径(最近n个小时才到达当前位置),用户的年龄属性特征,这些特征组合上聚类比较集中,具有显著性,能够确定这些听众所处场景为听演唱会。但同一时间从路上走过或演唱会会场的工作人员因为属性(年龄区间等)或行为路径(最近n个小时到达)上的不同而不会被考虑到聚类中。又例如,机场中刚刚到达的乘客,和打算离开的乘客也会因为他们或她们的在预定时间段内轨迹特征上的不同(例如,预定时间段内位置属性特征)而被聚集成不同的聚类。又例如,对于学校、工厂等的用户群,根据用户的学历、年龄、职业等数个属性特征进行聚类,确定出具有显著性的几个属性特征,基于具有显著性的这些特征可以确定用户所处的场景确定为在上学、在工厂上班。学校中的老师因为年龄等属性特征而不会被确定为在上学的场景。
处理模块202的用户场景信息确定过程中,还可以根据外部数据确定用户当前所处的场景信息,例如,外部数据可包括该用户的搜索数据、社交网页数据(例如,用户的推特、微博、微信等社交网页上的文本数据或图片数据等)。例如,通过一个用户在社交网页上的文本数据或图片数据,可确定所有处于当前场景的用户所共同关心的信息。
处理模块202确定出用户当前所处的场景信息,接下来,发送模块203向该用户发送与当前所处的场景信息关联的消息。例如,在确定用户在机场刚刚下飞机的场景之后,可以向该用户发送机场便捷打车的关联消息或机场周围餐饮、住宿的消息等。又例如,在确定用户在餐馆等待就餐的场景下,可以向该用户发送推荐的菜肴关联的消息。
用户的各个场景类似于一个状态机的各个状态,用户在各个场景随着时间进行转换。本发明的处理模块202还可以包括根据用户当前所处的场景信息与该用户的场景转换历史确定该用户的下一个场景信息。用户的场景信息受到不同场景之间转换的影响。用户的场景之间并不是孤立存在的,例如,看完演唱会的演出之后,用户人群的下一个场景可以是回家的路上。吃饭场景之前的场景可能是逛街或者看电影。用户当前所处的场景具有一定的概率分布。根据一定时间段内用户场景转换的历史数据可以获得用户在各个场景的概率值,结合用户当前所处的场景信息,可以确定用户的下一个场景,可以是概率值较高的几个场景。那么,相应地,发送模块203可以根据确定出与当前所处场景关联(例如,下一个场景所需)的消息。这样的消息发送方式,给用户的下一步规划提供了有效的建议。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到本发明可借助软件结合硬件平台的方式来实现,当然也可以全部通过硬件来实施。基于这样的理解,本发明的技术方案对背景技术做出贡献的全部或者部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,智能手机或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。
本发明说明书中使用的术语和措辞仅仅为了举例说明,并不意味构成限定。本领域技术人员应当理解,在不脱离所公开的实施方式的基本原理的前提下,对上述实施方式中的各细节可进行各种变化。因此,本发明的范围只由权利要求确定,在权利要求中,除非另有说明,所有的术语应按最宽泛合理的意思进行理解。
Claims (10)
1.一种基于用户场景的数据处理方法,其特征在于,包括;
获取用户在预定时间段内的轨迹数据,所述轨迹数据包括一个以上三元组(用户,时间,位置),其中,三元组中各元素均具有一个或一个以上属性特征;
根据所述三元组中各元素的一个或一个以上属性特征对所述轨迹数据聚类,并根据聚类结果中具有显著性的属性特征确定所述用户当前所处的场景信息;
向所述用户发送与当前所处的场景信息关联的消息。
2.根据权利要求1所述的方法,其特征在于,所述三元组中的时间为所述预定时间段内的一个时间点,位置为该用户在所述一个时间点所在的位置,并且所述轨迹数据包括该用户到达当前位置的时间点。
3.根据权利要求1所述的方法,其特征在于,
所述三元组(用户,时间,位置)中的用户元素具有下述一个或一个以上属性特征:性别、年龄、职业、收入、学历、身高、体重、民族、国籍、就业状态、婚姻状态;
所述三元组(用户,时间,位置)中的时间元素具有下述一个或一个以上属性特征:早晨、中午、下午、晚上、工作日、节假日;
所述三元组(用户,时间,位置)中的位置元素具有下述一个或一个以上属性特征:一个或多个兴趣点POI、各兴趣点POI的类别、各兴趣点POI的价位、移动速度、停留时间。
4.根据权利要求1至3中任意一项所述的方法,其特征在于,所述方法进一步包括:
根据外部数据确定所述用户当前所处的场景信息,其中,所述外部数据包括下述的一种或一种以上:该用户的搜索数据、社交网页数据。
5.根据权利要求1至3中任意一项所述的方法,其特征在于,所述方法进一步包括:
根据所述用户当前所处的场景信息和所述用户的场景转换历史确定所述用户的下一个场景信息。
6.一种基于用户场景的数据处理装置,其特征在于,包括:
获取模块,用于:
获取用户在预定时间段内的轨迹数据,所述轨迹数据包括一个以上三元组(用户,时间,位置),其中,三元组中各元素均具有一个或一个以上属性特征;
处理模块,用于根据所述三元组中各元素的一个或一个以上属性特征对所述轨迹数据聚类,并根据聚类结果中具有显著性的属性特征确定所述用户当前所处的场景信息;
发送模块,用于向所述用户发送与当前所处的场景信息关联的消息。
7.根据权利要求6所述的装置,其特征在于,所述三元组中的时间为所述预定时间段内的一个时间点,位置为该用户在所述一个时间点所在的位置,并且所述轨迹数据包括该用户到达当前位置的时间点。
8.根据权利要求6所述的装置,其特征在于,
所述三元组(用户,时间,位置)中的用户元素具有下述一个或一个以上属性特征:性别、年龄、职业、收入、学历、身高、体重、民族、国籍、就业状态、婚姻状态;
所述三元组(用户,时间,位置)中的时间元素具有下述一个或一个以上属性特征:早晨、中午、下午、晚上、工作日、节假日;
所述三元组(用户,时间,位置)中的位置元素具有下述一个或一个以上属性特征:一个或多个兴趣点POI、各兴趣点POI的类别、各兴趣点POI的价位、移动速度、停留时间。
9.根据权利要求6至8中任意一项所述的装置,其特征在于,所述处理模块,还用于根据外部数据确定所述用户当前所处的场景信息,其中,所述外部数据包括:该用户的搜索数据、社交网页数据。
10.根据权利要求6至8中任意一项所述的装置,其特征在于,所述处理模块,还用于根据所述用户当前所处的场景信息和所述用户的场景转换历史确定所述用户的下一个场景信息。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN201510112047.1A CN104657506A (zh) | 2015-03-13 | 2015-03-13 | 一种基于用户场景的数据处理方法和装置 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN201510112047.1A CN104657506A (zh) | 2015-03-13 | 2015-03-13 | 一种基于用户场景的数据处理方法和装置 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| CN104657506A true CN104657506A (zh) | 2015-05-27 |
Family
ID=53248633
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| CN201510112047.1A Pending CN104657506A (zh) | 2015-03-13 | 2015-03-13 | 一种基于用户场景的数据处理方法和装置 |
Country Status (1)
| Country | Link |
|---|---|
| CN (1) | CN104657506A (zh) |
Cited By (16)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN105516928A (zh) * | 2016-01-15 | 2016-04-20 | 中国联合网络通信有限公司广东省分公司 | 一种基于位置人群特征的位置推荐方法和系统 |
| CN105608153A (zh) * | 2015-12-18 | 2016-05-25 | 晶赞广告(上海)有限公司 | 一种通用的poi信息关联方法 |
| CN106485921A (zh) * | 2016-12-07 | 2017-03-08 | 北京航空航天大学 | 一种基于社交数据的区域高速路网车流状态分析方法 |
| CN106530005A (zh) * | 2016-11-07 | 2017-03-22 | 四川靓固科技集团有限公司 | 一种基于机器学习和行人识别的道路定向广告投放系统及方法 |
| CN106611017A (zh) * | 2015-10-27 | 2017-05-03 | 滴滴(中国)科技有限公司 | 一种用户身份识别方法及装置 |
| CN107305667A (zh) * | 2016-04-18 | 2017-10-31 | 滴滴(中国)科技有限公司 | 基于出行习惯的用户画像获取方法及装置 |
| CN107784095A (zh) * | 2017-10-18 | 2018-03-09 | 国网内蒙古东部电力有限公司 | 一种基于移动学习的学习资源自动推荐方法 |
| CN108108808A (zh) * | 2018-01-08 | 2018-06-01 | 北京邮电大学 | 一种基于深度信念网络的位置预测方法及装置 |
| CN108345481A (zh) * | 2017-01-22 | 2018-07-31 | 腾讯科技(深圳)有限公司 | 一种页面显示方法、装置、客户端及服务器 |
| CN108460667A (zh) * | 2018-04-08 | 2018-08-28 | 王备战 | 一种基于用户vr漫游行为反馈的文化内容推荐方法 |
| CN108470034A (zh) * | 2018-02-01 | 2018-08-31 | 百度在线网络技术(北京)有限公司 | 一种智能设备服务提供方法及系统 |
| CN109919738A (zh) * | 2019-03-26 | 2019-06-21 | 深圳市活力天汇科技股份有限公司 | 一种基于离散位置的旅游推荐方法 |
| CN110930203A (zh) * | 2020-02-17 | 2020-03-27 | 京东数字科技控股有限公司 | 信息推荐模型训练方法和装置、信息推荐方法和装置 |
| CN111797291A (zh) * | 2020-06-02 | 2020-10-20 | 成都方未科技有限公司 | 一种轨迹数据进行社会功能挖掘的方法、系统及存储介质 |
| CN112148737A (zh) * | 2020-09-23 | 2020-12-29 | 支付宝(杭州)信息技术有限公司 | 考勤处理方法及装置 |
| CN114519616A (zh) * | 2015-10-14 | 2022-05-20 | 财团法人工业技术研究院 | 商品推广方法 |
Citations (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN101520878A (zh) * | 2009-04-03 | 2009-09-02 | 华为技术有限公司 | 向用户进行广告推送的方法、装置和系统 |
| US20110301832A1 (en) * | 2010-06-04 | 2011-12-08 | Microsoft Corporation | Searching Similar Trajectories by Locations |
| CN102594905A (zh) * | 2012-03-07 | 2012-07-18 | 南京邮电大学 | 一种基于场景的社交网络位置兴趣点推荐方法 |
| CN102750292A (zh) * | 2011-04-20 | 2012-10-24 | 北京千橡网景科技发展有限公司 | 用于提供兴趣点的方法及设备 |
| CN104391853A (zh) * | 2014-09-25 | 2015-03-04 | 深圳大学 | Poi推荐方法、poi信息处理方法及服务器 |
-
2015
- 2015-03-13 CN CN201510112047.1A patent/CN104657506A/zh active Pending
Patent Citations (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN101520878A (zh) * | 2009-04-03 | 2009-09-02 | 华为技术有限公司 | 向用户进行广告推送的方法、装置和系统 |
| US20110301832A1 (en) * | 2010-06-04 | 2011-12-08 | Microsoft Corporation | Searching Similar Trajectories by Locations |
| CN102750292A (zh) * | 2011-04-20 | 2012-10-24 | 北京千橡网景科技发展有限公司 | 用于提供兴趣点的方法及设备 |
| CN102594905A (zh) * | 2012-03-07 | 2012-07-18 | 南京邮电大学 | 一种基于场景的社交网络位置兴趣点推荐方法 |
| CN104391853A (zh) * | 2014-09-25 | 2015-03-04 | 深圳大学 | Poi推荐方法、poi信息处理方法及服务器 |
Cited By (22)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN114519616A (zh) * | 2015-10-14 | 2022-05-20 | 财团法人工业技术研究院 | 商品推广方法 |
| CN106611017B (zh) * | 2015-10-27 | 2021-06-29 | 北京嘀嘀无限科技发展有限公司 | 一种用户身份识别方法及装置 |
| CN106611017A (zh) * | 2015-10-27 | 2017-05-03 | 滴滴(中国)科技有限公司 | 一种用户身份识别方法及装置 |
| CN105608153A (zh) * | 2015-12-18 | 2016-05-25 | 晶赞广告(上海)有限公司 | 一种通用的poi信息关联方法 |
| CN105516928A (zh) * | 2016-01-15 | 2016-04-20 | 中国联合网络通信有限公司广东省分公司 | 一种基于位置人群特征的位置推荐方法和系统 |
| CN107305667A (zh) * | 2016-04-18 | 2017-10-31 | 滴滴(中国)科技有限公司 | 基于出行习惯的用户画像获取方法及装置 |
| CN106530005A (zh) * | 2016-11-07 | 2017-03-22 | 四川靓固科技集团有限公司 | 一种基于机器学习和行人识别的道路定向广告投放系统及方法 |
| CN106485921A (zh) * | 2016-12-07 | 2017-03-08 | 北京航空航天大学 | 一种基于社交数据的区域高速路网车流状态分析方法 |
| CN106485921B (zh) * | 2016-12-07 | 2019-03-29 | 北京航空航天大学 | 一种基于社交数据的区域高速路网车流状态分析方法 |
| CN108345481A (zh) * | 2017-01-22 | 2018-07-31 | 腾讯科技(深圳)有限公司 | 一种页面显示方法、装置、客户端及服务器 |
| CN107784095A (zh) * | 2017-10-18 | 2018-03-09 | 国网内蒙古东部电力有限公司 | 一种基于移动学习的学习资源自动推荐方法 |
| CN107784095B (zh) * | 2017-10-18 | 2022-04-01 | 国网内蒙古东部电力有限公司 | 一种基于移动学习的学习资源自动推荐方法 |
| CN108108808A (zh) * | 2018-01-08 | 2018-06-01 | 北京邮电大学 | 一种基于深度信念网络的位置预测方法及装置 |
| CN108108808B (zh) * | 2018-01-08 | 2021-11-19 | 北京邮电大学 | 一种基于深度信念网络的位置预测方法及装置 |
| CN108470034A (zh) * | 2018-02-01 | 2018-08-31 | 百度在线网络技术(北京)有限公司 | 一种智能设备服务提供方法及系统 |
| CN108470034B (zh) * | 2018-02-01 | 2019-09-20 | 百度在线网络技术(北京)有限公司 | 一种智能设备服务提供方法及系统 |
| CN108460667A (zh) * | 2018-04-08 | 2018-08-28 | 王备战 | 一种基于用户vr漫游行为反馈的文化内容推荐方法 |
| CN109919738A (zh) * | 2019-03-26 | 2019-06-21 | 深圳市活力天汇科技股份有限公司 | 一种基于离散位置的旅游推荐方法 |
| CN110930203A (zh) * | 2020-02-17 | 2020-03-27 | 京东数字科技控股有限公司 | 信息推荐模型训练方法和装置、信息推荐方法和装置 |
| CN111797291A (zh) * | 2020-06-02 | 2020-10-20 | 成都方未科技有限公司 | 一种轨迹数据进行社会功能挖掘的方法、系统及存储介质 |
| CN112148737A (zh) * | 2020-09-23 | 2020-12-29 | 支付宝(杭州)信息技术有限公司 | 考勤处理方法及装置 |
| CN112148737B (zh) * | 2020-09-23 | 2023-08-08 | 支付宝(中国)网络技术有限公司 | 考勤处理方法及装置 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CN104657506A (zh) | 一种基于用户场景的数据处理方法和装置 | |
| US8224766B2 (en) | Comparing spatial-temporal trails in location analytics | |
| US9516470B1 (en) | System and method for providing advertising based on mobile device travel patterns | |
| US8073460B1 (en) | System and method for providing advertisement based on mobile device travel patterns | |
| US8849312B2 (en) | User description based on contexts of location and time | |
| CN110191416B (zh) | 用于分析目标实体的移动的装置、系统和方法 | |
| JP5771534B2 (ja) | スポンサー付きランドマーク及びロケーションラベルを配信するためのシステム及び方法 | |
| CN101449555A (zh) | 在基于位置的服务系统中对消息传送机会的拍卖 | |
| CN101449597A (zh) | 移动启动的位置测量 | |
| US9307356B2 (en) | User description based on a context of travel | |
| CN101449554A (zh) | 移动位置的反向查找 | |
| JP2018049619A (ja) | インタラクティブアドバイザリシステム | |
| US20080182590A1 (en) | Methods, systems and computer program products for providing information using an advertising message with a dynamic field | |
| JP6053027B2 (ja) | 類似移動経路をとるユーザを検索する装置、プログラム及び方法 | |
| WO2013036554A2 (en) | Methods and systems for performing proximity-based targeting of advertisements to internet-connectable devices and utilizing predicted locations of internet-connectable devices using data networks | |
| CN104717126A (zh) | 在基于位置的服务系统中根据其利益等级改变位置获取的频率 | |
| JP2010530187A (ja) | コンテンツを優先順位付けするためのインタラクティブなアドバイザリーシステム | |
| US20110295692A1 (en) | Method of Using Location Information for Advertising System Based on 3-Dimensional Shapes | |
| US20140379476A1 (en) | Method and data processing apparatus | |
| US12367247B2 (en) | System and method for segmenting mobile entities based on detected mobile events | |
| CN103148857A (zh) | 一种提供信息的方法和系统 | |
| CN103279877A (zh) | 一种客户信息搜索和排名方法 | |
| CN102523273A (zh) | 提供位置相关服务的系统 | |
| CN113360792A (zh) | 信息推荐方法、装置、电子设备以及存储介质 | |
| US20130325746A1 (en) | Method for Analyzing and Ranking Venues |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| C06 | Publication | ||
| PB01 | Publication | ||
| C10 | Entry into substantive examination | ||
| SE01 | Entry into force of request for substantive examination | ||
| RJ01 | Rejection of invention patent application after publication |
Application publication date: 20150527 |
|
| RJ01 | Rejection of invention patent application after publication |