CN106407254B

CN106407254B - 用户点击行为链的处理方法及装置

Info

Publication number: CN106407254B
Application number: CN201610709620.1A
Authority: CN
Inventors: 赵乾坤
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2016-08-23
Filing date: 2016-08-23
Publication date: 2020-04-28
Anticipated expiration: 2036-08-23
Also published as: CN106407254A

Abstract

本发明提供一种用户点击行为链的处理方法及装置，其所述方法包括：根据各用户的点击行为信息，生成各所述用户在各产品线内的行为序列；根据各所述用户在各所述产品线的行为序列，划分各所述用户的行为簇；对各所述用户在各所述产品线的行为簇进行跳转链接匹配，生成各所述用户的全网点击行为链。通过采用本发明的技术方案生成的用户点击行为链的准确性较高，能够准确的反映用户的实际点击行为序列，在全网session分析项目中得到很好的应用，有效地提升用户行为分析的客观性和准确性。

Description

用户点击行为链的处理方法及装置

【技术领域】

本发明涉及互联网行为分析技术领域，尤其涉及一种用户点击行为链的处理方法及装置。

【背景技术】

随着互联网科技的发展，各种围绕互联网的分析和研究越来越多。例如在互联网企业中，海量的用户点击行为日志是最重要的数据资产之一，通过对用户点击日志处理，并构建用户点击行为链，进而挖掘用户的行为模式、兴趣点等等，可以为推荐、广告预估等业务提供强有力的数据支持。因此，用户点击行为链的构建在互联网大数据处理中处于非常基础和关键的位置。

随着数据应用和数据融合的发展，用户点击行为链分析不再局限于同一产品线、同一企业内部，而往往是跨产品线、跨企业的融合数据。由于不同产品线和企业间收集的用户点击日志由于日志规则、用户标识等的不兼容，现有技术中，通常仅能够对各个产品线分别做点击行为链的划分和分析。使用时，再基于简单的用户标识关联信息，分别抽取对应于各产品线中的行为链数据。即现有技术的跨产品线的用户点击行为链，而只是把各产品线的数据简单累加到一起。

但是，实际应用中用户的点击行为在各产品线之间往往会出现交叉现象，但是现有技术的方案对这种交叉跳转行为没有进行有效处理，导致现有技术所构建的用户点击行为链的准确性较差，不能准确的反映用户的实际点击行为序列。

【发明内容】

本发明提供了一种用户点击行为链的处理方法的方法和装置，用于提高构建的用户点击行为链的准确性，以使得用户点击行为链能够准确的反映用户的实际点击行为序列。

本发明提供一种用户点击行为链的处理方法，所述方法包括：

根据各用户的点击行为信息，生成各所述用户在各产品线内的行为序列；

根据各所述用户在各所述产品线的行为序列，划分各所述用户的行为簇；

对各所述用户在各所述产品线的行为簇进行跳转链接匹配，生成各所述用户的全网点击行为链。

进一步可选地，如上所述的方法中，根据各用户的点击行为信息，生成各所述用户在各产品线内的行为序列，具体包括：

从各所述产品线的日志信息中，将具有相同用户标识的点击行为信息按照时间先后顺序排列，生成各所述用户在各所述产品线内的行为序列，所述点击行为信息包括点击时间戳、当前链接的URL、前向链接的URL、后向链接的 URL、当前所述产品线内的所述用户标识以及通用用户标识。

进一步可选地，如上所述的方法中，所述通用用户标识包括IP信息、浏览器标识、硬件设备标识和媒体访问控制地址中的至少一个。

进一步可选地，如上所述的方法中，根据各所述用户在各所述产品线的行为序列，划分各所述用户的行为簇，具体包括：

根据各所述用户在各所述产品线的行为序列，获取各所述用户在各所述产品线的链入点和链出点；

根据各所述用户在各所述产品线的所述链入点和所述链出点，将同一所述用户标识在同一所述产品线中的所述链入点，分别与在同一所述产品线对应的相邻的所述链出点或者在同一所述产品线对应的后相邻的所述链入点之间的行为序列，划分为各所述用户的行为簇。

进一步可选地，如上所述的方法中，对各所述用户在各所述产品线的行为簇进行跳转链接匹配，生成各所述用户的全网点击行为链，具体包括：

根据各所述通用用户标识，对各所述产品线的所述用户进行匹配；

将匹配后属于同一所述用户的各个所述行为簇的所述链入点和所述链出点进行跳转链接匹配，生成各所述用户的全网点击行为链。

进一步可选地，如上所述的方法中，根据各所述通用用户标识，对各所述产品线的所述用户进行匹配，具体包括：

将不同所述产品线中，所述通用用户标识相同的用户匹配为同一个所述用户。

进一步可选地，如上所述的方法中，将匹配后属于同一所述用户的各个所述行为簇的所述链入点和所述链出点进行跳转链接匹配，生成各所述用户的全网点击行为链，具体包括：

提取匹配后属于同一所述用户的各个所述行为簇的所述链出点的所述点击时间戳、当前链接URL的hostname和path、以及后向链接的URL的hostname 和path；

提取匹配后属于同一所述用户的各个所述行为簇的所述链入点的所述点击时间戳、当前链接URL的hostname和path、以及前向链接的URL的hostname 和path；

根据匹配后属于同一所述用户的各个所述行为簇的所述链出点的所述点击时间戳、当前链接URL的hostname和path、后向链接的URL的hostname和path，以及匹配后属于同一所述用户的各个所述行为簇的所述链入点的所述点击时间戳、当前链接URL的hostname和path、以及前向链接的URL的hostname和path，将各个所述行为簇的所述链入点和所述链出点进行跳转链接匹配，生成各所述用户的全网点击行为链。

进一步可选地，如上所述的方法中，根据匹配后属于同一所述用户的各个所述行为簇的所述链出点的所述点击时间戳、当前链接URL的hostname和path、后向链接的URL的hostname和path，以及匹配后属于同一所述用户的各个所述行为簇的所述链入点的所述点击时间戳、当前链接URL的hostname和path、以及前向链接的URL的hostname和path，将各个所述行为簇的所述链入点和所述链出点进行跳转链接匹配，生成各所述用户的全网点击行为链，具体包括：

对于各所述链出点和各所述链入点，计算所述链出点当前链接URL的 hostname与所述链入点的前向链接的URL的hostname的第一相似度；

计算所述链出点后向链接的URL的hostname与所述链入点的当前链接 URL的hostname的第二相似度；

计算所述链出点当前链接URL的path与所述链入点的前向链接的URL的 path的第三相似度；

计算所述链出点后向链接的URL的path与所述链入点的当前链接URL的 path的第四相似度；

计算所述链出点的所述点击时间戳和所述链入点的所述点击时间戳的差值；

根据各所述链出点和各所述链入点对应的所述第一相似度、所述第二相似度、所述第三相似度、所述第四相似度、所述差值以及预设的链入点和链出点的匹配模型，确定跳转链接匹配的所述链出点和所述链入点；

根据所述跳转链接匹配的所述链出点和所述链入点，将同一所述用户的各个所述行为簇链接起来，生成对应所述用户的全网点击行为链。

进一步可选地，如上所述的方法中，所述预设的链入点和链出点的匹配模型为采用机器学习方法进行训练得到的；所述采用机器学习方法包括逻辑回归、决策树或者SVM。

本发明还提供一种用户点击行为链的处理装置，所述装置包括：

行为序列生成模块，用于根据各用户的点击行为信息，生成各所述用户在各产品线内的行为序列；

行为簇划分模块，用于根据各所述用户在各所述产品线的行为序列，划分各所述用户的行为簇；

全网点击行为链生成模块，用于对各所述用户在各所述产品线的行为簇进行跳转链接匹配，生成各所述用户的全网点击行为链。

进一步可选地，如上所述的装置中，所述行为序列生成模块，具体用于从各所述产品线的日志信息中，将具有相同用户标识的点击行为信息按照时间先后顺序排列，生成各所述用户在各所述产品线内的行为序列，所述点击行为信息包括点击时间戳、当前链接的URL、前向链接的URL、后向链接的URL、当前所述产品线内的所述用户标识以及通用用户标识。

进一步可选地，如上所述的装置中，所述通用用户标识包括IP信息、浏览器标识、硬件设备标识和媒体访问控制地址中的至少一个。

进一步可选地，如上所述的装置中，所述行为簇划分模块，具体用于：

进一步可选地，如上所述的装置中，所述全网点击行为链生成模块，具体包括：

用户匹配单元，用于根据各所述通用用户标识，对各所述产品线的所述用户进行匹配；

全网点击行为链生成单元，用于将匹配后属于同一所述用户的各个所述行为簇的所述链入点和所述链出点进行跳转链接匹配，生成各所述用户的全网点击行为链。

进一步可选地，如上所述的装置中，所述用户匹配单元，用于将不同所述产品线中，所述通用用户标识相同的用户匹配为同一个所述用户。

进一步可选地，如上所述的装置中，所述全网点击行为链生成单元，具体包括：

提取子单元，用于提取匹配后属于同一所述用户的各个所述行为簇的所述链出点的所述点击时间戳、当前链接URL的hostname和path、以及后向链接的 URL的hostname和path；

所述提取子单元，还用于提取匹配后属于同一所述用户的各个所述行为簇的所述链入点的所述点击时间戳、当前链接URL的hostname和path、以及前向链接的URL的hostname和path；

全网点击行为链子单元，用于根据匹配后属于同一所述用户的各个所述行为簇的所述链出点的所述点击时间戳、当前链接URL的hostname和path、后向链接的URL的hostname和path，以及匹配后属于同一所述用户的各个所述行为簇的所述链入点的所述点击时间戳、当前链接URL的hostname和path、以及前向链接的URL的hostname和path，将各个所述行为簇的所述链入点和所述链出点进行跳转链接匹配，生成各所述用户的全网点击行为链。

进一步可选地，如上所述的装置中，所述全网点击行为链子单元，具体用于：

进一步可选地，如上所述的装置中，所述预设的链入点和链出点的匹配模型为采用机器学习方法进行训练得到的；所述采用机器学习方法包括逻辑回归、决策树或者SVM。

本发明的用户点击行为链的处理方法及装置，通过根据各用户的点击行为信息，生成各用户在各产品线内的行为序列；根据各用户在各产品线的行为序列，划分各用户的行为簇；对各用户在各产品线的行为簇进行跳转链接匹配，生成各用户的全网点击行为链。通过采用本发明的技术方案生成的用户点击行为链的准确性较高，能够准确的反映用户的实际点击行为序列。在互联网大数据时代，跨产品线多源数据的融合变的越来越重要。本发明的技术方案，通过融合不同产品线的数据，可以更好、更全面的分析了解用户的个性化特征，提升数据的价值。因此，本发明的技术方案，能够准确的串联起用户的真实行为序列，在全网session分析项目中得到很好的应用，有效地提升用户行为分析的客观性和准确性。

【附图说明】

图1为本发明的用户点击行为链的处理方法实施例的流程图。

图2为本发明实施例的匹配的链入点和链出点的关系图。

图3为本发明实施例的一种用户的全网点击行为链的示意图。

图4为本发明的用户点击行为链的处理装置实施例一的结构图。

图5为本发明的用户点击行为链的处理装置实施例二的结构图。

【具体实施方式】

为了使本发明的目的、技术方案和优点更加清楚，下面结合附图和具体实施例对本发明进行详细描述。

图1为本发明的用户点击行为链的处理方法实施例的流程图。如图1所示，本实施例的用户点击行为链的处理方法，具体可以包括如下步骤：

100、根据各用户的点击行为信息，生成各用户在各产品线内的行为序列；

101、根据各用户在各产品线的行为序列，划分各用户的行为簇；

102、对各用户在各产品线的行为簇进行跳转链接匹配，生成各用户的全网点击行为链。

本实施例的用户点击行为链的处理方法的执行主体为用户点击行为链的处理装置，该装置可以设置在一个网络管理设备中，用于进行该公司内或者公司内外的全网session分析。例如，本实施例的技术方案可以适用于百度公司，其对应的各产品线可以包括搜索、百度百科、百度贴吧、百度地图等等百度域内产品线，或者还可以包括微博、爱奇艺等域外数据。由于每个产品线对用户标识的定义都不尽相同，采集的用户日志信息也千差万别，直接基于时间序列构建用户行为链就变的非常困难。因此，本实施例中，首先根据各用户的点击行为信息，生成各用户在各产品线内的行为序列。具体地，各产品线内部的用户行为日志通常会有独立的用户标识字段，用于标识同一用户。在产品线内部，可基于独立而明确的用户标识进行聚合，并按时间序列进行排序，由此得到每个产品线内的基础用户的行为序列。每一个产品线内可以采集到多个用户的点击行为信息，对应生成多个用户的行为序列。

本实施例中，针对不同产品线的用户点击行为信息进行融合处理，这些点击行为信息可以从对应产品线的日志数据中获取。因此，首先需要明确若干通用的日志信息或日志字段，所谓“通用”，是指这些信息或字段在所有典型的点击日志中都会被包含。因此，本实施例的点击行为信息即通用日志信息或字段包括但不限于：

用户标识：用于标识该用于在该产品线内的标识；

点击时间戳：记录点击行为发生时的时间戳；

当前链接的统一资源定位符(Uniform Resoure Locator；URL)：记录点击行为发生的当前页面URL；

前向链接的URL：记录导入当前页面的URL，即当前页面的前一页面URL，可以简称为前链的URL；

后向链接的URL：记录由当前页面导出的目标页面URL，即当前页面的后一页面的URL，可以简称为后链的URL；

通用用户标识：包括但不限于IP信息、浏览器标识、硬件设备信息以及媒体访问控制(Media Access Control；MAC)地址中的至少一个。

因此，步骤100具体可以为从各产品线的日志信息中，将具有相同用户标识的点击行为信息按照时间先后顺序排列，生成各用户在各产品线内的行为序列，点击行为信息包括点击时间戳、当前链接的URL、前向链接的URL、后向链接的URL、当前产品线内的用户标识以及通用用户标识。

生成各用户在各产品线内的行为序列之后，可以将同一用户在同一各产品线内具有先后时序关系的行为序列作为一个行为簇，即根据各用户在各产品线的行为序列，划分各用户的行为簇。具体地，步骤101“根据各用户在各产品线的行为序列，划分各用户的行为簇”，具体可以包括如下步骤：

(a1)根据各用户在各产品线的行为序列，获取各用户在各产品线的链入点和链出点；

(a2)根据各用户在各产品线的链入点和链出点，将同一用户标识在同一产品线中的链入点，分别与在同一产品线对应的相邻的链出点或者在同一产品线对应的后相邻的链入点之间的行为序列，划分为各用户的行为簇。

具体地，在划分用户在每个产品线的行为簇时，可以根据该用户在该产品线的链入点和链出点来划分。链入点可以定义为当前用户行为日志的前链的 URL不属于本产品线，即当前用户行为是从其他产品线跳转过来的。链出点定义为当前用户行为日志的后链的URL不属于本产品线，即从当前用户行为跳转至其他产品线。同一个产品线，同一个用户可以包括多个链出点，也可以包括多个链入点，在划分行为簇时，将同一用户标识在同一产品线中的链入点与在同一产品线对应的相邻的链出点(包括该链出点)之间的行为序列，划分为该用户的一个行为簇。另外，对于有的用户的行为序列，存在链入点，而不存在相邻的链出点，然后再多一段时间，再会存在一个后相邻的链入点。此时还可以将同一用户标识在同一产品线中的链入点与在同一产品线对应的后相邻的链入点(不包括该链入点)之间的行为序列，划分为该用户的一个行为簇。用户的行为簇是生成全网用户行为链的最小不可分单元。特殊的，当一用户日志既是日志链入点，又是链出点时，该条日志独立形成一用户行为簇。也就是说，用户的行为簇不限制有几条用户的点击行为信息，可以只包括一条，也可以包括多条。

根据划分好的行为簇，对各用户在各产品线的行为簇进行跳转链接匹配，从而将全网的同一用户的各个行为簇链接在一起，从而生成各用户的全网点击行为链。

本实施例的用户点击行为链的处理方法，通过根据各用户的点击行为信息，生成各用户在各产品线内的行为序列；根据各用户在各产品线的行为序列，划分各用户的行为簇；对各用户在各产品线的行为簇进行跳转链接匹配，生成各用户的全网点击行为链。通过采用本实施例的技术方案生成的用户点击行为链的准确性较高，能够准确的反映用户的实际点击行为序列。在互联网大数据时代，跨产品线多源数据的融合变的越来越重要。本实施例的用户点击行为链的处理方法，通过融合不同产品线的数据，可以更好、更全面的分析了解用户的个性化特征，提升数据的价值。因此，本实施例的用户点击行为链的处理方法，能够准确的串联起用户的真实行为序列，在全网session分析项目中得到很好的应用，有效地提升用户行为分析的客观性和准确性。

进一步可选地，在上述实施例的技术方案的基础上，步骤102“对各用户在各产品线的行为簇进行跳转链接匹配，生成各用户的全网点击行为链”，具体可以包括如下步骤：

(b1)根据各通用用户标识，对各产品线的用户进行匹配；

例如该步骤具体可以包括：将不同产品线中，通用用户标识相同的用户匹配为同一个用户。

由于跨产品线之间往往不存在统一的明确用户标识，无法直接对某一用户的所有行为进行聚合。另外，由于产品线之间日志信息采集上的差异，简单的比较链入点链出点的URL是否相同来进行跳转匹配，也是很难行得通的。因此，本实施例中，首先基于通用用户标识的模糊聚合。由于各产品线用户日志信息虽然没有统一的明确的用户标识，但是都会收集前述的通用用户标识信息，包括但不限于IP信息、浏览器标识、硬件设备信息以及mac地址等等中的至少一个，通用用户标识用于标识该用户所使用的硬件的信息。可根据这些通用用户标识对用户行为簇进行模糊聚合，即将通用用户标识相同的用户作为同一用户，可以有效缩小后续用户跳转行为链匹配的搜索范围。

具体在根据通用用户标识对用户行为簇进行模糊聚合时，可以认为，不同产品线的点击行为信息对应的通用用户标识中的IP信息、浏览器标识、硬件设备信息以及mac地址只要有一个相同，可以认为是同一用户，为了提高匹配的准确性，不同产品线中的点击行为信息中的通用用户标识中的IP信息、浏览器标识、硬件设备信息以及mac地址中相同的越多，说明匹配的准确性越高。因此，在实施时，也可以将匹配的标准设置为：不同产品线的点击行为信息对应的通用用户标识中的IP信息、浏览器标识、硬件设备信息以及mac地址中预设数值个相同，这个预设数值可以根据每个产品的需求，设置为一个、两个、或者三个或者其他数值个。另外，通用用户标识除了上述参数，还可以进一步扩展包括其他标识用户的信息。

(b2)将匹配后属于同一用户的各个行为簇的链入点和链出点进行跳转链接匹配，生成各用户的全网点击行为链。

例如，该步骤(b2)“将匹配后属于同一用户的各个行为簇的链入点和链出点进行跳转链接匹配，生成各用户的全网点击行为链”，具体可以包括如下步骤：

(c1)提取匹配后属于同一用户的各个行为簇的链出点的点击时间戳、当前链接URL的hostname和path、以及后向链接的URL的hostname和path；

(c2)提取匹配后属于同一用户的各个行为簇的链入点的点击时间戳、当前链接URL的hostname和path、以及前向链接的URL的hostname和path；

(c3)根据匹配后属于同一用户的各个行为簇的链出点的点击时间戳、当前链接URL的hostname和path、后向链接的URL的hostname和path，以及匹配后属于同一用户的各个行为簇的链入点的点击时间戳、当前链接URL的 hostname和path、以及前向链接的URL的hostname和path，将各个行为簇的链入点和链出点进行跳转链接匹配，生成各用户的全网点击行为链。

通过对同一用户的链出点和链入点的精确匹配，可以实现确定跨产品线的用户跳转行为链打通。由于日志信息记录的偏差，直接匹配链出点和链入点的 URL是否相同并不可取。为此，本实施例中通过拆解链入点的URL和链出点 URL的组成子域分别比较来提升对信息偏差的容忍度。URL的一般结构为： protocol://hostname[:port]/path/[；parameters][？query]#fragment，其中hostname和 path是关键信息，为此，本实施例中针对各个链出链入的URL、前向链接的URL、后向链接的URL分别提取hostname及path。

然后根据提取的匹配后属于同一用户的各个行为簇的链入点和链出点的上述信息以及匹配后属于同一用户的各个行为簇的链入点的点击时间戳，将各个行为簇的链入点和链出点进行跳转链接匹配，生成各用户的全网点击行为链。

例如，步骤(c3)“根据匹配后属于同一用户的各个行为簇的链出点的点击时间戳、当前链接URL的hostname和path、后向链接的URL的hostname和path，以及匹配后属于同一用户的各个行为簇的链入点的点击时间戳、当前链接URL 的hostname和path、以及前向链接的URL的hostname和path，将各个行为簇的链入点和链出点进行跳转链接匹配，生成各用户的全网点击行为链”，具体可以包括：

(d1)对于各链出点和各链入点，计算链出点当前链接URL的hostname 与链入点的前向链接的URL的hostname的第一相似度；

(d2)计算链出点后向链接的URL的hostname与链入点的当前链接URL 的hostname的第二相似度；

(d3)计算链出点当前链接URL的path与链入点的前向链接的URL的path 的第三相似度；

(d4)计算链出点后向链接的URL的path与链入点的当前链接URL的path 的第四相似度；

(d5)计算链出点的点击时间戳和链入点的点击时间戳的差值；

(d6)根据各链出点和各链入点对应的第一相似度、第二相似度、第三相似度、第四相似度、差值以及预设的链入点和链出点的匹配模型，确定跳转链接匹配的链出点和链入点；

(d7)根据跳转链接匹配的链出点和链入点，将同一用户的各个行为簇链接起来，生成对应用户的全网点击行为链。

由于匹配的链入点和链出点具有图2所示的关系。因此本实施例中通过步骤(d1)-(d4)计算第一相似度到第四相似度，以确定链出点和链入点是否匹配。具体计算时，可以参考两个字符串的最长公共子串的长度与两者中较长字符串长度的比值：

其中str1和str2分别为要比较的两个客体，如在计算第一相似度时，str1对应链出点当前链接URL的hostname，str2对应链入点的前向链接的URL的 hostname。如在计算第二相似度时，str1对应链出点后向链接的URL的hostname， str2对应链入点的当前链接URL的hostname。如在计算第三相似度时，str1对应链出点当前链接URL的path，str2对应链入点的前向链接的URL的path。如在计算第四相似度时，str1对应链出点后向链接的URL的path，str2对应链入点的当前链接URL的path。

经上述步骤(d1)-(d5)提取特征之后，然后通过机器学习方法确定预设的链入点和链出点的匹配模型。具体地，利用人工标注的方式获得一定量的训练样本集，即对于一些确定是匹配的链出点和对应链入点对，以及确定的一些不匹配的链出点和对应链入点对，分别进行人工标注，从而得到大量的训练样本集。然后分别利用训练的样本集训练链入点和链出点的匹配模型，从而确定链入点和链出点的匹配模型的参数，从而确定预设的链入点和链出点的匹配模型。

然后，将上述步骤(d1)-(d5)计算的第一相似度、第二相似度、第三相似度以及第四相似度点和点击时间戳的差值，分别输入到预设的链入点和链出点的匹配模型中，从而可以输出对应的链入点和链出点是否匹配的结果。通过对所有的链出点和链入点采用上述方式进行确定，可以得到所有匹配的链出点和链入点。

本实施例的机器学习方法包括但不限于逻辑回归、决策树或者支持向量机(Support Vector Machine；SVM)方法。

最后，根据跳转链接匹配的链出点和链入点，将同一用户的各个行为簇链接起来，生成对应用户的全网点击行为链，即根据各行为簇的链入点和链出点的匹配结果，导出用户的全网点击行为链。例如图3为本发明实施例的一种用户的全网点击行为链的示意图。如图3所示，首先找到具有最早时间戳的行为簇G1，假设G1具有链出点G1o，确定G1o的最佳匹配链入点为G2i，此链入点属于行为簇G2，则可将行为簇G1和G2串联起来，通过G1o—>G2i实现跳转。依次进行，直至无法找到合适的链出链入匹配，或者行为簇无链出点时停止，由此即可获得一条用户的全网点击行为链。

上述实施例的用户点击行为链的处理方法，通过采用上述技术方案生成的用户点击行为链的准确性较高，能够准确的反映用户的实际点击行为序列。在互联网大数据时代，跨产品线多源数据的融合变的越来越重要。本实施例的用户点击行为链的处理方法，通过融合不同产品线的数据，可以更好、更全面的分析了解用户的个性化特征，提升数据的价值。因此，本实施例的用户点击行为链的处理方法，能够准确的串联起用户的真实行为序列，在全网session分析项目中得到很好的应用，有效地提升用户行为分析的客观性和准确性。

图4为本发明的用户点击行为链的处理装置实施例一的结构图。如图4所示，本实施例的用户点击行为链的处理装置，具体可以包括：行为序列生成模块10、行为簇划分模块11和全网点击行为链生成模块12。

其中，行为序列生成模块10用于根据各用户的点击行为信息，生成各用户在各产品线内的行为序列；行为簇划分模块11用于根据行为序列生成模块10 生成的各用户在各产品线的行为序列，划分各用户的行为簇；全网点击行为链生成模块12用于对行为簇划分模块11划分的各用户在各产品线的行为簇进行跳转链接匹配，生成各用户的全网点击行为链。

本实施例的用户点击行为链的处理装置，通过采用上述模块实现用户点击行为链的处理，与上述相关方法实施例的实现原理以及技术效果相同，详细可以参考上述相关方法实施例的记载，在此不再赘述。

图5为本发明的用户点击行为链的处理装置实施例二的结构图。如图5所示，本实施例的用户点击行为链的处理装置在上述图4所示实施例的技术方案的基础上，进一步更加详细地介绍本发明的技术方案。

本实施例的用户点击行为链的处理装置中，行为序列生成模块10具体用于从各产品线的日志信息中，将具有相同用户标识的点击行为信息按照时间先后顺序排列，生成各用户在各产品线内的行为序列，点击行为信息包括点击时间戳、当前链接的URL、前向链接的URL、后向链接的URL、当前产品线内的用户标识以及通用用户标识。

进一步可选地，其中的通用用户标识包括IP信息、浏览器标识、硬件设备标识和媒体访问控制地址中的至少一个。

本实施例的用户点击行为链的处理装置中，行为簇划分模块11具体用于：

根据行为序列生成模块10生成的各用户在各产品线的行为序列，获取各用户在各产品线的链入点和链出点；

根据各用户在各产品线的链入点和链出点，将同一用户标识在同一产品线中的链入点，分别与在同一产品线对应的相邻的链出点或者在同一产品线对应的后相邻的链入点之间的行为序列，划分为各用户的行为簇。

进一步可选地，如图5所示，本实施例的用户点击行为链的处理装置中，全网点击行为链生成模块12具体包括：用户匹配单元121和全网点击行为链生成单元122。

其中用户匹配单元121用于根据行为序列生成模块10生成的各用户在各产品线内的行为序列中的点击行为信息中的各通用用户标识，对各产品线的用户进行匹配；

全网点击行为链生成单元122用于将用户匹配单元121匹配后属于同一用户的各个行为簇的链入点和链出点进行跳转链接匹配，生成各用户的全网点击行为链。

例如，用户匹配单元121用于将不同产品线中，通用用户标识相同的用户匹配为同一个用户。

进一步可选地，如图5所示，本实施例的用户点击行为链的处理装置中，全网点击行为链生成单元122具体包括：提取子单元1221和全网点击行为链子单元1222。

其中提取子单元1221用于根据用户匹配单元121的匹配结果，提取匹配后属于同一用户的各个行为簇的链出点的点击时间戳、当前链接URL的hostname 和path、以及后向链接的URL的hostname和path；提取子单元1221还用于提取匹配后属于同一用户的各个行为簇的链入点的点击时间戳、当前链接URL的 hostname和path、以及前向链接的URL的hostname和path；全网点击行为链子单元1222用于根据匹配后属于同一用户的各个行为簇的链出点的点击时间戳、当前链接URL的hostname和path、后向链接的URL的hostname和path，以及匹配后属于同一用户的各个行为簇的链入点的点击时间戳、当前链接URL的hostname和path、以及前向链接的URL的hostname和path，将各个行为簇的链入点和链出点进行跳转链接匹配，生成各用户的全网点击行为链。

进一步可选地，全网点击行为链子单元1222具体用于：

对于各链出点和各链入点，计算链出点当前链接URL的hostname与链入点的前向链接的URL的hostname的第一相似度；

计算链出点后向链接的URL的hostname与链入点的当前链接URL的 hostname的第二相似度；

计算链出点当前链接URL的path与链入点的前向链接的URL的path的第三相似度；

计算链出点后向链接的URL的path与链入点的当前链接URL的path的第四相似度；

计算链出点的点击时间戳和链入点的点击时间戳的差值；

根据各链出点和各链入点对应的第一相似度、第二相似度、第三相似度、第四相似度、差值以及预设的链入点和链出点的匹配模型，确定跳转链接匹配的链出点和链入点；

根据跳转链接匹配的链出点和链入点，将同一用户的各个行为簇链接起来，生成对应用户的全网点击行为链。

进一步可选地，预设的链入点和链出点的匹配模型为采用机器学习方法进行训练得到的；采用机器学习方法包括逻辑回归、决策树或者SVM。

在本发明所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等) 或处理器(processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种用户点击行为链的处理方法，其特征在于，所述方法包括：

根据各所述用户在各所述产品线的行为序列，将同一用户在同一产品线内的行为序列作为一个行为簇，划分各所述用户的行为簇；

根据各通用用户标识，对各所述产品线的所述用户进行匹配；

根据匹配后属于同一所述用户的各个所述行为簇的链出点的点击时间戳、当前链接URL的hostname和path、后向链接的URL的hostname和path，以及匹配后属于同一所述用户的各个所述行为簇的链入点的点击时间戳、当前链接URL的hostname和path、以及前向链接的URL的hostname和path，将各个所述行为簇的所述链入点和所述链出点进行跳转链接匹配，生成各所述用户的全网点击行为链。

2.根据权利要求1所述的方法，其特征在于，根据各用户的点击行为信息，生成各所述用户在各产品线内的行为序列，具体包括：

从各所述产品线的日志信息中，将具有相同用户标识的点击行为信息按照时间先后顺序排列，生成各所述用户在各所述产品线内的行为序列，所述点击行为信息包括点击时间戳、当前链接的URL、前向链接的URL、后向链接的URL、当前所述产品线内的所述用户标识以及通用用户标识。

3.根据权利要求2所述的方法，其特征在于，所述通用用户标识包括IP信息、浏览器标识、硬件设备标识和媒体访问控制地址中的至少一个。

4.根据权利要求2或者3所述的方法，其特征在于，根据各所述用户在各所述产品线的行为序列，划分各所述用户的行为簇，具体包括：

5.根据权利要求1所述的方法，其特征在于，根据各所述通用用户标识，对各所述产品线的所述用户进行匹配，具体包括：

6.根据权利要求1或者5所述的方法，其特征在于，将各个所述行为簇的所述链入点和所述链出点进行跳转链接匹配，生成各所述用户的全网点击行为链，具体还包括：

提取匹配后属于同一所述用户的各个所述行为簇的所述链出点的所述点击时间戳、当前链接URL的hostname和path、以及后向链接的URL的hostname和path；

提取匹配后属于同一所述用户的各个所述行为簇的所述链入点的所述点击时间戳、当前链接URL的hostname和path、以及前向链接的URL的hostname和path。

7.根据权利要求6所述的方法，其特征在于，根据匹配后属于同一所述用户的各个所述行为簇的所述链出点的所述点击时间戳、当前链接URL的hostname和path、后向链接的URL的hostname和path，以及匹配后属于同一所述用户的各个所述行为簇的所述链入点的所述点击时间戳、当前链接URL的hostname和path、以及前向链接的URL的hostname和path，将各个所述行为簇的所述链入点和所述链出点进行跳转链接匹配，生成各所述用户的全网点击行为链，具体包括：

对于各所述链出点和各所述链入点，计算所述链出点当前链接URL的hostname与所述链入点的前向链接的URL的hostname的第一相似度；

计算所述链出点后向链接的URL的hostname与所述链入点的当前链接URL的hostname的第二相似度；

计算所述链出点当前链接URL的path与所述链入点的前向链接的URL的path的第三相似度；

计算所述链出点后向链接的URL的path与所述链入点的当前链接URL的path的第四相似度；

8.根据权利要求7所述的方法，其特征在于，所述预设的链入点和链出点的匹配模型为采用机器学习方法进行训练得到的；所述采用机器学习方法包括逻辑回归、决策树或者SVM。

9.一种用户点击行为链的处理装置，其特征在于，所述装置包括：

行为簇划分模块，用于根据各所述用户在各所述产品线的行为序列，将同一用户在同一产品线内的行为序列作为一个行为簇，划分各所述用户的行为簇；

全网点击行为链生成模块，用于对各所述用户在各所述产品线的行为簇进行跳转链接匹配，生成各所述用户的全网点击行为链，

所述全网点击行为链生成模块，具体包括：用户匹配单元和全网点击行为链生成单元，

所述用户匹配单元，用于根据各通用用户标识，对各所述产品线的所述用户进行匹配；

所述全网点击行为链生成单元，用于将匹配后属于同一所述用户的各个所述行为簇的链入点和链出点进行跳转链接匹配，生成各所述用户的全网点击行为链，

所述全网点击行为链生成单元，具体包括：全网点击行为链子单元，用于根据匹配后属于同一所述用户的各个所述行为簇的所述链出点的点击时间戳、当前链接URL的hostname和path、后向链接的URL的hostname和path，以及匹配后属于同一所述用户的各个所述行为簇的所述链入点的点击时间戳、当前链接URL的hostname和path、以及前向链接的URL的hostname和path，将各个所述行为簇的所述链入点和所述链出点进行跳转链接匹配，生成各所述用户的全网点击行为链。

10.根据权利要求9所述的装置，其特征在于，所述行为序列生成模块，具体用于从各所述产品线的日志信息中，将具有相同用户标识的点击行为信息按照时间先后顺序排列，生成各所述用户在各所述产品线内的行为序列，所述点击行为信息包括点击时间戳、当前链接的URL、前向链接的URL、后向链接的URL、当前所述产品线内的所述用户标识以及通用用户标识。

11.根据权利要求10所述的装置，其特征在于，所述通用用户标识包括IP信息、浏览器标识、硬件设备标识和媒体访问控制地址中的至少一个。

12.根据权利要求10或者11所述的装置，其特征在于，所述行为簇划分模块，具体用于：

13.根据权利要求9所述的装置，其特征在于，所述用户匹配单元，用于将不同所述产品线中，所述通用用户标识相同的用户匹配为同一个所述用户。

14.根据权利要求9或者13所述的装置，其特征在于，所述全网点击行为链生成单元，具体还包括：

提取子单元，用于提取匹配后属于同一所述用户的各个所述行为簇的所述链出点的所述点击时间戳、当前链接URL的hostname和path、以及后向链接的URL的hostname和path；

所述提取子单元，还用于提取匹配后属于同一所述用户的各个所述行为簇的所述链入点的所述点击时间戳、当前链接URL的hostname和path、以及前向链接的URL的hostname和path。

15.根据权利要求14所述的装置，其特征在于，所述全网点击行为链子单元，具体用于：

16.根据权利要求15所述的装置，其特征在于，所述预设的链入点和链出点的匹配模型为采用机器学习方法进行训练得到的；所述采用机器学习方法包括逻辑回归、决策树或者SVM。