CN111027676B

CN111027676B - 一种目标用户的选择方法和装置

Info

Publication number: CN111027676B
Application number: CN201911194019.3A
Authority: CN
Inventors: 李晨晨; 阎翔; 乔俊龙; 屈超; 熊君武; 宋乐
Original assignee: Alipay Hangzhou Information Technology Co Ltd
Current assignee: Alipay Hangzhou Information Technology Co Ltd
Priority date: 2019-11-28
Filing date: 2019-11-28
Publication date: 2022-03-18
Anticipated expiration: 2039-11-28
Also published as: CN111027676A

Abstract

本说明书实施例提供一种目标用户的选择方法和装置，其中，所述方法包括：对于待选用户群体中的每一个用户，分别执行如下处理：将所述用户的用户特征输入预先训练的策略决定网络，得到所述策略决定网络预测输出的所述目标业务操作对应的操作奖励值，所述操作奖励值用于表示对所述用户执行目标业务操作后的净提升响应预测值；根据所述待选用户群体中各个用户的所述操作奖励值，选择所述操作奖励值符合筛选条件的用户作为所述目标用户。

Description

一种目标用户的选择方法和装置

技术领域

本说明书涉及机器学习技术领域，特别涉及一种目标用户的选择方法和装置。

背景技术

在市场营销中常常碰到这样的情况：营销部门做了很多研究，认为已经把握了用户的特点，于是按照这些用户特点挑选用户作为营销目标。但活动推出后结果令人失望：试验组(参加了营销的用户)和控制组(没有参加营销的用户)的净提升响应没有明显的差别。之所以出现这种情况，原因在于没有区分可受营销影响的用户和不受营销影响的用户，应该去寻找可受营销影响的用户进行营销才能最大化净提升响应。该可受营销影响的用户即用户在有营销情况下的响应与无营销情况下的响应存在明显差别。

发明内容

有鉴于此，本说明书一个或多个实施例提供一种目标用户的选择方法和装置。

具体地，本说明书一个或多个实施例是通过如下技术方案实现的：

第一方面，提供一种目标用户的选择方法，所述方法用于由待选用户群体中选择部分用户作为目标用户，以对所述目标用户执行目标业务操作，所述方法包括：

对于所述待选用户群体中的每一个用户，分别执行如下处理：将所述用户的用户特征输入预先训练的策略决定网络，得到所述策略决定网络预测输出的所述目标业务操作对应的操作奖励值，所述操作奖励值用于表示对所述用户执行目标业务操作后的净提升响应预测值；

根据所述待选用户群体中各个用户的所述操作奖励值，选择所述操作奖励值符合筛选条件的用户作为所述目标用户。

第二方面，提供一种目标用户的选择装置，所述用于由待选用户群体中选择部分用户作为目标用户，以对目标用户执行目标业务操作，所述装置包括：

预测输出模块，用于对于所述待选用户群体中的每一个用户，分别执行如下处理：将所述用户的用户特征输入预先训练的策略决定网络，得到所述策略决定网络预测输出的所述目标业务操作对应的操作奖励值，所述操作奖励值用于表示对所述用户执行目标业务操作后的净提升响应预测值；

用户选择模块，用于根据所述待选用户群体中各个用户的所述操作奖励值，选择所述操作奖励值符合筛选条件的用户作为所述目标用户。

第三方面，提供一种电子设备，所述电子设备包括存储器、处理器，所述存储器用于存储可在处理器上运行的计算机指令；所述处理器用于在执行所述计算机指令时实现本说明书任一实施例所述的目标用户的选择方法。

本说明书一个或多个实施例的目标用户的选择方法和装置，通过使用策略决定网络来预测对用户执行业务操作时获得的净提升响应，使得可以根据网络输出的该操作奖励值由用户群体中选择最终的目标用户，从而获得较好的响应效果；并且，该方法还具有较好的泛化能力和扩展性，对于训练样本集之外的其他用户群体中选择目标用户时都同样适用于该策略决定网络。

附图说明

为了更清楚地说明本说明书一个或多个实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本说明书一个或多个实施例中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本说明书至少一个实施例提供的一种强化学习的网络训练原理图；

图2为本说明书至少一个实施例提供的一种累积增益差异的原理示意图；

图3为本说明书至少一个实施例提供的一种深度神经网络的训练原理图；

图4为本说明书至少一个实施例提供的一种深度神经网络的训练过程；

图5为本说明书至少一个实施例提供的一种目标用户选择的流程；

图6为本说明书至少一个实施例提供的一种目标用户的选择装置的结构；

图7为本说明书至少一个实施例提供的一种目标用户的选择装置的结构。

具体实施方式

为了使本技术领域的人员更好地理解本说明书一个或多个实施例中的技术方案，下面将结合本说明书一个或多个实施例中的附图，对本说明书一个或多个实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本说明书一部分实施例，而不是全部的实施例。基于本说明书一个或多个实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都应当属于本说明书保护的范围。

本说明书实施例提供一种目标用户的选择方法，所述的选择目标用户可以是由待选用户群体中选择一部分用户作为目标用户，以对这些目标用户执行某种业务操作。

以营销场景为例，待选用户群体可以是300个人，想要由这300个人中选择出120个人进行营销推广，例如，可以对这120个发放奖品(如，购买商品P就送特定奖品)或者发放优惠券等优惠措施，以促使激励用户去购买商品P。该120个人就可以称为目标用户，发放奖品或优惠券即所述的对该目标用户执行业务操作(即施行优惠措施)。并且，上述想要选择出的该120个人应该是“营销敏感”用户，即那些最有可能被营销推广活动明显驱动和影响的用户。

本说明书实施例的方法将描述如何由待选用户群体中选择出目标用户，并且使得对这部分目标用户执行目标业务操作后的效果更好。该方法可以用强化学习的训练方式训练一个Uplift Model(也可以称为净提升模型)，该净提升模型可以部署在强化学习的Agent(智能体)，由Agent根据该净提升模型来输出用于选择目标用户(例如，“营销敏感”用户)的依据信息。

如图1的示意，图1示意了一种强化学习的网络训练方式，Agent(智能体)会选择执行一个动作action用于环境，环境接受该动作后状态可以发生变化，同时向Agent返回一个奖赏reward。Agent可以根据奖赏reward和当前状态产生下一个动作action，并且，奖赏reward可以作为Agent选择执行的动作action的指导，Agent不断调整学习动作的选择，以使得选择的动作action作用于环境时使得环境产生的奖赏reward不断增强。经过数次迭代后，Agent就可以学习到能够使得环境奖赏reward较高的动作策略。

请继续参见图1，具体到本说明书实施例的选择目标用户的应用场景中，以营销用户的选择场景为例，上述强化学习中的各个因素可以如下定义：

示例性的，仍以上面提到的由待选用户群体300个人中选择120个人作为目标用户为例，对选择出的120个人发放奖品(购买商品P就送特定奖品)，以激励这些人去购买商品P；对剩余的180人不发放奖品。据此：

动作action：可以包括两种动作，action-1和action-2，其中，action-1是“发放奖品”，action-2是“不发放奖品”。

状态state：单个用户的用户特征。比如，对于300个人中的某个人，可以是该用户的性别、年龄、地理位置信息(如，是哪里人)、商品购买历史数据等等，只要任何可能会影响对该用户的商品购买预测的特征都可以，可以自主确定，本实施例不限制具体采用的特征。

智能体Agent：用于接收上述的状态state，并预测输出对该用户执行目标业务操作后的净提升响应预测值。示例性的，实际实施汇中，该净提升响应预测值可以不一定是真实的净提升响应值，而可以是一个能够表示净提升响应幅度的代表值，比如，该净提升响应预测值可以通过一个概率值表示，概率值越高，表示净提升响应就越大。比如，将300个人中的其中一个用户User1的用户特征输入Agent，Agent就可以预测输出对该用户“发放奖品”的概率90％，另一个用户User2对应的“发放奖品”的概率是70％，90％大于70％，那么可以据此确定对用户User1发放奖品相比User2能够带来更大的净提升响应。

需要说明的是，Agent可以分别预测输出每个用户对应的各个动作action的概率，比如，将用户User1的用户特征输入Agent，预测输出User1对应的action-1和action-2对应的概率；将用户User2的用户特征输入Agent，预测输出User2对应的action-1和action-2的概率。

如上，每个动作action相当于一个业务操作，这里的action-1和action-2的概率相当于对应于各个业务操作的操作奖励值，该操作奖励值可以作为后续选择目标用户的依据。此外，本实施例暂且以两种业务操作“发放奖品”和“不发放奖品”为例，具体实施中不局限于此，也可以有更多的业务操作。并且，动作action的数量可以不局限于两种，至少包括一个目标业务操作(例如，上述的action-1)和至少一个其他业务操作(例如，上述的action-2)。

环境environment：本实施例中的环境可以理解为，在智能体Agent预测到各个用户的action-1和action-2对应的净提升响应预测值的基础上，可以进一步做如下两种处理：第一、确定目标用户和非目标用户；第二、获取累积增益差异。如下描述中以该净提升响应预测值是一个概率值为例进行说明。

首先，确定action-1“发放奖品”是目标业务操作，可以确定action-1的概率为目标操作奖励值。接着，根据待选用户群体300人中每个用户的action-1的概率来选择目标用户。示例性的，可以将各个用户的action-1的概率按照由高到低的顺序进行排序，根据排序结果选择部分用户作为目标用户。例如，可以选取排序在预设位数(例如，前20％)的用户作为目标用户。又例如，还可以设置概率阈值，action-1的概率高于该概率阈值的用户作为目标用户。在确定了目标用户后，待选用户群体中的其余用户都可以称为非目标用户。

获取累积增益差异：在将待选用户群体中区分了目标用户和非目标用户后，可以计算累积增益差异。如下详细说明下该累积增益差异的获取过程：

例如，仍以待选用户群体300人为例，选取的发放奖品的目标用户是120人，剩余的180人是非目标用户。在本实施例中，计算累积增益差异使用的数据是用户的历史记录信息中的“响应值”，该累积增益差异是在策略决定网络的训练阶段使用，训练网络所用的训练样本集合中，每一个训练样本可以包括：样本用户的用户特征、以及在对所述样本用户执行目标业务操作后的响应值。比如，其中一个训练样本可以包括{User1的用户特征、对User1发奖品后的响应值}、另一个训练样本可以包括{User2的用户特征、对User2发奖品后的响应值}。训练样本集合中的每一个训练样本都可以包括上述响应值。这些响应值可以是之前营销过程中收集到的用户历史数据。

上述的响应值，例如可以是“购买了商品时，响应值是1”、“没购买商品时，响应值是0”，不过这只是示例，实际实施中不局限于此。比如，还可以将用户的消费金额(如，消费了1000元、消费了200元)等其他数值作为响应值。

接着，以120人的目标用户群体为例，可以按照上面计算出的action-1对应的概率抽取其中的10％(可以称为用户比例)的人，比如，按照网络预测输出的概率由高到低的顺序排序后，选择了排在前边的10％数量的用户，这些用户的概率较高，可以认为期望的净提升响应较高，属于“营销敏感用户”。将这些用户各自的“响应值”累加，如，25％+12％+……，得到一个累加和。请参见图2所示，图2是累积增益差异的原理示意图。该图2的横坐标可以是用户比例，纵坐标可以是对应该用户比例的累加和，比如，上面例子中的“用户比例10％及其对应的累加和”可以对应到图2中的一个曲线样本点21，该曲线样本点21的横坐标是10％，纵坐标是对应的累加和。

同理，还可以由120人的目标用户群体中抽取20％用户比例的用户，同样将这些用户各自的“响应值”累加，得到一个累加和，对应得到图2中的另一个曲线样本点22。还可以抽取其他用户比例，得到对应的其他曲线样本点。拟合该多个用户比例对应的多个曲线样本点，就可以得到图2中所示的第一曲线或者第二曲线。其中，第一曲线是图2中上面的曲线，是由目标用户群体中抽取不同比例累加得到，该第一曲线可以是目标样本用户集合对应的多个曲线样本点拟合得到。第二曲线是下面的曲线，是由非目标用户群体中抽取不同比例累加得到，该第二曲线可以是非目标样本用户集合对应的多个曲线样本点拟合得到。第二曲线区别于第一曲线的是，第二曲线中不同比例用户的抽取，是采取随机抽取的方式得到，这不同于第一曲线中的不同比例是按照用户的action-1的概率抽取，比如按照概率排序的顺序抽取了20％的用户。

如图2所示，第一曲线和第二曲线具有重叠的曲线起点23和曲线终点24，计算第一曲线和第二曲线之间的包围区域的面积，该面积值即累积增益差异。该累积增益差异可以称为AUCC(Area Under Uplift Curve)。

奖赏reward：环境可以将上述计算得到的累积增益差异作为奖赏reward返回给智能体Agent，以使得Agent可以根据该奖赏调整网络参数，以在下一轮训练得到更新后的各个action分别对应的操作奖励值。例如，在其中一轮迭代中用户User1对应的action-1的概率是90％，而在下一轮迭代中该用户User1对应的action-1的概率可能会更新为75％。

如上所述的，各个action分别对应的操作奖励值的更新反馈到环境后，将可能影响到环境对目标用户的选择以及累积增益差异的调整，那么Agent后续接收到的奖赏reward也会进一步变化。

本实施例中，智能体Agent在根据接收的用户状态state，预测输出用户对应的各个业务操作的概率时，可以是采用深度神经网络的网络结构。请参见图3的示意，深度神经网络的输入是状态state(如，某个用户的用户特征)，网络的预测输出是各个业务操作分别对应的操作奖励值。

如下将描述如何用强化学习的方式训练上述的深度神经网络，在以强化学习方式训练所述深度神经网络的过程中，将环境产生的累积增益差异AUCC作为返回给深度神经网络的奖赏，用以指导深度神经网络的训练。在训练过程中，深度神经网络可以进行多次迭代，调整该深度神经网络的网络参数，以使得AUCC逐渐增大。

网络的训练过程：

请参见图4所示，示例了一个例子中的深度神经网络的训练过程，该深度神经网络也可以称为策略决定网络。如图4所示，该训练过程可以包括：

在步骤400中，分别将训练样本集合中每个样本用户的用户特征输入待训练的策略决定网络。

本步骤中，可以获取训练样本集合，所述训练样本集合中的每一个训练样本包括：样本用户的用户特征、以及在对所述样本用户执行目标业务操作后的响应值。例如，该训练样本集合中可以包括用户User1的用户特征，用户User2的用户特征，等，每一个用户可以是一个样本用户，所述的用户特征可以包括用户的年龄、性别等特征。

对于训练样本集合中的各个样本用户，可以分别将各个样本用户的用户特征输入策略决定网络，并预测输出对应各个样本用户的输出。

在步骤402中，得到策略决定网络预测输出的所述样本用户对应的业务操作集中各个业务操作分别对应的操作奖励值。

例如，以对用户执行营销策略(如，给用户发放奖品)为例，可以将“发放奖品”作为一种业务操作，“不发放奖品”作为另一种业务操作；并以操作奖励值是概率值为例。

对于每一个样本用户，策略决定网络可以预测输出该样本用户对应的两个概率，其中一个是“发放奖品”的概率，另一个是“不发放奖品”的概率，例如，用户User1对应的“发放奖品”的概率是90％，概率值越大表示期望的对用户执行发放奖品后的净提升响应越高。

对于训练样本集合中的每个样本用户，都可以分别得到上述的两种概率。

在步骤404中，根据所述训练样本集合中各个样本用户的操作奖励值，选择操作奖励值符合筛选条件的样本用户作为样本目标用户。

本实施例中，例如，将“发放奖品”作为目标业务操作，那么“发放奖品”的概率可以称为目标操作奖励值。示例性的，可以将训练样本集合中的各个样本用户的“发放奖品”的概率进行由高到低的排序，并选择排序在前预设位数的样本用户作为目标样本用户。

在步骤406中，按照操作奖励值选择多种用户比例的子用户群，对所述子用户群中的各个样本用户执行目标业务操作，对于每一种所述用户比例，将执行目标业务操作后的子用户群中各个样本用户的响应值进行累加，得到对应所述用户比例的累加和。

例如，假设在步骤404中得到的目标样本用户有120人，那么可以将这120人称为目标样本用户集合。本步骤中，可以根据该目标样本用户集合，按照操作奖励值选择多种用户比例的子用户群，并对该子用户群的各个目标样本用户的实际的响应值进行累加，得到对应的累加和。

比如，在目标样本用户集合中，按照操作奖励值(如，“发放奖品”的概率)由高到低的顺序，选择前10％的子用户群10人，并将这10人对应的训练样本中的响应值累加，得到10％对应的累加和。

又比如，在目标样本用户集合中，按照操作奖励值(如，“发放奖品”的概率)由高到低的顺序，选择前20％的子用户群20人，并将这20人对应的响应值累加，得到20％对应的累加和。

此外，训练样本集合减去上述的目标样本用户集合，剩余的用户就是非样本目标用户集合。对于该非样本目标用户集合，同样可以抽取10％、20％等不同用户比例的子用户群，并将子用户群的各个非目标样本用户的净提升响应进行累加，得到对应的累加和。不同的是，非样本目标用户集合中的子用户群的抽取可以是随机抽取，而目标样本用户集合中的子用户群的抽取是按照概率抽取。

在步骤408中，以所述用户比例作为横坐标，以对应所述用户比例的累加和作为纵坐标，得到对应的一个曲线样本点；拟合多个用户比例对应的多个曲线样本点，得到第一曲线或者第二曲线。

本步骤可以获得第一曲线和第二曲线。

其中，第一曲线和第二曲线的横轴坐标都可以是用户比例，比如，10％，20％，纵轴坐标可以是对应该用户比例的累加和，比如，10％对应的累加和，20％对应的累加和。一个用户比例及其对应的累加和可以作为一个曲线样本点。示例性的，10％对应的累加和可以是将抽取的10％的子用户群中各个样本用户的响应值进行累加得到，10％及其对应的累加和可以得到一个曲线样本点，即该曲线样本点的横坐标是10％，纵坐标可以是对应的累加和。

所述第一曲线和第二曲线具有重叠的曲线起点和曲线终点，并将上述多种用户比例及其对应的累加和对应的曲线样本点进行拟合得到曲线。

在步骤410中，计算第一曲线与第二曲线之间的面积，得到累积增益差异。

所述累积增益差异是第一曲线与第二曲线之间的包围区域的面积，所述第一曲线和第二曲线具有重叠的曲线起点和曲线终点。

在步骤412中，将所述累积收益差异作为奖赏返回给策略决定网络。

本步骤中，可以将AUCC作为奖赏返回给策略决定网络。

在步骤414中，所述策略决定网络根据所述奖赏调整网络参数，以在下一轮训练得到更新后的各个业务操作分别对应的操作奖励值。

例如，策略决定网络可以根据奖赏AUCC调整自己的网络参数，在调整参数之后，若再将一个样本用户的用户特征输入策略决定网络，各个业务操作分别对应的操作奖励值将可能会发生变化，那么根据该操作奖励值选择的目标样本用户以及后续计算的AUCC都可能会变化。

需要说明的是，策略决定网络的网络参数的调整可以是在训练样本集合中所有的样本用户都预测输出各个业务操作分别对应的操作奖励值，并且计算了AUCC返回给策略决定网络后才执行的。比如，假设训练样本集合有300人，那么，需要分别得到这300人各自对应的各个业务操作的操作奖励值，并根据这300人的操作奖励值区分目标样本用户和非目标样本用户，再按照前述的方法计算了AUCC之后，将该AUCC返回给策略决定网络，网络才执行网络参数的调整，相当于执行了一次网络迭代。

策略决定网络的训练结束条件，可以自主设定。例如，当AUCC的上升不会有明显变化，基本上处于一个较为稳定的取值时，可以结束策略决定网络的训练。又例如，还可以是执行了预设次数的迭代后，结束网络训练。

本实施例对策略决定网络进行了训练，通过将策略决定网络设计为神经网络的形式，可以利用神经网络的强大的泛化能力，使得对于未在训练样本集出现的状态同样能使用该神经网络来进行决策，例如，对于训练样本集合之外的某些用户，只要将这些用户的用户特征输入策略决定网络，就能够预测出该用户对应的执行业务操作后的净提升响应预测，进而根据概率选择目标用户。另外，通过使用强化学习的方式来训练策略决定网络，使得该策略决定网络可以适用于多种场景，比如，不限制具体的动作action，作为奖赏值的累积增益差异可以是多种形式的响应值，比如消费金额的提升等。

网络的应用过程：用于由待选用户群体中选择得到目标用户

图5示例了使用训练好的策略决定网络来执行目标用户选择的过程，该网络的应用过程可以是在Agent智能体处执行。其中，选择目标用户可以是由待选用户群体中选择部分用户作为目标用户，以对应所述目标用户执行目标业务操作。其中，在策略决定网络的训练阶段和使用阶段的action是相同的，输入网络的用户特征的特征格式可以一致，比如，训练时输入的用户特征是年龄和性别，应用时输入的特征也是年龄和性别。

如图5所示，该目标用户的选择方法可以包括：

在步骤500中，对于所述待选用户群体中的每一个用户，分别执行如下处理：将所述用户的用户特征输入预先训练的策略决定网络，得到所述策略决定网络预测输出的所述业务操作集中各个业务操作分别对应的操作奖励值。

本步骤中，待选用户群体例如是800人的群体。所述的各个业务操作例如可以包括“发放优惠券”、“不发放优惠券”。策略决定网络可以预测输出所述的两个action“发放优惠券”和“不发放优惠券”各自分别对应的操作奖励值，该操作奖励值例如是action的对应概率。

该待选用户群体中的800人，可以分别将每个用户的用户特征输入策略决定网络，输出该用户对应的两个action的概率。例如，将用户User3的的用户特征输入策略决定网络，输出该用户User3对应的两个action的概率。概率越高表示该用户的预测的净提升响应越大。

在步骤502中，根据所述待选用户群体中各个用户的目标操作奖励值，选择所述目标操作奖励值符合筛选条件的用户作为目标用户。

本步骤中，可以根据步骤500中预测的待选用户群体中各个用户的“发放优惠券”的执行概率，选择排序在前m％的用户作为要发放优惠券的目标用户，其中，m的具体取值可以根据实际业务需求确定。

例如，目标操作奖励值可以是各个业务操作分别对应的操作奖励值中的目标业务操作对应的操作奖励值。示例性的，目标业务操作可以是对用户执行营销策略，而对用户不执行营销策略可以是非目标业务操作。

本实施例的目标用户的选择方法，通过使用策略决定网络来预测对用户执行业务操作时获得的净提升响应，使得可以根据网络输出的该操作奖励值由用户群体中选择最终的目标用户，从而获得较好的响应效果；并且，该方法还具有较好的泛化能力和扩展性，对于训练样本集之外的其他用户群体中选择目标用户时都同样适用于该策略决定网络。

图6是本说明书至少一个实施例提供的目标用户的选择装置的结构图，该装置用于由待选用户群体中选择部分用户作为目标用户，以对所述目标用户执行目标业务操作。如图6所示，该装置可以包括：预测输出模块61和用户选择模块62。

预测输出模块61，用于对于所述待选用户群体中的每一个用户，分别执行如下处理：将所述用户的用户特征输入预先训练的策略决定网络，得到所述策略决定网络预测输出的所述目标业务操作对应的操作奖励值，所述操作奖励值用于表示对所述用户执行目标业务操作后的净提升响应预测值。

用户选择模块62，用于根据所述待选用户群体中各个用户的所述操作奖励值，选择所述操作奖励值符合筛选条件的用户作为所述目标用户。

在一个例子中，预测输出模块61，在用于得到所述策略决定网络预测输出的所述目标业务操作对应的操作奖励值时，包括：得到所述策略决定网络预测输出的各个业务操作分别对应的操作奖励值，所述各个业务操作包括所述目标业务操作和至少一个其他业务操作。

在一个例子中，所述目标业务操作用于表示对所述用户执行营销策略，所述其他业务操作用于表示对所述用户不执行营销策略。

在一个例子中，用户选择模块62，具体用于：将所述待选用户群体中各个用户分别对应的操作奖励值进行排序；根据排序结果选择所述待选用户群体中的部分用户作为所述目标用户。

在一个例子中，如图7所示，该装置还可以包括：网络训练模块71，用于通过强化学习方式训练深度神经网络作为所述策略决定网络。

该网络训练模块71可以包括：

样本获取子模块711，用于获取训练样本集合，所述训练样本集合中的每一个训练样本包括：样本用户的用户特征、以及在对所述样本用户执行目标业务操作后的响应值。

预测输出子模块712，用于分别将每个样本用户的用户特征输入待训练的策略决定网络，得到所述策略决定网络预测输出的所述样本用户对应的所述目标业务操作的操作奖励值。

筛选处理子模块713，用于根据所述各个样本用户的操作奖励值，由训练样本集合中选择操作奖励值符合筛选条件的多个样本用户作为目标样本用户集合，所述训练样本集合中的剩余用户作为非目标样本用户集合。

奖赏处理子模块714，用于根据所述响应值，确定所述目标样本用户集合和非目标样本用户集合之间的累积增益差异；将所述累积收益差异作为奖赏值返回给策略决定网络。

参数调整子模块715，用于根据所述奖赏值调整所述策略决定网络的网络参数，以在下一轮训练得到更新后的所述操作奖励值。

在一个例子中，奖赏处理子模块714在用于根据所述响应值，确定所述目标样本用户集合和非目标样本用户集合之间的累积增益差异时，包括：

由集合中选择多种用户比例的子用户群，所述子用户群是由目标样本用户集合中按照操作奖励值选择得到，或者由非目标样本用户集合中随机选择得到；

对于每一种所述用户比例，将所述子用户群中各个样本用户的所述响应值进行累加，得到对应所述用户比例的累加和；以所述用户比例作为横坐标，以对应所述用户比例的累加和作为纵坐标，得到对应的一个曲线样本点；

拟合多个用户比例对应的多个曲线样本点，得到第一曲线和第二曲线，所述第一曲线是目标样本用户集合对应的多个曲线样本点拟合得到，所述第二曲线是非目标样本用户集合对应的多个曲线样本点拟合得到；

获取所述第一曲线和第二曲线之间的包围区域的面积，作为所述目标样本用户集合和非目标样本用户集合之间的累积增益差异。

本说明书实施例还提供了一种电子设备，该电子设备可以包括存储器、处理器，所述存储器用于存储可在处理器上运行的计算机指令；所述处理器用于在执行所述计算机指令时实现本说明书任一实施例所述的目标用户的选择方法。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本说明书一个或多个实施例可提供为方法、系统或计算机程序产品。因此，本说明书一个或多个实施例可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本说明书一个或多个实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本说明书一个或多个实施例可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书一个或多个实施例，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于数据处理设备实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的行为或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

以上所述仅为本说明书一个或多个实施例的较佳实施例而已，并不用以限制本说明书一个或多个实施例，凡在本说明书一个或多个实施例的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本说明书一个或多个实施例保护的范围之内。

Claims

1.一种目标用户的选择方法，所述方法用于由待选用户群体中选择部分用户作为目标用户，以对所述目标用户执行目标业务操作，所述方法包括：

根据所述待选用户群体中各个用户的所述操作奖励值，选择所述操作奖励值符合筛选条件的用户作为所述目标用户；

所述策略决定网络，是通过强化学习方式训练得到的深度神经网络；

所述策略决定网络的训练过程包括：

获取训练样本集合，所述训练样本集合中的每一个训练样本包括：样本用户的用户特征、以及在对所述样本用户执行目标业务操作后的响应值；

分别将每个样本用户的用户特征输入待训练的策略决定网络，得到所述策略决定网络预测输出的所述样本用户对应的所述目标业务操作的操作奖励值；

根据所述各个样本用户的操作奖励值，由训练样本集合中选择操作奖励值符合筛选条件的多个样本用户作为目标样本用户集合，所述训练样本集合中的剩余用户作为非目标样本用户集合；

根据所述响应值，确定所述目标样本用户集合和非目标样本用户集合之间的累积增益差异；

将所述累积增益差异作为奖赏值返回给所述策略决定网络，并根据所述奖赏值调整所述策略决定网络的网络参数。

2.根据权利要求1所述的方法，所述将所述用户的用户特征输入预先训练的策略决定网络，包括：

将所述用户的如下至少一项用户特征输入预先训练的策略决定网络：用户年龄、用户性别、用户地理位置信息或者用户的商品购买历史数据。

3.根据权利要求1所述的方法，所述得到所述策略决定网络预测输出的所述目标业务操作对应的操作奖励值，包括：

得到所述策略决定网络预测输出的各个业务操作分别对应的操作奖励值，所述各个业务操作包括所述目标业务操作和至少一个其他业务操作。

4.根据权利要求3所述的方法，所述目标业务操作用于表示对所述用户执行营销策略，所述其他业务操作用于表示对所述用户不执行营销策略。

5.根据权利要求1所述的方法，所述根据待选用户群体中各个用户的所述操作奖励值，选择操作奖励值符合筛选条件的用户作为所述目标用户，包括：

将所述待选用户群体中各个用户分别对应的操作奖励值进行排序；

根据排序结果选择所述待选用户群体中的部分用户作为所述目标用户。

6.根据权利要求5所述的方法，所述操作奖励值是概率值；所述将所述待选用户群体中各个用户分别对应的操作奖励值进行排序，包括：

将所述待选用户群体中各个用户分别对应的概率值，按照概率值由高到低的顺序排序；所述概率值越高表示净提升响应越大。

7.根据权利要求1所述的方法，所述根据所述响应值，确定所述目标样本用户集合和非目标样本用户集合之间的累积增益差异，包括：

8.一种目标用户的选择装置，用于由待选用户群体中选择部分用户作为目标用户，以对所述目标用户执行目标业务操作，所述装置包括：

用户选择模块，用于根据所述待选用户群体中各个用户的所述操作奖励值，选择所述操作奖励值符合筛选条件的用户作为所述目标用户；

所述装置还包括：网络训练模块，用于通过强化学习方式训练深度神经网络作为所述策略决定网络；

所述网络训练模块，包括：

样本获取子模块，用于获取训练样本集合，所述训练样本集合中的每一个训练样本包括：样本用户的用户特征、以及在对所述样本用户执行目标业务操作后的响应值；

预测输出子模块，用于分别将每个样本用户的用户特征输入待训练的策略决定网络，得到所述策略决定网络预测输出的所述样本用户对应的所述目标业务操作的操作奖励值；

筛选处理子模块，用于根据所述各个样本用户的操作奖励值，由训练样本集合中选择操作奖励值符合筛选条件的多个样本用户作为目标样本用户集合，所述训练样本集合中的剩余用户作为非目标样本用户集合；

奖赏处理子模块，用于根据所述响应值，确定所述目标样本用户集合和非目标样本用户集合之间的累积增益差异；将所述累积增益差异作为奖赏值返回给策略决定网络；

参数调整子模块，用于根据所述奖赏值调整所述策略决定网络的网络参数，以在下一轮训练得到更新后的所述操作奖励值。

9.根据权利要求8所述的装置，

所述预测输出模块，在用于得到所述策略决定网络预测输出的所述目标业务操作对应的操作奖励值时，包括：得到所述策略决定网络预测输出的各个业务操作分别对应的操作奖励值，所述各个业务操作包括所述目标业务操作和至少一个其他业务操作。

10.根据权利要求9所述的装置，所述目标业务操作用于表示对所述用户执行营销策略，所述其他业务操作用于表示对所述用户不执行营销策略。

11.根据权利要求8所述的装置，

所述用户选择模块，具体用于：将所述待选用户群体中各个用户分别对应的操作奖励值进行排序；根据排序结果选择所述待选用户群体中的部分用户作为所述目标用户。

12.根据权利要求8所述的装置，所述奖赏处理子模块，在用于根据所述响应值，确定所述目标样本用户集合和非目标样本用户集合之间的累积增益差异时，包括：

13.一种电子设备，所述电子设备包括存储器、处理器，所述存储器用于存储可在处理器上运行的计算机指令；所述处理器用于在执行所述计算机指令时实现权利要求1至7任一所述的目标用户的选择方法。