CN111159371A

CN111159371A - 一种面向任务型对话系统的对话策略方法

Info

Publication number: CN111159371A
Application number: CN201911331882.9A
Authority: CN
Inventors: 赵阳洋; 王振宇; 王佩
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2019-12-21
Filing date: 2019-12-21
Publication date: 2020-05-15
Anticipated expiration: 2039-12-21
Also published as: WO2021121436A1; CN111159371B

Abstract

本发明公开了一种面向任务型对话系统的对话策略方法，应用在基于知识图谱的音乐智能搜索场景中，包括以下步骤：S1、针对特定领域构建马尔科夫决策模型；S2、利用贝尔曼方程计算状态值函数矩阵；S3、结合当前时刻的对话状态，匹配知识图谱和搜索知识库，得到满足用户目标的音乐结果；S4、对搜索结果进行属性信息熵计算；S5、对计算出来的属性信息熵进行分析；S6、通过状态转移矩阵计算出下一轮动作。本发明克服任务型对话系统中完全冷启动的困难，通过构建强化学习模型计算状态值函数矩阵，结合状态值函数矩阵的结果与该状态的属性信息熵，得到下一轮的动作，用更少的对话轮次完成知识搜索任务，具有很好的可用性。

Description

一种面向任务型对话系统的对话策略方法

技术领域

本发明涉及任务型对话系统的基于知识图谱智能搜索领域，特别涉及一种面向任务型对话系统的对话策略方法。

背景技术

随着人工智能相关技术的飞速发展，人与智能设备之间的交互方式趋于智能化，逐渐从传统的图形化交互(Graphical User Interface,GUI)向人机对话交互(Conversational User Interface)进行转变，即利用人工智能助理来帮助用户完成多项任务或多项服务。人机对话系统可以从功能上划分为非任务型(non-task-oriented)和任务型(task-oriented)的对话系统两大类。任务型对话系统又称为目标驱动型(goaldriven)对话系统，例如客服机器人、机票预订系统等，它们为用户提供特定领域的服务，旨在帮助用户完成购物、订机票等任务。这类人机对话系统能够大大降低人力成本，简化人机交互过程，提高应用的智能程度，因此具有广泛的研究和应用价值。

在任务型对话系统中，用户与系统进行多轮对话，从而完成特定的任务。在多轮对话的基于知识图谱的智能搜索领域，系统需要通过尽量少的轮次，帮助用户快速搜索到满足约束条件的知识条目。而在这个过程中，系统的引导对对话进行的路径起着决定性作用。好的对话策略能够直接简单地引导用户表达目标属性，从而确定知识图谱匹配和知识库搜索的约束条件。因此，对话系统策略的智能程度直接关系到系统的搜索效率。而任务型对话系统在工业界的应用常常面临缺少特定领域训练数据集的难题，因此无法在训练数据集上进行有监督的训练。目前，大多数的对话系统通过人工制定对话规则来解决系统完全冷启动问题。主流的人工制定对话策略虽然能够快速的构建对话策略机制，但构建过程需要消耗大量的人力，并且缺少泛化和领域迁移的能力。因此，如何在这种场景下构建出适用于完全冷启动场景，且具有智能程度且具有领域迁移能力的对话机器人是本发明的背景。

目前主流的实现对话策略的模型主要可以分为以下几种：基于有限状态自动机的对话策略黄民烈(朱小燕.对话管理中基于槽特征有限状态自动机的方法研究[J].计算机学报,2004,27(8):1092-1101)；填槽或填表法(袁琰,田怀凤,杜波,et al.基于框架的对话管理模型的研究与实现[J].计算机工程,2005(13):221-223)；和基于概率模型的对话策略(张波,蔡庆生,郭百宁.口语对话系统的POMDP模型及求解[J].计算机研究与发展,2002(02):90-97)。基于有限状态自动机的对话策略将用户与系统之间的交互过程定义为“初始状态->动作->更新状态->动作->更新状态->…->终止状态”的状态与触发动作进行交替的过程，是典型的系统主导型方法，对话的节奏完全由系统决定，用户需要按照系统指定的流程补充信息，缺少灵活性和可扩展性。基于填槽的对话策略在一定程度上改进了基于有限状态自动机的方法，它将对话建模成一个填槽的过程。这种方法为用户提供了相对灵活的输入方式，支持用户和系统混合主导的系统，适用于相对复杂的信息获取场景。但这种填槽的对话策略方法由于槽位的限制，当槽的数量过多时，算法的复杂程度也会急剧增长，因此不适用于更复杂的场景。对于槽数量很多的复杂场景，基于概率模型的方法具有较好的扩展方式。面对过多的状态或动作空间，在传统强化学习很难进行高效地探索时，深度强化学习能够大大提升模型的收敛速度。

本发明在上述三种对话策略方法的基础上，针对基于知识图谱的搜索型对话系统中所面临的两个问题，提出了一种融合强化学习和信息熵的多轮对话策略方法，所解决的两个问题为：

(1)在任务型多轮对话系统中，由于领域的特殊性，通常缺少针对特定领域的大规模对话数据，因此无法进行监督模型的训练。在系统上线收集真实应用环境下的对话数据前，系统面临的一个重要的问题是如何构建一个用于冷启动的对话策略模型。

(2)对于基于知识图谱的知识搜索型的对话系统来说，系统需要通过用户目标生成知识库查询语句，并结合外部知识库和知识图谱帮助用户查询到需要的信息，给出系统的响应回复。对话策略任务不但需要考虑当前的对话状态，还需结合知识库查询结果和知识图谱的匹配结果，制定对话策略。如何构建考虑基于知识图谱的知识库搜索结果的对话策略模型是对话策略任务面临的一大问题。

发明内容

本发明的目的在于克服现有技术的缺点与不足，提供一种面向任务型对话系统的对话策略方法。

本发明至少通过如下技术方案之一实现。

一种面向任务型对话系统的对话策略方法，包括以下步骤：

S1、针对垂直领域中的基于知识图谱的搜索型对话系统，构建马尔科夫决策模型；

S2、根据步骤S1，利用贝尔曼方程获取状态值函数矩阵；

S3、结合当前时刻的对话状态，匹配知识图谱和搜索知识库，得到满足用户目标的结果；

S4、对搜索结果进行属性信息熵计算；

S5、对计算出来的属性信息熵进行分析；

S6、通过状态转移矩阵得出下一轮系统的动作。

将多轮对话策略优化方法应用在多轮对话音乐搜索系统中的对话策略模块中，实现一个完整的多轮对话音乐搜索系统，将系统进行封装微信公众号以进行系统演示。

进一步的，所述步骤S1具体包括以下步骤：

S11、根据对话中槽的个数，定义该领域下的五元组(s,a,p,r,γ)，其中s是含终止状态的所有状态、a是所有动作、p是状态转移概率、r是奖励函数、γ是0～1区间的折扣因子；

S12、自定义例子，在数据库进行搜索，根据数据库搜索结果定义对话的终止状态。

进一步的，所述步骤S2具体是在马尔科夫决策过程中，状态s的状态值函数为其回报的期望，即v(s)＝E[G_t|S_t＝s]，其中G_t为t时刻在状态s时的回报，S_t为t时刻采取的动作，根据状态值函数的贝尔曼方程

迭代计算状态值函数矩阵v(s)，其中，π(a|s)表示策略在给定状态下行为的概率分布、

表示在状态为s时执行动作a所得到的的即时回报、γ为折扣因子、

表示在当前时刻状态为s时，采取动作a，下一时刻状态转为s′的概率，v_π(s′)为下一状态s′的状态值函数，A表示所有动作a的集合。

进一步的，所述步骤S3具体包括以下步骤：

S31、接受来自对话系统中的自然语言理解模块的输出的三元组，即领域识别、意图识别、槽-值对，获得单句理解解析结果；

S32、结合历史槽值状态，进行对话状态跟踪，更新当前对话的状态，并转化为状态St；

S33、从对话状态跟踪器中取出当前用户目标的约束，即槽-值对列表，将其转化为知识库查询语句，进行知识图谱匹配和知识的搜索。

进一步的，所述步骤S4具体包括以下步骤：

S41、判断搜索结果的数量，若大于N，则对结果进行属性信息熵的计算，若不大于N，则直接通知系统给出搜索结果列表；

S42、根据公式H(attr)＝-∑_x∈χp(x)logp(x)，计算属性attr的信息熵，其中，χ表示属性attr，attr指可能的取值集合，p(x)表示属性attr取值为x的概率。

进一步的，所述步骤S5具体包括以下步骤：

S51、判断信息熵大于0的属性数量，若不大于1，则表明能够区分的属性为1，因此下一轮对话应向用户询问该槽的目标约束；

S52、若信息熵大于0的属性数量大于1，查找状态转移矩阵P中对应当前状态为s的列向量P_s，将状态s的转移概率向量P_s转化为01向量T_s，转移概率>0节点的值取1，使用T_s对状态值函数矩阵v进行过滤，得到可能转移的下一个向量s′和对应的状态值；

S53、下一个状态s′使得下一状态的奖励值最大，即v_*＝v(s′)最大，v_*表示最大的状态值函数，将s与s′进行对比，找出s为0、s′为1的槽位；若有若干个槽位上的值不相同，则进行全排列组合得出新的s′，并过滤掉信息熵为0的槽位，然后进行状态值大小的比较，以信息熵大的作为系统动作询问的槽位。

进一步的，所述步骤S6具体是将槽拼接为下一轮系统需要询问的动作。

与现有技术相比，本发明至少具有如下有益效果：

1、本发明定义马尔科夫决策模型，通过定义对话状态集S、系统动作集A、状态转移概率P、回报函数R以及折扣因子γ，构建了对话策略的马尔科夫决策模型；

2、本发明结合音乐搜索结果属性信息熵和状态值函数，寻找对于音乐搜索价值最高的槽属性，从而确定系统的询问动作；

3、本发明克服了多轮对话系统冷启动的困难，在没有特定领域对话数据集进行训练的情况下，构造了基于每轮对话的对话状态构造知识库搜索语句，并计算知识库搜索结果和知识图谱匹配的结果中属性信息熵的动态对话策略，将强化学习和属性信息熵相结合，构建了对话系统中对话管理模块中的对话策略子模块，提高了系统的智能程度。

附图说明

图1为本实施例的一种一种面向任务型对话系统的对话策略方法的流程图；

图2为本实施例音乐搜索结果信息熵计算与选择过程图。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互结合，下面结合附图和实施例对本发明作进一步详细描述。

如图1所示的一种面向任务型对话系统的对话策略方法，以音乐搜索任务为例，包括以下步骤：

S1、针对垂直领域中的基于知识图谱的搜索型对话系统(音乐搜索、图书搜索等)构建马尔科夫决策模型，定义该领域下的五元组(s,a,p,r,γ)，其中s是所有状态(含终止状态)、a是所有动作、p是状态转移概率、r是奖励函数、γ是0～1区间的折扣函数(一般默认为0.9)；

所述步骤S1具体包括以下步骤：

S11、根据对话中槽的个数，定义该领域下的五元组(s,a,p,r,γ)，对话状态集s、系统动作集a、状态转移概率p、回报函数r以及折扣因子γ；

(1)状态集合s

在音乐搜索任务中，对话状态体现为6个槽的取值情况，每个槽的状态分为已填充和未填充两种，将对话状态跟踪模块(表2为对话跟踪状态模块的状态表示的枚举)输出的对话状态转换为编号表示，则总共有2⁶＝64种状态，按照下标01依次编码，六位01编码依次表示song,singer,album,lyricwriter,composer,label槽的填充与否，状态数量和对应的状态编号如表2所示。例如，当前的对话状态为<singer＝周杰伦,song＝稻香>，那么所对应的状态编码应为S₁₁₀₀₀₀。那么，状态集合S＝{S₀₀₀₀₀₀,S₁₀₀₀₀₀,…,S₁₁₁₁₁₁}

表2对话状态的编号表示

(2)动作集合a

系统动作分为询问动作request()和提供歌曲列表动作offer()，询问动作又可以根据询问不同的槽分为询问歌曲名request(song)、询问歌手request(singer)、询问专辑request(album)、询问作词者request(lyricwriter)、询问作曲者request(composer)和询问歌曲类型request(label)六个动作。因此，动作集合A＝{offer(songs),request(attrs)},其中，attrs＝[song,singer,album,lyricwriter,composer,label]。

(3)状态间的转移概率p

定义状态(s,s′)之间的转移概率P(s,s′)＝1/N,N为下一个状态s′可能的取值个数，当前状态s为非终止状态。用户在单轮的对话中，可能会给出不止一个槽的信息，因此按照表3和表4定义对话状态之间的转移概率：

表3对话状态转移概率示例表

表4对话状态转移概率示例表

(4)即时回报r

定义当对话状态达到设定的49种终止状态时，意味着用户完成了当前的任务，转移后的奖励值设为100，其他每一轮对话状态发生转移的奖励值均为-1，如表5和表6所示，终止状态加粗表示：

表5状态转移奖励矩阵示例

表6状态转移奖励矩阵示例

(5)折扣因子γ

折扣因子代表了未来收益对当前状态的重要程度，γ∈[0,1]，本实施例设定折扣因子γ＝0.8。

S12、自定义例子(如表1所示)，在数据库进行搜索，根据数据库搜索结果定义对话的终止状态。

表1寻找终止状态的例子

终止状态表示对话的结束，若达到了终止状态，则表示系统应给出歌曲列表offer()结束对话。从经验常识出发，制定如下几条规则来定义对话的终止状态：

1.当用户给出歌曲的歌名song信息和任一其他属性信息，则该状态为终止状态，共5种；

2.当用户给出歌曲的专辑名album和作词者lyricwriter或作曲者composer，则该状态为终止状态，共2种；

3.六个属性中已知任意三个或以上，则该状态为终止状态，共20+15+6+1＝42种。因此，定义42种终止状态，具体如表7和表8所示：

表7对话终止状态说明

表8对话终止状态说明

S2、根据步骤S1，利用贝尔曼方程获取状态值函数矩阵，具体包括以下步骤：

S21、在马尔科夫决策过程中，状态s的状态值函数为其回报的期望，即v(s)＝E[G_t|S_t＝s]，其中G_t为t时刻在状态s时的回报，S_t为t时刻采取的动作，根据状态值函数的贝尔曼方程

S3、结合当前时刻的对话状态，匹配知识图谱和搜索知识库，得到满足用户目标的结果，具体包括以下步骤：

S31、接受来自对话系统的自然语言理解模块的输出的三元组，即领域识别、意图识别、槽-值对，获得单句理解解析结果；

S33、从对话状态跟踪器中取出当前用户目标的约束，即槽-值对列表，将其转化为知识库查询语句，进行知识图谱匹配和知识的搜索。转化过程是根据每个槽的取值，生成对应的约束条件进行查询。

S4、如图2所示，对搜索结果进行属性信息熵计算，具体包括以下步骤：

S41、判断搜索结果的数量，若大于10，则对结果进行属性信息熵的计算，若不大于10，则直接通知系统给出搜索结果列表；

S42、根据公式H(attr)＝-∑_x∈χp(x)logp(x)，计算属性attr的信息熵，其中，χ表示属性attr(这里的attr是个代称)，attr指可能的取值集合，p(x)表示属性attr取值为x的概率。

S5、对计算出来的属性信息熵进行分析，具体包括以下步骤：

S51、判断信息熵大于0的属性数量，若不大于1，则表明能够区分的属性为1，因此系统下一轮对话应向用户询问该槽的目标约束；

S52、若信息熵大于0的属性数量大于1，查找状态转移矩阵P中对应当前状态为s的列向量P_s，将状态s的转移概率向量P_s转化为01向量T_s，转移概率>0节点的值取1，使用T_s(01向量，即若状态转移矩阵的里面状态s的转移概率>0节点的值取1,构建一个与状态转移矩阵维度一致的01矩阵定义为01向量T_s)对状态值函数矩阵v进行过滤，得到可能转移的下一个向量s′和对应的状态值；过滤的方式是通过构建01向量过滤，将所有状态转移概率为0的节点设置为0；

S53、下一个状态s′使得下一状态的奖励值最大，即v_*＝v(s′)最大(v_*表示最大的状态值函数)，将s与s′进行对比，找出s为0、s′为1的槽位；若有若干个槽位上的值不相同，则全排列组合得出新的s′，并过滤掉信息熵为0的槽位，然后进行状态值大小的比较，以信息熵大的作为系统动作询问的槽位。

S6、通过状态转移矩阵得出下一轮系统的动作，具体是将槽拼接为下一轮系统需要询问的动作。

上述方法构建了一个有效的多轮对话管理模型，具有很好的可用性。

尽管已经示出和描述了本发明的实施例，对于本领域普通技术人员而言，可以理解的是，在不脱离本发明原理和精神的情况下可以对这些实施例进行多种等效的变换、修改、替换和变型，本发明的范围由所附权利要求及其等同范围限定。

Claims

1.一种面向任务型对话系统的对话策略方法，其特征在于，包括以下步骤：

S2、根据步骤S1，利用贝尔曼方程获取状态值函数矩阵；

S4、对搜索结果进行属性信息熵计算；

S5、对计算出来的属性信息熵进行分析；

S6、通过状态转移矩阵得出下一轮系统的动作。

2.根据权利要求1所述的一种面向任务型对话系统的对话策略方法，其特征在于，所述步骤S1具体包括以下步骤：

3.根据权利要求1所述的一种面向任务型对话系统的对话策略方法，其特征在于，所述步骤S2具体是在马尔科夫决策过程中，状态s的状态值函数为其回报的期望，即v(s)＝E[G_t|S_t＝s]，其中G_t为t时刻在状态s时的回报，S_t为t时刻采取的动作，根据状态值函数的贝尔曼方程

4.根据权利要求1所述的一种面向任务型对话系统的对话策略方法，其特征在于，所述步骤S3具体包括以下步骤：

S32、结合历史槽值状态，进行对话状态跟踪，更新当前对话的状态，并转化为状态S_t；

5.根据权利要求1所述的一种面向任务型对话系统的对话策略方法，其特征在于，所述步骤S4具体包括以下步骤：

6.根据权利要求1所述的一种面向任务型对话系统的对话策略方法，其特征在于，所述步骤S5具体包括以下步骤：

7.根据权利要求1所述的一种面向任务型对话系统的对话策略方法，其特征在于，所述步骤S6具体是将槽拼接为下一轮系统需要询问的动作。