[go: up one dir, main page]

CN111159371A - 一种面向任务型对话系统的对话策略方法 - Google Patents

一种面向任务型对话系统的对话策略方法 Download PDF

Info

Publication number
CN111159371A
CN111159371A CN201911331882.9A CN201911331882A CN111159371A CN 111159371 A CN111159371 A CN 111159371A CN 201911331882 A CN201911331882 A CN 201911331882A CN 111159371 A CN111159371 A CN 111159371A
Authority
CN
China
Prior art keywords
state
dialog
task
conversation
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911331882.9A
Other languages
English (en)
Other versions
CN111159371B (zh
Inventor
赵阳洋
王振宇
王佩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN201911331882.9A priority Critical patent/CN111159371B/zh
Publication of CN111159371A publication Critical patent/CN111159371A/zh
Priority to PCT/CN2020/142579 priority patent/WO2021121436A1/zh
Application granted granted Critical
Publication of CN111159371B publication Critical patent/CN111159371B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种面向任务型对话系统的对话策略方法,应用在基于知识图谱的音乐智能搜索场景中,包括以下步骤:S1、针对特定领域构建马尔科夫决策模型;S2、利用贝尔曼方程计算状态值函数矩阵;S3、结合当前时刻的对话状态,匹配知识图谱和搜索知识库,得到满足用户目标的音乐结果;S4、对搜索结果进行属性信息熵计算;S5、对计算出来的属性信息熵进行分析;S6、通过状态转移矩阵计算出下一轮动作。本发明克服任务型对话系统中完全冷启动的困难,通过构建强化学习模型计算状态值函数矩阵,结合状态值函数矩阵的结果与该状态的属性信息熵,得到下一轮的动作,用更少的对话轮次完成知识搜索任务,具有很好的可用性。

Description

一种面向任务型对话系统的对话策略方法
技术领域
本发明涉及任务型对话系统的基于知识图谱智能搜索领域,特别涉及一种面向任务型对话系统的对话策略方法。
背景技术
随着人工智能相关技术的飞速发展,人与智能设备之间的交互方式趋于智能化,逐渐从传统的图形化交互(Graphical User Interface,GUI)向人机对话交互(Conversational User Interface)进行转变,即利用人工智能助理来帮助用户完成多项任务或多项服务。人机对话系统可以从功能上划分为非任务型(non-task-oriented)和任务型(task-oriented)的对话系统两大类。任务型对话系统又称为目标驱动型(goaldriven)对话系统,例如客服机器人、机票预订系统等,它们为用户提供特定领域的服务,旨在帮助用户完成购物、订机票等任务。这类人机对话系统能够大大降低人力成本,简化人机交互过程,提高应用的智能程度,因此具有广泛的研究和应用价值。
在任务型对话系统中,用户与系统进行多轮对话,从而完成特定的任务。在多轮对话的基于知识图谱的智能搜索领域,系统需要通过尽量少的轮次,帮助用户快速搜索到满足约束条件的知识条目。而在这个过程中,系统的引导对对话进行的路径起着决定性作用。好的对话策略能够直接简单地引导用户表达目标属性,从而确定知识图谱匹配和知识库搜索的约束条件。因此,对话系统策略的智能程度直接关系到系统的搜索效率。而任务型对话系统在工业界的应用常常面临缺少特定领域训练数据集的难题,因此无法在训练数据集上进行有监督的训练。目前,大多数的对话系统通过人工制定对话规则来解决系统完全冷启动问题。主流的人工制定对话策略虽然能够快速的构建对话策略机制,但构建过程需要消耗大量的人力,并且缺少泛化和领域迁移的能力。因此,如何在这种场景下构建出适用于完全冷启动场景,且具有智能程度且具有领域迁移能力的对话机器人是本发明的背景。
目前主流的实现对话策略的模型主要可以分为以下几种:基于有限状态自动机的对话策略黄民烈(朱小燕.对话管理中基于槽特征有限状态自动机的方法研究[J].计算机学报,2004,27(8):1092-1101);填槽或填表法(袁琰,田怀凤,杜波,et al.基于框架的对话管理模型的研究与实现[J].计算机工程,2005(13):221-223);和基于概率模型的对话策略(张波,蔡庆生,郭百宁.口语对话系统的POMDP模型及求解[J].计算机研究与发展,2002(02):90-97)。基于有限状态自动机的对话策略将用户与系统之间的交互过程定义为“初始状态->动作->更新状态->动作->更新状态->…->终止状态”的状态与触发动作进行交替的过程,是典型的系统主导型方法,对话的节奏完全由系统决定,用户需要按照系统指定的流程补充信息,缺少灵活性和可扩展性。基于填槽的对话策略在一定程度上改进了基于有限状态自动机的方法,它将对话建模成一个填槽的过程。这种方法为用户提供了相对灵活的输入方式,支持用户和系统混合主导的系统,适用于相对复杂的信息获取场景。但这种填槽的对话策略方法由于槽位的限制,当槽的数量过多时,算法的复杂程度也会急剧增长,因此不适用于更复杂的场景。对于槽数量很多的复杂场景,基于概率模型的方法具有较好的扩展方式。面对过多的状态或动作空间,在传统强化学习很难进行高效地探索时,深度强化学习能够大大提升模型的收敛速度。
本发明在上述三种对话策略方法的基础上,针对基于知识图谱的搜索型对话系统中所面临的两个问题,提出了一种融合强化学习和信息熵的多轮对话策略方法,所解决的两个问题为:
(1)在任务型多轮对话系统中,由于领域的特殊性,通常缺少针对特定领域的大规模对话数据,因此无法进行监督模型的训练。在系统上线收集真实应用环境下的对话数据前,系统面临的一个重要的问题是如何构建一个用于冷启动的对话策略模型。
(2)对于基于知识图谱的知识搜索型的对话系统来说,系统需要通过用户目标生成知识库查询语句,并结合外部知识库和知识图谱帮助用户查询到需要的信息,给出系统的响应回复。对话策略任务不但需要考虑当前的对话状态,还需结合知识库查询结果和知识图谱的匹配结果,制定对话策略。如何构建考虑基于知识图谱的知识库搜索结果的对话策略模型是对话策略任务面临的一大问题。
发明内容
本发明的目的在于克服现有技术的缺点与不足,提供一种面向任务型对话系统的对话策略方法。
本发明至少通过如下技术方案之一实现。
一种面向任务型对话系统的对话策略方法,包括以下步骤:
S1、针对垂直领域中的基于知识图谱的搜索型对话系统,构建马尔科夫决策模型;
S2、根据步骤S1,利用贝尔曼方程获取状态值函数矩阵;
S3、结合当前时刻的对话状态,匹配知识图谱和搜索知识库,得到满足用户目标的结果;
S4、对搜索结果进行属性信息熵计算;
S5、对计算出来的属性信息熵进行分析;
S6、通过状态转移矩阵得出下一轮系统的动作。
将多轮对话策略优化方法应用在多轮对话音乐搜索系统中的对话策略模块中,实现一个完整的多轮对话音乐搜索系统,将系统进行封装微信公众号以进行系统演示。
进一步的,所述步骤S1具体包括以下步骤:
S11、根据对话中槽的个数,定义该领域下的五元组(s,a,p,r,γ),其中s是含终止状态的所有状态、a是所有动作、p是状态转移概率、r是奖励函数、γ是0~1区间的折扣因子;
S12、自定义例子,在数据库进行搜索,根据数据库搜索结果定义对话的终止状态。
进一步的,所述步骤S2具体是在马尔科夫决策过程中,状态s的状态值函数为其回报的期望,即v(s)=E[Gt|St=s],其中Gt为t时刻在状态s时的回报,St为t时刻采取的动作,根据状态值函数的贝尔曼方程
Figure BDA0002329838700000031
迭代计算状态值函数矩阵v(s),其中,π(a|s)表示策略在给定状态下行为的概率分布、
Figure BDA0002329838700000032
表示在状态为s时执行动作a所得到的的即时回报、γ为折扣因子、
Figure BDA0002329838700000033
表示在当前时刻状态为s时,采取动作a,下一时刻状态转为s′的概率,vπ(s′)为下一状态s′的状态值函数,A表示所有动作a的集合。
进一步的,所述步骤S3具体包括以下步骤:
S31、接受来自对话系统中的自然语言理解模块的输出的三元组,即领域识别、意图识别、槽-值对,获得单句理解解析结果;
S32、结合历史槽值状态,进行对话状态跟踪,更新当前对话的状态,并转化为状态St;
S33、从对话状态跟踪器中取出当前用户目标的约束,即槽-值对列表,将其转化为知识库查询语句,进行知识图谱匹配和知识的搜索。
进一步的,所述步骤S4具体包括以下步骤:
S41、判断搜索结果的数量,若大于N,则对结果进行属性信息熵的计算,若不大于N,则直接通知系统给出搜索结果列表;
S42、根据公式H(attr)=-∑x∈χp(x)logp(x),计算属性attr的信息熵,其中,χ表示属性attr,attr指可能的取值集合,p(x)表示属性attr取值为x的概率。
进一步的,所述步骤S5具体包括以下步骤:
S51、判断信息熵大于0的属性数量,若不大于1,则表明能够区分的属性为1,因此下一轮对话应向用户询问该槽的目标约束;
S52、若信息熵大于0的属性数量大于1,查找状态转移矩阵P中对应当前状态为s的列向量Ps,将状态s的转移概率向量Ps转化为01向量Ts,转移概率>0节点的值取1,使用Ts对状态值函数矩阵v进行过滤,得到可能转移的下一个向量s′和对应的状态值;
S53、下一个状态s′使得下一状态的奖励值最大,即v*=v(s′)最大,v*表示最大的状态值函数,将s与s′进行对比,找出s为0、s′为1的槽位;若有若干个槽位上的值不相同,则进行全排列组合得出新的s′,并过滤掉信息熵为0的槽位,然后进行状态值大小的比较,以信息熵大的作为系统动作询问的槽位。
进一步的,所述步骤S6具体是将槽拼接为下一轮系统需要询问的动作。
与现有技术相比,本发明至少具有如下有益效果:
1、本发明定义马尔科夫决策模型,通过定义对话状态集S、系统动作集A、状态转移概率P、回报函数R以及折扣因子γ,构建了对话策略的马尔科夫决策模型;
2、本发明结合音乐搜索结果属性信息熵和状态值函数,寻找对于音乐搜索价值最高的槽属性,从而确定系统的询问动作;
3、本发明克服了多轮对话系统冷启动的困难,在没有特定领域对话数据集进行训练的情况下,构造了基于每轮对话的对话状态构造知识库搜索语句,并计算知识库搜索结果和知识图谱匹配的结果中属性信息熵的动态对话策略,将强化学习和属性信息熵相结合,构建了对话系统中对话管理模块中的对话策略子模块,提高了系统的智能程度。
附图说明
图1为本实施例的一种一种面向任务型对话系统的对话策略方法的流程图;
图2为本实施例音乐搜索结果信息熵计算与选择过程图。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互结合,下面结合附图和实施例对本发明作进一步详细描述。
如图1所示的一种面向任务型对话系统的对话策略方法,以音乐搜索任务为例,包括以下步骤:
S1、针对垂直领域中的基于知识图谱的搜索型对话系统(音乐搜索、图书搜索等)构建马尔科夫决策模型,定义该领域下的五元组(s,a,p,r,γ),其中s是所有状态(含终止状态)、a是所有动作、p是状态转移概率、r是奖励函数、γ是0~1区间的折扣函数(一般默认为0.9);
所述步骤S1具体包括以下步骤:
S11、根据对话中槽的个数,定义该领域下的五元组(s,a,p,r,γ),对话状态集s、系统动作集a、状态转移概率p、回报函数r以及折扣因子γ;
(1)状态集合s
在音乐搜索任务中,对话状态体现为6个槽的取值情况,每个槽的状态分为已填充和未填充两种,将对话状态跟踪模块(表2为对话跟踪状态模块的状态表示的枚举)输出的对话状态转换为编号表示,则总共有26=64种状态,按照下标01依次编码,六位01编码依次表示song,singer,album,lyricwriter,composer,label槽的填充与否,状态数量和对应的状态编号如表2所示。例如,当前的对话状态为<singer=周杰伦,song=稻香>,那么所对应的状态编码应为S110000。那么,状态集合S={S000000,S100000,…,S111111}
表2对话状态的编号表示
Figure BDA0002329838700000051
(2)动作集合a
系统动作分为询问动作request()和提供歌曲列表动作offer(),询问动作又可以根据询问不同的槽分为询问歌曲名request(song)、询问歌手request(singer)、询问专辑request(album)、询问作词者request(lyricwriter)、询问作曲者request(composer)和询问歌曲类型request(label)六个动作。因此,动作集合A={offer(songs),request(attrs)},其中,attrs=[song,singer,album,lyricwriter,composer,label]。
(3)状态间的转移概率p
定义状态(s,s′)之间的转移概率P(s,s′)=1/N,N为下一个状态s′可能的取值个数,当前状态s为非终止状态。用户在单轮的对话中,可能会给出不止一个槽的信息,因此按照表3和表4定义对话状态之间的转移概率:
表3对话状态转移概率示例表
Figure BDA0002329838700000061
表4对话状态转移概率示例表
Figure BDA0002329838700000062
(4)即时回报r
定义当对话状态达到设定的49种终止状态时,意味着用户完成了当前的任务,转移后的奖励值设为100,其他每一轮对话状态发生转移的奖励值均为-1,如表5和表6所示,终止状态加粗表示:
表5状态转移奖励矩阵示例
Figure BDA0002329838700000063
表6状态转移奖励矩阵示例
Figure BDA0002329838700000071
(5)折扣因子γ
折扣因子代表了未来收益对当前状态的重要程度,γ∈[0,1],本实施例设定折扣因子γ=0.8。
S12、自定义例子(如表1所示),在数据库进行搜索,根据数据库搜索结果定义对话的终止状态。
表1寻找终止状态的例子
Figure BDA0002329838700000072
终止状态表示对话的结束,若达到了终止状态,则表示系统应给出歌曲列表offer()结束对话。从经验常识出发,制定如下几条规则来定义对话的终止状态:
1.当用户给出歌曲的歌名song信息和任一其他属性信息,则该状态为终止状态,共5种;
2.当用户给出歌曲的专辑名album和作词者lyricwriter或作曲者composer,则该状态为终止状态,共2种;
3.六个属性中已知任意三个或以上,则该状态为终止状态,共20+15+6+1=42种。因此,定义42种终止状态,具体如表7和表8所示:
表7对话终止状态说明
Figure BDA0002329838700000081
表8对话终止状态说明
Figure BDA0002329838700000082
S2、根据步骤S1,利用贝尔曼方程获取状态值函数矩阵,具体包括以下步骤:
S21、在马尔科夫决策过程中,状态s的状态值函数为其回报的期望,即v(s)=E[Gt|St=s],其中Gt为t时刻在状态s时的回报,St为t时刻采取的动作,根据状态值函数的贝尔曼方程
Figure BDA0002329838700000083
迭代计算状态值函数矩阵v(s),其中,π(a|s)表示策略在给定状态下行为的概率分布、
Figure BDA0002329838700000084
表示在状态为s时执行动作a所得到的的即时回报、γ为折扣因子、
Figure BDA0002329838700000085
表示在当前时刻状态为s时,采取动作a,下一时刻状态转为s′的概率,vπ(s′)为下一状态s′的状态值函数,A表示所有动作a的集合。
S3、结合当前时刻的对话状态,匹配知识图谱和搜索知识库,得到满足用户目标的结果,具体包括以下步骤:
S31、接受来自对话系统的自然语言理解模块的输出的三元组,即领域识别、意图识别、槽-值对,获得单句理解解析结果;
S32、结合历史槽值状态,进行对话状态跟踪,更新当前对话的状态,并转化为状态St;
S33、从对话状态跟踪器中取出当前用户目标的约束,即槽-值对列表,将其转化为知识库查询语句,进行知识图谱匹配和知识的搜索。转化过程是根据每个槽的取值,生成对应的约束条件进行查询。
S4、如图2所示,对搜索结果进行属性信息熵计算,具体包括以下步骤:
S41、判断搜索结果的数量,若大于10,则对结果进行属性信息熵的计算,若不大于10,则直接通知系统给出搜索结果列表;
S42、根据公式H(attr)=-∑x∈χp(x)logp(x),计算属性attr的信息熵,其中,χ表示属性attr(这里的attr是个代称),attr指可能的取值集合,p(x)表示属性attr取值为x的概率。
S5、对计算出来的属性信息熵进行分析,具体包括以下步骤:
S51、判断信息熵大于0的属性数量,若不大于1,则表明能够区分的属性为1,因此系统下一轮对话应向用户询问该槽的目标约束;
S52、若信息熵大于0的属性数量大于1,查找状态转移矩阵P中对应当前状态为s的列向量Ps,将状态s的转移概率向量Ps转化为01向量Ts,转移概率>0节点的值取1,使用Ts(01向量,即若状态转移矩阵的里面状态s的转移概率>0节点的值取1,构建一个与状态转移矩阵维度一致的01矩阵定义为01向量Ts)对状态值函数矩阵v进行过滤,得到可能转移的下一个向量s′和对应的状态值;过滤的方式是通过构建01向量过滤,将所有状态转移概率为0的节点设置为0;
S53、下一个状态s′使得下一状态的奖励值最大,即v*=v(s′)最大(v*表示最大的状态值函数),将s与s′进行对比,找出s为0、s′为1的槽位;若有若干个槽位上的值不相同,则全排列组合得出新的s′,并过滤掉信息熵为0的槽位,然后进行状态值大小的比较,以信息熵大的作为系统动作询问的槽位。
S6、通过状态转移矩阵得出下一轮系统的动作,具体是将槽拼接为下一轮系统需要询问的动作。
上述方法构建了一个有效的多轮对话管理模型,具有很好的可用性。
将多轮对话策略优化方法应用在多轮对话音乐搜索系统中的对话策略模块中,实现一个完整的多轮对话音乐搜索系统,将系统进行封装微信公众号以进行系统演示。
尽管已经示出和描述了本发明的实施例,对于本领域普通技术人员而言,可以理解的是,在不脱离本发明原理和精神的情况下可以对这些实施例进行多种等效的变换、修改、替换和变型,本发明的范围由所附权利要求及其等同范围限定。

Claims (7)

1.一种面向任务型对话系统的对话策略方法,其特征在于,包括以下步骤:
S1、针对垂直领域中的基于知识图谱的搜索型对话系统,构建马尔科夫决策模型;
S2、根据步骤S1,利用贝尔曼方程获取状态值函数矩阵;
S3、结合当前时刻的对话状态,匹配知识图谱和搜索知识库,得到满足用户目标的结果;
S4、对搜索结果进行属性信息熵计算;
S5、对计算出来的属性信息熵进行分析;
S6、通过状态转移矩阵得出下一轮系统的动作。
2.根据权利要求1所述的一种面向任务型对话系统的对话策略方法,其特征在于,所述步骤S1具体包括以下步骤:
S11、根据对话中槽的个数,定义该领域下的五元组(s,a,p,r,γ),其中s是含终止状态的所有状态、a是所有动作、p是状态转移概率、r是奖励函数、γ是0~1区间的折扣因子;
S12、自定义例子,在数据库进行搜索,根据数据库搜索结果定义对话的终止状态。
3.根据权利要求1所述的一种面向任务型对话系统的对话策略方法,其特征在于,所述步骤S2具体是在马尔科夫决策过程中,状态s的状态值函数为其回报的期望,即v(s)=E[Gt|St=s],其中Gt为t时刻在状态s时的回报,St为t时刻采取的动作,根据状态值函数的贝尔曼方程
Figure FDA0002329838690000011
迭代计算状态值函数矩阵v(s),其中,π(a|s)表示策略在给定状态下行为的概率分布、
Figure FDA0002329838690000012
表示在状态为s时执行动作a所得到的的即时回报、γ为折扣因子、
Figure FDA0002329838690000013
表示在当前时刻状态为s时,采取动作a,下一时刻状态转为s′的概率,vπ(s′)为下一状态s′的状态值函数,A表示所有动作a的集合。
4.根据权利要求1所述的一种面向任务型对话系统的对话策略方法,其特征在于,所述步骤S3具体包括以下步骤:
S31、接受来自对话系统中的自然语言理解模块的输出的三元组,即领域识别、意图识别、槽-值对,获得单句理解解析结果;
S32、结合历史槽值状态,进行对话状态跟踪,更新当前对话的状态,并转化为状态St
S33、从对话状态跟踪器中取出当前用户目标的约束,即槽-值对列表,将其转化为知识库查询语句,进行知识图谱匹配和知识的搜索。
5.根据权利要求1所述的一种面向任务型对话系统的对话策略方法,其特征在于,所述步骤S4具体包括以下步骤:
S41、判断搜索结果的数量,若大于N,则对结果进行属性信息熵的计算,若不大于N,则直接通知系统给出搜索结果列表;
S42、根据公式H(attr)=-∑x∈χp(x)logp(x),计算属性attr的信息熵,其中,χ表示属性attr,attr指可能的取值集合,p(x)表示属性attr取值为x的概率。
6.根据权利要求1所述的一种面向任务型对话系统的对话策略方法,其特征在于,所述步骤S5具体包括以下步骤:
S51、判断信息熵大于0的属性数量,若不大于1,则表明能够区分的属性为1,因此下一轮对话应向用户询问该槽的目标约束;
S52、若信息熵大于0的属性数量大于1,查找状态转移矩阵P中对应当前状态为s的列向量Ps,将状态s的转移概率向量Ps转化为01向量Ts,转移概率>0节点的值取1,使用Ts对状态值函数矩阵v进行过滤,得到可能转移的下一个向量s′和对应的状态值;
S53、下一个状态s′使得下一状态的奖励值最大,即v*=v(s′)最大,v*表示最大的状态值函数,将s与s′进行对比,找出s为0、s′为1的槽位;若有若干个槽位上的值不相同,则进行全排列组合得出新的s′,并过滤掉信息熵为0的槽位,然后进行状态值大小的比较,以信息熵大的作为系统动作询问的槽位。
7.根据权利要求1所述的一种面向任务型对话系统的对话策略方法,其特征在于,所述步骤S6具体是将槽拼接为下一轮系统需要询问的动作。
CN201911331882.9A 2019-12-21 2019-12-21 一种面向任务型对话系统的对话策略方法 Active CN111159371B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201911331882.9A CN111159371B (zh) 2019-12-21 2019-12-21 一种面向任务型对话系统的对话策略方法
PCT/CN2020/142579 WO2021121436A1 (zh) 2019-12-21 2020-12-31 一种面向任务型对话系统的对话策略方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911331882.9A CN111159371B (zh) 2019-12-21 2019-12-21 一种面向任务型对话系统的对话策略方法

Publications (2)

Publication Number Publication Date
CN111159371A true CN111159371A (zh) 2020-05-15
CN111159371B CN111159371B (zh) 2023-04-21

Family

ID=70557681

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911331882.9A Active CN111159371B (zh) 2019-12-21 2019-12-21 一种面向任务型对话系统的对话策略方法

Country Status (2)

Country Link
CN (1) CN111159371B (zh)
WO (1) WO2021121436A1 (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111816173A (zh) * 2020-06-01 2020-10-23 珠海格力电器股份有限公司 对话数据处理方法、装置、存储介质及计算机设备
CN112052322A (zh) * 2020-09-03 2020-12-08 哈尔滨工业大学 一种基于粒计算的智能机器人对话策略生成方法
CN112364147A (zh) * 2020-12-01 2021-02-12 四川长虹电器股份有限公司 一种基于知识图谱的跨领域多轮对话方法及实现系统
WO2021121436A1 (zh) * 2019-12-21 2021-06-24 华南理工大学 一种面向任务型对话系统的对话策略方法
CN113239171A (zh) * 2021-06-07 2021-08-10 平安科技(深圳)有限公司 对话管理系统更新方法、装置、计算机设备及存储介质
CN114201286A (zh) * 2022-02-16 2022-03-18 成都明途科技有限公司 一种任务的处理方法、装置、电子设备、存储介质
CN114862527A (zh) * 2022-06-17 2022-08-05 阿里巴巴(中国)有限公司 对象推荐方法及装置
CN115577089A (zh) * 2022-11-24 2023-01-06 零犀(北京)科技有限公司 一种优化对话流程中节点的方法、装置、设备和存储介质
CN116991999A (zh) * 2023-08-07 2023-11-03 太保科技有限公司 一种对话数据生成方法、装置、设备及存储介质
CN119250184A (zh) * 2024-12-05 2025-01-03 成都佳发安泰教育科技股份有限公司 对话数据生成方法、对话模型训练方法及电子设备
CN119294496A (zh) * 2024-10-23 2025-01-10 重庆大学 基于知识图谱的装备动态对抗博弈决策方法及装置

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113688223A (zh) * 2021-09-10 2021-11-23 上海汽车集团股份有限公司 一种任务型对话管理方法和装置
CN114297352B (zh) * 2021-11-24 2024-09-17 盛景智能科技(嘉兴)有限公司 对话状态追踪方法、装置、人机对话系统及作业机械
CN115238439A (zh) * 2021-12-15 2022-10-25 中国人民解放军空军工程大学 基于马尔可夫决策过程的探测系统博弈波形的设计方法
CN114254125B (zh) * 2021-12-21 2025-02-14 科大讯飞股份有限公司 一种对话交互方法、装置、设备及存储介质
CN115344667B (zh) * 2022-06-27 2025-05-27 华南理工大学 一种融合用户满意度的任务导向型对话策略学习方法
CN115827228B (zh) * 2022-12-02 2025-04-25 哈尔滨工业大学 一种多端软服务机器人对话状态迁移方法
CN115809669B (zh) * 2022-12-30 2024-03-29 联通智网科技股份有限公司 一种对话管理方法和电子设备
CN116257637A (zh) * 2023-03-08 2023-06-13 山西省信息产业技术研究院有限公司 一种基于jerpe的知识图谱构建方法
CN116719947B (zh) * 2023-04-23 2026-01-06 湖南工业大学 一种用于电力巡检缺陷检测的知识处理方法及装置
CN117407514B (zh) * 2023-11-28 2024-07-09 星环信息科技(上海)股份有限公司 一种解决计划生成方法、装置、设备及存储介质
CN120724109B (zh) * 2025-08-28 2025-11-25 杭州通义实验室科技有限公司 任务处理模型训练方法、角色扮演模型训练方法及任务处理方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105788593A (zh) * 2016-02-29 2016-07-20 中国科学院声学研究所 生成对话策略的方法及系统
CN108282587A (zh) * 2018-01-19 2018-07-13 重庆邮电大学 基于状态跟踪与策略导向下的移动客服对话管理方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105068661B (zh) * 2015-09-07 2018-09-07 百度在线网络技术(北京)有限公司 基于人工智能的人机交互方法和系统
CN105183850A (zh) * 2015-09-07 2015-12-23 百度在线网络技术(北京)有限公司 基于人工智能的信息查询方法及装置
CN109543010A (zh) * 2018-10-22 2019-03-29 拓科(武汉)智能技术股份有限公司 融合数据库查询的人机对话方法及系统
CN111159371B (zh) * 2019-12-21 2023-04-21 华南理工大学 一种面向任务型对话系统的对话策略方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105788593A (zh) * 2016-02-29 2016-07-20 中国科学院声学研究所 生成对话策略的方法及系统
CN108282587A (zh) * 2018-01-19 2018-07-13 重庆邮电大学 基于状态跟踪与策略导向下的移动客服对话管理方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
钟可立;王小捷;: "基于信息熵的POMDP模型观测函数估计" *

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021121436A1 (zh) * 2019-12-21 2021-06-24 华南理工大学 一种面向任务型对话系统的对话策略方法
CN111816173B (zh) * 2020-06-01 2024-06-07 珠海格力电器股份有限公司 对话数据处理方法、装置、存储介质及计算机设备
CN111816173A (zh) * 2020-06-01 2020-10-23 珠海格力电器股份有限公司 对话数据处理方法、装置、存储介质及计算机设备
CN112052322A (zh) * 2020-09-03 2020-12-08 哈尔滨工业大学 一种基于粒计算的智能机器人对话策略生成方法
CN112364147A (zh) * 2020-12-01 2021-02-12 四川长虹电器股份有限公司 一种基于知识图谱的跨领域多轮对话方法及实现系统
CN113239171A (zh) * 2021-06-07 2021-08-10 平安科技(深圳)有限公司 对话管理系统更新方法、装置、计算机设备及存储介质
WO2022257468A1 (zh) * 2021-06-07 2022-12-15 平安科技(深圳)有限公司 对话管理系统更新方法、装置、计算机设备及存储介质
CN113239171B (zh) * 2021-06-07 2023-08-01 平安科技(深圳)有限公司 对话管理系统更新方法、装置、计算机设备及存储介质
CN114201286B (zh) * 2022-02-16 2022-04-26 成都明途科技有限公司 一种任务的处理方法、装置、电子设备、存储介质
CN114201286A (zh) * 2022-02-16 2022-03-18 成都明途科技有限公司 一种任务的处理方法、装置、电子设备、存储介质
CN114862527A (zh) * 2022-06-17 2022-08-05 阿里巴巴(中国)有限公司 对象推荐方法及装置
CN115577089A (zh) * 2022-11-24 2023-01-06 零犀(北京)科技有限公司 一种优化对话流程中节点的方法、装置、设备和存储介质
CN116991999A (zh) * 2023-08-07 2023-11-03 太保科技有限公司 一种对话数据生成方法、装置、设备及存储介质
CN119294496A (zh) * 2024-10-23 2025-01-10 重庆大学 基于知识图谱的装备动态对抗博弈决策方法及装置
CN119294496B (zh) * 2024-10-23 2025-09-12 重庆大学 基于知识图谱的装备动态对抗博弈决策方法及装置
CN119250184A (zh) * 2024-12-05 2025-01-03 成都佳发安泰教育科技股份有限公司 对话数据生成方法、对话模型训练方法及电子设备

Also Published As

Publication number Publication date
WO2021121436A1 (zh) 2021-06-24
CN111159371B (zh) 2023-04-21

Similar Documents

Publication Publication Date Title
CN111159371A (zh) 一种面向任务型对话系统的对话策略方法
CN111046187B (zh) 基于对抗式注意力机制的一样本知识图谱关系学习方法及系统
Lehmann et al. Autosparql: Let users query your knowledge base
CN111143539B (zh) 基于知识图谱的教学领域问答方法
CN118095445B (zh) 一种基于知识图谱的少样本多跳推理优化方法
CN111930912A (zh) 对话管理方法及系统、设备和存储介质
CN117542509A (zh) 一种基于诊疗指导树和诊疗推理引擎的多轮问诊方法
CN112052322A (zh) 一种基于粒计算的智能机器人对话策略生成方法
CN119443287A (zh) 一种智能体及其室内导航方法、设备、介质及产品
Malhotra Community detection in complex networks using link strength-based hybrid genetic algorithm
CN111694934A (zh) 一种端到端的对话方法和系统
Zhou et al. Db-gpt-hub: Towards open benchmarking text-to-sql empowered by large language models
CN110909124A (zh) 基于人在回路的混合增强智能需求精准感知方法及系统
CN117892256A (zh) 一种事实性知识问答系统的图注意力机制特征融合方法
CN110442690B (zh) 一种基于概率推理的询问优化方法、系统和介质
CN119358681B (zh) 多模态知识图谱多跳推理方法、系统、终端及存储介质
CN117493372B (zh) 基于关系感知的sql语句生成方法及装置
CN110727783B (zh) 一种基于对话系统对用户问句提出反问的方法和装置
CN116775840B (zh) 基于远程监督和知识蒸馏的差异感知回复生成方法及系统
CN116028610B (zh) 一种超关系知识图谱上的n元复杂查询嵌入方法
CN119066977A (zh) 一种基于人工智能的船舶设计知识推送方法及系统
CN118820439A (zh) 一种智能答疑方法、装置及可读存储介质
CN118227763A (zh) 一种融合领域推理规则的实体知识问答方法
CN117591654A (zh) 一种问答方法及装置
CN116957281A (zh) 一种基于大语言模型的望远镜观测规划方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant