CN111224863B

CN111224863B - 会话任务生成方法、装置、计算机设备和存储介质

Info

Publication number: CN111224863B
Application number: CN201911257891.8A
Authority: CN
Inventors: 韩铃
Original assignee: Ping An International Smart City Technology Co Ltd
Current assignee: Ping An International Smart City Technology Co Ltd
Priority date: 2019-12-10
Filing date: 2019-12-10
Publication date: 2021-06-22
Anticipated expiration: 2039-12-10
Also published as: CN111224863A; WO2021114682A1

Abstract

本申请涉及一种会话任务生成方法、装置、计算机设备和存储介质。所述方法包括：确定待生成会话任务的会话背景；所述待生成会话任务包括多个会话对；当发生会话组件拖拽操作时，获取基于被拖拽会话组件所添加的相应会话对的上文会话消息和下文会话文本；将所述下文会话文本转化为与所述会话背景相匹配的下文会话语音；对包含所述上文会话消息及所述下文会话文本的多个会话组件进行拼接，得到所述会话任务。采用本方法能够提高与虚拟用户对象交互灵活性。

Description

会话任务生成方法、装置、计算机设备和存储介质

技术领域

本申请涉及通信技术领域，特别是涉及一种会话任务生成方法、装置、计算机设备和存储介质。

背景技术

随着通信技术的发展，出现了很多可以发起会话的应用，用户可通过这些应用实现与真实的用户或虚拟用户对象之间的通信交流。其中，虚拟用户对象是通过软件实现的可以响应用户诉求的、且与用户进行交流的虚拟的用户对象。基于技能培训等需求，有时需要配置会话任务。通过完成会话任务，真实用户可以与充当某种角色用户的虚拟用户对象进行通信交流，以练习提高会话技能。传统方式配置的会话任务，大多是用户与固定的虚拟用户对象之间的会话，会话任务形式单一，不够灵活。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提高与虚拟用户对象交互灵活性的会话任务生成方法、装置、计算机设备和存储介质。

一种会话任务生成方法，所述方法包括：确定待生成会话任务的会话背景；所述待生成会话任务包括多个会话对；当发生会话组件拖拽操作时，获取基于被拖拽会话组件所添加的相应会话对的上文会话消息和下文会话文本；将所述下文会话文本转化为与所述会话背景相匹配的下文会话语音；对包含所述上文会话消息及所述下文会话文本的多个会话组件进行拼接，得到所述会话任务。

在其中一个实施例中，所述将所述下文会话文本转化为与所述会话背景相匹配的下文会话语音包括：根据所述会话背景确定所述待生成会话任务所需虚拟用户对象的数量以及每个虚拟用户对象的角色类型；确定针对当前会话对指定的目标虚拟用户对象；按照所述目标虚拟用户对象的角色类型所匹配的音色类别，将所述下文会话文本转换为下文会话语音。

在其中一个实施例中，所述对包含所述上文会话消息及所述下文会话文本的多个会话组件进行拼接包括：根据多个会话组件的相对位置关系，确定相应多个会话对之间的执行顺序；根据所述执行顺序对包含所述上文会话消息及所述下文会话文本的多个会话组件进行拼接。

在其中一个实施例中，在得到所述会话任务之后，所述方法还包括：当获取到会话任务处理指令时，展示所述会话任务对应的会话页面；获取基于所述会话页面产生的输入会话消息；确定针对所述输入会话消息所属会话对指定的目标虚拟用户对象；触发所述目标虚拟用户对象进行基于所述输入会话消息的业务处理，得到应答会话语音；通过所述目标虚拟用户对象回复所述应答会话语音。

在其中一个实施例中，所述触发所述目标虚拟用户对象进行基于所述输入会话消息的业务处理，得到应答会话语音包括：确定所述会话组件的组件类型；当所述组件类型为第一类型，所述输入会话消息包括会话图片时，触发所述目标虚拟用户对象提取所述会话图片的图形特征；根据所述图形特征，确定与所述会话图片相应的类别标签文本；将所述图形特征和相应的类别标签文本进行融合，得到综合特征；基于所述综合特征确定所述输入会话消息的会话意图；获取所属会话对中每个上文会话消息对应的意图标签；将意图标签与所述会话意图相匹配的上文会话消息所对应的下文会话语音，作为应答会话消息。

在其中一个实施例中，所述方法还包括：当所述组件类型为第二类型，所述输入会话消息包括会话图片时，触发所述目标虚拟用户对象识别所述会话图片的绘图轨迹；将所述会话图片中绘图轨迹经过的像素点的像素值确定为第一像素值，绘图轨迹未经过的像素点的像素值确定为第二像素值；提取完成像素值更新的会话图片中每个绘图笔画的图形特征；对多个绘图笔画的图形特征进行融合，得到所述会话图片的序列特征；计算所述会话图片的序列特征与当前会话分支中上文会话消息所对应参考讲解图的序列特征的相似度；将所述相似度最高的上文会话消息所对应的下文会话语音，作为应答会话消息。

一种会话任务生成装置，所述装置包括：背景确定模块，用于确定待生成会话任务的会话背景；所述待生成会话任务包括多个会话对；组件构建模块，用于当发生会话组件拖拽操作时，获取基于被拖拽会话组件所添加的相应会话对的上文会话消息和下文会话文本；组件转化模块，用于将所述下文会话文本转化为与所述会话背景相匹配的下文会话语音；组件拼接模块，用于对包含所述上文会话消息及所述下文会话文本的多个会话组件进行拼接，得到所述会话任务。

在其中一个实施例中，所述组件转化模块还用于根据所述会话背景确定所述待生成会话任务所需虚拟用户对象的数量以及每个虚拟用户对象的角色类型；确定针对当前会话对指定的目标虚拟用户对象；按照所述目标虚拟用户对象的角色类型所匹配的音色类别，将所述下文会话文本转换为下文会话语音。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现本申请任意一个实施例中提供的会话任务生成方法的步骤。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现本申请任意一个实施例中提供的会话任务生成方法的步骤。

上述会话任务生成方法、装置、计算机设备和存储介质，当触发会话组件拖拽操作时，基于被拖拽会话组件可以配置添加每个会话对的上文会话消息和下文会话文本；根据待生成会话任务的会话背景，可以将所述下文会话文本转化为下文会话语音；通过对包含所述上文会话消息及所述下文会话文本的多个会话组件进行拼接，可以得到所述会话任务。由于贴合会话背景所需将下文会话文本转换为由充当某种用户角色的虚拟用户对象输出的下文会话消息，不仅能够区分不同的角色，且大大扩展了虚拟用户对象对文本内容的表达，改善会话任务执行效果。此外，通过简单拖拽会话组件的方式即可完成会话任务构建，大大提高会话任务生成效率。

附图说明

图1为一个实施例中会话任务生成方法的应用场景图；

图2为一个实施例中会话任务生成方法的流程示意图；

图3为一个实施例中支持通过拖拽会话组件构建会话任务的任务配置页面的界面示意图；

图4为一个实施例中会话任务生成装置的结构框图；

图5为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的会话任务生成方法，可以应用于如图1所示的应用环境中。其中，终端102与服务器104通过网络进行通信。其中，终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备，服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。终端102上运行了会话应用。基于会话应用，用户可以进行会话任务配置，将并将配置好的会话任务发布至服务器104。服务器104将会话任务推送至其他用户。其他用户可以基于会话应用执行会话任务，与虚拟用户对象进行会话。

在一个实施例中，如图2所示，提供了一种会话任务生成方法，以该方法应用于图1中的终端102为例进行说明，包括以下步骤：

步骤202，确定待生成会话任务的会话背景；待生成会话任务包括多个会话对。

终端上运行了会话应用。会话应用是指用户能够与其他用户或虚拟用户对象之间发送会话消息，实现不同社交用途的应用。会话应用具体可以是即时通讯应用、智能客服应用、技能陪练应用等。其中，技能陪练应用是由虚拟用户对象充当某种角色的用户与待培训的另一种角色的用户进行模拟会话，以提高待培训用户技能的应用程序。比如，虚拟用户对象充当客户与业务员进行会话，以提高业务员服务能力；或者，虚拟用户对象充当学生或家长与老师进行会话，以提高老师教学水平等。

基于会话应用，任务发布者可以进行会话任务的配置。具体地，当接收到基于会话应用触发的会话任务配置指令时，终端展示任务配置页面。任务配置页面包括会话背景描述区。会话背景是指任务执行者在执行会话任务时需要了解的背景信息，比如与其通信交流的虚拟用户对象所扮演的角色及其用户需求等。比如，一个用于提高业务员服务能力的会话任务中，对应的会话背景包括虚拟用户对象所充当客户的性别、年龄、性别等身份信息，以及虚拟用户对象所需咨询的业务方向等。终端获取用户在会话背景描述区输入的待生成的会话任务的会话背景。

步骤204，当发生会话组件拖拽操作时，获取基于被拖拽会话组件所添加的相应会话对的上文会话消息和下文会话文本。

任务配置页面还提供了旁白会话、固定会话、固定问答、意图会话和评分会话等多种会话组件。用户可以通过自由拖拽会话组件的方式快速创建会话任务，并发布预配置的会话任务给待培训用户进行练习。具体地，一个会话任务包括多个会话对。通过拖拽不同组件类型的会话组件可以获取不同会话模式的会话对。比如，基于会话组件“意图会话”可以实现会话模式为“意图识别”；基于会话组件“评分会话”可以实现会话模式为“专业评分”等。

进一步地，每个会话对包括下文会话消息和上文会话消息。用户在拖拽会话组件后，对会话组件对应的下文会话消息以及上文会话消息进行配置。其中，在会话任务被执行时，下文会话消息通过虚拟用户对象输出，任务执行者在获取到下文会话消息后输入会话消息作为答复。上文会话消息是用于评判所输入会话消息的答复专业度、所表达意图等的参考信息。在本实施例中预先配置的下文会话消息及上文会话消息分别可以是文本、语音等。

步骤206，将下文会话文本转化为与会话背景相匹配的下文会话语音。

用户可以对讲述每个下文会话消息的虚拟用户对象的用户形象、表情、音色等进行配置。具体地，会话应用在服务器预先存储了多种虚拟用户角色信息，不同的虚拟用户角色具有不同的音色特征。虚拟用户角色信息包括角色标识及其音色特征、在不同表情状态下的人脸图像或视频等。在会话任务配置时，终端可以从服务器读取预存储的虚拟用户角色信息，并展示在任务配置页面。用户在配置输入下文会话消息后，可以选定合适的用于输出该下文会话消息的虚拟用户对象的人脸图像或通话视频。当下文会话消息为下文会话文本时，终端将下文会话文本按照用户选定的虚拟用户角色的音色特征转换为下文会话语音。

在一个实施例中，用户还可以对每组会话对中上文会话消息的输入方式进行配置，比如口头讲解、图文讲解等。用户在配置每个输入方式为“图文讲解”的下文会话消息的上文会话消息时，需要预先配置对应的参考讲解图。参考讲解图包括多个讲解步骤的步骤讲解图。

文字语音转换技术主要是将计算机内的文本转换成连续自然的语音。传统的将文字转化成语音的方式，通常是采用TTS(Text To Speech)技术，根据文本合成相应的语音。然而，传统的将文字转化成声音的方式，通常整个任务只有一个嗓音，并且多为女性。在有些场景下，采用单一的嗓音会局限对文字内容的表达。而本实施例结合会话场景确定所需用户角色的音色类别，将会话文本按照音色类别转换为会话语音，不同的角色可以采用与该角色贴近的音色类别进行输出，能够区分不同的角色，大大扩展了虚拟用户对象对文本内容的表达，改善会话任务执行效果。

步骤208，对包含上文会话消息及下文会话文本的多个会话组件进行拼接，得到会话任务。

在一个实施例中，对包含上文会话消息及下文会话文本的多个会话组件进行拼接包括：根据多个会话组件的相对位置关系，确定相应多个会话对之间的执行顺序；根据执行顺序对包含上文会话消息及下文会话文本的多个会话组件进行拼接。

其中，多个会话对的执行顺序可以是根据会话组件在任务配置页面中的展示位置确定的。比如，终端可以按照“Z”字形扫描的方式对任务配置页面所展示的一个或多个会话组件进行扫描，确定多个会话组件的相对位置关系。在一个具体的实施例中，终端可以基于多行多列的二维矩阵表将任务配置页面划分为多个配置子区域。终端将处于同一行的会话对确定为相同执行顺序的会话对，将前一行的会话对确定为当前行会话对的前一顺序会话对。

在一个实施例中，也可以根据用户在任务配置页面触发的对会话组件的拼接操作，对包含上文会话消息及下文会话文本的多个会话组件进行拼接。参考图3，图3为一个实施例中支持通过拖拽会话组件构建会话任务的任务配置页面的界面示意图。在配置会话任务时，用户可以采用有向边将相邻执行顺序的会话组件连接。有向边从前序会话组件指向后续会话组件。如图3所示，组件类型为“固定会话”的会话组件所对应会话对中，上文会话消息为“喂，小丽你好，我是小明，现在方便聊一下吗？”，下文会话消息为“哦，方便的”。有向边从上文会话消息指向下文会话消息。该“固定会话”的会话对的下文会话消息存在指向“意图会话”的会话对，则该“固定会话”的会话对的下一顺序会话对为“意图会话”的会话对。

上述会话任务生成方法中，当触发会话组件拖拽操作时，基于被拖拽会话组件可以配置添加每个会话对的上文会话消息和下文会话文本；根据待生成会话任务的会话背景，可以将下文会话文本转化为下文会话语音；通过对包含上文会话消息及下文会话文本的多个会话组件进行拼接，可以得到会话任务。由于贴合会话背景所需将下文会话文本转换为由充当某种用户角色的虚拟用户对象输出的下文会话消息，不仅能够区分不同的角色，且大大扩展了虚拟用户对象对文本内容的表达，改善会话任务执行效果。此外，通过简单拖拽会话组件的方式即可完成会话任务构建，大大提高会话任务生成效率。

在一个实施例中，将下文会话文本转化为与会话背景相匹配的下文会话语音包括：根据会话背景确定待生成会话任务所需虚拟用户对象的数量以及每个虚拟用户对象的角色类型；确定针对当前会话对指定的目标虚拟用户对象；按照目标虚拟用户对象的角色类型所匹配的音色类别，将下文会话文本转换为下文会话语音。

同一个会话任务可能需要多个虚拟用户对象分别充当不同的用户角色。终端根据会话背景确定会话任务中所需虚拟用户对象的数量，以及每个虚拟用户对象的角色类型。根据所充当用户的年龄、性别等不同，角色类型可以包含男童、女童、男少年、女少年、男青年、女青年等。

对于每个会话对中的下文会话消息由哪一虚拟用户对象输出，可以按照上述用户选定的方式。在本实施例中，用户无需为每个下文会话消息指定具体的虚拟用户对象，只需指定所需虚拟用户对象的角色类型，终端根据角色类型自动为相应下文会话消息分配对应的目标虚拟用户对象。目标虚拟用户对象是指预存储的多个虚拟用户对象中，与输出相应下文会话消息所需用户的性别、年龄等相匹配的虚拟用户对象。

上述实施例中，同一会话任务支持用户与多个虚拟用户对象通信交流，进一步提高了会话任务灵活性。

在一个实施例中，上述会话任务生成方法还包括：当获取到会话任务处理指令时，展示会话任务对应的会话页面；获取基于会话页面产生的输入会话消息；确定针对输入会话消息所属会话对指定的目标虚拟用户对象；触发目标虚拟用户对象进行基于输入会话消息的业务处理，得到应答会话语音；通过目标虚拟用户对象回复应答会话语音。

当执行会话任务时，终端展示会话页面，并在会话页面展示会话背景。在了解会话背景后，用户可以在会话页面输入执行当前顺序会话对步骤所需的会话消息(记作输入会话消息)。终端确定针对当前顺序会话对所指定的目标虚拟用户对象，触发目标虚拟用户对象根据输入会话消息确定相应的应答会话文本，并按照该目标虚拟用户对象所对应的音色类别将应答会话文本转换为应答会话语音，通过该目标虚拟用户对象输出应答会话语音，以回复输入会话消息。

在上述实施例中，同一会话任务支持用户与多个虚拟用户对象通信交流，达到多人会话效果；在多人会话中，通过不同虚拟用户对象即可回复获取到的应答会话消息，相应了模拟会话诉求，实现了用户与虚拟用户对象之间灵活且智能的交互，由此能够实现虚拟用户对象在多人会话中有针对性的响应用户，使得交互方式更灵活方便。

在一个实施例中，触发目标虚拟用户对象进行基于输入会话消息的业务处理，得到应答会话语音包括：确定会话组件的组件类型；当组件类型为第一类型，输入会话消息包括会话图片时，触发目标虚拟用户对象提取会话图片的图形特征；根据图形特征，确定与会话图片相应的类别标签文本；将图形特征和相应的类别标签文本进行融合，得到综合特征；基于综合特征确定输入会话消息的会话意图；获取所属会话对中每个上文会话消息对应的意图标签；将意图标签与会话意图相匹配的上文会话消息所对应的下文会话语音，作为应答会话消息。

其中，目标类型包括第一类型和第二类型。第一类型是指意图会话组件类型。第二类型是指评分会话组件类型。对于目标类型的会话对，其包括多个上文会话消息以及每个上文会话消息对应的下文会话消息。每个上文会话消息与对应的下文会话消息形成一个分支会话对。从而目标类型的会话对包括多个分支会话对。后续，根据用户输入会话消息与哪一上文会话消息想近似，则跳转至相应分支会话对。

具体地，若当前顺序会话对为意图会话类型，终端按照预置的意图识别策略识别输入会话消息的会话意图。或者，终端将输入会话消息发送至服务器，由服务器按照预置的意图识别策略识别输入会话消息的会话意图。本实施例预置了规则匹配和模型识别等多种意图识别策略，可以根据需求在不同情况下采用不同的意图识别策略识别输入会话消息的意图。

规则匹配可以是通过识别输入会话消息中是否存在预设的能够表征某种会话意图的关键词进行意图识别的方式。模型识别可以是预训练的机器学习模型进行意图识别的方式。每种意图识别策略具有对应的使用条件。使用条件可以是输入会话消息的一项或多项指标分别达到阈值。其中，指标具体包括消息数据量、当前会话对的意图层级、所属业务场景等。消息数据量可以根据所包含文本长度或者所涉及图片大小等确定。比如，当输入会话消息的消息数据量大，或意图层级比较低的时候，可以优先采用规则匹配。

当输入会话消息包含输入图片时，可以基于预训练的第一模型提取会话图片特征。第一模型具体可以是卷积神经网络模型，比如ResNet-80。通过卷积神经网络的卷积层对会话图片进行卷积处理，提取会话图片的feature map(特征图)，即本实施例中的图片特征。

计算机设备根据图形特征确定与会话图片相应的类别标签文本。其中，类别标签文本是会话图片所属的类别对应的标签文本。具体地，计算机设备可通过第一模型提取图形特征，再对提取的图形特征进行分类处理，得到会话图片的类别，进而确定会话图片相应的类别标签文本。在一个实施例中，第一模型具体可以是卷积神经网络模型。计算机设备可将会话图片输入至卷积神经网络模型中，以提取会话图片的图形特征。再通过池化层和全连接层对图形特征进行处理，得到会话图片所属类别的概率值。将最大概率值所对应的类别标签作为与下文会话图片相应的类别标签。

计算机设备将图形特征和相应的类别标签文本进行融合，得到综合特征。终端基于预训练的自然语言模型提取类别标签文本的文本特征，并将图形特征与文本特征进行跨模态融合。其中，跨模态融合是将具有不同模态的数据进行融合。在本实施例中，不同模态的数据具体是指与会话图片对应的图形特征、以及与类别标签文本对应的文本数据。具体地，计算机设备可将提取的图形特征和相应的类别标签文本映射至同一空间内的数据，再对映射后的数据进行融合处理，得到综合特征。

在一个实施例中，通过第一模型提取会话图片的图形特征。计算机设备可通过循环神经网络提取类别标签文本的文本特征。其中，图形特征和文本特征的表现形式都可以是向量形式。计算机设备在对图形特征和文本特征进行融合之前，可将图形特征和文本特征分别转换成标准形式，使两者的特征向量都处于同一范围内。比如，可分别对图形特征和文本特征进行归一化处理。常用的归一化算法有函数法和概率密度法。其中，函数法，比如最大-最小函数、均值-方差函数(将特征都归一化到了一个一致的区间，比如均值为0，方差为1的区间)或双曲sigmoid(S型生长曲线)函数等。

进一步地，计算机设备可对归一化处理后的图形特征和相应的类别标签文本对应的文本特征，执行融合操作，得到综合特征。其中，将图形特征和文本特征进行融合的算法具体可采用基于贝叶斯决策理论的算法、基于稀疏表示理论的算法或基于深度学习理论算法等。或者，计算机设备可对归一化处理后的两个向量进行加权求和，已将图形特征和文本特征进行融合，得到综合特征。

计算机设备基于综合特征对输入会话消息进行意图识别。具体地，计算机设备通过第二模型处理综合特征，输出得到会话图片的会话意图，比如识别会话图片中的物体、理解物体间的关系等。会话意图具体可以一个词、一个整句或段落文本等的形式表征。第二模型具体可以是循环神经网络模型，如LSTM模型。

在一个实施例中，基于综合特征对会话消息进行意图识别包括：获取与会话图片对应的意图预描述文本；基于意图预描述文本各个词向量，生成会话图片的预测特征；将综合特征以及预测特征输入预训练模型，输出得到绘图图片的会话意图。

其中，意图预描述文本是预先对会话图片进行描述的文本。意图预描述文本具体可以是认为对会话图片进行理解后，得到的初始的较为粗糙的描述文本。

在一个实施例中，计算机设备可获取与会话图片对应的意图预描述文本，并获取意图预描述文本的各个词向量。计算机设备可以采用编码-解码的方式，将综合特征作为第一时刻输入，将各个词向量分别作为后续时刻的输入，通过第二模型处理依次输入的综合特征和词向量，输出会话消息的会话意图。这样，第二模型可以结合综合特征和意图预描述文本，使得输出的会话意图更贴合会话图片所表达真实意图，大大提高了图形理解信息的准确性。

上述会话意图识别方法，根据提取得到的会话图片的图形特征，可以快速准确地获得会话图片相应的类别标签文本。将图形特征和相应的类别标签文本进行跨模态融合，得到综合特征，再根据综合特征，识别得到会话消息的会话意图。这样，可以使得在意图识别过程中既能充分利用会话图片本身的图形特征，又能结合会话图片所属的类别信息。这样细致且充分地利用了会话图片的特征，在对会话图片进行理解时，得到了图形特征和类别标签文本的双重指导，大大提高了会话图片理解信息的准确性。

进一步地，会话任务中预先配置的每个上文会话消息具有对应的意图标签。通过比对意图标签和输入会话消息的会话意图，可以确定与输入会话消息相匹配的上文会话消息。终端获取想匹配的上文会话消息对应的下文会话语音作为应答会话消息。如图3所示，“意图会话”会话对包括两个会话分支。当用户输入会话消息所表达意图为“推荐产品”时，走向一个会话分支流，虚拟用户对象输出应答会话消息“都那么熟的朋友了，没关系的，不用跟我讲这些”。当用户输入会话消息所表达意图为“送礼物”时，走向另一个会话分支流，虚拟用户对象输出应答会话消息“好啊！”。

上述实施例，基于图形特征和文本特征跨模态融合得到的综合特征，进行意图识别，可以使得在意图识别过程中既能充分利用会话图片本身的图形特征，又能结合会话图片所属的类别信息，得到了图形特征和类别标签文本的双重指导，大大提高了输入会话消息意图识别准确性。

在一个实施例中，上述会话任务生成方法还包括：当组件类型为第二类型，输入会话消息包括会话图片时，触发目标虚拟用户对象识别会话图片的绘图轨迹；将会话图片中绘图轨迹经过的像素点的像素值确定为第一像素值，绘图轨迹未经过的像素点的像素值确定为第二像素值；提取完成像素值更新的会话图片中每个绘图笔画的图形特征；对多个绘图笔画的图形特征进行融合，得到会话图片的序列特征；计算会话图片的序列特征与当前会话分支中上文会话消息所对应参考讲解图的序列特征的相似度；将相似度最高的上文会话消息所对应的下文会话语音，作为应答会话消息。

若当前顺序会话对评分会话，采用预训练的自然语言处理模型提取输入会话消息的语义特征，将该语义特征与当前顺序会话对中预置的每个上文会话消息的语义特征进行比较，得到语义相似度。筛选语义相似度最高的上文会话消息对应的下文会话语音作为应答会话消息。

若当前顺序会话对的输入方式为“图文讲解”，则用户需要输入会话图片，并对会话图片作出解释讲解。终端在会话页面展示绘图讲解提示，并展示绘图页面。用户可以在绘图页面绘制会话图片。绘图页面可以是会话窗口中的会话消息录入区域，也可以是区别于会话窗口的其他页面。

终端对会话图片的绘制过程进行跟踪。具体地，会话应用进行讲解步骤提示，即提示用户当前应当绘制哪一讲解步骤对应的局部的步骤图，每个步骤图可能对应多个绘图笔画和标注文本。绘图笔画可以通过停顿时间和是否离开屏幕来判定。当绘制完当前顺序的步骤图之后，根据对“下一步”按钮的触发操作，进行下一顺序讲解步骤提示。在不同的业务场景，所需绘制的会话图片的类型可以不同，比如，在产品销售场景，会话图片的类型可以是草帽图、爬坡图、钢丝图等。

终端将会话图片中绘图轨迹经过的像素点的像素值确定为第一像素值，绘图轨迹未经过的像素点的像素值确定为第二像素值。终端提取完成像素值更新的会话图片中每个绘图笔画的图形特征。

在一个实施例中，根据绘图轨迹，确定会话图片中每个绘图笔画的图形特征包括：将会话图片缩放至标准大小；根据绘图轨迹，更新标准大小的会话图片中每个像素点的像素值；提取完成像素值更新的下文会话图片中每个绘图笔画的图形特征。

每当监听到一个讲解步骤的步骤图绘制完成，终端提取每个步骤图的图形特征，并根据提取的图形特征对会话图片评分；或将每个步骤图发送至服务器，由服务器进行图形特征提取并根据提取的图形特征对会话图片评分。或者，在整个会话图片绘制完成时，终端或服务器按照上述方式提取每个步骤图的图形特征，并根据提取的图形特征对会话图片评分。

不同用户采用的第一终端的尺寸可能不同，使得绘制的会话图片的画布尺寸不同。计算机设备将当前的步骤图缩放至标准大小，使压缩后的每个步骤图具有相同数量的像素点。标准大小是指指定的图片尺寸。

计算机设备将获取到的每个步骤图缩放至标准大小后，根据绘图轨迹，更新标准大小的步骤图中每个像素点的像素值，对步骤图中绘图轨迹未经过的像素点(多余点)过滤、通过缩放及像素值更新可以实现坐标归一化及步骤图重绘。

在一个实施例中，根据绘图轨迹，更新标准大小的下文会话图片中每个像素点的像素值包括：将标准大小的会话图片中绘图轨迹经过的像素点的像素值更新为第一像素值；将标准大小的会话图片中绘图轨迹未经过的像素点的像素值更新为第二像素值。

计算机设备将更新为标准大小的当前步骤图中绘图轨迹未经过的像素点的像素值更新为第一像素值，将绘图轨迹经过的像素点的像素值更新为第二像素值。第一像素值与第二像素值为不同的像素数值，通过不同的像素值对绘图轨迹经过与未经过的像素点进行区分。

进一步地，计算机提取已缩放至标准大小并更新了像素值的步骤图的图形矢量信息。图形矢量信息可以是一条JSON(JavaScript Object Notation,JS对象)数据。JSON数据包括文本字段testing和绘画字段drawing。例如，Json{"drawing":[

[

x1:[167,109,80,69,58,31,57,117,99,52,30,6,1,2,66,98,253],

y1:[140,194,227,232,229,229,206,124,123,149,157,159,153,110,82,77,74]

],

[

x2:[207,207,210,221,238],

y2:[74,103,114,128,135]

],

[

x3:[119,107,76,70,49,39,60,93],

y3:[72,41,3,0,1,5,38,70]

]]

}

步骤图有一个或多个绘图笔画构成，每个绘图笔画由多个坐标连续的像素点组成。从而，绘画字段包括相应步骤图中每个绘图笔画对应各个像素点的横坐标x和纵坐标y。比如，上例(x1，y1)为一个绘图笔画中各个像素点的坐标，x2，y2)为另一个绘图笔画中各个像素点的坐标。

计算机设备将图形矢量信息输入图形特征提取模型，得到相应步骤图对应的序列特征。其中，图形特征提取模型包括lenet模型(卷积神经网络模型)和序列模型。lenet模型包括卷积层、池化层和全连接层。计算机设备将图形矢量信息输入卷积层进行卷积运算，将卷积层输出的第一特征矩阵输入池化层进行归一化运算，得到由第一特征矩阵中每个特征向量中最大权重投影得到的第二特征矩阵。计算机设备将第二特征矩阵输入全连接层进行分类运算，得到每个分类对应的图形特征。图形特征具体可以是计算机设备从会话图片中提取出的可以表示图片的形状或空间关系等数据，得到图片的“非图片”的表示或描述，如数值、向量或符号等。

计算机设备对多个绘图笔画的图形特征进行融合，得到会话图片的序列特征。具体地，计算机设备调用序列模型对图形特征进行编码，得到相应步骤图的序列特征。序列模型可以是循环神经网络模型，包括3层卷积层、2层LSTM层和Softmax分类层。容易理解，卷积层与LSTM层的数量可以根据需求动态确定。卷积层用于在保证图形特征信息完整的情况下，减少图形特征数据量。LSTM层用于结合前一笔画的图形特征和当前笔画的图形特征计算当前笔画的序列特征。LSTM层包括遗忘门、输入门和输出门。通过遗忘门对前一顺序绘图笔画的图形特征进行遗忘处理，通过输入门对当前顺序绘图笔画对应的图形特征进行更新，通过输出门对遗忘处理后得到的图形特征以及更新得到的图形特征进行运算，得到当前顺序绘图笔画对应的序列特征。

Softmax分类层用于将多个绘图笔画的序列特征进行特征融合，得到相应步骤图的序列特征。具体地，计算机设备可以将具有相同维度的多个绘图笔画的序列特征映射至同一空间内的数据，再对映射后的数据进行融合处理，得到综合特征。特征融合的算法具体可采用向量拼接的方式。容易理解，计算机设备也可以基于贝叶斯决策理论的算法、基于稀疏表示理论的算法或基于深度学习理论算法等将多个序列特征进行融合，得到整个会话图片的序列特征。

如上文，会话任务中每个会话对预置了作为参考的多种上文会话消息。当某组会话对的输入方式为“图文讲解”时，对应上文会话消息为参考讲解图。参考讲解图的序列特征可以是每次需要用到时临时动态计算得到的，减少对计算机设备存储资源的占用。参考讲解图的序列特征也可以是预先计算并存储在计算机设备的，提高序列特征获取效率，进而提高相应讲解图进行评分的效率。

计算机设备基于相似度计算模型计算会话图片的序列特征与相应参考讲解图的序列特征的相似度。其中，相似度计算模型可以是孪生神经网络模型(siamese network)。容易理解，计算机设备也可以采用其他方法计算下文会话图片的序列特征与相应参考讲解图的序列特征的相似度，对此不作限制。计算机设备将相似度作为会话图片的评分，或者按照预设逻辑对相似度进行数值换算，得到会话图片的评分。

在一个实施例中，会话图片由多个步骤图按照绘制时间顺序拼接得到；对多个绘图笔画的图形特征进行融合，得到会话图片的序列特征包括：对当前顺序步骤图中多个绘图笔画的图形特征进行融合，得到当前顺序步骤图的序列特征；当监听到下一顺序步骤图时，将下一顺序步骤图作为当前顺序步骤图进行迭代，直至最后顺序步骤图；对多个步骤图的序列特征进行融合，得到会话图片的序列特征。

计算机设备在按照上述方式提取得到构成会话图片中每个步骤图的序列特征后，对多个步骤图的序列特征进行融合，得到会话图片的序列特征，根据会话图片的序列特征与参考讲解图的序列特征的相似度，对会话图片进行评分。

在另一个实施例中，计算机设备也可以在提取得到每个步骤图的序列特征后，根据该步骤图的序列特征与参考讲解图中相应讲解步骤的局部图的序列特征的相似度，及时对当前步骤图进行评分，最后根据全部步骤图的评分计算整个会话图片的评分。

通过对绘图轨迹进行跟踪，可以按照绘图笔画进行图形特征提取，不仅可以实现对绘图格式的会话消息进行监控，还可以细化图形特征提取粒度，有助于提高所提取图形特征的准确性，继而有助于提高会话任务按照预设的评分跳转规则稳定执行。

上述实施例中，通过对会话图片绘制轨迹进行跟踪，并将对多个绘图笔画的图形特征进行融合，不仅可以实现对图片格式的会话消息进行评分，还可以细化图形特征提取粒度，有助于提高所提取图形特征的准确性，继而有助于提高会话评分结果准确性。

应该理解的是，虽然图2的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图4所示，提供了一种会话任务生成装置，包括：背景确定模块402、组件构建模块404、组件转化模块406和组件拼接模块408，其中：

背景确定模块402，用于确定待生成会话任务的会话背景；待生成会话任务包括多个会话对。

组件构建模块404，用于当发生会话组件拖拽操作时，获取基于被拖拽会话组件所添加的相应会话对的上文会话消息和下文会话文本。

组件转化模块406，用于将下文会话文本转化为与会话背景相匹配的下文会话语音。

组件拼接模块408，用于对包含上文会话消息及下文会话文本的多个会话组件进行拼接，得到会话任务。

在一个实施例中，组件转化模块406还用于根据会话背景确定待生成会话任务所需虚拟用户对象的数量以及每个虚拟用户对象的角色类型；确定针对当前会话对指定的目标虚拟用户对象；按照目标虚拟用户对象的角色类型所匹配的音色类别，将下文会话文本转换为下文会话语音。

在一个实施例中，组件拼接模块408，用于根据多个会话组件的相对位置关系，确定相应多个会话对之间的执行顺序；根据执行顺序对包含上文会话消息及下文会话文本的多个会话组件进行拼接。

在一个实施例中，上述装置还包括任务执行模块410，用于当获取到会话任务处理指令时，展示会话任务对应的会话页面；获取基于会话页面产生的输入会话消息；确定针对输入会话消息所属会话对指定的目标虚拟用户对象；触发目标虚拟用户对象进行基于输入会话消息的业务处理，得到应答会话语音；通过目标虚拟用户对象回复应答会话语音。

在一个实施例中，任务执行模块410还用于确定会话组件的组件类型；组件类型为目标类型的会话对包括多个上文会话消息及每个上文会话消息对应的下文会话语音；当组件类型为第一类型，输入会话消息包括会话图片时，触发目标虚拟用户对象提取会话图片的图形特征；根据图形特征，确定与会话图片相应的类别标签文本；将图形特征和相应的类别标签文本进行融合，得到综合特征；基于综合特征确定输入会话消息的会话意图；获取所属会话对中每个上文会话消息对应的意图标签；将意图标签与会话意图相匹配的上文会话消息所对应的下文会话语音，作为应答会话消息。

在一个实施例中，任务执行模块410还用于当组件类型为第二类型，输入会话消息包括会话图片时，触发目标虚拟用户对象识别会话图片的绘图轨迹；将会话图片中绘图轨迹经过的像素点的像素值确定为第一像素值，绘图轨迹未经过的像素点的像素值确定为第二像素值；提取完成像素值更新的会话图片中每个绘图笔画的图形特征；对多个绘图笔画的图形特征进行融合，得到会话图片的序列特征；计算会话图片的序列特征与当前会话分支中上文会话消息所对应参考讲解图的序列特征的相似度；将相似度最高的上文会话消息所对应的下文会话语音，作为应答会话消息。

关于会话任务生成装置的具体限定可以参见下文中对于会话任务生成方法的限定，在此不再赘述。上述会话任务生成装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图5所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种会话任务生成方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图5中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现本申请任意一个实施例中提供会话任务生成方法的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种会话任务生成方法，所述方法包括：

确定待生成会话任务的会话背景；所述待生成会话任务包括多个会话对；所述会话背景，是指任务执行者在执行会话任务时需要了解的背景信息；

当发生会话组件拖拽操作时，获取基于被拖拽会话组件所添加的相应会话对的上文会话消息和下文会话文本；

将所述下文会话文本转化为与所述会话背景相匹配的下文会话语音；

对包含所述上文会话消息及所述下文会话文本的多个会话组件进行拼接，

根据多个会话组件的相对位置关系，确定相应多个会话对之间的执行顺序；

根据所述执行顺序对包含所述上文会话消息及所述下文会话文本的多个会话组件进行拼接，得到所述会话任务。

2.根据权利要求1所述的方法，其特征在于，所述将所述下文会话文本转化为与所述会话背景相匹配的下文会话语音包括：

根据所述会话背景确定所述待生成会话任务所需虚拟用户对象的数量以及每个虚拟用户对象的角色类型；

确定针对当前会话对指定的目标虚拟用户对象；

按照所述目标虚拟用户对象的角色类型所匹配的音色类别，将所述下文会话文本转换为下文会话语音。

3.根据权利要求1所述的方法，其特征在于，在得到所述会话任务之后，所述方法还包括：

当获取到会话任务处理指令时，展示所述会话任务对应的会话页面；

获取基于所述会话页面产生的输入会话消息；

确定针对所述输入会话消息所属会话对指定的目标虚拟用户对象；

触发所述目标虚拟用户对象进行基于所述输入会话消息的业务处理，得到应答会话语音；

通过所述目标虚拟用户对象回复所述应答会话语音。

4.根据权利要求3所述的方法，其特征在于，所述触发所述目标虚拟用户对象进行基于所述输入会话消息的业务处理，得到应答会话语音包括：

确定所述会话组件的组件类型；

当所述组件类型为意图会话组件类型，所述输入会话消息包括会话图片时，触发所述目标虚拟用户对象提取所述会话图片的图形特征；

根据所述图形特征，确定与所述会话图片相应的类别标签文本；

将所述图形特征和相应的类别标签文本进行融合，得到综合特征；

基于所述综合特征确定所述输入会话消息的会话意图；

获取所属会话对中每个上文会话消息对应的意图标签；

将意图标签与所述会话意图相匹配的上文会话消息所对应的下文会话语音，作为应答会话消息。

5.根据权利要求4所述的方法，其特征在于，所述方法还包括：

当所述组件类型为评分会话组件类型，所述输入会话消息包括会话图片时，触发所述目标虚拟用户对象识别所述会话图片的绘图轨迹；

将所述会话图片中绘图轨迹经过的像素点的像素值确定为第一像素值，绘图轨迹未经过的像素点的像素值确定为第二像素值；

提取完成像素值更新的会话图片中每个绘图笔画的图形特征；

对多个绘图笔画的图形特征进行融合，得到所述会话图片的序列特征；

计算所述会话图片的序列特征与当前会话分支中上文会话消息所对应参考讲解图的序列特征的相似度；

将所述相似度最高的上文会话消息所对应的下文会话语音，作为应答会话消息。

6.一种会话任务生成装置，其特征在于，所述装置包括：

背景确定模块，用于确定待生成会话任务的会话背景；所述待生成会话任务包括多个会话对；所述会话背景，是指任务执行者在执行会话任务时需要了解的背景信息；

组件构建模块，用于当发生会话组件拖拽操作时，获取基于被拖拽会话组件所添加的相应会话对的上文会话消息和下文会话文本；

组件转化模块，用于将所述下文会话文本转化为与所述会话背景相匹配的下文会话语音；

组件拼接模块，用于根据多个会话组件的相对位置关系，确定相应多个会话对之间的执行顺序；根据所述执行顺序对包含所述上文会话消息及所述下文会话文本的多个会话组件进行拼接，得到所述会话任务。

7.根据权利要求6所述的装置，其特征在于，所述组件转化模块还用于根据所述会话背景确定所述待生成会话任务所需虚拟用户对象的数量以及每个虚拟用户对象的角色类型；确定针对当前会话对指定的目标虚拟用户对象；按照所述目标虚拟用户对象的角色类型所匹配的音色类别，将所述下文会话文本转换为下文会话语音。

8.根据权利要求6所述的装置，其特征在于，所述装置还包括任务执行模块，用于在得到所述会话任务之后，当获取到会话任务处理指令时，展示所述会话任务对应的会话页面；获取基于所述会话页面产生的输入会话消息；确定针对所述输入会话消息所属会话对指定的目标虚拟用户对象；触发所述目标虚拟用户对象进行基于所述输入会话消息的业务处理，得到应答会话语音；通过所述目标虚拟用户对象回复所述应答会话语音。

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至5中任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至5中任一项所述的方法的步骤。