CN110148406B

CN110148406B - 一种数据处理方法和装置、一种用于数据处理的装置

Info

Publication number: CN110148406B
Application number: CN201910295565.XA
Authority: CN
Inventors: 樊博; 孟凡博; 刘恺; 段文君; 陈汉英; 陈曦; 陈伟; 王砚峰
Original assignee: Beijing Sogou Technology Development Co Ltd; Sogou Hangzhou Intelligent Technology Co Ltd
Current assignee: Beijing Sogou Technology Development Co Ltd
Priority date: 2019-04-12
Filing date: 2019-04-12
Publication date: 2022-03-04
Anticipated expiration: 2039-04-12
Also published as: CN110148406A

Abstract

本发明实施例提供了一种数据处理方法和装置、一种用于数据处理的装置，其中的方法用于问答交互的处理，具体包括：确定目标实体图像对应的目标语音序列和目标图像序列；所述目标图像序列对应的模式包括：倾听模式、或者回答模式；在问题的输入过程中，所述目标图像序列对应的模式为倾听模式；或者，在问题的输入完成后，所述目标图像序列对应的模式为回答模式；对所述目标语音序列和所述目标图像序列进行融合，得到对应的目标视频，以向用户输出所述目标视频。本发明实施例可以节省人力成本，可以提高相关行业的工作效率，且可以提高视频交互场景下目标图像序列的智能性。

Description

一种数据处理方法和装置、一种用于数据处理的装置

技术领域

本发明涉及计算机技术领域，特别是涉及一种数据处理方法和装置、一种用于数据处理的装置。

背景技术

随着通信技术的发展，用户通过网络进行通信成为重要手段。目前，视频客服可以实现远程“面对面”的客服服务，可以在客服人员与客户之间实现语音和视频的畅通交流；视频客服可以应用于电子商务网站、企业网站、远程教育、培训网站，视频购物、视频导购、网站监视等应用场景。

在实际应用中，视频客服需要耗费客服人员较多的人力成本，使得客服行业的工作效率较低。

发明内容

鉴于上述问题，本发明实施例提出了一种克服上述问题或者至少部分地解决上述问题的数据处理方法、数据处理装置及用于数据处理的装置，本发明实施例可以节省人力成本，可以提高相关行业的工作效率，且可以提高视频交互场景下目标图像序列的智能性。

为了解决上述问题，本发明公开了一种数据处理方法，用于问答交互的处理，所述方法包括：

确定目标实体图像对应的目标语音序列和目标图像序列；所述目标图像序列对应的模式包括：倾听模式、或者回答模式；在问题的输入过程中，所述目标图像序列对应的模式为倾听模式；或者，在问题的输入完成后，所述目标图像序列对应的模式为回答模式；

对所述目标语音序列和所述目标图像序列进行融合，得到对应的目标视频，以向用户输出所述目标视频。

另一方面，本发明公开了一种数据处理装置，用于问答交互的处理，所述装置包括：

确定模块，用于确定目标实体图像对应的目标语音序列和目标图像序列；所述目标图像序列对应的模式包括：倾听模式、或者回答模式；在问题的输入过程中，所述目标图像序列对应的模式为倾听模式；或者，在问题的输入完成后，所述目标图像序列对应的模式为回答模式；以及

融合模块，用于对所述目标语音序列和所述目标图像序列进行融合，得到对应的目标视频，以向用户输出所述目标视频。

再一方面，本发明公开了一种用于数据处理的装置，用于问答交互的处理，所述装置包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

本发明实施例包括以下优点：

本发明实施例的目标语音序列可以与目标发声体的音色相匹配，目标图像序列可以在目标实体图像的基础上得到，由此可以在视频交互过程中、通过得到的目标视频实现由目标实体图像按照目标发声体的音色进行交互；由于上述目标视频可由机器生成，故相对于人工方式的视频客服，可以节省人力成本，且可以提高相关行业的工作效率。

并且，本发明实施例中，在问题的输入过程中，所述目标图像序列对应的模式为倾听模式；或者在问题的输入完成后，所述目标图像序列对应的模式可以为回答模式；因此可以提高视频交互场景下目标图像序列的智能性。

附图说明

图1是本发明的一种数据处理方法实施例一的步骤流程图；

图2是本发明的一种模式切换方法的步骤流程图；

图3是本发明的一种数据处理方法实施例二的步骤流程图；

图4是本发明的一种数据处理装置实施例的结构框图；

图5是本发明的一种用于数据处理的装置作为设备时的结构框图；及

图6是本发明的一些实施例中服务端的结构框图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

针对视频客服需要耗费客服人员较多的人力成本的技术问题，本发明实施例提供了一种通过机器生成目标视频的方案，该方案用于问答交互的处理，具体可以包括：确定目标实体图像对应的目标语音序列和目标图像序列；所述目标图像序列对应的模式具体可以包括：倾听模式、或者回答模式；在所述问题的输入过程中，所述目标图像序列对应的模式为倾听模式；或者，在所述问题的输入完成后，所述目标图像序列对应的模式为回答模式；对所述目标语音序列和所述目标图像序列进行融合，得到对应的目标视频，以向用户输出所述目标视频。

本发明实施例可以应用于视频交互场景中，用于节省人力成本。视频交互场景可以包括：视频会议场景、视频客服场景等。视频客服可以应用于电子商务网站、企业网站、远程教育、培训网站，视频购物、视频导购、网站监视等应用场景。

本发明实施例的目标图像序列可以在目标实体图像的基础上得到，换言之，本发明实施例可以为目标实体图像赋予模式对应的图像特征(实体状态特征)，以得到目标图像序列。

本发明实施例中，目标图像序列对应的模式可以包括：回答模式、或者倾听模式，可以提高视频交互场景下目标图像序列的智能性。

回答模式可以指通过目标视频回答问题的模式，其可以对应第一实体状态。在回答模式下，目标视频对应的目标实体图像可以通过目标语音序列朗读问题对应的答案文本，并通过目标图像序列对应的第一实体状态表达朗读答案文本的过程中的情感。

倾听模式可以指倾听用户输入问题的模式，其可以对应第二实体状态。在倾听模式下，目标视频对应的目标实体图像可以通过目标图像序列对应的第二实体状态表达倾听过程中的情感。第二实体状态可以包括：点头特征等。可选地，在倾听模式下，还可以通过目标语音序列表达“嗯”、“请继续”等倾听状态文本。

本发明实施例中，在所述问题的输入过程中，所述目标图像序列对应的模式为倾听模式；或者在所述问题的输入完成后，所述目标图像序列对应的模式可以为回答模式。

本发明实施例可以依据问题是否输入完成，对目标图像序列对应的模式进行切换。可选地，若在预设时长内未接收到用户的输入，可以认为问题的输入完成。

在实际应用中，可以利用TTS(语音合成，Text To Speech)技术，将文本转换为目标语音序列对应的目标语音，目标语音序列可以表征为波形的形式。可以理解，可以按照语音合成参数，得到符合需求的目标语音序列。

可选地，语音合成参数可以包括：音色参数、音高参数和响度参数中的至少一种。

其中，音色参数可以指不同的声音的频率表现在波形方面的与众不同的特性，通常不同的发声体对应不同的音色，因此可以按照音色参数，得到与目标发声体的音色相匹配的目标语音序列，目标发声体可由用户指定，例如，目标发声体可以为指定的媒体工作者等。在实际应用中，可以依据目标发声体的预设长度的音频，得到目标发声体的音色参数。

音高参数可以表征声调，用频率来衡量。响度参数，又称之为声强或音量，可以指声音的大小，用分贝(dB)衡量。

本发明实施例可以采用如下确定方式，确定目标语言特征对应的目标语音序列，其中，目标语言特征与问题相关文本相应：

确定方式1、在第一语音库中查找与目标语言特征相匹配的第一语音单元，对第一语音单元进行拼接，以得到目标语音序列。

确定方式2、确定目标语言特征对应的目标声学特征，在第二语音库中查找与目标声学特征相匹配的第二语音单元，对第二语音单元进行拼接，以得到目标语音序列。

声学特征可以从发声角度表征语音的特征。

声学特征可以包括但不限于如下特征：

韵律学特征(超音段特征/超语言学特征)，具体包括时长相关特征、基频相关特征、能量相关特征等；

音质特征；

基于谱的相关性分析特征，其是声道形状变化和发声运动之间相关性的体现，目前基于谱的相关特征主要包括：线性预测倒谱系数(LPCC，LinearPredictionCoefficients)、梅尔频率倒谱系数(MFCC，Mel Frequency CepstrumCoefficient)等。

确定方式3、采用端到端的语音合成方法，端到端的语音合成方法的源端可以包括：文本、或者文本对应的目标语言特征，目标端可以为波形形式的目标语音序列。

在本发明的一种可选实施例中，端到端的语音合成方法可以采用神经网络，该神经网络可以包括：单层RNN(循环神经网络，Recurrent Neural Network)和双层激活层，双层激活层用于预测16位语音输出。RNN的状态划分成两部分：第一(高8位)状态和第二(低8位)状态。第一状态和第二状态分别输入对应的激活层，第二状态是基于第一状态得到的，第一状态基于前一时刻的16位得到。该神经网络将第一状态和第二状态设计在一个网络结构中，可以加快训练速度和简化训练流程，故可以降低神经网络的运算量，进而可以使端到端的语音合成方法适用于运算资源有限的移动终端，如手机等。

可以理解，本领域技术人员可以根据实际应用需求，采用上述确定方式1至确定方式3中的任一或者组合，本发明实施例对于确定目标语言特征对应的目标语音序列的具体过程不加以限制。

目标图像序列可用于表征实体(entity)图像。实体是有可区别性且独立存在的事物，实体可以包括：人、机器人、动物、植物等。本发明实施例主要以人为例对目标图像序列进行说明，其他实体对应的目标图像序列相互参照即可。人对应的实体图像可以称为人像。

从实体状态角度而言，上述图像特征可以包括实体状态特征，实体状态特征可以反映图像序列在实体状态方面的特征。

可选地，上述实体状态特征可以包括如下特征中的至少一种：

表情特征；

唇部特征；以及

肢体特征。

表情，表达感情、情意，可以指表现在面部的思想感情。

表情特征通常是针对整个面部的。唇部特征可以专门针对唇部，而且跟文本的文本内容、语音、发音方式等都有关系，因此可以提高图像序列所对应表达的自然度。

肢体特征可以通过头、眼、颈、手、肘、臂、身、胯、足等人体部位的协调活动来传达人物的思想，形象地借以表情达意。肢体特征可以包括：转头、耸肩、手势等，可以提高图像序列所对应表达的丰富度。例如，说话时至少一个手臂自然下垂，不说话时至少一个手臂自然放在腹部等。

本发明实施例提供的数据处理方法可应用于客户端和服务端对应的应用环境中，客户端与服务端位于有线或无线网络中，通过该有线或无线网络，客户端与服务端进行数据交互。

可选地，客户端可以运行在终端上，上述终端具体包括但不限：智能手机、平板电脑、电子书阅读器、MP3(动态影像专家压缩标准音频层面3，Moving Picture ExpertsGroup Audio Layer III)播放器、MP4(动态影像专家压缩标准音频层面4，Moving PictureExperts Group Audio Layer IV)播放器、膝上型便携计算机、车载电脑、台式计算机、机顶盒、智能电视机、可穿戴设备等等。

客户端是指与服务端相对应，为用户提供本地服务的程序。本发明实施例中的客户端可以提供目标视频，目标视频可由客户端或服务端生成，本发明实施例对于具体的客户端不加以限制。

在本发明的一种实施例中，客户端可以通过人机交互操作，确定用户选择的目标发声体信息和目标实体图像信息，并向服务端上传目标发声体信息和目标实体图像信息，以使服务端生成目标发声体和目标实体图像对应的目标视频；并且，客户端可以向用户输出该目标视频。

方法实施例一

参照图1，示出了本发明的一种数据处理方法实施例一的步骤流程图，用于问答交互的处理，具体可以包括如下步骤：

步骤101、确定目标实体图像对应的目标语音序列和目标图像序列；所述目标图像序列对应的模式可以包括：倾听模式、或者回答模式；在问题的输入过程中，所述目标图像序列对应的模式可以为倾听模式；或者，在问题的输入完成后，所述目标图像序列对应的模式可以为回答模式；

步骤102、对所述目标语音序列和所述目标图像序列进行融合，得到对应的目标视频，以向用户输出所述目标视频。

本发明实施例中，目标实体图像可由用户指定，例如，目标实体图像可以为目标实体的图像，目标实体可以包括：知名人物(例如主持人)，当然，目标实体可以为任意的实体，如机器人、或者普通人物等。

本发明实施例的目标发声体和目标实体可以相同，例如，用户上传了第一视频，第一视频中可以包括：目标发声体的语音和目标实体图像。或者，本发明实施例的目标发声体和目标实体可以不同，例如，用户上传了第二视频和第一音频，第二视频中可以包括：目标实体图像，第一音频中可以包括：目标发声体的语音。

在本发明的一种可选实施例中，可以依据衔接图像样本，对目标图像序列对应的模式进行切换，以提高切换的流畅性。

衔接图像样本可以包括：第一衔接图像样本。第一衔接图像样本可以包括：依次出现的倾听模式对应的图像样本、以及回答模式对应的图像样本，可以通过对第一衔接图像样本进行学习，得到从倾听模式到回答模式切换的规律，由此可以提高从倾听模式到回答模式切换的流畅性。

衔接图像样本可以包括：第二衔接图像样本。第二衔接图像样本可以包括：依次出现的回答模式对应的图像样本、以及倾听模式对应的图像样本，可以通过对第二衔接图像样本进行学习，得到从回答模式到倾听模式切换的规律，由此可以提高从回答模式到倾听模式切换的流畅性。

参照图2，示出了本发明的一种模式切换方法的步骤流程图，用于问答交互的处理，具体可以包括如下步骤：

步骤201、在倾听模式下，播放第一目标视频，并接收用户输入的问题；

第一目标视频可以对应倾听模式，其可以由第一目标语音序列和第一目标图像序列得到，第一目标图像序列可以对应倾听模式。

步骤202、判断问题是否输入完成，若是，则执行步骤203，否则返回步骤201；

步骤203、将目标图像序列对应的模式置为回答模式，并播放第二目标视频；

步骤204、在第二目标视频播放完毕后，将目标图像序列对应的模式置为倾听模式。

第二目标视频可以对应回答模式，其可以由第二目标语音序列和第二目标图像序列得到，第二目标图像序列可以对应回答模式。

可以理解，上述输出目标视频只是作为可选实施例，实际上，本发明实施例可以向用户输出所述目标视频的链接，以使用户确定是否播放上述目标视频。

可选地，本发明实施例还可以向用户输出所述目标语音序列、或者所述目标语音序列的链接。

可选地，本发明实施例还可以向用户输出问题相关文本。问题相关文本可以包括：答案文本、或者倾听状态文本。其中，答案文本可以对应回答模式，倾听状态文本可以对应倾听模式。

在本发明的一种可选实施例中，上述问答交互可以对应有通讯窗口，可以在通讯窗口中显示如下信息中的至少一种：目标语音序列的链接、问题答案文本、以及目标视频的链接。其中，目标视频的链接可被显示在通讯端的标识区域。标识区域可用于显示通讯端的昵称、ID(标识、Identity)、头像等信息。

在本发明的一种可选实施例中，步骤101确定目标实体图像对应的目标语音序列和目标图像序列，具体可以包括：依据问题相关文本，确定目标实体图像对应的目标语音序列和目标图像序列。

在实际应用中，用户输入的问题可以为语音形式或文本形式或图片形式。可以采用语音识别技术，将语音形式的问题转换为文本形式的问题。或者，可以采用光学字符识别技术，将图片形式的问题转换为文本形式的问题。

可选地，答案文本的确定过程可以包括：确定所述问题对应的第一表示向量；依据所述第一表示向量与预置问题对应的第二表示向量之间的匹配度，确定所述问题对应的目标预置问题；依据所述目标预置问题对应的答案，确定所述问题对应的答案。

本发明实施例可以依据问题对应的第一表示向量与预置问题对应的第二表示向量之间的匹配度，确定目标预置问题，进而依据所述目标预置问题对应的答案，确定问题对应的答案文本。

由于目标预置问题为已有问题，其对应的答案往往具有合理性和有效性，且目标预置问题与问题相匹配，因此可以将目标预置问题对应的答案，作为问题对应的答案的确定依据，进而可以提高问题对应的答案的准确度。

本发明实施例中，可选的是，可以通过知识库保存预置问题及其对应的答案。则可以将第一表示向量与知识库中预置问题对应的第二表示向量进行匹配，以得到对应的匹配度。

可选地，本发明实施例可以将文本转换成固定长度的向量表示，从而便于处理。第一表示向量可用于表示问题，第二表示向量可用于表示预置问题。第一表示向量或者第二表示向量的维度可以为一维或者二维或者三维。

第一表示向量或者第二表示向量的类型可以包括：独热码(one-hot)向量、词嵌入向量(WordEmbedding)、或者高级表示向量。word embedding，就是找到一个映射或者函数，生成在一个新的空间上的表达，该表达就是word representation。

在本发明的一种可选实施例中，第一表示向量的确定过程可以包括：确定问题对应的词嵌入向量，利用神经网络对词嵌入向量进行处理，以得到问题对应的高级表示向量。其中，利用神经网络对词嵌入向量进行处理，可以提取词嵌入向量的深层次特征，因此可以提高第一表示向量的丰富性。可选地，可以利用CNN(卷积神经网络，Convolutional NeuralNetwork)、或者LSTM(长短期记忆网络，Long Short-Term Memory)等神经网络，对词嵌入向量进行处理。对于第二表示向量的确定过程而言，由于其与第一表示向量的确定过程类似，故在此不作赘述，相互参照即可。

可以采用向量之间的相似性度量，确定所述第一表示向量与预置问题对应的第二表示向量之间的匹配度。上述相似性度量可以包括：夹角余弦、欧式距离等。

本发明实施例可以将匹配度最大的一个或者多个预置问题，作为目标预置问题。

在本发明的一种可选实施例中，所述问题对应的第一关键词与所述预置问题对应的第二关键词相匹配。由于知识库中预置问题的数量通常较多，故本发明实施例可以首先基于第一关键词与第二关键词之间的匹配，对知识库中预置问题进行筛选；然后，针对筛选通过的预置问题，确定目标预置问题。上述筛选可以降低运算量，进而可以提高运算速度。

在一种实施例中，可以基于第一关键词与第二关键词之间的匹配，对知识库中预置问题进行筛选，假设筛选通过的预置问题为第一预置问题；则可以依据所述第一表示向量与第一预置问题对应的第二表示向量之间的匹配度，确定所述问题对应的目标预置问题。其中，第一预置问题与问题对应的匹配情况可以包括：领域关键词相匹配、和/或、意图关键词相匹配、和/或、槽位关键词相匹配。

本发明实施例中，可选的是，所述问题对应的第一关键词具体可以包括：

领域关键词；和/或

意图关键词；和/或

槽位关键词。

本发明实施例中，领域可以指数据的范围。可选地，领域可以指数据的应用场景或者类别。领域可以包括但不限于：打印机、计算机、百科、新闻、音乐、视频、影视、游戏、体育、电商、教育学习、FM(调频，Frequency Modulation)、SMS(短消息服务，Short MessagingService)、控制、旅游、书籍、天气、图库等等。可以理解，可以对领域进行细分，以得到细分领域。例如，百科领域的细分领域可以包括：百科多义词分别对应的义项等。可选地，领域可以与对应的APP或者服务相关，本发明实施例对于具体的领域不加以限制。

本发明实施例可以从问题对应的文本中识别出领域关键词。可选地，可以对问题对应的文本进行分词，并将分词结果与领域关键词进行匹配。或者，可以利用分类模型，确定问题所属的领域。

上述分类模型可以为机器学习模型。从广义上讲，机器学习是一种能够赋予机器学习的能力，让它以此完成直接编程无法完成的功能的方法。但从实践的意义上讲，机器学习是一种通过利用数据，训练出模型，然后使用模型预测的一种方法。机器学习方法可以包括：决策树方法、线性回归方法、逻辑回归方法、神经网络方法、k近邻方法等，可以理解，本发明实施例对于具体的机器学习方法不加以限制。上述分类模型可以具有领域的分类能力。

意图(Intent)，是对用户表达的一句话的判断，判断用户希望完成什么样的任务。可选地，可以利用分类模型，确定问题对应的意图关键词。

槽位(Slot)是针对用户表达中、关键信息的定义。例如在订机票的表达中，槽位可以包括：“起飞时间”、“起始地”、“目的地”等。又如，在计算机故障的表达中，槽位可以包括：“蓝屏”等。

本发明实施例中，可选的是，可以利用意图提取技术，确定问题对应的意图关键词。可选地，可以利用槽位填充技术，确定问题对应的槽位关键词。在此不作赘述。

领域关键词、意图关键词和槽位关键词中的任一，均可以反映问题的信息，因此可以将领域关键词、意图关键词和槽位关键词中的任一或者组合，作为问题对应的第一关键词。

同理，第二关键词具体可以包括：

领域关键词；和/或

意图关键词；和/或

槽位关键词。

本发明实施例可以针对知识库中的预置问题，保存对应的第二关键词。

本发明实施例，文本可以涉及至少两种语言，如中文、日文、韩文、英文、法文、德文、阿拉伯文等语言中的至少两种等。则目标语音序列、以及目标图像序列也可以涉及至少两种语言，因此本发明实施例可以适用于多语言的视频交互场景。

例如，在视频客服场景，文本可以为用户输入的问题文本，该问题文本中可以包括：作为母语的第一语言和作为非母语的第二语言。例如，问题文本涉及计算机故障，问题文本可以包括：计算机故障对应的英文文本、以及用户归纳和总结的中文文本。

又如，在视频会议场景，文本可以为会议发言稿，该会议发言稿中可以包括：多语言用户对应的多种语言。

可以理解，涉及至少两种语言的文本可以应用于任意的视频交互场景，本发明实施例对于具体的视频交互场景不加以限制。

根据一种实施例，所述确定目标实体图像对应的回答目标语音序列和回答目标图像序列，具体可以包括：确定所述问题相关文本对应的目标语音序列；依据语音特征序列与图像特征序列之间的映射关系，确定所述目标语音序列对应的目标图像序列；所述映射关系中所述语音特征序列与所述图像特征序列在时间轴上对齐；所述映射关系为依据时间轴对齐的语音样本和图像样本得到。

语音特征序列可以包括：语言特征和/或声学特征。

语言特征可以包括：音素特征。音素是根据语音的自然属性划分出来的最小语音单位，依据音节里的发音动作来分析，一个动作构成一个音素。音素可以包括：元音与辅音。

声学特征可以从发声角度表征语音的特征。

声学特征可以包括但不限于如下特征：

音质特征；

本发明实施例可以依据时间轴对齐的语音样本和图像样本，得到语音特征序列与图像特征序列之间的映射关系。

语音特征序列与图像特征序列之间是有规律可循的。例如，特定的音素特征对应特定的唇部特征；又如，特定的韵律学特征对应特定的表情特征；或者，特定的音素特征对应特定的肢体特征等。

因此，本发明实施例可以依据时间轴对齐的语音样本和图像样本得到映射关系，以通过该映射关系反映语音特征序列与图像特征序列之间的规律。

该映射关系反映的语音特征序列与图像特征序列之间的规律，可以适用于任意的语言，因此可以适用于至少两种语言对应的文本。

本发明实施例可以利用端到端的机器学习方法，对时间轴对齐的语音样本和图像样本进行学习，以得到上述映射关系。端到端的机器学习方法的输入可以为语音序列，输出可以为图像序列，该方法可以通过训练数据的学习，得到输入的特征与输出的特征之间的规律。

从广义上讲，机器学习是一种能够赋予机器学习的能力，让它以此完成直接编程无法完成的功能的方法。但从实践的意义上讲，机器学习是一种通过利用数据，训练出模型，然后使用模型预测的一种方法。机器学习方法可以包括：决策树方法、线性回归方法、逻辑回归方法、神经网络方法等，可以理解，本发明实施例对于具体的机器学习方法不加以限制。

语音样本和图像样本在时间轴上的对齐，可以提高语音特征与图像特征之间的同步性。

在本发明的一种实施例中，所述语音样本和所述图像样本可以源自同一视频文件，由此可以实现语音样本和图像样本在时间轴上的对齐。例如，可以收集录制的视频文件，该视频文件中可以包括：发声体的语音和发声体的视频画面。

在本发明的另一种实施例中，语音样本和图像样本可以源自不同的文件，具体地，所述语音样本可以源自音频文件，所述图像样本可以源自视频文件或者图像文件，图像文件可以包括：多帧图像。此种情况下，可以对语音样本和图像样本进行时间轴对齐，以得到时间轴对齐的语音样本和图像样本。

可以理解，上述端到端的机器学习方法只是作为映射关系的确定方法的可选实施例，实际上本领域技术人员可以根据实际应用需求，采用其他方法，确定映射关系，如其他方法可以为统计方法等，本发明实施例对于映射关系的具体确定方法不加以限制。

本发明实施例的目标图像序列可以在目标实体图像的基础上得到，换言之，本发明实施例可以为目标实体图像赋予目标语音序列对应的图像特征(实体状态特征)，以得到目标图像序列。目标实体图像可由用户指定，例如，目标实体图像可以为知名人物(例如主持人)的图像。

综上，本发明实施例的目标语音序列对应的目标图像序列为依据映射关系得到，该映射关系反映的语音特征序列与图像特征序列之间的规律，可以适用于任意的语言，因此可以适用于至少两种语言对应的文本。

根据另一种实施例，所述确定目标实体图像对应的目标语音序列和目标图像序列，具体可以包括：确定问题相关文本对应的时长特征；依据所述时长特征，确定所述问题相关文本对应的目标语音序列；依据所述时长特征，确定所述问题相关文本对应的目标图像序列；所述目标图像序列为依据文本样本及其对应的图像样本得到。

文本特征序列与图像特征序列之间是有规律可循的。文本特征可以包括：音素特征、和/或、语义特征等。

音素是根据语音的自然属性划分出来的最小语音单位，依据音节里的发音动作来分析，一个动作构成一个音素。音素可以包括：元音与辅音。可选地，特定的音素特征对应特定的唇部特征、表情特征或者肢体特征等。

语义是待处理文本所对应的现实世界中的事物所代表的概念的含义，以及这些含义之间的关系，是待处理文本在某个领域上的解释和逻辑表示。可选地，特定的语义特征对应特定的肢体特征等。

因此，本发明实施例可以依据依据文本样本及其对应的图像样本，得到文本特征序列与图像特征序列之间的映射关系，以通过该映射关系反映文本特征序列与图像特征序列之间的规律。

文本样本对应的图像样本可以包括：表达文本样本(例如朗读文本样本)的情况下的多帧图像。文本样本对应的图像样本可被携带在视频样本中，或者，文本样本对应的图像样本可被携带在多帧图像中。上述图像样本可以对应有目标实体图像，目标实体图像可由用户指定，例如，目标实体图像可以为知名人物(例如主持人)的图像，当然，目标实体图像可以为任意实体的图像，如机器人、或者普通人物的图像。

上述文本样本可以包括：待处理文本涉及的所有语言，因此，依据上述文本样本及其图像样本得到的目标图像序列，可以适用于至少两种语言对应的待处理文本。

本发明实施例可以利用端到端的机器学习方法，对文本样本及其对应的图像样本进行学习，以得到上述映射关系。端到端的机器学习方法的输入可以为待处理文本，输出可以为目标图像序列，该方法可以通过训练数据的学习，得到输入的特征与输出的特征之间的规律。

本发明实施例中，目标语音序列和目标图像序列的确定过程中分别利用了待处理文本对应的时长特征，该时长特征可以提高目标语音序列和目标图像序列之间的同步性。

时长特征可用于表征文本所对应音素的时长。时长特征能够刻画出语音中的抑扬顿挫与轻重缓急，进而可以提高合成语音的表现力和自然度。可选地，可以利用时长模型，确定答案文本对应的时长特征。时长模型的输入可以为：带有重音标注的音素特征，输出为音素时长。时长模型可以为对带有时长信息的语音样本进行学习得到，本发明实施例对于具体的时长模型不加以限制。

不同语言的表达特征通常是不同的。上述表达特征可以包括：发声方法特征、用力与用气、以及唇部特征(如口型及口型姿态)等。例如，中文的发声方法特征可以包括：前口腔发声方法，口腔的前部比较用力，发声位置在口腔的前方。又如，中文的发声方法特征可以包括：后口腔发声方法，口腔的后部比较用力且比较开阔，发声位置在口腔的后部。

步骤103中，答案文本对应的目标图像序列为依据文本样本及其对应的图像样本得到，上述文本样本对应的语言可以包括：答案文本涉及的所有语言，因此，依据上述文本样本及其图像样本得到的目标图像序列，可以使目标图像序列对应的表达特征与答案文本对应的至少两种语言相适配。例如，上述待处理样本涉及第一语言和第二语言，上述文本样本涉及第一语言、第二语言和第三语言等。

在本发明的一种可选实施例中，确定所述答案文本对应的目标图像序列，具体可以包括：依据所述答案文本对应的目标文本特征序列、以及文本特征序列与图像特征序列之间的映射关系，确定目标文本特征序列对应的目标图像特征序列，进而可以确定目标图像特征序列对应的目标图像序列。

文本特征序列与图像特征序列之间的映射关系，可以反映文本特征序列与图像特征序列之间的规律。

文本特征可以包括：语言特征和时长特征。图像特征用于表征目标实体图像，其具体可以包括：前述的实体状态特征。

在本发明的一种可选实施例中，上述确定目标图像特征序列对应的目标图像序列，具体可以包括：对目标实体图像与目标图像特征序列进行合成，以得到目标图像序列，可以为目标实体图像赋予目标图像特征序列。

目标实体图像可由用户指定，例如，目标实体图像可以为知名人物(例如主持人)的图像。

目标实体图像可以不携带实体状态，对目标实体图像与目标图像特征序列进行合成，可以使目标图像序列携带有与文本相匹配的实体状态，进而可以提高目标视频中实体状态的自然度和丰富度。

本发明实施例中，可选的是，可以对目标实体图像对应的三维模型和目标图像特征序列进行合成，得到目标图像序列。三维模型可以为对多帧目标实体图像进行三维重建得到。

在实际应用中，实体通常以三维几何实体的形式存在。传统的二维平面图像通过明暗对比和透视关系来造成视觉上的空间立体感，无法产生引人入胜的自然立体观感。而三维影像的空间造型与原型接近，不仅具有高度、宽度、深度三维空间几何形体特征，而且具有真实逼真的状态信息，一改平面照片所无法给出的真实感，可给人以亲切、逼真的感觉。

在计算机图形学中，通常用三维模型来对实体建模，三维模型即对应空间实体中的实体，可以通过计算机或者其它视频设备进行显示。

三维模型对应的特征可以包括：几何特征、纹理状态、实体状态特征等，实体状态特征可以包括：表情特征、唇部特征、肢体特征等。其中，几何特征通常用多边形来或者体素来表示，以用多边形来表达三维模型的几何部分为例，即用多边形表示或者近似表示实体的曲面。它的基本对象是三维空间中的顶点，将两个顶点连接起来的直线称为边，三个顶点经三条边连接起来成为三角形，三角形是欧氏空间中最简单的多边形。多个三角形可以组成更加复杂的多边形，或者生成多于三个顶点的单个实体。四边形和三角形是多边形表达的三维模型中最常用的形状，在三维模型的表达方面，三角网三维模型因其数据结构简单、容易被所有的图形硬件设备绘图等特点成为三维模型表达的一种流行选择，其中每个三角形就是一个表面，因此也将三角形称为三角面片。

三维模型可以为带有预设实体状态且已经稠密对齐的点云数据，预设实体状态可以包括：中性表情、唇部闭合状态、以及手臂下垂状态等。

对目标实体图像对应的三维模型和目标图像特征序列进行合成，可以通过修改三维模型上的顶点位置等来实现，采用的合成方法具体可以包括：关键帧插值法，参数化方法等。其中，关键帧插值法可以对关键帧的图像特征进行差值。参数化方法可以通过三维模型的参数描述实体状态的变化，通过调整这些参数获得不同的实体状态。

在采用关键帧插值法的情况下，本发明实施例可以依据目标图像特征序列，得到差值向量。在采用参数化方法的情况下，本发明实施例可以依据目标图像特征序列，得到参数向量。

可以理解，上述关键帧插值法，参数化方法只是作为合成方法的可选实施例，实际上，本领域技术人员可以根据实际应用需求，采用所需的合成方法，本申请实施例对于具体的合成方法不加以限制。

本发明实施例在确定目标图像序列对应的图像特征的过程中，利用了文本特征序列与图像特征序列之间的规律。其中的图像特征可以包括：表情特征、唇部特征和肢体特征中的至少一种。

为了提高目标图像序列对应的图像特征的准确度，本发明实施例还可以对目标图像序列对应的图像特征进行扩展或调整。

在本发明的一种可选实施例中，所述目标图像序列对应的肢体特征可以为依据所述文本对应的语义特征得到。本发明实施例在确定肢体特征的过程中采用了文本对应的语义特征，故可以提高肢体特征的准确度。

本发明实施例中，可选的是，肢体特征的方向、位置、速度和力度中的任一参数与文本对应的语义特征有关。

可选地，上述语义特征可以与情感特征相关。可以依据情感特征对肢体特征进行分类，以得到一类情感特征对应的肢体特征。

可选地，情感特征可以包括：积极肯定、消极否定、或者中性等。

肢体特征的位置区域可以包括：上区、中区、下区。肩部以上是上区，可以表达理想、希望、喜悦、祝贺等积极肯定的情感特征。中区指从肩部到腰部，可以叙述事物和说明整理，表达中性的情感。下区指腰部以下，可以表达憎恶、反对、批判、失望等消极否定的情感。

除了位置区域之外，肢体特征还可以包括：方向。例如，手心向上，可以表达积极肯定的情感特征。又如，手心向下，可以表达消极否定的情感。

本发明实施例中，语义特征的类型可以包括：关键词、独热码(one-hot)向量、词嵌入向量(WordEmbedding)等。word embedding，就是找到一个映射或者函数，生成在一个新的空间上的表达，该表达就是word representation。

本发明实施例可以通过语义特征与肢体特征之间的映射关系，确定文本对应的语义特征对应的肢体特征。语义特征与肢体特征之间的映射关系可以通过统计方法得到，也可以通过端到端的方法得到。

本发明实施例可以通过时间轴对齐的语音样本和图像样本，实现目标语音序列和目标图像序列在时间轴上的对齐；或者，本发明实施例可以通过时长特征，实现目标语音序列和目标图像序列在时间轴上的对齐。在目标语音序列和目标图像序列在时间轴上对齐的基础上，可以对目标语音序列和目标图像序列进行融合，以得到目标视频。可选地，可以采用多模态融合技术，对目标语音序列和目标图像序列进行融合。可以理解，本发明实施例对于具体的融合方法不加以限制。

在得到目标视频后，可以对目标视频进行保存或者输出。例如，服务端可以向客户端发送目标视频，以使客户端向用户输出目标视频等。

综上，本发明实施例的数据处理方法，目标语音序列可以与目标发声体的音色相匹配，目标图像序列可以在目标实体图像的基础上得到，由此可以通过得到的目标视频实现由目标实体图像按照目标发声体的音色对答案文本进行表达；由于上述目标视频可由机器生成，故可以缩短目标视频的生成时间，进而可以提高目标视频的时效性，使得目标视频可以适用于时效性较高的视频交互场景，如突发新闻场景等

并且，目标视频目标实体图像按照目标发声体的音色对答案文本进行表达，相对于按照人工方式对答案文本进行表达，可以节省人力成本，且可以提高相关行业的工作效率。

另外，上述文本样本可以包括：答案文本涉及的所有语言，因此，依据上述文本样本及其图像样本得到的目标图像序列，可以适用于至少两种语言对应的答案文本。

并且，目标语音序列和目标图像序列的确定过程中分别利用了答案文本对应的时长特征，该时长特征可以提高目标语音序列和目标图像序列之间的同步性。

方法实施例二

参照图3，示出了本发明的一种数据处理方法实施例二的步骤流程图，用于问答交互的处理，具体可以包括如下步骤：

步骤301、确定目标实体图像对应的目标语音序列和目标图像序列；所述目标图像序列对应的模式可以包括：倾听模式、或者回答模式；在问题的输入过程中，所述目标图像序列对应的模式可以为倾听模式；或者，在问题的输入完成后，所述目标图像序列对应的模式可以为回答模式；

步骤302、对所述目标图像序列中预设区域的边界进行补偿；

步骤303、对所述目标语音序列和补偿后的目标图像序列进行融合，得到对应的目标视频，以向用户输出所述目标视频。

本发明实施例在确定所述答案文本对应的目标图像序列的过程中，通常会用到目标实体图像的三维模型，而在三维模型的重建方法、以及三维模型与图像特征序列的合成方法的局限性，容易使得三维模型的多边形出现细节缺失问题，这将使得目标图像序列对应的目标实体图像存在不完整问题，如部分牙齿缺失、鼻子的某些地方缺失等。

本发明实施例对所述目标图像序列中预设区域的边界进行补偿，可以提高预设区域的完整性。

上述预设区域可以表征实体的部位，如面部、或者肢体部等，相应地，上述预设区域具体可以包括如下区域中的至少一种：

面部区域；

服饰区域；以及

肢体区域。

在本发明的一种实施例中，对所述目标图像序列中牙齿区域的边界进行补偿，可以修补不完整的牙齿、或者补充未出现的牙齿，故可以提高牙齿区域的完整性。

在实际应用中，可以参考包括完整预设区域的目标实体图像，对所述目标图像序列中预设区域的边界进行补偿，本发明实施例对于具体的补偿过程不加以限制。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的运动动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的运动动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的运动动作并不一定是本发明实施例所必须的。

装置实施例

参照图4，示出了本发明的一种数据处理装置实施例的结构框图，用于问答交互的处理，具体可以包括：

确定模块401，用于确定目标实体图像对应的目标语音序列和目标图像序列；所述目标图像序列对应的模式可以包括：倾听模式、或者回答模式；在问题的输入过程中，所述目标图像序列对应的模式为倾听模式；或者，在问题的输入完成后，所述目标图像序列对应的模式为回答模式；以及

融合模块402，用于对所述目标语音序列和所述目标图像序列进行融合，得到对应的目标视频，以向用户输出所述目标视频。

可选地，所述目标图像序列对应的图像特征可以包括如下特征中的至少一种：

表情特征；

唇部特征；以及

肢体特征。

可选地，所述确定模块401可以包括：

问题语音图像序列确定模块，用于依据问题相关文本，确定目标实体图像对应的目标语音序列和目标图像序列。

可选地，所述问题语音图像序列确定模块可以包括：

第一语音序列确定模块，用于确定所述问题相关文本对应的目标语音序列；

第一图像序列确定模块，用于依据语音特征序列与图像特征序列之间的映射关系，确定所述目标语音序列对应的目标图像序列；所述映射关系中所述语音特征序列与所述图像特征序列在时间轴上对齐；所述映射关系为依据时间轴对齐的语音样本和图像样本得到。

可选地，所述问题语音图像序列确定模块可以包括：

时长特征确定模块，用于确定问题相关文本对应的时长特征；

第二语音序列确定模块，用于依据所述时长特征，确定所述问题相关文本对应的目标语音序列；

第二图像序列确定模块，用于依据所述时长特征，确定所述问题相关文本对应的目标图像序列；所述目标图像序列为依据文本样本及其对应的图像样本得到。

可选地，所述目标图像序列对应的肢体特征为依据所述问题相关文本对应的语义特征得到。

可选地，所述装置还可以包括：

边界补偿模块，用于在所述融合模块对所述目标语音序列和所述目标图像序列进行融合之前，对所述目标图像序列中预设区域的边界进行补偿。

可选地，所述装置还可以包括：

第一输出模块，用于向用户输出所述目标视频；或者

第二输出模块，用于向用户输出所述目标视频的链接；或者

第三输出模块，用于向用户输出所述目标语音序列、或者所述目标语音序列的链接；或者

第四输出模块，用于向用户输出问题相关文本。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图5是根据一示例性实施例示出的一种用于数据处理的装置作为设备时的结构框图。例如，装置900可以是移动来电，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

参照图5，装置900可以包括以下一个或多个组件：处理组件902，存储器904，电源组件906，多媒体组件908，音频组件910，输入/输出(I/O)的接口912，传感器组件914，以及通信组件916。

处理组件902通常控制装置900的整体操作，诸如与显示，来电呼叫，数据通信，相机操作和记录操作相关联的操作。处理元件902可以包括一个或多个处理器920来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件902可以包括一个或多个模块，便于处理组件902和其他组件之间的交互。例如，处理组件902可以包括多媒体模块，以方便多媒体组件908和处理组件902之间的交互。

存储器904被配置为存储各种类型的数据以支持在设备900的操作。这些数据的示例包括用于在装置900上操作的任何应用程序或方法的指令，联系人数据，来电簿数据，消息，图片，视频等。存储器904可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电源组件906为装置900的各种组件提供电力。电源组件906可以包括电源管理系统，一个或多个电源，及其他与为装置900生成、管理和分配电力相关联的组件。

多媒体组件908包括在所述装置900和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动运动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件908包括一个前置摄像头和/或后置摄像头。当设备900处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件910被配置为输出和/或输入音频信号。例如，音频组件910包括一个麦克风(MIC)，当装置900处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器904或经由通信组件916发送。在一些实施例中，音频组件910还包括一个扬声器，用于输出音频信号。

I/O接口912为处理组件902和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件914包括一个或多个传感器，用于为装置900提供各个方面的状态评估。例如，传感器组件914可以检测到设备900的打开/关闭状态，组件的相对定位，例如所述组件为装置900的显示器和小键盘，传感器组件914还可以检测装置900或装置900一个组件的位置改变，用户与装置900接触的存在或不存在，装置900方位或加速/减速和装置900的温度变化。传感器组件914可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件914还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件914还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件916被配置为便于装置900和其他设备之间有线或无线方式的通信。装置900可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信部件916经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信部件916还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，装置900可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器904，上述指令可由装置900的处理器920执行以完成上述方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

图6是本发明的一些实施例中服务器的结构框图。该服务器1900可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(central processingunits，CPU)1922(例如，一个或一个以上处理器)和存储器1932，一个或一个以上存储应用程序1942或数据1944的存储介质1930(例如一个或一个以上海量存储设备)。其中，存储器1932和存储介质1930可以是短暂存储或持久存储。存储在存储介质1930的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器1922可以设置为与存储介质1930通信，在服务器1900上执行存储介质1930中的一系列指令操作。

服务器1900还可以包括一个或一个以上电源1926，一个或一个以上有线或无线网络接口1950，一个或一个以上输入输出接口1958，一个或一个以上键盘1956，和/或，一个或一个以上操作系统1941，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

一种非临时性计算机可读存储介质，当所述存储介质中的指令由装置(设备或者服务器)的处理器执行时，使得装置能够执行一种数据处理方法，所述方法包括：确定目标实体图像对应的目标语音序列和目标图像序列；所述目标图像序列对应的模式包括：倾听模式、或者回答模式；在问题的输入过程中，所述目标图像序列对应的模式为倾听模式；或者，在问题的输入完成后，所述目标图像序列对应的模式为回答模式；对所述目标语音序列和所述目标图像序列进行融合，得到对应的目标视频，以向用户输出所述目标视频。

本发明实施例公开了A1、一种数据处理方法，用于问答交互的处理，所述方法包括：

A2、根据A1所述的方法，所述目标图像序列对应的图像特征包括如下特征中的至少一种：

表情特征；

唇部特征；以及

肢体特征。

A3、根据A1所述的方法，所述确定目标实体图像对应的目标语音序列和目标图像序列，包括：

依据问题相关文本，确定目标实体图像对应的目标语音序列和目标图像序列。

A4、根据A3所述的方法，所述确定目标实体图像对应的目标语音序列和目标图像序列，包括：

确定所述问题相关文本对应的目标语音序列；

依据语音特征序列与图像特征序列之间的映射关系，确定所述目标语音序列对应的目标图像序列；所述映射关系中所述语音特征序列与所述图像特征序列在时间轴上对齐；所述映射关系为依据时间轴对齐的语音样本和图像样本得到。

A5、根据A3所述的方法，所述确定目标实体图像对应的目标语音序列和目标图像序列，包括：

确定问题相关文本对应的时长特征；

依据所述时长特征，确定所述问题相关文本对应的目标语音序列；

依据所述时长特征，确定所述问题相关文本对应的目标图像序列；所述目标图像序列为依据文本样本及其对应的图像样本得到。

A6、根据A3所述的方法，所述目标图像序列对应的肢体特征为依据所述问题相关文本对应的语义特征得到。

A7、根据A1至A6中任一所述的方法，在所述对所述目标语音序列和所述目标图像序列进行融合之前，所述方法还包括：

对所述目标图像序列中预设区域的边界进行补偿。

A8、根据A1至A6中任一所述的方法，所述方法还包括：

向用户输出所述目标视频；或者

向用户输出所述目标视频的链接；或者

向用户输出所述目标语音序列、或者所述目标语音序列的链接；或者

向用户输出问题相关文本。

本发明实施例公开了B9、一种数据处理装置，用于问答交互的处理，所述装置包括：

B10、根据B9所述的装置，所述目标图像序列对应的图像特征包括如下特征中的至少一种：

表情特征；

唇部特征；以及

肢体特征。

B11、根据B9所述的装置，所述确定模块包括：

B12、根据B11所述的装置，所述问题语音图像序列确定模块包括：

B13、根据B11所述的装置，所述问题语音图像序列确定模块包括：

B14、根据B11所述的装置，所述目标图像序列对应的肢体特征为依据所述问题相关文本对应的语义特征得到。

B15、根据B9至B14中任一所述的装置，所述装置还包括：

B16、根据B9至B14中任一所述的装置，所述装置还包括：

第一输出模块，用于向用户输出所述目标视频；或者

第二输出模块，用于向用户输出所述目标视频的链接；或者

第四输出模块，用于向用户输出问题相关文本。

本发明实施例公开了C17、一种用于数据处理的装置，用于问答交互的处理，所述装置包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

C18、根据C17所述的装置，所述目标图像序列对应的图像特征包括如下特征中的至少一种：

表情特征；

唇部特征；以及

肢体特征。

C19、根据C17所述的装置，所述确定目标实体图像对应的目标语音序列和目标图像序列，包括：

C20、根据C19所述的装置，所述确定目标实体图像对应的目标语音序列和目标图像序列，包括：

确定所述问题相关文本对应的目标语音序列；

C21、根据C19所述的装置，所述确定目标实体图像对应的目标语音序列和目标图像序列，包括：

确定问题相关文本对应的时长特征；

C22、根据C19所述的装置，所述目标图像序列对应的肢体特征为依据所述问题相关文本对应的语义特征得到。

C23、根据C17至C22中任一所述的装置，在所述对所述目标语音序列和所述目标图像序列进行融合之前，所述装置还包括：

对所述目标图像序列中预设区域的边界进行补偿。

C24、根据C17至C22中任一所述的装置，所述装置还包括：

向用户输出所述目标视频；或者

向用户输出所述目标视频的链接；或者

向用户输出问题相关文本。

本发明实施例公开了D25、一种机器可读介质，其上存储有指令，当由一个或多个处理器执行时，使得装置执行如A1至A8中一个或多个所述的数据处理方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本发明的其它实施方案。本发明旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由下面的权利要求指出。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

以上对本发明所提供的一种数据处理方法、一种数据处理装置和一种用于数据处理的装置，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种数据处理方法，其特征在于，用于问答交互的处理，所述方法包括：

确定目标实体图像对应的目标语音序列和目标图像序列；所述目标图像序列对应的模式包括：倾听模式、或者回答模式；在问题的输入过程中，所述目标图像序列对应的模式为倾听模式，所述目标图像序列对应第二实体状态，用于表征输出倾听状态文本情况下的实体状态；或者，在问题的输入完成后，所述目标图像序列对应的模式为回答模式，所述目标图像序列对应第一实体状态，用于表征输出答案文本情况下的实体状态；

对所述目标语音序列和所述目标图像序列进行融合，得到对应的目标视频，以向用户输出所述目标视频；所述目标视频包括：倾听模式对应的第一目标视频和回答模式对应的第二目标视频；

其中，依据衔接图像样本的学习，对所述目标图像序列对应的模式进行切换；所述衔接图像样本包括：依次出现的倾听模式对应的图像样本、以及回答模式对应的图像样本；所述衔接图像样本还包括：依次出现的回答模式对应的图像样本、以及倾听模式对应的图像样本。

2.根据权利要求1所述的方法，其特征在于，所述目标图像序列对应的图像特征包括如下特征中的至少一种：

表情特征；

唇部特征；以及

肢体特征。

3.根据权利要求1所述的方法，其特征在于，所述确定目标实体图像对应的目标语音序列和目标图像序列，包括：

4.根据权利要求3所述的方法，其特征在于，所述确定目标实体图像对应的目标语音序列和目标图像序列，包括：

确定所述问题相关文本对应的目标语音序列；

5.根据权利要求3所述的方法，其特征在于，所述确定目标实体图像对应的目标语音序列和目标图像序列，包括：

确定问题相关文本对应的时长特征；

6.根据权利要求3所述的方法，其特征在于，所述目标图像序列对应的肢体特征为依据所述问题相关文本对应的语义特征得到。

7.根据权利要求1至6中任一所述的方法，其特征在于，在所述对所述目标语音序列和所述目标图像序列进行融合之前，所述方法还包括：

对所述目标图像序列中预设区域的边界进行补偿。

8.根据权利要求1至6中任一所述的方法，其特征在于，所述方法还包括：

向用户输出所述目标视频；或者

向用户输出所述目标视频的链接；或者

向用户输出问题相关文本。

9.一种数据处理装置，其特征在于，用于问答交互的处理，所述装置包括：

确定模块，用于确定目标实体图像对应的目标语音序列和目标图像序列；所述目标图像序列对应的模式包括：倾听模式、或者回答模式；在问题的输入过程中，所述目标图像序列对应的模式为倾听模式，所述目标图像序列对应第二实体状态，用于表征输出倾听状态文本情况下的实体状态；或者，在问题的输入完成后，所述目标图像序列对应的模式为回答模式，所述目标图像序列对应第一实体状态，用于表征输出答案文本情况下的实体状态；以及

融合模块，用于对所述目标语音序列和所述目标图像序列进行融合，得到对应的目标视频，以向用户输出所述目标视频；所述目标视频包括：倾听模式对应的第一目标视频和回答模式对应的第二目标视频；

10.根据权利要求9所述的装置，其特征在于，所述目标图像序列对应的图像特征包括如下特征中的至少一种：

表情特征；

唇部特征；以及

肢体特征。

11.根据权利要求9所述的装置，其特征在于，所述确定模块包括：

12.根据权利要求11所述的装置，其特征在于，所述问题语音图像序列确定模块包括：

13.根据权利要求11所述的装置，其特征在于，所述问题语音图像序列确定模块包括：

14.根据权利要求11所述的装置，其特征在于，所述目标图像序列对应的肢体特征为依据所述问题相关文本对应的语义特征得到。

15.根据权利要求9至14中任一所述的装置，其特征在于，所述装置还包括：

16.根据权利要求9至14中任一所述的装置，其特征在于，所述装置还包括：

第一输出模块，用于向用户输出所述目标视频；或者

第二输出模块，用于向用户输出所述目标视频的链接；或者

第四输出模块，用于向用户输出问题相关文本。

17.一种用于数据处理的装置，其特征在于，用于问答交互的处理，所述装置包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

18.根据权利要求17所述的装置，其特征在于，所述目标图像序列对应的图像特征包括如下特征中的至少一种：

表情特征；

唇部特征；以及

肢体特征。

19.根据权利要求17所述的装置，其特征在于，所述确定目标实体图像对应的目标语音序列和目标图像序列，包括：

20.根据权利要求19所述的装置，其特征在于，所述确定目标实体图像对应的目标语音序列和目标图像序列，包括：

确定所述问题相关文本对应的目标语音序列；

21.根据权利要求19所述的装置，其特征在于，所述确定目标实体图像对应的目标语音序列和目标图像序列，包括：

确定问题相关文本对应的时长特征；

22.根据权利要求19所述的装置，其特征在于，所述目标图像序列对应的肢体特征为依据所述问题相关文本对应的语义特征得到。

23.根据权利要求17至22中任一所述的装置，其特征在于，在所述对所述目标语音序列和所述目标图像序列进行融合之前，所述装置还经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

对所述目标图像序列中预设区域的边界进行补偿。

24.根据权利要求17至22中任一所述的装置，其特征在于，所述装置还经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

向用户输出所述目标视频；或者

向用户输出所述目标视频的链接；或者

向用户输出问题相关文本。

25.一种机器可读介质，其上存储有指令，当由一个或多个处理器执行时，使得装置执行如权利要求1至8中一个或多个所述的数据处理方法。