CN111538817B

CN111538817B - 人机交互方法和装置

Info

Publication number: CN111538817B
Application number: CN201910048474.6A
Authority: CN
Inventors: 王颖帅; 李晓霞; 苗诗雨
Original assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Jingdong Shangke Information Technology Co Ltd
Current assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Jingdong Shangke Information Technology Co Ltd
Priority date: 2019-01-18
Filing date: 2019-01-18
Publication date: 2024-06-18
Anticipated expiration: 2039-01-18
Also published as: CN111538817A

Abstract

本发明公开了一种人机交互方法和装置，涉及计算机技术领域。其中，该方法包括：对客户端输入的语句信息进行特征提取，以构建文本特征向量；将所述文本特征向量输入第一深度学习模型，以识别所述语句信息所属的场景类别；将所述文本特征向量输入第二深度学习模型，以识别所述语句信息中的槽位信息；根据所述场景类别和所述槽位信息获取对应的搜索结果，并将所述对应的搜索结果返回至所述客户端。通过以上步骤，能够提升语义识别的准确率，减少工程人员的维护成本，提升用户体验。

Description

人机交互方法和装置

技术领域

本发明涉及计算机技术领域，尤其涉及一种人机交互方法和装置。

背景技术

随着大数据和互联网的发展，NLP(神经语言程序学)已经成为人工智能的一个热点。NLP研究用计算机来处理、理解以及运用人类语言，达到人与计算机之间的有效通讯。深度学习作为人工智能皇冠上的明珠，在自然语言处理领域发挥着越来越重要的作用。

在实现本发明过程中，发明人发现现有技术中至少存在如下问题：

第一、在现有的人机交互技术方案中，往往是通过工程人员编写正则话术，并通过将输入语句与正则话术进行匹配来进行语义识别。由于人能想到的正则话术是有限的，因此语义识别比较死板，而且由于每次业务增加都需要开发新的正则话术，导致开发量大、维护成本高。第二、在现有的人机交互技术中，由于大量语料工作通过人来分析和驱动，很难满足多种业务场景下的识别需求，而且容易导致语义识别不灵活、语义识别准确率低等问题。

发明内容

有鉴于此，本发明提供一种人机交互方法和装置，能够满足多场景下的语义识别需求，提升语义识别的准确率，减少工程人员的维护成本，提升用户体验。

为实现上述目的，根据本发明的一个方面，提供了一种人机交互方法。

本发明的人机交互方法包括：对客户端输入的语句信息进行特征提取，以构建文本特征向量；将所述文本特征向量输入第一深度学习模型，以识别所述语句信息所属的场景类别；将所述文本特征向量输入第二深度学习模型，以识别所述语句信息中的槽位信息；根据所述场景类别和所述槽位信息获取对应的搜索结果，并将所述对应的搜索结果返回至所述客户端。

可选地，所述对客户端输入的语句信息进行特征提取，以构建文本特征向量的步骤包括：从所述语句信息中提取多种特征；其中，所述多种特征包括字特征、词特征和上下文特征；根据每种特征查询词典，以获取该特征的向量表示；将所述多种特征的向量表示进行融合，以得到所述文本特征向量。

可选地，所述多种特征还包括关键词特征；以及，所述将所述多种特征的向量表示进行融合，以得到所述文本特征向量的步骤包括：对于字特征中的每个字来说，如果当前字单独构成词特征中的一个词，则在当前字的向量表示之后拼接该词的向量表示，如果当前字不单独构成词特征中的一个词，则在作为共同构成词中最后一个字的向量表示后面拼接该词的向量表示，以得到字词特征向量的融合结果；将上下文特征的向量表示、关键词的向量表示依次与所述字词特征向量的融合结果进行拼接，以得到所述文本特征向量。

可选地，所述第一深度学习模型为卷积神经网络模型。

可选地，所述第二深度学习模型由长短期记忆模型和条件随机场模型构成。

为实现上述目的，根据本发明的另一方面，提供了一种人机交互装置。

本发明的人机交互装置包括：构建模块，用于对客户端输入的语句信息进行特征提取，以构建文本特征向量；场景识别模块，用于将所述文本特征向量输入第一深度学习模型，以识别所述语句信息所属的场景类别；槽位识别模块，用于将所述文本特征向量输入第二深度学习模型，以识别所述语句信息中的槽位信息；获取模块，用于根据所述场景类别和所述槽位信息获取对应的搜索结果，并将所述对应的搜索结果返回至所述客户端。

可选地，所述构建模块对客户端输入的语句信息进行特征提取，以构建文本特征向量包括：所述构建模块从所述语句信息中提取多种特征；其中，所述多种特征包括字特征、词特征和上下文特征；所述构建模块根据每种特征查询词典，以获取该特征的向量表示；所述构建模块将所述多种特征的向量表示进行融合，以得到所述文本特征向量。

可选地，所述多种特征还包括关键词特征；以及，所述构建模块将所述多种特征的向量表示进行融合，以得到所述文本特征向量包括：对于字特征中的每个字来说，如果当前字单独构成词特征中的一个词，则所述构建模块在当前字的向量表示之后拼接该词的向量表示，如果当前字不单独构成词特征中的一个词，则所述构建模块在作为共同构成词中最后一个字的向量表示后面拼接该词的向量表示，以得到字词特征向量的融合结果；所述构建模块将上下文特征的向量表示、关键词的向量表示依次与所述字词特征向量的融合结果进行拼接，以得到所述文本特征向量。

可选地，所述场景识别模块采用的第一深度学习模型为卷积神经网络模型。

可选地，所述槽位识别模块采用的第二深度学习模型由长短期记忆模型和条件随机场模型构成。

为实现上述目的，根据本发明的再一个方面，提供了一种电子设备。

本发明的电子设备，包括：一个或多个处理器；以及，存储装置，用于存储一个或多个程序；当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现本发明的人机交互方法。

为实现上述目的，根据本发明的又一个方面，提供了一种计算机可读介质。

本发明的计算机可读介质，其上存储有计算机程序，所述程序被处理器执行时实现本发明的人机交互方法。

上述发明中的一个实施例具有如下优点或有益效果：通过对客户端输入的语句信息进行特征提取，以构建文本特征向量，再分别基于第一深度学习模型、第二深度学习模型识别输入语句信息的场景类别、槽位信息，然后根据场景类别和槽位信息获取搜索结果这些步骤，能够对用户输入语句进行准确地语义识别和反馈，无需人工手动配置大量的正则话术，减少工程人员的维护成本，且能满足多个场景下的语义识别需求，提升多场景下语义识别的准确率，提升用户体验。

上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。

附图说明

附图用于更好地理解本发明，不构成对本发明的不当限定。其中：

图1是根据本发明一个实施例中的人机交互方法的主要步骤示意图；

图2是根据本发明一个实施例中的构建特征向量的主要流程示意图；

图3是根据本发明一个实施例中的人机交互装置的主要模块示意图；

图4是根据本发明一个实施例中的构建模块的主要组成示意图；

图5是本发明实施例可以应用于其中的示例性系统架构图；

图6是适于用来实现本发明实施例的电子设备的计算机系统的结构示意图。

具体实施方式

以下结合附图对本发明的示范性实施例做出说明，其中包括本发明实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本发明的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

需要指出的是，在不冲突的情况下，本发明中的实施例以及实施例中的特征可以相互组合。

图1是根据本发明一个实施例中的人机交互方法的主要步骤示意图。如图1所示，本发明实施例的人机交互方法包括：

步骤S101、对客户端输入的语句信息进行特征提取，以构建文本特征向量。

示例性地，用户在客户端上输入的语句信息可以为语音形式或文本形式。具体实施时，如果用户输入的语句信息为语音形式，则可先通过语音识别工具将其转换为文本形式，然后再执行步骤S101。在该步骤中，假设用户输入的语句信息为“我要买华为手机”，则可构建该语句信息对应的文本特征向量。

步骤S102、将所述文本特征向量输入第一深度学习模型，以识别所述语句信息所属的场景类别。

其中，第一深度学习模型能够识别的场景类别可包括：商品查询场景、订单查询场景、售后服务场景、模糊优惠查询场景、特定商品优惠查询场景等等。例如，假设用户输入的语句信息为“我要买华为手机”或者“我要买大米”等，则其所属的场景类别为商品查询场景；假设用户输入的语句信息为“最近有什么优惠”或“我想查询最近的优惠活动”等，则其所属的场景类别为模糊优惠查询场景；假设用户输入的语句信息为“我要查我的订单物流信息”等，则其所属的场景类别为订单查询场景。

示例性地，所述第一深度学习模型可以为CNN(卷积神经网络)模型。进一步，该示例还可包括以下步骤：搭建CNN模型的核心网络层，比如输入层、隐藏层、输出层等，然后基于训练样本集对搭建好的CNN模型进行训练，再将训练好的CNN模型进行保存，以便在步骤S102中直接调用。进一步，在该示例中，可采用批量梯度下降算法对CNN模型进行训练。在批量梯度下降算法中，每次从训练样本集中选取一个mini-batch，通常这个mini-batch中的样本数量远小于训练样本集的样本总数。在本发明实施例中，通过采用批量梯度下降算法对CNN模型进行训练，能够提高学习速度，降低内存开销，使得训练过程中的模型参数更新更稳定。在另一些示例中，所述第一深度学习模型也可以为TextCNN模型或DPCNN(深度金字塔卷积神经网络)模型。其中，TextCNN模型是一种利用卷积神经网络对文本进行分类的模型，其是由Yoon Kim在“Convolutional Neural Networks for SentenceClassification”一文中提出的算法。

步骤S103、将所述文本特征向量输入第二深度学习模型，以识别所述语句信息中的槽位信息。

其中，所述槽位信息可包括产品词、品牌词、修饰词等信息。例如，用户输入的语句信息为“我要买红色的华为手机”，则从该语句信息中识别出的产品词为“手机”、品牌词为“华为”、修饰词为“红色”。

示例性地，所述第二深度学习模型可由LSTM(长短期记忆)模型和CRF(条件随机场)模型构成。其中，LSTM模型是一种循环神经网络，其主要由四个部分组成：输入门、输出门、遗忘门和记忆控制器。这些部分组合起来可以提升循环神经网络处理长序列数据的能力。CRF模型是由Lafferty等人于2001年提出，该模型结合了最大熵模型和隐马尔可夫模型的特点，是一种无向图模型，该模型在分词、词性标注和命名实体识别等序列标注任务中取得了很好的效果。进一步，该示例还可包括以下步骤：搭建LSTM模型和CRF模型，然后基于训练样本集对搭建好的LSTM模型和CRF模型进行训练，再将训练好的LSTM模型和CRF模型进行保存，以便在步骤S103中直接调用。

在本发明实施例中，LSTM的输入为步骤S101构建的文本特征向量，LSTM的输出为各种矩阵运算后得到的指定维度的向量，并且，LSTM的输出作为CRF模型的输入。CRF模型基于LSTM输出的向量，能够预测得到用户输入语句信息的槽位信息。由于LSTM模型具有长短记忆功能，因此，通过将文本特征向量输入LSTM模型能够更好地对语句信息进行特征挖掘，有助于提高后续进行的槽位识别的准确率。

步骤S104、根据所述场景类别和所述槽位信息获取对应的搜索结果，并将所述对应的搜索结果返回至所述客户端。

在该步骤中，可根据场景类别确定需要调用的接口，并将槽位信息作为待接口的入参。比如，如果用户输入的语句信息为“我要买华为手机”，通过步骤S102确定其所属的场景类别为商品查询场景，通过步骤S103确定其槽位信息包括：产品词“手机”、品牌词“华为”，则根据场景类别“商品查询场景”调用对应的商品查询接口，并以产品词“手机”和品牌词“华为”为接口入参搜索商品信息，然后将搜索结果返回给用户所在的客户端。

在本发明实施例中，通过对客户端输入的语句信息进行特征提取，以构建文本特征向量，再分别基于第一深度学习模型、第二深度学习模型识别输入语句信息的场景类别、槽位信息，然后根据场景类别和槽位信息获取搜索结果这些步骤，能够对用户输入语句进行准确地语义识别和反馈，无需人工手动配置大量的正则话术，减少工程人员的维护成本，且能满足多个场景下的语义识别需求，提升多场景下语义识别的准确率，提升用户体验。

图2是根据本发明一个实施例中的构建特征向量的主要流程示意图。如图2所示，本发明实施例中的构建特征向量的流程包括：

步骤S201、从所述语句信息中提取多种特征。

在一可选实施方式中，所述多种特征包括字特征、词特征和上下文特征。在另一可选实施方式中，所述多种特征包括字特征、词特征、上下文特征和关键词特征。通过在字特征、词特征、上下文特征的基础上加入关键词特征，能够加强文本中重要信息的权重，对后续场景识别以及槽位识别起到正向的促进作用。

其中，字特征是对用户输入的语句信息按字进行切分得到的特征。例如，假设用户输入的语句信息为“我要买华为手机”，则提取的字特征为“我\要\买\华\为\手\机”。

其中，词特征是对所述语句信息进行分词得到的特征。示例性地，可基于词典的方式进行分词，也可基于统计的方式进行分词。在一可选实施方式中，还可基于混合分词方式，即将词典分词方式与统计分词方式相结合对所述语句信息进行分词。这样一来，即可保持词典分词的准确率，又可对未登录词和歧义词有很好的识别效果。例如，假设用户输入的语句信息为“我要买华为手机”，则提取的词特征可以为“我\要\买\华为\手机”。

其中，上下文特征是对每个字的上下文进行提取得到的特征。例如，假设用户输入的语句信息为“我要买华为手机”，设置的上下文窗口为2(即向前选取两个字、向后选取两个字)，则“我”对应的上下文特征为“我\要\买”，“要”对应的上下文特征为“我\要\买\华”，依次类推，可得到每个字对应的上下文特征。

步骤S202、根据每种特征查询词典，以获取该特征的向量表示。

其中，所述词典可包括词以及该词对应的向量表示。进一步，所述词典中词的向量表示可以为预先通过word2vec模型训练得到的。

示例性地，假设用户输入语句信息的字特征为“我\要\买\华\为\手\机”，则可根据每个字查询词典，以得到每个字对以的向量表示；假设用户输入语句信息的词特征为“我\要\买\华为\手机”，则可根据每个词查询词典，以得到每个词对应的向量表示。依次类推，可分别得到每种特征的向量表示。

步骤S203、将所述多种特征的向量表示进行融合，以得到所述文本特征向量。

在一可选实施方式中，该步骤具体包括：对于字特征中的每个字来说，如果当前字单独构成词特征中的一个词，则在当前字的向量表示之后拼接该词的向量表示，如果当前字不单独构成词特征中的一个词，则在作为共同构成词中最后一个字的向量表示后面拼接该词的向量表示，以得到字词特征向量的融合结果；将上下文特征的向量表示、关键词的向量表示依次与所述字词特征向量的融合结果进行拼接，以得到所述文本特征向量。

例如，假设用户输入语句信息的字特征为“我\要\买\华\为\手\机”，其对应的向量表示的标识为“2\5\11\45\33\54\81”，用户输入语句信息的词特征为“我\要\买\华为\手机”，其对应的向量表示的标识为“3\7\22\15\18”。假设当前字是“我”，由于“我”单独构成词特征中的一个词“我”，则可在标识为2的词的向量表示(即字特征中“我”的向量表示)后面拼接标识为3的向量表示(即词特征中“我”的向量表示)。假设当前字是“华”，由于当前字“华”不单独构成词特征中的一个词，而是与“为”字共同构成词特征中的词“华为”，则可在标识为33的向量表示(即字特征中“为”的向量表示)后面拼接标识为15的词的向量表示(即词特征中“华为”的向量表示)。以此类推，可得到字词特征向量的融合结果。

在本发明实施例中，通过提取多维度的特征，并通过特征向量的融合，能够更好地学习语料的语义信息，有助于提高后续场景识别以及槽位识别的准确性。

图3是根据本发明一个实施例中的人机交互装置的主要模块示意图。如图3所示，本发明实施例的人机交互装置300包括：构建模块301、场景识别模块302、槽位识别模块303、获取模块304。

构建模块301，用于对客户端输入的语句信息进行特征提取，以构建文本特征向量。

示例性地，用户在客户端上输入的语句信息可以为语音形式或文本形式。具体实施时，如果用户输入的语句信息为语音形式，则可先通过语音识别工具将其转换为文本形式，然后再通过构建模块构建文本特征向量。例如，假设用户输入的语句信息为“我要买华为手机”，则可构建该语句信息对应的文本特征向量。

场景识别模块302，用于将所述文本特征向量输入第一深度学习模型，以识别所述语句信息所属的场景类别。

示例性地，所述第一深度学习模型可以为CNN(卷积神经网络)模型。进一步，该示例中的人机交互装置还可包括第一训练模块，用于搭建CNN模型的核心网络层，比如输入层、隐藏层、输出层等，然后基于训练样本集对搭建好的CNN模型进行训练，再将训练好的CNN模型进行保存，以便在场景识别模块中直接调用。进一步，在该示例中，第一训练模块可采用批量梯度下降算法对CNN模型进行训练。在批量梯度下降算法中，每次从训练样本集中选取一个mini-batch，通常这个mini-batch中的样本数量远小于训练样本集的样本总数。在本发明实施例中，通过采用批量梯度下降算法对CNN模型进行训练，能够提高学习速度，降低内存开销，使得训练过程中的模型参数更新更稳定。在另一些示例中，所述第一深度学习模型也可以为TextCNN模型或DPCNN(深度金字塔卷积神经网络)模型。其中，TextCNN模型是一种利用卷积神经网络对文本进行分类的模型，其是由Yoon Kim在“ConvolutionalNeural Networks for Sentence Classification”一文中提出的算法。

槽位识别模块303，用于将所述文本特征向量输入第二深度学习模型，以识别所述语句信息中的槽位信息。

示例性地，所述第二深度学习模型可由LSTM(长短期记忆)模型和CRF(条件随机场)模型构成。其中，LSTM模型是一种循环神经网络，其主要由四个部分组成：输入门、输出门、遗忘门和记忆控制器。这些部分组合起来可以提升循环神经网络处理长序列数据的能力。CRF模型是由Lafferty等人于2001年提出，该模型结合了最大熵模型和隐马尔可夫模型的特点，是一种无向图模型，该模型在分词、词性标注和命名实体识别等序列标注任务中取得了很好的效果。进一步，该示例中的人机交互装置还可包括第二训练模块，用于搭建LSTM模型和CRF模型，然后基于训练样本集对搭建好的LSTM模型和CRF模型进行训练，再将训练好的LSTM模型和CRF模型进行保存，以便在槽位识别模块中直接调用。

在本发明实施例中，LSTM的输入为构建模块构建的文本特征向量，LSTM的输出为各种矩阵运算后得到的指定维度的向量，并且，LSTM的输出作为CRF模型的输入。CRF模型基于LSTM输出的向量，能够预测得到用户输入语句信息的槽位信息。由于LSTM模型具有长短记忆功能，因此，通过将文本特征向量输入LSTM模型能够更好地对语句信息进行特征挖掘，有助于提高后续进行的槽位识别的准确率。

获取模块304，用于根据所述场景类别和所述槽位信息获取对应的搜索结果，并将所述对应的搜索结果返回至所述客户端。

具体来说，获取模块304可根据场景类别确定需要调用的接口，并将槽位信息作为待接口的入参，以获取对应的搜索结果。比如，如果用户输入的语句信息为“我要买华为手机”，通过场景识别模块确定其所属的场景类别为商品查询场景，通过槽位识别模块确定其槽位信息包括：产品词“手机”、品牌词“华为”，则可根据场景类别“商品查询场景”调用对应的商品查询接口、并以产品词“手机”和品牌词“华为”为接口入参搜索商品信息，然后将搜索结果返回给用户所在的客户端。

在本发明实施例的装置中，通过构建模块对客户端输入的语句信息进行特征提取，以构建文本特征向量，再分别通过场景识别模块基于第一深度学习模型识别输入语句信息的场景类别，通过槽位识别模块基于第二深度学习模型识别输入语句信息的槽位信息，然后根据场景类别和槽位信息获取搜索结果，能够对用户输入语句进行准确地语义识别和反馈，无需人工手动配置大量的正则话术，减少工程人员的维护成本，且能满足多个场景下的语义识别需求，提升多场景下语义识别的准确率，提升用户体验。

图4是根据本发明一个实施例中的构建模块的主要组成示意图。如图4所示，本发明实施例的构建模块400包括：提取单元401、查询单元402和融合单元403。

提取单元401，用于从所述语句信息中提取多种特征。

在一可选实施方式中，提取单元401提取的所述多种特征包括字特征、词特征和上下文特征。在另一可选实施方式中，提取单元401提取的所述多种特征包括字特征、词特征、上下文特征和关键词特征。通过在字特征、词特征、上下文特征的基础上加入关键词特征，能够加强文本中重要信息的权重，对后续场景识别以及槽位识别起到正向的促进作用。

查询单元402，用于根据每种特征查询词典，以获取该特征的向量表示。

融合单元403，用于将所述多种特征的向量表示进行融合，以得到所述文本特征向量。

在本发明实施例中，通过提取单元提取多维度的特征，并通过查询单元查询出每种特征的向量表示，通过融合单元进行特征向量的融合，能够更好地学习语料的语义信息，有助于提高后续场景识别以及槽位识别的准确性。

图5示出了可以应用本发明实施例的人机交互方法或人机交互装置的示例性系统架构500。

如图5所示，系统架构500可以包括终端设备501、502、503，网络504和服务器505。网络504用以在终端设备501、502、503和服务器505之间提供通信链路的介质。网络504可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备501、502、503通过网络504与服务器505交互，以接收或发送消息等。终端设备501、502、503上可以安装有各种通讯客户端应用，例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。

终端设备501、502、503可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。

服务器505可以是提供各种服务的服务器，例如对用户利用终端设备501、502、503所浏览的购物类网站提供支持的后台管理服务器。后台管理服务器可以对接收到的用户输入的语句信息，比如产品信息查询请求或订单查询请求等数据进行分析等处理，并将处理结果(例如搜索到的产品信息、订单信息等)反馈给终端设备。

需要说明的是，本发明实施例所提供的人机交互方法一般由服务器505执行，相应地，人机交互装置一般设置于服务器505中。

应该理解，图5中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

下面参考图6，其示出了适于用来实现本发明实施例的电子设备的计算机系统600的结构示意图。图6示出的电子设备仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图6所示，计算机系统600包括中央处理单元(CPU)601，其可以根据存储在只读存储器(ROM)602中的程序或者从存储部分608加载到随机访问存储器(RAM)603中的程序而执行各种适当的动作和处理。在RAM 603中，还存储有系统600操作所需的各种程序和数据。CPU 601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。

以下部件连接至I/O接口605：包括键盘、鼠标等的输入部分606；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分607；包括硬盘等的存储部分608；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分609。通信部分609经由诸如因特网的网络执行通信处理。驱动器610也根据需要连接至I/O接口605。可拆卸介质611，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器610上，以便于从其上读出的计算机程序根据需要被安装入存储部分608。

特别地，根据本发明公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本发明公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分609从网络上被下载和安装，和/或从可拆卸介质611被安装。在该计算机程序被中央处理单元(CPU)601执行时，执行本发明的系统中限定的上述功能。

需要说明的是，本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本发明实施例中所涉及到的模块可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中，例如，可以描述为：一种处理器包括构建模块、场景识别模块、槽位识别模块和获取模块。其中，这些模块的名称在某种情况下并不构成对该模块本身的限定，例如，构建模块还可以被描述为“构建文本特征向量的模块”。

作为另一方面，本发明还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的设备中所包含的；也可以是单独存在，而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该设备执行时，使得该设备执行以下流程：对客户端输入的语句信息进行特征提取，以构建文本特征向量；将所述文本特征向量输入第一深度学习模型，以识别所述语句信息所属的场景类别；将所述文本特征向量输入第二深度学习模型，以识别所述语句信息中的槽位信息；根据所述场景类别和所述槽位信息获取对应的搜索结果，并将所述对应的搜索结果返回至所述客户端。

上述具体实施方式，并不构成对本发明保护范围的限制。本领域技术人员应该明白的是，取决于设计要求和其他因素，可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等，均应包含在本发明保护范围之内。

Claims

1.一种人机交互方法，其特征在于，所述方法包括：

对客户端输入的语句信息进行特征提取，以构建文本特征向量；其包括：从所述语句信息中提取多种特征；其中，所述多种特征包括字特征、词特征和上下文特征；根据每种特征查询词典，以获取该特征的向量表示；将所述多种特征的向量表示进行融合，以得到所述文本特征向量；

所述多种特征还包括关键词特征；以及所述将所述多种特征的向量表示进行融合，以得到所述文本特征向量的步骤包括：对于字特征中的每个字来说，如果当前字单独构成词特征中的一个词，则在当前字的向量表示之后拼接该词的向量表示，如果当前字不单独构成词特征中的一个词，则在作为共同构成词中最后一个字的向量表示后面拼接该词的向量表示，以得到字词特征向量的融合结果；将上下文特征的向量表示、关键词的向量表示依次与所述字词特征向量的融合结果进行拼接，以得到所述文本特征向量；

将所述文本特征向量输入第一深度学习模型，以识别所述语句信息所属的场景类别；

将所述文本特征向量输入第二深度学习模型，以识别所述语句信息中的槽位信息；

根据所述场景类别和所述槽位信息获取对应的搜索结果，并将所述对应的搜索结果返回至所述客户端。

2.根据权利要求1所述的方法，其特征在于，所述第一深度学习模型为卷积神经网络模型。

3.根据权利要求1所述的方法，其特征在于，所述第二深度学习模型由长短期记忆模型和条件随机场模型构成。

4.一种人机交互装置，其特征在于，所述装置包括：

构建模块，用于对客户端输入的语句信息进行特征提取，以构建文本特征向量；还用于从所述语句信息中提取多种特征；其中，所述多种特征包括字特征、词特征和上下文特征；根据每种特征查询词典，以获取该特征的向量表示；将所述多种特征的向量表示进行融合，以得到所述文本特征向量；所述多种特征还包括关键词特征，还用于对于字特征中的每个字来说，如果当前字单独构成词特征中的一个词，则在当前字的向量表示之后拼接该词的向量表示，如果当前字不单独构成词特征中的一个词，则在作为共同构成词中最后一个字的向量表示后面拼接该词的向量表示，以得到字词特征向量的融合结果；将上下文特征的向量表示、关键词的向量表示依次与所述字词特征向量的融合结果进行拼接，以得到所述文本特征向量；

场景识别模块，用于将所述文本特征向量输入第一深度学习模型，以识别所述语句信息所属的场景类别；

槽位识别模块，用于将所述文本特征向量输入第二深度学习模型，以识别所述语句信息中的槽位信息；

获取模块，用于根据所述场景类别和所述槽位信息获取对应的搜索结果，并将所述对应的搜索结果返回至所述客户端。

5.根据权利要求4所述的装置，其特征在于，所述场景识别模块采用的第一深度学习模型为卷积神经网络模型。

6.根据权利要求4所述的装置，其特征在于，所述槽位识别模块采用的第二深度学习模型由长短期记忆模型和条件随机场模型构成。

7.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1至3中任一所述的方法。

8.一种计算机可读介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现如权利要求1至3中任一所述的方法。