CN111223485A - 智能交互方法、装置、电子设备及存储介质 - Google Patents
智能交互方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN111223485A CN111223485A CN201911319401.2A CN201911319401A CN111223485A CN 111223485 A CN111223485 A CN 111223485A CN 201911319401 A CN201911319401 A CN 201911319401A CN 111223485 A CN111223485 A CN 111223485A
- Authority
- CN
- China
- Prior art keywords
- user
- information
- intention
- intelligent
- service
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/22—Interactive procedures; Man-machine interfaces
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Molecular Biology (AREA)
- Software Systems (AREA)
- Multimedia (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Acoustics & Sound (AREA)
- General Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明提供一种智能交互方法,包括:智能语音助手获取用户声音信息;根据所述声音信息验证用户身份;当用户身份验证通过后,所述智能语音助手启动开放域对话,根据所述开放域对话识别用户意图;根据所述用户意图确定业务级别;根据所述业务级别进行封闭域对话,并识别所述封闭域对话中的关键信息;根据所述关键信息获取槽位值并填充槽位;及当填充的槽位满足阈值时,执行所述用户意图对应的操作。本发明还提供一种智能交互装置、电子设备及存储介质。通过本发明可以通过所述智能语音助手与用户安全对话,并识别对话意图后执行操作。
Description
技术领域
本发明涉及计算机技术领域,具体涉及一种智能交互方法、装置、电子设备及存储介质。
背景技术
随着人工智能行业的发展,智能语音助手也成为人工智能系统应用相对成熟的领域。在现有技术中,智能语音助手通常应用在移动终端,用户可以使用移动终端的语音助手功能与机器助手进行语音交互,使机器助手可以在用户的语音控制下完成对移动终端的各种操作。然而,现有智能语音助手的意图识别准确率低,使得人机交互流畅性差。
发明内容
鉴于以上内容,有必要提出一种智能交互方法、装置、电子设备及存储介质,可以通过所述智能语音助手与用户安全对话,并准确识别对话意图后执行操作。
本发明的第一方面提供一种智能交互方法,所述方法包括:
智能语音助手获取用户声音信息;
根据所述声音信息验证用户身份;
当用户身份验证通过后,所述智能语音助手启动开放域对话,根据所述开放域对话识别用户意图;
根据所述用户意图确定业务级别;
根据所述业务级别进行封闭域对话,并识别所述封闭域对话中的关键信息;
根据所述关键信息获取槽位值并填充槽位;及
当填充的槽位满足阈值时,执行所述用户意图对应的操作。
优选地,所述根据所述声音信息验证用户身份的步骤包括:
提取所述声音信息中的声纹特征;
将提取的声纹特征与预先构建的声纹模型进行匹配;
当提取的声纹特征与预先构建的声纹模型匹配时,确认所述用户身份验证通过;
当提取的声纹特征与构建的声纹模型不匹配时,确认所述用户身份验证未通过。
优选地,通过查询预先建立的意图与业务级别关联表来确定所述业务级别,其中,所述意图与业务级别关联表为根据应用领域的业务逻辑和所述应用领域的知识库建立的意图与业务级别对应关系。
优选地,所述方法还包括:
接收用户授权的信息并存储所述授权的信息,其中,所述授权的信息包括账户信息;
当根据用户意图确定业务级别后,根据所述业务级别进行封闭域对话,并识别所述封闭域对话中的关键信息;
根据所述授权的信息和所述关键信息获取槽位值并填充槽位;及
当填充的槽位满足阈值时,执行所述用户意图对应的操作。
优选地,当用户意图对应的语音指令包含多个平级的业务时,根据所述封闭域对话确定所述多个平级的业务的执行顺序,根据所述执行顺序执行对应的操作。
优选地,所述方法还包括:
当所述用户意图对应的语音指令包含多个不同级别的业务时,根据所述意图与业务级别关联表识别所述多个不同级别的业务中的最低级别业务;
查询所述最低级别业务所对应的上级业务;
给出所述上级业务所包含的所有下级业务供用户选择。
优选地,所述方法还包括:
当填充的槽位不满足阈值时,所述智能语音助手根据槽内缺少的槽位值发出语音提示;
当存在多个缺少的槽位值时,所述智能语音助手按照顺序进行语音提示,并根据用户的回复按顺序填充所述缺少的槽位值;
启动所述填充的槽位对应的任务,以执行所述用户意图对应的操作。
本发明的第二方面提供一种智能交互装置,所述装置包括:
获取模块,用于通过智能语音助手获取用户声音信息;
验证模块,用于根据所述声音信息验证用户身份;
识别模块,用于当用户身份验证通过后,所述智能语音助手启动开放域对话,根据所述开放域对话识别用户意图;
确定模块,用于根据所述用户意图确定业务级别;
所述识别模块,还用于根据所述业务级别进行封闭域对话,并识别所述封闭域对话中的关键信息;
所述获取模块,还用于根据所述关键信息获取槽位值并填充槽位;及
执行模块,用于当填充的槽位满足阈值时,执行所述用户意图对应的操作。
本发明的第三方面提供一种电子设备,所述电子设备包括处理器和存储器,所述处理器用于执行所述存储器中存储的计算机程序时实现所述智能交互方法。
本发明的第四方面提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现所述智能交互方法。
本发明所述的智能交互方法、装置、电子设备及存储介质。在用户身份验证通过后所述智能语音助手启动开放域对话,根据所述开放域对话识别用户意图,根据所述用户意图确定业务级别,所述语音助手根据所述业务级别进行封闭域对话,并识别所述封闭域对话中的关键信息,根据所述关键信息获取槽位值并填充槽位,当填充的槽位满足阈值时,执行所述用户意图对应的操作。本申请可以准确识别用户意图,并且在进入封闭域对话后,根据所述用户意图进入一级业务接口,在一级业务接口内进行问答式交流,执行任务更智能,人机交流的交互性更高。
另外,本发明可以处理用户意图对应的语音指令包含多个平级的业务和多个不同级别的业务的情况,可以在用户表达不明确时引导用户操作,直到完成整个闭环操作。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1是本发明实施例一提供的智能交互方法的流程图。
图2是本发明实施例二提供的智能交互装置的功能模块图。
图3是本发明实施例三提供的电子设备的示意图。
如下具体实施方式将结合上述附图进一步说明本发明。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施例对本发明进行详细描述。需要说明的是,在不冲突的情况下,本发明的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明。
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”和“第三”等是用于区别不同对象,而非用于描述特定顺序。此外,术语“包括”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
本发明实施例的智能交互方法应用在电子设备中。所述对于需要进智能交互的电子设备,可以直接在电子设备上集成本发明的方法所提供的智能交互功能,或者安装用于实现本发明的方法的客户端。再如,本发明所提供的方法还可以以软件开发工具包(Software Development Kit,SDK)的形式运行在服务器等设备上,以SDK的形式提供智能交互功能的接口,电子设备或其他设备通过提供的接口即可实现智能交互功能。
实施例一
图1是本发明实施例一提供的智能交互方法的流程图。根据不同的需求,所述流程图中的执行顺序可以改变,某些步骤可以省略。
步骤S1,智能语音助手获取用户声音信息。
在本实施方式中,所述智能交互方法应用在智能语音助手中,所述智能语音助手可以是银行智能语音助手。当用户在银行处理相关业务时,可以直接与银行智能语音助手交互。所述智能语音助手通过麦克风接收用户说话的声音,从而可以识别用户以及根据用户意图进行银行业务处理。
例如,当用户需要进行查询账户余额操作时,可以先唤醒所述智能语音助手,在所述智能语音助手被唤醒的同时获取用户的声音信息。
步骤S2,根据所述声音信息验证用户身份。
在本实施方式中,提取所述声音信息中的声纹特征;将提取的声纹特征与预先构建的声纹模型进行匹配;当提取的声纹特征与预先构建的声纹模型匹配时,确认所述用户身份验证通过;当提取的声纹特征与构建的声纹模型不匹配时,确认所述用户身份验证未通过。
具体地,所述根据所述声音信息识别用户身份的步骤包括:声纹注册阶段,向系统中输入用户声音样本,提取用户声音信息的Mel频率倒谱系数(MFCC),再使用resnet+ghostvlad网络进行端到端的方式训练,得到用户声音信息中的声纹特征,构建用户的声纹模型;声纹认证阶段,当用户在近场通过唤醒词唤醒智能语音助手时,所述智能语音助手获取用户声音信息。提取所述声音信息中的声纹特征,将提取的声纹特征与构建的声纹模型进行匹配,以验证用户身份。当提取的声纹特征与构建的声纹模型匹配时,确认所述用户为合法用户;当提取的声纹特征与构建的声纹模型不匹配时,确认所述用户不合法。
在另一实施方式中,在所述声纹注册阶段,可以向系统中输入用户声音样本,通过短时傅里叶变换提取用户声音信号的频谱,再使用resnet+ghostvlad网络进行端到端的方式训练,得到用户语音信号中的声纹特征,构建用户声纹模型。
例如,当用户在近场使用唤醒词和0-9十个数字作为语音样本,通过提取所述语音样本中的声纹特征。可以在声纹注册阶段构建用户的声纹模型。从而在身份验证时可以让用户根据智能语音助手规定的数字发音,来确定用户是否为合法用户。如此,可有效提高认证的准确率,还可以避免有人事先录音造假,提高安全性。
优选地,所述方法还包括:当提取的声纹特征与构建的声纹模型不匹配次数大于或等于预设次数(如3次)时,开启密码验证功能。
步骤S3,当用户身份验证通过后,智能语音助手启动开放域对话,根据所述开放域对话识别用户意图。
在本实施方式中,用户身份验证通过后,智能语音助手启动开放域对话,将所述开放域对话中的语音信息转换为文字后进行意图识别。
在本实施方式中,可以采用意图识别和槽填充联合模型来识别所述开放域对话中的用户意图。具体地,所述意图识别和槽填充联合模型包括三层,第一层是问句文本的one-hot编码;第二层由BLSTM和CNN组合的网络结构,用语学习语义信息和意图信息的共享表征;第三层为CRF层,对所述共享表征进行解码,使用统一损失函数共同学习意图识别任务及槽填充任务。所述意图识别和槽填充联合模型在将所述开放域对话中的问句进行one-hot编码得到句子向量,将所述句子向量输入BLSTM模型中得到一个新的序列向量的表示,然后经过CNN模型处理获取特征向量,将所述特征向量和序列向量进行拼接,得到输出向量。将所述输出向量馈送到CRF层,联合解码出最佳标签序列,通过将问句u中的每个字符wt与BIO标签相关联来表示所述标签序列。其中,BIO分别表示开始(begin)、继续(in)和其他(out)。输入标签X表示为w1,w2…wn,输出标签Y表示为s1,s2…sn。对于意图识别和槽填充联合模型,在输入问句的末尾添加额外的一个标签,与之对应的在输出标签的末端连接意图信息标志,得到新的输入标签和输出标签。模型最后的隐含层包含整个输入问句的潜在语义表示,以便用于问句的意图识别。
在其他实施方式中,可以通过基于规则模板的意图识别方法,基于统计特征分类的意图识别方法,基于词向量的意图识别方法,基于卷积神经网络的意图识别方法等方法中的一种或多种组合来识别开放域对话中的用户意图,在此不再赘述。
步骤S4,根据所述用户意图确定业务级别。
在本实施方式中,通过查询预先建立的意图与业务级别关联表来确定业务级别。所述关联表中可以根据应用领域的业务逻辑和该领域的知识库建立意图与业务级别对应关系。例如,在银行应用领域,可以根据银行领域的业务逻辑和银行领域的知识库,建立意图与业务级别对应关系。
例如,一级业务包括信用卡业务、缴费业务和贷款业务等。而所述信用卡业务对应的二级业务包括消费账单、还款金额和还款日期等;所述缴费业务对应的二级业务包括缴电费、缴煤气费和缴话费;贷款业务对应的二级业务包括快速信贷、现金信贷和智能信贷。
在本实施方式中,所述一级业务与所述用户意图强相关。
步骤S5,根据所述业务级别进行封闭域对话,并识别所述封闭域对话中的关键信息。
在本实施方式中,封闭域对话是指识别用户意图后,为了明确用户目的(或者称为明确任务细节)而进行的对话。所述关键信息为当在所述封闭域对话中,从下级业务中提取出的信息。例如,若只接收到一级业务信息时,所述语音助手根据接收到的一级业务信息对应的二级业务信息进行信息播报,以提示用户需要执行的二级业务具体是什么。
例如,当所述语音助手接收到一级业务为“信用卡”的信息后,并未接收到其他关于信用卡对应的二级业务消息时,所述语音助手发出语音提示“请问您是否需要查看消费账单”或者“请问您是否需要查询还款金额”或者“请问您是否需要查询还款日期”等。当用户听到所述语音提示而进行回复时,所述智能语音助手可以根据回复信息来确定二级业务信息。如此,可以根据用户意图进入一级业务接口,在一级业务接口内进行问答式交流。以得到用户需要执行的二级业务,从而使得执行任务更智能。
步骤S6,根据所述关键信息获取槽位值并填充槽位。
所述填充槽位是指为了让用户意图转化为用户明确的指令而补全信息的过程。在本实施方式中,根据所述关键信息获取槽位值,再根据所述槽位值填充槽位。例如,当语音助手采集到的语音信息对应的文字信息为“查看我的信用卡中的消费账单”时,可以获取关键信息为:我、信用卡和消费账单。则所述智能语音助手会根据所述关键信息获取槽位值并填充槽位。
步骤S7,当填充的槽位满足阈值时,执行所述用户意图对应的操作。
在本实施方式中,当填充的槽位满足阈值时,将所述用户意图转换为语音指令,智能语音助手根据所述语音指令执行操作。所述阈值与用户意图相关。例如,当用户意图是进行转账业务时,需要两个参数,分别是转账账号和转账金额。那么,对应的阈值也是两个。如果两个阈值中的任意一个没有完成,则无法执行所述用户意图对应的操作。
举例而言,当智能语音助手采集到的语音信息对应的文字信息为“查看我的信用卡”时,可以识别到用户意图为:信用卡。所述信用卡对应的一级业务为信用卡业务。则所述智能语音助手会进入信用卡业务的封闭域进行对话并根据槽位抽取槽位信息,调用目标接口。例如,发出提示语音“请问您是要查询信用卡消费账单、还款金额、还款日期或有没有逾期”等。当所述语音助手接收到用户回复“还款金额”时,所述智能语音助手查询用户信用卡消费情况并根据查询结果回复用户。例如,所述语音助手播报“您本月应还款2033元”。
另外,所述智能语音助手也可以直接调用目标业务接口获取信息或执行操作。例如,当接收到用户语音信息为“查看我本月信用卡需还款多少元”时,所述直接调用二级业务接口中的还款余额,以获取余额信息。再进行语音播报“您本月应还款2033元”。
优选地,当智能语音助手在执行所述用户意图对应的操作前,会发出提示信息供用户确认。例如,所述智能语音助手在执行前会将任务语音播放给用户确认,在接收到用户的确认信息后,执行所述用户意图对应的操作。并且所述智能语音助手执行成功与否均将结果反馈给用户。
优选地,所述智能语音助手存储用户授权的信息,并根据所述授权的信息和识别的用户意图执行对应操作。具体地,接收用户授权的信息并存储所述授权的信息,其中,所述授权的信息包括账户信息(例如,煤气账户);当根据用户意图确定业务级别后,根据所述业务级别进行封闭域对话,并识别所述封闭域对话中的关键信息;根据所述授权的信息和所述关键信息获取槽位值并填充槽位;及当填充的槽位满足阈值时,执行所述用户意图对应的操作。
例如,当所述智能语音助手存储了用户授权的帮忙家人缴纳煤气费的信息时,所述智能语音助手对用户授权的信息具有记忆功能,可以记住用户的定义的授权信息,不需要多次询问。当用户说“帮我婆婆缴煤气费”,智能助手识别到意图:缴费。根据用户意图确定二级业务为:缴煤气费。识别到所述封闭域对话中的关键信息为“我婆婆(即需缴费用户),缴煤气费”,可根据记忆查找婆婆的煤气账户,直接在应用程序中帮婆婆缴煤气费。
优选地,当用户意图对应的语音指令包含多个平级的业务时,根据所述封闭域对话确定所述多个平级的业务的执行顺序,根据所述执行顺序执行对应的操作。
在用户意图对应的语音指令包含两个平级的业务时就需要澄清用户究竟是想进行哪个业务接口的操作。例如,当用户说“帮我查询一下信用卡业务和贷款业务”,所述智能语音助手就会提示用户“您是要先查询信用卡业务还是贷款业务”;在获取用户回复先查询信用卡业务再查询贷款业务的意图后,所述智能语音助手先执行信用卡业务查询,再执行贷款业务查询。
优选地,当用户意图对应的语音指令包含多个不同级别的业务时,提示用户所述多个不同级别的业务中的最低级别业务所对应的上级业务,再将所述上级业务包含的所有下级业务供用户选择。具体地,当所述用户意图对应的语音指令包含多个不同级别的业务时,根据所述意图与业务级别关联表识别所述多个不同级别的业务中的最低级别业务;查询所述最低级别业务所对应的上级业务;给出所述上级业务所包含的所有下级业务供用户选择。
例如,当用户意图对应的语音指令包含上下级的两个业务时,识别所述两个业务中的上级业务,并发出提示语音给用户澄清所述上级业务下所包含二级业务,并再次通过封闭域对话确认用户的业务需求。当用户说“帮我查看信用卡业务下的智能信贷”,所述智能语音助手就会提示用户“您是要查询贷款业务下的智能信贷吗?信用卡业务下没有智能贷款业务”。当用户确认查询贷款业务时,所述智能语音助手再给出所述贷款业务下的所有下级业务(如快速信贷、智能信贷和现金信贷)供用户选择。
优选地,当填充的槽位不满足阈值时,所述智能语音助手根据槽内缺少的槽位值发出语音提示;当存在多个缺少的槽位值时,所述智能语音助手按照顺序进行语音提示,并根据用户的回复按顺序填充所述缺少的槽位值;启动所述填充的槽位对应的任务,以执行所述用户意图对应的操作。如此,可以在填充的槽位不满足阈值时,根据槽内缺少的槽位值进行针对性的提问。当有多个槽需要澄清时,需按照顺序进行提问,以确保获取用户真实的槽位值信息,方便智能语音助手启动槽对应的任务。
例如,当用户说“我要缴费”,由于并不清楚缴纳什么费,并且是给谁缴费。因此,填充的槽位不满足阈值。此时,所述智能语音助手根据槽内缺少的槽位值发出语音提示。例如,“请问缴纳什么费”“替谁缴费”。由于当前两个缺少的槽位值,所述智能语音助手按照顺序进行语音提示。例如,所述智能语音助手语音提示“请问缴纳什么费”,在收到用户回复“缴煤气费”时,将煤气费填充至所述缺少的槽位值中;所述智能语音助手语音继续提示“替谁缴费”,在用户回复“替我婆婆缴费”时,将我婆婆填充所述缺少的槽位值;启动所述填充的槽位对应的任务(即替婆婆缴煤气费),以查找婆婆的煤气账户,直接在应用程序中帮婆婆缴煤气费。
综上所述,本发明提供的智能交互方法包括,智能语音助手获取用户声音信息;根据所述声音信息验证用户身份;当用户身份验证通过后,所述智能语音助手启动开放域对话,根据所述开放域对话识别用户意图;根据所述用户意图确定业务级别;根据所述业务级别进行封闭域对话,并识别所述封闭域对话中的关键信息;根据所述关键信息获取槽位值并填充槽位;及当填充的槽位满足阈值时,执行所述用户意图对应的操作。本申请加入用户声纹识别系统,银行智能语音助手被唤醒的同时获取到了用户语音信息,在提取语音中的声纹特征后判别用户身份,在用户用语音控制其操作时,仅需语音验证不需要额外的验证操作,简化操作流程,提高安全性。本发明可以准确识别用户意图,并且在进入封闭域对话后,根据所述用户意图进入一级业务接口,在一级业务接口内进行问答式交流,执行任务更智能,人机交流的交互性更高。另外,本发明可以处理用户意图对应的语音指令包含多个平级的业务和多个不同级别的业务的情况,可以在用户表达不明确时引导用户操作,直到完成整个闭环操作。
以上所述,仅是本发明的具体实施方式,但本发明的保护范围并不局限于此,对于本领域的普通技术人员来说,在不脱离本发明创造构思的前提下,还可以做出改进,但这些均属于本发明的保护范围。
下面结合图2和图3,分别对实现上述智能交互方法的电子设备的功能模块及硬件结构进行介绍。
实施例二
图2为本发明智能交互装置较佳实施例中的功能模块图。
在一些实施例中,所述智能交互装置20运行于电子设备中。所述智能交互装置20可以包括多个由程序代码段所组成的功能模块。所述智能交互装置20中的各个程序段的程序代码可以存储于存储器中,并由至少一个处理器所执行,以执行智能交互功能。
本实施例中,所述智能交互装置20根据其所执行的功能,可以被划分为多个功能模块。所述功能模块可以包括:获取模块201、验证模块202、识别模块203、确定模块204及执行模块205。本发明所称的模块是指一种能够被至少一个处理器所执行并且能够完成固定功能的一系列计算机程序段,其存储在存储器中。在一些实施例中,关于各模块的功能将在后续的实施例中详述。
所述获取模块201用于通过智能语音助手获取用户声音信息。
在本实施方式中,所述智能语音助手可以是银行智能语音助手。当用户在银行处理相关业务时,可以直接与银行智能语音助手交互。所述智能语音助手通过麦克风接收用户说话的声音,从而可以识别用户以及根据用户意图进行银行业务处理。
例如,当用户需要进行查询账户余额操作时,可以先唤醒所述智能语音助手,在所述智能语音助手被唤醒的同时获取用户的声音信息。
所述验证模块202用于根据所述声音信息验证用户身份。
在本实施方式中,所述验证模块202用于提取所述声音信息中的声纹特征;将提取的声纹特征与预先构建的声纹模型进行匹配;当提取的声纹特征与预先构建的声纹模型匹配时,确认所述用户身份验证通过;当提取的声纹特征与构建的声纹模型不匹配时,确认所述用户身份验证未通过。
具体地,所述根据所述声音信息识别用户身份包括:声纹注册阶段,向系统中输入用户声音样本,提取用户声音信息的Mel频率倒谱系数(MFCC),再使用resnet+ghostvlad网络进行端到端的方式训练,得到用户声音信息中的声纹特征,构建用户的声纹模型;声纹认证阶段,当用户在近场通过唤醒词唤醒智能语音助手时,所述智能语音助手获取用户声音信息。提取所述声音信息中的声纹特征,将提取的声纹特征与构建的声纹模型进行匹配,以验证用户身份。当提取的声纹特征与构建的声纹模型匹配时,确认所述用户为合法用户;当提取的声纹特征与构建的声纹模型不匹配时,确认所述用户不合法。
在另一实施方式中,在所述声纹注册阶段,可以向系统中输入用户声音样本,通过短时傅里叶变换提取用户声音信号的频谱,再使用resnet+ghostvlad网络进行端到端的方式训练,得到用户语音信号中的声纹特征,构建用户声纹模型。
例如,当用户在近场使用唤醒词和0-9十个数字作为语音样本,通过提取所述语音样本中的声纹特征。可以在声纹注册阶段构建用户的声纹模型。从而在身份验证时可以让用户根据智能语音助手规定的数字发音,来确定用户是否为合法用户。如此,可有效提高认证的准确率,还可以避免有人事先录音造假,提高安全性。
优选地,所述智能交互装置还可以:当提取的声纹特征与构建的声纹模型不匹配次数大于或等于预设次数(如3次)时,开启密码验证功能。
所述识别模块203用于当用户身份验证通过后,智能语音助手启动开放域对话,根据所述开放域对话识别用户意图。
在本实施方式中,用户身份验证通过后,智能语音助手启动开放域对话,将所述开放域对话中的语音信息转换为文字后进行意图识别。
在本实施方式中,可以采用意图识别和槽填充联合模型来识别所述开放域对话中的用户意图。具体地,所述意图识别和槽填充联合模型包括三层,第一层是问句文本的one-hot编码;第二层由BLSTM和CNN组合的网络结构,用语学习语义信息和意图信息的共享表征;第三层为CRF层,对所述共享表征进行解码,使用统一损失函数共同学习意图识别任务及槽填充任务。所述意图识别和槽填充联合模型在将所述开放域对话中的问句进行one-hot编码得到句子向量,将所述句子向量输入BLSTM模型中得到一个新的序列向量的表示,然后经过CNN模型处理获取特征向量,将所述特征向量和序列向量进行拼接,得到输出向量。将所述输出向量馈送到CRF层,联合解码出最佳标签序列,通过将问句u中的每个字符wt与BIO标签相关联来表示所述标签序列。其中,BIO分别表示开始(begin)、继续(in)和其他(out)。输入标签X表示为w1,w2…wn,输出标签Y表示为s1,s2…sn。对于意图识别和槽填充联合模型,在输入问句的末尾添加额外的一个标签,与之对应的在输出标签的末端连接意图信息标志,得到新的输入标签和输出标签。模型最后的隐含层包含整个输入问句的潜在语义表示,以便用于问句的意图识别。
在其他实施方式中,可以通过基于规则模板的意图识别方法,基于统计特征分类的意图识别方法,基于词向量的意图识别方法,基于卷积神经网络的意图识别方法等方法中的一种或多种组合来识别开放域对话中的用户意图,在此不再赘述。
所述确定模块204用于根据所述用户意图确定业务级别。
在本实施方式中,通过查询预先建立的意图与业务级别关联表来确定业务级别。所述关联表中可以根据应用领域的业务逻辑和该领域的知识库建立意图与业务级别对应关系。例如,在银行应用领域,可以根据银行领域的业务逻辑和银行领域的知识库,建立意图与业务级别对应关系。
例如,一级业务包括信用卡业务、缴费业务和贷款业务等。而所述信用卡业务对应的二级业务包括消费账单、还款金额和还款日期等;所述缴费业务对应的二级业务包括缴电费、缴煤气费和缴话费;贷款业务对应的二级业务包括快速信贷、现金信贷和智能信贷。
在本实施方式中,所述一级业务与所述用户意图强相关。
所述识别模块203还用于根据所述业务级别进行封闭域对话,并识别所述封闭域对话中的关键信息。
在本实施方式中,封闭域对话是指识别用户意图后,为了明确用户目的(或者称为明确任务细节)而进行的对话。所述关键信息为当在所述封闭域对话中,从下级业务中提取出的信息。例如,若只接收到一级业务信息时,所述语音助手根据接收到的一级业务信息对应的二级业务信息进行信息播报,以提示用户需要执行的二级业务具体是什么。
例如,当所述语音助手接收到一级业务为“信用卡”的信息后,并未接收到其他关于信用卡对应的二级业务消息时,所述语音助手发出语音提示“请问您是否需要查看消费账单”或者“请问您是否需要查询还款金额”或者“请问您是否需要查询还款日期”等。当用户听到所述语音提示而进行回复时,所述智能语音助手可以根据回复信息来确定二级业务信息。如此,可以根据用户意图进入一级业务接口,在一级业务接口内进行问答式交流。以得到用户需要执行的二级业务,从而使得执行任务更智能。
所述获取模块201还用于根据所述关键信息获取槽位值并填充槽位。
所述填充槽位是指为了让用户意图转化为用户明确的指令而补全信息的过程。在本实施方式中,根据所述关键信息获取槽位值,再根据所述槽位值填充槽位。例如,当语音助手采集到的语音信息对应的文字信息为“查看我的信用卡中的消费账单”时,可以获取关键信息为:我、信用卡和消费账单。则所述智能语音助手会根据所述关键信息获取槽位值并填充槽位。
所述执行模块205用于当填充的槽位满足阈值时,执行所述用户意图对应的操作。
在本实施方式中,当填充的槽位满足阈值时,将所述用户意图转换为语音指令,智能语音助手根据所述语音指令执行操作。所述阈值与用户意图相关。例如,当用户意图是进行转账业务时,需要两个参数,分别是转账账号和转账金额。那么,对应的阈值也是两个。如果两个阈值中的任意一个没有完成,则无法执行所述用户意图对应的操作。
举例而言,当智能语音助手采集到的语音信息对应的文字信息为“查看我的信用卡”时,可以识别到用户意图为:信用卡。所述信用卡对应的一级业务为信用卡业务。则所述智能语音助手会进入信用卡业务的封闭域进行对话并根据槽位抽取槽位信息,调用目标接口。例如,发出提示语音“请问您是要查询信用卡消费账单、还款金额、还款日期或有没有逾期”等。当所述语音助手接收到用户回复“还款金额”时,所述智能语音助手查询用户信用卡消费情况并根据查询结果回复用户。例如,所述语音助手播报“您本月应还款2033元”。
另外,所述智能语音助手也可以直接调用目标业务接口获取信息或执行操作。例如,当接收到用户语音信息为“查看我本月信用卡需还款多少元”时,所述直接调用二级业务接口中的还款余额,以获取余额信息。再进行语音播报“您本月应还款2033元”。
优选地,当智能语音助手在执行所述用户意图对应的操作前,会发出提示信息供用户确认。例如,所述智能语音助手在执行前会将任务语音播放给用户确认,在接收到用户的确认信息后,执行所述用户意图对应的操作。并且所述智能语音助手执行成功与否均将结果反馈给用户。
优选地,所述智能语音助手存储用户授权的信息,并根据所述授权的信息和识别的用户意图执行对应操作。具体地,接收用户授权的信息并存储所述授权的信息,其中,所述授权的信息包括账户信息(例如,煤气账户);当根据用户意图确定业务级别后,根据所述业务级别进行封闭域对话,并识别所述封闭域对话中的关键信息;根据所述授权的信息和所述关键信息获取槽位值并填充槽位;及当填充的槽位满足阈值时,执行所述用户意图对应的操作。
例如,当所述智能语音助手存储了用户授权的帮忙家人缴纳煤气费的信息时,所述智能语音助手对用户授权的信息具有记忆功能,可以记住用户的定义的授权信息,不需要多次询问。当用户说“帮我婆婆缴煤气费”,智能助手识别到意图:缴费。根据用户意图确定二级业务为:缴煤气费。识别到所述封闭域对话中的关键信息为“我婆婆(即需缴费用户),缴煤气费”,可根据记忆查找婆婆的煤气账户,直接在应用程序中帮婆婆缴煤气费。
优选地,当用户意图对应的语音指令包含多个平级的业务时,根据所述封闭域对话确定所述多个平级的业务的执行顺序,根据所述执行顺序执行对应的操作。
在用户意图对应的语音指令包含两个平级的业务时就需要澄清用户究竟是想进行哪个业务接口的操作。例如,当用户说“帮我查询一下信用卡业务和贷款业务”,所述智能语音助手就会提示用户“您是要先查询信用卡业务还是贷款业务”;在获取用户回复先查询信用卡业务再查询贷款业务的意图后,所述智能语音助手先执行信用卡业务查询,再执行贷款业务查询。
优选地,当用户意图对应的语音指令包含多个不同级别的业务时,提示用户所述多个不同级别的业务中的最低级别业务所对应的上级业务,再将所述上级业务包含的所有下级业务供用户选择。具体地,当所述用户意图对应的语音指令包含多个不同级别的业务时,根据所述意图与业务级别关联表识别所述多个不同级别的业务中的最低级别业务;查询所述最低级别业务所对应的上级业务;给出所述上级业务所包含的所有下级业务供用户选择。
例如,当用户意图对应的语音指令包含上下级的两个业务时,识别所述两个业务中的上级业务,并发出提示语音给用户澄清所述上级业务下所包含二级业务,并再次通过封闭域对话确认用户的业务需求。当用户说“帮我查看信用卡业务下的智能信贷”,所述智能语音助手就会提示用户“您是要查询贷款业务下的智能信贷吗?信用卡业务下没有智能贷款业务”。当用户确认查询贷款业务时,所述智能语音助手再给出所述贷款业务下的所有下级业务(如快速信贷、智能信贷和现金信贷)供用户选择。
优选地,当填充的槽位不满足阈值时,所述智能语音助手根据槽内缺少的槽位值发出语音提示;当存在多个缺少的槽位值时,所述智能语音助手按照顺序进行语音提示,并根据用户的回复按顺序填充所述缺少的槽位值;启动所述填充的槽位对应的任务,以执行所述用户意图对应的操作。如此,可以在填充的槽位不满足阈值时,根据槽内缺少的槽位值进行针对性的提问。当有多个槽需要澄清时,需按照顺序进行提问,以确保获取用户真实的槽位值信息,方便智能语音助手启动槽对应的任务。
例如,当用户说“我要缴费”,由于并不清楚缴纳什么费,并且是给谁缴费。因此,填充的槽位不满足阈值。此时,所述智能语音助手根据槽内缺少的槽位值发出语音提示。例如,“请问缴纳什么费”“替谁缴费”。由于当前两个缺少的槽位值,所述智能语音助手按照顺序进行语音提示。例如,所述智能语音助手语音提示“请问缴纳什么费”,在收到用户回复“缴煤气费”时,将煤气费填充至所述缺少的槽位值中;所述智能语音助手语音继续提示“替谁缴费”,在用户回复“替我婆婆缴费”时,将我婆婆填充所述缺少的槽位值;启动所述填充的槽位对应的任务(即替婆婆缴煤气费),以查找婆婆的煤气账户,直接在应用程序中帮婆婆缴煤气费。
综上所述,本发明提供的智能交互装置20包括获取模块201、验证模块202、识别模块203、确定模块204及执行模块205。所述获取模块201用于通过智能语音助手获取用户声音信息;所述验证模块202用于根据所述声音信息验证用户身份;所述识别模块203用于当用户身份验证通过后,所述智能语音助手启动开放域对话,根据所述开放域对话识别用户意图;所述确定模块204用于根据所述用户意图确定业务级别;所述识别模块203还用于根据所述业务级别进行封闭域对话,并识别所述封闭域对话中的关键信息;所述获取模块201还用于根据所述关键信息获取槽位值并填充槽位;及所述执行模块205用于当填充的槽位满足阈值时,执行所述用户意图对应的操作。本申请加入用户声纹识别系统,银行智能语音助手被唤醒的同时获取到了用户语音信息,在提取语音中的声纹特征后判别用户身份,在用户用语音控制其操作时,仅需语音验证不需要额外的验证操作,简化操作流程,提高安全性。本发明可以准确识别用户意图,并且在进入封闭域对话后,根据所述用户意图进入一级业务接口,在一级业务接口内进行问答式交流,执行任务更智能,人机交流的交互性更高。另外,本发明可以处理用户意图对应的语音指令包含多个平级的业务和多个不同级别的业务的情况,可以在用户表达不明确时引导用户操作,直到完成整个闭环操作。
上述以软件功能模块的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,双屏设备,或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分。
图3为本发明实施例三提供的电子设备的示意图。
所述电子设备3包括:存储器31、至少一个处理器32、存储在所述存储器31中并可在所述至少一个处理器32上运行的计算机程序33、至少一条通讯总线34及数据库35。
所述至少一个处理器32执行所述计算机程序33时实现上述智能交互方法实施例中的步骤。
示例性的,所述计算机程序33可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在所述存储器31中,并由所述至少一个处理器32执行,以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,所述指令段用于描述所述计算机程序33在所述电子设备3中的执行过程。
所述电子设备3可以是手机、平板电脑、个人数字助理(Personal DigitalAssistant,PDA)等安装有应用程序的设备。本领域技术人员可以理解,所述示意图3仅仅是电子设备3的示例,并不构成对电子设备3的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述电子设备3还可以包括输入输出设备、网络接入设备、总线等。
所述至少一个处理器32可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。所述处理器32可以是微处理器或者所述处理器32也可以是任何常规的处理器等,所述处理器32是所述电子设备3的控制中心,利用各种接口和线路连接整个电子设备3的各个部分。
所述存储器31可用于存储所述计算机程序33和/或模块/单元,所述处理器32通过运行或执行存储在所述存储器31内的计算机程序和/或模块/单元,以及调用存储在存储器31内的数据,实现所述电子设备3的各种功能。所述存储器31可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据电子设备3的使用所创建的数据(比如音频数据等)等。此外,存储器31可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(SecureDigital,SD)卡,闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。
所述存储器31中存储有程序代码,且所述至少一个处理器32可调用所述存储器31中存储的程序代码以执行相关的功能。例如,图2中所述的各个模块(获取模块201、验证模块202、识别模块203、确定模块204及执行模块205)是存储在所述存储器31中的程序代码,并由所述至少一个处理器32所执行,从而实现所述各个模块的功能以达到智能交互的目的。
所述获取模块201用于通过智能语音助手获取用户声音信息;
所述验证模块202用于根据所述声音信息验证用户身份;
所述识别模块203用于当用户身份验证通过后,所述智能语音助手启动开放域对话,根据所述开放域对话识别用户意图;
所述确定模块204用于根据所述用户意图确定业务级别;
所述识别模块203还用于根据所述业务级别进行封闭域对话,并识别所述封闭域对话中的关键信息;
所述获取模块201还用于根据所述关键信息获取槽位值并填充槽位;及
所述执行模块205用于当填充的槽位满足阈值时,执行所述用户意图对应的操作。
所述数据库(Database)35是按照数据结构来组织、存储和管理数据的建立在所述电子设备3上的仓库。数据库通常分为层次式数据库、网络式数据库和关系式数据库三种。在本实施方式中,所述数据库35用于存储用户声音信息等。
所述电子设备3集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,所述计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)。
在本发明所提供的几个实施例中,应所述理解到,所揭露的电子设备和方法,可以通过其它的方式实现。例如,以上所描述的电子设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
另外,在本发明各个实施例中的各功能单元可以集成在相同处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在相同单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或,单数不排除复数。系统权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。
最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神范围。
Claims (10)
1.一种智能交互方法,其特征在于,所述方法包括:
智能语音助手获取用户声音信息;
根据所述声音信息验证用户身份;
当用户身份验证通过后,所述智能语音助手启动开放域对话,根据所述开放域对话识别用户意图;
根据所述用户意图确定业务级别;
根据所述业务级别进行封闭域对话,并识别所述封闭域对话中的关键信息;
根据所述关键信息获取槽位值并填充槽位;及
当填充的槽位满足阈值时,执行所述用户意图对应的操作。
2.如权利要求1所述的智能交互方法,其特征在于,所述根据所述声音信息验证用户身份的步骤包括:
提取所述声音信息中的声纹特征;
将提取的声纹特征与预先构建的声纹模型进行匹配;
当提取的声纹特征与预先构建的声纹模型匹配时,确认所述用户身份验证通过;
当提取的声纹特征与构建的声纹模型不匹配时,确认所述用户身份验证未通过。
3.如权利要求1所述的智能交互方法,其特征在于,通过查询预先建立的意图与业务级别关联表来确定所述业务级别,其中,所述意图与业务级别关联表为根据应用领域的业务逻辑和所述应用领域的知识库建立的意图与业务级别对应关系。
4.如权利要求1所述的智能交互方法,其特征在于,所述方法还包括:
接收用户授权的信息并存储所述授权的信息,其中,所述授权的信息包括账户信息;
当根据用户意图确定业务级别后,根据所述业务级别进行封闭域对话,并识别所述封闭域对话中的关键信息;
根据所述授权的信息和所述关键信息获取槽位值并填充槽位;及
当填充的槽位满足阈值时,执行所述用户意图对应的操作。
5.如权利要求1所述的智能交互方法,其特征在于,当用户意图对应的语音指令包含多个平级的业务时,根据所述封闭域对话确定所述多个平级的业务的执行顺序,根据所述执行顺序执行对应的操作。
6.如权利要求3所述的智能交互方法,其特征在于,所述方法还包括:
当所述用户意图对应的语音指令包含多个不同级别的业务时,根据所述意图与业务级别关联表识别所述多个不同级别的业务中的最低级别业务;
查询所述最低级别业务所对应的上级业务;
给出所述上级业务所包含的所有下级业务供用户选择。
7.如权利要求1所述的智能交互方法,其特征在于,所述方法还包括:
当填充的槽位不满足阈值时,所述智能语音助手根据槽内缺少的槽位值发出语音提示;
当存在多个缺少的槽位值时,所述智能语音助手按照顺序进行语音提示,并根据用户的回复按顺序填充所述缺少的槽位值;
启动所述填充的槽位对应的任务,以执行所述用户意图对应的操作。
8.一种智能交互装置,其特征在于,所述装置包括:
获取模块,用于通过智能语音助手获取用户声音信息;
验证模块,用于根据所述声音信息验证用户身份;
识别模块,用于当用户身份验证通过后,所述智能语音助手启动开放域对话,根据所述开放域对话识别用户意图;
确定模块,用于根据所述用户意图确定业务级别;
所述识别模块,还用于根据所述业务级别进行封闭域对话,并识别所述封闭域对话中的关键信息;
所述获取模块,还用于根据所述关键信息获取槽位值并填充槽位;及
执行模块,用于当填充的槽位满足阈值时,执行所述用户意图对应的操作。
9.一种电子设备,其特征在于,所述电子设备包括处理器和存储器,所述处理器用于执行所述存储器中存储的计算机程序时实现如权利要求1至7中任意一项所述的智能交互方法。
10.一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7中任意一项所述的智能交互方法。
Priority Applications (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN201911319401.2A CN111223485A (zh) | 2019-12-19 | 2019-12-19 | 智能交互方法、装置、电子设备及存储介质 |
| PCT/CN2020/105636 WO2021120631A1 (zh) | 2019-12-19 | 2020-07-29 | 智能交互方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN201911319401.2A CN111223485A (zh) | 2019-12-19 | 2019-12-19 | 智能交互方法、装置、电子设备及存储介质 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| CN111223485A true CN111223485A (zh) | 2020-06-02 |
Family
ID=70827894
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| CN201911319401.2A Pending CN111223485A (zh) | 2019-12-19 | 2019-12-19 | 智能交互方法、装置、电子设备及存储介质 |
Country Status (2)
| Country | Link |
|---|---|
| CN (1) | CN111223485A (zh) |
| WO (1) | WO2021120631A1 (zh) |
Cited By (16)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN111767384A (zh) * | 2020-07-08 | 2020-10-13 | 上海风秩科技有限公司 | 人机对话的处理方法、装置、设备及存储介质 |
| CN111933151A (zh) * | 2020-08-16 | 2020-11-13 | 云知声智能科技股份有限公司 | 通话数据处理的方法、装置、设备及存储介质 |
| CN111986024A (zh) * | 2020-08-25 | 2020-11-24 | 北京文思海辉金信软件有限公司 | 交易处理方法、装置及电子终端 |
| CN112035623A (zh) * | 2020-09-11 | 2020-12-04 | 杭州海康威视数字技术股份有限公司 | 智能问答方法、装置、电子设备及存储介质 |
| CN112331185A (zh) * | 2020-11-10 | 2021-02-05 | 珠海格力电器股份有限公司 | 一种语音交互方法、系统、存储介质及电子设备 |
| CN112740323A (zh) * | 2020-12-26 | 2021-04-30 | 华为技术有限公司 | 一种语音理解方法及装置 |
| CN112820285A (zh) * | 2020-12-29 | 2021-05-18 | 北京搜狗科技发展有限公司 | 一种交互方法和耳机设备 |
| WO2021120631A1 (zh) * | 2019-12-19 | 2021-06-24 | 深圳壹账通智能科技有限公司 | 智能交互方法、装置、电子设备及存储介质 |
| CN113113012A (zh) * | 2021-04-15 | 2021-07-13 | 北京蓦然认知科技有限公司 | 一种基于协作语音交互引擎簇进行交互的方法及装置 |
| WO2022017152A1 (zh) * | 2020-07-24 | 2022-01-27 | 深圳市声扬科技有限公司 | 资源转移方法、装置、计算机设备和存储介质 |
| CN114255752A (zh) * | 2021-12-17 | 2022-03-29 | 中国电信股份有限公司 | 通过语音助手调用应用开放能力的方法、装置和存储介质 |
| CN114329398A (zh) * | 2021-11-25 | 2022-04-12 | 泰康保险集团股份有限公司 | 数据处理方法、装置以及物理机器人 |
| CN115064167A (zh) * | 2022-08-17 | 2022-09-16 | 广州小鹏汽车科技有限公司 | 语音交互方法、服务器和存储介质 |
| CN115146038A (zh) * | 2021-03-31 | 2022-10-04 | 辉达公司 | 具有封闭域和开放域对话集成的对话式ai平台 |
| CN117059095A (zh) * | 2023-07-21 | 2023-11-14 | 广州市睿翔通信科技有限公司 | 基于ivr的服务提供方法、装置、计算机设备及存储介质 |
| WO2023246609A1 (zh) * | 2022-06-24 | 2023-12-28 | 华为技术有限公司 | 语音交互的方法、电子设备和语音助手开发平台 |
Families Citing this family (14)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN113782035A (zh) * | 2021-09-10 | 2021-12-10 | 中国银行股份有限公司 | 业务处理方法、装置、电子设备及存储介质 |
| WO2023042988A1 (en) * | 2021-09-14 | 2023-03-23 | Samsung Electronics Co., Ltd. | Methods and systems for determining missing slots associated with a voice command for an advanced voice interaction |
| CN114356276B (zh) * | 2021-12-22 | 2024-08-23 | 科大讯飞股份有限公司 | 一种语音交互方法以及相关装置 |
| CN114663176A (zh) * | 2022-02-15 | 2022-06-24 | 北京元年科技股份有限公司 | 业务操作执行方法、装置、设备及计算机可读存储介质 |
| CN114974236A (zh) * | 2022-05-07 | 2022-08-30 | 阳光保险集团股份有限公司 | 一种识别用户意图的方法、装置、存储介质及电子设备 |
| CN115527534B (zh) * | 2022-09-07 | 2025-09-02 | 广州小鹏汽车科技有限公司 | 车辆语音交互方法、车辆及存储介质 |
| CN115862622A (zh) * | 2022-11-30 | 2023-03-28 | 航天信息股份有限公司 | 仓库管理信息处理方法、装置、电子设备和存储介质 |
| CN116312521A (zh) * | 2023-03-20 | 2023-06-23 | 长城汽车股份有限公司 | 语音识别方法、装置、语音识别设备及车辆 |
| CN116564302A (zh) * | 2023-03-22 | 2023-08-08 | 南京视通天下数字科技有限公司 | 一种基于ai自主学习的智能语音交互系统 |
| CN116662555B (zh) * | 2023-07-28 | 2023-10-20 | 成都赛力斯科技有限公司 | 一种请求文本处理方法、装置、电子设备及存储介质 |
| CN117312523A (zh) * | 2023-10-17 | 2023-12-29 | 抖音视界有限公司 | 一种提示信息生成方法、装置、计算机设备及存储介质 |
| CN117556864B (zh) * | 2024-01-12 | 2024-04-16 | 阿里云计算有限公司 | 信息处理方法、电子设备及存储介质 |
| CN117725185B (zh) * | 2024-02-06 | 2024-05-07 | 河北神玥软件科技股份有限公司 | 智能对话生成方法及系统 |
| CN118964688B (zh) * | 2024-10-15 | 2025-08-08 | 北京字跳网络技术有限公司 | 交互方法及装置、计算机可读存储介质 |
Citations (6)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN1321295A (zh) * | 1998-10-02 | 2001-11-07 | 国际商业机器公司 | 通过一般分层对象进行有效语音导航的系统 |
| CN103139404A (zh) * | 2013-01-25 | 2013-06-05 | 西安电子科技大学 | 基于语音识别生成交互式语音响应显示菜单的系统和方法 |
| WO2018006489A1 (zh) * | 2016-07-06 | 2018-01-11 | 深圳Tcl数字技术有限公司 | 终端的语音交互方法及装置 |
| CN109671438A (zh) * | 2019-01-28 | 2019-04-23 | 武汉恩特拉信息技术有限公司 | 一种利用语音提供辅助服务的装置及方法 |
| CN109922213A (zh) * | 2019-01-17 | 2019-06-21 | 深圳壹账通智能科技有限公司 | 语音咨询时的数据处理方法、装置、存储介质及终端设备 |
| CN110377720A (zh) * | 2019-07-26 | 2019-10-25 | 中国工商银行股份有限公司 | 智能多轮交互方法和系统 |
Family Cites Families (6)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US10332513B1 (en) * | 2016-06-27 | 2019-06-25 | Amazon Technologies, Inc. | Voice enablement and disablement of speech processing functionality |
| CN106776936B (zh) * | 2016-12-01 | 2020-02-18 | 上海智臻智能网络科技股份有限公司 | 智能交互方法和系统 |
| CN107886948A (zh) * | 2017-11-16 | 2018-04-06 | 百度在线网络技术(北京)有限公司 | 语音交互方法及装置,终端,服务器及可读存储介质 |
| CN108763568A (zh) * | 2018-06-05 | 2018-11-06 | 北京玄科技有限公司 | 智能机器人交互流程的管理方法、多轮对话方法及装置 |
| CN109473108A (zh) * | 2018-12-15 | 2019-03-15 | 深圳壹账通智能科技有限公司 | 基于声纹识别的身份验证方法、装置、设备及存储介质 |
| CN111223485A (zh) * | 2019-12-19 | 2020-06-02 | 深圳壹账通智能科技有限公司 | 智能交互方法、装置、电子设备及存储介质 |
-
2019
- 2019-12-19 CN CN201911319401.2A patent/CN111223485A/zh active Pending
-
2020
- 2020-07-29 WO PCT/CN2020/105636 patent/WO2021120631A1/zh not_active Ceased
Patent Citations (6)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN1321295A (zh) * | 1998-10-02 | 2001-11-07 | 国际商业机器公司 | 通过一般分层对象进行有效语音导航的系统 |
| CN103139404A (zh) * | 2013-01-25 | 2013-06-05 | 西安电子科技大学 | 基于语音识别生成交互式语音响应显示菜单的系统和方法 |
| WO2018006489A1 (zh) * | 2016-07-06 | 2018-01-11 | 深圳Tcl数字技术有限公司 | 终端的语音交互方法及装置 |
| CN109922213A (zh) * | 2019-01-17 | 2019-06-21 | 深圳壹账通智能科技有限公司 | 语音咨询时的数据处理方法、装置、存储介质及终端设备 |
| CN109671438A (zh) * | 2019-01-28 | 2019-04-23 | 武汉恩特拉信息技术有限公司 | 一种利用语音提供辅助服务的装置及方法 |
| CN110377720A (zh) * | 2019-07-26 | 2019-10-25 | 中国工商银行股份有限公司 | 智能多轮交互方法和系统 |
Cited By (21)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO2021120631A1 (zh) * | 2019-12-19 | 2021-06-24 | 深圳壹账通智能科技有限公司 | 智能交互方法、装置、电子设备及存储介质 |
| CN111767384A (zh) * | 2020-07-08 | 2020-10-13 | 上海风秩科技有限公司 | 人机对话的处理方法、装置、设备及存储介质 |
| WO2022017152A1 (zh) * | 2020-07-24 | 2022-01-27 | 深圳市声扬科技有限公司 | 资源转移方法、装置、计算机设备和存储介质 |
| CN111933151A (zh) * | 2020-08-16 | 2020-11-13 | 云知声智能科技股份有限公司 | 通话数据处理的方法、装置、设备及存储介质 |
| CN111986024A (zh) * | 2020-08-25 | 2020-11-24 | 北京文思海辉金信软件有限公司 | 交易处理方法、装置及电子终端 |
| CN112035623A (zh) * | 2020-09-11 | 2020-12-04 | 杭州海康威视数字技术股份有限公司 | 智能问答方法、装置、电子设备及存储介质 |
| CN112331185A (zh) * | 2020-11-10 | 2021-02-05 | 珠海格力电器股份有限公司 | 一种语音交互方法、系统、存储介质及电子设备 |
| CN112331185B (zh) * | 2020-11-10 | 2023-08-11 | 珠海格力电器股份有限公司 | 一种语音交互方法、系统、存储介质及电子设备 |
| CN112740323A (zh) * | 2020-12-26 | 2021-04-30 | 华为技术有限公司 | 一种语音理解方法及装置 |
| CN112820285A (zh) * | 2020-12-29 | 2021-05-18 | 北京搜狗科技发展有限公司 | 一种交互方法和耳机设备 |
| CN112820285B (zh) * | 2020-12-29 | 2024-09-20 | 北京搜狗科技发展有限公司 | 一种交互方法和耳机设备 |
| CN115146038A (zh) * | 2021-03-31 | 2022-10-04 | 辉达公司 | 具有封闭域和开放域对话集成的对话式ai平台 |
| CN115146038B (zh) * | 2021-03-31 | 2025-08-19 | 辉达公司 | 具有封闭域和开放域对话集成的对话式ai平台 |
| CN113113012A (zh) * | 2021-04-15 | 2021-07-13 | 北京蓦然认知科技有限公司 | 一种基于协作语音交互引擎簇进行交互的方法及装置 |
| CN114329398A (zh) * | 2021-11-25 | 2022-04-12 | 泰康保险集团股份有限公司 | 数据处理方法、装置以及物理机器人 |
| CN114255752A (zh) * | 2021-12-17 | 2022-03-29 | 中国电信股份有限公司 | 通过语音助手调用应用开放能力的方法、装置和存储介质 |
| WO2023246609A1 (zh) * | 2022-06-24 | 2023-12-28 | 华为技术有限公司 | 语音交互的方法、电子设备和语音助手开发平台 |
| CN115064167A (zh) * | 2022-08-17 | 2022-09-16 | 广州小鹏汽车科技有限公司 | 语音交互方法、服务器和存储介质 |
| CN115064167B (zh) * | 2022-08-17 | 2022-12-13 | 广州小鹏汽车科技有限公司 | 语音交互方法、服务器和存储介质 |
| CN117059095A (zh) * | 2023-07-21 | 2023-11-14 | 广州市睿翔通信科技有限公司 | 基于ivr的服务提供方法、装置、计算机设备及存储介质 |
| CN117059095B (zh) * | 2023-07-21 | 2024-04-30 | 广州市睿翔通信科技有限公司 | 基于ivr的服务提供方法、装置、计算机设备及存储介质 |
Also Published As
| Publication number | Publication date |
|---|---|
| WO2021120631A1 (zh) | 2021-06-24 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CN111223485A (zh) | 智能交互方法、装置、电子设备及存储介质 | |
| CN112434501B (zh) | 工单智能生成的方法、装置、电子设备及介质 | |
| CN111696558A (zh) | 智能外呼方法、装置、计算机设备及存储介质 | |
| CN110399609B (zh) | 意图识别方法、装置、设备及计算机可读存储介质 | |
| CN111128182B (zh) | 一种智能语音录入方法及装置 | |
| CN113132214B (zh) | 一种对话方法、装置、服务器及存储介质 | |
| CN109727041A (zh) | 智能客服多轮问答方法、设备、存储介质及装置 | |
| CN113159901A (zh) | 融资租赁业务会话的实现方法和装置 | |
| CN109087639B (zh) | 用于语音识别的方法、装置、电子设备及计算机可读介质 | |
| CN112434677B (zh) | 一种合同审核方法、装置、设备和存储介质 | |
| CN112529585A (zh) | 风险交易的交互唤醒方法、装置、设备及系统 | |
| CN112561535A (zh) | 交易纠纷数据处理方法、装置、设备及存储介质 | |
| CN110277098A (zh) | 一种智慧景区信息服务系统 | |
| CN118450053A (zh) | 呼叫业务处理方法、系统、设备、存储介质及程序产品 | |
| CN107590374A (zh) | 语音助手权限的控制方法、智能终端及存储装置 | |
| CN110728984A (zh) | 一种基于语音交互的数据库运维方法及装置 | |
| CN112435127A (zh) | 一种基于区块链的合同签署方法、装置、设备和存储介质 | |
| CN112990868B (zh) | 车辆保险自动赔付方法、系统、设备及存储介质 | |
| CN109871129B (zh) | 人机交互方法、装置、客服设备和存储介质 | |
| CN113781059A (zh) | 一种基于智能语音的身份认证反欺诈方法及系统 | |
| CN111554296B (zh) | 一种客户信息修改方法、装置、服务器及存储介质 | |
| CN110163617B (zh) | 一种支持基于声纹的电视购物支付方法 | |
| CN118571223A (zh) | 语音控制转账方法、装置、设备、介质及程序产品 | |
| CN115602160A (zh) | 基于语音识别的业务办理方法、装置及电子设备 | |
| CN119416762B (zh) | 基于ai语义理解的催收对话生成方法及系统 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| PB01 | Publication | ||
| PB01 | Publication | ||
| SE01 | Entry into force of request for substantive examination | ||
| SE01 | Entry into force of request for substantive examination | ||
| WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20200602 |
|
| WD01 | Invention patent application deemed withdrawn after publication |