[go: up one dir, main page]

CN118918889A - 交互处理方法、装置、设备、人机交互系统及程序产品 - Google Patents

交互处理方法、装置、设备、人机交互系统及程序产品 Download PDF

Info

Publication number
CN118918889A
CN118918889A CN202410838407.5A CN202410838407A CN118918889A CN 118918889 A CN118918889 A CN 118918889A CN 202410838407 A CN202410838407 A CN 202410838407A CN 118918889 A CN118918889 A CN 118918889A
Authority
CN
China
Prior art keywords
user
information
intention
interaction
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202410838407.5A
Other languages
English (en)
Inventor
宁宏伟
梅林海
刘权
王士进
刘聪
胡国平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
iFlytek Co Ltd
Original Assignee
iFlytek Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by iFlytek Co Ltd filed Critical iFlytek Co Ltd
Priority to CN202410838407.5A priority Critical patent/CN118918889A/zh
Publication of CN118918889A publication Critical patent/CN118918889A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • G06F40/35Discourse or dialogue representation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/005Language recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本申请提出一种交互处理方法、装置、设备、人机交互系统及程序产品,该方法包括:获取用户交互语音以及多模交互信息,所述多模交互信息包括历史交互信息、用户状态信息、用户行为信息、交互场景信息、环境状态信息中的至少一种;通过对所述用户交互语音以及所述多模交互信息进行规整和意图识别,确定用户意图;所述意图识别用于识别显在意图和潜在意图,所述用户意图包括至少一个显在意图和/或至少一个潜在意图;响应所述用户意图,并生成响应信息。采用上述的交互处理方法能够实现更加智能、更加自然的人机交互。

Description

交互处理方法、装置、设备、人机交互系统及程序产品
技术领域
本申请涉及人工智能技术领域,尤其涉及一种交互处理方法、装置、设备、人机交互系统及程序产品。
背景技术
在传统的人机交互场景中,通常需要对设定好的特定场景、特定参数进行规则定义,对固定的说法进行语义定制,实现规则式交互。在这种交互场景中,用户只能按照交互规则与机器进行交互,即,采用规定的表达方式、与机器进行规定内容的交流。比如,用户通过选择列表中的问题、按照系统指示表达想要咨询的问题等,这样才能触发机器执行自动人机交互响应。
上述的人机交互方式局限性较大,难以满足用户更智能、更自然的交互需求。
发明内容
基于上述技术问题,本申请提出一种交互处理方法、装置、设备、人机交互系统及程序产品,能够实现更加智能、更加自然的人机交互。
本申请第一方面提出一种交互处理方法,包括:
获取用户交互语音以及多模交互信息,所述多模交互信息包括历史交互信息、用户状态信息、用户行为信息、交互场景信息、环境状态信息中的至少一种;
通过对所述用户交互语音以及所述多模交互信息进行规整和意图识别,确定用户意图;所述意图识别用于识别显在意图和潜在意图,所述用户意图包括至少一个显在意图和/或至少一个潜在意图;
响应所述用户意图,并生成响应信息。
在一些实现方式中,所述用户交互语音包括第一语种的用户交互语音,所述第一语种为设定语种集合中的任意一种语种;
所述响应信息包括所述第一语种的响应信息。
在一些实现方式中,通过对所述用户交互语音以及所述多模交互信息进行规整和解析,确定用户意图,包括:
对所述用户交互语音以及所述多模交互信息进行规整处理,得到规整信息;
对所述规整信息进行意图识别,确定用户意图。
在一些实现方式中,对所述用户交互语音以及所述多模交互信息进行规整处理,得到规整信息,包括:
对所述用户交互语音进行识别得到识别文本;
对所述识别文本和所述多模交互信息进行规整处理,得到规整信息;
其中,所述规整处理包括结合上下文的指代消解、关键信息抽取、识别文本改写、多意图拆解中的至少一项。
在一些实现方式中,对所述用户交互语音进行识别得到识别文本,以及,对所述识别文本和所述多模交互信息进行规整处理,得到规整信息,包括:
生成第一任务提示指令,所述第一任务提示指令包括第一任务信息,以及所述用户交互语音和所述多模交互信息,所述第一任务信息用于指示大语言模型对所述用户交互语音进行识别,以及对识别文本和所述多模交互信息进行规整处理,得到规整信息;
将所述第一任务提示指令输入预先训练的大语言模型,以使所述预先训练的大语言模型执行所述第一任务提示指令,得到规整信息。
在一些实现方式中,对所述规整信息进行意图识别,确定用户意图,包括:
基于技能意图集合,对所述规整信息进行意图识别,以从所述技能意图集合中确定出所述规整信息所包含的用户意图,以及对应所述用户意图的技能;
其中,所述技能意图集合,包括多种人机交互技能,以及每种技能各自对应的至少一种交互意图。
在一些实现方式中,基于技能意图集合,对所述规整信息进行意图识别,以从所述功能意图集合中确定出所述规整信息所包含的用户意图,以及对应所述用户意图的技能,包括:
生成第二任务提示指令,所述第二任务提示指令包括第二任务信息以及所述规整信息和所述技能意图集合,所述第二任务信息用于指示大语言模型基于技能意图集合,对规整信息进行意图识别,以从所述技能意图集合中确定出所述规整信息所包含的用户意图,以及对应所述用户意图的技能;
将所述第二任务提示指令输入预先训练的大语言模型,以使所述预先训练的大语言模型执行所述第二任务提示指令,得到所述规整信息所包含的用户意图,以及对应所述用户意图的技能。
在一些实现方式中,响应所述用户意图,并生成响应信息,包括:
通过调用与所述用户意图对应的技能工具,执行与所述用户意图对应的操作;
在操作完毕后,基于操作结果确定响应信息,并基于所述响应信息生成响应语音。
在一些实现方式中,通过调用与所述用户意图对应的技能工具,执行与所述用户意图对应的操作,包括:
对所述用户意图进行解析,确定响应所述用户意图所需的信息和技能工具;
在获取到所述信息和所述技能工具的情况下,通过调用所述技能工具,执行与所述用户意图对应的操作。
在一些实现方式中,在所述用户意图包括至少一个显在意图的情况下,在响应所述用户意图,并生成响应信息后,所述方法还包括:
获取用户语音,并基于所述用户语音以及所述多模态信息,确定用户潜在意图;所述用户语音包括所述用户交互语音和/或在获取所述用户交互语音之后获取的用户语音;
输出与所述用户潜在意图对应的询问消息,所述询问消息用于询问用户是否执行与所述用户潜在意图对应的操作;
当获取到对应所述询问消息的肯定回答时,执行与所述用户潜在意图对应的操作,并生成响应信息。
本申请第二方面提出一种交互处理装置,包括:
信息获取单元,用于获取用户交互语音以及多模交互信息,所述多模交互信息包括历史交互信息、用户状态信息、用户行为信息、交互场景信息、环境状态信息中的至少一种;
信息处理单元,用于通过对所述用户交互语音以及所述多模交互信息进行规整和意图识别,确定用户意图;所述意图识别用于识别显在意图和潜在意图,所述用户意图包括至少一个显在意图和/或至少一个潜在意图;
响应处理单元,用于响应所述用户意图,并生成响应信息。
本申请第三方面提出一种交互处理设备,包括:
存储器和处理器;
所述存储器与所述处理器连接,用于存储程序;
所述处理器用于通过运行所述存储器中的程序,实现如第一方面以及第一方面的各种实现方式中的任意一项所述的交互处理方法。
本申请第四方面提出一种人机交互系统,包括:
人机交互客户端以及人机交互服务端;
其中,所述人机交互客户端用于获取用户交互语音以及多模交互信息,并将获取的用户交互语音以及多模交互信息发送至所述人机交互服务端;所述多模交互信息包括历史交互信息、用户状态信息、用户行为信息、交互场景信息、环境状态信息中的至少一种;
所述人机交互服务端,用于通过对所述用户交互语音以及所述多模交互信息进行规整和意图识别,确定用户意图;所述意图识别用于识别显在意图和潜在意图,所述用户意图包括至少一个显在意图和/或至少一个潜在意图;响应所述用户意图,并生成响应信息。
本申请第五方面提出一种计算机程序产品,包括计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行如第一方面以及第一方面的各种实现方式中的任意一项所述的交互处理方法。
本申请提出的交互处理方法支持用户直接进行语音交互,当人机交互系统接收到用户交互语音时,还获取多模交互信息,然后通过对用户交互语音以及多模交互信息进行规整和意图识别,确定用户的至少一个显在意图和/或至少一个潜在意图,最后响应用户意图并生成响应信息。上述过程实现了基于语音的更自然的人机交互,为用户交互提供了便利,并且,上述的交互处理过程全面识别用户的显在意图和潜在意图,从而能够准确、全面地把握用户意图,进而可以准确、全面地响应用户意图。可以,通过上述的交互处理方法,能够实现更加自然、更加智能的人机交互。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请实施例提供的一种人机交互系统的结构示意图。
图2为本申请实施例提供的一种交互处理方法的流程示意图。
图3为本申请实施例提供的一种交互处理装置的结构示意图。
图4为本申请实施例提供的一种交互处理设备的结构示意图。
具体实施方式
本申请实施例技术方案适用于人机交互的应用场景,采用本申请实施例的技术方案能够实现更加智能、更加自然的人机交互。
在传统的人机交互场景中,通常需要对设定好的特定场景、特定参数进行规则定义,对固定的说法进行语义定制,实现规则式交互。在这种交互场景中,用户只能按照交互规则与机器进行交互,即,采用规定的表达方式、与机器进行规定内容的交流。比如,用户通过选择列表中的问题、按照系统指示表达想要咨询的问题等,这样才能触发机器执行自动人机交互响应。
上述的人机交互方式局限性较大,难以满足用户更智能、更自然的交互需求。
针对上述技术现状和需求,本申请实施例提出一种新的人机交互方案,该方案可应用于人机交互系统,通过执行该方案,可以在人机交互系统中实现与用户进行更加智能、更自然的交互。
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请实施例提出一种交互处理方法,该方法可应用于人机交互系统,参见图1所示,上述的人机交互系统包括人机交互客户端,以及人机交互服务端。其中,人机交互客户端包括输入输出设备,其用于与用户进行交互,比如接受用户输入的提问和指令,以及输出针对用户提问和指令的响应信息;人机交互服务端则用于对用户输入的提问或指令进行解析,对用户的提问或指令进行响应,并生成响应信息。
人机交互客户端和人机交互服务端可以通过任意的通信方式进行通信连接,当用户在人机交互客户端输入问题或指令时,人机交互客户端将获取到的问题或指令发送至人机交互服务端,人机交互服务端通过执行本申请实施例提出的交互处理方法,对获取的问题或指令进行解析和响应,并生成响应信息,然后,人机交互服务端将生成的响应信息发送至人机交互客户端,人机交互客户端对获取的响应信息进行输出,从而使用户获取到该响应信息。
上述的人机交互客户端可以为输入输出设备,比如由键盘、触控屏、麦克风、扫描仪等组成的输入功能组件,由显示器、触控显示屏组件、扬声器等组成的输出功能组件。
上述的人机交互服务端,可以为物理服务器、云服务器、处理器等,还可以是服务器、处理器等运算器件的组合,比如服务器组、处理器组等。
在一些实施例中,上述的人机交互客户端和人机交互服务端也可以集成设置,比如可以集成为具备输入输出设备和处理器的人机交互一体机,比如智能机器人、自助服务终端等。
上述的人机交互系统,具体可应用于任意的任务环境中,比如可应用于车载环境、金融、教育、医疗等任意的可能通过人机交互方式实现相关业务的环境或场景中。
在后续的实施例中,将以上述的人机交互系统应用于车载场景为例,对本申请提出的人机交互处理方法进行示例性的介绍。
在上述的车载场景中,上述人机交互系统的人机交互客户端,可以包括车载显示屏、车载麦克风、车载扬声器、车载操作按键等任意的可支持用户向车机输入信息或获取车机输出信息的功能组件。上述的人机交互系统的人机交互服务端可以为车机控制器、处理器,还可以是与车机网络连接的服务器,比如云服务器等。
基于上述的人机交互系统在车载环境的布置,当用户在车载环境中通过任意方式向人机交互系统输入交互信息时,该人机交互系统的服务端对用户输入的交互信息进行解析和响应,并通过车载环境输出响应信息。
当上述的人机交互系统应用于其他场景或环境中时,该人机交互系统的人机交互客户端和人机交互服务端的具体实现形式,可以根据实际的应用场景或应用环境而确定,该人机交互系统的具体交互处理过程,也可以参照本申请后续实施例的介绍而执行,本申请实施例不再一一举例详述。
本申请实施例提出的交互处理方法具体可以由上述人机交互系统中的人机交互服务端执行,比如由车载人机交互系统的车机控制器、处理器、车机连接的云服务器等执行。
参见图2所示,本申请实施例提出的交互处理方法,包括:
S101、获取用户交互语音以及多模交互信息。
其中,上述的用户交互语音,是指用户在与人机交互系统进行交互的过程中向人机交互系统说出的语音,比如,当用户在车厢中讲话时,车载人机交互系统可以采集到用户讲话语音,该讲话语音即为用户与车载人机交互系统交互的语音。
上述的用户交互语音可以是任意语种、任意内容、任意长度、任意方言的语音音频。
上述多模交互信息,是指在当前或历史人机交互过程中所获取的多种类型、多种模式的数据信息,具体包括历史交互信息、用户状态信息、用户行为信息、交互场景信息、环境状态信息中的至少一种。作为一种优选的实施方式,上述的多模交互信息可以包括历史交互信息、用户状态信息、用户行为信息、交互场景信息、环境状态信息中的全部。
其中,上述的历史交互信息,包括上述的用户在与人机交互系统的历史交过成中所记录的信息,比如历史交互内容、历史交互过程中的用户状态信息、行为信息,等等。上述的历史交互信息可以在用户与人机交互系统的历史交互过程中记录得到。
上述的用户状态信息,是指用户在与人机交互系统进行交互的过程中的用户的身体健康状态、精神状态等信息。该用户状态信息可以由用户主动提供,比如用户向人机交互系统输入用户状态信息,或者也通过信息采集设备采集用户状态信息,比如在车载场景下,可以通过车厢内的传感器、摄像头等数据采集设备,感应或采集用户的状态信息,比如通过压力传感器采集用户体重、通过红外或温度传感器采集用户体温、通过图像采集设备采集用户面部图像进而分析确定用户的精神状态。
上述的用户行为信息,是指用户在与人机交互系统进行交互的过程中的行为信息,比如用户所执行的肢体动作、用户咳嗽或急促呼吸的行为,等等。上述的用户行为信息可以通过监测装置采集得到,比如通过车厢内的摄像头可以采集到用户在车厢内与人机交互系统交互时的行为信息。
上述的交互场景信息,是指用户在与人机交互系统进行交互的过程中的人机交互场景信息,比如用户在与车载人机交互系统进行交互时的车辆状态、车载媒体状态、车厢环境状态,等等。该交互场景信息可以通过场景信息监测装置监测得到,比如通过车厢内的传感器、摄像头、麦克风等检测车厢内的人机交互场景。
上述的环境状态信息,是指用户在与人机交互系统进行交互时的自然环境状态信息,比如季节、气温、地理位置、天气,等等。该环境状态信息可以通过环境状态监测装置监测得到,比如通过传感器、摄像头、定位系统等检测得到上述的环境状态信息。
S102、通过对所述用户交互语音以及所述多模交互信息进行规整和意图识别,确定用户意图。
具体的,当人机交互系统通过人机交互客户端获取到上述的用户交互语音以及多模交互信息后,将用户交互语音以及多模交互信息发送至人机交互服务端。
人机交互服务端对接收的用户交互语音进行识别,得到识别文本。由于用户交互语音可能是任意语种、任意方言的语音,相应的识别文本也是对应语种、对应方言的文本。为了便于后续进行处理,还可以将得到的识别文本进一步转换为中文普通话的识别文本。
然后,对上述的识别文本以及上述的多模交互信息进行规整,得到规整信息。再对该规整信息进行意图识别,即可在当前轮次的人机交互过程中,从用户交互语音中确定出用户意图。
上述的规整处理,包括结合上下文的指代消解、关键信息抽取、识别文本改写、多意图拆解中的至少一项。在一些优选的实施方式中,上述的规整处理可以同时包括结合上下文的指代消解、关键信息抽取、识别文本改写、多意图拆解中的全部处理,从而实现对识别文本和多模交互信息的深入、全面的规整。其中,上述的多意图拆解,是指在用户交互语音中包括多种意图时,将多种意图分别提取出来。
上述规整处理后得到的规整信息保留了用户交互语音以及多模交互信息中的有用信息、剔除了冗余和无用信息,以及实现了指代消解、多意图拆解等,从而更有利于识别用户的意图。
在一些实施例中,人机交互系统的人机交互服务端采用大语音模型实现人机交互处理。即,在人机交互服务端设置大语言模型,用于执行本申请提出的交互处理方法中的处理。
在该实施例中,人机交互服务端在接收到用户交互语音以及多模交互信息时,基于用户交互语音以及多模交互信息生成第一任务提示指令,即生成第一prompt,在该第一任务提示指令中,包括第一任务信息,以及上述的用户交互语音和多模交互信息。
上述的第一任务信息,用于指示大语言模型对指令中的用户交互语音进行识别,以及对识别文本和指令中的多模交互信息进行上述的规整处理,得到规整信息。
示例性的,在上述的规整处理包括结合上下文的指代消解、关键信息抽取、识别文本改写、多意图拆解时,上述的第一任务提示指令具体可以是:
【基于用户与交互系统的历史对话规则理解用户真实意图,并且你需要注意以下几点:
1、你需要使用中文普通话进行输出;
2、基于多轮交互历史的上下文指代消解;
3、对知识类问题进行关键信息抽取;
4、结合多模交互信息和用户输入进行智能改写;
5、对用户多意图分别进行识别;
多模交互信息:xxxxxx
用户交互语音:梁晓声嘅代表作有乜嘢呢?】
然后,人机交互服务端将上述的第一任务提示指令输入预先训练的大语言模型,以使该大语言模型执行该第一任务提示指令,对用户交互语音进行识别得到识别文本,以及,对所述识别文本和所述多模交互信息进行规整处理,得到规整信息。
比如,大语言模型通过执行上述的第一任务提示指令,对用户交互语音进行识别以及规整后,即可将用户交互语音规整为“梁晓声的代表作有哪些?”。
在通过上述处理得到规整信息后,即可对规整信息进行意图识别,确定用户意图。
上述的意图识别,具体包括识别规整信息中的显在意图,以及识别规整信息中的潜在意图。
其中,显在意图是指在规整信息中明确记载或体现的用户意图,该显在意图也是需要明确响应的用户意图;而潜在意图,则是通过规整信息所体现的可能存在的用户意图,该潜在意图是需要进一步与用户确认是否需要响应的意图。
通过对规整信息进行显在意图和潜在意图识别,可以从规整信息中识别得到至少一个显在意图和/或至少一个潜在意图。
上述的用户意图,可以是要求人机交互系统解答用户问题,还可以是帮助用户执行特定操作,比如帮助用户查询饭店、预定饭店、帮助用户实现车机控制,等等。
S103、响应所述用户意图,并生成响应信息。
具体的,在明确用户意图后,人机交互客户端即响应用户意图,比如解答用户问题、执行用户意图中所希望执行的特定操作,等等,在响应用户意图后,生成响应信息,比如生成问题答案、生成表示上述特定操作已完成或未完成的信息,等等。
在另一些实施例中,当人机交互系统的服务端生成响应信息后,还利用响应信息合成语音,进而输出语音形式的响应信息。
其中,人机交互系统的服务端利用响应信息合成语音时,合成的语音的语种与步骤S101中获取的用户交互语音的语种相同。
当用户交互语音为设定语种集合中的第一语种时,人机交互系统基于上述的响应信息合成的响应语音也是第一语种的响应语音,从而可以使输出的响应语音更利于被用户理解。
在另一些实施例中,在生成响应语音时,还可以设定人设和语言风格,按照设定的人设和语言风格进行语音合成,从而生成符合设定的人设和语言风格的响应语音。
通过上述介绍可见,本申请实施例提出的交互处理方法支持用户直接进行语音交互,当人机交互系统接收到用户交互语音时,还获取多模交互信息,然后通过对用户交互语音以及多模交互信息进行规整和意图识别,确定用户的至少一个显在意图和/或至少一个潜在意图,最后响应用户意图并生成响应信息。上述过程实现了基于语音的更自然的人机交互,为用户交互提供了便利,并且,上述的交互处理过程全面识别用户的显在意图和潜在意图,从而能够准确、全面地把握用户意图,进而可以准确、全面地响应用户意图。可以,通过上述的交互处理方法,能够实现更加自然、更加智能的人机交互。
在一些实施例中,对上述的规整信息进行意图识别确定用户意图时,基于技能意图集合,对规整信息进行意图识别,以从上述技能意图集合中确定出规整信息所包含的用户意图,以及对应该用户意图的技能。
其中,上述的技能意图集合,包括多种人机交互技能,以及每种技能各自对应的至少一种交互意图。
上述的技能,是指人机交互系统可以执行或调用的软件或硬件功能,比如在车载人机交互系统中,人机交互系统可以调用车载硬件控制功能,比如空调控制、车机控制、座椅控制等,此外,人机交互系统还可以调用车载软件功能,比如调用车载APP、控制车载APP的开启或关闭、闲聊,等等,上述的软件或硬件功能,均可以作为人机交互系统的技能。
对应上述的每种技能,本申请实施例还分别预先确定对应该技能的各种交互意图。其中,对应技能的交互意图,是指需要通过该技能实现的用户意图。比如,当技能为空调控制时,与之对应的交互意图可能是开启空调、关闭空调、调高空调温度、调低空调温度,等;当技能为闲聊时,与之对应的交互意图可能是回答问题、给出建议、共情对话,等等。
可以理解,上述的技能,表示了人机交互系统可以实现的功能类型,而技能对应的交互意图,则是指对应该技能的具体用户意图,也就是需要通过该技能实现的具体用户需求。
本申请实施例对人机交互系统的各个技能,以及每个技能各自对应的交互意图进行预先确定和采集,得到技能意图集合。在该技能意图集合中,人机交互系统的各项技能,以及各项技能对应的各种交互意图均对应存储。
基于上述的技能意图集合,当人机交互服务端对规整信息进行意图识别时,是在上述的技能意图集合范围内进行识别,以便能够识别到能够被人机交互系统响应的用户意图。
示例性的,人机交互服务端对规整信息进行解析,从中显在的用户意图和潜在的用户意图,并将识别到的用户意图与技能意图集合中的各个意图进行比对,当识别到的用户意图与技能意图集合中的某个意图相同或高度相似时,将技能意图集合中的该意图确定为识别到的用户意图。然后,将技能意图集合中的该意图对应的技能,确定为与识别到的用户意图对应的技能。
在另一些实施例中,人机交互服务端通过调用预先训练的大语言模型,实现上述的规整信息意图识别。
具体的,首先,人机交互服务端基于规整信息以及上述的技能意图集合,生成第二任务提示指令,即第二prompt。在该第二任务提示指令中包括第二任务信息以及上述的规整信息和上述的技能意图集合。
其中,上述的第二任务信息用于指示大语言模型基于技能意图集合,对规整信息进行意图识别,以从技能意图集合中确定出规整信息所包含的用户意图,以及对应所述用户意图的技能。
示例性的,上述的第二任务提示指令具体可以是:
【假设你是一个智能交互助手,基于给定的规整信息和给定的技能意图集合,判断规整信息中所体现的用户意图以及对应的技能。
要求:1.答案按照[{"所属技能":"用户意图"}]的json形式输出;
2.若无适合意图,则预测意图为"other";
3.若无合适技能,则输出other;
技能意图集合:{"空调控制":["开启""关闭""调高""调低"···],"车控":[···],"闲聊":["chat"]}
规整信息:xxxxxx】
然后,人机交互服务端将上述的第二任务提示指令输入预先训练的大语言模型,以使该大语言模型执行该第二任务提示指令,基于指令中的技能意图集合,对指令中的规整信息进行意图识别,以从功能意图集合中确定出规整信息所包含的用户意图,以及对应所述用户意图的技能。
例如,假设上述的规整信息为“今天天气怎么样”,大语言模型执行上述的第二任务提示指令的输出结果为【{"天气":"QUERY_WEATHER"}】;假设上述的规整信息为“播放A的歌曲XX”,大语言模型执行上述的第二任务提示指令的输出结果为【{"音乐":"PLAY_MUSIC"}】。
基于上述的意图识别处理,人机交互系统可以从规整信息中识别出能够被人机交互系统响应的显在用户意图和/或潜在用户意图,并且能够明确响应识别到的用户意图的人机交互技能,从而为后续响应用户意图提供便利。
在另一些实施例中,人机交互服务端响应识别到的用户意图时,可以通过调用识别到的用户意图对应的技能工具来响应。
具体而言,若识别到的用户意图为显在意图,人机交互服务端通过调用与识别到的用户意图对应的技能工具,执行与该用户意图对应的操作。
比如,当用户意图为“开启空调”时,人机交互服务端通过调用空调控制组件,开启空调;当用户意图为“关闭音乐”时,人机交互服务端通过调用多媒体控制组件,关闭音乐。
当人机交互服务端执行与用户意图对应的操作完毕后,基于操作结果确定响应信息,并基于响应信息生成响应语音。
比如,当操作结果为操作成功时,确定表示该操作成功的响应信息,然后将该响应信息合成语音,得到响应语音;当操作结果为操作失败时,确定表示该操作失败的响应信息,然后将该响应信息合成语音,得到响应语音。
例如,假设用户意图为“开启空调”,则人机交互服务端通过调用空调控制组件,开启空调,若空调开启成功,则生成“空调已开启”的响应信息以及相应的响应语音,若空调开启失败,则生成“空调开启失败”的响应信息以及相应的响应语音。
若识别到的用户意图为潜在意图,人机交互服务端首先输出询问消息,该询问消息用于询问用户是否执行与该用户潜在意图对应的操作。
若得到对应该询问消息的否定回答,则人机交互服务端不响应该潜在用户意图。在得到对应该询问消息的肯定回答时,人机交互服务端通过调用与识别到的潜在用户意图对应的技能工具,执行与该用户意图对应的操作。具体操作过程可参见上述的响应显在用户意图的操作过程。
比如,假设用户交互语音为“上一天班腰酸背痛”。通过上述的意图识别,人机交互服务端会识别到“打开座椅按摩”的潜在用户意图。此时,人机交互服务端输出“是否为您打开座椅按摩”的询问消息,当得到用户肯定回答“打开”时,人机交互服务端通过调用座椅按摩控制组件,开启座椅按摩功能;若得到用户否定回答“不必了”时,人机交互服务端不再响应该用户潜在意图。
在一些实施例中,人机交互服务端通过调用预先训练的大语言模型,执行与识别到的用户意图对应的操作。
具体的,首先,人机交互服务端基于识别到的用户意图以及技能工具列表,生成第三任务提示指令,即第三prompt。在该第三任务提示指令中包括第三任务信息以及上述的用户意图以及技能工具列表。
其中,上述的第三任务信息用于指示大语言模型基于技能工具列表中的工具,通过调用与用户意图对应的技能工具,执行与用户意图对应的操作。
示例性的,上述的第三任务提示指令具体可以是:
【你是一个拥有拒识能力且具备调用工具能力的系统,请执行响应以下用户意图的操作。在响应用户意图时,可以选择使用技能工具列表中的工具或者调用外部信息进行操作。
你可以使用的工具有:xxxxxx;
用户意图:xxxxxx】
然后,人机交互服务端将上述的第三任务提示指令输入预先训练的大语言模型,以使该大语言模型执行该第三任务提示指令,基于指令中的技能工具列表,通过调用与用户意图对应的技能工具,执行与用户意图对应的操作。
在一些实施例中,当用户意图为复杂意图时,人机交互服务端先对用户意图以及多模交互信息进行解析,确定响应用户意图所需的信息和技能工具,然后,获取相应用户意图所需的信息和技能工具,在获取到上述信息和技能工具的情况下,通过调用该技能工具,执行与用户意图对应的操作。
具体的,上述的复杂意图,是指通过意图本身的信息无法准确响应的该意图,比如还需要结合其他信息进一步确认用户具体意图或需求,或者需要其他信息才能确认如何响应该意图,即,需要进行一定程度的推导和理解,才能准确响应用户意图的,视为复杂意图。
比如,用户意图为“帮我预定饭店”,此时可以确定用户意图是希望预定饭店,但是并不知道预测何时、何地、哪种类型的饭店,因此该用户意图即为复杂意图。
显然,针对上述的复杂意图,需要结合其他信息,才能响应该用户需求。
因此,在本实施例中,人机交互服务端在识别到用户意图为复杂意图时,对该用户意图进行解析,确定响应该用户意图所需的信息和技能工具。
比如对于上述的用户意图“帮我预定饭店”,人机交互服务端通过对该意图进行解析,可以确定要响应该意图需要明确预定饭店的时间、地点,以及预定哪种类型的饭店。
然后,人机交互服务端通过历史交互信息,或者通过调用外部信息,确定上述的需要进一步明确的信息。比如,通过历史交互上下文识别用户是否指示过预定饭店的时间、地点以及饭店类型,或者通过调用定位系统已经饭店预定APP,确认当前位置范围内可以预定的饭店。
或者,人机交互服务端也可以直接输出询问信息,主动向用户询问需要进一步明确的信息,比如“请问您需要在哪里预定饭店、预定何时的饭店,以及预定哪种类型的饭店?”
通过上述的解析以及信息获取过程,当人机交互服务端获取到响应上述负责的用户意图所需的信息后,进一步获取响应该用户需求所需的技能工具,在获取到该技能工具的情况下,即可基于上述获取的信息,通过调用上述的技能工具,执行与该用户意图对应的操作。比如,当用户回答了“请问您需要在哪里预定饭店、预定何时的饭店,以及预定哪种类型的饭店?”这一问题从而使得人机交互服务端明确在哪里预定什么时间的、什么类型的饭店后,人机交互客户端即可调用饭店预定APP进行饭店预定操作。
在另一些实施例中,上述的对所述用户意图进行解析,确定响应所述用户意图所需的信息和技能工具,以及在获取到所述信息和所述技能工具的情况下,通过调用所述技能工具,执行与所述用户意图对应的操作的处理,可以通过调用大语言模型实现。
示例性的,人机交互服务端基于识别到的用户意图以及技能工具列表、外部信源,生成第四任务提示指令,即第四prompt。在该第四任务提示指令中包括第四任务信息以及上述的用户意图、技能工具列表以及外部信源信息。
其中,上述的第四任务信息用于指示大语言模型对指令中的用户意图进行解析,确定响应所述用户意图所需的信息和技能工具,通过调用工具或外部信源获取所需的信息,以及在获取到所述信息和所述技能工具的情况下,通过调用所述技能工具,执行与所述用户意图对应的操作的处理。
示例性的,上述的第四任务提示指令具体可以是:
【你是一个拥有拒识能力且具备调用工具能力的系统,对以下的用户意图进行解析,明确响应该意图所需的全部信息和技能工具,以及获取所需的信息,在获取到所需的信息和技能工具的情况下,通过调用所述技能工具,执行与所述用户意图对应的操作。在获取所需的信息时,可以选择使用技能工具列表中的工具或者调用外部信源信息,也可以直接向用户提问。你可以按照下面的示例来解析和获取信息。
你可以使用的工具有:xxxxxx;
用户意图:xxxxxx;
外部信源信息:xxxxxx;
以下是一个示例:
用户:帮我导航到离A地最近的酒店。
系统:Thought:要响应该用户意图我需要先明确离A地最近的酒店是哪个。
Action:通过调用地图查询距离A地最近的酒店。
系统:距离A地最近的酒店为好客酒店,请问确认导航到好客酒店吗?
用户:是的。
Action:通过调用地图导航到好客酒店。
然后,人机交互服务端将上述的第四任务提示指令输入预先训练的大语言模型,以使该大语言模型执行该第四任务提示指令,对指令中的用户意图进行解析,确定响应所述用户意图所需的信息和技能工具,通过调用工具或外部信源获取所需的信息,以及在获取到所述信息和所述技能工具的情况下,通过调用所述技能工具,执行与所述用户意图对应的操作的处理。
上述的处理实现了对负责用户意图的解析和响应,即使用户在人机交互过程中表现了复杂的用户意图,也能够使人机交互系统准确理解并响应用户意图,提升了交互体验。
在一些实施例中,人机交互服务端在响应用户意图并生成响应信息时,还结合获取的多模交互信息,来响应用户意图并生成响应信息。
具体的,人机交互服务端在响应用户意图时,先基于获取的多模交互信息,确定是否能够直接响应用户意图,若能够直接响应用户意图,则执行响应用户意图的操作并生成响应信息,若通过多模交互信息确认当前情况不适于直接响应用户意图,则人家交互服务端输出询问消息,向用户再次确认是否执行与用户意图相应的操作,在得到用户肯定回答时,人机交互服务端响应用户意图,执行与用户意图相应的操作,并生成响应信息。
比如,假设用户意图为“打开车窗”,而通过多模交互信息中的天气信息确认当前正在下雨,而车辆正在路上行驶,此时针对该用户意图,人机交互服务端可以确认并适合直接响应用户意图打开车窗。因此,人机交互服务端先输出询问消息“当前正在下雨,而且车辆正在路上行驶,您确认打开车窗吗”,如果收到用户“确认”的回答,则人机交互服务端调用车窗控制组件,打开车窗;如果收到用户“否认”的回答,则人机交互服务端不响应“打开车窗”这一用户意图。
可以理解,在响应用户意图时进一步结合多模交互信息,能够使得对用户意图的响应更加合理、正确,从而能够进一步提高人机交互的智能化水平,提升用户交互体验。
在另一些实施例中,人机交互服务端通过调用预先训练的大语言模型,来响应用户需求并生成响应信息。
示例性的,人机交互服务端基于识别到的用户意图以及多模交互信息,生成第五任务提示指令,即第五prompt。在该第五任务提示指令中包括第五任务信息以及上述的用户意图、多模交互信息。
其中,上述的第五任务信息用于指示大语言模型对指令中的用户意图和多模交互信息进行解析,确定是否响应用户意图,若可以直接响应用户意图,则执行响应用户意图的操作,并在操作结束后生成响应信息。
示例性的,上述的第五任务提示指令具体可以是:
【假设你是一个智能交互助手,请你结合多模交互信息判断是否可以响应用户需求,若可以响应用户需求,则请你通过调用技能工具,执行与所述用户意图对应的操作,并在操作结束后生成响应信息,若不建议直接响应用户需求,则给出适当的理由或建议。
你可以使用的工具有:xxxxxx;
用户意图:xxxxxx;
多模交互信息:xxxxxx。】
然后,人机交互服务端将上述的第五任务提示指令输入预先训练的大语言模型,以使该大语言模型执行该第五任务提示指令,对指令中的用户意图和多模交互信息进行解析,判断是否可以响应用户需求,若可以响应用户需求,则请你通过调用技能工具,执行与所述用户意图对应的操作,并在操作结束后生成响应信息,若不建议直接响应用户需求,则给出适当的理由或建议。
例如,假设用户交互语音为:我昨天在短视频里刷到一个好吃的,你看下这个是正宗的北京菜吗,我挺想去吃的。同时,在多模交互信息中包括用户上传的一张四川火锅的图片,以及包括在采集上述的用户交互语音的同时采集到的用户咳嗽的音频。
此时,大语言模型通过执行上述的第五任务提示指令,对用户交互语音中体现的用户意图以及多模交互信息进行综合解析和判断,最终会生成响应信息“您提供的图片是四川火锅。四川火锅普遍比较辣,您咳嗽的情况,吃辣可能会加重不适。北京的羊蝎子火锅或涮羊肉也很不错,味道鲜美且温和一些。如果确实想念辣味,可以选择微辣版本的四川火锅,这样既能满足您的口味,又能照顾到您的身体状态。希望您尽快康复!”。
在另一些实施例中,当人机交互服务端对用户交互语音以及多模交互信息进行规整和意图识别时,着重识别显在用户意图,在响应识别到的至少一个显在用户意图,并且生成响应信息后,再进一步识别潜在用户意图。
具体的,在响应识别到的至少一个显在用户意图并生成响应信息后,人机交互服务端进一步获取用户语音,并基于用户语音以及所述多模态信息,确定用户潜在意图。
其中,上述的用户语音,可以是包括用户交互语音的语音内容,即从采集用户交互语音的时刻开始持续采集的用户语音,或者也可以是从采集用户交互语音之后开始采集的用户语音。
当从获取的用户语音中识别到用户潜在意图时,人机交互服务端输出与用户潜在意图对应的询问消息,询问用户是否执行与用户潜在意图对应的操作。
当获取到对应上述询问消息的肯定回答时,人机交互服务端执行与用户潜在意图对应的操作,并生成响应信息。
比如,假设在响应用户显在意图完毕后,获取到用户语音“上一天班腰酸背痛”。通过上述的潜在意图识别处理,人机交互服务端会识别到“打开座椅按摩”的潜在用户意图。此时,人机交互服务端输出“是否为您打开座椅按摩”的询问消息,当得到用户肯定回答“打开”时,人机交互服务端通过调用座椅按摩控制组件,开启座椅按摩功能;若得到用户否定回答“不必了”时,人机交互服务端不再响应该用户潜在意图。
在该实施方式中,可以优先响应用户的显在意图,即优先响应用户明确提出的意图,在响应显在用户意图完毕后,再进一步挖掘和响应用户的潜在意图,这样能够更加合理地响应用户意图,可以使得用户的直接需求被及时响应。
与上述的交互处理方法相对应的,本申请实施例还提供了一种交互处理装置,参见图3所示,该装置包括:
信息获取单元100,用于获取用户交互语音以及多模交互信息,所述多模交互信息包括历史交互信息、用户状态信息、用户行为信息、交互场景信息、环境状态信息中的至少一种;
信息处理单元110,用于通过对所述用户交互语音以及所述多模交互信息进行规整和意图识别,确定用户意图;所述意图识别用于识别显在意图和潜在意图,所述用户意图包括至少一个显在意图和/或至少一个潜在意图;
响应处理单元120,用于响应所述用户意图,并生成响应信息。
本实施例提供的交互处理装置,与本申请上述实施例所提供的交互处理方法属于同一申请构思,可执行本申请上述任意实施例所提供的交互处理方法,具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本申请上述实施例提供的交互处理方法的具体处理内容,此处不再加以赘述。
此外,上述的交互处理装置的各个单元的具体工作内容,其具体工作内容的各种实现方式,均与上述的交互处理方法中的相应步骤的各种实现方式相对应,此处也不再一一重复说明。
以上的各个单元所实现的功能可以分别由相同或不同的处理器实现,本申请实施例不作限定。
应理解以上装置中的单元可以以处理器调用软件的形式实现。例如该装置包括处理器,处理器与存储器连接,存储器中存储有指令,处理器调用存储器中存储的指令,以实现以上任一种方法或实现该装置各单元的功能,其中处理器可以为通用处理器,例如CPU或微处理器等,存储器可以为装置内的存储器或装置外的存储器。或者,装置中的单元可以以硬件电路的形式实现,可以通过对硬件电路的设计,实现部分或全部单元的功能,该硬件电路可以理解为一个或多个处理器;例如,在一种实现中,该硬件电路为ASIC,通过对电路内元件逻辑关系的设计,实现以上部分或全部单元的功能;再如,在另一种实现中,该硬件电路可以通过PLD实现,以FPGA为例,其可以包括大量逻辑门电路,通过配置文件来配置逻辑门电路之间的连接关系,从而实现以上部分或全部单元的功能。以上装置的所有单元可以全部通过处理器调用软件的形式实现,或全部通过硬件电路的形式实现,或部分通过处理器调用软件的形式实现,剩余部分通过硬件电路的形式实现。
在本申请实施例中,处理器是一种具有信号的处理能力的电路,在一种实现中,处理器可以是具有指令读取与运行能力的电路,例如CPU、微处理器、GPU、或DSP等;在另一种实现中,处理器可以通过硬件电路的逻辑关系实现一定功能,该硬件电路的逻辑关系是固定的或可以重构的,例如处理器为ASIC或PLD实现的硬件电路,例如FPGA等。在可重构的硬件电路中,处理器加载配置文档,实现硬件电路配置的过程,可以理解为处理器加载指令,以实现以上部分或全部单元的功能的过程。此外,还可以是针对人工智能设计的硬件电路,其可以理解为一种ASIC,例如NPU、TPU、DPU等。
可见,以上装置中的各单元可以是被配置成实施以上方法的一个或多个处理器(或处理电路),例如:CPU、GPU、NPU、TPU、DPU、微处理器、DSP、ASIC、FPGA,或这些处理器形式中至少两种的组合。
此外,以上装置中的各单元可以全部或部分可以集成在一起,或者可以独立实现。在一种实现中,这些单元集成在一起,以SOC的形式实现。该SOC中可以包括至少一个处理器,用于实现以上任一种方法或实现该装置各单元的功能,该至少一个处理器的种类可以不同,例如包括CPU和FPGA,CPU和人工智能处理器,CPU和GPU等。
可选地,本申请实施例还提供了一种人机交互系统,该人机交互系统的结构可参见图1所示。
参见图1,本申请实施例提出的人机交互系统,包括:
人机交互客户端以及人机交互服务端;
其中,所述人机交互客户端用于获取用户交互语音以及多模交互信息,并将获取的用户交互语音以及多模交互信息发送至所述人机交互服务端;所述多模交互信息包括历史交互信息、用户状态信息、用户行为信息、交互场景信息、环境状态信息中的至少一种;
所述人机交互服务端,用于通过对所述用户交互语音以及所述多模交互信息进行规整和意图识别,确定用户意图;所述意图识别用于识别显在意图和潜在意图,所述用户意图包括至少一个显在意图和/或至少一个潜在意图;响应所述用户意图,并生成响应信息。
上述的人机交互客户端以及人机交互服务端的具体实现方式,可以参见上述的对图1所示的系统的介绍。
在一些实现方式中,所述用户交互语音包括第一语种的用户交互语音,所述第一语种为设定语种集合中的任意一种语种;
所述响应信息包括所述第一语种的响应信息。
在一些实现方式中,人机交互服务端通过对所述用户交互语音以及所述多模交互信息进行规整和解析,确定用户意图,包括:
对所述用户交互语音以及所述多模交互信息进行规整处理,得到规整信息;
对所述规整信息进行意图识别,确定用户意图。
在一些实现方式中,人机交互服务端对所述用户交互语音以及所述多模交互信息进行规整处理,得到规整信息,包括:
对所述用户交互语音进行识别得到识别文本;
对所述识别文本和所述多模交互信息进行规整处理,得到规整信息;
其中,所述规整处理包括结合上下文的指代消解、关键信息抽取、识别文本改写、多意图拆解中的至少一项。
在一些实现方式中,人机交互服务端对所述用户交互语音进行识别得到识别文本,以及,对所述识别文本和所述多模交互信息进行规整处理,得到规整信息,包括:
生成第一任务提示指令,所述第一任务提示指令包括第一任务信息,以及所述用户交互语音和所述多模交互信息,所述第一任务信息用于指示大语言模型对所述用户交互语音进行识别,以及对识别文本和所述多模交互信息进行规整处理,得到规整信息;
将所述第一任务提示指令输入预先训练的大语言模型,以使所述预先训练的大语言模型执行所述第一任务提示指令,得到规整信息。
在一些实现方式中,人机交互服务端对所述规整信息进行意图识别,确定用户意图,包括:
基于技能意图集合,对所述规整信息进行意图识别,以从所述技能意图集合中确定出所述规整信息所包含的用户意图,以及对应所述用户意图的技能;
其中,所述技能意图集合,包括多种人机交互技能,以及每种技能各自对应的至少一种交互意图。
在一些实现方式中,人机交互服务端基于技能意图集合,对所述规整信息进行意图识别,以从所述功能意图集合中确定出所述规整信息所包含的用户意图,以及对应所述用户意图的技能,包括:
生成第二任务提示指令,所述第二任务提示指令包括第二任务信息以及所述规整信息和所述技能意图集合,所述第二任务信息用于指示大语言模型基于技能意图集合,对规整信息进行意图识别,以从所述技能意图集合中确定出所述规整信息所包含的用户意图,以及对应所述用户意图的技能;
将所述第二任务提示指令输入预先训练的大语言模型,以使所述预先训练的大语言模型执行所述第二任务提示指令,得到所述规整信息所包含的用户意图,以及对应所述用户意图的技能。
在一些实现方式中,人机交互服务端响应所述用户意图,并生成响应信息,包括:
通过调用与所述用户意图对应的技能工具,执行与所述用户意图对应的操作;
在操作完毕后,基于操作结果确定响应信息,并基于所述响应信息生成响应语音。
在一些实现方式中,人机交互服务端通过调用与所述用户意图对应的技能工具,执行与所述用户意图对应的操作,包括:
对所述用户意图进行解析,确定响应所述用户意图所需的信息和技能工具;
在获取到所述信息和所述技能工具的情况下,通过调用所述技能工具,执行与所述用户意图对应的操作。
在一些实现方式中,在所述用户意图包括至少一个显在意图的情况下,在响应所述用户意图,并生成响应信息后,人机交互服务端还用于:
获取用户语音,并基于所述用户语音以及所述多模态信息,确定用户潜在意图;所述用户语音包括所述用户交互语音和/或在获取所述用户交互语音之后获取的用户语音;
输出与所述用户潜在意图对应的询问消息,所述询问消息用于询问用户是否执行与所述用户潜在意图对应的操作;
当获取到对应所述询问消息的肯定回答时,执行与所述用户潜在意图对应的操作,并生成响应信息。
本实施例提供的人机交互系统,与本申请上述实施例所提供的交互处理方法属于同一申请构思,可执行本申请上述任意实施例所提供的交互处理方法,具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本申请上述实施例提供的交互处理方法的具体处理内容,此处不再加以赘述。
本申请另一实施例还提出一种交互处理设备,参见图4所示,该设备包括:
存储器200和处理器210;
其中,所述存储器200与所述处理器210连接,用于存储程序;
所述处理器210,用于通过运行所述存储器200中存储的程序,实现上述任一实施例公开的交互处理方法。
具体的,上述交互处理设备还可以包括:总线、通信接口220、输入设备230和输出设备240。
处理器210、存储器200、通信接口220、输入设备230和输出设备240通过总线相互连接。其中:
总线可包括一通路,在计算机系统各个部件之间传送信息。
处理器210可以是通用处理器,例如通用中央处理器(CPU)、微处理器等,也可以是特定应用集成电路(application-specific integrated circuit,ASIC),或一个或多个用于控制本发明方案程序执行的集成电路。还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
处理器210可包括主处理器,还可包括基带芯片、调制解调器等。
存储器200中保存有执行本发明技术方案的程序,还可以保存有操作系统和其他关键业务。具体地,程序可以包括程序代码,程序代码包括计算机操作指令。更具体的,存储器200可以包括只读存储器(read-only memory,ROM)、可存储静态信息和指令的其他类型的静态存储设备、随机存取存储器(random access memory,RAM)、可存储信息和指令的其他类型的动态存储设备、磁盘存储器、flash等等。
输入设备230可包括接收用户输入的数据和信息的装置,例如键盘、鼠标、摄像头、扫描仪、光笔、语音输入装置、触摸屏、计步器或重力感应器等。
输出设备240可包括允许输出信息给用户的装置,例如显示屏、打印机、扬声器等。
通信接口220可包括使用任何收发器一类的装置,以便与其他设备或通信网络通信,如以太网,无线接入网(RAN),无线局域网(WLAN)等。
处理器210执行存储器200中所存放的程序,以及调用其他设备,可用于实现本申请上述实施例所提供的任意一种交互处理方法的各个步骤。
除了上述方法和设备以外,本申请的实施例还可以是计算机程序产品,其包括计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述任意实施例中描述的交互处理方法中的步骤。
所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本申请实施例操作的程序代码,所述程序设计语言包括面向对象的程序设计语言,诸如Java、C++等,还包括常规的过程式程序设计语言,诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。
此外,本申请的实施例还可以是存储介质,其上存储有计算机程序,计算机程序被处理器执行本说明书上述任意实施例中描述的交互处理方法中的步骤。
对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本申请各实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减,各实施例中记载的技术特征可以进行替换或者组合。
本申请各实施例种装置及终端中的模块和子模块可以根据实际需要进行合并、划分和删减。
本申请所提供的几个实施例中,应该理解到,所揭露的终端,装置和方法,可以通过其它的方式实现。例如,以上所描述的终端实施例仅仅是示意性的,例如,模块或子模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个子模块或模块可以结合或者可以集成到另一个模块,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。
作为分离部件说明的模块或子模块可以是或者也可以不是物理上分开的,作为模块或子模块的部件可以是或者也可以不是物理模块或子模块,即可以位于一个地方,或者也可以分布到多个网络模块或子模块上。可以根据实际的需要选择其中的部分或者全部模块或子模块来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能模块或子模块可以集成在一个处理模块中,也可以是各个模块或子模块单独物理存在,也可以两个或两个以上模块或子模块集成在一个模块中。上述集成的模块或子模块既可以采用硬件的形式实现,也可以采用软件功能模块或子模块的形式实现。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件单元,或者二者的结合来实施。软件单元可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
对所公开的实施例的上述说明,使本领域技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (14)

1.一种交互处理方法,其特征在于,包括:
获取用户交互语音以及多模交互信息,所述多模交互信息包括历史交互信息、用户状态信息、用户行为信息、交互场景信息、环境状态信息中的至少一种;
通过对所述用户交互语音以及所述多模交互信息进行规整和意图识别,确定用户意图;所述意图识别用于识别显在意图和潜在意图,所述用户意图包括至少一个显在意图和/或至少一个潜在意图;
响应所述用户意图,并生成响应信息。
2.根据权利要求1所述的方法,其特征在于,所述用户交互语音包括第一语种的用户交互语音,所述第一语种为设定语种集合中的任意一种语种;
所述响应信息包括所述第一语种的响应信息。
3.根据权利要求1或2所述的方法,其特征在于,通过对所述用户交互语音以及所述多模交互信息进行规整和解析,确定用户意图,包括:
对所述用户交互语音以及所述多模交互信息进行规整处理,得到规整信息;
对所述规整信息进行意图识别,确定用户意图。
4.根据权利要求3所述的方法,其特征在于,对所述用户交互语音以及所述多模交互信息进行规整处理,得到规整信息,包括:
对所述用户交互语音进行识别得到识别文本;
对所述识别文本和所述多模交互信息进行规整处理,得到规整信息;
其中,所述规整处理包括结合上下文的指代消解、关键信息抽取、识别文本改写、多意图拆解中的至少一项。
5.根据权利要求4所述的方法,其特征在于,对所述用户交互语音进行识别得到识别文本,以及,对所述识别文本和所述多模交互信息进行规整处理,得到规整信息,包括:
生成第一任务提示指令,所述第一任务提示指令包括第一任务信息,以及所述用户交互语音和所述多模交互信息,所述第一任务信息用于指示大语言模型对所述用户交互语音进行识别,以及对识别文本和所述多模交互信息进行规整处理,得到规整信息;
将所述第一任务提示指令输入预先训练的大语言模型,以使所述预先训练的大语言模型执行所述第一任务提示指令,得到规整信息。
6.根据权利要求3所述的方法,其特征在于,对所述规整信息进行意图识别,确定用户意图,包括:
基于技能意图集合,对所述规整信息进行意图识别,以从所述技能意图集合中确定出所述规整信息所包含的用户意图,以及对应所述用户意图的技能;
其中,所述技能意图集合,包括多种人机交互技能,以及每种技能各自对应的至少一种交互意图。
7.根据权利要求6所述的方法,其特征在于,基于技能意图集合,对所述规整信息进行意图识别,以从所述功能意图集合中确定出所述规整信息所包含的用户意图,以及对应所述用户意图的技能,包括:
生成第二任务提示指令,所述第二任务提示指令包括第二任务信息以及所述规整信息和所述技能意图集合,所述第二任务信息用于指示大语言模型基于技能意图集合,对规整信息进行意图识别,以从所述技能意图集合中确定出所述规整信息所包含的用户意图,以及对应所述用户意图的技能;
将所述第二任务提示指令输入预先训练的大语言模型,以使所述预先训练的大语言模型执行所述第二任务提示指令,得到所述规整信息所包含的用户意图,以及对应所述用户意图的技能。
8.根据权利要求1或2所述的方法,其特征在于,响应所述用户意图,并生成响应信息,包括:
通过调用与所述用户意图对应的技能工具,执行与所述用户意图对应的操作;
在操作完毕后,基于操作结果确定响应信息,并基于所述响应信息生成响应语音。
9.根据权利要求8所述的方法,其特征在于,通过调用与所述用户意图对应的技能工具,执行与所述用户意图对应的操作,包括:
对所述用户意图进行解析,确定响应所述用户意图所需的信息和技能工具;
在获取到所述信息和所述技能工具的情况下,通过调用所述技能工具,执行与所述用户意图对应的操作。
10.根据权利要求1或2所述的方法,其特征在于,在所述用户意图包括至少一个显在意图的情况下,在响应所述用户意图,并生成响应信息后,所述方法还包括:
获取用户语音,并基于所述用户语音以及所述多模态信息,确定用户潜在意图;所述用户语音包括所述用户交互语音和/或在获取所述用户交互语音之后获取的用户语音;
输出与所述用户潜在意图对应的询问消息,所述询问消息用于询问用户是否执行与所述用户潜在意图对应的操作;
当获取到对应所述询问消息的肯定回答时,执行与所述用户潜在意图对应的操作,并生成响应信息。
11.一种交互处理装置,其特征在于,包括:
信息获取单元,用于获取用户交互语音以及多模交互信息,所述多模交互信息包括历史交互信息、用户状态信息、用户行为信息、交互场景信息、环境状态信息中的至少一种;
信息处理单元,用于通过对所述用户交互语音以及所述多模交互信息进行规整和意图识别,确定用户意图;所述意图识别用于识别显在意图和潜在意图,所述用户意图包括至少一个显在意图和/或至少一个潜在意图;
响应处理单元,用于响应所述用户意图,并生成响应信息。
12.一种交互处理设备,其特征在于,包括:
存储器和处理器;
所述存储器与所述处理器连接,用于存储程序;
所述处理器用于通过运行所述存储器中的程序,实现如权利要求1至10中任意一项所述的交互处理方法。
13.一种人机交互系统,其特征在于,包括:
人机交互客户端以及人机交互服务端;
其中,所述人机交互客户端用于获取用户交互语音以及多模交互信息,并将获取的用户交互语音以及多模交互信息发送至所述人机交互服务端;所述多模交互信息包括历史交互信息、用户状态信息、用户行为信息、交互场景信息、环境状态信息中的至少一种;
所述人机交互服务端,用于通过对所述用户交互语音以及所述多模交互信息进行规整和意图识别,确定用户意图;所述意图识别用于识别显在意图和潜在意图,所述用户意图包括至少一个显在意图和/或至少一个潜在意图;响应所述用户意图,并生成响应信息。
14.一种计算机程序产品,其特征在于,包括计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行如权利要求1至10中任意一项所述的交互处理方法。
CN202410838407.5A 2024-06-26 2024-06-26 交互处理方法、装置、设备、人机交互系统及程序产品 Pending CN118918889A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410838407.5A CN118918889A (zh) 2024-06-26 2024-06-26 交互处理方法、装置、设备、人机交互系统及程序产品

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410838407.5A CN118918889A (zh) 2024-06-26 2024-06-26 交互处理方法、装置、设备、人机交互系统及程序产品

Publications (1)

Publication Number Publication Date
CN118918889A true CN118918889A (zh) 2024-11-08

Family

ID=93307642

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410838407.5A Pending CN118918889A (zh) 2024-06-26 2024-06-26 交互处理方法、装置、设备、人机交互系统及程序产品

Country Status (1)

Country Link
CN (1) CN118918889A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN119993163A (zh) * 2025-04-11 2025-05-13 科大讯飞股份有限公司 语音识别方法及相关装置、设备和存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111665941A (zh) * 2020-06-07 2020-09-15 济南大学 一种面向虚拟实验的多模态语义融合人机交互系统和方法
CN111966320A (zh) * 2020-08-05 2020-11-20 湖北亿咖通科技有限公司 用于车辆的多模态交互方法、存储介质以及电子设备
CN111968631A (zh) * 2020-06-29 2020-11-20 百度在线网络技术(北京)有限公司 智能设备的交互方法、装置、设备及存储介质
US20210191506A1 (en) * 2018-01-26 2021-06-24 Institute Of Software Chinese Academy Of Sciences Affective interaction systems, devices, and methods based on affective computing user interface
US20230274743A1 (en) * 2021-01-28 2023-08-31 Embodied, Inc. Methods and systems enabling natural language processing, understanding, and generation

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210191506A1 (en) * 2018-01-26 2021-06-24 Institute Of Software Chinese Academy Of Sciences Affective interaction systems, devices, and methods based on affective computing user interface
CN111665941A (zh) * 2020-06-07 2020-09-15 济南大学 一种面向虚拟实验的多模态语义融合人机交互系统和方法
CN111968631A (zh) * 2020-06-29 2020-11-20 百度在线网络技术(北京)有限公司 智能设备的交互方法、装置、设备及存储介质
CN111966320A (zh) * 2020-08-05 2020-11-20 湖北亿咖通科技有限公司 用于车辆的多模态交互方法、存储介质以及电子设备
US20230274743A1 (en) * 2021-01-28 2023-08-31 Embodied, Inc. Methods and systems enabling natural language processing, understanding, and generation

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN119993163A (zh) * 2025-04-11 2025-05-13 科大讯飞股份有限公司 语音识别方法及相关装置、设备和存储介质
CN119993163B (zh) * 2025-04-11 2025-07-11 科大讯飞股份有限公司 语音识别方法及相关装置、设备和存储介质

Similar Documents

Publication Publication Date Title
US11302302B2 (en) Method, apparatus, device and storage medium for switching voice role
CN113763925B (zh) 语音识别方法、装置、计算机设备及存储介质
CN109712646A (zh) 语音播报方法、装置和终端
WO2025060626A1 (zh) 文本处理方法、装置、电子设备和存储介质
CN118918889A (zh) 交互处理方法、装置、设备、人机交互系统及程序产品
CN118916443A (zh) 信息检索方法、装置以及电子设备
CN118861427A (zh) 推荐问题生成方法、装置、相关设备及计算机程序产品
CN118657216A (zh) 融合多模态信息和本体知识的机器人任务推理方法及系统
CN114168706A (zh) 智能对话能力测试方法、介质和测试设备
CN113127729A (zh) 家居方案的推荐方法、装置、电子设备及存储介质
CN120375824A (zh) 车载人机交互方法、设备、存储介质及程序产品
WO2025148929A1 (zh) 一种可见可说的实现方法、装置和车辆
EP4697200A1 (en) Human-computer interaction method and electronic device
CN119007754A (zh) 信息处理方法、装置、电子设备及存储介质
CN119181361A (zh) 语音交互方法、装置、设备、介质及产品
KR20240040859A (ko) 심리지원 챗봇 서비스 제공 방법
CN118280356A (zh) 语音交互方法、电子设备、车辆及存储介质
CN113961680B (zh) 基于人机交互的会话处理方法及装置、介质、电子设备
CN117435704A (zh) 车载对话系统回复语生成方法、装置、车辆及存储介质
CN119864026B (zh) 语音识别方法、装置、设备、系统及程序产品
JP2022032691A (ja) 情報処理装置、プログラム及び情報処理方法
JP7710583B2 (ja) システム
JP7761307B1 (ja) 対話システム、対話方法、対話プログラムおよび対話デバイス
CN119864025A (zh) 语音交互方法、装置、设备、芯片、介质及产品
Griol et al. Integration of context-aware conversational interfaces to develop practical applications for mobile devices

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination