CN120236568A - 基于乘员意图动作的语音识别系统 - Google Patents
基于乘员意图动作的语音识别系统 Download PDFInfo
- Publication number
- CN120236568A CN120236568A CN202311836062.1A CN202311836062A CN120236568A CN 120236568 A CN120236568 A CN 120236568A CN 202311836062 A CN202311836062 A CN 202311836062A CN 120236568 A CN120236568 A CN 120236568A
- Authority
- CN
- China
- Prior art keywords
- occupant
- speech
- speech recognition
- controllers
- recognition system
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1815—Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1822—Parsing for meaning understanding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/12—Protocols specially adapted for proprietary or special-purpose networking environments, e.g. medical networks, sensor networks, networks in vehicles or remote metering networks
- H04L67/125—Protocols specially adapted for proprietary or special-purpose networking environments, e.g. medical networks, sensor networks, networks in vehicles or remote metering networks involving control of end-device applications over a network
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/226—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/226—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
- G10L2015/227—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of the speaker; Human-factor methodology
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Artificial Intelligence (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Signal Processing (AREA)
- Computing Systems (AREA)
- Medical Informatics (AREA)
- Computer Networks & Wireless Communication (AREA)
- Quality & Reliability (AREA)
- Traffic Control Systems (AREA)
- Navigation (AREA)
Abstract
一种语音识别系统包括一个或多个控制器,该控制器接收代表乘员产生的语音信号的电信号和代表乘员的头部和上身的图像数据。控制器基于有监督的多类别机器学习算法将代表乘员说出的单词的电信号转换成标记序列,基于标记序列生成一个或多个语句,并执行一个或多个眼睛和身体跟踪算法,以确定一个或多个乘员意图因素。控制器基于乘员意图因素和乘员产生的语音信号的上下文来确定乘员的意图动作。控制器基于乘员生成的语音信号的上下文、意图动作和一个或多个语句来确定免提任务。
Description
技术领域
本公开涉及一种语音识别系统,该语音识别系统至少基于车辆乘员创建的语音信号和乘员的意图动作来确定免提任务,其中,意图动作是基于乘员监控系统捕获的图像数据来确定的。
背景技术
许多车辆包括车厢内语音识别系统,该车厢内语音识别系统允许车辆的驾驶员或乘员基于语音命令与各种车载技术进行交互。尽管语音识别系统允许各种车载技术的免提操作,但是应当理解,语音识别系统也存在一些缺点。例如,一些语音识别系统可能在准确识别乘员身份方面存在问题。作为另一示例,一些语音识别系统也可能在准确解释乘员发出的指令方面存在问题。此外,当多个乘员中的一个发出唤醒指令时,由于背景噪声的影响,一些语音识别系统可能难以识别。结果,乘员可能不得不多次发出唤醒指令,从而无法与语音识别系统进行连续对话。
因此,虽然当前的语音识别系统实现了其预期目的,但是在本领域中需要在语音识别系统确定免提任务时提高准确度。
发明内容
根据几个方面,公开了一种语音识别系统,该语音识别系统包括一个或多个控制器,每个控制器均包括一个或多个处理器,处理器执行指令以接收代表乘员产生的语音信号的电信号和代表乘员的头部和上身的图像数据。一个或多个控制器基于有监督的多类别机器学习算法将代表乘员说出的单词的电信号转换成标记序列,其中,标记序列包括两个或多个标记。一个或多个控制器基于该标记序列生成一个或多个语句。一个或多个控制器执行一个或多个眼睛和身体跟踪算法,以基于代表乘员头部和上身的图像数据来确定一个或多个乘员意图因素。一个或多个控制器执行一个或多个回归机器学习算法,以基于乘员意图因素中的一个或多个来确定乘员的意图动作。一个或多个控制器基于意图动作、一个或多个语句以及乘员的心情来确定乘员产生的语音信号的上下文。一个或多个控制器执行一个或多个模式识别算法,以基于乘员产生的语音信号的上下文、意图动作和一个或多个语句来确定免提任务。
在另一方面,语音识别系统包括与一个或多个控制器电子通信的一个或多个外围系统,其中,一个或多个控制器的一个或多个处理器指示其中一个外围系统执行免提任务。
在又一方面,乘员位于车辆的内部车厢中。
在一方面,一个或多个外围系统包括以下一个或多个:暖通空调(HVAC)系统、收音机、自主驾驶系统、导航系统、信息娱乐系统、照明系统、个人电子设备和基于触觉反馈与乘员通信的智能座椅系统。
在另一方面,语音识别系统还包括与一个或多个控制器电子通信的麦克风,麦克风将乘员产生的语音信号转换为代表语音信号的电信号。
在又一方面,一个或多个控制器的一个或多个处理器执行指令以连续监控麦克风,以获得代表乘员产生的语音信号的电信号。
在一方面,该语音识别系统还包括乘员监控系统,乘员监控系统包括与一个或多个控制器电子通信的乘员监控系统摄像机,其中,乘员监控系统摄像机被定位为捕获代表乘员的头部和上身的图像数据。
在另一方面,为每个标记分配置信度等级。
在又一方面,一个或多个控制器的一个或多个处理器执行指令以将作为标记序列的一部分的每个标记的置信度等级与阈值置信度等级进行比较;响应于确定标记序列的特定标记的置信度等级小于阈值置信度等级,对特定标记执行掩码以创建丢失标记;执行一个或多个大型语言模型,以基于作为标记序列的一部分的相邻标记的上下文来预测丢失标记的内容;以及基于一个或多个机器学习算法来确定丢失标记的内容,以完成一个或多个语句。
在一方面,大型语言模型是基于transformer的双向编码器表示(BERT)模型。
在另一方面,一个或多个机器学习算法是长短期记忆(LSTM)模型。
在又一方面,乘员意图因素包括以下一个或多个:乘员的凝视点、触摸点、一个或多个手势和身体位置。
在一方面,乘员产生的语音信号的上下文是基于以下一个或多个来确定的:当前交通状况、当前日期、当前时间和会话历史。
在另一方面,一个或多个控制器的一个或多个处理器执行指令以通过基于经训练的回归模型分析乘员产生的语音信号来确定乘员的心情。
在又一方面,一个或多个控制器的一个或多个处理器执行指令以执行一个或多个基于历史的大型语言模型,从而基于乘员的会话历史来预测乘员发出的即将到来的语音命令。
在一方面,公开了一种通过语音识别系统确定免提任务的方法。该方法包括由一个或多个控制器接收代表乘员产生的语音信号的电信号和代表乘员的头部和上身的图像数据。该方法包括由一个或多个控制器基于有监督的多类别机器学习算法将代表乘员说出的单词的电信号转换成标记序列,其中,标记序列包括两个或多个标记。该方法包括由一个或多个控制器基于标记序列生成一个或多个语句。该方法还包括由一个或多个控制器执行一个或多个眼睛和身体跟踪算法,以基于代表乘员头部和上身的图像数据确定一个或多个乘员意图因素。该方法还包括由一个或多个控制器执行一个或多个回归机器学习算法,以基于乘员意图因素中的一个或多个来确定该乘员的意图动作。该方法包括基于意图动作、一个或多个语句和乘员的心情来确定乘员产生的语音信号的上下文。最后,该方法包括执行一个或多个模式识别算法,以基于乘员产生的语音信号的上下文、意图动作和一个或多个语句来确定免提任务。
在另一方面,该方法包括指示外围系统执行免提任务。
在又一方面,公开了一种用于车辆的语音识别系统。该语音识别系统包括将车辆乘员产生的语音信号转换成代表语音信号的电信号的麦克风,包括乘员监控系统摄像机的乘员监控系统,乘员监控系统摄像机被定位为捕获代表乘员的头部和上身的图像数据,以及与麦克风和乘员监控系统摄像机电子通信的一个或多个控制器。一个或多个控制器中的每个控制器均包括一个或多个处理器,处理器执行指令以基于有监督的多类别机器学习算法将代表乘员说出的单词的电信号转换成标记序列,其中,标记序列包括两个或多个标记。一个或多个控制器基于该标记序列生成一个或多个语句。一个或多个控制器执行一个或多个眼睛和身体跟踪算法,以基于代表乘员的头部和上身的图像数据来确定一个或多个乘员意图因素。一个或多个控制器执行一个或多个回归机器学习算法,以基于乘员意图因素中的一个或多个来确定乘员的意图动作。一个或多个控制器基于意图动作、一个或多个语句以及乘员的心情来确定乘员产生的语音信号的上下文,以及执行一个或多个模式识别算法,以基于乘员产生的语音信号的上下文、意图动作和一个或多个语句来确定免提任务。
在另一方面,语音识别系统还包括与一个或多个控制器电子通信的一个或多个外围系统,其中,一个或多个控制器的一个或多个处理器指示外围系统中的一个执行免提任务。
在又一方面,一个或多个外围系统包括以下一个或多个:暖通空调(HVAC)系统、收音机、自主驾驶系统、导航系统、信息娱乐系统、照明系统、个人电子设备和基于触觉反馈与乘员通信的智能座椅系统。
从本文提供的描述中,进一步的应用领域将变得清楚明白。应当理解,说明书和具体实施例仅用于说明的目的,而不旨在限制本公开的范围。
附图说明
本文描述的附图仅用于说明的目的并且不旨在以任何方式限制本公开的范围。
图1示出了根据示例性实施例的包括所公开的语音识别系统的车辆的示意图,该语音识别系统包括与麦克风和乘员监控系统电子通信的一个或多个控制器;
图2是示出了根据示例性实施例的图1所示的一个或多个控制器的软件架构的框图;以及
图3是示出了根据示例性实施例的由图1所示的所公开的语音识别系统确定免提任务的方法的过程流程图。
具体实施方式
以下描述本质上仅仅是示例性的,并不旨在限制本公开、应用或使用。
参见图1,示出了包括所公开的语音识别系统12的车辆10。应当理解,车辆10可以是任何类型的车辆,诸如但不限于轿车、卡车、运动型多功能车、货车或房车。在如图1所示的非限制性实施例中,语音识别系统12包括一个或多个控制器20,控制器20与多个感知传感器22、麦克风24、乘员监控系统26、用于执行免提任务的一个或多个外围系统28,以及扬声器30电子通信。应当理解,尽管图1将语音识别系统12示出为车辆的一部分,但是语音识别系统12不限于车辆,并且也可以用于各种其他应用中。例如,在另一实施例中,语音识别系统12可以用在诸如家庭或办公室的建筑物中。
如下所述,语音识别系统12的一个或多个控制器20指示一个或多个外围系统28执行位于车辆10的内部车厢16内的一个或多个个人或乘员38指示的免提任务。在一实施例中,一个或多个外围系统28包括任何车辆系统或子系统,诸如但不限于暖通空调(HVAC)系统、收音机、自主驾驶系统、导航系统、信息娱乐系统、照明系统和基于触觉反馈与乘员38通信的智能座椅系统。在语音识别系统12是诸如住宅的建筑物的一部分的情况下,乘员38改为位于建筑物内的房间或其他封闭空间内,并且一个或多个外围系统28可以包括照明系统,诸如电视机或冰箱的家用电器,以及HVAC系统。在一实施例中,一个或多个外围系统28可以包括车辆10的乘员38的个人电子设备,其中,个人电子设备无线连接到一个或多个控制器20。便携式电子设备可以是例如智能电话、智能手表或平板计算机。
免提任务是乘员38传统上使用他或她的手执行,但是现在语音识别系统12指示一个或多个外围系统28执行免提任务,而不用乘员38手动执行该操作的任何类型的操作。例如,如果外围系统28是收音机,则免提任务可以包括打开收音机、选择要播放的收音机的特定音频文件,或选择特定的收音机频道或电台。在另一示例中,如果外围系统28是智能电话,则免提任务是发送文本消息或进行电话呼叫。所公开的语音识别系统12至少基于车辆10的乘员38创建的语音信号和乘员监控系统26确定的乘员38的意图动作来确定免提任务。如下所述,还可以基于其他输入以及诸如交通状况、日期和时间以及对话历史来确定免提任务。语音信号由麦克风24捕获,并且乘员38的意图动作基于由作为乘员监控系统26的一部分的乘员监控系统摄像机54捕获的图像数据来确定。
多个感知传感器22被配置为收集表示车辆10周围的外部环境14的感知数据,在图1所示的非限制性实施例中,多个感知传感器22包括捕获表示外部环境14的图像数据的一个或多个摄像机40、惯性测量单元(IMU)42、全球定位系统(GPS)44、雷达46和激光雷达48。然而,应当理解,也可以使用附加的传感器。麦克风24表示将声波转换成电信号的设备,其中,电信号由一个或多个控制器20接收。具体地,麦克风24将车辆10的乘员38产生的语音信号转换为表示语音信号的电信号。乘员监控系统26包括乘员监控系统摄像机54,乘员监控系统摄像机54定位为捕获表示车辆10的乘员38的头部和上身的图像数据。
图2示出了图1所示的一个或多个控制器20的软件架构。语音识别系统12的一个或多个控制器20包括语音框70和意图框72。一个或多个控制器20的语音框70包括降噪模块80、语音识别模块82、标记生成模块84、掩码模块86、预测模块88和语句生成模块90。一个或多个控制器20的意图框72包括行为检测模块92、意图模块94、上下文模块96、响应生成模块98和预测模块100。
一个或多个控制器20的语音框70从麦克风24接收表示语音信号的电信号作为输入,其中,语音信号指示乘员38(图1)说出的一个或多个单词。如下所述,语音框70基于语音信号确定代表乘员38说出的单词的一个或多个语句。语音框70的降噪模块80连续监控麦克风24,以获得表示乘员38产生的语音信号的电信号。因此,可以理解,语音识别系统12不需要个人发出激活或唤醒命令。降噪模块80执行一个或多个降噪算法,该降噪算法从表示乘员38产生的语音信号的电信号中降低背景噪声。可以使用的降噪算法的一个示例是傅立叶分析。
语音框70的语音识别模块82从降噪模块80接收表示乘员38产生的语音信号的电信号。语音识别模块82执行一个或多个背景噪声识别算法,该算法提取表示乘员38产生的语音信号的电信号中的背景噪声。背景噪声的一些示例包括但不限于引擎噪声、基于特定类型道路材料的道路噪声、环境噪声或由收音机发射的音乐或其他声音文件。环境噪声可以包括来自诸如高速公路、机场、购物区域和城市区域的源的背景噪声。背景噪声识别算法的一个示例是基于机器学习的模型,训练该模型以从代表乘员38产生的语音信号的电信号中识别并提取背景噪声。
语音识别模块82还执行一个或多个说话者识别算法,该说话者识别算法确定车辆10的多于一个的个体或乘员何时产生语音信号。然后,响应于确定多于一个的个体产生语音信号,一个或多个说话者识别算法通过相应的身份102识别不同的个体。在所示的示例中,有第一个体A、第二个体B和第三个体C。
语音框70的标记生成模块84基于有监督的多类别机器学习算法将从语音识别模块82接收的代表乘员38说出的单词的电信号转换成标记序列,其中,该序列包括两个或多个标记。每个标记代表单词或单词的一部分,或标点。在另一实施方式中,标记是映射到单词数据库的索引号。应当理解,标记序列中的每个标记都被分配了置信度等级,其中,较高的置信度等级代表标记准确地代表乘员38(图1)说出的单词。
接着,语音框70的掩码模块86将作为标记序列的一部分的每一标记的置信度等级与阈值置信度等级进行比较。阈值置信度等级基于语音识别系统12的目标准确度。响应于确定标记序列中的特定标记包括小于阈值置信度的置信度等级,语音框70的掩码模块86对该特定标记执行掩码,以创建丢失标记。
接着,语音框70的预测模块88执行一个或多个大型语言模型,以基于作为标记序列的一部分的邻近标记的上下文来预测丢失标记的内容。可以使用的大型语言模型的一个示例是基于Transformer的双向编码器表示(Bidirectional Encoder Representationsfrom Transformers,BERT)模型。然而,应当理解,也可以使用其他大型语言模型。应当理解,在一些实施例中,基于大型语言模型可能不能准确地预测丢失标记的内容。
语音框70的语句生成模块90基于从大型语言模型接收的标记序列生成一个或多个语句。在标记序列包括丢失标记的情况下,语句生成模块90可基于一个或多个机器学习算法来确定丢失标记的内容以完成一个或多个语句。具体地,在一实施例中,语句生成模块90基于长短期记忆(LSTM)模型来确定丢失标记的内容,以完成代表乘员38说出的单词的一个或多个语句。
一个或多个控制器20的意图框72接收由语音框70确定的一个或多个语句和来自乘员监控系统摄像机54的代表车辆10的乘员38(图1)的头部和上身的图像数据作为输入。意图框72至少基于车辆10的乘员38创建的语音信号和乘员监控系统26的乘员监控系统摄像机54捕获的图像数据来确定免提命令。如下所述,还可以基于其他输入诸如交通状况、日期和时间以及对话历史来确定免提任务。在一实施例中,意图框72可以在没有来自乘员38的基于语音的输入的情况下确定免提任务。即,在一实施例中,意图框72可以基于乘员监控系统26的乘员监控系统摄像机54捕获的图像数据来确定免提任务,而无需车辆10的乘员38创建的语音信号。
意图框72的行为检测模块92接收乘员监控系统26的乘员监控系统摄像机54捕捉的代表乘员38的头部和上身的图像数据作为输入。意图框72的行为检测模块92执行一个或多个眼睛和身体跟踪算法,以基于代表乘员38的头部和上身的图像数据来确定一个或多个乘员意图因素。乘员意图因素可以包括以下一个或多个:乘员38的凝视点、触摸点、一个或多个手势和身体位置。乘员38的凝视点指示眼睛相对于头部的运动,并代表乘员38正在看的位置。触摸点指示乘员38正在接触的部件。例如,乘员38可以使用他或她的手来操纵HVAC系统的旋钮以改变车厢内温度。手势代表乘员38的头部和手部做出的表达想法的运动。乘员38的身体位置指示乘员38的精神状态。例如,身体位置可以指示乘员38何时放松或焦虑。
意图框72的意图模块94通过执行一个或多个回归机器学习算法,基于乘员意图因素(从行为检测模块92接收的乘员38的凝视点、触摸点、一个或多个手势,以及身体位置)中的一个或多个来确定乘员38的意图动作。乘员38的意图动作可以被表达为意图集合,其中,该意图集合指示意图动作以及以下至少一个:乘员38的触摸点、一个或多个手势和身体位置,并且被表示为:{意图动作|凝视点|触摸点|一个或多个手势|身体位置}。例如,如果乘员38由于太热而感到焦虑并希望调节车厢内温度,则意图集合可表示为:{调节车厢内温度|凝视HVAC按钮|乘员身体绷紧}。
意图框72的上下文模块96至少接收来自意图模块94的意图动作、来自语音框70的一个或多个语句,以及来自语音识别模块82的代表乘员38产生的语音信号的电信号。如图2所示,在一实施例中,意图框72的上下文模块96还从作为车辆10的一部分的一个或多个剩余控制器104接收当前交通状况、日期和时间。交通状况指示车辆10正在经历的当前的交通,并且日期和时间指示当前日期和当前时间。在一实施例中,上下文模块96与一个或多个历史数据库106进行电子通信,其中,历史数据库106存储乘员38的会话历史。乘员38的会话历史指示先前的会话,这些会话已经由麦克风24捕获并且由一个或多个控制器20分析以确定免提任务。
意图框72的上下文模块96执行一个或多个机器学习算法,以基于来自意图模块94的意图动作、来自语音框70的一个或多个语句、当前交通状况(如果适用的话)、当前日期(如果适用的话)、当前时间(如果适用的话)、乘员38的会话历史(如果适用的话)以及乘员的心情来确定代表乘员38产生的语音信号的电信号的上下文。机器学习算法可以包括但不限于LSTM模型或基于预测的机器学习模型。上下文模块96通过基于经训练的回归模型分析代表乘员38产生的语音信号的电信号来确定乘员38的心情。应当理解,经训练的回归模型是基于乘员38创建的语音信号来训练的。
意图框72的响应生成模块98接收来自上下文模块96的代表乘员38产生的语音信号的电信号的上下文、来自意图模块94的意图动作、来自语音框70的一个或多个语句,以及乘员38的会话历史(如果适用的话)作为输入。意图框72的响应生成模块98执行一个或多个模式识别算法,该模式识别算法基于受限持续时间内的输入来确定免提任务。在一实施例中,受限的持续时间约为10毫秒。具体地,模式识别算法将针对代表乘员38产生的语音信号的电信号的上下文、意图动作、一个或多个语句以及乘员38的会话历史的当前值与存储在一个或多个历史免提数据库108中的先前确定的免提任务进行比较。一个或多个历史免提数据库108针对每个先前确定的免提任务指示代表乘员38产生的语音信号的电信号的相应上下文、相应意图动作、相应一个或多个语句以及乘员38的相应对话历史。
然后,响应生成模块98指示一个或多个外围系统28执行免提任务。在一实施例中,响应生成模块98还可以指示扬声器30基于代表人类语音的合成或计算机生成的音频输出来播报免提任务。
意图框72的预测模块100执行一个或多个基于历史的大型语言模型,以基于存储在一个或多个历史数据库106中的乘员38的会话历史来预测乘员38发出的即将到来的语音命令。之后,在一实施例中,意图框72的预测模块100可以指示扬声器30播报即将到来的命令。在即将到来的语音命令指示乘员38正在请求免提任务的情况下,预测模块100则指示诸如触摸屏的人机界面(HMI)生成请求乘员38确认免提任务的指令。响应于接收到乘员38的确认,预测模块100还指示一个或多个外围系统28执行免提任务。
图3是示出用于语音识别系统12确定并执行免提任务的方法300的处理流程图。总体参考图1-3,方法300可以在决策框302开始。在框302中,语音框70的降噪模块80连续监控麦克风24,以获得代表乘员38产生的语音信号的电信号。响应于接收到代表乘员38产生的语音信号的电信号,方法300前进到框304。
在框304中,降噪模块80执行一个或多个降噪算法,该算法降低代表乘员38产生的语音信号的电信号中的背景噪声。然后,方法300可以前进到框306。
在框306中,语音框70的语音识别模块82执行一个或多个背景噪声识别算法,该一个或多个背景噪声识别算法提取代表乘员38产生的语音信号的电信号中的背景噪声。语音识别模块82还执行确定多个说话者何时产生语音信号的一个或多个说话者识别算法。然后,方法300可以前进到框308。
在框308中,语音框70的标记生成模块84基于有监督的多类别机器学习算法将从语音识别模块82接收的代表乘员38说出的单词的电信号转换为标记序列,其中,该序列包括两个或多个标记,并且每个标记被分配置信度等级。然后,方法300可以前进到框310。
在框310中,语音框70的掩码模块86将作为标记序列的一部分的每个标记的置信度等级与阈值置信度等级进行比较。然后,方法300可进行到决策框312。
在决策框312中,响应于确定标记序列中的特定标记的置信度等级小于阈值置信度,则方法300前进到框314。在框314中,语音框70的掩码模块86对特定标记进行掩码以创建丢失标记。否则,方法300进行到框320。
然后,在框316中,语音框70的预测模块88执行一个或多个大型语言模型,以基于作为标记序列的一部分的邻近标记的上下文来预测丢失标记的内容。然后,方法300可以前进到框318。
在框318中,语音框70的语句生成模块90基于一个或多个机器学习算法来确定丢失标记的内容,以完成一个或多个语句。然后,方法300可以前进到框320。
在框320中,语音框70的语句生成模块90基于标记序列生成一个或多个语句。然后,方法300可以前进到框322。
在框322中,意图框72的行为检测模块92执行一个或多个眼睛和身体跟踪算法,以基于来自乘员监控系统摄像机54的代表乘员38的头部和上身的图像数据来确定一个或多个乘员意图因素。乘员意图因素可以包括以下一个或多个:乘员38的凝视点、触摸点、一个或多个手势和身体位置。然后,方法300可以前进到框324。
在框324中,意图框72的意图模块94执行一个或多个回归机器学习算法,以基于乘员意图因素中的一个或多个来确定乘员38的意图动作。然后,方法300可以前进到框326。
在框326中,意图框72的上下文模块96基于来自意图模块94的意图动作、来自语音框70的一个或多个语句、当前交通状况(如果适用的话)、当前日期(如果适用的话)、当前时间(如果适用的话)、乘员38的会话历史(如果适用的话)以及乘员的心情来确定乘员38产生的语音信号的上下文。然后,方法300可以前进到框328。
在框328中,意图框72的响应生成模块98执行一个或多个模式识别算法,以基于来自上下文模块96的代表乘员38产生的语音信号的电信号的上下文、来自意图模块94的意图动作、来自语音框70的一个或多个语句,以及乘员38的会话历史(如果适用的话)来确定免提任务。然后,方法300可以前进到框330。
在框330中,意图框72的响应生成模块98指示一个或多个外围系统28执行免提任务。在一实施例中,响应生成模块98还可以指示扬声器30基于代表人类语音的计算机生成的音频输出来播报免提任务。然后,方法300可以前进到框332。
在框332中,意图框72的预测模块100执行一个或多个基于历史的大型语言模型,以基于存储在一个或多个历史数据库106中的乘员38的会话历史来预测乘员38发出的即将到来的语音命令。在实施例中,意图框72的预测模块100指示扬声器30播报即将到来的命令。在即将到来的语音命令指示乘员38正在请求免提任务的情况下,预测模块100指示HMI生成请求乘员38确认免提任务的指令。响应于接收到乘员38的确认,预测模块100还指示一个或多个外围系统28执行免提任务。然后,方法300可以终止。
总体参考附图,所公开的语音识别系统具有各种技术效果和益处。具体地,语音识别系统提供了一种基于乘员的话语结合基于非口头输入确定的乘员意图来确定免提任务的方法。特别地,基于代表乘员头部和上身的图像数据来确定乘员的意图。还应当理解,语音识别系统连续监控乘员的语音,因此所公开的语音识别系统不需要个人发出激活或唤醒命令。相反,语音识别系统可以自然地干预和辅助正在驾驶或执行与车辆操作相关的另一任务的乘员。当确定免提任务时,语音识别系统还可以考虑其他输入,诸如交通状况、当前日期和时间,以及乘员的会话历史。
控制器可以指电子电路、组合逻辑电路、现场可编程门阵列(FPGA)、执行代码的处理器(共享的、专用的或组),或上述的一些或全部的组合,或作为它们的一部分,诸如在片上系统中。另外,控制器可以是基于微处理器的,诸如具有至少一个处理器、存储器(RAM和/或ROM)以及相关的输入和输出总线的计算机。处理器可以在驻留在存储器中的操作系统的控制下操作。操作系统可以管理计算机资源,使得实例化为一个或多个计算机软件应用程序(诸如驻留在存储器中的应用程序)的计算机程序代码可以具有处理器执行的指令。在可替代实施例中,处理器可直接执行应用程序,在此情况下可省略操作系统。
本公开的描述本质上仅是示例性的,并且不脱离本公开的要旨的变型旨在处于本公开的范围内。此类变化不应被视为偏离本公开的精神和范围。
Claims (10)
1.一种语音识别系统,包括:
一个或多个控制器,所述控制器中的每一个均包括一个或多个处理器,所述处理器执行指令以:
接收表示乘员产生的语音信号的电信号和表示所述乘员的头部和上身的图像数据;
基于有监督的多类别机器学习算法将表示所述乘员说出的单词的所述电信号转换成标记序列,其中,所述标记序列包括两个或多个标记;
基于所述标记序列生成一个或多个语句;
执行一个或多个眼睛和身体跟踪算法,以基于表示所述乘员的头部和上身的所述图像数据来确定一个或多个乘员意图因素;
执行一个或多个回归机器学习算法,以基于所述乘员意图因素中的一个或多个来确定所述乘员的意图动作;
基于所述意图动作、所述一个或多个语句和所述乘员的心情来确定所述乘员产生的所述语音信号的上下文;以及
执行一个或多个模式识别算法,以基于所述乘员产生的所述语音信号的上下文、所述意图动作和所述一个或多个语句来确定免提任务。
2.根据权利要求1所述的语音识别系统,还包括:
与所述一个或多个控制器电子通信的一个或多个外围系统,其中,所述一个或多个控制器的所述一个或多个处理器指示所述外围系统中的一个执行所述免提任务。
3.根据权利要求2所述的语音识别系统,其中,所述乘员位于车辆的内部车厢中。
4.根据权利要求3所述的语音识别系统,其中,所述一个或多个外围系统包括以下各项中的一个或多个:暖通空调HVAC系统、收音机、自主驾驶系统、导航系统、信息娱乐系统、照明系统、个人电子设备和基于触觉反馈与乘员通信的智能座椅系统。
5.根据权利要求1所述的语音识别系统,还包括:
与所述一个或多个控制器电子通信的麦克风,所述麦克风将所述乘员产生的所述语音信号转换为表示所述语音信号的所述电信号。
6.根据权利要求5所述的语音识别系统,其中,所述一个或多个控制器的所述一个或多个处理器执行指令以:
持续监控所述麦克风,以获得表示所述乘员产生的所述语音信号的所述电信号。
7.根据权利要求1所述的语音识别系统,还包括:
乘员监控系统,包括与所述一个或多个控制器电子通信的乘员监控系统摄像机,其中,所述乘员监控系统摄像机被定位为捕获表示所述乘员的头部和上身的图像数据。
8.根据权利要求1所述的语音识别系统,其中,针对每个标记分配置信度等级。
9.根据权利要求8所述的语音识别系统,其中,所述一个或多个控制器的所述一个或多个处理器执行指令以:
将作为所述标记序列的一部分的每个标记的置信度等级与阈值置信度等级进行比较;
响应于确定所述标记序列的特定标记的所述置信度等级低于所述阈值置信度等级,对所述特定标记进行掩码以创建丢失标记;
执行一个或多个大型语言模型,以基于作为所述标记序列的一部分的相邻标记的上下文来预测所述丢失标记的内容;以及
基于一个或多个机器学习算法来确定所述丢失标记的内容,以完成所述一个或多个语句。
10.根据权利要求9所述的语音识别系统,其中,所述大型语言模型是基于Transformer的双向编码器表示BERT模型。
Priority Applications (3)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN202311836062.1A CN120236568A (zh) | 2023-12-28 | 2023-12-28 | 基于乘员意图动作的语音识别系统 |
| US18/414,693 US20250218432A1 (en) | 2023-12-28 | 2024-01-17 | Voice recognition system based on an intended action of an occupant |
| DE102024104356.3A DE102024104356A1 (de) | 2023-12-28 | 2024-02-16 | Spracherkennungssystem, das auf einer beabsichtigten aktion eines insassen basiert |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN202311836062.1A CN120236568A (zh) | 2023-12-28 | 2023-12-28 | 基于乘员意图动作的语音识别系统 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| CN120236568A true CN120236568A (zh) | 2025-07-01 |
Family
ID=96021189
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| CN202311836062.1A Pending CN120236568A (zh) | 2023-12-28 | 2023-12-28 | 基于乘员意图动作的语音识别系统 |
Country Status (3)
| Country | Link |
|---|---|
| US (1) | US20250218432A1 (zh) |
| CN (1) | CN120236568A (zh) |
| DE (1) | DE102024104356A1 (zh) |
Family Cites Families (10)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US9250703B2 (en) * | 2006-03-06 | 2016-02-02 | Sony Computer Entertainment Inc. | Interface with gaze detection and voice input |
| CN101669090A (zh) * | 2007-04-26 | 2010-03-10 | 福特全球技术公司 | 情绪提示系统和方法 |
| US8700332B2 (en) * | 2008-11-10 | 2014-04-15 | Volkswagen Ag | Operating device for a motor vehicle |
| JP6233650B2 (ja) * | 2014-05-20 | 2017-11-22 | パナソニックIpマネジメント株式会社 | 操作補助装置および操作補助方法 |
| JP6447578B2 (ja) * | 2016-05-27 | 2019-01-09 | トヨタ自動車株式会社 | 音声対話装置および音声対話方法 |
| US10599645B2 (en) * | 2017-10-06 | 2020-03-24 | Soundhound, Inc. | Bidirectional probabilistic natural language rewriting and selection |
| KR102349402B1 (ko) * | 2019-10-22 | 2022-01-11 | 한국전자기술연구원 | 적응형 추론 시스템 및 이의 운용 방법 |
| CN112016310A (zh) * | 2020-09-03 | 2020-12-01 | 平安科技(深圳)有限公司 | 文本纠错方法、系统、设备及可读存储介质 |
| CN120012787A (zh) * | 2023-11-16 | 2025-05-16 | 上海交通大学 | 基于源端-目标端共同掩码的非自回归机器翻译方法 |
| DE102024132048A1 (de) * | 2023-12-19 | 2025-06-26 | Mercedes-Benz Group AG | Verfahren und System zur Personalisierung der Benutzererfahrung in einem Fahrzeug |
-
2023
- 2023-12-28 CN CN202311836062.1A patent/CN120236568A/zh active Pending
-
2024
- 2024-01-17 US US18/414,693 patent/US20250218432A1/en active Pending
- 2024-02-16 DE DE102024104356.3A patent/DE102024104356A1/de active Pending
Also Published As
| Publication number | Publication date |
|---|---|
| US20250218432A1 (en) | 2025-07-03 |
| DE102024104356A1 (de) | 2025-07-03 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CN109416733B (zh) | 便携式个性化 | |
| US11003414B2 (en) | Acoustic control system, apparatus and method | |
| Hansen et al. | Driver modeling for detection and assessment of driver distraction: Examples from the UTDrive test bed | |
| US20210358496A1 (en) | A voice assistant system for a vehicle cockpit system | |
| US10053113B2 (en) | Dynamic output notification management for vehicle occupant | |
| US20200051566A1 (en) | Artificial intelligence device for providing notification to user using audio data and method for the same | |
| US20170132016A1 (en) | System and method for adapting the user-interface to the user attention and driving conditions | |
| US10095473B2 (en) | Intent managing system | |
| CN115736925A (zh) | 监控操作员疲劳 | |
| CN120080867B (zh) | 车辆控制指令确定方法、装置及车辆 | |
| US20210407517A1 (en) | Artificial intelligence robot for providing voice recognition function and method of operating the same | |
| CN115113739A (zh) | 用于生成表情符号的装置、车辆和用于生成表情符号的方法 | |
| CN117854493A (zh) | 车辆座舱语音意图识别方法、装置及车辆控制方法 | |
| CN117826984A (zh) | 一种车载手语交互方法、装置及计算机可读存储介质 | |
| CN120236568A (zh) | 基于乘员意图动作的语音识别系统 | |
| CN120375824A (zh) | 车载人机交互方法、设备、存储介质及程序产品 | |
| US20250201247A1 (en) | Method and System to Personalize User Experience in a Vehicle | |
| EP4325395A2 (en) | Hybrid rule engine for vehicle automation | |
| US12406667B2 (en) | Method of processing dialogue, user terminal, and dialogue system | |
| KR102371513B1 (ko) | 대화 시스템 및 대화 처리 방법 | |
| US20250263033A1 (en) | Method and System to Integrate a Large Language Model with an In-Vehicle Voice Assistant | |
| US12485756B2 (en) | Vehicle and control method thereof | |
| JP2020157853A (ja) | 車載エージェントシステム、車載エージェントシステムの制御方法、およびプログラム | |
| KR20250082294A (ko) | 대화형 운전 비서 서비스를 제공하는 방법 및 그 시스템 | |
| CN119911288A (zh) | 车辆控制方法以及车辆 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| PB01 | Publication | ||
| PB01 | Publication | ||
| SE01 | Entry into force of request for substantive examination | ||
| SE01 | Entry into force of request for substantive examination |