CN120803266A

CN120803266A - 驾驶处理方法、装置、存储介质以及电子设备

Info

Publication number: CN120803266A
Application number: CN202510907586.8A
Authority: CN
Inventors: 杨颖慧
Original assignee: Beijing Vision World Technology Co ltd
Current assignee: Beijing Vision World Technology Co ltd
Priority date: 2025-07-01
Filing date: 2025-07-01
Publication date: 2025-10-17

Abstract

本申请实施例公开了一种驾驶处理方法、装置、存储介质以及电子设备，所述方法包括：在车辆驾驶场景中，获取用户针对车载陪伴虚拟形象输入的陪伴交互数据，基于陪伴交互数据采用车载互动大模型进行情感状态推理得到针对用户的响应情感类别和确定针对用户的对话响应内容，基于响应情感类别和对话响应内容确定针对车载陪伴虚拟形象的陪伴动作响应数据，基于陪伴动作响应数据控制车载陪伴虚拟形象进行用户陪伴响应处理。由此，丰富了车载陪伴虚拟形象的互动方式，并且使得车载陪伴虚拟形象的交互方式具有真实情感，增加了车载陪伴虚拟形象的陪伴感。

Description

驾驶处理方法、装置、存储介质以及电子设备

技术领域

本申请涉及计算机技术领域，尤其涉及一种驾驶处理方法、装置、存储介质以及电子设备。

背景技术

随着智能驾驶技术和人工智能技术的发展，车载陪伴机器人能够准确理解用户的语音指令，在驾驶员不方便进行手动操作时，可以轻松控制车辆的各项功能或获取实时信息，如导航、天气、新闻等信息，提升了驾驶过程中的安全性和便利性。

相关技术中，车载陪伴机器人的功能也在不断扩展，因此，如何丰富车载陪伴机器人的交互功能，是本领域技术人员亟需解决的技术问题。

发明内容

本申请实施例提供了一种驾驶处理方法、装置、存储介质以及电子设备。所述技术方案如下：

第一方面，本申请实施例提供了一种驾驶处理方法，所述方法包括：

在车辆驾驶场景中，获取用户针对车载陪伴虚拟形象输入的陪伴交互数据；

基于所述陪伴交互数据采用车载互动大模型进行情感状态推理得到针对所述用户的响应情感类别和确定针对所述用户的对话响应内容；

基于所述响应情感类别和所述对话响应内容确定针对所述车载陪伴虚拟形象的陪伴动作响应数据；

基于所述陪伴动作响应数据控制所述车载陪伴虚拟形象进行用户陪伴响应处理。

结合第一方面，在某些可能的实施方式中，所述基于所述陪伴交互数据采用车载互动大模型进行情感状态推理得到针对所述用户的响应情感类别和确定针对所述用户的对话响应内容，包括：

将所述陪伴交互数据输入至车载互动大模型，通过所述车载互动大模型确定语音声学特征、面部表情特征、对话输入文本，基于所述语音声学特征、所述面部表情特征和所述对话输入文本进行情感识别处理得到用户情感类别，基于所述用户情感类别进行情感匹配处理得到针对所述用户的响应情感类别；

通过所述车载互动大模型基于所述对话输入文本和所述响应情感类别匹配对话响应内容。

结合上述实施方式，在某些可能的实施方式中，所述通过所述车载互动大模型基于所述对话输入文本和所述响应情感类别匹配对话响应内容，包括：

通过所述车载互动大模型基于所述对话输入文本确定对话意图，基于所述对话意图确定对话响应素材，以及基于所述对话响应素材进行对话扩充处理得到初始对话响应内容；

通过所述车载互动大模型基于所述响应情感类别对所述初始对话响应内容进行对话匹配处理得到对话响应内容。

结合上述实施方式，在某些可能的实施方式中，所述基于所述对话意图确定对话响应素材，包括：

确定所述用户对应的话题素材偏好，基于所述对话意图和所述话题素材偏好进行对话素材联想处理得到对话响应素材。

结合第一方面，在某些可能的实施方式中，所述基于所述响应情感类别和所述对话响应内容确定针对所述车载陪伴虚拟形象的陪伴动作响应数据，包括：

基于所述响应情感类别和所述对话响应内容确定所述车载陪伴虚拟形象的语音输出模式和形象演示剧本；

基于所述形象演示剧本确定所述车载陪伴虚拟形象对应的陪伴动作数据；

基于所述对话响应内容采用所述语音输出模式生成所述车载陪伴虚拟形象对应的陪伴语音数据；

基于所述陪伴动作数据和所述陪伴语音数据生成陪伴动作响应数据。

结合上述实施方式，在某些可能的实施方式中，所述基于所述响应情感类别和所述对话响应内容确定所述车载陪伴虚拟形象的语音输出模式和形象演示剧本，包括：

基于所述响应情感类别和所述对话响应内容进行响应策略推理确定目标响应策略；

基于所述目标响应策略进行语音特征匹配确定语音输出模式；

基于所述目标响应策略进行演示表情匹配得到表情设计信息，基于目标响应策略进行演示动作匹配得到动作设计信息，基于所述表情设计信息和所述动作设计信息进行演示整合处理得到所述车载陪伴虚拟形象的形象演示剧本。

结合上述实施方式，在某些可能的实施方式中，所述基于所述形象演示剧本确定所述车载陪伴虚拟形象对应的陪伴动作数据，包括：

基于所述形象演示剧本生成所述车载陪伴虚拟形象的表情演示数据，基于所述形象演示剧本生成所述车载陪伴虚拟形象的动作演示数据，基于所述表情演示数据和所述动作演示数据合成陪伴动作数据。

第二方面，本申请实施例提供了一种驾驶处理装置，所述装置包括：

数据获取模块，用于在车辆驾驶场景中，获取用户针对车载陪伴虚拟形象输入的陪伴交互数据；

数据处理模块，用于基于所述陪伴交互数据采用车载互动大模型进行情感状态推理得到针对所述用户的响应情感类别和确定针对所述用户的对话响应内容；

数据生成模块，用于基于所述响应情感类别和所述对话响应内容确定针对所述车载陪伴虚拟形象的陪伴动作响应数据；

响应处理模块，用于基于所述陪伴动作响应数据控制所述车载陪伴虚拟形象进行用户陪伴响应处理。

可选的，数据处理模块，包括：

情感识别单元，用于将所述陪伴交互数据输入至车载互动大模型，通过所述车载互动大模型确定语音声学特征、面部表情特征、对话输入文本，基于所述语音声学特征、所述面部表情特征和所述对话输入文本进行情感识别处理得到用户情感类别，基于所述用户情感类别进行情感匹配处理得到针对所述用户的响应情感类别；

对话匹配单元，用于通过所述车载互动大模型基于所述对话输入文本和所述响应情感类别匹配对话响应内容。

可选的，对话匹配单元，包括：

第一对话生成子单元，用于通过所述车载互动大模型基于所述对话输入文本确定对话意图，基于所述对话意图确定对话响应素材，以及基于所述对话响应素材进行对话扩充处理得到初始对话响应内容；

第二对话生成子单元，用于通过所述车载互动大模型基于所述响应情感类别对所述初始对话响应内容进行对话匹配处理得到对话响应内容。

可选的，第一对话生成子单元，具体用于：

可选的，数据生成模块，包括：

第一数据生成单元，用于基于所述响应情感类别和所述对话响应内容确定所述车载陪伴虚拟形象的语音输出模式和形象演示剧本；

第二数据生成单元，用于基于所述形象演示剧本确定所述车载陪伴虚拟形象对应的陪伴动作数据；

第三数据生成单元，用于基于所述对话响应内容采用所述语音输出模式生成所述车载陪伴虚拟形象对应的陪伴语音数据；

第四数据生成单元，用于基于所述陪伴动作数据和所述陪伴语音数据生成陪伴动作响应数据。

可选的，第一数据生成单元，具体用于：

可选的，第二数据生成单元，具体用于：

第三方面，本申请实施例提供了一种计算机存储介质，所述计算机存储介质有多条指令，所述指令适于由处理器加载并执行上述的方法。

第四方面，本申请实施例提供了一种电子设备，可包括：存储器和处理器；其中，所述存储器存储有计算机程序，所述计算机程序适于由所述存储器加载并执行上述的方法。

本申请实施例提供的技术方案带来的有益效果至少包括：

本申请实施例提供的驾驶处理方法，在车辆驾驶场景中，获取用户针对车载陪伴虚拟形象输入的陪伴交互数据，基于陪伴交互数据采用车载互动大模型进行情感状态推理得到针对用户的响应情感类别和确定针对用户的对话响应内容，基于响应情感类别和对话响应内容确定针对车载陪伴虚拟形象的陪伴动作响应数据，基于陪伴动作响应数据控制车载陪伴虚拟形象进行用户陪伴响应处理。由此，能够根据用户输入的陪伴交互数据确定车载陪伴虚拟形象回应用户的响应情感类别和对话响应内容，从而根据响应情感类别和对话响应内容确定车载陪伴虚拟形象回应用户的陪伴动作响应数据，以控制车载陪伴虚拟形象对用户进行陪伴响应处理，丰富了车载陪伴虚拟形象的互动方式，并且使得车载陪伴虚拟形象的交互方式具有真实情感，增加了车载陪伴虚拟形象的陪伴感。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种驾驶处理方法的流程示意图；

图2是本申请实施例提供的另一种驾驶处理方法的流程示意图；

图3是本申请实施例提供的一种驾驶处理装置的结构示意图；

图4是本申请实施例提供的一种数据处理模块的结构示意图；

图5是本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

为使得本申请实施例的发明目的、特征、优点能够更加的明显和易懂，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而非全部实施例。基于本申请中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

在本申请的描述中，需要理解的是，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。在本申请的描述中，需要说明的是，除非另有明确的规定和限定，“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选的还包括没有列出的步骤或单元，或可选的还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本申请中的具体含义。此外，在本申请的描述中，除非另有说明，“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

下面结合具体的实施例对本申请进行详细说明。

在一个实施例中，如图1所示，特提出了一种驾驶处理方法，该方法可依赖于计算机程序实现，可运行于基于冯诺依曼体系的驾驶处理装置上。该计算机程序可集成在应用中，也可作为独立的工具类应用运行。该驾驶处理方法可以应用于电子设备，电子设备可以是车载设备、车载电脑、智能终端、计算设备等等。

具体的，该驾驶处理方法包括：

S101，在车辆驾驶场景中，获取用户针对车载陪伴虚拟形象输入的陪伴交互数据。

可以理解的是，车载陪伴虚拟形象可以指在车辆中使用的虚拟人物或虚拟助手，车载陪伴虚拟形象可以配置在车载系统中，能够与驾驶员或乘客进行互动，提供陪伴、娱乐、信息查询、导航等服务。

陪伴交互数据可以指在用户与车载陪伴虚拟形象对话的过程中采集的用户的语音数据或视频数据。

在车辆驾驶场景中，用户可以通过语音指令或触控指令的方式唤醒车载陪伴虚拟形象，在监测到用户输入的用于唤醒车载陪伴虚拟形象的语音指令或触控指令时，获取采集的陪伴交互数据，陪伴交互数据可以包括用户语音数据，陪伴交互数据也可以包括用户视频数据，陪伴交互数据还可以包括用户语音数据和用户视频数据。

S102，基于陪伴交互数据采用车载互动大模型进行情感状态推理得到针对用户的响应情感类别和确定针对用户的对话响应内容。

可以理解的是，响应情感类别是指在车载陪伴虚拟形象与用户对话的过程中，车载陪伴虚拟形象所表现的情感类别。对话响应内容是指在车载陪伴虚拟形象与用户对话的过程中，车载陪伴虚拟形象回应用户所说出的对话内容。

在一些实施例中，执行步骤S102，可以包括：将陪伴交互数据输入至车载互动大模型，车载互动大模型确定语音声学特征和对话输入文本，基于语音声学特征和对话输入文本进行情感识别确定用户情感类别，基于用户情感类别匹配针对用户的响应情感类别，基于响应情感类别和对话输入文本匹配针对用户的对话响应内容。

在又一些实施例中，执行步骤S102，可以包括：将陪伴交互户数输入至车载互动大模型，车载互动大模型确定语音声学特征、面部表情特征和对话输入文本，基于语音声学特征、面部表情特征和对话输入文本进行情感识别处理得到用户情感类别，基于用户情感类别进行情感匹配处理得到针对用户的响应情感类别，基于对话输入文本和响应情感类别匹配对话响应内容。

在本申请实施例中，车载互动大模型可以基于多模态大语言模型训练得到。

可选的，车载互动大模型的训练过程具体可以包括：基于多模态大模型创建初始车载互动大模型；确定样本用户针对车载陪伴虚拟形象输入的样本陪伴交互数据，对样本陪伴交互数据标注响应情感类别标签、对话响应内容标签、陪伴动作响应数据标签；采用样本陪伴交互数据对初始车载互动大模型进行至少一轮模型训练；在模型正向传播训练过程中，基于样本陪伴交互数据调用初始车载互动大模型进行情感状态推理得到针对样本用户的预测响应情感类别和确定针对样本用户的预测对话响应内容，基于预测响应情感类别和预测对话响应内容确定针对车载陪伴虚拟形象的预测陪伴动作响应数据；在模型反向传播训练过程中，基于预测响应情感类别和响应情感类别标签确定第一损失值，基于预测对话响应内容和对话响应内容标签确定第二损失值，基于预测陪伴动作响应数据和陪伴动作响应数据标签确定第三损失值，基于第一损失值、第二损失值和第三损失值确定模型综合损失；基于模型综合损失对初始车载互动大模型进行模型参数调整，得到模型训练后的车载互动大模型。

可选的，第一损失值、第二损失值、第三损失值可以采用相关技术中的合页损失函数、对比损失函数、欧式距离损失函数或交叉熵损失函数等的任意一种进行确定。

可选的，得到车载互动大模型的模型结束训练条件可以包括损失函数的取值小于或等于预设的损失函数阈值，迭代次数达到预设的次数阈值等。模型结束训练条件可基于实际情况确定，此处不作具体限定。

可选的，执行基于多模态大模型创建初始车载互动大模型，可以为：获取多模态大模型，创建针对车载陪伴互动场景的初始车载陪伴互动场景适配模块和基于多模态大模型的大语言生成式模块，基于大语言生成式模块和初始车载陪伴互动场景适配模块组成初始多模态大模型。

执行基于模型综合损失对初始车载互动大模型进行模型参数调整，得到模型训练后的车载互动大模型，可以为：基于模型综合损失对初始车载互动大模型中的初始车载陪伴互动场景适配模块进行模型参数调整，并控制大语言生成式模块的模型参数不变。直至满足模型训练结束条件得到大语言生成式模块和车载陪伴互动场景适配模块，完成大语言生成式模块和车载陪伴互动场景适配模块的模型融合，得到训练完成的车载互动大模型。

可选的，大语言生成式模块和车载陪伴互动场景适配模块的模型融合，可以是：是将车载陪伴互动场景适配模块的模型结构层权重和大语言生成式模块进行权重融合，通过确定模型结构层权重在大语言生成式模块中对应的目标模型结构层，将该目标模型结构层的模型结构层参数与模型结构层权重进行参数融合，车载陪伴互动场景适配模块的模型结构层权重可以仅在多模态大模型中所有模型结构层中部分对应且存在模型结构层权重，通过对这部分目标模型结构层完成基于模型结构层权重对模型结构层的参数更新，以此类推完成对所有模型结构层权重的参考更新过程，从而得到车载互动大模型。

S103，基于响应情感类别和对话响应内容确定针对车载陪伴虚拟形象的陪伴动作响应数据。

可以理解的是，陪伴动作响应数据是指一种记录车载陪伴虚拟形象在回应用户时所表现的表情、动作以及输出的语音的配置数据。

在一些实施例中，执行步骤S103，可以包括：基于响应情感类别和对话响应内容确定针对车载陪伴虚拟形象的陪伴动作数据和陪伴语音数据，基于陪伴动作数据和陪伴语音数据生成陪伴动作响应数据。

S104，基于陪伴动作响应数据控制车载陪伴虚拟形象进行用户陪伴响应处理。

具体的，控制车载陪伴虚拟形象按照陪伴动作响应数据同步输出语音、展示表情和肢体动作。

接下来请参见图2，为本申请提出的一种驾驶处理方法的另一种实施例的流程示意图。

具体的，该驾驶处理方法包括：

S201，在车辆驾驶场景中，获取用户针对车载陪伴虚拟形象输入的陪伴交互数据。

在车辆驾驶场景中，用户可以通过语音指令或触控指令的方式唤醒车载陪伴虚拟形象，在监测到用户输入的用于唤醒车载陪伴虚拟形象的语音指令或触控指令时，获取采集的陪伴交互数据，陪伴交互数据可以包括用户语音数据和用户视频数据，用户视频数据是在采集用户语音数据的过程中采集的用户面部表情的视频数据。

S202，将陪伴交互数据输入至车载互动大模型，通过车载互动大模型确定语音声学特征、面部表情特征和对话输入文本，基于语音声学特征、面部表情特征和对话输入文本进行情感识别处理得到用户情感类别，基于用户情感类别进行情感匹配处理得到针对用户的响应情感类别。

具体的，陪伴交互数据包括用户语音数据和用户视频数据，车载互动大模型从用户语音数据中提取语音声学特征，语音声学特征包括韵律特征、谱特征和音质特征，韵律特征可以包括基频、音强、音长、音调、停顿、语速、时长等特征，谱特征可以包括频谱能量的分布(共振峰)、线性预测倒谱系数、梅尔频率倒谱系数等特征，音质特征可以包括声门参数、频率微扰、振幅微扰、共振峰频率机器带宽等特征；车载互动大模型从用户视频数据中提取用户面部图像，从用户面部图像中提取面部表情特征，面部表情特征包括面部关键点特征(如眉毛、眼睛、嘴巴等)；由车载互动大模型对用户语音数据进行语音转文本处理得到对话输入文本，通过车载互动大模型从对话输入文本提取文本特征(如表达情感的关键词)。车载互动大模型根据语音声学特征、面部表情特征、文本特征进行多模态特征融合得到目标情感特征，对目标情感特征进行情感识别确定用户情感类别。

执行基于用户情感类别进行情感匹配处理得到针对用户的响应情感类别，具体可以是：获取情感响应映射表，情感响应映射表配置有不同用户情感类别对应的参考响应情感类别，在情感响应映射表中查询用户情感类别对应的参考响应情感类别，将用户情感类别对应的参考响应情感类别确定为针对用户的响应情感类别。

示例性的，用户情感类别为愉快时，响应情感类别也可以为愉快；用户情感类别为伤心或难过时，响应情感类别可以为安慰、关切、温和中的至少一种。

S203，通过车载互动大模型基于对话输入文本和响应情感类别匹配对话响应内容。

在一些实施例中，执行步骤S203，可以包括：A1通过车载互动大模型基于对话输入文本确定对话意图，基于对话意图确定对话响应素材，以及基于对话响应素材进行对话扩充处理得到初始对话响应内容；A2：通过车载互动大模型基于响应情感类别对初始对话响应内容进行对话匹配处理得到对话响应内容。

对话意图用于表征用户在对话中表达的核心需求或目的。对话响应素材是指根据对话意图准备的可供选择的回答内容。

在步骤A1中，将对话输入文本输入至车载互动大模型，车载互动大模型根据对话输入文本进行语义解析处理确定对话意图。

执行基于对话意图确定对话响应素材，可以是：在对话响应库中查询对话意图对应的对话响应素材，响应库中可以预配置不同种类意图对应的响应素材。

执行基于对话意图确定对话响应素材，还可以是：确定用户对应的话题素材偏好，基于对话意图和话题素材偏好进行对话素材联想处理得到对话响应素材。具体的，在确定用户对应的话题素材偏好时，识别用户的目标身份信息，在目标身份信息标识用户为预设主驾时，根据用户的历史对话内容确定话题素材偏好，在目标身份信息标识用户不是预设主驾时，根据用户语音数据或用户视频数据识别用户的年龄信息和性别信息，根据用户的年龄信息和性别信息推断话题素材偏好。可以理解的是，话题素材偏好可以包括用户感兴趣的话题素材或用户不喜欢的话题素材，可以从对话意图关联的响应素材中选取用户感兴趣的话题素材确定为对话响应素材，或者，从对话意图关联的响应素材中剔除用户不喜欢的话题素材得到对话响应素材。

在步骤A2中，车载互动大模型可以根据响应情感类别调整初始对话响应内容的用词和/或句式得到对话响应内容，如生成的对话响应内容具备与响应情感类别相匹配的语气词和/或句式表达。

S204，基于响应情感类别和对话响应内容确定车载陪伴虚拟形象的语音输出模式和形象演示剧本。

可以理解的是，语音输出模式是指车载陪伴虚拟形象与用户与对话时的语音表达方式，语音输出模式具体可以包括语气、音调、语速、情感色彩等等。

形象演示剧本是指车载陪伴虚拟形象与用户对话时的动作、表情或动画设计。形象演示剧本具体可以包括车载陪伴虚拟形象的面部表情、肢体动作、姿态、眼神设计等等。

在一些实施例中，执行步骤S204，具体可以包括：B1：基于响应情感类别和对话响应内容进行响应策略推理确定目标响应策略；B2：基于目标响应策略进行语音特征匹配确定语音输出模式；B3：基于目标响应策略进行演示表情匹配得到表情设计信息，基于目标响应策略进行演示动作匹配处理得到动作设计信息，基于表情设计信息和动作设计信息进行演示整合处理得到车载陪伴虚拟形象的形象演示剧本。

可以理解的是，目标响应策略是指用于确定车载陪伴虚拟形象回应用户时的表现行为的策略。表情设计信息是指车载陪伴虚拟形象在回应用户时所作出的面部动作的设计信息，表情设计信息可以包括表情类型、持续时间、变化过程等信息。动作设计信息是指车载陪伴虚拟形象在回应用户时所作出的肢体动作的设计信息，动作设计信息可以包括手势、姿势、动作顺序等信息。

具体的，将响应情感类别和对话响应内容输入至车载互动大模型，车载互动大模型查询预设的响应策略知识库，确定与响应情感类别和对话响应内容适配的目标响应策略。

车载互动大模型查询预设的语音特征库，确定目标响应策略匹配的语音特征，如音调、语速、语气等语音特征，生成包括上述语音特征的语音输出模式。

车载互动大模型查询预设的表情设计库，确定目标响应策略匹配的表情设计信息，车载互动大模型查询预设的动作设计库，确定目标响应策略匹配的动作设计信息，车载互动大模型结合表情设计信息和动作设计信息生成形象演示剧本，形象演示剧本具体可以包括每个动作和表情的时间点、持续时间，以及动作与标枪的同步方式等信息。

示例性的，一种目标响应策略可以为：按照对话响应内容，需要营造愉快且轻松的对话氛围；该目标响应策略对应的语音输出模式包括的语音特征可以为语气、音调、语速，其中，语气是活泼、富有感染力的语气，音调是明亮的音调，语速是适中或稍快的语速；该目标响应策略对应的形象演示剧本可以为：展示微笑，眼睛弯曲，眉毛轻扬，身体姿态轻松，肢体动作是点头或挥手。

示例性的，一种目标响应策略可以为：按照对话响应内容，需要营造安慰且温柔的对话情境；该目标响应策略对应的语音输出模式包括的语音特征可以为语气、音调、语速，其中，语气是关切、略显沉稳的语气，音调是低沉且稳重的音调，语速是较慢的语速；该目标响应内容对应的形象演示剧本可以为：展现出温和、关切的表情，眉头轻微皱起，眼神柔和，肢体动作是轻轻点头或用手势示意安慰。

S205，基于形象演示剧本确定车载陪伴虚拟形象对应的陪伴动作数据。

在一些实施例中，执行步骤S205，可以包括：基于形象演示剧本生成车载陪伴虚拟形象的表情演示数据，基于形象演示剧本生成车载陪伴虚拟形象的动作演示数据，基于表情演示数据和动作演示数据合成陪伴动作数据。

可以理解的是，表情演示数据是指用于配置车载陪伴虚拟形象的表情的配置数据。动作演示数据是指用于配置车载陪伴虚拟形象的动作的配置数据。陪伴动作数据是车载陪伴虚拟形象以表情演示数据演绎表情、以动作演示数据演绎动作的配置数据。

具体的，从形象演示剧本中提取表情设计信息，根据表情设计信息生成车载陪伴虚拟形象的表情演示数据，从形象演示剧本中提取动作设计信息，根据动作设计信息生成车载陪伴虚拟形象的动作演示数据，将表情演示数据和动作演示数据进行数据拼接，合成陪伴动作数据。

S206，基于对话响应内容采用语音输出模式生成车载陪伴虚拟形象对应的陪伴语音数据。

具体的，采用语音输出模式对对话响应内容进行语音合成处理，生成车载陪伴虚拟形象对应的陪伴语音数据。陪伴语音数据是车载陪伴虚拟形象以语音输出模式所指示的语气、语速、音调说出对话响应内容的语音数据。

S207，基于陪伴动作数据和陪伴语音数据生成陪伴动作响应数据。

在一些实施例中，执行步骤S207，具体可以包括：基于陪伴动作数据确定动作执行时间和表情执行时间，基于陪伴语音数据确定语音输出时间，基于动作执行时间、表情执行时间和语音输出时间确定动作执行时间段、表情执行时间段和语音输出时间段，基于动作执行时间段和表情执行时间段对陪伴动作数据进行时间配置处理得到目标陪伴动作数据，对陪伴语音数据进行时间配置处理得到目标陪伴语音数据，生成包括目标陪伴动作数据和目标陪伴语音数据的陪伴动作响应数据。

S208，基于陪伴动作响应数据控制车载陪伴虚拟形象进行用户陪伴响应处理。

在一些实施例中，执行步骤S208，具体可以为：确定陪伴动作响应数据的目标时间线，控制车载陪伴虚拟形象按照目标时间线输出语音、展示表情和肢体动作。

在本申请实施例提供的驾驶处理方法，在车辆驾驶场景中，获取用户针对车载陪伴虚拟形象输入的陪伴交互数据，将陪伴交互数据输入至车载互动大模型，通过车载互动大模型确定语音声学特征、面部表情特征和对话输入文本，基于语音声学特征、面部表情特征和对话输入文本进行情感识别处理得到用户情感类别，基于用户情感类别进行情感匹配处理得到针对用户的响应情感类别，如此，通过车载互动大模型综合多种类特征准确识别用户情感类别，以准确识别响应情感类别；随后，通过车载互动大模型基于对话输入文本和响应情感类别匹配对话响应内容，基于响应情感类别和对话响应内容确定车载陪伴虚拟形象的语音输出模式和形象演示剧本，基于形象演示剧本确定车载陪伴虚拟形象对应的陪伴动作数据，基于对话响应内容采用语音输出模式生成车载陪伴虚拟形象对应的陪伴语音数据，基于陪伴动作数据和陪伴语音数据生成陪伴动作响应数据，如此，通过车载互动大模型生成具有多模态交互方式的陪伴动作响应数据；然后，基于陪伴动作响应数据控制车载陪伴虚拟形象进行用户陪伴响应处理，如此，能够保证车载陪伴虚拟形象具有丰富的互动方式，并且使得车载陪伴虚拟形象的交互方式具有真实情感，增加了车载陪伴虚拟形象的陪伴感。

下面将结合图3，对本申请实施例提供的驾驶处理装置进行详细介绍。需要说明的是，图3所示的驾驶处理装置，用于执行本申请图1～图2所示实施例的方法，为了便于说明，仅示出了与本申请实施例相关的部分，具体技术细节未揭示的，请参照本申请图1～图2所示的实施例。

请参见图3，其示出本申请实施例的驾驶处理装置的结构示意图。该驾驶处理装置1可以通过软件、硬件或者两者的结合实现成为装置的全部或一部分。根据一些实施例，该驾驶处理装置1包括数据获取模块11、数据处理模块12、数据生成模块13和响应处理模块14，具体用于：

数据获取模块11，用于在车辆驾驶场景中，获取用户针对车载陪伴虚拟形象输入的陪伴交互数据；

数据处理模块12，用于基于所述陪伴交互数据采用车载互动大模型进行情感状态推理得到针对所述用户的响应情感类别和确定针对所述用户的对话响应内容；

数据生成模块13，用于基于所述响应情感类别和所述对话响应内容确定针对所述车载陪伴虚拟形象的陪伴动作响应数据；

响应处理模块14，用于基于所述陪伴动作响应数据控制所述车载陪伴虚拟形象进行用户陪伴响应处理。

可选的，参见图4所示的一种数据处理模块12的结构示意图，数据处理模块12包括情感识别单元121和对话匹配单元122，具体用于：

情感识别单元121，用于将所述陪伴交互数据输入至车载互动大模型，通过所述车载互动大模型确定语音声学特征、面部表情特征、对话输入文本，基于所述语音声学特征、所述面部表情特征和所述对话输入文本进行情感识别处理得到用户情感类别，基于所述用户情感类别进行情感匹配处理得到针对所述用户的响应情感类别；

对话匹配单元122，用于通过所述车载互动大模型基于所述对话输入文本和所述响应情感类别匹配对话响应内容。

可选的，对话匹配单元122，包括：

可选的，第一对话生成子单元，具体用于：

可选的，数据生成模块13，包括：

可选的，第一数据生成单元，具体用于：

可选的，第二数据生成单元，具体用于：

本申请实施例提供的驾驶处理装置，在车辆驾驶场景中，获取用户针对车载陪伴虚拟形象输入的陪伴交互数据，基于陪伴交互数据采用车载互动大模型进行情感状态推理得到针对用户的响应情感类别和确定针对用户的对话响应内容，基于响应情感类别和对话响应内容确定针对车载陪伴虚拟形象的陪伴动作响应数据，基于陪伴动作响应数据控制车载陪伴虚拟形象进行用户陪伴响应处理。由此，能够根据用户输入的陪伴交互数据确定车载陪伴虚拟形象回应用户的响应情感类别和对话响应内容，从而根据响应情感类别和对话响应内容确定车载陪伴虚拟形象回应用户的陪伴动作响应数据，以控制车载陪伴虚拟形象对用户进行陪伴响应处理，丰富了车载陪伴虚拟形象的互动方式，并且使得车载陪伴虚拟形象的交互方式具有真实情感，增加了车载陪伴虚拟形象的陪伴感。

请参考图5，图5为本申请实施例提供的一种电子设备的结构示意图。电子设备可以包括一个或多个如下部件：处理器110、存储器120、输入装置130、输出装置140和总线150。处理器110、存储器120、输入装置130和输出装置140之间可以通过总线150连接。

处理器110可以包括一个或者多个处理核心。处理器110利用各种接口和线路连接整个电子设备内的各个部分，通过运行或执行存储在存储器120内的指令、程序、代码集或指令集，以及调用存储在存储器120内的数据，执行电子设备的各种功能和处理数据。可选的，处理器110可以采用数字信号处理(digital signal processing，DSP)、现场可编程门阵列(field－programmable gate array，FPGA)、可编程逻辑阵列(programmable logicArray，PLA)中的至少一种硬件形式来实现。处理器110可集成中心处理器(centralprocessing unit，CPU)、图像处理器(graphics processing unit，GPU)和调制解调器等中的一种或几种的组合。其中，CPU主要处理操作系统、用户界面和应用程序等；GPU用于负责显示内容的渲染和绘制；调制解调器用于处理无线通信。可以理解的是，上述调制解调器也可以不集成到处理器110中，单独通过一块通信芯片进行实现。

存储器120可以包括随机存储器(random Access Memory，RAM)，也可以包括只读存储器(read-only memory，ROM)。可选的，该存储器120包括非瞬时性计算机可读介质(non-transitory computer-readable storage medium)。存储器120可用于存储指令、程序、代码、代码集或指令集。存储器120可包括存储程序区和存储数据区，其中，存储程序区可存储用于实现操作系统的指令、用于实现至少一个功能的指令(例如触控功能、声音播放功能、图像播放功能等)、用于实现下述各个方法实施例的指令等，该操作系统可以是安卓(Android)系统，包括基于Android系统深度开发的系统、苹果公司开发的IOS系统，包括基于IOS系统深度开发的系统或其它系统。

为了使操作系统能够区分第三方应用程序的具体应用场景，需要打通第三方应用程序与操作系统之间的数据通信，使得操作系统能够随时获取第三方应用程序当前的场景信息，进而基于当前场景进行针对性的系统资源适配。

其中，输入装置130用于接收输入的指令或数据，输入装置130包括但不限于键盘、鼠标、摄像头、麦克风或触控设备。输出装置140用于输出指令或数据，输出装置140包括但不限于显示设备和扬声器等。在一个示例中，输入装置130和输出装置140可以合设，输入装置130和输出装置140为触摸显示屏。

触摸显示屏可被设计成为全面屏、曲面屏或异型屏。触摸显示屏还可被设计成为全面屏与曲面屏的结合，异型屏与曲面屏的结合，本申请实施例对此不加以限定。

除此之外，本领域技术人员可以理解，上述附图所示出的电子设备的结构并不构成对电子设备的限定，电子设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。比如，电子设备中还包括射频电路、输入单元、传感器、音频电路、无线保真(Wireless Fidelity，WiFi)模块、电源、蓝牙模块等部件，在此不再赘述。

在图5所示的电子设备中，处理器110可以用于调用存储器120中存储的驾驶处理方法的程序，并具体执行以下操作：

在一些实施例中，处理器110在执行所述基于所述陪伴交互数据采用车载互动大模型进行情感状态推理得到针对所述用户的响应情感类别和确定针对所述用户的对话响应内容的步骤时，具体执行以下操作：

在一些实施例中，处理器110在执行所述通过所述车载互动大模型基于所述对话输入文本和所述响应情感类别匹配对话响应内容的步骤时，具体执行以下操作：

在一些实施例中，处理器110在执行所述基于所述对话意图确定对话响应素材的步骤时，具体执行以下操作：

在一些实施例中，处理器110在执行所述基于所述响应情感类别和所述对话响应内容确定针对所述车载陪伴虚拟形象的陪伴动作响应数据的步骤时，具体执行以下操作：

在一些实施例中，处理器110在执行所述基于所述响应情感类别和所述对话响应内容确定所述车载陪伴虚拟形象的语音输出模式和形象演示剧本的步骤时，具体执行以下操作：

在一些实施例中，处理器110在执行所述基于所述形象演示剧本确定所述车载陪伴虚拟形象对应的陪伴动作数据的步骤时，具体执行以下操作：

本申请实施例还提供了一种计算机可读存储介质，该计算机存储介质存储有至少一条指令，所述至少一条指令用于被处理器执行以实现如上述各个实施例所述的驾驶处理方法。

本申请实施例还提供了一种计算机程序产品，该计算机程序产品存储有至少一条指令，所述至少一条指令由所述处理器加载并执行以实现如上各个实施例所述的驾驶处理方法。

本领域技术人员应该可以意识到，在上述一个或多个示例中，本申请实施例所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时，可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。计算机可读介质包括计算机存储介质和通信介质，其中通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。存储介质可以是通用或专用计算机能够存取的任何可用介质。

以上所述仅为本申请的可选实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种驾驶处理方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述基于所述陪伴交互数据采用车载互动大模型进行情感状态推理得到针对所述用户的响应情感类别和确定针对所述用户的对话响应内容，包括：

3.根据权利要求2所述的方法，其特征在于，所述通过所述车载互动大模型基于所述对话输入文本和所述响应情感类别匹配对话响应内容，包括：

4.根据权利要求3所述的方法，其特征在于，所述基于所述对话意图确定对话响应素材，包括：

5.根据权利要求1所述的方法，其特征在于，所述基于所述响应情感类别和所述对话响应内容确定针对所述车载陪伴虚拟形象的陪伴动作响应数据，包括：

6.根据权利要求5所述的方法，其特征在于，所述基于所述响应情感类别和所述对话响应内容确定所述车载陪伴虚拟形象的语音输出模式和形象演示剧本，包括：

7.根据权利要求5所述的方法，其特征在于，所述基于所述形象演示剧本确定所述车载陪伴虚拟形象对应的陪伴动作数据，包括：

8.一种驾驶处理装置，其特征在于，所述装置包括：

9.一种计算机存储介质，其特征在于，所述计算机存储介质存储有多条指令，所述指令适于由处理器加载并执行如权利要求1～7任意一项所述的方法。

10.一种电子设备，其特征在于，包括：处理器和存储器；其中，所述存储器存储有计算机程序，所述计算机程序适于由所述处理器加载并执行如权利要求1～7任意一项所述的方法。