CN121236245A - 一种虚拟人生成方法及相关装置 - Google Patents
一种虚拟人生成方法及相关装置Info
- Publication number
- CN121236245A CN121236245A CN202511435386.3A CN202511435386A CN121236245A CN 121236245 A CN121236245 A CN 121236245A CN 202511435386 A CN202511435386 A CN 202511435386A CN 121236245 A CN121236245 A CN 121236245A
- Authority
- CN
- China
- Prior art keywords
- text
- user input
- emotion
- emoji
- expression
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Machine Translation (AREA)
Abstract
本申请公开了一种虚拟人生成方法及相关装置,涉及虚拟人技术领域,本申请采用表情符号作为文本回复和情绪之间的桥梁,不同强度的情绪用不同的表情符号表达,表情符号相对于现有情绪识别模型的情绪类别标签,更能表达情绪的强度和细微差别,因此,在生成虚拟人时利用表情符号渲染虚拟人表情,能够保障生成虚拟人的表情表现自然性与情绪表达准确性,提升了虚拟人的表情生成效果,进而提升了用户与交互式虚拟人的交互体验。
Description
技术领域
本申请涉及虚拟人技术领域,尤其涉及一种虚拟人生成方法及相关装置。
背景技术
虚拟人是指由计算机图形技术、语音合成、自然语言处理等技术综合构建的人形数字角色。虚拟人可模拟人的外观、语言、行为和情感,被广泛应用于智能客服、数字主播、虚拟助理、教育培训等领域。按照交互模式区分,虚拟人可被分成非交互式虚拟人和交互式虚拟人。非交互式虚拟人通常仅用于输出预设内容,而交互式虚拟人则具备与用户实时沟通的能力,能够根据用户输入实时生成对话、声音、动作及表情。随着大模型(如GPT)的出现,交互式虚拟人借助自然语言理解与生成能力,已实现较为流畅的人机对话。然而,在实现更高拟人度、更自然交互的过程中,情绪与表情的表达仍是一项技术瓶颈。
现有的交互式虚拟人通常依赖于情绪分类模型对文本回复进行情绪识别后,采用表情驱动进行表情生成。该方式由于情绪分类模型细粒度情绪识别缺失,限制了虚拟人的表情生成效果。
因此,如何提供一种虚拟人生成方式,以提升虚拟人的表情生成效果,保障生成虚拟人的表情表现自然性与情绪表达准确性,进而提升用户与交互式虚拟人的交互体验,成为本领域技术人员亟待解决的技术问题。
发明内容
鉴于上述问题,本申请提供了一种虚拟人生成方法及相关装置,以实现提升虚拟人的表情生成效果,保障生成虚拟人的表情表现自然性与情绪表达准确性,进而提升用户与交互式虚拟人的交互体验的目的。具体方案如下:
本申请第一方面提供一种虚拟人生成方法,包括:
获取用户输入;
生成与所述用户输入对应的文本回复,所述文本回复中包含目标表情符号,所述目标表情符号为预设表情符号数据集中与所述文本回复所表达的情绪匹配的表情符号;所述预设表情符号数据集中包括多个表情符号子集,每个表情符号子集对应一种情绪,每个表情符号子集中包括多个对应不同强度的所述情绪的表情符号;
基于所述目标表情符号进行表情渲染生成虚拟人。
在一种可能的实现中,所述生成与所述用户输入对应的文本回复,包括:
利用大模型生成与所述用户输入对应的文本回复,所述大模型具备生成表达不同强度情绪的表情符号的能力。
在一种可能的实现中,所述利用大模型生成与所述用户输入对应的文本回复,包括:
获取文本回复生成提示词模板,所述文本回复生成提示词模板包括文本回复生成任务描述信息以及用户输入填充槽,所述文本回复生成任务描述信息用于指示大模型在生成与所述用户输入对应的文本回复时,插入与所述文本回复所表达的情绪匹配的表情符号;
将所述用户输入填充至所述用户输入填充槽,得到文本回复生成提示词;
将所述文本回复生成提示词输入所述大模型,得到所述大模型输出的文本回复作为所述用户输入对应的文本回复。
在一种可能的实现中,所述文本回复生成任务描述信息还用于指示大模型在生成与所述用户输入对应的文本回复时,生成与所述用户输入语种一致的文本回复。
在一种可能的实现中,所述基于所述目标表情符号进行表情渲染生成虚拟人,包括:
将所述文本回复进行语音合成,得到合成语音;
基于预设的虚拟人面部表情参数表,将所述目标表情符号解译为面部表情参数;
基于所述文本回复以及所述合成语音,确定表情的触发与结束时间;
基于所述合成语音、所述面部表情参数以及所述表情的触发与结束时间进行表情渲染生成虚拟人。
在一种可能的实现中,所述将所述文本回复进行语音合成,得到合成语音,包括:
基于所述文本回复中的所述目标表情符号,对合成语音进行调整,使合成语音所表达的情绪与所述文本回复所表达的情绪匹配。
在一种可能的实现中,所述基于所述文本回复以及所述合成语音,确定表情的触发与结束时间,包括:
将所述文本回复进行句子划分,得到各个句子;
基于所述合成语音的时间戳信息,记录每个句子的语音起止时间;
将出现表情符号的句子的语音起止时间确定为表情的触发与结束时间。
本申请第二方面提供一种虚拟人生成装置,包括:
获取单元,用于获取用户输入;
文本回复生成单元,用于生成与所述用户输入对应的文本回复,所述文本回复中包含目标表情符号,所述目标表情符号为预设表情符号数据集中与所述文本回复所表达的情绪匹配的表情符号;所述预设表情符号数据集中包括多个表情符号子集,每个表情符号子集对应一种情绪,每个表情符号子集中包括多个对应不同强度的所述情绪的表情符号;
虚拟人生成单元,用于基于所述目标表情符号进行表情渲染生成虚拟人。
在一种可能的实现中,所述文本回复生成单元,包括:
大模型生成单元,用于利用大模型生成与所述用户输入对应的文本回复,所述大模型具备生成表达不同强度情绪的表情符号的能力。
在一种可能的实现中,所述大模型生成单元,包括:
提示词模板获取单元,用于获取文本回复生成提示词模板,所述文本回复生成提示词模板包括文本回复生成任务描述信息以及用户输入填充槽,所述文本回复生成任务描述信息用于指示大模型在生成与所述用户输入对应的文本回复时,插入与所述文本回复所表达的情绪匹配的表情符号;
提示词生成单元,用于将所述用户输入填充至所述用户输入填充槽,得到文本回复生成提示词;
输入单元,用于将所述文本回复生成提示词输入所述大模型,得到所述大模型输出的文本回复作为所述用户输入对应的文本回复。
在一种可能的实现中,所述文本回复生成任务描述信息还用于指示大模型在生成与所述用户输入对应的文本回复时,生成与所述用户输入语种一致的文本回复。
在一种可能的实现中,所述虚拟人生成单元,包括:
语音合成单元,用于将所述文本回复进行语音合成,得到合成语音;
解译单元,用于基于预设的虚拟人面部表情参数表,将所述目标表情符号解译为面部表情参数;
表情触发与结束时间确定单元,用于基于所述文本回复以及所述合成语音,确定表情的触发与结束时间;
渲染单元,用于基于所述合成语音、所述面部表情参数以及所述表情的触发与结束时间进行表情渲染生成虚拟人。
在一种可能的实现中,所述语音合成单元,具体用于:
基于所述文本回复中的所述目标表情符号,对合成语音进行调整,使合成语音所表达的情绪与所述文本回复所表达的情绪匹配。
在一种可能的实现中,所述表情的触发与结束时间确定单元,具体用于:
将所述文本回复进行句子划分,得到各个句子;
基于所述合成语音的时间戳信息,记录每个句子的语音起止时间;
将出现表情符号的句子的语音起止时间确定为表情的触发与结束时间。
本申请第三方面提供一种计算机程序产品,包括计算机可读指令,当所述计算机可读指令在电子设备上运行时,使得所述电子设备实现上述第一方面或第一方面任一实现方式的虚拟人生成方法。
本申请第四方面提供一种电子设备,包括至少一个处理器和与所述处理器连接的存储器,其中:
所述存储器用于存储计算机程序;
所述处理器用于执行所述计算机程序,以使所述电子设备能够实现上述第一方面或第一方面任一实现方式的虚拟人生成方法。
本申请第五方面提供一种计算机可读存储介质,所述存储介质承载有一个或多个计算机程序,当所述一个或多个计算机程序被电子设备执行时,能够使所述电子设备上述第一方面或第一方面任一实现方式的虚拟人生成方法。
借由上述技术方案,本申请提供的虚拟人生成方法及相关装置,采用表情符号作为文本回复和情绪之间的桥梁,不同强度的情绪用不同的表情符号表达,表情符号相对于现有情绪识别模型的情绪类别标签,更能表达情绪的强度和细微差别,因此,在生成虚拟人时利用表情符号渲染虚拟人表情,能够保障生成虚拟人的表情表现自然性与情绪表达准确性,提升了虚拟人的表情生成效果,进而提升了用户与交互式虚拟人的交互体验。
附图说明
结合附图并参考以下具体实施方式,本公开各实施例的上述和其他特征、优点及方面将变得更加明显。贯穿附图中,相同或相似的附图标记表示相同或相似的元素。应当理解附图是示意性的,原件和元素不一定按照比例绘制。
图1为本申请实施例提供的一种虚拟人生成方法的流程示意图;
图2为本申请实施例提供的一种利用大模型生成与用户输入对应的文本回复的流程示意图;
图3为本申请实施例提供的一种基于目标表情符号进行表情渲染生成虚拟人的流程示意图;
图4为本申请实施例提供的一种虚拟人生成装置的结构示意图;
图5为本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
下面结合本申请实施例中的附图对本申请实施例进行描述。本申请的实施方式部分使用的术语仅用于对本申请的具体实施例进行解释,而非旨在限定本申请。
下面结合附图,对本申请的实施例进行描述。本领域普通技术人员可知,随着技术的发展和新场景的出现,本申请实施例提供的技术方案对于类似的技术问题,同样适用。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的术语在适当情况下可以互换,这仅仅是描述本申请的实施例中对相同属性的对象在描述时所采用的区分方式。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,以便包含一系列单元的过程、方法、系统、产品或设备不必限于那些单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它单元。
虚拟人是指由计算机图形技术、语音合成、自然语言处理等技术综合构建的人形数字角色。虚拟人可模拟人的外观、语言、行为和情感,被广泛应用于智能客服、数字主播、虚拟助理、教育培训等领域。按照交互模式区分,虚拟人可被分成非交互式虚拟人和交互式虚拟人。非交互式虚拟人通常仅用于输出预设内容,而交互式虚拟人则具备与用户实时沟通的能力,能够根据用户输入实时生成对话、声音、动作及表情。随着大模型(如GPT)的出现,交互式虚拟人借助自然语言理解与生成能力,已实现较为流畅的人机对话。然而,在实现更高拟人度、更自然交互的过程中,情绪与表情的表达仍是一项技术瓶颈。
现有的交互式虚拟人通常依赖于情绪分类模型对文本进行情绪识别后,采用表情驱动进行表情生成。
现有的交互式虚拟人通常采用以下技术流程来实现表情生成:
虚拟人首先接收用户输入(语音或文本),后台运行的模型对用户输入进行语义理解,并生成相应的文本回复。然后,再通过文本转语音技术生成音频语音,以实现对用户的语音反馈。同时,还需情绪分类模型进一步对文本回复进行情绪分析,以获得文本回复的情绪类别,比如高兴、伤心、生气等典型情绪标签。
在表情驱动环节,现有方法通常将情绪标签映射到预定义的表情参数(如Blendshape)来合成虚拟人面部表情。Blendshape是一种广泛使用的表情建模方法,通过人为定义的参数控制面部肌肉的不同位置,来组合生成各种具体表情。以“微笑”为例,Blendshape会通过调整“嘴角上扬”“眼角收紧”等基础形状的权重,组合出自然的微笑表情。每个基础形状代表一种局部表情变化,多个基础形状的线性叠加可生成丰富的面部表情。
这种表情生成方法依赖于情绪分类模型对文本回复进行情绪识别,需要人为地构建训练数据来对情绪分类模型进行训练。
现有技术中存在以下明显不足:
传统的情绪分类方式难以精确识别情绪的细微变化和强弱程度,通常只能粗略划分情绪类别,如常见的7种情绪标签通常包括快乐、悲伤、愤怒、恐惧、厌恶、惊讶和中性。这些情绪标签缺乏情绪表现的精细控制,导致虚拟人的表情生硬、不够自然。
可见,现有的交互式虚拟人生成方式由于情绪分类模型细粒度情绪识别缺失,限制了虚拟人的表情生成效果。
为了解决上述问题,本申请实施例提供了一种虚拟人生成方法,该方法能够提升虚拟人的表情生成效果,保障了生成虚拟人的表情表现自然性与情绪表达准确性,进而提升了用户与交互式虚拟人的交互体验。下面结合附图对本申请实施例的虚拟人生成方法进行详细的介绍。
参照图1,图1为本申请实施例提供的一种虚拟人生成方法的流程示意图,如图1所示,本申请实施例提供的一种虚拟人生成方法,可以包括如下步骤,下面分别对这些步骤进行详细的描述。
S101:获取用户输入;
在本申请中,用户输入为用户输入文本,用户输入文本可以为用户直接输入的文本,也可以为用户输入的语音转录得到的文本,对此,本申请不进行任何限定。
S102:生成与所述用户输入对应的文本回复,所述文本回复中包含目标表情符号,所述目标表情符号为预设表情符号数据集中与所述文本回复所表达的情绪匹配的表情符号;所述预设表情符号数据集中包括多个表情符号子集,每个表情符号子集对应一种情绪,每个表情符号子集中包括多个对应不同强度的所述情绪的表情符号;
在一种可能的实现中,本申请中的表情符号可以为emoji表情符号,预设表情符号数据集中包含的表情符号子集的数量、每个表情符号子集中所包含的表情符号的数量和内容具体可以基于场景需求设定,对此本申请不进行任何限定。
为便于理解,在本申请中提供了一种预设表情符号数据集示例,具体如下:
积极情绪:
消极情绪:
愤怒情绪:
惊讶情绪:
中性/思考:
在该预设表情符号数据集示例中,包含5个表情符号子集,分别对应五种情绪,每个表情符号子集中分别包含多个表情符号,这些表情符号分别对应不同强度的该情绪。
基于以上预设表情符号数据集示例,假设所述文本回复所表达的情绪为轻微的高兴,则目标表情符号可以为,假设所述文本回复所表达的情绪为强烈的高兴,则目标表情符号可以为;假设所述文本回复所表达的情绪为轻微的悲伤,则目标表情符号可以为,假设所述文本回复所表达的情绪为强烈的悲伤,则目标表情符号可以为。
S103:基于所述目标表情符号进行表情渲染生成虚拟人。
本实施例提供的虚拟人生成方法,采用表情符号作为文本回复和情绪之间的桥梁,不同强度的情绪用不同的表情符号表达,表情符号相对于现有情绪识别模型的情绪类别标签,更能表达情绪的强度和细微差别,因此,在生成虚拟人时利用表情符号渲染虚拟人表情,能够保障生成虚拟人的表情表现自然性与情绪表达准确性,提升了虚拟人的表情生成效果,进而提升了用户与交互式虚拟人的交互体验。
考虑到大模型的预训练数据包含大量的社交媒体和网络文本,这些数据包含丰富的表情符号,因此,大模型已具备对表情符号语义的深入理解能力,能够识别并生成表达不同强度情绪的表情符号,因此,在本申请中可以利用大模型具备的表情符号识别和理解能力,生成与所述用户输入对应的文本回复。
在本申请中,大模型可以为现有任意大模型,对此本申请不进行任何限定。
则在一种可能的实现中,所述生成与所述用户输入对应的文本回复,包括:
利用大模型生成与所述用户输入对应的文本回复,所述大模型具备生成表达不同强度情绪的表情符号的能力。
在本申请中,通过提示词设计,可以有效控制表情符号表达情绪的类型和强度,保证了后续虚拟人生成时表情生成地更加细腻、生动。因此,作为一种可实现方式,参照图2,图2为本申请实施例提供的一种利用大模型生成与用户输入对应的文本回复的流程示意图,如图2所示,所述利用大模型生成与所述用户输入对应的文本回复,包括:
S201:获取文本回复生成提示词模板,所述文本回复生成提示词模板包括文本回复生成任务描述信息以及用户输入填充槽,所述文本回复生成任务描述信息用于指示大模型在生成与所述用户输入对应的文本回复时,插入与所述文本回复所表达的情绪匹配的表情符号;
在本申请中,所述文本回复生成任务信息中可以包括如下关键要素:表情符号数量控制要素、表情符号插入位置控制要素、表情符号范围控制要素以及表情符号情绪强度控制要素。
其中,所述表情符号数量控制要素用于控制表情符号的数量,避免滥用,所述表情符号插入位置控制要素用于控制大模型在生成文本回复时,将表情符号插入到表达情绪的句子末尾或关键词后方,使表情符号能够准确反应当前文本回复所表达的情绪状态,所述表情符号范围控制要素用于限定表情符号的选择范围,既保证了表情的多样性,又避免了不相关或不适当表情符号的使用,表情符号情绪强度控制要素用于指导大模型生成不同的情绪强度。
为便于理解,本申请实施例中给出了如下文本回复生成提示词模板示例:
“你是一个交互式虚拟人,请对用户输入进行回复,并在回复内容的适当位置插入恰当的emoji表情。
你可以参考以下规则:
1.当回复中包含情绪表达时,需要插入与情绪一致的表情符号,放置于句末或情感词之后;
2.只允许使用以下表情符号集合:
积极情绪:
消极情绪:
愤怒情绪:
惊讶情绪:
中性/思考:
3.根据情绪强度选择不同的表情符号。例如,轻微的高兴请用,强烈的高兴请用,轻微的悲伤请用,强烈的悲伤请用;
4.每处情绪变化最多添加1个表情符号,表情符号要与回复内容语义一致,避免多余或矛盾的表情符号。
用户输入:[用户输入内容]。”。
S202:将所述用户输入填充至所述用户输入填充槽,得到文本回复生成提示词;
S203:将所述文本回复生成提示词输入所述大模型,得到所述大模型输出的文本回复作为所述用户输入对应的文本回复。
考虑到传统的情绪分类模型依赖于语言特定的数据集训练,难以扩展到多语种应用场景。当处理多种语言输入时,必须为每一种语言单独准备情绪标注训练数据,成本高昂且耗时费力,限制了虚拟人跨语言交互的通用性。
考虑到大模型的预训练数据包含大量的多语种社交媒体和网络文本,这些数据包含丰富的表情符号,因此,大模型已具备对表情符号语义的深入理解能力,能够在多语种条件下识别并生成不同强度情绪的表情符号,因此,在本申请中,可以利用大模型具备的表情符号识别和理解能力,生成与所述用户输入语种一致的文本回复。
则在一种可能的实现中,所述文本回复生成任务描述信息还用于指示大模型在生成与所述用户输入对应的文本回复时,生成与所述用户输入语种一致的文本回复。
为便于理解,本申请实施例中给出了如下文本回复生成提示词模板示例:
“你是一个交互式虚拟人,请对用户输入进行回复,确保你的语言和用户语言相同,并在回复内容的适当位置插入恰当的emoji表情。
你可以参考以下规则:
1.当回复中包含情绪表达时,需要插入与情绪一致的表情符号,放置于句末或情感词之后;
2.只允许使用以下表情符号集合:
积极情绪:
消极情绪:
愤怒情绪:
惊讶情绪:
中性/思考:
3.根据情绪强度选择不同的表情符号。例如,轻微的高兴请用,强烈的高兴请用,轻微的悲伤请用,强烈的悲伤请用;
4.每处情绪变化最多添加1个表情符号,表情符号要与回复内容语义一致,避免多余或矛盾的表情符号。
用户输入:[用户输入内容]。”。
本申请中,通过提示词设计,不仅可以有效控制表情符号表达情绪的类型和强度,保证了后续虚拟人生成时表情生成地更加细腻、生动,还可利用大模型的跨语言特性,统一处理多种语言的情绪表达,无需单独构建各语言情绪分类训练数据集,规避了传统情绪分类方法的高昂成本与局限性。
作为一种可实现方式,参照图3,图3为本申请实施例提供的一种基于目标表情符号进行表情渲染生成虚拟人的流程示意图,如图3所示,所述基于所述目标表情符号进行表情渲染生成虚拟人,包括:
S301:将所述文本回复进行语音合成,得到合成语音;
在本申请中,可以将所述文本回复交由语音合成模块,生成自然流畅的合成语音。
需要说明的是,在一种可能的实现中,可以基于所述文本回复中的所述目标表情符号,对合成语音进行调整,使合成语音所表达的情绪与所述文本回复所表达的情绪匹配。
具体地,在本申请中,可以在合成语音的过程中,依据目标表情符号对应情绪的类型和强度,对合成语音的语调、节奏、音量等进行调整,使合成语音所表达的情绪与所述文本回复所表达的情绪相协调,增强交互的真实性与感染力。
S302:基于预设的虚拟人面部表情参数表,将所述目标表情符号解译为面部表情参数;
在本申请中,预设的面部表情参数表中包含各个表情符号与面部表情参数之间的映射关系,面部表情参数可以是Blendshape参数,包括各个面部动作单元的权重值。
例如,对应轻微微笑:嘴角上扬权重0.3,眼角收紧权重0.2,眉毛轻微上扬权重0.1;
对应开心大笑:嘴角上扬权重0.8,嘴巴张开权重0.5,眼角收紧权重0.6,眉毛上扬权重0.3;
对应悲伤:嘴角下垂权重0.5,眉毛内侧上扬权重0.4,眼睑下垂权重0.3;
对应生气:眉毛下压权重0.6,嘴角紧绷权重0.4,鼻翼扩张权重0.3。
需要说明的是,若同一条文本回复中存在多个不同情绪的表情符号,需要采用权重融合策略进行平滑过渡,避免表情生硬切换。
若文本回复中出现了预设的面部表情参数表中未定义的表情符号,可以选择忽略该表情符号,或采用其他方法进行解译,例如,使用语义上相似的表情符号的面部表情参数。
S303:基于所述文本回复以及所述合成语音,确定表情的触发与结束时间;
在本申请中,还需确定表情的触发与结束时间,以实现虚拟人表情与语音的精准同步。
在一种可能的实现中,所述基于所述文本回复以及所述合成语音,确定表情的触发与结束时间,包括:将所述文本回复进行句子划分,得到各个句子;基于所述合成语音的时间戳信息,记录每个句子的语音起止时间;将出现表情符号的句子的语音起止时间确定为表情的触发与结束时间。
具体地,可以将文本回复按照标点符号划分为独立的句子单元;其次,利用合成语音的时间戳信息,记录每个句子单元的语音起止时间;最后,将句子单元中出现的表情符号所对应的面部表情参数,与该句子单元的语音起止时间进行对齐,从而保证虚拟人面部表情与语音输出一致。
S304:基于所述合成语音、所述面部表情参数以及所述表情的触发与结束时间进行表情渲染生成虚拟人。
在本申请中,可以基于所述合成语音、所述面部表情参数以及所述表情的触发与结束时间驱动虚拟人渲染引擎,进行表情渲染生成虚拟人输出所述合成语音。
以上介绍了本申请实施例提供的一种虚拟人生成方法,以下将介绍执行上述的虚拟人生成方法的装置。
请参阅图4,图4为本申请实施例提供的一种虚拟人生成装置的结构示意图。如图4所示,该虚拟人生成装置,包括:
获取单元11,用于获取用户输入;
文本回复生成单元12,用于生成与所述用户输入对应的文本回复,所述文本回复中包含目标表情符号,所述目标表情符号为预设表情符号数据集中与所述文本回复所表达的情绪匹配的表情符号;所述预设表情符号数据集中包括多个表情符号子集,每个表情符号子集对应一种情绪,每个表情符号子集中包括多个对应不同强度的所述情绪的表情符号;
虚拟人生成单元13,用于基于所述目标表情符号进行表情渲染生成虚拟人。
在一种可能的实现中,所述文本回复生成单元,包括:
大模型生成单元,用于利用大模型生成与所述用户输入对应的文本回复,所述大模型具备生成表达不同强度情绪的表情符号的能力。
在一种可能的实现中,所述大模型生成单元,包括:
提示词模板获取单元,用于获取文本回复生成提示词模板,所述文本回复生成提示词模板包括文本回复生成任务描述信息以及用户输入填充槽,所述文本回复生成任务描述信息用于指示大模型在生成与所述用户输入对应的文本回复时,插入与所述文本回复所表达的情绪匹配的表情符号;
提示词生成单元,用于将所述用户输入填充至所述用户输入填充槽,得到文本回复生成提示词;
输入单元,用于将所述文本回复生成提示词输入所述大模型,得到所述大模型输出的文本回复作为所述用户输入对应的文本回复。
在一种可能的实现中,所述文本回复生成任务描述信息还用于指示大模型在生成与所述用户输入对应的文本回复时,生成与所述用户输入语种一致的文本回复。
在一种可能的实现中,所述虚拟人生成单元,包括:
语音合成单元,用于将所述文本回复进行语音合成,得到合成语音;
解译单元,用于基于预设的虚拟人面部表情参数表,将所述目标表情符号解译为面部表情参数;
表情触发与结束时间确定单元,用于基于所述文本回复以及所述合成语音,确定表情的触发与结束时间;
渲染单元,用于基于所述合成语音、所述面部表情参数以及所述表情的触发与结束时间进行表情渲染生成虚拟人。
在一种可能的实现中,所述语音合成单元,具体用于:
基于所述文本回复中的所述目标表情符号,对合成语音进行调整,使合成语音所表达的情绪与所述文本回复所表达的情绪匹配。
在一种可能的实现中,所述表情的触发与结束时间确定单元,具体用于:
将所述文本回复进行句子划分,得到各个句子;
基于所述合成语音的时间戳信息,记录每个句子的语音起止时间;
将出现表情符号的句子的语音起止时间确定为表情的触发与结束时间。
上述虚拟人生成装置中的各个单元可全部或部分通过软件、硬件及其组合来实现。上述各单元可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备的存储器中,以便于处理器调用执行以上各个单元对应的操作。
本申请实施例中还提供一种电子设备。参考图5所示,其示出了适于用来实现本申请实施例中的电子设备的结构示意图。本申请实施例中的电子设备可以包括但不限于诸如移动电话、笔记本电脑、PDA(个人数字助理)、PAD(平板电脑)、台式计算机等等的固定终端。图5示出的电子设备仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图5所示,该电子设备可以包括处理装置(例如中央处理器、图形处理器等)601,其可以根据存储在只读存储器(ROM)602中的程序或者从存储装置608加载到随机存取存储器(RAM)603中的程序而执行各种适当的动作和处理。在电子设备通电的状态下,RAM 603中还存储有电子设备操作所需的各种程序和数据。处理装置601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。
通常,以下装置可以连接至I/O接口605:包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置606;包括例如液晶显示器(LCD)、扬声器、振动器等的输出装置607;包括例如内存卡、硬盘等的存储装置608;以及通信装置609。通信装置609可以允许电子设备与其他设备进行无线或有线通信以交换数据。虽然图5示出了具有各种装置的电子设备,但是应理解的是,并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。
本申请实施例中还提供一种包括计算机程序产品,包括计算机可读指令,当计算机可读指令在电子设备上运行时,使得电子设备实现本申请实施例提供的任一种虚拟人生成方法。
本申请实施例中还提供一种计算机可读存储介质,该存储介质承载有一个或多个计算机程序,当一个或多个计算机程序被电子设备执行时,能够使电子设备实现本申请实施例提供的任一种虚拟人生成方法。
另外需说明的是,以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外,本申请提供的装置实施例附图中,模块之间的连接关系表示它们之间具有通信连接,具体可以实现为一条或多条通信总线或信号线。
通过以上的实施方式的描述,所属领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件的方式来实现,当然也可以通过专用硬件包括专用集成电路、专用CPU、专用存储器、专用元器件等来实现。一般情况下,凡由计算机程序完成的功能都可以很容易地用相应的硬件来实现,而且,用来实现同一功能的具体硬件结构也可以是多种多样的,例如模拟电路、数字电路或专用电路等。但是,对本申请而言更多情况下软件程序实现是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在可读取的存储介质中,如计算机的软盘、U盘、移动硬盘、ROM、RAM、磁碟或者光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,训练设备,或者网络设备等)执行本申请各个实施例所述的方法。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。
所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、训练设备或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、训练设备或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存储的任何可用介质或者是包含一个或多个可用介质集成的训练设备、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘(Solid State Disk,SSD))等。
Claims (10)
1.一种虚拟人生成方法,其特征在于,包括:
获取用户输入;
生成与所述用户输入对应的文本回复,所述文本回复中包含目标表情符号,所述目标表情符号为预设表情符号数据集中与所述文本回复所表达的情绪匹配的表情符号;所述预设表情符号数据集中包括多个表情符号子集,每个表情符号子集对应一种情绪,每个表情符号子集中包括多个对应不同强度的所述情绪的表情符号;
基于所述目标表情符号进行表情渲染生成虚拟人。
2.根据权利要求1所述的方法,其特征在于,所述生成与所述用户输入对应的文本回复,包括:
利用大模型生成与所述用户输入对应的文本回复,所述大模型具备生成表达不同强度情绪的表情符号的能力。
3.根据权利要求2所述的方法,其特征在于,所述利用大模型生成与所述用户输入对应的文本回复,包括:
获取文本回复生成提示词模板,所述文本回复生成提示词模板包括文本回复生成任务描述信息以及用户输入填充槽,所述文本回复生成任务描述信息用于指示大模型在生成与所述用户输入对应的文本回复时,插入与所述文本回复所表达的情绪匹配的表情符号;
将所述用户输入填充至所述用户输入填充槽,得到文本回复生成提示词;
将所述文本回复生成提示词输入所述大模型,得到所述大模型输出的文本回复作为所述用户输入对应的文本回复。
4.根据权利要求3所述的方法,其特征在于,所述文本回复生成任务描述信息还用于指示大模型在生成与所述用户输入对应的文本回复时,生成与所述用户输入语种一致的文本回复。
5.根据权利要求1所述的方法,其特征在于,所述基于所述目标表情符号进行表情渲染生成虚拟人,包括:
将所述文本回复进行语音合成,得到合成语音;
基于预设的虚拟人面部表情参数表,将所述目标表情符号解译为面部表情参数;
基于所述文本回复以及所述合成语音,确定表情的触发与结束时间;
基于所述合成语音、所述面部表情参数以及所述表情的触发与结束时间进行表情渲染生成虚拟人。
6.根据权利要求5所述的方法,其特征在于,所述将所述文本回复进行语音合成,得到合成语音,包括:
基于所述文本回复中的所述目标表情符号,对合成语音进行调整,使合成语音所表达的情绪与所述文本回复所表达的情绪匹配。
7.根据权利要求5所述的方法,其特征在于,所述基于所述文本回复以及所述合成语音,确定表情的触发与结束时间,包括:
将所述文本回复进行句子划分,得到各个句子;
基于所述合成语音的时间戳信息,记录每个句子的语音起止时间;
将出现表情符号的句子的语音起止时间确定为表情的触发与结束时间。
8.一种计算机程序产品,其特征在于,包括计算机可读指令,当所述计算机可读指令在电子设备上运行时,使得所述电子设备实现如权利要求1至7中任意一项所述的虚拟人生成方法。
9.一种电子设备,其特征在于,包括至少一个处理器和与所述处理器连接的存储器,其中:
所述存储器用于存储计算机程序;
所述处理器用于执行所述计算机程序,以使所述电子设备能够实现如权利要求1至7中任意一项所述的虚拟人生成方法。
10.一种计算机可读存储介质,其特征在于,所述存储介质承载有一个或多个计算机程序,当所述一个或多个计算机程序被电子设备执行时,能够使所述电子设备实现如权利要求1至7中任意一项所述的虚拟人生成方法。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN202511435386.3A CN121236245A (zh) | 2025-10-09 | 2025-10-09 | 一种虚拟人生成方法及相关装置 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN202511435386.3A CN121236245A (zh) | 2025-10-09 | 2025-10-09 | 一种虚拟人生成方法及相关装置 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| CN121236245A true CN121236245A (zh) | 2025-12-30 |
Family
ID=98157472
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| CN202511435386.3A Pending CN121236245A (zh) | 2025-10-09 | 2025-10-09 | 一种虚拟人生成方法及相关装置 |
Country Status (1)
| Country | Link |
|---|---|
| CN (1) | CN121236245A (zh) |
-
2025
- 2025-10-09 CN CN202511435386.3A patent/CN121236245A/zh active Pending
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US20220230374A1 (en) | User interface for generating expressive content | |
| US20230042654A1 (en) | Action synchronization for target object | |
| CN110688911B (zh) | 视频处理方法、装置、系统、终端设备及存储介质 | |
| CN106653052B (zh) | 虚拟人脸动画的生成方法及装置 | |
| CN112162628A (zh) | 基于虚拟角色的多模态交互方法、装置及系统、存储介质、终端 | |
| CN112750187B (zh) | 一种动画生成方法、装置、设备及计算机可读存储介质 | |
| CN111145777A (zh) | 一种虚拟形象展示方法、装置、电子设备及存储介质 | |
| CN111653265A (zh) | 语音合成方法、装置、存储介质和电子设备 | |
| CN109801349B (zh) | 一种声音驱动的三维动画角色实时表情生成方法和系统 | |
| US20250149051A1 (en) | Voice processing methods, apparatuses, computer devices, and computer-readable storage media | |
| CN107221344A (zh) | 一种语音情感迁移方法 | |
| CN116597858A (zh) | 语音口型匹配方法、装置、存储介质及电子设备 | |
| CN115798456A (zh) | 跨语言情感语音合成方法、装置及计算机设备 | |
| CN117453871A (zh) | 一种交互方法、装置、计算机设备及存储介质 | |
| CN117194625B (zh) | 数字人的智能对话方法、装置、电子设备及存储介质 | |
| CN112233648B (zh) | 结合rpa及ai的数据的处理方法、装置、设备及存储介质 | |
| CN117036556A (zh) | 虚拟形象驱动方法、装置及机器人 | |
| CN116564272A (zh) | 提供语音内容的方法及电子设备 | |
| CN119558326B (zh) | 基于人工智能的戏剧剧本辅助生成方法及装置 | |
| CN120581043A (zh) | 虚拟数字人共情能力增强方法、装置、设备、介质及产品 | |
| US20240320519A1 (en) | Systems and methods for providing a digital human in a virtual environment | |
| CN117994396A (zh) | 一种数字人设定方法、装置、介质及设备 | |
| CN121236245A (zh) | 一种虚拟人生成方法及相关装置 | |
| WO2020114868A1 (en) | Associating non-verbal communication content with verbal communication content | |
| CN118053416B (zh) | 声音定制方法、装置、设备及存储介质 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| PB01 | Publication | ||
| PB01 | Publication | ||
| SE01 | Entry into force of request for substantive examination | ||
| SE01 | Entry into force of request for substantive examination |