CN119836657A

CN119836657A - 基于输入话音特性的源话音修改

Info

Publication number: CN119836657A
Application number: CN202380064160.XA
Authority: CN
Inventors: K·白; S·穆恩; E·维瑟
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 2022-09-13
Filing date: 2023-08-28
Publication date: 2025-04-15
Also published as: EP4588038A1; US20240087597A1; WO2024059427A1

Abstract

一种设备包括一个或多个处理器，该一个或多个处理器被配置为处理输入话音的输入音频频谱以检测与该输入话音相关联的第一特性。该一个或多个处理器还被配置为至少部分地基于该第一特性从多个参考嵌入中选择一个或多个参考嵌入。该一个或多个处理器被进一步配置为使用该一个或多个参考嵌入来处理源话音的表示，以生成输出话音的输出音频频谱。

Description

基于输入话音特性的源话音修改

相关申请的交叉引用

本申请要求2022年9月13日提交的共同拥有的美国非临时专利申请17/931,755号的优先权权益，该美国非临时专利申请的内容全文以引用方式明确地并入本文中。

技术领域

本公开整体涉及基于输入话音的特性修改源话音以生成输出话音。

背景技术

技术进步已导致更小且更强大的计算设备。例如，当前存在各种各样的便携式个人计算设备，包括小型、轻量级且易于用户携带的无线电话(诸如移动和智能电话、平板计算机和膝上型计算机)。这些设备可以通过无线网络传达话音和数据分组。此外，许多此类设备并入有附加功能，诸如数字静态相机、数字摄像机、数字记录器和音频文件播放器。此外，此类设备可以处理可执行指令，包括软件应用，诸如网络浏览器应用，其可用于访问互联网。照此，这些设备可以包括显著的计算能力。

这样的计算设备经常合并有从一个或多个麦克风接收音频信号的功能。例如，音频信号可表示由麦克风捕获的用户话音、由麦克风捕获的外部声音、或它们的组合。此类设备可包括个人助理应用、语言翻译应用、或生成表示话音的音频信号以供一个或多个扬声器回放的其他应用。在一些示例中，设备并入有执行音频修改以具有固定的预定特性的功能。例如，可更新配置设置以调整源音频文件中的低音。基于在输入话音表示中检测到的特性的话音修改不可用，这可能导致增强可能性有限。

发明内容

根据本公开的一个具体实施，一种设备包括一个或多个处理器，该一个或多个处理器被配置为处理输入话音的输入音频频谱以检测与该输入话音相关联的第一特性。该一个或多个处理器还被配置为至少部分地基于该第一特性从多个参考嵌入中选择一个或多个参考嵌入。该一个或多个处理器被进一步配置为使用该一个或多个参考嵌入来处理源话音的表示，以生成输出话音的输出音频频谱。

根据本公开的另一具体实施，一种方法包括在设备处处理输入话音的输入音频频谱以检测与该输入话音相关联的第一特性。该方法还包括至少部分地基于该第一特性从多个参考嵌入中选择一个或多个参考嵌入。该方法进一步包括使用该一个或多个参考嵌入来处理源话音的表示，以生成输出话音的输出音频频谱。

根据本公开的另一具体实施，一种非暂态计算机可读介质包括指令，该指令在由一个或多个处理器执行时，使得该一个或多个处理器处理输入话音的输入音频频谱以检测与该输入话音相关联的第一特性。该指令在由该一个或多个处理器执行时，还使得该一个或多个处理器至少部分地基于该第一特性从多个参考嵌入中选择一个或多个参考嵌入。该指令在由该一个或多个处理器执行时，进一步使得该一个或多个处理器使用该一个或多个参考嵌入来处理源话音的表示，以生成输出话音的输出音频频谱。

根据本公开的另一具体实施，一种装置包括用于处理输入话音的输入音频频谱以检测与该输入话音相关联的第一特性的部件。该装置还包括用于至少部分地基于该第一特性从多个参考嵌入中选择一个或多个参考嵌入的部件。该装置还包括用于使用该一个或多个参考嵌入来处理源话音的表示以生成输出话音的输出音频频谱的部件。

本公开的其他方面、优点和特征将在审阅包括以下部分的整个申请后变得显而易见：附图说明、具体实施方式和权利要求书。

附图说明

图1是根据本公开的一些示例的可操作为基于输入话音特性执行源话音修改的系统的特定例示性方面的框图。

图2是根据本公开的一些示例的图1的系统的特性检测器的操作的例示性方面的示图。

图3A是根据本公开的一些示例的图2的特性检测器的情绪检测器的操作的例示性方面的示图。

图3B是根据本公开的一些示例的图2的特性检测器的情绪检测器的操作的例示性方面的示图。

图4是根据本公开的一些示例的图1的系统的嵌入选择器的操作的例示性方面的示图。

图5A是根据本公开的一些示例的图4的嵌入选择器的情绪调整器的操作的例示性方面的示图。

图5B是根据本公开的一些示例的图4的嵌入选择器的情绪调整器的操作的例示性方面的示图。

图5C是根据本公开的一些示例的图4的嵌入选择器的情绪调整器的操作的例示性方面的示图。

图5D是根据本公开的一些示例的图4的嵌入选择器的情绪调整器的操作的例示性方面的示图。

图6是根据本公开的一些示例的图1的系统的嵌入选择器的操作的例示性方面的示图。

图7A是根据本公开的一些示例的图1的系统的嵌入选择器的操作的例示性方面的示图。

图7B是根据本公开的一些示例的图1的系统的嵌入选择器的操作的例示性方面的示图。

图8A是根据本公开的一些示例的图1的系统的转换嵌入生成器的操作的例示性方面的示图。

图8B是根据本公开的一些示例的图1的系统的转换嵌入生成器的操作的例示性方面的示图。

图8C是根据本公开的一些示例的图1的系统的转换嵌入生成器的操作的例示性方面的示图。

图9是根据本公开的一些示例的可操作为基于输入话音特性执行源话音修改的系统的例示性方面的框图。

图10是根据本公开的一些示例的可操作为基于输入话音特性执行源话音修改的系统的例示性方面的框图。

图11是根据本公开的一些示例的可操作为基于输入话音特性执行源话音修改的系统的例示性方面的框图。

图12是根据本公开的一些示例的图9至图11的系统中的任何系统的表示生成器的操作的例示性方面的示图。

图13A是根据本公开的一些示例的可操作为基于输入话音特性执行源话音修改的系统的例示性方面的框图。

图13B是根据本公开的一些示例的可操作为基于输入话音特性执行源话音修改的系统的例示性方面的框图。

图14是根据本公开的一些示例的可操作为训练图1的系统的音频分析器的系统的例示性方面的框图。

图15例示了根据本公开的一些示例的可操作为基于输入话音特性执行源话音修改的集成电路的示例。

图16是根据本公开的一些示例的可操作为基于输入话音特性执行源话音修改的移动设备的示图。

图17是根据本公开的一些示例的可操作为基于输入话音特性执行源话音修改的头戴式耳机的示图。

图18是根据本公开的一些示例的可操作为基于输入话音特性执行源话音修改的耳塞式耳机的示图。

图19是根据本公开的一些示例的可操作为基于输入话音特性执行源话音修改的可穿戴电子设备的示图。

图20是根据本公开的一些示例的可操作为基于输入话音特性执行源话音修改的语音控制扬声器系统的示图。

图21是根据本公开的一些示例的可操作为基于输入话音特性执行源话音修改的相机的示图。

图22是根据本公开的一些示例的可操作为基于输入话音特性执行源话音修改的交通工具的第一示例的示图。

图23是根据本公开的一些示例的可操作为基于输入话音特性执行源话音修改的头戴式耳机(诸如扩展现实头戴式耳机)的示图。

图24是根据本公开的一些示例的可操作为基于输入话音特性执行源话音修改的眼镜(诸如扩展现实眼镜)的示图。

图25是根据本公开的一些示例的可操作为基于输入话音特性执行源话音修改的交通工具的第二示例的示图。

图26是根据本公开的一些示例的可由图1的设备执行的基于输入话音特性执行源话音修改的方法的特定具体实施的示图。

图27是根据本公开的一些示例的可操作为基于输入话音特性执行源话音修改的设备的特定例示性示例的框图。

具体实施方式

在一些示例中，设备并入有执行音频修改以具有固定的预定特性的功能。例如，可更新配置设置以调整源音频文件中的低音。基于在输入音频中检测到的特性的话音修改可导致各种增强可能性。在示例中，可将例如由个人助理应用生成的源话音更新为与在从麦克风接收到的用户话音中检测到的话音特性匹配。为了例示，用户话音可在白天期间具有较高的强度并且在晚上具有较低的强度，并且可将个人助理的源话音调整为具有对应的强度。在一些示例中，可将源话音调整为相对于用户话音具有较低的绝对强度。为了例示，当用户话音听起来疲倦时，可将源话音调整为听起来平静，并且当用户话音听起来兴奋时，可将源话音调整为听起来快乐。

公开了基于输入话音特性执行源话音修改的系统和方法。例如，音频分析器确定输入话音音频的输入特性。在一些示例中，输入话音音频可对应于从麦克风接收到的输入信号。输入特性可包括情绪、说话者身份、话音风格(例如，音量、音高、速度等)、或它们的组合。音频分析器基于输入特性确定目标特性，并将源话音音频更新为具有目标特性，以生成输出话音音频。在一些示例中，源话音音频由应用生成。

在一些方面，目标特性与输入特性相同，使得输出话音音频听起来类似于输入话音音频(例如，具有与输入话音音频相同的特性)。例如，输出话音音频具有与输入话音音频相同的强度。在一些方面，目标特性尽管基于输入特性，但不同于输入特性，使得输出话音音频基于输入话音音频而改变，但听起来与输入话音音频不同。例如，输出话音音频相对于输入话音音频具有正强度。为了例示，精神健康应用被设计为生成相对于所接收的用户话音(例如，输入话音音频)具有正强度的响应(例如，输出话音音频)。

任选地，在一些方面，源话音音频与输入话音音频相同。为了例示，音频分析器基于输入话音音频的特性更新从麦克风接收到的输入话音音频以生成输出话音音频。例如，输出话音音频相对于输入话音音频具有正强度。为了例示，直播游戏频道的用户希望他们的话音具有更高的能量来吸引观众的注意力。

下面参考附图描述本公开的特定方面。在本说明书中，共用的特征由共用的参考标号来指定。如本文所使用的，各种术语仅用于描述特定具体实施的目的，而并不旨在对具体实施进行限制。例如，单数形式“一”、“一个”和“该”旨在也包括复数形式，除非上下文另外明确指示。此外，本文所描述的一些特征在一些具体实施中是单数，而在其他具体实施中是复数。为了例示，图1描绘了包括一个或多个处理器(图1的“处理器”190)的设备102，这指示在一些具体实施中，设备102包括单个处理器190，而在其他具体实施中，设备102包括多个处理器190。

在一些附图中，使用了特定类型的特征的多个实例。尽管这些特征在物理上和/或逻辑上不同，但对每个特征使用相同的参考标号，并且这些不同实例通过向参考标号添加字母来区分。当作为一组或一种类型的特征在本文中被引用时(例如，当没有引用这些特征中的特定特征时)，使用了参考标号，而不使用区分字母。然而，当同一类型的多个特征中的一个特定特征在本文中被提及时，参考标号与区分字母一起使用。例如，参考图4，例示了多种操作模式并且这些操作模式与参考标号105A和105B相关联。当参考这些操作模式中的特定一种操作模式(诸如操作模式105A)时，使用区分字母“A”。然而，当参考这些操作模式中的任何任意一种操作模式或将这些操作模式作为组参考时，使用参考标号105，而没有区分字母。

如本文所用，术语“包括(comprise)”可与“包括(include)”可互换地使用。附加地，术语“其中(wherein)”可与“其中(where)”可互换地使用。如本文所用，“示例性”指示示例、具体实施和/或方面，而不应被解释为限制性或指示偏好或优选的具体实施。如本文所用，用于修饰元素(诸如，结构、组件、操作等)的序数术语(例如，“第一”、“第二”、“第三”等)本身并不指示该元素相对于另一元素的任何优先级或顺序，而只是将该元素与具有相同名称(但使用序数术语)的另一元素相区分。如本文所用，术语“集合”是指特定元素中的一个或多个特定元素，而术语“多个”是指多个(例如，两个或更多个)特定元素。

如本文所用，“耦合”可包括“通信地耦合”、“电耦合”或“物理地耦合”，以及还可(或另选地)包括它们的任何组合。两个设备(或组件)可经由一个或多个其他设备、组件、导线、总线、网络(例如，有线网络、无线网络或它们的组合)等直接或间接耦合(例如，通信地耦合、电耦合或物理地耦合)。作为例示性、非限制性示例，电耦合的两个设备(或组件)可包括在相同的设备中，也可包括在不同的设备中，并且可经由电子器件、一个或多个连接器或电感耦合来连接。在一些具体实施中，通信地耦合(诸如电连通)的两个设备(或组件)可经由一个或多个导线、总线、网络等直接或间接地传送和接收信号(例如，数字信号或模拟信号)。如本文所使用的，“直接耦合”可包括在没有中间组件的情况下耦合(例如，通信地耦合、电耦合或物理地耦合)的两个设备。

在本公开中，诸如“确定”、“计算”、“估计”、“移位”、“调整”等术语可以用于描述如何执行一个或多个操作。应当注意，此类术语不应被解读为限制性的，并且可以利用其他技术来执行类似的操作。附加地，如本文所提及的，“生成”、“计算”、“估计”、“使用”、“选择”、“访问”和“确定”可互换使用。例如，“生成”、“计算”、“估计”或“确定”参数(或信号)可以是指主动生成、估计、计算或确定该参数(或信号)，或者可以是指使用、选择或访问(诸如，由另一组件或设备)已经生成的参数(或信号)。

参考图1，公开了被配置为基于输入话音特性执行源话音修改的系统的特定例示性方面，并且总体上将其指定为100。系统100包括设备102，该设备包括一个或多个处理器190。一个或多个处理器190包括音频分析器140，该音频分析器被配置为基于输入话音特性执行源话音修改。在特定方面，音频分析器140由训练者训练，如参考图14进一步描述的。

音频分析器140包括音频频谱生成器150，该音频频谱生成器经由特性检测器154和嵌入选择器156耦合到转换嵌入生成器158。转换嵌入生成器158经由语音转换器164耦合到音频合成器166。在一些方面，语音转换器164对应于生成器并且音频合成器166对应于解码器。任选地，在一些具体实施中，语音转换器164还经由基线嵌入生成器160耦合到转换嵌入生成器158。

音频频谱生成器150被配置为生成输入话音表示149(例如，输入话音的表示)的输入音频频谱151。在示例中，输入话音表示149对应于包括输入话音的音频，并且音频频谱生成器150被配置为对时域中的音频应用变换(例如，快速傅里叶变换(FFT))以生成频域中的输入音频频谱151。

特性检测器154被配置为处理输入音频频谱151以检测与输入话音相关联的输入特性155，如参考图2进一步描述的。输入特性155可包括输入话音的情绪、风格(例如，音量、音高、速度、或它们的组合)或两者。在一些方面，特性检测器154被配置为执行说话者识别以确定输入音频频谱151可能对应于特定用户的输入话音。在这些方面，输入特性155可包括特定用户的说话者标识符(例如，用户标识符)。

嵌入选择器156被配置为至少部分地基于输入特性155从多个参考嵌入中选择一个或多个参考嵌入157，如参考图4至图7B进一步描述的。例如，嵌入选择器156被配置为基于输入特性155确定目标特性177并且选择对应于目标特性177的一个或多个参考嵌入157。为了例示，参考嵌入157可对应于特定情绪、特定风格、特定说话者标识符、或它们的组合。

在特定具体实施中，对应于特定情绪(例如，兴奋)的参考嵌入157指示指示特定情绪的话音特征值(例如，高音高)的集合(例如，向量)。在特定具体实施中，对应于特定说话者标识符的参考嵌入157指示指示与特定说话者标识符相关联的特定说话者(例如，用户)的话音的话音特征值的集合(例如，向量)。在特定具体实施中，对应于特定音高的参考嵌入157指示指示特定音高的话音特征值的集合(例如，向量)。在特定具体实施中，对应于特定速度的参考嵌入157指示指示特定速度的话音特征值的集合(例如，向量)。在特定具体实施中，对应于特定音量的参考嵌入157指示指示特定音量的话音特征值的集合(例如，向量)。

话音特征的非限制性示例包括梅尔频率倒谱系数(MFCC)、移位Δ倒谱系数(SDCC)、频谱质心、频谱滚降、频谱平坦度、频谱对比度、频谱带宽、基于色度的特征、过零率、均方根能量、线性预测倒谱系数(LPCC)、频谱子带质心、线频谱频率、单频倒谱系数、共振峰频率、功率归一化倒谱系数(PNCC)、或它们的组合。

音频分析器140被配置为使用一个或多个参考嵌入157来处理源话音表示163(例如，源话音的表示)，以生成输出话音的输出音频频谱165。作为例示性示例，提供使用对应于单个输入话音表示149的一个或多个参考嵌入157来处理源话音表示163。在其他示例中，可使用对应于多个输入话音表示149的一个或多个参考嵌入157的集合来处理源话音表示163，如参考图8C进一步描述的。

在示例中，转换嵌入生成器158被配置为基于一个或多个参考嵌入157生成转换嵌入159，如参考图8A至图8C进一步描述的。在特定方面，一个或多个参考嵌入157包括单个参考嵌入，并且转换嵌入159与单个参考嵌入相同。在一些方面，一个或多个参考嵌入157包括多个参考嵌入，并且转换嵌入159是多个参考嵌入的组合。语音转换器164被配置为将转换嵌入159应用于源话音表示163以生成输出话音的输出音频频谱165。例如，转换嵌入159对应于第一话音特征值的集合(例如，向量)，并且将转换嵌入159应用于源话音表示163对应于基于第一话音特征值调整源话音表示163的第二话音特征值以生成输出音频频谱165。在特定具体实施中，基于转换嵌入159的对应的第一话音特征值来替换或修改源话音表示163的特定第二话音特征值。

在特定具体实施中，源话音表示163包括编码的源话音。语音转换器164将转换嵌入159应用于编码的源话音以生成转换的编码的源话音，并对转换的编码的源话音进行解码以生成输出音频频谱165。

音频合成器166被配置为处理输出音频频谱165以生成输出信号135。例如，音频合成器166被配置为对输出音频频谱165应用变换(例如，逆FFT(iFFT))以生成输出信号135。输出信号135具有与目标特性177匹配的输出特性。在一些示例中，目标特性177与输入特性155相同。在这些示例中，输出特性与输入特性155匹配。为了例示，输出信号135的第一话音特性(表示输出话音)与输入话音表示149的第二话音特性(表示输入话音)匹配。在特定方面，“话音特性”对应于话音特征。

在包括基线嵌入生成器160的具体实施中，语音转换器164还被配置为将输出音频频谱165提供给基线嵌入生成器160。基线嵌入生成器160被配置为至少部分地基于输出音频频谱165来确定基线嵌入161，并且将基线嵌入161提供给转换嵌入生成器158。转换嵌入生成器158被配置为至少部分地基于基线嵌入161生成后续转换嵌入。使用基线嵌入生成器160可实现输出信号135中的输出话音的特性的逐渐改变。

在一些具体实施中，设备102对应于或被包括在各种类型的设备中的一者中。在例示性示例中，一个或多个处理器190被集成在头戴式耳机设备中(诸如参考图17所描述的)或耳塞式耳机中(如参考图18进一步描述的)。在其他示例中，一个或多个处理器190被集成在以下中的至少一者中：如参考图16所描述的移动电话或平板计算机设备、如参考图19所描述的可穿戴电子设备、如参考图20所描述的语音控制扬声器系统、如参考图21所描述的相机设备、如参考图23所描述的扩展现实头戴式耳机、或如参考图24所描述的扩展现实眼镜。在另一例示性示例中，一个或多个处理器190被集成到交通工具中，诸如参考图22和图25进一步所述的。

在操作期间，音频频谱生成器150被配置为获得输入话音的输入话音表示149。在一些示例中，输入话音表示149基于输入话音音频。为了例示，输入话音表示149可基于从捕获输入话音的一个或多个麦克风接收到的一个或多个输入音频信号，如参考图9进一步描述的。在另一示例中，输入话音表示149可基于由设备102或另一设备的应用生成的一个或多个输入音频信号。

在示例中，输入话音表示149可基于输入话音文本(例如，脚本、聊天会话等)。为了例示，音频频谱生成器150对输入话音文本执行文本到话音转换以生成输入话音音频。在一些具体实施中，输入话音文本与一个或多个特性指示符(诸如情绪指示符、风格指示符、说话者指示符、或它们的组合)相关联。情绪指示符可包括标点符号(例如，用以指示惊讶的感叹号)、字词(例如，“我很快乐”)、表情符号(例如，笑脸)等。风格指示符可包括通常与特定风格相关联的字词(例如，“你们”)、指示风格的元数据、或两者。说话者指示符可包括一个或多个说话者标识符。在一些方面，文本到话音转换生成输入话音音频以包括特性，诸如由情绪指示符指示的情绪、由风格指示符指示的风格、对应于说话者指示符的话音特性、或它们的组合。

在一些方面，输入话音表示149包括输入话音频谱、线性预测译码(LPC)系数或输入话音音频的MFCC中的至少一者。在一些示例中，输入话音表示149基于解码的数据。例如，设备102的解码器从另一设备接收编码的数据并对该编码的数据进行解码以生成输入话音表示149，如参考图13B进一步描述的。

音频频谱生成器150生成输入话音表示149的输入音频频谱151。例如，音频频谱生成器150对时域中的输入话音音频应用变换(例如，快速傅里叶变换(FFT))以生成频域中的输入音频频谱151。提供FFT作为应用于输入话音音频以生成输入音频频谱151的变换的例示性示例。在其他示例中，音频频谱生成器150可使用各种变换和技术来处理输入话音表示149以生成输入音频频谱151。音频频谱生成器150将输入音频频谱151提供给特性检测器154。

特性检测器154处理输入话音的输入音频频谱151以检测与输入话音相关联的输入特性155，如参考图2进一步描述的。例如，输入特性155指示与输入话音相关联的情绪、风格、说话者标识符、或它们的组合。

任选地，在一些示例中，特性检测器154至少部分地基于图像数据153、来自用户101的用户输入103或两者确定输入特性155(例如，情绪、风格、说话者标识符、或它们的组合)，如参考图2进一步描述的。在一些方面，图像数据153对应于与输入话音相关联的图像(例如，静态图像、来自视频的图像帧、所生成的图像、或它们的组合)。例如，相机捕获图像，与麦克风捕获输入话音并发，如参考图9进一步描述的。在一些示例中，从另一设备接收到的编码的数据包括图像数据153、输入话音表示149或两者，如参考图13B进一步描述的。在一些示例中，用户输入103指示说话者标识符。特性检测器154将输入特性155提供给嵌入选择器156。

在一些示例中，目标特性177与输入特性155相同。任选地，在一些示例中，嵌入选择器156根据操作模式105将输入特性155映射到目标特性177，如参考图4至图5C进一步描述的。在一些方面，操作模式105基于配置设置、默认数据、用户输入、或它们的组合。

嵌入选择器156从多个参考嵌入中选择对应于目标特性177的一个或多个参考嵌入157，如参考图6至图7B进一步描述的。例如，一个或多个参考嵌入157包括对应于由目标特性177指示的情绪的一个或多个情绪参考嵌入、对应于由目标特性177指示的风格的一个或多个风格参考嵌入、对应于由目标特性177指示的说话者标识符的一个或多个说话者参考嵌入、或它们的组合。

任选地，在一些方面，一个或多个参考嵌入157包括多个参考嵌入，并且嵌入选择器156确定与多个一个或多个参考嵌入157相关联的权重137。例如，一个或多个参考嵌入157包括第一情绪参考嵌入和第二情绪参考嵌入。在该示例中，权重137包括分别与第一情绪参考嵌入和第二情绪参考嵌入相关联的第一权重和第二权重。

转换嵌入生成器158至少部分地基于一个或多个参考嵌入157生成转换嵌入159。在一些示例中，一个或多个参考嵌入157包括单个参考嵌入，并且转换嵌入159与单个参考嵌入相同。在一些示例中，一个或多个参考嵌入157包括多个参考嵌入，并且转换嵌入生成器158组合多个参考嵌入以生成转换嵌入159，如参考图8A至图8C进一步描述的。任选地，在一些具体实施中，转换嵌入生成器158组合一个或多个参考嵌入157和基线嵌入161以生成转换嵌入159，如参考图8B进一步描述的。在特定方面，基线嵌入生成器160在音频分析器140的音频分析会话期间生成并更新基线嵌入161，使得输出信号135的特性的改变是渐进的。转换嵌入生成器158将转换嵌入159提供给语音转换器164。

语音转换器164获得源话音的源话音表示163。在一些方面，将输入话音用作源话音。在其他方面，输入话音不同于源话音。在特定方面，设备102包括表示生成器，该表示生成器被配置为生成源话音表示163，如参考图12进一步描述的。在一些示例中，源话音表示163基于源话音音频。为了例示，源话音表示163可基于从捕获源话音的一个或多个麦克风接收到的一个或多个源音频信号，如参考图10进一步描述的。在另一示例中，源话音表示163可基于由设备102或另一设备的应用生成的一个或多个源音频信号。

在示例中，源话音表示163可基于源话音文本(例如，脚本、聊天会话等)。为了例示，语音转换器164对源话音文本执行文本到话音转换以生成源话音音频。在一些具体实施中，源话音文本与一个或多个特性指示符(诸如情绪指示符、风格指示符、说话者标识符、或它们的组合)相关联。情绪指示符可包括标点符号(例如，用以指示惊讶的感叹号)、字词(例如，“我很快乐”)、表情符号(例如，笑脸)等。风格指示符可包括通常与特定风格相关联的字词(例如，“你们”)、指示风格的元数据、或两者。在一些方面，文本到话音转换生成源话音音频以包括特性，诸如由情绪指示符指示的情绪、由风格指示符指示的风格、对应于说话者标识符的话音特性、或它们的组合。

在一些方面，源话音表示163基于源话音音频、源话音音频的源话音频谱、源话音音频的LPC系数或源话音音频的MFCC中的至少一者。在一些示例中，源话音表示163基于解码的数据。例如，设备102的解码器从另一设备接收编码的数据并对该编码的数据进行解码以生成源话音表示163，如参考图13B进一步描述的。

语音转换器164被配置为将转换嵌入159应用于源话音表示163以生成输出话音的输出音频频谱165。例如，源话音表示163指示与特定频率相关联的源话音幅度。基于确定转换嵌入159指示针对特定频率的调整幅度，语音转换器164基于源话音幅度、调整幅度或两者来确定输出话音幅度。在特定示例中，语音转换器164通过基于调整幅度调整源话音幅度来确定输出话音幅度。在另一示例中，输出话音幅度与调整幅度相同。语音转换器164生成指示针对特定频率的输出话音幅度的输出音频频谱165。语音转换器164将输出音频频谱165提供给音频合成器166。

音频合成器166基于输出音频频谱165生成输出话音表示(例如，输出话音的表示)。例如，音频合成器166对输出音频频谱165应用变换(例如，iFFT)以生成表示输出话音的输出信号135(例如，音频信号)。在一些示例中，音频合成器166对输出信号135执行话音到文本转换以生成输出话音文本。在特定方面，输出话音表示包括输出信号135、输出话音文本或两者。在特定方面，输入话音表示149包括输入话音文本，并且输出话音表示包括输出话音文本。

在特定方面，输出话音表示具有目标特性177。例如，输出信号135包括具有目标特性177的输出话音音频。作为另一示例，输出话音文本包括对应于目标特性177的特性指示符(例如，字词、表情符号、说话者标识符、元数据等)。

音频分析器140将输出话音表示(例如，输出信号135、输出话音文本或两者)提供给一个或多个设备，诸如扬声器、存储设备、网络设备、另一设备、或它们的组合。在一些示例中，音频分析器140经由一个或多个扬声器输出输出信号135，如参考图11进一步描述的。在一些示例中，音频分析器140对输出信号135进行编码以生成编码的数据并将编码的数据提供给另一设备，如参考图13A进一步描述的。

在特定示例中，音频分析器140经由一个或多个麦克风接收用户101的输入话音，基于输入话音的输入特性155更新输入话音(例如，使用输入话音作为源话音并更新源话音表示163)以生成输出话音(例如，输出信号135)。为了例示，用户101流式传输游戏频道，并且输出话音具有相对于输入特性155被放大的目标特性177。

在特定示例中，音频分析器140从另一设备接收输入话音，并且基于输入话音的输入特性155更新源话音(例如，源话音表示163)以生成输出话音(例如，输出信号135)。为了例示，音频分析器140在与该设备的呼叫期间从另一设备接收输入话音，经由一个或多个麦克风接收用户101的源话音，并且基于输入话音的输入特性155更新源话音(例如，源话音表示163)以生成传送到另一设备的输出话音(例如，输出信号135)。在特定方面，输出话音相对于输入话音具有正强度。

因此，系统100使得能够基于输入话音的特性动态地更新源话音以生成输出话音。在一些方面，实时更新源话音。例如，设备102接收对应于输入话音的数据、对应于源话音的数据或两者，与音频分析器140将输出信号135提供给回放设备(例如，扬声器、另一设备或两者)并发。

参考图2，示出了特性检测器154的操作的例示性方面的示图200。特性检测器154包括情绪检测器202、说话者检测器204、风格检测器206、或它们的组合。风格检测器206包括音量检测器212、音高检测器214、速度检测器216、或它们的组合。

特性检测器154被配置为处理(例如，使用神经网络或其他特性检测技术)图像数据153、输入音频频谱151、用户输入103、或它们的组合以确定输入特性155。输入特性155包括被检测为对应于与输入音频频谱151相关联的输入话音的情绪267、音量272、音高274、速度276、或它们的组合。在一些示例中，输入特性155包括与输入音频频谱151相关联的输入话音的预测说话者(例如，人、人物等)的说话者标识符264。

在特定方面，情绪检测器202被配置为基于图像数据153、输入音频频谱151或两者来确定情绪267，如参考图3A至图3B进一步描述的。在一些具体实施中，情绪检测器202包括一个或多个神经网络，该一个或多个神经网络被训练来处理图像数据153、输入音频频谱151或两者以确定情绪267，如参考图3A至图3B进一步描述的。

在一些示例中，情绪检测器202使用音频情绪检测技术来处理输入音频频谱151以检测输入话音表示149的第一情绪。在一些示例中，情绪检测器202使用图像情绪分析技术来处理图像数据153以检测第二情绪。为了例示，情绪检测器202对图像数据153执行面部检测以确定在图像数据153的面部部分中检测到面部，并且对面部部分执行面部情绪检测以检测第二情绪。在特定方面，情绪检测器202对图像数据153执行情境检测以确定情境和对应的情境情绪。例如，特定情境(例如，音乐会)映射到特定情境情绪(例如，兴奋)。第二情绪基于情境情绪、在面部部分中检测到的面部情绪、或两者。

情绪检测器202基于第一情绪、第二情绪或两者来确定情绪267。例如，情绪267对应于第一情绪和第二情绪的平均值。为了例示，第一情绪由情绪图中的第一坐标来表示，并且第二情绪由情绪图中的第二坐标来表示，如参考图3A进一步描述的。情绪267对应于情绪图中的第一坐标与第二坐标之间的中点(例如，平均值)。

在特定方面，说话者检测器204被配置为基于图像数据153、输入音频频谱151、用户输入103、或它们的组合来确定说话者标识符264。在特定具体实施中，说话者检测器204对图像数据153执行面部识别(例如，使用神经网络或其他面部识别技术)以检测面部并预测该面部可能对应于与用户标识符相关联的用户(例如，人、人物等)。说话者检测器204选择用户标识符作为图像预测的说话者标识符。

在特定具体实施中，说话者检测器204对输入音频频谱151执行说话者识别(例如，使用神经网络或其他说话者识别技术)以预测由输入音频频谱151指示的话音特性可能对应于与用户标识符相关联的用户(例如，人、人物等)，并且选择用户标识符作为音频预测的说话者标识符。

在特定具体实施中，用户输入103指示用户预测的说话者标识符。作为示例，用户输入103指示登录的用户。作为另一示例，用户输入103指示与特定用户进行呼叫并且在呼叫期间接收输入话音，并且用户预测的说话者标识符对应于特定用户的用户标识符。

说话者检测器204基于图像预测的说话者标识符、音频预测的说话者标识符、用户预测的说话者标识符、或它们的组合来确定说话者标识符264。例如，在说话者检测器204生成图像预测的说话者标识符、音频预测的说话者标识符或用户预测的说话者标识符中的单个预测的说话者标识符的具体实施中，说话者检测器204选择该单个预测的说话者标识符作为说话者标识符264。

在说话者检测器204生成图像预测的说话者标识符、音频预测的说话者标识符或用户预测的说话者标识符中的多个预测的说话者标识符的具体实施中，说话者检测器204选择该多个预测的说话者标识符中的一个预测的说话者标识符作为说话者标识符264。例如，说话者检测器204基于与多个预测的说话者标识符相关联的置信度得分、与多个预测的说话者标识符相关联的优先级、或它们的组合来选择说话者标识符264。在特定方面，与预测的说话者标识符相关联的优先级基于默认数据、配置设置、用户输入、或它们的组合。

在特定方面，风格检测器206被配置为基于输入音频频谱151确定音量272、音高274、速度276、或它们的组合。在一些具体实施中，音量检测器212处理(例如，使用神经网络或其他音量检测技术)输入音频频谱151以确定音量272。在一些具体实施中，音高检测器214处理(例如，使用神经网络或其他音高检测技术)输入音频频谱151以确定音高274。在一些具体实施中，速度检测器216处理(例如，使用神经网络或其他速度检测技术)输入音频频谱151以确定速度276。

参考图3A，示出了情绪检测器202的操作的例示性方面的示图300。情绪检测器202包括音频情绪检测器354。

音频情绪检测器354对输入音频频谱151执行音频情绪检测(例如，使用神经网络或其他音频情绪检测技术)以确定音频情绪355。在一些具体实施中，音频情绪检测包括确定与音频情绪相关联的音频情绪置信度得分355。情绪267包括音频情绪355。

示图300包括情绪图347。在特定方面，情绪267对应于情绪图347上的特定值。在一些示例中，特定值的水平值(例如，x坐标)指示情绪267的效价，并且特定值的竖直值(例如，y坐标)指示情绪267的强度。

一对情绪267之间的距离(例如，笛卡尔距离)指示情绪267之间的相似度。例如，情绪图347指示对应于情绪267A(例如，愤怒)的第一坐标与对应于情绪267B(例如，放松)的第二坐标之间的第一距离(例如，第一笛卡尔距离)以及对应于情绪267A的第一坐标与对应于情绪267C(例如，悲伤)的第三坐标之间的第二距离(例如，第二笛卡尔距离)。第二距离小于第一距离，指示情绪267A(例如，愤怒)与情绪267C(例如，悲伤)比与情绪267B(例如，放松)更相似。

作为非限制性示例，情绪图347被例示为二维空间。在其他示例中，情绪图347可以是多维空间。

参考图3B，示出了情绪检测器202的操作的例示性方面的示图350。情绪检测器202包括音频情绪检测器354、图像情绪检测器356或两者。在一些具体实施中，情绪检测器202包括耦合到音频情绪检测器354和图像情绪检测器356的情绪分析器358。

在一些具体实施中，情绪检测器202对图像数据153执行面部检测并且至少部分地基于面部检测的输出来确定情绪267。例如，面部检测指示图像数据153的面部图像部分对应于面部。在特定具体实施中，情绪检测器202处理面部图像部分(例如，使用神经网络或其他面部情绪检测技术)以确定预测的面部情绪。

在一些示例中，情绪检测器202对图像数据153执行情境检测(例如，使用神经网络或其他情境检测技术)并且至少部分地基于情境检测的输出来确定情绪267。例如，情境检测指示图像数据153对应于特定情境(例如，聚会、音乐会、会议等)，并且情绪检测器202确定对应于特定情境(例如，音乐会)的预测情境情绪(例如，兴奋)。在特定方面，情绪检测器202基于预测的面部情绪、预测的情境情绪或两者来确定图像情绪357。在一些具体实施中，情绪检测器202确定与图像情绪357相关联的图像情绪置信度得分。

情绪检测器202基于音频情绪355、图像情绪357或两者来确定情绪267。例如，情绪分析器358基于音频情绪355和图像情绪357来确定情绪267。在特定具体实施中，情绪分析器358选择音频情绪355或图像情绪357中具有较高置信度得分的一个情绪作为情绪267。在特定具体实施中，响应于确定音频情绪355或图像情绪357中的单个情绪与大于阈值置信度得分相关联，情绪分析器358选择音频情绪355或图像情绪357中的单个情绪作为情绪267。

在特定具体实施中，情绪分析器358将音频情绪355和图像情绪357的平均值(例如，平均x坐标和平均y坐标)确定为情绪267。例如，响应于确定音频情绪355和图像情绪357中的每个情绪与大于阈值置信度得分的相应置信度得分相关联，情绪分析器358将音频情绪355和图像情绪357的平均值确定为情绪267。

参考图4，示出了嵌入选择器156的操作的例示性方面的示图400。在特定方面，嵌入选择器156将目标特性177初始化为与输入特性155相同。任选地，在一些具体实施中，嵌入选择器156包括特性调整器492，该特性调整器被配置为基于输入特性155和操作模式105更新目标特性177。

在特定方面，操作模式105基于默认数据、配置设置、用户输入、或它们的组合。特性调整器492包括情绪调整器452、说话者调整器454、音量调整器456、音高调整器458、速度调整器460、或它们的组合。

情绪调整器452被配置为基于操作模式105更新目标特性177的情绪267。在特定具体实施中，情绪调整器452使用情绪调整数据449来将原始情绪(例如，由输入特性155所指示的情绪267)映射到目标情绪(例如，要包括在目标特性177中的情绪267)。例如，响应于确定操作模式105对应于操作模式105A(例如，“积极提升”)，情绪调整器452基于情绪调整数据449A更新情绪267，如参考图5A进一步描述的。

在另一示例中，响应于确定操作模式105对应于操作模式105B(例如，“互补”)，情绪调整器452基于情绪调整数据449B更新情绪267，如参考图5B进一步描述的。在又一示例中，响应于确定操作模式105对应于操作模式105C(例如，“流畅”)，情绪调整器452基于情绪调整数据449C更新情绪267，如参考图5C进一步描述的。在特定方面，操作模式105基于多个操作模式(诸如操作模式105A、操作模式105B、操作模式105C、或它们的组合)中的一个操作模式的用户选择。

在特定方面，情绪调整数据449A指示情绪图347中所指示的情绪之间的第一映射。情绪调整数据449B指示情绪图347中所指示的情绪之间的第二映射。情绪调整数据449C指示情绪图347中所指示的情绪之间的第三映射。在一些方面，第二映射包括未被包括在第一映射中的至少一个映射，第一映射包括未被包括在第二映射中的至少一个映射，或两者。在一些方面，第三映射包括未被包括在第一映射中的至少一个映射，第一映射包括未被包括在第三映射中的至少一个映射，或两者。在一些方面，第三映射包括未被包括在第二映射中的至少一个映射，第二映射包括未被包括在第三映射中的至少一个映射，或两者。

在一些方面，操作模式105指示特定情绪，并且情绪调整器452将目标特性177的情绪267设置为特定情绪，如参考图5D进一步描述的。例如，操作模式105基于特定情绪的用户选择。在一些方面，情绪调整数据449不包括针对特定原始情绪的映射，并且情绪调整器452基于一个或多个其他映射估计从特定原始情绪到特定目标情绪的映射，如参考图7B进一步描述的。

说话者调整器454被配置为基于操作模式105更新目标特性177的说话者标识符264。在特定具体实施中，操作模式105包括指示原始说话者标识符(例如，输入特性155中所指示的说话者标识符264)将被映射到特定目标说话者标识符的说话者映射数据，并且说话者调整器454更新目标特性177以将特定目标说话者标识符指示为说话者标识符264。例如，操作模式105基于用户选择，该用户选择指示与原始说话者标识符相关联的第一用户(例如，苏珊)的话音将被修改为听起来像与特定目标说话者标识符相关联的第二用户(例如，汤姆)的话音。

在特定具体实施中，操作模式105指示特定目标说话者标识符的选择，并且说话者调整器454更新目标特性177以将特定目标说话者标识符指示为说话者标识符264。例如，操作模式105基于用户选择，该用户选择指示话音将被修改为听起来像与特定目标说话者标识符相关联的用户(例如，人、人物等)的话音。

音量调整器456被配置为基于操作模式105更新目标特性177的音量272。在特定具体实施中，操作模式105包括指示原始音量(例如，在输入特性155中指示的音量272)将被映射到特定目标音量的音量映射数据，并且音量调整器456更新目标特性177以将特定目标音量指示为音量272。例如，操作模式105基于指示音量将减小特定量的用户选择。音量调整器456基于音量272与特定量之间的差来确定特定目标音量，并且更新目标特性177以将特定目标音量指示为音量272。在特定具体实施中，操作模式105指示特定目标音量的选择，并且说话者调整器454更新目标特性177以将特定目标音量指示为音量272。

音高调整器458被配置为基于操作模式105更新目标特性177的音高274。在特定具体实施中，操作模式105包括指示原始音高(例如，在输入特性155中指示的音高274)将被映射到特定目标音高的音高映射数据，并且音高调整器458更新目标特性177以将特定目标音高指示为音高274。例如，操作模式105基于音高将减小特定量的用户选择。音高调整器458基于音高274与特定量之间的差来确定特定目标音高，并且更新目标特性177以将特定目标音高指示为音高274。在特定具体实施中，操作模式105指示特定目标音高的选择，并且说话者调整器454更新目标特性177以将特定目标音高指示为音高274。

速度调整器460被配置为基于操作模式105更新目标特性177的速度276。在特定具体实施中，操作模式105包括指示原始速度(例如，在输入特性155中指示的速度276)将被映射到特定目标速度的速度映射数据，并且速度调整器460更新目标特性177以将特定目标速度指示为速度276。例如，操作模式105基于指示速度将减小特定量的用户选择。速度调整器460基于速度276与特定量之间的差来确定特定目标速度，并且更新目标特性177以将特定目标速度指示为速度276。在特定具体实施中，操作模式105指示特定目标速度的选择，并且说话者调整器454更新目标特性177以将特定目标速度指示为速度276。

嵌入选择器156基于特性映射数据457确定与目标特性177相关联的一个或多个参考嵌入157，如参考图6进一步描述的。特性调整器492使得能够基于输入特性155动态地选择对应于目标特性177的一个或多个参考嵌入157。

参考图5A，示出了图4的情绪调整器452的操作的例示性方面的示图500。示图500包括对应于操作模式105A(例如，积极提升)的情绪调整数据449A的示例。

情绪调整数据449A指示情绪图347中的每个原始情绪被映射到情绪图347中相对于原始情绪具有更高(例如，正)强度、更高(例如，正)效价、或两者的相应目标情绪。例如，第一原始情绪(例如，愤怒)映射到第一目标情绪(例如，兴奋)，第二原始情绪(例如，悲伤)映射到第二目标情绪(例如，快乐)，并且第三原始情绪(例如，放松)映射到第三目标情绪(例如，高兴)。第一目标情绪、第二目标情绪和第三目标情绪分别具有比第一原始情绪、第二原始情绪和第三原始情绪更高的强度和更高的效价。

作为例示性示例，提供指示三个原始情绪到三个目标情绪的映射的情绪调整数据449A。在其他示例中，情绪调整数据449A可包括少于三个映射或多于三个映射。

当选择操作模式105A(例如，积极提升)时，情绪调整数据449A使得嵌入选择器156选择目标情绪(例如，目标特性177的情绪267)，该目标情绪使得音频分析器140能够生成对应于相对于输入话音表示149的原始情绪(例如，输入特性155的情绪267)的积极情绪的图1的输出信号135。在示例中，用户101选择操作模式105A(例如，积极提升)以增加直播视频中的话音的积极性和能量，其中输入话音被用作源话音。在另一示例中，用户101选择操作模式105A(例如，积极提升)以增加营销呼叫中的话音的积极性和能量，其中输入话音对应于呼叫的接收者的话音并且源话音对应于所记录的消息。

参考图5B，示出了图4的情绪调整器452的操作的例示性方面的示图520。示图500包括对应于操作模式105B(例如，互补)的情绪调整数据449B的示例。

情绪调整数据449B指示情绪图347中的每个原始情绪被映射到情绪图347中相对于原始情绪具有互补(例如，相反)强度、互补(例如，相反)效价、或两者的相应目标情绪。在特定方面，第一特定情绪由第一水平坐标(例如，10作为x坐标)和第一竖直坐标(例如，5作为y坐标)来表示。与第一特定情绪互补的第二特定情绪具有第二水平坐标(例如，-10作为x坐标)和第二竖直坐标(例如，-5作为y坐标)。第二水平坐标是第一水平坐标的负值，并且第二竖直坐标是第一竖直坐标的负值。

情绪调整数据449B指示第一情绪(例如，愤怒)映射到第二情绪(例如，放松)，并且反之亦然。作为另一示例，第三情绪(例如，悲伤)映射到第四情绪(例如，高兴)，并且反之亦然。第一情绪(例如，愤怒)相对于第二情绪(例如，放松)具有互补的强度和互补的效价。第三情绪(例如，悲伤)相对于第四情绪(例如，高兴)具有互补的强度和互补的效价。

作为例示性示例，提供指示两个映射的情绪调整数据449B。在其他示例中，情绪调整数据449B可包括少于两个映射或多于两个映射。

当选择操作模式105B(例如，互补)时，情绪调整数据449B使得嵌入选择器156选择目标情绪(例如，目标特性177的情绪267)，该目标情绪使得音频分析器140能够生成对应于相对于输入话音表示149的原始情绪(例如，输入特性155的情绪267)的互补情绪的图1的输出信号135。

参考图5C，示出了图4的情绪调整器452的操作的例示性方面的示图550。示图550包括对应于操作模式105C(例如，流畅)的情绪调整数据449C的示例。

情绪调整数据449C指示情绪图347中的每个原始情绪被映射到情绪图347中的相应目标情绪，该相应目标情绪相对于情绪图347的同一情绪象限内的原始情绪具有互补的强度、互补的(例如，相反的)效价或两者。在特定方面，第一情绪象限对应于正效价值(例如，大于0x坐标)和正强度值(例如，大于0y坐标)，第二情绪象限对应于负效价值(例如，小于0x坐标)和正强度值(例如，大于0y坐标)，第三情绪象限对应于负效价值(例如，小于0x坐标)和负强度值(例如，小于0y坐标)，并且第四情绪象限对应于正效价值(例如，大于0x坐标)和负强度值(例如，小于0y坐标)。

在第一情绪象限和第三情绪象限的每一者中，可通过改变x坐标和y坐标并保持相同符号来确定互补情绪。在第一情绪象限的示例中，第一特定情绪由第一水平坐标(例如，10作为x坐标)和第一竖直坐标(例如，5作为y坐标)来表示。与第一情绪象限中的第一特定情绪互补的第二特定情绪具有第二水平坐标(例如，5作为x坐标)和第二竖直坐标(例如，10作为y坐标)。第二水平坐标与第一竖直坐标相同，并且第二竖直坐标与第一水平坐标相同。情绪调整数据449C指示第一特定情绪映射到第二特定情绪，并且反之亦然。

在第三情绪象限的示例中，第一特定情绪由第一水平坐标(例如，-10作为x坐标)和第一竖直坐标(例如，-5作为y坐标)来表示。与第三情绪象限中的第一特定情绪互补的第二特定情绪具有第二水平坐标(例如，-5作为x坐标)和第二竖直坐标(例如，-10作为y坐标)。第二水平坐标(例如，-5)与第一竖直坐标(例如，-5)相同，并且第二竖直坐标(例如，-10)与第一水平坐标(例如，-10)相同。情绪调整数据449C指示第一特定情绪映射到第二特定情绪，并且反之亦然。

在第二情绪象限和第四情绪象限的每一者中，可通过改变x坐标和y坐标以及改变符号来确定互补情绪。在第二情绪象限的示例中，第一特定情绪由第二情绪象限中的第一水平坐标(例如，-10作为x坐标)和第一竖直坐标(例如，5作为y坐标)来表示。与第二情绪象限中的第一特定情绪互补的第二特定情绪具有第二水平坐标(例如，-5作为x坐标)和第二竖直坐标(例如，10作为y坐标)。第二水平坐标(例如，-5)为第一竖直坐标(例如，5)的负值，并且第二竖直坐标(例如，10)为第一水平坐标(例如，-10)的负值。情绪调整数据449C指示第一特定情绪映射到第二特定情绪，并且反之亦然。

在第四情绪象限的示例中，第一特定情绪由第四情绪象限中的第一水平坐标(例如，10作为x坐标)和第一竖直坐标(例如，-5作为y坐标)来表示。与第四情绪象限中的第一特定情绪互补的第二特定情绪具有第二水平坐标(例如，5作为x坐标)和第二竖直坐标(例如，-10作为y坐标)。第二水平坐标(例如，5)为第一竖直坐标(例如，-5)的负值，并且第二竖直坐标(例如，-10)为第一水平坐标(例如，10)的负值。情绪调整数据449C指示第一特定情绪映射到第二特定情绪，并且反之亦然。

作为例示性示例，提供指示四个映射的情绪调整数据449C。在其他示例中，情绪调整数据449C可包括少于四个映射或多于四个映射。

当选择操作模式105C(例如，流畅)时，情绪调整数据449C使得嵌入选择器156选择目标情绪(例如，目标特性177的情绪267)，该目标情绪使得音频分析器140能够生成对应于相对于输入话音表示149的原始情绪(例如，输入特性155的情绪267)的同一情绪象限中的补充情绪的图1的输出信号135。

参考图5D，示出了图4的情绪调整器452的操作的例示性方面的示图560。示图560包括对应于指示目标情绪的用户输入的操作模式105的示例。

在特定示例中，用户输入对应于经由图形用户界面(GUI)549对情绪图347的目标情绪的选择。在该示例中，情绪调整器452选择目标情绪作为目标特性177的情绪267。

参考图6，示出了嵌入选择器156的操作的例示性方面的示图600。嵌入选择器156被配置为基于目标特性177选择一个或多个参考嵌入157。

嵌入选择器156包括将特性映射到参考嵌入的特性映射数据457。在特定方面，特性映射数据457包括将情绪267映射到参考嵌入的情绪映射数据671。例如，情绪映射数据671指示情绪267A(例如，愤怒)与参考嵌入157A相关联。作为另一示例，情绪映射数据671指示情绪267B(例如，放松)与参考嵌入157B相关联。在又一示例中，情绪映射数据671指示情绪267C(例如，悲伤)与参考嵌入157C相关联。作为例示性示例，提供包括针对三种情绪的映射的情绪映射数据671。在其他示例中，情绪映射数据671可包括针对少于三种情绪或多于三种情绪的映射。

在一些方面，目标特性177的情绪267被包括在情绪映射数据671中，并且嵌入选择器156选择对应的参考嵌入157作为与情绪267相关联的一个或多个参考嵌入681。在示例中，情绪267对应于情绪267A(例如，愤怒)。在该示例中，响应于确定情绪映射数据671指示情绪267A(例如，愤怒)对应于参考嵌入157A，嵌入选择器156选择参考嵌入157A作为与情绪267相关联的一个或多个参考嵌入681。

在一些方面，目标特性177的情绪267不被包括在情绪映射数据671中，并且嵌入选择器156选择与多个情绪相关联的参考嵌入157作为参考嵌入681，如参考图7A进一步描述的。在一些具体实施中，嵌入选择器156还生成与参考嵌入681相关联的情绪权重691。权重137包括情绪权重691(如果有的话)，并且一个或多个参考嵌入157包括一个或多个参考嵌入681。

在特定方面，特性映射数据457包括将说话者标识符映射到参考嵌入的说话者标识符映射数据673。例如，说话者标识符映射数据673指示第一说话者标识符(例如，第一用户标识符)与参考嵌入157A相关联。作为另一示例，说话者标识符映射数据673指示第二说话者标识符(例如，第二说话者标识符)与参考嵌入157B相关联。作为例示性示例，提供包括针对两个说话者标识符的两个映射的说话者标识符映射数据673。在其他示例中，说话者标识符映射数据673可包括针对少于两个说话者标识符或多于两个说话者标识符的映射。

在一些方面，目标特性177的说话者标识符264被包括在说话者标识符映射数据673中。例如，响应于确定说话者标识符映射数据673指示说话者标识符264(例如，第一说话者标识符)对应于参考嵌入157A，嵌入选择器156选择参考嵌入157A作为与说话者标识符264相关联的一个或多个参考嵌入683。

在一些方面，目标特性177的说话者标识符264包括多个说话者标识符。例如，将源话音更新为听起来像输出话音中多个说话者的组合。嵌入选择器156选择与多个说话者标识符相关联的参考嵌入157作为参考嵌入683，并且生成与参考嵌入683相关联的说话者权重693。例如，响应于确定说话者标识符264包括由说话者标识符映射数据673指示为分别映射到参考嵌入157A和参考嵌入157B的第一说话者标识符和第二说话者标识符，嵌入选择器156选择参考嵌入157A和参考嵌入157B作为参考嵌入683。在特定方面，说话者权重693对应于针对参考嵌入683中的每个参考嵌入的相等权重。在另一方面，操作模式105包括指示与第一说话者标识符相关联的第一说话者权重和与第二说话者标识符相关联的第二说话者权重的用户输入，并且说话者权重693包括针对一个或多个参考嵌入683中的参考嵌入157A的第一说话者权重和针对参考嵌入157B的第二说话者权重。权重137包括说话者权重693(如果有的话)，并且一个或多个参考嵌入157包括一个或多个参考嵌入683。

在特定方面，特性映射数据457包括将特定音量映射到参考嵌入的音量映射数据675。例如，音量映射数据675指示第一音量(例如，高)与参考嵌入157A相关联。作为另一示例，音量映射数据675指示第二音量(例如，低)与参考嵌入157B相关联。作为例示性示例，提供包括针对两个音量的两个映射的音量映射数据675。在其他示例中，音量映射数据675可包括针对少于两个音量或多于两个音量的映射。

在一些方面，响应于确定音量映射数据675指示目标特性177的音量272(例如，第一音量)对应于参考嵌入157A，嵌入选择器156选择参考嵌入157A作为与音量272相关联的一个或多个参考嵌入685。一个或多个参考嵌入157包括一个或多个参考嵌入685。

在一些方面，目标特性177的音量272(例如，中等)不被包括在音量映射数据675中，并且嵌入选择器156选择与多个音量相关联的参考嵌入157作为参考嵌入685。例如，嵌入选择器156选择分别对应于第一音量(例如，高)和第二音量(例如，低)的参考嵌入157A和参考嵌入157B作为参考嵌入685。为了例示，嵌入选择器156选择音量映射数据675中所包括的大于音量272的下一音量和小于音量272的下一音量。

在一些具体实施中，嵌入选择器156还生成与参考嵌入685相关联的音量权重695。例如，音量权重695包括针对参考嵌入157A的第一权重和针对参考嵌入157B的第二权重。第一权重基于音量272(例如，中等)与第一音量(例如，高)之间的差。第二权重基于音量272(例如，中等)与第二音量(例如，低)之间的差。权重137包括音量权重695(如果有的话)，并且一个或多个参考嵌入157包括一个或多个参考嵌入685。

在特定方面，特性映射数据457包括将特定音高映射到参考嵌入的音高映射数据677。例如，音高映射数据677指示第一音高(例如，高)与参考嵌入157A相关联。作为另一示例，音高映射数据677指示第二音高(例如，低)与参考嵌入157B相关联。作为例示性示例，提供包括针对两个音高的两个映射的音高映射数据677。在其他示例中，音高映射数据677可包括针对少于两个音高或多于两个音高的映射。

在一些方面，响应于确定音高映射数据677指示目标特性177的音高274(例如，第一音高)对应于参考嵌入157A，嵌入选择器156选择参考嵌入157A作为与音高274相关联的一个或多个参考嵌入687。一个或多个参考嵌入157包括一个或多个参考嵌入687。

在一些方面，目标特性177的音高274(例如，中等)不被包括在音高映射数据677中，并且嵌入选择器156选择与多个音高相关联的参考嵌入157作为参考嵌入687。例如，嵌入选择器156选择分别对应于第一音高(例如，高)和第二音高(例如，低)的参考嵌入157A和参考嵌入157B作为参考嵌入687。为了例示，嵌入选择器156选择音高映射数据677中所包括的大于音高274的下一音高和小于音高274的下一音高。

在一些具体实施中，嵌入选择器156还生成与参考嵌入687相关联的音高权重697。例如，音高权重697包括针对参考嵌入157A的第一权重和针对参考嵌入157B的第二权重。第一权重基于音高274(例如，中等)与第一音高(例如，高)之间的差。第二权重基于音高274(例如，中等)与第二音高(例如，低)之间的差。权重137包括音高权重697(如果有的话)，并且一个或多个参考嵌入157包括一个或多个参考嵌入687。

在特定方面，特性映射数据457包括将特定速度映射到参考嵌入的速度映射数据679。例如，速度映射数据679指示第一速度(例如，高)与参考嵌入157A相关联。作为另一示例，速度映射数据679指示第二速度(例如，低)与参考嵌入157B相关联。作为例示性示例，提供包括针对两个速度的两个映射的速度映射数据679。在其他示例中，速度映射数据679可包括针对少于两个速度或多于两个速度的映射。

在一些方面，响应于确定速度映射数据679指示目标特性177的速度276(例如，第一速度)对应于参考嵌入157A，嵌入选择器156选择参考嵌入157A作为与速度276相关联的一个或多个参考嵌入689。一个或多个参考嵌入157包括一个或多个参考嵌入689。

在一些方面，目标特性177的速度276(例如，中等)不被包括在速度映射数据679中，并且嵌入选择器156选择与多个速度相关联的参考嵌入157作为参考嵌入689。例如，嵌入选择器156选择分别对应于第一速度(例如，高)和第二速度(例如，低)的参考嵌入157A和参考嵌入157B作为参考嵌入689。为了例示，嵌入选择器156选择速度映射数据679中所包括的大于速度276的下一速度和小于速度276的下一速度。

在一些具体实施中，嵌入选择器156还生成与参考嵌入689相关联的速度权重699。例如，速度权重699包括针对参考嵌入157A的第一权重和针对参考嵌入157B的第二权重。第一权重基于速度276(例如，中等)与第一速度(例如，高)之间的差。第二权重基于速度276(例如，中等)与第二速度(例如，低)之间的差。权重137包括速度权重699(如果有的话)，并且一个或多个参考嵌入157包括一个或多个参考嵌入689。

参考图7A，示出了嵌入选择器156的操作的例示性方面的示图700。输入特性155包括情绪267D(例如，无聊)。情绪调整器452基于操作模式105选择情绪调整数据449。例如，如果操作模式105包括操作模式105A(例如，积极提升)，则情绪调整器452选择与操作模式105A相关联的情绪调整数据449A，如参考图4所描述的。作为另一示例，如果操作模式105包括操作模式105B(例如，互补)，则情绪调整器452选择与操作模式105B相关联的情绪调整数据449B，如参考图4所描述的。

情绪调整器452确定情绪调整数据449指示情绪267D(例如，无聊)映射到情绪267E。情绪调整器452更新目标特性177以包括情绪267E。响应于确定情绪映射数据671不包括对应于情绪267E的任何参考嵌入，情绪调整器452从情绪映射数据671中选择对应于在情绪图347中的情绪267E的阈值距离内的情绪的多个映射。例如，情绪调整器452基于确定情绪267B在情绪267E的阈值距离内，选择针对情绪267B(例如，放松)的第一映射。作为另一示例，情绪调整器452基于确定情绪267F在情绪267E的阈值距离内，选择针对情绪267F(例如，平静)的第二映射。

情绪调整器452将对应于所选择的映射的参考嵌入添加到与情绪267E相关联的一个或多个参考嵌入681。例如，响应于确定第一映射指示情绪267B(例如，放松)对应于参考嵌入157B，情绪调整器452将参考嵌入157B包括在与情绪267E相关联的一个或多个参考嵌入681中。在特定方面，情绪调整器452基于情绪267E与情绪267B(例如，放松)之间的距离来确定权重137B，并且将权重137B包括在情绪权重691中。

在另一示例中，响应于确定第二映射指示情绪267F(例如，平静)对应于参考嵌入157F，情绪调整器452将参考嵌入157F包括在与情绪267E相关联的一个或多个参考嵌入681中。在特定方面，情绪调整器452基于情绪267E与情绪267F(例如，平静)之间的距离来确定权重137F，并且将权重137F包括在情绪权重691中。

因此，情绪调整器452选择多个参考嵌入157(例如，参考嵌入157B和参考嵌入157F)作为一个或多个参考嵌入681，该一个或多个参考嵌入可被组合以生成对应于情绪267E的估计情绪嵌入，如参考图8A进一步描述的。基于情绪权重691组合一个或多个参考嵌入681。

参考图7B，示出了嵌入选择器156的操作的例示性方面的示图750。情绪调整器452基于操作模式105选择情绪调整数据449。

在示例中，情绪调整数据449包括指示情绪267C(例如，悲伤)映射到情绪267B(例如，放松)的第一映射以及指示情绪267H(例如，沮丧)映射到情绪267J(例如，内容)的第二映射。在示例中，情绪映射数据671指示情绪267B(例如，放松)映射到参考嵌入157B并且情绪267J(例如，满足)映射到参考嵌入157J。在特定方面，情绪调整数据449包括到情绪映射数据671包括其参考嵌入的情绪的映射。

输入特性155包括情绪267G。响应于确定情绪调整数据449不包括对应于情绪267G的任何映射，情绪调整器452从情绪调整数据449中选择对应于在情绪图347中的情绪267G的阈值距离内的情绪的多个映射。例如，情绪调整器452基于确定情绪267H在情绪267G的阈值距离内来选择第一映射(例如，从情绪267H到情绪267J)。作为另一示例，情绪调整器452基于确定情绪267C在情绪267G的阈值距离内来选择第二映射(例如，从情绪267C到情绪267B)。

在特定具体实施中，情绪调整器452基于确定情绪267K距情绪267J(例如，满足)和情绪267B(例如，放松)的相对距离与情绪267G距情绪267H(例如，沮丧)和情绪267C(例如，悲伤)的相对距离相同，估计情绪267G映射到情绪267K。目标特性177包括情绪267K。

响应于确定情绪映射数据671不指示对应于情绪267K的任何参考嵌入，情绪调整器452从情绪映射数据671选择多个映射以确定对应于情绪267K的参考嵌入，如参考图7A中的情绪267E所描述的。例如，情绪调整器452从情绪映射数据671中选择针对情绪267B(例如，放松)的第一映射和针对情绪267J(例如，满足)的第二映射。

情绪调整器452将对应于所选择的映射的参考嵌入添加到与情绪267K相关联的一个或多个参考嵌入681。例如，情绪调整器452将分别对应于情绪267B和情绪267J的参考嵌入157B和参考嵌入157J添加到一个或多个参考嵌入681。

在特定方面，情绪调整器452基于情绪267J与情绪267K之间的距离、情绪267H与情绪267G之间的距离或两者来确定权重137J。在特定方面，情绪调整器452基于情绪267B与情绪267K之间的距离、情绪267C与情绪267G之间的距离或两者来确定权重137B。情绪权重691包括权重137B和权重137J。

因此，情绪调整器452选择多个参考嵌入157(例如，参考嵌入157B和参考嵌入157J)作为一个或多个参考嵌入681，该一个或多个参考嵌入可被组合以生成估计的情绪嵌入，如参考图8A进一步描述的，该估计的情绪嵌入对应于作为情绪267G的估计目标情绪的情绪267K。基于情绪权重691组合一个或多个参考嵌入681。

参考图8A，示出了转换嵌入生成器158的例示性具体实施的操作的例示性方面的示图800。转换嵌入生成器158包括嵌入组合器852，该嵌入组合器被配置为至少部分地基于一个或多个参考嵌入157来生成嵌入859。

响应于确定一个或多个参考嵌入157包括单个参考嵌入，嵌入组合器852将该单个参考嵌入指定为嵌入859。另选地，响应于确定一个或多个参考嵌入157包括多个参考嵌入，嵌入组合器852组合多个参考嵌入以生成嵌入859。

在特定方面，响应于确定一个或多个参考嵌入157包括多个参考嵌入，嵌入组合器852生成针对对应类型的特性的特定参考嵌入。在示例中，嵌入组合器852组合一个或多个参考嵌入681以生成情绪嵌入871，组合一个或多个参考嵌入683以生成说话者嵌入873，组合一个或多个参考嵌入685以生成音量嵌入875，组合一个或多个参考嵌入687以生成音高嵌入877，组合一个或多个参考嵌入689以生成速度嵌入879，或它们的组合。

在一些方面，嵌入组合器852基于对应的权重组合针对特定类型的特性的多个参考嵌入。例如，嵌入组合器852基于情绪权重691组合一个或多个参考嵌入681。为了例示，情绪权重691包括针对一个或多个参考嵌入681中的参考嵌入157A的第一权重和针对一个或多个参考嵌入681的参考嵌入157B的第二权重。嵌入组合器852将第一权重应用于参考嵌入157A以生成第一加权参考嵌入，并且将第二权重应用于参考嵌入157B以生成第二加权参考嵌入。在一些示例中，参考嵌入157对应于话音特征值的集合(例如，向量)，并且对参考嵌入157应用特定权重对应于将话音特征值中的每个话音特征值与特定权重相乘以生成加权参考嵌入。嵌入组合器852基于第一加权参考嵌入和第二加权参考嵌入的组合(例如，总和)生成情绪嵌入871。

在一些方面，嵌入组合器852独立于对应权重(例如，在无对应权重的情况下)组合针对特定类型的特性多个参考嵌入。在示例中，响应于确定扬声器权重693不可用，嵌入组合器852组合一个或多个参考嵌入683，其中一个或多个参考嵌入683中的每个参考嵌入具有相等权重。为了例示，嵌入组合器852生成说话者嵌入873作为一个或多个参考嵌入683中的参考嵌入157A和一个或多个参考嵌入683中的参考嵌入157B的组合(例如，平均值)。

嵌入组合器852生成嵌入859作为针对对应类型的特性的特定参考嵌入的组合。例如，嵌入组合器852生成嵌入859作为情绪嵌入871、说话者嵌入873、音量嵌入875、音高嵌入877、速度嵌入879、或它们的组合的组合(例如，级联)。在特定方面，嵌入859表示目标特性177。在特定方面，将嵌入859用作转换嵌入159。

参考图8B，示出了转换嵌入生成器158的另一例示性具体实施的操作的例示性方面的示图850。转换嵌入生成器158包括耦合到嵌入组合器852的嵌入组合器854。

嵌入组合器854被配置为将嵌入859与基线嵌入161组合以生成转换嵌入159。在特定方面，响应于确定没有与音频分析会话相关联的基线嵌入可用，嵌入组合器854将嵌入859指定为转换嵌入159并将转换嵌入159存储为基线嵌入161。

响应于确定与正在进行的音频分析会话相关联的基线嵌入161可用，嵌入组合器854基于嵌入859和基线嵌入161的组合生成转换嵌入159。在示例中，转换嵌入159对应于情绪嵌入861、说话者嵌入863、音量嵌入865、音高嵌入867、速度嵌入869、或它们的组合的组合(例如，级联)。

嵌入组合器854生成对应于情绪嵌入881、说话者嵌入883、音量嵌入885、音高嵌入887、速度嵌入889、或它们的组合的组合(例如，级联)的转换嵌入159。

嵌入组合器854基于基线嵌入161的第一对应特性嵌入、嵌入859的第二对应特性嵌入或两者生成转换嵌入159的特性嵌入。例如，嵌入组合器854生成情绪嵌入881作为情绪嵌入861和情绪嵌入871的组合(例如，平均值)。为了例示，情绪嵌入861包括话音特征值的第一集合(例如，x1、x2、x3、…)，并且情绪嵌入871包括话音特征值的第二集合(例如，y1、y2、y3等)。嵌入组合器854生成包括话音特征值的第三集合(例如，z1、z2、z3等)的情绪嵌入881，其中话音特征值的第三集合中的每个第N个话音特征值(zN)是话音特征值的第一集合中的对应第N个话音特征值(xN)和话音特征值的第二集合中的对应第N个特征值(yN)的平均值。

在一些示例中，情绪嵌入861或情绪嵌入871中的一者可用，但不是两者都可用，因为基线嵌入161不包括情绪嵌入861或者嵌入859不包括情绪嵌入871。在这些示例中，情绪嵌入881包括情绪嵌入861或情绪嵌入871中可用的一者。在一些示例中，情绪嵌入861和情绪嵌入871都不可用。在这些示例中，转换嵌入159不包括情绪嵌入881。

类似地，嵌入组合器854基于说话者嵌入863、说话者嵌入873或两者生成说话者嵌入883。作为另一示例，嵌入组合器854基于音量嵌入885、音量嵌入865或两者生成音量嵌入875。作为又一示例，嵌入组合器854基于音高嵌入867、音高嵌入877或两者生成音高嵌入887。类似地，嵌入组合器854基于速度嵌入869、速度嵌入879或两者生成速度嵌入889。在特定方面，嵌入组合器854将转换嵌入159存储为基线嵌入161以用于基于对应于输入话音的后续部分的输入话音表示149的一个或多个参考嵌入157生成转换嵌入159。使用基线嵌入161来生成转换嵌入159可实现转换嵌入159和输出信号135的逐渐改变。

参考图8C，示出了转换嵌入生成器158的操作的例示性方面的示图890。示图890包括音频分析器140的组件的示例892、示例894的转换嵌入生成器158的例示性具体实施的示例894、以及由示例892的转换嵌入生成器158的嵌入组合器856生成嵌入859的示例896。

在示例892中，音频频谱生成器150生成对应于多个输入话音表示149(诸如输入话音表示149A至输入话音表示149N)中的每个输入话音表示的输入音频频谱151，其中输入话音表示149N对应于第N个输入表示，其中N对应于大于1的正整数。例如，音频频谱生成器150处理输入话音表示149A以生成输入音频频谱151A，如参考图1所描述的。类似地，音频频谱生成器150生成一个或多个附加输入音频频谱151。例如，音频频谱生成器150处理输入话音表示149N以生成输入音频频谱151N，如参考图1所描述的。

特性检测器154确定对应于输入音频频谱151中的每个输入音频频谱的输入特性155。例如，特性检测器154处理输入音频频谱151A以确定输入特性155A，如参考图1所描述的。类似地，特性检测器154确定一个或多个附加输入特性155。例如，特性检测器154处理输入音频频谱151N以确定输入特性155N，如参考图1所描述的。

嵌入选择器156确定对应于输入特性155中的每个输入特性的目标特性177和一个或多个参考嵌入157。例如，嵌入选择器156确定对应于输入特性155A的目标特性177A，并且确定对应于目标特性177A的参考嵌入157A、权重137A、或它们的组合，如参考图1所描述的。类似地，嵌入选择器156确定对应于输入特性155中的每个输入特性的一个或多个附加目标特性177和一个或多个附加参考嵌入157。例如，嵌入选择器156确定对应于输入特性155N的目标特性177N，并且确定对应于目标特性177N的参考嵌入157N、权重137N、或它们的组合，如参考图1所描述的。

转换嵌入生成器158基于参考嵌入157、权重137或两者的多个集合来生成转换嵌入159。在示例894中，嵌入组合器852耦合到嵌入组合器856。任选地，在一些具体实施中，嵌入组合器856耦合到嵌入组合器854。

嵌入组合器852生成对应于一个或多个参考嵌入157、权重137或两者的每个集合的嵌入859。例如，嵌入组合器852生成对应于一个或多个参考嵌入157A、权重137A、或它们的组合的嵌入859A，如参考图8A所描述的。类似地，嵌入组合器852生成对应于一个或多个参考嵌入157、权重137、或它们的组合的每个集合的一个或多个附加嵌入859。例如，嵌入组合器852生成对应于一个或多个参考嵌入157N、权重137N、或它们的组合的嵌入859N，如参考图8A所描述的。

嵌入组合器856基于嵌入859A至嵌入859N的组合(例如，平均值)生成嵌入859。在特定方面，嵌入859对应于嵌入859A至嵌入859N的加权平均值。

如示例896中所示，嵌入859A对应于情绪嵌入871A、说话者嵌入873A、音量嵌入875A、音高嵌入877A或速度嵌入879A中的至少两者的组合(例如，级联)。嵌入859N对应于情绪嵌入871N、说话者嵌入873N、音量嵌入875N、音高嵌入877N或速度嵌入879N中的至少两者的组合(例如，级联)。嵌入组合器856生成对应于情绪嵌入871、说话者嵌入873、音量嵌入875、音高嵌入877或速度嵌入879中的至少两者的组合(例如，级联)的嵌入859。作为例示性示例，提供包括情绪嵌入、说话者嵌入、音量嵌入、音高嵌入或速度嵌入中的至少两者的嵌入859A、嵌入859N和嵌入859中的每一者。在一些示例中，嵌入859A、嵌入859N或嵌入859中的一者或多者可包括情绪嵌入、说话者嵌入、音量嵌入、音高嵌入或速度嵌入中的单个嵌入。

嵌入组合器856基于嵌入859A的第一对应特性嵌入和一个或多个附加嵌入859的附加对应特性嵌入生成嵌入859的特性嵌入。例如，嵌入组合器856生成情绪嵌入871作为情绪嵌入871A至情绪嵌入871N的组合(例如，平均值)。在一些示例中，少于N个情绪嵌入可用，并且嵌入组合器856基于嵌入859A至嵌入859N中的可用情绪嵌入生成情绪嵌入871。在嵌入859A至嵌入859N中不包括情绪嵌入的示例中，嵌入159不包括情绪嵌入871。

类似地，嵌入组合器856基于说话者嵌入873A至说话者嵌入873N生成说话者嵌入873。作为另一示例，嵌入组合器856基于音量嵌入875A至音量嵌入875N生成音量嵌入875。作为又一示例，嵌入组合器856基于音高嵌入877A至音高嵌入877N生成音高嵌入877。类似地，嵌入组合器856基于速度嵌入879A至速度嵌入879N生成速度嵌入879。在特定方面，嵌入859对应于转换嵌入159。在另一方面，嵌入组合器854处理嵌入859和基线嵌入161以生成转换嵌入159，如参考图8B所描述的。

参考图9，示出了系统900。系统900可操作为基于输入话音特性执行源话音修改。在特定方面，图1的系统100包括系统900的一个或多个组件。

音频分析器140耦合到输入接口914、输入接口924或两者。输入接口914被配置为耦合到一个或多个相机910。输入接口924被配置为耦合到一个或多个麦克风920。作为非限制性示例，一个或多个相机910和一个或多个麦克风920被例示为在设备102外部。在其他示例中，一个或多个相机910中的至少一者、一个或多个麦克风920中的至少一者、或它们的组合可被集成在设备102中。

提供一个或多个相机910作为图像传感器的例示性非限制性示例，在其他示例中，可使用其他类型的图像传感器。提供一个或多个麦克风920作为音频传感器的例示性非限制性示例，在其他示例中，可使用其他类型的音频传感器。

在一些方面，设备102包括耦合到音频分析器140的表示生成器930。表示生成器930被配置为处理源话音数据928以生成源话音表示163，如参考图12进一步描述的。

音频分析器140从输入接口924接收音频信号949。音频信号949对应于从一个或多个麦克风920接收到的麦克风输出922(例如，音频数据)。输入话音表示149基于音频信号949。在一些示例中，音频信号949用作源话音数据928。在一些示例中，源话音数据928由设备102的应用或其他组件生成。在一些示例中，源话音数据928对应于解码的数据，如参考图13B进一步描述的。

在一些方面，音频分析器140从输入接口914接收图像信号916。图像信号916对应于来自一个或多个相机910的相机输出912。任选地，在一些示例中，图像数据153基于图像信号916。

音频分析器140基于输入话音表示149和源话音表示163生成输出信号135，如参考图1所描述的。任选地，在一些示例中，音频分析器140还基于图像数据153生成输出信号135，如参考图1所描述的。在示例中，输入话音表示149对应于由一个或多个麦克风920捕获的用户101的输入话音，与一个或多个相机910捕获对应于图像数据153的图像(例如，静态图像或视频)并发。因此，可基于相机输出912和麦克风输出922实时更新对应于源话音数据928的源话音以生成对应于输出话音的输出信号135。在一些示例中，音频分析器140输出输出信号135，与设备102接收麦克风输出922、接收相机输出912或两者并发。

参考图10，示出了系统1000。系统1000可操作为基于输入话音特性执行源话音修改。在特定方面，图1的系统100包括系统1000的一个或多个组件。

源话音数据928基于音频信号949。在一些示例中，音频信号949还用作输入话音表示149。在一些示例中，输入话音表示149由设备102的应用或其他组件生成。在一些示例中，输入话音表示149对应于解码的数据，如参考图13B进一步描述的。表示生成器930将音频信号949处理为源话音数据928以生成源话音表示163，如参考图12进一步描述的。

在一些示例中，图像数据153基于图9的图像信号916。在一些示例中，图像数据153由设备102的应用或其他组件生成。在一些示例中，图像数据153对应于解码的数据，如参考图13B进一步描述的。

音频分析器140基于输入话音表示149和源话音表示163生成输出信号135，如参考图1所描述的。任选地，在一些示例中，音频分析器140还基于图像数据153生成输出信号135，如参考图1所描述的。在示例中，源话音数据928对应于由一个或多个麦克风920所捕获的用户101的源话音。因此，可基于输入话音表示149和图像数据153实时更新对应于源话音数据928的源话音以生成对应于输出话音的输出信号135。在一些示例中，音频分析器140输出输出信号135，与设备102接收麦克风输出922并发。

参考图11，示出了系统1100。系统1100可操作为基于输入话音特性执行源话音修改。在特定方面，图1的系统100包括系统1100的一个或多个组件。

音频分析器140耦合到输出接口1124，该输出接口被配置为耦合到一个或多个扬声器1110。作为非限制性示例，一个或多个扬声器1110被例示为在设备102的外部。在其他示例中，一个或多个扬声器1110中的至少一个扬声器可集成在设备102中。

音频分析器140基于输入话音表示149和源话音表示163生成输出信号135，如参考图1所描述的。任选地，在一些示例中，音频分析器140还基于图像数据153生成输出信号135，如参考图1所描述的。例如，音频分析器140经由输出接口1124向一个或多个扬声器1110提供输出信号135。在一些示例中，音频分析器140向一个或多个扬声器1110提供输出信号135，与设备102从图9的一个或多个麦克风920接收麦克风输出922并发。在一些示例中，音频分析器140向一个或多个扬声器1110提供输出信号135，与设备102从图9的一个或多个相机910接收相机输出912并发。

参考图12，示出了表示生成器930的操作的例示性方面的示图1200。音频频谱生成器150经由编码器1242和基频(F0)提取器1244耦合到组合器1246。

音频频谱生成器150生成源话音数据928的源音频频谱1240。在特定方面，源话音数据928包括源话音音频。在替代方面，源话音数据928包括非音频数据，并且音频频谱生成器150基于源话音数据928生成源话音音频。在示例中，源话音数据928包括话音文本(例如，聊天脚本、屏幕播放、隐藏字幕文本等)。音频频谱生成器150基于话音文本生成源话音音频。例如，音频频谱生成器150对话音文本执行文本到话音转换以生成源话音音频。在一些示例中，源话音数据928包括一个或多个特性指示符，诸如一个或多个情绪指示符、一个或多个说话者指示符、一个或多个风格指示符、或它们的组合，并且音频频谱生成器150生成源话音音频以具有对应于一个或多个特性指示符的源特性。

在一些具体实施中，音频频谱生成器150对时域中的源话音音频应用变换(例如，快速傅里叶变换(FFT))以生成频域中的源音频频谱1240(例如，梅尔频谱图)。提供FFT作为应用于源话音音频以生成源音频频谱1240的变换的例示性示例。在其他示例中，音频频谱生成器150可使用各种变换和技术来处理源话音音频以生成源音频频谱1240。音频频谱生成器150将源音频频谱1240提供给编码器1242和F0提取器1244。

编码器1242(例如，频谱编码器)使用频谱编码技术来处理源音频频谱1240以生成源话音嵌入1243。在特定方面，源话音嵌入1243表示源话音音频的潜在特征。F0提取器1244使用基频提取技术来处理源音频频谱1240以生成F0嵌入1245。在特定方面，F0提取器1244包括预训练的联合检测和分类(JDC)网络，该联合检测和分类(JDC)网络包括后跟双向长短期记忆(BLSTM)单元的卷积层，并且F0嵌入1245对应于卷积输出。组合器1246生成对应于源话音嵌入1243与F0嵌入1245的组合(例如，总和、乘积、平均值或级联)的源话音表示163。

参考图13A，示出了系统1300。系统1300可操作为基于输入话音特性执行源话音修改。设备102包括耦合到音频分析器140的音频编码器1320。系统1300包括设备1304，该设备包括音频解码器1330。

设备102被配置为耦合到设备1304。在示例中，设备102被配置为经由网络耦合到设备1304。该网络可包括一个或多个无线网络、一个或多个有线网络、或它们的组合。

音频分析器140将输出信号135提供给音频编码器1320。音频编码器1320对输出信号135进行编码以生成编码的数据1322。音频编码器1320将编码的数据1322提供给设备1304。音频解码器1330对编码的数据1322进行解码以生成输出信号1335。在特定方面，输出信号1335估计输出信号135。例如，由于网络丢失、译码误差等，输出信号1335可能不同于输出信号135。音频解码器1330经由一个或多个扬声器1310输出输出信号1335。在特定方面，设备1304经由一个或多个扬声器1310输出输出信号1335，与从设备102接收编码的数据1322并发。

参考图13B，示出了系统1350。系统1350可操作为基于输入话音特性执行源话音修改。设备102包括耦合到音频分析器140的音频解码器1370。

在特定方面，设备102耦合到一个或多个扬声器1360。作为非限制性示例，一个或多个扬声器1360被例示为在设备102的外部。在其他示例中，一个或多个扬声器1360中的至少一个扬声器可集成在设备102中。

系统1350包括被配置为耦合到设备102的设备1306。在示例中，设备102被配置为经由网络耦合到设备1306。该网络可包括一个或多个无线网络、一个或多个有线网络、或它们的组合。

音频解码器1370从设备1306接收编码的数据1362。音频解码器1370对编码的数据1362进行解码以生成解码的数据1372。音频分析器140基于解码的数据1372生成输出信号135。在特定方面，解码的数据1372包括输入话音表示149、图像数据153、用户输入103、操作模式105、源话音表示163、或它们的组合。在特定方面，音频分析器140经由一个或多个扬声器1360输出输出信号135。

参考图14，示出了系统1400。系统1400可操作为训练音频分析器140。系统1400包括设备1402。在一些方面，设备1402与设备102相同。在其他方面，设备1402在设备102外部并且设备102从设备1402接收音频分析器140的训练版本。

设备1402包括一个或多个处理器1490。一个或多个处理器1490包括训练器1466，该训练器被配置为使用训练数据1460来训练音频分析器140。训练数据1460包括输入话音表示149和源话音表示163。训练数据1460还指示一个或多个目标特性，诸如情绪1467、说话者标识符1464、音量1472、音高1474、速度1476、或它们的组合。

在一些示例中，目标特性与输入话音表示149的输入特性相同。在一些示例中，输入特性被映射到操作模式105、图像数据153、用户输入103或它们的组合的目标特性。

训练器1466将输入话音表示149和源话音表示163提供给音频分析器140。任选地，在一些示例中，训练器1466还将用户输入103、图像数据153、操作模式105、或它们的组合提供给音频分析器140。音频分析器140基于输入话音表示149、源话音表示163、用户输入103、图像数据153、操作模式105、或它们的组合来生成输出信号135，如参考图1所描述的。

训练器1466包括情绪检测器202、说话者检测器204、风格检测器206、合成音频检测器1440、或它们的组合。情绪检测器202处理输出信号135以确定输出信号135的情绪1487。说话者检测器204处理输出信号135以确定输出信号135对应于可能具有说话者标识符1484的说话者(例如，用户)的话音。风格检测器206处理输出信号135以确定输出信号135的音量1492、音高1494、速度1496、或它们的组合，如参考图2所描述的。合成音频检测器1440处理输出信号135以生成指示符1441，该指示符指示输出信号135可能对应于真人的话音还是对应于合成话音。

误差分析器1442基于与输入话音表示149相关联的一个或多个目标特性(如由训练数据1460所指示)与对应的检测到的特性(如由情绪检测器202、说话者检测器204、风格检测器206、合成音频检测器1440、或它们的组合所确定)的比较来确定损失度量1445。例如，损失度量1445至少部分地基于情绪1467和情绪1487的比较，其中情绪1467对应于与如由训练数据1460所指示的输入话音表示149相对应的目标情绪，并且情绪1487由情绪检测器202检测。作为另一示例，损失度量1445至少部分地基于音量1472与音量1492的比较，其中音量1472对应于与如由训练数据1460所指示的输入话音表示149相对应的目标音量，并且音量1492由风格检测器206检测。

在特定示例中，损失度量1445至少部分地基于音高1474与音高1494的比较，其中音高1474对应于与如由训练数据1460所指示的输入话音表示149相对应的目标音高，并且音高1494由风格检测器206检测。作为另一示例，损失度量1445至少部分地基于速度1476与速度1496的比较，其中速度1476对应于与如由训练数据1460所指示的输入话音表示149相对应的目标速度，并且速度1496由风格检测器206检测。

在特定方面，损失度量1445至少部分地基于与说话者标识符1464相关联的第一说话者表示和与说话者标识符1484相关联的第二说话者表示的比较，其中说话者标识符1464对应于与如由训练数据1460所指示的输入话音表示149相对应目标说话者标识符，并且说话者标识符1484由说话者检测器204检测。在特定方面，损失度量1445基于指示符1441。例如，指示符1441的第一值指示输出信号135被检测为近似真人的话音，而指示符1441的第二值指示输出信号135被检测为合成话音。在该示例中，损失度量1445基于具有第一值的指示符1441而减小，或者基于具有第二值的指示符1441而增大。

误差分析器1442基于损失度量1445生成更新命令1443以更新音频分析器140(例如，对其神经网络的加权和偏置)。例如，误差分析器1442迭代地向音频分析器140提供包括输入话音表示149、源话音表示163、用户输入103、图像数据153、操作模式105、或它们的组合的训练数据集以生成输出信号135并更新音频分析器140以减少损失度量1445。响应于确定损失度量1445在阈值损失内、损失度量1445已停止改变、已执行至少阈值迭代计数、或它们的组合，误差分析器1442确定音频分析器140的训练完成。在特定方面，响应于确定训练完成，训练器1466向设备102提供音频分析器140。

在特定方面，音频分析器140和训练器1466对应于生成对抗网络(GAN)。例如，图12的F0提取器1244、组合器1246和图1的语音转换器164对应于GAN的生成器，并且情绪检测器202、说话者检测器204和风格检测器206对应于GAN的鉴别器。

在特定方面，更新音频分析器140包括更新GAN。在一些具体实施中，音频分析器140包括自动话音识别(ASR)模型和F0网络，并且训练器1466传送更新命令1443以更新ASR模型、F0网络或两者。在特定方面，图12的F0提取器1244包括F0网络。在特定方面，图1的特性检测器154包括ASR模型。

图15描绘了设备102作为包括一个或多个处理器190的集成电路1502的具体实施1500。集成电路1502包括信号输入1504(诸如一个或多个总线接口)以使得能够接收输入数据1549以进行处理。输入数据1549包括输入话音表示149、源话音表示163、图像数据153、用户输入103、操作模式105、或它们的组合。

集成电路1502还包括音频输出1506(诸如总线接口)，以使得能够传送输出信号135。集成电路1502使得能够将基于输入话音特性的源话音修改实现为系统中的组件，诸如：如图16中所描绘的移动电话或平板计算机、如图17中所描绘的头戴式耳机、如图18中所描绘的耳塞式耳机、如图19中所描绘的可穿戴电子设备、如图20中所描绘的语音控制扬声器系统、如图21中所描绘的相机、如图23中所描绘的扩展现实头戴式耳机、如图24中所描绘的扩展现实眼镜、或如图22或图25中所描绘的交通工具。

作为例示性、非限制性示例，图16描绘了其中设备102包括移动设备1602(诸如电话或平板计算机)的具体实施1600。移动设备1602包括一个或多个麦克风1610、一个或多个扬声器1620、一个或多个相机1630和显示屏1604。一个或多个处理器190的组件(包括音频分析器140)被集成在移动设备1602中并使用虚线示出以指示通常对移动设备1602的用户不可见的内部组件。

在特定方面，一个或多个相机1630包括图9的一个或多个相机910。提供一个或多个相机1630作为图像传感器的非限制性示例。在一些示例中，除相机之外或作为相机的替代，可使用一个或多个其他类型的图像传感器。在特定方面，一个或多个麦克风1610包括图9的一个或多个麦克风920。提供一个或多个麦克风1610作为音频传感器的非限制性示例。在一些示例中，除麦克风之外或作为麦克风的替代，可使用一个或多个其他类型的音频传感器。在特定方面，一个或多个扬声器1620包括图11的一个或多个扬声器1110、图13A的一个或多个扬声器1310、图13B的一个或多个扬声器1360、或它们的组合。

在特定示例中，音频分析器140操作以检测用户语音活动，然后对用户语音活动进行处理以在移动设备1602处执行一个或多个操作，诸如启动图形用户界面或以其他方式在显示屏1604处显示与用户话音相关联的其他信息(例如，通过集成的“智能助理”应用)。

在示例中，图1的源话音表示163表示与移动设备1602的虚拟助理应用相关联的源话音。输入话音表示149表示由音频分析器140经由一个或多个麦克风1610接收到的输入话音。音频分析器140确定输入话音表示149的输入特性155，并且基于输入特性155更新源话音的源话音表示163以生成表示输出话音的输出信号135，如参考图1所描述的。输出话音对应于来自虚拟助理应用的基于输入特性155的社交交互响应。例如，基于输入话音的输入特性155来更新来自虚拟助理的响应。

图17描绘了其中设备102包括头戴式耳机设备1702的具体实施1700。头戴式耳机设备1702包括一个或多个麦克风1610、一个或多个扬声器1620或它们的组合。一个或多个处理器190的组件(包括音频分析器140)被集成在头戴式耳机设备1702中。在特定示例中，音频分析器140操作以检测用户语音活动(这可使得头戴式耳机设备1702在头戴式耳机设备1702处执行一个或多个操作)、将对应于用户语音活动的音频数据发送到第二设备(未示出)进行进一步处理、或它们的组合。

在一些示例中，源话音表示163对应于将由一个或多个扬声器1620播放的源音频信号。在这些示例中，头戴式耳机设备1702更新源话音表示163以生成输出信号135并经由一个或多个扬声器1620输出输出信号135(而不是源音频信号)。

在一些示例中，源话音表示163对应于从一个或多个麦克风1610接收到的源音频信号。在这些示例中，头戴式耳机设备1702更新源话音表示163以生成输出信号135并将输出信号135提供给另一设备或组件。

图18描绘了其中设备102包括与一对耳塞式耳机1806对应的便携式电子设备的具体实施1800，该对耳塞式耳机包括第一耳塞式耳机1802和第二耳塞式耳机1804。尽管描述了耳塞式耳机，但是应当理解，本公开技术可应用于其他入耳式或包耳式回放设备。

第一耳塞式耳机1802包括：第一麦克风1820，诸如被定位成捕获第一耳塞式耳机1802的佩戴者的语音的高信噪比麦克风；一个或多个其他麦克风的阵列，这些麦克风被配置为检测环境声音并且在空间上被分布成支持波束成形，其被例示为麦克风1822A、1822B和1822C；靠近佩戴者耳道的“内部”麦克风1824(例如，以辅助有源噪声消除)；和自话音麦克风1826，诸如被配置为将佩戴者的耳骨或头骨的声音振动转换成音频信号的骨传导麦克风。

在特定具体实施中，一个或多个麦克风1610包括第一麦克风1820、麦克风1822A、1822B和1822C、内部麦克风1824、自话音麦克风1826、或它们的组合。在特定方面，第一耳塞式耳机1802的音频分析器140从第一麦克风1820、麦克风1822A、1822B和1822C、内部麦克风1824、自话音麦克风1826、或它们的组合接收音频信号。

第二耳塞式耳机1804可以与第一耳塞式耳机1802基本上类似的方式配置。在一些具体实施中，第一耳塞式耳机1802的音频分析器140还被配置为诸如经由耳塞式耳机1802、1804之间的无线发送或经由有线发送(在耳塞式耳机1802、1804经由发送线耦合的具体实施中)接收第二耳塞式耳机1804的一个或多个麦克风生成的一个或多个音频信号。在其他具体实施中，第二耳塞式耳机1804还包括音频分析器140，使得本文所述的技术能够由佩戴耳塞式耳机1802、1804中的任一个耳塞式耳机的单个耳塞式耳机的用户来执行。

在一些具体实施中，耳塞式耳机1802、1804被配置为在各种操作模式(诸如直通模式，在该直通模式下，经由扬声器1830播放环境声音；回放模式，在该回放模式下，通过扬声器1830回放非环境声音(例如，与电话交谈、媒体播放、视频游戏等对应的流式音频)；和音频变焦模式或波束成形模式，在该音频变焦模式或波束成形模式下，加重一个或多个环境声音和/或抑制其他环境声音以供在扬声器1830处回放)之间自动切换。在其他具体实施中，耳塞式耳机1802、1804可支持较少模式，或者可支持一个或多个其他模式来代替所描述的模式，或者除所描述的模式之外还支持一个或多个其他模式。

在一个例示性示例中，耳塞式耳机1802、1804可响应于检测到佩戴者的语音而自动地从回放模式转换到直通模式，并且可在佩戴者已停止说话之后自动地转换回到回放模式。在一些示例中，耳塞式耳机1802、1804可并发地在两个或更多个模式下操作，诸如通过对特定环境声音(例如，狗叫声)执行音频变焦，并且在佩戴者听音乐的同时播放叠加在正在播放的声音上的音频变焦声音(可在播放音频变焦声音的同时减小音量)。在该示例中，可在不停止音乐回放的情况下提醒佩戴者注意与该音频事件相关联的环境声音。

图19描绘了其中设备102包括可穿戴电子设备1902(被例示为“智能手表”)的具体实施1900。音频分析器140、一个或多个麦克风1610、一个或多个扬声器1620、一个或多个相机1630、或它们的组合被集成到可穿戴电子设备1902中。在特定示例中，音频分析器140操作以检测用户语音活动，然后对用户语音活动进行处理以在可穿戴电子设备1902处执行一个或多个操作，诸如启动图形用户界面或以其他方式在可穿戴电子设备1902的显示屏1904处显示与用户话音相关联的其他信息。为了例示，可穿戴电子设备1902可包括显示屏1904，该显示屏被配置为显示基于由可穿戴电子设备1902检测到的用户话音的通知。在特定方面，显示屏1904显示指示检测到输入特性155、应用目标特性177以生成输出信号135或两者的通知。

在特定示例中，可穿戴电子设备1902包括触觉设备，该触觉设备响应于对用户语音活动的检测而提供触觉通知(例如，振动)。例如，触觉通知可使得用户查看可穿戴电子设备1902，以看见所显示的指示检测到用户所说的关键词的通知。因此，可穿戴电子设备1902可向具有听力受损的用户或佩戴头戴式耳机的用户提醒检测到用户的语音活动。

图20是其中设备102包括无线扬声器和语音激活设备2002的具体实施2000。无线扬声器和语音激活设备2002可具有无线网络连接性并且被配置为执行助理操作。包括音频分析器140、一个或多个麦克风1610、一个或多个相机1630或它们的组合的处理器190被包括在无线扬声器和语音激活设备2002中。无线扬声器和语音激活设备2002还包括一个或多个传感器1620。在操作期间，响应于经由音频分析器140的操作接收到被标识为用户话音的口头命令，无线扬声器和语音激活设备2002可诸如经由语音激活系统(例如，集成助理应用)的执行来执行助理操作。该助理操作可包括调整温度、播放音乐、打开灯等。例如，该助理操作响应于在关键字或关键短语(例如，“你好，助理”)后接收命令来执行。在示例中，音频分析器140使用助理的话音作为源话音来生成源话音表示163，基于经由一个或多个麦克风1610接收到的输入话音来更新源话音表示163以生成输出信号135，并且经由一个或多个扬声器1620输出输出信号135。

图21描绘了其中设备102包括与相机设备2102相对应的便携式电子设备的具体实施2100。音频分析器140、一个或多个麦克风1610、一个或多个扬声器1620或它们的组合被包括在相机设备2102中。在特定方面，一个或多个相机1630包括相机设备2102。在操作期间，响应于经由音频分析器140的操作而接收到被标识为用户话音的口头命令，相机设备2102可执行响应于说出的用户命令的操作，诸如调整图像或视频捕获设置、图像或视频回放设置、或图像或视频捕获指令，作为例示性示例。

在示例中，相机设备2102包括助理应用，并且音频分析器140使用助理应用的话音作为源话音来生成源话音表示163，基于经由一个或多个麦克风1610接收到的输入话音来更新源话音表示163以生成输出信号135，并且经由一个或多个扬声器1620输出输出信号135。

图22描绘了其中设备102对应于交通工具2202(被示出为有人驾驶或无人驾驶的空中设备(例如，包裹递送无人机))或集成在该交通工具内的具体实施2200。音频分析器140、一个或多个麦克风1610、一个或多个扬声器1620、一个或多个相机1630、或它们的组合被集成到交通工具2202中。可基于从交通工具2202的一个或多个麦克风1610接收到的音频信号诸如针对来自交通工具2202的授权用户的递送指令来执行用户语音活动检测。

在示例中，交通工具2202包括助理应用，并且音频分析器140使用助理应用的话音作为源话音来生成源话音表示163，基于经由一个或多个麦克风1610接收到的输入话音来更新源话音表示163以生成输出信号135，并且经由一个或多个扬声器1620输出输出信号135。

图23描绘了其中设备102包括对应于扩展现实(XR)头戴式耳机2302的便携式电子设备的具体实施2300。头戴式耳机2302可包括增强现实头戴式耳机、混合现实头戴式耳机或虚拟现实头戴式耳机。音频分析器140、一个或多个麦克风1610、一个或多个扬声器1620、一个或多个相机1630、或它们的组合被集成到头戴式耳机2302中。可基于从头戴式耳机2302的一个或多个麦克风1610接收到的音频信号来执行用户语音活动检测。

视觉接口设备定位在用户的眼睛前方以使得能够在穿戴头戴式耳机2302时向用户显示增强现实、混合现实或虚拟现实图像或场景。在特定的示例中，视觉接口设备被配置为显示指示在音频信号中检测到的用户话音的通知。在特定方面，视觉接口设备显示指示检测到输入特性155、应用目标特性177以生成输出信号135或两者的通知。

图24描绘了其中设备102包括与XR眼镜2402相对应的便携式电子设备的具体实施2400。眼镜2402可包括增强现实眼镜、混合现实眼镜或虚拟现实眼镜。眼镜2402包括投影单元2404，该投影单元被配置为将视觉数据投影到透镜2406的表面上，或者将该视觉数据从透镜2406的表面反射到佩戴者的视网膜上。音频分析器140、一个或多个麦克风1610、一个或多个扬声器1620、一个或多个相机1630、或它们的组合被集成到眼镜2402中。音频分析器140可用于基于从一个或多个麦克风1610接收到的音频信号生成输出信号135。例如，从一个或多个麦克风1610接收到的音频信号可对应于输入话音表示149、源话音表示163或两者。

在特定示例中，投影单元2404被配置为显示通知，该通知指示在音频信号中检测的用户话音。在特定示例中，投影单元2404被配置为显示通知，该通知指示检测到的音频事件。例如，该通知可在和与该音频事件相关联的声音的来源的位置重合的特定位置处叠加在用户的视场上。举例说明，用户可将该声音感知为从该通知的方向发出。在例示性具体实施中，投影单元2404被配置为显示指示检测到输入特性155、应用目标特性177以生成输出信号135或两者的通知。

图25描绘了其中设备102对应于交通工具2502(被示出为汽车)或被集成在该交通工具内的另一具体实施2500。交通工具2502包括一个或多个处理器190，该一个或多个处理器包括音频分析器140。交通工具2502还包括一个或多个麦克风1610、一个或多个扬声器1620、一个或多个相机1630、或它们的组合。在一些方面，一个或多个麦克风1610中的至少一个麦克风被定位成捕获交通工具2502的操作者的话语。可基于从交通工具2502的一个或多个麦克风1610接收到的音频信号来执行用户语音活动检测。在一些具体实施中，可基于从内部麦克风(例如，一个或多个麦克风1610中的至少一个麦克风)接收到的音频信号诸如针对来自授权乘客的语音命令来执行用户语音活动检测。例如，可使用用户语音活动检测来检测来自交通工具2502的操作者的语音命令(例如，来自父母的将音量设置为5或设置自动驾驶交通工具的目的地的语音命令)，并且忽略另一乘客的语音(例如，来自孩子的将音量设置为10或其他乘客讨论另一位置)的语音命令。在一些具体实施中，可基于从外部麦克风(例如，一个或多个麦克风1610中的至少一个麦克风)(诸如交通工具的授权用户)接收到的音频信号来执行用户语音活动检测。在特定具体实施中，响应于经由音频分析器140的操作接收到被标识为用户话音的口头命令，语音激活系统基于在输出信号135中检测到的一个或多个关键词(例如，“解锁”、“启动发动机”、“播放音乐”、“显示天气预报”或另一语音命令)，诸如通过经由显示器2520或一个或多个扬声器(例如，扬声器1620)提供反馈或信息，来启动交通工具2502的一个或多个操作。

在一些方面，从一个或多个麦克风1610接收到的音频信号用作源话音表示163、输入话音表示149或两者。在示例中，从一个或多个麦克风1610接收到的音频信号用作输入话音表示149，并且将由一个或多个扬声器1620播放的音频信号用作源话音表示163。音频分析器140更新源话音表示163以生成输出信号135，如参考图1所描述的。为了例示，在由一个或多个扬声器1620回放之前，基于交通工具2502的乘客的输入话音的特性来更新将由一个或多个扬声器1620播放的话音。

在另一示例中，从一个或多个麦克风1610接收到的音频信号用作源话音表示163，并且由交通工具2502在来自另一设备的呼叫期间接收到的音频信号用作输入话音表示149。音频分析器140更新源话音表示163以生成输出信号135，如参考图1所描述的。为了例示，在将交通工具2502的乘客的传出话音传送到另一设备之前，基于从另一设备接收到的传入话音来更新该传出话音。

参考图26，示出了基于输入话音特性执行源话音修改的方法2600的特定具体实施。在特定方面，方法2600的一个或多个操作由以下中的至少一者执行：图1的特性检测器154、嵌入选择器156、转换嵌入生成器158、语音转换器164、音频分析器140、一个或多个处理器190、设备102、系统100；图2的情绪检测器202、说话者检测器204、风格检测器206、音量检测器212、音高检测器214、速度检测器216；图3A的音频情绪检测器354；图3B的图像情绪检测器356、情绪分析器358；图4的特性调整器492、情绪调整器452、说话者调整器454、音量调整器456、音高调整器458、速度调整器460；图8B的嵌入组合器852、嵌入组合器854；图8C的嵌入组合器856；图14的一个或多个处理器1490、设备1402、系统1400；或它们的组合。

方法2600包括在2602处处理输入话音的输入音频频谱以检测与输入话音相关联的第一特性。例如，图1的特性检测器154处理输入话音(由输入话音表示149表示)的输入音频频谱151以检测与输入话音相关联的输入特性155，如参考图1所描述的。

方法2600还包括在2604处至少部分地基于第一特性从多个参考嵌入中选择一个或多个参考嵌入。例如，嵌入选择器156至少部分地基于输入特性155从多个参考嵌入中选择一个或多个参考嵌入157，如参考图1所描述的。

方法2600进一步包括在2606处使用一个或多个参考嵌入来处理源话音的表示以生成输出话音的输出音频频谱。例如，语音转换器164使用一个或多个参考嵌入157来处理源话音表示163，以生成输出话音(由输出信号135表示)的输出音频频谱165。在特定方面，使用一个或多个参考嵌入157包括使用基于一个或多个参考嵌入157的转换嵌入159。

因此，方法2600使得能够基于输入话音的特性动态地更新源话音以生成输出话音。在一些方面，实时更新源话音。例如，由设备102接收对应于输入话音的数据、对应于源话音的数据、或两者，与音频分析器140将输出信号135提供给回放设备(例如，扬声器、另一设备或两者)并发。

图26的方法2600可由现场可编程门阵列(FPGA)设备、专用集成电路(ASIC)、处理单元(诸如中央处理单元(CPU))、数字信号处理器(DSP)、控制器、另一硬件设备、固件设备或它们的任何组合实现。作为示例，图26的方法2600可由执行指令的处理器来执行，诸如参考图27所描述。

参考图27，描绘了设备的特定例示性具体实施的框图，并且总体上将其指定为2700。在各种具体实施中，设备2700可具有比图27所例示的更多或更少的组件。在例示性具体实施中，设备2700可对应于设备102。在例示性具体实施中，设备2700可执行参考图1至图26所描述的一个或多个操作。

在特定具体实施中，设备2700包括处理器2706(例如，中央处理单元(CPU))。设备2700可包括一个或多个附加处理器2710(例如，一个或多个DSP)。在特定方面，图1的一个或多个处理器190对应于处理器2706、处理器2710或它们的组合。处理器2710可包括话音和音乐编码器-解码器(编解码器)2708，该话音和音乐编码器-解码器(编解码器)包括语音译码器(“音码器”)编码器2736、音码器解码器2738、音频分析器140或它们的组合。

设备2700可包括存储器2786和编解码器2734。存储器2786可包括指令2756，该指令可由一个或多个附加处理器2710(或处理器2706)执行以实现参考音频分析器140所描述的功能性。设备2700可包括经由收发器2750耦合到天线2752的调制解调器2770。在特定方面，调制解调器2770经由收发器2750将图13的编码数据1322发送到设备1304。在特定方面，调制解调器2770经由收发器2750从设备1306接收图13的编码数据1362。

设备2700可包括耦合到显示控制器2726的显示器2728。在特定方面，显示器2728包括图16的显示屏1604、图19的显示屏1904、图23的头戴式耳机2302的视觉接口设备、图24的透镜2406、图25的显示器2520、或它们的组合。

一个或多个麦克风1610、一个或多个扬声器1620、一个或多个相机1630、或它们的组合可耦合到编解码器2734。编解码器2734可包括数模转换器(DAC)2702、模数转换器(ADC)2704或两者。在特定具体实施中，编解码器2734可从一个或多个麦克风1610接收模拟信号，使用模数转换器2704来将模拟信号转换为数字信号，并且向话音和音乐编解码器2708提供数字信号。话音和音乐编解码器2708可处理数字信号，并且数字信号可进一步由音频分析器140进行处理。在特定具体实施中，音频分析器140可生成数字信号。话音和音乐编解码器2708可将数字信号提供给编解码器2734。编解码器2734可使用数模转换器2702将数字信号转换为模拟信号并且可向一个或多个扬声器1620提供模拟信号。

在特定具体实施中，设备2700可被包括在系统级封装或片上系统设备2722中。在特定具体实施中，存储器2786、处理器2706、处理器2710、显示控制器2726、译解码器2734和调制解调器2770被包括在系统级封装或片上系统设备2722中。在特定具体实施中，输入设备2730和电源2744耦合到系统级封装或片上系统设备2722。此外，在特定具体实施中，如图27所例示，显示器2728、输入设备2730、一个或多个麦克风1610、一个或多个扬声器1620、一个或多个相机1630、天线2752和电源2744在系统级封装或片上系统设备2722外部。在特定具体实施中，显示器2728、输入设备2730、扬声器2792、一个或多个麦克风1610、一个或多个扬声器1620、一个或多个相机1630、天线2752和电源2744中的每一者可耦合到系统级封装或片上系统设备2722的组件，诸如接口或控制器。

设备2700可包括智能扬声器、扬声器杆、移动通信设备、智能电话、蜂窝电话、膝上型计算机、计算机、平板计算机、个人数字助理、显示设备、电视机、游戏控制台、音乐播放器、收音机、数字视频播放器、数字视频光盘(DVD)播放器、调谐器、相机、导航设备、交通工具、头戴式耳机、增强现实头戴式耳机、混合现实头戴式耳机、虚拟现实头戴式耳机、航空交通工具、家庭自动化系统、语音激活设备、无线扬声器和语音激活设备、便携式电子设备、游戏设备、汽车、计算设备、通信设备、物联网(IoT)设备、XR设备、虚拟现实(VR)设备、基站、移动设备、或它们的任何组合。

结合所描述的具体实施，一种装置包括用于处理输入话音的输入音频频谱以检测与输入话音相关联的第一特性的部件。例如，用于处理输入音频频谱的部件可对应于：图1的特性检测器154、音频分析器140、一个或多个处理器190、设备102、系统100；图2的情绪检测器202、说话者检测器204、风格检测器206、音量检测器212、音高检测器214、速度检测器216；图3A的音频情绪检测器354；图14的一个或多个处理器1490、设备1402、系统1400；话音和音乐编解码器2708、处理器2706、处理器2710、设备2700；被配置为处理输入话音的输入音频频谱以检测与输入话音相关联的第一特性的一个或多个其他电路或组件；或它们的任何组合。

该装置还包括用于至少部分地基于该第一特性从多个参考嵌入中选择一个或多个参考嵌入的部件。例如，用于选择的部件可对应于：图1的嵌入选择器156、音频分析器140、一个或多个处理器190、设备102、系统100；图4的特性调整器492、情绪调整器452、说话者调整器454、音量调整器456、音高调整器458、速度调整器460；图14的一个或多个处理器1490、设备1402、系统1400；话音和音乐编解码器2708、处理器2706、处理器2710、设备2700；被配置为至少部分地基于第一特性从多个参考嵌入中选择一个或多个参考嵌入的一个或多个其他电路或组件；或它们的任何组合。

该装置进一步包括用于使用一个或多个参考嵌入来处理源话音的表示以生成输出话音的输出音频频谱的部件。例如，用于处理的部件可对应于：图1的语音转换器164、音频分析器140、一个或多个处理器190、设备102、系统100；图14的一个或多个处理器1490、设备1402、系统1400；话音和音乐编解码器2708、处理器2706、处理器2710、设备2700；被配置为使用一个或多个参考嵌入来处理源话音的表示以生成输出话音的输出音频频谱的一或多个其他电路或组件；或它们的任何组合。

在一些具体实施中，一种非暂态计算机可读介质(例如，计算机可读存储设备，诸如存储器2786)包括指令(例如，指令2756)，该指令在由一个或多个处理器(例如，一个或多个处理器2710或处理器2706)执行时，使得一个或多个处理器处理输入话音的输入音频频谱(例如，输入音频频谱151)以检测与输入话音相关联的第一特性(例如，输入特性155)。该指令在由一个或多个处理器执行时还使得一个或多个处理器至少部分地基于第一特性从多个参考嵌入中选择一个或多个参考嵌入(例如，一个或多个参考嵌入157)。该指令在由一个或多个处理器执行时进一步使得一个或多个处理器使用一个或多个参考嵌入来处理源话音的表示(例如，源话音表示163)，以生成输出话音的输出音频频谱(例如，输出音频频谱165)。

下面在各组相关实施例中描述了本公开的特定方面：

根据实施例1，一种设备，包括：一个或多个处理器，所述一个或多个处理器被配置为：处理输入话音的输入音频频谱以检测与所述输入话音相关联的第一特性；至少部分地基于所述第一特性从多个参考嵌入中选择一个或多个参考嵌入；以及使用所述一个或多个参考嵌入来处理源话音的表示，以生成输出话音的输出音频频谱。

实施例2包括根据实施例1所述的设备，其中所述第一特性包括所述输入话音的情绪。

实施例3包括根据实施例1或实施例2所述的设备，其中所述第一特性包括所述输入话音的音量。

实施例4包括根据实施例1至实施例3中任一项所述的设备，其中所述第一特性包括所述输入话音的音高。

实施例5包括根据实施例1至实施例4中任一项所述的设备，其中所述第一特性包括所述输入话音的速度。

实施例6包括根据实施例1至实施例5中任一项所述的设备，其中所述一个或多个处理器被进一步配置为：使用编码器处理所述源话音的源音频频谱，以生成源话音嵌入；以及使用基频(F0)提取器处理所述源音频频谱以生成F0嵌入，其中所述源话音的所述表示基于所述源话音嵌入和所述F0嵌入。

实施例7包括根据实施例1至实施例6中任一项所述的设备，其中所述输入话音用作所述源话音。

实施例8包括根据实施例1至实施例6中任一项所述的设备，其中所述一个或多个处理器被进一步配置为经由一个或多个麦克风接收所述输入话音，其中所述源话音与虚拟助理相关联，并且其中所述输出话音对应于来自所述虚拟助理的基于所述第一特性的社交交互响应。

实施例9包括根据实施例1至实施例8中任一项所述的设备，其中与所述输出话音相关联的第二特性与所述第一特性匹配。

实施例10包括根据实施例1至实施例9中任一项所述的设备，其中所述输出话音的第一话音特性与所述输入话音的第二话音特性匹配。

实施例11包括根据实施例1至实施例10中任一项所述的设备，其中所述源话音的所述表示包括编码的源话音，并且其中所述一个或多个处理器被进一步配置为：基于所述一个或多个参考嵌入生成转换嵌入；将所述转换嵌入应用于所述编码的源话音以生成转换的编码的源话音；以及对所述转换的编码的源话音进行解码以生成所述输出音频频谱。

实施例12包括根据实施例11所述的设备，其中所述一个或多个处理器被配置为组合所述一个或多个参考嵌入和基线嵌入以生成所述转换嵌入。

实施例13包括根据实施例11或实施例12所述的设备，其中所述一个或多个处理器被配置为：至少部分地基于所述第一特性从所述多个参考嵌入中选择多个参考嵌入；以及组合所述多个参考嵌入以生成所述转换嵌入。

实施例14包括根据实施例1至实施例13中任一项所述的设备，其中所述源话音的所述表示基于源话音音频、源话音文本、源话音频谱、线性预测译码(LPC)系数或梅尔频率倒谱系数(MFCC)中的至少一者。

实施例15包括根据实施例1至实施例14中任一项所述的设备，其中所述一个或多个处理器被配置为：根据操作模式将所述第一特性映射到目标特性；以及从所述多个参考嵌入中选择对应于所述目标特性的所述一个或多个参考嵌入。

实施例16包括根据实施例15所述的设备，其中所述操作模式基于用户输入、配置设置、默认数据、或它们的组合。

实施例17包括根据实施例1至实施例16中任一项所述的设备，其中所述一个或多个处理器被进一步配置为：处理所述输入音频频谱以检测第一情绪；处理图像数据以检测第二情绪；以及基于所述第一情绪和所述第二情绪，从所述多个参考嵌入中选择所述一个或多个参考嵌入。

实施例18包括根据实施例17所述的设备，其中所述一个或多个处理器被进一步配置为对所述图像数据执行面部检测，并且其中至少部分地基于所述面部检测的输出来检测所述第二情绪。

实施例19包括根据实施例17或实施例18所述的设备，其中所述一个或多个处理器被进一步配置为与从一个或多个图像传感器接收所述图像数据并发地从一个或多个麦克风接收音频数据，并且其中所述音频数据表示所述输入话音、所述源话音或两者。

实施例20包括根据实施例19所述的设备，所述设备进一步包括所述一个或多个麦克风和所述一个或多个图像传感器。

实施例21包括根据实施例1至实施例20中任一项所述的设备，其中所述一个或多个处理器被配置为：获得所述输入话音的表示；处理所述输入话音的所述表示以生成所述输入音频频谱；以及基于所述输出音频频谱生成所述输出话音的表示。

实施例22包括根据实施例21所述的设备，其中所述输入话音的所述表示包括第一文本，并且其中所述输出话音的所述表示包括第二文本。

实施例23包括根据实施例1至实施例22中任一项所述的设备，其中所述一个或多个处理器被集成到交通工具、通信设备、游戏设备、扩展现实(XR)设备或计算设备中的至少一者中。

根据实施例24，一种方法，包括：在设备处处理输入话音的输入音频频谱以检测与所述输入话音相关联的第一特性；至少部分地基于所述第一特性从多个参考嵌入中选择一个或多个参考嵌入；以及使用所述一个或多个参考嵌入来处理源话音的表示，以生成输出话音的输出音频频谱。

实施例25包括根据实施例24所述的方法，其中所述第一特性包括所述输入话音的情绪。

实施例26包括根据实施例24或实施例25所述的方法，其中所述第一特性包括所述输入话音的音量。

实施例27包括根据实施例24至实施例26中任一项所述的方法，其中所述第一特性包括所述输入话音的音高。

实施例28包括根据实施例24至实施例27中任一项所述的方法，其中所述第一特性包括所述输入话音的速度。

实施例29包括根据实施例24至实施例28中任一项所述的方法，所述方法进一步包括：使用编码器处理所述源话音的源音频频谱，以生成源话音嵌入；以及使用基频(F0)提取器处理所述源音频频谱以生成F0嵌入，其中所述源话音的所述表示基于所述源话音嵌入和所述F0嵌入。

实施例30包括根据实施例24至实施例29中任一项所述的方法，其中所述输入话音用作所述源话音。

实施例31包括根据实施例24至实施例29中任一项所述的方法，所述方法进一步包括在所述设备处经由一个或多个麦克风接收所述输入话音，其中所述源话音与虚拟助理相关联，并且其中所述输出话音对应于来自所述虚拟助理的基于所述第一特性的社交交互响应。

实施例32包括根据实施例24至实施例31中任一项所述的方法，其中与所述输出话音相关联的第二特性与所述第一特性匹配。

实施例33包括根据实施例24至实施例32中任一项所述的方法，其中所述输出话音的第一话音特性与所述输入话音的第二话音特性匹配。

实施例34包括根据实施例24至实施例33中任一项所述的方法，所述方法进一步包括：在所述设备处基于所述一个或多个参考嵌入生成转换嵌入；在所述设备处将所述转换嵌入应用于编码的源话音以生成转换的编码的源话音，其中所述源话音的所述表示包括编码的源话音；以及在所述设备处对所述转换的编码的源话音进行解码以生成所述输出音频频谱。

实施例35包括根据实施例34所述的方法，所述方法进一步包括在所述设备处组合所述一个或多个参考嵌入和基线嵌入以生成所述转换嵌入。

实施例36包括根据实施例34或实施例35所述的方法，所述方法进一步包括：至少部分地基于所述第一特性从所述多个参考嵌入中选择多个参考嵌入；以及在所述设备处组合所述多个参考嵌入以生成所述转换嵌入。

实施例37包括根据实施例24至实施例36中任一项所述的方法，其中所述源话音的所述表示基于源话音音频、源话音文本、源话音频谱、线性预测译码(LPC)系数或梅尔频率倒谱系数(MFCC)中的至少一者。

实施例38包括根据实施例24至实施例37中任一项所述的方法，所述方法进一步包括：在所述设备处根据操作模式将所述第一特性映射到目标特性；以及从所述多个参考嵌入中选择对应于所述目标特性的所述一个或多个参考嵌入。

实施例39包括根据实施例38所述的方法，其中所述操作模式基于用户输入、配置设置、默认数据、或它们的组合。

实施例40包括根据实施例24至实施例39中任一项所述的方法，所述方法进一步包括：在所述设备处处理所述输入音频频谱以检测第一情绪；在所述设备处处理图像数据以检测第二情绪；以及基于所述第一情绪和所述第二情绪，从所述多个参考嵌入中选择所述一个或多个参考嵌入。

实施例41包括根据实施例40所述的方法，所述方法进一步包括对所述图像数据执行面部检测，其中至少部分地基于所述面部检测的输出来检测所述第二情绪。

实施例42包括根据实施例40或实施例41所述的方法，所述方法进一步包括与在所述设备处从一个或多个图像传感器接收所述图像数据并发地在所述设备处从一个或多个麦克风接收音频数据，其中所述音频数据表示所述输入话音、所述源话音或两者。

实施例43包括根据实施例24至实施例42中任一项所述的方法，所述方法进一步包括：在所述设备处获得所述输入话音的表示；在所述设备处处理所述输入话音的所述表示以生成所述输入音频频谱；以及在所述设备处基于所述输出音频频谱生成所述输出话音的表示。

实施例44包括根据实施例43所述的方法，其中所述输入话音的所述表示包括第一文本，并且其中所述输出话音的所述表示包括第二文本。

根据实施例44，一种设备，包括：存储器，所述存储器被配置为存储指令；和处理器，所述处理器被配置为执行所述指令以执行根据实施例24至44中任一项所述的方法。

根据实施例45，一种非暂态计算机可读介质存储指令，所述指令在由处理器执行时，使得所述处理器执行根据实施例24至实施例44中任一项所述的方法。

根据实施例46，一种装置，包括用于执行根据实施例24至实施例44中任一项所述的方法的部件。

根据实施例47，一种非暂态计算机可读介质存储指令，所述指令在由一个或多个处理器执行时，使得所述一个或多个处理器：处理输入话音的输入音频频谱以检测与所述输入话音相关联的第一特性；至少部分地基于所述第一特性从多个参考嵌入中选择一个或多个参考嵌入；以及使用所述一个或多个参考嵌入来处理源话音的表示，以生成输出话音的输出音频频谱。

根据实施例30，一种装置，包括：用于处理输入话音的输入音频频谱以检测与所述输入话音相关联的第一特性的部件；用于至少部分地基于所述第一特性从多个参考嵌入中选择一个或多个参考嵌入的部件；和用于使用所述一个或多个参考嵌入来处理源话音的表示以生成输出话音的输出音频频谱的部件。

技术人员还将明白的是，结合本文所公开的具体实施来描述的各个例示性的逻辑块、配置、模块、电路和算法步骤可以被实现为电子硬件、由处理器执行的计算机软件、或这两者的组合。各种例示性的组件、块、配置、模块、电路和步骤已在上文根据其功能进行了一般性描述。此类功能是被实现为硬件还是处理器可执行指令取决于特定应用和施加于整体系统的设计约束。技术人员可针对每种特定应用以不同方式来实现所描述的功能，此类具体实施决策将不被解释为致使脱离本公开的范围。

结合本文中所公开的具体实施所描述的方法或算法的步骤可直接在硬件中、在由处理器执行的软件模块中、或在这两者的组合中体现。软件模块可以驻留在随机存取存储器(RAM)、闪存存储器、只读存储器(ROM)、可编程只读存储器(PROM)、可擦除可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM)、寄存器、硬盘、可移动盘、压缩光盘只读存储器(CD-ROM)、或本领域中已知的任何其他形式的非暂态存储介质。示例性存储介质耦合到处理器，使得处理器可以从该存储介质读取信息以及向该存储介质写入信息。在另选方案中，存储介质可以与处理器成一整体。处理器和存储介质可以驻留在专用集成电路(ASIC)中。该ASIC可以驻留在计算设备或者用户终端中。在另选方案中，处理器和存储介质可作为分立组件驻留在计算设备或用户终端中。

提供对所公开各方面的先前描述是为使本领域技术人员能够制作或使用所公开各方面。对这些方面的各种修改对于本领域技术人员而言将是显而易见的，并且本文中定义的原理可被应用于其他方面而不会脱离本公开的范围。由此，本公开并非旨在限定于本文中示出的各方面，而是应被授予可能与如由以下权利要求书所定义的原理和新颖性特征一致的最广义的范围。

Claims

1.一种设备，所述设备包括：

一个或多个处理器，所述一个或多个处理器被配置为：

处理输入话音的输入音频频谱以检测与所述输入话音相关联的第一特性；

至少部分地基于所述第一特性从多个参考嵌入中选择一个或多个参考嵌入；以及

使用所述一个或多个参考嵌入来处理源话音的表示，以生成输出话音的输出音频频谱。

2.根据权利要求1所述的设备，其中所述第一特性包括所述输入话音的情绪。

3.根据权利要求1所述的设备，其中所述第一特性包括所述输入话音的音量。

4.根据权利要求1所述的设备，其中所述第一特性包括所述输入话音的音高。

5.根据权利要求1所述的设备，其中所述第一特性包括所述输入话音的速度。

6.根据权利要求1所述的设备，其中所述一个或多个处理器被进一步配置为：

使用编码器处理所述源话音的源音频频谱，以生成源话音嵌入；以及

使用基频(F0)提取器处理所述源音频频谱以生成F0嵌入，其中所述源话音的所述表示基于所述源话音嵌入和所述F0嵌入。

7.根据权利要求1所述的设备，其中所述输入话音用作所述源话音。

8.根据权利要求1所述的设备，其中所述一个或多个处理器被进一步配置为经由一个或多个麦克风接收所述输入话音，其中所述源话音与虚拟助理相关联，并且其中所述输出话音对应于来自所述虚拟助理的基于所述第一特性的社交交互响应。

9.根据权利要求1所述的设备，其中与所述输出话音相关联的第二特性与所述第一特性匹配。

10.根据权利要求1所述的设备，其中所述输出话音的第一话音特性与所述输入话音的第二话音特性匹配。

11.根据权利要求1所述的设备，其中所述源话音的所述表示包括编码的源话音，并且其中所述一个或多个处理器被进一步配置为：

基于所述一个或多个参考嵌入生成转换嵌入；

将所述转换嵌入应用于所述编码的源话音以生成转换的编码的源话音；以及

对所述转换的编码的源话音进行解码以生成所述输出音频频谱。

12.根据权利要求11所述的设备，其中所述一个或多个处理器被配置为组合所述一个或多个参考嵌入和基线嵌入以生成所述转换嵌入。

13.根据权利要求11所述的设备，其中所述一个或多个处理器被配置为：

至少部分地基于所述第一特性从所述多个参考嵌入中选择多个参考嵌入；以及

组合所述多个参考嵌入以生成所述转换嵌入。

14.根据权利要求1所述的设备，其中所述源话音的所述表示基于源话音音频、源话音文本、源话音频谱、线性预测译码(LPC)系数或梅尔频率倒谱系数(MFCC)中的至少一者。

15.根据权利要求1所述的设备，其中所述一个或多个处理器被配置为：

根据操作模式将所述第一特性映射到目标特性；以及

从所述多个参考嵌入中选择对应于所述目标特性的所述一个或多个参考嵌入。

16.根据权利要求15所述的设备，其中所述操作模式基于用户输入、配置设置、默认数据、或它们的组合。

17.根据权利要求1所述的设备，其中所述一个或多个处理器被进一步配置为：

处理所述输入音频频谱以检测第一情绪；

处理图像数据以检测第二情绪；以及

基于所述第一情绪和所述第二情绪，从所述多个参考嵌入中选择所述一个或多个参考嵌入。

18.根据权利要求17所述的设备，其中所述一个或多个处理器被进一步配置为对所述图像数据执行面部检测，并且其中至少部分地基于所述面部检测的输出来检测所述第二情绪。

19.根据权利要求17所述的设备，其中所述一个或多个处理器被进一步配置为与从一个或多个图像传感器接收所述图像数据并发地从一个或多个麦克风接收音频数据，并且其中所述音频数据表示所述输入话音、所述源话音或两者。

20.根据权利要求19所述的设备，所述设备进一步包括所述一个或多个麦克风和所述一个或多个图像传感器。

21.根据权利要求1所述的设备，其中所述一个或多个处理器被配置为：

获得所述输入话音的表示；

处理所述输入话音的所述表示以生成所述输入音频频谱；以及

基于所述输出音频频谱生成所述输出话音的表示。

22.根据权利要求21所述的设备，其中所述输入话音的所述表示包括第一文本，并且其中所述输出话音的所述表示包括第二文本。

23.根据权利要求1所述的设备，其中所述一个或多个处理器被集成到交通工具、通信设备、游戏设备、扩展现实(XR)设备或计算设备中的至少一者中。

24.一种方法，所述方法包括：

在设备处处理输入话音的输入音频频谱以检测与所述输入话音相关联的第一特性；

25.根据权利要求24所述的方法，所述方法进一步包括：

26.根据权利要求24所述的方法，所述方法进一步包括在所述设备处经由一个或多个麦克风接收所述输入话音，其中所述源话音与虚拟助理相关联，并且其中所述输出话音对应于来自所述虚拟助理的基于所述第一特性的社交交互响应。

27.根据权利要求24所述的方法，所述方法进一步包括：

在所述设备处基于所述一个或多个参考嵌入生成转换嵌入；

将所述转换嵌入应用于编码的源话音以生成转换的编码的源话音，其中所述源话音的所述表示包括编码的源话音；以及

在所述设备处对所述转换的编码的源话音进行解码以生成所述输出音频频谱。

28.根据权利要求27所述的方法，所述方法进一步包括在所述设备处组合所述一个或多个参考嵌入和基线嵌入以生成所述转换嵌入。

29.一种存储指令的非暂态计算机可读介质，所述指令在由一个或多个处理器执行时，使得所述一个或多个处理器：

30.一种装置，所述装置包括：

用于处理输入话音的输入音频频谱以检测与所述输入话音相关联的第一特性的部件；

用于至少部分地基于所述第一特性从多个参考嵌入中选择一个或多个参考嵌入的部件；和

用于使用所述一个或多个参考嵌入来处理源话音的表示以生成输出话音的输出音频频谱的部件。