CN117014785A

CN117014785A - 一种音频播放方法及相关装置

Info

Publication number: CN117014785A
Application number: CN202210453369.2A
Authority: CN
Inventors: 孙坤茂; 李向宇; 郑天宇
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2022-04-27
Filing date: 2022-04-27
Publication date: 2023-11-07
Also published as: EP4496352A1; JP2025516202A; WO2023207884A1; US20250056179A1; EP4496352A4

Abstract

本申请提供了一种音频播放方法及相关装置。方法包括：电子设备开始播放第一视频片段，第一视频片段的画面中包括第一发声目标；电子设备获取到第一发声目标输出的第一音频；在第一时刻，在电子设备确定出第一发声目标在第一视频片段的画面中的位置为第一位置的情况下，电子设备通过第一扬声器输出第一音频；电子设备获取到第一发声目标输出的第二音频；在第二时刻，在电子设备确定出第一发声目标在第一视频片段的画面中的位置为第二位置的情况下，电子设备通过第二扬声器输出第二音频。方法实现了视频中目标发声物体的发声位置随着目标发声物体在屏幕上的显示位置的改变而改变，实现“音画合一”，提高用户的观影体验。

Description

一种音频播放方法及相关装置

技术领域

本申请涉及终端技术领域，尤其涉及一种音频播放方法及相关装置。

背景技术

随着终端技术的发展，终端设备的尺寸和功能越来越多样化，以满足不同用户的需求。例如大屏的显示区域很大，用户可以通过大屏播放视频，给用户带来更好地观影体验。

但是，随着终端设备的屏幕尺寸的扩大，屏幕中显示的画面中物体的运动区域也更广泛。导致用户在看电影或者电视剧时常常感觉到声音和画面是割裂的，没有很好地融合在一起。尤其是一些人物对话、飞行器飞行、汽车穿梭等场景，声音和画面的分离现象更明显。如何使得视频中声音和视频中的发声物体相融合，是亟待解决的问题。

发明内容

本申请提供了一种音频播放方法及相关装置，实现了视频画面中目标发声物体的发声位置随着目标发声物体在视频画面中的位置改变而改变，实现了“音效合一”的效果，提升了用户的观影体验。

第一方面，本申请提供了音频播放方法，应用于包括多个扬声器的电子设备，多个扬声器包括第一扬声器和第二扬声器，方法包括：电子设备开始播放第一视频片段，第一视频片段的画面中包括第一发声目标；电子设备从第一视频片段的音频数据中获取到第一发声目标输出的第一音频；在第一时刻，在电子设备确定出第一发声目标在第一视频片段的画面中的位置为第一位置的情况下，电子设备通过第一扬声器输出第一音频；电子设备从第一视频片段的音频数据中获取到第一发声目标输出的第二音频；在第二时刻，在电子设备确定出第一发声目标在第一视频片段的画面中的位置为第二位置的情况下，电子设备通过第二扬声器输出第二音频；其中，第一时刻与第二时刻不同，第一位置和第二位置不同，第一扬声器与第二扬声器不同。

其中，电子设备获取到第一发声目标输出的第一音频和电子设备获取到第一发声目标输出的第二音频，第一音频和第二音频可以是电子设备实时提取并获取到的，电子设备也可以提前获取到第一发声目标输出的完整的音频，第一音频和第二音频为第一发声目标在不同时刻输出的完整的音频中的音频片段。

通过第一方面提供的方法，电子设备可以基于图像帧中目标发声物体相对于电子设备上的各个喇叭的相对距离，改变中目标发声物体的发声位置。使得视频中目标发声物体的发声位置随着目标发声物体在屏幕上的显示位置的改变而改变，实现“音画合一”，提高用户的观影体验。

结合第一方面，在一种可能的实现方式中，在电子设备确定出第一发声目标在第一视频片段的画面中的位置为第一位置的情况下，电子设备通过第一扬声器输出第一音频，具体包括：在电子设备确定出第一发声目标在第一视频片段的画面中的第一位置与第一扬声器的距离小于第一发声目标在第一视频片段的画面中的第一位置与第二扬声器的距离的情况下，电子设备通过第一扬声器输出第一音频；在电子设备确定出第一发声目标在第一视频片段的画面中的位置为第二位置的情况下，电子设备通过第二扬声器输出第二音频,具体包括：在电子设备确定出第一发声目标在第一视频片段的画面中的第一位置与第二扬声器的距离小于第一发声目标在第一视频片段的画面中的第一位置与第一扬声器的距离的情况下，电子设备通过第二扬声器输出第二音频。这样，电子设备确定出第一发声目标在第一视频片段的画面中的位置为第一位置后，进一步确定出与第一位置距离最近的扬声器，将第一发声目标在对应时刻输出的音频通过距离最近的扬声器输出，实现了目标发声物体的发声位置随着目标发声物体在屏幕上的显示位置的改变而改变。

结合第一方面，在一种可能的实现方式中，在电子设备确定出第一发声目标在第一视频片段的画面中的位置为第一位置的情况下，电子设备通过第一扬声器输出第一音频，具体包括：在电子设备确定出第一发声目标在第一视频片段的画面中的第一位置与第一扬声器的距离小于第一发声目标在第一视频片段的画面中的第一位置与第二扬声器的距离的情况下，电子设备通过第一扬声器以第一音量值输出第一音频和通过第二扬声器以第二音量值输出第一音频，其中，第一音量值大于第二音量值；在电子设备确定出第一发声目标在第一视频片段的画面中的位置为第二位置的情况下，电子设备通过第二扬声器输出第二音频,具体包括：在电子设备确定出第一发声目标在第一视频片段的画面中的第一位置与第二扬声器的距离小于第一发声目标在第一视频片段的画面中的第一位置与第一扬声器的距离的情况下，电子设备通过第二扬声器以第三音量值输出第一音频和通过第一扬声器以第四音量值输出第一音频，其中，第三音量值大于第四音量值。这样，电子设备确定出第一发声目标在第一视频片段的画面中的位置为第一位置后，进一步确定出各个扬声器与第一位置的距离，随着距离远近的不同，每个扬声器输出的音量大小不同，即各个扬声器可以同时发声。距离越近，扬声器输出的音量越大，距离越远，扬声器输出的音量越小。

结合第一方面，在一种可能的实现方式中，第一视频片段的画面中包括第二发声目标，方法还包括：电子设备从第一视频片段的音频数据中提取出第二发声目标输出的第三音频；在第三时刻，在电子设备确定出第二发声目标在第一视频片段的画面中的位置为第三位置的情况下，电子设备通过第一扬声器输出第三音频；电子设备从第一视频片段的音频数据中提取出第二发声目标输出的第四音频；在第四时刻，在电子设备确定出第二发声目标在第一视频片段的画面中的位置为第四位置的情况下，电子设备通过第二扬声器输出第四音频；其中，第三时刻与第四时刻不同，第三位置和第四位置不同。这样，电子设备可以同时监测多个发声目标与各个扬声器的位置，改变多个发声目标的发声位置。

结合第一方面，在一种可能的实现方式中，多个扬声器还包括第三扬声器；在电子设备通过第一扬声器输出第一音频之后，方法还包括；在电子设备在第一视频片段的画面中超过第一时间或者图像帧数量超过第一数量没有监测到第一发声目标的位置的情况下，电子设备将第一发声目标的音频通过第三扬声器输出。这样，在电子设备仅监测到第一发声目标的音频，但是没有在图像数据中监测到第一发声目标的图像位置，则电子设备将第一发声目标的音频通过预设的扬声器输出。

结合第一方面，在一种可能的实现方式中，在电子设备确定出第一发声目标在第一视频片段的画面中的第一位置与第一扬声器的距离小于第一发声目标在第一视频片段的画面中的第一位置与第二扬声器的距离的情况下，电子设备通过第一扬声器输出第一音频，具体包括：电子设备获取到第一扬声器的位置信息和第二扬声器的位置信息；电子设备基于第一发声目标在第一视频片段的画面中的第一位置、第一扬声器的位置信息和第二扬声器的位置信息，确定出第一发声目标在第一视频片段的画面中的第一位置与第一扬声器的距离小于第一发声目标在第一视频片段的画面中的第一位置与第二扬声器的距离。这样，电子设备上每个扬声器的位置是固定的，电子设备可以基于每个扬声器的位置和第一发声目标画面中的位置，确定出第一发声目标与各个扬声器的距离。

结合第一方面，在一种可能的实现方式中，电子设备从第一视频片段的音频数据中获取到第一发声目标输出的第一音频，具体包括：电子设备基于预设的多种类型的音频特征，从第一视频片段的音频数据中获取到多种类型的音频；电子设备从多种类型的音频确定出第一发声目标输出的第一音频。这样，电子设备可以基于预设的多种类型的音频特征，计算音频数据中种类型的音频与预设的多种类型的音频特征的相似度，进而确定出述第一发声目标输出的第一音频。

结合第一方面，在一种可能的实现方式中，电子设备确定出第一发声目标在第一视频片段的画面中的位置为第一位置，具体包括：电子设备基于预设的多种类型的图像特征，从第一视频片段的画面中识别到第一发声目标对应的第一目标图像；电子设备基于第一目标图像在第一视频片段的画面中的显示区域确定出第一发声目标在第一视频片段的画面中的位置为第一位置。这样，在电子设备确定出可以基于预设的多种类型的图像特征，确定出第一发声目标对应的第一目标图像的图像特征，进而确定出第一目标图像在第一视频片段的画面中的位置。

结合第一方面，在一种可能的实现方式中，多个扬声器包括第四扬声器；在电子设备输出第一音频之前，方法还包括：电子设备从第一视频片段的音频数据中获取到预设的声道信息，预设的声道信息包括从第四扬声器中输出第一音频和第一背景音；在电子设备确定出第一发声目标在第一视频片段的画面中的位置为第一位置的情况下，电子设备通过第一扬声器输出第一音频，具体包括：在电子设备确定出第一发声目标在第一视频片段的画面中的位置为第一位置的情况下，电子设备通过第一扬声器输出第一音频，通过第四扬声器输出第一背景音。这样，电子设备可以在确定出第一发声目标在第一视频片段的画面中的位置为第一位置的情况下，将第一音频渲染至第一扬声器，通过第一扬声器输出第一音频，将其他的音频，例如背景音、音乐声等通过预设的扬声器输出。

结合第一方面，在一种可能的实现方式中，述电子设备上多个扬声器的位置信息不同。这样，才能实现目标发声物体的发声位置随着目标发声物体在屏幕上的显示位置的改变而改变。

结合第一方面，在一种可能的实现方式中，第一发声目标的类型为以下任意一种：人、动物、物体、景观。

结合第一方面，在一种可能的实现方式中，第一音频的类型为以下任意一种：人声、动物声、环境声、音乐声、物体声。

第二方面，本申请实施例提供了一种音频播放方法，方法包括：电子设备开始播放第一视频片段，第一视频片段的画面中包括第一发声目标；电子设备从第一视频片段的音频数据中提取出第一发声目标输出的第一音频；在第一时刻，在电子设备确定出第一发声目标在第一视频片段的画面中的位置为第一位置的情况下，电子设备通过第一音频输出设备输出第一音频；电子设备从第一视频片段的音频数据中提取出第一发声目标输出的第二音频；在第二时刻，在电子设备确定出第一发声目标在第一视频片段的画面中的位置为第二位置的情况下，电子设备通过第二音频输出设备输出第二音频；其中，第一时刻与第二时刻不同，第一位置和第二位置不同，第一音频输出设备与第二音频输出设备不同。

通过第二方面提供的方法，电子设备在外接音频输出设备的情况下，电子设备可以基于图像帧中目标发声物体相对于音频输出设备的相对距离，改变中目标发声物体的发声位置。使得视频中目标发声物体的发声位置随着目标发声物体在屏幕上的显示位置的改变而改变，实现“音画合一”，提高用户的观影体验。

结合第二方面，在一种可能的实现方式中，第一音频输出设备的类型为以下任意一种：音箱、耳机、功放机、多媒体控制台、声卡。

结合第二方面，在一种可能的实现方式中，在电子设备确定出第一发声目标在第一视频片段的画面中的位置为第一位置的情况下，电子设备通过第一音频输出设备输出第一音频，具体包括：在电子设备确定出第一发声目标在第一视频片段的画面中的第一位置与第一音频输出设备的距离小于第一发声目标在第一视频片段的画面中的第一位置与第二音频输出设备的距离的情况下，电子设备通过第一音频输出设备输出第一音频；在电子设备确定出第一发声目标在第一视频片段的画面中的位置为第二位置的情况下，电子设备通过第二音频输出设备输出第二音频,具体包括：在电子设备确定出第一发声目标在第一视频片段的画面中的第一位置与第二音频输出设备的距离小于第一发声目标在第一视频片段的画面中的第一位置与第一音频输出设备的距离的情况下，电子设备通过第二音频输出设备输出第二音频。这样，电子设备确定出第一发声目标在第一视频片段的画面中的位置为第一位置后，进一步确定出与第一位置距离最近的音频输出设备，将第一发声目标在对应时刻输出的音频通过距离最近的音频输出设备输出，实现了目标发声物体的发声位置随着目标发声物体在屏幕上的显示位置的改变而改变。

结合第二方面，在一种可能的实现方式中，在电子设备确定出第一发声目标在第一视频片段的画面中的位置为第一位置的情况下，电子设备通过第一音频输出设备输出第一音频，具体包括：在电子设备确定出第一发声目标在第一视频片段的画面中的第一位置与第一音频输出设备的距离小于第一发声目标在第一视频片段的画面中的第一位置与第二音频输出设备的距离的情况下，电子设备通过第一音频输出设备以第一音量值输出第一音频和通过第二音频输出设备以第二音量值输出第一音频，其中，第一音量值大于第二音量；在电子设备确定出第一发声目标在第一视频片段的画面中的位置为第二位置的情况下，电子设备通过第二音频输出设备输出第二音频,具体包括：在电子设备确定出第一发声目标在第一视频片段的画面中的第一位置与第二音频输出设备的距离小于第一发声目标在第一视频片段的画面中的第一位置与第一音频输出设备的距离的情况下，电子设备通过第二音频输出设备以第三音量值输出第一音频和通过第一音频输出设备以第四音量值输出第一音频，其中，第三音量值大于第四音量。这样，电子设备确定出第一发声目标在第一视频片段的画面中的位置为第一位置后，进一步确定出各个音频输出设备与第一位置的距离，随着距离远近的不同，每个音频输出设备输出的音量大小不同，即各个音频输出设备可以同时发声。距离越近，音频输出设备输出的音量越大，距离越远，音频输出设备输出的音量越小。

结合第二方面，在一种可能的实现方式中，第一视频片段的画面中包括第二发声目标，方法还包括：电子设备从第一视频片段的音频数据中提取出第二发声目标输出的第三音频；在第三时刻，在电子设备确定出第二发声目标在第一视频片段的画面中的位置为第三位置的情况下，电子设备通过第一音频输出设备输出第三音频；电子设备从第一视频片段的音频数据中提取出第二发声目标输出的第四音频；在第四时刻，在电子设备确定出第二发声目标在第一视频片段的画面中的位置为第四位置的情况下，电子设备通过第二音频输出设备输出第四音频；其中，第三时刻与第四时刻不同，第三位置和第四位置不同。这样，电子设备可以同时监测多个发声目标与各个音频输出设备的位置，改变多个发声目标的发声位置。

结合第二方面，在一种可能的实现方式中，多个音频输出设备还包括第三音频输出设备；在电子设备通过第一音频输出设备输出第一音频之后，方法还包括；在电子设备在第一视频片段的画面中超过第一时间或者图像帧数量超过第一数量没有监测到第一发声目标的位置的情况下，电子设备将第一发声目标的音频通过第三音频输出设备输出。这样，在电子设备仅监测到第一发声目标的音频，但是没有在图像数据中监测到第一发声目标的图像位置，则电子设备将第一发声目标的音频通过预设的音频输出设备输出。

结合第二方面，在一种可能的实现方式中，在电子设备确定出第一发声目标在第一视频片段的画面中的第一位置与第一音频输出设备的距离小于第一发声目标在第一视频片段的画面中的第一位置与第二音频输出设备的距离的情况下，电子设备通过第一音频输出设备输出第一音频，具体包括：电子设备获取到第一音频输出设备的位置信息和第二音频输出设备的位置信息；电子设备基于第一发声目标在第一视频片段的画面中的第一位置、第一音频输出设备的位置信息和第二音频输出设备的位置信息，确定出第一发声目标在第一视频片段的画面中的第一位置与第一音频输出设备的距离小于第一发声目标在第一视频片段的画面中的第一位置与第二音频输出设备的距离。这样，电子设备上每个音频输出设备的位置是固定的，电子设备可以基于每个音频输出设备的位置和第一发声目标画面中的位置，确定出第一发声目标与各个音频输出设备的距离。

结合第二方面，在一种可能的实现方式中，电子设备从第一视频片段的音频数据中获取到第一发声目标输出的第一音频，具体包括：电子设备基于预设的多种类型的音频特征，从第一视频片段的音频数据中获取到多种类型的音频；电子设备从多种类型的音频确定出第一发声目标输出的第一音频。这样，电子设备可以基于预设的多种类型的音频特征，计算音频数据中种类型的音频与预设的多种类型的音频特征的相似度，进而确定出述第一发声目标输出的第一音频。

结合第二方面，在一种可能的实现方式中，电子设备确定出第一发声目标在第一视频片段的画面中的位置为第一位置，具体包括：电子设备基于预设的多种类型的图像特征，从第一视频片段的画面中识别到第一发声目标对应的第一目标图像；电子设备基于第一目标图像在第一视频片段的画面中的显示区域确定出第一发声目标在第一视频片段的画面中的位置为第一位置。这样，在电子设备确定出可以基于预设的多种类型的图像特征，确定出第一发声目标对应的第一目标图像的图像特征，进而确定出第一目标图像在第一视频片段的画面中的位置。

结合第二方面，在一种可能的实现方式中，多个音频输出设备包括第四音频输出设备；在电子设备输出第一音频之前，方法还包括：电子设备从第一视频片段的音频数据中获取到预设的声道信息，预设的声道信息包括从第四音频输出设备中输出第一音频和第一背景音；在电子设备确定出第一发声目标在第一视频片段的画面中的位置为第一位置的情况下，电子设备通过第一音频输出设备输出第一音频，具体包括：在电子设备确定出第一发声目标在第一视频片段的画面中的位置为第一位置的情况下，电子设备通过第一音频输出设备输出第一音频，通过第四音频输出设备输出第一背景音。这样，电子设备可以在确定出第一发声目标在第一视频片段的画面中的位置为第一位置的情况下，将第一音频渲染至第一音频输出设备，通过第一音频输出设备输出第一音频，将其他的音频，例如背景音、音乐声等通过预设的音频输出设备输出。

结合第二方面，在一种可能的实现方式中，述电子设备上多个音频输出设备的位置信息不同。这样，才能实现目标发声物体的发声位置随着目标发声物体在屏幕上的显示位置的改变而改变

第三方面，本申请提供了一种电子设备，所述电子设备包括：一个或多个处理器、一个或多个存储器；其中，所述一个或多个存储器与所述一个或多个处理器耦合，所述一个或多个存储器用于存储计算机程序代码，所述计算机程序代码包括计算机指令，所述一个或多个处理器调用所述计算机指令以使得所述电子设备执行上述任一方面任一可能的实现方式中提供的一种音频播放方法。

第四方面，本申请提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当所述指令在电子设备上运行时，使得所述电子设备执行上述任一方面任一可能的实现方式中提供的一种音频播放方法。

第五方面，本申请提供了一种计算机程序产品，当所述计算机程序产品被电子设备执行时，使得所述电子设备执行上述任一方面任一可能的实现方式中提供的一种音频播放方法。

第六方面，本申请提供了一种芯片或芯片系统，包括处理电路和接口电路，所述接口电路用于接收代码指令并传输至所述处理电路，所述处理电路用于运行所述代码指令以执行上述任一方面任一可能的实现方式中提供的一种音频播放方法。

附图说明

图1为本申请实施例提供的一种电子设备100的结构示意图；

图2为本申请实施例提供的一种电子设备100上的多个喇叭在电子设备100上的位置示意图；

图3为本申请实施例提供的另一种电子设备100上的多个喇叭在电子设备100上的位置示意图；

图4为本申请实施例提供的一种电子设备100通过外连的音箱输出音频的示意图；

图5为本申请实施例提供的一种电子设备100的功能模块示意图；

图6-图7为本申请实施例提供的如何确定出人物1在显示屏上的位置的示意图；

图8A-图8C示例性示出了电子设备100基于目标发声物体(例如火车)的位置改变而通过不同的喇叭输出目标发声物体的音频的示意图；

图9A-图9C示例性示出了电子设备100基于目标发声物体(例如火车)的位置改变而通过不同的音箱输出目标发声物体的音频的示意图；

图10A-图10C示例性示出了电子设备100接收用户操作使得电子设备100实现“音画合一”效果的示意图；

图11为本申请实施例提供的一种音频播放方法的流程示意图；

图12为本申请实施例提供的另一种音频播放方法的流程示意图。

具体实施方式

下面将结合附图对本申请实施例中的技术方案进行清楚、详尽地描述。其中，在本申请实施例的描述中，除非另有说明，“/”表示或的意思，例如，A/B可以表示A或B；文本中的“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况，另外，在本申请实施例的描述中，“多个”是指两个或多于两个。

以下，术语“第一”、“第二”仅用于描述目的，而不能理解为暗示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征，在本申请实施例的描述中，除非另有说明，“多个”的含义是两个或两个以上。

本申请以下实施例中的术语“用户界面(user interface，UI)”，是应用程序或操作系统与用户之间进行交互和信息交换的介质接口，它实现信息的内部形式与用户可以接受形式之间的转换。用户界面是通过java、可扩展标记语言(extensible markuplanguage，XML)等特定计算机语言编写的源代码，界面源代码在电子设备上经过解析，渲染，最终呈现为用户可以识别的内容。用户界面常用的表现形式是图形用户界面(graphicuser interface，GUI)，是指采用图形方式显示的与计算机操作相关的它可以是在电子设备的显示屏中显示的文本、图标、按钮、菜单、选项卡、文本框、对话框、状态栏、导航栏、Widget等可视的界面元素。

视频中声音和视频中的发声物体相融合可以通过以下方式实现：

方式一：基于有机发光二极管(oorganic light emitting diode，OLED)屏幕发声技术实现视频中声音和视频中的发声物体相融合。

OLED屏幕发声技术，就是通过在OLED屏幕后面固定多个振动喇叭，通过振动喇叭带动屏幕发声，可以在一定程度上让观众认为声音是从屏幕上出来的。但是OLED屏幕比较大，画面中的物体可以在OLED屏幕的显示区域上任意移动，然而画面对应的声音只能通过OLED屏幕后面固定的喇叭发出，即发声的位置比较固定，无法实现画面对应的声音的产生位置随着画面中物体的运动而改变，即无法实现运动物体的声音跟踪的问题。

基于此，本申请实施例提供了一种音频播放方法，方法包括以下步骤：

步骤一：电子设备获取到视频数据，视频数据包括音频数据和图像数据。

视频数据可以是电子设备获取到的实时数据，也可以是电子设备获取到的缓存的数据。

音频数据中包括音频文件和音频文件预设的声道信息，预设的声道信息限定了电子设备通过哪些声道输出音频文件。预设的声道信息可以是例如左声道、右声道、中置声道等。其中，左声道又可以分为左前声道、左后声道等。右声道又可以分为右前声道、右后声道等。

当音频数据中预设的声道信息为左前声道、右前声道、中置声道时，那么电子设备将基于电子设备上的左前喇叭、右前喇叭和中置喇叭播放该音频文件。

步骤二：电子设备提取出音频文件中预设类型的音频。预设类型的音频包括人声、动物声、环境声、音乐声、物体声等。

也就是说，视频数据中的音频文件融合了多种不同类型的音频，例如人声、动物声、环境声、音乐声、物体声等融合在一起，成为完整的音频文件。电子设备可以将音频文件中融合的多种类型的音频进行分离，得到多种不同类型的音频。

步骤三：电子设备识别出图像数据中的目标发声物体，并确定出目标发声物体在电子设备的显示屏上的位置坐标。

其次，电子设备基于目标发声物体在显示屏上的位置坐标和电子设备上的多个喇叭的位置，确定出目标发声物体与每一个喇叭的距离，最终确定出与目标发声物体距离最近的喇叭。

步骤四：电子设备将目标发声物体对应的音频从与目标发声物体距离最近的喇叭输出。

电子设备将目标发声物体对应的音频从与目标发声物体距离最近的第一喇叭输出，并将非预设类型的音频按照原声道信息对应的喇叭输出。

或者，电子设备将目标发声物体对应的音频从与目标发声物体距离最近的第一喇叭对应的第一音频输出设备输出，并将非预设类型的音频按照原声道信息对应的喇叭对应的音频输出设备输出。音频输出设备可以是例如音箱等声音放大设备。这样，电子设备可以利用与喇叭对应的音频输出设备输出音频，提高音频输出的音质和音量。

在一些实施例中，若与目标发声物体距离最近的喇叭同时存在多个，那么电子设备可以将该目标发声物体对应的音频通过该多个喇叭同时输出。

在一些实施例中，目标发声物体在屏幕上的位置是实时变化的，在该目标发声物体的位置发声变化后，该目标发声物体与电子设备上每一个喇叭的距离也发生了变化。在电子设备确定出与目标发声物体距离最近的第二喇叭后，电子设备将目标发声物体对应的音频从与目标发声物体距离最近的第二喇叭输出。第一喇叭所在的位置和第二喇叭所在的位置不同。

或者，电子设备将目标发声物体对应的音频从与目标发声物体距离最近的第二喇叭对应的第二音频输出设备输出。

其中，电子设备获取到目标发声物体输出的音频，可以是电子设备实时提取到每一时刻输出的音频，电子设备也可以提前获取到目标发声物体输出的完整的音频。

可选的，不仅限于通过距离最近的喇叭发声，电子设备也可以通过多个喇叭同时发声，只是随着距离远近的不同，每个扬声器输出的音量大小不同。距离越近，扬声器输出的音量越大，距离越远，扬声器输出的音量越小。

例如电子设备确定出目标发声物体距离第一扬声器的距离小于目标发声物体距离第二扬声器的距离，则电子设备可以通过第一扬声器和第二扬声器同时输出目标发声物体输出的第一音频，只是第一扬声器输出第一音频的音量大于第二扬声器输出第一音频的音量。

通过本申请实施例提供的额一种音频播放方法，电子设备可以基于图像帧中目标发声物体相对于电子设备上的各个喇叭的相对距离，确定出与目标发声物体的相对距离最近的喇叭，并将目标发声物体的音频通过距离最近的喇叭或者距离最近的喇叭对应的音频输出设备输出。使得视频中目标发声物体的发声位置随着目标发声物体在屏幕上的显示位置的改变而改变，实现“音画合一”，提高用户的观影体验。

图1示出了电子设备100的结构示意图。

电子设备100为配置有不同的方位的喇叭的设备，至少配置有两个不同方位的喇叭的设备。喇叭的方位是相对于电子设备100而言的。例如以电子设备100的屏幕的中心为中心点，可以将电子设备100上的喇叭划分为左前喇叭、右前喇叭、左后喇叭、右后喇叭、中置喇叭(即位于电子设备中心点的喇叭)等等。在其他实施例中，电子设备100还可以包括其他更多方位的喇叭，本申请实施例对此不做限定。

电子设备100的类型包括但不仅限于大屏、投影仪、手机、平板电脑桌面型计算机、膝上型计算机、手持计算机、笔记本电脑、超级移动个人计算机(ultra-mobile personalcomputer，UMPC)、上网本、增强现实(augmented reality，AR)设备、虚拟现实(virtualreality，VR)设备、人工智能(artificial intelligence,AI)设备、可穿戴式设备、车载设备、智能家居设备和/或智慧城市设备等，本申请实施例对该电子设备100的具体类型不作特殊限制。本申请以下实施例以电子设备100为大屏为例进行说明。

电子设备100可以包括处理器110，无线通信模块120，音频模块130，内部存储器140，按键190，马达191，指示器192，摄像头193，显示屏194，以及传感器模块150等。其中音频模块130可以包括扬声器130A，受话器130B，麦克风130C，耳机接口130D。传感器模块150可以包括加速度传感器150A，距离传感器150B，接近光传感器150C，温度传感器150D，触摸传感器150E，环境光传感器150F等。

在一些实施例中，电子设备100也可以不包括麦克风130C和耳机接口130D。

在一些实施例中，电子设备100也可以不包括传感器模块150中的任意一种或几种。

可以理解的是，本发明实施例示意的结构并不构成对电子设备100的具体限定。在本申请另一些实施例中，电子设备100可以包括比图示更多或更少的部件，或者组合某些部件，或者拆分某些部件，或者不同的部件布置。图示的部件可以以硬件，软件或软件和硬件的组合实现。

处理器110可以包括一个或多个处理单元，例如：处理器110可以包括应用处理器(application processor，AP)，调制解调处理器，图形处理器(graphics processingunit，GPU)，图像信号处理器(image signal processor，ISP)，控制器，视频编解码器，数字信号处理器(digital signal processor，DSP)，基带处理器，和/或神经网络处理器(neural-network processing unit，NPU)等。其中，不同的处理单元可以是独立的器件，也可以集成在一个或多个处理器中。处理器110可用于提取出音频文件中预设类型的音频，预设类型的音频包括人声、动物声、环境声、音乐声、物体声等。处理器110还用于识别出图像数据中的目标发声物体，并确定出目标发声物体在电子设备的显示屏上的位置坐标，并基于目标发声物体在电子设备的显示屏上的位置坐标将目标发声物体对应的音频从与目标发声物体距离最近的喇叭输出。具体的，可以参考后续实施例中的详细描述，本申请实施例在此不做赘述。

控制器可以根据指令操作码和时序信号，产生操作控制信号，完成取指令和执行指令的控制。

处理器110中还可以设置存储器，用于存储指令和数据。在一些实施例中，处理器110中的存储器为高速缓冲存储器。该存储器可以保存处理器110刚用过或循环使用的指令或数据。如果处理器110需要再次使用该指令或数据，可从所述存储器中直接调用。避免了重复存取，减少了处理器110的等待时间，因而提高了系统的效率。

在一些实施例中，处理器110可以包括一个或多个接口。接口可以包括集成电路(inter-integrated circuit，I2C)接口，集成电路内置音频(inter-integrated circuitsound，I2S)接口，脉冲编码调制(pulse code modulation，PCM)接口，通用异步收发传输器(universal asynchronous receiver/transmitter，UART)接口，移动产业处理器接口(mobile industry processor interface，MIPI)，通用输入输出(general-purposeinput/output，GPIO)接口，用户标识模块(subscriber identity module，SIM)接口，和/或通用串行总线(universal serial bus，USB)接口等。

I2C接口是一种双向同步串行总线，包括一根串行数据线(serial data line，SDA)和一根串行时钟线(derail clock line，SCL)。在一些实施例中，处理器110可以包含多组I2C总线。

I2S接口可以用于音频通信。在一些实施例中，处理器110可以包含多组I2S总线。处理器110可以通过I2S总线与音频模块130耦合，实现处理器110与音频模块130之间的通信。

PCM接口也可以用于音频通信，将模拟信号抽样，量化和编码。在一些实施例中，音频模块130与无线通信模块120可以通过PCM总线接口耦合。

UART接口是一种通用串行数据总线，用于异步通信。该总线可以为双向通信总线。它将要传输的数据在串行通信与并行通信之间转换。在一些实施例中，UART接口通常被用于连接处理器110与无线通信模块120。

MIPI接口可以被用于连接处理器110与显示屏194，摄像头193等外围器件。MIPI接口包括摄像头串行接口(camera serial interface，CSI)，显示屏串行接口(displayserial interface，DSI)等。在一些实施例中，处理器110和摄像头193通过CSI接口通信，实现电子设备100的拍摄功能。处理器110和显示屏194通过DSI接口通信，实现电子设备100的显示功能。

GPIO接口可以通过软件配置。GPIO接口可以被配置为控制信号，也可被配置为数据信号。在一些实施例中，GPIO接口可以用于连接处理器110与摄像头193，显示屏194，无线通信模块120，音频模块130，传感器模块150等。GPIO接口还可以被配置为I2C接口，I2S接口，UART接口，MIPI接口等。

USB接口是符合USB标准规范的接口，具体可以是Mini USB接口，Micro USB接口，USB Type C接口等。USB接口可以用于电子设备100与外围设备之间传输数据。也可以用于连接耳机，通过耳机播放音频。该接口还可以用于连接其他电子设备，例如AR设备等。

可以理解的是，本发明实施例示意的各模块间的接口连接关系，只是示意性说明，并不构成对电子设备100的结构限定。在本申请另一些实施例中，电子设备100也可以采用上述实施例中不同的接口连接方式，或多种接口连接方式的组合。

电子设备100的无线通信功能可以通过天线1，无线通信模块120，调制解调处理器以及基带处理器等实现。

天线1用于发射和接收电磁波信号。电子设备100中的每个天线可用于覆盖单个或多个通信频带。不同的天线还可以复用，以提高天线的利用率。例如：可以将天线1复用为无线局域网的分集天线。在另外一些实施例中，天线可以和调谐开关结合使用。

无线通信模块120可以提供应用在电子设备100上的包括无线局域网(wirelesslocal area networks，WLAN)(如无线保真(wireless fidelity，Wi-Fi)网络)，蓝牙(bluetooth，BT)，全球导航卫星系统(global navigation satellite system，GNSS)，调频(frequency modulation，FM)，近距离无线通信技术(near field communication，NFC)，红外技术(infrared，IR)等无线通信的解决方案。无线通信模块120可以是集成至少一个通信处理模块的一个或多个器件。无线通信模块120经由天线1接收电磁波，将电磁波信号解调以及滤波处理，将处理后的信号发送到处理器110。无线通信模块120还可以从处理器110接收待发送的信号，对其进行调频，放大，经天线1转为电磁波辐射出去。

在一些实施例中，电子设备100的天线1和无线通信模块120耦合，使得电子设备100可以通过无线通信技术与网络以及其他设备通信。所述无线通信技术可以包括全球移动通讯系统(global system for mobile communications，GSM)，通用分组无线服务(general packet radio service，GPRS)，码分多址接入(code division multipleaccess，CDMA)，宽带码分多址(wideband code division multiple access，WCDMA)，时分码分多址(time-division code division multiple access，TD-SCDMA)，长期演进(longterm evolution，LTE)，BT，GNSS，WLAN，NFC，FM，和/或IR技术等。所述GNSS可以包括全球卫星定位系统(global positioning system，GPS)，全球导航卫星系统(global navigationsatellite system，GLONASS)，北斗卫星导航系统(beidou navigation satellitesystem，BDS)，准天顶卫星系统(quasi-zenith satellite system，QZSS)和/或星基增强系统(satellite based augmentation systems，SBAS)。

电子设备100通过GPU，显示屏194，以及应用处理器等实现显示功能。GPU为图像处理的微处理器，连接显示屏194和应用处理器。GPU用于执行数学和几何计算，用于图形渲染。处理器110可包括一个或多个GPU，其执行程序指令以生成或改变显示信息。

显示屏194用于显示图像，视频等。显示屏194包括显示面板。显示面板可以采用液晶显示屏(liquid crystal display，LCD)，有机发光二极管(organic light-emittingdiode，OLED)，有源矩阵有机发光二极体或主动矩阵有机发光二极体(active-matrixorganic light emitting diode的，AMOLED)，柔性发光二极管(flex light-emittingdiode，FLED)，Miniled，MicroLed，Micro-oLed，量子点发光二极管(quantum dot lightemitting diodes，QLED)等。在一些实施例中，电子设备100可以包括1个或N个显示屏194，N为大于1的正整数。

电子设备100可以通过ISP，摄像头193，视频编解码器，GPU，显示屏194以及应用处理器等实现拍摄功能。

ISP用于处理摄像头193反馈的数据。例如，拍照时，打开快门，光线通过镜头被传递到摄像头感光元件上，光信号转换为电信号，摄像头感光元件将所述电信号传递给ISP处理，转化为肉眼可见的图像。ISP还可以对图像的噪点，亮度，肤色进行算法优化。ISP还可以对拍摄场景的曝光，色温等参数优化。在一些实施例中，ISP可以设置在摄像头193中。

摄像头193用于捕获静态图像或视频。物体通过镜头生成光学图像投射到感光元件。感光元件可以是电荷耦合器件(charge coupled device，CCD)或互补金属氧化物半导体(complementary metal-oxide-semiconductor，CMOS)光电晶体管。感光元件把光信号转换成电信号，之后将电信号传递给ISP转换成数字图像信号。ISP将数字图像信号输出到DSP加工处理。DSP将数字图像信号转换成标准的RGB，YUV等格式的图像信号。在一些实施例中，电子设备100可以包括1个或N个摄像头193，N为大于1的正整数。在一些实施例中，电子设备100也可以不包括摄像头193。

数字信号处理器用于处理数字信号，除了可以处理数字图像信号，还可以处理其他数字信号。例如，当电子设备100在频点选择时，数字信号处理器用于对频点能量进行傅里叶变换等。

视频编解码器用于对数字视频压缩或解压缩。电子设备100可以支持一种或多种视频编解码器。这样，电子设备100可以播放或录制多种编码格式的视频，例如：动态图像专家组(moving picture experts group，MPEG)1，MPEG2，MPEG3，MPEG4等。

NPU为神经网络(neural-network，NN)计算处理器，通过借鉴生物神经网络结构，例如借鉴人脑神经元之间传递模式，对输入信息快速处理，还可以不断的自学习。通过NPU可以实现电子设备100的智能认知等应用，例如：图像识别，人脸识别，语音识别，文本理解等。

内部存储器140可以包括一个或多个随机存取存储器(random access memory，RAM)和一个或多个非易失性存储器(non-volatile memory，NVM)。

随机存取存储器可以包括静态随机存储器(static random-access memory，SRAM)、动态随机存储器(dynamic random access memory，DRAM)、同步动态随机存储器(synchronous dynamic random access memory,SDRAM)、双倍资料率同步动态随机存取存储器(double data rate synchronous dynamic random access memory,DDR SDRAM，例如第五代DDR SDRAM一般称为DDR5 SDRAM)等；非易失性存储器可以包括磁盘存储器件、快闪存储器(flash memory)。

快闪存储器按照运作原理划分可以包括NOR FLASH、NAND FLASH、3D NAND FLASH等，按照存储单元电位阶数划分可以包括单阶存储单元(single-level cell,SLC)、多阶存储单元(multi-level cell,MLC)、三阶储存单元(triple-level cell,TLC)、四阶储存单元(quad-level cell,QLC)等，按照存储规范划分可以包括通用闪存存储(英文：universalflash storage，UFS)、嵌入式多媒体存储卡(embedded multi media Card，eMMC)等。

随机存取存储器可以由处理器110直接进行读写，可以用于存储操作系统或其他正在运行中的程序的可执行程序(例如机器指令)，还可以用于存储用户及应用程序的数据等。

非易失性存储器也可以存储可执行程序和存储用户及应用程序的数据等，可以提前加载到随机存取存储器中，用于处理器110直接进行读写。

电子设备100可以通过音频模块130，扬声器130A，受话器130B，麦克风130C，耳机接口130D，以及应用处理器等实现音频功能。例如音乐播放，录音等。

音频模块130用于将数字音频信息转换成模拟音频信号输出，也用于将模拟音频输入转换为数字音频信号。音频模块130还可以用于对音频信号编码和解码。在一些实施例中，音频模块130可以设置于处理器110中，或将音频模块130的部分功能模块设置于处理器110中。

扬声器130A，也称“喇叭”，用于将音频电信号转换为声音信号。电子设备100可以通过扬声器130A收听音乐。可选的，电子设备100上可以有多个喇叭，且多个喇叭在电子设备100上的位置不同。例如以电子设备100的屏幕的中心为中心点，可以将电子设备100上的喇叭划分为左前喇叭、右前喇叭、左后喇叭、右后喇叭、中置喇叭(即位于电子设备中心点的喇叭)等等。在其他实施例中，电子设备100还可以包括其他更多方位的喇叭，本申请实施例对此不做限定。

在一些实施例中，电子设备100可以通过有线或者无线的方式外接一个或多个音频输出设备(例如音箱)，这样，电子设备100可以通过外接的一个或多个音频输出设备输出音频，提高音频输出的音质。

受话器130B，也称“听筒”，用于将音频电信号转换成声音信号。当电子设备100接听电话或语音信息时，可以通过将受话器130B靠近人耳接听语音。在一些实施例中，电子设备100也可以不包括受话器130B。

麦克风130C，也称“话筒”，“传声器”，用于将声音信号转换为电信号。当拨打电话或发送语音信息时，用户可以通过人嘴靠近麦克风130C发声，将声音信号输入到麦克风130C。电子设备100可以设置至少一个麦克风130C。在另一些实施例中，电子设备100可以设置两个麦克风130C，除了采集声音信号，还可以实现降噪功能。在另一些实施例中，电子设备100还可以设置三个，四个或更多麦克风130C，实现采集声音信号，降噪，还可以识别声音来源，实现定向录音功能等。在一些实施例中，电子设备100也可以不包括麦克风130C。

耳机接口130D用于连接有线耳机。耳机接口130D可以是USB接口，也可以是3.5mm的开放移动电子设备平台(open mobile terminal platform，OMTP)标准接口，美国蜂窝电信工业协会(cellular telecommunications industry association of the USA，CTIA)标准接口。在一些实施例中，电子设备100也可以不包括耳机接口130D。

加速度传感器150A可检测电子设备100在各个方向上(一般为三轴)加速度的大小。当电子设备100静止时可检测出重力的大小及方向。还可以用于识别电子设备姿态，应用于横竖屏切换，计步器等应用。

距离传感器150B，用于测量距离。电子设备100可以通过红外或激光测量距离。在一些实施例中，拍摄场景，电子设备100可以利用距离传感器150B测距以实现快速对焦。

接近光传感器150C可以包括例如发光二极管(LED)和光检测器，例如光电二极管。发光二极管可以是红外发光二极管。电子设备100通过发光二极管向外发射红外光。电子设备100使用光电二极管检测来自附近物体的红外反射光。当检测到充分的反射光时，可以确定电子设备100附近有物体。当检测到不充分的反射光时，电子设备100可以确定电子设备100附近没有物体。电子设备100可以利用接近光传感器150C检测用户手持电子设备100贴近耳朵通话，以便自动熄灭屏幕达到省电的目的。接近光传感器150C也可用于皮套模式，口袋模式自动解锁与锁屏。

温度传感器150D用于检测温度。在一些实施例中，电子设备100利用温度传感器150D检测的温度，执行温度处理策略。例如，当温度传感器150D上报的温度超过阈值，电子设备100执行降低位于温度传感器150D附近的处理器的性能，以便降低功耗实施热保护。在另一些实施例中，当温度低于另一阈值时，电子设备100对电池加热，以避免低温导致电子设备100异常关机。在其他一些实施例中，当温度低于又一阈值时，电子设备100对电池的输出电压执行升压，以避免低温导致的异常关机。

触摸传感器150E，也称“触控器件”。触摸传感器150E可以设置于显示屏194，由触摸传感器150E与显示屏194组成触摸屏，也称“触控屏”。触摸传感器150E用于检测作用于其上或附近的触摸操作。触摸传感器可以将检测到的触摸操作传递给应用处理器，以确定触摸事件类型。可以通过显示屏194提供与触摸操作相关的视觉输出。在另一些实施例中，触摸传感器150E也可以设置于电子设备100的表面，与显示屏194所处的位置不同。

需要说明的，电子设备100也可以包括其他跟多的传感器，电子设备100也可以不包括上述一个或多个传感器。

按键190包括开机键，音量键等。按键190可以是机械按键。也可以是触摸式按键。电子设备100可以接收按键输入，产生与电子设备100的用户设置以及功能控制有关的键信号输入。

马达191可以产生振动提示。马达191可以用于来电振动提示，也可以用于触摸振动反馈。例如，作用于不同应用(例如音频播放等)的触摸操作，可以对应不同的振动反馈效果。作用于显示屏194不同区域的触摸操作，马达191也可对应不同的振动反馈效果。不同的应用场景(例如：时间提醒，闹钟，游戏等)也可以对应不同的振动反馈效果。触摸振动反馈效果还可以支持自定义。

指示器192可以是指示灯，可以用于指示充电状态，电量变化，也可以用于指示消息，通知等。

接下来介绍电子设备100上的喇叭的布局示意图。

图2示出了一种电子设备100上的多个喇叭在电子设备100上的位置示意图。

如图2所示，以电子设备100的先显示屏的中心点为原点，水平向右的方向为x轴，垂直于水平方向向上的方向为y轴方向，建立直角坐标系。其中，x轴正方向与y轴正方向之间的空间为第一象限，x轴负方向与y轴正方向之间的空间为第二象限，x轴负方向与y轴负方向之间的空间为第三象限，x轴正方向与y轴负方向之间的空间为第四象限。

电子设备100上至少存在两个不同方位的喇叭，才可以实现视频中目标发声物体的发声位置随着目标发声物体在显示屏上的位置的改变而改变。本申请实施例以电子设备100上有5个不同方位的喇叭为例进行说明。需要说明的是，针对不同的设备，喇叭的数量和方位均不同，本申请实施例毒刺不做限定。

例如，电子设备100上的5个喇叭分别是喇叭201、喇叭202、喇叭203、喇叭204和喇叭205，其中，喇叭201位于第一象限，即喇叭201位于电子设备100的右前方，喇叭201也可以被称为右前方喇叭。喇叭203位于第二象限，即喇叭203位于电子设备100的左前方，喇叭203也可以被称为左前方喇叭。喇叭204位于第三象限，即喇叭204位于电子设备100的左下方，喇叭204也可以被称为左下方喇叭。喇叭202位于第四象限，即喇叭202位于电子设备100的右下方，喇叭202也可以被称为右下方喇叭。喇叭205可以是位于原点出，即x轴与y轴的交点处，或者说喇叭205位于电子设备100的屏幕中间，喇叭205也可以被称为中置喇叭。

其中，喇叭201可以播放右前声道输出的音频，喇叭202可以播放右下声道输出的音频，喇叭203可以播放左前声道输出的音频，喇叭204可以播放左后声道输出的音频，喇叭205可以播放中声道输出的音频。

喇叭201、喇叭202、喇叭203、喇叭204和喇叭205分别位于不同的方位，目标发声物体在电子设备100显示屏上的位置发生变化后，电子设备100可以通过不同的喇叭输出目标发声物体的音频，使得目标发声物体的发声位置(即喇叭的发声位置)随着目标发声物体的位置移动而改变，做到“音随画动”的效果。

需要说明的是，喇叭201、喇叭202、喇叭203、喇叭204和喇叭205可以是位于电子设备100的屏幕背后，喇叭201、喇叭202、喇叭203、喇叭204和喇叭205也可以是位于电子设备100的屏幕边缘，本申请实施例对此不做限定。

不仅限于上述五个方位，电子设备100还可以将电子设备100的屏幕划分得到更多不同的方位。例如电子设备100可以将第二象限继续划分，将第二象限划分为第一区域和第二区域，第一区域和第二区域的所在的显示区域和为第二象限所在的显示区域。基于此，电子设备100可以将电子设备100上的多个喇叭所在的位置划分得到更多方位的喇叭。

图3示出了另一种电子设备100上的多个喇叭在电子设备100上的位置示意图。

如图3所示，以电子设备100的屏幕中心点为原点，垂直于水平方向向上的方向为y轴方向，将电子设备100的屏幕的水平方向划分为三个区域，分别做垂直于y轴的x1轴和x2轴。x1轴和x2轴将电子设备100的水平方向的显示区域划分为三等分的区域。图3中，y轴、x1轴和x2轴将电子设备100的屏幕的显示区域划分为6等分的区域。

例如，电子设备100上的7个喇叭分别是喇叭206、喇叭207、喇叭208、喇叭209、喇叭210、喇叭211和喇叭212，其中，喇叭206位于y轴右侧和x1轴上方所在的显示区域，喇叭206也可以被称为右前方喇叭。喇叭207位于y轴右侧、x1轴下向和x2轴上方所在的显示区域，喇叭206也可以被称为右中置喇叭。喇叭208位于y轴右侧和x2轴下方所在的显示区域，喇叭208也可以被称为右后方喇叭。喇叭209位于y轴左侧和x1轴上方所在的显示区域，喇叭209也可以被称为左前方喇叭。喇叭210位于y轴左侧、x1轴下方和x2轴上方所在的显示区域，喇叭210也可以被称为左中置喇叭。喇叭211位于y轴左侧和x2轴下方所在的显示区域，喇叭211也可以被称为左后方喇叭。喇叭212位于电子设备100的屏幕中间，或者说喇叭212位于喇叭210和喇叭211之间的位置，喇叭212也可以被称为中置喇叭。

其中，喇叭206可以播放右前声道输出的音频，喇叭207可以播放右中置声道输出的音频，喇叭208可以播放右后声道输出的音频，喇叭209可以播放左前声道输出的音频，喇叭210可以播放左中置声道输出的音频，喇叭211可以播放左后声道输出的音频，喇叭212可以播放中置声道输出的音频。

需要说明的是，喇叭206、喇叭207、喇叭208、喇叭209、喇叭210、喇叭211和喇叭212可以是位于电子设备100的屏幕背后，喇叭206、喇叭207、喇叭208、喇叭209、喇叭210、喇叭211和喇叭212也可以是位于电子设备100的屏幕边缘，本申请实施例对此不做限定。

不仅限于图2和图3所示的划分喇叭方位的方法，电子设备100还可以基于其他的任意方式对电子设备100上的喇叭所在的位置进行方位划分，本申请实施例对此不做限定。

不仅限于通过电子设备100上的喇叭发声，电子设备100也可以外接音频输出设备(例如音箱)，电子设备100将喇叭输出的音频通过对应的音箱输出，可以提高音频的输出音量个音质。例如，在家庭影院场景、或者在电影院观影场景中，通过音箱输出大屏播放的视频声音，可以得到更好地音质，提高用户的观影体验。

本申请以下实施例以在家庭影院场景中，电子设备100通过音箱输出音频，做到“音随画动”的具体实现的原理。

图4示例性示出了电子设备100通过外连的音箱输出音频的示意图。

电子设备100可以通过有线或者无线的方式连接音箱。电子设备100可以外接多个音箱，多个音箱分别对应电子设备100上的不同声道。这样，电子设备100可以通过多个音箱输出每个声道的音频。

示例性的，如图4所示，电子设备100可以连接5个音箱。5个音箱分别是音箱213、音箱214、音箱215、音箱216和音箱217。音箱213可以用于输出右前声道输出的音频，音箱214可以用于输出右后声道输出的音频，音箱215可以用于输出中置声道输出的音频，音箱216可以用于输出左前声道输出的音频，音箱217可以用于输出左后声道输出的音频。

这样，当电子设备100连接上音箱213、音箱214、音箱215、音箱216和音箱217后，在电子设备100可以不通过喇叭201、喇叭202、喇叭203、喇叭204和喇叭205输出音频。当电子设备100通过右前声道输出音频时，电子设备100首先检测右前声道上是否连接有音箱，若连接有音箱，电子设备100不通过喇叭201输出音频，而是通过音箱213输出音频。当电子设备100通过右后声道输出音频时，电子设备100首先检测右后声道上是否连接有音箱，若连接有音箱，电子设备100不通过喇叭202输出音频，而是通过音箱214输出音频。当电子设备100通过左前声道输出音频时，电子设备100首先检测左前声道上是否连接有音箱，若连接有音箱，电子设备100不通过喇叭203输出音频，而是通过音箱216输出音频。当电子设备100通过左后声道输出音频时，电子设备100首先检测左后声道上是否连接有音箱，若连接有音箱，电子设备100不通过喇叭204输出音频，而是通过音箱217输出音频。当电子设备100通过中置声道输出音频时，电子设备100首先检测中置声道上是否连接有音箱，若连接有音箱，电子设备100不通过喇叭205输出音频，而是通过音箱215输出音频。

需要说明的是，电子设备100还可以连接其他更多的音箱，并通过其他更多的音箱输出更多不同声道的音频，本申请实施例对此不做限定。

接下来介绍本申请实施例提供的一种电子设备100内实现视频中目标发声物体的发声位置随着目标发声物体在显示屏上的位置的改变而改变的功能模块。

图5示例性示出了电子设备100的功能模块示意图。

功能模块包括但不仅限于声音提取模块501、位置识别模块502、音画渲染模块503和音频控制模块504。

可选的，再将音频数据输入声音提取模块501和将图像数据输入位置识别模块502之前，可以将视频数据进行预处理。即将视频数据处理为预设的格式，以使得声音提取模块501和位置识别模块502可以基于预设的格式的数据进行处理。例如预处理包括多声道下混、数据拼帧、短时傅里叶变换操作等。不论是立体声还是多声道的输入，都会下混至双声道，保证对象基础的左右声像。数据拼帧以历史buf+当前buf+未来buf构建AI音频模型的输入时域序列。

其中，声音提取模块501用于获取视频数据中的音频数据。在获取到音频数据后，声音提取模块501还用于基于音频数据，识别出音频数据中预设的声道信息。例如，音频数据中预定通过两个声道(例如左声道和右声道)输出，那么音频数据中预设的声道信息包括左声道和右声道，以及左声道中输出的音频数据和从右声道中输出的音频。

声音提取模块501还用于基于预设的声音特征，提取出音频数据中的一种或多种类型的音频。一种或多种类型的音频包括但不仅限于人声、动物声、环境声、音乐声、物体声等。也就是说声音提取模块501获取到的音频数据，融合了多种不同类型的音频。声音提取模块501将从获取到的音频数据中分离得到多种类型的音频。对于声音提取模块501如何提取出一种或多种类型的音频的，将在后续实施例中详细描述，本申请实施例在此不再赘述。

位置识别模块502用于获取到视频数据中的图像数据。在位置识别模块502获取到视频数据中的图像数据后，位置识别模块502还用于识别到图像数据中目标发声物体在显示屏上的第一位置信息。目标发声物体可以是人、动物、物体(例如飞机、汽车)等等。位置识别模块502可以基于图像识别算法，识别到图像数据中目标发声物体在显示屏上的位置。对于位置识别模块502如何识别到图像数据中目标发声物体在显示屏上的位置的，将在后续实施例中详细描述，本申请实施例在此不再赘述。

在一些实施例中，位置识别模块502可以从图像数据中识别到多个目标发声物体，那么位置识别模块502可以得到多个目标发声物体在显示屏上的位置。位置识别模块502可以将多个目标发声物体在显示屏上的位置发送至音画渲染模块503。

在声音提取模块501在获取到一种或多种类型的音频后，声音提取模块501还用于将一种或多种类型的音频发送至音画渲染模块503。

在位置识别模块502识别到图像数据中目标发声物体在显示屏上的第一位置信息后，位置识别模块502还用于将目标发声物体在显示屏上的第一位置信息发送至音画渲染模块503。

音画渲染模块503用于接收声音提取模块501发送的一种或多种类型的音频，音画渲染模块503还用于接收位置识别模块502发送的目标发声物体在显示屏上的第一位置信息。

音画渲染模块503还可以将音频数据后处理，例如反短时傅里叶变换、数据平滑、对象声道合入源声道等。反短时傅里叶变换将时频谱转换回时域信号。数据平滑可以将每帧之间的信号进行淡入淡出，去除模型策略导致的pop音。对象声道合入源声道用于将处理好的对象声道和源声道交织在一起后传出。

之后，音画渲染模块503用于基于第一位置信息和电子设备100上多个喇叭的位置信息，确定出与目标发声物体最近的第一喇叭。

音画渲染模块503还用于从一种或多种类型的音频中确定目标发声物体的第一音频。若有多个目标发声物体，音画渲染模块503可以从多种类型的音频中确定出每一种类型的音频对应的目标发声物体。

音画渲染模块503还用于将第一喇叭对应的第一声道标识和第一音频发送至音频控制模块504。

音频控制模块504用于接收音画渲染模块503发送的第一喇叭对应的第一声道标识和第一音频。首先，音频控制模块504会判断出第一声道是否连接有音箱，若第一声道没有连接音箱，则音频控制模块504将第一音频通过第一声道对应的第一喇叭输出。若第一声道有连接音箱，则音频控制模块504将第一音频通过第一声道对应的第一音箱输出。

这样，可以基于图像数据中目标发声物体在显示屏上的位置，从距离目标发声物体最近的喇叭或者音箱输出目标发声物体的音频，可以做到目标发声物体的音频输出位置随着目标发声物体在显示屏上的位置改变而改变。

需要说明的是，声音提取模块501、位置识别模块502、音画渲染模块503和音频控制模块504可以任意结合实现上述功能，声音提取模块501、位置识别模块502、音画渲染模块503和音频控制模块504也可以单独作为一个模块实现上述功能，本申请实施例对此不做限定。

接下来详细介绍电子设备100如何提取出音频数据中一种或多种类型的音频的。一种或多种类型的音频包括但不仅限于人声、动物声、环境声、音乐声、物体声(例如飞机声、汽车声)等。

电子设备100在获取到视频数据中的音频数据后，电子设备100将提取出音频数据中一种或多种类型的音频。

在一些实施例中，电子设备100可以提前训练得到音频提取模型，通过训练好的音频提取模型提取出视频数据中的音频数据中一种或多种类型的音频。

在电子设备100提取出音频数据中一种或多种类型的音频之前，电子设备100需获取到预设的一种或多种类型的音频特征。

表1

类型	音频特征
		人声	V1＝[a1，a2，a3，a4，a5，a6……an]
犬声	V2＝[b1，b2，b3，b4，b5，b6……bn]
		风声	V3＝[c1，c2，c3，c4，c5，c6……cn]
飞机声	V4＝[d1，d2，d3，d4，d5，d6……dn]
		汽车声	V5＝[e1，e2，e3，e4，e5，e6……en]
火车声	V6＝[f1，f2，f3，f4，f5，f6……fn]

表1示例性示出了部分类型的音频特征。音频特征可以包括但不仅限于音调、响度、音色、旋律等。在提取出音频的音频特征后，可以用特征向量表示音频的音频特征。

表1示例性示出了部分类型的音频特征的向量表示。其中，人声的音频特征可以用特征向量V1表示，V1＝[a1，a2，a3，a4，a5，a6……an]。犬声的音频特征可以用特征向量V2表示，V2＝[b1，b2，b3，b4，b5，b6……bn]。风声的音频特征可以用特征向量V3表示，V3＝[c1，c2，c3，c4，c5，c6……cn]。飞机声的音频特征可以用特征向量V4表示，V4＝[d1，d2，d3，d4，d5，d6……dn]。汽车声的音频特征可以用特征向量V5表示，V5＝[e1，e2，e3，e4，e5，e6……en]。火车声的音频特征可以用特征向量V6表示，V6＝[f1，f2，f3，f4，f5，f6……fn]。还可以包括其他更多类型的音频特征，本申请实施例在此不再一一赘述。

需要说明的是，同一类型但是属性不同的音频来说，音频特征也不同。

例如对于人声来说，按照性别又可以为女声、男声。按照年龄又可以为0-5岁人声、5-10岁人声、10-15岁人声、15-20岁人声、20-25岁人声、25-30岁人声等等。属于同一类型不同阶段的人声的音频特征也不同，本申请实施例在此不再赘述。

视频数据中的音频文件融合了多种不同类型的音频，例如人声、动物声、环境声、音乐声、物体声等融合在一起，成为完整的音频文件。电子设备可以将音频文件中融合的多种类型的音频进行分离，得到多个音频。

之后，电子设备100分别提取出多个音频的音频特征。并将多个音频的音频特征与预设的音频特征进行比较，当相似度大于预设值(例如90％)以上时，电子设备100可以确定出音频的音频类型。例如若多个音频中的某一个音频的音频特征和汽车声的音频特征的相似度为95％，该某一个音频的音频特征和人声的音频特征、犬声的音频特征、风声的音频特征、汽车声的音频特征的相似度均小于90％，例如均为20％，则电子设备100可以确定出该某一个音频的音频类型为飞机声。

需要说明的是，视频数据中的音频数据，可能包括一种或多种类型的音频，电子设备100可以基于上述方法提取出不同类型的音频，即将不同类型的音频分离开。

电子设备100从视频数据的音频数据中提取得到多个不同类型的音频后，电子设备100还需确定出上述多个不同类型的音频的目标发声物体，以及目标发声目标在电子设备100的显示屏上的位置。即确定出每个类型的音频的目标发声物体在电子设备100的显示屏上的位置。

电子设备100可以利用图像识别模型确定出图片帧中的目标发声物体的图像。

首先，需要利用大量的样本图片训练图像识别模型。样本图片包括一定数量的多种类型的图片，例如人像图片、动物图片(例如犬图片)、物体图片(例如飞机图片、汽车图片等)。具体的训练过程是：将样本图片作为图像识别模型的输入，图像识别模型将输出输入的样本图片的图像特征。之后，比较图像识别模型输出的样本图片的图像特征和样本图片预设的图像特征，并观测两者的相似度是否大于预设值，若大于预设值，则说明图像识别模型可以准确的识别出图片的特征，图像识别模型训练完毕。若小于预设值，则重复上述步骤，直至图像识别模型输出的样本图片的图像特征和样本图片预设的图像特征的相似度大于预设值。

需要说明的是，可以是电子设备100训练图像识别模型，也可以是由服务里训练图像识别模型，并将训练好的图像识别模型发送至电子设备100。本申请实施例对此不做限定。

表2

类型	图像特征
		人脸图像	F1＝[A1，A2，A3，A4，A5，A6……An]
犬的图像	F2＝[B1，B2，B3，B4，B5，B6……Bn]
		飞机图像	F3＝[C1，C2，C3，C4，C5，C6……Cn]
汽车图像	F4＝[D1，D2，D3，D4，D5，D6……Dn]
		火车图像	F5＝[E1，E2，E3，E4，E5，E6……En]

表2示例性示出了部分类型的图像特征。图像特征可以包括但不仅限于颜色特征、纹理特征、轮廓特征等。在提取出图像的图像特征后，可以用特征向量表示图像的图像特征。

表2示例性示出了部分类型的图像特征的向量表示。其中，人脸图像的图像特征可以用特征向量F1表示，F1＝[A1，A2，A3，A4，A5，A6……An]。犬的图像特征可以用特征向量F2表示，F2＝[B1，B2，B3，B4，B5，B6……Bn]。飞机图像的图像特征可以用特征向量F3表示，F3＝[C1，C2，C3，C4，C5，C6……Cn]。汽车图像的图像特征可以用特征向量F4表示，F4＝[D1，D2，D3，D4，D5，D6……Dn]。火车图像的图像特征可以用特征向量F5表示，F5＝[E1，E2，E3，E4，E5，E6……En]。还可以包括其他更多类型的图像特征，本申请实施例在此不再一一赘述。

需要说明的是，同一类型但是属性不同的图像来说，图像特征也不同。

例如对于人脸图像来说，按照性别又可以为女生图像、男生图像。按照年龄又可以为0-5岁人脸图像、5-10岁人脸图像、10-15岁人脸图像、15-20岁人脸图像、20-25岁人脸图像、25-30岁人脸图像等等。属于同一类型不同阶段的人脸图像的图像特征也不同，本申请实施例在此不再赘述。

视频数据中的图像数据可以包括多种类型的图像，例如人脸图像、动物图像、汽车图像、飞机图像和火车图像等。电子设备100需从图像数据中识别出多种类型的图像，并从多种类型的图像中确定出目标发声物体。

示例性的，电子设备100可以利用图像识别模型，识别出图像数据中的预设类型的图像，即确定出目标发声物体。

具体的，电子设备100分别提取出图像数据中的图像特征。并将图像特征与预设的图像特征进行比较，当相似度大于预设值(例如90％)以上时，电子设备100可以确定出图像数据中的图像类型。例如图像数据中的某一个图像的图像特征和汽车图像的图像特征的相似度为95％，该某一个图像的图像特征和人脸图像的图像特征、动物(全)图像的图像特征、火车图像的图像特征的相似度均小于90％，例如均为20％，则电子设备100可以确定出该某一个图像的图像类型为火车。

在一些实施例中，在电子设备100从视频数据中分离出多种类型的音频后，例如第一类型的第一音频(例如人声的音频)。电子设备100需从视频数据的图像数据中对第一音频对应的发声物体进行跟踪。具体的，电子设备100基于第一音频的第一类型确定出第一类型的图像，电子设备100从预设的多个类型的图像特征中查找到第一类型的图像特征。之后，电子设备100对视频数据的图像数据中的多个图像进行特征提取，并将提取的视频数据的多个图像数据中的图像的特征与预设的第一类型的图像特征进行匹配，查找到第一类型的图像在图像中的位置。这样，电子设备100只需将提取的视频数据的图像数据中多个图像的图像特征与第一类型的图像特征进行匹配即可(即确定出相似度是否大于预设值)，不需和所有的预设的多个图像特征进行匹配，可以减少电子设备100确定出第一类型的图像在图像中的位置的时间。示例性的，若第一音频的类型为人声，则电子设备100需从视频数据的图像数据中确定出人物在图像中的位置。具电子设备100从预设的多个类型的图像特征中查找到人物的图像特征，电子设备100对视频数据的图像数据中的多个图像进行特征提取，并将提取的视频数据的多个图像数据中的图像的特征与人物的图像特征进行匹配，确定出人物的图像在图像中的位置。这样，电子设备100只需将视频数据的多个图像数据中的图像的特征与人物的图像特征进行匹配即可，不需将视频数据的多个图像数据中的图像的特征与多个预设的图像的图像特征(例如动物的图像特征、物体的图像特征等)分别进行匹配，可以减少电子设备100确定出人物的图像在图像中的位置的时间。

在其他实施例中，在电子设备100从视频数据中分离出多种类型的音频后，例如第一类型的第一音频(例如人声的音频)。电子设备100需从视频数据的图像数据中对第一音频对应的发声物体进行跟踪。具体的，电子设备100可以对视频数据的图像数据中的多个图像进行特征提取，并获取到预设的多个类型的图像特征。电子设备100将视频数据的图像数据中的多个图像的图像特征和预设的多个类型的图像特征分别进行匹配，确定出图像中每一个图像的类型，基于图像中每一个图像的位置。之后，电子设备100从图像中每一个图像的类型中确定出第一音频对应的发声物体的图像类型，进而确定出第一音频对应的发声物体的图像在图像上的位置。

还可以通过其他的方式确定出发声物体的图像在图像中的位置，本申请实施例对此不做限定。

在其他实施例中，电子设备100也可以先识别出图像数据中目标发声物体的图像特征，进而确定出目标发声物体的类型以及目标发声物体在图像中的位置。之后，电子设备100再从视频数据的音频数据中基于目标发声物体的类型分离出对应类型的音频。例如，电子设备100首先识别到图像数据中人的图像，以及人在图像中的位置，并确定出人在发声。之后，电子设备100基于目标发声物体的类型为人，从视频数据的音频数据中提取出人输出的音频，并基于人在图像中的位置，将人的音频从对应的声道输出。

电子设备100在获取到图像数据中的图像类型后，电子设备100可以确定出图像数据中的目标发声物体。目标发声物体包括但不仅限于人、动物、物体等。

在视频数据的图像数据中，往往有多个不同的目标发声物体的图像。每一个目标发声物体对应有输出的音频。电子设备100还需将每一个目标发声物体的图像的特征和目标发声物体的输出音频的音频特征一一对应起来，以使得电子设备100可以跟踪目标发声物体的图像在电子设备100上的位置，以及目标发声物体输出的音频的输出位置。

具体的，电子设备100提取出目标发声物体(例如第一目标物体)的图像特征和音频特征，电子设备100基于预设图像的图像特征和第一目标物体的图像特征确定出相似度大于预设值，则电子设备100确定出第一目标物体的图像类型。电子设备100还需基于预设类型音频的音频特征和第一目标物体的音频特征确定出相似度大于预设值，则电子设备100确定出第一目标物体的音频类型，若第一目标物体的图像类型和第一目标物体的音频类型为同一个类型，例如均为人脸图像和人声，则电子设备100将第一目标物体的图像特征的音频特征建立一一绑定关系。之后，电子设备100可以在后续输出的图像数据和音频数据中，对第一目标物体在显示屏上的显示位置进行跟踪，并将第一目标物体的音频在对应的位置输出。若在之后的输出的图像数据和音频数据中，电子设备100识别到新的目标发声物体，新的目标发声物体的音频特征和图像特征与之前的目标发声物体的音频特征均不同，则电子设备100可以确定出出现了新的目标发声物体，电子设备100将新的目标发声物体的音频特征和图像特征建立一一绑定关系。并对新的目标发声物体在显示屏上的显示位置进行跟踪，并将对应的目标发声物体的音频在对应的位置输出。以此类推，电子设备100可以对视频数据中的每一个目标发声物体在显示屏上的位置进行跟踪，并将的每一个目标发声物体的音频在对应的位置输出。

表3

表3示例性输出了电子设备100在播放视频数据时，识别到的目标发声物体和目标发声物体图像特征和音频特征的绑定关系。其中，当目标发声物体为人时，人的图像特征为F1＝[A1，A2，A3，A4，A5，A6……An]，人的音频特征为V1＝[a1，a2，a3，a4，a5，a6……an]，电子设备100将F1和V1建立一一绑定关系。当目标发声物体为动物(犬)时，动物(犬)的图像特征为F2＝[B1，B2，B3，B4，B5，B6……Bn]，动物(犬)的音频特征为V2＝[b1，b2，b3，b4，b5，b6……bn]，电子设备100将F2和V2建立一一绑定关系。当目标发声物体为汽车时，汽车的图像特征为F4＝[D1，D2，D3，D4，D5，D6……Dn]，汽车的音频特征为V5＝[e1，e2，e3，e4，e5，e6……en]，电子设备100将F4和V5建立一一绑定关系。当目标发声物体为飞机时，飞机的图像特征为F3＝[C1，C2，C3，C4，C5，C6……Cn]，汽车的音频特征为V4＝[d1，d2，d3，d4，d5，d6……dn]，电子设备100将F3和V4建立一一绑定关系。当目标发声物体为火车时，火车的图像特征为F5＝[E1，E2，E3，E4，E5，E6……En]，火车的音频特征为V6＝[f1，f2，f3，f4，f5，f6……fn]，电子设备100将F5和V6建立一一绑定关系。

需要说明的是，对于人来说，不同属性的人，图像特征和音频特征不同，例如男生的图像特征和女生的图像特征不同，男生的音频特征和女生的音频特征也不同。这样，电子设备100也可以区分不同属性的人。

电子设备100对目标发声物体的图像在显示屏上的位置进行跟踪，即确定出目标发声物体在显示屏上的位置变化，从而确定出与目标发声物体在显示屏上的位置最近的喇叭，从而将目标发声物体对应的音频从最近的喇叭输出。

接下来介绍电子设备100如何确定出目标发声物体(例如人物1)的图像在显示屏上的位置的。

电子设备100识别到目标发声物体的轮廓，并基于目标发声物体的轮廓确定出目标发声物体在显示屏上的位置。

示例性的，对于人和动物来说，人和动物是基于嘴唇发声的，电子设备100可以基于算法识别到人或动物的头部图像的轮廓。进一步的，电子设备100可以从人或动物的头部图像的轮廓确定出嘴唇的位置，在确定出嘴唇的位置后，电子设备100可以确定出嘴唇位置在电子设备100的显示屏上的位置。

示例性的，对于其他物体来说，例如火车、火车、飞机这些物体，电子设备100可以基于算法识别到物体的轮廓。进一步的，电子设备100基于物体的轮廓确定出物体的轮廓中心点，电子设备100可以将该中心点作为物体的发声部位，在确定出发声部位后，电子设备100可以确定出物体的发声部位在电子设备100的显示屏上的位置。不仅限于将物体的轮廓中心点作为物体的发声部位，电子设备100也可以基于其他的方式确定出物体的发声部位，本申请实施例对此不做限定。

图6-图7示例性示出了如何确定出人物1在显示屏上的位置的示意图。

可选的，以电子设备100的中心点为原点，以水平方向向右为x轴正方向，以垂直于x轴向上的方向为y轴正方向，以垂直与显示屏向内的方向为z轴正方向，建立三维坐标系，确定出人物1在电子设备100的显示屏上的位置。

需要说明的是，电子设备100上的喇叭在电子设备100上的位置是固定的，因此，电子设备100可以获取到电子设备100上的多个喇叭的位置信息。示例性的，本申请实施例以图2介绍的喇叭位置为例说明怎么确定人物1在显示屏上的位置的，但不应构成限定。

如图6所示，假设电子设备100的显示屏的宽度为M，高度为N。喇叭201在第一象限，喇叭201的位置坐标可以表示为A(a，b，0)，其中，a大于0小M，b大于0小于N。喇叭202在第四象限，喇叭202的位置坐标可以表示为B(c，d，0)其中，c大于0小M，d大于-N小于0。喇叭203在第二象限，喇叭203的位置坐标可以表示为C(e，e，0)其中，e大于-M小于0，d大于0小于N。喇叭204在第三象限，喇叭204的位置坐标可以表示为D(g，h，0)其中，g大于-M小于0，h大于-N小于0。喇叭205位于原点，喇叭205的位置坐标可以表示为E(i，j，0)其中，i等于0，j等于0。

如图6所示，第一时刻，电子设备100可以识别出人物1的头部轮廓，并基于人物1的头部轮廓确定出发声部位的坐标(例如嘴唇的坐标)。假设人物1的发声部位的坐标为F1(o，p，q)。示例性的，o大于-M小于0，p大于-N小于0，q大于0。

电子设备100可以基于人物1的发声部位的坐标F1和各个喇叭的位置坐标，可以确定出人物1的发声部位与各个喇叭的距离。

示例性的，电子设备100确定出人物1的发声部位距离与喇叭201之间的距离为r1，电子设备100确定出人物1的发声部位距离与喇叭202之间的距离为r2，电子设备100确定出人物1的发声部位距离与喇叭203之间的距离为r3，电子设备100确定出人物1的发声部位距离与喇叭204之间的距离为r4，电子设备100确定出人物1的发声部位距离与喇叭205之间的距离为r5，且r5<r4<r3<r2<r1，则电子设备100确定出人物1的发声部位距离与喇叭205之间的距离最近，则电子设备100确定出第一时刻人物1对应的音频通过喇叭205输出。

如图7所示，由于人物1是在实时变化的，例如在第二时刻，人物1运动到了图7所示的位置，电子设备100可以识别出人物1的头部轮廓，并基于人物1的头部轮廓确定出发声部位的坐标(例如嘴唇的坐标)。假设人物1的发声部位的坐标为F2(u，v，w)。示例性的，u大于0小于M，v大于0小于N，q大于0。

电子设备100可以基于人物1的发声部位的坐标F2和各个喇叭的位置坐标，可以确定出人物1的发声部位与各个喇叭的距离。

示例性的，电子设备100确定出人物1的发声部位距离与喇叭201之间的距离为r6，电子设备100确定出人物1的发声部位距离与喇叭202之间的距离为r7，电子设备100确定出人物1的发声部位距离与喇叭203之间的距离为r8，电子设备100确定出人物1的发声部位距离与喇叭204之间的距离为r9，电子设备100确定出人物1的发声部位距离与喇叭205之间的距离为r10，且r6<r10<r7<r8<r9，则电子设备100确定出人物1的发声部位距离与喇叭201之间的距离最近，则电子设备100确定出第二时刻人物1对应的音频通过喇叭201输出。

接下来介绍电子设备100如何将目标发声物体的音频通过距离最近的喇叭输出的。

由前述实施例可知，电子设备100在获取到视频数据中的音频数据后，电子设备100会获取到音频数据中预设的声道信息。

表4

表4示例性示出了电子设备获取到音频数据中预设的声道信息和每个声道输出的音频类型。示例性的，预设的声道信息包括左中置声道、右中置声道和中置声道。其中，括左中置声道中输出的是环境音和音乐，右中置声道中输出的也是环境音和音乐，中置声道中输出的是第一目标发声物体的音频，第一目标发声物体的音频为电子设备100从音频数据中提取到的音频，例如第一目标发声物体的音频可以是人发出的音频。也就是说，电子设备100将人发出的音频从默认的中置声道中输出。

表4中示出的预设的声道信息，也可以被称为2D音频信息。2D音频信息即每种类型的音频通过哪个声道输出，是预设好的，电子设备100不能基于目标发声物体在显示屏上的位置的变化，改变目标发声物体的音频输出的声道，用户感觉到目标发声物体的音频从固定的一个位置输出，感觉不到声音在空间的变化。例如第一目标发声物体的音频预设通过中置声道输出，若在电子设备100输出的视频画面中，第一目标发声物体的位置在显示屏上的位置是实时变化的，电子设备100也无法将第一目标发声物体的音频通过左中置声道或者右中置声道输出，用户感觉到第一目标发声物体的音频从固定的一个位置输出，感觉不到声音在空间的变化。

需要说明的是，电子设备100还可以从音频数据中提取到其他更多类型的饮品，例如动物发出的音频、物体发出的音频等，这里以人发出的音频为例进行说明，不应构成限定。

之后，电子设备100在提取出音频数据中的一种或多种类型的音频后，例如第一目标发声物体的音频，在第一时刻，第一目标发声物体即将输出的音频为第一音频，在电子设备100确定出第一目标发声物体在显示屏上的位置后，电子设备100确定出与第一目标发声物体最近的第一喇叭，电子设备100可以基于第一喇叭确定出第一喇叭对应的第一声道标识。

之后，电子设备100将第一音频加载到对应的第一声道中。首先，电子设备100会判断出第一声道是否连接有音箱，若第一声道没有连接音箱，则电子设备100将第一音频通过第一声道对应的第一喇叭输出。若第一声道有连接音箱，则电子设备100将第一音频通过第一声道对应的第一音箱输出。示例性的第一声道可以是左后置声道。

在电子设备100输出第一音频的同时，电子设备100将其他的音频(例如背景声、音乐声)等通过预设的声道中输出。

表5

声道信息	声道输出的音频类型
		左中置声道	环境音+音乐
右中置声道	环境音+音乐
		中置声道
左后置声道	第一音频

表5示例性示出了在第一时刻，电子设备100基于第一目标发声物体在显示屏上的位置，将第一音频从距离最近的第一喇叭对应的左后置声道输出。

其中，电子设备100还是将环境音和音乐通过预设的左中置声道和右中置声道输出。在第一时刻，第一目标发声物体距离第一喇叭的最近，则电子设备100可以将第一音频通过第一喇叭对应的左后置声道输出，此时电子设备100不再将第一音频通过预设的中置声道输出。

在一些实施例中，在第一时刻，电子设备100将目标发声物体的音频通过第一喇叭输出后。电子设备100在第三时刻，监测到有目标发声物体的音频输出，但是电子设备100没有在图像数据中监测到目标发声物体的图像。在一种可能的实现方式中，电子设备100可以将该目标发声物体的音频依然通过第一喇叭输出，若连续一定时间或者一定图像帧之后，电子设备100均没有在图像数据中监测到目标发声物体的图像，则电子设备100可以将该目标发声物体的音频通过预设的声道输出，例如预设的声道可以是中置声道。在其他可能的实现方式中，电子设备100可以直接将目标发声物体的音频通过预设的声道输出，例如预设的声道可以是中置声道。

在一些实施例中，在第一时刻，若电子设备100识别到的目标发声物体的个数大于阈值(例如5个)，则电子设备100将该多个目标发声物体的音频从预设的声道中输出，不在基于多个目标发声物体在显示屏上的位置将多个目标发声物体的音频从距离最近的喇叭或者音箱输出。

之后，在第二时刻，第一目标发声物体即将输出的音频为第二音频，在电子设备100确定出第一目标发声物体在显示屏上的位置后，电子设备100确定出与第一目标发声物体最近的第二喇叭，电子设备100可以基于第二喇叭确定出第二喇叭对应的第二声道标识。

之后，电子设备100将第二音频加载到对应的第二声道中。首先，电子设备100会判断出第二声道是否连接有音箱，若第二声道没有连接音箱，则电子设备100将第二音频通过第二声道对应的第二喇叭输出。若第二声道有连接音箱，则电子设备100将第二音频通过第二声道对应的第二音箱输出。示例性的第二声道可以是右前置声道。

在电子设备100输出第二音频的同时，电子设备100将其他的音频(例如背景声、音乐声)等通过预设的声道中输出。

表6

声道信息	声道输出的音频类型
		左中置声道	环境音+音乐
右中置声道	环境音+音乐
		中置声道
左后置声道
		右前置声道	第二音频

表6示例性示出了在第二时刻，电子设备100基于第一目标发声物体在显示屏上的位置，将第二音频从距离最近的第二喇叭对应的左后置声道输出。

其中，电子设备100还是将环境音和音乐通过预设的左中置声道和右中置声道输出。在第二时刻，第一目标发声物体距离第二喇叭的最近，则电子设备100可以将第二音频通过第二喇叭对应的右前置声道输出，此时电子设备100不再将第二音频通过预设的中置声道或者通过左后置声道输出。

表5和表6中示出的音频输出的声道信息，也可以被称为3D音频信息。3D音频信息即某些类型的音频通过哪个声道输出，是可以实时变化的，电子设备100可以基于目标发声物体在显示屏上的位置的变化，改变目标发声物体的音频输出的声道，用户感觉到目标发声物体的音频从不同的位置输出，感觉、声音在空间的变化。例如表5所示的第一目标发声物体输出的第一音频通过左后置声道输出，表6所示的第一目标发声物体输出的第二音频通过右前置声道输出。也就是说，随着第一目标发声物体的位置在显示屏上的位置的实时变化，电子设备100可以改变第一目标发声物体输出的音频的位置，用户感觉到第一目标发声物体的音频从不同的位置输出，感觉到声音在空间的变化。

接下来结合具体的场景介绍电子设备100如何基于目标发声物体的位置改变而改变目标发声物体的音频输出位置的。

图8A-图8C示例性示出了电子设备100基于目标发声物体(例如火车)的位置改变而通过不同的喇叭输出目标发声物体的音频的示意图。

如图8A所示，在第一时刻，电子设备100识别出目标发声物体在显示屏上的位置，并确定出目标发声物体距离喇叭201的距离是最近的，且电子设备100没有外接音频输出设备(例如音箱)。那么电子设备100将第一时刻目标发声物体输出的第一音频通过喇叭201输出。

可选的，在第一时刻，电子设备100可以通过喇叭201、喇叭202、喇叭203、喇叭204和喇叭205同时输出第一音频。但是喇叭201、喇叭202、喇叭203、喇叭204和喇叭205输出的音量不同，可以基于目标发声物体与喇叭的距离由近到远，喇叭输出的音量逐渐减小。例如喇叭201的音量大于喇叭202、喇叭203、喇叭204和喇叭205输出的音量。

如图8B所示，在第二时刻，电子设备100识别出目标发声物体在显示屏上的位置，并确定出目标发声物体距离喇叭205的距离是最近的，且电子设备100没有外接音频输出设备(例如音箱)。那么电子设备100将第二时刻目标发声物体输出的第二音频通过喇叭205输出，第二时刻大于第一时刻。

可选的，在第二时刻，电子设备100可以通过喇叭201、喇叭202、喇叭203、喇叭204和喇叭205同时输出第一音频。但是喇叭201、喇叭202、喇叭203、喇叭204和喇叭205输出的音量不同，可以基于目标发声物体与喇叭的距离由近到远，喇叭输出的音量逐渐减小。例如喇叭205的音量大于喇叭202、喇叭203、喇叭204和喇叭201输出的音量。

如图8C所示，在第三时刻，电子设备100识别出目标发声物体在显示屏上的位置，并确定出目标发声物体距离喇叭204的距离是最近的，且电子设备100没有外接音频输出设备(例如音箱)。那么电子设备100将第撒时刻目标发声物体输出的第三音频通过喇叭204输出，第三时刻大于第二时刻。

可选的，在第三时刻，电子设备100可以通过喇叭201、喇叭202、喇叭203、喇叭204和喇叭205同时输出第一音频。但是喇叭201、喇叭202、喇叭203、喇叭204和喇叭205输出的音量不同，可以基于目标发声物体与喇叭的距离由近到远，喇叭输出的音量逐渐减小。例如喇叭204的音量大于喇叭202、喇叭203、喇叭201和喇叭205输出的音量。

这样，从图8A-图8C可以看出，随着目标发声物体在显示屏上的位置的改变，电子设备100可以通过不同的喇叭输出目标发声物体输出的音频，做到“音画合一”，提高了用户的观影体验。

图9A-图9C示例性示出了电子设备100基于目标发声物体(例如火车)的位置改变而通过不同的音箱输出目标发声物体的音频的示意图。

如图9A所示，在第一时刻，电子设备100识别出目标发声物体在显示屏上的位置，并确定出目标发声物体距离喇叭201的距离是最近的，喇叭201对应第一声道(例如左前声道)。但是电子设备100监测到左前声道连接有音箱213，那么电子设备100将第一时刻目标发声物体输出的第一音频通过音箱213输出。

可选的，在第一时刻，电子设备100可以通过音箱213、音箱214、音箱215、音箱216和音箱217同时输出第一音频。但是音箱213、音箱214、音箱215、音箱216和音箱217输出的音量不同，可以基于目标发声物体与音箱的距离由近到远，音箱输出的音量逐渐减小。例如音箱213的音量大于音箱214、音箱215、音箱216和音箱217输出的音量。

如图9B所示，在第二时刻，电子设备100识别出目标发声物体在显示屏上的位置，并确定出目标发声物体距离喇叭205的距离是最近的，喇叭205对应第二声道(例如中置声道)。但是电子设备100监测到中置声道连接有音箱215，那么电子设备100将第二时刻目标发声物体输出的第二音频通过音箱215输出，第二时刻大于第一时刻。

可选的，在第二时刻，电子设备100可以通过音箱213、音箱214、音箱215、音箱216和音箱217同时输出第一音频。但是音箱213、音箱214、音箱215、音箱216和音箱217输出的音量不同，可以基于目标发声物体与音箱的距离由近到远，音箱输出的音量逐渐减小。例如音箱215的音量大于音箱214、音箱213、音箱216和音箱217输出的音量。

如图9C所示，在第三时刻，电子设备100识别出目标发声物体在显示屏上的位置，并确定出目标发声物体距离喇叭204的距离是最近的，喇叭204对应第三声道(例如左后声道)。但是电子设备100监测到左后声道连接有音箱217，那么电子设备100将第三时刻目标发声物体输出的第三音频通过音箱217输出，第三时刻大于第二时刻。

可选的，在第一时刻，电子设备100可以通过音箱213、音箱214、音箱215、音箱216和音箱217同时输出第一音频。但是音箱213、音箱214、音箱215、音箱216和音箱217输出的音量不同，可以基于目标发声物体与音箱的距离由近到远，音箱输出的音量逐渐减小。例如音箱217的音量大于音箱214、音箱215、音箱216和音箱213输出的音量。

这样，从图9A-图9C可以看出，随着目标发声物体在显示屏上的位置的改变，电子设备100可以通过不同的音箱输出目标发声物体输出的音频，一方面，通过音箱输出音频，可以提高音频输出的音质，另一方面，做到了“音画合一”，提高了用户的观影体验。

本申请实施例提供的一种音频输出方法，可以使得电子设备100播放的视频数据中，显示屏上显示的目标发声物体的位置改变后，目标发声物体输出的音频的位置也在改变，实现“音画合一”的效果。本申请实施例可以适用于有视频输出的场景，例如数字电视(digital television，DTV)直播场景、华为视频点播场景、本地视频播放场景等。

本申请以下实施例以电子设备100在播放视频的情况下，接收用户操作，实现“音画合一”效果的具体实现。

图10A-图10C示例性示出了电子设备100接收用户操作使得电子设备100实现“音画合一”效果的示意图。

如图10A所示，电子设备100接收用户操作显示用户界面1001，用户界面1001示例性示出了一个或多个频道选项。例如我家频道选项、首页选项、VIP选项、电视剧选项、电影频道选项、动画频道选项、少儿频道选项、游戏频道选项等。用户界面1001显示的是电视剧选项下一个或多个推荐视频，例如推荐视频1002。

如图10A所示，电子设备100通过遥控器接收用户针对推荐视频1002的输入操作，响应于用户的输入操作，电子设备100显示如图10B所示的用户界面1003。

用户界面1003示例性示出了推荐视频1002的内容，包括但不仅限于推荐视频1002的视频内容、推荐视频1002的名称(例如勇敢的跨步)、多个功能控件，多个功能控件可以是例如前进控件、后退控件、下一集控件、进度条等，多个功能控件还可以是倍速选择控件、高清控件和3D音效控件1004等。

如图10B所示，电子设备100通过遥控器可以接收用户针对3D音效控件1004的输入操作，响应于用户的输入操作，电子设备100可以显示如图10C所示的提示信息1005，提示信息1005的内容包括“请稍后，正在为您切换3D音效...”。提示信息1005用于提示用户正在切换至3D音效。

在电子设备100切换至至3D音效之后，电子设备100将基于前述实施例介绍的方法，对“勇敢地跨步”中目标发声物体在显示屏上的位置进行跟踪。并在目标发声物体在显示屏上的位置发生变化之后，改变目标发声物体的音频输出的位置，实现“音画合一”，让用户感觉到电子输出音频的位置在实时变化，让用户感觉到是3D音效，提升用户的听觉体验。

图11为本申请实施例提供的一种音频播放方法的流程示意图。

S1101、电子设备开始播放第一视频片段，第一视频片段的画面中包括第一发声目标。

S1102、电子设备从第一视频片段的音频数据中获取到第一发声目标输出的第一音频，在第一时刻，在电子设备确定出第一发声目标在第一视频片段的画面中的位置为第一位置的情况下，电子设备通过第一扬声器输出第一音频。

S1103、电子设备从第一视频片段的音频数据中获取到第一发声目标输出的第二音频；在第二时刻，在电子设备确定出第一发声目标在第一视频片段的画面中的位置为第二位置的情况下，电子设备通过第二扬声器输出第二音频。

第一发声目标可以是图8A所示的目标发声物体。

第一扬声器可以是图8A所示的喇叭201，第二扬声器可以是图8B所示的喇叭205。

第一音频可以是图8A所示的喇叭201输出的音频，第二音频可以是图8B所示的喇叭205输出的音频。

第一位置可以是图8A所示的目标发声物体在图像中的位置。

第二位置可以是图8B所示的目标发声物体在图像中的位置。

其中，第一时刻与第二时刻不同，第一位置和第二位置不同，第一扬声器与第二扬声器不同。

本申请实施例提供的一种音频播放方法，应用于包括多个扬声器的电子设备，多个扬声器包括第一扬声器和第二扬声器。

通过本申请实施例提供的一种音频播放方法，电子设备可以基于图像帧中目标发声物体相对于电子设备上的各个喇叭的相对距离，改变中目标发声物体的发声位置。使得视频中目标发声物体的发声位置随着目标发声物体在屏幕上的显示位置的改变而改变，实现“音画合一”，提高用户的观影体验。

在一种可能的实现方式中，在电子设备确定出第一发声目标在第一视频片段的画面中的位置为第一位置的情况下，电子设备通过第一扬声器输出第一音频，具体包括：在电子设备确定出第一发声目标在第一视频片段的画面中的第一位置与第一扬声器的距离小于第一发声目标在第一视频片段的画面中的第一位置与第二扬声器的距离的情况下，电子设备通过第一扬声器输出第一音频；在电子设备确定出第一发声目标在第一视频片段的画面中的位置为第二位置的情况下，电子设备通过第二扬声器输出第二音频,具体包括：在电子设备确定出第一发声目标在第一视频片段的画面中的第一位置与第二扬声器的距离小于第一发声目标在第一视频片段的画面中的第一位置与第一扬声器的距离的情况下，电子设备通过第二扬声器输出第二音频。这样，电子设备确定出第一发声目标在第一视频片段的画面中的位置为第一位置后，进一步确定出与第一位置距离最近的扬声器，将第一发声目标在对应时刻输出的音频通过距离最近的扬声器输出，实现了目标发声物体的发声位置随着目标发声物体在屏幕上的显示位置的改变而改变。

具体的，可以参考图8A-图8C中的相关描述，本申请实施例在此不再赘述。

在一种可能的实现方式中，在电子设备确定出第一发声目标在第一视频片段的画面中的位置为第一位置的情况下，电子设备通过第一扬声器输出第一音频，具体包括：在电子设备确定出第一发声目标在第一视频片段的画面中的第一位置与第一扬声器的距离小于第一发声目标在第一视频片段的画面中的第一位置与第二扬声器的距离的情况下，电子设备通过第一扬声器以第一音量值输出第一音频和通过第二扬声器以第二音量值输出第一音频，其中，第一音量值大于第二音量值；在电子设备确定出第一发声目标在第一视频片段的画面中的位置为第二位置的情况下，电子设备通过第二扬声器输出第二音频,具体包括：在电子设备确定出第一发声目标在第一视频片段的画面中的第一位置与第二扬声器的距离小于第一发声目标在第一视频片段的画面中的第一位置与第一扬声器的距离的情况下，电子设备通过第二扬声器以第三音量值输出第一音频和通过第一扬声器以第四音量值输出第一音频，其中，第三音量值大于第四音量值。这样，电子设备确定出第一发声目标在第一视频片段的画面中的位置为第一位置后，进一步确定出各个扬声器与第一位置的距离，随着距离远近的不同，每个扬声器输出的音量大小不同，即各个扬声器可以同时发声。距离越近，扬声器输出的音量越大，距离越远，扬声器输出的音量越小。

在一种可能的实现方式中，第一视频片段的画面中包括第二发声目标，方法还包括：电子设备从第一视频片段的音频数据中提取出第二发声目标输出的第三音频；在第三时刻，在电子设备确定出第二发声目标在第一视频片段的画面中的位置为第三位置的情况下，电子设备通过第一扬声器输出第三音频；电子设备从第一视频片段的音频数据中提取出第二发声目标输出的第四音频；在第四时刻，在电子设备确定出第二发声目标在第一视频片段的画面中的位置为第四位置的情况下，电子设备通过第二扬声器输出第四音频；其中，第三时刻与第四时刻不同，第三位置和第四位置不同。这样，电子设备可以同时监测多个发声目标与各个扬声器的位置，改变多个发声目标的发声位置。

在一种可能的实现方式中，多个扬声器还包括第三扬声器；在电子设备通过第一扬声器输出第一音频之后，方法还包括；在电子设备在第一视频片段的画面中超过第一时间或者图像帧数量超过第一数量没有监测到第一发声目标的位置的情况下，电子设备将第一发声目标的音频通过第三扬声器输出。这样，在电子设备仅监测到第一发声目标的音频，但是没有在图像数据中监测到第一发声目标的图像位置，则电子设备将第一发声目标的音频通过预设的扬声器输出。

在一种可能的实现方式中，在电子设备确定出第一发声目标在第一视频片段的画面中的第一位置与第一扬声器的距离小于第一发声目标在第一视频片段的画面中的第一位置与第二扬声器的距离的情况下，电子设备通过第一扬声器输出第一音频，具体包括：电子设备获取到第一扬声器的位置信息和第二扬声器的位置信息；电子设备基于第一发声目标在第一视频片段的画面中的第一位置、第一扬声器的位置信息和第二扬声器的位置信息，确定出第一发声目标在第一视频片段的画面中的第一位置与第一扬声器的距离小于第一发声目标在第一视频片段的画面中的第一位置与第二扬声器的距离。这样，电子设备上每个扬声器的位置是固定的，电子设备可以基于每个扬声器的位置和第一发声目标画面中的位置，确定出第一发声目标与各个扬声器的距离。

具体的，对于怎么确定出第一发声目标与各个扬声器的距离的，可以参考图6和图7中的相关描述，本申请实施例在此不再赘述。

在一种可能的实现方式中，电子设备从第一视频片段的音频数据中获取到第一发声目标输出的第一音频，具体包括：电子设备基于预设的多种类型的音频特征，从第一视频片段的音频数据中获取到多种类型的音频；电子设备从多种类型的音频确定出第一发声目标输出的第一音频。这样，电子设备可以基于预设的多种类型的音频特征，计算音频数据中种类型的音频与预设的多种类型的音频特征的相似度，进而确定出述第一发声目标输出的第一音频。

具体，可以参考表1部分的相关描述，本申请实施例在此不再赘述。

在一种可能的实现方式中，电子设备确定出第一发声目标在第一视频片段的画面中的位置为第一位置，具体包括：电子设备基于预设的多种类型的图像特征，从第一视频片段的画面中识别到第一发声目标对应的第一目标图像；电子设备基于第一目标图像在第一视频片段的画面中的显示区域确定出第一发声目标在第一视频片段的画面中的位置为第一位置。这样，在电子设备确定出可以基于预设的多种类型的图像特征，确定出第一发声目标对应的第一目标图像的图像特征，进而确定出第一目标图像在第一视频片段的画面中的位置。

具体，可以参考表2部分的相关描述，本申请实施例在此不再赘述。

在一种可能的实现方式中，多个扬声器包括第四扬声器；在电子设备输出第一音频之前，方法还包括：电子设备从第一视频片段的音频数据中获取到预设的声道信息，预设的声道信息包括从第四扬声器中输出第一音频和第一背景音；在电子设备确定出第一发声目标在第一视频片段的画面中的位置为第一位置的情况下，电子设备通过第一扬声器输出第一音频，具体包括：在电子设备确定出第一发声目标在第一视频片段的画面中的位置为第一位置的情况下，电子设备通过第一扬声器输出第一音频，通过第四扬声器输出第一背景音。这样，电子设备可以在确定出第一发声目标在第一视频片段的画面中的位置为第一位置的情况下，将第一音频渲染至第一扬声器，通过第一扬声器输出第一音频，将其他的音频，例如背景音、音乐声等通过预设的扬声器输出。

对于电子设备怎么将第一音频渲染至第一扬声器的，可以参考表4、表5和表6部分的相关描述，本申请实施例在此不再赘述。

在一种可能的实现方式中，述电子设备上多个扬声器的位置信息不同。这样，才能实现目标发声物体的发声位置随着目标发声物体在屏幕上的显示位置的改变而改变。

在一种可能的实现方式中，第一发声目标的类型为以下任意一种：人、动物、物体、景观。

在一种可能的实现方式中，第一音频的类型为以下任意一种：人声、动物声、环境声、音乐声、物体声。

S1201、电子设备开始播放第一视频片段，第一视频片段的画面中包括第一发声目标。

S1202、电子设备从第一视频片段的音频数据中获取到第一发声目标输出的第一音频，在第一时刻，在电子设备确定出第一发声目标在第一视频片段的画面中的位置为第一位置的情况下，电子设备通过第一音频输出设备输出第一音频。

S1203、电子设备从第一视频片段的音频数据中获取到第一发声目标输出的第二音频；在第二时刻，在电子设备确定出第一发声目标在第一视频片段的画面中的位置为第二位置的情况下，电子设备通过第二音频输出设备输出第二音频。

第一发声目标可以是图9A所示的目标发声物体。

第一音频输出设备可以是图9A所示的音箱213，第二音频输出设备可以是图9B所示的音箱215。

第一音频可以是图9A所示的音箱213输出的音频，第二音频可以是图9B所示的音箱215输出的音频。

第一位置可以是图9A所示的目标发声物体在图像中的位置。

第二位置可以是图9B所示的目标发声物体在图像中的位置。

其中，第一时刻与第二时刻不同，第一位置和第二位置不同，第一音频输出设备与第二音频输出设备不同。

若电子设备100上安装有扬声器，电子设备100可以获取到各个扬声器在电子设备100上的位置信息，并基于各个扬声器在电子设备100上的位置信息和第一发声目标在第一视频片段的画面中的位置，确定出第一发声目标与各个扬声器的距离。之后，电子设备100获取到各个扬声器对应的声道信息。若声道上连接的有音频输出设备(例如音箱)，则电子设备100将该声道上输出的音频通过该音频输出设备输出。若声道上连接的没有音频输出设备(例如音箱)，则电子设备100将该声道上输出的音频通过对应的扬声器输出。

若电子设备100上没有扬声器，例如投影仪来说，电子设备100无法获取到各个扬声器在电子设备100上的位置信息，但是电子设备100上连接有音频输出设备，电子设备100可以确定出连接的音频输出设备的位置信息，例如在空间中的位置。之后，电子设备100基于音频输出设备的位置信息和第一发声目标在第一视频片段的画面中的位置，确定出第一发声目标与各个音频输出设备的距离。之后，基于第一发声目标与各个音频输出设备的距离，将第一发声目标的音频通过对应的音频输出设备输出。

在一种可能的实现方式中，第一音频输出设备的类型为以下任意一种：音箱、耳机、功放机、多媒体控制台、声卡。

需要说明的是，图11所示的方法流程中提供的多种可能的实现方式，也可以应用与图12所示的方法流程中，本申请实施例在此不再赘述。

本申请的各实施方式可以任意进行组合，以实现不同的技术效果。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本申请所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘(solidstate disk，SSD))等。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，该流程可以由计算机程序来指令相关的硬件完成，该程序可存储于计算机可读取存储介质中，该程序在执行时，可包括如上述各方法实施例的流程。而前述的存储介质包括：ROM或随机存储记忆体RAM、磁碟或者光盘等各种可存储程序代码的介质。

总之，以上所述仅为本发明技术方案的实施例而已，并非用于限定本发明的保护范围。凡根据本发明的揭露，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种音频播放方法，应用于包括多个扬声器的电子设备，所述多个扬声器包括第一扬声器和第二扬声器，其特征在于，所述方法包括：

所述电子设备开始播放第一视频片段，所述第一视频片段的画面中包括第一发声目标；

所述电子设备从所述第一视频片段的音频数据中获取到所述第一发声目标输出的第一音频；

在第一时刻，在所述电子设备确定出所述第一发声目标在所述第一视频片段的画面中的位置为第一位置的情况下，所述电子设备通过所述第一扬声器输出所述第一音频；

所述电子设备从所述第一视频片段的音频数据中获取到所述第一发声目标输出的第二音频；

在第二时刻，在所述电子设备确定出所述第一发声目标在所述第一视频片段的画面中的位置为第二位置的情况下，所述电子设备通过所述第二扬声器输出所述第二音频；

其中，所述第一时刻与第二时刻不同，所述第一位置和所述第二位置不同，所述第一扬声器与所述第二扬声器不同。

2.根据权利要求1所述的方法，其特征在于，所述在所述电子设备确定出所述第一发声目标在所述第一视频片段的画面中的位置为第一位置的情况下，所述电子设备通过所述第一扬声器输出所述第一音频，具体包括：

在所述电子设备确定出所述第一发声目标在所述第一视频片段的画面中的所述第一位置与所述第一扬声器的距离小于所述第一发声目标在所述第一视频片段的画面中的所述第一位置与所述第二扬声器的距离的情况下，所述电子设备通过所述第一扬声器输出所述第一音频；

所述在所述电子设备确定出所述第一发声目标在所述第一视频片段的画面中的位置为第二位置的情况下，所述电子设备通过所述第二扬声器输出所述第二音频,具体包括：

在所述电子设备确定出所述第一发声目标在所述第一视频片段的画面中的所述第一位置与所述第二扬声器的距离小于所述第一发声目标在所述第一视频片段的画面中的所述第一位置与所述第一扬声器的距离的情况下，所述电子设备通过所述第二扬声器输出所述第二音频。

3.根据权利要求1所述的方法，其特征在于，所述在所述电子设备确定出所述第一发声目标在所述第一视频片段的画面中的位置为第一位置的情况下，所述电子设备通过所述第一扬声器输出所述第一音频，具体包括：

在所述电子设备确定出所述第一发声目标在所述第一视频片段的画面中的所述第一位置与所述第一扬声器的距离小于所述第一发声目标在所述第一视频片段的画面中的所述第一位置与所述第二扬声器的距离的情况下，所述电子设备通过所述第一扬声器以第一音量值输出所述第一音频和通过所述第二扬声器以第二音量值输出所述第一音频，其中，所述第一音量值大于所述第二音量值；

在所述电子设备确定出所述第一发声目标在所述第一视频片段的画面中的所述第一位置与所述第二扬声器的距离小于所述第一发声目标在所述第一视频片段的画面中的所述第一位置与所述第一扬声器的距离的情况下，所述电子设备通过所述第二扬声器以第三音量值输出所述第一音频和通过所述第一扬声器以第四音量值输出所述第一音频，其中，所述第三音量值大于所述第四音量值。

4.根据权利要求1所述的方法，其特征在于，所述第一视频片段的画面中包括第二发声目标，所述方法还包括：

所述电子设备从所述第一视频片段的音频数据中提取出所述第二发声目标输出的第三音频；

在第三时刻，在所述电子设备确定出所述第二发声目标在所述第一视频片段的画面中的位置为第三位置的情况下，所述电子设备通过所述第一扬声器输出所述第三音频；

所述电子设备从所述第一视频片段的音频数据中提取出所述第二发声目标输出的第四音频；

在第四时刻，在所述电子设备确定出所述第二发声目标在所述第一视频片段的画面中的位置为第四位置的情况下，所述电子设备通过所述第二扬声器输出所述第四音频；

其中，所述第三时刻与第四时刻不同，所述第三位置和所述第四位置不同。

5.根据权利要求1-4任一项所述的方法，其特征在于，所述多个扬声器还包括第三扬声器；在所述电子设备通过所述第一扬声器输出所述第一音频之后，所述方法还包括；

在所述电子设备在所述第一视频片段的画面中超过第一时间或者图像帧数量超过第一数量没有监测到所述第一发声目标的位置的情况下，所述电子设备将所述第一发声目标的音频通过第三扬声器输出。

6.根据权利要求5所述的方法，其特征在于，所述第三扬声器与所述第一扬声器和所述第二扬声器不同。

7.根据权利要求2所述的方法，其特征在于，在所述电子设备确定出所述第一发声目标在所述第一视频片段的画面中的所述第一位置与所述第一扬声器的距离小于所述第一发声目标在所述第一视频片段的画面中的所述第一位置与所述第二扬声器的距离的情况下，所述电子设备通过所述第一扬声器输出所述第一音频，具体包括：

所述电子设备获取到所述第一扬声器的位置信息和所述第二扬声器的位置信息；

所述电子设备基于所述第一发声目标在所述第一视频片段的画面中的所述第一位置、所述第一扬声器的位置信息和所述第二扬声器的位置信息，确定出所述第一发声目标在所述第一视频片段的画面中的所述第一位置与所述第一扬声器的距离小于所述第一发声目标在所述第一视频片段的画面中的所述第一位置与所述第二扬声器的距离。

8.根据权利要求1-7任一项所述的方法，其特征在于，所述电子设备从所述第一视频片段的音频数据中获取到所述第一发声目标输出的第一音频，具体包括：

所述电子设备基于预设的多种类型的音频特征，从所述第一视频片段的音频数据中获取到多种类型的音频；

所述电子设备从所述多种类型的音频确定出所述第一发声目标输出的所述第一音频。

9.根据权利要求1-8任一项所述的方法，其特征在于，所述电子设备确定出所述第一发声目标在所述第一视频片段的画面中的位置为第一位置，具体包括：

所述电子设备基于预设的多种类型的图像特征，从所述第一视频片段的画面中识别到所述第一发声目标对应的第一目标图像；

所述电子设备基于所述第一目标图像在所述第一视频片段的画面中的显示区域确定出所述第一发声目标在所述第一视频片段的画面中的位置为所述第一位置。

10.根据权利要求1-9任一项所述的方法，其特征在于，所述多个扬声器包括第四扬声器；在所述电子设备输出所述第一音频之前，所述方法还包括：

所述电子设备从所述第一视频片段的音频数据中获取到预设的声道信息，所述预设的声道信息包括从第四扬声器中输出所述第一音频和第一背景音；

在所述电子设备确定出所述第一发声目标在所述第一视频片段的画面中的位置为第一位置的情况下，所述电子设备通过所述第一扬声器输出所述第一音频，具体包括：

在所述电子设备确定出所述第一发声目标在所述第一视频片段的画面中的位置为第一位置的情况下，所述电子设备通过所述第一扬声器输出所述第一音频，通过所述第四扬声器输出所述第一背景音。

11.根据权利要求1-10任一项所述的方法，其特征在于，所述电子设备上多个扬声器的位置信息不同。

12.根据权利要求1-11任一项所述的方法，其特征在于，所述第一发声目标的类型为以下任意一种：人、动物、物体、景观。

13.根据权利要求1-12任一项所述的方法，其特征在于，所述第一音频的类型为以下任意一种：人声、动物声、环境声、音乐声、物体声。

14.一种音频播放方法，其特征在于，所述方法包括：

在第一时刻，在所述电子设备确定出所述第一发声目标在所述第一视频片段的画面中的位置为第一位置的情况下，所述电子设备通过第一音频输出设备输出所述第一音频；

在第二时刻，在所述电子设备确定出所述第一发声目标在所述第一视频片段的画面中的位置为第二位置的情况下，所述电子设备通过第二音频输出设备输出所述第二音频；

其中，所述第一时刻与第二时刻不同，所述第一位置和所述第二位置不同，所述第一音频输出设备与所述第二音频输出设备不同。

15.根据权利要求14所述的方法，其特征在于，所述第一音频输出设备的类型为以下任意一种：音箱、耳机、功放机、多媒体控制台、声卡。

16.一种电子设备，其特征在于，所述电子设备包括：一个或多个处理器、一个或多个存储器；其中，所述一个或多个存储器与所述一个或多个处理器耦合，所述一个或多个存储器用于存储计算机程序代码，所述计算机程序代码包括计算机指令，所述一个或多个处理器调用所述计算机指令以使得所述电子设备执行上述权利要求1-13，14-15任一项所述的方法。

17.一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当所述指令在电子设备上运行时，使得所述电子设备执行如权利要求1-13，14-15任一项所述的方法。

18.一种计算机程序产品，其特征在于，当所述计算机程序产品被电子设备执行时，使得所述电子设备执行如权利要求1-13，14-15任一项所述的方法。

19.一种芯片或芯片系统，其特征在于，包括处理电路和接口电路，所述接口电路用于接收代码指令并传输至所述处理电路，所述处理电路用于运行所述代码指令以执行如权利要求1-13，14-15任一项所述的方法。