CN106569773A

CN106569773A - 一种终端和语音交互的处理方法

Info

Publication number: CN106569773A
Application number: CN201610978488.4A
Authority: CN
Inventors: 谭超文; 邱情
Original assignee: Nubia Technology Co Ltd
Current assignee: Nubia Technology Co Ltd
Priority date: 2016-10-31
Filing date: 2016-10-31
Publication date: 2017-04-19

Abstract

本发明公开了一种终端和语音交互的处理方法，本发明的终端中至少设置有三个麦克风模块，对同一说话者的声音进行采集，采用本发明，可以根据各麦克风的位置和各语音信号的属性信息进行差异分析，确定说话者相对于终端的距离；并根据距离的变化相应控制录入音频的录音增益，其中，该录入音频由上述各语音信号经过处理得到，可以预见，在本发明中，即使用户与终端的相对位置一直变化，终端对用户的语音进行采集后，向语音交互的另一方发送的音频中，该说话者的声音是平稳的，不会出现现有技术中，说话者语音忽大忽小的问题，提升了用户的听觉感受和用户体验。

Description

一种终端和语音交互的处理方法

技术领域

本发明涉及通信技术领域，更具体地说，涉及一种终端和语音交互的处理方法。

背景技术

目前，语音交互的数据功能已经在很多终端进行了实现，例如手机、车载、机器人、智能手表等等终端。

在现有技术中，终端上的麦克风对说话者的声音进行录制，然后传输给通话另一方，若在说话者说话的过程中，说话者与终端的距离发生变化，终端录制的声音起伏变化较大，声音出现忽大忽小的情况，并且，终端发送给通话另一方的声音就是录制的原音，所以通信另一方听到的说话者声音是忽大忽小的。并且，由于说话者在移动，说话者听到的终端发出的声音也是忽大忽小的，这明显会造成用户的听觉障碍，虽然可能不影响用户对语音的识别和判断，但是这种忽大忽小的语音明显降低了用户语音交互的体验。

发明内容

本发明要解决的技术问题在于现有技术中，在语音交互时，用户相对于终端移动时，语音交互另一方听到的说话者声音忽大忽小的问题，针对该技术问题，提供一种终端和语音交互的处理方法。

为解决上述技术问题，本发明提供一种终端，包括：

至少三个麦克风模块，用于对同一说话者的声音进行采集，将采集到的语音信号输入处理器模块；

处理器模块，用于在接收到语音信号后，根据各麦克风的位置和各语音信号的属性信息进行差异分析，确定说话者相对于终端的距离；根据距离的变化相应控制录入音频的录音增益，录入音频由各语音信号经过处理得到。

进一步地，还包括放音模块；

处理器模块，还用于在放音模块放音时，根据说话者相对于终端的距离的变化相应调节放音增益，控制放音模块按照放音增益放音；

放音模块，用于在放音过程中，在处理器模块的控制下按照放音增益放音。

进一步地，还包括转向控制模块；

处理器模块，还用于在接收到语音信号后，根据各麦克风的位置和各语音信号的属性信息进行差异分析，确定说话者相对于终端的方位；

转向控制模块，用于根据方位控制放音模块向说话者的方向转动。

进一步地，处理模块，还用于在确定说话者相对于终端的距离和方位后，根据在最近的预设时间段内说话者相对于终端的方位变化和距离变化，确定说话者的速度变量；根据说话者的最近N(N>1,N为正整数)次声音输入的时间间隔预判说话者下一次声音输入的时间；根据时间和速度变量预判说话者下一次声音输入时相对于终端的距离和方位；根据预判的距离控制说话者在下一次声音输入时，对应的放音增益和录音增益；

转向控制模块,还用于根据预判的方位控制放音模块在说话者下一次声音输入时向说话者的方向转动。

进一步地，各语音信号的属性信息包括：各语音信号到达麦克风的时间差、录入电平、相位差。

为解决上述技术问题，本发明还提供了语音交互的处理方法，包括：

接收至少三个麦克风对同一说话者的声音进行采集，得到的至少三个语音信号；

根据各麦克风的位置和各语音信号的属性信息进行差异分析，确定说话者相对于终端的距离；

根据距离的变化相应控制录入音频的录音增益，录入音频由各语音信号经过处理得到。

进一步地，在确定说话者相对于终端的距离后，还包括：

根据说话者相对于终端的距离的变化相应调节放音增益；

按照放音增益放音。

进一步地，在接收到语音信号后，还包括：

根据各麦克风的位置和各语音信号的属性信息进行差异分析，确定说话者相对于终端的方位；

根据方位控制放音模块向说话者的方向转动。

进一步地，在确定说话者相对于终端的距离和方位后，还包括：

根据在最近的预设时间段内说话者相对于终端的方位变化和距离变化，确定说话者的速度变量；

根据说话者的最近N(N>1,N为正整数)次声音输入的时间间隔预判说话者下一次声音输入的时间；

根据预判的时间和速度变量，预判说话者下一次声音输入时相对于终端的距离和方位；

根据预判的距离控制说话者在下一次声音输入时，对应的放音增益和录音增益，以及根据预判的方位控制放音模块在说话者下一次声音输入时向说话者的方向转动。

采用本发明的终端和语音交互的处理方法，在终端中至少设置有三个麦克风模块，可以对同一说话者的声音进行采集，终端可以根据各麦克风的位置和各语音信号的属性信息进行差异分析，确定说话者相对于终端的距离；并根据距离的变化相应控制录入音频的录音增益，其中，该录入音频由上述各语音信号经过处理得到，可以预见，在本发明中，即使用户与终端的相对位置一直变化，终端对用户的语音进行采集后，向语音交互的另一方发送的音频中，该说话者的声音是平稳的，不会出现现有技术中，说话者语音忽大忽小的问题，提升了用户的听觉感受和用户体验。

附图说明

下面将结合附图及实施例对本发明作进一步说明，附图中：

图1为实现本发明各个实施例一个可选的移动终端的硬件结构示意图。

图2为本发明实施例一提供的一种终端的模块示意图；

图3为本发明实施例一中计算说话者和终端的距离的示意图；

图4为本发明实施例二提供的一种终端的硬件结构示意图

图5为本发明实施例三提供的一种语音交互的处理方法的流程图；

图6为本发明实施例四提供的另一种语音交互的处理方法的流程图。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

现在将参考附图描述实现本发明各个实施例的移动终端。在后续的描述中，使用用于表示元件的诸如“模块”、“部件”或“单元”的后缀仅为了有利于本发明的说明，其本身并没有特定的意义。因此，"模块"与"部件"可以混合地使用。

移动终端可以以各种形式来实施。例如，本发明中描述的终端可以包括诸如移动电话、智能电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、导航装置等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。下面，假设终端是移动终端，然而，本领域技术人员将理解的是，除了特别用于移动目的的元件之外，根据本发明的实施方式的构造也能够应用于固定类型的终端。

移动终端100可以包括无线通信单元110、A/V(音频/视频)输入单元120、用户输入单元130、输出单元140、存储器150、控制器160和电源单元170等等。图1示出了具有各种组件的移动终端，但是应理解的是，并不要求实施所有示出的组件，可以替代地实施更多或更少的组件，将在下面详细描述移动终端的元件。本发明中，无线通信模块110可用来实现终端和通信另一方的语音交互。

无线通信单元110通常包括一个或多个组件，其允许移动终端100与无线通信系统或网络之间的无线电通信。例如，无线通信单元可以包括广播接收模块111、移动通信模块112、无线互联网模块113、短程通信模块114和位置信息模块115中的至少一个。本实施例的无线通信模块110可以用来实现第一接收模块2111。

广播接收模块111经由广播信道从外部广播管理服务器接收广播信号和/或广播相关信息。广播信道可以包括卫星信道和/或地面信道。广播管理服务器可以是生成并发送广播信号和/或广播相关信息的服务器或者接收之前生成的广播信号和/或广播相关信息并且将其发送给终端的服务器。广播信号可以包括TV广播信号、无线电广播信号、数据广播信号等等。而且，广播信号可以进一步包括与TV或无线电广播信号组合的广播信号。广播相关信息也可以经由移动通信网络提供，并且在该情况下，广播相关信息可以由移动通信模块112来接收。广播信号可以以各种形式存在，例如，其可以以数字多媒体广播(DMB)的电子节目指南(EPG)、数字视频广播手持(DVB-H)的电子服务指南(ESG)等等的形式而存在。广播接收模块111可以通过使用各种类型的广播系统接收信号广播。特别地，广播接收模块111可以通过使用诸如多媒体广播-地面(DMB-T)、数字多媒体广播-卫星(DMB-S)、数字视频广播-手持(DVB-H)，前向链路媒体(MediaFLO@)的数据广播系统、地面数字广播综合服务(ISDB-T)等等的数字广播系统接收数字广播。广播接收模块111可以被构造为适合提供广播信号的各种广播系统以及上述数字广播系统。经由广播接收模块111接收的广播信号和/或广播相关信息可以存储在存储器150(或者其它类型的存储介质)中。

移动通信模块112将无线电信号发送到基站(例如，接入点等等)、外部终端以及服务器中的至少一个和/或从其接收无线电信号。这样的无线电信号可以包括语音通话信号、视频通话信号、或者根据文本和/或多媒体消息发送和/或接收的各种类型的数据。

无线互联网模块113支持移动终端的无线互联网接入。该模块可以内部或外部地耦接到终端。该模块所涉及的无线互联网接入技术可以包括WLAN(无线LAN)(Wi-Fi)、Wibro(无线宽带)、Wimax(全球微波互联接入)、HSDPA(高速下行链路分组接入)等等。

短程通信模块114是用于支持短程通信的模块。短程通信技术的一些示例包括蓝牙TM、射频识别(RFID)、红外数据协会(IrDA)、超宽带(UWB)、紫蜂TM等等。

位置信息模块115是用于检查或获取移动终端的位置信息的模块。位置信息模块的典型示例是GPS(全球定位系统)。根据当前的技术，GPS模块115计算来自三个或更多卫星的距离信息和准确的时间信息并且对于计算的信息应用三角测量法，从而根据经度、纬度和高度准确地计算三维当前位置信息。当前，用于计算位置和时间信息的方法使用三颗卫星并且通过使用另外的一颗卫星校正计算出的位置和时间信息的误差。此外，GPS模块115能够通过实时地连续计算当前位置信息来计算速度信息。

A/V输入单元120用于接收音频或视频信号。A/V输入单元120可以包括相机121和麦克风1220，相机121对在视频捕获模式或图像捕获模式中由图像捕获装置获得的静态图片或视频的图像数据进行处理。处理后的图像帧可以显示在显示模块141上。经相机121处理后的图像帧可以存储在存储器150(或其它存储介质)中或者经由无线通信单元110进行发送，可以根据移动终端的构造提供两个或更多相机121。麦克风122可以在电话通话模式、记录模式、语音识别模式等等运行模式中经由麦克风接收声音(音频数据)，并且能够将这样的声音处理为音频数据。处理后的音频(语音)数据可以在电话通话模式的情况下转换为可经由移动通信模块112发送到移动通信基站的格式输出。麦克风122可以实施各种类型的噪声消除(或抑制)算法以消除(或抑制)在接收和发送音频信号的过程中产生的噪声或者干扰。麦克风122可以用来对说话者进行声音采集。

用户输入单元130可以根据用户输入的命令生成键输入数据以控制移动终端的各种操作。用户输入单元130允许用户输入各种类型的信息，并且可以包括键盘、锅仔片、触摸板(例如，检测由于被接触而导致的电阻、压力、电容等等的变化的触敏组件)、滚轮、摇杆等等。特别地，当触摸板以层的形式叠加在显示模块141上时，可以形成触摸屏。

输出单元140可以包括显示模块141、音频输出模块142、警报模块143等等。

显示模块141可以显示在移动终端100中处理的信息。例如，当移动终端100处于电话通话模式时，显示模块141可以显示与通话或其它通信(例如，文本消息收发、多媒体文件下载等等)相关的用户界面(UI)或图形用户界面(GUI)。当移动终端100处于视频通话模式或者图像捕获模式时，显示模块141可以显示捕获的图像和/或接收的图像、示出视频或图像以及相关功能的UI或GUI等等。

同时，当显示模块141和触摸板以层的形式彼此叠加以形成触摸屏时，显示模块141可以用作输入装置和输出装置。显示模块141可以包括液晶显示器(LCD)、薄膜晶体管LCD(TFT-LCD)、有机发光二极管(OLED)显示器、柔性显示器、三维(3D)显示器等等中的至少一种。这些显示器中的一些可以被构造为透明状以允许用户从外部观看，这可以称为透明显示器，典型的透明显示器可以例如为TOLED(透明有机发光二极管)显示器等等。根据特定想要的实施方式，移动终端100可以包括两个或更多显示模块(或其它显示装置)，例如，移动终端可以包括外部显示模块(未示出)和内部显示模块(未示出)。触摸屏可用于检测触摸输入压力以及触摸输入位置和触摸输入面积。显示模块141可以用于根据用户需求度以及预设显示数量对对应的联系人中各项存储项信息进行显示。

音频输出模块142可以在移动终端处于呼叫信号接收模式、通话模式、记录模式、语音识别模式、广播接收模式等等模式下时，将无线通信单元110接收的或者在存储器150中存储的音频数据转换音频信号并且输出为声音。而且，音频输出模块142可以提供与移动终端100执行的特定功能相关的音频输出(例如，呼叫信号接收声音、消息接收声音等等)。音频输出模块142可以包括扬声器、蜂鸣器等等。在本发明中，音频输出模块142可以在控制器的控制下按照放音增益对输出的音频进行放音增大或减小。

警报模块143可以提供输出以将事件的发生通知给移动终端100。典型的事件可以包括呼叫接收、消息接收、键信号输入、触摸输入等等。除了音频或视频输出之外，警报模块143可以以不同的方式提供输出以通知事件的发生。例如，警报模块143可以以振动的形式提供输出，当接收到呼叫、消息或一些其它进入通信(incoming communication)时，警报模块143可以提供触觉输出(即，振动)以将其通知给用户。通过提供这样的触觉输出，即使在用户的移动电话处于用户的口袋中时，用户也能够识别出各种事件的发生。警报模块143也可以经由显示模块141或音频输出模块142提供通知事件的发生的输出。

存储器150可以存储由控制器160执行的处理和控制操作的软件程序等等，或者可以暂时地存储己经输出或将要输出的数据(例如，电话簿、消息、静态图像、视频等等)。而且，存储器150可以存储关于当触摸施加到触摸屏时输出的各种方式的振动和音频信号的数据。存储器150中可以存储计算得到的说话者相对于终端的距离和方位信息。

存储器150可以包括至少一种类型的存储介质，存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等等。而且，移动终端100可以与通过网络连接执行存储器150的存储功能的网络存储装置协作。

控制器160通常控制移动终端的总体操作。例如，控制器160执行与语音通话、数据通信、视频通话等等相关的控制和处理。另外，控制器160可以包括用于再现(或回放)多媒体数据的多媒体模块181，多媒体模块181可以构造在控制器160内，或者可以构造为与控制器160分离。控制器160可以执行模式识别处理，以将在触摸屏上执行的手写输入或者图片绘制输入识别为字符或图像。控制器160可以用于在接收到麦克风传来的语音信号后，根据各麦克风的位置和各语音信号的属性信息进行差异分析，确定说话者相对于所述终端的距离；根据距离的变化相应控制录入音频的录音增益，其中，录入音频由所各语音信号经过处理得到。

电源单元170在控制器160的控制下接收外部电力或内部电力并且提供操作各元件和组件所需的适当的电力。

这里描述的各种实施方式可以以使用例如计算机软件、硬件或其任何组合的计算机可读介质来实施。对于硬件实施，这里描述的实施方式可以通过使用特定用途集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理装置(DSPD)、可编程逻辑装置(PLD)、现场可编程门阵列(FPGA)、处理器、控制器、微控制器、微处理器、被设计为执行这里描述的功能的电子单元中的至少一种来实施，在一些情况下，这样的实施方式可以在控制器160中实施。对于软件实施，诸如过程或功能的实施方式可以与允许执行至少一种功能或操作的单独的软件模块来实施。软件代码可以由以任何适当的编程语言编写的软件应用程序(或程序)来实施，软件代码可以存储在存储器150中并且由控制器160执行。

至此，己经按照其功能描述了移动终端。下面，为了简要起见，将描述诸如折叠型、直板型、摆动型、滑动型移动终端等等的各种类型的移动终端中的滑动型移动终端作为示例。因此，本发明能够应用于任何类型的移动终端，并且不限于滑动型移动终端。

以下通过具体实施例进行详细说明。

第一实施例

参见图2，本实施例示出了一种终端，该终端上设置了至少三个麦克风，该至少三个麦克风可以采集从不同方向传输到终端的同一说话者的声音，由于至少三个麦克风的位置差异，造成了各麦克风采集的声音信号之间具有时间、相位角度等差异，终端上的处理器可以根据这些差异，计算出说话者的位置信息，以便根据说话者位置信息的变化，对终端录入的声音和终端播放的声音进行相应的调节，使得通讯双方在使用终端通信的过程中，听到的都是平稳的声音，提升用户的听觉享受。

参见图2，本实施例的终端包括处理器模块22和至少三个麦克风模块21；

处理器模块22，用于在接收到语音信号后，根据各麦克风的位置和各语音信号的属性信息进行差异分析，判断说话者相对于终端的距离；根据距离的变化相应控制录入音频的录音增益，录入音频由各语音信号经过处理得到。其中，各麦克风的位置可以理解为麦克风在终端上的位置。

其中，麦克风模块21可以由图1中的麦克风122实现，处理器模块22可以由图1中的控制器160实现。

麦克风模块21的作用是将接收的声音信号转变为电信号，由于在终端中，麦克风模块21的位置一般不同，接收的语音信号的响度一般是不同的，并且各语音信号的信噪比也不同，所以说话者的声音转变为电信号后，语音信号的属性信息有差别，即处理器模块22收到的语音信号的属性信息有差别，处理器模块22对语音信号进行差异分析，即可得到说话者相对于终端的距离。

可以预见，若说话者离终端的距离增加，在终端不改变录音方式时，终端录制的说话者的声音一般会越来越小，即使终端的说话者可以加大音量，终端录入的声音一般还是忽大忽小，对于收听说话者声音的一方而言，听觉体验十分糟糕。所以本实施例中，处理器模块22根据说话者相对于终端的距离的变化相应控制录入音频的录音增益，其中，根据距离的变化相应控制录入音频的录音增益包括：当说话者相对于终端的距离变大，增大当前录音增益；当说话者相对于终端的距离缩小，降低当前的录音增益。处理器模块22在控制录音增益的增大程度和缩小程度时，可以根据当前的说话者相对于终端的距离，以及上一次调节录音增益时说话者相对于终端的距离的比例确定，例如，上一次调节录音增益时说话者相对于终端的距离为0.5米，录音增益是X1，当前的说话者相对于终端的距离为0.7米，录音增益可以是7/5X1。另外，处理器模块22对录音增益的控制还可以结合当前说话者的音量进行，若说话者在远离终端时，有意放大了自己的声音，处理器模块22在控制录音增益时，可以将根据说话者相对于终端距离确定的录音增益适当地降低，以便使得终端最终向通话另一方输出的声音保持平稳。所以处理器模块22，用于根据说话者相对于终端的距离的变化，以及说话者声音音量的变化相应控制录入音频的录音增益。其中录入音频指的是各语音信号经过处理得到的音频。该录入音频可以理解为各语音信号在终端中经过降噪等处理后形成的一段音频。在现有技术中，该录入音频就是终端向通信另一方发送的音频数据。

可以预见，若说话者处于和通信另一方的语音交互中，说话者与终端的距离变化，说话者收听到的终端的声音出现大小变化，可能会造成说话者对终端的放音内容听不清的情况出现，为了避免用户在移动过程中收听到的终端放音忽大忽小。本实施例中，可以利用处理器模块22对放音进行控制。其中，本实施例的终端还包括放音模块23，可以由图1终端的音频输出模块142实现。

处理器模块22，还用于在放音模块放音时，根据说话者相对于终端的距离的变化相应调节放音增益，控制放音模块按照放音增益放音；放音模块，用于在放音过程中，在处理器模块的控制下按照放音增益放音。

处理器模块22根据说话者相对于终端的距离的变化相应调节放音增益的方式包括：当说话者相对于终端的距离的变大，增大放音增益；当说话者相对于终端的距离变小，减少放音增益。其中，放音增益增大和减少的具体程度可以根据当前说话者相对于终端的距离，与上一次调节放音增益时说话者相对于终端的距离的比例确定。例如，上一次调节放音增益时说话者相对于终端的距离为0.5米，放音增益是X2，当前的说话者相对于终端的距离为0.7米，放音增益可以是7/5X2。对于放音增益增大和减少的具体程度还可以根据其他方式确定，例如，根据声强与声音传播距离的关系，控制放音增益，使得说话者相对于终端的距离不同时，收听到的终端放音音量大小相近。当然，处理器模块22还可以再结合通话另一方终端发送的音频中声音的响度变化确定放音增益增大和减少的具体程度。

在说话者的移动过程中，说话者相对于终端的方位一般也是在发生变化的，例如，前一分钟处于终端的正前方，当前处于终端的正后方等等。说话者相对于终端的方位发生变化时，即使放音模块23根据放音增益输出音频，说话者收听到的声音效果还是不如正对放音模块23的收听效果好。为了实现放音模块跟随说话者转动的目的，本实施例的终端还包括转向控制模块24，转向控制模块24可以是与放音模块23连接的可以转向的结构，可以接收处理器模块22的指令，控制放音模块23的转动。处理器模块22，还用于在接收到语音信号后，根据各麦克风的位置和各语音信号的属性信息进行差异分析，确定说话者相对于终端的方位。可以理解的是，处理器模块22可以在计算说话者相对于终端的距离的同时，计算说话者相对于终端的方位。转向控制模块24可以根据处理器模块22计算得到的方位控制放音模块23向说话者的方向转动。一般而言，放音模块23中包括喇叭，转向控制模块24具体用于根据说话者相对于终端的方位，控制喇叭向说话者的方向转动，使得喇叭的放音面与说话者正对。其中，可以理解的是，由于喇叭在终端上的位置是固定的，在处理器模块22计算出说话者相对于终端的方位时，也可以计算出说话者相对与喇叭的方位。所以，处理器模块22还可以用于根据在接收到语音信号后，根据各语音信号的属性信息进行差异分析，确定说话者相对于放音模块23的方位。处理器模块22可以将放音模块作为原点建立坐标系，由于麦克风和放音模块的相对位置是固定已知的，所以在坐标系中各麦克风的坐标已知，根据对各麦克风采集的声音信号的属性信息进行差异分析，可以得到说话者相对于原点的坐标，即可得到说话者相对于放音模块24的距离和方位。当然，本实施例中，还可以以其他点为原点建立坐标系得到说话者相对于放音模块23的方位。

在本实施例中，语音信号的属性信息包括但不限于各语音信号到达麦克风的时间差、录入电平、相位差。

各语音信号的时间差可以根据至少三个麦克风模块21接收到说话者声音的时间计算得到，录入电平和相位差可以根据说话者声音转化的电信号(及语音信号)得到。

下面以属性信息为各语音信号到达麦克风的时间差为例，说明处理器模块22如何计算得到说话者相对于终端的距离和方位。

参见图3，图中A和B为两个MIC的位置，距离已知为AB，C为说话者位置，C发出的声音到A和到B的时间差ΔT为已知。以AB为X轴，竖线为Y轴。在坐标系中，A(XA，0)，B(XB，0)，C(XC,YC)，其中XA和XB为已知，XC和YC为未知。

利用公式可以得到：

CA＝|(XC-XA,YC)|

CB＝|(XC-XB,YC)|

建立方程式，可以计算出C的位置曲线：CA-CB＝ΔT*V(V是声音在空气中的传播速度)。

再将A、B两点分别和终端上第三个MIC以上述类似的方案建立坐标系，可以再得到两条C的位置曲线。根据3条曲线，可以得到3条曲线的交点坐标，就是C的真实固定位置。根据C的坐标和就可以得到C到O的距离和方位，将终端视作一点，C到0的距离和方位就是说话者到终端的方位和距离。

其中，在计算说话者相对于放音模块的方位时，可以以喇叭为原点，建立坐标系，对于终端上各个固定的麦克风，其相对于喇叭的位置是已知的(可以在手机出厂时，将麦克风和喇叭的位置信息预存在终端上)，根据声音到达各麦克风的时间差以及各麦克风的坐标，可以得到说话者在该坐标系中的坐标，最终得到说话者相对于喇叭的方位。以便转向控制模块控制喇叭跟随该说话者转动。

考虑到人的移动一般是连贯的具有规律性的，所以处理器模块22在根据各声音信号计算得到说话者的距离和方位后，可以获取说话者的实时移动曲线，预估说话者在未来一段时间段的移动速度和移动方向，根据这些预估的数据，处理器模块还可以预估未来一段时间的放音增益和录音增益。进一步的，处理模块还用于在确定说话者相对于终端的距离和方位后，根据在最近的预设时间段内说话者相对于终端的方位变化和距离变化，确定说话者的速度变量；根据说话者的最近N(N>1,N为正整数)次声音输入的时间间隔预判说话者下一次声音输入的时间；根据时间和速度变量预判说话者下一次声音输入时相对于终端的距离和方位；根据预判的距离控制音频输出模块142在说话者下一次说话时，对应的放音增益和录入增益；转向控制模块,还用于根据预判的方位控制说话者在下一次声音输入时向说话者的方向转动。

采用本实施例，终端具有至少设置有三个麦克风模块，可以对同一说话者的声音进行采集。处理器模块可以根据各麦克风的位置和各语音信号的属性信息进行差异分析，确定说话者相对于终端的距离；并根据距离的变化相应控制录入音频的录音增益，其中，该录入音频由上述各语音信号经过处理得到，可以预见，在本实施例中，即使用户与终端的相对位置一直变化，终端对用户的语音进行采集后，向语音交互的另一方发送的音频中，该说话者的声音是平稳的，不会出现现有技术中，说话者语音忽大忽小的问题，提升了用户的听觉感受和用户体验。

进一步地，处理模块还可以根据说话者相对于终端的距离变化，控制放音增益的变化，并且控制放音模块按照该放音增益进行放音，由此，说话者听到的声音也是平稳固定的，提升了说话者的使用体验。

进一步地，本实施例的放音模块还可以向说话者的方向转动，增加了放音模块播放的声音对于说话者的平稳。

第二实施例

参见图4，本实施例示出一种终端，可以根据说话者与终端的相对位置的变化，控制录音的声音和放音的声音处于一个平稳的状态，避免因为说话者离终端的忽近忽远，而导致说话者听到的声音忽大忽小，对说话者的录音效果也忽大忽小。

本实施例的终端包括至少三个麦克风122、控制器160、音频输出模块142、存储器150。

至少三个麦克风122，用于对同一说话者的声音进行采集，将采集到的语音信号输入处理器模块；控制器160，用于在接收到语音信号后，根据各麦克风的位置和各语音信号的属性信息进行差异分析，判断说话者相对于终端的距离；根据距离的变化相应控制录入音频的录音增益，录入音频由各语音信号经过处理得到。

麦克风122的作用是将接收的声音信号转变为电信号，由于在终端中，各个麦克风122的位置一般不同，接收的语音信号的响度一般是不同的，并且各语音信号的信噪比也不同，所以说话者的声音转变为电信号后，语音信号的属性信息有差别，即控制器160收到的语音信号的属性信息有差别，控制器160对语音信号的属性信息进行差异分析，即可得到说话者相对于终端的距离。

可以预见，若说话者离终端的距离增加，在终端不改变录音方式时，终端录制的说话者的声音一般会越来越小，即使终端的说话者可以加大音量，终端录入的声音一般还是忽大忽小，对于收听说话者声音的一方而言，听觉体验十分糟糕。所以本实施例中，控制器160根据说话者相对于终端的距离的变化相应控制录入音频的录音增益，其中，根据距离的变化相应控制录入音频的录音增益包括：当说话者相对于终端的距离变大，增大当前录音增益；当说话者相对于终端的距离缩小，降低当前的录音增益。控制器160在控制录音增益的增大程度和缩小程度时，可以根据当前的说话者相对于终端的距离，以及上一次调节录音增益时说话者相对于终端的距离的比例确定，例如，上一次调节录音增益时说话者相对于终端的距离为0.5米，录音增益是X1，当前的说话者相对于终端的距离为0.7米，录音增益可以是7/5X1。另外，控制器160对录音增益的控制还可以结合当前说话者的音量进行，若说话者在远离终端时，有意放大了自己的声音，控制器160在控制录音增益时，可以将根据说话者相对于终端的距离确定的录音增益适当地降低，以便使得终端最终向通话另一方输出的声音保持平稳。控制器160，用于根据说话者相对于终端的距离的变化，以及说话者声音音量的变化相应控制录入音频的录音增益。其中录入音频指的是各语音信号经过处理得到的音频。该录入音频可以理解为各语音信号在终端中经过降噪等处理后形成的一段音频。在现有技术中，该录入音频就是终端向通信另一方发送的音频数据。

可以预见，若说话者处于和通信另一方的语音交互中，说话者与终端的距离变化，说话者收听到的终端的声音出现大小变化，可能会造成说话者对终端的放音内容听不清的情况出现，为了避免用户在移动过程中收听到的终端放音忽大忽小。本实施例中，可以利用控制器160对放音进行控制。其中，本实施例的终端还包括音频输出模块142。控制器160，还用于在放音模块放音时，根据说话者相对于终端的距离的变化相应调节放音增益，控制音频输出模块142按照放音增益放音；音频输出模块142，用于在放音过程中，在处理器模块的控制下按照放音增益放音。

控制器160根据说话者相对于终端的距离的变化相应调节放音增益的方式包括：当说话者相对于终端的距离的变大，增大放音增益；当说话者相对于终端的距离变小，减少放音增益。其中，放音增益增大和减少的具体程度可以根据当前说话者相对于终端的距离，与上一次调节放音增益时说话者相对于终端的距离的比例确定。例如，上一次调节放音增益时说话者相对于终端的距离为0.5米，放音增益是X2，当前的说话者相对于终端的距离为0.7米，放音增益可以是7/5X2。对于放音增益增大和减少的具体程度还可以根据其他方式确定，例如，根据声强与声音传播距离的关系，控制放音增益，使得说话者相对于终端的距离不同时，收听到的终端放音音量大小相近。当然，控制器160还可以再结合通话另一方终端发送的音频中声音的响度变化确定放音增益增大和减少的具体程度。

在说话者的移动过程中，说话者相对于终端的方位一般也是在发生变化的，例如，前一分钟处于终端的正前方，当前处于终端的正后方等等。说话者相对于终端的方位发生变化时，即使音频输出模块142根据放音增益输出音频，说话者收听到的声音效果还是不如正对音频输出模块142的收听效果好。为了实现放音模块跟随说话者转动的目的，本实施例的终端还具有转向控制模块，转向控制模块可以安装在音频输出模块142上，与控制器160实现电器连接，转向控制模块用于接收控制器160的指令，控制音频输出模块142的转动。控制器160，还用于在接收到语音信号后，根据各麦克风的位置和各语音信号的属性信息进行差异分析，确定说话者相对于终端的方位。

可以理解的是，控制器160可以在计算说话者相对于终端的距离的同时，计算说话者相对于终端的方位。转向控制模块可以根据控制器160计算得到的方位控制音频输出模块142向说话者的方向转动。一般而言，音频输出模块142中包括喇叭，转向控制模块具体用于根据说话者相对于终端的方位，控制喇叭像说话者的方向转动，使得喇叭的放音面与说话者正对。其中，可以理解的是，由于喇叭在终端上的位置是固定的，在控制器160计算出说话者相对于终端的方位时，也可以随之计算出说话者相对与喇叭的方位。所以，控制器160还可以用于根据在接收到语音信号后，根据各语音信号的属性信息进行差异分析，确定说话者相对于音频输出模块142的方位。控制器160可以将音频输出模块142作为原点建立坐标系，由于麦克风122的位置和音频输出模块142的相对位置是固定已知的，所以在同一坐标系中各麦克风的坐标已知，根据对各麦克风采集的声音信号的属性信息进行差异分析，可以得到说话者相对于原点的坐标，即可得到说话者相对于音频输出模块142的距离和方位。当然，本实施例中，还可以以其他点为原点建立坐标系得到说话者相对于音频输出模块142的方位，本实施例对此没有限定。

在本实施例中，语音信号的属性信息包括但不限于各语音信号到达麦克风的时间差、录入电平、相位差。各语音信号的时间差可以根据至少三个麦克风122接收到说话者声音的时间计算得到，录入电平和相位差，可以根据说话者声音转化的电信号(及语音信号)得到。根据语音信号的属性信息得到说话者相对于终端的距离和方位的方式可以参考实施例一中的描述，本实施例在此不再赘述。

考虑到人的移动一般是连贯的具有规律性的，所以控制器160在根据各声音信号计算得到说话者的距离和方位后，可以获取说话者的实时移动曲线，预估说话者在未来一段时间段的移动速度和移动方向，根据这些预估的数据，处理器模块还可以预估未来一段时间的放音增益和录音增益。进一步的，控制器160还用于在确定说话者相对于终端的距离和方位后，根据在最近的预设时间段内说话者相对于终端的方位变化和距离变化，确定说话者的速度变量；根据说话者的最近N(N>1,N为正整数)次声音输入的时间间隔预判说话者下一次声音输入的时间；根据时间和速度变量确定说话者下一次说话时相对于终端的距离和方位；根据距离控制说话者在下一次说话时，对应的放音增益和录入增益；转向控制模块,还用于根据预判的方位控制音频输出模块142在说话者下一次声音输入时向说话者的方向转动。

采用本实施例的终端，三个麦克风可以对同一说话者的声音进行采集。控制器可以根据各麦克风的位置和各语音信号的属性信息进行差异分析，确定说话者相对于终端的距离；并根据距离的变化相应控制录入音频的录音增益，其中，该录入音频由上述各语音信号经过处理得到，可以预见，在本实施例中，即使用户与终端的相对位置一直变化，终端对用户的语音进行采集后，向语音交互的另一方发送的音频中，该说话者的声音是平稳的，不会出现现有技术中，说话者语音忽大忽小的问题，提升了用户的听觉感受和用户体验。

第三实施例

参见图5，本实施例示出一种语音交互的处理方法，包括：

S501、接收至少三个麦克风对同一说话者的声音进行采集，得到的至少三个语音信号；

S502、根据各麦克风的位置和各语音信号的属性信息进行差异分析，确定说话者相对于终端的距离；

S503、根据距离的变化相应控制录入音频的录音增益，录入音频由各语音信号经过处理得到。

其中，麦克风可以将接收的声音信号转变为电信号，由于在终端中，多个麦克风的位置一般各不相同，麦克风接收的语音信号的响度一般是不同的，并且各语音信号的信噪比也不同，所以说话者的声音转变为电信号后，语音信号的属性信息有差别，所以对语音信号进行差异分析，可得到说话者相对于终端的距离。

可以预见，若说话者离终端的距离增加，在终端不改变录音方式时，终端录制的说话者的声音一般会越来越小，即使终端的说话者可以加大音量，终端录入的声音一般还是忽大忽小，对于收听说话者声音的一方而言，听觉体验十分糟糕。所以本实施例S503中，需要根据说话者相对于终端的距离的变化相应控制录入音频的录音增益.

其中，根据距离的变化相应控制录入音频的录音增益包括：当说话者相对于终端的距离变大，增大当前录音增益；当说话者相对于终端的距离缩小，降低当前的录音增益。S503中，在控制录音增益的增大程度和缩小程度时，可以根据当前的说话者相对于终端的距离，以及上一次调节录音增益时说话者相对于终端的距离的比例确定，例如，上一次调节录音增益时说话者相对于终端的距离为0.5米，录音增益是X₁，当前的说话者相对于终端的距离为0.7米，录音增益可以是7/5X₁。

另外，为了录音增益的增大程度和缩小程度更精确，对录音增益的控制还可以结合说话者的音量变化进行，若说话者在远离终端时，有意放大了自己的声音，S503中，在控制录音增益时，可以将根据说话者相对于终端的距离确定的录音增益适当地降低，以便使得终端最终向通话另一方输出的声音保持平稳。所以S503包括：根据说话者相对于终端的距离的变化，以及说话者声音音量的变化相应控制录入音频的录音增益。其中录入音频指的是各语音信号经过处理得到的音频。该录入音频可以理解为各语音信号在终端中经过降噪等处理后形成的一段音频。在现有技术中，该录入音频就是终端向通信另一方发送的音频数据。

可以预见，若说话者处于和通信另一方的语音交互中，说话者与终端的距离变化，说话者收听到的终端的声音出现大小变化，可能会造成说话者对终端的放音内容听不清的情况出现，为了避免用户在移动过程中收听到的终端放音忽大忽小。本实施例中，可以对放音进行增益控制。

进一步的，在确定说话者相对于终端的距离后，还包括：根据说话者相对于终端的距离的变化相应调节放音增益；按照该放音增益放音。

其中，根据说话者相对于终端的距离的变化相应调节放音增益的方式包括：当说话者相对于终端的距离的变大，增大放音增益；当说话者相对于终端的距离变小，减少放音增益。进一步地，放音增益增大和减少的具体程度可以根据当前说话者相对于终端的距离，与上一次调节放音增益时说话者相对于终端的距离的比例确定。

例如，上一次调节放音增益时说话者相对于终端的距离为0.5米，放音增益是X₂，当前的说话者相对于终端的距离为0.7米，放音增益可以是7/5X₂。对于放音增益增大和减少的具体程度还可以结合其他元素考虑，例如，根据声强与声音传播距离的关系，控制放音增益，使得说话者相对于终端的距离不同时，收听到的终端放音音量大小相近。当然，本实施例中，还可以再结合通话另一方终端发送的音频中声音的响度变化确定放音增益增大和减少的具体程度。

在说话者的移动过程中，说话者相对于终端的方位一般也是在发生变化的，例如，前一分钟处于终端的正前方，当前处于终端的正后方等等。说话者相对于终端的方位发生变化时，即使放音模块根据放音增益输出音频，说话者收听到的声音效果还是不如正对放音模块时的收听效果好。为了实现放音模块跟随说话者转动的目的，本实施例的终端还可以实现放音模块随说话者转动而对应转动。

进一步地，在接收到语音信号后，还包括：

根据各麦克风的位置和各语音信号的属性信息进行差异分析，确定说话者相对于终端的方位；根据方位控制放音模块向说话者的方向转动。

可以理解的是，可以在计算说话者相对于终端的距离的同时，计算说话者相对于终端的方位。一般而言，放音模块中包括喇叭，根据方位控制放音模块向说话者的方向转动。实际上是根据说话者相对于终端的方位，控制喇叭向说话者的方向转动，使得喇叭的放音面与说话者正对。其中，可以理解的是，由于喇叭在终端上的位置是固定的，在计算出说话者相对于终端的方位时，也可以计算出说话者相对与喇叭的方位。

其中，可以将放音模块作为原点建立坐标系，由于麦克风和放音模块的相对位置是固定已知的，所以在坐标系中各麦克风的坐标已知，根据对各麦克风采集的声音信号的属性信息进行差异分析，可以得到说话者相对于原点的坐标，即可得到说话者相对于放音模块24的距离和方位。当然，本实施例中，还可以以其他点为原点建立坐标系得到说话者相对于放音模块23的方位。

在本实施例中，语音信号的属性信息包括但不限于各语音信号到达麦克风的时间差、录入电平、相位差。各语音信号的时间差可以根据至少三个麦克风接收到说话者声音的时间计算得到，录入电平和相位差可以根据说话者声音转化的电信号(及语音信号)得到。

考虑到人的移动一般是连贯的具有规律性的，所以S501中，在根据各声音信号计算得到说话者的距离和方位后，终端可以获取说话者的实时移动曲线，预估说话者在未来一段时间段的移动速度和移动方向，根据这些预估的数据，终端还可以预估未来一段时间的放音增益和录音增益。

进一步的，本实施例中，在确定说话者相对于终端的距离和方位后，还包括：根据在最近的预设时间段内说话者相对于终端的方位变化和距离变化，确定说话者的速度变量；

可以想到的是，本实施例的方案可以在任何语音交互过程中使用，语音交互包括但不限于微信语音聊天，QQ语音聊天，电话通信、视频聊天等等过程。

采用本实施例的处理方法，在三个麦克风可以对同一说话者的声音进行采集后，可以根据各麦克风的位置和各语音信号的属性信息进行差异分析，确定说话者相对于终端的距离；并根据距离的变化相应控制录入音频的录音增益，由此，即使用户与终端的相对位置一直变化，终端对用户的语音进行采集后，向语音交互的另一方发送的音频中，该说话者的声音是平稳的，不会出现现有技术中，说话者语音忽大忽小的问题，提升了用户的听觉感受和用户体验。

第四实施例

参见图6，本实施例示出一种语音交互的处理方法，假设本实施例中的终端上有喇叭和3个麦克风，喇叭和3个麦克风的位置对于终端而言是固定已知的，这一点可以很容易做到，例如在终端中可以存储麦克风位置和喇叭的位置，在喇叭上还安装有转向装置，该转向装置可以控制喇叭转向。

本实施例的方法包括：

S601、3个麦克风分别对说话者进行声音采集，得到3个语音信号，对三个语音信号进行处理得到第一音频；

S602、根据说话者的声音到达3个麦克风的时间差，以及3个麦克风在终端上的位置，确定说话者相对于终端的距离；

S603、判断说话者相对于终端的距离是否变大，若是，进入S604，否则，进图S605；

S604、增加对第一音频的录音增益，增加喇叭放音的放音增益，进入S606；

S605、降低对第一音频的录音增益，降低喇叭放音的放音增益，进入S606；

S606、根据说话者的声音到达3个麦克风的时间差，以及3个麦克风在终端上的位置，确定说话者相对于终端的方位；

S607、根据说话者相对于终端的方位，利用转向装置控制喇叭向说话者的方向转动。

其中，S606与S602可以合并，也即，在计算得到说话者相对于终端的距离变化时，可以同时计算说话者相对于终端的方位。S607也可以在S604或S605中实现。

采用本实施例，可以计算得到说话者相对于终端的距离变化和方位，并相应控制录入音频的录音增益、播放音频的放音增益，以及控制喇叭向说话者的方向转动，由此，即使用户与终端的相对位置一直变化，该说话者听到的声音平稳，且终端向语音交互的另一方发送的音频中，该说话者的声音也是平稳的，不会出现现有技术中，说话者听到的声音忽大忽小的问题，本实施例方案提升了用户的听觉感受和用户体验。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例的方法。

上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，这些均属于本发明的保护之内。

Claims

1.一种终端，其特征在于，包括：

至少三个麦克风模块，用于对同一说话者的声音进行采集，将采集到的语音信号输入所述处理器模块；

处理器模块，用于在接收到所述语音信号后，根据各麦克风的位置和各语音信号的属性信息进行差异分析，确定所述说话者相对于所述终端的距离；根据所述距离的变化相应控制录入音频的录音增益，所述录入音频由所述各语音信号经过处理得到。

2.如权利要求1所述的终端，其特征在于，还包括放音模块；

所述处理器模块，还用于在放音模块放音时，根据所述说话者相对于所述终端的距离的变化相应调节放音增益，控制所述放音模块按照所述放音增益放音；

所述放音模块，用于在放音过程中，在所述处理器模块的控制下按照所述放音增益放音。

3.如权利要求1所述的终端，其特征在于，还包括转向控制模块；

所述处理器模块，还用于在接收到所述语音信号后，根据各麦克风的位置和各语音信号的属性信息进行差异分析，确定说话者相对于所述终端的方位；

所述转向控制模块，用于根据所述方位控制所述放音模块向所述说话者的方向转动。

4.如权利要求3所述的终端，其特征在于，所述处理模块，还用于在确定所述说话者相对于终端的距离和方位后，根据在最近的预设时间段内所述说话者相对于终端的方位变化和距离变化，确定所述说话者的速度变量；根据所述说话者的最近N(N>1,N为正整数)次声音输入的时间间隔预判所述说话者下一次声音输入的时间；根据所述时间和所述速度变量预判所述说话者下一次声音输入时相对于所述终端的距离和方位；根据预判的距离控制所述说话者在下一次声音输入时，对应的放音增益和录音增益；

所述转向控制模块,还用于根据预判的方位控制所述放音模块在说话者下一次声音输入时向所述说话者的方向转动。

5.如权利要求1-4任一项所述的终端，其特征在于，所述各语音信号的属性信息包括：各语音信号到达麦克风的时间差、录入电平、相位差。

6.一种语音交互的处理方法，包括：

根据各麦克风的位置和各语音信号的属性信息进行差异分析，确定所述说话者相对于终端的距离；

根据所述距离的变化相应控制录入音频的录音增益，所述录入音频由所述各语音信号经过处理得到。

7.如权利要求6所述的语音交互的处理方法，其特征在于，在确定所述说话者相对于所述终端的距离后，还包括：

根据所述说话者相对于所述终端的距离的变化相应调节放音增益；

按照所述放音增益放音。

8.如权利要求6所述的语音交互的处理方法，其特征在于，在接收到所述语音信号后，还包括：

根据各麦克风的位置和各语音信号的属性信息进行差异分析，确定说话者相对于所述终端的方位；

根据所述方位控制放音模块向所述说话者的方向转动。

9.如权利要求8所述的语音交互的处理方法，其特征在于，在确定所述说话者相对于终端的距离和方位后，还包括：

根据在最近的预设时间段内所述说话者相对于终端的方位变化和距离变化，确定所述说话者的速度变量；

根据所述说话者的最近N(N>1,N为正整数)次声音输入的时间间隔预判所述说话者下一次声音输入的时间；

根据预判的时间和所述速度变量，预判所述说话者下一次声音输入时相对于所述终端的距离和方位；

根据预判的距离控制所述说话者在下一次声音输入时，对应的放音增益和录音增益，以及根据预判的方位控制所述放音模块在说话者下一次声音输入时向所述说话者的方向转动。

10.如权利要求6-9任一项所述的语音交互的处理方法，其特征在于，所述各语音信号的属性信息包括：各语音信号到达麦克风的时间差、录入电平、相位差。