CN105096937A

CN105096937A - 语音数据处理方法及终端

Info

Publication number: CN105096937A
Application number: CN201510274283.3A
Authority: CN
Inventors: 张圣杰; 申世安
Original assignee: Nubia Technology Co Ltd
Current assignee: Nubia Technology Co Ltd
Priority date: 2015-05-26
Filing date: 2015-05-26
Publication date: 2015-11-25

Abstract

本发明实施例公开了一种语音数据处理方法及终端，方法包括：第一终端从获取的语音数据中提取出声纹特征，将所述声纹特征与至少一个预设声纹特征进行匹配，得到与所述提取出的声纹特征匹配的预设声纹特征；基于与所述提取出的声纹特征匹配的预设声纹特征、以及所述预设声纹特征与用户的信息的一一对应关系，确定与所述提取出的声纹特征对应的目标用户的信息；基于所述提取出的声纹特征、和/或与所述提取出的声纹特征对应的目标用户的信息响应操作指令。

Description

语音数据处理方法及终端

技术领域

本发明涉及通信领域的语音处理技术，尤其涉及一种语音数据处理方法及终端。

背景技术

目前终端在进行语音通信时，参与通信的两个终端往往是基于对端的终端标识如终端的电话号码来完成对另一方终端的识别，这种识别仅仅限于两个终端参与语音通信的场景，对于多个终端参与的语音通信场景中，如何对语音数据中的语音的来源终端也即来源终端的用户进行识别，进而基于识别出的用户来对多终端语音场景中的业务功能进行扩展，相关技术尚无有效解决方案。

发明内容

本发明实施例提供一种语音数据处理方法及终端，能够对语音数据中的语音的来源终端也即来源终端的用户进行识别，进而对多终端语音场景中的业务功能进行扩展，提升用户体验。

本发明实施例的技术方案是这样实现的：

本发明实施例提供一种语音数据处理方法，所述方法包括：

第一终端从获取的语音数据中提取出声纹特征，将所述声纹特征与至少一个预设声纹特征进行匹配，得到与所述提取出的声纹特征匹配的预设声纹特征；

基于与所述提取出的声纹特征匹配的预设声纹特征、以及所述预设声纹特征与用户的信息的一一对应关系，确定与所述提取出的声纹特征对应的目标用户的信息；

基于所述提取出的声纹特征、和/或与所述提取出的声纹特征对应的目标用户的信息响应操作指令。

优选地，所述方法还包括：

所述第一终端从获取的语音数据中提取出声纹特征之前，获取来自第二终端的语音数据，所述来自第二终端的语音数据中承载有所述第二终端的用户的语音；

从来自所述第二终端的语音数据中提取出所述第二终端的用户的声纹特征；

建立所述第二终端的用户的声纹特征与所述第二终端的用户的信息之间的对应关系。

优选地，所述基于与提取出的声纹特征、和/或与所述提取出的声纹特征对应的目标用户的信息响应操作指令，包括：

所述语音数据中承载有至少两个所述用户的语音；

当确定与所述提取出的声纹特征对应的用户的信息时，基于图形界面呈现与所述提取出的声纹特征对应的用户的信息，直至所接收的所述语音数据中不再承载有与所述用户的对应的语音。

优选地，所述基于与提取出的声纹特征、和/或与所述提取出的声纹特征对应的用户的信息响应操作指令，包括：

采集信息，利用所述提取出的声纹特征对所采集到的信息进行加密；

基于与所述提取出的声纹特征对应的目标用户的信息，向所述目标用户对应的第三终端发送加密后的信息；其中，

所述加密后的信息用于使所述第三终端基于所述目标用户的声纹特征进行声纹匹配，以对所述加密后的信息进行解密。

基于所述提取出的声纹特征，在所述语音数据中滤除与所述声纹特征对应的语音数据；

所述基于与所述提取出的声纹特征对应的用户的信息响应操作指令，包括：

基于所述提取出的声纹特征、以及与所述提取出的声纹特征对应的目标用户的信息，确定所述语音数据中承载有不同所述目标用户的语音的数据段，对所确定的数据段进行语音编辑操作。

本发明实施例提供一种终端，所述终端包括：

语音获取模块，用于获取语音数据；

声纹提取模块，用于从所述获取的语音数据中提取出声纹特征，

声纹匹配模块，用于将所述声纹特征与至少一个预设声纹特征进行匹配，得到与所述提取出的声纹特征匹配的预设声纹特征；

声纹关联模块，用于存储所述预设声纹特征与用户的信息的一一对应关系；

声纹识别模块，用于基于与所述提取出的声纹特征匹配的预设声纹特征、以及所述声纹关联模块存储的所述预设声纹特征与用户的信息的一一对应关系，确定与所述提取出的声纹特征对应的目标用户的信息；

响应模块，用于基于所述提取出的声纹特征、和/或与所述提取出的声纹特征对应的目标用户的信息响应操作指令。

优选地，所述语音获取模块，还用于从获取的语音数据中提取出声纹特征之前，获取来自第二终端的语音数据，所述来自第二终端的语音数据中承载有所述第二终端的用户的语音；

所述声纹提取模块，还用于从来自所述第二终端的语音数据中提取出所述第二终端的用户的声纹特征；

所述声纹关联模块，还用于建立所述第二终端的用户的声纹特征与所述第二终端的用户的信息之间的对应关系。

优选地，所述响应模块，还用于当所述声纹识别模块确定与所述提取出的声纹特征对应的用户的信息时，基于图形界面呈现与所述提取出的声纹特征对应的用户的信息，直至所接收的所述语音数据中不再承载有与所述用户的对应的语音；

其中，所述语音数据中承载有至少两个所述用户的语音。

优选地，所述响应模块包括：

采集单元，用于采集信息，利用所述提取出的声纹特征对所采集到的信息进行加密；

加密单元，用于基于与所述提取出的声纹特征对应的目标用户的信息，向所述目标用户对应的第三终端发送加密后的信息；其中，

优选地，所述响应模块包括：触发单元、滤除单元、编辑单元；

所述触发单元，用于基于所述操作指令触发所述滤除单元和/或所述编辑单元；其中，

所述滤除单元，用于基于所述提取出的声纹特征，在所述语音数据中滤除与所述声纹特征对应的语音数据；

用于基于所述提取出的声纹特征、以及与所述提取出的声纹特征对应的目标用户的信息，确定所述语音数据中承载有不同所述目标用户的语音的数据段，对所确定的数据段进行语音编辑操作。

本发明实施例中，第一终端处于多终端的语音通信场景中时，可以基于从多终端语音通信场景中获取的语音数据中提取出声纹特征，与第一终端中预设声纹特征匹配，进而得到提取出的声纹特征对应的目标用户的信息，这就克服了多终端语音通信场景中无法识别语音的来源用户(也即目标用户)的问题；同时，第一终端可以基于提取出的目标用户的声纹特征、和/或来源目标用户的信息，对多终端的语音通信场景进行功能扩展，例如提示当前语音的来源用户、与来源用户基于声纹特征进行加密通信，或基于声纹特征对语音数据进行编辑，满足了用户在多终端的语音通信场景中的需求，提升了用户体验。

附图说明

图1是本发明实施例中语音数据处理的实现流程示意图一；

图2a至图2c是本发明实施例中终端的结构示意图；

图3是本发明实施例中语音数据处理的实现流程示意图二。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明实施例记载一种语音数据处理方法，可以应用于第一终端(如智能手机)，如图1所示，包括以下步骤：

步骤S101，第一终端从获取的语音数据中提取出声纹特征，将所述声纹特征与至少一个预设声纹特征进行匹配，得到与所述提取出的声纹特征匹配的预设声纹特征。

步骤S102，基于与所述提取出的声纹特征匹配的预设声纹特征、以及所述预设声纹特征与用户的信息的一一对应关系，确定与所述提取出的声纹特征对应的目标用户的信息。

作为一个示例，预设声纹特征与用户的信息的一一对应关系可以在第一终端用户的历史通话过程中，基于所接收语音数据提取声纹特征得到，例如，第一终端在与第二终端进行点对点的语音通信时，获取来自第二终端的语音数据，所述来自第二终端的语音数据中承载有所述第二终端的用户的语音；从来自所述第二终端的语音数据中提取出所述第二终端的用户的声纹特征；基于所提取出的第二终端的用户的声纹特征，建立所述第二终端的用户的声纹特征与所述第二终端的用户的信息之间的对应关系。

作为又一个示例，预设声纹特征与用户的信息的一一对应关系可以由第一终端用户直接对第二终端的用户进行语音采集(例如由第一终端用户持有第一终端对第二终端的用户进行面对面的语音采集，或者第一终端接收第二终端发送的承载有第二终端用户语音的语音数据)得到语音数据，从所述第二终端的用户的声纹特征；基于所提取出的第二终端的用户的声纹特征，建立所述第二终端的用户的声纹特征与所述第二终端的用户的信息之间的对应关系。

步骤S103，基于所述提取出的声纹特征、和/或与所述提取出的声纹特征对应的目标用户的信息响应操作指令。

作为步骤S103的一个示例，在多终端的语音通信场景中，所述语音数据中承载有至少两个所述用户的语音；当第一终端确定与所述提取出的声纹特征对应的用户的信息时，基于图形界面呈现与所述提取出的声纹特征对应的用户的信息，直至所接收的所述语音数据中不再承载有与所述用户的对应的语音；例如，第一终端与用户A持有的第二终端A、以及用户B持有的第二终端B进行电话会议时，第一终端对接收的语音数据进行声纹特征提取，当提出的声纹特征与用户A的预设声纹特征匹配时，表明用户A当前是电话会议的发言者，第一终端可以在自身的图形界面中呈现诸如“当前发言者是用户A”的提示信息，直至在接收的语音数据中不能提取出用户A的声纹特征，表明用户A在电话会议中的发言结束；对于用户B发言以及用户A、B同时发言的情况，第一终端基于上述处理同样能够对发言的用户在图形界面上提示，从而便于第一终端用户了解会议的发言者的情况。

作为步骤S103的又一个示例，第一终端提取出的声纹可以用于第一终端与目标用户持有的第三终端进行加密通信；在前述的电话会议场景中，当第一终端的用户期望将第一终端采集的信息(例如语音、短消息、图片等)向目标用户加密发送时，可以将所述提取出的目标用户的声纹特征对信息进行加密；并基于与所述提取出的声纹特征对应的目标用户的信息(承载有与目标用户的第二终端可用的通信方式)，向所述目标用户对应的第三终端发送加密后的信息；当目标用户的第三终端接收到所述加密后的信息，利用第三用户的预设声纹特征信息对接收的信息解密，得到第一终端采集的信息，确保了用于使所述第三终端基于所述目标用户的声纹特征进行解密操作；一个典型的应用场景是微信群聊和QQ群聊，第一终端可以向目标用户发送基于目标用于的声纹特征加密的信息，这样，即使该信息被其他终端接收也无法解密，提升了多设备通信的隐私安全。

作为步骤S103的又一个示例，在前述的电话会议场景中，第一终端接收到语音数据后，基于所述提取出的声纹特征，在所述语音数据中滤除与所述声纹特征对应的语音数据，例如，当用户A电话会议中的发言涉密不便播放时，第一终端可以基于用户A的声纹特征将语音数据中用户A的语音滤除；

又例如，第一终端用户需要在用户A的语音数据与用户B的语音数据中插入已经提前采集的用户C的语音数据时，基于所述提取出的声纹特征与预设用户A、B的声纹特征匹配，确定所述语音数据中承载有用户A、B的语音的数据段，在用户A的数据段、用户B的语音的数据段中插入用户C的语音数据；这样对语音数据中的声纹特征进行提取，并基于预设的声纹特征语音数据中的语音对应的目标用户进行识别，可以以目标用户为单位对语音数据进行编辑处理。

本发明实施例还记载一种终端100，如图2a所示，所述终端100包括：

语音获取模块110，用于获取语音数据；

声纹提取模块120，用于从所述获取的语音数据中提取出声纹特征，

声纹匹配模块130，用于将所述声纹特征与至少一个预设声纹特征进行匹配，得到与所述提取出的声纹特征匹配的预设声纹特征；

声纹关联模块140，用于存储所述预设声纹特征与用户的信息的一一对应关系；

声纹识别模块150，用于基于与所述提取出的声纹特征匹配的预设声纹特征、以及所述声纹关联模块140存储的所述预设声纹特征与用户的信息的一一对应关系，确定与所述提取出的声纹特征对应的目标用户的信息；

响应模块160，用于基于所述提取出的声纹特征、和/或与所述提取出的声纹特征对应的目标用户的信息响应操作指令。

作为一个示例，所述语音获取模块110，还用于从获取的语音数据中提取出声纹特征之前，获取来自第二终端的语音数据，所述来自第二终端的语音数据中承载有所述第二终端的用户的语音；

所述声纹提取模块120，还用于从来自所述第二终端的语音数据中提取出所述第二终端的用户的声纹特征；

所述声纹关联模块140，还用于建立所述第二终端的用户的声纹特征与所述第二终端的用户的信息之间的对应关系。

作为一个示例，所述响应模块160，还用于当所述声纹识别模块150确定与所述提取出的声纹特征对应的用户的信息时，基于图形界面呈现与所述提取出的声纹特征对应的用户的信息，直至所接收的所述语音数据中不再承载有与所述用户的对应的语音；其中，所述语音数据中承载有至少两个所述用户的语音。

作为一个示例，如图2b所示，所述响应模块160包括：

采集单元1601，用于采集信息，利用所述提取出的声纹特征对所采集到的信息进行加密；

加密单元1602(与采集单元1601连接)，用于基于与所述提取出的声纹特征对应的目标用户的信息，向所述目标用户对应的第三终端发送加密后的信息；其中，所述加密后的信息用于使所述第三终端基于所述目标用户的声纹特征进行解密操作。

作为一个示例，如图2c所示，所述响应模块160包括：触发单元1603、滤除单元1604、编辑单元1605；

所述触发单元，用于基于所述操作指令触发所述滤除单元1604和/或所述编辑单元1605；其中，

所述滤除单元1604，用于基于所述提取出的声纹特征，在所述语音数据中滤除与所述声纹特征对应的语音数据；

所述编辑单元1605，用于基于所述提取出的声纹特征、以及与所述提取出的声纹特征对应的目标用户的信息，确定所述语音数据中承载有不同所述目标用户的语音的数据段，对所确定的数据段进行语音编辑操作。

实际应用中，语音获取模块110可由终端中的支持通信的专用集成电路模块，以直接接收语音数据，通信的类型包括：蜂窝通信、WiFi通信，语音获取模块110可由终端中的支持音频采集的专用集成电路实现；声纹提取模块120、声纹匹配模块130、声纹识别模块150可由终端设备中的处理器，数字信号处理器(DSP)实现；声纹关联模块140可以存储介质(如闪存、硬盘、卡型存储器)、结合处理器或数字信号处理器(DSP)实现。

下面再结合电话会议场景中对语音数据进行特征提取，并对电话会议中的当前发言者进行提示的处理进行说明。

具体的实现过程如图3所示，包括以下步骤：

步骤S201，终端的图形界面呈现声纹提取开关，提示用户根据自身需要自行选择是否打开。

步骤S202，当用户打开上述开关，并通讯录中的联系人进行语音通话时，终端开始自动提取通话用户声纹数据。

语音获取模块110实时采集来自参与电话会议的其他终端语音数据，发送到声纹提取模块120进行声纹特征提取；

提取声纹特征的实现方式包括：基音频谱及其轮廓、基音帧的能量、基音共振峰的出现频率及其轨迹；线性预测倒谱、线谱对、自相关和对数面积比、MFCC、感知线性预测以及小波变换技术等。

步骤S203，建立提取的声纹特征与当前进行语音通话的联系人的对应关系，把声纹特征与联系人的对应关系数据通过文件的形式进行存储。

通过多次执行步骤S202至步骤S203，声纹关联模块140可以建立通讯录中所有联系人与联系人的声纹特征的对应关系。

步骤S204，进入会议电话模式，对当前通话中对方发言者的声纹特征进行实时提取，与已保存的联系人的声纹特征匹配，得到通讯录中当前发言者的信息。

匹配中适配的语音模型包括：矢量化模型、随机模型、神经网络模型。

步骤S205，显示当前发言者的信息。

本发明实施例还记载一种计算机存储介质，所述计算机存储介质中存储有可执行指令，所述可执行指令用于执行图1或图3所示的语音数据处理流程。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：移动存储设备、随机存取存储器(RAM，RandomAccessMemory)、只读存储器(ROM，Read-OnlyMemory)、磁碟或者光盘等各种可以存储程序代码的介质。

或者，本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实施例的技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括：移动存储设备、RAM、ROM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种语音数据处理方法，其特征在于，所述方法包括：

2.如权利要求1所述的方法，其特征在于，所述方法还包括：

3.如权利要求1所述的方法，其特征在于，所述基于与提取出的声纹特征、和/或与所述提取出的声纹特征对应的目标用户的信息响应操作指令，包括：

所述语音数据中承载有至少两个所述用户的语音；

当确定与所述提取出的声纹特征对应的用户的信息时，基于图形界面呈现与所述提取出的声纹特征对应的用户的信息，直至所接收的所述语音数据中不再承载有与所述用户对应的语音。

4.如权利要求1所述的方法，其特征在于，所述基于与提取出的声纹特征、和/或与所述提取出的声纹特征对应的用户的信息响应操作指令，包括：

5.如权利要求1至4任一项所述的方法，其特征在于，所述基于与提取出的声纹特征响应操作指令，包括：

6.一种终端，其特征在于，所述终端包括：

语音获取模块，用于获取语音数据；

7.如权利要求6所述的终端，其特征在于，

所述语音获取模块，还用于在所述声纹提取模块从获取的语音数据中提取出声纹特征之前，获取来自第二终端的语音数据，所述来自第二终端的语音数据中承载有所述第二终端的用户的语音；

8.如权利要求6所述的终端，其特征在于，

所述响应模块，还用于当所述声纹识别模块确定与所述提取出的声纹特征对应的用户的信息时，基于图形界面呈现与所述提取出的声纹特征对应的用户的信息，直至所接收的所述语音数据中不再承载有与所述用户对应的语音；

其中，所述语音数据中承载有至少两个所述用户的语音。

9.如权利要求6所述的终端，其特征在于，所述响应模块包括：

10.如权利要求6至9任一项所述的终端，其特征在于，所述响应模块包括：触发单元、滤除单元和编辑单元；

所述编辑单元，用于基于所述提取出的声纹特征、以及与所述提取出的声纹特征对应的目标用户的信息，确定所述语音数据中承载有不同所述目标用户的语音的数据段，对所确定的数据段进行语音编辑操作。