CN116229987A

CN116229987A - 一种校园语音识别的方法、装置及存储介质

Info

Publication number: CN116229987A
Application number: CN202211592939.2A
Authority: CN
Inventors: 郑桂鹏; 刘芝秉; 李景恒; 林弟; 张常华; 朱正辉; 赵定金
Original assignee: Guangzhou Baolun Electronics Co Ltd
Current assignee: Guangzhou Baolun Electronics Co Ltd
Priority date: 2022-12-13
Filing date: 2022-12-13
Publication date: 2023-06-06
Anticipated expiration: 2042-12-13
Also published as: CN116229987B

Abstract

本发明公开了一种校园语音识别的方法、装置及存储介质，方法包括：获取第一校园语音设备中的第一音频信号数据，对第一音频信号数据进行过滤处理，获得人声语音信息；将人声语音信息输入语音识别模型，以使语音识别模型判断人声语音信息是否包含预设暴力关键词；若是，则将人声语音信息输入声纹识别模型，以使声纹识别模型对人声语音信息进行能量值计算，并根据声纹比例因子确定人声语音信息中的声源信息；其中，声源信息包括：发出人声语音信息的人物的数量和人物的位置方向；将第一音频信号数据、第一校园语音设备的位置信息和声源信息发送到管理系统，实现校园中的暴力语音的识别和定位。

Description

一种校园语音识别的方法、装置及存储介质

技术领域

本发明涉及语音识别技术领域，尤其涉及一种校园语音识别的方法、装置及存储介质。

背景技术

语音识别是把输入语音中的词汇内容转换成对应的文本信息。现有的语音识别模型首先对语音进行处理之后，使用声学模型进行解码，之后将音节与词表进行匹配得到词序列，最后再使用语言模型得到语句。

人们在进行自然口语对话时，不仅传递声音，更重要的是传递说话人的情感状态、态度、意图等。目前智慧校园设备的语音识别功能中，缺乏专门针对暴力词汇的语音识别的关键词检索以及情感语音识别，而且不能够对获取的语音进行声源定位，语音识别性能差，不能通过对学生的语音识别全面保护校园学生的安全。

发明内容

本发明提供了一种校园语音识别的方法、装置及存储介质，以实现校园中的暴力语音的识别和定位。

为了校园中的暴力语音的识别和定位，本发明实施例提供了一种校园语音识别的方法、装置及存储介质，包括：获取第一校园语音设备中的第一音频信号数据，对所述第一音频信号数据进行过滤处理，获得人声语音信息；

将所述人声语音信息输入语音识别模型，以使所述语音识别模型判断所述人声语音信息是否包含预设暴力关键词；

若是，则将所述人声语音信息输入声纹识别模型，以使所述声纹识别模型对所述人声语音信息进行能量值计算，并根据声纹比例因子和所述人声语音信息的能量分布确定所述人声语音信息中的声源信息；其中，所述声源信息包括：发出所述人声语音信息的人物的数量和人物的位置距离和方向；

将所述第一音频信号数据、所述第一校园语音设备的位置信息和所述声源信息发送到管理系统。

作为优选方案，本发明对校园的任意一个语音设备的第一音频信号数据，并对第一音频信号数据进行特征提取，输入语音识别模型中进行语音分析，判断该第一音频信号数据中是否存在暴力语音；若判断获取到第一音频信号数据是暴力语音后，再获取到的暴力语音进行声纹分析，获取该段暴力语音的声源信息，发出所述人声语音信息的人物的数量和人物的位置距离和方向，实现在校园内实时收录学生的语音信息并检测语音信息是否为暴力语音，并判断发出暴力语音的人物数量和位置距离和方向，从而进行声源定位。

作为优选方案，获取第一语音设备中的第一音频信号数据，对所述第一音频信号数据进行过滤处理，获得人声语音信息，具体为：

将第一音频信号数据分割成语音区和静音区，去除所述语音区的噪声，将去除噪声后的语音区作为所述人声语音信息。

作为优选方案，本发明在检测语音之前先对语音信息进行人声语音区的分割提取，并提取人声语音区的特征信息，减少了对环境语音的计算，提升对人声语音分析的精度，提取出人声语音的关键词和声纹，以实现在校园内实时收录学生的语音信息并检测语音信息是否为暴力语音，根据声纹特征判断发出暴力语音的人物数量和位置距离和方向，从而进行声源定位。

作为优选方案，检测所述判断所述人声语音信息是否包含预设暴力关键词，具体为：

调用统一的API接口获取人声语音信息的第一关键词的信道信息；

将所述第一关键词的信道信息与训练语音信息中的第二关键词的信道信息进行匹配计算；其中，所述第二关键词为预设暴力关键词；

若所述第一关键词的信道信息与第二关键词的信道信息匹配相同，则语音识别模型判断所述人声语音信息包含预设暴力关键词。

作为优选方案，本发明通过对人声语音信息的关键词特征信息与训练语音信息的关键词特征信息进行匹配，判断该人声语音信息的关键词是否为暴力词汇或者负面情绪的词汇，实现在校园内实时收录学生的语音信息并检测语音信息是否为暴力语音。

作为优选方案，对所述人声语音信息进行能量值计算，并根据声纹比例因子和所述人声语音信息的能量分布确定所述人声语音信息中的声源信息，具体为：

将若干个人声语音信息分别输入若干个对应的矩阵单元中，分别计算出每个音频采集终端采集到的人声语音信息的能量值和频域能量分布；其中，第一校园语音设备配有若干个所述音频采集终端；若干个所述人声语音信息分别由不同的音频采集终端采集到的第一音频信号数据过滤处理而来；

根据每个矩阵单元的能量值和频域能量分布，提取声纹比例因子，对所述人声语音信息做均衡处理，输出矩阵能量分布；

根据矩阵能量分布和若干个音频采集终端的位置确定人物的数量和声音的方向。

作为优选方案，第一校园语音设备配有若干个所述音频采集终端，根据若干个音频采集终端采集到的第一音频信号数据过滤处理后的人声语音信息，分别计算出每个人声语音信息的能量值和频域能量分布，提取声纹比例因子，对所述人声语音信息做均衡处理，输出矩阵能量分布；根据矩阵能量分布和若干个音频采集终端的位置确定人物的数量和声音的方向，从而进行声源定位。

作为优选方案，将所述人声语音信息输入语音识别模型之前，还包括：

获取若干训练音频数据，提取所述训练音频数据的特征信息；其中，所述训练音频数据包括含有暴力词汇或情感关键词的人声语音和不含有暴力词汇或情感关键词的人声语音；

根据所述特征信息将所述训练音频数据分割成语音区和静音区；根据所述语音区和所述静音区的特征类型，对所述特征信息进行融合计算，获得所述训练音频数据的特征参数；

根据所述特征参数，分别对所述训练音频数据的语音区和静音区的信道进行建模，获得语音识别模型。

作为优选方案，本发明在将人声语音信息输入语音识别模型之前，先对语音识别模型进行训练，将含有暴力词汇或情感关键词的人声语音和不含有暴力词汇或情感关键词的人声语音作为训练音频数据，以便模型能训练区分含有暴力词汇或情感关键词和不含有暴力词汇或情感关键词的多种特征值，并根据各自特点加以融合，根据融合后的特征参数建立的模型能够检测语音信息是否为暴力语音以及该语音信息所表达的情绪值。

作为优选方案，将所述声纹参数输入声纹识别模型之前，还包括：

获取若干训练音频数据，提取所述训练音频数据的第一能量特征信息；对所述第一能量特征信息进行融合计算，获得所述训练音频数据的声纹特征参数；根据所述声纹特征参数，对所述训练音频数据进行建模，获得声纹识别模型。

作为优选方案，本发明在将声纹参数输入声纹识别模型之前，对声纹识别模型进行训练，提取所述训练音频数据的第一能量特征信息，获取该段训练音频数据的声纹特征参数，根据所述声纹特征参数，对声纹识别模型进行训练，以使声纹识别模型实现判断发出暴力语音的人物数量和位置距离和方向，从而进行声源定位。

作为优选方案，将所述第一音频信号数据、所述第一校园语音设备的位置信息和所述声源信息发送到管理系统之前，还包括：

通过播音设备播放警报信息；若播放警报信息后的预设时间内，再次检测到暴力语音，则将第一音频信号数据、所述第一校园语音设备的位置信息和所述声源信息发送到管理系统。

作为优选方案，本发明在预设时间内二次检测到暴力语音时，将所述人声语音信息、获取所述人声语音信息的语音设备的位置和所述人声语音信息的人物信息发送到管理系统以通知管理员暴力语音内容，人数和人物位置，实现在校园内实时收录学生的语音信息并检测语音信息是否为暴力语音，进行暴力语音的声源定位，及时通知管理员并发送相关内容，全面保护校园的学生安全。

相应地，本发明还提供一种校园语音识别的装置，包括：获取模块、暴力检测模块、声纹定位模块和信息发送模块；

其中，所述获取模块用于获取校园语音设备中的音频信号数据，对所述音频信号数据进行特征提取，获得人声语音信息；

所述暴力检测模块用于将所述人声语音信息输入语音识别模型，以使所述语音识别模型判断所述人声语音信息是否包含预设暴力关键词；

所述声纹定位模块用于若所述人声语音信息包含预设暴力关键词，则将所述人声语音信息输入声纹识别模型，以使所述声纹识别模型对所述人声语音信息进行能量值计算，并根据声纹比例因子和所述人声语音信息的能量分布确定所述人声语音信息中的声源信息；其中，所述声源信息包括：发出所述人声语音信息的人物的数量和人物的位置距离和方向；

所述信息发送模块用于将所述第一音频信号数据、所述第一校园语音设备的位置信息和所述声源信息发送到管理系统。

作为优选方案，本发明校园语音识别的装置的获取模块获取校园的任意一个语音设备的第一音频信号数据，并对第一音频信号数据进行特征提取获得人声语音信息，暴力检测模块将人声语音信息输入语音识别模型中进行语音分析，判断该第一音频信号数据中是否存在暴力语音；若判断获取到第一音频信号数据是暴力语音后，声纹定位模块将获取到的暴力语音进行声纹分析，获取该段暴力语音的声源信息，发出所述人声语音信息的人物的数量和人物的位置距离和方向，实现在校园内实时收录学生的语音信息并检测语音信息是否为暴力语音，并判断发出暴力语音的人物数量和位置距离和方向，从而进行声源定位。信息发送模块及时将暴力语言的声源信息反馈给管理人员。

作为优选方案，获取模块包括分割单元和特征提取单元；

所述分割单元用于将第一音频信号数据分割成语音区和静音区，获取所述语音区；

所述特征提取单元用于提取所述语音区的人声语音信息；其中，所述人声语音信息包括关键词特征信息和声纹特征信息。

作为优选方案，本发明分割单元在检测语音之前先对语音信息进行人声语音区的分割提取，特征提取单元提取人声语音区的特征信息，减少了对环境语音的计算，提升对人声语音分析的精度，提取出人声语音的关键词和声纹，以实现在校园内实时收录学生的语音信息并检测语音信息是否为暴力语音，根据声纹特征判断发出暴力语音的人物数量和位置距离和方向，从而进行声源定位。

作为优选方案，暴力检测模块包括训练单元和检测单元；

所述训练单元用于获取若干训练音频数据，提取所述训练音频数据的特征信息；其中，所述训练音频数据包括含有暴力词汇或情感关键词的人声语音和不含有暴力词汇或情感关键词的人声语音；

根据所述特征参数，分别对所述训练音频数据的语音区和静音区的信道进行建模，获得语音识别模型；

所述检测单元用于提取人声语音信息的第一关键词的特征信息；调用统一的API接口获取所述第一关键词的特征信息；将所述第一关键词的特征信息与训练语音信息中的第二关键词的特征信息进行匹配计算，判断所述第一关键词是否为暴力词汇；若所述第二关键词为暴力词汇且所述第一关键词的特征信息与第二关键词的特征信息匹配相同，则判断所述第一关键词为暴力词汇。

作为优选方案，本发明在将人声语音信息输入语音识别模型之前，训练单元先对语音识别模型进行训练，将含有暴力词汇或情感关键词的人声语音和不含有暴力词汇或情感关键词的人声语音作为训练音频数据，以便模型能训练区分含有暴力词汇或情感关键词和不含有暴力词汇或情感关键词的多种特征值，并根据各自特点加以融合，根据融合后的特征参数建立的模型能够检测语音信息是否为暴力语音以及该语音信息所表达的情绪值；检测单元通过对人声语音信息的关键词特征信息与训练语音信息的关键词特征信息进行匹配，判断该人声语音信息的关键词是否为暴力词汇或者负面情绪的词汇，实现在校园内实时收录学生的语音信息并检测语音信息是否为暴力语音。

相应地，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质包括存储的计算机程序；其中，所述计算机程序在运行时控制所述计算机可读存储介质所在的设备执行如本发明内容所述的一种校园语音识别的方法。

附图说明

图1是本发明提供的校园语音识别的方法的一种实施例的流程示意图；

图2是本发明提供的校园语音识别的装置的一种实施例的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一

请参照图1，为本发明实施例提供的一种校园语音识别的方法，包括步骤S101-S104：

步骤S101：获取第一校园语音设备中的第一音频信号数据，对所述第一音频信号数据进行过滤处理，获得人声语音信息；

在本实施例中，获取第一语音设备中的第一音频信号数据，对所述第一音频信号数据进行过滤处理，获得人声语音信息，具体为：

在本实施例中，将第一音频信号数据分割成语音区和静音区，去除所述语音区的噪声，将去除噪声后的语音区作为所述人声语音信息，具体为：

将第一音频信号数据经过汉宁窗和短时快速傅里叶变换从时域变换到频域进行分割处理；

将分割后的第一音频信号数据输入IIR滤波器进行过滤处理，将分割后的第一音频信号数据含有噪声的频段削弱，含有人声的音频增强，最后经过傅里叶逆变换到时域，获取人声语音信息。

在本实施例中，对第一音频信号数据分割过滤处理，具体为：

调整第一音频信号数据的增益随机为0.01～10，噪声增益随机为0.1～10，增益的增加按帧来计算，获得增益后的音频信号数据；将增益后的音频信号数据通过随机二阶滤波器处理，获得语音信号和噪声信号；

计算语音信号的语音能量值，根据语音能量值特性，计算1个语音vad特征点；计算噪声信号的能量谱，得到22个声纹特征点；混合增益处理后的语音信号和噪声信号，得到带噪语音信号，计算混合特征点，得到44个混合特征点；

计算语音信号的能量值/带噪语音能量的比值、vad特征点及静音语音信号，得到22个增益特征点。

在本实施例中，根据训练数据对深度神经网络模型进行训练，提取训练数据的44个混合特征点、22个增益特征点和1个语音vad特征点输入深度神经网络模型进行训练，深度神经网络模型输出人声语言信号。将10％的训练数据作为验证测试集，把剩余训练数据分成32份，训练次数为120次。

步骤S102：将所述人声语音信息输入语音识别模型，以使所述语音识别模型判断所述人声语音信息是否包含预设暴力关键词；

在本实施例中，检测所述判断所述人声语音信息是否包含预设暴力关键词，具体为：

在本实施例中，将所述人声语音信息输入语音识别模型之前，还包括：

在本实施例中，根据所述语音区和所述静音区的特征类型，对特征信息进行融合计算，使用DenseNet-LSTM的网络结构，建立初始语音识别模型，利用若干训练音频数据对初始语音识别模型进行训练，根据测试集判断模型准确率大于99.5％后，获得语音识别模型。

在本实施例中，语音识别模型每获取一段人声语音信息，生成一个SDK；在alsa-lib库对应用程序提供了统一的API接口采集人声语音信息的关键字的信道信息，并将人声语音信息的关键字的信道信息与训练语音信息中的第二关键词的信道信息进行匹配计算；其中，所述第二关键词包括但不限于预设的暴力词汇和预设情感关键词；所述情感关键词为从人声语音信息的文本中智能识别并提炼对文本整体情绪影响最大的关键信息。

在本实施例中，每次获取一段人声语音信息后，将获取的人声语音信息和计算的结果作为训练数据，积累语音识别模型的学习经验。

在本实施例中，基于情绪解析引擎，可以针对人声语音信息所表达的情绪极值以及情绪进行全量分析，由服务器里面的超算进行训练以更新暴力文字解析的网络模型及参数，并把训练好的模型在空闲时间加载语音识别中。

步骤S103：若是，则将所述人声语音信息输入声纹识别模型，以使所述声纹识别模型对所述人声语音信息进行能量值计算，并根据声纹比例因子和所述人声语音信息的能量分布确定所述人声语音信息中的声源信息；其中，所述声源信息包括：发出所述人声语音信息的人物的数量和人物的位置距离和方向；

在本实施例中，对所述人声语音信息进行能量值计算，并根据声纹比例因子和所述人声语音信息的能量分布确定所述人声语音信息中的声源信息，具体为：

在本实施例中，通过采集人声语音信息的声纹进行累加对比，对比声纹的区别和频率的差异确定人物的数量。

在本实施例中，将所述声纹参数输入声纹识别模型之前，还包括：

在本实施例中，将若干个人声语音信息分别输入4个对应的矩阵单元中，分别计算出每个音频采集终端采集到的人声语音信息的能量值和频域能量分布；其中，第一校园语音设备配有4个朝着不同方向的单指向音频采集终端；其中，所述音频采集终端包括但不限于麦克风设备；若干个所述人声语音信息分别由不同的音频采集终端采集到的第一音频信号数据过滤处理而来；

在本实施例中，第一校园语音设备运行时，4个音频采集终端同时工作并采集音频，并分别输入4个对应的矩阵单元中，每个单元所采集的音频有不同的能量值大小，且频域各个频段的能量分布不一致。针对不同矩阵单元总的能量之比与不同频段的能量分布比例，即声纹比例因子，将比例大的信号做增强处理，比例小的信号做衰减处理。

在本实施例中，31段的均衡器利用差分方程和传递函数对信号做增强和衰减处理，在每段信号的中心频点处均衡进行相应的增益调节；增益调节的值大小由矩阵计算因子控制；均衡器采用双二阶滤波器。

差分方程为：

y[n]＝(b0/a0)*x[n]+(b1/a0)*x[n-1]+(b2/a0)*x[n-2]-(a1/a0)*y[n-1]-(a2/a0)*y[n-2]；

其中a0,a1,a2,b0,b1,b2为双阶滤波器的系数，y[n]为当前的音频输出，x[n]为当前的音频输入，x[n-1]为上一时刻的音频输入，y[n-1]为上一时刻的音频输出值，y[n-2]为上上个时刻的音频输出值，y[n-1]与y[n-2]均为系统的反馈值。

传递函数为：

H(z)＝(b0+b1*z^-1+b2*(z^-2))/(1+a1*z^-1+a2*z^-2)；

其中a1,a2,b0,b1,b2为双阶滤波器的系数，H(z)为差分方程中y[n]的Z变换；分子上的z^-1与z^-2为差分方程中x[n-1]与x[n-2]的Z变换；分母上的z^-1与z^-2为差分方程中y[n-1]与y[n-2]的Z变换。

当前的不同矩阵单元的声纹比例因子会保存下来，为下次的矩阵计算作为反馈信号处理，实现动态调节矩阵计算因子。

在本实施例中，在多特征融合的基础上，使用DenseNet-LSTM的网络结构中人语音特征的声纹特征信息，距离越远声音越大，距离越近声音越小。通过矩阵的能量分布，可以判断声音的方向以及距离。第一校园语音设备配有4个朝着不同方向的单指向麦克风；通过四个麦克风检测到的矩阵单元的能量大小确定声音离麦克风的距离，最大的矩阵能量值与最小矩阵能量值之比，比值乘以一个系数即为距离。

通四个矩阵单元能量值的相互比值确定声音的方向，经过一定处理后，映射为0-3：0为麦克风0与麦克风1之间的方向，1为麦克风1与麦克风2之间的方向，2为麦克风2与麦克风3之间的方向，3位麦克风3与麦克风0之间的方向。

步骤S104：将所述第一音频信号数据、所述第一校园语音设备的位置信息和所述声源信息发送到管理系统。

在本实施例中，通过播音设备播放警报信息；若播放警报信息后的预设时间内，再次检测到暴力语音，则将第一音频信号数据、所述第一校园语音设备的位置信息和所述声源信息发送到管理系统。

在本实施例中，若判断人声语音信息包含预设暴力关键词；将检测到的第一音频信号数据的暴力关键词通过以太网模块发数据给后台MySQL，通过播音设备播放警报信息；若播放警报信息后的预设时间内，再次检测到暴力语音，则将暴力关键词、第一音频信号数据、所述第一校园语音设备的位置信息和所述声源信息发送到管理系统。

在本实施例中，校园语音系统包括若干个校园语音设备和管理系统，校园语音设备用于采集语音和播放警报信息。

校园语音系统还包括：网络接口和控制终端，网络接口用于连接控制终端。控制终端可以直接通过netplan配置工具进行修改IP、子网掩码、网关、DHCP服务、脚本协助配置修改IP、子网掩码、网关、DHCP服务以及利用TCP网络协议通讯下发指令进行发送广播包；各个校园语音设备逐个应答，每五秒轮训一次心跳包，发送心跳包保证各个校园语音设备一直在线，各个校园语音设备就可以配置设备工具进行修改IP、子网掩码、网关、DHCP服务播放音乐和调音量。

在本实施例中，在晚上十一点至一点，位于宿舍区域的校园语音设备实时检测语音音量大小，如果当前校园语音设备检测到语音音量处于40-70分贝的频段，校园语音设备自动播放警报信息；若播放警报信息后的预设时间内，再次检测到处于40-70分贝的频段的语音，则将校园语音设备的位置信息和采集到的语音信息发送到通过以太网模块发数据给后台MySQL并通知管理员。

在本实施例中，实施本发明实施例，具有如下效果：

本发明对校园的任意一个语音设备的第一音频信号数据，并对第一音频信号数据进行特征提取，输入语音识别模型中进行语音分析，判断该第一音频信号数据中是否存在暴力语音；若判断获取到第一音频信号数据是暴力语音后，再获取到的暴力语音进行声纹分析，获取该段暴力语音的声源信息，发出所述人声语音信息的人物的数量和人物的位置距离和方向，实现在校园内实时收录学生的语音信息并检测语音信息是否为暴力语音，并判断发出暴力语音的人物数量和位置距离和方向，从而进行声源定位。

实施例二

请参照图2，为本发明实施例提供的一种校园语音识别的装置，包括：获取模块201、暴力检测模块202、声纹定位模块203和信息发送模块204；

其中，所述获取模块201用于获取校园语音设备中的音频信号数据，对所述音频信号数据进行特征提取，获得人声语音信息；

所述暴力检测模块202用于将所述人声语音信息输入语音识别模型，以使所述语音识别模型判断所述人声语音信息是否包含预设暴力关键词；

所述声纹定位模块203用于若所述人声语音信息包含预设暴力关键词，则将所述人声语音信息输入声纹识别模型，以使所述声纹识别模型对所述人声语音信息进行能量值计算，并根据声纹比例因子和所述人声语音信息的能量分布确定所述人声语音信息中的声源信息；其中，所述声源信息包括：发出所述人声语音信息的人物的数量和人物的位置距离和方向；

所述信息发送模块204用于将所述第一音频信号数据、所述第一校园语音设备的位置信息和所述声源信息发送到管理系统。

所述获取模块201包括分割单元和特征提取单元；

所述暴力检测模块202包括训练单元和检测单元；

上述的校园语音识别的装置可实施上述方法实施例的校园语音识别的方法。上述方法实施例中的可选项也适用于本实施例，这里不再详述。本申请实施例的其余内容可参照上述方法实施例的内容，在本实施例中，不再进行赘述。

实施本发明实施例，具有如下效果：

本发明校园语音识别的装置的获取模块获取校园的任意一个语音设备的第一音频信号数据，并对第一音频信号数据进行特征提取获得人声语音信息，暴力检测模块将人声语音信息输入语音识别模型中进行语音分析，判断该第一音频信号数据中是否存在暴力语音；若判断获取到第一音频信号数据是暴力语音后，声纹定位模块将获取到的暴力语音进行声纹分析，获取该段暴力语音的声源信息，发出所述人声语音信息的人物的数量和人物的位置距离和方向，实现在校园内实时收录学生的语音信息并检测语音信息是否为暴力语音，并判断发出暴力语音的人物数量和位置距离和方向，从而进行声源定位。信息发送模块及时将暴力语言的声源信息反馈给管理人员。

实施例三

相应地，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质包括存储的计算机程序，其中，在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如上任意一项实施例所述的校园语音识别的方法。

示例性的，所述计算机程序可以被分割成一个或多个模块/单元，所述一个或者多个模块/单元被存储在所述存储器中，并由所述处理器执行，以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述所述计算机程序在所述终端设备中的执行过程。

所述终端设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述终端设备可包括，但不仅限于，处理器、存储器。

所称处理器可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，所述处理器是所述终端设备的控制中心，利用各种接口和线路连接整个终端设备的各个部分。

所述存储器可用于存储所述计算机程序和/或模块，所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块，以及调用存储在存储器内的数据，实现终端设备的各种功能。所述存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序等；存储数据区可存储根据移动终端的使用所创建的数据等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(SecureDigital,SD)卡，闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

其中，所述终端设备集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步的详细说明，应当理解，以上所述仅为本发明的具体实施例而已，并不用于限定本发明的保护范围。特别指出，对于本领域技术人员来说，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种校园语音识别的方法，其特征在于，包括：

获取第一校园语音设备中的第一音频信号数据，对所述第一音频信号数据进行过滤处理，获得人声语音信息；

2.如权利要求1所述的一种校园语音识别的方法，其特征在于，所述获取第一语音设备中的第一音频信号数据，对所述第一音频信号数据进行过滤处理，获得人声语音信息，具体为：

3.如权利要求2所述的一种校园语音识别的方法，其特征在于，所述判断所述人声语音信息是否包含预设暴力关键词，具体为：

4.如权利要求1所述的一种校园语音识别的方法，其特征在于，所述对所述人声语音信息进行能量值计算，并根据声纹比例因子和所述人声语音信息的能量分布确定所述人声语音信息中的声源信息，具体为：

5.如权利要求1所述的一种校园语音识别的方法，其特征在于，所述将所述人声语音信息输入语音识别模型之前，还包括：

6.如权利要求1所述的一种校园语音识别的方法，其特征在于，所述将所述声纹参数输入声纹识别模型之前，还包括：

7.如权利要求1所述的一种校园语音识别的方法，其特征在于，所述将所述第一音频信号数据、所述第一校园语音设备的位置信息和所述声源信息发送到管理系统之前，还包括：

8.一种校园语音识别的装置，其特征在于，包括：获取模块、暴力检测模块、声纹定位模块和信息发送模块；

9.如权利要求8所述的一种校园语音识别的装置，其特征在于，所述获取模块包括分割单元和特征提取单元；

10.如权利要求8所述的一种校园语音识别的装置，其特征在于，所述暴力检测模块包括训练单元和检测单元；