CN105895079A - 语音数据的处理方法和装置 - Google Patents
语音数据的处理方法和装置 Download PDFInfo
- Publication number
- CN105895079A CN105895079A CN201510926346.9A CN201510926346A CN105895079A CN 105895079 A CN105895079 A CN 105895079A CN 201510926346 A CN201510926346 A CN 201510926346A CN 105895079 A CN105895079 A CN 105895079A
- Authority
- CN
- China
- Prior art keywords
- speech data
- music score
- acoustic feature
- chinese operas
- benchmark
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 20
- 238000000034 method Methods 0.000 claims abstract description 33
- 238000005070 sampling Methods 0.000 claims description 9
- 238000000605 extraction Methods 0.000 claims description 4
- 230000000644 propagated effect Effects 0.000 description 8
- 238000010586 diagram Methods 0.000 description 5
- 239000000284 extract Substances 0.000 description 5
- 210000002569 neuron Anatomy 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 241000208340 Araliaceae Species 0.000 description 1
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 description 1
- 235000003140 Panax quinquefolius Nutrition 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 238000000151 deposition Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 235000008434 ginseng Nutrition 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000002156 mixing Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000007935 neutral effect Effects 0.000 description 1
- 230000033764 rhythmic process Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 230000005654 stationary process Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例提供一种语音数据的处理方法和装置。所述处理方法包括:获取待处理的语音数据;从所述待处理的语音数据中提取相应的声学特征信息;根据所述声学特征信息查找预先存储的基准声学特征曲谱表,获取所述待处理的语音数据对应的曲谱。采用本发明实施例,可以快速获取语音数据的曲谱,增强曲谱的传播性,提高用户体验。
Description
技术领域
本发明涉及计算机技术,尤其涉及一种语音数据的处理方法和装置。
背景技术
随着互联网的普及和音频视频技术的提升,人们的日常娱乐生活越来越丰富,例如可以到KTV唱歌,或者通过视频直播的方式为在线用户唱歌等。
音乐会让人赏心悦目,可以陶冶人的情操,因此很多人喜欢音乐。音乐中并不单单包括歌词还包括曲谱,曲谱是准确记录音乐的载体,它是记录音乐音高或者节奏的各种书面符号的有规律的组合。曲谱是音乐的重要组成部分。
然而,没有学过音乐的人只知道歌词,而并不知道曲谱,而且也无法识别曲谱,并且用户头脑里偶尔闪过的新奇音乐想法也很快会被遗忘,这样,人们只能通过录音设备将自己的几句音调录下来,而这种方式的传播性并不强,用户体验也较差。
发明内容
本发明的目的在于,提供一种对语音数据进行谱曲的方法以及实现该方法的装置,基于从待处理的语音数据中获取的声学特征信息,获取待处理的语音数据对应的曲谱,从而可以快速获取语音数据的曲谱,增强曲谱的传播性,提高用户体验。
根据本发明的一方面,提供一种语音数据的处理方法。所述处理方法包括,获取待处理的语音数据;从所述待处理的语音数据中获取相应的声学特征信息;根据所述声学特征信息查找预先存储的基准声学特征曲谱表,获取所述待处理的语音数据对应的曲谱。
优选地,所述根据所述声学特征信息查找预先存储的基准声学特征曲谱表,获取所述待处理的语音数据对应的曲谱的处理包括:根据所述声学特征信息查找所述预先存储的基准声学特征曲谱表中所在的基准声学特征信息范围值;将查找到的基准声学特征信息范围值对应的曲谱作为所述待处理的语音数据对应的曲谱。
优选地,所述处理方法还包括:输出所述待处理的语音数据和获取的曲谱。
优选地,所述从所述待处理的语音数据中获取相应的声学特征信息的处理包括:根据所述待处理的语音数据的采样时间,将所述待处理的语音数据分割成多个预设时长的数据段,从任一数据段中获取相应的声学特征信息。
优选地,所述基准声学特征曲谱表中包括音阶、音调、半音阶、半音调和/或长音。
根据本发明的另一方面,提供一种语音数据的处理装置。所述处理装置包括:语音数据获取模块,用于获取待处理的语音数据;声学特征获取模块,用于从所述语音数据获取模块获取的待处理的语音数据中获取相应的声学特征信息;曲谱获取模块,用于根据所述声学特征获取模块获取的声学特征信息查找预先存储的基准声学特征曲谱表,获取所述待处理的语音数据对应的曲谱。
优选地,所述曲谱获取模块包括:信息查找单元,用于根据所述声学特征获取模块获取的声学特征信息查找所述预先存储的基准声学特征曲谱表中所在的基准声学特征信息范围值;曲谱获取单元,用于将所述信息查找单元查找到的基准声学特征信息范围值对应的曲谱作为所述待处理的语音数据对应的曲谱。
优选地,所述处理装置还包括:曲谱输出模块,用于输出所述待处理的语音数据和获取的曲谱。
优选地,所述声学特征获取模块用于:根据所述语音数据获取模块获取的待处理的语音数据的采样时间,将所述待处理的语音数据分割成多个预设时长的数据段,从任一数据段中提取相应的声学特征信息。
优选地,所述基准声学特征曲谱表中包括音阶、音调、半音阶、半音调和/或长音。
根据本发明实施例提供的语音数据的处理方法和装置,通过从获取的待处理的语音数据中获取相应的声学特征信息,并根据所述声学特征信息查找预先存储的基准声学特征曲谱表,获取所述待处理的语音数据对应的曲谱,从而可以快速获取语音数据的曲谱,增强曲谱的传播性,提高用户体验。
附图说明
图1是示出根据本发明实施例一的语音数据的处理方法的流程图;
图2是示出语音数据处理的应用程序的首页的显示界面的示例性示意图;
图3是示出根据本发明实施例二的语音数据的处理方法的流程图;
图4是示出包含曲谱的语音数据处理的应用程序的首页的显示界面的示例性示意图;
图5是示出根据本发明实施例三的语音数据的处理装置的一种逻辑框图;
图6是示出根据本发明实施例三的语音数据的处理装置的另一种逻辑框图;
图7是示出根据本发明实施例三的语音数据的处理装置的又一种逻辑框图。
具体实施方式
本方案的发明构思是,提供一种对语音数据进行谱曲的技术方案,该技术方案可应用于录音棚、在线视频直播等语音数据处理场景中,通过从获取的待处理的语音数据中获取相应的声学特征信息,并根据所述声学特征信息查找预先存储的基准声学特征曲谱表,获取所述待处理的语音数据对应的曲谱,从而可以快速获取语音数据的曲谱,增强曲谱的传播性,提高用户体验。
下面结合附图详细描述本发明的示例性实施例。
实施例一
图1是示出根据本发明实施例一的语音数据的处理方法的流程图。通过包括如图5所示的处理装置的计算机系统执行所述处理方法。
参照图1,在步骤S110,获取待处理的语音数据。
终端设备中可安装有语音数据处理的应用程序,当用户需要对自己或其他用户演唱的歌曲或曲调进行谱曲时,可点击该应用程序的快捷方式图标,终端设备启动该应用程序,并显示该应用程序的首页,如图2所示,该首页中可包括话筒图标、语音输入框、输出框和帮助图标等,其中,话筒图标可包括激活状态和未激活状态,例如,当用户点击该话筒图标时,终端设备启动话筒,并通过话筒采集用户输入的语音数据,此时,话筒图标处于激活状态;如果用户在预定时长内未输入语音数据,则终端设备可关闭话筒,此时,话筒图标处于未激活状态;语音输入框可用于显示用户输入的语音数据的图标,或该语音数据的文本等,以便用户确定终端设备采集的语音数据是否准确;输出框可用于输出对该语音数据处理后得到的数据等。终端设备显示该应用程序的首页后,可启动话筒,此时,话筒图标处于激活状态,然后,用户可将终端设备的话筒朝向演唱歌曲或曲调的用户,终端设备可通过话筒采集用户输入的语音数据(即待处理的语音数据)。该首页中还可包括确定按键,当用户输入完成后可点击确定按键,终端设备获取话筒采集的待处理的语音数据,或者,可以预先设置接收时长阈值,当用户停止输入后的时长达到接收时长阈值时,可以将用户停止输入之前输入的语音数据确定为待处理的语音数据。
需要说明的是,如果用户的声音过小,终端设备无法接收到语音数据,则终端设备可发出语音数据接收失败的提示信号,以提示用户重新输入。
在步骤S120,从所述待处理的语音数据中获取相应的声学特征信息。
具体地,终端设备可以对待处理的语音数据进行预处理,例如,对该语音数据进行如采样(采样频率可以为10KHz或16KHz等)、反混叠滤波、去除声门激励和噪声影响等处理,然后,可以对处理后的语音数据进行特征提取,其中,特征提取的作用是从语音数据的波形中提取一组或多组能够描述语音数据中声学属性特征的参数,如平均能量、过零数、共振峰、倒谱、线性预测系数等,以便进行后续的语音训练和声学特征信息的获取,而且该参数的选择直接关系着语音数据中声学特征信息的准确率的高低。通过对该语音数据的上述参数的分析,可得到该语音数据的声学特征信息,如音调信息、音色信息、响度信息和/或音阶信息等。
在步骤S130,根据所述声学特征信息查找预先存储的基准声学特征曲谱表,获取所述待处理的语音数据对应的曲谱。
具体地,终端设备中可以预先存储有基准声学特征曲谱表,该基准声学特征曲谱表中可包括多个基准声学特征信息,该基准声学特征曲谱表可以是通过对上述处理得到的语音数据进行大量训练得到的,也可以是由通用的标准声学特征信息构成。终端设备可以将基准声学特征曲谱表中的每一个基准声学特征信息与该声学特征信息进行对比,并计算得到该声学特征信息与每个基准声学特征信息的匹配度,可将匹配度最高的第一基准声学特征信息确定为该语音数据对应的声学特征信息,终端设备可对得到的第一基准声学特征信息进行分析,并基于第一基准声学特征信息中的音调信息、音色信息、响度信息和/或音阶信息等信息设置相应的曲谱,从而得到该语音数据对应的曲谱。
本发明实施例提供的语音数据的处理方法,通过从获取的待处理的语音数据中获取相应的声学特征信息,并根据所述声学特征信息查找预先存储的基准声学特征曲谱表,获取所述待处理的语音数据对应的曲谱,从而可以快速获取语音数据的曲谱,增强曲谱的传播性,提高用户体验。
实施例二
图3是示出根据本发明实施例二的语音数据的处理方法的流程图,所述实施例可视为图1的又一种具体的实现方案。
参照图3,在步骤S310,获取待处理的语音数据。
其中,上述步骤S310的步骤内容与上述实施例一中的步骤S110的步骤内容相同,在此不再赘述。
在步骤S320,根据所述待处理的语音数据的采样时间,将所述待处理的语音数据分割成多个预设时长的数据段,从任一数据段中获取相应的声学特征信息。
具体地,由于语音数据对应的语音信号通常可看作为短时平稳的信号,例如可以认为在该语音数据的相邻采样时间之间(如10-20ms)的语音信号为短时平稳的信号,其频谱特性和某些物理特征参量可近似地看作是不变的,这样就可以采用平稳过程的分析处理方法,对待处理的语音数据进行处理,具体可以为:可将待处理的语音数据根据采样时间分隔成多个预设时长(如10-20ms)的数据段,可以对每一个数据段进行端点检测,其中,端点检测就是指从包含语音的一段数据中确定出语音的起始点和结束点。然后,可以对每一个数据段进行特征提取,从每一个数据段中提取一组或多组能够描述相应数据段中声学属性特征的参数,通过对每一个数据段的上述参数的分析,可得到每一个数据段的声学特征信息。
在步骤S330,根据所述声学特征信息查找所述预先存储的基准声学特征曲谱表中所在的基准声学特征信息范围值。
其中,所述基准声学特征曲谱表中包括音阶、音调、半音阶、半音调和/或长音。
具体地,终端设备中可以预先存储有基准声学特征曲谱表,该基准声学特征曲谱表中可包括音阶、音调、半音阶、半音调和/或长音等多个基准声学特征信息,可根据预定的划分标准分别为音阶、音调、半音阶、半音调和/或长音等划分不同的识别范围,并设置相应的范围值,该基准声学特征曲谱表可以是通过对语音数据进行大量训练而得到,也可以使用通用的标准声学特征信息组成。可根据预定标准为每一个数据段的声学特征信息设置特征值,针对该语音数据中的某一个数据段的声学特征信息,终端设备可以将基准声学特征曲谱表中的每一个基准声学特征信息与该数据段的声学特征信息进行对比,在基准声学特征曲谱表中查找到该数据段的声学特征信息的特征值所在的基准声学特征信息范围值。通过上述方式可以对该语音数据中的其他数据段执行上述处理,分别基准声学特征曲谱表中查找到每个数据段的声学特征信息的特征值所在的基准声学特征信息范围值。
在步骤S340,将查找到的基准声学特征信息范围值对应的曲谱作为所述待处理的语音数据对应的曲谱。
具体地,并计算得到该数据段的声学特征信息与每个基准声学特征信息的匹配度,可将匹配度最高的第一基准声学特征信息确定为该数据段对应的声学特征信息,终端设备可对查找到的每个基准声学特征信息范围值对应的基准声学特征信息进行分析,并基于相应的基准声学特征信息中的音阶、音调、半音阶、半音调和/或长音等信息设置相应的曲谱,从而得到相应数据段对应的曲谱,通过上述方式可以对该语音数据中的其他数据段执行上述处理,分别得到每个数据段对应的曲谱,然后,可根据每个数据段对应的开始点和结束点确定数据段在该语音数据中的位置,可按照各数据段的位置对相应的曲谱进行排序,得到该语音数据对应的曲谱。
另外,对语音数据进行谱曲的处理除可通过上述方式外,还可以通过其它多种方式实现,例如,可以通过语音谱曲模型,对语音数据进行谱曲,在对语音数据进行谱曲之前,可以对上述语音谱曲模型进行训练,技术人员可以通过多种途径获取多种语音数据,例如,技术人员在开发语音谱曲机制之前,可以从多种渠道(如向用户购买等)获取语音数据,然后,使用得到的语音数据对语音谱曲模型进行训练,具体的,可以设置有多个语音谱曲模型的参数,在获取到语音数据后,提取语音数据中的相关参数,并根据该相关参数得到语音数据的声学特征信息,然后,可以对每一帧语音数据进行状态标注,具体地,可以设置神经网络模型,可以将语音数据划分成三层,则可以使用上下文的声学特征的神经网络模型,在该语音数据中提取出头层、中间层和尾层的声学特征信息,可以将三层的声学特征信息作为一个样本特征空间,并基于该样本特征空间得到其对应的声学特征信息,可以将中间层对应的声学特征信息作为一个标记。可以使用人工神经网络拓扑结构作为语音识别模型的核心,在人工神经网络拓扑结构中可以包括三层,如输入层、隐含层和输出层,首先,可以对人工神经网络进行初始化,此时,其中的每两个神经元直接的网络连接权重被初始化为一个很小的随机数(例如-1.0~1.0),同时每个神经元有一个偏置,被初始化为一个随机数,根据输入的语音数据的网络输入层,通过计算得到每个神经元的输出,其中每个神经元的计算方法相同,可以是由其输入的线性组合得到,最终在输出层得到实际输出,即对应的曲谱,可以通过与预期输出结果比较得到每个输出单元的误差,得到的误差需要从输出层向输入层传播,前面一层单元的误差可以通过和它连接的后面一层的所有单元的误差计算所得,同时可以对网络权重和神经元偏置进行调整。对于每个语音数据,如果最终的输出误差小于预设的可以接受的范围或者预设的迭代次数阈值,则对下一个语音数据继续进行上述处理,这样,进行不断训练,得到语音谱曲模型。终端设备获取到待处理的语音数据后,可以将该语音数据输入到上述语音识别模型中进行语音谱曲,得到语音谱曲结果。
在步骤S350,输出所述待处理的语音数据和获取的曲谱。
具体地,如图4所示,终端设备可在该语音数据处理的应用程序的首页中的输出框的预设位置显示待处理的语音数据的文本和获取的曲谱,图4中“XXXX”表示语音数据的文本,“a a a…”表示曲谱。
需要说明的是,待处理的语音数据的文本和获取的曲谱可以对应显示,如文本中的第一个字符对应曲谱中的第一个曲符,文本中的第二个字符对应曲谱中的第二个和第三个曲符等。
另外,该语音数据处理的应用程序的首页中还可包括播放曲谱的按键,当用户需要收听该曲谱时,可点击该按键,终端设备播放该曲谱。为了提高用户体验,在播放曲谱时,还可以播放用户输入的待处理的语音数据,这样,用户可通过终端设备的播放,了解语音数据和曲谱之间的匹配程度。
本发明实施例提供的语音数据的处理方法,一方面,通过从获取的待处理的语音数据分割成多个预设时长的数据段,从任一数据段中获取相应的声学特征信息,并根据所述声学特征信息查找预先存储的基准声学特征曲谱表,获取所述待处理的语音数据对应的曲谱,从而可快速获取语音数据的曲谱,增强曲谱的传播性,提高用户体验;另一方面,通过将待处理的语音数据和获取的曲谱输出显示,并可通过播放该曲谱,使得用户可以了解语音数据和曲谱之间的匹配程度,提高用户体验。
实施例三
基于相同的技术构思,图5是示出根据本发明实施例三的语音数据的处理装置的逻辑框图。参照图5,所述处理装置包括语音数据获取模块510、声学特征获取模块520和曲谱获取模块530,其中,语音数据获取模块510与声学特征获取模块520相连接,声学特征获取模块520与曲谱获取模块530相连接。
语音数据获取模块510用于获取待处理的语音数据。
声学特征获取模块520用于从语音数据获取模块510获取的待处理的语音数据中获取相应的声学特征信息。
曲谱获取模块530用于根据声学特征获取模块520获取的声学特征信息查找预先存储的基准声学特征曲谱表,获取所述待处理的语音数据对应的曲谱。
本发明实施例提供的语音数据的处理装置,通过从获取的待处理的语音数据中获取相应的声学特征信息,并根据所述声学特征信息查找预先存储的基准声学特征曲谱表,获取所述待处理的语音数据对应的曲谱,从而可快速获取语音数据的曲谱,增强曲谱的传播性,提高用户体验。
进一步地,在图5所示实施例的基础上,如图6所示的曲谱获取模块530包括:信息查找单元531,用于根据声学特征获取模块520获取的声学特征信息查找所述预先存储的基准声学特征曲谱表中所在的基准声学特征信息范围值;曲谱获取单元532,用于将信息查找单元531查找到的基准声学特征信息范围值对应的曲谱作为所述待处理的语音数据对应的曲谱。
进一步地,在图6所示实施例的基础上,如图7所示的处理装置还包括:曲谱输出模块540,用于输出所述待处理的语音数据和获取的曲谱。
优选地,声学特征获取模块520用于根据语音数据获取模块510获取的待处理的语音数据的采样时间,将所述待处理的语音数据分割成多个预设时长的数据段,从任一数据段中提取相应的声学特征信息。
优选地,所述基准声学特征曲谱表中包括音阶、音调、半音阶、半音调和/或长音。
进一步地,本发明实施例提供的语音数据的处理装置,一方面,通过从获取的待处理的语音数据分割成多个预设时长的数据段,从任一数据段中获取相应的声学特征信息,并根据所述声学特征信息查找预先存储的基准声学特征曲谱表,获取所述待处理的语音数据对应的曲谱,从而可快速获取语音数据的曲谱,增强曲谱的传播性,提高用户体验;另一方面,通过将待处理的语音数据和获取的曲谱输出显示,并可通过播放该曲谱,使得用户可以了解语音数据和曲谱之间的匹配程度,提高用户体验。
需要指出,根据实施的需要,可将本申请中描述的各个步骤/部件拆分为更多步骤/部件,也可将两个或多个步骤/部件或者步骤/部件的部分操作组合成新的步骤/部件,以实现本发明的目的。
上述根据本发明的方法可在硬件、固件中实现,或者被实现为可存储在记录介质(诸如CD ROM、RAM、软盘、硬盘或磁光盘)中的软件或计算机代码,或者被实现通过网络下载的原始存储在远程记录介质或非暂时机器可读介质中并将被存储在本地记录介质中的计算机代码,从而在此描述的方法可被存储在使用通用计算机、专用处理器或者可编程或专用硬件(诸如ASIC或FPGA)的记录介质上的这样的软件处理。可以理解,计算机、处理器、微处理器控制器或可编程硬件包括可存储或接收软件或计算机代码的存储组件(例如,RAM、ROM、闪存等),当所述软件或计算机代码被计算机、处理器或硬件访问且执行时,实现在此描述的处理方法。此外,当通用计算机访问用于实现在此示出的处理的代码时,代码的执行将通用计算机转换为用于执行在此示出的处理的专用计算机。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。
Claims (10)
1.一种语音数据的处理方法,其特征在于,所述处理方法包括:
获取待处理的语音数据;
从所述待处理的语音数据中获取相应的声学特征信息;
根据所述声学特征信息查找预先存储的基准声学特征曲谱表,获取所述待处理的语音数据对应的曲谱。
2.根据权利要求1所述的处理方法,其特征在于,所述根据所述声学特征信息查找预先存储的基准声学特征曲谱表,获取所述待处理的语音数据对应的曲谱的处理包括:
根据所述声学特征信息查找所述预先存储的基准声学特征曲谱表中所在的基准声学特征信息范围值;
将查找到的基准声学特征信息范围值对应的曲谱作为所述待处理的语音数据对应的曲谱。
3.根据权利要求2所述的处理方法,其特征在于,所述处理方法还包括:
输出所述待处理的语音数据和获取的曲谱。
4.根据权利要求1所述的处理方法,其特征在于,所述从所述待处理的语音数据中获取相应的声学特征信息的处理包括:
根据所述待处理的语音数据的采样时间,将所述待处理的语音数据分割成多个预设时长的数据段,从任一数据段中获取相应的声学特征信息。
5.根据权利要求1所述的处理方法,其特征在于,所述基准声学特征曲谱表中包括音阶、音调、半音阶、半音调和/或长音。
6.一种语音数据的处理装置,其特征在于,所述处理装置包括:
语音数据获取模块,用于获取待处理的语音数据;
声学特征获取模块,用于从所述语音数据获取模块获取的待处理的语音数据中获取相应的声学特征信息;
曲谱获取模块,用于根据所述声学特征获取模块获取的声学特征信息查找预先存储的基准声学特征曲谱表,获取所述待处理的语音数据对应的曲谱。
7.根据权利要求6所述的处理装置,其特征在于,所述曲谱获取模块包括:
信息查找单元,用于根据所述声学特征获取模块获取的声学特征信息查找所述预先存储的基准声学特征曲谱表中所在的基准声学特征信息范围值;
曲谱获取单元,用于将所述信息查找单元查找到的基准声学特征信息范围值对应的曲谱作为所述待处理的语音数据对应的曲谱。
8.根据权利要求7所述的处理装置,其特征在于,所述处理装置还包括:
曲谱输出模块,用于输出所述待处理的语音数据和获取的曲谱。
9.根据权利要求6所述的处理装置,其特征在于,所述声学特征获取模块用于:
根据所述语音数据获取模块获取的待处理的语音数据的采样时间,将所述待处理的语音数据分割成多个预设时长的数据段,从任一数据段中提取相应的声学特征信息。
10.根据权利要求6所述的处理装置,其特征在于,所述基准声学特征曲谱表中包括音阶、音调、半音阶、半音调和/或长音。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN201510926346.9A CN105895079B (zh) | 2015-12-14 | 2015-12-14 | 语音数据的处理方法和装置 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN201510926346.9A CN105895079B (zh) | 2015-12-14 | 2015-12-14 | 语音数据的处理方法和装置 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| CN105895079A true CN105895079A (zh) | 2016-08-24 |
| CN105895079B CN105895079B (zh) | 2022-07-29 |
Family
ID=57002399
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| CN201510926346.9A Active CN105895079B (zh) | 2015-12-14 | 2015-12-14 | 语音数据的处理方法和装置 |
Country Status (1)
| Country | Link |
|---|---|
| CN (1) | CN105895079B (zh) |
Cited By (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN108986841A (zh) * | 2018-08-08 | 2018-12-11 | 百度在线网络技术(北京)有限公司 | 音频信息处理方法、装置及存储介质 |
| CN109920449A (zh) * | 2019-03-18 | 2019-06-21 | 广州市百果园网络科技有限公司 | 节拍分析方法、音频处理方法及装置、设备、介质 |
| CN111081248A (zh) * | 2019-12-27 | 2020-04-28 | 安徽仁昊智能科技有限公司 | 一种人工智能语音识别装置 |
| CN113823281A (zh) * | 2020-11-24 | 2021-12-21 | 北京沃东天骏信息技术有限公司 | 语音信号处理方法、装置、介质及电子设备 |
Citations (6)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO2003005242A1 (en) * | 2001-03-23 | 2003-01-16 | Kent Ridge Digital Labs | Method and system of representing musical information in a digital representation for use in content-based multimedia information retrieval |
| CN101271457A (zh) * | 2007-03-21 | 2008-09-24 | 中国科学院自动化研究所 | 一种基于旋律的音乐检索方法及装置 |
| TW200929171A (en) * | 2007-12-31 | 2009-07-01 | Inventec Appliances Corp | Method of converting voice into music score |
| CN101930732A (zh) * | 2010-06-29 | 2010-12-29 | 中兴通讯股份有限公司 | 基于用户输入语音的乐曲生成方法及装置、智能终端 |
| CN104978962A (zh) * | 2014-04-14 | 2015-10-14 | 安徽科大讯飞信息科技股份有限公司 | 哼唱检索方法及系统 |
| CN104992712A (zh) * | 2015-07-06 | 2015-10-21 | 成都云创新科技有限公司 | 能识别音乐自动成谱的方法 |
-
2015
- 2015-12-14 CN CN201510926346.9A patent/CN105895079B/zh active Active
Patent Citations (6)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO2003005242A1 (en) * | 2001-03-23 | 2003-01-16 | Kent Ridge Digital Labs | Method and system of representing musical information in a digital representation for use in content-based multimedia information retrieval |
| CN101271457A (zh) * | 2007-03-21 | 2008-09-24 | 中国科学院自动化研究所 | 一种基于旋律的音乐检索方法及装置 |
| TW200929171A (en) * | 2007-12-31 | 2009-07-01 | Inventec Appliances Corp | Method of converting voice into music score |
| CN101930732A (zh) * | 2010-06-29 | 2010-12-29 | 中兴通讯股份有限公司 | 基于用户输入语音的乐曲生成方法及装置、智能终端 |
| CN104978962A (zh) * | 2014-04-14 | 2015-10-14 | 安徽科大讯飞信息科技股份有限公司 | 哼唱检索方法及系统 |
| CN104992712A (zh) * | 2015-07-06 | 2015-10-21 | 成都云创新科技有限公司 | 能识别音乐自动成谱的方法 |
Cited By (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN108986841A (zh) * | 2018-08-08 | 2018-12-11 | 百度在线网络技术(北京)有限公司 | 音频信息处理方法、装置及存储介质 |
| CN109920449A (zh) * | 2019-03-18 | 2019-06-21 | 广州市百果园网络科技有限公司 | 节拍分析方法、音频处理方法及装置、设备、介质 |
| CN109920449B (zh) * | 2019-03-18 | 2022-03-04 | 广州市百果园网络科技有限公司 | 节拍分析方法、音频处理方法及装置、设备、介质 |
| CN111081248A (zh) * | 2019-12-27 | 2020-04-28 | 安徽仁昊智能科技有限公司 | 一种人工智能语音识别装置 |
| CN113823281A (zh) * | 2020-11-24 | 2021-12-21 | 北京沃东天骏信息技术有限公司 | 语音信号处理方法、装置、介质及电子设备 |
Also Published As
| Publication number | Publication date |
|---|---|
| CN105895079B (zh) | 2022-07-29 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CN110148427B (zh) | 音频处理方法、装置、系统、存储介质、终端及服务器 | |
| CN109949783B (zh) | 歌曲合成方法及系统 | |
| US12118978B2 (en) | Systems and methods for generating synthesized speech responses to voice inputs indicative of a user in a hurry | |
| CN103943104B (zh) | 一种语音信息识别的方法及终端设备 | |
| CN105206258A (zh) | 声学模型的生成方法和装置及语音合成方法和装置 | |
| Zlatintsi et al. | Multiscale fractal analysis of musical instrument signals with application to recognition | |
| CN102664016A (zh) | 唱歌评测方法及系统 | |
| CN104992712B (zh) | 能识别音乐自动成谱的方法 | |
| CN114927122A (zh) | 一种情感语音的合成方法及合成装置 | |
| CN113744721B (zh) | 模型训练方法、音频处理方法、设备及可读存储介质 | |
| CN105719661A (zh) | 一种弦乐器演奏音质自动判别方法 | |
| CN107103915A (zh) | 一种音频数据处理方法以及装置 | |
| CN106302987A (zh) | 一种音频推荐方法及设备 | |
| CN110070847B (zh) | 乐音测评方法及相关产品 | |
| CN108877835A (zh) | 评价语音信号的方法及系统 | |
| Deb et al. | Fourier model based features for analysis and classification of out-of-breath speech | |
| CN114678039B (zh) | 一种基于深度学习的歌唱评价方法 | |
| CN109979428A (zh) | 音频生成方法和装置、存储介质、电子设备 | |
| CN105895079A (zh) | 语音数据的处理方法和装置 | |
| CN119629543A (zh) | 声道校正方法、装置、设备及存储介质 | |
| Dressler | Automatic transcription of the melody from polyphonic music | |
| CN114038481B (zh) | 一种歌词时间戳生成方法、装置、设备及介质 | |
| CN111785236A (zh) | 一种基于动机提取模型与神经网络的自动作曲方法 | |
| CN112509538A (zh) | 音频处理方法、装置、终端及存储介质 | |
| CN114708851B (zh) | 音频识别方法、装置、计算机设备及计算机可读存储介质 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| C06 | Publication | ||
| PB01 | Publication | ||
| C10 | Entry into substantive examination | ||
| SE01 | Entry into force of request for substantive examination | ||
| TA01 | Transfer of patent application right | ||
| TA01 | Transfer of patent application right |
Effective date of registration: 20220714 Address after: 300467 917-2, Chuangzhi building, 482 Zhongxin eco city, Binhai New Area, Tianjin Applicant after: Tianjin Zhirong Innovation Technology Development Co.,Ltd. Address before: 100025 LETV building, 105 yaojiayuan Road, Chaoyang District, Beijing Applicant before: LE SHI INTERNET INFORMATION & TECHNOLOGY CORP., BEIJING |
|
| GR01 | Patent grant | ||
| GR01 | Patent grant |