CN118824216B

CN118824216B - 旋律识别及其模型训练方法、程序产品、设备及存储介质

Info

Publication number: CN118824216B
Application number: CN202411297120.2A
Authority: CN
Inventors: 杨沛
Original assignee: Chengdu Happy Note Technology Co ltd
Current assignee: Chengdu Happy Note Technology Co ltd
Priority date: 2024-09-18
Filing date: 2024-09-18
Publication date: 2024-12-03
Anticipated expiration: 2044-09-18
Also published as: CN118824216A

Abstract

本申请涉及音频处理技术领域，具体提供旋律识别及其模型训练方法、程序产品、设备及存储介质。该旋律识别模型训练方法通过对待训练音频数据进行特征提取，将提取到的待训练特征数据输入到待训练旋律识别模型中，获得模型识别结果；并根据模型识别结果以及待训练音频数据的旋律标注结果，对待训练旋律识别模型的内部参数进行优化，获得经训练的旋律识别模型。由于该待训练旋律识别模型包括条件随机场模型，基于条件随机场模型能够有效地考虑到不同待训练特征数据之间的依赖关系，提高模型识别结果的准确性。基于该旋律识别模型训练方法所获得的旋律识别模型，对待识别的音频数据进行旋律识别，能够获得准确性更高的旋律识别结果。

Description

旋律识别及其模型训练方法、程序产品、设备及存储介质

技术领域

本申请涉及音频处理技术领域，具体而言，涉及旋律识别及其模型训练方法、程序产品、设备及存储介质。

背景技术

旋律识别是一种音频处理技术，‌它允许用户通过哼唱或播放的音乐旋律来识别歌曲的名称、‌歌手信息等。‌‌这种技术通常应用于音乐识别软件或应用程序中，‌以帮助用户通过身边播放的音乐旋律识别出歌曲的名称和歌手信息，‌从而方便地知道正在播放的歌曲信息。

现有的旋律识别方法大多先通过窗口划分将连续的音频信号分割成短时帧，再对每一帧进行进一步的分析和处理。‌通常会使用固定长度的窗口，‌通过在音频信号上滑动窗口来分割信号。在窗口大小选择不当的情况下，容易导致旋律节奏信息丢失或者识别错误，进而导致旋律识别结果的准确性较低。

发明内容

有鉴于此，本申请实施例的目的在于提供一种旋律识别及其模型训练方法、程序产品、设备及存储介质，用以解决基于现有的旋律识别方法所获得的旋律识别结果的准确性较低的技术问题。

第一方面，本申请实施例提供了一种旋律识别模型训练方法，该方法包括：

对待训练音频数据进行特征提取，获得待训练特征数据；

将所述待训练特征数据输入到待训练旋律识别模型中，获得所述待训练旋律识别模型输出的模型识别结果；其中，所述待训练旋律识别模型包括条件随机场模型；

根据所述模型识别结果以及所述待训练音频数据的旋律标注结果，对所述待训练旋律识别模型的内部参数进行优化，获得经训练的旋律识别模型。

在上述的实现过程中，该旋律识别模型训练方法通过对待训练音频数据进行特征提取，获得待训练特征数据；将待训练特征数据输入到待训练旋律识别模型中，获得待训练旋律识别模型输出的模型识别结果；并根据模型识别结果以及待训练音频数据的旋律标注结果，对待训练旋律识别模型的内部参数进行优化，获得经训练的旋律识别模型。由于该待训练旋律识别模型包括条件随机场模型，基于条件随机场模型能够有效地考虑到不同待训练特征数据之间的依赖关系，提高模型识别结果的准确性。基于该旋律识别模型训练方法所获得的经训练的旋律识别模型，能够对待识别的音频数据进行旋律识别，获得准确性更高的旋律识别结果。解决了基于现有的旋律识别方法所获得的旋律识别结果的准确性较低的技术问题。

可选地，在本申请实施例中，所述对待训练音频数据进行特征提取，获得待训练特征数据包括：基于短时傅里叶变换、‌梅尔倒谱系数、恒Q变换或者Chroma中的至少两种特征提取方式，对所述待训练音频数据进行特征提取，以获得所述待训练特征数据。

在上述的实现过程中，由于不同的特征提取方式能够捕捉到待训练音频数据的不同方面的特征数据，基于多种特征提取方式对待训练音频数据进行特征提取，能够提高所获得的待训练特征数据的多样性，进而提高了训练获得的旋律识别模型的旋律识别精度和准确度。

可选地，在本申请实施例中，在所述对待训练音频数据进行特征提取，获得待训练特征数据之前，所述方法还包括：对所述待训练音频数据进行速度归一化处理，获得归一化数据；所述对待训练音频数据进行特征提取，获得待训练特征数据，包括：对所述归一化数据进行特征提取，获得所述待训练特征数据。

在上述的实现过程中，通过对待训练音频数据进行速度归一化处理，确保模型训练数据的速度一致性，可以提高训练获得的旋律识别模型的旋律识别精度和准确度。

可选地，在本申请实施例中，所述将所述待训练旋律特征数据输入到待训练旋律识别模型中，获得所述待训练旋律识别模型输出的模型识别结果，包括：基于预设标注体系对所述待训练旋律特征数据进行节奏标注和/或高音标注，获得标注特征数据；将所述标注特征数据输入到待训练旋律识别模型中，获得所述待训练旋律识别模型输出的所述模型识别结果。

在上述的实现过程中，通过对待训练旋律特征数据进行节奏标注和/或高音标注，便于待训练旋律识别模型更加准确地捕捉到训练数据中的节奏和高音特征，进而提高了训练得到的旋律识别模型的旋律识别准确性。基于预设标注体系实现节奏标注和/或高音标注，可以避免由于窗口大小选择不当导致的旋律节奏信息丢失或者识别错误，进而提高了旋律识别结果的准确性。

可选地，在本申请实施例中，所述预设标注体系包括用于实现所述节奏标注的BIES标记和/或用于实现所述高音标注的MIDI高音标记；其中，所述BIES标记包括空音符标记以及每一音符的开始标记、中间标记和结束标记；所述MIDI高音标记包括每一音符的高音值。

可选地，在本申请实施例中，所述中间标记包括与所述开始标记依次相邻的多个不同中间标记。

在上述的实现过程中，由于中间标记包括与开始标记依次相邻的多个不同中间标记，可以进一步提高节奏标注结果的多样化，能够获取到更多的节奏特征数据，提高经训练的旋律识别模型的旋律识别准确性。

第二方面，本申请实施例提供了一种旋律识别方法，所述方法包括：

对待识别音频数据进行特征提取，获得待识别旋律特征；

将所述待识别旋律特征输入到经训练的旋律识别模型，获得所述经训练的旋律识别模型所输出的旋律识别结果；其中，所述旋律识别模型基于如上述第一方面任一项所述的旋律识别模型训练方法训练获得。

在上述的实现过程中，由于旋律识别模型基于如上述第一方面任一项所述的旋律识别模型训练方法训练获得，如上所述，基于该旋律识别模型训练方法所获得的经训练的旋律识别模型，能够对待识别音频数据进行旋律识别，获得准确性更高的旋律识别结果。解决了基于现有的旋律识别方法所获得的旋律识别结果的准确性较低的技术问题。

第三方面，本申请实施例还提供了一种计算机程序产品，包括计算机程序/指令，该计算机程序/指令被处理器执行时实现如第一方面或第二方面任一项所述的方法。

第四方面，本申请实施例还提供了一种电子设备；所述电子设备包括：

存储器；

处理器；

所述存储器上存储有所述处理器可执行的计算机程序，所述计算机程序被所述处理器执行时，执行第一方面或第二方面任一项所述的方法。

第五方面，本申请实施例还提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序指令，该计算机程序指令被一处理器运行时，执行如第一方面或第二方面任一项所述的方法。

本申请的有益效果至少包括：通过对待训练音频数据进行特征提取，获得待训练特征数据；将待训练特征数据输入到待训练旋律识别模型中，获得待训练旋律识别模型输出的模型识别结果；并根据模型识别结果以及待训练音频数据的旋律标注结果，对待训练旋律识别模型的内部参数进行优化，获得经训练的旋律识别模型。由于该待训练旋律识别模型包括条件随机场模型，基于条件随机场模型能够有效地考虑到不同待训练特征数据之间的依赖关系，提高模型识别结果的准确性。基于该旋律识别模型训练方法所获得的经训练的旋律识别模型，能够对待识别的音频数据进行旋律识别，获得准确性更高的旋律识别结果。解决了基于现有的旋律识别方法所获得的旋律识别结果的准确性较低的技术问题。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请实施例提供的一种旋律识别模型训练方法的流程示意图；

图2为本申请实施例提供的一种旋律识别方法的流程示意图；

图3为本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将结合附图对本申请技术方案的实施例进行详细的描述。以下实施例仅用于更加清楚地说明本申请的技术方案，因此只作为示例，而不能以此来限制本申请的保护范围。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同；本文中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本申请。

在本申请实施例的描述中，技术术语“第一”、“第二”等仅用于区别不同对象，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量、特定顺序或主次关系。在本申请实施例的描述中，“多个”的含义是两个及以上，除非另有明确具体的限定。

请参见图1示出的本申请实施例提供的一种旋律识别模型训练方法的流程示意图。该旋律识别模型训练方法可以包括以下步骤：

S101、对待训练音频数据进行特征提取，获得待训练特征数据；

S102、将所述待训练特征数据输入到待训练旋律识别模型中，获得所述待训练旋律识别模型输出的模型识别结果；其中，所述待训练旋律识别模型包括条件随机场模型；

S103、根据所述模型识别结果以及所述待训练音频数据的旋律标注结果，对所述待训练旋律识别模型的内部参数进行优化，获得经训练的旋律识别模型。

其中，在步骤S101中，待训练音频数据可以是具有旋律的人声数据，也可以是具有旋律的乐器声音数据；也可以是基于现有的音源分离方法（例如，现有的音频处理软件或视频编辑软件中的人声提取功能），从音频数据或视频数据中分离出的人声数据。可以采用短时傅里叶变换（short-time Fourier transform，STFT）、‌梅尔倒谱系数（Mel FrequencyCepstrum Coefficient，MFCC）、恒Q变换（Constant Q Transformation，CQT）或者Chroma等特征提取方法，对待训练音频数据进行特征提取，以获得待训练特征数据。其中，Chroma是一种用于描述音频音调和和谐性的特征提取方法，它基于将音符表示为二维平面上的颜色的想法进行特征提取。

其中，在步骤S102中，待训练旋律识别模型包括条件随机场模型，由于条件随机场模型能够充分考虑到不同待训练特征数据之间的依赖关系，通过全局约束提高模型识别结果的准确性。‌条件随机场模型具体可以设置在待训练旋律识别模型的最后一层，用于和其余神经网络模型（例如，卷积神经网络、循环神经网络或者基于自注意力机制的深度学习模型等）结合以共同预测出相应音频数据的模型识别结果。传统的卷积神经网络、循环神经网络或者基于自注意力机制的深度学习模型等神经网络模型，容易忽略不同特征数据之间的依赖关系，容易使模型陷入局部最优解并导致误差累计。在获得待训练特征数据之后，可以采用零均值归一化或者幅度标准化等标准化处理方法，对待训练特征数据进行标准化处理，再将标准化处理后的特征数据输入到待训练旋律识别模型中，进行模型训练；以提高模型训练的稳定性和旋律识别性能。

其中，在步骤S103中，可以根据模型识别结果以及待训练音频数据的旋律标注结果，计算出相应的损失函数值，基于损失函数值对待训练旋律识别模型的内部参数进行优化。旋律标注结果可以通过人为地对待训练音频数据进行旋律标注所获得。示例性地，可以基于欧式距离、余弦距离或者曼哈顿距离等距离计算方式，计算出模型识别结果与旋律标注结果之间的损失函数值。在条件随机场模型和神经网络模型结合以共同预测出相应音频数据的模型识别结果的情况下，条件随机场模型可以与神经网络模型端到端地进行训练，实现对条件随机场模型的损失函数以及模型识别结果的优化，进而更好地实现了对待训练旋律识别模型的内部参数的优化。通过端到端的联合训练能够有效地提升经训练的旋律识别模型的性能，提高模型识别结果的准确率。

由此可见，本申请实施例提供的旋律识别模型训练方法，通过对待训练音频数据进行特征提取，获得待训练特征数据；将待训练特征数据输入到待训练旋律识别模型中，获得待训练旋律识别模型输出的模型识别结果；并根据模型识别结果以及待训练音频数据的旋律标注结果，对待训练旋律识别模型的内部参数进行优化，获得经训练的旋律识别模型。由于该待训练旋律识别模型包括条件随机场模型，基于条件随机场模型能够有效地考虑到不同待训练特征数据之间的依赖关系，提高模型识别结果的准确性。基于该旋律识别模型训练方法所获得的经训练的旋律识别模型，能够对待识别的音频数据进行旋律识别，获得准确性更高的旋律识别结果。解决了基于现有的旋律识别方法所获得的旋律识别结果的准确性较低的技术问题。

在一些可选的实施例中，S101、对待训练音频数据进行特征提取，获得待训练特征数据包括：基于短时傅里叶变换、‌梅尔倒谱系数、恒Q变换或者Chroma中的至少两种特征提取方式，对所述待训练音频数据进行特征提取，以获得所述待训练特征数据。

其中，可以基于短时傅里叶变换、‌梅尔倒谱系数、恒Q变换或者Chroma中的两种或者三种特征提取方式，对待训练音频数据进行特征提取。示例性地，可以基于短时傅里叶变换和梅尔倒谱系数这两种特征提取方式，或者基于‌梅尔倒谱系数、恒Q变换以及Chroma这三种特征提取方式，对待训练音频数据进行特征提取，获得待训练特征数据。也可以基于短时傅里叶变换、‌梅尔倒谱系数、恒Q变换以及Chroma这四种特征提取方式，共同对待训练音频数据进行特征提取。需要说明的是，在基于短时傅里叶变换、‌梅尔倒谱系数、恒Q变换或者Chroma中的至少两种特征提取方式，对待训练音频数据进行特征提取的情况下，也可以同时结合其他特征提取方式，对待训练音频数据进行特征提取，以获得更加多样化的特征数据。由于不同的特征提取方式能够捕捉到待训练音频数据的不同方面的特征数据，基于多种特征提取方式对待训练音频数据进行特征提取，能够提高所获得的待训练特征数据的多样性，进而提高了训练获得的旋律识别模型的旋律识别精度和准确度。

此外，条件随机场模型还能够处理复杂多变的音频节奏和节拍模式，充分利用基于至少两种不同的特征提取方式所提取到的待训练特征数据，使得经训练的旋律识别模型能够处理更加多样化的音频数据。

在一些可选的实施例中，在S101、对待训练音频数据进行特征提取，获得待训练特征数据之前，所述方法还包括：对所述待训练音频数据进行速度归一化处理，获得归一化数据；所述对待训练音频数据进行特征提取，获得待训练特征数据，包括：对所述归一化数据进行特征提取，获得所述待训练特征数据。

其中，可以基于待训练音频数据的音频bpm（即音频数据的每分钟的节拍数），对待训练音频数据进行速度归一化处理。具体地，可以先对待训练音频数据进行bpm检测，获得待训练音频数据的bpm，根据待训练音频数据的bpm与标准bpm（可以根据实际应用情况进行调整）之间的差距，加快或降低待训练音频数据的音频速度。需要说明的是，在速度归一化处理过程中，不改变待训练音频数据的音高。通过对待训练音频数据进行速度归一化处理，确保模型训练数据的速度一致性，以提高训练获得的旋律识别模型的旋律识别精度和准确度。

其中，在对待训练音频数据进行速度归一化处理之前，或者在S101、对待训练音频数据进行特征提取之前，还可以先对待训练音频数据进行降噪、去除静音段等预处理操作。

在一些可选的实施例中，S102、将所述待训练旋律特征数据输入到待训练旋律识别模型中，获得所述待训练旋律识别模型输出的模型识别结果，包括：基于预设标注体系对所述待训练旋律特征数据进行节奏标注和/或高音标注，获得标注特征数据；将所述标注特征数据输入到待训练旋律识别模型中，获得所述待训练旋律识别模型输出的所述模型识别结果。

其中，标注特征数据可以包括节奏标注特征数据和/或高音标注特征数据。在旋律识别模型主要用于识别节奏变化较大的音频数据的情况下，标注特征数据可以包括节奏标注特征数据；在旋律识别模型主要用于识别高音数据出现频率较高的音频数据的情况下，标注特征数据可以包括高音标注特征数据。示例性地，可以基于标准化的节奏单位（例如，四分音符、十六分音符、三十二分音符等）对待训练旋律特征数据进行节奏标注。通过对待训练旋律特征数据进行节奏标注和/或高音标注，便于待训练旋律识别模型更加准确地捕捉到训练数据中的节奏和高音特征，进而提高了训练得到的旋律识别模型的旋律识别准确性。也可以基于重音检测的方式，获得待训练旋律特征数据的节拍信息，根据节拍信息对待训练旋律特征数据进行节奏标注。

此外，本申请通过预设标注体系对待训练旋律特征数据进行节奏标注和/或高音标注，即通过旋律自身的规范性实现对音频数据的划分。相较于传统的窗口划分方式，本申请所提供的特征标注方式，能够在保证模型识别结果准确性的同时，降低人工成本和误差（主要可以减少划分窗口的人工调节成本和误差）。

在一些可选的实施例中，所述预设标注体系包括用于实现所述节奏标注的BIES标记和/或用于实现所述高音标注的MIDI高音标记；其中，所述BIES标记包括空音符标记以及每一音符的开始标记、中间标记和结束标记；所述MIDI高音标记包括每一音符的高音值。

其中，BIES标记包括每一音符的开始标记B、中间标记I和结束标记E以及空音符标记S。MIDI高音标记主要涉及到MIDI音轨中的高音标记方式，是一种通过特定数值对高音进行标记的方式，这些数值对应于音乐理论中的音名和音高。MIDI高音标记具体可以包括128个MIDI数值，采用MIDI高音标记可以将音频数据中的高音与128个MIDI数值进行对应，采用128个MIDI数值实现对待训练旋律特征数据的高音标注。可以通过对拍号进行细化，并使用更加精细的单位（如1/64拍），以提高旋律和节奏的识别精度。以持续时长为八分音符的1a音符（标记单位为1/64拍）为例，其节奏标注结果可以是：B，I，I，I，I，I，I，E；其高音标注结果可以是：69，69，69，69，69，69，69，69（其中，69是与1a 对应的MIDI数值）。

在一些可选的实施例中，所述中间标记包括与所述开始标记依次相邻的多个不同中间标记。

其中，以上述持续时长为八分音符的1a音符（标记单位为1/64拍）为例，其节奏标注结果具体可以是：B，I1，I1，I2，I2，I3，I3，E；或者，B，I1，I2，I3，I4，I5，I6，E。由于中间标记包括与开始标记依次相邻的多个不同中间标记，可以进一步提高节奏标注结果的多样化，能够获取到更多的节奏特征数据，提高经训练的旋律识别模型的旋律识别准确性。

请参照图2，图2为本申请实施例提供的一种旋律识别方法的流程示意图。该旋律识别方法，包括：

S201、对待识别音频数据进行特征提取，获得待识别旋律特征；

S202、将所述待识别旋律特征输入到经训练的旋律识别模型，获得所述经训练的旋律识别模型所输出的旋律识别结果；其中，所述旋律识别模型基于如上述第一方面任一项所述的旋律识别模型训练方法训练获得。

其中，在步骤S201中，可以采用短时傅里叶变换、‌梅尔倒谱系数、恒Q变换或者Chroma等特征提取方法，对待识别音频数据进行特征提取，以获得待识别旋律特征。也可以基于短时傅里叶变换、‌梅尔倒谱系数、恒Q变换或者Chroma特征提取中的至少两种特征提取方式，对待识别音频数据进行特征提取，以获得待识别旋律特征。在对待识别音频数据进行特征提取之前，还可以先对待识别音频数据进行速度归一化处理，获得归一化识别旋律；再对归一化识别旋律进行特征提取，获得待识别旋律特征。

其中，在步骤S202中，可以先基于预设标注体系对待识别旋律特征进行节奏标注和/或高音标注，获得标注识别特征数据；将标注识别特征数据输入到经训练的旋律识别模型中，获得经训练的旋律识别模型输出的旋律识别结果。预设标注体系包括用于实现节奏标注的BIES标记和/或用于实现高音标注的MIDI高音标记。中间标记具体可以包括与开始标记依次相邻的多个不同中间标记。

需要说明的是，步骤S201以及步骤S202的具体实现方式，可以与上述旋律识别模型训练方法的具体实现方式相对应。示例性地，在S101、对待训练音频数据进行特征提取，获得待训练特征数据包括：基于短时傅里叶变换、‌梅尔倒谱系数、恒Q变换或者Chroma中的至少两种特征提取方式，对所述待训练音频数据进行特征提取，以获得所述待训练特征数据的情况下，S201、对待识别音频数据进行特征提取，获得待识别旋律特征，可以包括：基于短时傅里叶变换、‌梅尔倒谱系数、恒Q变换或者Chroma中的至少两种特征提取方式，对待识别音频数据进行特征提取，以获得待识别旋律特征。且S201具体采用的多种特征提取方式，可以与S101中所采用的多种特征提取方式相同。在S102、将所述待训练旋律特征数据输入到待训练旋律识别模型中，获得所述待训练旋律识别模型输出的模型识别结果，包括：基于预设标注体系对所述待训练旋律特征数据进行节奏标注和/或高音标注，获得标注特征数据；将所述标注特征数据输入到待训练旋律识别模型中，获得所述待训练旋律识别模型输出的所述模型识别结果的情况下，S202、将所述待识别旋律特征输入到经训练的旋律识别模型，获得所述经训练的旋律识别模型所输出的旋律识别结果，可以包括：基于预设标注体系对所述待识别旋律特征进行节奏标注和/或高音标注，获得标注旋律特征数据；将所述标注旋律特征数据输入到经训练的旋律识别模型中，获得所述经训练的旋律识别模型输出的旋律识别结果。由于旋律识别模型基于如上述第一方面任一项所述的旋律识别模型训练方法训练获得，如上所述，基于该旋律识别模型训练方法所获得的经训练的旋律识别模型，能够对待识别音频数据进行旋律识别，获得准确性更高的旋律识别结果。解决了基于现有的旋律识别方法所获得的旋律识别结果的准确性较低的技术问题。

本申请实施例还提供一种计算机程序产品，包括计算机程序/指令，该计算机程序/指令被处理器执行时实现如第一方面任一项所述的旋律识别模型训练方法或第二方面所述的旋律识别方法。

请参照图3，图3为本申请实施例提供的一种电子设备300的结构示意图。电子设备300包括：存储器302和处理器301；存储器302上存储有处理器301可执行的计算机程序，所述计算机程序被处理器301执行时，执行第一方面或第二方面任一项所述的方法。

其中，存储器302和处理器301，可以通过通信总线303和/或其他形式的连接机构(未示出) 互连并相互通讯。存储器302存储有处理器301可执行的计算机程序，所述计算机程序被处理器301执行时，执行如上的第一方面或第二方面所描述的方法。

本申请实施例还提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序指令，该计算机程序指令被处理器301运行时执行如上的第一方面或第二方面所描述的方法。

其中，存储介质可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器（Static Random Access Memory, 简称SRAM），电可擦除可编程只读存储器（Electrically Erasable Programmable Read-Only Memory, 简称EEPROM），可擦除可编程只读存储器（Erasable Programmable Read Only Memory, 简称EPROM），可编程只读存储器（Programmable Red-Only Memory, 简称PROM），只读存储器（Read-OnlyMemory, 简称ROM），磁存储器，快闪存储器，磁盘或光盘。

本申请实施例所提供的几个实施例中，应该理解到，所揭露的装置/系统和方法，也可以通过其他的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本申请实施例的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本申请实施例各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

以上的描述，仅为本申请实施例的可选实施方式，但本申请实施例的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请实施例揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请实施例的保护范围之内。

Claims

1.一种旋律识别模型训练方法，其特征在于，所述方法包括：

对待训练音频数据进行特征提取，获得待训练特征数据；

根据所述模型识别结果以及所述待训练音频数据的旋律标注结果，对所述待训练旋律识别模型的内部参数进行优化，获得经训练的旋律识别模型；

其中，所述将所述待训练特征数据输入到待训练旋律识别模型中，获得所述待训练旋律识别模型输出的模型识别结果，包括：基于预设标注体系对所述待训练特征数据进行节奏标注和/或音高标注，获得标注特征数据；将所述标注特征数据输入到待训练旋律识别模型中，获得所述待训练旋律识别模型输出的所述模型识别结果；

其中，所述预设标注体系包括用于实现所述节奏标注的BIES标记和/或用于实现所述音高标注的MIDI音高标记；其中，所述BIES标记包括空音符标记以及每一音符的开始标记、中间标记和结束标记；所述MIDI音高标记包括每一音符的音高值；所述中间标记包括与所述开始标记依次相邻的多个不同中间标记。

2.根据权利要求1所述的方法，其特征在于，所述对待训练音频数据进行特征提取，获得待训练特征数据包括：

基于短时傅里叶变换、‌梅尔倒谱系数、恒Q变换或者Chroma中的至少两种特征提取方式，对所述待训练音频数据进行特征提取，以获得所述待训练特征数据。

3.根据权利要求1所述的方法，其特征在于，在所述对待训练音频数据进行特征提取，获得待训练特征数据之前，所述方法还包括：对所述待训练音频数据进行速度归一化处理，获得归一化数据；

所述对待训练音频数据进行特征提取，获得待训练特征数据，包括：对所述归一化数据进行特征提取，获得所述待训练特征数据。

4.一种旋律识别方法，其特征在于，所述方法包括：

对待识别音频数据进行特征提取，获得待识别旋律特征；

将所述待识别旋律特征输入到经训练的旋律识别模型，获得所述经训练的旋律识别模型所输出的旋律识别结果；其中，所述旋律识别模型基于如上述权利要求1-3任一项所述的旋律识别模型训练方法训练获得。

5.一种计算机程序产品，包括计算机程序/指令，其特征在于，该计算机程序/指令被处理器执行时实现如权利要求1-4任一项所述的方法。

6.一种电子设备，其特征在于，所述电子设备包括：

存储器；

处理器；

所述存储器上存储有所述处理器可执行的计算机程序，所述计算机程序被所述处理器执行时，执行权利要求1-4任一项所述的方法。

7.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机程序指令，所述计算机程序指令被一处理器运行时，执行权利要求1-4任一项所述的方法。