CN111061907B

CN111061907B - 媒体数据处理方法、装置及存储介质

Info

Publication number: CN111061907B
Application number: CN201911259305.3A
Authority: CN
Inventors: 缪畅宇
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-12-10
Filing date: 2019-12-10
Publication date: 2023-06-20
Anticipated expiration: 2039-12-10
Also published as: CN111061907A

Abstract

本公开提供了一种媒体数据处理方法、装置及存储介质。该方法包括：根据第一媒体数据的第一频谱图，获取第一媒体数据的初始特征向量；根据初始特征向量和历史媒体数据集合，确定历史媒体数据集合中与第一媒体数据邻近的一个或多个第二媒体数据，其中，历史媒体数据集合包括用户选择行为具有关联性的一组历史媒体数据；以及根据初始特征向量以及一个或多个第二媒体数据，获取媒体数据的优化后的特征向量。通过提取媒体数据的初步特征向量，再根据该初步特征向量和离散媒体数据集合中与媒体数据邻近的多个媒体数据，进一步提取优化的特征向量，可以准确地获得媒体数据的特征。

Description

媒体数据处理方法、装置及存储介质

技术领域

本公开涉及媒体处理技术领域，尤其涉及一种媒体数据处理方法、装置及存储介质。

背景技术

在媒体数据推荐系统中，需要对媒体数据做嵌入式表示，即在不需要人为做标记的情况下，将一个媒体数据映射到一个向量上。目前主要做法包括：

1.item2vec：即将媒体数据看做自然语言处理(natual language processing，nlp)里的一个词，媒体数据的序列看做nlp里的句子，然后用word2vec的方法进行表示.

2.item和用户(user)联合嵌入表示。

无论哪种方法，其实都是从用户行为角度出发，去构建媒体数据序列，而没有考虑媒体数据本身的特征。

因而，还没有提取媒体数据特征的方案。

发明内容

本公开提供一种媒体数据处理方法、装置及存储介质，以准确地获得媒体数据的特征。

第一方面，提供了一种媒体数据处理方法，包括：

根据第一媒体数据的第一频谱图，获取所述第一媒体数据的第一特征向量，其中，所述第一特征向量为所述第一媒体数据的初始特征向量；

根据所述第一特征向量和历史媒体数据集合，确定所述历史媒体数据集合中与所述第一媒体数据邻近的一个或多个第二媒体数据，其中，所述历史媒体数据集合包括用户选择行为具有关联性的一组历史媒体数据；

根据所述第一特征向量以及所述一个或多个第二媒体数据，获取所述第一媒体数据的第二特征向量，其中，所述第二特征向量为所述第一媒体数据的优化后的特征向量。

在一个实现中，所述方法还包括：

分别提取所述第一媒体数据进行时域特性向量和频域特性向量，获得所述第一媒体数据的第一频谱图。

在又一个实现中，所述根据第一媒体数据的第一频谱图，获取所述第一媒体数据的第一特征向量，包括：

对所述第一媒体数据的第一频谱图进行编码，获取所述第一特征向量。

在又一个实现中，所述方法还包括：

将所述编码后得到的所述第一特征向量进行解码，获得重建后的第二频谱图；

根据所述第一频谱图和所述第二频谱图，更新重建误差；

根据所述重新误差，训练所述编码的参数。

在又一个实现中，所述方法还包括：

根据用户选择多个第二媒体数据的行为的关联性，对所述多个第二媒体数据进行分类，得到一个或多个历史媒体数据集合。

在又一个实现中，所述根据所述第一特征向量和历史媒体数据集合，确定所述历史媒体数据集合中与所述第一媒体数据邻近的一个或多个第二媒体数据，包括：

在所述历史媒体数据集合中查找所述一个或多个第二媒体数据，查找到的所述一个或多个第二媒体数据与所述第一特征向量满足第一函数关系。

根据所述第一特征向量和第二函数，获取所述第二函数的结果，所述第二函数的结果为所述历史媒体数据集合中与所述第一媒体数据邻近的一个或多个第二媒体数据。

在又一个实现中，所述根据所述第一特征向量以及所述一个或多个第二媒体数据，获取所述第一媒体数据的第二特征向量，包括：

根据所述第一特征向量，在用于提取媒体数据的神经网络中提取所述第二特征向量，所述用于提取媒体数据的神经网络是根据一个或多个初始特征向量以及一个或多个第二媒体数据训练得到的。

在又一个实现中，所述方法还包括：

接收服务器的召回指示，所述召回指示用于指示删除所述第二特征向量与参考媒体数据的特征向量的相似度大于或等于第一设定值的第一媒体数据；

将所述第二特征向量与参考媒体数据的特征向量进行比较，若所述第二特征向量与参考媒体数据的特征向量的相似度大于或等于第一设定值，删除所述第一媒体数据。

在又一个实现中，所述方法还包括：

将所述第二特征向量与多个第三媒体数据的特征向量进行比较，获取特征向量与所述第二特征向量的相似度大于或等于第二设定值的第三媒体数据。

第二方面，提供了一种媒体数据处理装置，包括：

第一获取单元，用于根据第一媒体数据的第一频谱图，获取所述第一媒体数据的第一特征向量，其中，所述第一特征向量为所述第一媒体数据的初始特征向量；

确定单元，用于根据所述第一特征向量和历史媒体数据集合，确定所述历史媒体数据集合中与所述第一媒体数据邻近的一个或多个第二媒体数据，其中，所述历史媒体数据集合包括用户选择行为具有关联性的一组历史媒体数据；

第二获取单元，用于根据所述第一特征向量以及所述一个或多个第二媒体数据，获取所述第一媒体数据的第二特征向量，其中，所述第二特征向量为所述第一媒体数据的优化后的特征向量。

在一个实现中，所述装置还包括：

提取单元，用于分别提取所述第一媒体数据进行时域特性向量和频域特性向量，获得所述第一媒体数据的第一频谱图。

在又一个实现中，所述第一获取单元用于对所述第一媒体数据的第一频谱图进行编码，获取所述第一特征向量。

在又一个实现中，所述装置还包括：

解码单元，用于将所述编码后得到的所述第一特征向量进行解码，获得重建后的第二频谱图；

更新单元，用于根据所述第一频谱图和所述第二频谱图，更新重建误差；

训练单元，用于根据所述重新误差，训练所述编码的参数。

在又一个实现中，所述装置还包括：

分类单元，用于根据用户选择多个第二媒体数据的行为的关联性，对所述多个第二媒体数据进行分类，得到一个或多个历史媒体数据集合。

在又一个实现中，所述确定单元用于在所述历史媒体数据集合中查找满足所述一个或多个第二媒体数据，查找到的所述一个或多个第二媒体数据与所述第一特征向量满足第一函数关系。

在又一个实现中，所述确定单元用于根据所述第一特征向量和第二函数，获取所述第二函数的结果，所述第二函数的结果为所述历史媒体数据集合中与所述第一媒体数据邻近的一个或多个第二媒体数据。

在又一个实现中，所述第二获取单元用于根据所述第一特征向量，在用于提取媒体数据的神经网络中提取所述第二特征向量，所述用于提取媒体数据的神经网络是根据一个或多个初始特征向量以及一个或多个第二媒体数据训练得到的。

在又一个实现中，所述装置还包括：

接收单元，用于接收服务器的召回指示，所述召回指示用于指示删除所述第二特征向量与参考媒体数据的特征向量的相似度大于或等于第一设定值的第一媒体数据；

第一比较单元，用于将所述第二特征向量与参考媒体数据的特征向量进行比较；

删除单元，用于若所述第二特征向量与参考媒体数据的特征向量的相似度大于或等于第一设定值，删除所述第一媒体数据。

在又一个实现中，所述装置还包括：

第二比较单元，用于将所述第二特征向量与多个第三媒体数据的特征向量进行比较；

第三获取单元，用于获取特征向量与所述第二特征向量的相似度大于或等于第二设定值的第三媒体数据。

第三方面，提供了一种计算机存储介质，所述计算机存储介质存储有一条或多条指令，所述一条或多条指令适于由处理器加载并执行如第一方面或第一方面的任一个实现所述的方法。

采用本公开的方案，具有如下技术效果：

通过提取媒体数据的初步特征向量，再根据该初步特征向量和离散媒体数据集合中与媒体数据邻近的多个媒体数据，进一步提取优化的特征向量，可以准确地获得媒体数据的特征。

附图说明

图1是本公开实施例提供的一种媒体数据处理方法的流程示意图；

图2是本公开实施例提供的又一种媒体数据处理方法的流程示意图；

图3是示例的频谱图；

图4是提取媒体数据的初始特征向量的模型示意图；

图5是本公开实施例提供的又一种媒体数据处理方法的流程示意图；

图6是本公开实施例提供的一种媒体数据处理装置的结构示意图；

图7是本公开实施例提供的又一种媒体数据处理装置的结构示意图。

具体实施方式

如图1所示，是本公开实施例提供的一种媒体数据处理方法的流程示意图，该方法可以包括：

S101、根据第一媒体数据的第一频谱图，获取第一媒体数据的第一特征向量，其中，第一特征向量为第一媒体数据的初始特征向量。

本实施例提取第一媒体数据的特征。首先，根据第一媒体数据的频谱图，获取第一媒体数据的初始特征向量。第一媒体数据的频谱图包括第一媒体数据的时域特征向量和频域特征向量。一般地，频谱图的横轴为第一媒体数据的时域特征向量，频谱图的纵轴为第一媒体数据的频域特征向量。该第一特征向量是基于第一媒体数据的时域特征向量和频域特征向量获取的，未考虑其它任何因素，例如用户选择媒体数据的历史行为，因此，该第一特征向量称为初始特征向量。

S102、根据第一特征向量和历史媒体数据集合，确定历史媒体数据集合中与第一媒体数据邻近的一个或多个第二媒体数据，其中，历史媒体数据集合包括用户选择行为具有关联性的一组历史媒体数据。

除了获取第一媒体数据的初始特征向量之外，还可以基于用户选择媒体数据的历史行为优化第一媒体数据的特征向量。具体地，首先确定历史媒体数据集合。将用户之前选择的媒体数据中前后具有关联性的媒体数据划分为一类或一个集合，构成该历史媒体数据集合。然后根据该初始特征向量和历史媒体数据集合，确定历史媒体数据集合中与第一媒体数据邻近的一个或多个第二媒体数据。“邻近”的含义可以是媒体数据的特征向量相近。具体确定的第二媒体数据的个数可以根据经验取值。

S103、根据第一特征向量以及一个或多个第二媒体数据，获取第一媒体数据的第二特征向量，其中，第二特征向量为第一媒体数据的优化后的特征向量。

获取了第一媒体数据的初始特征向量以及与第一媒体数据的特征向量相近的一个或多个第二媒体数据，即可以基于第一媒体数据自身的特征以及用户选择媒体数据的历史行为特征，获取第一媒体数据的第二特征向量。该第二特征向量相对第一特征向量进行了优化，考虑了用户选择媒体数据的历史行为特征，从而更准确地获得了该媒体数据的特征，可以用于媒体数据的用户选择等应用场景。

根据本公开实施例提供的一种媒体数据处理方法，通过提取媒体数据的初步特征向量，再根据该初步特征向量和离散媒体数据集合中与媒体数据邻近的多个媒体数据，进一步提取优化的特征向量，可以准确地获得媒体数据的特征。

如图2所示，是本公开实施例提供的又一种媒体数据处理方法的流程示意图，该方法可以包括：

S201、分别提取第一媒体数据进行时域特性向量和频域特性向量，获得第一媒体数据的第一频谱图。

本实施例中以音频信号的特征提取进行示例描述，该提取原理还可以应用在其它具有与音频信号具有相似特性的媒体数据的特征提取中。其中，音频信号有时域和频域这两种维度的表达，即音频信号既可以表达为一个时间序列，也可以表达为一个频率序列。具体地，先对音频信号进行时间维度的采样，比如每隔0.1s采样一个音频信号，得到离散的时间序列T1～Tn，每个值代表音频在该采样点上的大小，然后再按固定时间段(比如3s)进行组合，比如时间段长度为3s采样间隔0.1s，那每组序列就包含了3s/0.1s＝30个值，比如T1～T30就是一组，称为G1,T31～T60为G2，依次类推。接着对每组时间序列做频域变换(包括但不限于FFT、MFCC、DFT等等)，将得到频域信号，代表一组时间序列里面包含的不同频率的分布，对频率信号也进行采样，比如10hz，就得到一个离散的频率序列。假设频率的上下限是0～f，那么每个频率序列的个数是f/10，每个Gi都可以表示成这么多个频率序列，只不过区别在于不同Gi的同样频率的值大小不同。对应到音乐上，音乐的某些部分低音很重，那这些Gi的低频值就很大，有些部分高音很高，那这些Gi的高频值很大。所以Gi既可以表示为时间序列T1～T30，也可以表示为频率序列，统一起来就是一张频谱图。如图3示例的频谱图，是一个真实的音频分解之后的频谱图，横轴是时间，时间段大概是1.75s左右，也就是每隔1.75s切一个时间片段；每个时间片段对应的频率是竖轴，频率上下限110hz～3520hz，灰度的深浅代表不同频率对应的值的大小。

又例如，对一个音频信号进行采样、分组后，将得到若干组时间序列，这里我们为了统一表述，统称为ti，总共有t1～tn组序列；每个ti都可以按上面所说的方式变换成频域序列，并采样得到m个离散频率对应的值，这m个离散频率的值组成一个m维向量来表示。整个音频信号的频谱图就是一个mxn的二维矩阵。

S202、对第一媒体数据的第一频谱图进行编码，获取第一特征向量。

该步骤为获取第一媒体数据的初始特征向量。实质就是将频谱图初步压缩到一个向量。

可以用自动编码器完成这个操作。自动编码器可以是AutoEncoder/VarationalAutoEncoder等。具体地，将二维的频谱图输入到一个编码器里面，经过多次变换，输出一个中间隐层向量h，即第一特征向量。

进一步地，在S202之前或之后，还可以包括以下步骤：

将编码后得到的第一特征向量进行解码，获得重建后的第二频谱图；

根据第一频谱图和第二频谱图，更新重建误差；

根据重新误差，训练编码的参数。

如图4所示的提取媒体数据的初始特征向量的模型示意图，在将二维的频谱图输入到一个编码器里面，经过多次变换，输出一个中间隐层向量h之后，还可以再通过解码器将h还原回频谱图，得到重建的频谱图。通过构建重建误差，来学习自动编码器参数，使得重建误差最小。

通过这样的操作，对每个媒体数据si都能得到它的隐向量hi，它是频谱图变换之后的结果，所以包含了媒体数据的时频域信息。但由于这里的hi仅仅是基于乐曲自身频谱图的重建误差得到的，所以称之为初步特征，这个阶段的操作叫初步特征提取。

接下来将基于初步提取的特征，结合用户行为序列，进一步做预训练模型，以提取第二特征向量。该第二特征向量考虑了用户之前选择媒体数据的行为特征，相比初始特征向量进行了优化，因而，在后续的对媒体数据特征的应用场景，例如乐曲召回、相似度计算场景，可以得到更准确的结果。

S203、根据用户选择多个第二媒体数据的行为的关联性，对多个第二媒体数据进行分类，得到一个或多个历史媒体数据集合。

首先确定历史媒体数据集合。将用户之前选择的媒体数据中前后具有关联性的媒体数据划分为一类或一个集合，构成该历史媒体数据集合。然后根据该初始特征向量和历史媒体数据集合，确定历史媒体数据集合中与第一媒体数据邻近的一个或多个第二媒体数据。“邻近”的含义可以是媒体数据的特征向量相近。具体确定的第二媒体数据的个数可以根据经验取值。

S204、在历史媒体数据集合中查找一个或多个第二媒体数据，查找到的一个或多个第二媒体数据与第一特征向量满足第一函数关系。

该步骤为确定历史媒体数据集合中与第一媒体数据邻近的一个或多个第二媒体数据。该确定的方式类似于CBOW，即在已知一个或多个第二媒体数据的情况下，确定一个或多个第二媒体数据与第一媒体数据是否满足第一函数关系：f(si-1,si+1,…)＝si。该第二媒体数据si-1,si+1,…为si周围的媒体数据，具体选取的第二媒体数据的数量可以根据经验取值，比如划分一个固定窗口，选取该窗口内si周围的3个或4个历史媒体数据。

具体到f的形式，也就是如何构建一个预训练模型，这里采用跟word2vec一样的模型结构，但是注意，这里用上面通过自动编码器学到的hi去初始化si，而不是像word2vec/item2vec里面所提到的，仅仅用一个id对应的one-hot去初始化si，si对应的向量也是随机得到的。这里用第一阶段初步提取的特征hi去表示si，然后对其进行优化使得能考虑用户行为序列，目的就是为了将媒体数据的时频信息跟用户行为序列充分融合。

S205、根据第一特征向量，在用于提取媒体数据的神经网络中提取第二特征向量，用于提取媒体数据的神经网络是根据一个或多个初始特征向量以及一个或多个第二媒体数据训练得到的。

S206、接收服务器的召回指示，所述召回指示用于指示删除所述第二特征向量与参考媒体数据的特征向量的相似度大于或等于第一设定值的第一媒体数据。

S207、将所述第二特征向量与参考媒体数据的特征向量进行比较，若所述第二特征向量与参考媒体数据的特征向量的相似度大于或等于第一设定值，删除所述第一媒体数据。

预训练模型训练完成后，便可以将模型参数输出，即优化后的特征h'i，用来作为乐曲si的表示，即乐曲的画像，用于下游的任务，比如乐曲召回等。

具体在乐曲召回场景，对于某些发布的乐曲需要召回，例如乐曲的权属等问题不清楚，乐曲发布方没有资格发布该乐曲，但某个用户终端已下载该乐曲，服务器需要指示用户终端删除待召回的乐曲。可以先提取待召回的媒体数据(参考媒体数据)的特征向量，然后，将第一媒体数据的第二特征向量与参考媒体数据的特征向量进行比较，若第二特征向量与参考媒体数据的特征向量的相似度大于或等于第一设定值，则在用户终端中删除该第一媒体数据。该参考媒体数据的特征向量可以是优化后的特征向量。

如图5所示，是本公开实施例提供的又一种媒体数据处理方法的流程示意图，该方法可以包括：

S301、分别提取第一媒体数据进行时域特性向量和频域特性向量，获得第一媒体数据的第一频谱图。

S302、对第一媒体数据的第一频谱图进行编码，获取第一特征向量。

S303、根据用户选择多个第二媒体数据的行为的关联性，对多个第二媒体数据进行分类，得到一个或多个历史媒体数据集合。

S304、根据第一特征向量和第二函数，获取第二函数的结果，第二函数的结果为历史媒体数据集合中与第一媒体数据邻近的一个或多个第二媒体数据。

该步骤为确定历史媒体数据集合中与第一媒体数据邻近的一个或多个第二媒体数据。该确定的方式类似于skip-gram，即在已知w(这里可以理解为与第一特征向量的相似特性)的情况下，预测与第一媒体数据邻近的一个或多个第二媒体数据。假设第一媒体数据为si，第二函数f，则根据f(si)可以得到第二函数的结果f(si)＝si-1,si+1,…。该第二媒体数据si-1,si+1,…为si周围的媒体数据，具体选取的第二媒体数据的数量可以根据经验取值。

S305、根据所述第一特征向量，在用于提取媒体数据的神经网络中提取所述第二特征向量，所述用于提取媒体数据的神经网络是根据一个或多个初始特征向量以及一个或多个第二媒体数据训练得到的。

该实施例与图2所示实施例的不同在于步骤S304，其它步骤S301～S303可以参考图2所示实施例的步骤S201～S203，步骤S305可以参考图2所示实施例的步骤S205。

S306、将所述第二特征向量与多个第三媒体数据的特征向量进行比较，获取特征向量与所述第二特征向量的相似度大于或等于第二设定值的第三媒体数据。

预训练模型训练完成后，便可以将模型参数输出，即优化后的特征h'i，用来作为乐曲si的表示，即乐曲的画像，用于下游的任务，比如相似度计算等。

例如，想要给用户推荐相似的媒体数据，可以将第二特征向量与多个第三媒体数据的特征向量进行比较。该第三媒体数据的特征向量可以是优化后的特征向量。获取第一媒体数据的第二特征向量与每个第三媒体数据的特征向量的相似度，并且获取相似度值大于或等于第二设定值的第三媒体数据，向用户推荐获取的该第三媒体数据。这样可以更有针对性地给用户推荐相似的媒体数据。

基于前述实施例中的媒体数据处理方法的同一构思，如图6所示，本公开实施例还提供一种媒体数据处理装置。该装置1000包括：第一获取单元11、确定单元12和第二获取单元13，还可以包括提取单元14、解码单元15、更新单元16和训练单元17(图中以虚线表示)。

其中：

第一获取单元11，用于根据第一媒体数据的第一频谱图，获取所述第一媒体数据的第一特征向量，其中，所述第一特征向量为所述第一媒体数据的初始特征向量；

确定单元12，用于根据所述第一特征向量和历史媒体数据集合，确定所述历史媒体数据集合中与所述第一媒体数据邻近的一个或多个第二媒体数据，其中，所述历史媒体数据集合包括用户选择行为具有关联性的一组历史媒体数据；

第二获取单元13，用于根据所述第一特征向量以及所述一个或多个第二媒体数据，获取所述媒体数据的第二特征向量，其中，所述第二特征向量为所述第一媒体数据的优化后的特征向量。

在一个实现中，所述提取单元14，用于分别提取所述第一媒体数据进行时域特性向量和频域特性向量，获得所述第一媒体数据的第一频谱图。

在又一个实现中，所述第一获取单元11用于对所述第一媒体数据的第一频谱图进行编码，获取所述第一特征向量。

在又一个实现中，所述解码单元15，用于将所述编码后得到的所述第一特征向量进行解码，获得重建后的第二频谱图；

所述更新单元16，用于根据所述第一频谱图和所述第二频谱图，更新重建误差；

所述训练单元17，用于根据所述重新误差，训练所述编码的参数。

在又一个实现中，所述确定单元12用于在所述历史媒体数据集合中查找满足所述一个或多个第二媒体数据，查找到的所述一个或多个第二媒体数据与所述第一特征向量满足第一函数关系。

在又一个实现中，所述确定单元12用于根据所述第一特征向量和第二函数，获取所述第二函数的结果，所述第二函数的结果为所述历史媒体数据集合中与所述第一媒体数据邻近的一个或多个第二媒体数据。

在又一个实现中，所述装置还包括：

根据本公开实施例提供的一种媒体数据处理装置，通过提取媒体数据的初步特征向量，再根据该初步特征向量和离散媒体数据集合中与媒体数据邻近的多个媒体数据，进一步提取优化的特征向量，可以准确地获得媒体数据的特征。

图7是本公开实施例提供的又一种媒体数据处理装置的结构示意图。在一个实施例中，该媒体数据处理装置可以对应于上述图1、图2或图5所对应实施例中。如图7所示，该媒体数据处理装置可以包括：处理器，网络接口和存储器，此外，上述媒体数据处理装置还可以包括：用户接口，和至少一个通信总线。其中，通信总线用于实现这些组件之间的连接通信。其中，用户接口可以包括显示屏(display)、键盘(keyboard)，可选用户接口还可以包括标准的有线接口、无线接口。网络接口可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器可以是高速RAM存储器，也可以是非不稳定的存储器(non-volatilememory)，例如至少一个磁盘存储器。存储器可选的还可以是至少一个位于远离前述处理器的存储装置。如图7所示，作为一种计算机可读存储介质的存储器中可以包括操作系统、网络通信模块、用户接口模块以及设备控制应用程序。

在如图7所示的媒体数据处理装置中，网络接口可提供网络通讯功能；而用户接口主要用于为用户提供输入的接口；而处理器可以用于调用存储器中存储的设备控制应用程序，以实现上述图1、图2或图5任一个所对应实施例中对媒体数据处理方法的描述，这里不再进行赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。

应当理解，本公开实施例中所描述的媒体数据处理装置可执行前文图1、图2或图5任一个所对应实施例中对媒体数据处理方法的描述，在此不再赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。

此外，这里需要指出的是：本公开实施例还提供了一种计算机可读存储介质，且计算机可读存储介质中存储有前文提及的媒体数据处理装置1000所执行的计算机程序，且计算机程序包括程序指令，当处理器执行程序指令时，能够执行前文图1、图2或图5任一个所对应实施例中对媒体数据处理方法的描述，因此，这里将不再进行赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。对于本公开所涉及的计算机可读存储介质实施例中未披露的技术细节，请参照本公开方法实施例的描述。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，该单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。所显示或讨论的相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。该计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行该计算机程序指令时，全部或部分地产生按照本申请实施例的流程或功能。该计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。该计算机指令可以存储在计算机可读存储介质中，或者通过该计算机可读存储介质进行传输。该计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(digital subscriber line，DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。该计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。该可用介质可以是只读存储器(read-onlymemory，ROM)，或随机存储存储器(random access memory，RAM)，或磁性介质，例如，软盘、硬盘、磁带、磁碟、或光介质，例如，数字通用光盘(digital versatile disc，DVD)、或者半导体介质，例如，固态硬盘(solid state disk，SSD)等。

Claims

1.一种媒体数据处理方法，其特征在于，包括：

根据第一媒体数据的第一频谱图，分别提取所述第一媒体数据进行时域特性向量和频域特性向量，获得所述第一媒体数据的第一频谱图；

对所述第一媒体数据的第一频谱图进行编码，获取所述第一媒体数据的第一特征向量，其中，所述第一特征向量为所述第一媒体数据的初始特征向量；

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

根据所述第一频谱图和所述第二频谱图，更新重建误差；

根据所述重建误差，训练所述编码的参数。

3.根据权利要求1所述的方法，其特征在于，所述方法还包括：

4.根据权利要求1或3所述的方法，其特征在于，所述根据所述第一特征向量和历史媒体数据集合，确定所述历史媒体数据集合中与所述第一媒体数据邻近的一个或多个第二媒体数据，包括：

5.根据权利要求1或3所述的方法，其特征在于，所述根据所述第一特征向量和历史媒体数据集合，确定所述历史媒体数据集合中与所述第一媒体数据邻近的一个或多个第二媒体数据，包括：

6.根据权利要求1所述的方法，其特征在于，所述方法还包括：

7.一种媒体数据处理装置，其特征在于，包括：

第一获取单元，用于根据第一媒体数据的第一频谱图，分别提取所述第一媒体数据进行时域特性向量和频域特性向量，获得所述第一媒体数据的第一频谱图；对所述第一媒体数据的第一频谱图进行编码，获取所述第一媒体数据的第一特征向量，其中，所述第一特征向量为所述第一媒体数据的初始特征向量；

8.一种媒体数据处理装置，其特征在于，包括处理器和存储装置，所述处理器和存储装置相互连接，其中，所述存储装置用于存储计算机程序，所述计算机程序包括程序指令，所述处理器被配置用于调用所述程序指令，执行如权利要求1-6中任一项所述的方法。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有一条或多条指令，所述一条或多条指令适于由处理器加载并执行如权利要求1~6任一项所述的方法。