[go: up one dir, main page]

CN117056556B - 训练搜索模型的音乐样本标签处理方法、设备和存储介质 - Google Patents

训练搜索模型的音乐样本标签处理方法、设备和存储介质

Info

Publication number
CN117056556B
CN117056556B CN202310989724.2A CN202310989724A CN117056556B CN 117056556 B CN117056556 B CN 117056556B CN 202310989724 A CN202310989724 A CN 202310989724A CN 117056556 B CN117056556 B CN 117056556B
Authority
CN
China
Prior art keywords
music search
music
search result
sample
label
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310989724.2A
Other languages
English (en)
Other versions
CN117056556A (zh
Inventor
文浩宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Music Entertainment Technology Shenzhen Co Ltd
Original Assignee
Tencent Music Entertainment Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Music Entertainment Technology Shenzhen Co Ltd filed Critical Tencent Music Entertainment Technology Shenzhen Co Ltd
Priority to CN202310989724.2A priority Critical patent/CN117056556B/zh
Publication of CN117056556A publication Critical patent/CN117056556A/zh
Application granted granted Critical
Publication of CN117056556B publication Critical patent/CN117056556B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/686Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, title or artist information, time, location or usage information, user ratings
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/63Querying
    • G06F16/638Presentation of query results
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/65Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请涉及一种训练搜索模型的音乐样本标签处理方法、计算机设备和存储介质。方法包括:针对每一音乐搜索结果,根据是否对音乐搜索结果触发满意操作,确定音乐搜索结果的标签或者确定音乐搜索结果属于非满意样本;音乐搜索结果属于非满意样本时,确定音乐搜索结果序列的高适配度位置范围;若音乐搜索结果在音乐搜索结果序列的排位在高适配度位置范围内,则根据音乐搜索结果是否播放、播放时长,确定音乐搜索结果的标签;若不在,则根据高适配度范围内的音乐搜索结果的第一标签,确定音乐搜索结果的第二标签。采用本方法能够通过对音乐搜索结果进行包括满意操作、适配度和播放情况等检测,确定音乐搜索结果的标签,提高了标签确定的准确度。

Description

训练搜索模型的音乐样本标签处理方法、设备和存储介质
技术领域
本申请涉及音频搜索技术领域,特别是涉及一种训练搜索模型的音乐样本标签处理方法、计算机设备、存储介质和计算机程序产品。
背景技术
在用户对歌曲进行搜索时,软件会基于搜索模型以及用户输入的语句,展示出相应的搜索结果。搜索结果的排序应该与用户的搜索目的匹配,而这依赖于训练搜索模型时的歌曲数据。为使搜索时的排序结果更加符合用户的搜索目的,需要为歌曲数据确定正确的标签,以提高对搜索模型的训练效果。目前对模型训练过程中歌曲标签的确定通常是直接以单一后验信息进行设计。然而,通过单一后验信息设计歌曲标签并训练模型,无法涵盖歌曲搜索时的多种影响因素,导致训练出的搜索模型的排序结果准确度较低。
因此,目前训练搜索模型的音乐样本标签处理方法存在使搜索结果准确度低的缺陷。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高基于歌曲排序标签训练的搜索模型的排序准确度的训练搜索模型的音乐样本标签处理方法、计算机设备、计算机可读存储介质和计算机程序产品。
第一方面,本申请提供了一种训练搜索模型的音乐样本标签处理方法,所述方法包括:
获取音乐搜索基础样本库;所述音乐搜索样本库中音乐搜索样本包括音乐搜索词和对应的音乐搜索结果序列;所述音乐搜索结果序列包含多个音乐搜索结果;
针对每一音乐搜索结果,根据是否对所述音乐搜索结果触发满意操作,确定所述音乐搜索结果的标签或者确定所述音乐搜索结果属于非满意样本;
在所述音乐搜索结果属于非满意样本的情况下,根据所述音乐搜索词表示的搜索意图确定所述音乐搜索结果序列的高适配度位置范围;
若所述音乐搜索结果在所述音乐搜索结果序列的排位在所述高适配度位置范围内,则根据是否对所述音乐搜索结果触发播放操作和/或所述音乐搜索结果的播放时长,确定所述音乐搜索结果的第一标签;
若所述音乐搜索结果在所述音乐搜索结果序列的排位不在所述高适配度位置范围内,则根据所述高适配度位置范围内的音乐搜索结果的第一标签,确定所述音乐搜索结果的第二标签。
在其中一个实施例中,根据是否对所述音乐搜索结果触发满意操作,确定所述音乐搜索结果属于非满意样本,包括:
若根据用户操作信息判断出用户未对所述音乐搜索结果触发播放操作,则确定所述音乐搜索结果属于第一类非满意样本;
或者,
若根据用户操作信息判断出用户对所述音乐搜索结果触发播放操作且未对所述音乐搜索结果触发满意操作,则确定所述音乐搜索结果属于第二类非满意样本。
在其中一个实施例中,
所述音乐搜索结果属于第二类非满意样本的情况下,所述若所述音乐搜索结果在所述音乐搜索结果序列的排位在所述高适配度位置范围内,则根据是否对所述音乐搜索结果触发播放操作和/或所述音乐搜索结果的播放时长,确定所述音乐搜索结果的第一标签,包括:
根据所述音乐搜索结果的播放时长达到的预设时长阈值,确定所述音乐搜索结果的第一已播放子标签;
所述音乐搜索结果属于第一类非满意样本的情况下,所述若所述音乐搜索结果在所述音乐搜索结果序列的排位在所述高适配度位置范围内,则根据是否对所述音乐搜索结果触发播放操作和/或所述音乐搜索结果的播放时长,确定所述音乐搜索结果的第一标签,包括:
确定所述音乐搜索结果的标签为第一未播放子标签;所述第一未播放子标签表示的搜索结果质量低于对应于最低时长阈值的第一已播放子标签表示的搜索结果质量;
所述音乐搜索结果属于第二类非满意样本的情况下,所述若所述音乐搜索结果在所述音乐搜索结果序列的排位不在所述高适配度位置范围内,则根据所述高适配度位置范围内的音乐搜索结果的第一标签,确定所述音乐搜索结果的第二标签,包括:
根据所述第一未播放子标签,确定第二标签的可选范围;
根据所述音乐搜索结果的播放时长达到的预设时长阈值,从所述第二标签的可选范围中确定所述音乐搜索结果的第二已播放子标签;所述第一未播放子标签与对应于最高时长阈值的第二已播放子标签表示的搜索结果质量相当;
所述音乐搜索结果属于第一类非满意样本的情况下,所述若所述音乐搜索结果在所述音乐搜索结果序列的排位不在所述高适配度位置范围内,则根据所述高适配度位置范围内的音乐搜索结果的第一标签,确定所述音乐搜索结果的第二标签,包括:
根据所述第二已播放子标签,确定第二标签的可选范围;
从所述第二标签的可选范围中确定所述音乐搜索结果的标签为第二未播放子标签;所述第二未播放子标签表示的搜索结果质量低于对应于最低时长阈值的第二已播放子标签表示的搜索结果质量。
在其中一个实施例中,所述根据是否对所述音乐搜索结果触发满意操作之前,还包括:
根据对所述音乐搜索结果的用户操作信息,判断是否对所述音乐搜索结果触发播放操作;
若是,则判断是否对所述音乐搜索结果触发满意操作。
在其中一个实施例中,所述根据所述音乐搜索词表示的搜索意图确定所述音乐搜索结果序列的高适配度位置范围,包括:
若所述搜索意图为第一类搜索意图,则确定所述音乐搜索结果序列的高适配度位置范围为第一范围;
若所述搜索意图为第二类搜索意图,则确定所述音乐搜索结果序列的高适配度位置范围为第二范围;所述第一范围不同于所述第二范围。
在其中一个实施例中,所述方法还包括:
所述音乐搜索词为音乐名称时,确定所述搜索意图为第一类搜索意图;
所述音乐搜索词为非音乐名称时,确定所述搜索意图为第二类搜索意图;所述第一范围小于所述第二范围。
在其中一个实施例中,所述方法还包括:
确定所述音乐搜索基础样本库中各音乐搜索结果的标签后,根据所述音乐搜索基础样本库,提取未曝光音乐搜索结果及其对应的音乐搜索词,得到第一部分音乐搜索样本;
根据所述音乐搜索基础样本库,提取曝光音乐搜索结果中达到预设适配度的未播放音乐搜索结果,得到第二部分音乐搜索样本;
根据所述音乐搜索基础样本库,提取曝光音乐搜索结果中未达到预设适配度的未播放音乐搜索结果,得到第三部分音乐搜索样本;
基于所述第一部分音乐搜索样本、第二部分音乐搜索样本和第三部分音乐搜索样本,构建音乐模型训练样本库。
在其中一个实施例中,所述基于所述第一部分音乐搜索样本、第二部分音乐搜索样本和第三部分音乐搜索样本,构建音乐模型训练样本库,包括:
根据所述第一部分音乐搜索样本、第二部分音乐搜索样本和第三部分音乐搜索样本,得到音乐搜索初步样本集合;
根据所述音乐搜索初步样本集合,获取对应的音乐搜索词为音乐名称的音乐搜索初步样本,根据所述对应的音乐搜索词为音乐名称的音乐搜索初步样本,获取用户仅对首个音乐搜索结果触发播放操作的音乐搜索初步样本,得到第一目标样本;
和/或,
根据所述音乐搜索初步样本集合,获取对应的音乐搜索词为非音乐名称的音乐搜索初步样本,得到第二目标样本;
和/或,
根据所述音乐搜索初步样本集合,根据各音乐搜索词各自的搜索热度,在各音乐搜索词下获取相应数量的音乐搜索初步样本,得到第三样本;
基于所述第一目标样本和/或第二目标样本和/或第三目标样本,构建所述音乐模型训练样本库。
第二方面,本申请提供了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述的方法的步骤。
第三方面,本申请提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述的方法的步骤。
第四方面,本申请还提供了一种计算机程序产品。所述计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述的方法的步骤。
上述训练搜索模型的音乐样本标签处理方法、计算机设备、存储介质和计算机程序产品,通过对音乐搜索基础样本库中音乐搜索结果序列的每一音乐搜索结果,检测到对音乐搜索结果的满意操作时,确定音乐搜索结果的标签或确定音乐搜索结果属于非满意样本,基于搜索意图确定非满意样本中高适配度位置范围,在高适配度位置范围内,根据音乐搜索结果的播放时长确定标签,在非高适配度位置范围内,根据是否播放确定标签。相较于传统的方法,本方案通过对音乐搜索结果进行包括满意操作、适配度和播放情况等检测,确定音乐搜索结果的标签,提高了标签确定的准确度。
附图说明
图1为一个实施例中训练搜索模型的音乐样本标签处理方法的流程示意图;
图2为一个实施例中标签生成步骤的流程示意图;
图3为一个实施例中数据采样步骤的流程示意图;
图4为另一个实施例中训练搜索模型的音乐样本标签处理方法的流程示意图;
图5为一个实施例中音乐名称搜索结果的示意图;
图6为一个实施例中非音乐名称搜索结果的示意图;
图7为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
在一个实施例中,如图1所示,提供了一种训练搜索模型的音乐样本标签处理方法,本实施例以该方法应用于服务器进行举例说明,可以理解的是,该方法也可以应用于终端,还可以应用于包括终端和服务器的系统,并通过终端和服务器的交互实现,包括以下步骤:
步骤S202,获取音乐搜索基础样本库;音乐搜索样本库中音乐搜索样本包括音乐搜索词和对应的音乐搜索结果序列;音乐搜索结果序列包含多个音乐搜索结果。
其中,音乐搜索基础样本库可以是包含多个音乐搜索样本的数据库,每个音乐搜索样本可以对应相同或不同的用户,每个音乐搜索样本可以是历史的搜索样本。且音乐搜索样本中包括音乐搜索词和对应的音乐搜索结果序列。其中,音乐搜索词可以是用户在音乐软件中进行音乐搜索时输入的短语或字词,例如音乐名称、歌手名称、影视名称等;不同类型的音乐搜索词,表示不同的搜索意图。上述音乐搜索词也可以被称为query,上述音乐搜索结果序列可以被称为sid,表示用户每次搜索行为。上述音乐搜索结果序列中可以包括多个音乐搜索结果,音乐搜索结果可以被称为doc,可以表示为针对本次搜索最终输出的音乐单曲。
其中,上述各个音乐搜索样本可以是用于训练音乐模型的样本,为使模型训练过程更加高效,以及模型的输出结果更加准确,服务器可以结合上述query和doc的属性以及搜索流水中的用户反馈数据,为各个音乐搜索样本中各个音乐搜索结果进行打标签。
步骤S204,针对每一音乐搜索结果,根据是否对音乐搜索结果触发满意操作,确定音乐搜索结果的标签或者确定音乐搜索结果属于非满意样本。
其中,服务器可以对每个音乐搜索样本中的各个音乐搜索结果进行打标签。每个音乐搜索样本中包括音乐搜索结果序列,而音乐搜索结果序列中可以包括按照一定规则进行排序的多个音乐搜索结果,例如按照与对应的音乐搜索词的符合程度进行排序的多个音乐搜索结果。
其中,上述音乐搜索样本还包括用户对各个音乐搜索结果的操作信息,服务器可以通过检测用户的具体操作信息,确定用户对各个音乐搜索结果的偏好程度,从而确定各音乐搜索结果的标签的档位。即音乐搜索结果具有多个档位的标签,标签的档位越高,代表音乐搜索结果越符合用户的搜索意图。服务器可以确定属于最高档位标签的音乐搜索结果。该最高档位的标签可以表示用户在一次音乐搜索行为中最满意的音乐搜索结果。
例如,服务器可以用户是否对音乐搜索结果触发了满意操作,若检测到用户对音乐搜索结果触发的满意操作,服务器可以确定该音乐搜索结果的标签为最高档位的标签。其中,服务器可以为进行满意操作添加需要对音乐搜索结果进行播放的前提,例如,在一些实施例中,服务器还可以检测用户对音乐搜索结果的用户操作信息,判断是否对音乐搜索结果触发播放操作;若是,则服务器可以进行进一步判断,例如判断是否对音乐搜索结果触发满意操作,从而确定音乐搜索结果的处理方式。
其中,上述被检测到存在满意操作的音乐搜索结果可以聚合成为满意样本集,服务器可以向满意样本集中的音乐搜索结果添加最高档位的标签。其中,上述标签可以分为多个档位,例如分为6档,档位越高,表示用户对音乐搜索结果的满意度越高,则在档位时6档时,上述满意样本集中的音乐搜索结果的标签可以是第6档标签,例如可以是Dmax
对于用户没有进行满意操作的音乐搜索结果,服务器可以确定这些音乐搜索结果属于非满意样本。其中,非满意样本中可以包括多种类型的样本,非满意样本的类型可以基于用户是否对音乐搜索结果进行了播放操作确定。例如在一个实施例中,服务器可以检测用户是否对各音乐搜索结果进行了播放操作,若服务器根据用户操作信息判断出用户未对音乐搜索结果触发播放操作,则确定音乐搜索结果属于第一类非满意样本。其中,第一类非满意样本也可以被称为候选负样本,多个候选负样本可以聚合为负样本候选集Dcan 0,第一类非满意样本表示在一次搜索中音乐曝光但用户未点击播放的音乐,这些样本可以表示为与本次搜索的意图符合度较低的样本。
另外,服务器还可以在根据用户操作信息判断出用户对音乐搜索结果触发播放操作后,进一步判断用户是否对音乐搜索结果触发了满意操作,若服务器检测到用户未对音乐搜索结果触发满意操作,则确定音乐搜索结果属于第二类非满意样本。其中,第二类非满意样本也可以被称为不满意样本,多个第二类非满意样本可以聚合为不满意样本集Dno_satis,即不满意样本集中可以包括用户点击播放了,但没有进行满意操作的音乐。
具体地,上述基于用户的操作信息确定各个音乐搜索结果的样本类型的过程,可以是一种筛选过程。如图2所示,图2为一个实施例中标签生成步骤的流程示意图。在一些实施例中,服务器可以通过对负样本进行初筛后,再进行满意筛选,得到属于最高档位标签Dmax的音乐搜索结果,以及负样本候选集和不满意样本集,从而服务器还可以进一步地对负样本候选集和不满意样本集进行更多识别,来确定负样本候选集和不满意样本集中各个音乐搜索结果的标签档位。
其中,服务器可以对音乐搜索样本进行负样本初筛,服务器获取用户在一次搜索下的所有数据Dall后,可以检测用户在一次搜索下是否有对音乐搜索结果进行点击播放操作,将音乐搜索结果分为两类,分别为曝光未点击的样本,作为负样本候选,构成负样本候选集;而有点击播放的样本不作为负样本,构成非负样本集Dnon_0,即非负样本集中包括了用户播放过的音乐搜索结果。则负样本初筛可以表示为:{Dcan_0,Dnon_0}=f0label_can_gen(Dall)。其中,f0label_can_gen表示负样本筛选。
用户对音乐搜索结果的满意度是判断排序好坏的重要指标,服务器可以从非负样本集中确定出满意样本集和不满意样本集,并对满意样本集中的音乐搜索结果进行添加最高档的Dmax标签。例如,服务器可以在检测到用户对音乐搜索结果存在满意操作时,直接将该音乐搜索结果标位最高档位标签Dmax。其中,满意操作可以包括满意点击和满意播放等,满意点击可以包括收藏、下载、加入歌单等,满意播放可以包括完播等。对于没有进行满意操作,但用户点击播放的音乐搜索结果,服务器可以归为不满意样本集Dno_satis,则满意筛选具体可以表示为:{Dmax,Dno_satis}=fsatisfy(Dnon_0)。其中,fsatisfy表示满意筛选。
步骤S206,在音乐搜索结果属于非满意样本的情况下,根据音乐搜索词表示的搜索意图确定音乐搜索结果序列的高适配度位置范围。
其中,对于非满意样本,包括上述负样本候选集和不满意样本集中的音乐搜索结果等,服务器可以基于其在音乐搜索结果序列中的位置进行进一步筛选。服务器可以在确定音乐搜索结果属于非满意样本的情况下,基于音乐搜索词表示的搜索意图,确定音乐搜索结果序列的高适配度位置范围。其中,用户的搜索意图包括多种,例如歌名、歌手、影视、语义等。高适配度位置范围表示音乐搜索结果序列中属于高适配度的排名名次,即在高适配度位置范围内的各个音乐搜索结果与用户的搜索意图匹配度较高。
其中,每种类型的搜索意图对应的高适配度位置范围可以不同,例如对于歌名等精确意图,其高适配度位置范围较小,对于歌手、影视、语义等泛意图,其高适配度位置范围较大,上述高适配度位置范围也可以被称为top。而在音乐搜索结果序列中,高适配度位置范围以下名次范围,可以被称为低适配度位置范围,可以被称为非top。
步骤S208,若音乐搜索结果在音乐搜索结果序列的排位在高适配度位置范围内,则根据是否对音乐搜索结果触发播放操作和/或音乐搜索结果的播放时长,确定音乐搜索结果的第一标签。
其中,服务器确定音乐搜索结果序列的高适配度位置范围后,可以检测上述音乐搜索结果在音乐搜索结果序列的排位是否在高适配度位置范围内,若是,则服务器可以基于是否对音乐搜索结果触发播放操作和/或音乐搜索结果的播放时长,确定音乐搜索结果的第一标签。即对于在top范围的音乐搜索结果,服务器可以基于用户是否对其进行播放操作以及对其的播放时长确定标签档位。
其中,对于负样本候选集中的各个音乐搜索结果,用户并没有对其进行点击,因此负样本候选集中在top范围内的音乐搜索结果,其标签档位要比不满意样本集中在top范围内的音乐搜索结果的标签档位低。对于属于top范围的不满意样本集中的音乐搜索结果,用户对其的播放时间越长,音乐搜索结果的标签档位越高。另外,服务器还可以进一步结合音乐搜索结果与对应的音乐搜索词的匹配度确定标签档位,例如音乐搜索结果与音乐搜索词的匹配度越高,且播放时间越长,则标签档位越高,反之则越低,但上述不满意样本集中的各个音乐搜索结果的标签档位均不会高于上述最高档位Dmax
步骤S210,若音乐搜索结果在音乐搜索结果序列的排位不在高适配度位置范围内,则根据高适配度位置范围内的音乐搜索结果的第一标签,确定音乐搜索结果的第二标签。
其中,服务器确定上述音乐搜索结果不在高适配度位置范围内时,可以基于高适配度位置范围内的音乐搜索结果的第一标签,确定音乐搜索结果的第二标签。例如基于上述第一标签确定第二标签的选取范围,即对于在非top范围的音乐搜索结果,服务器可以先基于第一标签确定第二标签的范围,再基于用户是否对其进行播放操作以及播放的时长确定标签档位。其中第二标签的选取范围可以包含标签档位小于第一标签的标签。
其中,对于负样本候选集中的各个音乐搜索结果,若音乐搜索结果中在非top范围内,其标签档位要比不满意样本集中在非top范围内的音乐搜索结果的标签档位低。对于属于非top范围的不满意样本集中的音乐搜索结果,用户对其的触发过播放操作,则该音乐搜索结果的标签档位较非top中的负样本候选集中的音乐搜索结果的标签档位高。并且,对于非top范围内的属于不满意样本集中的音乐搜索结果,音乐搜索结果的播放时长越长,音乐搜索结果的标签档位越高。另外,服务器还可以进一步结合音乐搜索结果与对应的音乐搜索词的匹配度确定标签档位,例如,非top范围内的属于不满意样本集中的音乐搜索结果与音乐搜索词的匹配度越高,且播放时间越长,则标签档位越高,反之则越低。其中,上述非top范围内的属于不满意样本集中的音乐搜索结果的最高标签档位,可以是不高于上述top范围内的属于不满意样本集中的音乐搜索结果的最低标签档位,实现拟合精排的结果。
上述训练搜索模型的音乐样本标签处理方法中,通过对音乐搜索基础样本库中音乐搜索结果序列的每一音乐搜索结果,检测到对音乐搜索结果的满意操作时,确定音乐搜索结果的标签或确定音乐搜索结果属于非满意样本,基于搜索意图确定非满意样本中高适配度位置范围,在高适配度位置范围内,根据音乐搜索结果的播放时长确定标签,在非高适配度位置范围内,根据是否播放确定标签。相较于传统的方法,本方案通过对音乐搜索结果进行包括满意操作、适配度和播放情况等检测,确定音乐搜索结果的标签,提高了标签确定的准确度。
在一个实施例中,音乐搜索结果属于第二类非满意样本的情况下,若音乐搜索结果在音乐搜索结果序列的排位在高适配度位置范围内,则根据是否对音乐搜索结果触发播放操作和/或音乐搜索结果的播放时长,确定音乐搜索结果的第一标签,包括:根据音乐搜索结果的播放时长达到的预设时长阈值,确定音乐搜索结果的第一已播放标签。
本实施例中,第二类非满意样本可以属于上述不满意样本集。服务器确定音乐搜索结果属于第二类非满意样本时,表示这些音乐搜索结果样本是被点击播放过的结果。服务器可以基于音乐搜索结果的播放时长与预设时长阈值的比较结果,确定音乐搜索结果的第一标签。其中,预设时长阈值可以有多个,且每个阈值的数值可以逐渐增大,例如分为5秒、10秒、60秒等。当上述在top范围的,属于第二类非满意样本的音乐搜索结果,被播放了5秒时,服务器确定其标签档位为第二档;被播放了10秒时,服务器确定其标签档位为第三档;被播放了60秒时,服务器确定其标签档位为第四档等,从而确定top中的第二类非满意样本的第一标签。上述预设时长阈值的数量和数值大小可以根据实际情况设定。
当音乐搜索结果属于第一类非满意样本,且检测到该音乐搜索结果在上述高适配度范围内时,服务器还可以确定该音乐搜索结果的标签为第一未播放子标签。其中,该第一未播放子标签表示的搜索结果质量低于对应于最低时长阈值的第一已播放子标签表示的搜索结果质量,即第一未播放子标签的标签档位要低于第一已播放子标签的标签档位。
另外,上述第二类非满意样本还可能不在高适配度位置范围内,即还包括处于非top范围内的第二类非满意样本,对于非top范围的音乐搜索结果,服务器可以先基于第一标签确定在非top范围的音乐搜索结果的第二标签可选范围,例如第二标签的标签档位均低于第一标签。服务器可以在非top范围内检测到用户对音乐搜索结果触发的播放操作时,再根据音乐搜索结果的播放时长与预设时长阈值的比较结果,从第二标签的可选范围内确定音乐搜索结果的第二已播放子标签。其中,预设时长阈值的具体设置数值和比较规则已在上述步骤中说明,在此不再赘述。并且,上述最低时长阈值对应的第一未播放子标签,与最高时长阈值对应的第二已播放子标签表示的搜索结果质量相当,即处于非top的音乐搜索结果,需要其与音乐搜索词的匹配度和播放时长均较高的情况下,才能与top中的音乐搜索结果相比。
当音乐搜索结果属于第一类非满意样本,且该音乐搜索结果不在上述高适配度范围内时,服务器还可以根据第二已播放子标签,确定该音乐搜索结果的第二标签的可选范围,即该可选范围中标签的标签档位低于第二已播放子标签。从而服务器可以从第二标签的可选范围中确定音乐搜索结果的标签为第二未播放子标签。其中,第二未播放子标签表示的搜索结果质量低于对应于最低时长阈值的第二已播放子标签表示的搜索结果质量。
具体地,上述对第一类非满意样本和第二类非满意样本的标签确定,可以是top识别和质量筛选的过程。这些过程以拟合精排为基础。在音乐搜索场景中,精确意图的搜索词与泛意图的搜索词对应的用户需求不同,因此拟合精排中top范围的选取也不同,即高适配度位置范围的选取方式不同。而在top范围内的数据,属于精排打分较高的音乐搜索结果,则top范围内的音乐搜索结果,其标签档位比相同等级但处于非top的音乐搜索结果更高。例如在第一类非满意样本内,top范围的音乐搜索结果的标签档位比非top范围的音乐搜索结果的标签档位高;在第二类非满意样本内,top范围的音乐搜索结果的标签档位比非top范围的音乐搜索结果的标签档位高。对于第一类非满意样本,即负样本候选集,由于其没有被播放,其本身标签档位较第二类非满意样本低,并且服务器通过上述是否属于top范围的判断,可以确定出第一类非满意样本的标签档位,且top范围的第一类非满意样本的标签档位高于非top范围的第一类非满意样本的标签档位。第一类非满意样本经过上述top与非top的判断后,可以得到最终的标签档位,从而服务器可以基于带有标签档位的第一类非满意样本,得到负样本集。
对于第二类非满意样本,还需要进一步的筛选。其中,top范围具体可以表示为:docis_top=ftop_ana(query_intent,position)。其中,ftop_ana表示top识别,中query_intent表示音乐搜索词的搜索意图,position表示曝光位置。
对于第二类非满意样本,服务器还可以通过质量筛选模块,确定其标签档位。为保证搜索结果的正确性,即保证音乐搜索词与音乐搜索结果的相关性,服务器可以判断音乐搜索结果是否精确命中搜索意图,例如音乐搜索结果与音乐搜索词的匹配度是否达到预设匹配度阈值,对于非精确命中的音乐搜索结果,其相关性较差,即使用户对其进行了播放,其标签等级也不会太高。而对于处于同一相关性的音乐搜索结果,播放较好的标签等级应该更高。即服务器综合意图命中情况和音乐搜索结果的播放情况,判断音乐搜索结果的质量,进而确定音乐搜索结果的标签档位。质量筛选具体可以表示为:docis_good=fgood_ana(query_docintent_level,docplay_data)。其中,fgood_ana表示属于更高标签档位的判断,query_docintent_level表示音乐搜索结果与音乐搜索词的匹配程度,docplay_data表示音乐搜索结果的播放情况。
具体地,对于top范围内属于第二类非满意样本的音乐搜索结果,用户对其播放时长越长,其标签档位越高;对于非top范围内属于第二类非满意样本的音乐搜索结果,需要相关性和播放情况都较好的情况下,才能和top中的音乐搜索结果相比,即对于第二类非满意样本,在非top范围的音乐搜索结果的最高标签档位,与top范围的音乐搜索结果的最低标签档位的等级相当。对于第二类非满意样本的音乐标签确定过程,具体可以表示为:docfinal_label=ftop_good_ana(docis_top,docis_good);doc∈Dno_satis。其中,docfinal_label表示第二类非满意样本的最终标签档位,ftop_good_ana表示top中的第二类非满意样本的标签,以及非top中相关性和播放情况较好第二类非满意样本的标签,docis_top表示属于top的第二类非满意样本,docis_good表示属于非top中相关性和播放较好的第二类非满意样本。
通过本实施例,服务器可以结合用户对音乐搜索结果的播放情况,以及音乐搜索结果的曝光位置,确定音乐搜索结果的标签档位,从而服务器基于带有标签的音乐搜索结果训练音乐模型,能够提高音乐模型的识别准确度。
在一个实施例中,根据音乐搜索词表示的搜索意图确定音乐搜索结果序列的高适配度位置范围,包括:若搜索意图为第一类搜索意图,则确定音乐搜索结果序列的高适配度位置范围为第一范围;若搜索意图为第二类搜索意图,则确定音乐搜索结果序列的高适配度位置范围为第二范围;第一范围不同于第二范围。
本实施例中,用户的搜索意图可以包括多种。对于不同的搜索意图,服务器可以确定不同的高适配度位置范围。例如,服务器若检测到搜索意图为第一类搜索意图,则服务器可以确定音乐搜索结果序列的高适配度位置为第一范围。例如,在一些实施例中,当音乐搜索词为音乐名称,具体可以是歌名时,服务器可以确定搜索意图为第一类搜索意图。
服务器若检测到搜索意图为第二类搜索意图,则可以确定音乐搜索结果序列的高适配度范围为第二范围。例如,在一些实施例中,当音乐搜索词为非音乐名称时,具体可以是歌手、影视、语义时,服务器可以确定搜索意图为第二类搜索意图。其中,上述第一范围与第二范围不同,且第一范围小于第二范围。
具体地,对于歌名等精确意图,服务器可以取音乐搜索结果序列中少数头部曝光的音乐搜索结果,作为本次搜索下的top范围数据,对歌手、语义等泛意图,服务器可以选取更多头部曝光的音乐搜索结果,作为本次搜索下的top范围数据,即不同搜索意图对应不同的选取范围。
通过上述实施例,服务器可以基于搜索意图确定高适配度位置范围的选取规则,从而为处于不同适配度位置范围的音乐搜索结果确定不同档位的标签,服务器基于带有标签的音乐搜索结果训练音乐模型,能够提高音乐模型的识别准确度。
在一个实施例中,还包括:确定音乐搜索基础样本库中各音乐搜索结果的标签后,根据音乐搜索基础样本库,提取未曝光音乐搜索结果及其对应的音乐搜索词,得到第一部分音乐搜索样本;根据音乐搜索基础样本库,提取曝光音乐搜索结果中达到预设适配度的未播放音乐搜索结果,得到第二部分音乐搜索样本;根据音乐搜索基础样本库,提取曝光音乐搜索结果中未达到预设适配度的未播放音乐搜索结果,得到第三部分音乐搜索样本;基于第一部分音乐搜索样本、第二部分音乐搜索样本和第三部分音乐搜索样本,构建音乐模型训练样本库。
本实施例中,为解决样本选择偏差的问题,同时优化精排不能覆盖的音乐搜索结果以及低搜索量的音乐搜索词的排序,需要通过多次采样构建训练数据。服务器通过上述步骤确定音乐搜索基础样本库中各个音乐搜索结果的标签后,可以从库中采样出多个部分的音乐搜索样本,并基于多个部分的音乐搜索样本构建音乐模型训练样本库。
例如,服务器可以从音乐搜索基础样本库中提取未曝光音乐搜索结果及其对应的音乐搜索词,得到第一部分音乐搜索样本。其中,粗排打分的doc范围广,如果只根据用户反馈数据构造训练数据,会有严重的样本选择偏差问题,因此需要考虑未曝光音乐搜索结果。未曝光音乐搜索结果可以是在音乐搜索结果序列中未被用户看到的音乐搜索结果,由该音乐搜索结果得到的第一部分音乐搜索样本可以被称为长尾负样本Dlow_0
服务器还可以根据音乐搜索基础样本库,提取曝光的音乐搜索结果中,达到预设适配度的未播放音乐搜索结果,作为第二部分音乐搜索样本。其中,预设适配度表示音乐搜索词与音乐搜索结果的匹配度,达到预设适配度的未播放音乐搜索结果,可以是属于top范围的音乐搜索结果,由该音乐搜索结果得到的第二部分音乐搜索样本可以被称为top负样本Dtop_0。服务器还可以提取曝光的音乐搜索结果中,未达到预设适配度的未播放音乐搜索结果,作为第三部分音乐搜索样本。其中,未达到预设适配度的未播放音乐搜索结果,可以是属于非top范围的音乐搜索结果,由该音乐搜索结果得到的第三部分音乐搜索样本可以被称为非top负样本Dnotop_0
其中,上述从而服务器可以基于上述采样得到的负样本的数量,可以与对应搜索下点击播放的音乐搜索结果的数量正相关,即对于每次搜索,用户点击播放的音乐搜索结果的数量越多,对应需要采样的负样本的数量便越多。服务器可以基于上述第一部分音乐搜索样本、第二部分音乐搜索样本和第三部分音乐搜索样本,构建音乐模型训练样本库。
具体地,如图3所示,图3为一个实施例中数据采样步骤的流程示意图。服务器采样包括多个步骤,本实施例为长尾采样和负样本采样的过程。服务器可以对未曝光的音乐搜索结果进行采样,得到长尾负样本。对于曝光未点击部分的数据,即上述第一类非满意样本,服务器可以基于点击次数,例如第一类非满意样本历史被点击播放过的次数,再基于历史点击播放时,其在音乐搜索结果序列中的位置,从而确定该负样本数据是来自用户看到过的音乐搜索结果,服务器对上述属于top数据的第一类非满意样本进行采样,可以得到第二部分音乐搜索样本。其中,由于用户大部分点击播放操作都在top数据中,服务器还可以对非top的数据进行采样,得到上述第三部分音乐搜索样本,不让负样本都集中于top范围内。经过采样后得到负样本具体可以表示为:Dlabel=0=Dtop_0∪Dnotop_0∪Dlow_0。其中,Dlabel=0表示所有负样本。
通过本实施例,服务器可以通过结合长尾负样本、top负样本和非top负样本,采样得到多种类型的样本后,构建音乐模型训练样本库,服务器基于音乐模型训练样本库中的各个样本训练音乐模型,提高音乐模型在音乐搜索中的输出准确度。
在一个实施例中,基于第一部分音乐搜索样本、第二部分音乐搜索样本和第三部分音乐搜索样本,构建音乐模型训练样本库,包括:根据第一部分音乐搜索样本、第二部分音乐搜索样本和第三部分音乐搜索样本,得到音乐搜索初步样本集合;根据音乐搜索初步样本集合,获取对应的音乐搜索词为音乐名称的音乐搜索初步样本,根据对应的音乐搜索词为音乐名称的音乐搜索初步样本,获取用户仅对首个音乐搜索结果触发播放操作的音乐搜索初步样本,得到第一目标样本。
本实施例中,服务器将上述采样的第一部分音乐搜索样本、第二部分音乐搜索样本和第三部分音乐搜索样本,结合为音乐搜索初步样本集合。服务器可以对音乐搜索初步样本集合进行基于点击类型的采样。例如,服务器可以获取音乐搜索词为音乐名称的音乐搜索初步样本,并获取用户仅对首个音乐搜索结果触发播放操作的音乐搜索初步样本,作为第一目标样本。具体地,对于歌名等音乐搜索词的情景,用户大多数情况下只会点击第一个音乐搜索及黑锅,为使模型学习更多非第一个音乐搜索结果是质量最好的情况,需要在歌名搜索中,对只点击了第一个音乐搜索结果进行采样,而这些采样得到的样本中包括有第一个音乐搜索结果不是最好的情况。上述基于点击类型采样的数据量可以占针对歌曲意图的采样数据的一半以上。另外,为保证每条音乐搜索结果序列的数据量不过大,服务器可以去掉音乐搜索初步样本集中,点击播放音乐搜索结果数量太多的音乐搜索结果序列。
服务器还可以基于音乐搜索词的搜索意图进行采样。例如,在一些实施例中,服务器可以根据音乐搜索初步样本集合,获取对应的音乐搜索词为非音乐名称的音乐搜索初步样本,得到第二目标样本。具体地,音乐搜索意图和音乐搜索结果的意图命中情况对于粗排十分重要,用户搜索的意图中大部分属于歌名和歌手的意图,而搜索意图还可以包括影视、语义等占比较少的意图,这些泛意图正是需要注意的部分,因此需要对不同的意图进行采样,得到上述第二目标样本吗,从而能让音乐模型学习各种搜索意图的排序情况。
另外,服务器还可以基于搜索热度进行采样。例如,在一些实施例中,服务器可以根据音乐搜索初步样本集合,获取各音乐搜索词各自的搜索热度,基于搜索热度,在各音乐搜索词下获取相应数量的音乐搜索初步样本,得到第三样本。具体地,上述粗排主要提升空间在于精排没有覆盖的部分,例如一些低热度的音乐搜索词,若不进行采样,训练数据中大部分都是中高频和高热度的音乐搜索词,满意学习全面。因此,服务器可以基于音乐搜索词的搜索热度进行采样,音乐搜索词的搜索热度越高,越大概率被服务器忽略,而音乐搜索词的搜索热度较低时,越大概率被保留,具体地采样比例可以是:1/log(qv)。其中,qv表示搜索热度。
服务器可以通过上述多种采样中的部分或全部采样,得到第一目标样本、第二目标样本、第三目标样本中的至少一种,从而服务器可以基于第一目标样本、第二目标样本、第三目标样本中的至少一种,构建音乐模型训练样本库。
通过上述实施例,服务器通过多种判断条件,对多种类型的数据进行采样,基于采样得到的多种类型的样本训练音乐模型,能够提高音乐模型进行音乐搜索时输出结果的准确度。
在一个实施例中,如图4所示,图4为另一个实施例中训练搜索模型的音乐样本标签处理方法的流程示意图。本实施例中,服务器通过综合考虑搜索意图、用户行为和拟合精排策略,对音乐搜索结果进行打标签。例如,服务器可以获取用户的音乐搜索词和对应的包含多个音乐搜索结果的音乐搜索结果序列,以及用户搜索的流水数据。其中,流水数据包括音乐搜索结果的曝光和点击播放行为等,用于判断音乐搜索结果的好坏。用户的音乐搜索词和音乐搜索结果序列中包括音乐搜索词的意图、搜索量和音乐搜索结果的意图命中情况等。服务器通过结合用户的音乐搜索词、音乐搜索结果序列和流水数据,通过上述的各项步骤,确定各个音乐搜索结果的质量,并为每个音乐搜索结果打上标签。
服务器还可以通过多种采样得到用于训练音乐模型的训练数据。包括长尾采样、对top范围和非top范围中的曝光未点击的音乐搜索结果进行采样等。具体包括基于点击类型的采样、基于搜索意图的采样和基于搜索热度的采样,进而服务器可以基于采样后得到的音乐模型训练样本库,训练音乐模型,使得音乐模型的输出结果更加准确。
其中,服务器在确定top的范围时,还可以基于该音乐搜索词下用户对音乐搜索结果的满意度确定;另外,用户的搜索意图对训练影响较大,在一些实施例中,服务器还可以不进行基于搜索意图的采样,转而通过意图划分数据,训练多个模型,例如歌名搜索模型和歌手搜索模型等;并且,在标签设计中,搜索意图命中只用于判断top范围,在音乐搜索结果被播放的情况下,为简化标签,可以选择不使用基于搜索意图进行判断。
其中,本方案还提供一个应用实施例,如图5所示,图5为一个实施例中音乐名称搜索结果的示意图。服务器通过上述音乐模型训练样本库中各个样本训练得到音乐模型后,可以利用该音乐模型对搜索结果进行优化。图5是对歌曲的搜索结果,其中表001为实验组,表002为对照组。具体地,对于歌曲love xx,由于音乐搜索结果003是翻唱版本,且与诸多翻唱版本相比,搜索热度更低,播放情况也较差,因此服务器可以对其排序进行下移,提高歌曲排序的准确度。
本方案还提供另一个应用实施例,如图6所示,图6为一个实施例中非音乐名称搜索结果的示意图。图6是对泛意图的歌手的搜索结果,其中表004为实验组,表005为对照组。具体地,对于歌手韩x,服务器可以将前十位中的歌曲“十x”上移6位,虽然该歌曲的歌手不是精确命中,但也是搜索词“韩x”的演唱曲目,并且由于歌曲本身收藏数和下载数等满意操作很高,播放度和热度也较后面的歌曲高,播放情况也较好,因此可以通过音乐模型的调整,将其排序进行提升。
通过上述实施例,通过对音乐搜索结果进行包括满意操作、适配度和播放情况等检测,确定音乐搜索结果的标签,提高了标签确定的准确度,并且,在确保打标数据完整性的前提下,服务器通过多种采样,增加了歌曲排序准确度。
应该理解的是,虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
上述训练搜索模型的音乐样本标签处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图7所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储音乐搜索数据。该计算机设备的网络接口用于与外部的服务器通过网络连接通信。该计算机程序被处理器执行时以实现一种训练搜索模型的音乐样本标签处理方法。
本领域技术人员可以理解,图7中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述的训练搜索模型的音乐样本标签处理方法。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述的训练搜索模型的音乐样本标签处理方法。
在一个实施例中,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述的训练搜索模型的音乐样本标签处理方法。
需要说明的是,本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory,ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory,MRAM)、铁电存储器(Ferroelectric Random Access Memory,FRAM)、相变存储器(Phase Change Memory,PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器等。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory,DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。

Claims (10)

1.一种训练搜索模型的音乐样本标签处理方法,其特征在于,所述方法包括:
获取音乐搜索基础样本库;所述音乐搜索基础样本库中音乐搜索样本包括音乐搜索词和对应的音乐搜索结果序列;所述音乐搜索结果序列包含多个音乐搜索结果;
针对每一音乐搜索结果,根据是否对所述音乐搜索结果触发满意操作,确定所述音乐搜索结果的标签或者确定所述音乐搜索结果属于非满意样本;
在所述音乐搜索结果属于非满意样本的情况下,根据所述音乐搜索词表示的搜索意图确定所述音乐搜索结果序列的高适配度位置范围;
若所述音乐搜索结果在所述音乐搜索结果序列的排位在所述高适配度位置范围内,则所述音乐搜索结果属于第二类非满意样本的情况下,根据所述音乐搜索结果的播放时长达到的预设时长阈值,确定所述音乐搜索结果的第一已播放子标签;所述音乐搜索结果属于第一类非满意样本的情况下,确定所述音乐搜索结果的标签为第一未播放子标签;所述第一未播放子标签表示的搜索结果质量低于对应于最低时长阈值的第一已播放子标签表示的搜索结果质量;
若所述音乐搜索结果在所述音乐搜索结果序列的排位不在所述高适配度位置范围内,则所述音乐搜索结果属于第二类非满意样本的情况下,根据所述第一未播放子标签,确定第二标签的可选范围,根据所述音乐搜索结果的播放时长达到的预设时长阈值,从第二标签的可选范围中确定所述音乐搜索结果的第二已播放子标签;所述第一未播放子标签与对应于最高时长阈值的第二已播放子标签表示的搜索结果质量相当;所述音乐搜索结果属于第一类非满意样本的情况下,根据所述第二已播放子标签,确定第二标签的可选范围,从所述第二标签的可选范围中确定所述音乐搜索结果的标签为第二未播放子标签;所述第二未播放子标签表示的搜索结果质量低于对应于最低时长阈值的第二已播放子标签表示的搜索结果质量。
2.根据权利要求1所述的方法,其特征在于,根据是否对所述音乐搜索结果触发满意操作,确定所述音乐搜索结果属于非满意样本,包括:
若根据用户操作信息判断出用户未对所述音乐搜索结果触发播放操作,则确定所述音乐搜索结果属于第一类非满意样本。
3.根据权利要求1所述的方法,其特征在于,根据是否对所述音乐搜索结果触发满意操作,确定所述音乐搜索结果属于非满意样本,包括:
若根据用户操作信息判断出用户对所述音乐搜索结果触发播放操作且未对所述音乐搜索结果触发满意操作,则确定所述音乐搜索结果属于第二类非满意样本。
4.根据权利要求1所述的方法,其特征在于,所述根据是否对所述音乐搜索结果触发满意操作之前,还包括:
根据对所述音乐搜索结果的用户操作信息,判断是否对所述音乐搜索结果触发播放操作;
若是,则判断是否对所述音乐搜索结果触发满意操作。
5.根据权利要求1所述的方法,其特征在于,所述根据所述音乐搜索词表示的搜索意图确定所述音乐搜索结果序列的高适配度位置范围,包括:
若所述搜索意图为第一类搜索意图,则确定所述音乐搜索结果序列的高适配度位置范围为第一范围;
若所述搜索意图为第二类搜索意图,则确定所述音乐搜索结果序列的高适配度位置范围为第二范围;所述第一范围不同于所述第二范围。
6.根据权利要求5所述的方法,其特征在于,所述方法还包括:
所述音乐搜索词为音乐名称时,确定所述搜索意图为第一类搜索意图;
所述音乐搜索词为非音乐名称时,确定所述搜索意图为第二类搜索意图;所述第一范围小于所述第二范围。
7.根据权利要求1至6任一项所述的方法,其特征在于,所述方法还包括:
确定所述音乐搜索基础样本库中各音乐搜索结果的标签后,根据所述音乐搜索基础样本库,提取未曝光音乐搜索结果及其对应的音乐搜索词,得到第一部分音乐搜索样本;
根据所述音乐搜索基础样本库,提取曝光音乐搜索结果中达到预设适配度的未播放音乐搜索结果,得到第二部分音乐搜索样本;
根据所述音乐搜索基础样本库,提取曝光音乐搜索结果中未达到预设适配度的未播放音乐搜索结果,得到第三部分音乐搜索样本;
基于所述第一部分音乐搜索样本、第二部分音乐搜索样本和第三部分音乐搜索样本,构建音乐模型训练样本库。
8.根据权利要求7所述的方法,其特征在于,所述基于所述第一部分音乐搜索样本、第二部分音乐搜索样本和第三部分音乐搜索样本,构建音乐模型训练样本库,包括:
根据所述第一部分音乐搜索样本、第二部分音乐搜索样本和第三部分音乐搜索样本,得到音乐搜索初步样本集合;
根据所述音乐搜索初步样本集合,获取对应的音乐搜索词为音乐名称的音乐搜索初步样本,根据所述对应的音乐搜索词为音乐名称的音乐搜索初步样本,获取用户仅对首个音乐搜索结果触发播放操作的音乐搜索初步样本,得到第一目标样本;
和/或,
根据所述音乐搜索初步样本集合,获取对应的音乐搜索词为非音乐名称的音乐搜索初步样本,得到第二目标样本;
和/或,
根据所述音乐搜索初步样本集合,根据各音乐搜索词各自的搜索热度,在各音乐搜索词下获取相应数量的音乐搜索初步样本,得到第三样本;
基于所述第一目标样本和/或第二目标样本和/或第三目标样本,构建所述音乐模型训练样本库。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至8中任一项所述的方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至8中任一项所述的方法的步骤。
CN202310989724.2A 2023-08-07 2023-08-07 训练搜索模型的音乐样本标签处理方法、设备和存储介质 Active CN117056556B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310989724.2A CN117056556B (zh) 2023-08-07 2023-08-07 训练搜索模型的音乐样本标签处理方法、设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310989724.2A CN117056556B (zh) 2023-08-07 2023-08-07 训练搜索模型的音乐样本标签处理方法、设备和存储介质

Publications (2)

Publication Number Publication Date
CN117056556A CN117056556A (zh) 2023-11-14
CN117056556B true CN117056556B (zh) 2025-12-09

Family

ID=88668485

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310989724.2A Active CN117056556B (zh) 2023-08-07 2023-08-07 训练搜索模型的音乐样本标签处理方法、设备和存储介质

Country Status (1)

Country Link
CN (1) CN117056556B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111026908A (zh) * 2019-12-10 2020-04-17 腾讯科技(深圳)有限公司 歌曲标签确定方法、装置、计算机设备以及存储介质
CN111444380A (zh) * 2020-03-26 2020-07-24 腾讯音乐娱乐科技(深圳)有限公司 音乐搜索排序方法、装置、设备和存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101564534B1 (ko) * 2015-06-16 2015-10-30 중앙대학교 산학협력단 전형적 음악 컨텐트를 이용한 태그 조합 기반 음악 검색 서비스 제공 방법 및 장치
CN113742514B (zh) * 2021-09-03 2023-11-24 林飞鹏 一种音乐精准搜索方法及装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111026908A (zh) * 2019-12-10 2020-04-17 腾讯科技(深圳)有限公司 歌曲标签确定方法、装置、计算机设备以及存储介质
CN111444380A (zh) * 2020-03-26 2020-07-24 腾讯音乐娱乐科技(深圳)有限公司 音乐搜索排序方法、装置、设备和存储介质

Also Published As

Publication number Publication date
CN117056556A (zh) 2023-11-14

Similar Documents

Publication Publication Date Title
TWI486800B (zh) 用於使用編輯距離以及文件資訊的搜尋結果排序之系統與方法
US7636714B1 (en) Determining query term synonyms within query context
US10515133B1 (en) Systems and methods for automatically suggesting metadata for media content
US8321414B2 (en) Hybrid audio-visual categorization system and method
CN111090771B (zh) 歌曲搜索方法、装置及计算机存储介质
US20090055390A1 (en) Information sorting device and information retrieval device
CN112464100B (zh) 信息推荐模型训练方法、信息推荐方法、装置及设备
CN116431837B (zh) 基于大型语言模型和图网络模型的文档检索方法和装置
CN113535895A (zh) 搜索文本处理方法、装置、电子设备及介质
CN116361416A (zh) 基于语义分析及高维建模的语音检索方法、系统及介质
US9305119B1 (en) System, apparatus and method for determining correct metadata from community-submitted data
KR102437201B1 (ko) 저작물 관리 방법 및 이러한 방법을 수행하는 장치
JP2005301859A (ja) コード検索プログラム及びコード検索装置
US20050125394A1 (en) Information search apparatus, information search method, and information recording medium on which information search program is recorded
Font et al. Class-based tag recommendation and user-based evaluation in online audio clip sharing
CN117056556B (zh) 训练搜索模型的音乐样本标签处理方法、设备和存储介质
CN119807346B (zh) 基于两阶段检索和大模型的规章制度智能问答方法及装置
CN118069532A (zh) 测试用例确定方法、装置、计算机设备和存储介质
JP5310196B2 (ja) 分類体系改正支援プログラム、分類体系改正支援装置、および分類体系改正支援方法
WO2024045926A1 (zh) 多媒体推荐方法、推荐装置、车机系统和存储介质
WO2008044669A1 (en) Audio information search program and its recording medium, audio information search system, and audio information search method
RU2409849C2 (ru) Способ поиска информации в политематических массивах неструктурированных текстов
CN112445930A (zh) 评估电子文件的相似性
CN114398908B (zh) 模型训练方法、信息处理方法、装置、设备及存储介质
CN114840709B (zh) 音频搜索模型的训练方法、音频搜索方法和相关产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant