[go: up one dir, main page]

CN111046221A - 歌曲推荐方法、装置、终端设备以及存储介质 - Google Patents

歌曲推荐方法、装置、终端设备以及存储介质 Download PDF

Info

Publication number
CN111046221A
CN111046221A CN201911304855.2A CN201911304855A CN111046221A CN 111046221 A CN111046221 A CN 111046221A CN 201911304855 A CN201911304855 A CN 201911304855A CN 111046221 A CN111046221 A CN 111046221A
Authority
CN
China
Prior art keywords
song
text
search
feature vector
acquiring
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911304855.2A
Other languages
English (en)
Other versions
CN111046221B (zh
Inventor
缪畅宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201911304855.2A priority Critical patent/CN111046221B/zh
Publication of CN111046221A publication Critical patent/CN111046221A/zh
Application granted granted Critical
Publication of CN111046221B publication Critical patent/CN111046221B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/63Querying
    • G06F16/635Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/686Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, title or artist information, time, location or usage information, user ratings

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例公开了一种歌曲推荐方法、装置、终端设备以及存储介质,该方法包括:获取预设时间段内目标用户的搜索记录对应的搜索对象内容文本,获取搜索对象内容文本对应的内容文本特征向量,其中内容文本特征向量包括组成搜索对象内容文本的多个词对应的多个词向量;获取歌曲库中包括的每首歌曲对应的歌曲文本特征向量,其中歌曲文本特征向量包括组成歌曲信息的多个词对应的多个词向量;基于内容文本特征向量,以及歌曲库中包括的每首歌曲对应的歌曲文本特征向量确定搜索对象内容文本与每首歌曲的歌曲信息的文本相似度,根据文本相似度从歌曲库中确定出至少一首歌曲推荐给目标用户。采用本申请实施例,可提高为新用户推荐歌曲的准确性。

Description

歌曲推荐方法、装置、终端设备以及存储介质
技术领域
本申请涉及计算机技术领域,尤其涉及一种歌曲推荐方法、装置、终端设备以及存储介质。
背景技术
冷启动在推荐系统中主要是指对于没有交互行为的新用户或新物品做相关推荐,其常用于产品的拉新、增加日活、增加留存,在推荐系统初期具有重大意义。但因为场景、用户、环境、产品设计、数据源等等因素的不同,冷启动技术也千差万别。其中,在搜索场景下,如何为新用户推荐歌曲,成为当前亟待解决的问题。
发明内容
本申请实施例提供一种歌曲推荐方法、装置、终端设备以及存储介质,可提高为新用户推荐歌曲的准确性,适用性高。
第一方面,本申请实施例提供了一种歌曲推荐方法,该方法包括:
获取预设时间段内目标用户的搜索记录对应的搜索对象内容文本,获取所述搜索对象内容文本对应的内容文本特征向量,其中所述内容文本特征向量包括组成所述搜索对象内容文本的多个词对应的多个词向量;
获取歌曲库中包括的每首歌曲对应的歌曲文本特征向量,其中歌曲文本特征向量包括组成歌曲信息的多个词对应的多个词向量;
基于所述内容文本特征向量,以及所述歌曲库中包括的每首歌曲对应的歌曲文本特征向量确定所述搜索对象内容文本与每首歌曲的歌曲信息的文本相似度,根据所述文本相似度从所述歌曲库中确定出至少一首歌曲推荐给所述目标用户。
结合第一方面,在一种可能的实施方式中,所述获取预设时间段内目标用户的搜索记录对应的搜索对象内容文本,包括:
获取所述目标用户所使用的搜索引擎对应的日志文件,其中所述日志文件中包括所述目标用户的搜索记录,所述搜索记录包括所述目标用户用于检索的检索字符串以及检索时间;
获取预设时间段内目标用户的搜索记录中出现次数最多的检索字符串,并基于所述检索字符串确定出多个检索结果内容文本,获取各检索结果内容文本对应的网页属性特征向量;
获取所述检索字符串对应的检索字符文本特征向量,以及获取所述目标用户的用户基本属性特征向量,基于所述检索字符文本特征向量、所述用户基本属性特征向量以及每个检索结果内容文本对应的网页属性特征向量生成每个检索结果内容文本对应的联合特征向量;
获取文本排序模型,将各联合特征向量输入所述文本排序模型,以得到所述文本排序模型输出的各检索结果内容文本的排序结果,其中所述文本排序模型根据多个样本文本对应的多个样本联合特征向量以及所述多个样本文本的排序结果训练得到;
将所述排序结果中的前n个检索结果内容文本确定为搜索对象内容文本。
结合第一方面,在一种可能的实施方式中,所述搜索记录包括所述目标用户的浏览记录和浏览时间;所述获取预设时间段内目标用户的搜索记录对应的搜索对象内容文本,包括:
获取预设时间段内的浏览记录中包括的统一资源定位符URL,访问所述URL以获取对应的内容文本作为搜索对象内容文本。
结合第一方面,在一种可能的实施方式中,所述方法还包括:
将所述搜索对象内容文本进行分词处理以得到组成所述搜索对象内容文本的多个词;
获取预设的词向量查询表,所述词向量查询表中包括多个词对应的多个词向量,其中一个词对应一个词向量;
从所述词向量查询表中确定出组成所述搜索对象内容文本的多个词中各个词对应的词向量。
结合第一方面,在一种可能的实施方式中,所述基于所述内容文本特征向量,以及所述歌曲库中包括的每首歌曲对应的歌曲文本特征向量确定所述搜索对象内容文本与每首歌曲的歌曲信息的文本相似度,包括:
获取文本相似度分类模型,将所述内容文本特征向量和任一首歌曲对应的歌曲文本特征向量输入所述文本相似度分类模型,其中所述文本相似度分类模型根据样本搜索对象内容文本对应的内容文本特征向量、样本歌曲对应的歌曲文本特征向量以及文本相似度分类结果标识训练得到;
获取所述文本相似度分类模型所输出的文本相似度分类结果标识,根据所述文本相似度分类结果标识确定所述任一首歌曲对应的歌曲文本信息与所述搜索对象内容文本间的文本相似度。
结合第一方面,在一种可能的实施方式中,所述基于所述内容文本特征向量,以及所述歌曲库中包括的每首歌曲对应的歌曲文本特征向量确定所述搜索对象内容文本与每首歌曲的歌曲信息的文本相似度,包括:
计算所述内容文本特征向量分别与所述歌曲库中包括的每首歌曲对应的歌曲文本特征向量间的欧氏距离;
将所述欧式距离转换为相似度值,以作为所述搜索对象内容文本与每首歌曲的歌曲信息的文本相似度。
结合第一方面,在一种可能的实施方式中,所述根据所述文本相似度从所述曲库中确定出至少一首歌曲推荐给用户,包括:
获取预设相似度阈值,从所述歌曲库中,获取文本相似度不小于所述预设相似度阈值的歌曲推荐给所述目标用户;或者
将所述文本相似度进行降序排列,获取降序排列后的前k个文本相似度对应的k首歌曲以推荐给所述目标用户,其中k为大于0的整数。
第二方面,本申请实施例提供了一种歌曲推荐装置,该装置包括:
第一特征向量获取模块,用于获取预设时间段内目标用户的搜索记录对应的搜索对象内容文本,获取所述搜索对象内容文本对应的内容文本特征向量,其中所述内容文本特征向量包括组成所述搜索对象内容文本的多个词对应的多个词向量;
第二特征向量获取模块,用于获取歌曲库中包括的每首歌曲对应的歌曲文本特征向量,其中歌曲文本特征向量包括组成歌曲信息的多个词对应的多个词向量;
歌曲推荐模块,用于基于所述内容文本特征向量,以及所述歌曲库中包括的每首歌曲对应的歌曲文本特征向量确定所述搜索对象内容文本与每首歌曲的歌曲信息的文本相似度,根据所述文本相似度从所述歌曲库中确定出至少一首歌曲推荐给所述目标用户。
结合第二方面,在一种可能的实施方式中,所述第一特征向量获取模块包括第一搜索对象内容文本获取单元、内容文本特征向量获取单元,所述第一搜索对象内容文本获取单元包括:
日志文件获取子单元,用于获取所述目标用户所使用的搜索引擎对应的日志文件,其中所述日志文件中包括所述目标用户的搜索记录,所述搜索记录包括所述目标用户用于检索的检索字符串以及检索时间;
检索结果内容文本获取子单元,用于获取预设时间段内目标用户的搜索记录中出现次数最多的检索字符串,并基于所述检索字符串确定出多个检索结果内容文本,获取各检索结果内容文本对应的网页属性特征向量;
联合特征向量获取子单元,用于获取所述检索字符串对应的检索字符文本特征向量,以及获取所述目标用户的用户基本属性特征向量,基于所述检索字符文本特征向量、所述用户基本属性特征向量以及每个检索结果内容文本对应的网页属性特征向量生成每个检索结果内容文本对应的联合特征向量;
检索结果内容文本排序子单元,用于获取文本排序模型,将各联合特征向量输入所述文本排序模型,以得到所述文本排序模型输出的各检索结果内容文本的排序结果,其中所述文本排序模型根据多个样本文本对应的多个样本联合特征向量以及所述多个样本文本的排序结果训练得到;
排序结果处理子单元,用于将所述排序结果中的前n个检索结果内容文本确定为搜索对象内容文本。
结合第二方面,在一种可能的实施方式中,所述搜索记录包括所述目标用户的浏览记录,所述第一特征向量获取模块还包括第二搜索对象内容文本获取单元,所述第二搜索对象内容文本获取单元具体用于:
获取预设时间段内的浏览记录中包括的统一资源定位符URL,访问所述URL以获取对应的内容文本作为搜索对象内容文本。
结合第二方面,在一种可能的实施方式中,所述装置还包括词向量获取模块,所述词向量获取模板包括:
分词处理单元,用于将所述搜索对象内容文本进行分词处理以得到组成所述搜索对象内容文本的多个词;
词向量查询表获取单元,用于获取预设的词向量查询表,所述词向量查询表中包括多个词对应的多个词向量,其中一个词对应一个词向量;
词向量确定单元,用于从所述词向量查询表中确定出组成所述搜索对象内容文本的多个词中各个词对应的词向量。
结合第二方面,在一种可能的实施方式中,所述歌曲推荐模块包括第一文本相似度确定单元,所述第一文本相似度确定单元包括:
分类模型获取子单元,用于获取文本相似度分类模型,将所述内容文本特征向量和任一首歌曲对应的歌曲文本特征向量输入所述文本相似度分类模型,其中所述文本相似度分类模型根据样本搜索对象内容文本对应的内容文本特征向量、样本歌曲对应的歌曲文本特征向量以及文本相似度分类结果标识训练得到;
结果标识处理子单元,用于获取所述文本相似度分类模型所输出的文本相似度分类结果标识,根据所述文本相似度分类结果标识确定所述任一首歌曲对应的歌曲文本信息与所述搜索对象内容文本间的文本相似度。
结合第二方面,在一种可能的实施方式中,所述歌曲推荐模块包括第二文本相似度确定单元,所述第二文本相似度确定单元包括:
距离确定单元,用于计算所述内容文本特征向量分别与所述歌曲库中包括的每首歌曲对应的歌曲文本特征向量间的欧氏距离;
距离转换单元,用于将所述欧式距离转换为相似度值,以作为所述搜索对象内容文本与每首歌曲的歌曲信息的文本相似度。
结合第二方面,在一种可能的实施方式中,所述歌曲推荐模块包括推荐歌曲确定单元,所述推荐歌曲确定单元具体用于:
获取预设相似度阈值,从所述歌曲库中,获取文本相似度不小于所述预设相似度阈值的歌曲推荐给所述目标用户;或者
将所述文本相似度进行降序排列,获取降序排列后的前k个文本相似度对应的k首歌曲以推荐给所述目标用户,其中k为大于0的整数。
第三方面,本申请实施例提供了一种终端设备,该终端设备包括处理器和存储器,该处理器和存储器相互连接。该存储器用于存储支持该终端设备执行上述第一方面和/或第一方面任一种可能的实现方式提供的方法的计算机程序,该计算机程序包括程序指令,该处理器被配置用于调用上述程序指令,执行上述第一方面和/或第一方面任一种可能的实施方式所提供的方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序包括程序指令,该程序指令当被处理器执行时使该处理器执行上述第一方面和/或第一方面任一种可能的实施方式所提供的方法。
在本申请实施例中,通过获取预设时间段内目标用户的搜索记录,可根据搜索记录获取到对应的搜索对象内容文本。获取搜索对象内容文本对应的内容文本特征向量,其中内容文本特征向量包括组成搜索对象内容文本的多个词对应的多个词向量。获取歌曲库中包括的每首歌曲对应的歌曲文本特征向量,其中歌曲文本特征向量包括组成歌曲信息的多个词对应的多个词向量。基于内容文本特征向量,以及歌曲库中包括的每首歌曲对应的歌曲文本特征向量可确定出搜索对象内容文本与每首歌曲的歌曲信息的文本相似度,进而根据文本相似度可从歌曲库中确定出至少一首歌曲推荐给目标用户。采用本申请实施例,可提高为新用户推荐歌曲的准确性。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的歌曲推荐方法的一流程示意图;
图2是本实施例提供的歌曲推荐方法的场景示意图;
图3是本申请实施例提供的确定文本相似度的应用场景示意图;
图4是本申请实施例提供的BERT预训练语言模型的输入向量示意图;
图5是本申请实施例提供的歌曲推荐方法的另一流程示意图;
图6是本申请实施例提供的歌曲推荐装置的一结构示意图;
图7是本申请实施例提供的歌曲推荐装置的另一结构示意图;
图8是本申请实施例提供的终端设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请实施例提供的歌曲推荐方法,可广泛适用于歌曲推荐的终端设备,其中,终端设备可以是硬件,也可以是软件。当终端设备为硬件时,可以是具有显示屏的各种电子设备,包括但不限于服务器、智能手机、平板电脑、笔记本电脑和台式计算机等;当终端设备为软件时,可以安装在上述所列举的电子设备中,在此不做限制。为方便描述,以下本申请实施例将以智能手机为例进行说明,为方便描述,简称手机。本申请实施例提供的方法,通过获取预设时间段内目标用户的搜索记录,可根据搜索记录获取到对应的搜索对象内容文本。获取搜索对象内容文本对应的内容文本特征向量,其中内容文本特征向量包括组成搜索对象内容文本的多个词对应的多个词向量。获取歌曲库中包括的每首歌曲对应的歌曲文本特征向量,其中歌曲文本特征向量包括组成歌曲信息的多个词对应的多个词向量。基于内容文本特征向量,以及歌曲库中包括的每首歌曲对应的歌曲文本特征向量可确定出搜索对象内容文本与每首歌曲的歌曲信息的文本相似度,进而根据文本相似度可从歌曲库中确定出至少一首歌曲推荐给目标用户。采用本申请实施例,可提高为新用户推荐歌曲的准确性。
下面将结合图1至图8分别对本申请实施例提供的方法及相关装置分别进行详细说明。本申请实施例提供的方法中可包括用于获取搜索对象内容文本、获取内容文本特征向量、获取歌曲文本特征向量、基于内容文本特征向量和歌曲文本特征向量确定文本相似度、以及基于文本相似度进行歌曲推荐等数据处理阶段。其中,上述各个数据处理阶段的实现方式可参见如下图1和图5所示的实现方式。
参见图1,图1为本申请实施例提供的歌曲推荐方法的一流程示意图。本申请实施例提供的方法可以包括如下步骤101至103:
101、获取预设时间段内目标用户的搜索记录对应的搜索对象内容文本,获取搜索对象内容文本对应的内容文本特征向量。
在一些可行的实施方式中,目标用户通过在手机中下载各种应用程序(Application,APP),可基于下载的各类APP享受不同的服务。当前,常用的APP主要包括购物类APP、娱乐类APP、社交类APP和其他类型APP等。其中娱乐类APP主要包括音乐类APP、视频类APP、游戏类APP和阅读类APP,其他类型APP包括搜索引擎类APP等,为方便描述,本申请实施例主要以在音乐类APP中为目标用户推荐歌曲为例进行说明。这里,目标用户可以是任意一个音乐推荐的指向性对象,比如如果本次音乐推荐是针对新用户A,此时目标用户则为新用户A;如果本次音乐推荐是针对新用户B,此时目标用户则为新用户B。其中新用户可以是新注册用户或在该音乐类APP上没有任何使用行为的用户等。目前,很多APP之间都可以使用同一用户账号登录或者通过授权第三方进行登录,因此,不难理解的是,针对目标用户使用同一用户账号登录不同APP时或授权第三方登录时,登录后该应用程序将可获得同一用户账号在其他应用程序上的用户数据,例如用户详细信息、用户行为数据等,在此不做限制。在本申请实施例中,主要以目标用户使用同一用户账号登录音乐类APP和搜索引擎类APP为例进行说明。
在一些可行的实施方式中,通过获取预设时间段内目标用户的搜索记录对应的搜索对象内容文本,可根据搜索对象内容文本获取到搜索对象内容文本对应的内容文本特征向量,其中内容文本特征向量包括组成搜索对象内容文本的多个词对应的多个词向量。具体地,基于应用程序包名(即搜索引擎类APP的包名)可获取到目标用户所使用的搜索引擎所对应的日志文件,其中日志文件中包括的目标用户的搜索记录、应用程序的运行状态等。进一步地,搜索记录中包括目标用户用于检索的检索字符串以及检索时间等。不难理解的是,通过获取预设时间段内目标用户的搜索记录中出现次数最多的检索字符串,可基于检索字符串确定出多个检索结果内容文本。也就是说,通过将检索字符串重新输入搜索引擎,可得到搜索引擎所返回的多个检索结果内容文本,进而获取各检索结果内容文本对应的网页属性特征向量。通常而言,在搜索场景下,搜索引擎给用户所展示的检索结果内容文本一般是网页,因此,网页属性特征向量可包括网页结构、域名、检索结果内容文本的文本信息等,在此不做限制。
其中,通过获取检索字符串对应的检索字符文本特征向量,以及获取目标用户的用户基本属性特征向量,可基于检索字符文本特征向量、用户基本属性特征向量以及每个检索结果内容文本对应的网页属性特征向量,生成每个检索结果内容文本对应的联合特征向量。其中,检索字符文本特征向量为检索字符串的文字信息对应的向量,例如通过将检索字符串进行分词处理后,可获取分词处理后的多个词对应的多个词向量,并根据上述多个词对应的多个词向量生成检索字符文本特征向量。其中,用户基本属性特征向量为目标用户的基础属性所对应的特征向量,例如,目标用户的基础属性包括年龄、性别、学历、岗位、居住城市等,在此不做限制。其中通过将目标用户的基础属性进行数值化和/或向量化,即可得到目标用户的用户基本属性特征向量。应当理解,生成任一个检索结果内容文本对应的联合特征向量的方式可包括将对应的检索字符文本特征向量、用户基本属性特征向量以及上述任一个检索结果内容文本对应的网页属性特征向量进行扩展,拼接或求和等,在此不做限制,其中,一个检索结果内容文本对应一个联合特征向量。
进一步地,当获取到文本排序模型后,可将上述多个检索结果内容文本中各检索结果内容文本对应的联合特征向量输入该文本排序模型,以根据该文本排序模型,输出各检索结果内容文本的排序结果。其中文本排序模型是根据多个样本文本对应的多个样本联合特征向量以及多个样本文本的排序结果所训练得到。应当理解,在本申请实施例中,可将输出的排序结果中,前n个检索结果内容文本确定为搜索对象内容文本。也就是说,可将前n个检索结果内容文本进行合并,并将合并后得到的文本确定为搜索对象内容文本。
可选的,在一些可行的实施方式中,当基于检索字符串确定出搜索引擎向用户所展示的多个检索结果内容文本后,也可以直接将搜索引擎的显示界面中所展示的前n个检索结果内容文本确定为搜索对象内容文本。或者,可选的,在一些可行的实施方式中,搜索记录中还包括了目标用户的浏览记录和浏览时间,因此通过获取预设时间段内的浏览记录中包括的统一资源定位符(Uniform Resource Locator,URL),可通过访问该URL以获取对应的内容文本作为搜索对象内容文本。应当理解,这里的浏览记录即目标用户的点击记录,例如,假设搜索引擎给用户所展示的相关文档(在搜索场景下,一般是网页)的列表为Y={y1,y2,…,ym},m为大于0的整数,其中若用户点击了y3和y5,则可将y3和y5确定为搜索对象内容文本。
在一些可行的实施方式中,在确定出搜索对象内容文本后,若已预先设置了搜索对象内容文本对应的内容文本特征向量,则可直接基于搜索对象内容文本的预设标识,查询出对应的内容文本特征向量。例如,假设搜索对象内容文本的预设标识为搜索对象内容文本的哈希值,则在获取搜索对象内容文本后,可对获取到的搜索对象内容文本进行哈希计算,以得到搜索对象内容文本的哈希值,进而通过该哈希值,可从预设的内容文本特征向量查询表中查询到上述哈希值所对应的内容文本特征向量。
可选的,在一些可行的实施方式中,还可以通过将搜索对象内容文本进行分词处理,以得到组成搜索对象内容文本的多个词。应当理解,本申请实施例可基于分词工具对搜索对象内容文本进行分词处理,进而得到组成搜索对象内容文本的多个词,其中所用到的分词工具包括但不限于jieba、StandardAnalyzer、ChineseAnalyzer、CJKAnalyzer、IKAnalyzer、paoding和imdict等,在此不做限制。例如,假设搜索对象内容文本为“我喜欢周杰伦”,则将搜索对象内容文本“我喜欢周杰伦”进行分词后,可得到“我”,“喜欢”,“周杰伦”。然后,通过获取预设的词向量查询表,可得到词向量查询表中包括多个词对应的多个词向量,其中一个词对应一个词向量。因此,通过从词向量查询表中查询出组成搜索对象内容文本的多个词中各个词对应的词向量,可得到多个词向量,进而根据多个词向量可生成搜索对象内容文本对应的内容文本词向量。
应当理解,基于多个词向量生成搜索对象内容文本对应的内容文本特征向量的方式可包括扩展,拼接或求和等,在此不做限制。例如,假设“我”对应的词向量为[1,2],“喜欢”对应的词向量为[3,4],“周杰伦”对应的词向量为[5,6],则通过将多个词向量进行扩展,可得到搜索对象内容文本“我喜欢周杰伦”对应的内容文本特征向量为[[1,2],[3,4],[5,6]]。又例如,假设“我”对应的词向量为[1,2],“喜欢”对应的词向量为[3,4],“周杰伦”对应的词向量为[5,6],则搜索对象内容文本“我喜欢周杰伦”对应的内容文本特征向量也可以表示为多个向量之和,即内容文本特征向量为[9,12]。又例如,假设“我”对应的词向量为[1,2],“喜欢”对应的词向量为[3,4],“周杰伦”对应的词向量为[5,6],则搜索对象内容文本“我喜欢周杰伦”对应的内容文本特征向量也可以为多个向量进行拼接后得到的向量,即内容文本特征向量为[1,2,3,4,5,6]。为方面描述,以下本申请实施例以内容文本词向量为多个词向量进行扩展后得到的向量为例进行说明。
可选的,在一些可行的实施方式中,当对搜索对象内容文本进行分词后。还可以获取预设的停用词表,以得到停用词表中包括多个停用词。应当理解,在搜索引擎优化(Search Engine Optimization,SEO)中,为节省存储空间和提高搜索效率,搜索引擎在索引页面或处理搜索请求时会自动忽略某些字或词,这些字或词即被称为停用词(StopWords)。停用词在一定程度上相当于过滤词(Filter Words),不过过滤词的范围更大一些,包含黄色、政治等敏感信息的关键词都会被视做过滤词加以处理,停用词本身则没有这个限制。通常意义上,停用词大致可分为如下两类:第一类是使用十分广泛,甚至是过于频繁的一些词。例如“我”、“就”之类的词几乎在每个文档上均会出现,查询这样的词搜索引擎就无法保证能够给出真正相关的搜索结果,难于缩小搜索范围提高搜索结果的准确性,同时还会降低搜索的效率;第二类是文本中出现频率很高,但实际意义又不大的词。例如包括语气助词、副词、介词、连词等,这些词通常自身并无明确意义,只有将其放入一个完整的句子中才有一定作用的词语。常见的如“的”、“在”、“和”、“接着”之类的词。因此,当经过分词处理得到组成搜索对象内容文本的多个词后,还可以从组成搜索结果文本的多个词中确定出不属于停用词表的多个词,以作为后续待处理的多个词。
例如,假设搜索对象内容文本为“我非常喜欢周杰伦”,则将搜索对象内容文本“我非常喜欢周杰伦”进行分词后,可得到“我”,“非常”,“喜欢”,“周杰伦”。其中获取停用词表,假设停用词表中的停用词包括“我、很、挺、更加、十分、极、非常、最、太、过于、从、自从、在、当”等。因此通过将上述分词处理后得到的多个词去停用词后,可得到“喜欢”,“周杰伦”。然后,通过获取预设的词向量查询表,可得到词向量查询表中包括多个词对应的多个词向量,其中一个词对应一个词向量。其中,通过从词向量查询表中查询出组成搜索对象内容文本的多个词中各个词对应的词向量,可得到多个词向量,进而根据多个词向量可生成搜索对象内容文本对应的内容文本特征向量。
102、获取歌曲库中包括的每首歌曲对应的歌曲文本特征向量。
在一些可行的实施方式中,获取音乐类APP的歌曲库中包括的每首歌曲对应的歌曲文本特征向量,其中歌曲文本特征向量包括组成歌曲信息的多个词对应的多个词向量。也就是说,对于歌曲库中的歌曲,可提取出每首歌曲的文本信息(即歌曲信息),通常而言,歌曲的文本信息主要包括3个方面的信息,即歌词相关信息、歌曲风格相关信息以及人名相关信息。其中歌词相关信息主要包括歌曲名和歌词内容等;歌曲风格相关信息主要包括歌曲的风格名、所属类别的层级信息(如摇滚-重金属)等;人名相关信息主要包括歌手名、词作者名、曲作者名等等。当从以上3个维度提取出歌曲的文本信息后,同样可对歌曲的文本信息进行分词处理,并对分词处理所得到的各个词进行向量化后,即可得到每首歌曲对应的歌曲文本特征向量。其中,可通过获取预设的词向量查询表,然后通过查询词向量查询表,可从词向量查询表中确定出组成歌曲信息的多个词对应的多个词向量,进而根据多个词向量生成歌曲信息对应的歌曲文本特征向量。
可选的,在一些可行的实施方式中,若已预先设置了歌曲库中每首歌曲对应的歌曲文本特征向量,则可基于每首歌曲的歌曲标识,查询得到对应的歌曲文本特征向量。其中歌曲标识可以是歌曲名和歌手名等,或者也可以是歌曲名和歌手名对应的哈希值,或者也可以是由数字、字母和/或符号等组成的能够唯一标记一首歌曲的字符串等,在此不做限制。
103、基于内容文本特征向量,以及歌曲库中包括的每首歌曲对应的歌曲文本特征向量确定搜索对象内容文本与每首歌曲的歌曲信息的文本相似度,根据文本相似度从歌曲库中确定出至少一首歌曲推荐给目标用户。
在一些可行的实施方式中,基于内容文本特征向量,以及歌曲库中包括的每首歌曲对应的歌曲文本特征向量,可确定出搜索对象内容文本与每首歌曲的歌曲信息的文本相似度,然后根据搜索对象内容文本与各首歌曲的歌曲信息的文本相似度,可从歌曲库中确定出至少一首歌曲以推荐给目标用户。
参见图2,图2是本实施例提供的歌曲推荐方法的场景示意图。如图2所示,根据检索字符串,可从文本库中匹配到检索字符串对应的多个检索结果内容文本,其中,结合文本排序模型对检索字符串所对应的多个检索结果内容文本进行排序,可得到各个检索结果内容文本的排序结果,通过将排序结果中的前n个检索结果内容文本确定为搜索对象内容文本,进而可获取搜索对象内容文本对应的内容文本特征向量。进一步的,通过获取歌曲库中包括的每首歌曲对应歌曲信息,可基于歌曲信息生成对应的歌曲文本特征向量,然后通过将内容文本特征向量,以及歌曲库中包括的每首歌曲对应的歌曲文本特征向量输入文本相似度分类模型,可基于文本相似度分类模型的输出结果,确定搜索对象内容文本与歌曲信息是否相似,其中,若确定搜索对象内容文本与歌曲信息相似,则可将对应的歌曲作为推荐歌曲以推荐给目标用户。
具体地,通过获取文本相似度分类模型,可将内容文本特征向量和任一首歌曲对应的歌曲文本特征向量输入文本相似度分类模型,其中文本相似度分类模型根据样本搜索对象内容文本对应的内容文本特征向量、样本歌曲对应的歌曲文本特征向量以及文本相似度分类结果标识训练得到。其中通过获取文本相似度分类模型所输出的文本相似度分类结果标识,可根据文本相似度分类结果标识确定任一首歌曲对应的歌曲文本信息与搜索对象内容文本间的文本相似度。这里文本相似度分类模型包括BERT预训练语言模型(BidirectionalEncoder Representations from Transformer)、GPT-2模型,XLnet模型和Word2vec模型等,在此不做限制。为方便描述,本申请实施例以BERT预训练语言模型为例进行说明。
参见图3,图3是本申请实施例提供的确定文本相似度的应用场景示意图。如图3所示,假设搜索对象内容文本为文本A,歌曲库中歌曲1对应的歌曲信息为文本B。假设文本A={a1,a2,…,ai},其中i为大于0的整数,ai为对文本A进行分词处理后得到的词,文本B={b1,b2,…,bj},其中j为大于0的整数,bj为对文本B进行分词处理后得到的词。应当理解,假设某个词ai对应的词向量为Eai,则文本A对应的内容文本特征向量(即词向量序列)可表示为{Ea1,Ea2,…,Eai},文本B对应的歌曲文本特征向量(即词向量序列)可表示为{Eb1,Eb2,…,Ebj}。其中,通过将内容文本特征向量{Ea1,Ea2,…,Eai}和歌曲文本特征向量{Eb1,Eb2,…,Ebj}输入BERT预训练语言模型,可基于BERT预训练语言模型所输出的文本相似度分类结果标识,确定出文本A与文本B之间的文本相似度。例如,若上述文本相似度分类结果标识包括标识1和标识0,其中1表示相似,0表示不相似。假设图3中BERT预训练语言模型所输出的文本相似度分类结果标识为标识1,则可确定文本A与文本B之间的文本相似度为相似,因此可将歌曲1推荐给目标用户。如图3所示,在BERT预训练语言模型的输入中,在文本A的前面插入了一个[CLS]符号,并将该符号对应的输出向量作为整篇文本的语义表示,用于文本相似度分类。同时还对输入的两个文本用一个[SEP]符号作了分割。
可选的,在一些可行的实施方式中,BERT预训练语言模型的输入除了包括搜索对象内容文本对应的内容文本特征向量和歌曲对应的歌曲文本特征向量之外,还可以包括文本向量和位置向量。其中文本向量的取值在模型训练过程中自动学习,用于刻画文本的全局语义信息,并与单字/词的语义信息相融合。而位置向量则用于表示组成搜索对象内容文本的各个词在搜索对象内容文本中的位置,或者组成歌曲信息的各个词在歌曲信息中的位置,应当理解,由于出现在文本不同位置的字/词所携带的语义信息存在差异,例如“我爱你”和“你爱我”,因此,BERT预训练语言模型对不同位置的字/词可分别附加一个不同的向量以作区分。
例如,参见图4,图4是本申请实施例提供的BERT预训练语言模型的输入向量示意图。如图4所示,假设搜索对象内容文本为文本C,歌曲库中歌曲2对应的歌曲信息为文本D。假设文本C={c1,c2,…,ci},其中i为大于0的整数,ci为对文本C进行分词处理后得到的词,文本D={d1,d2,…,dj},其中j为大于0的整数,dj为对文本D进行分词处理后得到的词。应当理解,假设某个词ci对应的词向量为Eci,则文本C对应的词向量序列可表示为{Ec1,Ec2,…,Eci},文本D对应的词向量序列可表示为{Ed1,Ed2,…,Edj}。假设文本向量的序列为{Esc1,Esc2,…,Esci,Esd1,Esd2,…,Esdi},位置向量的序列为{Epc1,Epc2,…,Epci,Epd1,Epd2,…,Epdi},则可将词向量、文本向量和位置向量的加和作为BERT预训练语言模型的输入向量。如图4所示,在BERT预训练语言模型的输入中,在文本C的前面插入了一个[CLS]符号,并将该符号对应的输出向量作为整篇文本的语义表示,用于文本相似度分类。同时还对输入的两个文本用一个[SEP]符号作了分割。
在本申请实施例中,通过获取预设时间段内目标用户的搜索记录,可根据搜索记录获取到对应的搜索对象内容文本。获取搜索对象内容文本对应的内容文本特征向量,其中内容文本特征向量包括组成搜索对象内容文本的多个词对应的多个词向量。获取歌曲库中包括的每首歌曲对应的歌曲文本特征向量,其中歌曲文本特征向量包括组成歌曲信息的多个词对应的多个词向量。基于内容文本特征向量,以及歌曲库中包括的每首歌曲对应的歌曲文本特征向量可确定出搜索对象内容文本与每首歌曲的歌曲信息的文本相似度,进而根据文本相似度可从歌曲库中确定出至少一首歌曲推荐给目标用户。采用本申请实施例,可提高为新用户推荐歌曲的准确性。
参见图5,图5是本申请实施例提供的歌曲推荐方法的另一流程示意图。本申请实施例提供的方法可通过如下步骤201至204提供的实现方式进行说明:
201、获取预设时间段内目标用户的搜索记录对应的搜索对象内容文本,获取搜索对象内容文本对应的内容文本特征向量。
202、获取歌曲库中包括的每首歌曲对应的歌曲文本特征向量。
其中,所述步骤201至步骤202的具体实现方式可以参见图1对应的实施例中对步骤101至步骤102的描述,这里不再进行赘述。
203、计算内容文本特征向量分别与歌曲库中包括的每首歌曲对应的歌曲文本特征向量间的欧氏距离,将欧式距离转换为相似度值,以作为搜索对象内容文本与每首歌曲的歌曲信息的文本相似度。
在一些可行的实施方式中,文本相似度计算方法主要分为有监督和无监督两类。其中,有监督方法就是用朴素贝叶斯分类器等有监督模型来判断文本相似性或者计算相似度。无监督方法就是用欧氏距离等方法,直接计算文本之间的距离或者相似度,其中常用的相似度计算方法包括欧氏距离,曼哈顿距离,明可夫斯基距离,余弦相似度等,在此不做限制。为方便描述,本申请实施例主要以欧式距离为例进行说明。具体地,通过计算内容文本特征向量分别与歌曲库中包括的每首歌曲对应的歌曲文本特征向量间的欧氏距离,可将欧式距离转换为相似度值,以作为搜索对象内容文本与每首歌曲的歌曲信息的文本相似度。例如,假设搜索对象内容文本对应的内容文本特征向量A={a1,a2,..,am},歌曲1对应的歌曲文本特征向量B={b1,b2,..,bm},则内容文本特征向量与歌曲1对应的歌曲文本特征向量间的欧氏距离D可基于公式1计算得到:
Figure BDA0002322804260000151
其中,当计算得到内容文本特征向量与歌曲1对应的歌曲文本特征向量间的欧氏距离后,可将欧式距离转换为相似度值,例如可基于公式2将欧式距离转换为相似度值:
Figure BDA0002322804260000152
其中,分母中的1用来保证相似度值最高是1,应当理解,除了上述公式2的转换公式,欧式距离转换为相似度值的公式还可以根据不同需求采用不用的定义方式,在此不做限制。
204、获取预设相似度阈值,从歌曲库中,获取文本相似度不小于预设相似度阈值的歌曲推荐给目标用户。
在一些可行的实施方式中,通过计算出内容文本特征向量分别与歌曲库中包括的每首歌曲对应的歌曲文本特征向量间的欧氏距离,并将欧式距离转换为搜索对象内容文本与每首歌曲的歌曲信息的文本相似度后,可获取预设相似度阈值,进而从歌曲库中,获取文本相似度不小于预设相似度阈值的歌曲,以推荐给目标用户。或者,将计算出的文本相似度进行降序排列,进而获取降序排列后的前k个文本相似度对应的k首歌曲以推荐给目标用户,其中k为大于0的整数。或者,将计算出的文本相似度进行升序排列,进而获取升序排列后的后k个文本相似度对应的k首歌曲以推荐给目标用户,其中k为大于0的整数。
在本申请实施例中,通过获取预设时间段内目标用户的搜索记录,可根据搜索记录获取到对应的搜索对象内容文本。获取搜索对象内容文本对应的内容文本特征向量,其中内容文本特征向量包括组成搜索对象内容文本的多个词对应的多个词向量。获取歌曲库中包括的每首歌曲对应的歌曲文本特征向量,其中歌曲文本特征向量包括组成歌曲信息的多个词对应的多个词向量。通过计算内容文本特征向量分别与歌曲库中包括的每首歌曲对应的歌曲文本特征向量间的欧氏距离,可将欧式距离转换为相似度值,以作为搜索对象内容文本与每首歌曲的歌曲信息的文本相似度。最后通过获取预设相似度阈值,可从歌曲库中,获取文本相似度不小于预设相似度阈值的至少一首歌曲,以推荐给目标用户。采用本申请实施例,可提高为新用户推荐歌曲的准确性,可操作性强,适用性高。
参见图6,图6是本申请实施例提供的歌曲推荐装置的结构示意图。本申请实施例提供的歌曲推荐装置包括:
第一特征向量获取模块31,用于获取预设时间段内目标用户的搜索记录对应的搜索对象内容文本,获取所述搜索对象内容文本对应的内容文本特征向量,其中所述内容文本特征向量包括组成所述搜索对象内容文本的多个词对应的多个词向量;
第二特征向量获取模块32,用于获取歌曲库中包括的每首歌曲对应的歌曲文本特征向量,其中歌曲文本特征向量包括组成歌曲信息的多个词对应的多个词向量;
歌曲推荐模块33,用于基于所述内容文本特征向量,以及所述歌曲库中包括的每首歌曲对应的歌曲文本特征向量确定所述搜索对象内容文本与每首歌曲的歌曲信息的文本相似度,根据所述文本相似度从所述歌曲库中确定出至少一首歌曲推荐给所述目标用户。
请一并参见图7,图7是本申请实施例提供的歌曲推荐装置的另一结构示意图,其中:
在一些可行的实施方式中,所述第一特征向量获取模块31包括第一搜索对象内容文本获取单元311、内容文本特征向量获取单元312,所述第一搜索对象内容文本获取单元311包括:
日志文件获取子单元3111,用于获取所述目标用户所使用的搜索引擎对应的日志文件,其中所述日志文件中包括所述目标用户的搜索记录,所述搜索记录包括所述目标用户用于检索的检索字符串以及检索时间;
检索结果内容文本获取子单元3112,用于获取预设时间段内目标用户的搜索记录中出现次数最多的检索字符串,并基于所述检索字符串确定出多个检索结果内容文本,获取各检索结果内容文本对应的网页属性特征向量;
联合特征向量获取子单元3113,用于获取所述检索字符串对应的检索字符文本特征向量,以及获取所述目标用户的用户基本属性特征向量,基于所述检索字符文本特征向量、所述用户基本属性特征向量以及每个检索结果内容文本对应的网页属性特征向量生成每个检索结果内容文本对应的联合特征向量;
检索结果内容文本排序子单元3114,用于获取文本排序模型,将各联合特征向量输入所述文本排序模型,以得到所述文本排序模型输出的各检索结果内容文本的排序结果,其中所述文本排序模型根据多个样本文本对应的多个样本联合特征向量以及所述多个样本文本的排序结果训练得到;
排序结果处理子单元3115,用于将所述排序结果中的前n个检索结果内容文本确定为搜索对象内容文本。
在一些可行的实施方式中,所述搜索记录包括所述目标用户的浏览记录,所述第一特征向量获取模块31还包括第二搜索对象内容文本获取单元313,所述第二搜索对象内容文本获取单元313具体用于:
获取预设时间段内的浏览记录中包括的统一资源定位符URL,访问所述URL以获取对应的内容文本作为搜索对象内容文本。
结合第二方面,在一种可能的实施方式中,所述装置还包括词向量获取模块34,所述词向量获取模板34包括:
分词处理单元341,用于将所述搜索对象内容文本进行分词处理以得到组成所述搜索对象内容文本的多个词;
词向量查询表获取单元342,用于获取预设的词向量查询表,所述词向量查询表中包括多个词对应的多个词向量,其中一个词对应一个词向量;
词向量确定单元343,用于从所述词向量查询表中确定出组成所述搜索对象内容文本的多个词中各个词对应的词向量。
在一些可行的实施方式中,所述歌曲推荐模块33包括第一文本相似度确定单元331,所述第一文本相似度确定单元331包括:
分类模型获取子单元3311,用于获取文本相似度分类模型,将所述内容文本特征向量和任一首歌曲对应的歌曲文本特征向量输入所述文本相似度分类模型,其中所述文本相似度分类模型根据样本搜索对象内容文本对应的内容文本特征向量、样本歌曲对应的歌曲文本特征向量以及文本相似度分类结果标识训练得到;
结果标识处理子单元3312,用于获取所述文本相似度分类模型所输出的文本相似度分类结果标识,根据所述文本相似度分类结果标识确定所述任一首歌曲对应的歌曲文本信息与所述搜索对象内容文本间的文本相似度。
在一些可行的实施方式中,所述歌曲推荐模块33包括第二文本相似度确定单元332,所述第二文本相似度确定单元332包括:
距离确定单元3321,用于计算所述内容文本特征向量分别与所述歌曲库中包括的每首歌曲对应的歌曲文本特征向量间的欧氏距离;
距离转换单元3322,用于将所述欧式距离转换为相似度值,以作为所述搜索对象内容文本与每首歌曲的歌曲信息的文本相似度。
在一些可行的实施方式中,所述歌曲推荐模块33包括推荐歌曲确定单元333,所述推荐歌曲确定单元333具体用于:
获取预设相似度阈值,从所述歌曲库中,获取文本相似度不小于所述预设相似度阈值的歌曲推荐给所述目标用户;或者
将所述文本相似度进行降序排列,获取降序排列后的前k个文本相似度对应的k首歌曲以推荐给所述目标用户,其中k为大于0的整数。
具体实现中,上述歌曲推荐装置可通过其内置的各个功能模块执行如上述图1和图5中各个步骤所提供的实现方式。例如,上述第一特征向量获取模块31可用于执行上述各个步骤中获取搜索对象内容文本,以及获取内容文本特征向量等实现方式,具体可参见上述各个步骤所提供的实现方式,在此不再赘述。上述第二特征向量获取模块32可用于执行上述各个步骤中获取每首歌曲对应的歌曲文本特征向量等相关步骤所描述的实现方式,具体可参见上述各个步骤所提供的实现方式,在此不再赘述。上述歌曲推荐模块33可用于执行上述各个步骤中基于内容文本特征向量和歌曲文本特征向量确定文本相似度,根据文本相似度确定推荐歌曲等实现方式,具体可参见上述各个步骤所提供的实现方式,在此不再赘述。上述词向量获取模板34可用于执行上述各个步骤中对搜索对象内容文本进行分词、获取词向量查询表以及获取分词后的多个词对应的词向量等实现方式,具体可参见上述各个步骤所提供的实现方式,在此不再赘述。
在本申请实施例中,歌曲推荐装置通过获取预设时间段内目标用户的搜索记录,可根据搜索记录获取到对应的搜索对象内容文本。获取搜索对象内容文本对应的内容文本特征向量,其中内容文本特征向量包括组成搜索对象内容文本的多个词对应的多个词向量。获取歌曲库中包括的每首歌曲对应的歌曲文本特征向量,其中歌曲文本特征向量包括组成歌曲信息的多个词对应的多个词向量。基于内容文本特征向量,以及歌曲库中包括的每首歌曲对应的歌曲文本特征向量可确定出搜索对象内容文本与每首歌曲的歌曲信息的文本相似度,进而根据文本相似度可从歌曲库中确定出至少一首歌曲推荐给目标用户。采用本申请实施例,可提高为新用户推荐歌曲的准确性,灵活性高,适用范围广。
参见图8,图8是本申请实施例提供的终端设备的结构示意图。如图8所示,本实施例中的终端设备可以包括:一个或多个处理器401和存储器402。上述处理器401和存储器402通过总线403连接。存储器402用于存储计算机程序,该计算机程序包括程序指令,处理器401用于执行存储器402存储的程序指令,执行如下操作:
获取预设时间段内目标用户的搜索记录对应的搜索对象内容文本,获取所述搜索对象内容文本对应的内容文本特征向量,其中所述内容文本特征向量包括组成所述搜索对象内容文本的多个词对应的多个词向量;
获取歌曲库中包括的每首歌曲对应的歌曲文本特征向量,其中歌曲文本特征向量包括组成歌曲信息的多个词对应的多个词向量;
基于所述内容文本特征向量,以及所述歌曲库中包括的每首歌曲对应的歌曲文本特征向量确定所述搜索对象内容文本与每首歌曲的歌曲信息的文本相似度,根据所述文本相似度从所述歌曲库中确定出至少一首歌曲推荐给所述目标用户。
在一些可行的实施方式中,上述处理器401用于:
获取所述目标用户所使用的搜索引擎对应的日志文件,其中所述日志文件中包括所述目标用户的搜索记录,所述搜索记录包括所述目标用户用于检索的检索字符串以及检索时间;
获取预设时间段内目标用户的搜索记录中出现次数最多的检索字符串,并基于所述检索字符串确定出多个检索结果内容文本,获取各检索结果内容文本对应的网页属性特征向量;
获取所述检索字符串对应的检索字符文本特征向量,以及获取所述目标用户的用户基本属性特征向量,基于所述检索字符文本特征向量、所述用户基本属性特征向量以及每个检索结果内容文本对应的网页属性特征向量生成每个检索结果内容文本对应的联合特征向量;
获取文本排序模型,将各联合特征向量输入所述文本排序模型,以得到所述文本排序模型输出的各检索结果内容文本的排序结果,其中所述文本排序模型根据多个样本文本对应的多个样本联合特征向量以及所述多个样本文本的排序结果训练得到;
将所述排序结果中的前n个检索结果内容文本确定为搜索对象内容文本。
在一些可行的实施方式中,所述搜索记录包括所述目标用户的浏览记录和浏览时间;上述处理器401用于:
获取预设时间段内的浏览记录中包括的统一资源定位符URL,访问所述URL以获取对应的内容文本作为搜索对象内容文本。
在一些可行的实施方式中,上述处理器401用于:
将所述搜索对象内容文本进行分词处理以得到组成所述搜索对象内容文本的多个词;
获取预设的词向量查询表,所述词向量查询表中包括多个词对应的多个词向量,其中一个词对应一个词向量;
从所述词向量查询表中确定出组成所述搜索对象内容文本的多个词中各个词对应的词向量。
在一些可行的实施方式中,上述处理器401用于:
获取文本相似度分类模型,将所述内容文本特征向量和任一首歌曲对应的歌曲文本特征向量输入所述文本相似度分类模型,其中所述文本相似度分类模型根据样本搜索对象内容文本对应的内容文本特征向量、样本歌曲对应的歌曲文本特征向量以及文本相似度分类结果标识训练得到;
获取所述文本相似度分类模型所输出的文本相似度分类结果标识,根据所述文本相似度分类结果标识确定所述任一首歌曲对应的歌曲文本信息与所述搜索对象内容文本间的文本相似度。
在一些可行的实施方式中,上述处理器401用于:
计算所述内容文本特征向量分别与所述歌曲库中包括的每首歌曲对应的歌曲文本特征向量间的欧氏距离;
将所述欧式距离转换为相似度值,以作为所述搜索对象内容文本与每首歌曲的歌曲信息的文本相似度。
在一些可行的实施方式中,上述处理器401用于:
获取预设相似度阈值,从所述歌曲库中,获取文本相似度不小于所述预设相似度阈值的歌曲推荐给所述目标用户;或者
将所述文本相似度进行降序排列,获取降序排列后的前k个文本相似度对应的k首歌曲以推荐给所述目标用户,其中k为大于0的整数。
应当理解,在一些可行的实施方式中,上述处理器401可以是中央处理单元(central processing unit,CPU),该处理器还可以是其他通用处理器、数字信号处理器(digital signal processor,DSP)、专用集成电路(application specific integratedcircuit,ASIC)、现成可编程门阵列(field programmable gate array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。该存储器402可以包括只读存储器和随机存取存储器,并向处理器401提供指令和数据。存储器402的一部分还可以包括非易失性随机存取存储器。例如,存储器402还可以存储设备类型的信息。
具体实现中,上述终端设备可通过其内置的各个功能模块执行如上述图1和图5中各个步骤所提供的实现方式,具体可参见上述各个步骤所提供的实现方式,在此不再赘述。
在本申请实施例中,终端设备通过获取预设时间段内目标用户的搜索记录,可根据搜索记录获取到对应的搜索对象内容文本。获取搜索对象内容文本对应的内容文本特征向量,其中内容文本特征向量包括组成搜索对象内容文本的多个词对应的多个词向量。获取歌曲库中包括的每首歌曲对应的歌曲文本特征向量,其中歌曲文本特征向量包括组成歌曲信息的多个词对应的多个词向量。基于内容文本特征向量,以及歌曲库中包括的每首歌曲对应的歌曲文本特征向量可确定出搜索对象内容文本与每首歌曲的歌曲信息的文本相似度,进而根据文本相似度可从歌曲库中确定出至少一首歌曲推荐给目标用户。采用本申请实施例,可提高为新用户推荐歌曲的准确性,灵活性高,适用范围广。
本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序包括程序指令,该程序指令被处理器执行时实现图1和图5中各个步骤所提供的歌曲推荐方法,具体可参见上述各个步骤所提供的实现方式,在此不再赘述。
上述计算机可读存储介质可以是前述任一实施例提供的歌曲推荐装置或者上述终端设备的内部存储单元,例如电子设备的硬盘或内存。该计算机可读存储介质也可以是该电子设备的外部存储设备,例如该电子设备上配备的插接式硬盘,智能存储卡(smartmedia card,SMC),安全数字(secure digital,SD)卡,闪存卡(flash card)等。进一步地,该计算机可读存储介质还可以既包括该电子设备的内部存储单元也包括外部存储设备。该计算机可读存储介质用于存储该计算机程序以及该电子设备所需的其他程序和数据。该计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。
本申请的权利要求书和说明书及附图中的术语“第一”、“第二”、“第三”、“第四”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置展示该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
本申请实施例提供的方法及相关装置是参照本申请实施例提供的方法流程图和/或结构示意图来描述的,具体可由计算机程序指令实现方法流程图和/或结构示意图的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。这些计算机程序指令可提供到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或结构示意图一个方框或多个方框中指定的功能的装置。这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或结构示意图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或结构示意一个方框或多个方框中指定的功能的步骤。

Claims (10)

1.一种歌曲推荐方法,其特征在于,所述方法包括:
获取预设时间段内目标用户的搜索记录对应的搜索对象内容文本,获取所述搜索对象内容文本对应的内容文本特征向量,其中所述内容文本特征向量包括组成所述搜索对象内容文本的多个词对应的多个词向量;
获取歌曲库中包括的每首歌曲对应的歌曲文本特征向量,其中歌曲文本特征向量包括组成歌曲信息的多个词对应的多个词向量;
基于所述内容文本特征向量,以及所述歌曲库中包括的每首歌曲对应的歌曲文本特征向量确定所述搜索对象内容文本与每首歌曲的歌曲信息的文本相似度,根据所述文本相似度从所述歌曲库中确定出至少一首歌曲推荐给所述目标用户。
2.根据权利要求1所述方法,其特征在于,所述获取预设时间段内目标用户的搜索记录对应的搜索对象内容文本,包括:
获取所述目标用户所使用的搜索引擎对应的日志文件,其中所述日志文件中包括所述目标用户的搜索记录,所述搜索记录包括所述目标用户用于检索的检索字符串以及检索时间;
获取预设时间段内目标用户的搜索记录中出现次数最多的检索字符串,并基于所述检索字符串确定出多个检索结果内容文本,获取各检索结果内容文本对应的网页属性特征向量;
获取所述检索字符串对应的检索字符文本特征向量,以及获取所述目标用户的用户基本属性特征向量,基于所述检索字符文本特征向量、所述用户基本属性特征向量以及每个检索结果内容文本对应的网页属性特征向量生成每个检索结果内容文本对应的联合特征向量;
获取文本排序模型,将各联合特征向量输入所述文本排序模型,以得到所述文本排序模型输出的各检索结果内容文本的排序结果,其中所述文本排序模型根据多个样本文本对应的多个样本联合特征向量以及所述多个样本文本的排序结果训练得到;
将所述排序结果中的前n个检索结果内容文本确定为搜索对象内容文本。
3.根据权利要求1所述方法,其特征在于,所述搜索记录包括所述目标用户的浏览记录和浏览时间;所述获取预设时间段内目标用户的搜索记录对应的搜索对象内容文本,包括:
获取预设时间段内的浏览记录中包括的统一资源定位符URL,访问所述URL以获取对应的内容文本作为搜索对象内容文本。
4.根据权利要求1-3任一项所述方法,其特征在于,所述方法还包括:
将所述搜索对象内容文本进行分词处理以得到组成所述搜索对象内容文本的多个词;
获取预设的词向量查询表,所述词向量查询表中包括多个词对应的多个词向量,其中一个词对应一个词向量;
从所述词向量查询表中确定出组成所述搜索对象内容文本的多个词中各个词对应的词向量。
5.根据权利要求1-3任一项所述方法,其特征在于,所述基于所述内容文本特征向量,以及所述歌曲库中包括的每首歌曲对应的歌曲文本特征向量确定所述搜索对象内容文本与每首歌曲的歌曲信息的文本相似度,包括:
获取文本相似度分类模型,将所述内容文本特征向量和任一首歌曲对应的歌曲文本特征向量输入所述文本相似度分类模型,其中所述文本相似度分类模型根据样本搜索对象内容文本对应的内容文本特征向量、样本歌曲对应的歌曲文本特征向量以及文本相似度分类结果标识训练得到;
获取所述文本相似度分类模型所输出的文本相似度分类结果标识,根据所述文本相似度分类结果标识确定所述任一首歌曲对应的歌曲文本信息与所述搜索对象内容文本间的文本相似度。
6.根据权利要求1-3任一项所述方法,其特征在于,所述基于所述内容文本特征向量,以及所述歌曲库中包括的每首歌曲对应的歌曲文本特征向量确定所述搜索对象内容文本与每首歌曲的歌曲信息的文本相似度,包括:
计算所述内容文本特征向量分别与所述歌曲库中包括的每首歌曲对应的歌曲文本特征向量间的欧氏距离;
将所述欧式距离转换为相似度值,以作为所述搜索对象内容文本与每首歌曲的歌曲信息的文本相似度。
7.根据权利要求6所述方法,其特征在于,所述根据所述文本相似度从所述曲库中确定出至少一首歌曲推荐给用户,包括:
获取预设相似度阈值,从所述歌曲库中,获取文本相似度不小于所述预设相似度阈值的歌曲推荐给所述目标用户;或者
将所述文本相似度进行降序排列,获取降序排列后的前k个文本相似度对应的k首歌曲以推荐给所述目标用户,其中k为大于0的整数。
8.一种歌曲推荐装置,其特征在于,所述装置包括:
第一特征向量获取模块,用于获取预设时间段内目标用户的搜索记录对应的搜索对象内容文本,获取所述搜索对象内容文本对应的内容文本特征向量,其中所述内容文本特征向量包括组成所述搜索对象内容文本的多个词对应的多个词向量;
第二特征向量获取模块,用于获取歌曲库中包括的每首歌曲对应的歌曲文本特征向量,其中歌曲文本特征向量包括组成歌曲信息的多个词对应的多个词向量;
歌曲推荐模块,用于基于所述内容文本特征向量,以及所述歌曲库中包括的每首歌曲对应的歌曲文本特征向量确定所述搜索对象内容文本与每首歌曲的歌曲信息的文本相似度,根据所述文本相似度从所述歌曲库中确定出至少一首歌曲推荐给所述目标用户。
9.一种终端设备,其特征在于,包括处理器和存储器,所述处理器和存储器相互连接;
所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行如权利要求1-7任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行如权利要求1-7任一项所述的方法。
CN201911304855.2A 2019-12-17 2019-12-17 歌曲推荐方法、装置、终端设备以及存储介质 Active CN111046221B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911304855.2A CN111046221B (zh) 2019-12-17 2019-12-17 歌曲推荐方法、装置、终端设备以及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911304855.2A CN111046221B (zh) 2019-12-17 2019-12-17 歌曲推荐方法、装置、终端设备以及存储介质

Publications (2)

Publication Number Publication Date
CN111046221A true CN111046221A (zh) 2020-04-21
CN111046221B CN111046221B (zh) 2024-06-07

Family

ID=70237516

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911304855.2A Active CN111046221B (zh) 2019-12-17 2019-12-17 歌曲推荐方法、装置、终端设备以及存储介质

Country Status (1)

Country Link
CN (1) CN111046221B (zh)

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111814058A (zh) * 2020-08-20 2020-10-23 深圳市欢太科技有限公司 基于用户意图的推送方法、装置、电子设备及存储介质
CN111814028A (zh) * 2020-09-14 2020-10-23 腾讯科技(深圳)有限公司 一种信息搜索方法及装置
CN112256979A (zh) * 2020-12-24 2021-01-22 上海二三四五网络科技有限公司 一种近似物品推荐的控制方法及装置
CN112559820A (zh) * 2020-12-17 2021-03-26 中国科学院空天信息创新研究院 基于深度学习的样本数据集智能出题方法、装置及设备
CN112559903A (zh) * 2020-12-15 2021-03-26 广州市贺氏办公设备有限公司 一种社区成员搜索方法、系统、装置及介质
CN113010728A (zh) * 2021-04-06 2021-06-22 金宝贝网络科技(苏州)有限公司 一种歌曲推荐方法、系统、智能设备及存储介质
CN113010799A (zh) * 2021-01-04 2021-06-22 腾讯科技(深圳)有限公司 媒体信息的获取方法、装置、电子设备及存储介质
CN113343132A (zh) * 2021-06-30 2021-09-03 北京三快在线科技有限公司 一种模型训练的方法、信息展示的方法及装置
CN113392200A (zh) * 2021-06-18 2021-09-14 中国工商银行股份有限公司 基于用户学习行为的推荐方法及装置
CN113705234A (zh) * 2021-03-19 2021-11-26 腾讯科技(深圳)有限公司 命名实体识别方法、装置、计算机可读介质及电子设备
CN113806529A (zh) * 2021-07-20 2021-12-17 浙江大华技术股份有限公司 限定词对标方法及装置、计算机可读存储介质
CN113837842A (zh) * 2021-09-29 2021-12-24 浪潮卓数大数据产业发展有限公司 一种基于用户行为数据的商品推荐方法及设备
CN114265915A (zh) * 2021-11-03 2022-04-01 浙江大华技术股份有限公司 一种数据处理方法及装置
CN115269909A (zh) * 2022-07-28 2022-11-01 腾讯音乐娱乐科技(深圳)有限公司 音频分类方法、音频搜索方法、计算机设备和程序产品
CN115269989A (zh) * 2022-08-03 2022-11-01 百度在线网络技术(北京)有限公司 对象推荐方法、装置、电子设备和存储介质
CN116077942A (zh) * 2023-04-06 2023-05-09 深圳尚米网络技术有限公司 一种交互式内容推荐的实现方法
CN116956060A (zh) * 2023-06-30 2023-10-27 腾讯音乐娱乐科技(深圳)有限公司 歌名相似度的确定方法、设备和存储介质
CN117725256A (zh) * 2023-12-15 2024-03-19 北京百度网讯科技有限公司 歌曲推荐方法、装置、电子设备和存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102930022A (zh) * 2012-10-31 2013-02-13 中国运载火箭技术研究院 面向用户的信息搜索引擎系统及方法
CN105843818A (zh) * 2015-01-15 2016-08-10 富士通株式会社 训练设备和训练方法、判断设备、以及推荐设备
CN105930429A (zh) * 2016-04-19 2016-09-07 乐视控股(北京)有限公司 一种音乐推荐的方法及装置
US20180157746A1 (en) * 2016-12-01 2018-06-07 Spotify Ab System and method for semantic analysis of song lyrics in a media content environment
US20190340245A1 (en) * 2016-12-01 2019-11-07 Spotify Ab System and method for semantic analysis of song lyrics in a media content environment

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102930022A (zh) * 2012-10-31 2013-02-13 中国运载火箭技术研究院 面向用户的信息搜索引擎系统及方法
CN105843818A (zh) * 2015-01-15 2016-08-10 富士通株式会社 训练设备和训练方法、判断设备、以及推荐设备
CN105930429A (zh) * 2016-04-19 2016-09-07 乐视控股(北京)有限公司 一种音乐推荐的方法及装置
US20180157746A1 (en) * 2016-12-01 2018-06-07 Spotify Ab System and method for semantic analysis of song lyrics in a media content environment
US20190340245A1 (en) * 2016-12-01 2019-11-07 Spotify Ab System and method for semantic analysis of song lyrics in a media content environment

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111814058A (zh) * 2020-08-20 2020-10-23 深圳市欢太科技有限公司 基于用户意图的推送方法、装置、电子设备及存储介质
CN111814028A (zh) * 2020-09-14 2020-10-23 腾讯科技(深圳)有限公司 一种信息搜索方法及装置
CN112559903A (zh) * 2020-12-15 2021-03-26 广州市贺氏办公设备有限公司 一种社区成员搜索方法、系统、装置及介质
CN112559903B (zh) * 2020-12-15 2024-04-05 广州市贺氏办公设备有限公司 一种社区成员搜索方法、系统、装置及介质
CN112559820A (zh) * 2020-12-17 2021-03-26 中国科学院空天信息创新研究院 基于深度学习的样本数据集智能出题方法、装置及设备
CN112256979A (zh) * 2020-12-24 2021-01-22 上海二三四五网络科技有限公司 一种近似物品推荐的控制方法及装置
CN112256979B (zh) * 2020-12-24 2021-06-04 上海二三四五网络科技有限公司 一种近似物品推荐的控制方法及装置
CN113010799A (zh) * 2021-01-04 2021-06-22 腾讯科技(深圳)有限公司 媒体信息的获取方法、装置、电子设备及存储介质
CN113705234A (zh) * 2021-03-19 2021-11-26 腾讯科技(深圳)有限公司 命名实体识别方法、装置、计算机可读介质及电子设备
CN113705234B (zh) * 2021-03-19 2024-12-27 腾讯科技(深圳)有限公司 命名实体识别方法、装置、计算机可读介质及电子设备
CN113010728A (zh) * 2021-04-06 2021-06-22 金宝贝网络科技(苏州)有限公司 一种歌曲推荐方法、系统、智能设备及存储介质
CN113392200A (zh) * 2021-06-18 2021-09-14 中国工商银行股份有限公司 基于用户学习行为的推荐方法及装置
CN113343132A (zh) * 2021-06-30 2021-09-03 北京三快在线科技有限公司 一种模型训练的方法、信息展示的方法及装置
CN113806529A (zh) * 2021-07-20 2021-12-17 浙江大华技术股份有限公司 限定词对标方法及装置、计算机可读存储介质
CN113837842A (zh) * 2021-09-29 2021-12-24 浪潮卓数大数据产业发展有限公司 一种基于用户行为数据的商品推荐方法及设备
CN114265915A (zh) * 2021-11-03 2022-04-01 浙江大华技术股份有限公司 一种数据处理方法及装置
CN115269909A (zh) * 2022-07-28 2022-11-01 腾讯音乐娱乐科技(深圳)有限公司 音频分类方法、音频搜索方法、计算机设备和程序产品
CN115269989A (zh) * 2022-08-03 2022-11-01 百度在线网络技术(北京)有限公司 对象推荐方法、装置、电子设备和存储介质
CN116077942A (zh) * 2023-04-06 2023-05-09 深圳尚米网络技术有限公司 一种交互式内容推荐的实现方法
CN116956060A (zh) * 2023-06-30 2023-10-27 腾讯音乐娱乐科技(深圳)有限公司 歌名相似度的确定方法、设备和存储介质
CN117725256A (zh) * 2023-12-15 2024-03-19 北京百度网讯科技有限公司 歌曲推荐方法、装置、电子设备和存储介质

Also Published As

Publication number Publication date
CN111046221B (zh) 2024-06-07

Similar Documents

Publication Publication Date Title
CN111046221B (zh) 歌曲推荐方法、装置、终端设备以及存储介质
Ding et al. Entity discovery and assignment for opinion mining applications
Vandic et al. Faceted product search powered by the semantic web
CN109918555B (zh) 用于提供搜索建议的方法、装置、设备和介质
US8090724B1 (en) Document analysis and multi-word term detector
CN113822067A (zh) 关键信息提取方法、装置、计算机设备及存储介质
US20130060769A1 (en) System and method for identifying social media interactions
CN112256822A (zh) 文本搜索方法、装置、计算机设备和存储介质
CN109145110B (zh) 标签查询方法和装置
CN104102639B (zh) 基于文本分类的推广触发方法和装置
WO2018049960A1 (zh) 一种为文本信息匹配资源的方法及装置
CN112115232A (zh) 一种数据纠错方法、装置及服务器
CN117743558A (zh) 基于大模型的知识加工、知识问答方法、装置及介质
CN113254588A (zh) 一种数据搜索方法及系统
WO2015084404A1 (en) Matching of an input document to documents in a document collection
CN112417133A (zh) 排序模型的训练方法和装置
CN120145075A (zh) 基于大模型的事件内容校对方法、装置及存储介质
KR20180113444A (ko) 개체명 연결 방법, 장치, 시스템 및 컴퓨터 프로그램
CN118797005A (zh) 智能问答方法、装置、电子设备、存储介质及产品
CN112347365A (zh) 一种目标搜索信息确定方法及装置
CN114020864A (zh) 搜索结果的展示方法、装置及设备
CN114328895A (zh) 新闻摘要的生成方法、装置以及计算机设备
CN113157964A (zh) 一种语音搜索数据集的方法、装置及电子设备
CN114239578B (zh) 命名实体的识别方法、装置、设备及存储介质
JP2001101184A (ja) 構造化文書生成方法及び装置及び構造化文書生成プログラムを格納した記憶媒体

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40022572

Country of ref document: HK

SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant