[go: up one dir, main page]

CN111814058A - 基于用户意图的推送方法、装置、电子设备及存储介质 - Google Patents

基于用户意图的推送方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN111814058A
CN111814058A CN202010844662.2A CN202010844662A CN111814058A CN 111814058 A CN111814058 A CN 111814058A CN 202010844662 A CN202010844662 A CN 202010844662A CN 111814058 A CN111814058 A CN 111814058A
Authority
CN
China
Prior art keywords
content
vector
semantic vector
search
semantic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202010844662.2A
Other languages
English (en)
Inventor
刘曙铭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Oppo Mobile Telecommunications Corp Ltd
Shenzhen Huantai Technology Co Ltd
Original Assignee
Guangdong Oppo Mobile Telecommunications Corp Ltd
Shenzhen Huantai Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Oppo Mobile Telecommunications Corp Ltd, Shenzhen Huantai Technology Co Ltd filed Critical Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority to CN202010844662.2A priority Critical patent/CN111814058A/zh
Publication of CN111814058A publication Critical patent/CN111814058A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9538Presentation of query results
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements
    • G06Q30/0251Targeted advertisements
    • G06Q30/0255Targeted advertisements based on user history
    • G06Q30/0256User search
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements
    • G06Q30/0251Targeted advertisements
    • G06Q30/0269Targeted advertisements based on user profile or attribute
    • G06Q30/0271Personalized advertisement
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements
    • G06Q30/0277Online advertisement

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Strategic Management (AREA)
  • Finance (AREA)
  • Development Economics (AREA)
  • Accounting & Taxation (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Evolutionary Computation (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Economics (AREA)
  • Game Theory and Decision Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Molecular Biology (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例公开了一种基于用户意图的推送方法、装置、电子设备及计算机可读介质,涉及计算机应用技术领域。方法包括:获取用户输入的搜索词和待推送内容映射关系集合,所述待推送内容映射关系集合包括:待推送内容与关键词之间的映射关系;基于预先训练的语义理解模型,分别获取所述搜索词对应的搜索语义向量和所述关键词对应的内容语义向量;计算所述搜索语义向量和所述内容语义向量的相似度,根据所述相似度从所述内容语义向量中确定目标内容语义向量;根据所述目标内容语义向量,获取与所述目标内容语义向量对应的待推送内容,进行推送。因此,可以根据用户的搜索词挖掘用户的搜索意图,从而有效地进行内容推送。

Description

基于用户意图的推送方法、装置、电子设备及存储介质
技术领域
本申请实施例涉及计算机应用技术领域,更具体地,涉及一种基于用户意图的推送方法、装置、电子设备及存储介质。
背景技术
随着移动时代的快速发展,网络上的信息不断增加,用户经常通过搜索引擎在海量信息中搜索需要的信息,搜索引擎推广也是目前最有效的互联网广告渠道。但是,当前进行广告投放的方式依赖人工构建标签体系,从而在海量广告中选择合适的广告进行投放,这种方式依赖于领域经验,主观性强,无法满足复杂多变的广告投放需求。因此,如何准确获取用户的意图信息,根据用户的意图进行广告推送从而提高推送效率,是亟待解决的。
发明内容
鉴于上述问题,本申请实施例提供一种基于用户意图的推送方法、装置、电子设备及存储介质,可以有效地进行内容推送。
第一方面,本申请实施例提供了一种基于用户意图的推送方法,所述方法包括:获取用户输入的搜索词和待推送内容映射关系集合,所述待推送内容映射关系集合包括:待推送内容与关键词之间的映射关系;基于预先训练的语义理解模型,分别获取所述搜索词对应的搜索语义向量和所述关键词对应的内容语义向量;计算所述搜索语义向量和所述内容语义向量的相似度,根据所述相似度从所述内容语义向量中确定目标内容语义向量;根据所述目标内容语义向量,获取与所述目标内容语义向量对应的待推送内容,进行推送。
第二方面,本申请实施例还提供了一种基于用户意图的推送装置,所述装置包括:信息获取模块,获取用户输入的搜索词和待推送内容映射关系集合,所述待推送内容映射关系集合包括:待推送内容与关键词之间的映射关系;向量获取模块,基于预先训练的语义理解模型,分别获取所述搜索词对应的搜索语义向量和所述关键词对应的内容语义向量;确定模块,计算所述搜索语义向量和所述内容语义向量的相似度,根据所述相似度从所述内容语义向量中确定目标内容语义向量;处理模块,根据所述目标内容语义向量,获取与所述目标内容语义向量对应的待推送内容,进行推送。
第三方面,本申请实施例还提供了一种电子设备,包括:一个或多个处理器;存储器;一个或多个应用程序,其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个应用程序配置用于执行上述方法。
第四方面,本申请实施例还提供了一种计算机可读取存储介质,计算机可读取存储介质中存储有程序代码,所述程序代码可被处理器调用执行上述方法。
本申请实施例公开了一种基于用户意图的推送方法、装置、电子设备及计算机可读介质,涉及计算机应用技术领域。方法包括:获取用户输入的搜索词和待推送内容映射关系集合,所述待推送内容映射关系集合包括:待推送内容与关键词之间的映射关系;基于预先训练的语义理解模型,分别获取所述搜索词对应的搜索语义向量和所述关键词对应的内容语义向量;计算所述搜索语义向量和所述内容语义向量的相似度,根据所述相似度从所述内容语义向量中确定目标内容语义向量;根据目标内容语义向量,获取与所述目标内容语义向量对应的待推送内容,进行推送。因此,可以根据用户的搜索词挖掘用户的搜索意图,从而有效地进行内容推送。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,而不是全部的实施例。基于本申请实施例,本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例及附图,都属于本发明保护的范围。
图1示出了一种适用于本申请实施例的应用环境示意图。
图2示出了本申请一个实施例提供的基于用户意图的推送方法的流程示意图。
图3示出了本申请另一个实施例提供的基于用户意图的推送方法的流程示意图。
图4示出了本申请又一个实施例提供的基于用户意图的推送方法的流程示意图。
图5示出了本申请再一个实施例提供的基于用户意图的推送方法的流程示意图。
图6示出了本申请实施例提供的基于用户意图的推送装置的模块框图。
图7示出了本申请实施例用于执行根据本申请实施例的基于用户意图的推送方法的电子设备的框图;
图8示出了本申请实施例用于执行根据本申请实施例的基于用户意图的推送方法的计算机可读存储介质的模块框图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。应当理解,此处描述的具体实施例仅用于解释本申请,并不用于限定本申请。
目前,随着互联网的不断发展,互联网网民的数量已经呈爆炸式的增长,广告用户经常在互联网的海量信息中搜索需要的信息,搜索引擎渐渐成为必不可少的工具,广告也逐渐以互联网作为载体进行传播。目前,搜索引擎一般是根据用户输入的搜索文本进行检索,以获取与搜索文本相关的搜索结果,并将该搜索结果提供给用户进行查看,因此,如何根据用户的搜索文本获取用户的搜索意图,以实现有效的广告投放变得非常重要。
但是,当前理解用户搜索意图通常是采用文本分类模型对用户的搜索文本进行分类,获取用户搜索文本对应的标签,根据待投放广告的标签来获取用户搜索文本与广告的关联,从而进行广告投放。发明人研究了当前进行广告投放的方法所存在的困难,发现由于广告主的需求复杂多变,相应的标签体系也极其复杂,通常需要成百上千个分类标签,而文本分类模型是有监督模型,对每一个类别都需要从海量的用户搜索数据中进行标签标注来获取训练样本数据进行训练,因此,获取训练样本数据的标签需要消耗大量的人力,并且分类模型的准确率依赖于训练样本数据的质量和数量。
人工构建标签体系依赖个人的领域知识,存在的人为误差可能影响最终模型的识别能力。虽然可以通过数据分析的方法获取一批对应标签的关键词,通过关键词匹配的方法对用户搜索文本进行标签的标注来快速获取训练样本数据,但这种方法存在两个弊端。一方面,因为词本身具有歧义性,所以同样的词在不同的场景下表达的用户意图可能完全不同,通过关键词匹配方法得到的训练样本数据可能存在很多干扰,使用这样的训练样本数据得到的文本分类模型的识别能力也较差;另一方面,通过关键词匹配得到的训练样本数据的分布空间相对狭窄,只能找到当前标签中部分的文本数据的表示,很容易丢失当前标签的大量的语料空间表示,通过这样的训练样本数据得到的模型能够识别的搜索文本的语料空间也相对狭窄,模型识别效果不好,导致最终的广告投放情况不理想。
发明人研究了目前广告投放方法的困难点,更是综合考虑实际场景的广告投放需求,提出了本申请实施基于用户意图的推送方法、装置、电子设备及存储介质,根据用户的搜索词挖掘用户的搜索意图,从而有效地进行内容推送。
为了更好理解本申请实施例提供的一种基于用户意图的推送方法、装置、电子设备及存储介质,下面先对适用于本申请实施例的应用环境进行描述。
请参阅图1,图1示出了一种适用于本申请实施例的应用环境示意图。本申请实施例提供的基于用户意图的推送方法可以应用于如图1所示的多态交互系统10。多态交互系统10包括终端设备100以及服务器200,服务器200与终端设备100通信连接。其中,服务器200可以是传统服务器,也可以是云端服务器,在此不作具体限定。
在一些实施例中,用户在用户终端通过帐号登录,则该帐号对应的所有信息可以存储在服务器100的存储空间内。其中,服务器100可以是单独的服务器,也可以是服务器集群,可以是本地服务器,也可以是云端服务器。用户终端内安装有多个应用程序,服务器100能够向用户终端推送一些内容,具体地,可以是将该内容推送至用户终端的某个应用程序,由该应用程序将该内容显示,从而能够将内容推送给到用户终端对应的用户。
其中,服务器100可以与多个用户终端连接,并且可以将所要推送的内容推送给所有用户终端,也可以根据一些策略选择其中的某个用户终端,将所要推送的内容推送至所选择的用户终端。而具体的策略可以是根据所要推送的内容以及各个用户终端所对应的用户而确定。于本申请实施例中,所要推送的内容可以是广告信息,例如,某个电商应用程序的商品折扣信息等。
上述应用环境仅为方便理解所作的示例,可以理解的是,本申请实施例不仅局限于上述应用环境。
下面将通过具体实施例对本申请实施例提供的基于用户意图的推送方法、装置、终端设备及存储介质进行详细说明。
请参阅图2,图2示出了本申请一个实施例提供的基于用户意图的推送方法的流程示意图,本实施例提供的基于用户意图的推送方法可应用于上述系统中的服务器,即该方法的执行主体可以是上述的服务器,该方法用于提高为用户推送的内容的准确性,具体地,如图2所示,该方法包括:S110至S140。
S110:获取用户输入的搜索词和待推送内容映射关系集合。
其中,用户输入的搜索词的输入形式可以是文本或者语音等,具体地,若用户的输入形式是文本,则获取用户输入的文本形式的搜索词,若用户输入形式是语音,则将语音信息转换为文本形式的搜索词。
其中,待推送内容映射关系集合包括:待推送内容与关键词之间的映射关系,待推送内容是等待被推送的事物或者虚拟事物,可以是文本形式,也可以是视频形式,还可以是图片形式,在此不做限定。例如,待推送内容可以是待推送的新闻、榜单、视频等,也可以是推荐的商品、店铺、服务等。推送内容与关键词之间的映射关系可以是一个关键词对应一个推送内容,也可以是一个关键词对应多个推送内容,在此不做限定。作为一种方式,待推送内容映射关系集合可以以各种数据结构保存,比如,按照数据结构类型的不同,内容向量映射关系集合可以以列表、表格、散列表、数组、树等形式保存。
在一些实施方式中,待推送内容映射关系集合中的关键词可以是待推送内容对应的标题,因为标题通常是待推送内容的提炼与概括,可以用于表征待推送内容的主要内,待推送内容与标题之间的映射关系集合可以是预先设置并存储在终端设备本地或者服务器中的。
在另一些实施方式中,待推送内容映射关系集合中的关键词也可以是待推送内容的一段关键文本。具体地,当待推送内容包含文本内容时,若待推送内容中包括摘要,则该推送内容的关键词可以是推送内容的摘要;若待推送内容中不包括摘要,则该推送内容的关键词可以是推送内容的第一段或者最后一段文本,因为文本内容的第一段通常会概括地介绍页面的内容,文本内容的最后一段通常会对页面的内容进行总结。
S120:基于预先训练的语义理解模型,分别获取搜索词对应的搜索语义向量和关键词对应的内容语义向量。
其中,语义向量是将文本信息映射到预设向量空间中,得到的用于表征文本信息的语义的向量,通过将搜索词作为预先训练的语义理解模型的输入,可以得到搜索词对应的搜索语义向量,通过将关键词作为预先训练的语义理解模型的输入,可以得到关键词对应的内容语义向量。其中,语义理解模型可以是监督模型,也可以是无监督模型,是由文本数据预先训练得到模型。
具体地,语义理解模型包括但不限于:深度神经网络(Deep Neural Networks,DNN)、循环神经网络(Recurrent Neural Networks,RNN)、卷积神经网络(ConvolutionalNeural Networks,CNN)、Transformer中的一种或组合。在一些实施方式中,语义理解模型可以是基于变换器的双向编码表示网络模型(Bidirectional Encoder Representationfrom Transformers,BERT)、词向量模型(doc2Vec)等。
作为一种方式,可以按照指定的时间频率获取搜索词对应的搜索语义向量和关键词对应的内容语义向量,从而获取用户搜索意图的变化情况,更有效地进行信息推送,其中,指定的时间频率可以根据实际需求来设定,例如,时间频率为一天时,可以每天基于预先训练的语义理解模型,获取搜索词对应的搜索语义向量和关键词对应的内容语义向量。
S130:计算搜索语义向量和内容语义向量的相似度,根据相似度从内容语义向量中确定目标内容语义向量。
在获取到搜索词对应的搜索语义向量和关键词对应的内容语义向量后,可以计算语义向量和内容向量的相似度,其中相似度用于表征搜索语义向量和内容语义向量的相关性,也就是搜索词和关键词的相关性,具体地,相似度越高,关键词越能够表达搜索词反映的用户意图。
在一些实施例中,基于预先训练的语义理解模型,分别获取搜索词对应的搜索语义向量和关键词对应的内容语义向量可以是由服务器执行的,可以将获取到的搜索语义向量和内容语义向量存储在离线服务器或者终端设备本地的数据库中,离线服务器中相应的推送装置或者终端设备可以通过存储的搜索语义向量和内容语义向量的数据,实时地计算搜索语义向量和内容语义向量的相似度。
具体地,根据相似度从内容语义向量中确定目标语义向量,可以是将相似度满足指定条件的内容语义向量作为目标语义向量,指定条件是与实际推送场景有关的条件,目标语义向量可以是一个向量,也可以是多个向量。作为一种方式,指定条件可以是大于特定的阈值,相应地,将大于特定的阈值对应的内容语义向量作为目标语义向量。特定条件还可以是获取相似度最大的N个内容语义向量,N为预先设置的大于0的整数,相应地,将相似度最大的N个内容语义向量作为目标语义向量。
作为一种实施方式,可以根据搜索语义向量与内容语义向量的相似度来优化待推送内容的关键词,从而更好地吸引用户,提高待推送内容的转化率。例如,待推送内容为广告信息时,广告主可以获取该广告信息想要触达的用户群体,通过分析与该用户群体的搜索语义向量的相似度较高的内容语义向量,可以得到用户较为感兴趣的内容语义向量对应的关键词,从而根据该关键词指导广告主优化广告信息中的关键词,提升广告的转化效果。
S140:根据目标内容语义向量,获取与目标内容语义向量对应的待推送内容,进行推送。
在获取目标语义向量后,可以根据目标语义向量获取对应的关键词,基于待推送内容映射关系集合,获取到该关键词对应的待推送内容,将待推送内容进行推送。
作为一种方式,可以获取每一个目标内容语义向量对应的相似度,按照相似度由大到小的顺序,对目标语义向量对应的待推送内容进行排序,从而将相似度较高的目标语义向量对应的待推送内容排列前面,方便用户进行选择。
作为一种方式,也可以预先指定内容语义向量,分别计算该内容语义向量与每个搜索语义向量的相似度,获取相似度满足指定条件的搜索语义向量,从而对输入过搜索语义向量对应的搜索词的用户进行推送,推送信息为指定内容语义向量对应的待推送内容。
本申请实施例提供的基于用户意图的信息推送方法,在获取用户输入的搜索词和待推送内容映射关系集合,待推送内容映射关系集合包括待推送内容与关键词之间的映射关系后,基于预先训练的语义理解模型,分别获取搜索词对应的搜索语义向量和关键词对应的内容语义向量,计算搜索语义向量和内容语义向量的相似度,根据相似度从内容语义向量中确定目标内容语义向量,从而根据目标内容语义向量,获取与目标内容语义向量对应的待推送内容,进行推送。通过搜索语义向量和内容语义向量的相似度来获取待推送内容,可以使推送内容更加符合用户的搜索意图,进而提高推送内容的准确性。
请参阅图3,图3示出了本申请另一个实施例提供的基于用户意图的推送方法的流程示意图,应用于上述系统中的服务器,即该方法的执行主体可以是上述的服务器,该方法用于提高为用户推送的内容的准确性,具体地,如图3所示,该方法包括:S210至S260。
S210:获取用户输入的搜索词和待推送内容映射关系集合。
步骤S210可以参阅步骤S110。
在一些实施例中,待推送内容的关键词可以是待推送内容的标题包括的关键词,可以通过终端埋点日志来获取用户历史搜索数据,其中,用户历史搜索数据中可以包括用户历史搜索词和历史搜索词对应的用户浏览的待推送内容。作为一种方式,可以根据用户浏览的待推送内容获取待推送内容与待推送内容的标题之间的映射关系,从而将映射关系存储在待推送内容映射关系集合;作为另一种方式,可以在获取到待推送内容的时候,将待推送内容与待推送内容的标题之间的映射关系存储起来。
S220:分别获取搜索词的特征向量和关键词的特征向量。
本申请实施例中获取语义向量使用的语义理解模型是BERT模型,分别获取搜索词的特征向量和关键词的特征向量作为BERT模型的输入,该特征向量是文本信息通过编码器生成的特征向量,可以通过对文本进行编码从而降低数据的维度,但是该向量无法根据上下文获取不同的语义表征,通过将特征向量输入BERT模型得到对应的语义向量,该语义向量既可以根据语句的上下文进行语义表征。
在一些实施例中,分别获取搜索词的特征向量和关键词的特征向量,包括获取所述搜索词的文本向量、位置向量、初始词向量,将所述搜索词的文本向量、位置向量、初始词向量进行融合,形成所述搜索词的特征向量;获取所述关键词的文本向量、位置向量、初始词向量,将所述关键词的文本向量、位置向量、初始词向量进行融合,形成所述待推送内容的特征向量。
其中,文本向量(Token Embeddings)中包含预置的标识符[CLS]和[SEP],和每个字对应的隐层向量表示,对每一个搜索词或者关键词,都会在该语句的开头设置[CLS]标识符来表征句子的开始,在相邻或并列的两个语句之间用[SEP]标识符作为分隔,并可以在语句的结束设置符号[SEP],初始词向量(Segment Embeddings)用于表征不同的语句,位置向量(Position Embeddings)用于表征语句的每个词语在语句中的位置。
其中,向量融合是向量融合指多个向量转化为一个向量,根据融合方式的不同,向量融合可以包括向量拼接、向量相加等。作为一种方式,在BERT模型以及BERT模型的变种模型,位置向量是在使用该语句进行训练的过程中获取的,可以将文本向量、位置向量、初始词向量进行向量拼接,再经过一个全连接层进行输出。通过融合多种的向量得到特征向量,可以结合上下文更好地感知该语句的语义。
S230:将搜索词的特征向量作为双向编码表示网络的输入,通过双向编码表示网络,得到搜索词对应的搜索语义向量。
其中,双向编码表示网络是基于变换器的双向编码表示网络(BidirectionalEncoder Representation from Transformers,BERT),BERT模型同时使用上下文,并且使用双向的Transformer来表征文本,Transformer由编码器和解码器组成,编码器主要有多个编码模块组成,每个编码模块中包含自注意力层和前馈神经网络层,解码器和编码器类似,也有多个解码模块组成,每个解码模块中包含自注意力层和前馈神经网络层,另外还多了一层编码解码层。
BERT模型是典型的二阶段模型,可以分成预训练阶段和微调阶段,在预训练阶段主要是利用Transformer作为特征抽取器学习海量的无标注文本从而学习语言学知识,最终得到文本的表征方式,也就是文本对应的语义向量。在微调阶段根据预训练阶段学习到的文本语义知识,基于下游实际的业务需求对模型进行微调学习,从而适应下游实际的业务需求。在本实施例中,使用BERT模型的预训练阶段,将融合了搜索词的文本向量、位置向量、初始词向量的特征向量作为BERT模型的输入,得到可以根据语句的上下文进行语义表征的搜索语义向量。
作为一种实施方式,可以通过搜索引擎应用程序或网页的埋点日志数据获取用户搜索行为数据,其中,用户搜索行为数据包括用户输入的搜索词和用户在该搜索词的搜索结果中点击的待推送内容,由于用户点击的待推送内容可以表征用户的搜索意图,通过将用户输入的搜索词和用户在该搜索词的搜索结果中点击的待推送内容作为弱监督数据来训练ALBERT模型,可以获取到用户搜索词与待推送内容之间的关联,这种关联在模型训练时进行充分的交互匹配,可以获取到更好的文本表示。
作为一种实施方式,可以采用BERT模型的变种模型ALBERT模型。与采用了12层的Transformer的BERT模型不同,ALBERT模型仅使用4层Transformer,通过对嵌入参数化进行因式分解和跨层参数共享减少了模型参数量,训练参数约为400万,模型大小仅为14M。此外,ALBERT模型使用句子顺序预测(Sentence Order Prediction,SOP)替代了BERT模型的下一句预测(Next Oder Prediction,NOP),增强了模型学习句子的连续性的能力,提升了自监督学习任务的能力,通过去掉dropout可以节省很多临时变量,有效提升模型训练过程中内存的利用率,提升了模型的效率,减少了所需训练数据的规模。相比于BERT模型,尽管ALBERT模型的准确率会略微降低1%到2%,但是模型的训练速度和预测速度会提升2到3倍。
由于用户搜索行为具有实时性,也就是对于一些事件,搜索引擎要在一个限定的时间内满足用户的搜索需求,一方面,使用ALBERT模型可以更快地根据用户搜索行为数据来进行训练,从而获得搜索词对应的搜索语义向量,另一方面,使用ALBERT模型可以将更接近当前日期的用户搜索行为数据作为训练数据,从而更好地满足用户搜索行为的实时性。例如,对于同样的样本数量,使用BERT模型需要1天的训练时间,因此在训练BERT模型时只能采用1天前的埋点日志数据进行训练,而使用ALBERT模型只需要2小时的训练时间,可以获取2小时前的埋点日志数据进行训练,更接近当时间的训练数据能更好地反映用户具有时效性的搜索意图。
S240:将待推送内容的特征向量作为双向编码表示网络的输入,通过双向编码表示网络,得到关键词对应的内容语义向量。
可以理解的是,获取关键词对应的内容语义向量的方法和获取搜索词对应的搜索语义向量的方法是相同的,具体请参照步骤S230。
S250:计算搜索语义向量和内容语义向量的相似度,根据相似度从内容语义向量中确定目标内容语义向量。
S260:根据目标内容语义向量,获取与目标内容语义向量对应的待推送内容,进行推送。
需要说明的是,本实施例中未详细描述的部分可以参考前述实施例,在此不再赘述。
本申请实施例提供的基于用户意图的信息推送方法,语义理解模型为基于变换器的双向编码表示网络BERT模型,在获取用户输入的搜索词和待推送内容映射关系集合,待推送内容映射关系集合包括待推送内容与关键词之间的映射关系后,分别获取搜索词的特征向量和关键词的特征向量,将搜索词的特征向量作为双向编码表示网络的输入,通过双向编码表示网络,得到搜索词对应的搜索语义向量,将关键词的特征向量作为双向编码表示网络的输入,通过双向编码表示网络,得到关键词对应的内容语义向量,通过计算搜索语义向量和内容语义向量的相似度,根据相似度从内容语义向量中确定目标内容语义向量,然后根据目标内容语义向量,获取与目标内容语义向量对应的待推送内容,进行推送。通过BERT模型,可以分别获取到搜索词和关键词对应的根据语句的上下文进行语义表征的语义向量,从而根据语义向量获取用户的搜索意图进行推送,而不需要人工标注训练预料,一方面节省了标注的人力,另一方面也避免了标签维度过粗导致的进行推送不准确的问题。
请参阅图4,图4示出了本申请又一个实施例提供的基于用户意图的推送方法的流程示意图,应用于上述系统中的服务器,即该方法的执行主体可以是上述的服务器,该方法用于提高为用户推送的内容的准确性,具体地,如图4所示,该方法包括:S310至S360。
S310:获取用户输入的搜索词和待推送内容映射关系集合。
S320:基于预先训练的语义理解模型,分别获取搜索词对应的搜索语义向量和关键词对应的内容语义向量。
S330:计算搜索语义向量和内容语义向量之间的向量距离。
其中,向量距离可以是欧氏距离(Euclidean Distance)、曼哈顿距离(ManhattanDistance)、切比雪夫距离(Chebyshev Distance)、标准化欧氏距离(StandardizedEuclidean distance)、夹角余弦(Cosine)等,在此不做限定。
作为一种实施方式,可以将搜索语义向量和内容语义向量的数据存储在离线服务器中,在线服务器中的信息推送装置可以通过网络获取离线服务器的搜索语义向量和内容语义向量的数据,计算搜索语义向量和内容语义向量之间的向量距离。
在一些实施例中,向量距离可以是搜索语义向量和内容语义向量之间的夹角余弦距离,具体地,可以计算搜索语义向量与内容语义向量的向量长度,从而得到搜索语义的向量长度和内容语义的向量长度;计算搜索语义向量与内容语义向量的向量内积;基于向量内积和向量长度计算搜索语义向量和内容语义向量之间的余弦距离,作为搜索语义向量和内容语义向量之间的向量距离。
S340:根据向量距离,确定搜索语义向量和内容语义向量的相似度。
可以根据向量距离来确定搜索语义向量和内容语义向量的相似度,向量距离越大,搜索语义向量和内容语义向量的差异越大,相应地,搜索语义向量和内容语义向量的相似度越低。
作为一种方式,可以用归一化后的向量距离作为搜索语义向量和内容语义向量的相似度。作为另一种方式,可以在预先训练的语义理解模型上集成根据向量距离计算相似度的损失函数,通过softmax函数将向量距离转化为概率形式表达的向量相似度。
S350:将相似度满足指定条件的内容语义向量作为目标内容语义向量。
其中,指定条件可以是根据推送信息的策略而设定的,目标语义向量可以是一个向量,也可以是多个向量。作为一种方式,指定条件可以是大于特定的阈值,相应地,将大于特定的阈值对应的内容语义向量作为目标语义向量。特定条件还可以是获取相似度最大的N个内容语义向量,N为预先设置的大于0的整数,相应地,将相似度最大的N个内容语义向量作为目标语义向量。
S360:根据目标内容语义向量,获取与目标内容语义向量对应的待推送内容,进行推送。
需要说明的是,本实施例中未详细描述的部分可以参考前述实施例,在此不再赘述。
本申请实施例提供的基于用户意图的信息推送方法,获取用户输入的搜索词和待推送内容映射关系集合,待推送内容映射关系集合包括待推送内容与关键词之间的映射关系,然后基于预先训练的语义理解模型,分别获取搜索词对应的搜索语义向量和关键词对应的内容语义向量,计算搜索语义向量和内容语义向量之间的向量距离,根据向量距离,确定搜索语义向量和内容语义向量的相似度,并将相似度满足指定条件的内容语义向量作为目标内容语义向量,从而根据目标内容语义向量,获取与目标内容语义向量对应的待推送内容,进行推送。计算向量距离简单且易于实现,可以快速实时地获取搜索语义向量和内容语义向量的相似度,从而高效地进行内容推送。
请参阅图5,图5示出了本申请再一个实施例提供的基于用户意图的推送方法的流程示意图,应用于上述系统中的服务器,即该方法的执行主体可以是上述的服务器,该方法用于提高为用户推送的内容的准确性,具体地,如图5所示,该方法包括:S410至S450。
S410:获取用户浏览页面的页面文本信息。
其中,用户浏览页面可以是用户进行搜索后,在搜索结果中浏览的页面文本信息,作为一种方式,用户浏览页面也可以是在信息流的场景下,用户主要出于浏览的目的,并没有明确的检索行为所产生的浏览页面,在此不做限定。通过获取用户浏览页面的页面文本信息,可以得到用户与页面文本信息之间的映射关系。
作为一种方式,可以通过用户进行搜索时产生的搜索历史行为数据获取用户浏览页面的页面文本信息,页面文本信息可以包括用户浏览页面的内容,还可以包括用户浏览页面时的上下文信息,用户在浏览页面时,每一次点击查看的页面都可以反映用户浏览时的倾向,也就是说用户浏览的每一个页面文本信息可以反映用户的意图信息。例如,用户浏览的页面多为母婴论坛相关的界面,可以推测用户可能是关注婴幼儿领域的新手父母,因此用户可能会对推送的婴幼儿产品相关内容比较感兴趣。又例如,通过获取用户浏览的页面分析得出页面文本内容都字数较少,则用户可能会更倾向于简短文字内容的推送。
S420:基于预先训练的语义理解模型获取页面文本信息对应的页面语义向量。
其中,预先训练的语义理解模型可以是BERT模型,也可以是ALBERT模型,还可以是其它机器学习模型,在此不做限定。通过将页面恩本信息输入预先训练得到的语义理解模型中,可以获取到页面文本信息对应的页面语义向量,其中,页面语义向量是用于表征用户浏览页面的页面文本信息的语义内容的向量,反映了用户搜索后浏览行为的意图信息。
S430:计算搜索语义向量和内容语义向量的余弦距离,获得第一相似度。
其中,第一相似度用于表征搜索语义向量与内容语义向量的相似程度,具体计算搜索语义向量和内容语义向量的余弦距离,获得第一相似度的过程请参阅步骤S330至步骤S340。
S440:计算页面语义向量和内容语义向量的余弦距离,获得第二相似度。
其中,第二相似度用于表征页面语义向量与内容语义向量的相似程度,可以理解的是,计算搜索语义向量和内容语义向量的余弦距离,获得第二相似度的过程与步骤S430相似,具体请参阅步骤S330至步骤S340。
S450:根据第一相似度和第二相似度确定目标内容语义向量。
作为一种实施方式,可以分别对内容语义向量对应的第一相似度和第二相似度赋予不同的权重值,将第一相似度和第二相似度加权求和的值作为综合相似度,将满足指定条件的综合相似度所对应的内容语义向量作为目标内容语义向量。
作为另一种实施方式,可以指定目标内容语义向量,获取满足第一指定条件的第一相似度对应的搜索语义向量,进而获取该搜索语义向量对应的第一用户群;获取满足第二指定条件的第二相似度对应的内容语义向量,进而获取该内容语义向量对应的第二用户群。通过对第一用户群和第二用户群取交集,得到进行信息推送的目标用户,对目标用户推送目标内容语义向量。
需要说明的是,本实施例中未详细描述的部分可以参考前述实施例,在此不再赘述。
本申请实施例提供的基于用户意图的信息推送方法,获取用户输入的搜索词,基于预先训练的语义理解模型,分别获取搜索词对应的搜索语义向量和关键词对应的内容语义向量,还可以通过获取用户浏览页面的页面文本信息,基于预先训练的语义理解模型获取页面文本信息对应的页面语义向量,计算搜索语义向量和内容语义向量的余弦距离,获得第一相似度,计算页面语义向量和内容语义向量的余弦距离,获得第二相似度,根据第一相似度和第二相似度确定目标内容语义向量,从而将目标内容语义向量对应的待推送内容进行推送。通过获取用户浏览页面的页面文本信息,可以从更多的维度来理解用户意图,从而实现更有效的信息推送方法。
请参阅图6,其示出了本申请实施例提供的一种基于用户意图的推送装置600的结构框图,该装置应用于上述系统中的服务器,该装置可以包括:信息获取模块610、向量获取模块620、确定模块630和处理模块640。
信息获取模块610,获取用户输入的搜索词和待推送内容映射关系集合,所述待推送内容映射关系集合包括:待推送内容与关键词之间的映射关系。
进一步地,信息获取模块610包括:搜索数据获取子模块、数据存储子模块以及视频显示子模块,其中:
搜索数据获取子模块,用于获取用户历史搜索数据,所述用户历史搜索数据包括用户历史搜索词和所述历史搜索词对应的用户浏览的所述待推送内容。
数据存储子模块,用于将所述待推送内容与所述待推送内容的标题之间的映射关系存储在所述待推送内容映射关系集合。
向量获取模块620,基于预先训练的语义理解模型,分别获取所述搜索词对应的搜索语义向量和所述关键词对应的内容语义向量。
进一步地,向量获取模型620包括:特征向量获取子模块、搜索语义向量获取子模块以及内容语义向量获取子模块,其中:
特征向量获取子模块,用于分别获取所述搜索词的特征向量和所述关键词的特征向量。
进一步地,特征向量获取子模块包括:搜索词向量融合单元以及关键词向量融合单元,其中:
搜索词向量融合单元,用于获取所述搜索词的文本向量、位置向量、初始词向量,将所述搜索词的文本向量、位置向量、初始词向量进行融合,形成所述搜索词的特征向量。
以及关键词向量融合单元,用于获取所述关键词的文本向量、位置向量、初始词向量,将所述关键词的文本向量、位置向量、初始词向量进行融合,形成所述待推送内容的特征向量。
搜索语义向量获取子模块,用于将所述搜索词的特征向量作为所述双向编码表示网络的输入,通过所述双向编码表示网络,得到所述搜索词对应的搜索语义向量。
内容语义向量获取子模块,用于将所述关键词的特征向量作为所述双向编码表示网络的输入,通过所述双向编码表示网络,得到所述关键词对应的内容语义向量。
确定模块630,计算所述搜索语义向量和所述内容语义向量的相似度,根据所述相似度从所述内容语义向量中确定目标内容语义向量。
进一步地,确定模块630包括:距离计算子模块、相似度确定子模块以及目标向量确定子模块,其中:
距离计算子模块,用于计算所述搜索语义向量和所述内容语义向量之间的向量距离。
进一步地,距离计算子模块包括:长度计算单元、内积计算单元以及余弦距离计算单元,其中:
长度计算单元,用于计算所述搜索语义向量与所述内容语义向量的向量长度。
内积计算单元,用于计算所述搜索语义向量与所述内容语义向量的向量内积。
余弦距离计算单元,用于基于所述向量内积和所述向量长度计算所述搜索语义向量和所述内容语义向量之间的余弦距离,作为所述搜索语义向量和所述内容语义向量之间的向量距离。
相似度确定子模块,用于根据所述向量距离,确定所述搜索语义向量和所述内容语义向量的相似度。
目标向量确定子模块,将所述相似度满足指定条件的所述内容语义向量作为所述目标内容语义向量。
处理模块640,根据所述目标内容语义向量,获取与所述目标内容语义向量对应的待推送内容,进行推送。
进一步地,该装置还可以包括:文本信息获取模块、页面语义获取模块、第一计算模块、第二计算模块以及综合确定模块,其中:
文本信息获取模块,用于获取用户浏览页面的页面文本信息。
页面语义获取模块,用于基于预先训练的语义理解模型获取所述页面文本信息对应的页面语义向量。
第一计算模块,用于计算所述搜索语义向量和所述内容语义向量的余弦距离,获得第一相似度。
第二计算模块,用于计算所述页面语义向量和所述内容语义向量的余弦距离,获得第二相似度。
综合确定模块,用于根据所述第一相似度和所述第二相似度确定所述目标内容语义向量。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述装置和模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,模块相互之间的耦合可以是电性,机械或其它形式的耦合。
另外,在本申请各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。
请参考图7,其示出了本申请实施例提供的一种电子设备的结构框图。该电子设备可以是上述服务器100。本申请中的电子设备700可以包括一个或多个如下部件:处理器710、存储器720、以及一个或多个应用程序,其中一个或多个应用程序可以被存储在存储器720中并被配置为由一个或多个处理器710执行,一个或多个程序配置用于执行如前述方法实施例所描述的方法。
处理器710可以包括一个或者多个处理核。处理器710利用各种接口和线路连接整个电子设备700内的各个部分,通过运行或执行存储在存储器720内的指令、程序、代码集或指令集,以及调用存储在存储器120内的数据,执行电子设备100的各种功能和处理数据。可选地,处理器710可以采用数字信号处理(Digital Signal Processing,DSP)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)、可编程逻辑阵列(Programmable LogicArray,PLA)中的至少一种硬件形式来实现。处理器710可集成中央处理器(CentralProcessing Unit,CPU)、图像处理器(Graphics Processing Unit,GPU)和调制解调器等中的一种或几种的组合。其中,CPU主要处理操作系统、用户界面和应用程序等;GPU用于负责显示内容的渲染和绘制;调制解调器用于处理无线通信。可以理解的是,上述调制解调器也可以不集成到处理器710中,单独通过一块通信芯片进行实现。
存储器720可以包括随机存储器(Random Access Memory,RAM),也可以包括只读存储器(Read-Only Memory)。存储器720可用于存储指令、程序、代码、代码集或指令集。存储器720可包括存储程序区和存储数据区,其中,存储程序区可存储用于实现操作系统的指令、用于实现至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现下述各个方法实施例的指令等。存储数据区还可以存储终端100在使用中所创建的数据(比如电话本、音视频数据、聊天记录数据)等。
请参考图8,其示出了本申请实施例提供的一种计算机可读存储介质的结构框图。该计算机可读介质800中存储有程序代码,所述程序代码可被处理器调用执行上述方法实施例中所描述的方法。
计算机可读存储介质800可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。可选地,计算机可读存储介质800包括非易失性计算机可读介质(non-transitory computer-readable storage medium)。计算机可读存储介质800具有执行上述方法中的任何方法步骤的程序代码810的存储空间。这些程序代码可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。程序代码810可以例如以适当形式进行压缩。
综上所述,本申请提供的基于用户意图的推送方法、装置、电子设备及计算机可读介质,获取用户输入的搜索词和待推送内容映射关系集合,所述待推送内容映射关系集合包括:待推送内容与关键词之间的映射关系;基于预先训练的语义理解模型,分别获取所述搜索词对应的搜索语义向量和所述关键词对应的内容语义向量;计算所述搜索语义向量和所述内容语义向量的相似度,根据所述相似度从所述内容语义向量中确定目标内容语义向量;根据目标内容语义向量,获取与所述目标内容语义向量对应的待推送内容,进行推送。因此,可以根据用户的搜索词挖掘用户的搜索意图,从而有效地进行内容推送。
最后应说明的是:以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不驱使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims (10)

1.一种基于用户意图的推送方法,其特征在于,包括:
获取用户输入的搜索词和待推送内容映射关系集合,所述待推送内容映射关系集合包括:待推送内容与关键词之间的映射关系;
基于预先训练的语义理解模型,分别获取所述搜索词对应的搜索语义向量和所述关键词对应的内容语义向量;
计算所述搜索语义向量和所述内容语义向量的相似度,根据所述相似度从所述内容语义向量中确定目标内容语义向量;
根据所述目标内容语义向量,获取与所述目标内容语义向量对应的待推送内容,进行推送。
2.根据权利要求1所述的方法,其特征在于,所述语义理解模型为基于变换器的双向编码表示网络,所述基于预先训练的语义理解模型,分别获取所述搜索词对应的搜索语义向量和所述关键词对应的内容语义向量,包括:
分别获取所述搜索词的特征向量和所述关键词的特征向量;
将所述搜索词的特征向量作为所述双向编码表示网络的输入,通过所述双向编码表示网络,得到所述搜索词对应的搜索语义向量;
将所述关键词的特征向量作为所述双向编码表示网络的输入,通过所述双向编码表示网络,得到所述关键词对应的内容语义向量。
3.根据权利要求2所述的方法,其特征在于,所述分别获取所述搜索词的特征向量和所述关键词的特征向量,包括:
获取所述搜索词的文本向量、位置向量、初始词向量,将所述搜索词的文本向量、位置向量、初始词向量进行融合,形成所述搜索词的特征向量;
获取所述关键词的文本向量、位置向量、初始词向量,将所述关键词的文本向量、位置向量、初始词向量进行融合,形成所述待推送内容的特征向量。
4.根据权利要求1所述的方法,其特征在于,所述计算所述搜索语义向量和所述内容语义向量的相似度,根据所述相似度从所述内容语义向量中确定目标内容语义向量,包括:
计算所述搜索语义向量和所述内容语义向量之间的向量距离;
根据所述向量距离,确定所述搜索语义向量和所述内容语义向量的相似度;
将所述相似度满足指定条件的所述内容语义向量作为所述目标内容语义向量。
5.根据权利要求4所述的方法,其特征在于,所述计算所述搜索语义向量和所述内容语义向量之间的向量距离,包括:
计算所述搜索语义向量与所述内容语义向量的向量长度;
计算所述搜索语义向量与所述内容语义向量的向量内积;
基于所述向量内积和所述向量长度计算所述搜索语义向量和所述内容语义向量之间的余弦距离,作为所述搜索语义向量和所述内容语义向量之间的向量距离。
6.根据权利要求1所述的方法,其特征在于,还包括:
获取用户浏览页面的页面文本信息;
基于预先训练的语义理解模型获取所述页面文本信息对应的页面语义向量;
计算所述搜索语义向量和所述内容语义向量的余弦距离,获得第一相似度;
计算所述页面语义向量和所述内容语义向量的余弦距离,获得第二相似度;
根据所述第一相似度和所述第二相似度确定所述目标内容语义向量。
7.根据权利要求1-6任一项所述的方法,其特征在于,所述待推送内容的关键词是所述待推送内容的标题包括的关键词,所述获取用户输入的搜索词和待推送内容映射关系集合,包括:
获取用户历史搜索数据,所述用户历史搜索数据包括用户历史搜索词和所述历史搜索词对应的用户浏览的所述待推送内容;
将所述待推送内容与所述待推送内容的标题之间的映射关系存储在所述待推送内容映射关系集合。
8.一种基于用户意图的推送装置,其特征在于,包括:
信息获取模块,获取用户输入的搜索词和待推送内容映射关系集合,所述待推送内容映射关系集合包括:待推送内容与关键词之间的映射关系;
向量获取模块,基于预先训练的语义理解模型,分别获取所述搜索词对应的搜索语义向量和所述关键词对应的内容语义向量;
确定模块,计算所述搜索语义向量和所述内容语义向量的相似度,根据所述相似度从所述内容语义向量中确定目标内容语义向量;
处理模块,根据所述目标内容语义向量,获取与所述目标内容语义向量对应的待推送内容,进行推送。
9.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储器;
一个或多个应用程序,其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个应用程序配置用于执行如权利要求1-7任一项所述的方法。
10.一种计算机可读介质,其特征在于,所述计算机可读介质存储有处理器可执行的程序代码,所述程序代码被所述处理器执行时使所述处理器执行权利要求1-7任一项所述方法。
CN202010844662.2A 2020-08-20 2020-08-20 基于用户意图的推送方法、装置、电子设备及存储介质 Withdrawn CN111814058A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010844662.2A CN111814058A (zh) 2020-08-20 2020-08-20 基于用户意图的推送方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010844662.2A CN111814058A (zh) 2020-08-20 2020-08-20 基于用户意图的推送方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN111814058A true CN111814058A (zh) 2020-10-23

Family

ID=72859545

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010844662.2A Withdrawn CN111814058A (zh) 2020-08-20 2020-08-20 基于用户意图的推送方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN111814058A (zh)

Cited By (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112307198A (zh) * 2020-11-24 2021-02-02 腾讯科技(深圳)有限公司 一种单文本的摘要确定方法和相关装置
CN112380331A (zh) * 2020-11-16 2021-02-19 北京京东尚科信息技术有限公司 信息推送的方法和装置
CN112417881A (zh) * 2020-12-17 2021-02-26 江苏满运物流信息有限公司 物流信息识别方法、装置、电子设备、存储介质
CN112487823A (zh) * 2020-11-18 2021-03-12 广东电力信息科技有限公司 一种基于bert模型的文本语义相似度计算方法
CN112507726A (zh) * 2020-12-14 2021-03-16 北京搜狗科技发展有限公司 一种义项嵌入向量的训练方法及装置
CN112580368A (zh) * 2020-12-25 2021-03-30 网易(杭州)网络有限公司 会话文本的意图序列识别方法、装置、设备及存储介质
CN112860848A (zh) * 2021-01-20 2021-05-28 平安科技(深圳)有限公司 信息检索方法、装置、设备及介质
CN113297511A (zh) * 2021-05-24 2021-08-24 北京三快在线科技有限公司 商户排序模型的构建方法、装置、服务器及存储介质
CN113377924A (zh) * 2021-06-28 2021-09-10 北京百度网讯科技有限公司 数据处理方法、装置、设备以及存储介质
CN113407698A (zh) * 2021-06-30 2021-09-17 北京百度网讯科技有限公司 意图识别模型的训练与意图识别的方法、装置
CN113570404A (zh) * 2021-06-30 2021-10-29 深圳市东信时代信息技术有限公司 一种目标用户定位的方法、装置及相关设备
CN113792153A (zh) * 2021-08-25 2021-12-14 北京百度网讯科技有限公司 问答推荐方法及其装置
CN113806487A (zh) * 2021-09-23 2021-12-17 平安科技(深圳)有限公司 基于神经网络的语义搜索方法、装置、设备和存储介质
CN113822038A (zh) * 2021-06-03 2021-12-21 腾讯科技(深圳)有限公司 一种摘要生成方法和相关装置
CN114118062A (zh) * 2021-12-15 2022-03-01 广州小鹏汽车科技有限公司 客户特征提取方法、装置、电子设备及存储介质
CN114417864A (zh) * 2022-01-21 2022-04-29 零氪科技(北京)有限公司 一种患教方法、装置、电子设备及存储介质
CN114741602A (zh) * 2022-04-21 2022-07-12 北京三快在线科技有限公司 对象推荐方法、目标模型的训练方法、装置及设备
CN114780809A (zh) * 2022-04-18 2022-07-22 润联软件系统(深圳)有限公司 基于强化学习的知识推送方法、装置、设备及存储介质
CN114780692A (zh) * 2021-01-05 2022-07-22 阿里巴巴集团控股有限公司 文本处理方法、装置和系统,模型处理方法和装置
CN114898373A (zh) * 2022-06-08 2022-08-12 平安科技(深圳)有限公司 文件脱敏方法、装置、电子设备及存储介质
CN115080829A (zh) * 2022-07-15 2022-09-20 北京字跳网络技术有限公司 一种搜索结果展示方法、装置、计算机设备及存储介质
CN115809353A (zh) * 2022-11-19 2023-03-17 无锡慧眼人工智能科技有限公司 量子神经元网络提高视频内容分类有效性与时效性的方法
CN116342229A (zh) * 2023-05-30 2023-06-27 日照金果粮油有限公司 一种跨境电商信息交易处理系统
CN116578767A (zh) * 2022-01-29 2023-08-11 腾讯科技(深圳)有限公司 语义数据处理、内容推荐方法、装置和计算机设备
CN117493491A (zh) * 2023-11-23 2024-02-02 武汉慧友佳华电子有限公司 一种基于机器学习的自然语言处理方法及系统
CN117807269A (zh) * 2024-01-09 2024-04-02 广州云智达创科技有限公司 基于视频情景分析的达人推荐方法及系统
CN118014695A (zh) * 2024-04-09 2024-05-10 加客云科技(河北)有限公司 一种基于多源数据筛选的商品推送方法和系统
CN118981566A (zh) * 2024-07-22 2024-11-19 北京奇虎科技有限公司 一种推广信息处理方法、装置、存储介质及电子设备
WO2025156952A1 (zh) * 2024-01-25 2025-07-31 杭州阿里巴巴海外互联网产业有限公司 对象推送方法、介质、计算机设备和计算机程序产品
US12430372B2 (en) 2021-11-05 2025-09-30 Beijing Baidu Netcom Science Technology Co., Ltd. Search method, computing device and storage medium

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8285745B2 (en) * 2007-03-01 2012-10-09 Microsoft Corporation User query mining for advertising matching
CN106815252A (zh) * 2015-12-01 2017-06-09 阿里巴巴集团控股有限公司 一种搜索方法和设备
CN108804409A (zh) * 2017-04-28 2018-11-13 西安科技大市场创新云服务股份有限公司 一种语义检索方法和装置
CN108920666A (zh) * 2018-07-05 2018-11-30 苏州思必驰信息科技有限公司 基于语义理解的搜索方法、系统、电子设备及存储介质
CN111046221A (zh) * 2019-12-17 2020-04-21 腾讯科技(深圳)有限公司 歌曲推荐方法、装置、终端设备以及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8285745B2 (en) * 2007-03-01 2012-10-09 Microsoft Corporation User query mining for advertising matching
CN106815252A (zh) * 2015-12-01 2017-06-09 阿里巴巴集团控股有限公司 一种搜索方法和设备
CN108804409A (zh) * 2017-04-28 2018-11-13 西安科技大市场创新云服务股份有限公司 一种语义检索方法和装置
CN108920666A (zh) * 2018-07-05 2018-11-30 苏州思必驰信息科技有限公司 基于语义理解的搜索方法、系统、电子设备及存储介质
CN111046221A (zh) * 2019-12-17 2020-04-21 腾讯科技(深圳)有限公司 歌曲推荐方法、装置、终端设备以及存储介质

Cited By (42)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112380331A (zh) * 2020-11-16 2021-02-19 北京京东尚科信息技术有限公司 信息推送的方法和装置
CN112487823A (zh) * 2020-11-18 2021-03-12 广东电力信息科技有限公司 一种基于bert模型的文本语义相似度计算方法
CN112307198A (zh) * 2020-11-24 2021-02-02 腾讯科技(深圳)有限公司 一种单文本的摘要确定方法和相关装置
CN112307198B (zh) * 2020-11-24 2024-03-12 腾讯科技(深圳)有限公司 一种单文本的摘要确定方法和相关装置
CN112507726A (zh) * 2020-12-14 2021-03-16 北京搜狗科技发展有限公司 一种义项嵌入向量的训练方法及装置
CN112417881A (zh) * 2020-12-17 2021-02-26 江苏满运物流信息有限公司 物流信息识别方法、装置、电子设备、存储介质
CN112580368A (zh) * 2020-12-25 2021-03-30 网易(杭州)网络有限公司 会话文本的意图序列识别方法、装置、设备及存储介质
CN112580368B (zh) * 2020-12-25 2023-09-26 网易(杭州)网络有限公司 会话文本的意图序列识别方法、装置、设备及存储介质
CN114780692A (zh) * 2021-01-05 2022-07-22 阿里巴巴集团控股有限公司 文本处理方法、装置和系统,模型处理方法和装置
CN112860848A (zh) * 2021-01-20 2021-05-28 平安科技(深圳)有限公司 信息检索方法、装置、设备及介质
CN113297511A (zh) * 2021-05-24 2021-08-24 北京三快在线科技有限公司 商户排序模型的构建方法、装置、服务器及存储介质
CN113822038B (zh) * 2021-06-03 2024-06-25 腾讯科技(深圳)有限公司 一种摘要生成方法和相关装置
CN113822038A (zh) * 2021-06-03 2021-12-21 腾讯科技(深圳)有限公司 一种摘要生成方法和相关装置
CN113377924A (zh) * 2021-06-28 2021-09-10 北京百度网讯科技有限公司 数据处理方法、装置、设备以及存储介质
CN113570404A (zh) * 2021-06-30 2021-10-29 深圳市东信时代信息技术有限公司 一种目标用户定位的方法、装置及相关设备
CN113570404B (zh) * 2021-06-30 2023-12-05 深圳市东信时代信息技术有限公司 一种目标用户定位的方法、装置及相关设备
CN113407698A (zh) * 2021-06-30 2021-09-17 北京百度网讯科技有限公司 意图识别模型的训练与意图识别的方法、装置
CN113792153B (zh) * 2021-08-25 2023-12-12 北京度商软件技术有限公司 问答推荐方法及其装置
CN113792153A (zh) * 2021-08-25 2021-12-14 北京百度网讯科技有限公司 问答推荐方法及其装置
CN113806487B (zh) * 2021-09-23 2023-09-05 平安科技(深圳)有限公司 基于神经网络的语义搜索方法、装置、设备和存储介质
CN113806487A (zh) * 2021-09-23 2021-12-17 平安科技(深圳)有限公司 基于神经网络的语义搜索方法、装置、设备和存储介质
US12430372B2 (en) 2021-11-05 2025-09-30 Beijing Baidu Netcom Science Technology Co., Ltd. Search method, computing device and storage medium
CN114118062A (zh) * 2021-12-15 2022-03-01 广州小鹏汽车科技有限公司 客户特征提取方法、装置、电子设备及存储介质
CN114118062B (zh) * 2021-12-15 2025-04-04 广州小鹏汽车科技有限公司 客户特征提取方法、装置、电子设备及存储介质
CN114417864A (zh) * 2022-01-21 2022-04-29 零氪科技(北京)有限公司 一种患教方法、装置、电子设备及存储介质
CN116578767A (zh) * 2022-01-29 2023-08-11 腾讯科技(深圳)有限公司 语义数据处理、内容推荐方法、装置和计算机设备
CN116578767B (zh) * 2022-01-29 2024-07-30 腾讯科技(深圳)有限公司 语义数据处理、内容推荐方法、装置和计算机设备
CN114780809A (zh) * 2022-04-18 2022-07-22 润联软件系统(深圳)有限公司 基于强化学习的知识推送方法、装置、设备及存储介质
CN114741602A (zh) * 2022-04-21 2022-07-12 北京三快在线科技有限公司 对象推荐方法、目标模型的训练方法、装置及设备
CN114898373A (zh) * 2022-06-08 2022-08-12 平安科技(深圳)有限公司 文件脱敏方法、装置、电子设备及存储介质
CN115080829B (zh) * 2022-07-15 2025-05-09 北京字跳网络技术有限公司 一种搜索结果展示方法、装置、计算机设备及存储介质
CN115080829A (zh) * 2022-07-15 2022-09-20 北京字跳网络技术有限公司 一种搜索结果展示方法、装置、计算机设备及存储介质
CN115809353A (zh) * 2022-11-19 2023-03-17 无锡慧眼人工智能科技有限公司 量子神经元网络提高视频内容分类有效性与时效性的方法
CN116342229B (zh) * 2023-05-30 2023-08-08 日照金果粮油有限公司 一种跨境电商信息交易处理系统
CN116342229A (zh) * 2023-05-30 2023-06-27 日照金果粮油有限公司 一种跨境电商信息交易处理系统
CN117493491A (zh) * 2023-11-23 2024-02-02 武汉慧友佳华电子有限公司 一种基于机器学习的自然语言处理方法及系统
CN117807269A (zh) * 2024-01-09 2024-04-02 广州云智达创科技有限公司 基于视频情景分析的达人推荐方法及系统
CN117807269B (zh) * 2024-01-09 2024-12-20 广州云智达创科技有限公司 基于视频情景分析的达人推荐方法及系统
WO2025156952A1 (zh) * 2024-01-25 2025-07-31 杭州阿里巴巴海外互联网产业有限公司 对象推送方法、介质、计算机设备和计算机程序产品
CN118014695B (zh) * 2024-04-09 2024-06-04 加客云科技(河北)有限公司 一种基于多源数据筛选的商品推送方法和系统
CN118014695A (zh) * 2024-04-09 2024-05-10 加客云科技(河北)有限公司 一种基于多源数据筛选的商品推送方法和系统
CN118981566A (zh) * 2024-07-22 2024-11-19 北京奇虎科技有限公司 一种推广信息处理方法、装置、存储介质及电子设备

Similar Documents

Publication Publication Date Title
CN111814058A (zh) 基于用户意图的推送方法、装置、电子设备及存储介质
CN109844708B (zh) 通过聊天机器人推荐媒体内容
US11334718B2 (en) Automatic generation of statement-response sets from conversational text using natural language processing
US20230237093A1 (en) Video recommender system by knowledge based multi-modal graph neural networks
CN108009228B (zh) 一种内容标签的设置方法、装置及存储介质
CN107133345B (zh) 基于人工智能的交互方法和装置
US10515125B1 (en) Structured text segment indexing techniques
CN107832338B (zh) 一种识别核心产品词的方法和系统
WO2020244073A1 (zh) 基于语音的用户分类方法、装置、计算机设备及存储介质
CN113806588B (zh) 搜索视频的方法和装置
CN108121814B (zh) 搜索结果排序模型生成方法和装置
CN115147130A (zh) 问题预测方法、设备、存储介质及程序产品
WO2022237215A1 (zh) 模型训练方法、系统、设备及计算机可读存储介质
CN106462588B (zh) 来自所提取的内容的内容创建
CN111598596A (zh) 数据处理方法、装置、电子设备及存储介质
CN117609612A (zh) 资源推荐方法、装置、存储介质及电子设备
CN119848293B (zh) 基于新媒体数据分析的视频内容创作方法及装置
CN118916529A (zh) 基于语义对齐的媒体信息跨模态检索方法、系统及介质
WO2024245081A1 (zh) 模型的训练方法、文本处理方法及相关设备
CN114328913A (zh) 一种文本分类方法、装置、计算机设备和存储介质
CN113919338B (zh) 处理文本数据的方法及设备
CN111538817A (zh) 人机交互方法和装置
CN110399602A (zh) 一种评测文本可靠性的方法和装置
CN114201622B (zh) 获取事件信息的方法、装置、电子设备和存储介质
WO2024021685A1 (zh) 回复内容处理方法以及媒体内容互动内容的交互方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20201023

WW01 Invention patent application withdrawn after publication