[go: up one dir, main page]

CN114936278A - 文本推荐方法、装置、计算机设备和存储介质 - Google Patents

文本推荐方法、装置、计算机设备和存储介质 Download PDF

Info

Publication number
CN114936278A
CN114936278A CN202210582087.2A CN202210582087A CN114936278A CN 114936278 A CN114936278 A CN 114936278A CN 202210582087 A CN202210582087 A CN 202210582087A CN 114936278 A CN114936278 A CN 114936278A
Authority
CN
China
Prior art keywords
list
cluster
text
texts
keyword
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210582087.2A
Other languages
English (en)
Inventor
易明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Life Insurance Company of China Ltd
Original Assignee
Ping An Life Insurance Company of China Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Life Insurance Company of China Ltd filed Critical Ping An Life Insurance Company of China Ltd
Priority to CN202210582087.2A priority Critical patent/CN114936278A/zh
Publication of CN114936278A publication Critical patent/CN114936278A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3334Selection or weighting of terms from queries, including natural language queries
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2132Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on discrimination criteria, e.g. discriminant analysis
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请涉及人工智能领域,提供一种文本推荐方法、装置、计算机设备和存储介质,该文本推荐方法首先获取待推荐的文本列表,待推荐的文本列表包括多个文本;然后利用预设的词袋模型对每一个文本进行特征提取,得到各个文本对应的多级标签;基于各个文本对应的多级标签,得到各个文本对应的关键词列表;随后利用预设的人工智能模型对关键词列表进行特征提取处理,得到与各个关键词列表对应的聚类簇;当各个聚类簇中存在多个关键词列表,从多个关键词列表对应的文本中随机选取一个文本,得到各个聚类簇对应的推荐文本;遍历各个聚类簇,由各个聚类簇对应的推荐文本构成文本推荐列表。本申请实施例能够对推荐的文本进行去重,提高用户体验。

Description

文本推荐方法、装置、计算机设备和存储介质
技术领域
本申请涉及人工智能技术领域,特别涉及一种文本推荐方法、装置、计算机设备和存储介质。
背景技术
文本推荐是比较两篇文本是否重复或者相似,是自然语言处理的重要领域。文本推荐通常会根据用户喜好推荐用户喜欢的内容,在这些推荐的内容中,存在大部分的内容是重复或者相似的。而在推荐系统中,如果将重复的内容推荐给用户,会导致用户反感,从而影响推荐系统的用户体验。
发明内容
本申请的旨在至少一定程度解决现有技术的问题,提供一种文本推荐方法、装置、计算机设备和存储介质,能够对推荐的文本进行去重,提高推荐文本的查找效率,从而提高用户体验。
本申请实施例的技术方案如下:
第一方面,本申请提供了一种文本推荐方法,所述方法包括:
获取待推荐的文本列表,所述待推荐的文本列表包括多个文本;
利用预设的词袋模型对每一个所述文本进行特征提取,得到各个所述文本对应的多级标签;
基于各个所述文本对应的多级标签,得到各个所述文本对应的关键词列表;
利用预设的人工智能模型对所述关键词列表进行特征提取处理,得到与各个所述关键词列表对应的聚类簇;
当各个聚类簇中存在多个所述关键词列表,从多个所述关键词列表对应的所述文本中随机选取一个所述文本,得到各个所述聚类簇对应的推荐文本;
遍历各个所述聚类簇,由各个所述聚类簇对应的所述推荐文本构成文本推荐列表。
根据本申请的一些实施例,所述利用预设的词袋模型对每一个所述文本进行特征提取,得到各个所述文本对应的多级标签,包括:
确定每一个所述文本的主题,将所述文本的主题作为一级标签;
根据所述一级标签,利用所述词袋模型计算与所述一级标签关联的主题词汇,将所述主题词汇作为二级标签;
根据所述二级标签,利用所述词袋模型选取与所述二级标签对应的关键词,得到关键词标签;
由各个所述文本对应的所述一级标签、所述二级标签和所述关键词标签构成各个所述文本对应的所述多级标签。
根据本申请的一些实施例,所述人工智能模型包括词向量映射层和聚类算法层;
所述利用预设的人工智能模型对是关键词列表进行特征提取处理,得到与各个所述关键词列表对应的聚类簇,包括:
利用所述词向量映射层对所述关键词列表进行特征提取,得到所述关键词列表对应的列表向量;
利用所述聚类算法层对所述列表向量进行聚类处理,得到与各个所述关键词列表对应的所述聚类簇。
根据本申请的一些实施例,所述利用所述聚类算法层对所述列表向量进行聚类处理,得到与各个所述关键词列表对应的所述聚类簇,包括:
从所述列表向量中随机选取K个所述列表向量作为聚类中心,得到K个所述聚类中心对应的初始聚类簇,其中,K为所述文本的总数的算术平方根;
计算所有所述列表向量到各个所述聚类中心的距离,得到距离值;
选取距离各个所述聚类中心最小的所述列表向量,将选取出的所述列表向量加入各个所述聚类中心对应的所述初始聚类簇中,计算各个所述初始聚类簇中所有所述列表向量的均值,得到各个所述初始聚类簇的聚类均值;
根据所述聚类均值,重新计算所述距离值,选取距离各个所述聚类均值最小的所述列表向量,更新所述初始聚类簇,直到各个所述初始聚类簇收敛,将收敛的所述初始聚类簇作为所述聚类簇。
根据本申请的一些实施例,在所述利用预设的人工智能模型对所述关键词列表进行特征提取处理,得到与各个所述关键词列表对应的聚类簇之后,所述方法还包括:
对K个所述聚类簇进行编号,得到聚类簇号;
将所述关键词列表和与所述关键词列表对应的所述聚类簇号以键值对的方式进行存储,得到列表-簇号对;
根据所述聚类簇号,将相同所述聚类簇号对应的所述列表-簇号对存储于一个集合中。
根据本申请的一些实施例,在所述遍历各个所述聚类簇,由各个所述聚类簇对应的所述推荐文本构成文本推荐列表之前,所述方法还包括:当各个聚类簇中存在一个所述关键词列表,将所述关键词列表对应的所述文本作为所述推荐文本。
根据本申请的一些实施例,所述利用所述词向量映射层对所述关键词列表进行特征提取,得到所述关键词列表对应的列表向量,包括:利用word2vec模型对所述关键词列表进行特征提取,得到所述关键词列表对应的列表向量。
第二方面,本申请提供了文本推荐装置,包括:
文本获取模块,用于获取待推荐的文本列表,所述待推荐的文本列表包括多个文本;
第一文本处理模块,用于利用预设的词袋模型对每一个所述文本进行特征提取,得到各个所述文本对应的多级标签;
第二文本处理模块,用于基于各个所述文本对应的多级标签,得到各个所述文本对应的关键词列表;
特征处理模块,用于利用预设的人工智能模型对所述关键词列表进行特征提取处理,得到与各个所述关键词列表对应的聚类簇;
第一处理模块,用于当各个聚类簇中存在多个所述关键词列表,从多个所述关键词列表对应的所述文本中随机选取一个所述文本,得到各个所述聚类簇对应的推荐文本;
第二处理模块,用于遍历各个所述聚类簇,由各个所述聚类簇对应的所述推荐文本构成文本推荐列表。
第三方面,本申请提供了一种计算机设备,所述计算机设备包括存储器和处理器,所述存储器中存储有计算机可读指令,所述计算机可读指令被一个或多个所述处理器执行时,使得一个或多个所述处理器执行如上第一方面描述的任一项所述方法的步骤。
第四方面,本申请还提供了一种计算机可读存储介质,所述存储介质可被处理器读写,所述存储介质存储有计算机指令,所述计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行如上第一方面描述的任一项所述方法的步骤。
本申请实施例所提供的技术方案具有如下的有益效果:
本申请实施例提出一种文本推荐方法、装置、计算机设备和存储介质,该文本推荐方法首先获取待推荐的文本列表,待推荐的文本列表包括多个文本;然后利用预设的词袋模型对每一个文本进行特征提取,得到各个文本对应的多级标签,通过得到多级标签有利于后续提高聚类的准确度;基于各个文本对应的多级标签,得到各个文本对应的关键词列表;随后利用预设的人工智能模型对关键词列表进行特征提取处理,得到与各个关键词列表对应的聚类簇,将相似文本归为一个类中,有利于提高推荐文本的查找效率;当各个聚类簇中存在多个关键词列表,从多个关键词列表对应的文本中随机选取一个文本,得到各个聚类簇对应的推荐文本,同一聚类簇内的文本相似,从一个聚类簇内随机选取一个文本,实现对推荐文本的去重;遍历各个聚类簇,由各个聚类簇对应的推荐文本构成文本推荐列表,该文本推荐列表中的各个推荐文本内容不重复。本申请实施例能够对推荐的文本进行去重,提高推荐文本的查找效率,从而提高用户体验。
附图说明
图1是本申请的一个实施例提供的文本推荐方法的流程示意图;
图2是图1中步骤S120的一个子步骤流程示意图;
图3是图1中步骤S140的一个子步骤流程示意图;
图4是图1中步骤S142的一个子步骤流程示意图;
图5是本申请的另一个实施例提供的文本推荐方法的流程示意图;
图6是本申请的另一个实施例提供的文本推荐方法的流程示意图;
图7是本申请的一个实施例提供的文本推荐装置的结构示意图;
图8是本申请实施例提供的计算机设备的结构示意图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本申请,并不用于限定本申请。
需要说明的是,除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的,不是旨在限制本申请。
首先,对本申请中涉及的若干名词进行解析:
人工智能(artificialintelligence,AI):是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学;人工智能是计算机科学的一个分支,人工智能企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。人工智能可以对人的意识、思维的信息过程的模拟。人工智能还是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
自然语言处理(NaturalLanguageProcessing,NLP):自然语言处理是指利用人类交流所使用的自然语言与机器进行交互通讯的技术。通过人为的对自然语言的处理,使得计算机对其能够可读并理解。自然语言处理的相关研究始于人类对机器翻译的探索。虽然自然语言处理涉及语音、语法、语义、语用等多维度的操作,但简单而言,自然语言处理的基本任务是基于本体词典、词频统计、上下文语义分析等方式对待处理语料进行分词,形成以最小词性为单位,且富含语义的词项单元。
K均值聚类算法(k-means clustering algorithm,Kmeans)是一种迭代求解的聚类分析算法,其步骤是,预将数据分为K组,则随机选取K个对象作为初始的聚类中心,然后计算每个对象与各个种子聚类中心之间的距离,把每个对象分配给距离它最近的聚类中心。聚类中心以及分配给它们的对象就代表一个聚类。每分配一个样本,聚类的聚类中心会根据聚类中现有的对象被重新计算。这个过程将不断重复直到满足某个终止条件。终止条件可以是没有(或最小数目)对象被重新分配给不同的聚类,没有(或最小数目)聚类中心再发生变化,误差平方和局部最小。
词向量(Word embedding),又叫Word嵌入式自然语言处理(NLP)中的一组语言建模和特征学习技术的统称,其中来自词汇表的单词或短语被映射到实数的向量。从概念上讲,它涉及从每个单词一维的空间到具有更低维度的连续向量空间的数学嵌入。生成这种映射的方法包括神经网络,单词共生矩阵的降维,概率模型,可解释的知识库方法,和术语的显式表示单词出现的背景。当用作底层输入表示时,单词和短语嵌入已经被证明可以提高NLP任务的性能,例如语法分析和情感分析。
由相关技术可知,文本推荐采用布隆过滤器进行去重,布隆过滤器是用多个哈希函数将文档映射为一个哈希值存入集合,当另一个文档需要比较时,同样先将其转换为哈希值后与集合内的相似值进行比较,此方法对哈希值是否在集合里的判断会有误差,并且占用大量存储资源,时间复杂度也较高。
基于此,本申请实施例提出一种文本推荐方法、装置、计算机设备和存储介质,该文本推荐方法首先获取待推荐的文本列表,待推荐的文本列表包括多个文本;然后利用预设的词袋模型对每一个文本进行特征提取,得到各个文本对应的多级标签,通过得到多级标签有利于后续提高聚类的准确度;基于各个文本对应的多级标签,得到各个文本对应的关键词列表;随后利用预设的人工智能模型对关键词列表进行特征提取处理,得到与各个关键词列表对应的聚类簇,将相似文本归为一个类中,有利于提高推荐文本的查找效率;当各个聚类簇中存在多个关键词列表,从多个关键词列表对应的文本中随机选取一个文本,得到各个聚类簇对应的推荐文本,同一聚类簇内的文本相似,从一个聚类簇内随机选取一个文本,实现对推荐文本的去重;遍历各个聚类簇,由各个聚类簇对应的推荐文本构成文本推荐列表,该文本推荐列表中的各个推荐文本内容不重复。本申请实施例能够对推荐的文本进行去重,提高推荐文本的查找效率,从而提高用户体验。
需要说明的是,该文本推荐方法能够应用于多种文本推荐场景,示例性地,为用户推荐新闻,根据用户感兴趣的话题,推荐与该话题对应的文本,方便用户了解新闻内容,该新闻文本包含了发生事实的内容,无需推荐多个相似内容的新闻文稿,利用本申请实施例提供的文本推荐方法,能够对推荐文本进行去重,提高用户体验。该文本推荐方法还可以应用于推荐理赔信息文本、健康养生文本,以及其他类型的文本推荐,这里不作赘述。
本申请实施例提供的文本推荐方法可以基于人工智能技术(ArtificialIntelligence,AI)对相关的数据进行获取和处理。AI是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。随着人工智能技术研究和进步,人工智能技术已经在多个领域广泛展开研究和应用,相信随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。
本申请实施例可用于众多通用或专用的计算机系统环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
下面参照附图,对本申请实施例提供的文本推荐方法、装置、计算机设备和存储介质进行说明。
参见图1,图1示出了本申请实施例提供的一种文本推荐方法的流程示意图。上述方法包括但不限于有步骤S110、步骤S120、步骤S130、步骤S140、步骤S150和步骤S160。
步骤S110,获取待推荐的文本列表,待推荐的文本列表包括多个文本。
可以理解的是,待推荐的文本列表是根据用户需求产生的,文本推荐系统通过接收用户的输入得到用户需求,或者文本推荐系统根据用户的信息对用户的喜好进行分析,得到用户想要的推荐内容。通过上述获取用户需求后,产生与用户需求相关的各种类型的文本,形成待推荐的文本列表。获取待推荐的文本列表,待推荐的文本列表可以为多个文本,也可以为一个文本。通过获取待推荐的文本,有利于后续计算向用户推荐的文本。
步骤S120,利用预设的词袋模型对每一个文本进行特征提取,得到各个文本对应的多级标签。
可以理解的是,预设的词袋模型可以为隐含狄利克雷分布(Latent DirichletAllocation,LDA),也可以为词频-逆文本频率指数(term frequency–inverse documentfrequency,TF-IDF),还可以为隐含狄利克雷分布和词频-逆文本频率指数的结合,利用词袋模型对每一个文本进行特征提取,得到多级标签。其中,多级标签可以具有两级标签,也可以具有三级标签,能够根据模型进行设定,这里不作赘述。通过得到多级标签有利于后续提高聚类的准确度。
参考图2,利用预设的词袋模型对每一个文本进行特征提取,得到各个文本对应的多级标签,包括但不限于有以下步骤:
步骤S121,确定每一个文本的主题,将文本的主题作为一级标签。
可以理解的是,针对每一个文本而言,可以采用人工确定每一个文本的主题,也可以通过预训练的神经网络模型确定每一个文本主题。将上述方式得到的文本主题作为一级标签。示例性地,一篇关于多条建议用户养生的文本,可以将主题确定为“健康”。根据得到一级标签,有利于后续计算得到多级标签。
步骤S122,根据一级标签,利用词袋模型计算与一级标签关联的主题词汇,将主题词汇作为二级标签。
可以理解的是,当预设的词袋模型为隐含狄利克雷分布时,根据步骤S121得到的一级标签,结合隐含狄利克雷分布能够得到一级标签对应的主题的分布,从该分布中,选取与主题相关联的词汇,将与一级标签相关联的词汇作为二级标签。其中,选取与主题相关联的词汇通过对先进行候选词汇是否属于一级标签的概率评分计算,选取概率评分最高的词汇作为与主题相关联的词汇。示例性地,当一级标签为“健康”,则可以得到选取的二级标签确定为“疾病预防”。
步骤S123,根据二级标签,利用词袋模型选取与二级标签对应的关键词,得到关键词标签。
可以理解的是,当预设的词袋模型为隐含狄利克雷分布时,根据步骤S122得到的二级标签,结合隐含狄利克雷分布能够得到二级标签对应的主题的分布,从该分布中采样得到关键词标签,具体为根据二级标签,先进行候选词汇是否属于二级标签的概率评分计算,在概率评分较高的候选词汇中进行采样。示例性地,当确定一级标签为“健康”,二级标签为“疾病预防”,得到的候选词汇为“糖尿病、血糖、吃药、测血压”等,采样得到关键词“吃药,预防,测血压”等。
需要说明的是,还可以利用基于文本嵌入的搜索索引从与二级标签相似度较高的候选词汇中,选取m个词汇作为关键词标签,其中,相似度的计算采用余弦相似度计算。通过得到关键词标签有利于后续得到多级标签。
步骤S124,由各个文本对应的一级标签、二级标签和关键词标签构成各个文本对应的多级标签。
需要说明的是,根据步骤S121至步骤S123,对得到的各个文本对应的一级标签、二级标签和关键词标签进行记录,形成三级标签形式。也可以形成两级标签,通过隐含狄利克雷分布计算各个文本的主题分布,从主题分布中生成与主题相关的词汇,作为一级标签,然后根据一级标签,利用隐含狄利克雷分布计算一级标签对应的分布,采样生成一级标签对应的关键词,得到关键词标签,对各个文本对应的一级标签和关键词标签进行存储,形成两级标签形式。也可以形成四级标签形式,这里不作赘述。通过得到多级标签有利于后续提高聚类的准确性。
步骤S130,基于各个文本对应的多级标签,得到各个文本对应的关键词列表。
可以理解的是,根据得到的各个文本对应的多级标签,对各级标签进行向量表示,即对一级标签、二级标签和关键词标签以向量的形式存储;在此基础上,初始化一个列表,将向量形式的一级标签、二级标签和关键词标签添加至该列表中,得到关键词列表。该一个关键词列表能够与相应的一个文本对应,既能够简化表示形式,又方便读取。
步骤S140,利用预设的人工智能模型对关键词列表进行特征提取处理,得到与各个关键词列表对应的聚类簇。
在一些实施例中,人工智能模型包括词向量映射层和聚类算法层,参考图3,利用预设的人工智能模型对是关键词列表进行特征提取处理,得到与各个关键词列表对应的聚类簇,包括但不限于有以下步骤:
步骤S141,利用词向量映射层对关键词列表进行特征提取,得到关键词列表对应的列表向量。
可以理解的是,词向量映射层可以为word2vec层和独热表示(one hotrepresentation)层,词向量映射主要对各个词向量列表中的多级标签进行向量表示,能够实现向量降维,将高维难表示的向量转化为低维易表示的向量,得到关键词列表对应的列表向量。通过利用词向量映射进行处理,能够减少计算量,降低空间复杂度。
在一些实施例中,利用word2vec模型对关键词列表进行特征提取,得到关键词列表对应的列表向量。
可以理解的是,word2vec模型是一个浅层的神经网络,将文本转换为词向量,可用来表示词对词之间的关系,本实施例中word2vec模型是一个训练好的模型,利用word2vec模型对关键词列表进行特征提取。由于在词向量列表中包含了多级标签,一级标签和二级标签能够使相似的文本得到相邻Embedding向量的概率更大。
步骤S142,利用聚类算法层对列表向量进行聚类处理,得到与各个关键词列表对应的聚类簇。
需要说明的是,利用Kmeans聚类算法对列表向量进行聚类处理,得到各个文本对应的聚类簇。通过聚类将相似的文本放入一个类中,有利于后续去重处理。
参考图4,利用聚类算法层对列表向量进行聚类处理,得到与各个关键词列表对应的聚类簇,包括但不限于有以下步骤:
步骤S1421,从列表向量中随机选取K个列表向量作为聚类中心,得到K个聚类中心对应的初始聚类簇,其中,K为文本的总数的算术平方根。
可以理解的是,可以从列表向量中随机选取K个列表向量作为聚类中心,也可以通过人工手动进行选择K个列表向量作为聚类中心,得到聚类中心后,根据聚类中心可以确定K个聚类中心对应的初始聚类簇,即具有K个初始聚类簇。K的计算方式公式为:
Figure BDA0003664347620000091
其中,N表示待推荐的文本列表中文本的总数,K表示聚类中心的个数,具体值为对N开算数平方根,因为K为正整数,所以为算数平方根。通过选取聚类中心能够得到初始聚类簇,方便后续计算得到收敛的聚类簇。
步骤S1422,计算所有列表向量到各个聚类中心的距离,得到距离值。
可以理解的是,可以利用欧式距离计算所有向量到聚类中心对应的列表向量的距离,也可以利用余弦计算各个列表向量之间的距离,通过距离计算,得到每个列表向量与各个聚类中心的距离值,示例性地,当具有N个列表向量,针对一个聚类中心而言,可能产生N个距离值。通过计算距离值有利于后续计算初始聚类簇。
需要说明的是,步骤S120对文本进行关键词提取得到了多级标签,在聚类过程中,根据一级标签能够确定文本的主题,能够将相同主题的列表向量先进行归类,计算各个主题之间的距离,进行初始划分,有利于后续使相同主题的文本划分在一个类中,然后再根据二级标签进行归类,进行分类细化,在一个主题类别中计算列表向量之间的距离,减少了跨主题的对应列表向量之间的计算,降低了时间复杂度。
步骤S1423,选取距离各个聚类中心最小的列表向量,将选取出的列表向量加入各个聚类中心对应的初始聚类簇中,计算各个初始聚类簇中所有列表向量的均值,得到各个初始聚类簇的聚类均值。
可以理解的是,根据步骤S1422得到的距离值,以各个聚类中心为中心,选取距离各个聚类中心最小的距离值,将选出的该距离值对应的列表向量加入初始聚类簇中,其中,在选取最小距离值时,可以将一个聚类中心对应的N个距离值进行升序排列,选取第一个向量列表加入即可;也可以将一个聚类中心对应的N个距离值进行降序排列,则选取最后一个向量列表加入。原始的聚类簇只有聚类中心对应的列表向量,当加入新的列表向量时,对初始聚类簇中包含的列表向量求均值,得到各个初始聚类簇的聚类均值,该聚类均值即为重新确定的聚类中心。通过上述对初始聚类簇中的所有列表向量求均值,能够更新各个初始聚类簇的聚类中心。
步骤S1424,根据聚类均值,重新计算距离值,选取距离各个聚类均值最小的列表向量,更新初始聚类簇,直到各个初始聚类簇收敛,将收敛的初始聚类簇作为聚类簇。
可以理解的是,根据步骤S1423得到聚类均值,以该聚类均值作为聚类中心重新计算各个列表向量到该聚类均值的距离,距离计算与步骤S1422类似,这里不作赘述。得到距离值后选取距离该聚类均值最小的列表向量,更新初始聚类,循环步骤S1423和步骤S1424,直到各个初始聚类簇收敛,或者各个聚类簇对应的聚类均值不再发生改变,则得到聚类簇。通过得到收敛后的聚类簇,能够利用该聚类簇对文本聚类,将相似的文本放入同一类中,方便后续去重处理。
在一些实施例中,在利用预设的人工智能模型对关键词列表进行特征提取处理,得到与各个关键词列表对应的聚类簇之后,参考图5,文本推荐方法还包括但不限于有以下步骤:
步骤S210,对K个聚类簇进行编号,得到聚类簇号。
可以理解的是,利用聚类算法层对列表向量进行聚类处理后,得到K个聚类簇,将这K个聚类簇进行编号,聚类簇号为1~K。通过对聚类簇进行编号,相当于为各个聚类簇构建了一个索引项,方便对聚类簇进行查询。
步骤S220,将关键词列表和与关键词列表对应的聚类簇号以键值对的方式进行存储,得到列表-簇号对。
可以理解的是,根据步骤S210得到聚类簇号,针对每一个聚类簇,可能包含有多个列表向量,为了实现快速查找,将列表向量对应的关键词列表与列表向量对应的簇类号以键值对的方式进行存储,能够根据存储形式快速得到各个关键词列表所属的聚类簇类别,方便进行查找。
步骤S230,根据聚类簇号,将相同聚类簇号对应的列表-簇号对存储于一个集合中。
可以理解的是,根据步骤S220得到列表-簇号对,该列表-簇号对中不同的列表向量可能存在于同一个簇中,因此,会存在列表对应的列表向量不同,簇号是相同的情况,将列表-簇号对存储于一个集合中,相当于对各个列表-簇号对进行了归类,能够加快在同一聚类簇中查找的速度,节省时间。
步骤S150,当各个聚类簇中存在多个关键词列表,从多个关键词列表对应的文本中随机选取一个文本,得到各个聚类簇对应的推荐文本。
可以理解的是,对于K个聚类簇中的一个聚类簇,该聚类簇中存在有多个关键词列表,这多个关键词列表具有相同的主题,即一级标签相同,也可能二级标签也相同,当二级标签相同时,关键词列表对应的文本具有较高的相似性,文本的大部分内容重复。针对上述情况,随机选择一个文本进行推荐即可,得到推荐文本,能够保证每个主题下只有一个文本被推荐,避免重复。
参考图6,文本推荐方法还包括但不限于有以下步骤:
步骤S310,当各个聚类簇中存在一个关键词列表,将关键词列表对应的文本作为推荐文本。
可以理解的是,当K个聚类簇中的一个聚类簇只存在一个关键词列表,表明在该聚类簇中无相似的文本,无需进行随机选取操作,直接推荐该文本即可,在一次推荐的文本中不会出现重复现象。
步骤S160,遍历各个聚类簇,由各个聚类簇对应的推荐文本构成文本推荐列表。
可以理解的是,根据步骤S150和步骤S310,得到每一个聚类簇的推荐文本项,具有K个聚类簇,遍历K个聚类簇,得到每一个聚类簇的推荐文本,将这些文本组成推荐列表进行推荐。得到的推荐的列表可以一次性推荐给用户,也可以进行分批推荐,按照预设的时间,对推荐列表中的部分文本进行推荐。示例性地,每隔2个小时,向用户推荐一个文本,该文本推荐后在推荐列表中删除,直到推荐列表中的文本推荐完,这样保证了推荐的文本主题不重复,增加用户新鲜感。
参考图7,本申请实施例提供了文本推荐装置100,该装置100通过文本获取模块110获取待推荐的文本列表,待推荐的文本列表包括多个文本;然后第一文本处理模块120利用预设的词袋模型对每一个文本进行特征提取,得到各个文本对应的多级标签,通过得到多级标签有利于后续提高聚类的准确度;第二文本处理模块130基于各个文本对应的多级标签,得到各个文本对应的关键词列表;随后特征处理模块140利用预设的人工智能模型对关键词列表进行特征提取处理,得到与各个关键词列表对应的聚类簇,将相似文本归为一个类中,有利于提高推荐文本的查找效率;第一处理模块150用于当各个聚类簇中存在多个关键词列表,从多个关键词列表对应的文本中随机选取一个文本,得到各个聚类簇对应的推荐文本,同一聚类簇内的文本相似,从一个聚类簇内随机选取一个文本,实现对推荐文本的去重;第二处理模块160用于遍历各个聚类簇,由各个聚类簇对应的推荐文本构成文本推荐列表,该文本推荐列表中的各个推荐文本内容不重复。本申请实施例能够对推荐的文本进行去重,提高推荐文本的查找效率,从而提高用户体验。
需要说明的是,文本推荐系统包含文本推荐装置100,文本推荐装置100中文本获取模块110与第一文本处理模块120连接,第一文本处理模块120与第二文本处理模块130连接,第二文本处理模块130与特征处理模块140连接,特征处理模块140与第一处理模块150连接,第一处理模块150与第而处理模块160连接。上述文本推荐方法作用于文本推荐装置100,该文本推荐装置100能够对推荐的文本进行去重,提高用户体验。
还需要说明的是,第一文本处理模块120是对文本处理,主要对文本进行关键词提取;第二文本处理模块130将提取的关键词转换成关键词列表;第一处理模块150和第二处理模块160皆为中央处理器,中央处理器一般由逻辑运算单元、控制单元和存储单元组成,利用中央处理器计算,节省了大量人力资源。
本申请实施例描述的实施例是为了更加清楚的说明本申请实施例的技术方案,并不构成对于本申请实施例提供的技术方案的限定,本领域技术人员可知,随着技术的演变和新应用场景的出现,本申请实施例提供的技术方案对于类似的技术问题,同样适用。
图8示出了本申请实施例提供的计算机设备500。该计算机设备500可以是服务器或者终端,该计算机设备500的内部结构包括但不限于:
存储器510,用于存储程序;
处理器520,用于执行存储器510存储的程序,当处理器520执行存储器510存储的程序时,处理器520用于执行上述的文本推荐方法。
处理器520和存储器510可以通过总线或者其他方式连接。
存储器510作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序以及非暂态性计算机可执行程序,如本申请任意实施例描述的文本推荐方法。处理器520通过运行存储在存储器510中的非暂态软件程序以及指令,从而实现上述的文本推荐方法。
存储器510可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储执行上述的文本推荐方法。此外,存储器510可以包括高速随机存取存储器,还可以包括非暂态存储器,比如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施方式中,存储器510可选包括相对于处理器520远程设置的存储器,这些远程存储器可以通过网络连接至该处理器520。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
实现上述的文本推荐方法所需的非暂态软件程序以及指令存储在存储器510中,当被一个或者多个处理器520执行时,执行本申请任意实施例提供的文本推荐方法。
本申请实施例还提供了一种计算机可读存储介质,存储有计算机可执行指令,计算机可执行指令用于执行上述的文本推荐方法。
在一实施例中,该存储介质存储有计算机可执行指令,该计算机可执行指令被一个或多个控制处理器520执行,比如,被上述计算机设备500中的一个处理器520执行,可使得上述一个或多个处理器520执行本申请任意实施例提供的文本推荐方法。
以上所描述的实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
本申请的说明书及上述附图中的术语“第一”、“第二”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
应当理解,在本申请中,“至少一个(项)”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,用于描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:只存在A,只存在B以及同时存在A和B三种情况,其中A,B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达,是指这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a,b或c中的至少一项(个),可以表示:a,b,c,“a和b”,“a和c”,“b和c”,或“a和b和c”,其中a,b,c可以是单个,也可以是多个。
本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、系统可以被实施为软件、固件、硬件及其适当的组合。某些物理组件或所有物理组件可以被实施为由处理器,如中央处理器、数字信号处理器或微处理器执行的软件,或者被实施为硬件,或者被实施为集成电路,如专用集成电路。这样的软件可以分布在计算机可读介质上,计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的,术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外,本领域普通技术人员公知的是,通信介质通常包括计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据,并且可包括任何信息递送介质。
以上是对本申请的较佳实施进行了具体说明,但本申请并不局限于上述实施方式,熟悉本领域的技术人员在不违背本本申请精神的共享条件下,还可作出种种等同的变形或替换,这些等同的变形或替换均包括在本申请权利要求所限定的范围内。

Claims (10)

1.一种文本推荐方法,其特征在于,所述方法包括:
获取待推荐的文本列表,所述待推荐的文本列表包括多个文本;
利用预设的词袋模型对每一个所述文本进行特征提取,得到各个所述文本对应的多级标签;
基于各个所述文本对应的多级标签,得到各个所述文本对应的关键词列表;
利用预设的人工智能模型对所述关键词列表进行特征提取处理,得到与各个所述关键词列表对应的聚类簇;
当各个聚类簇中存在多个所述关键词列表,从多个所述关键词列表对应的所述文本中随机选取一个所述文本,得到各个所述聚类簇对应的推荐文本;
遍历各个所述聚类簇,由各个所述聚类簇对应的所述推荐文本构成文本推荐列表。
2.根据权利要求1所述的方法,其特征在于,所述利用预设的词袋模型对每一个所述文本进行特征提取,得到各个所述文本对应的多级标签,包括:
确定每一个所述文本的主题,将所述文本的主题作为一级标签;
根据所述一级标签,利用所述词袋模型计算与所述一级标签关联的主题词汇,将所述主题词汇作为二级标签;
根据所述二级标签,利用所述词袋模型选取与所述二级标签对应的关键词,得到关键词标签;
由各个所述文本对应的所述一级标签、所述二级标签和所述关键词标签构成各个所述文本对应的所述多级标签。
3.根据权利要求1所述的方法,其特征在于,所述人工智能模型包括词向量映射层和聚类算法层;
所述利用预设的人工智能模型对是关键词列表进行特征提取处理,得到与各个所述关键词列表对应的聚类簇,包括:
利用所述词向量映射层对所述关键词列表进行特征提取,得到所述关键词列表对应的列表向量;
利用所述聚类算法层对所述列表向量进行聚类处理,得到与各个所述关键词列表对应的所述聚类簇。
4.根据权利要求3所述的方法,其特征在于,所述利用所述聚类算法层对所述列表向量进行聚类处理,得到与各个所述关键词列表对应的所述聚类簇,包括:
从所述列表向量中随机选取K个所述列表向量作为聚类中心,得到K个所述聚类中心对应的初始聚类簇,其中,K为所述文本的总数的算术平方根;
计算所有所述列表向量到各个所述聚类中心的距离,得到距离值;
选取距离各个所述聚类中心最小的所述列表向量,将选取出的所述列表向量加入各个所述聚类中心对应的所述初始聚类簇中,计算各个所述初始聚类簇中所有所述列表向量的均值,得到各个所述初始聚类簇的聚类均值;
根据所述聚类均值,重新计算所述距离值,选取距离各个所述聚类均值最小的所述列表向量,更新所述初始聚类簇,直到各个所述初始聚类簇收敛,将收敛的所述初始聚类簇作为所述聚类簇。
5.根据权利要求4所述的方法,其特征在于,在所述利用预设的人工智能模型对所述关键词列表进行特征提取处理,得到与各个所述关键词列表对应的聚类簇之后,所述方法还包括:
对K个所述聚类簇进行编号,得到聚类簇号;
将所述关键词列表和与所述关键词列表对应的所述聚类簇号以键值对的方式进行存储,得到列表-簇号对;
根据所述聚类簇号,将相同所述聚类簇号对应的所述列表-簇号对存储于一个集合中。
6.根据权利要求1所述的方法,其特征在于,在所述遍历各个所述聚类簇,由各个所述聚类簇对应的所述推荐文本构成文本推荐列表之前,所述方法还包括:当各个聚类簇中存在一个所述关键词列表,将所述关键词列表对应的所述文本作为所述推荐文本。
7.根据权利要求3所述的方法,其特征在于,所述利用所述词向量映射层对所述关键词列表进行特征提取,得到所述关键词列表对应的列表向量,包括:利用word2vec模型对所述关键词列表进行特征提取,得到所述关键词列表对应的列表向量。
8.一种文本推荐装置,其特征在于,包括:
文本获取模块,用于获取待推荐的文本列表,所述待推荐的文本列表包括多个文本;
第一文本处理模块,用于利用预设的词袋模型对每一个所述文本进行特征提取,得到各个所述文本对应的多级标签;
第二文本处理模块,用于基于各个所述文本对应的多级标签,得到各个所述文本对应的关键词列表;
特征处理模块,用于利用预设的人工智能模型对所述关键词列表进行特征提取处理,得到与各个所述关键词列表对应的聚类簇;
第一处理模块,用于当各个聚类簇中存在多个所述关键词列表,从多个所述关键词列表对应的所述文本中随机选取一个所述文本,得到各个所述聚类簇对应的推荐文本;
第二处理模块,用于遍历各个所述聚类簇,由各个所述聚类簇对应的所述推荐文本构成文本推荐列表。
9.一种计算机设备,其特征在于,所述计算机设备包括存储器和处理器,所述存储器中存储有计算机可读指令,所述计算机可读指令被一个或多个所述处理器执行时,使得一个或多个所述处理器执行如权利要求1至7中任一项所述方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述存储介质可被处理器读写,所述存储介质存储有计算机指令,所述计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行如权利要求1至7中任一项所述方法的步骤。
CN202210582087.2A 2022-05-26 2022-05-26 文本推荐方法、装置、计算机设备和存储介质 Pending CN114936278A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210582087.2A CN114936278A (zh) 2022-05-26 2022-05-26 文本推荐方法、装置、计算机设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210582087.2A CN114936278A (zh) 2022-05-26 2022-05-26 文本推荐方法、装置、计算机设备和存储介质

Publications (1)

Publication Number Publication Date
CN114936278A true CN114936278A (zh) 2022-08-23

Family

ID=82863819

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210582087.2A Pending CN114936278A (zh) 2022-05-26 2022-05-26 文本推荐方法、装置、计算机设备和存储介质

Country Status (1)

Country Link
CN (1) CN114936278A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115496066A (zh) * 2022-09-27 2022-12-20 航天信息股份有限公司 文本分析系统、方法、电子设备及存储介质
CN119848170A (zh) * 2025-03-17 2025-04-18 中信联合云科技有限责任公司 一种基于人工智能的图书数据结构的索引目录生成方法
CN120378400A (zh) * 2025-06-30 2025-07-25 中债金科信息技术有限公司 恶意域名样本的生成方法、装置和存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108287916A (zh) * 2018-02-11 2018-07-17 北京方正阿帕比技术有限公司 一种资源推荐方法
CN109918624A (zh) * 2019-03-18 2019-06-21 北京搜狗科技发展有限公司 一种网页文本相似度的计算方法和装置
CN110532479A (zh) * 2019-09-05 2019-12-03 北京思维造物信息科技股份有限公司 一种信息推荐方法、装置及设备
CN111353045A (zh) * 2020-03-18 2020-06-30 智者四海(北京)技术有限公司 构建文本分类体系的方法
CN112860626A (zh) * 2021-02-04 2021-05-28 北京百度网讯科技有限公司 一种文档排序方法、装置及电子设备

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108287916A (zh) * 2018-02-11 2018-07-17 北京方正阿帕比技术有限公司 一种资源推荐方法
CN109918624A (zh) * 2019-03-18 2019-06-21 北京搜狗科技发展有限公司 一种网页文本相似度的计算方法和装置
CN110532479A (zh) * 2019-09-05 2019-12-03 北京思维造物信息科技股份有限公司 一种信息推荐方法、装置及设备
CN111353045A (zh) * 2020-03-18 2020-06-30 智者四海(北京)技术有限公司 构建文本分类体系的方法
CN112860626A (zh) * 2021-02-04 2021-05-28 北京百度网讯科技有限公司 一种文档排序方法、装置及电子设备

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115496066A (zh) * 2022-09-27 2022-12-20 航天信息股份有限公司 文本分析系统、方法、电子设备及存储介质
CN119848170A (zh) * 2025-03-17 2025-04-18 中信联合云科技有限责任公司 一种基于人工智能的图书数据结构的索引目录生成方法
CN119848170B (zh) * 2025-03-17 2025-11-21 中信联合云科技有限责任公司 一种基于人工智能的图书数据结构的索引目录生成方法
CN120378400A (zh) * 2025-06-30 2025-07-25 中债金科信息技术有限公司 恶意域名样本的生成方法、装置和存储介质

Similar Documents

Publication Publication Date Title
US11126647B2 (en) System and method for hierarchically organizing documents based on document portions
US12158906B2 (en) Systems and methods for generating query responses
RU2678716C1 (ru) Использование автоэнкодеров для обучения классификаторов текстов на естественном языке
US10664662B2 (en) Multi-scale model for semantic matching
KR102092691B1 (ko) 웹페이지 트레이닝 방법 및 기기, 그리고 검색 의도 식별 방법 및 기기
US12511679B2 (en) User interface for chat-guided searches
WO2022095374A1 (zh) 关键词抽取方法、装置、终端设备及存储介质
US20230074771A1 (en) Hierarchical clustering on graphs for taxonomy extraction and applications thereof
US10482146B2 (en) Systems and methods for automatic customization of content filtering
CN110019668A (zh) 一种文本检索方法及装置
CN114936278A (zh) 文本推荐方法、装置、计算机设备和存储介质
CN116303904A (zh) 一种医学文献查找方法、系统、存储介质及终端
CN107506472B (zh) 一种学生浏览网页分类方法
CN108875065B (zh) 一种基于内容的印尼新闻网页推荐方法
Parwita et al. Classification of mobile application reviews using word embedding and convolutional neural network
US20240168999A1 (en) Hierarchical clustering on graphs for taxonomy extraction and applications thereof
CN115238039A (zh) 文本生成方法、电子设备及计算机可读存储介质
Zemlyanskiy et al. DOCENT: Learning self-supervised entity representations from large document collections
JP2017151588A (ja) 画像評価学習装置、画像評価装置、画像検索装置、画像評価学習方法、画像評価方法、画像検索方法、およびプログラム
Assegaff et al. Experimental of vectorizer and classifier for scrapped social media data
CN117130985A (zh) 检索方法、装置、设备、存储介质及计算机程序
CN110019670A (zh) 一种文本检索方法及装置
CN114117045B (zh) 从文本集中提取主题标签的方法、电子设备
CN112434174B (zh) 多媒体信息的发布账号的识别方法、装置、设备及介质
Sarkar Text Summarization

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination