CN111506727B - 文本内容类别获取方法、装置、计算机设备和存储介质 - Google Patents
文本内容类别获取方法、装置、计算机设备和存储介质 Download PDFInfo
- Publication number
- CN111506727B CN111506727B CN202010301372.3A CN202010301372A CN111506727B CN 111506727 B CN111506727 B CN 111506727B CN 202010301372 A CN202010301372 A CN 202010301372A CN 111506727 B CN111506727 B CN 111506727B
- Authority
- CN
- China
- Prior art keywords
- content category
- content
- word
- text data
- material selection
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请涉及一种文本内容类别获取方法、装置、计算机设备和存储介质。所述方法包括:获取新闻网站中热点新闻文本数据;对热点新闻文本数据进行分词,得到热点新闻文本数据的分词结果;将热点新闻文本数据的分词结果匹配预设的行业领域内各内容类别的目标特征词集合,根据匹配结果得到热点新闻文本数据与各内容类别的关联度;当存在相同的关联度时,查找相同的关联度对应的内容类别,得到待比对内容类别集合;获取待比对内容类别集合中各待比对内容类别的新闻选材指数,根据关联度和新闻选材指数,确定待编辑文本的内容类别。采用本方法能够提高确定待编辑文本的内容类别的准确率。
Description
技术领域
本申请涉及计算机技术领域,特别是涉及一种文本内容类别获取方法、装置、计算机设备和存储介质。
背景技术
随着计算机技术的发展,出现了文本推送技术,文本推送技术是指负责文本推送的人结合所负责的行业领域编辑文本并推送。在文本推送过程中,需要确定待编辑文本的内容类别。
传统技术中,确定待编辑文本的内容类别多采用人工选取的方式,即负责文本推送的人及时阅读各新闻网站的热点新闻,利用经验确定各新闻网站的热点新闻与所负责的行业领域中各内容类别之间的关联,根据关联关系确定待编辑文本的内容类别。例如,当热点新闻为与某一疾病相关时,负责医学领域的文本推送的人可以确定待编辑文本的内容类别为该疾病。
然而,目前的确定待编辑文本的内容类别的方式,由于需要人工每天阅读大量热点新闻,利用自己的经验来确定关联,过于依赖阅读者的个人经验,可能会无法关联到与热点新闻最相关的内容类别,从而导致无法准确确定待编辑文本的内容类别。
发明内容
基于此,有必要针对上述技术问题,提供一种准确的文本内容类别获取方法、装置、计算机设备和存储介质。
一种文本内容类别获取方法,所述方法包括:
获取新闻网站中热点新闻文本数据;
对热点新闻文本数据进行分词,得到热点新闻文本数据的分词结果;
将热点新闻文本数据的分词结果匹配预设的行业领域内各内容类别的目标特征词集合,根据匹配结果得到热点新闻文本数据与各内容类别的关联度;
当存在相同的关联度时,查找相同的关联度对应的内容类别,得到待比对内容类别集合;
获取待比对内容类别集合中各待比对内容类别的新闻选材指数,根据关联度和新闻选材指数,确定待编辑文本的内容类别。
一种文本内容类别获取装置,所述装置包括:
获取模块,用于获取新闻网站中热点新闻文本数据;
分词模块,用于对热点新闻文本数据进行分词,得到热点新闻文本数据的分词结果;
匹配模块,用于将热点新闻文本数据的分词结果匹配预设的行业领域内各内容类别的目标特征词集合,根据匹配结果得到热点新闻文本数据与各内容类别的关联度;
查找模块,用于当存在相同的关联度时,查找相同的关联度对应的内容类别,得到待比对内容类别集合;
处理模块,用于获取待比对内容类别集合中各待比对内容类别的新闻选材指数,根据关联度和新闻选材指数,确定待编辑文本的内容类别。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取新闻网站中热点新闻文本数据;
对热点新闻文本数据进行分词,得到热点新闻文本数据的分词结果;
将热点新闻文本数据的分词结果匹配预设的行业领域内各内容类别的目标特征词集合,根据匹配结果得到热点新闻文本数据与各内容类别的关联度;
当存在相同的关联度时,查找相同的关联度对应的内容类别,得到待比对内容类别集合;
获取待比对内容类别集合中各待比对内容类别的新闻选材指数,根据关联度和新闻选材指数,确定待编辑文本的内容类别。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取新闻网站中热点新闻文本数据;
对热点新闻文本数据进行分词,得到热点新闻文本数据的分词结果;
将热点新闻文本数据的分词结果匹配预设的行业领域内各内容类别的目标特征词集合,根据匹配结果得到热点新闻文本数据与各内容类别的关联度;
当存在相同的关联度时,查找相同的关联度对应的内容类别,得到待比对内容类别集合;
获取待比对内容类别集合中各待比对内容类别的新闻选材指数,根据关联度和新闻选材指数,确定待编辑文本的内容类别。
上述文本内容类别获取方法、装置、计算机设备和存储介质,获取新闻网站中热点新闻文本数据,对热点新闻文本数据进行分词,得到热点新闻文本数据的分词结果,将热点新闻文本数据的分词结果匹配预设的行业领域内各内容类别的目标特征词集合,根据匹配结果得到热点新闻文本数据与各内容类别的关联度,从而可以根据关联度来进行文本内容类别获取,当存在相同的关联度时,查找相同的关联度对应的内容类别,得到待比对内容类别集合,获取待比对内容类别集合中各待比对内容类别的新闻选材指数,根据关联度和新闻选材指数,确定待编辑文本的内容类别,整个过程,通过对热点新闻文本数据进行分词得到分词结果以及对分词结果进行匹配,能够从分词的角度对热点新闻文本数据进行分析,根据热点新闻文本数据中出现的词语确定其与各内容类别的关联度,实现热点新闻文本数据与各内容类别的准确关联,进而可以根据关联度和新闻选材指数确定待编辑文本的内容类别,实现对待编辑文本的内容类别的准确确定。
附图说明
图1为一个实施例中文本内容类别获取方法的流程示意图;
图2为另一个实施例中文本内容类别获取方法的流程示意图;
图3为一个实施例中文本内容类别获取方法的应用环境图;
图4为一个实施例中文本内容类别获取方法的示意图;
图5为一个实施例中文本内容类别获取装置的结构框图;
图6为一个实施例中文本内容类别获取装置的结构框图;
图7为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
在一个实施例中,如图1所示,提供了一种文本内容类别获取方法,本实施例以该方法应用于终端进行举例说明,可以理解的是,该方法也可以应用于服务器,还可以应用于包括终端和服务器的系统,并通过终端和服务器的交互实现。在本实施例中,该方法包括以下步骤:
步骤102,获取新闻网站中热点新闻文本数据。
其中,热点新闻文本数据是指新闻网站中热度高的报道文章。比如,热点新闻文本数据具体可以是在新闻网站中被投放在醒目位置的文章。又比如,热点新闻文本数据具体可以是在新闻网站中按热度排序的新闻列表中排名靠前的文章。
具体的,终端会利用爬虫技术定期获取新闻网站中热点新闻文本数据。举例说明,终端会利用爬虫技术每天从各新闻网站获取热点新闻文本数据。
步骤104,对热点新闻文本数据进行分词,得到热点新闻文本数据的分词结果。
其中,分词是指对热点新闻文本数据中的各句子进行拆分,将各句子拆分为多个词语的组合。热点新闻文本数据的分词结果是指在将热点新闻文本数据进行分词和筛选后,得到的与热点新闻文本数据对应的多个词语组成的集合,其中的筛选可以利用预设的停用词库进行,停用词是指在信息检索中,为节省存储空间和提高搜索效率,在处理自然语言数据(或文本)之前或之后会自动过滤掉的某些字或词。比如,停用词具体可以是我们、的、所以、到等等。
具体的,终端会调用分词工具对热点新闻文本数据进行分词,再根据预设的停用词库对分词后的多个词语的组合进行筛选,得到热点新闻文本数据的分词结果,在分词工具中有预先设置好的分词参数,分词工具会根据分词参数对热点新闻文本数据进行分词。其中,分词工具可以利用分词技术对热点新闻文本数据进行拆分。比如,分词工具具体可以通过利用jieba分词对热点新闻文本数据进行拆分。其中,分词参数具体可以是行业领域内不可分割的词语,通过在分词工具中预先设置不可分割的词语,能够使分词工具根据本行业领域的具体情况对句子进行拆分。比如,当行业领域为医学领域时,行业领域内不可分割的词语具体可以是指一些疾病名称以及疾病症状。举例说明,当行业领域为医学领域时,行业领域内不可分割的词语具体可以是抑郁症、避开人群、畏寒、乏力等。
步骤106,将热点新闻文本数据的分词结果匹配预设的行业领域内各内容类别的目标特征词集合,根据匹配结果得到热点新闻文本数据与各内容类别的关联度。
其中,行业领域是指与生产经营对应的领域。比如,行业领域具体可以是指医学领域。又比如,行业领域具体可以是指计算机软件领域。再比如,行业领域具体可以是指金融领域。行业领域内各内容类别是指可作为待编辑文本主题的内容。比如,在医学领域,各内容类别具体可以是指各种疾病名称。又比如,在计算机软件领域,各内容类别具体可以是指软件功能。再比如,在金融领域,各内容类别具体可以是各种投资方式,如股票、基金等。目标特征词集合是指可用于表征内容类别的词语集合。比如,当行业领域为医学领域时,目标特征词集合具体可以是指表征各种疾病的症状的词语的集合。关联度是指热点新闻文本数据与各内容类别的关联程度,关联度越高表示热点新闻文本数据与内容类别越相关。
具体的,终端会将热点新闻文本数据的分词结果,匹配预设的行业领域内各内容类别的目标特征词集合中各目标特征词,统计在热点新闻文本数据中出现的目标特征词,根据在热点新闻文本数据中出现的目标特征词,得到热点新闻文本数据与各内容类别的关联度。
步骤108,当存在相同的关联度时,查找相同的关联度对应的内容类别,得到待比对内容类别集合。
其中,待比对内容类别集合中包括多个待比对内容类别,待比对内容类别是指关联度相同的内容类别。比如,当存在两个内容类别与热点新闻文本数据的关联度相同时,待比对内容类别具体就是指这两个内容类别。又比如,当存在两组内容类别与热点新闻文本数据的关联度相同时,待比对内容类别具体就是指这两组内容类别中的各内容类别,其中各组内容类别的关联度不同。
具体的,当存在相同的关联度时,终端会查找相同的关联度对应的内容类别,将相同的关联度对应的内容类别作为待比对内容类别,得到待比对内容类别集合。
步骤110,获取待比对内容类别集合中各待比对内容类别的新闻选材指数,根据关联度和新闻选材指数,确定待编辑文本的内容类别。
其中,新闻选材指数用于表示各待比对内容类别的可运营程度,可结合与待比对内容类别对应的选材资料数量以及受众参数得到。历史资料是指与待比对内容类别对应的已公开的资料。比如,历史资料具体可以是已公开的新闻。又比如,历史资料具体可以是已公开的论文。受众参数是指受众范围。比如,受众参数具体可以是10岁-40岁。又比如,受众参数具体可以是25岁-30岁。
具体的,终端会通过各待比对内容类别对应的选材资料数量以及受众参数得到该待比对内容类别的新闻选材指数,再根据关联度和新闻选材指数,重新对各待比对内容类别进行排序,确定各待比对内容类别的先后顺序,结合根据关联度排序的排序结果、各待比对内容类别的先后顺序以及根据已获取到的热度指数得到的综合关联度,得到热点新闻文本数据与各内容类别的排序结果,根据热点新闻文本数据与各内容类别的排序结果,确定待编辑文本的内容类别。其中,热度指数用于表征热点新闻的受关注度,可以根据搜索平台等公布的热度数据获取。举例说明,搜索平台等会通过一个量化数值来表示各热点新闻的热度,并根据热度对热点新闻进行排序,这个量化数值就是热度指数。综合关联度是指结合关联度、待比对关联度、热度指数以及预设综合权值得到的计算结果,预设综合权值可按照需要自行设置。
上述文本内容类别获取方法,获取新闻网站中热点新闻文本数据,对热点新闻文本数据进行分词,得到热点新闻文本数据的分词结果,将热点新闻文本数据的分词结果匹配预设的行业领域内各内容类别的目标特征词集合,根据匹配结果得到热点新闻文本数据与各内容类别的关联度,从而可以根据关联度来进行文本内容类别获取,当存在相同的关联度时,查找相同的关联度对应的内容类别,得到待比对内容类别集合,获取待比对内容类别集合中各待比对内容类别的新闻选材指数,根据关联度和新闻选材指数,确定待编辑文本的内容类别,整个过程,通过对热点新闻文本数据进行分词得到分词结果以及对分词结果进行匹配,能够从分词的角度对热点新闻文本数据进行分析,根据热点新闻文本数据中出现的词语确定其与各内容类别的关联度,实现热点新闻文本数据与各内容类别的准确关联,进而可以根据关联度和新闻选材指数确定待编辑文本的内容类别,实现对待编辑文本的内容类别的准确确定。
在一个实施例中,将热点新闻文本数据的分词结果匹配预设的行业领域内各内容类别的目标特征词集合,根据匹配结果得到热点新闻文本数据与各内容类别的关联度包括:
将热点新闻文本数据的分词结果匹配预设的行业领域内各内容类别的目标特征词集合中各目标特征词,得到热点新闻文本数据中与各内容类别对应的命中特征词;
根据热点新闻文本数据中与各内容类别对应的命中特征词以及预设的各目标特征词的特征权重,得到热点新闻文本数据与各内容类别的关联度。
其中,目标特征词是指可用于表征内容类别的词语。比如,当行业领域为医学领域时,目标特征词具体可以是指表征各种疾病的症状的词语。命中特征词是指在热点新闻文本数据中出现的、各内容类别的目标特征词。特征权重用于表征各目标特征词与内容类别的关联程度,特征权重越大表示该目标特征词与内容类别越关联。比如,当行业领域为医学领域时,可用特征权重表征各种疾病的症状与疾病的关联程度。举例说明,不同疾病的症状可能有相似,例如感冒和普通肺炎都可能出现发烧、咳嗽这两种症状。那么,发烧和咳嗽这两个目标特征词与感冒和普通肺炎这两个内容类别都是有关联的,且是多对多的关系。感冒的主要确诊症状是发烧和咳嗽,而普通肺炎的主要确诊症状为肺部有阴影,发烧和咳嗽为其次要确诊症状,因此,发烧和咳嗽在与感冒关联时的特征权重会大于与普通肺炎关联时的特征权重,肺部有阴影在与普通肺炎关联时的特征权重会大于发烧和咳嗽与普通肺炎关联时的特征权重。
具体的,终端会将热点新闻文本数据的分词结果匹配预设的行业领域内各内容类别的目标特征词集合中各目标特征词,从热点新闻文本数据中得到与各内容类别对应的命中特征词,进而根据与各内容类别对应的命中特征词以及预设的各目标特征词的特征权重,确定与各内容类别对应的命中特征词的特征权重,根据与各内容类别对应的命中特征词的特征权重,计算得到热点新闻文本数据与各内容类别的关联度。其中,根据与各内容类别对应的命中特征词的特征权重,计算得到热点新闻文本数据与各内容类别的关联度包括:若存在与内容类别对应的某一命中特征词的特征权重为1时,可得到新闻热点文本与该内容类别的关联度为100%,若不存在与内容类别对应的某一命中特征词的特征权重为1时,可通过累加各命中特征词的特征权重,计算得到热点新闻文本数据与该内容类别的关联度。举例说明,当行业领域为医学领域时,若某一疾病的目标特征词试纸检测阳性的特征权重为1,且试纸检测阳性为热点新闻文本数据与该疾病对应的命中特征词时,可得到热点新闻文本数据与该疾病的关联度为100%。
本实施例中,通过将热点新闻文本数据的分词结果匹配预设的行业领域内各内容类别的目标特征词集合中各目标特征词,能够得到与各内容类别对应的命中特征词,进而根据命中特征词和各目标特征词的特征权重,能够得到热点新闻文本数据与各内容类别的关联度。
在一个实施例中,在将热点新闻文本数据的分词结果匹配预设的行业领域内各内容类别的目标特征词集合,根据匹配结果得到热点新闻文本数据与各内容类别的关联度之前,还包括:
获取携带类别标签的历史资料数据;
根据类别标签对历史资料数据进行分类,得到与各内容类别对应的历史资料集合;
对历史资料集合中各历史资料进行分词,得到与各内容类别对应的分词结果;
根据预设各内容类别的初始特征词集合对与各内容类别对应的分词结果进行筛选,得到与各内容类别对应的目标分词结果;
统计与各内容类别对应的目标分词结果中各词语出现的次数;
根据统计结果确定各内容类别的目标特征词集合以及目标特征词集合中各目标特征词的特征权重。
其中,历史资料数据是指行业领域内与各内容类别相关的资料数据。比如,当行业领域为医学领域时,历史资料数据具体可以是历史看诊数据。类别标签是指用于表征历史资料数据的类别的标签。比如,当行业领域为医学领域时,类别标签具体可以是用于表征各种疾病的类别标签。又比如,类别标签具体可以是数字标签,举例说明,如感冒的类别标签可以为1,普通肺炎的类别标签可以为2,类别标签的具体形式可按照需要自行设置。与各内容类别对应的历史资料集合是指与各内容类别对应的相关资料数据集合。比如,当行业领域为医学领域时,与各内容类别对应的历史资料集合具体可以是指与各疾病相关的历史看诊数据。预设各内容类别的初始特征词集合是指用于表征各内容类别的词语集合,通过初始特征词集合中各初始特征词可以全方位描述各内容类别。比如,预设各内容类别的初始特征词集合具体可以是人工标注的用于表征各内容类别的词语集合。又比如,当行业领域为医学领域时,初始特征词集合具体可以是用于表征各疾病的所有症状的词语的集合。与各内容类别对应的目标分词结果是指同时在初始特征词集合和与各内容类别对应的分词结果中出现的词语的集合,即根据初始特征词集合中各初始特征词得到的命中特征词。
具体的,终端会获取携带类别标签的历史资料数据,通过识别类比标签对历史资料数据进行分类,得到与各内容类别对应的历史资料集合,调用分词工具对历史资料集合中各历史资料进行分词,再根据预设的停用词库对分词后的多个词语的组合进行筛选,得到与各内容类别对应的分词结果,在分词工具中有预先设置好的分词参数,分词工具会根据分词参数对各历史资料进行分词。其中,分词工具可以利用分词技术对各历史资料进行拆分。比如,分词工具具体可以通过利用jieba分词对各历史资料进行拆分。其中,分词参数具体可以是行业领域内各内容类别的不可分割的词语,通过在分词工具中预先设置不可分割的词语,能够使分词工具根据本行业领域内各内容类别的具体情况对句子进行拆分。比如,当行业领域为医学领域时,行业领域内各内容类别的不可分割的词语具体可以是指一些描述疾病症状的词语。举例说明,当行业领域为医学领域时,行业领域内各内容类别的不可分割的词语具体可以是避开人群、畏寒、乏力等。
具体的,在得到与各内容类别对应的分词结果后,终端会通过将预设各内容类别的初始特征词集合匹配与各内容类别对应的分词结果的方式,对于各内容类别对应的分词结果进行筛选,从与各内容类别对应的分词结果中筛选出与初始特征词集合中各初始特征词对应的词语,得到与各内容类别对应的目标分词结果,统计与各内容类别对应的目标分词结果中各词语在与内容类别对应的历史资料集合中出现的次数,根据统计结果对目标分词结果中各词语进行排序,根据预设特征词数从目标分词结果的各词语中筛选出各内容类别的目标特征词,得到目标特征词集合,并根据目标特征词集合中各目标特征词在与内容类别对应的历史资料集合中的覆盖率,得到各目标特征词的特征权重。其中,预设特征词数可按照需要自行设置。
举例说明,当行业领域为医学领域时,终端会获取携带类别标签的历史看诊数据,根据类别标签对历史看诊数据进行分类,得到与各疾病相关的历史看诊数据,调用分词工具对与各疾病相关的历史看诊数据进行分词,并根据预设的停用词库对分词后的多个词语的组合进行筛选,得到与各疾病对应的分词结果,其中在分词工具中预设设置好了各疾病的不可分割的用于描述症状的词语。在得到与各疾病对应的分词结果后,终端会根据预设用于表征各疾病的所有症状的集合对与各疾病对应的分词结果进行筛选,得到与各疾病对应的目标分词结果,统计与各疾病对应的目标分词结果中各用于描述症状的词语出现的次数,根据统计结果确定各疾病的目标特征词集合以及目标特征词集合中各目标特征词的特征权重。
本实施例中,通过对携带类别标签的历史资料数据进行分类,得到历史资料集合,对历史资料集合中各历史资料进行分词,得到分词结果,对分词结果进行筛选得到目标分词结果,统计与各内容类别对应的目标分词结果中各词语出现的次数,能够根据统计结果实现对各内容类别的目标特征词集合以及目标特征词集合中各目标特征词的特征权重的确定。
在一个实施例中,根据统计结果确定各内容类别的目标特征词集合以及目标特征词集合中各目标特征词的特征权重包括:
根据目标分词结果中各词语出现的次数对各词语进行排序,根据排序结果和预设特征词数,得到各内容类别的目标特征词集合;
统计目标特征词集合中各目标特征词在与内容类别对应的历史资料集合中的覆盖率;
根据覆盖率,计算各目标特征词的特征权重。
其中,预设特征词数是指预先设置的特征词数量,可按照需要自行设置。各目标特征词在与内容类别对应的历史资料集合中的覆盖率是指各目标特征词在历史资料集合中各历史资料中出现的概率。比如,当历史资料集合的历史资料总数为m,某一目标特征词在其中的n篇历史资料中出现时,可得到该目标特征词的覆盖率为
具体的,终端会根据目标分词结果中各词语出现的次数对各词语进行升序排序或者降序排序,根据排序结果和预设特征词数,从目标分词结果中选取出现次数最多的N个词语,作为目标特征词集合,其中N为预设特征词数。在得到各内容类别的目标特征词集合后,终端会通过匹配目标特征词的方式,确定各目标特征词是否在历史资料集合中各历史资料中出现,通过统计各目标特征词的出现次数计算得到各目标特征词在与内容类别对应的历史资料集合中的覆盖率,根据覆盖率,计算各目标特征词的特征权重。其中,根据覆盖率,计算各目标特征词的特征权重包括:若存在任意目标特征词的覆盖率为100%时,确定该目标特征词的特征权重为1,若不存在目标特征词的覆盖率为100%时,根据各目标特征词的覆盖率占各目标特征词的总覆盖率的比例,计算各目标特征词的特征权重。
本实施例中,通过根据目标分词结果中各词语出现的次数对各词语进行排序,根据排序结果和预设特征词数,得到各内容类别的目标特征词集合,统计目标特征词集合中各目标特征词在与内容类别对应的历史资料集合中的覆盖率,根据覆盖率,计算各目标特征词的特征权重,能够实现对各内容类别的目标特征词集合以及目标特征词集合中各目标特征词的特征权重确定。
在一个实施例中,在根据匹配结果得到热点新闻文本数据与各内容类别的关联度之后,还包括:
当关联度均不相同时,获取热点新闻文本数据的热度指数,根据热度指数以及关联度对各内容类别进行排序;
根据预设新闻选材数和排序结果,确定待编辑文本的内容类别。
其中,预设新闻选材数是指预先设定的要选取的内容类别数量,可按照需要自行设置。
具体的,当热点新闻文本数据与各内容类别的关联度均不相同时,终端会获取热点新闻文本数据的热度指数,根据热度指数以及关联度对热点新闻文本数据与各内容类别的关联程度进行排序,根据预设新闻选材数和排序结果确定待编辑文本的内容类别。比如,终端可根据热度指数、关联度以及预设综合权重计算综合关联度,根据综合关联度对热点新闻文本数据与各内容类别的关联程度进行降序排序,将关联度最高的内容类别排在最前面,根据预设新闻选材数,确定待编辑文本的内容类别,其中,当存在任意两个内容类别的综合关联度相同时,会参考关联度对相同综合关联度的内容类别再次排序,关联度大的优先级高于关联度小的。举例说明,当预设新闻选材数为N时,终端会根据排序结果从中选取关联度最高的N个内容类别作为待编辑文本的内容类别,预设综合权重可按照需要自行设置。
本实施例中,通过当关联度均不相同时,热度指数以及根据关联度对各内容类别进行排序,根据预设新闻选材数和排序结果,确定待编辑文本的内容类别,能够实现对待编辑文本的内容类别的确定。
在一个实施例中,获取待比对内容类别集合中各待比对内容类别的新闻选材指数包括:
获取与各内容类别对应的选材资料数量以及受众参数;
根据与各内容类别对应的选材资料数量,计算选材资料总数量;
根据受众参数、选材资料总数量和与各待比对内容类别对应的选材资料数量,得到各待比对内容类别的新闻选材指数。
其中,选材资料数量是指与各内容类别对应的可参考资料数量。比如,选材资料数量具体可以是已发表的与各内容类别对应的论文数量。又比如,选材资料数量具体可以是已发布的与各内容类别对应的新闻数量。再比如,选材资料数量具体可以是已发表的与各内容类别对应的论文数量和已发布的与各内容类别对应的新闻数量的累加值。选材资料总数量是指与各内容类别对应的选材资料数量的总和。新闻选材指数用于表示各待比对内容类别的可运营程度,可结合与待比对内容类别对应的选材资料数量得到。比如,新闻选材指数具体可以是指选材资料数量与选材资料总数量的比值。受众参数是指受众范围。比如,受众参数具体可以是10岁-40岁。又比如,受众参数具体可以是25岁-30岁。举例说明,当行业领域为医学领域时,受众参数具体可以是指历史看诊数据中的病人年龄范围。
具体的,终端可通过查询预设的数据库表获取与各内容类别对应的选材资料数量,在预设的数据库表中存储了各内容类别与选材资料数量的对应关系,预设的数据库表中存储的各内容类别与选材资料数量的对应关系可由人工统计得到,统计人员会通过查阅各论文网站以及各新闻网站等统计与各内容类别对应的选材资料数量。终端同时会通过查询预设的数据库表获取与各内容类别对应的受众参数,在预设的数据库表中存储了各内容类别与受众参数的对应关系,预设的数据库表中存储的各内容类别与受众参数的对应关系可由人工统计得到,统计人员会通过查阅携带类别标签的历史资料数据等方式得到受众参数,在本实施例中并不限定得到受众参数的方式。在得到与各内容类别对应的选材资料数量后,终端会根据与各内容类别对应的选材资料数量,计算选材资料总数量,根据选材资料总数量,计算各待比对内容类别对应的选材资料数量与选材资料总数量的比值,根据比值以及受众参数得到各待比对内容类别的新闻选材指数。
具体的,根据比值以及受众参数得到各待比对内容类别的新闻选材指数的方式可以为:根据预设的权重因子、比值以及受众参数计算得到各待比对内容类别的新闻选材指数,预设的权重因子可按照需要自行设置。
本实施例中,通过获取与各内容类别对应的选材资料数量以及受众参数,根据与各内容类别对应的选材资料数量,计算选材资料总数量,根据受众参数、选材资料总数量和与各待比对内容类别对应的选材资料数量,得到各待比对内容类别的新闻选材指数,能够实现对各待比对内容类别的新闻选材指数的获取。
在一个实施例中,根据关联度和新闻选材指数,确定待编辑文本的内容类别包括:
根据关联度、新闻选材指数以及预设的选材权重因子,确定各待比对内容类别的待比对关联度,并获取热点新闻文本数据的热度指数;
根据关联度、待比对关联度以及热度指数对各内容类别进行排序;
根据预设新闻选材数和排序结果,确定待编辑文本的内容类别。
其中,预设的选材权重因子是指用于表征关联度和新闻选材指数的权重的参数,可按照需要自行设置。待比对关联度是指结合关联度、新闻选材指数以及预设的选材权重因子,计算得到的用于比对的关联度。其中,热度指数用于表征热点新闻的受关注度,可以根据搜索平台等公布的热度数据获取。举例说明,搜索平台等会通过一个量化数值来表示各热点新闻的热度,并根据热度对热点新闻进行排序,这个量化数值就是热度指数。
具体的,终端会根据关联度、新闻选材指数以及预设的选材权重因子,计算各待比对内容类别的待比对关联度,并从搜索平台等公布的热度数据中获取与热点新闻文本数据对应的热度指数,根据关联度、待比对关联度以及热度指数对各内容类别进行排序,根据预设新闻选材数和排序结果,确定待编辑文本的内容类别。其中,根据关联度、待比对关联度以及热度指数对各内容类别进行排序的方式可以为:首先根据关联度对各内容类别进行第一次排序,得到第一排序结果,再根据待比对关联度对关联度相同的各待比对内容类别进行第二次排序,综合第一排序结果和第二次排序得到第二排序结果,最后根据热度指数、预设综合权重以及第二排序结果得到各内容类别的综合关联度,根据综合关联度对各内容类别进行第三次排序,得到第三排序结果。其中,预设综合权重可按照需要自行设置,当存在任意两个内容类别的综合关联度相同时,会参考关联度和待比对关联度对相同综合关联度的内容类别再次排序,关联度的优先级高于待比对关联度,关联度大的内容类别优先级会高于关联度小的,待比对关联度大的优先级会高于待比对关联度小的。
本实施例中,通过根据关联度、新闻选材指数以及预设的选材权重因子,确定各待比对内容类别的待比对关联度,根据关联度、待比对关联度以及热度指数对各内容类别进行排序,根据预设新闻选材数和排序结果,确定待编辑文本的内容类别,能够实现对待编辑文本的内容类别的确定。
在一个实施例中,如图2所示,通过一个最详细的实施例对本申请的文本内容类别获取方法进行说明,该实施例包括以下步骤:
步骤202,获取新闻网站中热点新闻文本数据;
步骤204,对热点新闻文本数据进行分词,得到热点新闻文本数据的分词结果;
步骤206,获取携带类别标签的历史资料数据;
步骤208,根据类别标签对历史资料数据进行分类,得到与各内容类别对应的历史资料集合;
步骤210,对历史资料集合中各历史资料进行分词,得到与各内容类别对应的分词结果;
步骤212,根据预设各内容类别的初始特征词集合对与各内容类别对应的分词结果进行筛选,得到与各内容类别对应的目标分词结果;
步骤214,统计与各内容类别对应的目标分词结果中各词语出现的次数;
步骤216,根据目标分词结果中各词语出现的次数对各词语进行排序,根据排序结果和预设特征词数,得到各内容类别的目标特征词集合;
步骤218,统计目标特征词集合中各目标特征词在与内容类别对应的历史资料集合中的覆盖率;
步骤220,根据覆盖率,计算各目标特征词的特征权重;
步骤222,将热点新闻文本数据的分词结果匹配预设的行业领域内各内容类别的目标特征词集合中各目标特征词,得到热点新闻文本数据中与各内容类别对应的命中特征词;
步骤224,根据热点新闻文本数据中与各内容类别对应的命中特征词以及预设的各目标特征词的特征权重,得到热点新闻文本数据与各内容类别的关联度;
步骤226,判断热点新闻文本数据与各内容类别的关联度中是否存在相同的关联度,当判断结果为是时,跳转至步骤232,当判断结果为否时,跳转至步骤228;
步骤228,获取热点新闻文本数据的热度指数,根据关联度以及热度指数对各内容类别进行排序;
步骤230,根据预设新闻选材数和排序结果,确定待编辑文本的内容类别;
步骤232,查找相同的关联度对应的内容类别,得到待比对内容类别集合;
步骤234,获取与各内容类别对应的选材资料数量以及受众参数;
步骤236,根据与各内容类别对应的选材资料数量,计算选材资料总数量;
步骤238,根据受众参数、选材资料总数量和与待比对内容类别集合中各待比对内容类别对应的选材资料数量,得到各待比对内容类别的新闻选材指数;
步骤240,根据关联度、新闻选材指数以及预设的选材权重因子,确定各待比对内容类别的待比对关联度,并获取热点新闻文本数据的热度指数;
步骤242,根据关联度、待比对关联度以及热度指数对各内容类别进行排序;
步骤244,根据预设新闻选材数和排序结果,确定待编辑文本的内容类别。
本申请还提供一种应用场景,该应用场景应用上述的文本内容类别获取方法。具体地,该文本内容类别获取方法在该应用场景的应用如下:
在进行内容运营时,可以通过文本内容类别获取方法实现用于内容运营的待编辑运营文本的内容类别的确定。如图3所示,终端首先通过获取携带类别标签的历史资料数据,根据类别标签对历史资料数据进行分类,得到与各可运营的内容类别对应的历史资料集合,对历史资料集合中各历史资料进行分词,得到与各可运营的内容类别对应的分词结果,根据预设各可运营的内容类别的初始特征词集合对与各可运营的内容类别对应的分词结果进行筛选,得到与各可运营的内容类别对应的目标分词结果,统计与各可运营的内容类别对应的目标分词结果中各词语出现的次数,根据目标分词结果中各词语出现的次数对各词语进行排序,根据排序结果和预设特征词数,得到各可运营的内容类别的目标特征词集合,统计目标特征词集合中各目标特征词在与内容类别对应的历史资料集合中的覆盖率,根据覆盖率,计算各目标特征词的特征权重,实现对可运营的内容类别及词库的构建。
在构建可运营的内容类别及词库之后,终端通过获取新闻网站中热点新闻文本数据,实现定期爬取热点新闻,并通过对热点新闻文本数据进行分词,得到热点新闻文本数据的分词结果,将热点新闻文本数据的分词结果匹配行业领域内各可运营的内容类别的目标特征词集合中各目标特征词,得到热点新闻文本数据中与各可运营的内容类别对应的命中特征词,根据热点新闻文本数据中与各可运营的内容类别对应的命中特征词以及预设的各目标特征词的特征权重,得到热点新闻文本数据与各可运营的内容类别的关联度。
在得到热点新闻文本数据与各可运营的内容类别的关联度之后,终端通过比对关联度实现可视化展示各热点新闻与内容类别之间的关联程度。当关联度均不相同时,获取热点新闻文本数据的热度指数,根据关联度以及热度指数对各可运营的内容类别进行排序并在终端展示(如图4所示,其中关联度用关联度得分表示,关联词是指命中特征词),根据预设新闻选材数和排序结果,确定用于内容运营的待编辑运营文本的内容类别,当存在相同的关联度时,查找相同的关联度对应的内容类别,得到待比对内容类别集合,获取与各可运营的内容类别对应的选材资料数量以及受众参数,根据与各可运营的内容类别对应的选材资料数量,计算选材资料总数量,根据受众参数、选材资料总数量和与待比对内容类别集合中各待比对内容类别对应的选材资料数量,得到各待比对内容类别的新闻选材指数,根据关联度、新闻选材指数以及预设的选材权重因子,确定各待比对内容类别的待比对关联度,并获取热点新闻文本数据的热度指数,根据关联度、待比对关联度以及热度指数对各可运营的内容类别进行排序并在终端展示(如图4所示,其中关联度用关联度得分表示,关联词是指命中特征词),根据预设新闻选材数和排序结果,确定用于内容运营的待编辑运营文本的内容类别。
在确定内容运营的待编辑运营文本的内容类别后,负责文本推送的人会结合所负责的行业领域和该内容类别编辑运营文本,得到待推送运营文章,将待推送运营文章推送给用户,实现对与热点新闻文本数据相关的运营文章的精准推送。
应该理解的是,虽然图1-2的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图1-2中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图5所示,提供了一种文本内容类别获取装置,该装置可以采用软件模块或硬件模块,或者是二者的结合成为计算机设备的一部分,该装置具体包括:获取模块502、分词模块504、匹配模块506、查找模块508和处理模块510,其中:
获取模块502,用于获取新闻网站中热点新闻文本数据;
分词模块504,用于对热点新闻文本数据进行分词,得到热点新闻文本数据的分词结果;
匹配模块506,用于将热点新闻文本数据的分词结果匹配预设的行业领域内各内容类别的目标特征词集合,根据匹配结果得到热点新闻文本数据与各内容类别的关联度;
查找模块508,用于当存在相同的关联度时,查找相同的关联度对应的内容类别,得到待比对内容类别集合;
处理模块510,用于获取待比对内容类别集合中各待比对内容类别的新闻选材指数,根据关联度和新闻选材指数,确定待编辑文本的内容类别。
上述文本内容类别获取装置,获取新闻网站中热点新闻文本数据,对热点新闻文本数据进行分词,得到热点新闻文本数据的分词结果,将热点新闻文本数据的分词结果匹配预设的行业领域内各内容类别的目标特征词集合,根据匹配结果得到热点新闻文本数据与各内容类别的关联度,从而可以根据关联度来进行文本内容类别获取,当存在相同的关联度时,查找相同的关联度对应的内容类别,得到待比对内容类别集合,获取待比对内容类别集合中各待比对内容类别的新闻选材指数,根据关联度和新闻选材指数,确定待编辑文本的内容类别,整个过程,通过对热点新闻文本数据进行分词得到分词结果以及对分词结果进行匹配,能够从分词的角度对热点新闻文本数据进行分析,根据热点新闻文本数据中出现的词语确定其与各内容类别的关联度,实现热点新闻文本数据与各内容类别的准确关联,进而可以根据关联度和新闻选材指数确定待编辑文本的内容类别,实现对待编辑文本的内容类别的准确确定。
在一个实施例中,匹配模块包括:
匹配单元,用于将热点新闻文本数据的分词结果匹配预设的行业领域内各内容类别的目标特征词集合中各目标特征词,得到热点新闻文本数据中与各内容类别对应的命中特征词;
关联度计算单元,用于根据热点新闻文本数据中与各内容类别对应的命中特征词以及预设的各目标特征词的特征权重,得到热点新闻文本数据与各内容类别的关联度。
在一个实施例中,文本内容类别获取装置还包括词库构建模块,词库构建模块用于获取携带类别标签的历史资料数据,根据类别标签对历史资料数据进行分类,得到与各内容类别对应的历史资料集合,对历史资料集合中各历史资料进行分词,得到与各内容类别对应的分词结果,根据预设各内容类别的初始特征词集合对与各内容类别对应的分词结果进行筛选,得到与各内容类别对应的目标分词结果,统计与各内容类别对应的目标分词结果中各词语出现的次数,根据统计结果确定各内容类别的目标特征词集合以及目标特征词集合中各目标特征词的特征权重。
在一个实施例中,词库构建模块还包括:
特征词选取单元,用于根据目标分词结果中各词语出现的次数对各词语进行排序,根据排序结果和预设特征词数,得到各内容类别的目标特征词集合;
统计单元,用于统计目标特征词集合中各目标特征词在与内容类别对应的历史资料集合中的覆盖率;
权重计算单元,用于根据覆盖率,计算各目标特征词的特征权重。
在一个实施例中,文本内容类别获取装置还包括比对模块,比对模块包括:
第一排序单元,用于当关联度均不相同时,获取热点新闻文本数据的热度指数,根据热度指数以及关联度对各内容类别进行排序;
第一选材单元,用于根据预设新闻选材数和排序结果,确定待编辑文本的内容类别。
在一个实施例中,处理模块包括:
资料获取单元,用于获取与各内容类别对应的选材资料数量以及受众参数;
资料总数量计算单元,用于根据与各内容类别对应的选材资料数量,计算选材资料总数量;
新闻选材指数计算单元,用于根据受众参数、选材资料总数量和与各待比对内容类别对应的选材资料数量,得到各待比对内容类别的新闻选材指数。
在一个实施例中,处理模块包括:
待比对关联度计算单元,用于根据关联度、新闻选材指数以及预设的选材权重因子,确定各待比对内容类别的待比对关联度,并获取热点新闻文本数据的热度指数;
第二排序单元,用于根据关联度、待比对关联度以及热度指数对各内容类别进行排序;
第二选材单元,用于根据预设新闻选材数和排序结果,确定待编辑文本的内容类别。
在一个实施例中,如图6所示,提供了一种文本内容类别获取装置,该装置可以采用软件模块或硬件模块,或者是二者的结合成为计算机设备的一部分,该装置具体包括:词库模块、获取新闻热点模块、分词模块、指数化模块、展示模块,其中:
词库模块,用于获取携带类别标签的历史资料数据,根据类别标签对历史资料数据进行分类,得到与各内容类别对应的历史资料集合,对历史资料集合中各历史资料进行分词,得到与各内容类别对应的分词结果,根据预设各内容类别的初始特征词集合对与各内容类别对应的分词结果进行筛选,得到与各内容类别对应的目标分词结果,统计与各内容类别对应的目标分词结果中各词语出现的次数,根据目标分词结果中各词语出现的次数对各词语进行排序,根据排序结果和预设特征词数,得到各内容类别的目标特征词集合,统计目标特征词集合中各目标特征词在与内容类别对应的历史资料集合中的覆盖率,根据覆盖率,计算各目标特征词的特征权重;
获取新闻热点模块,用于获取新闻网站中热点新闻文本数据;
分词模块,用于对热点新闻文本数据进行分词,得到热点新闻文本数据的分词结果;
指数化模块,用于将热点新闻文本数据的分词结果匹配行业领域内各内容类别的目标特征词集合中各目标特征词,得到热点新闻文本数据中与各内容类别对应的命中特征词,根据热点新闻文本数据中与各内容类别对应的命中特征词以及预设的各目标特征词的特征权重,得到热点新闻文本数据与各内容类别的关联度,当关联度均不相同时,获取热点新闻文本数据的热度指数,根据热度指数以及关联度对各内容类别进行排序,根据预设新闻选材数和排序结果,确定待编辑文本的内容类别,当存在相同的关联度时,查找相同的关联度对应的内容类别,得到待比对内容类别集合,获取与各内容类别对应的选材资料数量以及受众参数,根据与各内容类别对应的选材资料数量,计算选材资料总数量,根据受众参数、选材资料总数量和与待比对内容类别集合中各待比对内容类别对应的选材资料数量,得到各待比对内容类别的新闻选材指数,根据关联度、新闻选材指数以及预设的选材权重因子,确定各待比对内容类别的待比对关联度,并获取热点新闻文本数据的热度指数,根据关联度、待比对关联度以及热度指数对各内容类别进行排序,根据预设新闻选材数和排序结果,确定待编辑文本的内容类别;
展示模块,用于展示对各内容类别进行排序的排序结果。
关于文本内容类别获取装置的具体限定可以参见上文中对于文本内容类别获取方法的限定,在此不再赘述。上述文本内容类别获取装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图7所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过WIFI、运营商网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种文本内容类别获取方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图7中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,还提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机可读存储介质,存储有计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory,ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic Random Access Memory,DRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (12)
1.一种文本内容类别获取方法,所述方法包括:
获取新闻网站中热点新闻文本数据;
对所述热点新闻文本数据进行分词,得到热点新闻文本数据的分词结果;
将所述热点新闻文本数据的分词结果匹配预设的行业领域内各内容类别的目标特征词集合,根据匹配结果得到所述热点新闻文本数据与各内容类别的关联度;
当存在相同的关联度时,查找所述相同的关联度对应的内容类别,得到待比对内容类别集合;
获取与所述待比对内容类别集合中各内容类别对应的选材资料数量以及受众参数,根据所述选材资料数量以及所述受众参数,得到所述待比对内容类别集合中各待比对内容类别的新闻选材指数,根据所述关联度、所述新闻选材指数以及预设的选材权重因子,确定各待比对内容类别的待比对关联度,并获取所述热点新闻文本数据的热度指数,根据所述关联度、所述待比对关联度以及所述热度指数对各内容类别进行排序,根据预设新闻选材数和排序结果,确定待编辑文本的内容类别;所述预设新闻选材数是指预先设定的要选取的内容类别数量;
当所述关联度均不相同时,根据所述热度指数以及所述关联度对各内容类别进行排序,根据预设新闻选材数和排序结果,确定待编辑文本的内容类别。
2.根据权利要求1所述的方法,其特征在于,所述将所述热点新闻文本数据的分词结果匹配预设的行业领域内各内容类别的目标特征词集合,根据匹配结果得到所述热点新闻文本数据与各内容类别的关联度包括:
将所述热点新闻文本数据的分词结果匹配预设的行业领域内各内容类别的目标特征词集合中各目标特征词,得到所述热点新闻文本数据中与各内容类别对应的命中特征词;
根据所述热点新闻文本数据中与各内容类别对应的命中特征词以及预设的各目标特征词的特征权重,得到所述热点新闻文本数据与各内容类别的关联度。
3.根据权利要求1所述的方法,其特征在于,在所述将所述热点新闻文本数据的分词结果匹配预设的行业领域内各内容类别的目标特征词集合,根据匹配结果得到所述热点新闻文本数据与各内容类别的关联度之前,还包括:
获取携带类别标签的历史资料数据;
根据所述类别标签对所述历史资料数据进行分类,得到与各内容类别对应的历史资料集合;
对所述历史资料集合中各历史资料进行分词,得到与各内容类别对应的分词结果;
根据预设各内容类别的初始特征词集合对所述与各内容类别对应的分词结果进行筛选,得到与各内容类别对应的目标分词结果;
统计所述与各内容类别对应的目标分词结果中各词语出现的次数;
根据统计结果确定各内容类别的目标特征词集合以及所述目标特征词集合中各目标特征词的特征权重。
4.根据权利要求3所述的方法,其特征在于,所述根据统计结果确定各内容类别的目标特征词集合以及所述目标特征词集合中各目标特征词的特征权重包括:
根据所述目标分词结果中各词语出现的次数对各词语进行排序,根据排序结果和预设特征词数,得到各内容类别的目标特征词集合;
统计所述目标特征词集合中各目标特征词在与内容类别对应的历史资料集合中的覆盖率;
根据所述覆盖率,计算各目标特征词的特征权重。
5.根据权利要求1所述的方法,其特征在于,所述根据所述选材资料数量以及所述受众参数,得到所述待比对内容类别集合中各待比对内容类别的新闻选材指数包括:
根据所述选材资料数量,计算选材资料总数量;
根据所述受众参数、所述选材资料总数量和所述选材资料数量,得到各待比对内容类别的新闻选材指数。
6.一种文本内容类别获取装置,其特征在于,所述装置包括:
获取模块,用于获取新闻网站中热点新闻文本数据;
分词模块,用于对所述热点新闻文本数据进行分词,得到热点新闻文本数据的分词结果;
匹配模块,用于将所述热点新闻文本数据的分词结果匹配预设的行业领域内各内容类别的目标特征词集合,根据匹配结果得到所述热点新闻文本数据与各内容类别的关联度;
查找模块,用于当存在相同的关联度时,查找所述相同的关联度对应的内容类别,得到待比对内容类别集合;
处理模块,用于获取与所述待比对内容类别集合中各内容类别对应的选材资料数量以及受众参数,根据所述选材资料数量以及所述受众参数,得到所述待比对内容类别集合中各待比对内容类别的新闻选材指数,根据所述关联度、所述新闻选材指数以及预设的选材权重因子,确定各待比对内容类别的待比对关联度,并获取所述热点新闻文本数据的热度指数,根据所述关联度、所述待比对关联度以及所述热度指数对各内容类别进行排序,根据预设新闻选材数和排序结果,确定待编辑文本的内容类别;所述预设新闻选材数是指预先设定的要选取的内容类别数量;
比对模块,用于当所述关联度均不相同时,根据所述热度指数以及所述关联度对各内容类别进行排序,根据预设新闻选材数和排序结果,确定待编辑文本的内容类别。
7.根据权利要求6所述的装置,其特征在于,所述匹配模块包括:
匹配单元,用于将所述热点新闻文本数据的分词结果匹配预设的行业领域内各内容类别的目标特征词集合中各目标特征词,得到所述热点新闻文本数据中与各内容类别对应的命中特征词;
关联度计算单元,用于根据所述热点新闻文本数据中与各内容类别对应的命中特征词以及预设的各目标特征词的特征权重,得到所述热点新闻文本数据与各内容类别的关联度。
8.根据权利要求6所述的装置,其特征在于,还包括词库构建模块,词库构建模块用于获取携带类别标签的历史资料数据,根据所述类别标签对所述历史资料数据进行分类,得到与各内容类别对应的历史资料集合,对所述历史资料集合中各历史资料进行分词,得到与各内容类别对应的分词结果,根据预设各内容类别的初始特征词集合对所述与各内容类别对应的分词结果进行筛选,得到与各内容类别对应的目标分词结果,统计所述与各内容类别对应的目标分词结果中各词语出现的次数,根据统计结果确定各内容类别的目标特征词集合以及所述目标特征词集合中各目标特征词的特征权重。
9.根据权利要求8所述的装置,其特征在于,所述词库构建模块还包括:
特征词选取单元,用于根据所述目标分词结果中各词语出现的次数对各词语进行排序,根据排序结果和预设特征词数,得到各内容类别的目标特征词集合;
统计单元,用于统计所述目标特征词集合中各目标特征词在与内容类别对应的历史资料集合中的覆盖率;
权重计算单元,用于根据所述覆盖率,计算各目标特征词的特征权重。
10.根据权利要求6所述的装置,其特征在于,所述处理模块包括:
资料总数量计算单元,用于根据所述选材资料数量,计算选材资料总数量;
新闻选材指数计算单元,用于根据受众参数、选材资料总数量和所述选材资料数量,得到各待比对内容类别的新闻选材指数。
11.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至5中任一项所述方法的步骤。
12.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至5中任一项所述的方法的步骤。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN202010301372.3A CN111506727B (zh) | 2020-04-16 | 2020-04-16 | 文本内容类别获取方法、装置、计算机设备和存储介质 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN202010301372.3A CN111506727B (zh) | 2020-04-16 | 2020-04-16 | 文本内容类别获取方法、装置、计算机设备和存储介质 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| CN111506727A CN111506727A (zh) | 2020-08-07 |
| CN111506727B true CN111506727B (zh) | 2023-10-03 |
Family
ID=71874352
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| CN202010301372.3A Active CN111506727B (zh) | 2020-04-16 | 2020-04-16 | 文本内容类别获取方法、装置、计算机设备和存储介质 |
Country Status (1)
| Country | Link |
|---|---|
| CN (1) | CN111506727B (zh) |
Families Citing this family (6)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN112015864A (zh) * | 2020-08-26 | 2020-12-01 | 深圳市金蝶天燕云计算股份有限公司 | 信息查询方法及相关设备 |
| CN112395881B (zh) * | 2020-11-27 | 2022-12-13 | 北京筑龙信息技术有限责任公司 | 物料标签的构建方法、装置、可读存储介质及电子设备 |
| CN113779969B (zh) * | 2021-09-16 | 2024-09-20 | 平安国际智慧城市科技股份有限公司 | 基于人工智能的案件信息处理方法、装置、设备及介质 |
| CN115544250B (zh) * | 2022-09-01 | 2023-06-23 | 睿智合创(北京)科技有限公司 | 一种数据处理方法及系统 |
| CN116701561B (zh) * | 2023-06-09 | 2024-04-26 | 读书郎教育科技有限公司 | 与词典笔匹配的学习资源搜集方法及其系统 |
| CN120179823B (zh) * | 2025-05-22 | 2025-11-18 | 潍坊学院 | 新闻数据分类方法、装置及电子设备 |
Citations (8)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN107844559A (zh) * | 2017-10-31 | 2018-03-27 | 国信优易数据有限公司 | 一种文件分类方法、装置及电子设备 |
| CN108334610A (zh) * | 2018-02-06 | 2018-07-27 | 北京神州泰岳软件股份有限公司 | 一种新闻文本分类方法、装置及服务器 |
| CN109376237A (zh) * | 2018-09-04 | 2019-02-22 | 中国平安人寿保险股份有限公司 | 客户稳定性的预测方法、装置、计算机设备和存储介质 |
| CN109635082A (zh) * | 2018-11-26 | 2019-04-16 | 平安科技(深圳)有限公司 | 政策影响分析方法、装置、计算机设备和存储介质 |
| CN109657137A (zh) * | 2018-11-26 | 2019-04-19 | 平安科技(深圳)有限公司 | 舆情新闻分类模型构建方法、装置、计算机设备和存储介质 |
| JP2019109662A (ja) * | 2017-12-18 | 2019-07-04 | ヤフー株式会社 | 分類装置、データ構造、分類方法、およびプログラム |
| WO2019184217A1 (zh) * | 2018-03-26 | 2019-10-03 | 平安科技(深圳)有限公司 | 热点事件分类方法、装置及存储介质 |
| CN110895586A (zh) * | 2018-08-22 | 2020-03-20 | 腾讯科技(深圳)有限公司 | 生成新闻页面的方法、装置、计算机设备及存储介质 |
Family Cites Families (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US10452727B2 (en) * | 2011-09-26 | 2019-10-22 | Oath Inc. | Method and system for dynamically providing contextually relevant news based on an article displayed on a web page |
| US10489438B2 (en) * | 2016-05-19 | 2019-11-26 | Conduent Business Services, Llc | Method and system for data processing for text classification of a target domain |
| US10210157B2 (en) * | 2016-06-16 | 2019-02-19 | Conduent Business Services, Llc | Method and system for data processing for real-time text analysis |
| US11106716B2 (en) * | 2017-11-13 | 2021-08-31 | Accenture Global Solutions Limited | Automatic hierarchical classification and metadata identification of document using machine learning and fuzzy matching |
-
2020
- 2020-04-16 CN CN202010301372.3A patent/CN111506727B/zh active Active
Patent Citations (8)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN107844559A (zh) * | 2017-10-31 | 2018-03-27 | 国信优易数据有限公司 | 一种文件分类方法、装置及电子设备 |
| JP2019109662A (ja) * | 2017-12-18 | 2019-07-04 | ヤフー株式会社 | 分類装置、データ構造、分類方法、およびプログラム |
| CN108334610A (zh) * | 2018-02-06 | 2018-07-27 | 北京神州泰岳软件股份有限公司 | 一种新闻文本分类方法、装置及服务器 |
| WO2019184217A1 (zh) * | 2018-03-26 | 2019-10-03 | 平安科技(深圳)有限公司 | 热点事件分类方法、装置及存储介质 |
| CN110895586A (zh) * | 2018-08-22 | 2020-03-20 | 腾讯科技(深圳)有限公司 | 生成新闻页面的方法、装置、计算机设备及存储介质 |
| CN109376237A (zh) * | 2018-09-04 | 2019-02-22 | 中国平安人寿保险股份有限公司 | 客户稳定性的预测方法、装置、计算机设备和存储介质 |
| CN109635082A (zh) * | 2018-11-26 | 2019-04-16 | 平安科技(深圳)有限公司 | 政策影响分析方法、装置、计算机设备和存储介质 |
| CN109657137A (zh) * | 2018-11-26 | 2019-04-19 | 平安科技(深圳)有限公司 | 舆情新闻分类模型构建方法、装置、计算机设备和存储介质 |
Also Published As
| Publication number | Publication date |
|---|---|
| CN111506727A (zh) | 2020-08-07 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CN111506727B (zh) | 文本内容类别获取方法、装置、计算机设备和存储介质 | |
| US11663254B2 (en) | System and engine for seeded clustering of news events | |
| US9710457B2 (en) | Computer-implemented patent portfolio analysis method and apparatus | |
| US9117006B2 (en) | Recommending keywords | |
| US7814102B2 (en) | Method and system for linking documents with multiple topics to related documents | |
| US20090024612A1 (en) | Full text query and search systems and methods of use | |
| CN105653562B (zh) | 一种文本内容与查询请求之间相关性的计算方法及装置 | |
| US20040049499A1 (en) | Document retrieval system and question answering system | |
| US20220398857A1 (en) | Document analysis architecture | |
| US11379665B1 (en) | Document analysis architecture | |
| CN106547864B (zh) | 一种基于查询扩展的个性化信息检索方法 | |
| US11893065B2 (en) | Document analysis architecture | |
| US8364679B2 (en) | Method, system, and apparatus for delivering query results from an electronic document collection | |
| US20080228752A1 (en) | Technical correlation analysis method for evaluating patents | |
| EP2457182A1 (en) | Method, system, and apparatus for delivering query results from an electronic document collection | |
| CN110569273A (zh) | 一种基于相关性排序的专利检索系统及方法 | |
| US11776291B1 (en) | Document analysis architecture | |
| CA2956627C (en) | SYSTEM AND ENGINE USED FOR THE TARGET GROUPING OF INFORMATION EVENTS | |
| WO2021252419A1 (en) | Document analysis architecture | |
| Wahyudi et al. | Topic modeling of online media news titles during COVID-19 emergency response in Indonesia using the latent dirichlet allocation (LDA) algorithm | |
| US20060085405A1 (en) | Method for analyzing and classifying electronic document | |
| CN112184021B (zh) | 一种基于相似支持集的答案质量评估方法 | |
| US11893505B1 (en) | Document analysis architecture | |
| CN114201598B (zh) | 文本推荐方法及文本推荐装置 | |
| Geleijnse et al. | Web-Based Artist Categorization. |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| PB01 | Publication | ||
| PB01 | Publication | ||
| SE01 | Entry into force of request for substantive examination | ||
| SE01 | Entry into force of request for substantive examination | ||
| GR01 | Patent grant | ||
| GR01 | Patent grant |