[go: up one dir, main page]

CN106874291A - 文本分类的处理方法及装置 - Google Patents

文本分类的处理方法及装置 Download PDF

Info

Publication number
CN106874291A
CN106874291A CN201510921141.1A CN201510921141A CN106874291A CN 106874291 A CN106874291 A CN 106874291A CN 201510921141 A CN201510921141 A CN 201510921141A CN 106874291 A CN106874291 A CN 106874291A
Authority
CN
China
Prior art keywords
probability
text
subordinate
classification
sorting technique
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510921141.1A
Other languages
English (en)
Inventor
何鑫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Gridsum Technology Co Ltd
Original Assignee
Beijing Gridsum Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Gridsum Technology Co Ltd filed Critical Beijing Gridsum Technology Co Ltd
Priority to CN201510921141.1A priority Critical patent/CN106874291A/zh
Priority to PCT/CN2016/107313 priority patent/WO2017097118A1/zh
Publication of CN106874291A publication Critical patent/CN106874291A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种文本分类的处理方法及装置。该方法包括:采用第一分类方法对待处理文本进行分类处理,得到第一待确认文本类别和第一从属概率;根据第一从属概率和第一历史从属概率计算第一目标概率;判断第一目标概率是否高于预设阈值;以及当第一目标概率低于预设阈值时,依次采用与第一分类方法不同的至少一种分类方法对待处理文本进行分类处理,直到计算出的目标概率高于或等于预设阈值为止,并将最终得到的待确认文本类别作为目标文本类别。通过本申请,解决了相关技术中为了提升对文本分类的准确性导致对文本分类的处理效率低的问题。

Description

文本分类的处理方法及装置
技术领域
本申请涉及文本处理领域,具体而言,涉及一种文本分类的处理方法及装置。
背景技术
文本分类是自然语言处理的重要任务之一,类似于文章的行业分类,情感分析等许多自然语言处理任务其实质都是文本的分类。目前,无论是基于规则还是基于机器学习,处理文本分类问题的方法都有很多。通常,采用一种分类方法对文本进行分类处理,得到分类结果,输出分类处理结果。然后仅采用一种分类方法对文本进行分类处理的准确性较低。为了提升对文本进行分类的准确性,相关技术中采用了一系列分类方法,旨在使用多个不太精准的分类方法对文本进行分类处理,得到多个分类处理结果。然后再对每一个分类处理结果进行投票,选出最高票的分类处理结果作为输出。这种方法在很大程度上弥补了仅仅使用一个分类方法的不足,然而无论是否有必要,该方法对于每一个输入的文本都需要采用多个分类方法,造成对文本处理性能的下降。
针对相关技术中为了提升对文本分类的准确性导致对文本分类的处理效率低的问题,目前尚未提出有效的解决方案。
发明内容
本申请的主要目的在于提供一种文本分类的处理方法及装置,以解决相关技术中为了提升对文本分类的准确性导致对文本分类的处理效率低的问题。
为了实现上述目的,根据本申请的一个方面,提供了一种文本分类的处理方法。该方法包括:采用第一分类方法对待处理文本进行分类处理,得到第一待确认文本类别和第一从属概率,其中,第一从属概率为根据第一分类方法判定待处理文本属于第一待确认文本类别的概率;根据第一从属概率和第一历史从属概率计算第一目标概率,其中,第一历史从属概率为预设数据库中存储的待处理文本属于第一待确认文本类别的概率;判断第一目标概率是否高于预设阈值;以及当第一目标概率低于预设阈值时,依次采用与第一分类方法不同的至少一种分类方法对待处理文本进行分类处理,直到计算出的目标概率高于或等于预设阈值为止,并将最终得到的待确认文本类别作为目标文本类别。
进一步地,在采用第一分类方法对待处理文本进行分类处理之前,该方法还包括:确定对待处理文本进行分类处理的多种分类方法;以及获取多种分类方法组成的分类方法集合,其中,分类方法集合包括第一分类方法。
进一步地,根据第一从属概率和第一历史从属概率计算第一目标概率包括:将第一从属概率和第一历史从属概率相乘,得到第一目标从属概率;将第一非从属概率和第一历史非从属概率相乘,得到第一目标非从属概率,其中,第一非从属概率为根据第一分类方法判定待处理文本不属于第一待确认文本类别的概率,第一历史非从属概率为预设数据库中存储的待处理文本不属于第一待确认文本类别的概率;将第一目标从属概率与第一目标非从属概率相加,得到第一目标子概率;以及将第一目标从属概率与第一目标子概率相除,得到第一目标概率。
进一步地,在将最终得到的待确认文本类别作为目标文本类别之后,该方法还包括:以最终计算出的目标概率更新预设数据库中存储的与最终采用的分类方法对应的历史从属概率。
进一步地,在将最终得到的待确认文本类别作为目标文本类别之后,该方法还包括:输出目标文本类别至目标地址。
为了实现上述目的,根据本申请的另一方面,提供了一种文本分类的处理装置。该装置包括:处理单元,用于采用第一分类方法对待处理文本进行分类处理,得到第一待确认文本类别和第一从属概率,其中,第一从属概率为根据第一分类方法判定待处理文本属于第一待确认文本类别的概率;计算单元,用于根据第一从属概率和第一历史从属概率计算第一目标概率,其中,第一历史从属概率为预设数据库中存储的待处理文本属于第一待确认文本类别的概率;判断单元,用于判断第一目标概率是否高于预设阈值;以及第一确定单元,用于当第一目标概率低于预设阈值时,依次采用与第一分类方法不同的至少一种分类方法对待处理文本进行分类处理,直到计算出的目标概率高于或等于预设阈值为止,并将最终得到的待确认文本类别作为目标文本类别。
进一步地,该装置还包括:第二确定单元,用于确定对待处理文本进行分类处理的多种分类方法;以及获取单元,用于获取多种分类方法组成的分类方法集合,其中,分类方法集合包括第一分类方法。
进一步地,计算单元包括:第一计算模块,用于将第一从属概率和第一历史从属概率相乘,得到第一目标从属概率;第二计算模块,用于将第一非从属概率和第一历史非从属概率相乘,得到第一目标非从属概率,其中,第一非从属概率为根据第一分类方法判定待处理文本不属于第一待确认文本类别的概率,第一历史非从属概率为预设数据库中存储的待处理文本不属于第一待确认文本类别的概率;第三计算模块,用于将第一目标从属概率与第一目标非从属概率相加,得到第一目标子概率;以及第四计算模块,用于将第一目标从属概率与第一目标子概率相除,得到第一目标概率。
进一步地,该装置还包括:更新单元,用于以最终计算出的目标概率更新预设数据库中存储的与最终采用的分类方法对应的历史从属概率。
进一步地,该装置还包括:输出单元,用于输出目标文本类别至目标地址。
通过本申请,采用以下步骤:采用第一分类方法对待处理文本进行分类处理,得到第一待确认文本类别和第一从属概率,其中,第一从属概率为根据第一分类方法判定待处理文本属于第一待确认文本类别的概率;根据第一从属概率和第一历史从属概率计算第一目标概率,其中,第一历史从属概率为预设数据库中存储的待处理文本属于第一待确认文本类别的概率;判断第一目标概率是否高于预设阈值;以及当第一目标概率低于预设阈值时,依次采用与第一分类方法不同的至少一种分类方法对待处理文本进行分类处理,直到计算出的目标概率高于或等于预设阈值为止,并将最终得到的待确认文本类别作为目标文本类别,解决了相关技术中为了提升对文本分类的准确性导致对文本分类的处理效率低的问题。通过引入目标概率,根据目标概率确定待处理文本对应的目标文本类型,弥补仅使用一种分类方法处理确定目标文本类型和有效的减少了通过不必要多次分类处理方法去确定目标文本类型,进而达到了在提升对文本分类的准确性同时也提升了对文本分类的处理效率的效果。
附图说明
构成本申请的一部分的附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请实施例的文本分类的处理方法的流程图;以及
图2是根据本申请实施例的文本分类的处理装置的示意图。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
根据本申请的实施例,提供了一种文本分类的处理方法。
图1是根据本申请实施例的文本分类的处理方法的流程图。如图1所示,该方法包括以下步骤:
步骤S101,采用第一分类方法对待处理文本进行分类处理,得到第一待确认文本类别和第一从属概率,其中,第一从属概率为根据第一分类方法判定待处理文本属于第一待确认文本类别的概率。
可选地,在本申请实施例提供的文本分类的处理方法中,在采用第一分类方法对待处理文本进行分类处理之前,该方法还包括:确定对待处理文本进行分类处理的多种分类方法;以及获取多种分类方法组成的分类方法集合,其中,分类方法集合包括第一分类方法。
在自然语言处理中,对于文本分类的处理方法有很多种方法,例如利用语言学规则,利用机器学习的各种分类方法,逻辑回归、朴素贝叶斯、支持向量机、随机森林等等多种分类方法,多种分类方法组成分类方法集合。例如,选取分类方法集合中的逻辑回归分类方法作为第一分类方法对待处理文本进行分类,得到第一待确认文本类别。例如,第一待确认文本类别可以为待处理文本所属的文本类型为情感类别。系统会判定采用第一分类方法对待处理文本进行分类处理得到的待处理文本所属的文本类型为正确率的概率(即第一从属概率)。
步骤S102,根据第一从属概率和第一历史从属概率计算第一目标概率,其中,第一历史从属概率为预设数据库中存储的待处理文本属于第一待确认文本类别的概率。
可选地,在本申请实施例提供的文本分类的处理方法中,根据第一从属概率和第一历史从属概率计算第一目标概率包括:将第一从属概率和第一历史从属概率相乘,得到第一目标从属概率;将第一非从属概率和第一历史非从属概率相乘,得到第一目标非从属概率,其中,第一非从属概率为根据第一分类方法判定待处理文本不属于第一待确认文本类别的概率,第一历史非从属概率为预设数据库中存储的待处理文本不属于第一待确认文本类别的概率;将第一目标从属概率与第一目标非从属概率相加,得到第一目标子概率;以及将第一目标从属概率与第一目标子概率相除,得到第一目标概率。
第一目标概率为计算出的待处理文本属于第一待确认文本类别的概率。第一历史从属概率为预设数据库中存储的待处理文本属于第一待确认文本类别的概率;第一从属概率为系统中根据第一分类方法判定待处理文本属于第一待确认文本类别的概率。因此两个条件下均认为该待处理文本属于第一待确认文本类别的概率为第一历史从属概率与第一从属概率的乘积。
例如,预设数据库中存储的待处理文本属于第一待确认文本类别的概率为0.6(第一历史从属概率),即判定待处理文本不属于第一待确认文本类别的概率为0.4(第一历史非从属概率);系统中根据第一分类方法判定待处理文本属于第一待确认文本类别的概率为0.8(第一从属概率),即系统判定待处理文本不属于第一待确认文本类别的概率为0.2(第一非从属概率);根据以上数据计算出第一目标概率(待处理文本属于第一待确认文本类别的概率)=(0.6*0.8)/(0.6*0.8+0.4*0.2)=0.857,计算出待处理文本不属于第一待确认文本类别的概率=(0.4*0.2)/(0.6*0.8+0.4*0.2)=0.143。
步骤S103,判断第一目标概率是否高于预设阈值。
预设阈值可以是用户或者需求方根据对分类功能的满意程度而设定的值。例如预设阈值为0.8。
步骤S104,当第一目标概率低于预设阈值时,依次采用与第一分类方法不同的至少一种分类方法对待处理文本进行分类处理,直到计算出的目标概率高于或等于预设阈值为止,并将最终得到的待确认文本类别作为目标文本类别。
具体地,当第一目标概率低于预设阈值时,采用第二分类方法对待处理文本进行分类处理,例如,可以采用朴素贝叶斯分类方法,得到第二待确认文本类别和第二从属概率,其中,第二从属概率为根据第二分类方法判定待处理文本属于第二待确认文本类别的概率;根据第二从属概率和第二历史从属概率计算第二目标概率,其中,第二历史从属概率为预设数据库中存储的待处理文本属于第二待确认文本类别的概率;判断第二目标概率是否高于预设阈值,若判断为是,则将第二待确认文本类别作为目标文本类别,若判断为否,则继续采用非第一分类方法和第二分类方法的其他分类方法按照上面得过程对待处理文本进行分类处理,直到计算出的目标概率高于或等于预设阈值为止,并将最终得到的待确认文本类别作为目标文本类别。
例如,预设阈值为0.9,上述计算出的第一目标概率为0.857,判断出第一目标概率低于预设阈值,则系统则会认为当前第一待确认文本类别中的第一待确认文本类别不是目标文本类型,相应地,系统会采用第二分类方法(如:朴素贝叶斯分类方法)对待处理文本进行分类处理,直到计算出的目标概率高于或等于预设阈值为止,并将最终得到的待确认文本类别作为目标文本类别。
如果预设阈值为0.8,上述计算出的第一目标概率为0.857,判断出第一目标概率高于预设阈值,则确定第一待确认文本类别为待处理文本所属的目标文本类别。例如,确定出待处理文本所属的文本类型为情感类。
可选地,在本申请实施例提供的文本分类的处理方法中,在将最终得到的待确认文本类别作为目标文本类别之后,该方法还包括:输出目标文本类别至目标地址。
将待处理文本所属的文本类型输出至目标地址,在目标地址上显示或者用户对其进行分析处理。
可选地,在本申请实施例提供的文本分类的处理方法中,在将最终得到的待确认文本类别作为目标文本类别之后,该方法还包括:以最终计算出的目标概率更新预设数据库中存储的与最终采用的分类方法对应的历史从属概率。
通过将最终计算出的目标概率更新预设数据库中存储的与最终采用的分类方法对应的历史从属概率,保证了预设数据库中存储的历史从属概率的准确性。
在本申请中,通过以上步骤引入了目标概率,根据目标概率确定待处理文本对应的目标文本类型,弥补仅使用一种分类方法处理确定目标文本类型和有效的减少了通过不必要多次分类处理方法去确定目标文本类型,进而达到了在提升对文本分类的准确性同时也提升了对文本分类的处理效率的效果。
本申请实施例提供的文本分类的处理方法,通过采用第一分类方法对待处理文本进行分类处理,得到第一待确认文本类别和第一从属概率,其中,第一从属概率为根据第一分类方法判定待处理文本属于第一待确认文本类别的概率;根据第一从属概率和第一历史从属概率计算第一目标概率,其中,第一历史从属概率为预设数据库中存储的待处理文本属于第一待确认文本类别的概率;判断第一目标概率是否高于预设阈值;以及当第一目标概率低于预设阈值时,依次采用与第一分类方法不同的至少一种分类方法对待处理文本进行分类处理,直到计算出的目标概率高于或等于预设阈值为止,并将最终得到的待确认文本类别作为目标文本类别,解决了相关技术中为了提升对文本分类的准确性导致对文本分类的处理效率低的问题。通过引入目标概率,根据目标概率确定待处理文本对应的目标文本类型,弥补仅使用一种分类方法处理确定目标文本类型和有效的减少了通过不必要多次分类处理方法去确定目标文本类型,进而达到了在提升对文本分类的准确性同时也提升了对文本分类的处理效率的效果。
需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
本申请实施例还提供了一种文本分类的处理装置,需要说明的是,本申请实施例的文本分类的处理装置可以用于执行本申请实施例所提供的用于文本分类的处理方法。以下对本申请实施例提供的文本分类的处理装置进行介绍。
图2是根据本申请实施例的文本分类的处理装置的示意图。如图2所示,该装置包括:处理单元10、计算单元20、判断单元30和第一确定单元40。
处理单元10,用于采用第一分类方法对待处理文本进行分类处理,得到第一待确认文本类别和第一从属概率,其中,第一从属概率为根据第一分类方法判定待处理文本属于第一待确认文本类别的概率。
计算单元20,用于根据第一从属概率和第一历史从属概率计算第一目标概率,其中,第一历史从属概率为预设数据库中存储的待处理文本属于第一待确认文本类别的概率。
判断单元30,用于判断第一目标概率是否高于预设阈值。
第一确定单元40,用于当第一目标概率低于预设阈值时,依次采用与第一分类方法不同的至少一种分类方法对待处理文本进行分类处理,直到计算出的目标概率高于或等于预设阈值为止,并将最终得到的待确认文本类别作为目标文本类别。
本申请实施例提供的文本分类的处理装置,通过处理单元10采用第一分类方法对待处理文本进行分类处理,得到第一待确认文本类别和第一从属概率,其中,第一从属概率为根据第一分类方法判定待处理文本属于第一待确认文本类别的概率;计算单元20根据第一从属概率和第一历史从属概率计算第一目标概率,其中,第一历史从属概率为预设数据库中存储的待处理文本属于第一待确认文本类别的概率;判断单元30判断第一目标概率是否高于预设阈值;以及第一确定单元40当第一目标概率低于预设阈值时,依次采用与第一分类方法不同的至少一种分类方法对待处理文本进行分类处理,直到计算出的目标概率高于或等于预设阈值为止,并将最终得到的待确认文本类别作为目标文本类别,解决了相关技术中为了提升对文本分类的准确性导致对文本分类的处理效率低的问题,通过引入目标概率,根据目标概率确定待处理文本对应的目标文本类型,弥补仅使用一种分类方法处理确定目标文本类型和有效的减少了通过不必要多次分类处理方法去确定目标文本类型,进而达到了在提升对文本分类的准确性同时也提升了对文本分类的处理效率的效果。
可选地,在本申请实施例提供的文本分类的处理装置中,该装置还包括:第二确定单元,用于确定对待处理文本进行分类处理的多种分类方法;以及获取单元,用于获取多种分类方法组成的分类方法集合,其中,分类方法集合包括第一分类方法。
可选地,在本申请实施例提供的文本分类的处理装置中,计算单元20包括:第一计算模块,用于将第一从属概率和第一历史从属概率相乘,得到第一目标从属概率;第二计算模块,用于将第一非从属概率和第一历史非从属概率相乘,得到第一目标非从属概率,其中,第一非从属概率为根据第一分类方法判定待处理文本不属于第一待确认文本类别的概率,第一历史非从属概率为预设数据库中存储的待处理文本不属于第一待确认文本类别的概率;第三计算模块,用于将第一目标从属概率与第一目标非从属概率相加,得到第一目标子概率;以及第四计算模块,用于将第一目标从属概率与第一目标子概率相除,得到第一目标概率。
可选地,在本申请实施例提供的文本分类的处理装置中,该装置还包括:更新单元,用于以最终计算出的目标概率更新预设数据库中存储的与最终采用的分类方法对应的历史从属概率。
可选地,在本申请实施例提供的文本分类的处理装置中,该装置还包括:输出单元,用于输出目标文本类别至目标地址。
所述文本分类的处理装置包括处理器和存储器,上述处理单元、计算单元、判断单元和第一确定单元等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元实现相应功能。上述预设阈值、预设数据库都可以存储在存储器中。
处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数处理文本分类。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。
本申请还提供了一种计算机程序产品的实施例,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序代码:采用第一分类方法对待处理文本进行分类处理,得到第一待确认文本类别和第一从属概率,其中,第一从属概率为根据第一分类方法判定待处理文本属于第一待确认文本类别的概率;根据第一从属概率和第一历史从属概率计算第一目标概率,其中,第一历史从属概率为预设数据库中存储的待处理文本属于第一待确认文本类别的概率;判断第一目标概率是否高于预设阈值;以及当第一目标概率低于预设阈值时,依次采用与第一分类方法不同的至少一种分类方法对待处理文本进行分类处理,直到计算出的目标概率高于或等于预设阈值为止,并将最终得到的待确认文本类别作为目标文本类别。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置,可通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
显然,本领域的技术人员应该明白,上述的本申请的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本申请不限制于任何特定的硬件和软件结合。
以上所述仅为本申请的优选实施例,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (10)

1.一种文本分类的处理方法,其特征在于,包括:
采用第一分类方法对待处理文本进行分类处理,得到第一待确认文本类别和第一从属概率,其中,所述第一从属概率为根据所述第一分类方法判定所述待处理文本属于所述第一待确认文本类别的概率;
根据所述第一从属概率和第一历史从属概率计算第一目标概率,其中,所述第一历史从属概率为预设数据库中存储的所述待处理文本属于所述第一待确认文本类别的概率;
判断所述第一目标概率是否高于预设阈值;以及
当所述第一目标概率低于所述预设阈值时,依次采用与所述第一分类方法不同的至少一种分类方法对所述待处理文本进行所述分类处理,直到计算出的目标概率高于或等于所述预设阈值为止,并将最终得到的待确认文本类别作为目标文本类别。
2.根据权利要求1所述的方法,其特征在于,在采用第一分类方法对所述待处理文本进行分类处理之前,所述方法还包括:
确定对所述待处理文本进行分类处理的多种分类方法;以及
获取所述多种分类方法组成的分类方法集合,其中,所述分类方法集合包括所述第一分类方法。
3.根据权利要求1所述的方法,其特征在于,根据所述第一从属概率和第一历史从属概率计算第一目标概率包括:
将所述第一从属概率和所述第一历史从属概率相乘,得到第一目标从属概率;
将第一非从属概率和第一历史非从属概率相乘,得到第一目标非从属概率,其中,所述第一非从属概率为根据所述第一分类方法判定所述待处理文本不属于所述第一待确认文本类别的概率,所述第一历史非从属概率为所述预设数据库中存储的所述待处理文本不属于所述第一待确认文本类别的概率;
将所述第一目标从属概率与所述第一目标非从属概率相加,得到第一目标子概率;以及
将所述第一目标从属概率与所述第一目标子概率相除,得到所述第一目标概率。
4.根据权利要求1所述的方法,其特征在于,在所述将最终得到的待确认文本类别作为目标文本类别之后,所述方法还包括:
以最终计算出的目标概率更新所述预设数据库中存储的与最终采用的分类方法对应的历史从属概率。
5.根据权利要求1所述的方法,其特征在于,在所述将最终得到的待确认文本类别作为目标文本类别之后,所述方法还包括:
输出所述目标文本类别至目标地址。
6.一种文本分类的处理装置,其特征在于,包括:
处理单元,用于采用第一分类方法对待处理文本进行分类处理,得到第一待确认文本类别和第一从属概率,其中,所述第一从属概率为根据所述第一分类方法判定所述待处理文本属于所述第一待确认文本类别的概率;
计算单元,用于根据所述第一从属概率和第一历史从属概率计算第一目标概率,其中,所述第一历史从属概率为预设数据库中存储的所述待处理文本属于所述第一待确认文本类别的概率;
判断单元,用于判断所述第一目标概率是否高于预设阈值;以及
第一确定单元,用于当所述第一目标概率低于所述预设阈值时,依次采用与所述第一分类方法不同的至少一种分类方法对所述待处理文本进行所述分类处理,直到计算出的目标概率高于或等于所述预设阈值为止,并将最终得到的待确认文本类别作为目标文本类别。
7.根据权利要求6所述的装置,其特征在于,所述装置还包括:
第二确定单元,用于确定对所述待处理文本进行分类处理的多种分类方法;以及
获取单元,用于获取所述多种分类方法组成的分类方法集合,其中,所述分类方法集合包括所述第一分类方法。
8.根据权利要求6所述的装置,其特征在于,所述计算单元包括:
第一计算模块,用于将所述第一从属概率和所述第一历史从属概率相乘,得到第一目标从属概率;
第二计算模块,用于将第一非从属概率和第一历史非从属概率相乘,得到第一目标非从属概率,其中,所述第一非从属概率为根据所述第一分类方法判定所述待处理文本不属于所述第一待确认文本类别的概率,所述第一历史非从属概率为所述预设数据库中存储的所述待处理文本不属于所述第一待确认文本类别的概率;
第三计算模块,用于将所述第一目标从属概率与所述第一目标非从属概率相加,得到第一目标子概率;以及
第四计算模块,用于将所述第一目标从属概率与所述第一目标子概率相除,得到所述第一目标概率。
9.根据权利要求6所述的装置,其特征在于,所述装置还包括:更新单元,用于以最终计算出的目标概率更新所述预设数据库中存储的与最终采用的分类方法对应的历史从属概率。
10.根据权利要求6所述的装置,其特征在于,所述装置还包括:输出单元,用于输出所述目标文本类别至目标地址。
CN201510921141.1A 2015-12-11 2015-12-11 文本分类的处理方法及装置 Pending CN106874291A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201510921141.1A CN106874291A (zh) 2015-12-11 2015-12-11 文本分类的处理方法及装置
PCT/CN2016/107313 WO2017097118A1 (zh) 2015-12-11 2016-11-25 文本分类的处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510921141.1A CN106874291A (zh) 2015-12-11 2015-12-11 文本分类的处理方法及装置

Publications (1)

Publication Number Publication Date
CN106874291A true CN106874291A (zh) 2017-06-20

Family

ID=59013723

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510921141.1A Pending CN106874291A (zh) 2015-12-11 2015-12-11 文本分类的处理方法及装置

Country Status (2)

Country Link
CN (1) CN106874291A (zh)
WO (1) WO2017097118A1 (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110597985A (zh) * 2019-08-15 2019-12-20 重庆金融资产交易所有限责任公司 基于数据分析的数据分类方法、装置、终端及介质
CN111191447A (zh) * 2019-12-18 2020-05-22 东软集团股份有限公司 一种设备缺陷的分类方法、装置及设备
CN112380346A (zh) * 2020-11-23 2021-02-19 宁波深擎信息科技有限公司 金融新闻情感分析方法、装置、计算机设备及存储介质
CN113806542A (zh) * 2021-09-18 2021-12-17 上海幻电信息科技有限公司 文本分析方法及系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1701324A (zh) * 2001-11-02 2005-11-23 Dba西方集团西方出版社 用于分类文档的系统,方法和软件
CN101059796A (zh) * 2006-04-19 2007-10-24 中国科学院自动化研究所 基于概率主题词的两级组合文本分类方法
CN101587493A (zh) * 2009-06-29 2009-11-25 中国科学技术大学 文本分类方法
CN102033964A (zh) * 2011-01-13 2011-04-27 北京邮电大学 基于块划分及位置权重的文本分类方法
CN103514174A (zh) * 2012-06-18 2014-01-15 北京百度网讯科技有限公司 一种文本分类方法和装置
US20140314311A1 (en) * 2013-04-23 2014-10-23 Wal-Mart Stores, Inc. System and method for classification with effective use of manual data input
US9104972B1 (en) * 2009-03-13 2015-08-11 Google Inc. Classifying documents using multiple classifiers

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102141977A (zh) * 2010-02-01 2011-08-03 阿里巴巴集团控股有限公司 一种文本分类的方法及装置
CN103473356B (zh) * 2013-09-26 2017-01-25 苏州大学 一种篇章级情感分类方法及装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1701324A (zh) * 2001-11-02 2005-11-23 Dba西方集团西方出版社 用于分类文档的系统,方法和软件
CN101059796A (zh) * 2006-04-19 2007-10-24 中国科学院自动化研究所 基于概率主题词的两级组合文本分类方法
US9104972B1 (en) * 2009-03-13 2015-08-11 Google Inc. Classifying documents using multiple classifiers
CN101587493A (zh) * 2009-06-29 2009-11-25 中国科学技术大学 文本分类方法
CN102033964A (zh) * 2011-01-13 2011-04-27 北京邮电大学 基于块划分及位置权重的文本分类方法
CN103514174A (zh) * 2012-06-18 2014-01-15 北京百度网讯科技有限公司 一种文本分类方法和装置
US20140314311A1 (en) * 2013-04-23 2014-10-23 Wal-Mart Stores, Inc. System and method for classification with effective use of manual data input

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110597985A (zh) * 2019-08-15 2019-12-20 重庆金融资产交易所有限责任公司 基于数据分析的数据分类方法、装置、终端及介质
CN111191447A (zh) * 2019-12-18 2020-05-22 东软集团股份有限公司 一种设备缺陷的分类方法、装置及设备
CN111191447B (zh) * 2019-12-18 2023-07-14 东软集团股份有限公司 一种设备缺陷的分类方法、装置及设备
CN112380346A (zh) * 2020-11-23 2021-02-19 宁波深擎信息科技有限公司 金融新闻情感分析方法、装置、计算机设备及存储介质
CN112380346B (zh) * 2020-11-23 2023-04-25 宁波深擎信息科技有限公司 金融新闻情感分析方法、装置、计算机设备及存储介质
CN113806542A (zh) * 2021-09-18 2021-12-17 上海幻电信息科技有限公司 文本分析方法及系统
CN113806542B (zh) * 2021-09-18 2024-05-17 上海幻电信息科技有限公司 文本分析方法及系统

Also Published As

Publication number Publication date
WO2017097118A1 (zh) 2017-06-15

Similar Documents

Publication Publication Date Title
Tay et al. Evolving dispatching rules using genetic programming for solving multi-objective flexible job-shop problems
CN110929752B (zh) 基于知识驱动和数据驱动的分群方法及相关设备
CN110163476A (zh) 项目智能推荐方法、电子装置及存储介质
CN113779414A (zh) 基于机器学习模型的数据推荐方法、装置、设备及介质
CN107437223A (zh) 贷款信息审核方法、装置及设备
Xian et al. Fuzzy linguistic induced Euclidean OWA distance operator and its application in group linguistic decision making
CN106874291A (zh) 文本分类的处理方法及装置
CN110263979A (zh) 基于强化学习模型预测样本标签的方法及装置
CN107274543B (zh) 一种纸币的识别方法、装置、终端设备和计算机存储介质
WO2014176056A2 (en) Data classification
CN103365842B (zh) 一种页面浏览推荐方法及装置
CN104834958B (zh) 一种对答案的步骤进行评判的方法和装置
CN108733790A (zh) 数据排序方法、装置、服务器和存储介质
CN106487540A (zh) 一种规则处理方法和设备
CN111125185A (zh) 数据处理方法、装置、介质及电子设备
CN110610378A (zh) 产品需求分析方法、装置、计算机设备和存储介质
CN107704150A (zh) 一种应用程序图标的排列方法及设备
US20200387792A1 (en) Learning device and learning method
CN110262950A (zh) 基于多项指标的异动检测方法和装置
CN113515591B (zh) 文本不良信息识别方法、装置、电子设备及存储介质
CN111291889B (zh) 一种知识库的构建方法及装置
CN116049733A (zh) 基于神经网络的效能评估方法、系统、设备与存储介质
CN112016979A (zh) 用户分群方法、装置、设备和计算机可读存储介质
WO2012115662A1 (en) Pattern recognition
US9183595B1 (en) Using link strength in knowledge-based authentication

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 100083 No. 401, 4th Floor, Haitai Building, 229 North Fourth Ring Road, Haidian District, Beijing

Applicant after: Beijing Guoshuang Technology Co.,Ltd.

Address before: 100086 Cuigong Hotel, 76 Zhichun Road, Shuangyushu District, Haidian District, Beijing

Applicant before: Beijing Guoshuang Technology Co.,Ltd.

CB02 Change of applicant information
RJ01 Rejection of invention patent application after publication

Application publication date: 20170620

RJ01 Rejection of invention patent application after publication