CN109255117A - 中文分词方法及装置 - Google Patents
中文分词方法及装置 Download PDFInfo
- Publication number
- CN109255117A CN109255117A CN201710570808.7A CN201710570808A CN109255117A CN 109255117 A CN109255117 A CN 109255117A CN 201710570808 A CN201710570808 A CN 201710570808A CN 109255117 A CN109255117 A CN 109255117A
- Authority
- CN
- China
- Prior art keywords
- character string
- word segmentation
- sentence
- training corpus
- character
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本发明实施例提供一种中文分词方法和装置,该方法包括:S1、获取待分词M语句;S2、将M语句中第i个预设长度子句组成第一字符串与训练语料库精确匹配,若成功,获取分词结果进入S3,若失败,进入S4,i初始值为1;S3、将第二字符串作精确匹配,第二字符串是在第一字符串尾部加入排序靠后的j个字符得到的,j初始值为1,若失败,将i值增加预设长度进入S2,若成功,获取分词结果,将j值增加1重复S3;S4、将第一字符串作模糊匹配,获取分词结果,将i值增加预设长度进入S2;S5、若S2至S4任一执行后,M语句中所有字符对应子句均获取到分词结果,终止匹配并合并所有的分词结果。该方法可利用有限语料库进行中文分词。
Description
技术领域
本发明实施例涉及计算机技术领域,尤其涉及一种中文分词方法及装置。
背景技术
中文分词一直是中文自然语言处理领域必不可少的首要任务,是中文信息处理的基础。中文分词问题可以简单地概括为在给定的句子间插入分隔符,把汉字字符串切分为准确的词串。由于缺少词的标准定义,传统上的中文分词任务首先要根据语言学规范制定词语定义,界定词语边界,然后在此基础上建立符合该词语规范的分词系统。
传统的中文分词基于词典的匹配方法,实际上是以词典为依据对分词语句进行匹配。因为词典中的词语长度较短,因此通过这种匹配所得到的分词结果存在严重的分词歧义问题。虽然存在大量的分词歧义问题,但基于词典匹配的算法往往对已登录词有很高的分词准确率。近些年随着深度学习的兴起,特征表示学习逐渐成为机器学习的一个新兴分支。深度学习通过组合低层特征形成更加抽象的高层表示属性类别或特征。自2006年Hinton提出深度学习后,已有的工作表明,随着网络层数的加深,深度学习算法可以显著的提高分类的性能。
虽然现有的中文分词算法已经达到很高的精确度,但是在特定工程领域内,如工程招标领域内,从实践角度出发仍然没有一个令人满意的分词算法。目前主流的中文分词算法主要有:基于词典匹配、基于深度学习和基于字标注。基于词典匹配在特定工程领域内很难获得一个比较理想的词典,而且对于未登录词也没有一个很好的解决方法;基于深度学习的中文分词依赖于大规模的语料库以训练出分类特征,特征的设计直接影响分词结果,特征过多会导致模型过于复杂;基于字标注的分词算法不局限于词典,且可以识别出一定数量的未登录词,但是它依赖于大规模的训练语料库。
当前工程招标文件大部分是有权限查询的,不具备大规模语料库,而现有的中文分词算法不能完全适用于工程招标领域。训练语料库是最好的分词参考,如何尽可能地利用训练语料库,从中尽可能多的提取出有用的分词信息是解决招标特定工程领域内中文分词的关键。
发明内容
针对现有技术中存在的问题,本发明实施例提供一种中文分词方法和装置。
第一方面,本发明实施例提供一种中文分词方法,所述方法包括:
S1、获取待进行中文分词的M语句;
S2、将第一字符串与训练语料库进行精确匹配,所述第一字符串是所述M语句中第i个预设长度的子句,若匹配成功,获取所述精确匹配的分词结果,进入步骤S3,若匹配失败,进入步骤S4;其中,i的初始值为1,所述精确匹配是指所述第一字符串与所述训练语料库中的字符串完全一致;
S3、将第二字符串与所述训练语料库进行精确匹配,所述第二字符串是指在所述第一字符串的尾部,加入与所述第一字符串的末尾字符相邻、且排序靠后的j个字符而得到的字符串;其中,j的初始值为1,若匹配失败,将i的值增加所述预设长度,进入步骤S2;若匹配成功,获取所述精确匹配的分词结果,将j的值增加1,重复步骤S3;
S4、将所述第一字符串与训练语料库进行模糊匹配,获取所述模糊匹配的分词结果,然后,将所述i的值增加所述预设长度,进入步骤S2;其中,所述模糊匹配是指,所述第一字符串与所述训练语料库中的字符串的字符重叠率大于预设的阈值;
S5、若所述S2至S4中任一执行完毕之后,所述M语句中的所有字符所在的子句均已获取到对应的分词结果,则终止所述S2至S4,并将所述精确匹配的分词结果和所述模糊匹配的分词结果进行合并。
第二方面,本发明实施例提供一种中文分词装置,所述装置包括:
获取模块,用于获取待进行中文分词的M语句;
第一精确匹配模块,用于将第一字符串与训练语料库进行精确匹配,所述第一字符串是指所述M语句中的第i个预设长度的子句;其中,i的初始值为1,所述精确匹配是指所述第一字符串与所述训练语料库中的字符串完全一致;
第二精确匹配模块,用于将第二字符串与所述训练语料库进行精确匹配,所述第二字符串是指在所述第一字符串的尾部,加入与所述第一字符串的末尾字符相邻、且排序靠后的j个字符而得到的字符串;其中,j的初始值为1;
模糊匹配模块,用于将所述第一字符串与训练语料库进行模糊匹配,获取所述模糊匹配的分词结果;其中,所述模糊匹配是指,所述第一字符串与所述训练语料库中的字符串的字符重叠率大于预设的阈值;
分词结果合并模块,用于将所述精确匹配的分词结果和所述模糊匹配的分词结果进行合并。
第三方面,本发明实施例提供一种中文分词设备,所述设备包括存储器和处理器,所述处理器和所述存储器通过总线完成相互间的通信;所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行上述中文分词方法。
第四方面,本发明实施例提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述中文分词方法。
本发明实施例提供的中文分词方法及装置,通过首先对数据进行预处理,替换数字和英文字符以简化后续步骤,将重心放在处理汉字词语上,然后将待分词句子划分成若干个M语句,对这些M语句进行两个阶段的处理,阶段一提出语料库精确匹配方法,在训练语料库直接找到子句的分词结果,对于找不到精确匹配的子句进入阶段二,提出实例类推的分词方法,即先模糊匹配找到近似字符串,再通过实例类推,根据模糊字符串的分词结果得到目标分词结果。该方法很好的解决了当前特定工程领域不具备大规模语料库,尽可能地利用当前有限的语料库进行中文分词。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的中文分词方法流程图;
图2为本发明实施例提供的中文分词装置的结构示意图;
图3为本发明实施例提供的中文分词设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明实施例提供的中文分词方法流程图,如图1所示,所述方法包括:
步骤S1、获取待进行中文分词的M语句;
步骤S2、将第一字符串与训练语料库进行精确匹配,所述第一字符串是所述M语句中第i个预设长度的子句,若匹配成功,获取所述精确匹配的分词结果,进入步骤S3,若匹配失败,进入步骤S4;其中,i的初始值为1,所述精确匹配是指所述第一字符串与所述训练语料库中的字符串完全一致;
步骤S3、将第二字符串与所述训练语料库进行精确匹配,所述第二字符串是指在所述第一字符串的尾部,加入与所述第一字符串的末尾字符相邻、且排序靠后的j个字符而得到的字符串;其中,j的初始值为1,若匹配失败,将i的值增加所述预设长度,进入步骤S2;若匹配成功,获取所述精确匹配的分词结果,将j的值增加1,重复步骤S3;
步骤S4、将所述第一字符串与训练语料库进行模糊匹配,获取所述模糊匹配的分词结果,然后,将所述i的值增加所述预设长度,进入步骤S2;其中,所述模糊匹配是指,所述第一字符串与所述训练语料库中的字符串的字符重叠率大于预设的阈值;
步骤S5、若所述S2至S4中任一执行完毕之后,所述M语句中的所有字符所在的子句均已获取到对应的分词结果,则终止所述S2至S4,并将所述精确匹配的分词结果和所述模糊匹配的分词结果进行合并。
具体地,首先获取待进行分词的M语句,将M语句划分成具有预设长度的子句,比如,预设长度可以取4,也就是所述子句中包含的字符数为4;然后,将所述M语句中的第一个子句组成的第一字符串与训练语料库进行精确匹配,所述精确匹配是指在所述训练语料库中查找与所述第一字符串完全一致的字符串,若找到,则精确匹配成功,若找不到,则精确匹配失败。
若所述第一字符串与所述训练语料库精确匹配成功,则从所述训练语料库中直接获取精确匹配的分词结果,然后在所述第一字符串的末尾加入一个字符,该字符是在所述M语句中与所述第一字符串相邻且排序靠后的字符,得到第二字符串,将所述第二字符串与所述训练语料库进行精确匹配,若匹配成功,则从所述训练语料库中获取精确匹配的分词结果,并在所述第一字符串的末尾加上两个字符,继续与所述训练语料库进行精确匹配,直至所述M语句中的所有字符组成的字符串与所述训练语料库都精确匹配成功,或者在所述第一字符串的末尾加上j(j的最小值为1)个字符之后,精确匹配失败。若是在所述第一字符串的末尾加上j个字符之后,精确匹配失败,则第一字符串的末尾加上j-1个字符组成的L1字符串的精确匹配成功,根据精确匹配的分词结果对所述L1字符串进行分词,将第j个字符与后续字符组成一个具有预设长度的子句,将该子句与所述训练语料库进行精确匹配,并且重复上述匹配过程。
若所述第一字符串与所述训练语料库精确匹配失败,则将所述第一字符串与所述训练语料库进行模糊匹配,所述模糊匹配是指在所述训练语料库中查找与所述第一字符串的字符重叠率大于预设阈值的字符串,然后从所述训练语料库中获取对应的分词结果,即为所述第一字符串模糊匹配的分词结果,然后,将所述第一字符串后续的具有预设长度的子句与所述训练语料库进行精确匹配,重复上述精确匹配的过程。
当所述M语句中的所有字符所在的子句均已获取到对应的分词结果,将这些分词结果进行合并,即可得到所述M语句的分词结果。
接下来以一个具体的例子,详细描述本发明实施例提供的技术方案。比如,获取到的M语句为“北京轨道交通大台线”,预设长度为4。首先,将第一个子句“北京轨道”与训练语料库进行精确匹配。
如果“北京轨道”与训练语料库精确匹配成功,则从训练语料库中获取“北京轨道”精确匹配的分词结果,并在“北京轨道”尾部加上一个后续字符“交”组成“北京轨道交”,将“北京轨道交”与所述训练语料库进行精确匹配;若“北京轨道交”与所述训练语料库精确匹配成功,则在“北京轨道交”的尾部再加一个后续字符“通”,组成“北京轨道交通”,将其与所述训练语料库进行精确匹配,若精确匹配成功,则在“北京轨道交通”再加入一个后续字符,以此方法进行后续的匹配,直至全部字符精确匹配成功,或者加入某个字符后,精确匹配失败。比如,“北京轨道交”与所述训练语料库精确匹配失败,则将“北京轨道”按照精确匹配的分词结果进行分词,将“交”与后续三个字符“通大台”组成一个长度为4的字符串“交通大台”与所述训练语料库进行精确匹配,继续重复上述精确匹配过程。
如果“北京轨道”与训练语料库精确匹配失败,则将“北京轨道”与训练语料库进行模糊匹配,即在所述训练语料库中查找与所述“北京轨道”的字符重叠率大于预设阈值的字符串,比如,查找到的字符串为“北京生活”,“北京生活”在所述训练语料库对应的分词结果为“北京/生活”,则“北京轨道”模糊匹配的分词结果为“北京/轨道”。接下来,将“北京轨道”后续的长度为4的子句即“交通大台”与所述训练语料库进行精确匹配。如果“交通大台”与所述训练语料库精确匹配失败,则将其与所述训练语料库进行模糊匹配。
当“北京轨道交通大台线”中的每一个字符所在的字符串均获取到对应的分词结果,则停止上述匹配过程,将所有的分词结果进行合并,即可得到所述“北京轨道交通大台线”的分词结果。
本发明实施例提供的中文分词方法,通过获取待分词的M语句,对所述M语句进行两个阶段的处理,阶段一提出语料库精确匹配方法,在训练语料库直接找到子句的分词结果,对于找不到精确匹配的子句进入阶段二,提出实例类推的分词方法,即先模糊匹配找到近似字符串,再通过实例类推,根据模糊字符串的分词结果得到目标分词结果。该方法很好的解决了当前特定工程领域不具备大规模语料库,尽可能地利用当前有限的语料库进行中文分词。
可选的,在上述实施例的基础上,所述获取所述模糊匹配的分词结果,具体为:
从所述训练语料库中获取第三字符串的全部第三分词结果以及对应的统计概率;其中,所述第三字符串与所述第一字符串模糊匹配成功;
根据统计概率大于预设概率阈值的第三分词结果,对所述第一字符串进行分词。
具体地,上述实施例中提及的将所述第一字符串与所述训练语料库进行模糊匹配,获取所述模糊匹配的分词结果,具体包括,在所述训练语料库中查找与所述第一字符串的字符重叠率大于预设阈值的第三字符串,根据这种方法查找到的第三字符串可以有多种,对应的分词结果也可以有多种,为了从中选取一种适合的分词结果,在获取第三字符串对应的分词结果的同时,获取该分词结果对应的统计概率,预设一个概率阈值,将统计概率大于预设概率阈值的分词结果,作为所述第一字符串模糊匹配的分词结果。
本发明实施例提供的中文分词方法,通过获取模糊匹配的分词结果及其对应的统计概率,将统计概率大于预设概率阈值的分词结果作为所述第一字符串模糊匹配的分词结果,使得所述分词方法更加合理。
可选的,在上述各实施例的基础上,所述M语句是指将待分词语句按照预设规则进行划分,得到的若干个M语句中的一个。
可选的,在上述各实施例的基础上,所述预设规则具体为:
以标点符号为标志,将待分词语句划分为若干个M语句。
具体地,首先将所述待分词语句按照预设的规则进行划分,将其分成若干个M语句,上述实施例中提及的M语句是将待分词语句划分之后得到的若干个M语句中的一个,其中,所述预设规则具体为以标点符号为标志,将待分词语句进行划分。
在进行中文分词前,首先应对待分词语句进行分割,分为以句子为单位的一个个语句片段。因为,以逗号、分号来分割的语句通常能表达完整的语义信息,所以本发明实施例主要使用逗号、分号等标点符号作为子句的分隔符号,以它们为标志进行语句的分句处理。
本发明实施例提供的中文分词方法,通过将将待分词语句按照预设的规则进行划分,所述预设规则具体为以标点符号为标志,将待分词语句进行划分,得到多个M语句,对每一个M语句进行分词处理,使得所述中文分词方法更加科学、合理。
可选的,在上述各实施例的基础上,在所述以标点符号为标志,将待分词语句划分为若干个M语句之前,还包括数据预处理过程,具体为:
将所述待分词语句中的连续数字字符替换成一个数字标记,将连续英文字母替换成一个英文单词标记。
具体地,在将待分词语句进行划分之前,首先将其中包含的连续数字字符替换成一个数字标记,将连续英文字母替换成一个英文单词标记,然后进行后续的操作。
工程招标领域内中文分词的训练语料中,英文与数字出现的次数相对较少,为了简化处理流程,将重点放在汉字分割,本发明实施例提供的技术方案包括数据预处理步骤,将所有的连续数字字符替换成一个专门的数字标记“NUMBER”,将所有连续的英文字母替换成一个专门的英文单词标记“WORD”。其中“NUMBER”“WORD”在训练时都当作一个字符来考虑。
本发明实施例提供的中文分词方法,通过将待分词语句中的连续数字字符替换成一个数字标记,将连续英文字母替换成一个英文单词标记,可以简化处理流程,使得所述中文分词方法更加科学。
图2为本发明实施例提供的中文分词装置的结构示意图,如图2所示,所述装置包括:获取模块21、第一精确匹配模块22、第二精确匹配模块23、模糊匹配模块24以及分词结果合并模块25,其中:
获取模块21用于获取待进行中文分词的M语句;第一精确匹配模块22用于将第一字符串与训练语料库进行精确匹配,所述第一字符串是指所述M语句中的第i个预设长度的子句;其中,i的初始值为1,所述精确匹配是指所述第一字符串与所述训练语料库中的字符串完全一致;第二精确匹配模块23用于将第二字符串与所述训练语料库进行精确匹配,所述第二字符串是指在所述第一字符串的尾部,加入与所述第一字符串的末尾字符相邻、且排序靠后的j个字符而得到的字符串;其中,j的初始值为1;模糊匹配模块24用于将所述第一字符串与训练语料库进行模糊匹配,获取所述模糊匹配的分词结果;其中,所述模糊匹配是指,所述第一字符串与所述训练语料库中的字符串的字符重叠率大于预设的阈值;分词结果合并模块25用于将所述精确匹配的分词结果和所述模糊匹配的分词结果进行合并。
具体地,获取模块21获取待进行中文分词的M语句,将M语句划分成具有预设长度的子句;第一精确匹配模块22将所述M语句中的第一个子句组成的第一字符串与训练语料库进行精确匹配,若所述第一字符串与所述训练语料库精确匹配成功,则第二精确匹配模块23从所述训练语料库中直接获取精确匹配的分词结果,然后在所述第一字符串的末尾在加入一个字符,得到第二字符串,将所述第二字符串与所述训练语料库进行精确匹配,若匹配成功,则从所述训练语料料库中获取精确匹配的分词结果,并在所述第一字符串的末尾加上两个字符,继续与所述训练语料库进行精确匹配,直至所述M语句中的所有字符组成的字符串与所述训练语料库都精确匹配成功,或者在所述第一字符串的末尾加上j(j的最小值为1)个字符之后,精确匹配失败。若在所述第一字符串的末尾加上j个字符之后,精确匹配失败,则第一字符串的末尾加上j-1个字符组成的L1字符串的精确匹配成功,根据精确匹配的分词结果对所述L1字符串进行分词,将第j个字符与后续字符组成一个具有预设长度的子句,将该子句与所述训练语料库进行精确匹配,并且重复上述精确匹配过程。
若所述第一字符串与所述训练语料库精确匹配失败,则模糊匹配模块24将所述第一字符串与所述训练语料库进行模糊匹配,然后从所述训练语料库中获取查找到的字符串对应的分词结果,该分词结果即为所述第一字符串的模糊匹配的分词结果。然后,将所述第一字符串后续的具有预设长度的子句与所述训练语料库进行精确匹配,重复上述精确匹配的过程。
当所述M语句中的所有字符所在的子句均已获取到对应的分词结果,分词结果合并模块25将这些分词结果进行合并,即可得到所述M语句的分词结果。
本发明实施例提供的中文分词装置,其功能具体参照上述方法实施例,此处不再赘述。
本发明实施例提供的中文分词装置,通过获取待分词的M语句,对所述M语句进行两个阶段的处理,阶段一提出语料库精确匹配方法,在训练语料库直接找到子句的分词结果,对于找不到精确匹配的子句进入阶段二,提出实例类推的分词方法,即先模糊匹配找到近似字符串,再通过实例类推,根据模糊字符串的分词结果得到目标分词结果。该方法很好的解决了当前特定工程领域不具备大规模语料库,尽可能地利用当前有限的语料库进行中文分词。
可选的,在上述各实施例的基础上,所述模糊匹配模块包括:获取单元和分词单元,其中:
获取单元用于从所述训练语料库中获取第三字符串的所有的第三分词结果以及对应的统计概率;其中,所述第三字符串与所述第一字符串模糊匹配成功;分词单元用于根据统计概率大于预设概率阈值的第三分词结果,对所述第一字符串进行分词。
具体地,上述实施例中提及的模糊匹配模块包括获取单元和分词单元,在所述训练语料库中查找与所述第一字符串的字符重叠率大于预设阈值的第三字符串,根据这种方法查找到的第三字符串可以有多种,对应的分词结果也可以有多种,为了从中选取一种适合的分词结果,获取单元在获取每一种分词结果的同时,获取该分词结果对应的统计概率,分词单元预设一个概率阈值,将统计概率大于预设概率阈值的分词结果,作为所述第一字符串的模糊匹配结果。
本发明实施例提供的中文分词装置,通过获取模糊匹配的分词结果及其对应的统计概率,将统计概率大于预设概率阈值的分词结果作为所述第一字符串模糊匹配的分词结果,使得所述分词装置更加合理。
可选的,在上述各实施例的基础上,所述获取模块获取到的M语句是指将待分词语句按照预设规则进行划分,得到的若干个M语句中的一个。
具体地,所述获取模块首先将所述待分词语句按照预设的规则进行划分,将其分成若干个M语句,上述实施例中提及的M语句是将待分词语句划分之后得到的若干个M语句中的一个。
本发明实施例提供的中文分词装置,通过将将所述待分词语句按照预设的规则进行划分,得到多个M语句,对每一个M语句进行分词处理,使得所述中文分词装置更加科学、合理。
图3为本发明实施例提供的中文分词设备的结构示意图,如图3所示,所述中文分词设备包括:处理器(processor)31、存储器(memory)32和总线33,其中:
所述处理器31和所述存储器32通过所述总线33完成相互间的通信;所述处理器31用于调用所述存储器32中的程序指令,以执行上述各方法实施例所提供的方法,例如包括:S1、获取待进行中文分词的M语句;S2、将第一字符串与训练语料库进行精确匹配,所述第一字符串是所述M语句中第i个预设长度的子句,若匹配成功,获取所述精确匹配的分词结果,进入步骤S3,若匹配失败,进入步骤S4;其中,i的初始值为1,所述精确匹配是指所述第一字符串与所述训练语料库中的字符串完全一致;S3、将第二字符串与所述训练语料库进行精确匹配,所述第二字符串是指在所述第一字符串的尾部,加入与所述第一字符串的末尾字符相邻、且排序靠后的j个字符而得到的字符串;其中,j的初始值为1,若匹配失败,将i的值增加所述预设长度,进入步骤S2;若匹配成功,获取所述精确匹配的分词结果,将j的值增加1,重复步骤S3;S4、将所述第一字符串与训练语料库进行模糊匹配,获取所述模糊匹配的分词结果,然后,将所述i的值增加所述预设长度,进入步骤S2;其中,所述模糊匹配是指,所述第一字符串与所述训练语料库中的字符串的字符重叠率大于预设的阈值;S5、若所述S2至S4中任一执行完毕之后,所述M语句中的所有字符所在的子句均已获取到对应的分词结果,则终止所述S2至S4,并将所述精确匹配的分词结果和所述模糊匹配的分词结果进行合并。
本发明实施例公开一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法实施例所提供的方法,例如包括:S1、获取待进行中文分词的M语句;S2、将第一字符串与训练语料库进行精确匹配,所述第一字符串是所述M语句中第i个预设长度的子句,若匹配成功,获取所述精确匹配的分词结果,进入步骤S3,若匹配失败,进入步骤S4;其中,i的初始值为1,所述精确匹配是指所述第一字符串与所述训练语料库中的字符串完全一致;S3、将第二字符串与所述训练语料库进行精确匹配,所述第二字符串是指在所述第一字符串的尾部,加入与所述第一字符串的末尾字符相邻、且排序靠后的j个字符而得到的字符串;其中,j的初始值为1,若匹配失败,将i的值增加所述预设长度,进入步骤S2;若匹配成功,获取所述精确匹配的分词结果,将j的值增加1,重复步骤S3;S4、将所述第一字符串与训练语料库进行模糊匹配,获取所述模糊匹配的分词结果,然后,将所述i的值增加所述预设长度,进入步骤S2;其中,所述模糊匹配是指,所述第一字符串与所述训练语料库中的字符串的字符重叠率大于预设的阈值;S5、若所述S2至S4中任一执行完毕之后,所述M语句中的所有字符所在的子句均已获取到对应的分词结果,则终止所述S2至S4,并将所述精确匹配的分词结果和所述模糊匹配的分词结果进行合并。
本发明实施例提供一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行上述各方法实施例所提供的方法,例如包括:S1、获取待进行中文分词的M语句;S2、将第一字符串与训练语料库进行精确匹配,所述第一字符串是所述M语句中第i个预设长度的子句,若匹配成功,获取所述精确匹配的分词结果,进入步骤S3,若匹配失败,进入步骤S4;其中,i的初始值为1,所述精确匹配是指所述第一字符串与所述训练语料库中的字符串完全一致;S3、将第二字符串与所述训练语料库进行精确匹配,所述第二字符串是指在所述第一字符串的尾部,加入与所述第一字符串的末尾字符相邻、且排序靠后的j个字符而得到的字符串;其中,j的初始值为1,若匹配失败,将i的值增加所述预设长度,进入步骤S2;若匹配成功,获取所述精确匹配的分词结果,将j的值增加1,重复步骤S3;S4、将所述第一字符串与训练语料库进行模糊匹配,获取所述模糊匹配的分词结果,然后,将所述i的值增加所述预设长度,进入步骤S2;其中,所述模糊匹配是指,所述第一字符串与所述训练语料库中的字符串的字符重叠率大于预设的阈值;S5、若所述S2至S4中任一执行完毕之后,所述M语句中的所有字符所在的子句均已获取到对应的分词结果,则终止所述S2至S4,并将所述精确匹配的分词结果和所述模糊匹配的分词结果进行合并。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
以上所描述的中文分词设备等实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上各实施例仅用以说明本发明的实施例的技术方案,而非对其限制;尽管参照前述各实施例对本发明的实施例进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明的实施例各实施例技术方案的范围。
Claims (10)
1.一种中文分词方法,其特征在于,包括:
S1、获取待进行中文分词的M语句;
S2、将第一字符串与训练语料库进行精确匹配,所述第一字符串是所述M语句中第i个预设长度的子句,若匹配成功,获取所述精确匹配的分词结果,进入步骤S3,若匹配失败,进入步骤S4;其中,i的初始值为1,所述精确匹配是指所述第一字符串与所述训练语料库中的字符串完全一致;
S3、将第二字符串与所述训练语料库进行精确匹配,所述第二字符串是指在所述第一字符串的尾部,加入与所述第一字符串的末尾字符相邻、且排序靠后的j个字符而得到的字符串;其中,j的初始值为1,若匹配失败,将i的值增加所述预设长度,进入步骤S2;若匹配成功,获取所述精确匹配的分词结果,将j的值增加1,重复步骤S3;
S4、将所述第一字符串与训练语料库进行模糊匹配,获取所述模糊匹配的分词结果,然后,将所述i的值增加所述预设长度,进入步骤S2;其中,所述模糊匹配是指,所述第一字符串与所述训练语料库中的字符串的字符重叠率大于预设的阈值;
S5、若所述S2至S4中任一执行完毕之后,所述M语句中的所有字符所在的子句均已获取到对应的分词结果,则终止所述S2至S4,并将所述精确匹配的分词结果和所述模糊匹配的分词结果进行合并。
2.根据权利要求1所述的方法,其特征在于,步骤S4中所述获取所述模糊匹配的分词结果,具体为:
从所述训练语料库中获取第三字符串的全部第三分词结果以及对应的统计概率;其中,所述第三字符串与所述第一字符串模糊匹配成功;
根据统计概率大于预设概率阈值的第三分词结果,对所述第一字符串进行分词。
3.根据权利要求1所述的方法,其特征在于,所述M语句是指将待分词语句按照预设规则进行划分,得到的若干个M语句中的一个。
4.根据权利要求3所述的方法,其特征在于,所述预设规则具体为:
以标点符号为标志,将待分词语句划分为若干个M语句。
5.根据权利要求4所述的方法,其特征在于,在所述以标点符号为标志,将待分词语句划分为若干个M语句之前,还包括数据预处理过程,具体为:
将所述待分词语句中的连续数字字符替换成一个数字标记,将连续英文字母替换成一个英文单词标记。
6.一种中文分词装置,其特征在于,包括:
获取模块,用于获取待进行中文分词的M语句;
第一精确匹配模块,用于将第一字符串与训练语料库进行精确匹配,所述第一字符串是指所述M语句中的第i个预设长度的子句;其中,i的初始值为1,所述精确匹配是指所述第一字符串与所述训练语料库中的字符串完全一致;
第二精确匹配模块,用于将第二字符串与所述训练语料库进行精确匹配,所述第二字符串是指在所述第一字符串的尾部,加入与所述第一字符串的末尾字符相邻、且排序靠后的j个字符而得到的字符串;其中,j的初始值为1;
模糊匹配模块,用于将所述第一字符串与训练语料库进行模糊匹配,获取所述模糊匹配的分词结果;其中,所述模糊匹配是指,所述第一字符串与所述训练语料库中的字符串的字符重叠率大于预设的阈值;
分词结果合并模块,用于将所述精确匹配的分词结果和所述模糊匹配的分词结果进行合并。
7.根据权利要求6所述的装置,其特征在于,所述模糊匹配模块,包括:
获取单元,用于从所述训练语料库中获取第三字符串的所有的第三分词结果以及对应的统计概率;其中,所述第三字符串与所述第一字符串模糊匹配成功;
分词单元,用于根据统计概率大于预设概率阈值的第三分词结果,对所述第一字符串进行分词。
8.根据权利要求6所述的装置,其特征在于,所述获取模块获取到的M语句是指将待分词语句按照预设规则进行划分,得到的若干个M语句中的一个。
9.一种中文分词设备,其特征在于,包括存储器和处理器,所述处理器和所述存储器通过总线完成相互间的通信;所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行如权利要求1至5任一所述的方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1至5任一所述的方法。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN201710570808.7A CN109255117A (zh) | 2017-07-13 | 2017-07-13 | 中文分词方法及装置 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN201710570808.7A CN109255117A (zh) | 2017-07-13 | 2017-07-13 | 中文分词方法及装置 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| CN109255117A true CN109255117A (zh) | 2019-01-22 |
Family
ID=65051183
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| CN201710570808.7A Pending CN109255117A (zh) | 2017-07-13 | 2017-07-13 | 中文分词方法及装置 |
Country Status (1)
| Country | Link |
|---|---|
| CN (1) | CN109255117A (zh) |
Cited By (9)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN110209898A (zh) * | 2019-05-31 | 2019-09-06 | 苏州狗尾草智能科技有限公司 | 基于人机交互的数据清洗方法、回复方法、装置及介质 |
| CN111858830A (zh) * | 2020-03-27 | 2020-10-30 | 北京梦天门科技股份有限公司 | 基于自然语言处理的卫生监督执法数据检索系统及其方法 |
| CN112069812A (zh) * | 2020-08-28 | 2020-12-11 | 喜大(上海)网络科技有限公司 | 一种分词方法、装置、设备及计算机存储介质 |
| CN112131866A (zh) * | 2020-09-25 | 2020-12-25 | 马上消费金融股份有限公司 | 一种分词方法、装置、设备及可读存储介质 |
| CN113255328A (zh) * | 2021-06-28 | 2021-08-13 | 北京京东方技术开发有限公司 | 语言模型的训练方法及应用方法 |
| CN113919337A (zh) * | 2021-11-02 | 2022-01-11 | 湖南快乐阳光互动娱乐传媒有限公司 | 短信拦截方法及装置、存储介质及电子设备 |
| CN113987118A (zh) * | 2021-09-29 | 2022-01-28 | 阿里巴巴(中国)有限公司 | 语料的获取方法、装置、设备及存储介质 |
| CN114676697A (zh) * | 2022-03-01 | 2022-06-28 | 达闼机器人股份有限公司 | 分词方法及装置 |
| CN115840510A (zh) * | 2023-02-21 | 2023-03-24 | 中航信移动科技有限公司 | 用于民航智能问答的输入联想方法、电子设备及存储介质 |
Citations (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN102968409A (zh) * | 2012-11-23 | 2013-03-13 | 海信集团有限公司 | 智能人机交互语义分析方法及交互系统 |
| CN104156415A (zh) * | 2014-07-31 | 2014-11-19 | 沈阳锐易特软件技术有限公司 | 解决医疗数据标准编码对照问题的映射处理系统及方法 |
| WO2016130331A1 (en) * | 2015-02-12 | 2016-08-18 | Microsoft Technology Licensing, Llc | Finding documents describing solutions to computing issues |
-
2017
- 2017-07-13 CN CN201710570808.7A patent/CN109255117A/zh active Pending
Patent Citations (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN102968409A (zh) * | 2012-11-23 | 2013-03-13 | 海信集团有限公司 | 智能人机交互语义分析方法及交互系统 |
| CN104156415A (zh) * | 2014-07-31 | 2014-11-19 | 沈阳锐易特软件技术有限公司 | 解决医疗数据标准编码对照问题的映射处理系统及方法 |
| WO2016130331A1 (en) * | 2015-02-12 | 2016-08-18 | Microsoft Technology Licensing, Llc | Finding documents describing solutions to computing issues |
Cited By (14)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN110209898A (zh) * | 2019-05-31 | 2019-09-06 | 苏州狗尾草智能科技有限公司 | 基于人机交互的数据清洗方法、回复方法、装置及介质 |
| CN111858830B (zh) * | 2020-03-27 | 2023-11-14 | 北京梦天门科技股份有限公司 | 基于自然语言处理的卫生监督执法数据检索系统及其方法 |
| CN111858830A (zh) * | 2020-03-27 | 2020-10-30 | 北京梦天门科技股份有限公司 | 基于自然语言处理的卫生监督执法数据检索系统及其方法 |
| CN112069812A (zh) * | 2020-08-28 | 2020-12-11 | 喜大(上海)网络科技有限公司 | 一种分词方法、装置、设备及计算机存储介质 |
| CN112069812B (zh) * | 2020-08-28 | 2024-05-03 | 喜大(上海)网络科技有限公司 | 一种分词方法、装置、设备及计算机存储介质 |
| CN112131866A (zh) * | 2020-09-25 | 2020-12-25 | 马上消费金融股份有限公司 | 一种分词方法、装置、设备及可读存储介质 |
| CN113255328B (zh) * | 2021-06-28 | 2024-02-02 | 北京京东方技术开发有限公司 | 语言模型的训练方法及应用方法 |
| CN113255328A (zh) * | 2021-06-28 | 2021-08-13 | 北京京东方技术开发有限公司 | 语言模型的训练方法及应用方法 |
| CN113987118A (zh) * | 2021-09-29 | 2022-01-28 | 阿里巴巴(中国)有限公司 | 语料的获取方法、装置、设备及存储介质 |
| CN113919337A (zh) * | 2021-11-02 | 2022-01-11 | 湖南快乐阳光互动娱乐传媒有限公司 | 短信拦截方法及装置、存储介质及电子设备 |
| CN113919337B (zh) * | 2021-11-02 | 2025-02-18 | 湖南快乐阳光互动娱乐传媒有限公司 | 短信拦截方法及装置、存储介质及电子设备 |
| CN114676697A (zh) * | 2022-03-01 | 2022-06-28 | 达闼机器人股份有限公司 | 分词方法及装置 |
| CN114676697B (zh) * | 2022-03-01 | 2025-07-11 | 达闼机器人股份有限公司 | 分词方法及装置 |
| CN115840510A (zh) * | 2023-02-21 | 2023-03-24 | 中航信移动科技有限公司 | 用于民航智能问答的输入联想方法、电子设备及存储介质 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CN109255117A (zh) | 中文分词方法及装置 | |
| CN110598203B (zh) | 一种结合词典的军事想定文书实体信息抽取方法及装置 | |
| CN103198149B (zh) | 一种查询纠错方法和系统 | |
| CN105373529B (zh) | 一种基于隐马尔科夫模型的智能分词方法 | |
| Fonseca et al. | Mac-morpho revisited: Towards robust part-of-speech tagging | |
| CN108845982B (zh) | 一种基于词的关联特征的中文分词方法 | |
| CN105138514B (zh) | 一种基于词典的正向逐次加一字最大匹配中文分词方法 | |
| CN111079768A (zh) | 一种基于ocr的文字图像识别方法及装置 | |
| CN110853625B (zh) | 语音识别模型分词训练方法、系统、移动终端及存储介质 | |
| CN103646018A (zh) | 一种基于hash散列表词典结构的中文分词方法 | |
| CN107608968A (zh) | 面向文本大数据的中文分词方法、装置 | |
| CN110413972B (zh) | 一种基于nlp技术的表名字段名智能补全方法 | |
| CN107679110A (zh) | 结合文本分类与图片属性提取完善知识图谱的方法及装置 | |
| CN114860942B (zh) | 文本意图分类方法、装置、设备及存储介质 | |
| CN112231451A (zh) | 指代词恢复方法、装置、对话机器人及存储介质 | |
| CN111597302B (zh) | 文本事件的获取方法、装置、电子设备及存储介质 | |
| CN114595338A (zh) | 基于混合特征表示的实体关系联合抽取系统及方法 | |
| CN105956158A (zh) | 基于海量微博文本和用户信息的网络新词自动提取的方法 | |
| CN106610937A (zh) | 一种基于信息论的中文自动分词算法 | |
| CN105095196A (zh) | 文本中新词发现的方法和装置 | |
| CN107256212A (zh) | 中文搜索词智能切分方法 | |
| CN113420766B (zh) | 一种融合语言信息的低资源语种ocr方法 | |
| CN114265922A (zh) | 基于跨语言的自动问答、模型训练方法及设备 | |
| CN107797986A (zh) | 一种基于lstm‑cnn的混合语料分词方法 | |
| CN107943783A (zh) | 一种基于lstm‑cnn的分词方法 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| PB01 | Publication | ||
| PB01 | Publication | ||
| SE01 | Entry into force of request for substantive examination | ||
| SE01 | Entry into force of request for substantive examination | ||
| RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190122 |