[go: up one dir, main page]

CN104991889A - 一种基于模糊分词的非多字词错误自动校对方法 - Google Patents

一种基于模糊分词的非多字词错误自动校对方法 Download PDF

Info

Publication number
CN104991889A
CN104991889A CN201510361877.8A CN201510361877A CN104991889A CN 104991889 A CN104991889 A CN 104991889A CN 201510361877 A CN201510361877 A CN 201510361877A CN 104991889 A CN104991889 A CN 104991889A
Authority
CN
China
Prior art keywords
word
fuzzy
segmentation
similarity
chinese
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510361877.8A
Other languages
English (en)
Other versions
CN104991889B (zh
Inventor
刘亮亮
吴健康
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Southern Power Grid Internet Service Co ltd
Jingchuang United Beijing Intellectual Property Service Co ltd
Original Assignee
Jiangsu University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangsu University of Science and Technology filed Critical Jiangsu University of Science and Technology
Priority to CN201510361877.8A priority Critical patent/CN104991889B/zh
Publication of CN104991889A publication Critical patent/CN104991889A/zh
Application granted granted Critical
Publication of CN104991889B publication Critical patent/CN104991889B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Document Processing Apparatus (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于模糊分词的非多字词错误自动校对方法,该方法基于正确词词典与错字词词典进行精确切分,生成词图,然后利用模糊匹配算法计算中文词串的相似度,对精确切分的散串进行模糊匹配,将模糊匹配的结果加入到词图中,形成模糊词图,最后利用结合相似度的词的二元模型来计算模糊词图的最短路径,从而实现汉语非多字词错误的自动校对。本发明提供的基于模糊分词的非多字词错误自动校对方法,系统响应快、精度符合实际应用需求,有效性和准确性高。

Description

一种基于模糊分词的非多字词错误自动校对方法
技术领域
本发明涉及人工智能计算机领域中的自然语言处理,特别涉及中文文本自动校对领域。
背景技术
随着信息处理技术和互联网的高速发展,传统的文本工作几乎全部被计算机所取代,电子书、电子报纸、电子邮件、办公文件等电子文本、博客、微博等都成为人们日常生活的一部分,然而文本中的错误也越来越多,这给校对工作带来了很大的挑战。传统的人工校对效率低、强度大、周期长显然不能满足文本校对的需求。
文本自动校对是自然语言处理的主要应用之一,也是自然语言理解的难题。随着技术的发展,英文文本自动校对取得非常好的效果,已经商业化。相比与英文,汉语文本自动校对有以下几个难题:
1)中文文本校对没有类似于英文的“非词错误”——不在字典中的词,可以通过查字典来发现错误;中文文本中的汉字都会出现在字典中。
2)中文文本校对首先要进行中文分词,如果一个词中出现错别字,在分词的时候会分成单字散串——非多字词错误,这对中文文本的查错方法带来了难度。
3)中文中出现单字散串不一定有错别字,因为中文单字成词的能力非常强;
4)除了非多字词错误以外,中文中常把一个词写错成另外一个词典中的词,这种错误称为真词错误,这也是中文文本自动校对的难点;
针对上述几个问题,本发明提出并且实现了中文非多字词错误的自动查错和自动校对方法。
发明内容
发明目的:为了克服现有技术中存在的不足,本发明提供一种基于模糊分词的非多字词错误自动校对方法。
技术方案:为解决上述技术问题,本发明提供一种基于模糊分词的非多字词错误自动校对方法,该方法通过模糊分词的方法进行自动校对,包括以下步骤:
1)利用基于正确词词典和错字词词典建立的双数组Tire树结构,采用最大匹配方法对中文句子进行精确切分,建立精确分词词图,并对基于错字词词典进行精确切分的结果进行标记,同时将所述中文句子与错字词词典匹配的错字词对应的正确词加 入到词图中;
2)采用模糊匹配方法对精确切分的分词结果中的散串进行模糊匹配,得到与散串对应的相似的词及其相似度,将得到的与散串对应的相似的词加入到精确分词词图,形成模糊分词词图;
3)基于结合相似度的词的二元模型,计算模糊分词词图的最短路径,从而得到最终的切分结果,标记切分结果中的模糊匹配节点对应的原串为发现的错误,以实现汉语非多字词错误自动校对。
优选的,所述步骤1)包括以下步骤:
步骤11)建立正确词词典的双数组Trie树结构DicTrie;
步骤12)建立错字词词典的双数组Trie树结构TypoDicTrie:(TypoWord,CorrectWord),其中TypoWord为错字词,CorrectWord为该错字词对应的正确词;
步骤13)基于正确词词典的双数组Trie树结构DicTrie,采用最大匹配方法对所述中文句子进行精确切分,将切分后的词加入到词图中建立精确分词词图;
步骤14)基于错字词词典的双数组Trie树结构TypoDicTrie,采用最大匹配方法对所述中文句子进行精确切分,并对句子进行标记:将句子中搜索出的错字词词典中的错字词TypoWord标记为错误的词,并标记出与其对应的正确词CorrectWord;同时将句子中的各错词词TypoWord对应的正确词CorrectWord加入到精确分词词图中。
优选的,所述步骤2)包括:
遍历通过步骤1)精确分词后的中文句子中的字符,对各字符采用模糊匹配方法进行模糊匹配;计算模糊匹配上的字符串和与其对应的散串的相似度;判断相似度是否不小于阈值tw,对相似度不小于阈值的模糊匹配上的字符串作为与其对应的散串的相似的词,并将其作为模糊匹配节点加入到精确分词词图中形成模糊分词词图,直到句子中的字符被遍历完;
其中所述计算模糊匹配上的字符串W2和与其对应的散串W1的相似度为:
其中:中文串W1=c1c2…cn,W2=d1d2…dm,editdis(W1,W2)为两个字符串的距离函数:
其中:sim(ci,di)为汉字ci与di的相似度:
其中:PSim(ci,di)为汉字ci和汉字di的拼音相似度,SSim(ci,di)为汉字ci和汉字di的形相似度,α和β分别表示拼音相似度和形相似度的权重,α+β=1。
优选的,上述模糊匹配方法是通过单字替换、多字替换或缺字替换来进行的,所述单字替换为基于形相似的单字替换和/或基于音相似的单字替换。
优选的,对于用于用户输入法为拼音输入法或语音输入法的汉语非多字词错误自动校对方法,所述拼音相似度的权重α=1,形相似度的权重β=0。
作为优选的,对于用于OCR识别纠错的汉语非多字词错误自动校对方法,所述拼音相似度的权重α=0,形相似度的权重β=1。
优选的,对于用于用户输入法为拼音输入法和字形输入法的汉语非多字词错误自动校对方法,所述拼音相似度的权重α=0.5,形相似度的权重β=0.5。
优选的,所述步骤3)包括以下步骤:
步骤31)基于步骤1)对句子进行精确分词和步骤2)对句子进行模糊匹配后得到的模糊分词词图,得到多条路径,结合步骤2)得到的与散串对应的相似的词及其相似度,采用二元模型计算每种切分序列的概率:
其中W为词图中的某一条分词路径,Wi为路径中的第i个词,n是分词路径中词的个数;α(Wi-1,W′)表示对句子分词过程中原串为与模糊匹配节点对应的散串给予的惩罚值,当当前词是精确切分时α(Wi-1,W′)=1,否则α(Wi-1,W′)=sim(Wi-1,W′),即句子中模糊匹配的原串W'与匹配上的词Wi-1的相似度,也称为模糊匹配上的字符串Wi-1和与其对应的散串W'的相似度;
步骤32)根据步骤31)得到的模糊分词词图,利用图的Dijkstra算法求解最短 路径,从而得到最终的切分结果;
步骤33)对最短路径中的模糊匹配节点,标记其对应的原串为含有错别字的词,并且模糊匹配得到的相似的词为其对应正确的词,从而实现了汉语非多字词错误自动校对。
优选的,上述阈值tw为0.95。
有益效果:本发明提出了一种基于模糊分词的非多字词错误自动校对方法。该方法能在分词的过程中有效的对汉语文本中的“非多字词错误”进行识别和校对,并且采用的基于双数组Trie树的方法能快速的进行模糊分词。实验表明,本发明提供的模糊分词的“非多字词错误”自动校对的方法召回率达到75.9%,精度达到85%,纠正率达62%,纠错准确率达81.7%。系统响应快、精度符合实际应用需求,有效性和准确性高,具有较高的实用性。
附图说明
图1本发明提供的的模糊切分词图示例。
具体实施方式
下面结合附图和实施例对本发明作更进一步的说明。
本发明提供的一种基于模糊分词的非多字词错误自动校对方法,基于模糊分词的方法进行自动校对,包括以下步骤:
1)利用基于正确词词典和错字词词典建立的双数组Tire树结构,采用最大匹配方法对中文句子进行精确切分,建立精确分词词图,并对基于错字词词典进行精确切分的结果进行标记,同时将所述中文句子与错字词词典匹配的错字词对应的正确词加入到词图中。具体为:
首先利用正确词词典与错字词词典进行精确分词,建立精确分词词图,其中:
S:待切分的句子;Dic1:正确词词典,Dic2:错字词词典,po1:正确词典查找位置;pos2:错字词词典查找位置。
步骤11)建立正确词词典Dic1的双数组Trie树结构DicTrie;
步骤12)建立错字词词典Dic2的双数组Trie树结构TypoDicTrie:(TypoWord,CorrectWord),其中TypoWord为错字词,CorrectWord为该错字词对应的正确词;例如(无缘无古,无缘无故);
步骤13)基于正确词词典的双数组Trie树结构DicTrie,采用最大匹配方法对所述中文句子进行精确切分,将切分后的词加入到词图中建立精确分词词图,如图1所示,本 实施例在词图中用实线框表示精确切分;
本实施例中为:利用正确词典Dic1从pos1(初始设置为0)位置前向最大搜索,假设搜索出正确词词条word1,将其加入精确分词词图,pos1更新为word1之后的位置;否则pos1指向当前位置的下一个字;重复搜索直到pos1执行到句子S的末尾;步骤14)基于错字词词典的双数组Trie树结构TypoDicTrie,采用最大匹配方法对所述中文句子进行精确切分,并对句子进行标记:将句子中搜索出的错字词词典中的错字词TypoWord标记为错误的词,并标记出与其对应的正确词CorrectWord;同时将句子中的各错词词TypoWord对应的正确词CorrectWord加入到精确分词词图中,如图1所示,本实施例在词图中用虚线框表示。
本实施例中为:利用错误词典Dic2从pos2(初始设置为0)位置前向最大搜索,若搜索出错字词TypoWord,将其对应的正确词条CorrectWord加入精确分词词图,并对句子中的错字词及其对应的正确词进行标记,pos2更新为TypoWord之后的位置;否则pos2指向当前位置的下一个字;重复搜索直到pos1执行到句子S的末尾。
举例,句子S="你们为什么经常无原无故扣取我的活费"。
经过上述步骤13)精确分词后,结果如图1所示,“你们”、“为什么”、“经常”、“无”、“原”、“无故”、“扣”、“取”、“我”、“的”、“活”、“费”为精确切分的结果,在词图中用实线框表示;
经过上述步骤14)精确分词后,结果如图1所示,其中因为(无原无故,无缘无故)是错字词词典中的词,利用其进行分词后、“无”、“原”、“无故”替换后为“无缘无故”,在词图中用虚线框表示。
2)采用模糊匹配方法对精确切分的分词结果中的散串进行模糊匹配,得到与散串对应的相似的词及其相似度,将得到的与散串对应的相似的词加入到精确分词词图,形成模糊分词词图。具体包括:
遍历通过步骤1)精确分词后的中文句子中的字符,对各字符采用模糊匹配方法进行模糊匹配,所述模糊匹配方法是通过单字替换、多字替换或缺字替换来进行的,所述单字替换为基于形相似的单字替换和/或基于音相似的单字替换;通过中文串相似度公式计算模糊匹配上的字符串和与其对应的散串的相似度;判断相似度是否不小于阈值tw,对相似度不小于阈值的模糊匹配上的字符串作为与其对应的散串的相似的词,并将其作为模糊匹配节点加入到精确分词词图中形成模糊分词词图,直到句子中的字符被遍历完; 上述通过中文串相似度公式计算模糊匹配上的字符串W2和与其对应的散串W2的相似度为:
其中:中文串W1=c1c2…cn,W2=d1d2…dm,editdis(W1,W2)为两个字符串的距离函数:
其中:sim(ci,di)为汉字ci与di的相似度:
其中:PSim(ci,di)为汉字ci和汉字di的拼音相似度,SSim(ci,di)为汉字ci和汉字di的形相似度,α和β分别表示拼音相似度和形相似度的权重,α+β=1。
对于用于用户输入法为拼音输入法或语音输入法的汉语非多字词错误自动校对方法,所述拼音相似度的权重α=1,形相似度的权重β=0。
对于用于OCR识别纠错的汉语非多字词错误自动校对方法,所述拼音相似度的权重α=0,形相似度的权重β=1。
对于用于用户输入法为拼音输入法和字形输入法的汉语非多字词错误自动校对方法,所述拼音相似度的权重α=0.5,形相似度的权重β=0.5。
具体在本实施例中,通过以下步骤来实现的:
步骤20)给定中文句子的起始匹配的位置nCurr=0;
步骤21)从中文句子的当前位置nCurr,读入当前字符,对当前字符进行模糊匹配;
在模糊的过程中,当前位置的字可以是单字替换(通过字的形相似或音相似替换)、也可以是多字或缺字来计算相似度;
步骤22)利用中文串相似度公式计算两个字符串的相似度,即句子中模糊匹配的原串与匹配上的词的相似度,也可称为模糊匹配上的字符串和与其对应的散串的相似度,例如附图1中:
“无原”通过对“原”的拼音相似度和形相似度计算得到相似汉字“缘”等,利用中文 串相似度计算公式(1),计算中文串“无原”与汉语词典中的词“无缘”的相似度。
本实施例中用户输入法为拼音输入法和字形输入法,因此设定α=β=0.5;
步骤23)如果相似度小于阈值tw,则nCurr=nCurr+1,进入步骤21),否则进入步骤24);因为汉字的混淆度是非常高的,本实施例中,所述阈值tw为0.95,当然也可以根据实际应用进行调整,如0.90、0.92、0.98等;
步骤24)则相似度不小于阈值tw,得到一组相似的词和相似度(sFuzzyWord,next,sim),sFuzzyWord为匹配上的词,next为下一个要读入去进行模糊匹配的节点位置(next=nCur+1),sim是相似度,为从起始位置nCurr开始到匹配终止的位置的原串与sFuzzyWord进行计算相似度计算得到;如果next位置为句子的长度,则结束,否则更新nCurr为下一个要读入的位置next,跳回步骤21);
步骤25)将模糊匹配的相似度不小于阈值tw的相似的词,作为模糊匹配节点加入到精确分词词图,形成模糊分词词图;如图1所示,本实施例在词图中用虚线框表示。
在本实施例图1给出的示例中,散串“无”、“原”通过音相似模糊匹配找到词典中的词“无缘”,散串“活”、“费”通过形相似和缺字模糊匹配找到词典中的“话费”、“生活费”,将这些模糊匹配的节点加入到词图中,在词图中用虚线框表示。
3)基于结合相似度的词的二元模型,计算模糊分词词图的最短路径,从而得到最终的切分结果,标记切分结果中的模糊匹配节点对应的原串为发现的错误,以实现汉语非多字词错误自动校对。具体包括:
步骤31)基于步骤1)对句子进行精确分词和步骤2)对句子进行模糊匹配后得到的模糊分词词图,得到多条路径,结合步骤2)得到的与散串对应的相似的词及其相似度,采用二元模型计算每种切分序列的概率:
本发明采用结合相似度的词的二元模型来计算切分后的概率,对模糊切分的结果,加上一定的惩罚:其中W为词图中的某一条分词路径,Wi为路径中的第i个词,n是分词路径中词的个数;α(Wi-1,W′)表示对句子分词过程中原串为与模糊匹配节点对应的散串给予的惩罚值,如果当前词是精确切分,α(Wi-1,W′)=1,否则α(Wi-1,W′)=sim(Wi-1,W′),即句子中模糊匹配的原串W'与匹配上的词Wi-1的相似度,也可称为模 糊匹配上的字符串Wi-1和与其对应的散串W'的相似度;
步骤32)根据步骤31)得到的模糊分词词图,利用图的Dijkstra算法求解最短路径,从而得到最终的切分结果;
步骤33)对最短路径中的模糊匹配节点,标记其对应的原串为含有错别字的词,并且模糊匹配得到的相似的词为其对应正确的词,从而实现了汉语非多字词错误自动校对。
如图1给出的本实施例的示例中,经过精确分词与模糊分词生成的词图,采用结合相似度的二元模型对该图进行最短路径求解,得到路径:Path={“S”、“你们”、“经常”、“为什么”、“无缘无故”、“扣”、“取”、“我”、“的”、“话费”}概率最大,即是图的最短路径,其中路径中虚线框节点“无缘无故”、“话费”为模糊匹配的节点,则原句子中的原串“无原无故”、“活费”中包含错别字,与模糊匹配正确的词“无缘无故”、“话费”比较,“原”、“活”为句子中的错别字,“无原无故”、“活费”即为非多字词错误。
四、实验
经历过多次开放的测试,实验采用2万行句子的测试语料,其中包含664处非多字词错误,其中非多字词错误包括别字替换型非多字词错误、字插入型非多字词错误以及字删除型非多字词错误。实验结果表明,本发明提供的非多字词错误识别召回率达到75.9%,精度为85%,纠正率达到62%,纠错准确率为81.7%,这一精度超过了现有技术,达到了实际应用的需求,具有较高的有效性和准确性。
以上实施列仅是本发明的较佳实施例,对本发明不构成限定,相关工作人员在不偏离本发明技术思想的范围内,所进行的任何修改、等同替换、改进等,均落在本发明的保护范围内。

Claims (9)

1.一种基于模糊分词的非多字词错误自动校对方法,其特征在于通过模糊分词的方法进行自动校对,包括以下步骤:
1)利用基于正确词词典和错字词词典建立的双数组Tire树结构,采用最大匹配方法对中文句子进行精确切分,建立精确分词词图,并对基于错字词词典进行精确切分的结果进行标记,同时将所述中文句子与错字词词典匹配的错字词对应的正确词加入到词图中;
2)采用模糊匹配方法对精确切分的分词结果中的散串进行模糊匹配,得到与散串对应的相似的词及其相似度,将得到的与散串对应的相似的词加入到精确分词词图,形成模糊分词词图;
3)基于结合相似度的词的二元模型,计算模糊分词词图的最短路径,从而得到最终的切分结果,标记切分结果中的模糊匹配节点对应的原串为发现的错误,以实现汉语非多字词错误自动校对。
2.根据权利要求1所述的基于模糊分词的非多字词错误自动校对方法,其特征在于所述步骤1)包括以下步骤:
步骤11)建立正确词词典的双数组Trie树结构DicTrie;
步骤12)建立错字词词典的双数组Trie树结构TypoDicTrie:(TypoWord,CorrectWord),其中TypoWord为错字词,CorrectWord为该错字词对应的正确词;
步骤13)基于正确词词典的双数组Trie树结构DicTrie,采用最大匹配方法对所述中文句子进行精确切分,将切分后的词加入到词图中建立精确分词词图;
步骤14)基于错字词词典的双数组Trie树结构TypoDicTrie,采用最大匹配方法对所述中文句子进行精确切分,并对句子进行标记:将句子中搜索出的错字词词典中的错字词TypoWord标记为错误的词,并标记出与其对应的正确词CorrectWord;同时将句子中的各错词词TypoWord对应的正确词CorrectWord加入到精确分词词图中。
3.根据权利要求1所述的基于模糊分词的非多字词错误自动校对方法,其特征在于所述步骤2)包括:
遍历通过步骤1)精确分词后的中文句子中的字符,对各字符采用模糊匹配方法进行模糊匹配;计算模糊匹配上的字符串和与其对应的散串的相似度;判断相似度是否不小于阈值tw,对相似度不小于阈值的模糊匹配上的字符串作为与其对应的散串的相似的词,并将其作为模糊匹配节点加入到精确分词词图中形成模糊分词词图,直到句子中的字符被遍历完;
其中所述计算模糊匹配上的字符串W2和与其对应的散串W1的相似度为:
S i m ( W 1 , W 2 ) = 1 - e d i t d i s ( W 1 W 2 ) m a x ( m , n ) - - - ( 1 ) ;
其中:中文串W1=c1c2...cn,W2=d1d2...dm,editdis(W1,W2)为两个字符串的距离函数:
e d i t d i s ( W 1 , W 2 ) = max { e d i t d i s ( c 2 ... c n , d 1 ... d m ) + 1 e d i t d i s ( c 1 ... c n , d 2 ... d m ) + 1 e d i t d i s ( c 2 ... c n , d 1 ... d m ) + 1 ( 1 - s i m ( c 1 , d 1 ) ) - - - ( 2 ) ;
其中:sim(ci,di)为汉字ci与di的相似度:
其中:PSim(ci,di)为汉字ci和汉字di的拼音相似度,SSim(ci,di)为汉字ci和汉字di的形相似度,α和β分别表示拼音相似度和形相似度的权重,α+β=1。
4.根据权利要求3所述的基于模糊分词的非多字词错误自动校对方法,其特征在于:所述模糊匹配方法是通过单字替换、多字替换或缺字替换来进行的,所述单字替换为基于形相似的单字替换和/或基于音相似的单字替换。
5.根据权利要求3所述的基于模糊分词的非多字词错误自动校对方法,其特征在于:对于用于用户输入法为拼音输入法或语音输入法的汉语非多字词错误自动校对方法,所述拼音相似度的权重α=1,形相似度的权重β=0。
6.根据权利要求3所述的基于模糊分词的非多字词错误自动校对方法,其特征在于:对于用于OCR识别纠错的汉语非多字词错误自动校对方法,所述拼音相似度的权重α=0,形相似度的权重β=1。
7.根据权利要求3所述的基于模糊分词的非多字词错误自动校对方法,其特征在于:对于用于用户输入法为拼音输入法和字形输入法的汉语非多字词错误自动校对方法,所述拼音相似度的权重α=0.5,形相似度的权重β=0.5。
8.根据权利要求3所述的基于模糊分词的非多字词错误自动校对方法,其特征在于所述步骤3)包括以下步骤:
步骤31)基于步骤1)对句子进行精确分词和步骤2)对句子进行模糊匹配后得到的模糊分词词图,得到多条路径,结合步骤2)得到的与散串对应的相似的词及其相似度,采用二元模型计算每种切分序列的概率:
W * = arg max W P ( W ) = arg max W p ( W 1 ) Π i = 2 n p ( W i | W i - 1 ) * α ( W i - 1 , W ′ ) - - - ( 4 ) ;
其中W为词图中的某一条分词路径,Wi为路径中的第i个词,n是分词路径中词的个数;α(Wi-1,W′)表示对句子分词过程中原串为与模糊匹配节点对应的散串给予的惩罚值,当当前词是精确切分时α(Wi-1,W′)=1,否则α(Wi-1,W′)=sim(Wi-1,W′),即句子中模糊匹配的原串W′与匹配上的词Wi-1的相似度,也称为模糊匹配上的字符串Wi-1和与其对应的散串W′的相似度;
步骤32)根据步骤31)得到的模糊分词词图,利用图的Dijkstra算法求解最短路径,从而得到最终的切分结果;
步骤33)对最短路径中的模糊匹配节点,标记其对应的原串为含有错别字的词,并且模糊匹配得到的相似的词为其对应正确的词,从而实现了汉语非多字词错误自动校对。
9.根据权利要求3所述的基于模糊分词的非多字词错误自动校对方法,其特征在于,所述阈值tw为0.95。
CN201510361877.8A 2015-06-26 2015-06-26 一种基于模糊分词的非多字词错误自动校对方法 Active CN104991889B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510361877.8A CN104991889B (zh) 2015-06-26 2015-06-26 一种基于模糊分词的非多字词错误自动校对方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510361877.8A CN104991889B (zh) 2015-06-26 2015-06-26 一种基于模糊分词的非多字词错误自动校对方法

Publications (2)

Publication Number Publication Date
CN104991889A true CN104991889A (zh) 2015-10-21
CN104991889B CN104991889B (zh) 2018-02-02

Family

ID=54303705

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510361877.8A Active CN104991889B (zh) 2015-06-26 2015-06-26 一种基于模糊分词的非多字词错误自动校对方法

Country Status (1)

Country Link
CN (1) CN104991889B (zh)

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105512110A (zh) * 2015-12-15 2016-04-20 江苏科技大学 一种基于模糊匹配与统计的错字词知识库构建方法
CN105573979A (zh) * 2015-12-10 2016-05-11 江苏科技大学 一种基于汉字混淆集的错字词知识生成方法
CN106528532A (zh) * 2016-11-07 2017-03-22 上海智臻智能网络科技股份有限公司 文本纠错方法、装置及终端
CN106527757A (zh) * 2016-10-28 2017-03-22 上海智臻智能网络科技股份有限公司 一种输入纠错方法及装置
CN106547741A (zh) * 2016-11-21 2017-03-29 江苏科技大学 一种基于搭配的汉语文本自动校对方法
CN106598939A (zh) * 2016-10-21 2017-04-26 北京三快在线科技有限公司 一种文本纠错方法及装置、服务器、存储介质
CN106610953A (zh) * 2016-09-30 2017-05-03 四川用联信息技术有限公司 基于基尼指数求解文本相似度的方法
CN108572998A (zh) * 2017-03-14 2018-09-25 北京橙鑫数据科技有限公司 一种针对电子卡片数据的数据查找方法及装置
CN108717412A (zh) * 2018-06-12 2018-10-30 北京览群智数据科技有限责任公司 基于中文分词的中文校对纠错方法及系统
CN108766437A (zh) * 2018-05-31 2018-11-06 平安科技(深圳)有限公司 语音识别方法、装置、计算机设备及存储介质
CN109492202A (zh) * 2018-11-12 2019-03-19 浙江大学山东工业技术研究院 一种基于拼音的编码与解码模型的中文纠错方法
CN109558596A (zh) * 2018-12-14 2019-04-02 平安城市建设科技(深圳)有限公司 识别方法、装置、终端及计算机可读存储介质
CN109657738A (zh) * 2018-10-25 2019-04-19 平安科技(深圳)有限公司 字符识别方法、装置、设备及存储介质
CN110020005A (zh) * 2019-03-28 2019-07-16 云知声(上海)智能科技有限公司 一种病历中主诉和现病史中症状匹配方法
CN111209748A (zh) * 2019-12-16 2020-05-29 合肥讯飞数码科技有限公司 错别词识别方法、相关设备及可读存储介质
CN112765318A (zh) * 2021-01-20 2021-05-07 阅尔基因技术(苏州)有限公司 一种用于不孕不育症临床表型信息的自然语言处理方法及系统
CN112954387A (zh) * 2021-01-26 2021-06-11 广州欢网科技有限责任公司 一种电视节目单的更新优化方法、系统和可读存储介质
CN113033193A (zh) * 2021-01-20 2021-06-25 山谷网安科技股份有限公司 一种基于c++语言的混合型中文文本分词方法
CN114091436A (zh) * 2022-01-21 2022-02-25 万商云集(成都)科技股份有限公司 一种基于决策树及变体识别的敏感词检测方法
CN114490260A (zh) * 2022-01-20 2022-05-13 中国平安人寿保险股份有限公司 系统指标生成方法、装置、代理服务器及存储介质
CN114678027A (zh) * 2020-12-24 2022-06-28 深圳Tcl新技术有限公司 语音识别结果的纠错方法、装置、终端设备及存储介质
CN114781371A (zh) * 2022-04-07 2022-07-22 山东新一代信息产业技术研究院有限公司 基于统计和基于词典的中文分词方法
CN116127052A (zh) * 2021-11-12 2023-05-16 中国移动通信有限公司研究院 一种数据处理方法、装置及设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1514387A (zh) * 2002-12-31 2004-07-21 中国科学院计算技术研究所 语音查询中的辨音方法
CN102393850A (zh) * 2011-07-22 2012-03-28 镇江诺尼基智能技术有限公司 一种汉字字形认知相似度计算方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1514387A (zh) * 2002-12-31 2004-07-21 中国科学院计算技术研究所 语音查询中的辨音方法
CN102393850A (zh) * 2011-07-22 2012-03-28 镇江诺尼基智能技术有限公司 一种汉字字形认知相似度计算方法

Non-Patent Citations (7)

* Cited by examiner, † Cited by third party
Title
刘亮亮 等: "领域问答系统中的文本错误自动发现方法", 《中文信息学报》 *
张仰森 等: "基于规则与统计相结合的中文文本自动查错模型与算法", 《中文信息学报》 *
张华平 等: "基于N-最短路径方法的中文词语粗分模型", 《中文信息学报》 *
张磊 等: "基于快速模糊词匹配算法的中文自动校对方法", 《PROCEEDINGS OF THE 3RD WORLD CONGRESS ON INTELLIGENT CONTROL AND AUTOMATION》 *
施恒利 等: "汉字种子混淆集的构建方法研究", 《计算机科学》 *
施恒利: "汉字种子混淆集的构建方法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
王思力 等: "双数组Trie树算法优化及其应用研究", 《中文信息学报》 *

Cited By (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105573979A (zh) * 2015-12-10 2016-05-11 江苏科技大学 一种基于汉字混淆集的错字词知识生成方法
CN105573979B (zh) * 2015-12-10 2018-05-22 江苏科技大学 一种基于汉字混淆集的错字词知识生成方法
CN105512110B (zh) * 2015-12-15 2018-04-06 江苏科技大学 一种基于模糊匹配与统计的错字词知识库构建方法
CN105512110A (zh) * 2015-12-15 2016-04-20 江苏科技大学 一种基于模糊匹配与统计的错字词知识库构建方法
CN106610953A (zh) * 2016-09-30 2017-05-03 四川用联信息技术有限公司 基于基尼指数求解文本相似度的方法
CN106598939B (zh) * 2016-10-21 2019-09-17 北京三快在线科技有限公司 一种文本纠错方法及装置、服务器、存储介质
CN106598939A (zh) * 2016-10-21 2017-04-26 北京三快在线科技有限公司 一种文本纠错方法及装置、服务器、存储介质
CN106527757A (zh) * 2016-10-28 2017-03-22 上海智臻智能网络科技股份有限公司 一种输入纠错方法及装置
CN106528532A (zh) * 2016-11-07 2017-03-22 上海智臻智能网络科技股份有限公司 文本纠错方法、装置及终端
CN106528532B (zh) * 2016-11-07 2019-03-12 上海智臻智能网络科技股份有限公司 文本纠错方法、装置及终端
CN106547741A (zh) * 2016-11-21 2017-03-29 江苏科技大学 一种基于搭配的汉语文本自动校对方法
CN108572998A (zh) * 2017-03-14 2018-09-25 北京橙鑫数据科技有限公司 一种针对电子卡片数据的数据查找方法及装置
CN108766437A (zh) * 2018-05-31 2018-11-06 平安科技(深圳)有限公司 语音识别方法、装置、计算机设备及存储介质
CN108717412A (zh) * 2018-06-12 2018-10-30 北京览群智数据科技有限责任公司 基于中文分词的中文校对纠错方法及系统
CN109657738A (zh) * 2018-10-25 2019-04-19 平安科技(深圳)有限公司 字符识别方法、装置、设备及存储介质
WO2020082562A1 (zh) * 2018-10-25 2020-04-30 平安科技(深圳)有限公司 字符识别方法、装置、设备及存储介质
CN109657738B (zh) * 2018-10-25 2024-04-30 平安科技(深圳)有限公司 字符识别方法、装置、设备及存储介质
CN109492202A (zh) * 2018-11-12 2019-03-19 浙江大学山东工业技术研究院 一种基于拼音的编码与解码模型的中文纠错方法
CN109492202B (zh) * 2018-11-12 2022-12-27 浙江大学山东工业技术研究院 一种基于拼音的编码与解码模型的中文纠错方法
CN109558596A (zh) * 2018-12-14 2019-04-02 平安城市建设科技(深圳)有限公司 识别方法、装置、终端及计算机可读存储介质
CN110020005A (zh) * 2019-03-28 2019-07-16 云知声(上海)智能科技有限公司 一种病历中主诉和现病史中症状匹配方法
CN110020005B (zh) * 2019-03-28 2021-03-26 云知声(上海)智能科技有限公司 一种病历中主诉和现病史中症状匹配方法
CN111209748B (zh) * 2019-12-16 2023-10-24 合肥讯飞数码科技有限公司 错别词识别方法、相关设备及可读存储介质
CN111209748A (zh) * 2019-12-16 2020-05-29 合肥讯飞数码科技有限公司 错别词识别方法、相关设备及可读存储介质
CN114678027A (zh) * 2020-12-24 2022-06-28 深圳Tcl新技术有限公司 语音识别结果的纠错方法、装置、终端设备及存储介质
CN114678027B (zh) * 2020-12-24 2024-12-03 深圳Tcl新技术有限公司 语音识别结果的纠错方法、装置、终端设备及存储介质
CN113033193A (zh) * 2021-01-20 2021-06-25 山谷网安科技股份有限公司 一种基于c++语言的混合型中文文本分词方法
CN112765318A (zh) * 2021-01-20 2021-05-07 阅尔基因技术(苏州)有限公司 一种用于不孕不育症临床表型信息的自然语言处理方法及系统
CN113033193B (zh) * 2021-01-20 2024-04-16 山谷网安科技股份有限公司 一种基于c++语言的混合型中文文本分词方法
CN112954387A (zh) * 2021-01-26 2021-06-11 广州欢网科技有限责任公司 一种电视节目单的更新优化方法、系统和可读存储介质
CN116127052A (zh) * 2021-11-12 2023-05-16 中国移动通信有限公司研究院 一种数据处理方法、装置及设备
CN114490260B (zh) * 2022-01-20 2024-08-27 中国平安人寿保险股份有限公司 系统指标生成方法、装置、代理服务器及存储介质
CN114490260A (zh) * 2022-01-20 2022-05-13 中国平安人寿保险股份有限公司 系统指标生成方法、装置、代理服务器及存储介质
CN114091436A (zh) * 2022-01-21 2022-02-25 万商云集(成都)科技股份有限公司 一种基于决策树及变体识别的敏感词检测方法
CN114781371A (zh) * 2022-04-07 2022-07-22 山东新一代信息产业技术研究院有限公司 基于统计和基于词典的中文分词方法

Also Published As

Publication number Publication date
CN104991889B (zh) 2018-02-02

Similar Documents

Publication Publication Date Title
CN104991889B (zh) 一种基于模糊分词的非多字词错误自动校对方法
CN105045778B (zh) 一种汉语同音词错误自动校对方法
US8881005B2 (en) Methods and systems for large-scale statistical misspelling correction
CN110597997B (zh) 一种军事想定文本事件抽取语料库迭代式构建方法及装置
CN103678282B (zh) 一种分词方法及装置
CN113673228B (zh) 文本纠错方法、装置、计算机存储介质及计算机程序产品
CN105068997B (zh) 平行语料的构建方法及装置
CN105404621B (zh) 一种用于盲人读取汉字的方法及系统
CN105138514B (zh) 一种基于词典的正向逐次加一字最大匹配中文分词方法
CN110941720B (zh) 一种基于知识库的特定人员信息纠错方法
CN106127265B (zh) 一种基于激活力模型的图片中文本识别纠错方法
CN108563632A (zh) 文字拼写错误的修正方法、系统、计算机设备及存储介质
CN101295295A (zh) 基于线性模型的汉语词法分析方法
CN113918031B (zh) 使用子字符信息进行中文标点恢复的系统和方法
CN105512110A (zh) 一种基于模糊匹配与统计的错字词知识库构建方法
CN105824800B (zh) 一种中文真词错误自动校对方法
CN108959260A (zh) 一种基于文本化词向量的中文语法错误检测方法
Beckley Bekli: A Simple Approach to Twitter Text Normalization.
CN114580391A (zh) 中文错误检测模型训练方法、装置、设备及存储介质
CN106650803B (zh) 一种计算字符串间相似度的方法及装置
CN112182353B (zh) 用于信息搜索的方法、电子设备和存储介质
Huang et al. Chinese spelling check system based on tri-gram model
CN114548075A (zh) 文本处理方法、文本处理装置、存储介质与电子设备
CN114048733A (zh) 文本纠错模型的训练方法、文本纠错方法及装置
CN116340507B (zh) 一种基于混合权重和双通道图卷积的方面级情感分析方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20151021

Assignee: JIANGSU KEDA HUIFENG SCIENCE AND TECHNOLOGY Co.,Ltd.

Assignor: JIANGSU University OF SCIENCE AND TECHNOLOGY

Contract record no.: X2020980007325

Denomination of invention: An automatic proofreading method for non multi word errors based on fuzzy segmentation

Granted publication date: 20180202

License type: Common License

Record date: 20201029

EE01 Entry into force of recordation of patent licensing contract
EC01 Cancellation of recordation of patent licensing contract

Assignee: JIANGSU KEDA HUIFENG SCIENCE AND TECHNOLOGY Co.,Ltd.

Assignor: JIANGSU University OF SCIENCE AND TECHNOLOGY

Contract record no.: X2020980007325

Date of cancellation: 20201223

EC01 Cancellation of recordation of patent licensing contract
TR01 Transfer of patent right

Effective date of registration: 20221222

Address after: Room 02A-084, Building C (Second Floor), No. 28, Xinxi Road, Haidian District, Beijing 100085

Patentee after: Jingchuang United (Beijing) Intellectual Property Service Co.,Ltd.

Address before: 212003, No. 2, Mengxi Road, Zhenjiang, Jiangsu

Patentee before: JIANGSU University OF SCIENCE AND TECHNOLOGY

Effective date of registration: 20221222

Address after: Room 606-609, Compound Office Complex Building, No. 757, Dongfeng East Road, Yuexiu District, Guangzhou, Guangdong Province, 510699

Patentee after: China Southern Power Grid Internet Service Co.,Ltd.

Address before: Room 02A-084, Building C (Second Floor), No. 28, Xinxi Road, Haidian District, Beijing 100085

Patentee before: Jingchuang United (Beijing) Intellectual Property Service Co.,Ltd.

TR01 Transfer of patent right