CN104991889A - 一种基于模糊分词的非多字词错误自动校对方法 - Google Patents
一种基于模糊分词的非多字词错误自动校对方法 Download PDFInfo
- Publication number
- CN104991889A CN104991889A CN201510361877.8A CN201510361877A CN104991889A CN 104991889 A CN104991889 A CN 104991889A CN 201510361877 A CN201510361877 A CN 201510361877A CN 104991889 A CN104991889 A CN 104991889A
- Authority
- CN
- China
- Prior art keywords
- word
- fuzzy
- segmentation
- similarity
- chinese
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Document Processing Apparatus (AREA)
- Machine Translation (AREA)
Abstract
Description
Claims (9)
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN201510361877.8A CN104991889B (zh) | 2015-06-26 | 2015-06-26 | 一种基于模糊分词的非多字词错误自动校对方法 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN201510361877.8A CN104991889B (zh) | 2015-06-26 | 2015-06-26 | 一种基于模糊分词的非多字词错误自动校对方法 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| CN104991889A true CN104991889A (zh) | 2015-10-21 |
| CN104991889B CN104991889B (zh) | 2018-02-02 |
Family
ID=54303705
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| CN201510361877.8A Active CN104991889B (zh) | 2015-06-26 | 2015-06-26 | 一种基于模糊分词的非多字词错误自动校对方法 |
Country Status (1)
| Country | Link |
|---|---|
| CN (1) | CN104991889B (zh) |
Cited By (23)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN105512110A (zh) * | 2015-12-15 | 2016-04-20 | 江苏科技大学 | 一种基于模糊匹配与统计的错字词知识库构建方法 |
| CN105573979A (zh) * | 2015-12-10 | 2016-05-11 | 江苏科技大学 | 一种基于汉字混淆集的错字词知识生成方法 |
| CN106528532A (zh) * | 2016-11-07 | 2017-03-22 | 上海智臻智能网络科技股份有限公司 | 文本纠错方法、装置及终端 |
| CN106527757A (zh) * | 2016-10-28 | 2017-03-22 | 上海智臻智能网络科技股份有限公司 | 一种输入纠错方法及装置 |
| CN106547741A (zh) * | 2016-11-21 | 2017-03-29 | 江苏科技大学 | 一种基于搭配的汉语文本自动校对方法 |
| CN106598939A (zh) * | 2016-10-21 | 2017-04-26 | 北京三快在线科技有限公司 | 一种文本纠错方法及装置、服务器、存储介质 |
| CN106610953A (zh) * | 2016-09-30 | 2017-05-03 | 四川用联信息技术有限公司 | 基于基尼指数求解文本相似度的方法 |
| CN108572998A (zh) * | 2017-03-14 | 2018-09-25 | 北京橙鑫数据科技有限公司 | 一种针对电子卡片数据的数据查找方法及装置 |
| CN108717412A (zh) * | 2018-06-12 | 2018-10-30 | 北京览群智数据科技有限责任公司 | 基于中文分词的中文校对纠错方法及系统 |
| CN108766437A (zh) * | 2018-05-31 | 2018-11-06 | 平安科技(深圳)有限公司 | 语音识别方法、装置、计算机设备及存储介质 |
| CN109492202A (zh) * | 2018-11-12 | 2019-03-19 | 浙江大学山东工业技术研究院 | 一种基于拼音的编码与解码模型的中文纠错方法 |
| CN109558596A (zh) * | 2018-12-14 | 2019-04-02 | 平安城市建设科技(深圳)有限公司 | 识别方法、装置、终端及计算机可读存储介质 |
| CN109657738A (zh) * | 2018-10-25 | 2019-04-19 | 平安科技(深圳)有限公司 | 字符识别方法、装置、设备及存储介质 |
| CN110020005A (zh) * | 2019-03-28 | 2019-07-16 | 云知声(上海)智能科技有限公司 | 一种病历中主诉和现病史中症状匹配方法 |
| CN111209748A (zh) * | 2019-12-16 | 2020-05-29 | 合肥讯飞数码科技有限公司 | 错别词识别方法、相关设备及可读存储介质 |
| CN112765318A (zh) * | 2021-01-20 | 2021-05-07 | 阅尔基因技术(苏州)有限公司 | 一种用于不孕不育症临床表型信息的自然语言处理方法及系统 |
| CN112954387A (zh) * | 2021-01-26 | 2021-06-11 | 广州欢网科技有限责任公司 | 一种电视节目单的更新优化方法、系统和可读存储介质 |
| CN113033193A (zh) * | 2021-01-20 | 2021-06-25 | 山谷网安科技股份有限公司 | 一种基于c++语言的混合型中文文本分词方法 |
| CN114091436A (zh) * | 2022-01-21 | 2022-02-25 | 万商云集(成都)科技股份有限公司 | 一种基于决策树及变体识别的敏感词检测方法 |
| CN114490260A (zh) * | 2022-01-20 | 2022-05-13 | 中国平安人寿保险股份有限公司 | 系统指标生成方法、装置、代理服务器及存储介质 |
| CN114678027A (zh) * | 2020-12-24 | 2022-06-28 | 深圳Tcl新技术有限公司 | 语音识别结果的纠错方法、装置、终端设备及存储介质 |
| CN114781371A (zh) * | 2022-04-07 | 2022-07-22 | 山东新一代信息产业技术研究院有限公司 | 基于统计和基于词典的中文分词方法 |
| CN116127052A (zh) * | 2021-11-12 | 2023-05-16 | 中国移动通信有限公司研究院 | 一种数据处理方法、装置及设备 |
Citations (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN1514387A (zh) * | 2002-12-31 | 2004-07-21 | 中国科学院计算技术研究所 | 语音查询中的辨音方法 |
| CN102393850A (zh) * | 2011-07-22 | 2012-03-28 | 镇江诺尼基智能技术有限公司 | 一种汉字字形认知相似度计算方法 |
-
2015
- 2015-06-26 CN CN201510361877.8A patent/CN104991889B/zh active Active
Patent Citations (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN1514387A (zh) * | 2002-12-31 | 2004-07-21 | 中国科学院计算技术研究所 | 语音查询中的辨音方法 |
| CN102393850A (zh) * | 2011-07-22 | 2012-03-28 | 镇江诺尼基智能技术有限公司 | 一种汉字字形认知相似度计算方法 |
Non-Patent Citations (7)
| Title |
|---|
| 刘亮亮 等: "领域问答系统中的文本错误自动发现方法", 《中文信息学报》 * |
| 张仰森 等: "基于规则与统计相结合的中文文本自动查错模型与算法", 《中文信息学报》 * |
| 张华平 等: "基于N-最短路径方法的中文词语粗分模型", 《中文信息学报》 * |
| 张磊 等: "基于快速模糊词匹配算法的中文自动校对方法", 《PROCEEDINGS OF THE 3RD WORLD CONGRESS ON INTELLIGENT CONTROL AND AUTOMATION》 * |
| 施恒利 等: "汉字种子混淆集的构建方法研究", 《计算机科学》 * |
| 施恒利: "汉字种子混淆集的构建方法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
| 王思力 等: "双数组Trie树算法优化及其应用研究", 《中文信息学报》 * |
Cited By (35)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN105573979A (zh) * | 2015-12-10 | 2016-05-11 | 江苏科技大学 | 一种基于汉字混淆集的错字词知识生成方法 |
| CN105573979B (zh) * | 2015-12-10 | 2018-05-22 | 江苏科技大学 | 一种基于汉字混淆集的错字词知识生成方法 |
| CN105512110B (zh) * | 2015-12-15 | 2018-04-06 | 江苏科技大学 | 一种基于模糊匹配与统计的错字词知识库构建方法 |
| CN105512110A (zh) * | 2015-12-15 | 2016-04-20 | 江苏科技大学 | 一种基于模糊匹配与统计的错字词知识库构建方法 |
| CN106610953A (zh) * | 2016-09-30 | 2017-05-03 | 四川用联信息技术有限公司 | 基于基尼指数求解文本相似度的方法 |
| CN106598939B (zh) * | 2016-10-21 | 2019-09-17 | 北京三快在线科技有限公司 | 一种文本纠错方法及装置、服务器、存储介质 |
| CN106598939A (zh) * | 2016-10-21 | 2017-04-26 | 北京三快在线科技有限公司 | 一种文本纠错方法及装置、服务器、存储介质 |
| CN106527757A (zh) * | 2016-10-28 | 2017-03-22 | 上海智臻智能网络科技股份有限公司 | 一种输入纠错方法及装置 |
| CN106528532A (zh) * | 2016-11-07 | 2017-03-22 | 上海智臻智能网络科技股份有限公司 | 文本纠错方法、装置及终端 |
| CN106528532B (zh) * | 2016-11-07 | 2019-03-12 | 上海智臻智能网络科技股份有限公司 | 文本纠错方法、装置及终端 |
| CN106547741A (zh) * | 2016-11-21 | 2017-03-29 | 江苏科技大学 | 一种基于搭配的汉语文本自动校对方法 |
| CN108572998A (zh) * | 2017-03-14 | 2018-09-25 | 北京橙鑫数据科技有限公司 | 一种针对电子卡片数据的数据查找方法及装置 |
| CN108766437A (zh) * | 2018-05-31 | 2018-11-06 | 平安科技(深圳)有限公司 | 语音识别方法、装置、计算机设备及存储介质 |
| CN108717412A (zh) * | 2018-06-12 | 2018-10-30 | 北京览群智数据科技有限责任公司 | 基于中文分词的中文校对纠错方法及系统 |
| CN109657738A (zh) * | 2018-10-25 | 2019-04-19 | 平安科技(深圳)有限公司 | 字符识别方法、装置、设备及存储介质 |
| WO2020082562A1 (zh) * | 2018-10-25 | 2020-04-30 | 平安科技(深圳)有限公司 | 字符识别方法、装置、设备及存储介质 |
| CN109657738B (zh) * | 2018-10-25 | 2024-04-30 | 平安科技(深圳)有限公司 | 字符识别方法、装置、设备及存储介质 |
| CN109492202A (zh) * | 2018-11-12 | 2019-03-19 | 浙江大学山东工业技术研究院 | 一种基于拼音的编码与解码模型的中文纠错方法 |
| CN109492202B (zh) * | 2018-11-12 | 2022-12-27 | 浙江大学山东工业技术研究院 | 一种基于拼音的编码与解码模型的中文纠错方法 |
| CN109558596A (zh) * | 2018-12-14 | 2019-04-02 | 平安城市建设科技(深圳)有限公司 | 识别方法、装置、终端及计算机可读存储介质 |
| CN110020005A (zh) * | 2019-03-28 | 2019-07-16 | 云知声(上海)智能科技有限公司 | 一种病历中主诉和现病史中症状匹配方法 |
| CN110020005B (zh) * | 2019-03-28 | 2021-03-26 | 云知声(上海)智能科技有限公司 | 一种病历中主诉和现病史中症状匹配方法 |
| CN111209748B (zh) * | 2019-12-16 | 2023-10-24 | 合肥讯飞数码科技有限公司 | 错别词识别方法、相关设备及可读存储介质 |
| CN111209748A (zh) * | 2019-12-16 | 2020-05-29 | 合肥讯飞数码科技有限公司 | 错别词识别方法、相关设备及可读存储介质 |
| CN114678027A (zh) * | 2020-12-24 | 2022-06-28 | 深圳Tcl新技术有限公司 | 语音识别结果的纠错方法、装置、终端设备及存储介质 |
| CN114678027B (zh) * | 2020-12-24 | 2024-12-03 | 深圳Tcl新技术有限公司 | 语音识别结果的纠错方法、装置、终端设备及存储介质 |
| CN113033193A (zh) * | 2021-01-20 | 2021-06-25 | 山谷网安科技股份有限公司 | 一种基于c++语言的混合型中文文本分词方法 |
| CN112765318A (zh) * | 2021-01-20 | 2021-05-07 | 阅尔基因技术(苏州)有限公司 | 一种用于不孕不育症临床表型信息的自然语言处理方法及系统 |
| CN113033193B (zh) * | 2021-01-20 | 2024-04-16 | 山谷网安科技股份有限公司 | 一种基于c++语言的混合型中文文本分词方法 |
| CN112954387A (zh) * | 2021-01-26 | 2021-06-11 | 广州欢网科技有限责任公司 | 一种电视节目单的更新优化方法、系统和可读存储介质 |
| CN116127052A (zh) * | 2021-11-12 | 2023-05-16 | 中国移动通信有限公司研究院 | 一种数据处理方法、装置及设备 |
| CN114490260B (zh) * | 2022-01-20 | 2024-08-27 | 中国平安人寿保险股份有限公司 | 系统指标生成方法、装置、代理服务器及存储介质 |
| CN114490260A (zh) * | 2022-01-20 | 2022-05-13 | 中国平安人寿保险股份有限公司 | 系统指标生成方法、装置、代理服务器及存储介质 |
| CN114091436A (zh) * | 2022-01-21 | 2022-02-25 | 万商云集(成都)科技股份有限公司 | 一种基于决策树及变体识别的敏感词检测方法 |
| CN114781371A (zh) * | 2022-04-07 | 2022-07-22 | 山东新一代信息产业技术研究院有限公司 | 基于统计和基于词典的中文分词方法 |
Also Published As
| Publication number | Publication date |
|---|---|
| CN104991889B (zh) | 2018-02-02 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CN104991889B (zh) | 一种基于模糊分词的非多字词错误自动校对方法 | |
| CN105045778B (zh) | 一种汉语同音词错误自动校对方法 | |
| US8881005B2 (en) | Methods and systems for large-scale statistical misspelling correction | |
| CN110597997B (zh) | 一种军事想定文本事件抽取语料库迭代式构建方法及装置 | |
| CN103678282B (zh) | 一种分词方法及装置 | |
| CN113673228B (zh) | 文本纠错方法、装置、计算机存储介质及计算机程序产品 | |
| CN105068997B (zh) | 平行语料的构建方法及装置 | |
| CN105404621B (zh) | 一种用于盲人读取汉字的方法及系统 | |
| CN105138514B (zh) | 一种基于词典的正向逐次加一字最大匹配中文分词方法 | |
| CN110941720B (zh) | 一种基于知识库的特定人员信息纠错方法 | |
| CN106127265B (zh) | 一种基于激活力模型的图片中文本识别纠错方法 | |
| CN108563632A (zh) | 文字拼写错误的修正方法、系统、计算机设备及存储介质 | |
| CN101295295A (zh) | 基于线性模型的汉语词法分析方法 | |
| CN113918031B (zh) | 使用子字符信息进行中文标点恢复的系统和方法 | |
| CN105512110A (zh) | 一种基于模糊匹配与统计的错字词知识库构建方法 | |
| CN105824800B (zh) | 一种中文真词错误自动校对方法 | |
| CN108959260A (zh) | 一种基于文本化词向量的中文语法错误检测方法 | |
| Beckley | Bekli: A Simple Approach to Twitter Text Normalization. | |
| CN114580391A (zh) | 中文错误检测模型训练方法、装置、设备及存储介质 | |
| CN106650803B (zh) | 一种计算字符串间相似度的方法及装置 | |
| CN112182353B (zh) | 用于信息搜索的方法、电子设备和存储介质 | |
| Huang et al. | Chinese spelling check system based on tri-gram model | |
| CN114548075A (zh) | 文本处理方法、文本处理装置、存储介质与电子设备 | |
| CN114048733A (zh) | 文本纠错模型的训练方法、文本纠错方法及装置 | |
| CN116340507B (zh) | 一种基于混合权重和双通道图卷积的方面级情感分析方法 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| C06 | Publication | ||
| PB01 | Publication | ||
| C10 | Entry into substantive examination | ||
| SE01 | Entry into force of request for substantive examination | ||
| GR01 | Patent grant | ||
| GR01 | Patent grant | ||
| EE01 | Entry into force of recordation of patent licensing contract |
Application publication date: 20151021 Assignee: JIANGSU KEDA HUIFENG SCIENCE AND TECHNOLOGY Co.,Ltd. Assignor: JIANGSU University OF SCIENCE AND TECHNOLOGY Contract record no.: X2020980007325 Denomination of invention: An automatic proofreading method for non multi word errors based on fuzzy segmentation Granted publication date: 20180202 License type: Common License Record date: 20201029 |
|
| EE01 | Entry into force of recordation of patent licensing contract | ||
| EC01 | Cancellation of recordation of patent licensing contract |
Assignee: JIANGSU KEDA HUIFENG SCIENCE AND TECHNOLOGY Co.,Ltd. Assignor: JIANGSU University OF SCIENCE AND TECHNOLOGY Contract record no.: X2020980007325 Date of cancellation: 20201223 |
|
| EC01 | Cancellation of recordation of patent licensing contract | ||
| TR01 | Transfer of patent right |
Effective date of registration: 20221222 Address after: Room 02A-084, Building C (Second Floor), No. 28, Xinxi Road, Haidian District, Beijing 100085 Patentee after: Jingchuang United (Beijing) Intellectual Property Service Co.,Ltd. Address before: 212003, No. 2, Mengxi Road, Zhenjiang, Jiangsu Patentee before: JIANGSU University OF SCIENCE AND TECHNOLOGY Effective date of registration: 20221222 Address after: Room 606-609, Compound Office Complex Building, No. 757, Dongfeng East Road, Yuexiu District, Guangzhou, Guangdong Province, 510699 Patentee after: China Southern Power Grid Internet Service Co.,Ltd. Address before: Room 02A-084, Building C (Second Floor), No. 28, Xinxi Road, Haidian District, Beijing 100085 Patentee before: Jingchuang United (Beijing) Intellectual Property Service Co.,Ltd. |
|
| TR01 | Transfer of patent right |