CN112632911A - 基于字符嵌入的汉字编码方法 - Google Patents
基于字符嵌入的汉字编码方法 Download PDFInfo
- Publication number
- CN112632911A CN112632911A CN202110001263.4A CN202110001263A CN112632911A CN 112632911 A CN112632911 A CN 112632911A CN 202110001263 A CN202110001263 A CN 202110001263A CN 112632911 A CN112632911 A CN 112632911A
- Authority
- CN
- China
- Prior art keywords
- character
- substructure
- parts
- embedding
- matrix
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/126—Character encoding
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Image Processing (AREA)
Abstract
本发明涉及一种基于字符嵌入的汉字编码方法,包括以下步骤:步骤S1:构建汉字字符集,将每个字符分解为若干个子结构,构建子结构集合,定义每个子结构对字符的贡献度,并根据子结构集合,构建子结构对每个字符贡献度矩阵;步骤S2:根据得到的子结构集合和子结构对每个字符贡献度矩阵,构建子结构嵌入矩阵并训练,提取得到字符嵌入矩阵;步骤S3:输入字符,通过字符嵌入矩阵获取字符嵌入。本发明能有效降低汉字编码的维度,使得具有相似构成的汉字编码具有正相关性,有效提高字符识别效率。
Description
技术领域
本发明涉及模式识别与计算机视觉领域,具体涉及一种基于字符嵌入的汉字编码方法。
背景技术
语言是人类传播信息的主要方式之一,文字是书面的语言,也是人类通过视觉传递信息最广泛的方式之一。
随着人工智能、互联网等技术的迅速发展,使用计算机自动识别图像中的文本具有重要意义。对于字符识别任务,通常采用独热编码的方式对字符进行编码,这种编码方式忽略了相似字符之间的相关性,且较为稀疏,对于英文字符和数字的识别任务来说,由于类别数较少,适用性尚可。然而对于中文字符识别任务,由于汉字类别繁多,仅常见字符就有上千种,这导致使用独热编码的网络收敛较慢,且完全忽略了汉字之间的结构形状相似性,导致字符识别准确度低,效率低。
发明内容
有鉴于此,本发明的目的在于提供一种基于字符嵌入的汉字编码方法,能有效降低汉字编码的维度,使得具有相似构成的汉字编码具有正相关性,有效提高字符识别效率。
为实现上述目的,本发明采用如下技术方案:
一种基于字符嵌入的汉字编码方法,包括以下步骤:
步骤S1:构建汉字字符集,将每个字符分解为若干个子结构,构建子结构集合,定义每个子结构对字符的贡献度,并根据子结构集合,构建子结构对每个字符贡献度矩阵;
步骤S2:根据得到的子结构集合和子结构对每个字符贡献度矩阵,构建子结构嵌入矩阵并训练,提取得到字符嵌入矩阵;
步骤S3:输入字符,通过字符嵌入矩阵获取字符嵌入。
进一步的,所述步骤S1具体为:
步骤S11:确定需要编码的字符集合,第ia个汉字为charia,共有nchars个需要嵌入的汉字,则字符集合为chars={charia|ia=1,2,...,nchars};
步骤S12:对chars中所有汉字进行拆分,得到所有的子结构parts={partib|ib=1,2,...,nparts},其中partib为第ib个子结构,nparts为parts的元素数量;
步骤S13:计算子结构频次表nfreqparts={nfreqib|ib=1,2,...,nparts},其中nfreqib表示partib是nfreqib个字符的子结构;
步骤S14:由于k=1时拆分结果为字符分身,chars是parts的子集,建立映射关系g,使得partib=partg(ia);
步骤S15:计算parts中每一个子结构对chars中每一个字符的贡献度,得到nparts行nchars列的贡献度矩阵charsparts。
进一步的,所述步骤S12具体为:
(1)预设每个汉字都能拆分为k个子结构;
(2)k为不小于1的整数,当k为1时拆分结果为字符本身;
(3)k的最大值为一个字符的笔画数或kmax,kmax为人工设定的最大拆分数;
按照(1)-(3)对chars中所有汉字进行拆分,得到所有的子结构parts={partib|ib=1,2,...,nparts},其中partib为第ib个子结构,nparts为parts的元素数量。
进一步的,所述步骤S15具体为:
(2)当一个子结构同时出现在一个字符的多种拆分结果中时,取k最小的一种拆分方法计算贡献度;
(3)如果一个子结构无法构成某字符,则该子结构对该字符的贡献度为0;
按照(1)-(3)计算parts中每一个子结构对chars中每一个字符的贡献度,得到nparts行nchars列的贡献度矩阵charsparts。
进一步的,所述步骤S2具体为:
步骤S21:构建一对子结构嵌入矩阵embs1、embs2,embs1和embs2均为nparts行m列的矩阵,其中m为人工设定的嵌入得到的向量维度;
步骤S22:对parts中每个子结构进行独热编码,则partib的独热编码为ponehotib,则所有子结构的独热编码为ponehots={ponehotib|ib=1,2,…,nparts};
步骤S23:对于第ib个子结构,ponehotib有概率f(nfreqib)作为中心子结构,概率计算方法如下式:
其中min为最小值函数,α为人工设定的参数,然后设置大小为t的窗口,t为人工设定的正整数参数,通过charsparts的第ib行的分布作为字符的概率分布,抽取t个字符,并利用映射g将字符编号映射到子结构编号,放入窗口中,作为相关子结构,再随机抽取r个子结构作为无关子结构,r为人工设定的正整数参数;
步骤S24:通过子结构嵌入矩阵将独热编码嵌入到向量的计算如下式:
emb=ponehot×embsparts
其中embsparts为子结构嵌入矩阵,ponehot为子结构的独热编码,emb为嵌入后的向量,将中心子结构的独热编码通过embs1嵌入得到嵌入向量emb1;
步骤S25:将t个相关子结构的独热编码通过embs2嵌入得到t个嵌入向量emb2ps={emb2pic|ic=1,2,…,t},其中emb2pic为t个嵌入向量的第ic个;
步骤S26:将r个无关子结构的独热编码通过embs2嵌入得到t个嵌入向量emb2ns={emb2nid|id=1,2,...,r},其中emb2nid为r个嵌入向量的第id个;
步骤S27:使用下式计算损失Loss,并优化网络:
其中,x为自变量,e为自然常数,log为以e为底的对数函数;
步骤S28:基于步骤S23至S27,遍历ib=1,2,...,nparts若干次,直到网络收敛,将embs1作为训练好的子结构嵌入矩阵;
步骤S29:通过映射关系g从embs1提取字符嵌入矩阵embschar,其中embschar的第ia行对应embs1的g(ia)行,通过映射关系g从ponehots提取字符独热编码表conehots={conhotia|ia=1,2,...,nchars},其中conhotia=ponehotg(ia)。
进一步的,所述步骤S3具体为:
步骤S31:选取一个待编码的汉字;
步骤S32:使用conehots将待编码的汉字编码为独热编码;
步骤S33:使用embschar将独热编码嵌入为低维向量。
本发明与现有技术相比具有以下有益效果:
本发明能有效降低汉字编码的维度,使得具有相似构成的汉字编码具有正相关性,有效提高字符识别效率
附图说明
图1是本发明方法流程图。
具体实施方式
下面结合附图及实施例对本发明做进一步说明。
请参照图1,本发明提供一种基于字符嵌入的汉字编码方法,包括以下步骤:
步骤S1:构建汉字字符集,将每个字符分解为若干个子结构,构建子结构集合,定义每个子结构对字符的贡献度,并根据子结构集合,构建子结构对每个字符贡献度矩阵;
步骤S2:根据得到的子结构集合和子结构对每个字符贡献度矩阵,构建子结构嵌入矩阵并训练,提取得到字符嵌入矩阵;
步骤S3:输入字符,通过字符嵌入矩阵获取字符嵌入。
在本实施例中,所述步骤S1具体为:
步骤S11:确定需要编码的字符集合,第ia个汉字为charia,共有nchars个需要嵌入的汉字,则字符集合为chars={charia|ia=1,2,...,nchars};
步骤S12:(1)预设每个汉字都能拆分为k个子结构;
(2)k为不小于1的整数,当k为1时拆分结果为字符本身;
(3)k的最大值为一个字符的笔画数或kmax,kmax为人工设定的最大拆分数;
按照(1)-(3)对chars中所有汉字进行拆分,得到所有的子结构parts={partib|ib=1,2,...,nparts},其中partib为第ib个子结构,nparts为parts的元素数量。
步骤S13:计算子结构频次表nfreqparts={nfreqib|ib=1,2,...,nparts},其中nfreqib表示partib是nfreqib个字符的子结构;
步骤S14:由于k=1时拆分结果为字符分身,chars是parts的子集,建立映射关系g,使得partib=partg(ia);
(2)当一个子结构同时出现在一个字符的多种拆分结果中时,取k最小的一种拆分方法计算贡献度;
(3)如果一个子结构无法构成某字符,则该子结构对该字符的贡献度为0;
按照(1)-(3)计算parts中每一个子结构对chars中每一个字符的贡献度,得到nparts行nchars列的贡献度矩阵charsparts。
在本实施例中,所述步骤S2具体为:
步骤S21:构建一对子结构嵌入矩阵embs1、embs2,embs1和embs2均为nparts行m列的矩阵,其中m为人工设定的嵌入得到的向量维度;
步骤S22:对parts中每个子结构进行独热编码,则partib的独热编码为ponehotib,则所有子结构的独热编码为ponehots={ponehotib|ib=1,2,...,nparts};
步骤S23:对于第ib个子结构,ponehotib有概率f(nfreqib)作为中心子结构,概率计算方法如下式:
其中min为最小值函数,α为人工设定的参数,然后设置大小为t的窗口,t为人工设定的正整数参数,通过charsparts的第ib行的分布作为字符的概率分布,抽取t个字符,并利用映射g将字符编号映射到子结构编号,放入窗口中,作为相关子结构,再随机抽取r个子结构作为无关子结构,r为人工设定的正整数参数;
步骤S24:通过子结构嵌入矩阵将独热编码嵌入到向量的计算如下式:
emb=ponehot×embsparts
其中embsparts为子结构嵌入矩阵,ponehot为子结构的独热编码,emb为嵌入后的向量,将中心子结构的独热编码通过embs1嵌入得到嵌入向量emb1;
步骤S25:将t个相关子结构的独热编码通过embs2嵌入得到t个嵌入向量emb2ps={emb2pic|ic=1,2,…,t},其中emb2pic为t个嵌入向量的第ic个;
步骤S26:将r个无关子结构的独热编码通过embs2嵌入得到t个嵌入向量emb2ns={emb2nid|id=1,2,...,r},其中emb2nid为r个嵌入向量的第id个;
步骤S27:使用下式计算损失Loss,并优化网络:
其中,x为自变量,e为自然常数,log为以e为底的对数函数;
步骤S28:基于步骤S23至S27,遍历ib=1,2,...,nparts若干次,直到网络收敛,将embs1作为训练好的子结构嵌入矩阵;
步骤S29:通过映射关系g从embs1提取字符嵌入矩阵embschar,其中embschar的第ia行对应embs1的g(ia)行,通过映射关系g从ponehots提取字符独热编码表conehots={conhotia|ia=1,2,...,nchars},其中conhotia=ponehotg(ia)。
在本实施例中,所述步骤S3具体为:
步骤S31:选取一个待编码的汉字;
步骤S32:使用conehots将待编码的汉字编码为独热编码;
步骤S33:使用embschar将独热编码嵌入为低维向量。
以上所述仅为本发明的较佳实施例,凡依本发明申请专利范围所做的均等变化与修饰,皆应属本发明的涵盖范围。
Claims (6)
1.一种基于字符嵌入的汉字编码方法,其特征在于,包括以下步骤:
步骤S1:构建汉字字符集,将每个字符分解为若干个子结构,构建子结构集合,定义每个子结构对字符的贡献度,并根据子结构集合,构建子结构对每个字符贡献度矩阵;
步骤S2:根据得到的子结构集合和子结构对每个字符贡献度矩阵,构建子结构嵌入矩阵并训练,提取得到字符嵌入矩阵;
步骤S3:输入字符,通过字符嵌入矩阵获取字符嵌入。
2.根据权利要求1所述的基于字符嵌入的汉字编码方法,其特征在于,所述步骤S1具体为:
步骤S11:确定需要编码的字符集合,第ia个汉字为charia,共有nchars个需要嵌入的汉字,则字符集合为chars={charia|ia=1,2,...,nchars};
步骤S12:对chars中所有汉字进行拆分,得到所有的子结构parts={partib|ib=1,2,...,nparts},其中partib为第ib个子结构,nparts为parts的元素数量;
步骤S13:计算子结构频次表nfreqparts={nfreqib|ib=1,2,...,nparts},其中nfreqib表示partib是nfreqib个字符的子结构;
步骤S14:由于k=1时拆分结果为字符分身,chars是parts的子集,建立映射关系g,使得partib=partg(ia);
步骤S15:计算parts中每一个子结构对chars中每一个字符的贡献度,得到nparts行nchars列的贡献度矩阵charsparts。
3.根据权利要求2所述的基于字符嵌入的汉字编码方法,其特征在于,所述步骤S12具体为:
(1)预设每个汉字都能拆分为k个子结构;
(2)k为不小于1的整数,当k为1时拆分结果为字符本身;
(3)k的最大值为一个字符的笔画数或kmax,kmax为人工设定的最大拆分数;
按照(1)-(3)对chars中所有汉字进行拆分,得到所有的子结构parts={partib|ib=1,2,...,nparts},其中partib为第ib个子结构,nparts为parts的元素数量。
5.根据权利要求1所述的基于字符嵌入的汉字编码方法,其特征在于,所述步骤S2具体为:
步骤S21:构建一对子结构嵌入矩阵embs1、embs2,embs1和embs2均为nparts行m列的矩阵,其中m为人工设定的嵌入得到的向量维度;
步骤S22:对parts中每个子结构进行独热编码,则partib的独热编码为ponehotib,则所有子结构的独热编码为ponehots={ponehotib|ib=1,2,...,nparts};
步骤S23:对于第ib个子结构,ponehotib有概率f(nfreqib)作为中心子结构,概率计算方法如下式:
其中min为最小值函数,α为人工设定的参数,然后设置大小为t的窗口,t为人工设定的正整数参数,通过charsparts的第ib行的分布作为字符的概率分布,抽取t个字符,并利用映射g将字符编号映射到子结构编号,放入窗口中,作为相关子结构,再随机抽取r个子结构作为无关子结构,r为人工设定的正整数参数;
步骤S24:通过子结构嵌入矩阵将独热编码嵌入到向量的计算如下式:
emb=ponehot×embsparts
其中embsparts为子结构嵌入矩阵,ponehot为子结构的独热编码,emb为嵌入后的向量,将中心子结构的独热编码通过embs1嵌入得到嵌入向量emb1;
步骤S25:将t个相关子结构的独热编码通过embs2嵌入得到t个嵌入向量emb2ps={emb2pic|ic=1,2,...,t},其中emb2pic为t个嵌入向量的第ic个;
步骤S26:将r个无关子结构的独热编码通过embs2嵌入得到t个嵌入向量emb2ns={emb2nid|id=1,2,...,r},其中emb2nid为r个嵌入向量的第id个;
步骤S27:使用下式计算损失Loss,并优化网络:
其中,x为自变量,e为自然常数,log为以e为底的对数函数;
步骤S28:基于步骤S23至S27,遍历ib=1,2,...,nparts若干次,直到网络收敛,将embs1作为训练好的子结构嵌入矩阵;
步骤S29:通过映射关系g从embs1提取字符嵌入矩阵embschar,其中embschar的第ia行对应embs1的g(ia)行,通过映射关系g从ponehots提取字符独热编码表conehots={conhotia|ia=1,2,...,nchars},其中conhotia=ponehotg(ia)。
6.根据权利要求1所述的基于字符嵌入的汉字编码方法,其特征在于,所述步骤S3具体为:
步骤S31:选取一个待编码的汉字;
步骤S32:使用conehots将待编码的汉字编码为独热编码;
步骤S33:使用embschar将独热编码嵌入为低维向量。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN202110001263.4A CN112632911B (zh) | 2021-01-04 | 2021-01-04 | 基于字符嵌入的汉字编码方法 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN202110001263.4A CN112632911B (zh) | 2021-01-04 | 2021-01-04 | 基于字符嵌入的汉字编码方法 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| CN112632911A true CN112632911A (zh) | 2021-04-09 |
| CN112632911B CN112632911B (zh) | 2022-05-13 |
Family
ID=75290846
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| CN202110001263.4A Active CN112632911B (zh) | 2021-01-04 | 2021-01-04 | 基于字符嵌入的汉字编码方法 |
Country Status (1)
| Country | Link |
|---|---|
| CN (1) | CN112632911B (zh) |
Cited By (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| TWI898775B (zh) * | 2023-10-04 | 2025-09-21 | 新加坡商瑞昱新加坡有限公司 | Ldpc解碼器及最小值搜尋方法 |
| US12476655B2 (en) | 2023-10-04 | 2025-11-18 | Realtek Singapore Private Limited | Low-density parity check decoder |
Citations (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US4327421A (en) * | 1976-05-13 | 1982-04-27 | Transtech International Corporation | Chinese printing system |
| CN103544141A (zh) * | 2012-07-16 | 2014-01-29 | 哈尔滨安天科技股份有限公司 | 二进制数据中有意义字符串提取方法和系统 |
| CN109697285A (zh) * | 2018-12-13 | 2019-04-30 | 中南大学 | 增强语义表示的层次BiLSTM中文电子病历疾病编码标注方法 |
-
2021
- 2021-01-04 CN CN202110001263.4A patent/CN112632911B/zh active Active
Patent Citations (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US4327421A (en) * | 1976-05-13 | 1982-04-27 | Transtech International Corporation | Chinese printing system |
| CN103544141A (zh) * | 2012-07-16 | 2014-01-29 | 哈尔滨安天科技股份有限公司 | 二进制数据中有意义字符串提取方法和系统 |
| CN109697285A (zh) * | 2018-12-13 | 2019-04-30 | 中南大学 | 增强语义表示的层次BiLSTM中文电子病历疾病编码标注方法 |
Non-Patent Citations (1)
| Title |
|---|
| 朱宗晓: "脱机印刷体彝族文字识别系统的原理与实现", 《万方数据会议库》 * |
Cited By (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| TWI898775B (zh) * | 2023-10-04 | 2025-09-21 | 新加坡商瑞昱新加坡有限公司 | Ldpc解碼器及最小值搜尋方法 |
| US12476655B2 (en) | 2023-10-04 | 2025-11-18 | Realtek Singapore Private Limited | Low-density parity check decoder |
Also Published As
| Publication number | Publication date |
|---|---|
| CN112632911B (zh) | 2022-05-13 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CN108154167B (zh) | 一种汉字字形相似度计算方法 | |
| CN111581374A (zh) | 文本的摘要获取方法、装置及电子设备 | |
| CN109670303B (zh) | 基于条件变分自编码的密码攻击评估方法 | |
| CN112632911A (zh) | 基于字符嵌入的汉字编码方法 | |
| Ziętara et al. | Deep divergence among subgenera of Gyrodactylus inferred from rDNA ITS region | |
| CN110851620B (zh) | 一种基于文本嵌入和结构嵌入联合的知识表示方法 | |
| CN105068997B (zh) | 平行语料的构建方法及装置 | |
| CN110134946A (zh) | 一种针对复杂数据的机器阅读理解方法 | |
| CN113918696B (zh) | 基于k均值聚类算法的问答匹配方法、装置、设备及介质 | |
| CN115908641A (zh) | 一种基于特征的文本到图像生成方法、装置及介质 | |
| CN109255381A (zh) | 一种基于二阶vlad稀疏自适应深度网络的图像分类方法 | |
| CN115170403B (zh) | 基于深度元学习和生成对抗网络的字体修复方法及系统 | |
| CN114037936B (zh) | 一种基于传递式视觉关系检测的视频描述生成方法 | |
| CN115455955B (zh) | 基于局部和全局字符表征增强的中文命名实体识别方法 | |
| CN112633008A (zh) | 基于多特征注意力的卷积神经网络句子相似度计算方法 | |
| CN114118099B (zh) | 一种基于部首特征和多层注意力机制的中文自动问答方法 | |
| CN119720089B (zh) | 用于识别风险网站的方法和装置 | |
| CN119203999B (zh) | 一种基于知识注入和知识编码的语言隐写分析方法 | |
| CN118673908A (zh) | 一种基于多维动态候选集的文本纠错方法 | |
| CN117995277B (zh) | 一种适用于长序列的对数位置编码方法 | |
| CN105589843B (zh) | 一种文本字串匹配方法及系统 | |
| CN116383428B (zh) | 一种图文编码器训练方法、图文匹配方法及装置 | |
| CN113032533B (zh) | 一种基于稀疏向量匹配的高效检索方法 | |
| Bhat et al. | Meta-analytic pooling of intraclass correlation coefficient estimates | |
| CN116362256A (zh) | 一种无监督句法控制释义生成系统及方法 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| PB01 | Publication | ||
| PB01 | Publication | ||
| SE01 | Entry into force of request for substantive examination | ||
| SE01 | Entry into force of request for substantive examination | ||
| GR01 | Patent grant | ||
| GR01 | Patent grant |