CN112632911A

CN112632911A - 基于字符嵌入的汉字编码方法

Info

Publication number: CN112632911A
Application number: CN202110001263.4A
Authority: CN
Inventors: 柯逍; 刘童安
Original assignee: Fuzhou University
Current assignee: Fuzhou University
Priority date: 2021-01-04
Filing date: 2021-01-04
Publication date: 2021-04-09
Anticipated expiration: 2041-01-04
Also published as: CN112632911B

Abstract

本发明涉及一种基于字符嵌入的汉字编码方法，包括以下步骤：步骤S1：构建汉字字符集，将每个字符分解为若干个子结构，构建子结构集合，定义每个子结构对字符的贡献度，并根据子结构集合，构建子结构对每个字符贡献度矩阵；步骤S2：根据得到的子结构集合和子结构对每个字符贡献度矩阵，构建子结构嵌入矩阵并训练，提取得到字符嵌入矩阵；步骤S3：输入字符，通过字符嵌入矩阵获取字符嵌入。本发明能有效降低汉字编码的维度，使得具有相似构成的汉字编码具有正相关性，有效提高字符识别效率。

Description

基于字符嵌入的汉字编码方法

技术领域

本发明涉及模式识别与计算机视觉领域，具体涉及一种基于字符嵌入的汉字编码方法。

背景技术

语言是人类传播信息的主要方式之一，文字是书面的语言，也是人类通过视觉传递信息最广泛的方式之一。

随着人工智能、互联网等技术的迅速发展，使用计算机自动识别图像中的文本具有重要意义。对于字符识别任务，通常采用独热编码的方式对字符进行编码，这种编码方式忽略了相似字符之间的相关性，且较为稀疏，对于英文字符和数字的识别任务来说，由于类别数较少，适用性尚可。然而对于中文字符识别任务，由于汉字类别繁多，仅常见字符就有上千种，这导致使用独热编码的网络收敛较慢，且完全忽略了汉字之间的结构形状相似性，导致字符识别准确度低，效率低。

发明内容

有鉴于此，本发明的目的在于提供一种基于字符嵌入的汉字编码方法，能有效降低汉字编码的维度，使得具有相似构成的汉字编码具有正相关性，有效提高字符识别效率。

为实现上述目的，本发明采用如下技术方案：

一种基于字符嵌入的汉字编码方法，包括以下步骤：

步骤S1：构建汉字字符集，将每个字符分解为若干个子结构，构建子结构集合，定义每个子结构对字符的贡献度，并根据子结构集合，构建子结构对每个字符贡献度矩阵；

步骤S2：根据得到的子结构集合和子结构对每个字符贡献度矩阵，构建子结构嵌入矩阵并训练，提取得到字符嵌入矩阵；

步骤S3：输入字符，通过字符嵌入矩阵获取字符嵌入。

进一步的，所述步骤S1具体为：

步骤S11:确定需要编码的字符集合，第ia个汉字为char_ia，共有n_chars个需要嵌入的汉字，则字符集合为chars＝{char_ia|ia＝1，2，...，n_chars}；

步骤S12:对chars中所有汉字进行拆分，得到所有的子结构parts＝{part_ib|ib＝1，2，...，n_parts}，其中part_ib为第ib个子结构，n_parts为parts的元素数量；

步骤S13:计算子结构频次表nfreq_parts＝{nfreq_ib|ib＝1，2，...，n_parts}，其中nfreq_ib表示part_ib是nfreq_ib个字符的子结构；

步骤S14：由于k＝1时拆分结果为字符分身，chars是parts的子集，建立映射关系g，使得part_ib＝part_g(ia)；

步骤S15：计算parts中每一个子结构对chars中每一个字符的贡献度，得到n_parts行n_chars列的贡献度矩阵charsparts。

进一步的，所述步骤S12具体为：

(1)预设每个汉字都能拆分为k个子结构；

(2)k为不小于1的整数，当k为1时拆分结果为字符本身；

(3)k的最大值为一个字符的笔画数或k_max，k_max为人工设定的最大拆分数；

按照(1)-(3)对chars中所有汉字进行拆分，得到所有的子结构parts＝{part_ib|ib＝1，2，...，n_parts}，其中part_ib为第ib个子结构，n_parts为parts的元素数量。

进一步的，所述步骤S15具体为：

(1)当一个汉字拆分为k部分时，拆分的子结构对字符的贡献度为

(2)当一个子结构同时出现在一个字符的多种拆分结果中时，取k最小的一种拆分方法计算贡献度；

(3)如果一个子结构无法构成某字符，则该子结构对该字符的贡献度为0；

按照(1)-(3)计算parts中每一个子结构对chars中每一个字符的贡献度，得到n_parts行n_chars列的贡献度矩阵charsparts。

进一步的，所述步骤S2具体为：

步骤S21：构建一对子结构嵌入矩阵embs1、embs2，embs1和embs2均为n_parts行m列的矩阵，其中m为人工设定的嵌入得到的向量维度；

步骤S22：对parts中每个子结构进行独热编码，则part_ib的独热编码为ponehot_ib，则所有子结构的独热编码为ponehots＝{ponehot_ib|ib＝1，2，…，n_parts}；

步骤S23：对于第ib个子结构，ponehot_ib有概率f(nfreq_ib)作为中心子结构，概率计算方法如下式：

其中min为最小值函数，α为人工设定的参数，然后设置大小为t的窗口，t为人工设定的正整数参数，通过charsparts的第ib行的分布作为字符的概率分布，抽取t个字符，并利用映射g将字符编号映射到子结构编号，放入窗口中，作为相关子结构，再随机抽取r个子结构作为无关子结构，r为人工设定的正整数参数；

步骤S24：通过子结构嵌入矩阵将独热编码嵌入到向量的计算如下式：

emb＝ponehot×embs_parts

其中embs_parts为子结构嵌入矩阵，ponehot为子结构的独热编码，emb为嵌入后的向量，将中心子结构的独热编码通过embs1嵌入得到嵌入向量emb1；

步骤S25：将t个相关子结构的独热编码通过embs2嵌入得到t个嵌入向量emb2ps＝{emb2p_ic|ic＝1，2，…，t}，其中emb2p_ic为t个嵌入向量的第ic个；

步骤S26：将r个无关子结构的独热编码通过embs2嵌入得到t个嵌入向量emb2ns＝{emb2n_id|id＝1，2，...，r}，其中emb2n_id为r个嵌入向量的第id个；

步骤S27：使用下式计算损失Loss，并优化网络：

其中∑_ic表示遍历ic＝1，2，...，t的求和符号，∑_id表示遍历id＝1，2，…，r的求和符号，

为emb2p_ic的转置，

为emb2n_id的转置，logsigmoid函数的表达式如下：

其中，x为自变量，e为自然常数，log为以e为底的对数函数；

步骤S28：基于步骤S23至S27，遍历ib＝1，2，...，n_parts若干次，直到网络收敛，将embs1作为训练好的子结构嵌入矩阵；

步骤S29：通过映射关系g从embs1提取字符嵌入矩阵embschar，其中embschar的第ia行对应embs1的g(ia)行，通过映射关系g从ponehots提取字符独热编码表conehots＝{conhot_ia|ia＝1，2，...，n_chars}，其中conhot_ia＝ponehot_g(ia)。

进一步的，所述步骤S3具体为：

步骤S31：选取一个待编码的汉字；

步骤S32：使用conehots将待编码的汉字编码为独热编码；

步骤S33：使用embschar将独热编码嵌入为低维向量。

本发明与现有技术相比具有以下有益效果：

本发明能有效降低汉字编码的维度，使得具有相似构成的汉字编码具有正相关性，有效提高字符识别效率

附图说明

图1是本发明方法流程图。

具体实施方式

下面结合附图及实施例对本发明做进一步说明。

请参照图1，本发明提供一种基于字符嵌入的汉字编码方法，包括以下步骤：

步骤S3：输入字符，通过字符嵌入矩阵获取字符嵌入。

在本实施例中，所述步骤S1具体为：

步骤S12:(1)预设每个汉字都能拆分为k个子结构；

(2)k为不小于1的整数，当k为1时拆分结果为字符本身；

步骤S15：(1)当一个汉字拆分为k部分时，拆分的子结构对字符的贡献度为

在本实施例中，所述步骤S2具体为：

步骤S22：对parts中每个子结构进行独热编码，则part_ib的独热编码为ponehot_ib，则所有子结构的独热编码为ponehots＝{ponehot_ib|ib＝1，2，...，n_parts}；