[go: up one dir, main page]

CN112632911A - 基于字符嵌入的汉字编码方法 - Google Patents

基于字符嵌入的汉字编码方法 Download PDF

Info

Publication number
CN112632911A
CN112632911A CN202110001263.4A CN202110001263A CN112632911A CN 112632911 A CN112632911 A CN 112632911A CN 202110001263 A CN202110001263 A CN 202110001263A CN 112632911 A CN112632911 A CN 112632911A
Authority
CN
China
Prior art keywords
character
substructure
parts
embedding
matrix
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110001263.4A
Other languages
English (en)
Other versions
CN112632911B (zh
Inventor
柯逍
刘童安
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fuzhou University
Original Assignee
Fuzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuzhou University filed Critical Fuzhou University
Priority to CN202110001263.4A priority Critical patent/CN112632911B/zh
Publication of CN112632911A publication Critical patent/CN112632911A/zh
Application granted granted Critical
Publication of CN112632911B publication Critical patent/CN112632911B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Image Processing (AREA)

Abstract

本发明涉及一种基于字符嵌入的汉字编码方法,包括以下步骤:步骤S1:构建汉字字符集,将每个字符分解为若干个子结构,构建子结构集合,定义每个子结构对字符的贡献度,并根据子结构集合,构建子结构对每个字符贡献度矩阵;步骤S2:根据得到的子结构集合和子结构对每个字符贡献度矩阵,构建子结构嵌入矩阵并训练,提取得到字符嵌入矩阵;步骤S3:输入字符,通过字符嵌入矩阵获取字符嵌入。本发明能有效降低汉字编码的维度,使得具有相似构成的汉字编码具有正相关性,有效提高字符识别效率。

Description

基于字符嵌入的汉字编码方法
技术领域
本发明涉及模式识别与计算机视觉领域,具体涉及一种基于字符嵌入的汉字编码方法。
背景技术
语言是人类传播信息的主要方式之一,文字是书面的语言,也是人类通过视觉传递信息最广泛的方式之一。
随着人工智能、互联网等技术的迅速发展,使用计算机自动识别图像中的文本具有重要意义。对于字符识别任务,通常采用独热编码的方式对字符进行编码,这种编码方式忽略了相似字符之间的相关性,且较为稀疏,对于英文字符和数字的识别任务来说,由于类别数较少,适用性尚可。然而对于中文字符识别任务,由于汉字类别繁多,仅常见字符就有上千种,这导致使用独热编码的网络收敛较慢,且完全忽略了汉字之间的结构形状相似性,导致字符识别准确度低,效率低。
发明内容
有鉴于此,本发明的目的在于提供一种基于字符嵌入的汉字编码方法,能有效降低汉字编码的维度,使得具有相似构成的汉字编码具有正相关性,有效提高字符识别效率。
为实现上述目的,本发明采用如下技术方案:
一种基于字符嵌入的汉字编码方法,包括以下步骤:
步骤S1:构建汉字字符集,将每个字符分解为若干个子结构,构建子结构集合,定义每个子结构对字符的贡献度,并根据子结构集合,构建子结构对每个字符贡献度矩阵;
步骤S2:根据得到的子结构集合和子结构对每个字符贡献度矩阵,构建子结构嵌入矩阵并训练,提取得到字符嵌入矩阵;
步骤S3:输入字符,通过字符嵌入矩阵获取字符嵌入。
进一步的,所述步骤S1具体为:
步骤S11:确定需要编码的字符集合,第ia个汉字为charia,共有nchars个需要嵌入的汉字,则字符集合为chars={charia|ia=1,2,...,nchars};
步骤S12:对chars中所有汉字进行拆分,得到所有的子结构parts={partib|ib=1,2,...,nparts},其中partib为第ib个子结构,nparts为parts的元素数量;
步骤S13:计算子结构频次表nfreqparts={nfreqib|ib=1,2,...,nparts},其中nfreqib表示partib是nfreqib个字符的子结构;
步骤S14:由于k=1时拆分结果为字符分身,chars是parts的子集,建立映射关系g,使得partib=partg(ia)
步骤S15:计算parts中每一个子结构对chars中每一个字符的贡献度,得到nparts行nchars列的贡献度矩阵charsparts。
进一步的,所述步骤S12具体为:
(1)预设每个汉字都能拆分为k个子结构;
(2)k为不小于1的整数,当k为1时拆分结果为字符本身;
(3)k的最大值为一个字符的笔画数或kmax,kmax为人工设定的最大拆分数;
按照(1)-(3)对chars中所有汉字进行拆分,得到所有的子结构parts={partib|ib=1,2,...,nparts},其中partib为第ib个子结构,nparts为parts的元素数量。
进一步的,所述步骤S15具体为:
(1)当一个汉字拆分为k部分时,拆分的子结构对字符的贡献度为
Figure BDA0002881458490000031
(2)当一个子结构同时出现在一个字符的多种拆分结果中时,取k最小的一种拆分方法计算贡献度;
(3)如果一个子结构无法构成某字符,则该子结构对该字符的贡献度为0;
按照(1)-(3)计算parts中每一个子结构对chars中每一个字符的贡献度,得到nparts行nchars列的贡献度矩阵charsparts。
进一步的,所述步骤S2具体为:
步骤S21:构建一对子结构嵌入矩阵embs1、embs2,embs1和embs2均为nparts行m列的矩阵,其中m为人工设定的嵌入得到的向量维度;
步骤S22:对parts中每个子结构进行独热编码,则partib的独热编码为ponehotib,则所有子结构的独热编码为ponehots={ponehotib|ib=1,2,…,nparts};
步骤S23:对于第ib个子结构,ponehotib有概率f(nfreqib)作为中心子结构,概率计算方法如下式:
Figure BDA0002881458490000041
其中min为最小值函数,α为人工设定的参数,然后设置大小为t的窗口,t为人工设定的正整数参数,通过charsparts的第ib行的分布作为字符的概率分布,抽取t个字符,并利用映射g将字符编号映射到子结构编号,放入窗口中,作为相关子结构,再随机抽取r个子结构作为无关子结构,r为人工设定的正整数参数;
步骤S24:通过子结构嵌入矩阵将独热编码嵌入到向量的计算如下式:
emb=ponehot×embsparts
其中embsparts为子结构嵌入矩阵,ponehot为子结构的独热编码,emb为嵌入后的向量,将中心子结构的独热编码通过embs1嵌入得到嵌入向量emb1;
步骤S25:将t个相关子结构的独热编码通过embs2嵌入得到t个嵌入向量emb2ps={emb2pic|ic=1,2,…,t},其中emb2pic为t个嵌入向量的第ic个;
步骤S26:将r个无关子结构的独热编码通过embs2嵌入得到t个嵌入向量emb2ns={emb2nid|id=1,2,...,r},其中emb2nid为r个嵌入向量的第id个;
步骤S27:使用下式计算损失Loss,并优化网络:
Figure BDA0002881458490000042
Figure BDA0002881458490000051
其中∑ic表示遍历ic=1,2,...,t的求和符号,∑id表示遍历id=1,2,…,r的求和符号,
Figure BDA0002881458490000052
为emb2pic的转置,
Figure BDA0002881458490000053
为emb2nid的转置,logsigmoid函数的表达式如下:
Figure BDA0002881458490000054
其中,x为自变量,e为自然常数,log为以e为底的对数函数;
步骤S28:基于步骤S23至S27,遍历ib=1,2,...,nparts若干次,直到网络收敛,将embs1作为训练好的子结构嵌入矩阵;
步骤S29:通过映射关系g从embs1提取字符嵌入矩阵embschar,其中embschar的第ia行对应embs1的g(ia)行,通过映射关系g从ponehots提取字符独热编码表conehots={conhotia|ia=1,2,...,nchars},其中conhotia=ponehotg(ia)
进一步的,所述步骤S3具体为:
步骤S31:选取一个待编码的汉字;
步骤S32:使用conehots将待编码的汉字编码为独热编码;
步骤S33:使用embschar将独热编码嵌入为低维向量。
本发明与现有技术相比具有以下有益效果:
本发明能有效降低汉字编码的维度,使得具有相似构成的汉字编码具有正相关性,有效提高字符识别效率
附图说明
图1是本发明方法流程图。
具体实施方式
下面结合附图及实施例对本发明做进一步说明。
请参照图1,本发明提供一种基于字符嵌入的汉字编码方法,包括以下步骤:
步骤S1:构建汉字字符集,将每个字符分解为若干个子结构,构建子结构集合,定义每个子结构对字符的贡献度,并根据子结构集合,构建子结构对每个字符贡献度矩阵;
步骤S2:根据得到的子结构集合和子结构对每个字符贡献度矩阵,构建子结构嵌入矩阵并训练,提取得到字符嵌入矩阵;
步骤S3:输入字符,通过字符嵌入矩阵获取字符嵌入。
在本实施例中,所述步骤S1具体为:
步骤S11:确定需要编码的字符集合,第ia个汉字为charia,共有nchars个需要嵌入的汉字,则字符集合为chars={charia|ia=1,2,...,nchars};
步骤S12:(1)预设每个汉字都能拆分为k个子结构;
(2)k为不小于1的整数,当k为1时拆分结果为字符本身;
(3)k的最大值为一个字符的笔画数或kmax,kmax为人工设定的最大拆分数;
按照(1)-(3)对chars中所有汉字进行拆分,得到所有的子结构parts={partib|ib=1,2,...,nparts},其中partib为第ib个子结构,nparts为parts的元素数量。
步骤S13:计算子结构频次表nfreqparts={nfreqib|ib=1,2,...,nparts},其中nfreqib表示partib是nfreqib个字符的子结构;
步骤S14:由于k=1时拆分结果为字符分身,chars是parts的子集,建立映射关系g,使得partib=partg(ia)
步骤S15:(1)当一个汉字拆分为k部分时,拆分的子结构对字符的贡献度为
Figure BDA0002881458490000071
(2)当一个子结构同时出现在一个字符的多种拆分结果中时,取k最小的一种拆分方法计算贡献度;
(3)如果一个子结构无法构成某字符,则该子结构对该字符的贡献度为0;
按照(1)-(3)计算parts中每一个子结构对chars中每一个字符的贡献度,得到nparts行nchars列的贡献度矩阵charsparts。
在本实施例中,所述步骤S2具体为:
步骤S21:构建一对子结构嵌入矩阵embs1、embs2,embs1和embs2均为nparts行m列的矩阵,其中m为人工设定的嵌入得到的向量维度;
步骤S22:对parts中每个子结构进行独热编码,则partib的独热编码为ponehotib,则所有子结构的独热编码为ponehots={ponehotib|ib=1,2,...,nparts};
步骤S23:对于第ib个子结构,ponehotib有概率f(nfreqib)作为中心子结构,概率计算方法如下式:
Figure BDA0002881458490000081
其中min为最小值函数,α为人工设定的参数,然后设置大小为t的窗口,t为人工设定的正整数参数,通过charsparts的第ib行的分布作为字符的概率分布,抽取t个字符,并利用映射g将字符编号映射到子结构编号,放入窗口中,作为相关子结构,再随机抽取r个子结构作为无关子结构,r为人工设定的正整数参数;
步骤S24:通过子结构嵌入矩阵将独热编码嵌入到向量的计算如下式:
emb=ponehot×embsparts
其中embsparts为子结构嵌入矩阵,ponehot为子结构的独热编码,emb为嵌入后的向量,将中心子结构的独热编码通过embs1嵌入得到嵌入向量emb1;
步骤S25:将t个相关子结构的独热编码通过embs2嵌入得到t个嵌入向量emb2ps={emb2pic|ic=1,2,…,t},其中emb2pic为t个嵌入向量的第ic个;
步骤S26:将r个无关子结构的独热编码通过embs2嵌入得到t个嵌入向量emb2ns={emb2nid|id=1,2,...,r},其中emb2nid为r个嵌入向量的第id个;
步骤S27:使用下式计算损失Loss,并优化网络:
Figure BDA0002881458490000082
其中∑ic表示遍历ic=1,2,...,t的求和符号,∑id表示遍历id=1,2,...,r的求和符号,
Figure BDA0002881458490000092
为emb2pic的转置,
Figure BDA0002881458490000093
为emb2nid的转置,logsigmoid函数的表达式如下:
Figure BDA0002881458490000091
其中,x为自变量,e为自然常数,log为以e为底的对数函数;
步骤S28:基于步骤S23至S27,遍历ib=1,2,...,nparts若干次,直到网络收敛,将embs1作为训练好的子结构嵌入矩阵;
步骤S29:通过映射关系g从embs1提取字符嵌入矩阵embschar,其中embschar的第ia行对应embs1的g(ia)行,通过映射关系g从ponehots提取字符独热编码表conehots={conhotia|ia=1,2,...,nchars},其中conhotia=ponehotg(ia)
在本实施例中,所述步骤S3具体为:
步骤S31:选取一个待编码的汉字;
步骤S32:使用conehots将待编码的汉字编码为独热编码;
步骤S33:使用embschar将独热编码嵌入为低维向量。
以上所述仅为本发明的较佳实施例,凡依本发明申请专利范围所做的均等变化与修饰,皆应属本发明的涵盖范围。

Claims (6)

1.一种基于字符嵌入的汉字编码方法,其特征在于,包括以下步骤:
步骤S1:构建汉字字符集,将每个字符分解为若干个子结构,构建子结构集合,定义每个子结构对字符的贡献度,并根据子结构集合,构建子结构对每个字符贡献度矩阵;
步骤S2:根据得到的子结构集合和子结构对每个字符贡献度矩阵,构建子结构嵌入矩阵并训练,提取得到字符嵌入矩阵;
步骤S3:输入字符,通过字符嵌入矩阵获取字符嵌入。
2.根据权利要求1所述的基于字符嵌入的汉字编码方法,其特征在于,所述步骤S1具体为:
步骤S11:确定需要编码的字符集合,第ia个汉字为charia,共有nchars个需要嵌入的汉字,则字符集合为chars={charia|ia=1,2,...,nchars};
步骤S12:对chars中所有汉字进行拆分,得到所有的子结构parts={partib|ib=1,2,...,nparts},其中partib为第ib个子结构,nparts为parts的元素数量;
步骤S13:计算子结构频次表nfreqparts={nfreqib|ib=1,2,...,nparts},其中nfreqib表示partib是nfreqib个字符的子结构;
步骤S14:由于k=1时拆分结果为字符分身,chars是parts的子集,建立映射关系g,使得partib=partg(ia)
步骤S15:计算parts中每一个子结构对chars中每一个字符的贡献度,得到nparts行nchars列的贡献度矩阵charsparts。
3.根据权利要求2所述的基于字符嵌入的汉字编码方法,其特征在于,所述步骤S12具体为:
(1)预设每个汉字都能拆分为k个子结构;
(2)k为不小于1的整数,当k为1时拆分结果为字符本身;
(3)k的最大值为一个字符的笔画数或kmax,kmax为人工设定的最大拆分数;
按照(1)-(3)对chars中所有汉字进行拆分,得到所有的子结构parts={partib|ib=1,2,...,nparts},其中partib为第ib个子结构,nparts为parts的元素数量。
4.根据权利要求2所述的基于字符嵌入的汉字编码方法,其特征在于,所述步骤S15具体为:
(1)当一个汉字拆分为k部分时,拆分的子结构对字符的贡献度为
Figure FDA0002881458480000021
(2)当一个子结构同时出现在一个字符的多种拆分结果中时,取k最小的一种拆分方法计算贡献度;
(3)如果一个子结构无法构成某字符,则该子结构对该字符的贡献度为0;
按照(1)-(3)计算parts中每一个子结构对chars中每一个字符的贡献度,得到nparts行nchars列的贡献度矩阵charsparts。
5.根据权利要求1所述的基于字符嵌入的汉字编码方法,其特征在于,所述步骤S2具体为:
步骤S21:构建一对子结构嵌入矩阵embs1、embs2,embs1和embs2均为nparts行m列的矩阵,其中m为人工设定的嵌入得到的向量维度;
步骤S22:对parts中每个子结构进行独热编码,则partib的独热编码为ponehotib,则所有子结构的独热编码为ponehots={ponehotib|ib=1,2,...,nparts};
步骤S23:对于第ib个子结构,ponehotib有概率f(nfreqib)作为中心子结构,概率计算方法如下式:
Figure FDA0002881458480000031
其中min为最小值函数,α为人工设定的参数,然后设置大小为t的窗口,t为人工设定的正整数参数,通过charsparts的第ib行的分布作为字符的概率分布,抽取t个字符,并利用映射g将字符编号映射到子结构编号,放入窗口中,作为相关子结构,再随机抽取r个子结构作为无关子结构,r为人工设定的正整数参数;
步骤S24:通过子结构嵌入矩阵将独热编码嵌入到向量的计算如下式:
emb=ponehot×embsparts
其中embsparts为子结构嵌入矩阵,ponehot为子结构的独热编码,emb为嵌入后的向量,将中心子结构的独热编码通过embs1嵌入得到嵌入向量emb1;
步骤S25:将t个相关子结构的独热编码通过embs2嵌入得到t个嵌入向量emb2ps={emb2pic|ic=1,2,...,t},其中emb2pic为t个嵌入向量的第ic个;
步骤S26:将r个无关子结构的独热编码通过embs2嵌入得到t个嵌入向量emb2ns={emb2nid|id=1,2,...,r},其中emb2nid为r个嵌入向量的第id个;
步骤S27:使用下式计算损失Loss,并优化网络:
Figure FDA0002881458480000041
其中∑ic表示遍历ic=1,2,...,t的求和符号,∑id表示遍历id=1,2,...,r的求和符号,
Figure FDA0002881458480000042
为emb2pic的转置,
Figure FDA0002881458480000043
为emb2nid的转置,log sigmoid函数的表达式如下:
Figure FDA0002881458480000044
其中,x为自变量,e为自然常数,log为以e为底的对数函数;
步骤S28:基于步骤S23至S27,遍历ib=1,2,...,nparts若干次,直到网络收敛,将embs1作为训练好的子结构嵌入矩阵;
步骤S29:通过映射关系g从embs1提取字符嵌入矩阵embschar,其中embschar的第ia行对应embs1的g(ia)行,通过映射关系g从ponehots提取字符独热编码表conehots={conhotia|ia=1,2,...,nchars},其中conhotia=ponehotg(ia)
6.根据权利要求1所述的基于字符嵌入的汉字编码方法,其特征在于,所述步骤S3具体为:
步骤S31:选取一个待编码的汉字;
步骤S32:使用conehots将待编码的汉字编码为独热编码;
步骤S33:使用embschar将独热编码嵌入为低维向量。
CN202110001263.4A 2021-01-04 2021-01-04 基于字符嵌入的汉字编码方法 Active CN112632911B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110001263.4A CN112632911B (zh) 2021-01-04 2021-01-04 基于字符嵌入的汉字编码方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110001263.4A CN112632911B (zh) 2021-01-04 2021-01-04 基于字符嵌入的汉字编码方法

Publications (2)

Publication Number Publication Date
CN112632911A true CN112632911A (zh) 2021-04-09
CN112632911B CN112632911B (zh) 2022-05-13

Family

ID=75290846

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110001263.4A Active CN112632911B (zh) 2021-01-04 2021-01-04 基于字符嵌入的汉字编码方法

Country Status (1)

Country Link
CN (1) CN112632911B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI898775B (zh) * 2023-10-04 2025-09-21 新加坡商瑞昱新加坡有限公司 Ldpc解碼器及最小值搜尋方法
US12476655B2 (en) 2023-10-04 2025-11-18 Realtek Singapore Private Limited Low-density parity check decoder

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4327421A (en) * 1976-05-13 1982-04-27 Transtech International Corporation Chinese printing system
CN103544141A (zh) * 2012-07-16 2014-01-29 哈尔滨安天科技股份有限公司 二进制数据中有意义字符串提取方法和系统
CN109697285A (zh) * 2018-12-13 2019-04-30 中南大学 增强语义表示的层次BiLSTM中文电子病历疾病编码标注方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4327421A (en) * 1976-05-13 1982-04-27 Transtech International Corporation Chinese printing system
CN103544141A (zh) * 2012-07-16 2014-01-29 哈尔滨安天科技股份有限公司 二进制数据中有意义字符串提取方法和系统
CN109697285A (zh) * 2018-12-13 2019-04-30 中南大学 增强语义表示的层次BiLSTM中文电子病历疾病编码标注方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
朱宗晓: "脱机印刷体彝族文字识别系统的原理与实现", 《万方数据会议库》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI898775B (zh) * 2023-10-04 2025-09-21 新加坡商瑞昱新加坡有限公司 Ldpc解碼器及最小值搜尋方法
US12476655B2 (en) 2023-10-04 2025-11-18 Realtek Singapore Private Limited Low-density parity check decoder

Also Published As

Publication number Publication date
CN112632911B (zh) 2022-05-13

Similar Documents

Publication Publication Date Title
CN108154167B (zh) 一种汉字字形相似度计算方法
CN111581374A (zh) 文本的摘要获取方法、装置及电子设备
CN109670303B (zh) 基于条件变分自编码的密码攻击评估方法
CN112632911A (zh) 基于字符嵌入的汉字编码方法
Ziętara et al. Deep divergence among subgenera of Gyrodactylus inferred from rDNA ITS region
CN110851620B (zh) 一种基于文本嵌入和结构嵌入联合的知识表示方法
CN105068997B (zh) 平行语料的构建方法及装置
CN110134946A (zh) 一种针对复杂数据的机器阅读理解方法
CN113918696B (zh) 基于k均值聚类算法的问答匹配方法、装置、设备及介质
CN115908641A (zh) 一种基于特征的文本到图像生成方法、装置及介质
CN109255381A (zh) 一种基于二阶vlad稀疏自适应深度网络的图像分类方法
CN115170403B (zh) 基于深度元学习和生成对抗网络的字体修复方法及系统
CN114037936B (zh) 一种基于传递式视觉关系检测的视频描述生成方法
CN115455955B (zh) 基于局部和全局字符表征增强的中文命名实体识别方法
CN112633008A (zh) 基于多特征注意力的卷积神经网络句子相似度计算方法
CN114118099B (zh) 一种基于部首特征和多层注意力机制的中文自动问答方法
CN119720089B (zh) 用于识别风险网站的方法和装置
CN119203999B (zh) 一种基于知识注入和知识编码的语言隐写分析方法
CN118673908A (zh) 一种基于多维动态候选集的文本纠错方法
CN117995277B (zh) 一种适用于长序列的对数位置编码方法
CN105589843B (zh) 一种文本字串匹配方法及系统
CN116383428B (zh) 一种图文编码器训练方法、图文匹配方法及装置
CN113032533B (zh) 一种基于稀疏向量匹配的高效检索方法
Bhat et al. Meta-analytic pooling of intraclass correlation coefficient estimates
CN116362256A (zh) 一种无监督句法控制释义生成系统及方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant