CN1068127C - 文字信息处理方法和装置 - Google Patents
文字信息处理方法和装置 Download PDFInfo
- Publication number
- CN1068127C CN1068127C CN96115997A CN96115997A CN1068127C CN 1068127 C CN1068127 C CN 1068127C CN 96115997 A CN96115997 A CN 96115997A CN 96115997 A CN96115997 A CN 96115997A CN 1068127 C CN1068127 C CN 1068127C
- Authority
- CN
- China
- Prior art keywords
- word
- machine code
- isn
- subitem
- character
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000003672 processing method Methods 0.000 title claims description 28
- 238000006243 chemical reaction Methods 0.000 claims abstract description 163
- 238000000034 method Methods 0.000 claims abstract description 99
- 230000010365 information processing Effects 0.000 claims abstract description 29
- 230000011218 segmentation Effects 0.000 claims abstract description 13
- 239000000203 mixture Substances 0.000 claims description 126
- 238000013507 mapping Methods 0.000 claims description 36
- 230000001174 ascending effect Effects 0.000 claims description 32
- 230000008859 change Effects 0.000 claims description 29
- 230000008569 process Effects 0.000 claims description 29
- 238000005520 cutting process Methods 0.000 claims description 23
- 230000008878 coupling Effects 0.000 claims description 17
- 238000010168 coupling process Methods 0.000 claims description 17
- 238000005859 coupling reaction Methods 0.000 claims description 17
- 238000013519 translation Methods 0.000 claims description 10
- 238000000151 deposition Methods 0.000 claims description 9
- 230000009191 jumping Effects 0.000 claims description 9
- 230000009471 action Effects 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 4
- 238000012795 verification Methods 0.000 claims description 4
- 230000000052 comparative effect Effects 0.000 claims description 3
- 238000012545 processing Methods 0.000 abstract description 29
- 230000005540 biological transmission Effects 0.000 abstract description 14
- 238000003860 storage Methods 0.000 abstract description 11
- 238000005516 engineering process Methods 0.000 abstract description 3
- 238000010586 diagram Methods 0.000 description 16
- 238000012546 transfer Methods 0.000 description 12
- 230000008901 benefit Effects 0.000 description 7
- 238000004891 communication Methods 0.000 description 6
- 230000005055 memory storage Effects 0.000 description 4
- 230000006835 compression Effects 0.000 description 3
- 238000007906 compression Methods 0.000 description 3
- 230000008676 import Effects 0.000 description 3
- 238000007639 printing Methods 0.000 description 3
- 208000027697 autoimmune lymphoproliferative syndrome due to CTLA4 haploinsuffiency Diseases 0.000 description 2
- 238000000354 decomposition reaction Methods 0.000 description 2
- 238000003825 pressing Methods 0.000 description 2
- 230000033764 rhythmic process Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000002860 competitive effect Effects 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000006837 decompression Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Images
Landscapes
- Document Processing Apparatus (AREA)
- Machine Translation (AREA)
Abstract
本发明提出了一种文字信息处理的方法和装置。该方法采用多级内码技术,解决了文字信息的存储、传输、分词和文语转换等问题。该方法可广泛用于计算机网,各种文字信息处理设备,多媒体领域和语言工程等各个领域。
Description
本发明涉及文字信息处理的方法和装置。特别涉及以文字成分为单位进行处理的方法和装置,该发明是对含有多级内码的文字信息能直接进行处理的文字信息处理的方法和装置。
现有文字处理的方法和装置中,文字字符用机内码表示,本说明书将这种机内码称为单级内码,又称为一级内码,例如ASCII码、汉字机内码等。在现有文字信息处理系统中,文字信息是以单级内码的形式进行处理的。文字信息存储量大,传输量大,处理速度慢。
现有的文本压缩技术可以增加文字信息在辅助存储器上的存储量,提高文字信息的传输效率,但是不能提高文字信息的处理速度,也不能增加文字信息在主存储器内的存储量。在语言工程中,如自然语言理解、文-语转换和机器翻译中,文字信息的处理需要在词、词组或短语的层次上进行,因而现有文字处理系统的效率较低,并且存在一些难以克服的困难,例如分词的速度和正确性问题,文-语转换中语音的正确性等问题。当前文字信息处理中许多困难的根源就在于单级内码,例如在中文的输入过程中,有的采用词输入的方法,也就是说,在输入过程中,已经解决了许多分词问题,但是,现有的输入方法只解决了输入码到单级内码的转换,单级内码难以保留分词信息,因而将输入过程中的分词信息扔掉了;又如,汉字存在重音问题,对应一个汉字只有一个字形,但是有多个音,但是只有一个机内码,因而无法区分重音字。
在对国际检索报告中列举的四篇文献研究之后,发现这四篇文献都是关于文字输入问题的,以上相关文献中没有一个提出多级内码的概念。根据CN-A-1053960,输入汉字字形组合符号(即字或词的输入码),在词典和字典中检索输入码,将词组变换为相应的字,输出变换后的字。CN-A-86107235公开了一种以词组输入编码为主,单字编码输入为辅的二元输入法。这些文献只解决汉字或表意文字输入码到相应单级内码的转换问题。由于没有提出多级内码的概念,在机器内部仍然以单级内码存储和处理,自然不能解决增加文字信息存储量的问题,也不能提高文字信息的传输效率,也不能提高文字信息的处速度(虽然有的可提高输入速度),也没有在分词和文-语转换方面带来新的长处。
本发明不仅可用于表意文字,也适用于字母式结构的文字信息的处理,也就是说,本发明适用于各种文字信息的处理。本发明也包含汉字信息的输入方法,但主要是输入码转换为含有多级内码的方法和装置,对于输入码转换为单级内码的方法,则是利用了多级内码技术中的有关方法。
发明目的
本发明的目的之一在于提供一种含有多级内码的文字信息处理方法,并且提供该方法在第一类文字处理系统中的应用。
本发明的目的之二在于提供一种含有多级内码的文字信息的处理装置,并且提供与第二类文字信息处理装置相关的第一类文字信息处理的装置。
为了实现发明的目的,本发明人提出了多级内码的概念。
首先说明多级内码的含义。
内码是文字信息在机器内部的表示,简称机内码或内码。
单级内码是对应文字字符或基本单位的内码。例如ASCII码和汉字机内码等。单级内码也可称为一级内码。
文字成分是对应文字中的字、词、词组或短语等文字部分。
多级内码是对应于文字成分的内码,也就是说,多级内码是字、词、词组或短语在机器内部的表示。多级内码不仅用于文字信息的存储、传输,而且可用于文字信息的运算和处理。单级内码可以看作为一级的多级内码,因而能处理多级内码的系统自然能处理仅含单级内码的文字信息。
由于多级内码可与词相对应,因而含有多级内码的文字信息不需分词,这样解决了分词的正确性和分词速度问题,同时,多级内码也解决了字和词的重音问题,对于含有多个(含2个)重音的字,其中一个用单级内码表示,其余用多级内码表示,例如“重”可发“zhong”或“chong”,汉语中还存在一些重音词,例如“一行”可读成“yi xing”或“yi hang”,出差可读为“chu chai”或“chucha”等,在英语中也存在重音问题,例如record作动词和作名词时,发音就不同,在英语中不同发音的词可以用不同的多级内码表示,所以,采用多级内码可以解决文字信息中的重音问题。
本发明的第一目的的第一方面,是关于一种文字信息处理方法,其中文字字符用机内码表示,该机内码也称为单级内码,并且文字成分一即字、词、词组和短语是用文字成分中所含至少一个字符的单级内码的集合表示的,文字信息的处理是通过对单级内码的处理实现的,所述文字信息处理方法的特征在于
所述文字成分也可表示为另一种机内码,这种内码称为多级内码,这样,与文字成分对应的至少一个字符的单级内码的集合就可用一个多级内码表示,对文字信息的处理还通过对多级内码的处理,执行有关多级内码的操作来实现,从而可明显地提高文字信息在存储介质上的存储量,提高处理速度,提高传输效率,并且解决了文字信息切分的正确性问题和文语转换中语音的正确性问题等。
多级内码是一种多字节编码,它可采用位标识,字节标识,串标识或无标识编码。多级内码应易于与单级内码相区分。
假设多级内码采用二字节位标识编码,对于“中国人民解放军”共有7个汉字机内码组成,需要占14个字节,对于这个短语可用一个多级内码表示,只需2个字节,所以采用多级内码可以增加辅存对文字信息的存储量,也可提高文字信息的传输效率,又由于含有多级内码的文字信息可以直接参与各种运算和处理,在运算和处理中,不需要转换为单级内码,含有多级内码的文字信息比仅含单级内码的文字信息短,所以处理速度提高了,同时也提高了主存储器对文字信息的存储量。
内码的单向转换是由高级内码向低级内码的转换,一般情况下是指转换为单级内码。多向转换是由低级内码向高级内码的转换,一般情况下是指由单级内码转换为多级内码。
多向转换可以是下列转换的一种:
(1)由词或短语转换为相应的多级内码;
(2)由字的单级内码转换为相应的多级内码,一般用于重音字;
(3)由重音词相应的单级内码转换为相应的多级内码。
文字的注音信息通常两部份内容:一是文字所构成的基本音节,二是重音或声调信息;例如汉字的注音可由其拼音和声调组成;声调除四声外,还包括轻声;共五声。我们将至少包括这两部分信息的文字的注音称为全音。英文的注音可以由音标和重音组成。
全音单向转换装置:将含有内码文字信息转换为相应的全音。
多级内码的编码与成分库装置的结构有关。
成分项是对应于多级内码的文字信息部分,它可以含有单级内码或多级内码,或多级内码和单级内码。成分项所含相应单级内码的长度之和称为成分项的实际长度,所含内码的长度之和为成分项的表项长度,成分项的表项长度或实际长度称为成分项长度。
成分库装置是将成分项按某种规则排列的装置。例如,基本成分库装置的排列规则是按成分项的表项长度分段,再将各段按某种规则排列起来,多级内码的编码与相应成分项在成分库中的地址联系起来。多级内码是关于文字成分的编码,它与单级内码一样,也是机内码,可以对含有多级内码的文字信息直接进行处理。
字音库装置是字与其全音对应关系的装置。对于汉字的全音可以用两个拼音字符和其声调信息构成,我们用两个字节实现。两个字节16位,一个字符用5位表示,5个声调用3位表示,还剩3位用于存储其他信息。字音库的全音按相应的机内码的顺序排列。对于有重音的字,字音库装置中只保存其主音,所谓主音,是指一个汉字较常用的全音,不常用的全音称为次音,次音也是全音。下面所说的汉字的全音都是指用这种2字节表示的全音。由于字音库装置按汉字的机内码排列,因而可由机内码直接得到其全音。词音库装置是存放二字词或二字以上的词的全音的装置,其全音按多级内码相应的顺序排列。
重音字音库是存放重音字的次音的装置,按重音字相应的多级内码的顺序排列。
重音词音库和异读词音库也是词音库。
重音词音库装置为存放重音词的全音的装置,所谓重音词是指在一个词中,至少有一个字的发音为次音。
异读词是指一个词有两种或两种以上的读音的词,如“出差chu chai”“出差chu cha”。对于异读词可以用其多级内码表示。
本发明的第一目的的第二方面,其特征在于:
在所述方法中包含单向转换操作,单向转换操作可以是
(1)内码单向转换操作:
将多级内码转换为与多级内码相应的单级内码;或
(2)全音单向转换操作:将内码转换为相应的全音。
本发明的第一目的的第三方面,其特征在于:
在所述方法中使用内码单向转换操作将多级内码转换为与多级内码相应的单级内码,从而解决与现有文字处理系统的兼容问题;所述单向转换操作包括以下步骤:
计算步骤,根据多级内码计算该多级内码相应的成分项
在成分库装置中的位置:
转换步骤,用相应成分项取代多级内码;
识别步骤,根据多级内码的编码特点,识别相应成分项
中是否含多级内码,根据识别结果作如下
动作选择;如果含多级内码继续单向转换过程;
否则转换结束;识别步骤在成分库装置的成分项中含多级
内码时才采用。
内码的单向转换的目的是为了使含有多级内码的系统与仅含单级内码的系统兼容,例如,当需显示或打印含有多级内码的文字信息时,需要将其中的多级内码转换为单级内码。
本发明的第一目的的第四方面,其特征在于在所述方法中还包含多向转换步骤:
将多级内码相应的内码转换为相应的多级内码。
多向转换的实现方法和装置与映射成分库装置和索引装置有关。映射成分库装置由映射成分项构成。
映射成分项的一种由成分项,成分项长度和相应多级内码构成。
映射成分库装置是将映射成分项按某种规则排列的装置。
映射成分库装置的排列规则一般是按映射成分项相应的单级内码升序(或降序)排列。
索引装置由索引项构成,索引项主要由标明映射成分项相应的第一个或前几个)内码首次在映射成分库装置中出现的地址的地址项构成。
下面的叙述中的“大小顺序”是指由大到小的顺序或由小到大的顺序。
本发明的第一目的的第五方面是对第五方面的文字信息处理方法,提供词的多向转换的方法,所述第五方面的文字信息处理方法,其特征在于:
在所述方法中使用多向转换操作将与多级内码相应的级内码转换为相应的多级内码,多向转换含映射成分库装置,映射成分库中的映射成分项按相应的成分项的单级内码的大小顺序排列,所述多向转换操作包括以下步骤:
查索引步骤,根据相应内码查索引装置,若能查到映射成分库装置相应的映射
成分项转比较匹配步骤,
否则,返回;比较匹配步骤,将映射成分项与对应的被转换的文字信息相比较,根据结果作如下选择:
若满足跳出条件转最后处理步骤;
若相等,则执行匹配操作;
转移动步骤:移动步骤,将映射成分项按前进方向移动一项,转比较匹配步骤最后处理步骤,若匹配返回最后匹配的映射成
分项相应的多级内码。
上述的“跳出条件”是指:当映射成分库的映射成分项按相应成分项的单级内码升序排列时为:映射成分项的成分项大于被转换文字信息,降序排列时为:映射成分项的成分项小于被转换文字信息;
上述的前进方向是指:当映射成分库的映射成分项按相应成分项的单级内码升序排列时为:映射成分库的升序方向;
降序排列时为:映射成分库的降序方向;
上述步骤的执行匹配操作一般是执行“置位匹配标志,将匹配指针指向该映射成分项”,也可执行“用当前映射成分项相应的多级内码替代被比较文字中相应的部分”,匹配操作的目的是为了最后能返回正确的多级内码。
多向转换可以将仅含单级内码的文字信息转换为含有多级的文字信息,这些文字信息可以来自存储介质,通讯设备和输入设备等。
多向转换和单向转换也可采用管道转换装置,管道转换装置含管道成分库装置。
管道成分库装置可分为管道单段成分库装置和管道多段成分库装置。
本发明的第一目的的第六方面是关于文字信息输入码到多级内码的转换方法,其特征在于:
在文字信息的输入中,与多级内码相应的文字信息的输入码被转换为相应的多级内码。
本发明的第一目的的第七方面是将多向转换的方法用于文字信息的最大匹配中,所述第五方面的文字信息处理方法,其特征在于:
多向转换的方法可用于仅含单级内码的文字信息序列的最大匹配中,也可用于含有多级内码的文字信息序列的最大匹配中;在这里,我们将映射成分库装置称为词典,词典由词典项组成,词典项含匹配用的成分项,词典项按成分项相应的单级内码的大小顺序排列;
文字信息序列可由输入装置输入,也可由存储装置输入,也可由通讯装置传入;
文字信息序列的最大匹配的操作步骤如下:
(1)扫描文字信息序列,根据相应内码查索引装置,
若查到地址项,继续,否则返回;
(2)通过比较装置比较成分项与对应的被匹配的文字信
息序列中的相应部分;
根据比较结果作如下动作选择:
若结果满足跳转条件,转步骤(4);
若相等,执行匹配操作;
(3)将词典项按前进方向移动一项,转步骤(2);
(4)若匹配,则最后返回最大匹配的文字信息;
所述方法用于文字信息的切分时可以显著地降低时间复杂度和空间复杂度;
上述步骤中的执行匹配操作一般是执行“置位匹配标志,匹配指针指向该成分项”,匹配操作的目的是为了最后能返回最大匹配的成分项;
上述的“跳出条件”是指:当成分项按相应的单级内码升序排列时为:成分项大于被切分的文字信息;
降序排列时为:成分项小于被切分的文字信息;
上述的前进方向是指:成分项按相应的单级内码升序排列时为:成分项的升序方向;
降序排列是为:成分项的降序方向。
本发明的第一目的的第八方面是将多向转换的方法用于汉语输入码的最大匹配中,所述第五方面的文字信息处理方法,其特征在于:
多向转换的方法用于汉语输入码序列的最大匹配切分中,通过切分将输入码序列转换为汉字序列;这里称映射成分库装置为字词库装置,字词库装置含字项和词项,字项和词项统称字词项,字项含同样输入码的汉字的机内码,词项含输入码项和与此输入码项相应的词的多级内码或单级内码;同样输入码的字或词按某种规则排列,字项和词项在字词库装置中按相应输入码字符的单级内码大小顺序排列;转换步骤如下:
(1)用当前输入码查索引装置,得出字词库的地址;
(2)将序列中相应部分与字词库相应地址的输入码项相比较,
若满足跳转条件,转(5);
(3)若相等,执行匹配操作;
(4)将字词项按前进方向移动一项,转(2);
(5)若匹配,或者返回输入者选中的词对应的单级内码或多
级内码,或者返回按某优先规则所选中的词的单级内码
或多级内码;
若不匹配时,或者返回输入者选中的字的单级内码或者
返回按某优先规则选中的字的单级内码;
上述输入方法中,可以增加一个开关,使用户可以选择:
输入码转换为含有多级内码的文字信息,还是仅含单级内码
的文字信息;
上述的“跳出条件”是指:当输入码项按相应输入码字符的单级内码升序排列时为:输入码项大于被切分输入码信息;
降序排列时为:输入码项小于被切分输入码信息;
上述的前进方向是指:当输入码项按相应输入码字符的单级内码升序排列时为:输入码项升序方向;
降序排列时为:输入码项降序方向;
上述步骤中的执行匹配操作一般是执行“置位匹配标志,匹配指针指向该字词项”,总之,匹配操作的目的是为了最后能返回最长的词。
在中文输入中,为降低重码率,可采用双形音码辅助输入的方法。所谓双形音码是指一个汉字按其构成用两个形的音的拼音的第一个字母表示。这里,我们采用下面方案:汉字可分为两类,一类可分解为部分,一类不能分解,如“乘”、“承”和“内”等。对于不能分解不要硬性分解。对于可分解的汉字,、我们将其分为两部分,也只分解为两部分,这一类可有如下情况:
(1)两部份都为汉字:例如“张”分解为“弓”和“长”,这时,可取分解的汉字的第一字母为其形音码,这里取“g”和“i”,(对于“zh”,“ch”,“sh”我们用三个不常用的声母表示,例如分别用“v”,“i”“u”表示)。
(2)一部分为部首,由于汉字部首很多,我们仅取与汉字有明显对应关系的部首,用其汉字相应的音节的第一个字母表示,其余部首作为非字(即不是字)处理。
(3)分解的两部分其中一部分为非字,或两部分均为非字。对于非字,我们用不常用的声母表示如“a”;
(4)对于不能分解的汉字,我们用两个不常用的声母表示如“oo”等。
在(2)中,也可将最常用且人们公认且具有同一名称的部首当做分解的一部分,其形音就以其部首名称的第一个拼音字母表示;例如三点水“氵”用“s”作形音码,又如草字头“艹”用“c”作形音码等;但是不要取的太多,因为这是一种辅助的减少重码的方法,不能增加用户记忆的负担;另外由繁体字简化成的部首如“讠”,“饣”等用其简化前的汉字的读音。
双形音码仅仅为一种辅助输入方法,特别适于拼音输入,当汉字或词有重码时,就可输入相应字或词相应汉字的双形音码串,或仅输入部份双形音码串,以降低重码率,提高输入速度。
本发明的第一目的的第九方面,所述文字信息处理方法其特征在于:
在中文输入码输入的过程中,含有双形音码输入方法,双形音码的操作步骤如下:
(1)输入汉字或词的输入码串,如果不输入双形音码转(4);
(2)输入汉字或词的部份或全部双形音码串;
(3)机器检索双形音码库装置,将既符合原输入码又符合所输入的双形音码的汉字或词提取出来,让用户选择;
(4)返回用户选择的汉字或词。
在一些输入方法中,有的输入码可能不知道,如在拼音输入方法中,有的汉字的拼音可能不知道,这时可用笔划部首输入方法。笔划部首输入方法由三个装置组成,笔划索引装置,部首索引装置和字库装置。笔划索引装置一共用10项,“0”到“9”;其中“0”项为10划和10划以上的部首在部首索引装置中的起始地址,“1”到“9”分别为1划到9划的部首在部首索引装置中的起始地址。部首索引装置为对应部首的汉字在部首字库装置中的起始地址。部首字库装置按汉字的部首分为若干段,每一段对应某一部首的汉字,由于在汉字库中一级字库不是按部首存放,但是二级字库是按部首存放的,所以,在字库装置中主要存放一级汉字,对于二级汉字可以仅存放在二级字库中的该部首相应的第一个汉字和最后一个汉字,或第一个汉字和二级字库中相应部首下汉字的数目。
本发明的第一目的的第十方面,所述文字信息处理方法其特征在于:笔划部首输入的操作步骤如下:
(1)输入所需字的部首的笔划数,等于10划或多于10划输入“0”;
(2)机器根据输入的笔划数,查笔划索引装置,找到该笔划的部首在部首索引装置中的起始地址;
(3)机器在屏幕上显示该笔划相应的部首;
(4)用户选择所需的部首;
(5)机器检索部首字库装置,显示该部首相应的汉字;
(6)返回用户所需汉字。
我们把只能处理单级内码文字信息而不能处理多级内码文字信息的文字处理装置为第一类文字处理装置,把既能处理单级内码的文字信息又能处理多级内码文字信息的文字处理装置为第二类文字处理装置。
本发明的第一目的的第十一方面前面五、六、七、八、九、十方面所述的文字信息处理方法,其特征在于:
所述方法用于第一类文字信息处理的系统中。
本发明的第二目的的第一方面是关于一种文字信息处理装置;其中文字字符用机内码表示:该机内码也称为单级内码,并且文字成分-即字、词、词组和短语是用文字成分中所含至少一个字符的单级内码的集合表示的,文字信息的处理是通过对单级内码的处理实现的,其特征在于:
所述文字处理装置中,文字成分也可表示为另一种机内码,这种内码称为多级内码,这样,与文字成分对应的至少一个字符的单级内码的集合可用一个多级内码表示,对文字信息的处理还通过对多级内码的处理来实现,从而可明显地提高文字信息在存储介质上的存储量,提高处理速度,提高传输效率并且解决了文字信息切分的正确性问题和文语转换中语音的正确性问题等;该文字处理装置包含:
(1)输入装置,将文字信息从输入装置输入,输入装置可以是存储装置,将文字信息转换为文字内码的装置,将文字信息通过传输介质输入的接收装置等;
(2)处理装置,对文字信息进行有关多级内码的操作;
(3)输出装置,将文字信息输出,输出装置可以是显示装置,发声装置,打印装置以及通过传输介质向其他文字处理装置发送文字信息的发送装置等。
本发明的第二目的的第二方面,如第一方面所述的文字信息处理装置
其特征在于:
在所述装置中使用内码单向转换装置将多级内码转换为与多级内码相应的单级内码,从而解决与现有文字处理系统的兼容问题;所述单向转换装置包含以下装置:
(1)成分库装置,存放与多级内码相应的成分项;
(2)计算装置,该装置根据多级内码计算相应成分项在成分
库装置中的位置;
(3)转换装置,用相应成分项替换相应的多级内码;
(4)识别装置,该装置识别成分项中是否含多级内码,根据识
别结果可对如下动作进行选择:
如果含多级内码继续单向转换,否则单向转换结束。
上述识别步骤当成分库装置中的成分项中含多级内码时才采用。
本发明的第二目的的第三方面,如第一方面所述的文字信息处理装置其特征在于:
在所述装置中使用全音单向转换装置将多级内码转换为与多级内码相应的全音;所述全音单向转换装置包含以下装置:
(1)字音库装置:查单级内码相应的全音,并判断该单级内码对应的汉字是否为重音字;
(2)词音库装置:查相应词对应的多级内码相应的全音;
(3)重音字音库装置:查对应于重音字的全音;全音单向转换的步骤如下:
(1)扫描含有多级内码的文字信息中的内码;
(2)如果是单级内码,其全音为字音库装置中相应的全音;
(3)如果是多级内码,如果多级内码为词相应的多级内码,则其全音为词音库装置中相应的全音,如果多级内码为次音字对应的多级内码则为重音字音库装置中相应的全音。
本发明的第二目的的第四方面,如第一方面所述的文字信息处理装置,其特征在于:
在所述装置中使用全音语音转换装置将文字的全音信息转换为相应的语音;所述全音语音转换装置包含以下装置:
(1)音库装置;存放全音音节波形或合成参数的装置;
(2)全音索引装置:存放全音相应的波形或参数在音库装置中的位置;
(3)转换装置:根据全音计算该全音相应的索引项在全音索引库装置中的位置,取出该索引项中的地址项,得到音库装置中的位置,将全音转换为相应的波形或参数。
本发明的第二目的的第五方面,如第一方面所述的文字信息处理装置,其特征在于:
在所述装置中使用全音语音转换装置将文字的全音信息转换为相应的语音并发送给电话用户。
本发明的第二目的的第六方面,如第一方面所述的文字信息处理装置,其待征在于:
在所述装置中使用多向转换装置将与词相应的单级内码转换为相应的多级内码,多向转换装置包括:
(1)索引装置,该装置可用来判断在映射成分库中是否存在
以相应内码为起始的成分项,如果存在则给出在映射成
分库中的地址;
(2)映射成分库装置,该装置按相应成分项的单级内码大小顺
序排列;
(3)比较匹配装置,该装置包括:
判断装置:通过对被转换的文字信息和映射成分项
中的成分项比较,根据比较结果进行如下
动作选择:
若满足跳转条件,跳出循环,若匹配,
则作最后的匹配操作;
若判断装置的判断结果为相等,则进
入匹配装置,否则进入移动装置;
匹配装置:执行匹配操作,进入移动装置;
移动装置:将映射成分项按前进的方向移动一项,进
入判断装置;
上述的“跳出条件”是指:当映射成分库的映射成分项按相应成分项的单级内码升序排列时为:映射成分项的成分项大于被转换文字信息,降序排列时为:映射成分项的成分项小于被转换文字信息;
上述的前进方向是指:当映射成分库的映射成分项按相应成分项的单级内码升序排列时为:映射成分库的升序方向;
降序排列是为:映射成分库的降序方向;
上述的执行匹配操作一般是执行“置位匹配标志,匹配指针指向该映射成分项”,也可执行“用当前映射成分项相应的多级内码替代被比较文字中相应的部分”,匹配操作的目的是为了最后能返回正确的多级内码。
本发明的第二目的的第七方面,如第一方面所述的文字信息处理装置,其特征在于:
在所述装置中使用多向转换装置将与字相应的单级内码转换为相应的多级内码,多向转换装置包含:
(1)重音字成分库装置:存放含有次音的重音字的单级内码;
(1)字音库装置:查单级内码相应的全音,并判断该单级内码对应的汉字是否为重音字;
(3)重音字音库装置:查对应于重音字的全音;字的多向转换步骤为:
(1)输入参数为要转换的字的单级内码;
(2)该字为重音字否,如果不是,仍为单级内码,转5;
(3)该重音字是主音否,若为主音,仍为单级内码,转5;
(4)查重音字的成分库装置,根据重音字音库装置,将该
字的单级内码用其相应次音的多级内码替代;
(5)转换结束。
有益效果
采用多级内码不仅可以提高辅存对文字信息的存储量,而且可以提高处理系统内存的存储量。由于含有多级内码的文字信息可以直接进行处理,因而可以提高文字信息的处理速度。处理速度的提高主要有三个原因。第一是含有多级内码的文字信息比仅含单级内码的文字信息短;第二是要进行运算的文字信息短;第三,由于在存盘或读盘时不需要进行压缩和解压缩,又由于含有多级内码的文字信息短:因而I/O操作加快。与提高处理速度的原因类似,采用多级内码可以提高传输效率。
本发明提供的方法和装置可广泛用于第一类文字处理装置中,举例如下。输入码输入转换装置可用于第一类文字处理装置中将输入码转换为相应的单级内码;单向转换装置和多向转换装置可用于第一类文字处理装置中的文字信息的压缩的存储和通讯等。例如,在文件操作或磁盘操作系统中加入单向和多向转换装置,使文字信息自动以压缩的形式存储。
在第二类文字处理装置内或之间,可采用含有多级内码的文字信息来存储,传输和处理;与仅含单级内码的文字信息对比,含有多级内码的文字信息处理速度快,并且可以增加存储介质上的存储量和提高传输介质上的传输效率,从而改进系统内部和机器内部的性能,提高了文字处理装置的效率。
第二类文字处理装置,还简化了语言工程中的处理过程,例如可部分或全部省去词切分工作,这在自然语言理解、机器翻译和文本-语音转换中都可得到应用。例如,在汉语的文本-语音的转换中,必须解决分词问题、汉字的重音问题和韵律问题,当前,汉语的分词问题是一个很难解决的问题,采用含有多级内码的文字信息使汉语分词问题得到了解决,重音问题也迎刃而解了。
本发明还可用于词切分中,特别是汉语的词切分和汉字和词的拼音输入中。
本发明的方法用以指导编写计算机程序,生成计算机指令,控制计算机完成相应操作。
本发明的技术方案可广泛应用于文字信息处理的各个领域,还可用于指导相关软件,半软件,固件和集成电路设计及制造,具有巨大的经济效益和社会效益。
例如:
基于多级内码的TTS(文本语音转换系统),由于多向转换解决了分词问题和重音问题,因而彻底了发音的正确性问题,使TTS真正进入了应用阶段,例如用于文本的有声阅读,校对,基于多级内码的BP机和寻呼系统等。
基于多级内码的电话语音系统可以将计算机或计算机网络的文本信息发送给电话用户,从而将联网的微机用户扩展到电话用户,大大提高了其社会效益和经济效益。
当前计算机的操作系统,无论是西文的,还是中文的操作系统都是基于单级内码的操作系统,或者是字或字符一级的操作系统,而基于多级内码的操作系统是词一级的操作系统,因为单级内码仅仅是多级内码的一种特例,所以单级内码的操作系统所能完成的工作,多级内码的操作系统都能完成,但是多级内码的操作系统所能完成的一些工作,单级内码的操作系统无法完成,例如分词问题和重音问题等,因而多级内码的操作系统具有很强的竞争力。
基于多级内码的操作系统将文字的分词问题,重音问题等放入操作系统一级处理,解决了机器翻译,自然语言理解,全文检索等瓶颈问题。
基于多级内码的排版系统,使编排的电子出版物具有发音正确的优点。
基于多级内码的机器翻译系统中,至少有一种文字采用含有多级内码的文字信息,由于分词正确了,翻译的正确性提高了。
多级内码的技术几乎可应用于计算机的各个领域,并且都带来优越性。
图面说明
图1为内码单向转换流程示意图;
图2为词的多向转换装置中的比较匹配部分流程的示意图;
图3为词的多向转换装置示意图;
图4为输入码输入转换装置示意图;
图5为管道多向转换装置示意图;
图6为文字信息处理装置的示意图;
图7为内码单向转换装置示意图;
图8为词的多向转换装置中的比较匹配装置示意图。
下面是附图说明:
图1为内码单向转换流程示意图。1为被转换的多级内码;2为转换部分;3为成分库装置;4为判断部分;5转换结束。
图2为词的多向转换装置中的比较匹配部分流程的示意图。识别文字信息中的内码,据此查索引装置,若能查到地址,由入口5进入步骤1;
步骤1:比较被转换文字信息是否大于或等于(或小于或
等于)映射成分项相应的成分项;不满足条件时
从出口6跳出比较过程;
步骤2:步骤1的结果若为大于转步骤4;
步骤3:执行匹配操作;
步骤4:将映射成分项按升序(或降序)方向移动一项。
上述步骤3的执行匹配操作一般是执行“置位匹配标志,匹配指针指向该映射成分项”,如果,多级内码的大小可以作正确比较,也可执行“用当前映射成分项相应的多级内码替代被比较文字中相应的部分”,总之,匹配操作的目的是为了最后能返回正确的多级内码。
图3为词的多向转换装置示意图。1为识别装置,识别文字信息中的内码,据此查索引装置;2为比较匹配装置;3为索引装置;4为映射成分库装置;5为成分库装置。
图中用虚线相连,在比较操作中若需进行单向转换时需要成分库装置。
输入码输入转换装置是完成输入码转换操作的装置。
图4为输入码输入转换装置示意图。1为输入装置:2为转换部分;3为输入码表装置;4为成分库装置。
在含有多级内码的文字信息处理方法中输入码输入多向转换可如下描述;
输入码输入多向转换的操作步骤为:
(1)将要输入的文字成分的输入码从输入装置输入;
(2)根据输入码查输入码表装置:
(3)根据输入码表装置和成分库装置的映射关系,转换
为相应的成分的单级内码,若输入码在输入码表装置
中有重码、则将重码相应的成分库装置中的成分显
示出来,输入者可以选择研需的文字成分,从而返
回相应的多级内码;
图5为管道多向转换装置示意图。1为被多向转换的文字信息,2为多向转换后的文字信息;3为管道成分库装置;4为始端;5为终端。6为被单向转换的文字信息;7为单向转换后的文字信息。
图6为文字信息处理装置的示意图。1为输入装置;2为处理装置;3为输出装置。该文字处理装置包括:
输入装置1输入文字信息的装置;
处理装置2对单级内码的文字信息进行处理。
输出装置3将文字信息输出。所述文字处理装置的主要特征在于:
(1)输入装置可以是文字信息的输入设备如键盘,文字自动识别装置,文字信息的存储设备,文字信息的接收设备等;文字信息包括单级内码信息、文字的全音信息,含有多级内的文字信息等。
(2)该文字信息处理装置可执行含有多级内码的操作。
(3)输出装置可以输出含有多级内码的文字信息,单级内码的文字信息,文字的全音信息等,输出装置可以是显示装置,发声装置,打印装置,存储装置等,也可是文字信息的发送装置,发送装置通过传输介质将文字信息发送出去。
图7为内码单向转换装置示意图;1为成分库装置;2为计算装置;3为转换装置;4为识别装置;5为入口;6为出口。
图8为词的多向转换装置中的比较匹配装置示意图,1为判断装置,2为匹配装置,3为移动装置,4为入口,5为出口。
本发明的最佳实施方式
首先说明有关的装置和操作的含义。
单向转换装置是实现单向转换的装置。
多向转换装置是实现多向转换的装置。
管道转换装置含有由管道成分项构成的管道,它能实现多向转换和单向转换。
单向转换操作是执行单向转换的操作。
多向转换操作是执行多向转换的操作。
输入码输入多向转换操作是指由输入码转换为相应的多级内码的操作。
含有多级内码的文字信息传输操作是指含有多级内码的文字信息的传输。在计算机网络内或之间,在文字通讯装置之间,文字信息的通讯是通过含有多级内码的文字信息的传输操作进行的。
输入码输入转换操作是指由输入码转换为相应的多级内码或单级内码的操作。
比较操作是对内码比较的操作,含有多级内码的比较操作是指单级内码与多级内码比较,或多级内码与多级内码比较。多级内码与单级内码比较可将多级内码转换为单级内码再比较,多级内码间可作是否相等的比较。如果多级内码与相应的单级内码的顺序完全一致,则多级内码间可比较大小,因而,单级内码与多级内码比较也可将单级内码转换为多级内码再比较。
管道转换操作是通过管道转换装置实现多向转换和单向转换的操作。
含有多级内码的操作是指对含多级内码的文字信息的查找、替换、插入、删除操作、单向转换操作、多向转换操作、输入码输入多向转换操作、含有多级内码的传输操作、管道转换操作和比较操作等。含有多级内码的文字信息的处理包括含有多级内码的操作。
为说明发明第一目的和第二目的,我们需要说明多级内码的编码方法。
多级内码的编码与成分库装置有关,成分库装置不同,多级内码的编码也不同。
以汉语为例,说明二字词和二字以上的词的多级内码的编码。词的成分库装置可为基本成分库装置,或等长成分库装置,或半索引成分库装置,或全索引成分库装置。等长成分库装置的成分项的表项长度都相等。当少部分成分项的表项长度不同时,可在其成分项中设一索引,称为索引成分项;另建一辅助成分库装置,索引成分项含该成分项在辅助成分库中的位置及表项长度等信息;索引成分项的长度与其余成分项的表项长度相等;这种成分库装置称为半索引成分库装置。当成分项的表项长度差别较大时,可将成分项全部换为索引成分项;而真正的成分项都在辅助成分库装置中;这称为全索引成分库装置。半索引成分库装置的索引成分项的内容要能与单级内码,多级内码相区分。全索引或半索引成分库装置中相应的单向转换装置要稍加修改,对于半索引成分库装置要判断成分库装置中是成分项还是索引成分项。对于全索引和半索引成分库装置的索引成分项要增加访问辅助成分库装置的步骤。等长,半索引和全索引基本成分库装置的表项长度都相等,可以全部按其相应的单级内码的顺序排序,因而多级内码和单级内码的顺序完全一致,多级内码也可比较大小。同时,成分库装置和映射成分库装置的顺序完全一致,当映射成分项仅合成分项时也可合为一个。
映射成分库装置按映射成分项相应的单级内码升序(或降序)排列,其映射成分项由成分项长度,成分项和多级内码构成,或由成分项长度和成分项构成,或由成分项和多级内码构成,或由成分项长度和多级内码构成,或由成分项构成,或由多级内码构成。
索引装置的索引项由地址项或标志项构成;或由地址项和多级内码,或标志项构成;或由内码项和地址项构成;或由内码项,地址项和多级内码构成。
下面以二字节位标识编码和等长成分库为例说明多级内码的编码。中文词二字词较多,一个汉字的机内码为2字节,二字词为4字节长,三字节词的成分项由一个一级内码和一个二级内码组成,则表项长度也为4字节长,例如“解放军”,设其单级内码分别为“a”、“b”和“c”,设“ab”相应的二级内码为A,则由“Ac”所组成的三字词的成分项的表项长度也为4字节长;又如“中国”的二级内码为B,“人民”的二级内码为“C”,则由“BC”两个二级内码四字词的表项长度也为4字节长,设“Ac”相应的三级内码为D,“BC”相应的三级内码为E,则“ED”相应的七字词“中国人民解放军”的表项长度也为4字节长,相应的多级内码为四级,经过对“信息处理用现代汉语五千词表”测试,约90%的词的成分项的表项长度都可化为4字节长。对成分项按相应的单级内码升序排列,就构成了成分库装置。设每区为94个成分项,多级内码的第一字节高位为1,第二字节的高位为0,则多级内码第一字节为区号加AOH,多级内码第二字节为位号加20H。二字节位标识编码两字节的高位可为0和1的不同组合。(注意:这里表示内码的a,b,c...或A,B,C...等只用于说明目的,而不是真正的内码值。)
对上面的等长的汉语词的成分库装置,设映射成分项仅含成分项,则映射成分库装置和成分库装置相同。又设索引装置的索引项由地址项或标志项构成,按6768个汉字构造成含6768个索引项的索引装置,索引项按汉字的机内码升序排序,索引项若为标志项则标明映射成分库中没有以该汉字为词首的词,若为地址项,则为以该汉字为字首的第一个词的映射成分项在映射成分库中的地址,当然这个地址也可用相应词的多级内码表示。
下面说明单向转换过程。设“解放军”相应三级内码为D,若在一文字序列中含D,首先识别D为多级内码,因为汉字的单级内码也为二字节编码,但是单级内码的两个字节的高位都为“1”,而多级内码的两个字节的高位一个为“1”,另一个为“0”,所以判断D为多级内码,因为D中含有相应成分项在成分库中的区号和位号的信息,也就是有关的地址信息,因而可得到其成分项“Ac”,因为成分项中含有多级内码A,重复上述过程,将A的成分项“ab”替换A,成分项“ab”中不含多级内码,单向转换结束,D的转换结果为“abc”,即“解放军”。(注意:这里表示内码的a,b,c...或A,B,C...等只用于说明目的,而不是真正的内码值。)
下面说明词的多向转换的过程。以“解放军在前进”为例,根据“解”的单级内码计算相应索引项在索引装置中的位置,发现相应的索引项为地址项,根据这个地址找到以“解”为首字的第一个词的映射成分项,假设映射成分项按...“ab”,“Ac”...的顺序排列,将“解放”的单级内码“ab”与映射成分项中“ab”比较,因为相等,置位匹配标志,且将匹配指针指向该映射成分项,然后,映射成分项按升序方向移动一项,将被转换的“abc”与当前映射成分项“Ac”比较,比较时将A经单向转换转换为“ab”,因为相等,置位匹配标志,将匹配指针指向映射成分项“Ac”,然后将映射成分项移动一项,这时,“abcd”(设“在”的单级内码为“d”)与映射成分项相比较,发现当前映射成分项大于“abcd”,从而跳出比较匹配过程“解放军”相应的单级内码被转换为相应的多级内码“D”。(注意:这里表示内码的a,b,c...或A,B,C...等只用于说明目的,而不是真正的内码值。
多级内码的编码可以采用内码嵌套的方式,也可不采用嵌套方式。
英文的成分库装置可采用基本成分库装置或全索引基本成分库装置,索引装置可采用HASH查询的方法,例如第一字母为26个字母之一,第二字母为26个字母或空格之一,总共26*27=702个索引项。当词和短语较多时, 可采用几种二字节位标识编码,例如第一字节高位为0或1,第二字节高位为0等。
下面说明字的多级内码的编码。
对于多音字,将多音字按次音相应的字的单级内码顺序排列组成相应的成分库:其多级内码的编码实际上反映相应次音字在成分库中的位置。因而由多级内码很容易转换出相应的汉字的机内码,这就是字的多级内码的单向转换。
由上面可以看出,词和字的内码的单向转换步骤是类似的。
下面是内码单向转换方法的例子。
单向转换可以将一多级内码转换为单级内码,或转换为较低级别的多级内码,下面是单向转换操作和多向转换更为具体的描述,其中单向转换以转换为单级内码为例说明其特征。
单向转换操作的操作步骤为:
(1)根据多级内码的编码特点,识别文字信息中的多级
内码;
(2)根据多级内码计算该多级内码相应的成分项在成分
库装置中的位置;
(3)用其成分项取代此多级内码;
(4)若成分项中含多级内码,返回步骤(2);
(5)返回转换后的单级内码。
本发明的第一目的第五方面为多向转换,多向转换包括词的多向转换和字的多向转换。
文字信息从输入装置输入的多向转换可通过在输入装置内加入多向装置完成多向转换。也可通过输入码输入转换装置完成。文字成分的输入码可以采用多种编码方案,实际上,文字成分的区位码也是一种文字成分的输入码。成分项的区位码与多级内码相对应,输入方法很简单。
多向转换和单向转换也可采用管道转换装置。
管道成分库装置可分为管道单段成分库装置和管道多段成分库装置。
管道单段成分库装置按管道成分项相应的单级内码升序(或降序)排列,最低端称为始端,最高端称为终端,其管道成分项由成分项长度,成分项和多级内码构成,或由成分项和多级内码构成,或由成分项构成。管道单段成分库装置某位置L的成分项内所含的成分项A,如果A为在L与始端之间的成分项,则A用相应的多级内码表示,否则用单级内码表示。这样可便于比较操作。管道多段成分库装置的管道按内码的级别分段,然后,将各段由低内码段到高内码段依次连结成一条管道,最低内码段的外端称为始端,最高内码段的外端称为终端。管道多段成分库装置的成分项由成分项长度,成分项和多级内码构成,或由成分项和多级内码构成。
将第一类文字输出装置内加入单向转换装置就成了第二类文字输出装置。例如,在打印机中加入含有单向转换装置的软件或硬件,使得打印机能打印含有多级内码的文字信息。第一类文字输入装置内加入输入码输入转换装置,或多向转换装置,或以上装置的组合,就成了第二类文字输入装置。
对于字的多向转换,它需借助于字音库装置和词音库装置,在转换过程中,根据该字的全音信息,选择要转换的多级内码。对于异读词的多向转换也是类似。
汉字的字音库装置为国标汉字全音的集合,按汉字的机内码排列,总共6768*2个字节,所以由单级内码很容易查到其全音,同样,多音重音字音库装置,其排列按多级内码的顺序,因而由其多级内码,容易查到相应的全音,词的多级内码与其全音也有同样的对应关系。
本发明的第一目的的第六方面中,字的多向转换步骤为:
(1)输入参数为要转换的字的单级内码;
(2)该字为重音字否,如果不是,仍为单级内码,转5;
(3)该重音字是主音否,若为主音,仍为单级内码,转5;
(4)查重音字的成分库装置,根据重音字音库装置,将该
字的单级内码用其相应次音对应的多级内码替代;
(5)转换结束。
在步骤(2)中,决定一个汉字是否为重音字,可借助字音库装置实现,在相应的全音的2字节的空闲位,设置一标志,例如,如果是重音字,标志位为“1”,否则为“0”,通过检查标志位,就很容易判断是否为重音字。在步骤(3)、(4)中,如果是重音字,可借助于字音库装置和重音字库装置,将相应的主音和次音显示出来或降相应的音通过发声装置发出来,通过人工辅助,转换为正确音相应的多级内码。
本发明的第一目的的第五方面是词的多向转换。
下面是词的多向转换方法的例子。
多向转换可以将含有单级内码的文字信息转换为相应的多级内码,也可将低级的多级内码转换为高级的多级内码,下面说明其特征。
多向转换操作的操作步骤为:
(1)根据内码的编码特点,识别文字信息中的内码;
(2)根据相应内码查索引装置,若索引项中不含地址项,
转(8);
(3)根据此地址项,查到映射成分库装置该地址相应的
映射成分项;
(4)将映射成分项与对应的被转换的文字信息相比较,
若结果满足跳出条件转(7);
(5)若相等,则执行匹配操作;
(6)将映射成分项按前进方向移动一项,转步骤(4);
(7)若匹配,返回最后匹配的映射成分项相应的多级内
码。否则转(8);
(8)返回。
上述的“跳出条件”是指:当映射成分库的映射成分项按相应成分项的单级内码升序排列时为:映射成分项的成分项大于被转换文字信息,降序排列时为:映射成分项的成分项小于被转换文字信息。
上述的前进方向是指:当映射成分库的映射成分项按相应成分项的单级内码升序排列时为:映射成分库的升序方向;
降序排列时为:映射成分库的降序方向。
上述步骤5的执行匹配操作一般是执行“置位匹配标志,匹配指针指向该映射成分项”,如果,多级内码的大小可以作正确比较,也可执行“用当前映射成分项相应的多级内码替代被比较文字中相应的部分”,总之,匹配操作的目的是为了最后能返回正确的多级内码。
本发明的第一目的的第八方面是关于文字信息输入码到多级内码的转换方法,其特征在于:
在文字信息的输入中,与多级内码相应的文字信息的输入码被转换为相应的多级内码。
现有的中文输入方法都是将汉字的输入码转换为相应的汉字的单级内码,在输入过程中,有的虽然也采用了词输入法,也就是输入过程中作了分词的工作,但是,在转换为单级内码的过程中,又将分词信息丢失了,在输入过程中,将输入码转换为多级内码,就将分词的信息保留下来,对于重音字,输入的过程中,或者通过发音提示,或者通过注音显示,可以将重音字转换为正确音相应的多级内码,从而,将正确的发音信息保留下来,另外象词的词法信息等也在含有多级内码的文本中保留下来,这是现有的输入方法所无法做到的。
本发明的第一目的的第十一方面中,关键的装置为双形音码库装置,对于国标汉字,该装置为6768*2个字节,每个汉字的双形音码为2个字节,这两个字节中含该汉字相应的双形音码,即两个拼音字母,双形音码库装置中,汉字的双形音码按汉字的机内码的顺序排列。
本发明的第一目的的第十三方面第一目的的七,九,十,五和八方面所述的文字信息处理方法,其特征在于:
所述方法用于第一类文字信息处理的系统中。
本发明的第一目的第五方面是词的多向转换的方法,该方法的核心装置是映射成分库装置,其主要特征是将不同长度的词按照某种规律混排,在字符串的最大匹配方法中,就是采用了这个特征,在第十方面汉字输入码的切分中也采用了这一主要特征:只是将不同音节单字也混排在不同长度的词中,其根本的特征是一样的。在现有的分词方法中,不同长度的词是按词的长度分段存放的,因而分词的时间复杂度大,大约为12.32,如果采用第九方面的方法,时间复杂度降低为2.89;也就是说,分词的速度提高为现有方法的4.3倍。同样对于第十方面,输入码的切分中,也具有相同的优点。
下面是当输入码为拼音时,拼音流到汉字的单级内码转换中的例子。
文字信息序列为汉语拼音序列时,文字信息序列的最大匹配切分的方法可用于汉语拼音序列的最大匹配切分中;通过切分将拼音序列转换为汉字序列:这里称词典装置为字词库装置:字词库装置含字项和词项,字项含同样音节的汉字的机内码,词项含拼音项和与此拼音项相应的词的多级内码或单级内码;同样拼音的字或词按某种规则排列,字项和词项在字词库装置中按相应拼音字符的机内码的大小顺序排列;
转换步骤如下:
(1)扫描拼音序列,用当前音节查索引装置,得出字词库的地址A,并找到地址A前进方向第一词项的拼音项;
(2)将序列中相应部分与词的拼音项相比较,若结果满足跳
出条件,转(5);
(3)若相等,执行匹配操作;
(4)将词的拼音项按前进方向移动一项,转(2);
(5)若匹配,或者返回输入者选中的词对应的单级内码
或者返回按某优先规则所选中的词的单级内码,
若不匹配时,或者返回输入者选中的字的单级内码或
者返回按某优先规则选中的字的单级内码。
上述的“跳出条件”是指:当词的拼音项按相应拼音字符的单级内码升序排列时为:词的拼音项大于被切分拼音信息;
降序排列时为:词的拼音项小于被切分拼音信息。
上述的前进方向是指:当词的拼音项按相应拼音字符的单级内码升序排列时为:词的拼音项升序方向;
降序排列时为:词的拼音项降序方向。
上述步骤3的执行匹配操作一般是执行“置位匹配标志,匹配指针指向该词项”,总之,匹配操作的目的是为了最后能返回最长的词。
多向转换的方法可用于仅含单级内码的字符串的最大匹配中,词典由词典项组成,词典项含切分用的成分项,词典项按成分项相应的内码的大小顺序排列,这里的词典相当于多向转换方法的映射成分库装置;
文字信息序列可以由输入装置输入,也可由存储装置输入,也可由通讯装置传入;
文字信息序列的最大匹配切分的操作步骤如下:
(1)给出被匹配的内码串;
(2)根据相应内码查索引装置,若索引项中不含地址项,
转(8);
(3)根据此地址项,查到映射成分库装置该地址相应的
映射成分项;
(4)将映射成分项与对应的被转换的文字信息相比较,
若结果为大于(或小于)转(7);
(5)若相等,执行匹配操作;
(6)将映射成分项按升序(或降序)的方向移动一项,转
步骤(4);
(7)若匹配,则最后匹配的映射成分项为最大匹配的文
字信息,返回。若不匹配转(8);
(8)返回。
上述步骤5的执行匹配操作一般是执行“置位匹配标志,匹配指针指向该映射成分项”,匹配操作的目的是为了最后能返回最大匹配的字符串。
采用上述的字符串最大匹配的方法进行汉语的词切分时,可以降低时间复杂度和空间复杂度,经过理论分析和实际测试,现有的词切分方法的时间复杂度为12.32,而上述方法的时间复杂度为2.89。
显然,单扫描分词方法分词速度的提高是由于:
分词词典采用映射成分库的结构,即分词词典中不同长度的词按相应的单级内码的大小顺序排列。比较匹配时是将词典中的整个词与被切分的文字部分相比较,跳出比较匹配循环的条件如下:
当成分项按相应的单级内码升序排列时为:成分项大于被切分的文字信息;
当降序排列时为:成分项小于被切分的文字信息。
本发明的第二目的的第一方面的文字处理装置根据不同需要可以构成不同的装置。
例如:
(1)当输出装置发送含有多级内码的文字信息,就构成一个发送装置,这可用于许多领域,如无线寻呼系统的发射装置中。
(2)当输入装置为一含有多级内码的文字信息接收装置,并将接收的含有多级内码的文字信息经全音单向转换和全音语音转换将语音输出到发声装置,就构成一个文本有声阅读装置,如果是无线接收装置,可构成寻呼机装置。
(3)当发送装置发送含有文字信息的全音信息,也构成一个发送装置,这也可用于许多领域,如无线寻呼系统的发射装置中。
(4)当输入装置为一含有文字信息的全音信息接收装置,并将接收的文字信息的全音信息经过全音语音转换将语音输出到发声装置,就构成一个文本有声阅读装置,如果是无线接收装置,可构成寻呼机装置。
(5)我们知道汉字的TTS系统主要分为三步:第一步为分词处理;第二步为多音字处理;第三步为韵律处理。显然,文字信息的多向转换已经完成了第一步和第二步的工作,也就是已经解决了分词问题和多音字问题;将多级内码的文字信息经过全音转换,然后转换为语音发送到发声装置,这种文字信息处理装置就是基于多级内码的TTS装置。
(6)处理装置中,输入装置如果是存储含有多级内码的文字信息或含有文字信息全音信息的存储介质,如磁盘或光盘等,将存储在存储介质的含有文字信息经过含有多级内码的有关转换操作,然后再转换为语音,这也是一种有声文字阅读器。
(7)所述文字处理装置将文字的全音信息转换为语音信息由传输介质输出到电话装置,这就是电话文本语音系统。
该装置可将存储介质的含有的文字全音信息或其他设备发送来的全音信息转换为语音信息通过传输介质发送给电话用户;该装置本身也可含有多级内码的有关操作的装置,从而执行有关多级内码的操作。
Claims (9)
1. 一种文字信息处理方法,一个字或字符用一个机内码表示,由两个或两个以上的字或字符构成的词用相应的单级内码表示,所述文字信息处理方法的特征在于:
(1)由两个或两个以上的字或字符构成的词除了用相应的单级内码集合表示以外,还用相应的多级内码表示;
(2)发音不同的字、或字符、或词用不同的机内码表示,其中一个音对应的机内码为单级内码,而其余发音对应的机内码为多级内码;
所述文字信息处理方法包括如下步骤:
(1)将由两个或两个以上的字或字符构成的词所对应的多级内码转换为相应字或字符的单级内码;
(2)将多音字或词对应的多级内码转换为相应的单级内码。
2. 如权利要求1所述的文字信息处理方法,其特征在于:
多级内码转换为单级内码使用成分库装置和重音字成分库装置,操作步骤如下;
(1)计算步骤;根据多级内码计算该多级内码在成分库或重音字成分库装置中相应的成分项在成分库装置中的位置;
(2)转换步骤:用相应成分项取代多级内码,如果成分项中不含多级内码转(4);
(3)识别步骤:根据多级内码的编码特点,识别相应成分项中是否含多级内码,如果含多级内码转(1);
(4)转换结束。
3.如权利要求1所述的文字信息处理方法,其特征在于:
采用多向转换将单级内码转换为多级内码,多向转换分为词的多向转换和字的多向转换,词的多向转换使用成分库装置,映射成分库装置和其索引装置,映射成分库中的映射成分项按相应的成分项的单级内码的大小顺序排列,字的多同转换使用字音库装置、重音字音库装置和重音字成分库装置;
所述词的多向转换的操作步骤如下;
(1)查索引步骤,根据相应内码查索引装置,若查到此地址,继续,否则返回;
(2)比较匹配步骤,将映射成分项与对应的被转换的文字信息相比较,根据结果作如下选择;
若满足跳出条件转最后处理步骤,
若相等,则执行匹配操作;
(3)移动步骤,将映射成分项按前进方向移动一项,转比较匹配步骤;
(4)最后处理步骤,若匹配,返回最后匹配的映射成分项相应的多级内码;
所述字的多向转换操作步骤如下;
(1)根据转换的字的单级内码,查字音库,若该字不为重音字,转(4);
(2)该重音字是主音否,若为主音,转(4);
(3)查重音字成分库装置,根据重音字音库装置,将该字的单级内码用其相应次音对应的多级内码替代;
(4)转换结束。
4.一种文字信息处理方法,一个字或字符用一个机内码表示,由两个或两个以上的字或字符构成的词用相应的单级内码表示,所述文字信息处理方法的特征在于:
多向转换的方法用于单级内码或多级内码表示的文字信息的最大匹配中,词典由词典项组成,词典项含匹配用的成分项,词典项按成分项相应内码的大小顺序排列;
文字信息序列的最大匹配的操作步骤如下:
(1)扫描文字信息序列,根据相应内码查索引装置,若查到地址项,继续,否则返回;
(2)通过比较装置比较成分项与对应的被匹配的文字信息序列中的相应部分;
根据比较结果作如下动作选择:
若结果满足跳转条件,转步骤(4);
若相等,执行匹配操作;
(3)将词典项按前进方向移动一项,转步骤(2);
(4)若匹配,则最后返回最大匹配的文字信息;
上述步骤中的执行匹配操作一般是执行“置位匹配标志,匹配指针指向该成分项”,匹配操作的目的是为了最后能返回最大匹配的成分项;
上述的“跳出条件”是指:当成分项按相应的单级内码升序捧列时为:成分项大于被切分的文字信息;
降序排列时为:成分项小于被切分的文字信息:
上述的前进方向是指:成分项按相应的单级内码升序捧列时为:成分项的升序方向;
降序排列是为:成分项的降序方向。
5. 如权利要求4所述的文字信息处理方法,其特征在于:
在文字输入过程中,将文字信息的输入码转换为单级内码或者多级内码,在该方法中采用字词库装置,字词库装置含字项和词项,字项和词项统称为字词项,字项含同样输入码的的汉字内码,词项含输入码项和与此输入码项相应的词的多级内码或单级内码;同样输入码的字或词按某种规则排列,字词项在字词库装置中按相应输入码字符的单级内码大小顺序排列;字词库的索引装置含输入码在字词库装置中的地址;转换步骤如下;
(1)用当前输入码查索引装置,得出字词库的地址:
(2)将序列中相应部分与字词库相应地址的输入码项相比较,若满足跳出条件,转(5);
(3)若相等,执行匹配操作;
(4)将字词项按前进方向移动一项,转(2);
(5)或者返回输入者选中的文字成分对应的单级内码或多级内码,或者返回按某优先规则所选中的单级内码或多级内码。
6. 一种文字信息处理方法,一个字或字符用一个机内码表示,由两个或两个以上的字或字符构成的词用相应的单级内码表示,所述文字信息处理方法的特征在于:
在文字输入过程中,将文字信息的输入码转换为单级内码或多级内码,在该方法中采用笔划索引装置、部首索引装置装置和字库装置,操作步骤如下:
(1)输入字的部首的笔划数,等于10划或多于10划输入“0”;
(2)机器根据输入的笔划数,查笔划索引装置,找到该笔划的部首在部首索引装置中的起始地址;
(3)机器显示该笔划相应的部首;
(4)用户选择所需的部首;
(5)机器检索部首字库装置,显示该部首相应的汉字;
(6)返回用户所选汉字的单级内码或多级内码。
7.一种文字信息处理方法,一个字或字符用一个机内码表示,由两个或两个以上的字或字符构成的词用相应的单级内码表示,所述文字信息处理方法的特征在于:使用全音单向转换装置将单级内码或者多级内码转换为相应的全音;所述全音单向转换装置包含以下装置:
(1)字音库装置:用来查单级内码相应的全音,并判断该单级内码对应的汉字是否为重音字;
(2)词音库装置:查相应词对应的多级内码相应的全音;
(3)重音字音库装置:查对应于重音字的全音;
全音单向转换的步骤如下:
(1)扫描文字信息中的内码;
(2)如果是单级内码,其全音为字音库装置中相应的全音;
(3)如果多级内码为词相应的多级内码,则其全音为词音库装置中相应的全音,如果多级内码为次音字对应的多级内码则为重音字音库装置中的全音。
8.一种文字信息处理方法,一个字或字符用一个机内码表示,由两个或两个以上的字或字符构成的词用相应的单级内码表示,所述文字信息处理方法的特征在于:
使用全音语音转换装置将文字的全音信息转换为相应的语音;所述全音语音转换装置包含以下装置:
(1)音库装置;存放全音相应的音节波形或合成参数的装置;
(2)全音索引装置:存放全音相应的波形或参数在音库装置中的位置;所述转换操作包含以下步骤:
(1)根据全音计算该全音相应的索引项在全音索引装置中的位置;
(2)取出该索引项中的地址项,得到音库装置中的位置;
(3)将全音转换为相应的波形或参数。
9.一种文字信息处理装置,其中一个字或字符用一个机内码表示,由两个或两个以上的字或字符构成的词用相应的单级内码表示,所述文字信息处理装置包含以下装置:
(1)全音装置:一个全音由两个字节构成,含拼音和声调信息;或者;
(2)全音语音转换装置,用来将文字信息的全音转换为相应的语音,它由音库装置和全音索引装置组成,音库装置用来存放全音相应的音节波形或合成参数的装置,全音索引装置存放全音相应的波形或参数在音库装置中的位置;或者;
(3)全音单向转换装置:用来将文字信息的单级内码或者多级内码转换为相应的全音,其中,字音库装置用来查单级内码相应的全音,并判断该单级内码对应的汉字是否为重音字,音库装置存放词相应的全音,重音字音库装置用来存放重音字的全音;或者;
(4)管道转换装置:管道转换装置含管道成分库装置,管道成分库装置可分为管道单段成分库装置和管道多段成分库装置,管道单段成分库装置按管道成分项相应的单级内码升序或降序排列,最低端称为始端,最高端称为终端,其管道成分项由成分项长度,成分项和多级内码构成,或由成分项和多级内码构成,或由成分项构成,管道多段成分库装置的管道按内码的级别分段,然后,将各段由低内码段到高内码段依次连结成一条管道,最低内码段的外端称为始端,最高内码段的外端称为终端,管道多段成分库装置的成分项由成分项长度,成分项和多级内码构成,或由成分项和多级内码构成。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN96115997A CN1068127C (zh) | 1996-10-04 | 1996-10-04 | 文字信息处理方法和装置 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN96115997A CN1068127C (zh) | 1996-10-04 | 1996-10-04 | 文字信息处理方法和装置 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| CN1182234A CN1182234A (zh) | 1998-05-20 |
| CN1068127C true CN1068127C (zh) | 2001-07-04 |
Family
ID=5123194
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| CN96115997A Expired - Fee Related CN1068127C (zh) | 1996-10-04 | 1996-10-04 | 文字信息处理方法和装置 |
Country Status (1)
| Country | Link |
|---|---|
| CN (1) | CN1068127C (zh) |
Families Citing this family (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN1567174A (zh) * | 2003-06-09 | 2005-01-19 | 吴胜远 | 对象表示和处理的方法及其装置 |
| CN102567296B (zh) * | 2011-01-04 | 2016-03-30 | 中国移动通信有限公司 | 一种汉字信息的处理方法及汉字信息的处理装置 |
-
1996
- 1996-10-04 CN CN96115997A patent/CN1068127C/zh not_active Expired - Fee Related
Also Published As
| Publication number | Publication date |
|---|---|
| CN1182234A (zh) | 1998-05-20 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CN1290031C (zh) | 字符信息的转换处理系统 | |
| CN1310422A (zh) | 数据处理方法、系统、处理程序及记录媒体 | |
| CN1225484A (zh) | 地址识别设备和方法 | |
| CN1331449A (zh) | 用于将粘着法构成的文本或文档分段成词的字符串划分或区分的方法及相关系统 | |
| CN1567174A (zh) | 对象表示和处理的方法及其装置 | |
| CN1577229A (zh) | 输入音符串进入计算机及文句生产方法及其计算机与媒体 | |
| CN1068127C (zh) | 文字信息处理方法和装置 | |
| CN1348559A (zh) | 携带式文字输入装置 | |
| CN1855223A (zh) | 音频字体输出设备、字体数据库和语言输入前端处理器 | |
| CN1154502A (zh) | 教育规范五笔字型汉字输入法及其装置 | |
| CN1050914C (zh) | 计算机汉字分区录入方法 | |
| CN1324438C (zh) | 在小键盘上输入字母字符的装置和方法 | |
| CN1109608A (zh) | 自由组合码汉字输入方法及键盘 | |
| CN1129836C (zh) | 形意类字母汉字多功能输入法 | |
| CN1025896C (zh) | 新概念编码计算机汉字输入键盘 | |
| CN1485718A (zh) | 一种能够输入语句、短语、词、字的智能汉字输入方法 | |
| CN1170158A (zh) | 汉字键盘输入标音方案及其键盘设计原理 | |
| CN101036138A (zh) | 从第一语言到第二语言的自动翻译和/或处理集成电路处理单元中功能的方法以及用于执行该方法的装置 | |
| CN1208187A (zh) | 一种全息万能汉字键盘及输入方法 | |
| CN1399185A (zh) | 整体汉字输入法及其键盘 | |
| CN1110806A (zh) | 智能五笔双拼码字—词链环式定位联想输入方法 | |
| CN1752899A (zh) | 汉语编码及其汉字输入法和汉字检索法 | |
| CN1303504C (zh) | 计算机汉字字母文字化输入法 | |
| CN1442780A (zh) | 英文快速输入法及其键盘、鼠标 | |
| CN1077036A (zh) | 自适应汉字操作系统 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| C06 | Publication | ||
| PB01 | Publication | ||
| C10 | Entry into substantive examination | ||
| SE01 | Entry into force of request for substantive examination | ||
| C14 | Grant of patent or utility model | ||
| GR01 | Patent grant | ||
| C19 | Lapse of patent right due to non-payment of the annual fee | ||
| CF01 | Termination of patent right due to non-payment of annual fee |