CN1026924C - 汉字析音编码计算机汉字输入方法 - Google Patents
汉字析音编码计算机汉字输入方法 Download PDFInfo
- Publication number
- CN1026924C CN1026924C CN 92113155 CN92113155A CN1026924C CN 1026924 C CN1026924 C CN 1026924C CN 92113155 CN92113155 CN 92113155 CN 92113155 A CN92113155 A CN 92113155A CN 1026924 C CN1026924 C CN 1026924C
- Authority
- CN
- China
- Prior art keywords
- code
- chinese
- initial consonant
- chinese character
- radical
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Document Processing Apparatus (AREA)
Abstract
本发明是一种汉字析音编码计算机汉字输入方法,使用26个英文字母编码,包括六种编码。其中基本码为声韵声声四码,前两码是汉字的声母码和韵母码,后两码是汉字首尾两部的声母码,首部按正向取大原则取码,尾部按逆向取大原则取码。回避码就第四码采用同声回避原则取码。盲打码就第四码对少量汉字进行特殊编码。并专设难字编码、符号编码、词组编码。本系统内六种编码完全兼容、无需切换。简码达5074个。完全具备了易学、易用、快速、无二义性、无难输字等优点,是集易普及和易盲打于一体的编码系统。
Description
本发明是一种汉字拼音编码系统及输入方法,属于中文信息处理领域。
目前,汉字编码方案有数百种,但流行的仅有十几种,主要分成两大类:拼音编码和拼形编码。拼形编码人为规则较多、编码复杂二义性较多、非专业打字人员无法熟练掌握。现已公布的、或流行的许多优秀的拼音编码,如“自然码”、“音子输入法”、“音文编码”等,虽然基本解决了重码率高、记忆量大、难于掌握等问题,但还是有许多脱离汉字本意的规定,并且部件的选择容易产生二义性,特别是难认字和难拆字的输入十分困难。
本发明的目的是:针对现有汉字编码的固有缺陷,特设计出一套具有重码率低、记忆量小、取码直观、无需强记、无二义性、无难输字、极易盲打、极易普及等优点的折音编码系统,为汉语拼音编码的规范化,中文输入的自然化、简明化、快速化提供一个十分有效的途径。
本发明技术方案的实现:在本汉字编码中,汉字码的全码共有四码。第一、第二码为汉字整字的声母码和韵母码,将汉字拆分成首尾两个部分,第三码是首部的声母码,第四码是尾部的声母码,少量汉字的第四码是首部的韵母码。本编码中所有六种编码方法均兼容在同一汉字输入状态中,即无需切换皆可进行各种输入,输入汉字有多种途径。六种析音编码是:基本析音编码、回避析音编码、难字析音编码、盲打析音编码、词组析音编码、符号析音编码。
本发明附图:图1、汉字折音编码计算机输入键盘图,详细说明见第十四部分。
下面结合图表及实例分十四个部分进一步说明本编码系统的技术方案及其实现:
一.声母码
汉字拼音的声母b、c、d、f、g、h、j、k、l、m、n、p、q、r、s、t、w、x、y、z与英文字母同形,其声母码即为对应的英文字母,其中y、w既作为声母又作为虚拟声母。声母ch、sh、zh分别以英文字母i、u、v作为声母码。无声母汉字共有a、e、o三部,分别以其对应英文字母a、e、o作为其虚拟声母,虚拟声母不发音,仅作为各部区别标志。这样,所有的汉字都具有了声母码,拼音的规范化、统一化得到了进一步的加强,并排除了拼音输入时声母的二义性和韵母的多种输入。如:机电部六所的汉语拼音输入中,输入a时,既表示a部,又表示zh部,两部混合出现,第一码具有二义性,既是韵母又是声母。韵母ai本来由字母l代替,但输入“爱”时,ai却输入a和i,输入“摘”时,韵母ai输入成l,韵母ai有两种输入法,即ai,和l。在本编码中,由于第一码只可能是声母码,同一韵母也就只有唯一一种输入法,“爱”和“摘”的拼音码分别输入成al和vl,表义明确、自然、无二义性。全部声母码均列在表一中。
表一:声母码表
声母码 含义及所表示的声母
a a部的虚拟声母,不发音
e e部的虚拟声母,不发音
o o部的虚拟声母,不发音
w u部的声母或虚拟声母,有时发音
y i部和ü部的声母或虚拟声母,有时发音
i 声母ch
u 声母sh
v 声母zh
其他声母码 与英文字母相同
二.韵母码
汉语拼音中,韵母共有34个,除a、e、i、o、u、u外,其它韵母均由两个或两个以上的字母组成,本编码均以一个英文字母代替之,由于英文中仅有26个字母,故一些字母要同时代表几个韵母。笔者经过大量统计,将其中最不容易造成重码和混淆的韵母安排在同一字母上,并参考了刘氏“双音编码”的韵母方
案。为了便于记忆,本编码除了利用了原已广泛使用的机电部六所的拼音码外,还精心安排了其余韵母码,使一般操作人员无需学习和刻意记忆即可使用。其具体安排见表二。
表二:韵母码表
韵母码所对应的韵母 韵母所对应的韵母码
a-a n-ian a-a ua-x
b-jang,uang o-o,ou e-e ue-w
c-ie,uai p-iu i-i ve-w
d-un,vn q-uan,van o-o ui-w
e-e r-er,ei u-u un-d
f-en s-ong,iong u-v uo-z
g-eng t-in ai-l ang-h
h-ang u-u an-j eny-g
i-i v-ü ao-k ing-y
j-an w-ve,ui ei-r ong-s
k-ao x-ua,ia en-f ian-n
l-ai y-ing er-r iao-m
m-iao z-uo ia-x uai-c
ie-c uan-q
in-t iang-b
iu-p iong-s
ou-o uang-b
三.汉字的拆分
在本编码中,除不可拆分的“一”和“乙”无法分解外,其余的汉字均拆分成两个部分。根据下列六种字形,对汉字进行拆分,图示中数字“1”代表首部,数字“2”代表尾部。
倾斜型
首部,如:“度戴遥”
分别以“广戈辶”
作为首部。
围型
分作为首
部,被包
围部分作
为尾部
夹合型
夹合型,取其中“行”
和“衣”作为首部,
“圭”和“中”作为尾部
独体字按笔顺取其中最大字根作为首部,余下的为尾部,兼顾自然、直观和习惯。独体字很难分解,笔者特设“难拆字析音编码”以解决独体字的输入问题。
四.汉字的字根
汉字的字根共分两大类:一类是成字字根,其编码当然是取其拼音码。另一类是偏旁部首,偏旁部首是由古代的成字演变而来,故其一般也有读音,然而,现代汉字与古代有较大的区别,我们不可能以古代的读音标定现代汉字的读音,因此我们只能以现代读音习惯对偏旁部首进行编码。为了减少记忆,本编码规定
的标准偏旁部首很少,只将一些人们常见、常用、又都能认识的偏旁部首规定为标准偏旁部首。对于那些难以认识、难以读音的偏旁部首则一律以其首或末笔画代替。在本编码中汉字的基本笔画只有六种,即:点、横(包括横勾,提横)、竖(包括竖勾)、撇、捺、拐。因此,本编码十分自然、记忆量极小、极易为广大操作人员所接受,从而也就极易推广。当然有些作为字根的汉字不太常见,不易读出其发音,为此,笔者除了在表三中列出较为常用的一些成字字根外,还将所有的字根全部列在符号析音编码的ep部,无法确定偏旁部首的读音时,可通过输入ep,然后利用“>”键,查阅其读音和编码。
表三:标准偏旁部首表
首部代码 含义 发音 部首代码 含义 发音 部首代码 含义 发音
豕字shi
丶 d 点dian 讠 y 言yan 豕 u 弋字yi
一 h 横beng 忄 x 心xin 豸 v 金字qian
丶 a 捺na 丬 j 将jiang 缶 f 隹字zhi
礻 u 示shi 隹v 竹字头zhu
衤 y 衣yi 刀字头dao
亻 彳 r 人ren 夂夂 w 文wen 竿笨 v 爪字头 zhao
亠 e 二 er 饣 j 金jin 龟争d 八字头 ba
冫 l 两shui 刂勹 g 刀dao 并弟 b 小字头xiao
冖宀 g 盖gai 廴辶 z 走zou 青霉f 卷字头huan
艹 c 草cao 虍 h 虎hu 兴赏 x 春字头chun
灬 h 火huo 疒 b 病bing 卷眷 j
氵 s 三san 匚冂凵k 框kuang 春泰i
五.取大原则和替换原则
本编码的全码只有四码,第一、二码是汉字整体的声母和韵母,只要按表一和表二顺序输入即可,第三、四码是将汉字拆分成两个部分后,其字根的编码。汉字的拆分方法和标准字根在前两节中已作简单的介绍,但怎样提取字根有时并不唯一。为此,现将字根的提取方法叙述如下:
1.在划分部分时的取大原则
在上中下型汉字和独体字中,按笔顺取其中最大的字根,但不能是该字本身,作为首部,余下的作为尾部。所谓最大字根,就是在该字中,任加一笔画也无法构成另一字根的字根。如:
“等” 由“竹”、“土”、“寸”三个字根组成,“竹”和“土”不能构成另一字根,故最大字根为“竹”。余下的“寺”作为尾部的最大字根。
“辜” 由“十”、“口”、“立”、“十”四个成字字根组成,“十”和“口”构成“古”字,“古”与下面的“立”无法构成另一字根,故“古”为首部,余下的“辛”作为尾部。
“晕” 由“日”、“冖”、“车”三个字根组成,“日”和“冖”无法构成另一字根,故“日”是最大字根,作为首部。余下的“军”是尾部的最大字根。
“街” 左右为“行”,中间为“圭”,故“行”为首部,“圭”为尾部。
“乘” 其中“千”为一字根,“禾”也为一字根,故取“禾”作为首部,余下的“北”作为尾部。
“我” 其中第一笔画“丿”无法与别的笔画构成标准字根,故取第一笔画“丿”作为首部,余下的“找”作为尾部。
2.在一个部分内的取大原则(替换原则)
有许多汉字明显地由两个部分组成,首部取出一最大字根后,并没有取出整个部分,此时,我们认为,整个的首部已经取码完毕,首部余下的部分并不作为尾部的一个子部分,也就是说,以首部中的第一最大字根代替了整个首部,这就是“替换原则”。如:
“魏” 左右型,左部由“禾”和“女”组成,按取大原则应取“委”作为首部,余下的“鬼”作为尾部。
“馨” 上下型,上部由四个字根组成,按取大原则,取“声”作为首部的代码,并认为整个首部取码完毕,也就是说,以“声”代替了整个上部,上部余下的“殳”不再作为尾部的子部分,尾部仍为下部“香”。
“奥” 上下型,其中第一笔画“丿”无法与其他笔画构成字根,故以第一笔画“丿”作为整个上部的代码,上部余下的不再看成是下部的子部分,下部仍为“大”。
“敷” 左右型,左部由“甫”和“方”组成,以“甫”作为整个左部代码,余下的“方”不再作为尾部的子部分,尾部仍为右部“攵”。
“度” 倾斜型,倾斜部分由“广”和“廿”组成,取“广”作为整个倾斜部分的代码,尾部仅为“又”。
“戴” 倾斜型,倾斜部分为“十”和“戈”,取“戈”作为整个倾斜部分的代码,“十”不再取码,尾部仍为“田”和“共”。
3.正向取大和逆向取大
有时,汉字拆分并不唯一,首部按笔顺正向取大后,汉字中仍剩下多个字根,尾部由哪些字根作为其代码,容易产生歧义,为此,我们特制定正向取大和逆向取大原则。在本编码中,
①汉字首部的代码按“正向取大原则”取码,即:以汉字书写顺序第一笔画开始,正向顺序取出最大字根,作为首部的代码。倾斜型和包围型有例外。
②汉字尾部的代码按“逆向取大原则”取码,即:从汉字书写顺序的最末一笔开始,按书写顺序相反的顺序,取一最大字根作为尾部的代码。
也就是汉字全码中的第三码按正向取大原则取码,第四码按逆向取大原则取码。这样,汉字拆分的二义性和取码的二义性就都迎刃而解了。举例如下:
“翰” 左右型,左部作为首部,按正向取大原则取其左上部的“十”作为其代码。右部为尾部,按逆向取大原则取其右下部的“羽”作为其代码。
“荣” 上中下型,全码中的第三码按正向取大原则取上部的“艹”作为其代码,第四码按逆向取大原则取下部的“木”作为其代码,中部的“冖”不取码,其到底属于那个部分也就无关紧要了。
“度” 倾斜形,第三码取倾斜部分“广”,第四码按逆向取大原则取“又”,其中的“廿”不取码。
六.基本析音编码
基本析音编码是析音编码中最为简单易学的编码,是其它各种编码的基础,对于初学者,无需刻意学习,只要手持一张“析音编码键盘图”,即可进行汉字输入,其全码为:第一、二码是汉字的双拼码,即:第一码是声母码,第二码是韵母码。第三码是从汉字中按“正向取大原则”取出的首部字根的声母码,第四码是按“逆向取大原则”取出的尾部字根的声母码。
第一码 声母码(整字)
第二码 韵母码(整字)
第三码 声母码(首部)
第四码 声母码(尾部)
举例如下:
“嘉” 第一码是声母j,第二码是韵母ia的代码x,第三码是正向取大取出的字根“吉”的声母j,第四码是逆向取大取出的字根“加”的声母j。其全码为:jxjj
七.回避析音编码
回避析音编码的前三码与基本析音编码完全相同,只是第四码有所改进,以减少重码,即:当第四码与第一码相同时,也就是逆向取大所取的字根的声母与汉字本身的声母相同时,逆向取出尾部一最大的与汉字的声母不同的子字根,以其声母码作为第四码,称之为“回避原则”,注意:本编码仅第四码采用回避原则。这种回避是完全合理、完全自然的,因为很大一部分汉字的尾部都是给汉字本身注音的,我们没有必要既输入汉字的读音,又输入其注音,因此我们完全应该对一个汉字中,同音码的重复输入进行回避,这就是本编码设计思想的基本特征之一。
第一码 声母码(整字)
第二码 韵母码(整字)
第三码 声母码(首部)
第四码 声母码(尾部,回避第一码)
如:
“嘉”第一码是“嘉”本身的声母j,第四码原是字根“加”的声母j,但“嘉”和“加”同声,故应回避,逆向取字根“加”的最大子字根“口”的声母k,将第四码j改为k。现在“嘉”的全码为jxjk。
八.难字析音编码
在本编码中,难字析音编码共分难认、难拆、难认难拆三种:
1.难认字析音编码
所谓难认字是指那些普通人不认识,又无法通过其字根确定读音的字。读半边音的不常见字不属于难认字。
在国标一、二级字库中,特别是在二级字库中,有很多普通人员不认识、难以确定其读音的汉字,这些字要占全部6763个字中的三分之一以上。由于它们的拼音码无法确定,在使用前面的两种编码进行输入时,第一、二码无法输入,只能通过替换键模糊输入,与常用字混合在一起在整个字库中进行搜寻,这样重码率极高。最多的可达100字以上,只能用肉眼利用翻页键,一页一页地查找。既费时又费力。因此,完全有必要,将难认字单独进行编码。当然,难认字也同样应有普通的编码方法,以便那些认识这些汉字的人使用。在本编码中,难字的编码都放在o部。即:
难认字析音编码
第一码 o
第二码 声母码(首部,按正向取大原则所取的字根)
第三码 声母码(尾部,按逆向取大原则所取的字根)
第四码 韵母码(尾部,按逆向取大原则所取的字根)
如:
“菅” 一般人不认识,也不读半边音,拼音码无法确定,应使用难认字编码进行输入,第一码为字母o、第二码为“艹”的声母码c,第三码为“官”的声母码
g,第四码为“官”的韵母码q,其难认字编码的全码为ocgq。在基本编码中,也有“菅”的编码,其基本编码的全码jncg。
2.难拆字析音编码
有一些字特别是独体字很难拆分,或拆分时有多义性,为此,特设难拆字析音编码,使其与普通汉字区别开来。
①首部难拆的析音编码,主要针对那些容易认识的独体字
第一码 声母码(整字)
第二码 韵母码(整字)
第三码 o
第四码 声母码(字中明显字根的声母码)
如:
“必”普通人都知道“必”字的读音,故其全码的前两码容易输入,即bi。但其拆分却不容易看出,故可以使用难拆字编码,将第三码输入成字母o,“必”字即出现在提示行中,第四码也可以输入为“心”的声母码x。
②尾部难拆的析音编码
第一码 声母码(整字)
第二码 韵母码(整字)
第三码 声母码(首部)
第四码 o
如:
“痹” “痹”的前两码为bi,第三码取首部的“疒”的声母码b,第四码按基本编码可以输入成“畀”的声母码b,但其与第一码相同,故可以使用回避编码,由于“畀”的下部不是标准字根,取码就容易产生疑问,因此我们可使用尾部难拆的析音编码输入其第四码,即将第四码输入为字母o。
3.难认难拆字的析音编码,是指既难认又难拆的汉字,主要针对那些不易认识的独体字。
第一码 o
第二码 o
第三码 o
第四码 声母码(字中明显字根的声母码)
如:
“卅” 一般人不易认识,也难于拆分,故可以使用难认难拆字析音编码对其进行输入,即:输入三个字母o,“卅”字就出现在提示行中,此时可以使用数字键进行选择输入,也可以输入其第四码“川”的声母码i。当然,“卅”也可以按基本编码输入成saih。
九.汉字的输入及其简码
前三节中,笔者介绍了本编码系统中三种编码方法,读者已对本系统有了大概的了解。现在,笔者可以介绍汉字的输入了。
1.汉字的输入
在本编码中,输入汉字的第一码时,提示行中出现十个高频汉字,其后分别跟有它们的下一个编码,输入其中的汉字时,只要键入对应的数字即可,输入第一个汉字时,也可以输入空格代替输入数字1。如果不想输入第二码,可以通过翻页键“>”进行搜寻。输入第二码后,提示行出现二级简码汉字、其它高频字和词组,如果第三码不能确定,可通过翻页键搜寻。输入第三码后,提示行出现三级简码汉字、高频字和词组,如果第四码不能确定,请使用翻页键。输入第四码后,提示行出现所有重码汉字和词组。在本编码中,共有两个特殊键和一个特殊码:
>翻页键,用于循环搜寻
\替换键,用于模糊输入,代替任意码。
o难字码,输入难认字,第一码为o,独体字第三码可以是o,第四码难以确定时也可以是o,o码与\键的不同之处在于,比如第三码,\键搜寻一、二、四码相同的所有汉字,o码仅是那些第三码难以确定的汉字。o码属于汉字码中一个特殊码,而>和\仅是学习键,不是汉字的编码。
值得注意的是,在本系统中,六种编码同时并存,同一汉字既可以按基本编
码输入,又可以按回避编码输入,还可以按难字编码输入,甚至还可以按盲打编码输入,当然更可以使用简码输入。一个汉字有多种编码,各种编码互不矛盾、互不冲突,只不过重码数不同、输入的难易不同而已。每种输入方法都可以获得同一汉字,也就是说:同一汉字有多个编码,所有编码都并存在同一编码库中。例如:
“俐” 按基本编码输入为lirl,重码三个,需要通过提示行进行选择。按回避码输入为lird,没有重码,无需选择。
没有难字编码,也没有简码,盲打码与回避码相同。
“廿” 按基本编码输入为nnch,有一个重码。按难认字输入为cchg,按难认难拆字输入为oooc。回避码、盲打码都与基本码相同。没有简码。
“牛” 按基本码输入为nppu,简码为np,按难拆字输入为npou。
2.简码输入
汉字的简码是对全码的简化,对于常用字,我们没有必要一一键入其全部的四个码。为此,汉字编码中一般都设有一、二、三级简码。对于最常用的汉字,以第一码代替,只要输入第一码,再键入空格键即可,这就是一级简码。对于较常用字,以第一、第二码代替,只要输入该字的前两码,再键入空格即可,这就是二级简码。同理也可以进行三级简码的输入。简码都是揭示行中出现的第一个汉字,无需记忆,只是在键入数字1输入该字时,知道也可以用空格键输入即可。在本编码系统中,一级简码26个,二级简码421个,三级简码4627个,共5074个简码。而国标一二级字库中有50个偏旁部首,不应计入汉字中。故实际的汉字的总数为:
6763-50=6713个。
用简码可以对绝大部分字进行输入,能够大大提高输入速度。现将本系统中一、二级简码列表如下。在二级简码表中,难字码的二级简码没有列出。
表四:简码统计表
一级 二级 三级 合计
基本码 26 396 3880 4302
难认字 0 25 518 543
难拆字 0 0 229 229
合计 26 421 4627 5074
表五:一级简码表
啊 不 次 的 二 非 个 和 出 及 可 了 没
a b c d e f g h i j k l m
你 欧 片 七 人 三 他 是 着 我 小 一 在
n o p q r s t u v w x y z
十、重码的分析
1.理论分析
按数学理论计算,用英文字母编码,一位码有26个,两位码有26×26=676个,三位码应有26×26×26=17576个,而在国标一、二级字库中,仅有6763个汉字,三位即可完全满足其编码要求。至于四位码则有26×26×26×26=456975个,45万!对于汉字的字数来说,这简直是天文数字。按理说,以45万个码对6千多个汉字进行编码,应该绰绰有余,不应出现重码。但这只是理论上的推测,事实上,无论你使用什么规则,只要你的规则有章可循,只要你不对某几个、几十个汉字作特殊规定,用四位码对6千多个汉字编码就不可能没有重码。国标一二级字库中,汉字实际字数为6713个。
2.基本析音编码的重码
在本编码中,基本析音编码的一位码26个、二位码396个、三位码3880个、四位码5885个,由于一二三级简码有4302个,其第四码没有必要输入,故将与简码字第四码相同的较常用字放在序号1的位置,使用空格键输入即可,简码字则放在其后。通过这样的编码处理后,有550个重码汉字也可以不用选择键即可输入。故此,不用选择即可输入的汉字有5885+550=6435个之多。需要选择的汉字仅有:6713-6435=328个,且其中的绝大部分汉字为难认字和难拆字。唯一不足的是,许多汉字需要键入第五键“空格键”。
3.回避析音编码的重码
在本编码中,回避码的四位码有6487个,也就是说,这6487个汉字无需选择即可唯一输入。加上4302个简码,将与简码字第四码相同的汉字,放在序号1的位置,简码字放在其后,不用选择即可输入的汉字达6670个之多。仅有几十个汉字需要选择。如果加上难字码,则需要选择的汉字就几乎没有了。完全能满足盲打的要求了。
十一、盲打析音编码
盲打析音编码是对回避析音编码的进一步改进。当然,也仅对第四码进行变动。目的也是为了消除一码多字的情形。
通过前面的统计和分析,回避码完全能够满足快速输入的要求,但还是有近300个汉字需要使用第五键(包括空格键和数字选择)。为此,本编码还是规定了一整套盲打析音编码,以根除重码汉字,确保在四键内无需选择即可输入所有的汉字。但相应地,也增加了记忆量。盲打析音编码的规则一共有两条,都是针对重码汉字而设:
1.对于尾部完全相同的多个汉字,改取汉字首部的韵母码作为第四码,称之为“移位原则”。
第一码 声母码(整字)
第二码 韵母码(整字)
第三码 声母码(首部)
第四码 韵母码(首部)
如:
“访肪鲂”三个字的偏旁“讠”、“月”、“鱼”的读音分别是yan、yue、yu,其声母都是y,而三字的右部又都是字根“方”,如果只从字根上考虑怎样区分,那就只有作一些硬性的规定了,比如说,第四码“访”取点“丶”作为代码,“鲂”取横“一”,“肪”取“方”。这种强行规定是不可能容易记住的,因此,我们必须从其左部偏旁上做文章,许多编码,如“自然码”、“栗氏编码”等,将这些声母相同、容易造成重码的偏旁部首分别安排在不同的键位上,这样,重码现象自然大量消失,但这些偏旁部首与其读音也就失去了联系,输入第三码时,记忆量也就增加了,并且也不符合人们的习惯,笔者认为,这种方法虽然有效,但并不十分可取。笔者发现,区别这些汉字时,只要第四码输入其偏旁的韵母就可以了,第三码仍为偏旁的声母,也就是:第一、二码取汉字本身的声母和韵母,第三、四码取偏旁部首的声母和韵母,即:“双音原则”或“移位原则”。根据这个原则,“访肪鲂”三字的全码为:
“访”fhyj为拼音fang和yan的代码
“肪”fhyw为拼音fang和yue的代码
“鲂”fhyu为拼音fang和yu的代码
2.对于尾部不完全相同的多个汉字,将第四码改为尾部的子部分的声母码,称之为“异字回避原则”。
第一码 声母码(整字)
第二码 韵母码(整字)
第三码 声母码(首部)
第四码 声母码(尾部,回避重码字)
使用这两个原则改动第四码后,可以做到无重码。
十二、词组析音编码
在本编码中,词组与单字混和输入,无需键入词组的标识键,只要输入词组的编码,词组即出现在提示行中。输入词组的编码后若无此词组,则键入Alt+Space即可进入词组建立状态,逐个输入单字后,再按空格表示词组建立完毕,该词组就存入字库中,并出现在文本和提示行中。词组析音编码为:
①二字词,
(1)两个字的声母,
(2)两个字的声母和韵母。
②三字词,
(1)三个字的声母,
(2)三个字的声母加尾字的韵母。
③四字以上词,
前三字的声母加尾字的声母。
十三、各种符号的析音编码
在中文信息处理的过程中,各种符号不可避免地要大量出现,特别是中文标点符号,每一行、每一句都要出现,而英文标点符号与中文标点符号差别很大,并且只占一个字符位,容易使汉字的文本不规范,所以在输入中文文本时,必然也应输入中文标点符号。为此,本编码规定“自动进入中文标点符号状态”,即:进入中文输入状态时,也同时进入到中文标点符号状态,输入中文标点符号只需输入其对应的英文标点符号。无需切换,但输入英文标点符号时,则必须进入英
文状态。两种标点符号的对应关系为:
中文标点 , 、 ; 。 : “ ” , ? 《 》
英文标点 , / ; . : ” ” , ? [ ]
本编码专设中文偏旁部首的代码,将偏旁部首归属于ep部,即:
第一码 e
第二码 p
第三码 声母码(注音)
第四码 韵母码(注音)
其它各种符号也都放在e部的各个子部,见下表:
表七:符号编码表
符号部 符号名称及其第三第四码
ep 汉字的偏旁部首,第三、四码为该偏旁部首的读音
标点 自动进入中文标点符号状态。
et 图形符号
ey 汉语拼音字母,后两码为其读音
eu 数字符号,后两码为其读音
eb 制表符号
ej 日文片假名,后两码为其读音
ek 日文平假名,后两码为其读音
el 俄文字母,后两码为其读音
ex 希腊字母,后两码为其读音
十四、析音码特点及键盘设计
本发明的优点和积极效果:
1全码只有四码。
2人为规则极少,无需强记,能见字识码。
3简码较多,一级简码26个,二级简码421个,三级简码5072个。
4由于采用了虚拟声母,消除了声母码和韵母码的二义性。
5由于采用了正向取大和逆向取大原则,消除了汉字拆分的二义性。
6无难输字,由于设有难字编码,解决了难认字、难拆字和难认难拆字输入困难。
8一字多码,同一字有多种输入方法。
9由于采用了回避等原则,同码汉字极少,极易盲打。
在本编码中,声母码和韵母码是根据标准英文键盘而设计的,为了好记、好用、重码少,键盘设计的特点为:
1.韵母ai,an,ao,en,ang,eng,ing,ong和声母sh,ch完全采用机电部六所的设计方案,只是声母zh改由v代替。
2.韵母iao,ian,iang和uang分别在ao,an,ang的左下位置韵母分
(ing,ing),(iu,iou,o,ou),(e,er,ei),(uo,ua,uao,ia,ie),(van,uan,ve,ui),(vn,un,en)六组,各组内韵母发音相近、字母形状相近,便于记忆。
3.主要偏旁部首皆放在其对应的声母码键上。以便掌握。
Claims (2)
1、一种汉字析音编码计算机输入键盘,其特征在于:以英文字母键作为汉字的编码;输入汉字第一码时,英文字母键表示汉字的声母;输入汉字第二码时,英文字母键表示汉字的韵母;输入汉字第三码时,英文字母键表示汉字首部字根读音的声母;输入汉字第四码时,英文字母键表示汉字尾部字根读音的声母;
a.英文字母键与汉语拼音的声母的对应关系如下:
汉语拼音中声母b,p,m,f,d,t,n,l,g,k,h,j,q,x,z,c,s,r,w,y与英文字母同形,其声母码即为对应的英文字母键;
声母zh,ch,sh超过一个字母,分别以英文字母键v,i,u代替;
无声母汉字共有a,e,o,三部,分别以a,e,o作为其虚拟声母,
b.英文字母键与汉语拼音的韵母的对应关系如下:
a-ab-iang,uang c-ie,uai d-un e-e f-en g-eng h-ang i-ij-an k-aol-aim-iao n-ian o-o,ou p-iu q-uan r-er,ei s-ong,iong t-in u-u v-u w-ue,ui x-ua,ia y-ing z-uo
c.汉字的字根为成字字根时,以其声母所对应的英文字母键表示;字根为基本笔画或偏旁部首时,以其习惯读音的声母键表示。
2、一种汉字析音编码计算机输入方法,以双拼为基础,使用26个英文字母键对汉字进行编码输入,其特征在于:
a.所有汉字均由“声韵声声”四码构成:
全码=整字声母码+整字韵母码+首部声母码+尾部声母码
声母码用一个字母表示;全拼方案中的声母zh,ch,sh分别由一个英文字母键代替;无声母汉字取全拼中的第一个字母作为该字的虚拟声母;其它声母码与全拼相同,
韵母码用一个字母表示;全拼中韵母超过一个字母时,均以一个字母代替;韵母u用字母v表示;无声母汉字与普通汉字的韵母码相同,
输入方法是:
先输入整字的声母码和韵母码作为第一、第二码,再将汉字拆分成首尾两个部分,取其读音的声母码作为第三、第四码,
首部按“正向取大”原则拆分;即:从书写顺序的第一笔画开始,尽量取出最多笔画,但不能取整个汉字,构成一个最大字根,字根包括成字字根、标准偏旁部首、基本笔画;字中任何汉字均可看成是字根,
尾部逆向取码有两种:
1).尾部按“逆向取大”原则拆分;即:从书写顺序的最末笔画开始,逆向尽量取出最多笔画,但不能与首部交叉,构成一个最大字根;以此形成的汉字编码是“基本码”,
2).尾部声母码与整字声母码相同时,按“同声回避”原则取码;即:取出尾部中与汉字不同声的子部分作为尾部的代码来源,按尾部内的逆向取大原则提取回避部分;以此形成的汉字编码是“回避码”;尾部与整字同声则回避,不同声则不回避,回避码与基本码并存,同为第四码,从音源的角度,将汉字划分成含表音与不含表音两大部分;但首部与整字声母码相同时,不采用同声回避原则;
b.专门针对难以认识的汉字进行编码,并对国标一二级字库以外的扩充汉字编码,称为“难认码”,
全码=字母o+首部声母码+尾部声母码+尾部韵母码
其中:声母码、韵母码、汉字的拆分均与a相同,
国际一二级字库中的难认字除了有难认码外,同时还应有基本码;这种特殊编码从识字的角度将汉字划分成易认和难认两大部分,适用于所有以音为基础的汉字编码;
c.专门针对难以拆分的汉字进行编码,主要是独体字,称为“难拆码”,
全码=整字声母码+整字韵母码+字母o+字中明显字根的声母
其中:声母码和韵母码与a相同,
容易拆分的汉字,主要是合体字,没有难拆码;难拆字除了有难拆码外,还有基本码,
既难认又难拆的汉字,声母码和韵母码用字母oo代替,其前三码为:ooo,第四码仍与难拆码相同,
这种特殊编码从字型结构的角度将汉字划分成易拆和难拆两大部分,适用于所有以音为基础的汉字编码。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN 92113155 CN1026924C (zh) | 1992-11-13 | 1992-11-13 | 汉字析音编码计算机汉字输入方法 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN 92113155 CN1026924C (zh) | 1992-11-13 | 1992-11-13 | 汉字析音编码计算机汉字输入方法 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| CN1073539A CN1073539A (zh) | 1993-06-23 |
| CN1026924C true CN1026924C (zh) | 1994-12-07 |
Family
ID=4946268
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| CN 92113155 Expired - Fee Related CN1026924C (zh) | 1992-11-13 | 1992-11-13 | 汉字析音编码计算机汉字输入方法 |
Country Status (1)
| Country | Link |
|---|---|
| CN (1) | CN1026924C (zh) |
Families Citing this family (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN1047675C (zh) * | 1993-08-28 | 1999-12-22 | 陈光宇 | 音速码音码汉字输入方法及键盘 |
| CN1069420C (zh) * | 1995-05-26 | 2001-08-08 | 戴石灵 | 文字式音形汉字输入方法 |
-
1992
- 1992-11-13 CN CN 92113155 patent/CN1026924C/zh not_active Expired - Fee Related
Also Published As
| Publication number | Publication date |
|---|---|
| CN1073539A (zh) | 1993-06-23 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CN1040276A (zh) | 简繁字根汉字输入技术及其键盘 | |
| CN1577229A (zh) | 输入音符串进入计算机及文句生产方法及其计算机与媒体 | |
| CN85101817A (zh) | 安子介式汉字笔形电脑编码法及其键盘 | |
| CN1280748C (zh) | 使用计算机键入字母表中字母的方法 | |
| CN1101139A (zh) | 图符编码计算机输入法 | |
| CN1026924C (zh) | 汉字析音编码计算机汉字输入方法 | |
| CN1694049A (zh) | 一种基于五键的汉字输入系统 | |
| CN1154502A (zh) | 教育规范五笔字型汉字输入法及其装置 | |
| CN1048343C (zh) | 自由组合码汉字输入方法及键盘 | |
| CN1050914C (zh) | 计算机汉字分区录入方法 | |
| CN1045021C (zh) | 中文数码电脑汉字输入法及其键盘 | |
| CN1604017A (zh) | 基于一健一字的汉字特征定位编码复合输入方法 | |
| CN1324438C (zh) | 在小键盘上输入字母字符的装置和方法 | |
| CN1529219A (zh) | 语言码输入法 | |
| CN1259615C (zh) | 字母键盘和数字键盘通用汉字输入法及其左半字形识别法 | |
| CN1417674A (zh) | 汉语音节双读方案和汉语键盘及其信息输入处理方法 | |
| CN1019527B (zh) | 字符的图元输入方法及其键盘 | |
| CN1275732A (zh) | 汉语键盘输入系统及其应用技术 | |
| CN1128371A (zh) | 文字拆分编码的计算机输入方法及键盘 | |
| CN1043209A (zh) | 计算机汉字处理方法 | |
| CN1464371A (zh) | 多语种输入方法和系统及其电子字典系统 | |
| CN1110806A (zh) | 智能五笔双拼码字—词链环式定位联想输入方法 | |
| CN1303504C (zh) | 计算机汉字字母文字化输入法 | |
| CN1752899A (zh) | 汉语编码及其汉字输入法和汉字检索法 | |
| CN1208187A (zh) | 一种全息万能汉字键盘及输入方法 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| C06 | Publication | ||
| PB01 | Publication | ||
| C10 | Entry into substantive examination | ||
| SE01 | Entry into force of request for substantive examination | ||
| C14 | Grant of patent or utility model | ||
| GR01 | Patent grant | ||
| C19 | Lapse of patent right due to non-payment of the annual fee | ||
| CF01 | Termination of patent right due to non-payment of annual fee |