CN1080748A

CN1080748A - 简繁体声形特征码汉字输入法及其键盘

Info

Publication number: CN1080748A
Application number: CN 93104822
Authority: CN
Inventors: 吴桦
Original assignee: Individual
Current assignee: Individual
Priority date: 1992-06-30
Filing date: 1993-05-04
Publication date: 1994-01-12

Abstract

本发明涉及一种新的汉字信息系统，它包括一套完整的编码方案和相应的键盘。本发明的关键在于按汉字书写笔顺将汉字分为特殊字、两部件、三部件、四部件及四部件以上字四类，采用基本笔画、字根、特征字根代码和首末笔画特征码来表示汉字。本发明的音码方案符合人们的思维习惯，形码方案可处理不认识的汉字。由于所用代码充分利用了汉字声母和形状的特征，故易学、易记，加上具有可输入简化字和繁体字及日本、韩国汉字、重码率低等特点，因而具有良好的应用前景。

Description

本发明属于一种汉字编码技术在信息处理领域，主要是计算机及类似设备中实现的方法及其所用的键盘。

随着时代的发展，信息时代的到来，信息处理量越来越大，加上人们生活、工作节奏的加快，人们对汉字处理技术的要求也越来越高。在文字处理领域，用计算机等类办公设备进行文字处理在我国已有一定的用户，而且今后还会有更大的发展。作为实现计算机汉字信息传递和处理的汉字输入技术成为影响计算机使用效率的一个重要环节。因此，近年来国内外提出了许多与之相关的方案及其配套技术。据报道实际上机实用的已有几十种。中国专利局已公布的有关这方面的专利申请已有200多件。概括而论，可将目前众多的方法分成以下几大类：

1.键盘输入法。

2.声控输入法。

3.辅助设备（如鼠标，手写扫描等）输入法。

由于声控输入法和辅助设备输入法需要的设备投资较多且对汉字输入条件（如发音，字迹等）要求较苛刻。因此这类输入法有一定的局限性。而主机、显示器和键盘是一般计算机用户所具有的基本配置，用键盘输入汉字又易于实现盲打;所以键盘输入法是一种广大用户乐于接受的输入法。目前中国专利局已公布的有关专利申请中大多均为键盘输入法专利申请。

键盘输入法又可进一步分为以下几类：

（1）纯形码输入法。这类方法将汉字拆成一定数量的部件，对部件分类命名。具有可输入不会读的汉字，重码率低的特点。但由于部件命名随机性大，因此学习掌握比较费力。正因如此，这类输入方法常配有较厚的教材和练习册。一般需经过相当一段时间的训练方可运用自如。由于实际上人们常有一种潜在的不在其位不谋其政的惰性。非专业录入员对这种方法不愿去学习。故这类方法主要还是在专业录入员或频繁进行文字处理的人中用的较多。这类方法的典型为王永民的“五笔字形”汉字输入法。

（2）拼音输入法。这种输入法简单易掌握，但重码过多。操作者在使用时需频繁看屏幕去寻找要输入的汉字，输入速度慢且手指特别是眼睛容易疲劳。近年来，在简缩拼音的基础上发展了声韵双拼法，加之采用附加形码等手段，在降低重码率方面有了较大的突破。不过，这类方法的韵母键位需要死记，如要减少重码提高输入速度，还需掌握配套的形码等其他特殊方法。也就是说，如要真正将这种方法运用自如，则实际等于需学习音码和形码两种输入法。此外，由于是以声韵为主要输入手段，如操作员为非写稿人，当其遇到不会读的字时，输入时就会感到困难。即使是认识的汉字，由于许多汉字一字多音（不同声不同韵或同声不同韵），也会增加输入的困难。所以，这类方法不大适于专业录入员使用。

（3）混合输入法。这类方法通常选定一批字根，在字根的选择上尽量按汉字的音形特点给予命名。这种方法如果处理得当，可以兼有拼音法和纯形码输入法的优点，但如果处理不当，则有可能既不易学又不易用。在众多的编码方案中，这类方法占有相当大的比例。但实际推广的并不多。其中或多或少与许多方法未能较好地将易学性和低重码这一矛盾解决好有关。这类方法目前较有影响的有张国防的“五十字元”，王仁芳的“前三末一”，栗兴民的“四笔声形”等。这些方法虽各具特色，但仍有不足，“五十字元”由于字根数太少，增加了实际拆码时的难度，此外，其顺时针的取码规则也与人们的书写习惯不符。“前三末一”的字根取名与形码法相近，且其码元数较多。“四笔声形”由于以本字声母作为一码，当遇到不认识的字时就会有一废码。

此外，上述形码及混合输入法在取码时通常将汉字按结构分为上下型，左右型，包孕型等，这虽对大部分汉字适用，但由于许多方法没有给出更进一步的规则，故在实际应用时，有相当一部分汉字比如“兢”、“故”等字会使操作者不知如何拆码。

另外，目前的许多汉字编码方法不能满足繁体字或包含约二万中、日、韩汉字的国际标准ISO-10646的需要，因而通用性不强。

本发明的目的在于提供一种能克服现有汉字信息处理领域汉字编码技术之不足，只要具有几百个基本汉字基础的人就可掌握;易学、易记、易掌握;适于简化字和繁体字（包括日、韩汉字）;重码率低;既适合于专业录入员高速盲打又适于一般人员快速输入汉字的一种将汉字的读音，字形和汉字笔画特征有机地结合在一起的声形结合式汉字输入方法及其实用键盘。

本发明的构思依据是：汉字是一种由一些基本笔画和字根搭配而成的一种象形方块字。如果将基本笔画和字根看作是构成汉字的构字部件，那么只要归纳出这些部件并分类赋之予名称代码。则可用几个代码来表示某个汉字。这些部件的命名应尽量与汉字本身的声母或能与常用字联系起来从而便于记忆。至于选定多少字根，用几个码来表示一个汉字，这是一个需综合考虑的问题。有些编码方案为减少记忆量而尽量压缩基本字根的个数，但弄得不好往往会增加具体拆码的困难。实际上，汉字的构成是由基本笔画先构成构字部件，再由构字部件在一个二维平面组成汉字。基本的构字部件有几百个，不列出不等于没有。由于汉字输入者大都具有一定的文化水平，其识字数至少在五百个以上，通常在三千个左右甚至更多。所以，没有必要将其视同刚入小学的儿童。只要字根命名合理，取码规则明确，数量稍多并不会给记忆带来太大困难。至于每个汉字以几码表示，目前主要有三种方式：一种是码数不固定，如两部件字取两码，三部件字取三码等。第二种是取三码，第三种是取四码。从现有技术看，采用不固定码和三码的方式虽然可使输入单字的平均码长有所降低，但很难保证具有较低的重码率。由于目前的汉字输入主要以词语输入为主、以单字输入为辅，在词语输入的情况下，两字词通常取每字的头两码，三字词取每字的第一码及第一字或第三字的第二码，四字以上词取一、二、三、末字的第一码。因此，采用不固定码或三码方案所获得的单字平均码长短的优势并不明显。而由此引起的单字重码率较高将不利于盲打。而四码方式通常可做到具有较低的重码率。以目前几种较流行输入方法为例，三码方案中“联合45-3”重码率约2%，但其码元数高达45;“钱码”的重码率为4%，码元数为39;“二维三码”重码率为16%，码无数为28。四码方案中，“五笔字形”的重码率约3.9%，码元数为25;“五十字元”的重码率为5.5%，码元数为26;“前三末一”的重码率约在1.55%，码元数为39。（《中文信息》1990.4和《计算机世界》1989.11.29）。可见，三码法重码率较高。为降低重码率，就必须增加码元数。但从人机工程学的角度看，这样做也是得不偿失。因为考虑到人们手指的灵活程度及工作中的易疲劳程度等因素，码元应尽可能集中在以大拇指为中心的一个小范围内。以目前国际通用的英文键盘为例，则应尽量靠近以字母“B”为中心的一个半圆形区域内。其半径越小越好。根据以上分析，本发明决定采用取26个码元，码长则根据不同的需要采用完整码长为4的定码长和不定码长两种方案。

通过对汉字的仔细分析可以看出，汉字可由以下几种方式组成：

1.由横、竖、撇、捺、折等基本笔画组成的基本汉字。

例如：

一十丁上人习及弓

这种汉字通常是不可再拆的最小汉字单元，它们形成了方块汉字的基本构字部件。故又可称之为基本汉字或独体字。

2.由基本汉字在一个平面上以二维方式搭构而成。

例如：

日+月＝明人+王＝全日+月+皿＝盟

3.由具有约定俗成称谓的偏旁部首与基本笔画或汉字组合而成。

例如：

亻+二＝仁文+刂＝刘

4.由既不是汉字又不是具有约定俗成称谓偏旁部首的一些基本笔画构成的笔画群与基本笔画、基本汉字、偏旁部首或另一些这类笔画群组合而成。

例如：

考、老、孝、青、毒、责，等字的上部。

对这类笔画群，人们在日常生活中常用“常用字引证”方式予以说明。

例如：

老字就是考试的考字的上部下边加个匕首的匕字

考字就是者字的上部下边加个亏字的下部

基于上述思路，构思了本发明的具体方案。具体描述如下：

（1）将汉字看成是由一个个构字部件按书写笔顺积木式堆积而成，这里所说的书写笔顺是规范的书写笔顺。在这方面，国家已进行了规范化工作。例如，北京市语言文字工作委员会就已编辑出版了《常用字笔顺字典》。总的来说，其基本原则是：先横后竖，先撇后捺，从上到下，从左到右，从外到里，先外后里再封口，先中间后两边。如果某相连笔画群出现按规范笔顺先写了几笔然后写另一个部件后又回过头来写前一个部件的后几笔的情况，则笔画先写的部件仍算在先部件。例如：或字先写一横后，接着写“口”字和“口”字下面的一横，然后回过头来写“戈”字的其余笔画，在按部件拆分时按“戈”、“口”、“一”处理。

构字部件包括有基本笔画，基本汉字，常用偏旁部首和无名笔画群。

本发明选横、竖、撇、捺、横折、竖折、竖钩、弯折八种基本笔画。汉字的实际笔画不止这八种，但均可归入这八种笔画之中。例如，由左下向右上的提笔归入横，由右上向左下的撇点归入撇，由左上向右下的捺点归入捺，由左向右然后折一折（包括乙笔形）的归入横折，由上向下向右折一折的归入竖折，由上向下向左折一折的归入竖钩，除乙笔形外，所有折两折的归入弯折。上述八种笔画按其读音的汉语拼音声母或与笔形较相像的英文字母做代码无疑是最易记的。故作为构字部件的一部分，本发明提供了如图1所示的基本笔画代码表。

经过大量的试编码分析，按照拆码容易，尽量降低重码率及尽量使简繁体字码本统一的原则，选定了一批基本汉字，偏旁部首和笔画群及相类似的形似字及笔画群，将这些字，部首及笔画群统称为字根。形成如图2所示的字根表。图2中列向第一栏为字根代码栏，第二栏为母根栏，第三栏为母根的名称和助记字栏，第四栏为子根栏，第五栏为繁体字和日本、韩国所用汉字栏。字根分为汉字字根和部首字根。这两种字根又可分为基本字根和复合字根。所谓基本字根就是由基本汉字或类似于基本汉字的基本部首或笔画群构成的字根;而复合字根是由这些基本字根组合而成。该字根表的字根按英文字母顺序排列。其中英文字母“A”、“E”、“O”就为汉语拼音中可单独构成音节的三个韵母“A”、“E”、“O”。而汉语拼音中的“Zh”、“Sh”、“Ch”分别用英文字母“I”（取形）、“V”（因数量较多，取易操作位置）、“U”（剩下的唯一的非声母键）代替。对应于每个字母栏的第一个字根规定为键名字根。每个字根后面的两个英文字母分别代表该字根起笔笔画和末笔笔画的笔画代码。除个别字根如万、方等外，笔顺与国家语言文字工作委员会定的标准相同。起、末笔代码前面的阿拉伯数字1表示该字根是汉字字根，阿拉伯数字2表示该字根为部首字根。起、末笔代码后的英文字母是该字根的特征字根代码。字根表中汉字基本是取其读音的声母作为该字的代码，偏旁部首取其名称中的一个关键字的声母作为其代码，无名笔画群取包含有该笔画群的一个常用汉字的声母作为其代码并以其某字头，某字旁，某字底，某字形，某字框作为无名笔画群的名称以便于记忆。从表中可看出，汉字为汉字字根而偏旁部首、无名笔画群构成的字根及形似字根栏中的字根均为部首字根。

有些汉字如帀、

、夬、冘、等字属非常用字，虽然是汉字，但本发明未取其本字声母作为其代码而将其作为无名笔画群看待，故这类字根被视为部首字根。

构字部件中的汉字字根大多为基本汉字，所谓基本汉字是指按本发明的规定它们是不可再拆的最小汉字。如果再拆，则会拆出基本笔画或图2的字根表中没有的某个笔画群。例如：歹字为基本汉字。若再拆就会拆出一个基本笔画。基本汉字大部分是常用汉字。其代码就取其读音声母。

对自成一块的无名笔画群，如无适宜的形似字根或该笔画群构成的汉字不是很多，则取其第一笔代码作为该块字根的代码，图2中给出了部分例子，如“

”、“匁”、“

”等标有“＊”的字根。图2中每个英文字母代码末尾有一通栏，通栏中列出了没有形似字根的基本汉字。

由于汉字中以“M”和“Y”为声母的字根较多，为降低重码率，对以这两个字母为代码的字根进行了必要的调整：将“衤”（俗称衣补旁）取名为衣袄旁，代码为“A”;将月字代码定为“O”，取圆月之意，但月字位于第二部件以后时，仍取码为“Y”;将目、酉字分别取名为盼字旁、配字旁，取码为“P”，但该两字位于第二部件以后时，仍取码为“M”和“Y”;米字无论位于第几位均取码为“L”。

考虑到面向大众的需要，对一些字根进行了归并处理，如“七”并入“匕”、“士”并入“土”、“夭”并入“天”、“曰”并入“日”等。

字根“糸”处于末部件位置时取码为“J”，在其它位时取码为“L”。这样更便于容错输入。

繁、异体字根较不规范，图2中对一些特征较明显的异体字根未列出，如含有相当于点笔画的短竖的“宀”、“疒”、“衤”等，将左捺右撇变为左撇右捺的“半”、“

”、“”等。对这类字根，本发明规定除非汉字库中有相应汉字的两类字型，否则，其第一笔按图2中规定的笔画代码取码。

火字的第一笔有撇、捺两种写法，本发明规定当其为第一部件时，第一笔按撇笔画取，当其位于第二部件以后时，按捺笔画取。九字取码规定为先“乙”笔形（取码为“Y”）后撇笔形（取码为“P”），其余“乙”笔画取码一律为“Z”。本发明规定，在繁体字中，如果“儿”字的前后还有其它字根，则“儿”字按“八”字取码“B”而不是取码“E”;在繁体字形码方案中，如果部件数达四个以上时，“宀”与“儿”字合在一起作为“穴”字取码。

（2）根据实际的汉字结构，本发明把汉字分为特殊字、二部件字、三部件字、四部件及四部件以上字四类。

本发明所指的特殊字是指：

<1>图2中的字根（不包括后面标有“＃”号的汉字）;

<2>少量没有作构字部件的基本汉字如“秉”、“凸”等;

本发明所指的二部件以上字是指该字可由图1和图2中的二个以上的基本笔画或字根所构成。对部件的划分，本发明规定了一些具体的原则：

<A>断散、断连不断穿原则

汉字各部件之间的结合方式有三大类：

<a>部件之间互不相接，谓之散，如盟、慢等。这类字在拆分时通常就是按块划分部件;

<b>部件笔画相连谓之连，如说、强等字的右侧即为部件相连。这类相连部件通常也要断开。本发明对这类的划分还有一些具体的规定以使划分明确;

<c>部件之间笔画穿插谓之穿，如内、车等。这类部件作为一个基本汉字看待，不再拆分。本发明规定，由一个汉字或字根与一个点笔画或者一个基本汉字或字根中间的竖笔中分撇，捺两笔画群如果可形成一个汉字，则将其作为一个基本汉字看待。例如术、太、犬、果、半等均作为一个基本汉字或者说构字部件来处理。这类基本汉字作为字根已列于图2中。而如一个汉字或字根与一个非点笔画的基本笔画属分开布置时，将其作为二部件处理。有些汉字其基本笔画是否与字根分开容易引起混淆，本发明对其做了硬性规定，如今、艺等字作为字根处理，已列于图2中。

<B>复合字根优先级大于基本字根

在拆码的过程中，通常是按最小原则拆码。这样可减少对识字量的要求。但从降低重码率及尽量与繁体字统一、击三码后不必再翻页查字等方面考虑又不宜完全按此原则。故本发明图2的字根表中有一些复合字根如“

”、“ ”、“辛”、“见”等。通常，部件是按最小原则拆分，即一个字如再拆将拆出基本笔画或图2所没有的笔画群。但如果拆出的部件既可是两个字根而合在一起又是图2中的一个复合字根时，只要合起来作为一个字根后，该汉字仍为二部件以上字，则按图2中的最大字根选取。例如：京字如拆为三部件字，取码为“亠”、“口”、“小”。但由于图2中有“ ”这一复合字根，所以京字为二部件字，应拆为“

”、“小”两部件字。再如“短”字，应拆为“矢”、“ ”、“

”三部件字。而不应拆成“”、“大”、“一”、“口”、“ ”五个部件。用一句话概括就是“字根往大取，部件数往小取”。

<C>.汉字字根优先级大于部首字根，部首字根优先级大于基本笔画，“一”字作为基本笔画处理，优先级相同时就前不就后。

具体说，如果某一笔画即可与其前面的字根构成一个字根又可与其后面的字根构成一个字根时，通常情况是按就前不就后的原则，如“联”字右面的“关”字，应拆码为“

”、“大”两部件而不是“丷”、“天”两部件，因为优先级相同，都是一个部首字根加一个汉字字根。但“并”字应拆码为“丷”、“开”两部件而不是“

”、“廾”两部件，因为后者把一个部首字根和一个汉字字根的组合变为两个部首字根的组合。同理，“全”字应拆码为“人”、“王”而不是“ ”、“土”，因为后者把两个汉字字根的组合变为一个部首字根和一个汉字字根的组合。图2中汉字、部首字根的划分就是为此，实际上，此原则针对的字根主要是由“丷”、“

”、“人”、“

”、“

”构成的汉字如并、关、遂、全、食、金、会等，为数有限，在掌握这些字的拆码规律后就不必再考虑一个字根属何类字根了。由于“一”字作为基本笔画处理，所以“蒙”字应拆成“艹”、“冖”、“一”和“豕”四个部件而不是“艹”、“冖”、“二”和“

”四个部件。

将上述内容进行一下概括，则可得到如下的树形结构：

本发明给出了形码和音码两套方案。就形码方案而言，为了既避开汉字读音的麻烦又能最大限度地区别汉字，本发明设计了首末笔画特征码，简称特征码。规定特征码按横、竖、撇、捺、折五种基本笔画选取。将横折、竖折、竖钩、弯折均归入折笔。用横、竖、撇、捺、折五个起笔和横、竖、撇、捺、折五个末笔可组合成25个特征码。对这25个特征码按其笔画形状在图2的字根表中选一相似字根作为特征码的代码。如图3所示。图3的特征代码表中只有首末笔为横竖的取“F”（形似）;为横捺的取“U”（反厂）;为竖横的取“O”;为撇捺的取“X”（形似）。

由于汉字中有一部分偏旁部首属“大”部首，即以这类部首作为首部件的汉字数量较多。如口、氵、艹、扌、钅、、等，此时，若取这类部首的首笔与末部件末笔构成的特征码，则只有五种可能。这就增加了重码的可能。故本发明规定了26个键名字根。在使用特征码时，首部件为键名字根的字，特征码取第二部件的起笔和末部件的末笔。键名字根不予考虑。这样，就使第一部件为键名字根的汉字的特征码组合由五上升至二十五。同时也减少了相同代码相同起笔字根“撞车”的可能性。就音码方案而言，由于第一码取本字声母作为代码，所以不必考虑特征码。

为了有效地区分两部件字，并可使基本汉字拆码容易，本发明提出了特征字根的概念。所谓特征字根就是在字根中按书写笔顺再找字根。书写笔顺选多少合适？根据二部件汉字的构成情况，本发明规定最多取四笔;故提出“特征字根，四笔为限，不足递减”的原则。具体说就是对一个字根按书写笔顺最多取四笔，如果所取四笔可构成图2中的一个字根，则该字根代码就是此字根的特征字根代码;如果四笔不能形成一个字根，则按递减原则取三笔、二笔看是否可构成图2中的字根;如果三笔、二笔也不能形成一个字根，则取第一笔基本笔画的代码作为该字根的特征字根代码。“不足递减”的另一层意思是如果构字字根本身的笔画就在四笔以下，则“四笔为限”的原则相应按递减原则变为三笔为限、二笔为限直至只取一笔。上述原则同样适于基本汉字，如“甲”字的特征字根代码为“R”，“垂”字的特征字根代码为“Q”，“止”字的特征字根代码为“B”，“重”字的特征字根代码为“P”。本发明规定，“日，曰，田，目四个字根的特征字根代码为“O”。

以上述字根代码、首末笔画特征码和特征字根代码为基础，构成本发明的音码和形码的取码规则：

（一）音码取码规则：

1.对特殊字（本发明图2字根表中的字根和图2中未列出的基本汉字），取码规则为：

汉字本字声母+特征字根代码+紧随特征字根后的基本笔画代码+末笔画代码

若取特征字根后只剩一个基本笔画，则第四码取特征字根的特征字根代码;若基本笔画不足时以字母“O”补齐。例如：

一YHOO 二EHHO 三SEHH 臼JPIH 秉BPHN

卑BAHI 丰FSIE 革GNII 足ZKIN 矢VGPN

2.两部件字取码规则为：

汉字本字声母+首部件代码+末部件代码+末部件特征字根代码

例如：

课KYGR 佯YDYC 如RNKT 仆PDBI 旧JIRO

若末部件为“辶”、“廴”或基本笔画，则第四码取首部件特征字根代码

例如：

这IWZW 违WWZE 建JYJE 廷TRJQ 旦DRHO

3.三部件以上字取码规则为：

汉字本字声母+首部件代码+第二部件代码+末部件代码

例如：

编BLHC 慢MXRY 赢YWKF 兢JVKE 赚IBCZ

由于许多汉字是一字多音，尽管本发明撇开了汉字的韵母，但仍存在一定数量的多声母字。本发明规定，对这种多声母字，取其常用字的声母作为本字声母，如果两种声母均为常用字声母，取英文字母位置在前的字母作为其代码。

例如：

bbxw辟bfbp扒bgsl刨bsba泊ccgu藏cdzd伺cfry撮cfxb攒czro曾

dgbd弹dvro沓dytk调eyxp恶frfw彷fofh脯gmrs桧hdlz夯hres会

hrue行huhk蛤ijll幢ikmh喳ivry朝jefn降jjdn解jmjg矜kkhw咳

ktpj壳kvbi卡lpln乐mhbx秘mzlo乜nfyl拗plbz耙ptfh埔pvbk屏

qclk茄qdkd奇qmdk骑qmxh栖qojs圈tfrp提udie传ufsp掺urpb匙

uwyt畜vuml刹vumt盛vwyv率wkvt喔xkxh吓xmwu校xpln系yodd腌

（二）形码取码规则：

1.特殊字取码规则与音码相同

例如：

土TVHH 士VVHH 天TEPN 夭YPHN 日ROHT

曰YOHT 月YTHH 目MOHH 米MCIN 酉YHIH

2.二部件字取码规则为：

首部件代码+末部件代码+末部件特征字根代码+首末笔画特征码

若末部件为“阝”、“辶”、“心”或基本笔画时，第三码取首部件特征字根代码。笔画不足时以字母“O”补齐。

例如：

课 YGRD 戏 YGGS 讧 YGHW 讦 YGEI 刁 ZHOC

这 WZWD 邯 GECF 怎 IXGX 钆 JLGG 旦 RHOO

3.三部件字取码规则：

第一部件代码+第二部件代码+第三部件代码+特征码

例如：

树 MYCU 辨 XHXI 识 YKBD 编 LHCJ

4.四部件及四部件以上字取码规则：

第一部件代码+第二部件代码+倒数第二部件代码+末部件代码

例如：

椒 MVXY 赢 WKBF 瘠 BDDY 座 GRRT

为降低重码率，本发明对形码方案还增加了一些附加原则：

（A）基本笔画处于四部件以上字第三取码位时不计原则

例如：

似 DLRS 苏 CLNS 蒙 CPVX 德 RVXX

（B）部件中含八、十、而部件数达四个以上时，如果这三个部件与其相邻的部件可构成一个汉字时，按取大从前的原则将其与相邻的部件合为一字取码。

例如：

朝 VZYO 郊 LUEI 爱 CPYX 愤 XHBU

图2中标有“＃”号的为这类汉字。

（C）第一部件为键名字根的字，取第二部件的起笔与末部件末笔组合成的特征码，若为二部件字，取第二部件首末笔特征码。第一部件为非键名字根的汉字，取第一部件起笔与末部件末笔组成的特征码。

第一码字根为日而字的结构为上下型字时，将日看做键名字根。如：

景 RJXD 旱 RGEF

任何时候都不把“辶”考虑在特征码中。

例如：

遘 JZZE 这 WZWD 迄 RZZZ 违 WZEF

（D）第一码字根为口而字的结构为上下型字时，取码规则为：

首部件代码+末部件代码+首部件特征字根代码+末部件特征字根代码

例如：

员 KBTT 吊 KJTT 呆 KMTC

此外，对图2中的非汉字部首字根，其本字声母代码取字母“O”，后接该字根称谓的三个字的声母代码;对图2中标有“＊”的字根及图2中没列出的非汉字独立笔画群，其本字声母代码取字母“A”。

例如：

疒 OBZT 钅 OJZP

OJZX 衤 OYAP

AEII

APZZ ALHH

AEII

考虑到有些用永对单字盲打要求不高，本发明也提供不定码长方案。通过一个程序可将四码长码表转换为不定码长码表，对不定码长码表中的数十对重码字，按“A”、“O”、“E”的顺序用替换码替换其非常用字的第四码，则可使单字的静态字重码率为零。例如，简化字形码中“亚”和“酉”字的编码均为“yhih”。在定码长方案中这两个字的编码仍为“yhih”，而在不定码长方案中，将“酉”字第四码的“h”以替换码“a”替换，这样，“酉”字的编码为“yhia”。

为适应本发明的上述汉字输入方法，在操作键盘设置上应包括有可以作为汉语拼音首字母的23个声母键及“A”、“E”、“O”三个韵母键。同时还应具有“模糊键”，“结束键”，0～9的数字键，进入本发明输入方法壮态的指令键及实现其他特殊功能如造词，字词同时输入，字词分开输入等标识符号的必不可少的功能键。各标识符号可选易识别的字母或符号表示。还可根据需要增设其他字符键及功能键。上述各键在键盘中的排布方式可从方便操作出发而专门设计。但考虑到相当多的人已熟悉通用的英文键盘而且许多用户已配置的计算机已带有这种通用键盘。因此，使本发明的键盘布局与目前国际通用键盘兼容是最理想的方案。而统计结果也表明，本发明的击键频率与标准英文键盘的布置能较好的吻合。故本发明实际推荐的键盘布局采取凡有与现有的标准通用键盘中的键有相同标识符号的键，其位置与在通用键盘中该键的位置相同。标识符号与通用键盘不同的键则安排在易于操作的其他位置上。对这种通用键盘可采用配键帽的方式以便于初学者熟悉。图4是本发明建议的键盘布局的主要部分的示意图。

可以看出，与现有各种汉字输入法相比，本发明具有以下显著特点：

1.适应面广，按本发明可形成八个码表，即简化字音码、简化字形码、繁体字音码和繁体字形码的定码长（四码长）和不定码长码表。同样的原则可用于简化字或繁体字的输入。音码方案适于一般的人使用，因为一般的人录入的大都为自己的文件，基本上没有不会读的字，本发明音码方案所采用的第一个代码取汉字本字声母的方式符合人们的思维习惯。形码方案适于专业录入员使用，因为专业录入员对录入文件中的汉字不一定都会读，形码方案撇开了汉字的读音，便于专业录入员使用。同时，由于专业录入员的工作性质，如果总是盯着屏幕会很疲劳，有时，需要撤除词组同时输入功能，只进行单字盲打，此时单字静态重码率越小越好，这样，鸣笛示警次数少，不需过多地选择。本发明定码长简化字形码静态重码率约为2.4%;音码静态重码率约为3.8%;繁体字形码静态重码率约为2.8%;音码静态重码率约为3.8%。如果计及各级简码字的影响，单字静态重码率还要低。而不定码长的单字静态重码率在0.6%以下，如果计及替换码因素，则重码率为零。可见，其综合指标均低于或接近目前较流行的汉字输入方案。

2.字根命名便于记忆和掌握。本发明所选字根大多为基本汉字和常用偏旁部首，以这些汉字本字的声母和常用偏旁部首称谓声母中的一个作为字根代码无疑是最便于记忆的。对一些无名笔画群，以某字旁、某字头、某字底等命名使其与某个常用汉字联系起来，这样是符合人们的记忆规律的。而图2中子字根栏所给出的字根由于形状与基本字根相似，所以记忆并不困难。由于给出的字根基本包括了所有汉字部件，因此实际拆码时比较方便。

3.为避开汉字读音的影响而引入的首末笔画特征码巧妙地与图2中的一个两笔画字根联系起来从而免去了对二十五个特征码的死记，使一般的人也有可能很容易地就掌握形码输入法。为避开“大”部首和同代码同笔画所带来的问题而引入的键名字根的概念进一步降低了重码率。

4.特征字根的引入使占汉字总数相当一定数量的二部件字能有效的被区分开从而减少提示行显示字数并使重码率下降。统计结果表明，对GB2312-80的6763个汉字，当键入三码后，定码长方案中

提示行汉字显示个数如下：（中文数字代表显示字数，阿拉伯数字代表对数）

一二三四五六七八九十十一

简化字形码 3553 1012 258 66 19 5 1 2 0 0 0

简化字音码 3194 865 271 110 38 23 15 8 3 4 2

繁体字形码 3422 961 289 89 22 2 4 2 1 1 1

繁体字音码 3131 905 268 113 40 26 7 9 4 2 3

可以看出，键入三码后，形码方案中所显示的汉字约93%为三字以内，音码方案中所显示的汉字约85%为三字以内。全部汉字均可通过屏幕上的阿拉伯数字选择上屏而不必翻页。由于计算机可采用高频先见的方式排列汉字，加上一、二、三级简码字的引入，通常情况下，键入三码后再键入“结束键”就可使所要输入的汉字上屏。即使需要通过屏幕选择，由于屏幕显示字数较少，因此，操作者视角较集中，选择起来比较快速，眼睛的运动量也较小。

5.本发明所提出一些概念和原则如基本汉字的概念、汉字字根和部首字根的概念、断散断连不断穿的原则、字根优先级的原则等使对汉字的划分清晰明确，不会出现所谓“学时似乎都懂，用时经常发慒”的情况。

由于本发明采用的构字部件的代码大多为人们熟悉的汉字或偏旁部首的声母。首末笔特征码也用相应的字根来表示，键盘与国际通用标准键盘兼容，因而好学易记易掌握。专业录入员采用此方法完全可达到与现在广为流行的各种汉字输入法不相上下的录入速度。一般人只要弄懂本说明书所述内容，掌握几个附图的内容，不需再练习就可实现对简化字或繁体字音码或形码方式的汉字输入。而只要其键盘指法熟练，则完全有可能达到专业录入员的输入速度。

本发明所提供的几个图的内容及某些原则也可作为其它汉字输入法的构字部件的一部分。例如采用声韵双拼后，加两个字根代码或加一个字根代码再加一个特征码。均可起到有效地降低重码率的目的。

本发明可在各种计算机，电子中英文打字机，电传机，汉字终端等汉字信息处理设备中使用。

综上所述，可以看出，本发明具有良好的应用前景。

Claims

1、一种利用汉字的读音，字形及笔画特征三者之间相结合实现中国，日本，韩国汉字(简化字和繁体字)信息传递的通用型汉字编码方法及其键盘，其特征在于取基本笔画，汉字，常用偏旁部首及部分无名笔画群作为构字部件，将汉字分为特殊字，两部件字，三部件字，四部件以上字四种类型，分别给出了音码和形码两种方式的取码规则，通过构字部件代码，特征字根代码和首末笔特征码来表示汉字，键盘的布局与现有的国际通用标准英文键盘布局兼容，采用在键盘上附加键帽的方式以便于使用。

2、如权利要求1所述的汉字编码方法，其特征在于构字部件由以下几部分组成：

（1）基本笔画：由横、竖、撇、捺、横折、竖折、竖钩、弯折八种笔画构成，由左下向右上的提笔归入横笔画，由右上向左下的点撇笔归入撇笔画，由左上向右下的点捺笔归入捺笔画，所有由左向右然后折一折（包括“乙”笔形）的笔画归入横折，由上向下然后向右折一折的笔画归入竖折，由上向下然后向左折一折的笔画归入竖钩，除了“乙”笔形外，所有折二折的笔画归入弯折，这八种基本笔画的代码用其读音的汉语拼音声母或用与该笔画形状相象的英文字母来表示，即横笔画的代码为“H”，撇笔画的代码为“P”，捺笔画的代码为“N”，弯折的代码为“W”，此四个取音，竖笔画的代码为“I”，横折的代码为“Z”，竖折的代码为“L”，竖钩的代码为“J”，此四个取形，以此形成基本笔画代码表（图1）。

（2）字根：由一批汉字，偏旁部首和无名笔画群构成了一个字根表（图2），字根表中列向第一栏为字根代码栏，第二栏为母根栏，第三栏为字根名称及助记字栏，第四栏为子根栏，第五栏为繁体字、日本和韩国汉字栏，字根表行向按26个英文字母顺序排列，英文字母“A”、“E”、“O”为汉语拼音“A”、“E”、“O”三个韵母的代码，英文字母“B、C、D、F、G、H、J、K、L、M、N、P、Q、R、S、T、W、X、Y、Z”为相应汉语拼音声母的代码，英文字母“I”为汉语拼音声母“Zh”的代码，英文字母“U”为汉语拼音声母“Ch”的代码，英文字母“V”为汉语拼音声母“Sh”的代码，字根表中的汉字基本采用汉字本字读音的声母为代码，常用偏旁部首取其习惯称谓中的一个关键字的声母为代码，无名笔画群或某些非常用汉字取某个包含该笔画群或汉字的常用汉字的声母为代码并以某字头，某字旁，某字底，某字形，某字框命名以便于记忆，字根分为基本字根和复合字根，基本字根是如果再拆就会拆出基本笔画或字根表中没有的笔画群的最小字根，复合字根是由两个以上基本字根组成的字根，基本字根和复合字根又包含汉字字根和部首字根，表中标有阿拉伯数字“1”为汉字字根，标有阿拉伯数字“2”的字根和子根为部首字根，汉字“一”和“乙”作为基本笔画而不是字根看待，对应每个英文字母栏的第一个母根规定为键名字根，对图2字根表中的非汉字部首字根，其本字声母代码取字母“O”，对图2字根表中标有“＊”的字根及图2中没列出的非汉字独立笔画群，其本字声母代码取字母“A”，其字根代码取其第一笔的笔画代码。

3、如权利要求1或2所述的汉字编码方法，其特征在于将汉字按规范的书写笔顺（即先横后竖、先撇后捺、从上到下、从左到右、从外到里、先外后里再封口、先中间后两边，如果某相连笔画群出现按规范笔顺先写了几笔然后写另一个部件后又回过头来写前一个部件的后几笔的情况，则笔画先写的部件仍算在先部件）分为特殊字、二部件字、三部件字、四部件及四部件以上字四类，具体划分步骤为：

（1）由字根表中的字根和一些不是作为字根的不可再拆的最小汉字如“秉”、“凸”等汉字构成了本发明所称的特殊字，

（2）由两个、三个、四个和四个以上图1的基本笔画和/或图2的字根构成了本发明所称的二部件字、三部件字、四部件及四部件以上字。

4、如权利要求1或2或3所述的汉字编码方法，其特征在于在对汉字进行部件划分时采用以下原则：

（1）断散断连不断穿的原则，即部件之间相互分开时，每个分开的部件作为一个部件处理，部件相连时，按字根表中的字根来拆分部件，笔画穿插的基本汉字作为一个部件处理，

（2）复合字根优先级大于基本字根，即对两部件以上字，若可有几种拆码方案时，按取最大复合字根使部件数最少原则划分处理，

（3）汉字字根优先级大于部首字根、优先级相同时就前不就后，即当一个基本笔画即可与其前面的字根组成一个字根又可与其后面的字根组成一个字根时，能取两个汉字字根时不取一个汉字字根和一个部首字根、能取一个汉字字根和一个部首字根时，不取两个部首字根，若优先级相同，则按就前不就后的原则处理。

5、如权利要求1或2所述的汉字编码方法，其特征在于采用了特征字根来区别汉字，特征字根按“四笔为限，不足递减”的原则处理，即对一个字根按书写笔顺最多取四笔，如果所取四笔可构成字根表中的一个字根，则该字根代码就是此字根的特征字根代码，如果四笔不能形成一个字根，则按递减原则取三笔、二笔看是否可构成字根表中的字根，如果三笔、二笔也不能形成一个字根，则取第一笔基本笔画的代码作为该字根的特征字根代码，如果字根本身的笔画数就在四笔以下，则“四笔为限”的原则相应按递减原则变为三笔为限、二笔为限直至只取一笔。

6、如权利要求1或2所述的汉字编码方法，其特征在于采用了汉字首末笔特征码来反映汉字的结构特点，首末笔特征码以横、竖、撇、捺、折五种笔画为基础，基本笔画代码表中的横折、竖折、竖钩和弯折均归入折笔画，由横、竖、撇、捺、折五种笔画相互组合形成25个首末笔特征码（图3），选字根表中具有相同首末笔的字根代码作为特征码代码，其中，首末笔为横竖的取“F”为代码，首末笔为横捺的取“U”（反厂）为代码，首末笔为竖横的取“O”为代码，首末笔为撇捺的取“X”（形似）为代码。

7、如权利要求1或2或3或4或5或6所述的汉字编码方法，其特征在于按音码和形码两种方式给出取码规则，具体步骤为：

（1）音码方式：

<1>特殊字取码规则：

若取特征字根后只剩一个基本笔画，则第四码取特征字根的特征字根代码，若基本笔画不足时以字母“O”补齐，

<2>两部件字取码规则为：

汉字本字声母+首部件代码+末部件代码+末部件特征字根代码

<3>三部件以上字取码规则为：

汉字本字声母+首部件代码+第二部件代码+末部件代码

对多声母字，取其常用字的声母作为本字声母，如果两声母均为常用字声母，取英文字母位置在前的字母作为其代码，

（2）形码方式：

<1>特殊字取码规则：

<2>两部件字取码规则为：

若末部件为“阝”、“辶”、“心”或基本笔画时，第三码取首部件特征字根代码，笔画不足时以字母“O”补齐，

<3>三部件字取码规则：

第一部件代码+第二部件代码+第三部件代码+首末笔特征码

<4>四部件及四部件以上字取码规则：

第一部件代码+第二部件代码+倒数第二部件代码+末部件代码

8、如权利要求1或2或3或4或5或6或7所述的汉字编码方法，其特征在于对形码方式采用以下原则以降低单字重码率：

（1）基本笔画处于四部件以上字第三取码位时不计原则

（2）部件中含八、十、而部件数达四个以上时，如果这三个部件与其相邻的部件可构成一个汉字时，按取大从前的原则将其与相邻的部件合为一字取码

（3）第一部件为键名字根的字，取第二部件的起笔与末部件末笔组合成的特征码，若为二部件字，取第二部件首末笔特征码，第一部件为非键名字根的汉字，取第一部件起笔与末部件末笔组成的特征码

（4）第一码字根为“日”而字的结构为上下型字时，将“日”看做键名字根

（5）任何时候都不把“辶”考虑在特征码中

（6）第一码字根为“口”而字的结构为上下型字时，取码规则为：

9、如权利要求1所述的键盘，其特征在于至少包含23个汉语拼音声母和“A”、“E”、“O”三个韵母键及“模糊输入键”、“结束键”、0～9数字键及其它功能键，各键采用与国际通用标准英文键盘兼容的排布方式，可采用附加键帽（图4）的方式方便使用。

10、如权利要求1或2或3或4或5或6或7或8所述的汉字编码方法，其特征在于可将其基本笔画、字根、特征字根代码、首末笔特征码结合形成其它的汉字编码方法。