CN1138198C

CN1138198C - 千里码——一种简易的汉字编码计算机输入方法

Info

Publication number: CN1138198C
Application number: CNB001220918A
Authority: CN
Inventors: 钟小先
Original assignee: Individual
Current assignee: Individual
Priority date: 2000-08-27
Filing date: 2000-08-27
Publication date: 2004-02-11
Anticipated expiration: 2020-08-27
Also published as: CN1317735A

Abstract

本发明涉及一种汉字形声码(“千里码”)的编码方法。本发明按汉字笔划书写的坐标方向将笔划分成竖、横、斜、折四类，然后计算出每个汉字这四种笔划的数量(只需计算至六划)，或者为了键盘输入，将数字转换成字母，依竖、横、斜、折顺序排列为主码，加上该字拼音的首字母为付码，构成数字-字母码和全字母码的汉字码—千里码。

Description

千里码——一种简易的汉字编码计算机输入方法

技术领域本发明所属的技术领域为汉字编码计算机输入方法。

背景技术汉字编码，林林总总，基本上分成形码、声码、形声码和序号码四大类。形码和形声码基本上是将汉字人为地分解为若干个特定的部首或“部件”，并赋予其代号，依一定的规定顺序编成码。要记住一、二百个人为设定的部件并熟练转换成代号再按键打出汉字的整个过程，不经过相当程度的训练是不易掌握的，而目前无需记忆的编码方法，往往重码太多，而要赋予种种辅助码。因此，汉字编码的现状是“易学的打不快，打得快的难记住”。用传统的部首在字典中查找一个汉字时，需要经过如下6个步骤：确定部首(1)→计算部首笔划(2)→找到该部首的位置(3)→计算部首外笔划(4)→找到该字的位置(5)→最后找到该字(6)。

发明内容本发明涉及一种根据将汉字分解为最基本的单元一笔划，并依照笔划书写的坐标方向分成竖、横、斜、折四种笔形，再计算这四种笔形的数量，同时可将数字转换成字母，依次排列成数字作主码，加上该字的拼音的首字母作副码，组成一种数字-字母码或全字母码的编码方法，这种码称之为“千里码”。

本发明提供了一种以自然、简便、规范为特征的编码方法，既无需任何记忆，一看就明白，重码很少，可实现快打；用这种编码方法查字典只需2步(即使你不知道该字的读音，在为数不多的相同主码中找到该字也很容易)。国标基本集中6763个汉字的具体的编码情况是：总码数5257个，其中一码一字的有4006个(占75.94％)，一码二字的有888个(占16.83％)，一码三字有276个(占5.23％)，一码四字有75个(占1.42％)，一码五字有24个(占1.46％)，一码六字有5个(占0.095％)，一码六字有1个(占0.019％)。

对《新华字典》(1998年版，下同)中收录的10400多个汉字(多音字按多个字计)的笔划作初步统计，总的笔划数为十二万三千六百左右，即平均每个汉字的笔划数为11.9，即接近12划。对国标基本集(GB2312-80)中3736个汉字的统计结果，总笔划数为71778划，即平均每个汉字的笔划数为10.614，即接近10.6划。本发明从这点出发，找到一种计算汉字笔划数加拼音首字母为特征的“千里码”的编码计算机输入方法。

具体实施方法 1，汉字的笔划，通常分成横、竖、点、撇、捺、折六种。本发明将汉字的基本笔划依照书写时在坐标轴上的走向压缩为四种笔形：即沿纵坐标垂直走向的垂笔，沿横坐标水平走向的平笔，沿纵横坐标之间直线(或接近直线)走向的斜笔和书写过程改变方向的弯笔。垂笔包括通常说的竖笔，平笔包括通常说的横笔，斜笔包括通常说的点、撇、捺、提(这些笔划常常难于区分)，弯笔包括通常说的各种弯、折和勾笔。为了传统习惯的需要，将垂、平、斜、弯称为竖、横、斜、折四种笔形。

根据对《新华字典》中10400多个汉字的初步统计，在总共十二万三千六百左右的笔划中，竖笔有二万二千二百左右，横笔有三万四千七百左右，斜笔四万三千五百左右，折笔有二万三千左右，也就是说平均每个汉字的竖、横、斜、折四种笔形分别为2.1、3.3、4.2和2.2划。根据对国标基本集(GB2312-80)中6763个汉字的统计，在总共71778的笔划中，竖笔为12621划，横笔为19976划，斜笔为25366划，折笔为13815划，也就是说平均每个汉字的竖、横、斜、折四种笔形分别为1.866、2.954、3.751、和2.043划或约等于1.7、3.0、3.8和2.0划。

2.笔划的排列按竖、横、斜、折的顺序而不是按常规横、竖、斜、折的顺序。将竖笔排在横斜笔前面的理由是依据这些笔划在汉字中出现的频率。根据对《新华字典》的初步统计，在10400多个汉字中：

无竖笔的汉字有1345个；

无横笔的汉字有513个(其中259个出现在无竖笔的汉字中)；

无斜笔的汉字有368个(其中只有25个出现无竖笔的汉字中)；

无折笔的汉字有637千(其中只有82个出现在无竖笔的汉字中)。在国标基本集6763个汉字中，上述汉字分别有1065、418、275、518个。在418个无横笔的汉字中，有225出现在无竖笔的汉字中；而在518个无折笔的汉字里，只有61个出现在无竖笔的汉字中。

按竖、横、斜、折顺序排列时，前面第一位为零的编码有1345个，前二位为零的编码有259个。这样在输入这些汉字编码时，前面的零可以省去而减少击键次数，采用竖、横、斜、折顺序编码可以最大限度缩短码长，从而提高汉字输入速度，同时又照顾到了人们的习惯。

3.本发明的汉字编码分为主码与副码。主码有数字码。数字主码即为该汉字的竖、横、斜、折笔划数依次排列组成。数字还可以字母表示，左手键f、d、s分别代表单数1、3、5，右手键j、k、l分别代表偶数2、4、6(这也与我国传统的“左下右上”原则相一致)；o与0相似，以o键代表0。这样构成字母主码。副码为该汉字拼音的首字母，声母为ch取c、sh取s、zh取z，这既可以避免发音不准带来的困难，又可以缩短码长。如果该字为不同字首的多音字时，可有多个副码，因此就有多个不同的编码，输入时，可用其中任何一种。

4.在计算竖、横、斜、折四种笔划时，只需计算至6划，超过6划仍作6划处理。随着汉字的进一步简化，甚至可以只计算至5划。根据《新华字典》中10400多个汉字的统计，竖笔超过6划的汉字只有101个，横笔超过6划的汉字有747个，斜笔超过6划的较多，为1684个，折笔超过6划的最少，为48个。在国标基本集中超过6划竖、横、斜、折的汉字分别只有21、259、762、10个。为了简单、快速、实用，只需计算至6划，超过6划，仍作6划计。主码的数字只有0-6七个数字，转换成字母也只有七个字母。操作简单。

5.本发明适用于简体和繁体汉字的编码，在输入繁体字时还可用对应的简体字码再加上“简-繁”字转换码。

6.本发明亦适用于词和词组的编码，这时只需要将第一个(或其中一个)汉字的主、副码加上后面(或其他)汉字的副码即可。

7.本发明中的全字母码适用于汉字信息处理，数字-字母码既适用于汉字的检索(如字典的检索)也适用于汉字信息处理。

本发明可用下面的实施例加以说明：

实施例1：

汉字“课”字分别有2竖、3横、3斜(点、撇、捺各一笔)、2折，读音“ke”，编码为2332k，可转换成jddjk全字母码。

实施例2：

汉字“了”字分别有0竖、0横、0斜、2折，即0002，而前面的“0”不必写，主码为2，付码为1，全码为21，可转换成jl全字母码。

实施例3：

汉字“正”字，竖、横、斜、折数分别为2、3、0、0，主码为2300，后面的零不能省去。付码为z，全码为2300z，可转换成jdooz全字母码。

实施例4：

汉字“罐”字分别有竖、横、斜、折8、9、3、3，计算时只需计算至6，因此主码为6633，全码为6633g，可转换成llddg全字母码。

实施例5：

汉字“伽”读音有三种：“ga”(伽马射线)，“jia”(伽利略)，“qie”(伽南香)。因此，其编码也有三个，即：2122g，2122j，2122q，可分别转换成jfjjg，jfjjj，jfjjq全字母码。

按上述方法将汉字的数字码(或者将数字1、2、3、4、5、6、0分别转换成字母f，j，d，k，s，l，o)和拼音首字母顺序击打键盘即完成汉字的计算机输入，无需记忆，简单快捷。

Claims

1.千里码——一种简易的汉字编码计算机输入方法，其特征在于采取下述输入步骤：

(1)将汉字分解为最基本的单元——笔划，

从科学的角度，汉字笔划是一种向量，除了有长短之分，更有方向之异，因此，可以根据笔划书写过程在平面坐标轴上的运动轨迹来确定和分类，笔划在书写过程中沿纵坐标y轴方向运行的归为竖笔，沿横坐标轴x轴方向运行的归为横笔，沿x和y轴之间运行基本上不改变运行方向的归并为斜笔，在书写过程中改变运行轨迹的统称为折笔，同时，采用“直线逼近”的科学方法并考虑到汉字笔划的传统的分类，将传统的“点、撇、捺、提”而往往很难加以区分的这些笔划根据上述规则，一并作为斜笔；将各种“弯、折、勾”归并为折笔；

(2)依照上述法则，分别计算汉字的这四种笔划的数量，依照竖、横、斜、折的顺序排列成数字码主码，如果出现在前面的数字为零，则可以省去，缩短码长，减少击键次数，正是由于这种考虑，按照汉字笔划出现的频率，将笔划排序为竖、横、斜、折；

(3)将汉字拼音的首字母作为副码，和主码合并在一起成为完整的汉字码，千里码，之所以采用首字母而不用声母，是考虑到汉字读音中的一个难点；z和zh，s和sh，c和ch，常常不易区分，采用首字母还可以缩短码长，减少击键次数，一举两得；

(4)在计算汉字四种笔划时，每种笔划只需计算至6划，如果笔划数超过6则不必再数下去，作6划处理；

(5)按汉字的数字码-主码，和拼音首字母-副码，使用计算机上键盘的数字键和字母键顺序击键输入计算机；同时，千里码还可以用作汉字检索，实现汉字计算机处理和汉字检索一体化；

(6)为了便于习惯字母键盘操作的人士处理文字，可以将数字1、2、3、4、5、6、0分别用f，d，k，s，l，o代替，即左手键f，d，s分别代替数字1、3、5；右手键j，k，l分别代替数字2、4、6；o代替0，这样就变成了全字母码，这些字母就是计算机键盘上的英文字母，可以实现盲打。