[go: up one dir, main page]

CN1648828A - 去多义性语音输入系统和方法 - Google Patents

去多义性语音输入系统和方法 Download PDF

Info

Publication number
CN1648828A
CN1648828A CNA2004100711724A CN200410071172A CN1648828A CN 1648828 A CN1648828 A CN 1648828A CN A2004100711724 A CNA2004100711724 A CN A2004100711724A CN 200410071172 A CN200410071172 A CN 200410071172A CN 1648828 A CN1648828 A CN 1648828A
Authority
CN
China
Prior art keywords
sequence
pictograph
user
voice
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA2004100711724A
Other languages
English (en)
Other versions
CN100549915C (zh
Inventor
吴建超
赖皇瑜
何炼
皮姆·凡·默尔斯
黄劲钟
张路
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Historic AOL LLC
Original Assignee
America Online Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from US10/631,543 external-priority patent/US7395203B2/en
Application filed by America Online Inc filed Critical America Online Inc
Publication of CN1648828A publication Critical patent/CN1648828A/zh
Application granted granted Critical
Publication of CN100549915C publication Critical patent/CN100549915C/zh
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/187Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/02Input arrangements using manually operated switches, e.g. using keyboards or dials
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/26Techniques for post-processing, e.g. correcting the recognition result
    • G06V30/262Techniques for post-processing, e.g. correcting the recognition result using context analysis, e.g. lexical, syntactic or semantic context
    • G06V30/268Lexical context
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Document Processing Apparatus (AREA)
  • Machine Translation (AREA)
  • Input From Keyboards Or The Like (AREA)

Abstract

本发明公开了一种在简化键盘中使用基于拼音或基于笔画的输入法输入汉字字符的系统和方法。通过将通常的索引引入象形文字字符,该系统允许在不同类型的输入法如基于拼音的输入法和基于笔画的输入法中共享该象形文字字符。系统将该输入序列与输入法特定索引如语音或笔画索引相匹配。然后将这些输入法特定索引转换成象形文字字符的索引,然后使用该象形文字字符的索引检索象形文字字符。

Description

去多义性语音输入系统和方法
技术领域
本发明一般地涉及一种中文输入技术。更加具体地,本发明涉及一种用于去多义性语音输入并输入汉字字符和短语的系统和方法。
背景技术
多年以来,键盘大小已经成为努力设计和制造小型便携式计算机的一个主要的尺寸限制因素,因为如果使用了标准打字机尺寸的操作键,便携式计算机就必须至少与键盘一样大。尽管已经在便携式计算机上使用了各种小型键盘,但是已经发现小型键盘太小,以致于普通用户不能够容易地或者快速地操作。
将全尺寸的键盘结合到便携式计算机中又阻碍了真正便携使用计算机。如果不将计算机放置在一个大体上平的工作表面,就不能够操作大多数便携式计算机并允许使用双手进行打字。当站立或移动时,用户不能方便地使用便携式计算机。在称为个人数字助理(PDA)或者掌中电脑的最新一代的小型便携式计算机中,制造商们已经试图将手写识别软件结合到该设备中来处理这个问题。用户可以直接在触敏平板或屏幕上书写来输入文本。然后由识别软件将这种手写文本转换成数字数据。遗憾的是,除了用印刷或者钢笔书写通常慢于打字之外,手写识别软件的准确性和速度远没有达到令人满意的程度。就汉语来说,由于其具有大量的复杂字符,这个问题变得尤其困难。使问题更糟糕的是,现在的需要文本输入的手持式信息处理设备变得更小了。在双向呼叫、移动电话和其它便携式无线技术中的新发展需要一种小型且便携的双向通讯系统,尤其是需要既可以发送和又可以接收电子邮件(“e-mail”)的系统。
拼音输入法是最普遍使用的基于拼音的汉字字符输入法中的一种,1958年中华人民共和国给汉语提出了声音形成音节的官方系统。它是对5000年传统的汉语书写系统的补充。在许多不同的方面都使用了拼音。例如:语言学习者使用拼音作为发音工具;在索引系统中使用拼音;以及使用拼音来将汉字字符输入到计算机中。拼音系统采用了标准的拉丁字母表,并将传统的汉语中的汉语音节分解为声母、韵母(收尾发音)和声调。
人们发现在大多数语言中汉语具有协调一致的语音。例如,  b、p、m、f、d、t、n、l、g、k、h和英语非常相近。其它的声母发音,例如卷舌音zh、ch、sh、和r,上腭音j、q和x以及齿音z、c、s与英语或者拉丁发音不同。表1列出了根据拼音系统所有的声母发音。
表1.首字母发音
    声母发音     发音示例     注释
    第I组:和英语中的发音相同
    M     Man
    N     No
    L     Letter
    F     From
    S     Sun
    W     Woman
    Y     Yes
    第II组:和英语发音稍微不同
    P     Pun   利用强烈的呼吸喘息
    K     Cola   利用强烈的呼吸喘息
    T     Tongue   利用强烈的呼吸喘息
    B     Bum   没有呼吸喘息
    D     Dung   没有呼吸喘息
    G     Good   没有呼吸喘息
    H     Hot   比英语稍强地送气
    第III组:和英语发音不同
    ZH     Jeweler
    CH   与ZH一样但具有强烈的呼吸喘息
    SH     Shoe
    R     Run
    C   像“it’s high”中的“ts”,但具有强烈的呼吸喘息
    J     Jeff
    Q 与“Cheese”中的“ch”相近
    X 与“Sheep”中的“sh”相近
韵母和声母相连形成一个对应于汉字字符(zi:字)的拼音音节。一个汉字短语(ci:词)通常由两个或多个汉字字符组成。表2列出了根据拼音系统所有的韵母发音,表3给出了一些说明声母和韵母组合的实例。
表2.韵母(收尾)发音
    韵母发音 发音示例
    a 像在father中
    an 如同“Anne”的发音
    ang 如同发音“an”再加上“g”
ai 像在“high”中
    ao 像在“how”中
    ar 像在“bar”中
    o 如同“aw”
    ou 如同“low”中的“ow”
    ong 如同“jungle”中的“ung”再加上轻微的“oo”发音
    e 如同“uh”的发音
    en 如同“under”中的“un”
    eng 如同“lung”中的“ung”
    ei 如同“eight”中的“ei”
    er 如同“herd”中的“er”
    i 如同“machine”中的“i”
    in 像在“bin”中
    ing 如同“sing”
    u 如同“loop”中的“oo”
    un 像在“fun”中
表3.将声母和韵母(收尾)放在一起
    拼音     发音示例
    NI     如同“knee”
    HAO     如同“how”和少许送气
    DONG     如同“doong”
    Qi     如同“Chee”
    Gong     如同“Gung”
    Tai     如同“Tie”
    Ji     如同“Gee”
    Quan     如同“Chwan”
每个拼音发音都具有汉语的五个声调中的一个(四个声调和一个“无声”声调)。声调对于单词的意思是重要的。具有这些声调的原因可能是汉语具有非常少的可能音节—大约400个—而英语具有大约1200个。由于这个原因,汉语可能具有比大多数其它语言更多的同音词,即具有相同发音但表示不同意思的词。显然地声调有助于使相对少数量的音节加倍,由此减轻了上述问题,但没有完全解决上述问题。在英语中没有声调相同的概念。在英语中,语句声调变化的不正确会导致语句难以理解。但是在汉语中,一个单词的声调变化不正确会完全改变它的意思。例如,因此“Da”可以表示几个字符,如在第一声调(da1)的搭表示“将某物搁置起来”,在第二声调(da2)的答表示“回答”,在第三声调(da3)的打表示“击打”,以及在第四声调(da4)的大表示“大的”。每个音节之后的数字表示声调。这些声调还可以使用诸如的标记dā dá dǎ dà表示。表4表示对音节“da”的五个声调的说明。
表4.五个声调
    声调 标记     说明
    1st     高并且平
    2nd     声调开始中等,然后上升到顶部
    3rd     开始很低,下降到底部,然后向顶部上升
    4th     从顶部开始,然后急剧猛烈地下降到底部
    中性的 da     平的,没有任何强调
为了使用拼音系统输入汉字字符,用户可以选择对应于字符的拼音拼写的英文字母。例如,在标准的QWERTY键盘上,当用户想使用拼音“ni”得到汉字字符时,他需要先按压“N键”,然后按压“I”键。按压“N键”和“I”键之后,显示出与拼音拼写“NI”相关联的一列汉字字符。然后,用户从列表中选择需要的字符。因此这种方法称为基本的拼音输入法。
在简化键盘系统中,如图1所示出的键盘,每个键都与多个拉丁字母表中的字母相关联,这些字母对应于如表1和2所示的每个拼音音节。这样就需要一种去多义性方法来确定正确的对应于输入键击序列的拼音拼写。
在International Society for Augmentative and Alternative Communication中发表的由John L.Arnott和Muhammad Y.Javad(下文称为Arnott)撰写的文章“ProbabilisticCharacter Disambiguation for Reduced Keyboards Using Small Text Samples”中总结了许多提出的方法,这些方法用于确定正确的对应于多义性键击序列的字符序列。Arnott注意到大多数去多义性方法使用了已知的相关语言中的字符序列统计表来解决在给定范围中的字符多义性。也就是说,现有的去多义性系统统计上地分析了多义性键击组合,这是由用户输入这些组合来确定键击的适当译码。Arnott还注意到有一些去多义性系统试图使用单词级去多义性从简化键盘解码文本。在收到表示单词收尾的无多义性字符之后,通过将收到的总的键击序列与字典中的可能匹配相比较,单词级去多义性对全部单词进行处理。Arnott指出了单词级去多义性的几个缺点。例如,由于在识别不寻常单词中的限制单词级去多义性常常不能正确地解码单词,并且不能解码在字典中没有包括的单词。由于这种解码限制,单词级去多义性不能以一个字符一次键击的效率给出没有错误的无约束的英语文本的解码。因此Arnott关注字符级去多义性而不是单词级去多义性,并且他还指出字符级去多义性看起来是最有前途的去多义性技术。
此外在名称为Principles of Computer Speech的教科书中公开了另一种提出的方法,这本书是I.EI.Witten创作的并在1982年由Academic Press发表(下文称为Witten)。Witten论述了一种用于减少使用电话触垫输入的文本的多义性的系统。Witten认识到当将键击序列与字典比较时,对于在24,500个单词的英语字典中大约92%的单词不会产生多义性。然而当产生多义性时,Witten注意到这些多义性必须由提供多义性给用户并要求用户在一列多义性输入中进行选择的系统进行交互式分析。因此用户必须在每个单词的结尾回答系统的预测。这种回答降低了系统的效率,并增加了需要的键击次数以输入给定的文本片段。
对多义性键击序列去多义性仍然是一个复杂的问题。正如在上面论述的出版物中所记录的,现有的使需要的键击次数最少化以输入文本片段的解决方案不能够达到可以在便携式计算机中使用所要求的效率。因此期望提出一种去多义性系统,它能在一个简单且容易理解的用户界面中解决输入键击的多义性,同时使需要的总键击次数最少化。
五笔输入法是另一种最常用的输入汉字字符的方法。五笔是基于形状的输入法,它根据的是字符的结构或形状而不是发音。五笔输入法的主要思想是通过组合字根来形成字符。五笔输入法将大约200个偏旁部首或者字根分配给五个部分,这五部分对应于在汉语书写系统中字符笔画的五种类型:横、竖、撇、点/捺和折弯。
换句话说,五笔输入法根据书写每个字符使用的第一个笔画的形状将一组字根和键盘划分为五种主要类型。这五种字根的每一个进一步划分为五个级别。将得到的25个字根分配给键盘上的25个键A-Y。
用户仅仅需要四次键击就可以输入任何在代码表中的字符,并且最高使用频率的600个字符仅仅需要一次或两次键击。用户必须了解哪个偏旁部首属于哪个键,但是一旦记住了这种排列,用户就能够迅速准确地打字。
由于拼音输入法和五笔输入法是广泛使用的输入汉字字符和短语的输入法,因此通常的市场需求是支持这两种输入法的系统。然而,由于基于拼音的输入法和基于笔画的输入法性质的不同,对于每个输入法都需要一组不同的数据。数据的尺寸通常非常大,并且有时常常难于支持超过一组输入法特有的数据。这对容量有限的设备例如简化键盘的系统尤其是真实的。
对汉语来说一种有效的简化键盘的输入系统必须满足下列所有标准。第一,对于一个说母语的人来说该输入法必须是容易理解并学会使用的。第二,该系统必须易于使需要的键击次数最少化来输入文本,从而提高简化键盘的系统的效率。第三,通过降低在输入过程的考虑和需要进行决定的次数,该系统必须降低对用户的认知负荷。第四,该方法应该使存储器和需要的处理资源最小化以得到一个实用系统。
此外,该系统应该在简化键盘的系统上支持基于拼音和基于笔画的这两种输入法。该系统应该共用拼音和笔画数据以使增加的数据大小最小化,使得系统仅需要增加很小的存储容量。
当基本拼音输入法与输入拉丁字母的无多义性方法例如转接(multitap)方法结合时,可以将其应用于简化键盘的输入系统中。然而,所有的无多义性方法都需要大量的键击,当与基本拼音输入法结合时这尤其是难于负担的。因此优选的是将基本拼音输入法与去多义性系统结合。提出的一种方法是仅对一个拼音音节去多义性,同时要求用户在拼音拼写之间选择一个例如键1或键0的分隔符键,该拼音拼写对应于在通常已知的汉字短语(词组,即具有超过一个字符的单词)中的多个汉字字符。分隔符键的选择指示处理器寻找与输入序列匹配的拼音音节,和与缺省选择的第一拼音音节相关联的汉字字符。如图1所示,用户正设法输入与拼音拼写NI和Y相关联的汉字字符。为此,用户应该首先选择‘6’键16,然后选择‘4’键14。为了指示处理器寻找与所输入的键匹配的音节,用户接着选择分隔符键10,最后是‘9’键19。因为这个过程需要在通常连接的多个汉字字符单词之间插入一个分隔符键,因此浪费了时间。
另一个值得注意的面对应用单词级去多义性的难题是如何连续地在各种硬件平台上实施它,在这些硬件平台上单词级去多义性的使用是最有利的,例如双向呼叫、移动电话和其它手持式无线通讯设备。这些系统是电池供电的,因此将其设计成在硬件设计和资源利用方面尽可能地节省。设计用来运行这种系统的应用程序必须使处理器的带宽利用和内存要求最小化。通常这两个因素是相对地关联。由于单词级去多义性系统需要大的单词数据库来工作,并且其必须迅速响应输入键击以提供令人满意的用户界面,所以能够将需要的数据库压缩而不显著地影响需要使用数据库的处理时间将是非常有利的。就汉语来说,必须在数据库中包括附加信息以支持将拼音音节的序列转换成用户期望的汉字短语。
另一个面对任何应用单词级去多义性的难题是如何提供关于输入键击的充分反馈给用户。对于普通的打字机或文字处理器,每次键击表示一个独特的字符,只要用户输入了该字符就能将其显示给用户。然而,对于单词级去多义性这通常是不可能的,因为每次键击都表示多个拼音拼写中的字母,并且键击的任何序列可能与多种拼写或部分平行相匹配。因此期望的是开发一种去多义性系统,其使输入键击的多义性最小化和效率最大化,利用该效率用户能够解决在文本输入构成中产生的任何多义性。一种增加用户效率的方式是在每次键击后提供适当的反馈,其包括显示每次键击后最有可能的单词拼写,并且当目前的键击序列不对应于整个单词时,显示最有可能的还不完整的单词的词干。
需要的是一种在简化键盘中使用基于拼音或基于笔画的输入法来输入汉语的新方法。
发明内容
根据本发明的系统消除了在简化键盘中输入的语音之间例如拼音之间输入一个分隔符键的需要。该系统根据输入的键序列寻找所有可能的单个或多个拼音拼写而不需要输入分隔符。一旦通过输入关联的拼音单词,用户完成了期望的汉字短语或一组汉字字符,用户可以选择期望显示的成对的汉字字符,或者滚动由于屏幕尺寸而存储在屏幕之外的汉字字符列表。
在一个优选实施例中,公开了一种系统,用于对用户输入的多义性输入序列去多义性并产生中文文本输出。该系统包括:(1)一个具有多个输入装置的用户输入设备,每个输入装置与多个语音字符相关联,每当由用户输入设备选择一个输入时产生一个输入序列,由于多个拉丁字母与输入相关联,因此产生的输入序列具有多义性文字解释;(2)一个包含多个输入序列和一组其拼写对应于输入序列的语音序列并与每个输入序列相关联的数据库;(3)一个包含多个语音序列和一组对应于语音序列的象形文字的字符序列并与每个语音序列相关联的数据库;(4)用于将输入序列与语音序列进行比较并寻找匹配的语音条目的装置;(5)用于使语音条目与象形文字数据库相匹配的装置;(6)一个输出装置,用于显示一个或多个匹配的语音条目和匹配的象形文字字符。
在另一个优选实施例中,公开了一种组合在用户输入设备中的象形文字的语言文本输入系统。该系统包括:(1)多个输入装置,多个输入装置中的每一个与多个字符相关联,每当操作用户输入设备选择一个输入时产生一个输入序列,其中产生的输入序列对应于已经选择的输入设备的序列;(2)至少一个用于产生对象输出的选择输入,其中当用户操作用户输入设备得到选择输入时终止输入序列;(3)一个包含多个对象的存储器,其中多个对象中的每一个与一个输入序列相关联;(4)一个描述系统输出给用户的显示器;以及(5)与用户输入设备、存储器和显示器连接的处理器。此外处理器还包括一个识别装置,用于从存储器中的多个对象识别与每个产生的输入序列相关联的任何对象,一个输出装置,用于在显示器上显示与每个产生的输入序列相关联的任何已识别对象的字符解释,以及一个选择装置,用于选择期望的字符,当检测到操作用户输入设备得到选择输入时将其输入到文本输入显示位置。
在本发明的另一个优选实施例中,公开了一种去多义性系统,用于对用户输入的多义性输入序列去多义性,并产生中文文本输出。该去多义性系统包括一个具有多个输入装置的用户输入设备、一个存储器、一个显示器和一个处理器。用户输入设备的输入装置中的每一个与多个拉丁字母相关联。每当由用户输入设备选择一个输入时产生一个输入序列,由于多个拉丁字母与输入相关联,因此产生的输入序列具有多义性文字解释。存储器包含使用的数据以构造与输入序列和基于语言模型的使用频率(FUBLM)相关联的多个语音,例如拼音、拼写。典型地FUBLM包括实际短语的使用频率以及基于语法或者甚至是语义模型的预测、多个拼音拼写中的每一个包括要输出给用户的对应于语音数据的拼音音节序列,并构造成存储在某一数据结构的存储器中的数据。在该优选实施例中,将数据存储在一个树形结构中,该树形结构包括多个节点和视需要地组合了在树形结构中找到的一个或多个短语的语法或语义的语言模型。每个节点与一个输入序列相关联。显示器将系统输出显示给用户。处理器与用户输入设备、存储器和显示器连接。处理器从存储器中与每个输入序列相关联的数据构造一个拼音拼写,并使用最高的FUBLM识别至少一个候选拼音拼写。然后处理器产生一个输出信号,使显示器显示已识别的候选拼音拼写,该候选拼音拼写与每个产生的作为产生的序列的文本解释的输入序列相关联。
在存储器树形结构中的拼音拼写对象与一个或多个汉字短语相关联,这些汉字短语是关联的拼音拼写对象的文本解释。每个汉字短语对象与FUBLM关联。
处理器还包括至少一个给选择的拼音拼写的已识别的候选汉字短语,并产生一个输出信号使显示器显示与选择的拼音拼写关联的已识别的候选汉字短语,该选择的拼音拼写与每个产生的作为产生的序列的文本解释的输入序列相关联。
在本发明的另一个优选实施例中,公开了一种方法,用于对用户输入的多义性输入序列去多义性,并产生中文文本输出。该用户输入设备包括:(1)多个输入装置,每个输入装置与多个语音字符相关联,每当由用户输入设备选择一个输入时产生一个输入序列,其中由于多个语音字符与输入相关联,因此产生的输入序列具有多义性文字解释;(2)一个包括多个输入序列和一组其拼写对应于输入序列的语音序列并与每个输入序列相关联的数据;以及(3)一个包含多个语音序列和一组对应于语音序列的象形文字的字符序列并与每个语音序列相关联的数据库。
本方法包括下列步骤:将一个输入序列输入给用户输入设备;比较输入序列和语音序列数据库,并寻找匹配的语音条目;视需要显示一个或者多个匹配的语音条目;将语音条目与象形文字数据库匹配;视需要显示一个或者多个匹配的象形文字字符。
此外在本发明的另一个优选实施例中,公开了一种方法,用于对用户使用包括多个输入装置的简化键盘产生的输入序列去多义性。该简化键盘与包括词汇模块树的存储器连接,该词汇模块树包括对应于输入装置的树节点。通过对应于至少一个有效拼音拼写的输入序列连接这些树节点。该去多义性方法包括以下步骤:清除节点路径以从树状词汇数据库中固定一个或多个节点对象;在其根节点处开始移动词汇节点树;建立由对应于输入序列的节点对象组成的节点路径;建立使用节点路径对应于输入序列的一列有效拼写;然后建立对应于当前选定拼写的汉字短语列表。
本发明具有很多的优点。第一,该方法对于一个说母语的人而言容易理解且学会使用,因为它是基于语音系统例如官方拼音的。用户可以根据用户偏好寻找基于如上所述的常见混淆组的变化。第二,该系统易于使需要输入文本的键击次数最少化。第三,通过减少在输入过程的考虑和需要进行决定的次数,以及通过提供适当的反馈,该系统给用户减小了认知负荷。第四,这里公开的方法易于使存储器和需要的处理资源最小化以得到一个实用系统。
本发明公开了一种在简化键盘中使用基于拼音或基于笔画的输入汉字字符的系统和方法。通过将通常的索引引入象形文字的字符,该系统允许在不同类型的输入法如基于拼音的输入法和基于笔画的输入法中共享该象形文字字符。系统将该输入序列与输入法特定的索引如语音或笔画索引相匹配。然后将这些输入法特定的索引转换成象形文字字符的索引,并使用该象形文字字符的索引检索象形文字字符。
在一个优选实施例中,公开了一组使用用户输入设备输入象形文字字符的方法。该用户输入设备包括:(1)多个输入装置,每个输入装置与多个笔画或语音字符相关联,每当使用用户输入设备选择一个输入时产生一个输入序列;(2)与每个输入序列相关联的数据包括多个输入序列和与每个输入序列相关联的包含多个输入序列的输入法特定数据库,以及一组其拼写对应于输入序列的语音序列或一组对应于输入序列的笔画序列;以及(3)包含一组象形文字序列的象形文字数据库,其中每个象形文字字符包含一个象形文字索引、多个对应于笔画序列的笔画索引和多个对应于语音序列的语音索引。
本方法包括下列步骤:将一个输入序列输入给用户输入设备;比较输入序列和输入法特定数据库,并寻找匹配的笔画条目或语音条目的索引和匹配的笔画条目或语音条目;将匹配的索引转换成笔画条目或语音条目得到匹配的象形文字索引;从象形文字数据库中利用匹配的象形文字索引检索匹配的象形文字字符序列;视需要显示一个或者多个匹配的象形文字字符序列。
在另一个优选实施例中,公开了一种系统,用于接收用户输入的输入序列,并产生中文文本输出。该系统包括:(1)一个具有多个输入装置的用户输入设备,每个输入装置与多个笔画或语音字符相关联,每当由用户输入设备选择一个输入时产生一个输入序列;(2)一个与每个输入序列相关联的输入法特定数据库,其包含多个输入序列和一组其拼写对应于输入序列的语音序列或一组对应于输入序列的笔画序列;(3)一个包含一组象形文字字符序列的数据库,其中每个象形文字字符包含一个象形文字索引、多个对应于笔画序列的笔画索引和多个对应于语音序列的语音索引;(4)一个装置,用于将输入序列与输入法特定数据库进行比较,并寻找匹配的笔画条目或语音条目的索引和匹配的笔画条目或语音条目;(5)一个装置,用于将匹配的索引转换成笔画条目或语音条目得到匹配的象形文字索引;(6)一个装置,用于从象形文字数据库中利用匹配的象形文字索引检索匹配的象形文字字符序列;以及(7)一个输出设备,用于显示一个或多个匹配的笔画或语音条目以及匹配的象形文字字符。
附图说明
图1是表示根据现有技术在拼音音节之间使用分隔符输入汉字字符的键盘布置的示意图;
图2是根据本发明移动电话的示例性实施例的示意图;该移动电话包括一个简化键盘的去多义性系统,或者更加具体地是一个语音输入方法;
图3是表示示例性显示器的示意图,在该显示器中在输入汉字短语时对拼音拼写使用了声调;
图4是表示图2的简化键盘的去多义性系统的方框图;
图5是表示汉语词汇模块的优选树形结构的示意图;
图6是表示软件处理的一个优选实施例的流程图,该软件处理用于从给定按键列表的词汇模块中检索拼音拼写;
图7是表示软件处理的一个实施例的流程图,该软件处理用于移动给定单个按键列表的词汇模块的树形结构;
图8是表示软件处理的一个实施例的流程图,该软件处理用于对以前建立的节点路径建立拼音拼写;
图9是表示软件处理的一个实施例的流程图,该软件处理用于对选择的拼音拼写建立汉字短语列表;
图10是表示软件处理的一个实施例的流程图,该软件处理用于将拼音拼写转换成其对应的汉字短语列表;
图11是表示根据本发明的一个优选实施例的系统的方框图,该系统用于对用户输入的多义性输入序列去多义性,并产生中文文本输出;
图12是表示根据本发明的一个优选实施例组合在用户输入设备中的象形文字的语言文本输入系统的方框图;
图13是表示根据本发明的一个优选实施例的方法的流程图,该方法用于对用户输入的多义性输入序列去多义性,并产生中文文本输出;
图14是表示根据本发明的一个优选实施例的系统的方框图,该系统用于支持基于语音和基于笔画的输入法并产生中文文本输出;
图15是表示使用图14中的系统产生中文文本输出的方法的流程图;以及
图16是表示根据本发明的一个优选实施例的系统产生中文文本输出的语音输入法的流程图。
具体实施方式
系统结构和基本操作
参考图2,根据本发明形成的简化键盘去多义性系统描述成和具有显示器53的便携式移动电话52相结合。该便携式移动电话52包含在标准电话按键上实现的简化键盘54。出于本申请的目的,术语“键盘”是广义定义的,包括任何输入设备,其中有具有定义各键的区域的触屏,离散机械键,薄膜键,等等。在键盘54中的各键上拉丁字母的布置对应于已经成为美国电话的de facto标准的布置。应该注意,键盘54具有的数据输入键的数目比标准QWERTY键盘的少,该标准键盘一个键分配有一个拉丁字母。更加具体地,在该实施例中示出的优选键盘包含从数字‘1’到‘0’  的10个数据键,排列成3×4阵列,还包含四个导向键,这四个导向键是向左的箭头61、向右的箭头62、向上的箭头63和向下的箭头64。
用户通过在简化键盘54上键击输入数据。在第一优选实施例中,当用户使用键盘输入键击序列时,就在电话显示器53上显示文本。在显示器上定义三个区域显示给用户的信息。文本区71显示用户输入的文本,并用作文本输入和编辑缓冲区。通常位于文本区71下方的语音如拼音拼写选择区72,显示与用户输入的键击序列相对应的拼音解释列表。通常位于拼音选择区72下方的短语例如汉字短语选择列表区73,显示对应于选定拼音拼写的单词列表。通过同时显示最高频率发生的输入键击序列的拼音解释和其它较低频率发生的在FUBLM的递减顺序中显示的另一种拼音解释,拼音选择列表区72有助于用户解决输入键击的多义性。通过同时显示最高频率发生的选定拼写的短语文本和其它较低频率发生的根据语言模型(FUBLM)在用户的递减顺序中显示的短语文本,汉字短语选择列表区73有助于用户解决选定输入键击的多义性。尽管这里的拼音描述为包括一个语音输入,应该理解的是语音输入可以包括拉丁字母;已知的作为注音的汉语拼音字母表;阿拉伯数字;和标点符号。
为了给用户提供可能的短语,系统依靠一个语言模型,能够将该语言模型限制到在按字母顺序排列的数据库中准确找到的单词,或者根据在象形文字、象形文字的偏旁部首中键击的总次数,或者上述二者的组合。能够将该语言模型扩展到根据某一通常使用的固定频率例如在正式场合或会谈、书面的或口语文本中来对语言对象排序。此外,能够将该语言模型扩展到N个字符列数据以对特定字符排序。甚至能够将该语言模型扩展到使用语法信息和在语法实体之间的变化频率以产生那些在数据库没有包括的短语。这样语言模型可以像使用的固定频率和短语的规定数量一样简单,或者包括使用的适应频率、适应单词或者甚至包括能够产生那些在数据库没有包括的短语的语法/语义模型。
图4示出了简化键盘的去多义性系统硬件的方框图。键盘54和显示器53通过适当的接口电路连接到处理器100。视需要地,还有一个扬声器102连接到处理器100。该处理器100接收来自键盘54的输入,并控制所有给显示器53和扬声器102的输出。该处理器100与存储器104连接。该存储器104包括临时存储介质,例如随机存取存储器(RAM)和永久存储介质,例如只读存储器(ROM)、软盘、硬盘、或CD-ROMs。存储器104含有所有管理系统操作的软件程序。优选地,存储器104包含后面详细说明的操作系统106、去多义性软件108以及各个相关的词汇模块110。视需要,存储器104可以包含一个或多个应用程序112、114。应用程序的实例包括文字处理器、软件词典以及外语翻译程序。还可以提供语音合成软件作为一种应用程序,以允许本简化键盘的去多义性系统充当交流工具。
回到图2,简化键盘的去多义性系统允许用户只使用一只手快速输入文本或其它数据。用户使用简化键盘54输入数据。数据键2至9中的每一个都具有多种再键的顶面用多个拉丁字母、数字和其它符号表示的含义。由于每个键具有多种含义,键击序列在其含义上是多义性的。当用户输入数据时,在显示器53上的多个区域显示各种键击解释从而帮助用户解决任何多义性。在大屏幕设备上,在选择表区向用户显示输入键击的可能解释的拼音选择表和选定拼音拼写的汉字短语选择表。拼音选择表中的第一个条目被选为缺省解释并且以任何方式突出以从选择列表中的其它拼音条目中显示出来。在优选实施例中,在反向彩色图象如在以具有黑色背景的白色字体中显示选择拼音条目。
可以按几种方式对输入键击的可能解释的拼音选择表排序。在常规操作方式下,最初把各键击解释为拼音拼写,该拼音拼写由整个对应于期望汉字短语(下文为整个拼音解释)的拼音音节组成。当输入键时,同时进行词汇模块查询以确定对应于输入键序列的有效拼音拼写的位置。根据FUBLM从词汇模块返回拼音拼写,并将最常用的拼音拼写列在第一和选择成缺省。还根据FUBLM从词汇模块返回匹配选定拼音拼写的汉字短语。通常用户能够在汉字短语选择表中找到他想要输入的汉字短语,然后选择该汉字短语并将该汉字短语输入到文本输入区71中。如果缺省选择的拼音拼写是用户想要输入的,但是没有显示他想要输入的汉字短语,他可以使用向上的箭头63和向下的箭头64来显示来自词汇数据库扩展组的其它匹配的汉字短语。在一些情况下,拼音选择表区72不能够支持所有匹配的拼音拼写,因此可以使用向左的箭头61和向右的箭头62滚动先前屏幕之外的拼音拼写到拼音选择表区72中。例如,如果缺省选择的拼音拼写不是用户想要输入的,他可以使用向左的箭头61和向右的箭头62选择其它匹配的拼音拼写。
在大部分的文本输入中,用户想要用键击序列将整个拼音音节拼出。然而可以理解,每个键关联着多个字符,使得各个键击和键击序列具有数种解释。在优选的简化键盘的去多义性系统中,作为拼音拼写的列表和对应于选定拼音拼写的汉字短语列表,自动地确定各种不同的解释并对用户显示。
例如,根据对应于用户输入的可能汉字短语的部分拼音拼写接收键击序列(下文称为部分拼音解释)。不像完整拼音解释,部分拼音解释允许最后的拼音音节是不完整的。如果汉字短语的拼音对在最后一个字符之前的字符与在最后部分拼音音节之前的所有音节相匹配而最后字符的拼音音节从部分完整的音节开始,就从词汇数据库返回一个汉字短语。通过返回匹配拼音拼写的汉字短语,该拼音拼写扩充了最初部分的汉语拼音并得到最后拼音音节的可能整体,该部分拼音解释使用户能够容易地确认已经输入的正确键击,或者当其注意力转向短语中间时继续输入。因此提供部分拼音解释作为拼音拼写列表中的条目。优选地,根据组成FUBLM的那组所有可能的汉字短语对部分拼音解释进行分类,其中可能的汉字短语能够匹配扩充了最初部分的汉语拼音并得到最后拼音音节的可能整体的拼音拼写。通过确认已经输入的正确键击,部分拼音解释提供反馈给用户,从而输入期望的单词。
为了减少可能显示的匹配的数目,用户还可以在一个完整的拼音音节之后输入一个音节分隔符。在优选实施例中,使用‘0’键作为音节分隔符。如果输入了音节分隔符,返回只有其音节结尾与音节分隔符的位置相匹配的拼音拼写,并在拼音选择表区72显示。
在另一个优选实施例中,用户还可以在每个完整拼音音节之后输入一个声调。在每个完整拼音音节之后,用户按下声调键,随后是一个对应于音节的声调的数字。在该优选实施例中,使用‘1’键作为声调键。如果输入了声调,返回只具有匹配声调的汉字短语转换的拼音拼写,并在拼音选择列表区72显示。显示的拼音拼写还包括已经输入的声调。如图3所示,在拼音拼写列表区72显示了拼音拼写“Bei3Jing1”。如果已经选择了具有声调的拼音拼写,返回只有即匹配拼音拼写又匹配对应的声调的汉字短语并将其显示。这种过虑可以应用于在完整拼音拼写或部分拼音拼写之后的声调。
部分拼音整体超前直到完成最有的音节。在路径的第二部分最多有5个节点,因为最长的音节是“Chuang”或“Shuang”或“Zhuang”。只有在这三种情况,处理超前5个节点。
例如,如果键输入是“2345”,有效拼写中的一个是“BeiJ”。第一个完整音节是“Bei”。第二个是一个不完整的音节“J”。这样,对于这种情况路径的第一部分将建立拼写“BeiJ”。处理将在词汇模块树中超前以完成最后音节。使用路径的第二部分建立“ing”。如果单词“BeiJingShi”也在词汇模块树中,处理将不会对键输入“2345”寻找该单词的位置,因为它还需要超前两个音节。
如果输入了任何一个声调,处理将过虑字符,因为当完成二级指令时检索字符声调及其统一码。如果一个字符具有多个发音,首先检索到的是最常用的那个。
利用FUBLM对每个拼写的转换(字符和单词)按优先次序排列。在拼写-字符/单词转换过程中,首先检索使用频率最高的字符或单词。将由刚好匹配的拼写转换得到的单词排列在由部分匹配的拼写转换得到的单词的前面。按照键顺序和在键上各字母的频率顺序对由不同的部分匹配的拼写转换得到的单词进行分类。例如假定有效拼写是“Sha”,因为当前面的字母是‘a’时,‘n’排在‘o’的前面,因此首先返回的由“Sha”转换成的字符依次是转换得到的“Shai”、“Shan”、“Shang”和“Shao”。
除了拼音系统之外上述优选实施例可以应用于任何其它语音系统,例如使用汉语拼音字母的注音系统。
图11是表示根据本发明的一个优选实施例的系统的方框图,该系统用于对用户输入的多义性输入序列去多义性,并产生中文文本输出。该系统包括下列各项:
●一个具有多个输入装置的用户输入设备1110,每个输入装置与多个语音字符相关联,每当由用户输入设备选择一个输入时产生一个输入序列,由于多个语音字符与输入相关联,因此产生的输入序列具有多义性文字解释;
●一个数据库1120,其包含多个输入序列和一组其拼写对应于输入序列的语音序列,并与每个输入序列相关联;
●一个数据库1130,其包含多个语音序列和一组对应于语音序列的象形文字的字符序列,并与每个语音序列相关联;
●一个装置1140,用于将输入序列与语音序列进行比较并寻找匹配的语音条目;
●一个装置1150,使语音条目与象形文字的数据库相匹配;
●一个输出设备1160,用于显示一个或多个匹配的语音条目和匹配的象形文字字符。
为了产生文本输出,用户首先使用输入设备1110的输入装置产生一个输入序列。该系统使用比较和匹配装置1140从数据库1120中寻找一个或多个语音序列。缺省选择匹配的语音序列中的一个例如具有最高FUBLM值的那个,或者用户可以从匹配列表中选择其它的语音序列。然后系统使用匹配装置1150寻找匹配选择的语音序列的象形文字字符。在输出设备1160上即显示匹配的语音序列又显示匹配的象形文字字符。缺省选择匹配的象形文字字符中的一个例如具有最高FUBLM值的那个。用户可以接受缺省值或者选择另一个匹配的象形文字序列或语音序列。
图12是表示根据本发明的一个优选实施例组合在用户输入设备中的象形文字的语言文本输入系统的方框图。该系统包括下列各项:
●多个输入装置1210,多个输入装置中的每一个与多个字符相关联,每当操作用户输入设备1205选择一个输入时产生一个输入序列,其中产生的输入序列对应于已经选择的输入设备的序列;
●至少一个用于产生对象输出的选择输入1220,其中当用户操作用户输入设备得到选择输入时终止输入序列;
●一个包含多个对象的存储器1230,其中多个对象中的每一个与一个输入序列相关联;
●一个描述系统输出给用户的显示器1240;以及
●与用户输入设备、存储器和显示器连接的处理器1250。
处理器1250还包括:识别装置1252,用于从存储器中的多个对象识别与每个产生的输入序列相关联的任何对象;输出装置1254,用于在显示器上显示与每个产生的输入序列相关联的任何已识别对象的字符解释;以及选择装置1256,用于选择期望的字符,当检测到操作用户输入设备得到选择输入时将其输入到文本输入显示位置。
只要用户控制用户输入设备1205,并选择输入装置1210,就产生一个输入序列。处理器1250使用识别装置1252使存储器1230中的一个或多个语言对象与产生的输入序列匹配。通过处理器1250控制输出装置1254将匹配对象的字符解释输出给显示器1240。然后用户使用选择输入1220选择一个字符解释,处理器1250调用选择装置1256将选择的字符输出到文本输入显示位置。
去多义性语音输入法
将用来对输入序列去多义性的单词和短语数据库存储在使用一个或多个树状数据结构的词汇模块中。对应于特定键击序列的单词由存储在树形结构中的数据以指令的形式构造,该指令改变了直接与前面键击序列相关联的那组单词和词干。这样,当在序列中处理每一个新的键击时,就使用这组与键击关联的指令产生一组新的拼音拼写和与具有添加于其中的新键击的键击序列相关联的汉字短语。通过这种方式,拼音拼写和汉字短语不用明确地存储在数据库中。相反,根据使用的键击序列形成拼音拼写和汉字短语并进行存取。
就汉语来说,树形数据结构包括一级指令和二级指令。该一级指令可产生在词汇模块中存储的拼音拼写,词汇模块由对应于汉字短语的拼音拼写的拉丁字母表的序列组成。一级指令包括多个指示器,用于规定当产生拼音拼写时哪里是音节的边界以及音节是否具有任何变换。通过一级指令产生每个拼音拼写,其中一级指令改变了直接与前面键击序列相关联的拼音拼写中的一个。
当音节具有变换时,其具有产生与拼音音节相关联的汉字字符的二级指令列表。该二级指令还可以包括每个汉字字符的声调。对于具有多个音节的拼音拼写,每个二级指令具有一个连接返回到前面的二级指令的指针。因此,能够从最后一个字符向使用第一个字符建立具有多个音节的汉字短语。
图5中描述了在单词对象词汇模块1010中树形结构的典型图表。根据对应的键击序列使用树形数据结构来组织在词汇模块中的对象。如图5所示,词汇模块树中的每个节点N001、N002和N008表示一个特定的键击序列。在树形结构中的这些节点通过路径P001、P002和P008连接。由于在去多义性系统的优选实施例中存在多义性数据键,因此词汇模块树中的每个父节点可以与八个子节点连接。由路径连接的这些节点表示有效的键击序列,而无路径连接的节点表示无效的键击序列。一个无效的键击序列既不对应于任何匹配已存储的汉字短语的拼音拼写,也不匹配任何能够扩充为匹配已存储的汉字短语的完整拼音拼写的部分拼音。应该注意,在无效输入键击序列的情况下,优选实施例的系统将使用嘟嘟声提醒用户。
根据接收的键击序列移动词汇模块树。例如,从根节点1011键击第二数据键使得与第一键关联的数据从根节点1011取出并进行评价,然后经过路径P1002移动N002。键击第二数据键一秒钟使得与第二键关联的数据从节点N002取出并进行评价,然后经过路径P102移动N102。每个节点与多个对应于键击序列的对象相关联。当接收每个键击时,处理对应的节点,产生的节点路径属于对应于键击序列的节点对象。只要选择了一个拼音拼写,就通过去多义性系统的主程序使用来自每个词汇模块的节点路径产生拼音拼写列表和汉字短语。
图6是表示处理600的流程图,该处理用于分析接收的键击序列以识别在特定汉字词汇模块树中对应的对象。处理600对一个特定的键击序列建立拼音拼写列表。开始时,步骤602清除一个新的节点路径。步骤604开始在树形结构的根节点1011移动图5中的树形结构。步骤606得到第一个键入。步骤608至612形成一个回路以处理所有可得到的键入。步骤608调用图7中的子处理620来建立一个节点路径。判定步骤610确定是否已经处理过所有可得到的键入。如果还有任何一个对象没有处理,步骤612前进到下一个可得到的键入。如果已经处理过所有的键入,步骤614调用子处理700并使用已经建立的新节点路径形成拼音拼写列表。
图7是表示根据图6从处理中调用的子处理620的流程图。该子处理620试图利用一个节点扩充新节点路径。首先,在判定步骤620,进行测试以确定键入是否有效,即是否存在连接对应于词汇模块树中的键击的节点的路径。如果键入是无效的,典型地系统会提醒用户他已经输入了一个无效键击,但是系统还可以根据附加的语言模型提供可能的建议给用户。如果在步骤622确定接收的键击是有效的,子处理继续到步骤626中检索对应于当前键击的树节点。步骤628附加在检索过的树节点上得到形的节点路径。步骤630结束子处理620。
只要对给定键输入将词汇模块树中的节点定位,去多义性模块就扫描并解码节点中的指令列表以形成有效的拼音拼写。图8是表示根据图6从处理中调用的子处理700的流程图。在已经成功地处理了所有键击之后,该子处理700试图建立来自根据图7的子处理620建立的新节点路径的拼音拼写列表。步骤704至710形成一个回路以添加所有匹配新节点路径的拼音拼写。步骤704使用在节点路径的每个节点中的当前对象的一级指令,以形成拼音拼写。步骤706将拼音拼写添加到新的拼音拼写列表中。判定步骤708确定是否已经处理过节点路径的所有节点中的所有对象。如果还有任何一个对象没有处理,步骤710前进到下一组对象索引。如果已经处理过所有节点的对象,步骤712结束子处理700并返回新的拼音拼写列表。
因为一级指令包括多个拼音音节边界的指示器,所以可以自动地将由输入序列建立的拼音拼写分析成单个音节而不需要在拼音音节之间插入输入分隔符。返回给用户的拼音拼写具有多个指示器以识别包含在拼音拼写中的单个拼音音节。在一个优选实施例中,返回的或期望的拼写的格式是:(1)每个音节从大写字母开始;(2)如果给一个音节输入了声调,该音节后跟随有一个阿拉伯数字(1-5)。
例如,如果没有输入声调,返回的由两个音节“bei”和“jing”组成的拼音拼写是“BeiJing”。如果仅给“bei”输入了声调,则返回“Bei3Jing”。如果给这两个音节都输入了声调,则返回“Bei3Jing1”。
根据图6从处理600返回的拼音拼写列表显示在如图2和3所示的拼音拼写列表区72中。利用词汇模块树中的FUBLM对有效的拼写进行分类。首先检索到的是具有最高等级FUBLM的第一位拼写。同时它也是缺省的拼音拼写选择。
只要或者缺省或者由用户使用导向键向左的箭头61和向右的箭头62选择了拼音拼写,就形成对应的汉字短语并返回。
图9是表示子处理720的流程图,该子处理用于建立对应于特定汉语词汇模块树中的拼音拼写的汉字短语。该子处理720给由节点路径建立的拼音拼写构造一个汉字短语列表。步骤722清除汉字短语列表。判定步骤724检测选择的拼音拼写的最后一个音节是否是不完整的。如果选择的拼音拼写的音节是完整的,步骤726调用图10示出的转换子处理740,以将当前的拼音拼写转换成汉字短语并将汉字短语添加到汉字短语列表。步骤734返回该汉字短语列表。
现在新的节点路径还存储在存储器中,从该节点路径已经建立了选择的拼音拼写。根据键序列产生该节点路径部分。在该路径部分中的节点匹配键序列。仅从该路径部分建立有效的拼写。刚好匹配的单词还可以仅从该路径部分构造。
如果选择的拼音拼写的最后一个音节是不完整的,步骤728至732形成一个回路以处理所有可能的最后音节的完成。步骤728在词汇模块树中寻找下一个具有匹配的汉字短语的拼音整体。利用第二路径部分扩充形的节点路径以超前,并寻找部分匹配的单词以支持部分拼音整体。如果最后一个音节是不完整的(即该音节不是一个完整音节),去多义性模块寻找词汇模块树以找到其拼写部分匹配键序列的单词,然后将其提供给汉字短语列表中在完全匹配的单词之后。部分拼音整体超前直到完成最后一个音节。在路径的第二部分最多有5个节点,因为最长的音节是“Chuang”或“Shuang”或“Zhuang”。只有在这三种情况,处理超前5个节点。
例如,如果键输入是“2345”,有效拼写中的一个是“BeiJ”。第一个完整音节是“Bei”。第二个是一个不完整的音节“J”。这样,对于这种情况路径的第一部分将建立拼写“BeiJ”。处理将在词汇模块树中超前以完成最后音节。然后,它找到了具有部分拼写匹配“BeiJ”的单词(BeiJing)。使用路径的第二部分建立“ing”。如果单词“BeiJingShi”也在词汇模块树中,处理将不会对键输入“2345”寻找该单词的位置,因为它还需要超前两个音节。
判定步骤730确定是否找到下一个拼音拼写。如果找到了下一个拼音拼写整体,步骤732调用图10中的子处理740以将当前的拼音拼写整体转换成汉字短语,并将汉字短语添加到汉字短语列表。如果没有找到更多的拼音拼写整体,步骤734返回汉字短语列表。
图10表示根据图7从处理620中调用的子处理740。该子处理740试图为来自由子处理620建立的新节点路径的给定拼音拼写建立汉字短语列表,可以利用第二部分将其扩充以完成最后的音节。步骤742至748形成一个回路以添加所有匹配新节点路径并具有可选择的扩充部分的汉字短语。步骤742使用在节点路径的每个节点中的当前对象的二级指令,以形成汉字短语。步骤744将汉字短语添加到汉字短语列表中。判定步骤746确定是否已经处理过节点路径的所有节点中的所有对象。如果还有任何一个对象没有处理,步骤748前进到下一组对象索引。如果已经处理过所有节点中的所有对象,步骤750结束子处理700并返回汉字短语列表。
如果输入了任何一个声调,处理将过虑字符,因为当完成二级指令时将检索字符声调及其统一码。如果一个字符具有多个发音,首先检索到的是最常用的那个。
利用FUBLM对每个拼写的转换(字符和单词)按优先次序排列。在拼写-字符/单词转换过程中,首先检索使用频率最高的字符或单词。将由刚好匹配的拼写转换得到的单词排列在由部分匹配的拼写转换得到的单词的前面。按照键顺序(即,键2、3、4、5)和在键上各字母的频率顺序对由不同的部分匹配的拼写转换得到的单词进行分类。
例如,假定有效拼写是“Sha”,因为当前面的字母是‘a’时,‘n’排在‘o’的前面,因此首先返回的由“Sha”转换成的字符依次是转换得到的“Shai”、“Shan”、“Shang”和“Shao”。
除了拼音系统之外上述的去多义性方法可以应用于任何其它语音系统,例如使用汉语拼音字母的注音系统。
图13是表示根据本发明的一个优选实施例的方法的流程图,该方法用于对用户输入的多义性输入序列去多义性,并产生中文文本输出。该方法包括以下步骤:
步骤1310:将一个输入序列输入给用户输入设备;
步骤1320:比较输入序列和语音序列数据库,并寻找匹配的语音条目;
步骤1330:视需要显示一个或者多个匹配的语音条目;
步骤1340:将语音条目与象形文字数据库匹配;以及
步骤1350:视需要显示一个或者多个匹配的象形文字字符。
在另一个优选实施例中,去多义性拼音系统允许典型地由于地区口音而导致的拼写变化。对于各种音节地区口音会导致发音上的变化。这就会产生混淆例如“zh-”和“z-”、“-n”和“-ng”。为了适应这些变化,可以考虑对于某些拼写的变化。这些变化或者对于特定拼音可以显示为部分的选择列表,例如如果用户键入“zan”选择列表可以包括“zhan”和“zhang”作为可能的变化,或者当不能够找到特定字符时用户可以选择“显示变量”选项,其可提供给用户可能的拼写变化。此外用户可以关闭和打开特定的“混淆组”例如“z<->zh”、“an<->ang”等等。
表5.常见混淆组的实例
A Ia
    E     IE
    O     Ou,Uo
    An     Ang,ian,iang
    En     Eng
    In     Ing
    Ong     Iong
    Uan     Uang
    On     Ong,iong
    Ao     Iao
    Z     Zh
    C     Ch
    S     Sh
    L     N
在另一个优选实施例中,去多义性系统包括一个用户单词字典。由于短语字典受可利用的存储器限制,因此用户单词字典是必不可少的,从而用户能够手动添加可通过输入法进行存取的拼音/字符组合。
在另一个优选实施例中,去多义性系统包括适应于新近使用的来更新FUBLM。根据特定语言模型(例如在主体(corpus)中的使用频率)对原始的短语进行排序,该语言模型可能与用户的期望值不匹配。通过追踪用户模式,从而系统将学会并更新语言模型。
在另一个优选实施例中,系统可以根据目前输入的单词音节和语言模型提供单词预测给用户。可以使用该语言模型确定其中应该提供给用户的预测的顺序。实际上语言模型能够提供单词预测给用户甚至在用户输入任何字符之前。这种语言模型是根据使用简单字符的普通频率,或者是根据两个或多个字符组合(N个字符列)的使用频率,或者是根据语法模型或甚至是语义模型。在另一个实施例中,可以根据以下各项:在象形文字中总键击的数目;象形文字的偏旁部首;偏旁部首和偏旁部首的笔画的数目;按字母顺序排序的;在正式场合、会话书面、或口语会话文本中象形文字序列或语音序列的出现频率;当遵循前面的字符或字符串时象形文字序列或语音序列的出现频率;严格意义上的或普通的文境的语法;当前输入序列条目的应用范围;以及由用户或者在应用程序中语音序列或象形文字序列的最新使用或重复使用。
尽管优选的输入法需要用户输入单词的完整拼音,但是用户可以选择仅输入每个音节的首字符。这样不用输入BeiJing,用户输入BJ,就提供匹配该首字母缩写词的短语。此外用户可以定义他们自己的首字母缩写词,并将其添加到用户单词字典。
除了组合了拼音和短语的单个树形结构,还可以想象另一种设备,其中由两个分离的树形结构,一个树形结构绘制了键入地图以使单音节拼音有效,另一个树形结构包含拼音单词和它们的象形文字表示。第二个树形结构很容易进行编辑,从而可在树形结构中进行插入和删除,允许对其中提供了短语和转换的顺序‘临时(on the fly)’再排序。此外,它允许用户将短语添加到现有的树形结构或者是一个平行的包含上述用户单词字典的树形结构。
除了字符的多义性输入,该系统还可以为用户提供一种无多义性的方法以明确地选择字符。
在输入过程中,对于每个多音节单词用户可以输入部分音节。优选地,每个音节的部分键击的数目是一个,例如是每个音节的首次键击。
该系统还可以在用户识别声母之后显示有效韵母。例如如果用户想要输入拼音音节“hang”,用户首先识别出声母“zh”,然后系统提供有效的韵母给声母,为此用户可以选择“ang”。
在输入过程中,用户还可以选择与特定通配符相关联的多个输入装置中的一个。该特定通配符可以匹配零或语音字符中的一个。
该系统还可以显示包括匹配英语或其它字母语言的条目的语音序列,并允许同时以另一种语言例如英语解释作为音节和单词的键入。
正如上面详细说明所示出的,已经提供了一种系统来为汉语产生有效的简化键盘输入系统。第一,该方法对于一个说母语的人而言容易理解且学会使用,因为它是基于官方拼音系统的。第二,该系统易于使需要输入文本的键击次数最少化。第三,通过减少在输入过程的考虑和需要进行决定的次数,以及通过提供适当的反馈,该系统给用户减小了认知负荷。第四,这里公开的方法易于使存储器和需要的处理资源最小化以得到一个实用系统。
先参考图14,其表示根据本发明的一个优选实施例的系统,该系统用于支持基于语音和基于笔画的输入法,以及接受用户输入的输入序列并产生中文文本输出。该系统包括以下各项:
●一个具有多个输入装置的用户输入设备1410,其中每当由用户输入设备选择一个输入时产生一个输入序列;
●一个数据库1420,其包含多个输入序列和一组其拼写对应于输入序列的语音序列,并与每个输入序列相关联;
应该注意在笔画输入系统中笔画索引通常是按照笔画序列进行分类的笔画索引。该笔画输入系统可以是五笔或八笔系统。在语音输入系统中语音索引通常是按照实际的拼写进行分类的语音字符的索引。该语音输入系统可以是拼音系统或注音系统。或者,在语音输入系统中语音索引可以是输入装置的索引。
●一个数据库1430,其包含一组象形文字字符序列,其中每个象形文字字符包含一个象形文字索引、多个对应于笔画序列的笔画索引和多个对应于语音序列的语音索引;
应该注意通过将索引引入象形文字的字符,该系统允许在不同类型的输入法如基于拼音的输入法和基于笔画的输入法中共享该象形文字字符。数据库530还包含在象形文字字符索引和笔画索引之间、在象形文字字符索引和语言索引之间、以及从象形文字字符索引到象形文字字符所需要的转换信息。这些象形文字字符可以是GB码的统一码。
●一个装置540,用于将输入序列与输入法特定数据库进行比较,并寻找匹配笔画条目或语音条目的索引和匹配的笔画条目或语音条目;
●一个装置550,用于将匹配的索引转换成笔画条目或语音条目得到匹配象形文字索引;
●一个装置560,用于从象形文字数据库中利用匹配的象形文字索引检索匹配的象形文字字符序列;以及
●一个输出设备1470,用于显示一个或多个匹配的语音条目和匹配的象形文字字符。
图15表示根据本发明一个优选实施例使用图14中的系统产生中文文本输出的方法。该方法包括以下步骤:
步骤1510:将一个输入序列输入给用户输入设备1410;
在该步骤中,用户首先使用输入设备1410的输入装置产生一个输入序列。
步骤1520:比较输入序列和输入法特定数据库1420,并寻找匹配笔画条目或语音条目的索引和匹配的笔画条目或语音条目;
在该步骤中,根据选择的输入法,系统使用比较和匹配装置1440从数据库1420中寻找一个或多个语音条目索引,或者一个或多个笔画条目索引。
步骤1530:将匹配的笔画条目索引或语音条目索引转换成匹配的象形文字索引;
在该步骤中,系统使用转换装置1450将匹配的语音条目或笔画条目转换成匹配的象形文字索引。
步骤1540:从象形文字数据库中利用匹配的象形文字索引检索匹配的象形文字字符序列;
在该步骤中,使匹配象形文字字符的索引经过检索装置1460以检索匹配的象形文字字符。
步骤1550:视需要显示一个或者多个匹配的象形文字字符序列。
在该步骤中,象形文字字符可以在在输出设备1470上显示。缺省选择的是匹配的象形文字字符中的一个,例如具有最高FUBLM值的那个。用户可以接受缺省值或者选择另一个匹配的象形文字序列。
图16是表示根据本发明的一个优选实施例的系统产生中文文本输出的语音输入法的流程图。
步骤1610:将一个输入序列输入给用户输入设备;
步骤1620:比较输入序列和语音序列数据库,并寻找匹配的语音条目和它们的索引;
步骤1630:视需要显示一个或多个匹配的语音条目;
步骤1640:将“语音条目索引”转换成“象形文字字符索引”,并使用象形文字字符索引从象形文字数据库中检索匹配的象形文字字符;
步骤1650:视需要显示一个或者多个匹配的象形文字字符序列。
在另一个优选实施例中,去多义性拼音系统允许典型地由于地区口音而导致的拼写变化。对于各种音节地区口音会导致发音上的变化。这就会产生混淆例如“zh-”和“z-”、“-n”和“-ng”。为了适应这些变化,可以考虑对某些拼写进行变化。这些变化或者对于特定拼音可以显示为部分的选择列表,例如如果用户键入“zan”,选择列表可以包括“zhan”和“zhang”作为可能的变化,或者当不能够找到特定字符时用户可以选择“显示变量”选项,其可提供给用户可能的拼写变化。此外用户可以关闭和打开特定的“混淆组”例如“z<->zh”、“an<->ang”等等。
表5.常见混淆组的实例
    A     Ia
    E     IE
    O     Ou,Uo
    An     Ang,ian,iang
    En     Eng
    In     Ing
    Ong     Iong
    Uan     Uang
    On     Ong,iong
    Ao     Iao
    Z     Zh
    C     Ch
    S     Sh
    L     N
在另一个优选实施例中,去多义性系统包括一个用户单词字典。由于短语字典受可利用的存储器限制,因此用户单词字典是必不可少的,从而用户能够手动添加可通过输入法进行存取的拼音/字符组合。
在另一个优选实施例中,去多义性系统包括适应于新近使用的来更新FUBLM。根据特定语言模型(例如在主体中的使用频率)对原始的短语进行排序,该语言模型可能与用户的期望值不匹配。通过追踪用户模式,从而系统将学会并更新语言模型。
在另一个优选实施例中,系统可以根据目前输入的单词音节和语言模型提供单词预测给用户。可以使用该语言模型确定其中应该提供给用户的预测的序列。实际上语言模型能够提供单词预测给用户甚至在用户输入任何字符之前。这种语言模型是根据使用简单字符的普通频率,或者是根据两个或多个字符组合(N个字符列)的使用频率,或者是根据语法模型或甚至是语义模型。在另一个实施例中,可以根据以下各项:在象形文字中总键击的数目;象形文字的偏旁部首;偏旁部首和偏旁部首的笔画的数目;按字母顺序排序的;在正式场合、会话书面、或口语会话文本中象形文字序列或语音序列的出现频率;当遵循前面的字符或字符串时象形文字序列或语音序列的出现频率;严格意义上的或普通的文境的语法;当前输入序列条目条目的应用范围;以及由用户或者在应用程序中语音序列或象形文字序列的最新使用或重复使用。
尽管优选的输入法需要用户输入单词的完整拼音,但是用户可以选择仅输入每个音节的首字符。这样不用输入BeiJing,用户输入BJ,就提供匹配该首字母缩写词的短语。此外用户可以定义他们自己的首字母缩写词,并将其添加到用户单词字典。
除了字符的多义性输入,该系统还可以为用户提供一种无多义性的方法以明确地选择字符。
在输入过程中,用户可以给每个多音节音节单词输入部分音节。优选地,每个音节的部分键击的数目是一个,例如是每个音节的首次键击。
该系统还可以在用户识别声母之后显示有效韵母。例如如果用户想要输入拼音音节“hang”,用户首先识别出声母“zh”,然后系统提供有效的韵母给声母,为此用户可以选择“ang”。
在输入过程中,用户还可以选择与特定通配符相关联的多个输入装置中的一个。该特定通配符可以匹配零或语音字符中的一个。
该系统还可以显示包括匹配英语或其它字母语言的条目的语音序列,并允许同时以另一种语言例如英语解释作为音节和单词的键入。
正如上面详细说明所示出的,已经提供了一种系统来为汉语产生有效的简化键盘输入系统。第一,该方法对于一个说母语的人而言容易理解且学会使用,因为它是基于官方拼音系统的。第二,该系统易于使需要输入文本的键击次数最少化。第三,通过减少在输入过程的考虑和需要进行决定的次数,以及通过提供适当的反馈,该系统给用户减小了认知负荷。第四,这里公开的方法易于使存储器和需要的处理资源最小化以得到一个实用系统。
本领域技术人员还将认识到在不明显脱离本发明根本原理的条件下,可以对键盘布置的设计和基础数据库的设计进行局部修改。
因此,本发明应该仅受下面包括的权利要求书的限制。

Claims (188)

1.一种方法,用于对用户输入的多义性输入序列进行多义性消除并产生中文文本输出,所述方法包括以下步骤:
将一个输入序列输入给用户输入设备;
其中所述用户输入设备包括多个输入装置,每个输入装置与多个语音字符相关联,每当由所述用户输入设备选择一个输入时产生一个输入序列,由于多个语音字符与所述输入相关联,因此所述产生的输入序列具有多义性文字解释,由多个输入序列和一组其拼写对应于输入序列的语音序列组成并与每个输入序列相关联的数据,以及一个包含多个语音序列和一组对应于语音序列的象形文字字符序列并与每个语音序列相关联的数据库;
比较输入序列和所述语音序列数据库,并寻找匹配的语音条目;
视需要显示一个或者多个匹配的语音条目;
将所述语音条目与所述象形文字数据库匹配;以及
视需要显示一个或者多个匹配的象形文字字符。
2.如权利要求1的方法,其还包括以下步骤:
根据语言模型按优先次序排列匹配输入序列的语音序列,和按优先次序排列匹配语音序列的象形文字序列。
3.如权利要求2的方法,其中所述语言模型包括下列各项中的至少一个:
在象形文字中总键击的数目;
象形文字的偏旁部首;
偏旁部首和偏旁部首的笔画的数目;
按字母顺序排序的;
在正式场合、会谈、书面的或口语文本中象形文字序列或语音序列的出现频率;
当遵循前面的字符或字符串时象形文字序列或语音序列的出现频率;
严格意义上的或普通的文境的语法;
当前输入序列条目的应用范围;以及
用户或者在应用程序中对语音或象形文字序列的最新使用或重复使用。
4.如权利要求1的方法,其中所述组的语音字符包括下列各项中的至少一个:
拉丁字母表;
还已知的作为注音的汉语拼音字母表;
阿拉伯数字;以及
标点符号。
5.如权利要求1的方法,其中所述语音序列包括单个音节。
6.如权利要求1的方法,其中所述语音序列包括单个和多个音节。
7.如权利要求1的方法,其中所述语音序列包括用户产生的序列。
8.如权利要求1的方法,其中所述语音音节和所述对应的象形文字字符存储在至少一个数据结构中。
9.如权利要求1的方法,其中所有的单音节语音音节存储在单个数据结构中,形成单词或短语的所述对应的语音音节和匹配所述单词或短语的一个或多个象形文字字符存储在至少一个数据结构中。
10.如权利要求8的方法,其中所述数据结构按语法类别进行排序。
11.如权利要求1的方法,其中如果对于一个输入序列不存在对象,将对象添加到数据库中。
12.如权利要求11的方法,其中在所述数据库中没有匹配的语音序列的情况下,根据单个和视需要的多个音节的语音序列自动产生匹配语音序列的序列。
13.如权利要求12的方法,其中将贯穿用户交互作用的所述匹配语音序列的序列减少。
14.如权利要求12的方法,其中根据匹配的语音序列自动产生匹配象形文字序列的序列得到象形文字序列。
15.如权利要求14的方法,其中将贯穿用户交互作用的匹配象形文字序列的序列减少。
16.如权利要求15的方法,其中只要进行了选择,将所述匹配的输入序列、所述匹配的语音序列和所述匹配的象形文字序列添加到数据结构。
17.如权利要求2的方法,其还包括以下步骤:
只要选择了一个象形文字字符序列,就改变所述匹配的语音序列和象形文字字符序列的相关优先次序。
18.如权利要求11的方法,其中指定期望的语音序列和对应的象形文字字符序列通过第二输入机构。
19.如权利要求1的方法,其中用户能够对语音音节指定特定声调。
20.如权利要求19的方法,其中多个输入装置中的一个与和任何一个或所有声调关联的特定通配符输入相关联。
21.如权利要求1的方法,其中用户能够指定一个明确的音节分隔符。
22.如权利要求1的方法,其还包括以下步骤:
当用户输入一个语音字符序列时,返回一个刚好匹配的语音序列的序列和部分匹配的预测的序列。
23.如权利要求22的方法,其中根据语言模型对所述语音序列的序列进行排序。
24.如权利要求23的方法,其中所述语言模型包括下列各项中的至少一项:
在象形文字中总键击的数目;
象形文字的偏旁部首;
偏旁部首和偏旁部首的笔画的数目;
按字母顺序排序的;
在正式场合或会话书面文本中语音序列或象形文字序列的出现频率;
当遵循前面的字符或字符串时语音序列或象形文字序列的出现频率;
严格意义上的或普通的文境的语法;
当前字符序列条目的应用范围;以及
用户或者在应用程序中对语音序列的最新使用或重复使用。
25.如权利要求1的方法,其还包括以下步骤:
只要用户选择了象形文字字符序列,就提供给用户一个或多个象形文字字符的序列表。
26.如权利要求25的方法,其中按照语言模型对所述序列表进行排序。
27.如权利要求26的方法,其中所述语言模型包括下列各项中的至少一项:
在象形文字中总键击的数目;
象形文字的偏旁部首;
偏旁部首和偏旁部首的笔画的数目;
按字母顺序排序的;
在正式场合或会话书面文本中象形文字字符的出现频率;
当遵循前面的字符或字符串时象形文字字符的出现频率;
严格意义上的或普通的文境的语法;
当前字符条目的应用范围;以及
用户或者在应用程序中对象形文字字符的最新使用或重复使用。
28.如权利要求1的方法,其中在所述输入序列和所述语音序列之间的匹配是部分的混淆组。
29.如权利要求28的方法,其中用户能够选择哪个混淆组是有效的。
30.如权利要求28的方法,其中多个输入装置中的一个与根据混淆组或拼写错误提供输入序列的另一个语音序列解释相关联。
31.如权利要求28的方法,其中多个输入装置中的一个与根据混淆组或拼写错误提供输入序列的另一个象形文字解释相关联。
32.如权利要求28的方法,其中该系统适合于用户的普通拼写错误或混淆组。
33.如权利要求1的方法,其中用户能够为每个多音节单词输入部分音节。
34.如权利要求33的方法,其中每个音节的部分键击的数目是一个。
35.如权利要求1的方法,其中用户可以识别声母和韵母。
36.如权利要求1的方法,其中多个输入装置的一个与和零或所述语音字符中的一个关联的特定通配符输入相关联。
37.如权利要求1的方法,其中语音序列包括与英语和其它字母语言中的任何一个匹配的条目。
38.一种系统,用于对用户输入的多义性输入序列进行多义性消除并产生中文文本输出,所述系统包括:
一个具有多个输入装置的用户输入设备,每个所述输入装置与多个语音字符相关联,每当由所述用户输入设备选择一个输入时产生一个输入序列,由于多个语音字符与所述输入相关联,因此所述产生的输入序列具有多义性的文字解释;
一个包含多个输入序列和一组其拼写对应于输入序列的语音序列并与每个输入序列相关联的数据库;
一个包含多个语音序列和一组对应于语音序列的象形文字字符序列并与每个语音序列相关联的数据库;
用于比较输入序列和所述语音序列数据库,并寻找匹配的语音条目的装置;
用于使所述语音条目与所述象形文字数据库匹配的装置;以及
一个用于显示显示一个或者多个匹配的语音条目和匹配的象形文字字符的输出设备。
39.如权利要求38的系统,其还包括:
一个装置,用于根据语言模型按优先次序排列匹配输入序列的语音序列,和按优先次序排列与匹配的语音序列匹配的象形文字序列。
40.如权利要求39的系统,其中所述语言模型包括下列各项中的至少一个:
在象形文字中总键击的数目;
象形文字的偏旁部首;
偏旁部首和偏旁部首的笔画的数目;
按字母顺序排序的;
在正式场合或会话书面文本中象形文字序列或语音序列的出现频率;
当遵循前面的字符或字符串时象形文字序列或语音序列的出现频率;
严格意义上的或普通的文境的语法;
当前输入序列条目的应用范围;以及
用户或者在应用程序中对语音序列或象形文字序列的最新使用或重复使用。
41.如权利要求38的系统,其中所述组的语音字符包括拉丁字母表。
42.如权利要求38的系统,其中所述组的语音字符还包括已知的作为注音的汉语拼音字母表。
43.如权利要求38的系统,其中所述语音序列包括单个音节。
44.如权利要求38的系统,其中所述语音序列包括单个和多个音节。
45.如权利要求38的系统,其中所述语音序列包括用户产生的序列。
46.如权利要求38的系统,其中所述语音音节和所述对应的象形文字字符存储在单个树型结构中。
47.如权利要求38的系统,其中所有的单音节语音音节存储在单个树型结构中,形成单词或短语的对应的语音音节和匹配所述单词或短语的一个或多个象形文字字符存储在单个树型结构中。
48.如权利要求38的系统,其中如果对于一个输入序列不存在对象,将对象添加到用户数据库中。
49.如权利要求48的系统,其中在所述数据库中没有匹配的语音序列的情况下,根据单个和视需要的多个音节的语音序列自动产生匹配语音序列的序列。
50.如权利要求49的系统,其中将贯穿用户交互作用的所述匹配语音序列的序列减少。
51.如权利要求49的系统,其中根据匹配的语音序列自动产生匹配象形文字序列的序列得到象形文字序列。
52.如权利要求51的系统,其中将贯穿用户交互作用的匹配象形文字序列的序列减少。
53.如权利要求42的系统,其中只要进行了选择,将匹配的输入序列、匹配的语音序列和匹配的象形文字序列添加到存储器。
54.如权利要求39的系统,其还包括:
一个装置,用于改变匹配的语音序列的相关优先次序和象形文字字符序列,只要选择了一个象形文字字符序列。
55.如权利要求48的系统,其中指定期望的语音序列和对应的象形文字字符序列通过第二选择机构。
56.如权利要求38的系统,其中用户能够对语音音节指定特定声调。
57.如权利要求36的系统,其中多个输入装置中的一个与和任何一个或所有声调关联的特定通配符输入相关联。
58.如权利要求38的系统,其中用户能够指定一个明确的音节分隔符。
59.如权利要求38的系统,其中当用户输入一个语音字符序列时,返回一个刚好匹配的语音序列的序列和部分匹配的预测的序列。
60.如权利要求59系统,其中根据基于语言模型的使用频率对序列进行排序。
61.如权利要求60的系统,其中所述语言模型包括下列各项中的至少一项:
在象形文字中总键击的数目;
象形文字的偏旁部首;
偏旁部首和偏旁部首的笔画的数目;
按字母顺序排序的;
在正式场合或会话书面文本中语音序列或象形文字序列的出现频率;
当遵循前面的字符或字符串时语音序列或象形文字序列的出现频率;
严格意义上的或普通的文境的语法;
当前字符序列条目的应用范围;以及
用户或者在应用程序中对语音序列的最新使用或重复使用。
62.如权利要求38的系统,其中只要用户选择了象形文字字符序列,就提供给用户一个或多个象形文字字符的序列表。
63.如权利要求62的系统,其中按照语言模型对所述序列表进行排序。
64.如权利要求63的系统,其中所述语言模型包括下列各项中的至少一项:
在象形文字中总键击的数目;
象形文字的偏旁部首;
偏旁部首和偏旁部首的笔画的数目;
按字母顺序排序的;
在正式场合或会话书面文本中象形文字字符的出现频率;
当遵循前面的字符或字符串时象形文字字符的出现频率;
严格意义上的或普通的文境的语法;
当前字符条目的应用范围;以及
用户或者在应用程序中对象形文字字符的最新使用或重复使用。
65.如权利要求39的系统,其中在输入序列和语音序列之间的匹配是部分的混淆组。
66.如权利要求65的系统,其中用户能够选择哪个混淆组是有效的。
67.如权利要求66的系统,其中多个输入装置中的一个与根据混淆组或拼写错误提供输入序列的另一个语音序列解释相关联。
68.如权利要求65的系统,其中该系统适合于用户的普通拼写错误或混淆组。
69.一种组合在用户输入设备中的象形文字的语言文本输入系统,该系统包括:
多个输入装置,多个输入装置中的每一个与多个语音字符相关联,每当操作用户输入设备选择一个输入时产生一个输入序列,其中产生的输入序列对应于已经选择的输入装置的序列;
至少一个用于产生对象输出的选择输入,其中当用户用户操作用户输入设备得到选择输入时终止输入序列;
一个包含多个对象的存储器,其中多个对象中的每一个与一个输入序列相关联;
一个描述系统输出给用户的显示器;以及
与用户输入设备、存储器和显示器连接的处理器,所述处理器包括:
识别装置,用于从存储器中的多个对象识别与每个产生的输入序列相关联的任何对象;
输出装置,用于在显示器上显示与每个产生的输入序列相关联的任何已识别对象的字符解释;以及
选择装置,用于选择期望的字符,当检测到操作用户输入设备得到选择输入时将其输入到文本输入显示位置。
70.如权利要求69的系统,其中所述选择装置根据按照语言模型具有最高优先次序的对象的识别选择期望的字符。
71.如权利要求69的系统,其中每次选择短语或象形文字序列时,对短语和象形文字序列包括的输入序列重新按照优先次序排列。
72.如权利要求69的系统,其中如果对于一个输入序列不存在对象,将对象添加到数据库中。
73.如权利要求69的系统,其中多个输入装置中的一个与和任何一个或所有声调关联的特定通配符输入相关联。
74.一种系统,用于对用户输入的多义性输入序列去多义性,并产生中文文本输出,所述系统包括:
一个具有多个输入装置的用户输入设备,每个所述输入装置与与多个拉丁字母相关联,每当由所述用户输入设备选择一个输入时产生一个输入序列,由于多个拉丁字母与所述输入相关联,因此产生的输入序列具有多义性文字解释;
存储器,其包含使用的数据以构造多个拼音拼写,每个所述拼音拼写与一个输入序列和基于语言模型的使用频率相关联,并且每个所述拼音拼写包括包括要输出给用户的对应于语音数据的拼音音节序列,其中所述拼音拼写构造成存储在树形结构的所述存储器中的数据,该树形结构由多个节点、每个与输入序列相关联的所述节点组成;
一个将系统输出描述给用户的显示器;以及
与所述用户输入设备、所述存储器和所述显示器连接的处理器,所述处理器从所述存储器中与每个输入序列相关联的所述数据构造一个拼音拼写,并根据语言模型识别至少一个具有最高使用频率的候选拼音拼写,然后产生一个输出信号,使所述显示器显示所述至少一个已识别的候选拼音拼写,该候选拼音拼写与每个产生的作为所述产生的序列的文本解释的输入序列相关联。
75.如权利要求74的系统,其中在所述存储器的所述树形结构中的一个或多个拼音拼写对象与一个或多个汉字短语相关联,其中每个汉字短语是所述关联的拼音拼写对象的文本解释,以及其中根据一个语言模型每个汉字短语对象与使用频率关联。
76.如权利要求75的系统,其中所述处理器给选择的拼音拼写构造至少一个已识别的候选汉字短语,并产生一个输出信号使显示器显示与所述选择的拼音拼写关联的所述至少一个已识别的候选汉字短语,该选择的拼音拼写与每个产生的作为所述产生的序列的文本解释的输入序列相关联。
77.如权利要求76的系统,其中所述至少一个已识别的汉字短语具有刚好匹配所述选择的拼音拼写的拼音拼写。
78.如权利要求76的系统,其中所述至少一个已识别的汉字短语具有刚好匹配所有音节除所述选择的拼音拼写的最后音节之外的拼音拼写,并且所述已识别的汉字短语的拼音的最后音节是一个完整的能够从所述选择的拼音拼写的最后音节扩充的音节。
79.如权利要求76的系统,其中根据语言模型与每个拼音拼写对象相关联的所述使用频率对应于属于所述拼音拼写对象相关联的所有汉字短语对象的使用频率的总和。
80.如权利要求79的系统,其中根据语言模型具有最高使用频率所述拼音拼写是缺省拼音拼写选择。
81.如权利要求74的系统,其中所述多个输入装置中的至少一个或多个是无多义性导向输入,并且
其中用户可以利用所述导向输入的附加选择来选择另一个拼音拼写作为输入序列的解释,所述无多义性导向输入的每个选择从在所述存储器中与所述产生的输入序列相关联的所述已识别的一个或多个拼音拼写对象中选择一个拼音拼写对象。
82.如权利要求75的系统,其中根据语言模型具有最高使用频率的汉字短语是缺省的汉字短语选择。
83.如权利要求75的系统,其中所述多个输入装置中的至少一个或多个是无多义性导向输入;并且
其中用户可以寻找下一组汉字短语,该汉字短语对应于通过附加选择所述导向输入作为输入序列的解释的选定拼音拼写,所述无多义性导向输入的每个选择显示另一个汉字短语列表,该汉字短语列表对应于在所述存储器中与所述产生的输入序列相关联的所述选择的拼音拼写。
84.如权利要求74的系统,其中所述用户输入设备包括一个能够用于给拼音音节输入声调的附加输入。
85.如权利要求84的系统,其中一个或多个包括声调的拼音音节与相同输入相关联,利用该相同输入可以输入没有声调的对应的拼音音节。
86.如权利要求85的系统,其中还将每个汉字短语的声调存储在存储器中;并且
其中只将汉字短语输出给用户,该汉字短语具有其声调匹配对应的输入声调的字符串。
87.如权利要求74的系统,其中如果对于一个输入序列不存在对象,将对象添加到数据库中。
88.如权利要求87的系统,其中在所述数据库中没有匹配的语音序列的情况下,根据单个和视需要的多格音节的语音序列自动产生匹配语音序列的序列。
89.如权利要求88的系统,其中将贯穿用户交互作用的所述匹配语音序列的序列减少。
90.如权利要求89的系统,其中根据匹配的语音序列自动产生匹配象形文字序列的序列得到象形文字序列。
91.如权利要求90的系统,其中将贯穿用户交互作用的匹配象形文字序列的序列减少。
92.如权利要求91的系统,其中只要进行了选择,将匹配的输入序列、匹配的语音序列和匹配的象形文字序列添加到存储器。
93.如权利要求74的系统,其还包括:
一个装置,用于改变匹配的语音序列的相关优先次序和象形文字字符序列,只要选择了一个象形文字字符序列。
94.如权利要求74的系统,其中指定期望的语音序列和对应的象形文字字符序列通过第二选择机构。
95.如权利要求74的系统,其中多个输入装置中的一个与和任何一个或所有声调关联的特定通配符输入相关联。
96.如权利要求74的系统,其中用户能够指定一个明确的音节分隔符。
97.如权利要求74的系统,其中当用户输入一个语音字符序列时,返回一个刚好匹配的语音序列的序列和部分匹配的预测的序列给用户。
98.如权利要求97的系统,其中根据基于语言模型的使用频率对序列进行排序。
99.如权利要求98的系统,其中所述语言模型包括下列各项中的至少一项:
在象形文字中总键击的数目;
象形文字的偏旁部首;
偏旁部首和偏旁部首的笔画的数目;
按字母顺序排序的;
在正式场合或会话书面文本中语音序列或象形文字序列的出现频率;
当遵循前面的字符或字符串时语音序列或象形文字序列的出现频率;
严格意义上的或普通的文境的语法;
当前字符序列条目的应用范围;以及
用户或者在应用程序中对语音序列的最新使用或重复使用。
100.如权利要求74的系统,其中只要用户选择了象形文字字符序列,就提供给用户一个或多个象形文字字符的序列表。
101.如权利要求100的系统,其中按照基于语言模型的使用频率对所述序列表进行排序。
102.如权利要求101的系统,其中所述语言模型包括下列各项中的至少一项:
在象形文字中总键击的数目;
象形文字的偏旁部首;
偏旁部首和偏旁部首的笔画的数目;
按字母顺序排序的;
在正式场合或会话书面文本中象形文字字符的出现频率;
当遵循前面的字符或字符串时象形文字字符的出现频率;
严格意义上的或普通的文境的语法;
当前字符序列条目的应用范围;以及
用户或者在应用程序中对象形文字字符的最新使用或重复使用。
103.如权利要求74的系统,其中在输入序列和语音序列之间的匹配是部分的混淆组。
104.如权利要求103的系统,其中用户能够选择哪个混淆组是有效的。
105.如权利要求104的系统,其中多个输入装置中的一个与根据混淆组或拼写错误提供输入序列的另一个语音序列解释相关联。
106.如权利要求103的系统,其中该系统适合于用户的普通拼写错误或用户的混淆组。
107.一种输入象形文字字符的方法,其包括以下步骤:
(a)将一个输入序列输入给一个用户输入设备;
其中所述用户输入设备包括:
多个输入装置,每个所述多个输入装置与多个笔画或语音字符相关联,每当操作所述用户输入设备选择一个输入时产生一个输入序列;
与每个输入序列相关联的数据,其包括多个输入序列和与每个输入序列相关联的包含多个输入序列的输入法特定数据库,以及一组其拼写对应于输入序列的语音序列或一组对应于输入序列的笔画序列;以及
包含一组象形文字序列的象形文字数据库,其中每个象形文字字符包含一个象形文字索引、多个对应于笔画序列的笔画索引和多个对应于语音序列的语音索引;
(b)比较输入序列和所述输入法特定数据库,并寻找匹配的笔画条目或语音条目的索引和所述匹配的笔画条目或语音条目;
(c)将所述匹配的索引转换成笔画条目或语音条目得到匹配的象形文字索引;
(d)从所述象形文字数据库中利用所述匹配的象形文字索引检索匹配的象形文字字符序列;以及
(e)视需要显示一个或者多个所述匹配的象形文字字符序列。
108.如权利要求107的方法,其中在笔画输入系统中所述笔画索引是按照笔画序列进行分类的笔画索引。
109.如权利要求108的方法,其中所述笔画输入系统是五笔或八笔系统。
110.如权利要求107的方法,其中在语音输入系统中所述语音索引是按照实际的拼写进行分类的语音字符的索引。
111.如权利要求110的方法,其中所述语音输入系统是拼音系统或注音系统。
112.如权利要求107的方法,其中在语音输入系统中所述语音索引是输入装置的索引。
113.如权利要求107的方法,其中根据语言模型按优先次序排列匹配输入序列的笔画或语音序列,和按优先次序排列匹配笔画或语音序列的象形文字序列。
114.如权利要求113的方法,其中所述语言模型包括下列各项中的至少一个:
在象形文字中总键击的数目;
象形文字的偏旁部首;
偏旁部首和偏旁部首的笔画的数目;
按字母顺序排序的;
在正式场合、会话书面的或口语文本中象形文字字符序列、笔画序列或语音序列的出现频率;
当遵循前面的字符或字符串时象形文字字符序列、笔画序列或语音序列的出现频率;
严格意义上的或普通的文境的语法;
当前输入序列条目的应用范围;以及
用户或者在应用程序中对笔画、语音或象形文字序列的最新使用或重复使用。
115.如权利要求107的方法,其中所述语音序列包括单个音节。
116.如权利要求107的方法,其中所述语音序列包括单个和多个音节。
117.如权利要求107的方法,其中所述语音序列包括用户产生的序列。
118.如权利要求117的方法,其中在所述数据库中没有匹配的语音序列的情况下,根据单个和视需要的多格音节的语音序列自动产生匹配语音序列的序列。
119.如权利要求118的方法,其中将贯穿用户交互作用的所述匹配语音序列的序列减少。
120.如权利要求118的方法,其中根据匹配的语音序列自动产生匹配象形文字序列的序列得到象形文字序列。
121.如权利要求120的方法,其中将贯穿用户交互作用的匹配象形文字序列的序列减少。
122.如权利要求113的方法,还包括以下步骤:
只要选择了一个象形文字字符序列,就改变所述匹配的语音序列和象形文字字符序列的相关优先次序。
123.如权利要求107的方法,其中用户能够指定一个明确的音节分隔符。
124.如权利要求107的方法,还包括以下步骤:
当用户输入一个语音字符序列时,返回一个刚好匹配的语音序列的序列和部分匹配的预测的序列。
125.如权利要求124的方法,其中根据语言模型对所述语音序列的序列进行排序。
126.如权利要求125的方法,其中所述语言模型包括下列各项中的至少一项:
按字母顺序排序的;
在正式场合或会话书面文本中语音序列或象形文字序列的出现频率;
当遵循前面的字符或字符串时语音序列或象形文字序列的出现频率;
文境的语法;
当前字符序列条目的应用范围;以及
用户或者在应用程序中对语音序列的最新使用或重复使用。
127.如权利要求107的方法,其中其还包括以下步骤:
只要用户选择了象形文字字符序列,就提供给用户一个或多个象形文字字符的序列表。
128.如权利要求127的方法,其中按照语言模型对所述序列表进行排序。
129.如权利要求128的方法,其中所述语言模型包括下列各项中的至少一项:
在象形文字中总键击的数目;
象形文字的偏旁部首;
偏旁部首和偏旁部首的笔画的数目;
按字母顺序排序的;
在正式场合或会话书面文本中象形文字字符的出现频率;
当遵循前面的字符或字符串时象形文字字符的出现频率;
文境的语法;
当前字符条目的应用范围;以及
用户或者在应用程序中对象形文字字符的最新使用或重复使用。
130.如权利要求107的系统,其中用户能够给每个多音节单词输入部分音节。
131.如权利要求130的系统,其中每个音节的部分键击的数目是一个。
132.如权利要求107的系统,其中所述多个输入装置的一个与和零或笔画中的一个关联的特定通配符输入相关联。
133.如权利要求107的系统,其中所述多个输入装置的一个与和零或所述语音字符中的一个关联的特定通配符输入相关联。
134.如权利要求107的系统,其中在语音输入系统中所述语音索引是按照实际的拼写进行分类的语音字符的索引。
135.一种系统,用于接收用户输入的输入序列,并产生中文文本输出,所述系统包括:
一个具有多个输入装置的用户输入设备,每个所述输入装置与多个笔画或语音字符相关联,每当由所述用户输入设备选择一个输入时产生一个输入序列;
一个与每个输入序列相关联的输入法特定数据库,其包含多个输入序列和一组其拼写对应于输入序列的语音序列或一组对应于输入序列的笔画序列;
一个包含一组象形文字字符数据库,其中每个象形文字字符包含一个象形文字索引、多个对应于笔画序列的笔画索引和多个对应于语音序列的语音索引;
一个装置,用于将输入序列与所述输入法特定数据库进行比较,并寻找匹配的笔画条目或语音条目的索引和所述匹配的笔画条目或语音条目;
一个装置,用于将所述匹配的索引转换成笔画条目或语音条目得到匹配的象形文字索引;
一个装置,用于从所述象形文字数据库中利用所述匹配的象形文字索引检索匹配的象形文字字符序列;以及
一个输出设备,用于显示一个或多个匹配的笔画或语音条目以及匹配的象形文字字符。
136.如权利要求135的系统,其中在笔画输入系统中所述笔画索引是按照笔画序列进行分类的笔画索引。
137.如权利要求136的系统,其中所述笔画输入系统是五笔或八笔系统。
138.如权利要求135的系统,其中在语音输入系统中所述语音索引是按照实际的拼写进行分类的语音字符的索引。
139.如权利要求138的系统,其中所述语音输入系统是拼音系统或注音系统。
140.如权利要求135的系统,其中在语音输入系统中所述语音索引是输入装置的索引。
141.如权利要求135的系统,其还包括:
一个装置,用于根据语言模型按优先次序排列匹配输入序列的笔画或语音序列,和按优先次序排列匹配笔画或语音序列的象形文字字符序列。
142.如权利要求135的系统,其中所述语言模型包括下列各项中的至少一个:
在象形文字中总键击的数目;
象形文字的偏旁部首;
偏旁部首和偏旁部首的笔画的数目;
按字母顺序排序的;
在正式场合或会话书面文本中象形文字字符序列、笔画序列或语音序列的出现频率;
当遵循前面的字符或字符串时象形文字字符序列、笔画序列或语音序列的出现频率;
文境的语法;
当前字符条目的应用范围;以及
用户或者在应用程序中对笔画、语音或象形文字字符的最新使用或重复使用。
143.如权利要求135的系统,其中所述语音序列包括单个音节。
144.如权利要求135的系统,其中所述语音序列包括单个和多个音节。
145.如权利要求135的系统,其中所述语音序列包括用户产生的序列。
146.如权利要求145的系统,其中在所述数据库中没有匹配的语音序列的情况下,根据单个和视需要的多个音节的语音序列自动产生匹配语音序列的序列。
147.如权利要求146的系统,其中将贯穿用户交互作用的所述匹配语音序列的序列减少。
148.如权利要求146的系统,其中根据匹配的语音序列自动产生匹配象形文字序列的序列得到象形文字字符序列。
149.如权利要求148的系统,其中将贯穿用户交互作用的匹配象形文字序列的序列减少。
150.如权利要求141的系统,其还包括:
一个装置,用于改变匹配的语音序列和象形文字字符序列的相关优先次序,只要选择了一个象形文字字符序列。
151.如权利要求135的系统,其中用户能够对语音音节指定特定声调。
152.如权利要求135的系统,其中多个所述输入装置中的一个与和任何一个或所有声调关联的特定通配符输入相关联。
153.如权利要求135的系统,其中用户能够指定一个明确的象形文字字符分隔符。
154.如权利要求153的系统,其中只要用户输入一个语音字符序列,就返回一个刚好匹配的语音序列的序列和部分匹配的预测的序列给用户。
155.如权利要求154的系统,其中根据基于语言模型的使用频率对序列进行排序。
156.如权利要求155的系统,其中所述语言模型包括下列各项中的至少一项:
在象形文字中总键击的数目;
象形文字的偏旁部首;
偏旁部首和偏旁部首的笔画的数目;
按字母顺序排序的;
在正式场合或会话书面文本中语音序列或象形文字序列的出现频率;
当遵循前面的字符或字符串时语音序列或象形文字序列的出现频率;
文境的语法;
当前字符序列条目的应用范围;以及
用户或者在应用程序中对语音序列的最新使用或重复使用。
157.如权利要求135的系统,其中只要用户选择了象形文字字符序列,就提供一个或多个象形文字字符的序列表给用户。
158.如权利要求157的系统,其中按照基于语言模型的使用频率对所述序列表进行排序。
159.如权利要求158的系统,其中所述语言模型包括下列各项中的至少一项:
在象形文字中总键击的数目;
象形文字的偏旁部首;
偏旁部首和偏旁部首的笔画的数目;
按字母顺序排序的;
在正式场合或会话书面文本中象形文字字符的出现频率;
当遵循前面的字符或字符串时象形文字字符的出现频率;
文境的语法;
当前字符条目的应用范围;以及
用户或者在应用程序中对象形文字字符的最新使用或重复使用。
160.如权利要求135的系统,其中所述多个输入装置的一个与和零或笔画中的一个关联的特定通配符输入相关联。
161.如权利要求135的系统,其中所述多个输入装置的一个与和零或所述语音字符中的一个关联的特定通配符输入相关联。
162.一种计算机可用介质,其包含已计算机可读形式的指令以对中文文本输出进行处理,所述处理包括以下步骤:
(a)将一个输入序列输入给一个用户输入设备;
其中所述用户输入设备包括:
多个输入装置,每个所述输入装置与多个笔画或语音字符相关联,每当由所述用户输入设备选择一个输入时产生一个输入序列;
与每个输入序列相关联的数据,其包括多个输入序列和与每个输入序列相关联的包含多个输入序列的输入法特定数据库,以及一组其拼写对应于输入序列的语音序列或一组对应于输入序列的笔画序列;以及
包含一组象形文字序列的象形文字数据库,其中每个象形文字字符包含一个象形文字索引、多个对应于笔画序列的笔画索引和多个对应于语音序列的语音索引;
(b)比较输入序列和所述输入法特定数据库,并寻找匹配的笔画条目或语音条目的索引和所述匹配的笔画条目或语音条目;
(c)将所述匹配的索引转换成笔画条目或语音条目得到匹配的象形文字索引;
(d)从所述象形文字数据库中利用所述匹配的象形文字索引检索匹配的象形文字字符序列;以及
(e)视需要显示一个或者多个所述匹配的象形文字字符序列。
163.如权利要求162的介质,其中在笔画输入系统中所述笔画索引是按照笔画序列进行分类的笔画索引。
164.如权利要求163的介质,其中所述笔画输入系统是五笔或八笔系统。
165.如权利要求162的介质,其中在语音输入系统中所述语音索引是按照实际的拼写进行分类的语音字符的索引。
166.如权利要求165的介质,其中所述语音输入系统是拼音系统或注音系统。
167.如权利要求162的介质,其中在语音输入系统中所述语音索引是输入装置的索引。
168.如权利要求162的介质,其中该处理还包括以下步骤:
根据语言模型按优先次序排列匹配输入序列的笔画或语音序列,和按优先次序排列匹配笔画或语音序列的象形文字字符序列。
169.如权利要求168的介质,其中所述语言模型包括下列各项中的至少一个:
在象形文字中总键击的数目;
象形文字的偏旁部首;
偏旁部首和偏旁部首的笔画的数目;
按字母顺序排序的;
在正式场合会话书面、或会话口语文本中象形文字字符序列、笔画序列或语音序列的出现频率;
当遵循前面的字符或字符串时象形文字字符序列、笔画序列或语音序列的出现频率;
文境的语法;
当前输入序列条目的应用范围;以及
用户或者在应用程序中对笔画、语音或象形文字字符的最新使用或重复使用。
170.如权利要求162的介质,其中所述语音序列包括单个音节。
171.如权利要求162的介质,其中所述语音序列包括单个和多个音节。
172.如权利要求162的介质,其中所述语音序列包括用户产生的序列。
173.如权利要求172的介质,其中在所述数据库中没有匹配的语音序列的情况下,根据单个和视需要的多个音节的语音序列自动产生匹配语音序列的序列。
174.如权利要求173的介质,其中贯穿用户交互作用的将所述匹配语音序列的序列减少。
175.如权利要求173的介质,其中根据匹配的语音序列自动产生匹配象形文字序列的序列得到象形文字字符序列。
176.如权利要求175的介质,其中将贯穿用户交互作用的匹配象形文字序列的序列减少。
177.如权利要求168的介质,其中该处理还包括以下步骤:
只要选择了一个象形文字字符序列,就改变所述匹配的语音序列和象形文字字符序列的相关优先次序。
178.如权利要求162的介质,其中用户能够指定一个明确的象形文字字符分隔符。
179.如权利要求162的介质,其中当用户输入一个语音字符序列时,返回一个刚好匹配的语音序列的序列和部分匹配的预测的序列给用户。
180.如权利要求179的介质,其中根据语言模型对所述语音序列的序列进行排序。
181.如权利要求181的介质,其中所述语言模型包括下列各项中的至少一项:
在象形文字中总键击的数目;
象形文字的偏旁部首;
偏旁部首和偏旁部首的笔画的数目;
按字母顺序排序的;
在正式场合或会话书面文本中语音序列或象形文字序列的出现频率;
当遵循前面的字符或字符串时语音序列或象形文字序列的出现频率;
文境的语法;
当前字符序列条目的应用范围;以及
用户或者在应用程序中对语音序列的最新使用或重复使用。
182.如权利要求162的介质,其中只要用户选择了象形文字字符序列,就提供一个或多个象形文字字符的序列表给用户。
183.如权利要求182的介质,其中根据语言模型对所述序列表进行排序。
184.如权利要求183的介质,其中所述语言模型包括下列各项中的至少一项:
在象形文字中总键击的数目;
象形文字的偏旁部首;
偏旁部首和偏旁部首的笔画的数目;
按字母顺序排序的;
在正式场合或会话书面文本中象形文字字符的出现频率;
当遵循前面的字符或字符串时象形文字字符的出现频率;
文境的语法;
当前字符条目的应用范围;以及
用户或者在应用程序中对象形文字字符的最新使用或重复使用。
185.如权利要求162的介质,其中对于每个多音节单词用户能够输入部分音节。
186.如权利要求185的介质,其中每个音节的部分键击的数目是一个。
187.如权利要求162的介质,其中所述多个输入装置的一个与和零或笔画中的一个关联的特定通配符输入相关联。
188.如权利要求162的介质,其中所述多个输入装置的一个与和零或所述语音字符中的一个关联的特定通配符输入相关联。
CNB2004100711724A 2003-07-30 2004-07-30 去多义性语音输入系统和方法 Expired - Lifetime CN100549915C (zh)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US10/631,543 2003-07-30
US10/631,543 US7395203B2 (en) 2003-07-30 2003-07-30 System and method for disambiguating phonetic input
US10/803,255 US20050027534A1 (en) 2003-07-30 2004-03-17 Phonetic and stroke input methods of Chinese characters and phrases
US10/803,255 2004-03-17

Publications (2)

Publication Number Publication Date
CN1648828A true CN1648828A (zh) 2005-08-03
CN100549915C CN100549915C (zh) 2009-10-14

Family

ID=34119219

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB2004100711724A Expired - Lifetime CN100549915C (zh) 2003-07-30 2004-07-30 去多义性语音输入系统和方法

Country Status (6)

Country Link
US (1) US20050027534A1 (zh)
JP (1) JP2005202917A (zh)
KR (1) KR100656736B1 (zh)
CN (1) CN100549915C (zh)
TW (1) TWI293455B (zh)
WO (1) WO2005013054A2 (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101377727B (zh) * 2007-08-31 2011-11-09 捷讯研究有限公司 输入语音文本并输出改进查找窗口的手持电子设备及方法
CN103096154A (zh) * 2012-12-20 2013-05-08 四川长虹电器股份有限公司 基于传统遥控器的拼音输入方法
CN104317851A (zh) * 2014-10-14 2015-01-28 小米科技有限责任公司 词汇提示方法和装置
CN105204617A (zh) * 2007-04-11 2015-12-30 谷歌股份有限公司 用于输入法编辑器集成的方法和系统
CN107247705A (zh) * 2010-07-30 2017-10-13 库比克设计工作室有限责任公司 填空字补齐系统
US10241753B2 (en) 2014-06-20 2019-03-26 Interdigital Ce Patent Holdings Apparatus and method for controlling the apparatus by a user
CN112331208A (zh) * 2020-09-30 2021-02-05 音数汇元(上海)智能科技有限公司 人身安全监控方法、装置、电子设备和存储介质

Families Citing this family (40)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8200475B2 (en) 2004-02-13 2012-06-12 Microsoft Corporation Phonetic-based text input method
CN1704882A (zh) * 2004-05-26 2005-12-07 微软公司 使用键盘的亚洲语言输入
CN100437441C (zh) * 2004-05-31 2008-11-26 诺基亚(中国)投资有限公司 用于输入中文汉字短语的方法和设备
US7197184B2 (en) * 2004-09-30 2007-03-27 Nokia Corporation ZhuYin symbol and tone mark input method, and electronic device
US7599830B2 (en) 2005-03-16 2009-10-06 Research In Motion Limited Handheld electronic device with reduced keyboard and associated method of providing quick text entry in a message
CN1834865B (zh) * 2005-03-18 2010-04-28 马贤亮 一种小键盘上数字编码的汉语拼音和注音多字连续输入法
US7573404B2 (en) * 2005-07-28 2009-08-11 Research In Motion Limited Handheld electronic device with disambiguation of compound word text input employing separating input
US20070277118A1 (en) * 2006-05-23 2007-11-29 Microsoft Corporation Microsoft Patent Group Providing suggestion lists for phonetic input
US7565624B2 (en) 2006-06-30 2009-07-21 Research In Motion Limited Method of learning character segments during text input, and associated handheld electronic device
US8395586B2 (en) 2006-06-30 2013-03-12 Research In Motion Limited Method of learning a context of a segment of text, and associated handheld electronic device
US7665037B2 (en) * 2006-06-30 2010-02-16 Research In Motion Limited Method of learning character segments from received text, and associated handheld electronic device
US7664632B2 (en) * 2006-11-10 2010-02-16 Research In Motion Limited Method of using visual separators to indicate additional character combination choices on a handheld electronic device and associated apparatus
US20080154576A1 (en) * 2006-12-21 2008-06-26 Jianchao Wu Processing of reduced-set user input text with selected one of multiple vocabularies and resolution modalities
US8677237B2 (en) * 2007-03-01 2014-03-18 Microsoft Corporation Integrated pinyin and stroke input
US8316295B2 (en) * 2007-03-01 2012-11-20 Microsoft Corporation Shared language model
US20080211777A1 (en) * 2007-03-01 2008-09-04 Microsoft Corporation Stroke number input
US8103499B2 (en) * 2007-03-22 2012-01-24 Tegic Communications, Inc. Disambiguation of telephone style key presses to yield Chinese text using segmentation and selective shifting
US8413049B2 (en) * 2007-08-31 2013-04-02 Research In Motion Limited Handheld electronic device and associated method enabling the generation of a proposed character interpretation of a phonetic text input in a text disambiguation environment
US20090060339A1 (en) * 2007-09-04 2009-03-05 Sutoyo Lim Method of organizing chinese characters
US9733724B2 (en) * 2008-01-13 2017-08-15 Aberra Molla Phonetic keyboards
CN101266520B (zh) * 2008-04-18 2013-03-27 上海触乐信息科技有限公司 一种可实现灵活键盘布局的系统
US20100149190A1 (en) * 2008-12-11 2010-06-17 Nokia Corporation Method, apparatus and computer program product for providing an input order independent character input mechanism
US8798983B2 (en) * 2009-03-30 2014-08-05 Microsoft Corporation Adaptation for statistical language model
US9104244B2 (en) * 2009-06-05 2015-08-11 Yahoo! Inc. All-in-one Chinese character input method
TWI468986B (zh) * 2010-05-17 2015-01-11 Htc Corp 電子裝置、其輸入方法與電腦程式產品
CN102314334A (zh) * 2010-06-30 2012-01-11 百度在线网络技术(北京)有限公司 一种用于缓存用户对应用程序输入的内容的方法和设备
US9465798B2 (en) * 2010-10-08 2016-10-11 Iq Technology Inc. Single word and multi-word term integrating system and a method thereof
SG184583A1 (en) * 2011-03-07 2012-10-30 Creative Tech Ltd A device for facilitating efficient learning and a processing method in association thereto
US8725497B2 (en) * 2011-10-05 2014-05-13 Daniel M. Wang System and method for detecting and correcting mismatched Chinese character
CN103106214B (zh) * 2011-11-14 2016-02-24 索尼爱立信移动通讯有限公司 一种候选词组输出方法和电子设备
CN103744535B (zh) * 2014-01-10 2017-01-18 李正才 同音五笔输入法
CN104808806B (zh) * 2014-01-28 2019-10-25 北京三星通信技术研究有限公司 根据不确定性信息实现汉字输入的方法和装置
CN104809102B (zh) * 2015-04-01 2018-10-16 北京奇虎科技有限公司 一种基于输入的显示候选词的方法和装置
CN105225546A (zh) * 2015-11-12 2016-01-06 顾珺 一种采集课堂教学过程数据的装置及系统
CN106991184A (zh) * 2017-03-29 2017-07-28 赵现隆 基于字型及笔划的汉字检索方法
CN107329585A (zh) * 2017-06-28 2017-11-07 北京百度网讯科技有限公司 用于输入文字的方法和装置
US12175888B2 (en) * 2020-10-20 2024-12-24 Holistic Language Solutions LLC Computerized method and apparatus for determining accuracy of written characters and stroke order and compliance with rules and providing visual and audio feedback
CN112598768B (zh) * 2021-03-04 2021-05-25 中国科学院自动化研究所 常用字体汉字笔画拆解方法、系统、装置
CN113342183A (zh) * 2021-06-30 2021-09-03 北京搜狗科技发展有限公司 一种输入方法、装置和用于输入的装置
US12260027B2 (en) 2021-12-29 2025-03-25 Aberra Molla Ethiopic single to three keystrokes typing

Family Cites Families (43)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4096934A (en) * 1975-10-15 1978-06-27 Philip George Kirmser Method and apparatus for reproducing desired ideographs
US4679951A (en) * 1979-11-06 1987-07-14 Cornell Research Foundation, Inc. Electronic keyboard system and method for reproducing selected symbolic language characters
US4379288A (en) * 1980-03-11 1983-04-05 Leung Daniel L Means for encoding ideographic characters
US4544276A (en) * 1983-03-21 1985-10-01 Cornell Research Foundation, Inc. Method and apparatus for typing Japanese text using multiple systems
US5164900A (en) * 1983-11-14 1992-11-17 Colman Bernath Method and device for phonetically encoding Chinese textual data for data processing entry
US5212638A (en) * 1983-11-14 1993-05-18 Colman Bernath Alphabetic keyboard arrangement for typing Mandarin Chinese phonetic data
CN1003890B (zh) * 1985-04-01 1989-04-12 安子介 安子介式汉字笔形电脑编码法及其键盘
US5175803A (en) * 1985-06-14 1992-12-29 Yeh Victor C Method and apparatus for data processing and word processing in Chinese using a phonetic Chinese language
US4951202A (en) * 1986-05-19 1990-08-21 Yan Miin J Oriental language processing system
CN1023916C (zh) * 1989-06-19 1994-03-02 张道政 简繁五笔字根汉字输入系统
CN1015218B (zh) * 1989-11-27 1991-12-25 郑易里 字根编码输入法及其设备
US5270927A (en) * 1990-09-10 1993-12-14 At&T Bell Laboratories Method for conversion of phonetic Chinese to character Chinese
CN1026525C (zh) * 1992-01-15 1994-11-09 汤建民 智能五笔双拼码计算机汉字输入方法
US5319386A (en) * 1992-08-04 1994-06-07 Gunn Gary J Ideographic character selection method and apparatus
US5410306A (en) * 1993-10-27 1995-04-25 Ye; Liana X. Chinese phrasal stepcode
US6014615A (en) * 1994-08-16 2000-01-11 International Business Machines Corporaiton System and method for processing morphological and syntactical analyses of inputted Chinese language phrases
SG42314A1 (en) * 1995-01-30 1997-08-15 Mitsubishi Electric Corp Language processing apparatus and method
US5999895A (en) * 1995-07-24 1999-12-07 Forest; Donald K. Sound operated menu method and apparatus
US5893133A (en) * 1995-08-16 1999-04-06 International Business Machines Corporation Keyboard for a system and method for processing Chinese language text
US5903861A (en) * 1995-12-12 1999-05-11 Chan; Kun C. Method for specifically converting non-phonetic characters representing vocabulary in languages into surrogate words for inputting into a computer
US5952942A (en) * 1996-11-21 1999-09-14 Motorola, Inc. Method and device for input of text messages from a keypad
US6292768B1 (en) * 1996-12-10 2001-09-18 Kun Chun Chan Method for converting non-phonetic characters into surrogate words for inputting into a computer
US6009444A (en) * 1997-02-24 1999-12-28 Motorola, Inc. Text input device and method
US6094634A (en) * 1997-03-26 2000-07-25 Fujitsu Limited Data compressing apparatus, data decompressing apparatus, data compressing method, data decompressing method, and program recording medium
EP1021804A4 (en) * 1997-05-06 2002-03-20 Speechworks Int Inc SYSTEM AND METHOD FOR DEVELOPING INTERACTIVE LANGUAGE APPLICATIONS
US6054941A (en) * 1997-05-27 2000-04-25 Motorola, Inc. Apparatus and method for inputting ideographic characters
US6005498A (en) * 1997-10-29 1999-12-21 Motorola, Inc. Reduced keypad entry apparatus and method
GB2333386B (en) * 1998-01-14 2002-06-12 Nokia Mobile Phones Ltd Method and apparatus for inputting information
AUPP665398A0 (en) * 1998-10-22 1998-11-12 Charactech Pty. Limited Chinese keyboard, input devices, methods and systems
US6362752B1 (en) * 1998-12-23 2002-03-26 Motorola, Inc. Keypad with strokes assigned to key for ideographic text input
US6801659B1 (en) * 1999-01-04 2004-10-05 Zi Technology Corporation Ltd. Text input system for ideographic and nonideographic languages
FI112978B (fi) * 1999-09-17 2004-02-13 Nokia Corp Symbolien syöttö
US6848080B1 (en) * 1999-11-05 2005-01-25 Microsoft Corporation Language input architecture for converting one text form to another text form with tolerance to spelling, typographical, and conversion errors
JP2001166868A (ja) * 1999-12-08 2001-06-22 Matsushita Electric Ind Co Ltd 数字キーパッドによる中国語ピンイン入力方法及び装置
US7277732B2 (en) * 2000-10-13 2007-10-02 Microsoft Corporation Language input system for mobile devices
US6982658B2 (en) * 2001-03-22 2006-01-03 Motorola, Inc. Keypad layout for alphabetic symbol input
KR20030005546A (ko) * 2001-07-09 2003-01-23 엘지전자 주식회사 휴대용 단말기의 한자 입력방법
US20070106492A1 (en) * 2001-07-18 2007-05-10 Kim Min K Apparatus and method for inputting alphabet characters
US7949513B2 (en) * 2002-01-22 2011-05-24 Zi Corporation Of Canada, Inc. Language module and method for use with text processing devices
US6864809B2 (en) * 2002-02-28 2005-03-08 Zi Technology Corporation Ltd Korean language predictive mechanism for text entry by a user
US7020849B1 (en) * 2002-05-31 2006-03-28 Openwave Systems Inc. Dynamic display for communication devices
CN102033615A (zh) * 2002-06-05 2011-04-27 苏荣斌 优化世界文字信息数字化运算编码输入方法及其信息处理系统
US20040163032A1 (en) * 2002-12-17 2004-08-19 Jin Guo Ambiguity resolution for predictive text entry

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105204617A (zh) * 2007-04-11 2015-12-30 谷歌股份有限公司 用于输入法编辑器集成的方法和系统
CN105204617B (zh) * 2007-04-11 2018-12-14 谷歌有限责任公司 用于输入法编辑器集成的方法和系统
CN101377727B (zh) * 2007-08-31 2011-11-09 捷讯研究有限公司 输入语音文本并输出改进查找窗口的手持电子设备及方法
CN107247705A (zh) * 2010-07-30 2017-10-13 库比克设计工作室有限责任公司 填空字补齐系统
CN107247705B (zh) * 2010-07-30 2021-03-30 库比克设计工作室有限责任公司 填空字补齐系统
CN103096154A (zh) * 2012-12-20 2013-05-08 四川长虹电器股份有限公司 基于传统遥控器的拼音输入方法
US10241753B2 (en) 2014-06-20 2019-03-26 Interdigital Ce Patent Holdings Apparatus and method for controlling the apparatus by a user
CN104317851A (zh) * 2014-10-14 2015-01-28 小米科技有限责任公司 词汇提示方法和装置
CN112331208A (zh) * 2020-09-30 2021-02-05 音数汇元(上海)智能科技有限公司 人身安全监控方法、装置、电子设备和存储介质

Also Published As

Publication number Publication date
TWI293455B (en) 2008-02-11
JP2005202917A (ja) 2005-07-28
WO2005013054A2 (en) 2005-02-10
WO2005013054A3 (en) 2007-11-01
US20050027534A1 (en) 2005-02-03
KR20050014738A (ko) 2005-02-07
TW200511208A (en) 2005-03-16
KR100656736B1 (ko) 2006-12-12
CN100549915C (zh) 2009-10-14

Similar Documents

Publication Publication Date Title
CN1648828A (zh) 去多义性语音输入系统和方法
US7395203B2 (en) System and method for disambiguating phonetic input
CN1279426C (zh) 去多义性的简化键盘系统
CN1113305C (zh) 语言处理装置和方法
CN1618173A (zh) 多义性文字输入的明确字符过滤
CN1232226A (zh) 句子处理装置及其方法
CN101067780A (zh) 智能设备的文字输入系统及方法
CN1387639A (zh) 语言输入用户界面
CN101038508A (zh) Gb拼音输入法
CA2496872C (en) Phonetic and stroke input methods of chinese characters and phrases
CN1187677C (zh) 计算机整句汉字局部笔划输入方法
CN1453692A (zh) 一种汉字拼形输入法的智能输入处理方法
CN1121645C (zh) 音形字理码汉字输入方法
CN1679023A (zh) 创建和使用中文语言数据和用户自纠正数据的方法和系统
CN1257445C (zh) 音义码汉字输入方法
CN1991743A (zh) 一种语音输入法方法及其装置
HK1081676A (zh) 去多義性語音輸入系統和方法
CN1156744C (zh) 元根码汉字输入方法
CN1838044A (zh) 中文拼音声调笔划组合输入法
CN1275732A (zh) 汉语键盘输入系统及其应用技术
CN1058342C (zh) 汉字编码的计算机输入方法
CN1374577A (zh) 英文字母键盘和数字键盘通用汉字电脑输入法及其键盘
CN1289078A (zh) 拼音汉字无重声调码和键盘设计方法与方案
CN1147809C (zh) 可以省略声调符号的汉字变换装置
CN1228565A (zh) 电脑文档自动检错、改错装置及方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 1081676

Country of ref document: HK

C14 Grant of patent or utility model
GR01 Patent grant
REG Reference to a national code

Ref country code: HK

Ref legal event code: WD

Ref document number: 1081676

Country of ref document: HK

CX01 Expiry of patent term

Granted publication date: 20091014

CX01 Expiry of patent term