CN1629789A - 信息处理装置和数据输入方法 - Google Patents
信息处理装置和数据输入方法 Download PDFInfo
- Publication number
- CN1629789A CN1629789A CN200410102278.6A CN200410102278A CN1629789A CN 1629789 A CN1629789 A CN 1629789A CN 200410102278 A CN200410102278 A CN 200410102278A CN 1629789 A CN1629789 A CN 1629789A
- Authority
- CN
- China
- Prior art keywords
- character string
- mentioned
- candidate
- speech recognition
- prediction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/02—Input arrangements using manually operated switches, e.g. using keyboards or dials
- G06F3/023—Arrangements for converting discrete items of information into a coded form, e.g. arrangements for interpreting keyboard generated codes as alphanumeric codes, operand codes or instruction codes
- G06F3/0233—Character input methods
- G06F3/0237—Character input methods using prediction or retrieval techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/19—Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
- G10L15/197—Probabilistic grammars, e.g. word n-grams
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
- Input From Keyboards Or The Like (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
本发明提供一种信息处理装置和数据输入方法。通过并用字符串的预测功能与语音识别实现合适的数据输入。例如,依据本发明的数据输入方法,预测由字符串输入装置所输入的字符串后续的字符串候选(S402),将所预测的字符串候选显示在显示装置上(S403),将在显示装置上所显示的字符串候选作为识别对象词,对由语音输入装置所输入的语音进行语音识别(S411),将成为该识别结果的字符串作为使用字符串来确认(S412)。
Description
技术领域
本发明涉及并用按键/按钮操作和语音识别功能的数据输入技术。
背景技术
数据输入是使用现行的许多信息设备时所希望的操作。
在我们日常所用的信息设备中可能输入最多的数据就是字符,字符输入一般会伴随键盘操作等繁琐的输入操作。特别地,按键与按钮数目有限的移动电话、PDA等小型便携终端装置的字符输入与具备很多按键的个人计算机相比,按键或按钮输入操作的次数变多。
为了提高这样的繁琐的字符串输入的效率,实现了具有输入预测功能(也称作自动完成功能或自动输入补足功能)的字符输入方法,该输入预测功能是将字符串输入至中途后,预测并提示(present)所输入的字符串后续的字符串的候选。
在使用输入预测功能时,如果在所提示的字符串的候选中有所希望的字符串,那么通过选择该字符串就能够完成字符串的输入。如果预测性能较高,那么无须输入整个字符串就能够完成字符串输入。另外,通过提示作为候选的字符串的假名-汉字转换后的候选字符串,还可以省略假名-汉字转换的操作。
目前提出了很多涉及用于这样的支持字符输入的字符串的输入预测的技术(例如,参考下面的专利文献1、2以及非专利文献1)。
[专利文献1]日本特开平08-235318号公报
[专利文献2]日本特开平08-2551558号公报
[非专利文献1]《POBox(Predictive Operation Based On eXample:基于实例的预测操作)》,URL:
http://www.csl.sony.co.jp/person/masui/OpenPOBox/index.html
另一方面,作为与上述输入预测不同的字符串输入的支持技术,有语音识别。若使用语音识别,就可以省去输入基本字符串的按键操作步骤,因此按键操作不熟练的人就可以以较快的速度输入字符串。而且,语音识别还可以提高按键数目有限的机器中的字符串输入效率。
输入预测技术是在近年来正在高性能化的移动电话、PDA等小型便携终端上实现的技术,虽然这是很便利的功能,但在所提示的字符串候选有多个时,就有用于选择所希望的字符串的操作将变得复杂的情况。特别是仅靠光标移动操作或滚动操作来选择字符串的情况下,要找到所希望的字符串必须反复进行光标位置移动的操作,在有多个候选提示的情况下,操作次数将变多。
另一方面,语音识别技术随着近年性能的改善,已经可以利用具有数万单词的语音输入软件,在办公室等比较安静的环境中用高性能的计算机合适地输入字符串了。然而,由于具有数万单词的语音识别需要大量计算机资源(CPU、存储器),因此即使在已经提高了性能的目前的小型便携终端也无法寄望于适当的操作。另外,现有的语音输入软件在背景杂音比较大的场所中还不能说具备充分的识别功能,所以在经常用于户外的小型便携终端上便不能够发挥其应有的性能。
如果考虑便携信息终端的使用环境及资源,要实现使用者没有给予重读的应答速度,最佳方法就是尽量减少识别单词数目,但简单地减少单词数目将会使识别率降低、没有校正操作便无法输入所希望的字符串。以现有这样的技术在小型便携终端上仅使用语音识别,想要输入适当的字符串还比较困难。
另外,还有其他问题,即,仅用语音的话,还不能识别同音不同书写的单词。例如:有以下的问题:对于语音输入“s∧n”,选择“son”和“sun”,这两者中的哪一个的书写(读音相同),仅用该语音输入就不能够做出判断。
发明内容
本发明的目的在于,通过并用字符串的预测功能和语音识别功能,来实现适当的数据输入。
本发明的一个方面的信息处理装置通过具有以下结构解决上述问题。该信息处理装置,包括:预测已输入的字符串的后续的字符串候选的预测装置;对由上述预测装置预测出的上述字符串候选的显示进行控制的显示控制装置;以上述所显示的上述字符串候选作为识别对象词,对所输入的语音进行语音识别的语音识别装置;以及将成为由上述语音识别装置获得的识别结果的字符串确认为使用字符串的确认装置。
本发明的另一方面的信息处理装置的数据输入方法,包括:预测由字符串输入装置所输入的字符串的后续的字符串候选的预测步骤;控制将由上述预测步骤预测的字符串候选显示在显示装置的显示控制步骤;将在上述显示装置上所显示上述字符串候选作为识别对象词、对由语音输入装置所输入的语音进行语音识别的语音识别步骤;以及将成为由上述语音识别步骤获得的识别结果的字符串作为使用字符串来确认的确认步骤。
本发明的其他目的、特征和优点,可以通过下面的参照附图进行的说明而得到明确。在这些附图中,相同的标号表示相同或类似的部分。
附图说明
附图包括在说明书中并结构说明书的一部分,用于说明本发明的实施例,并与说明书一起用于说明本发明的原理。
图1是表示在实施方式中的移动电话结构的框图。
图2是表示关于在实施方式中的移动电话的字符串输入的处理的功能结构的框图。
图3表示的是实施方式中的输入装置的按钮配置图例。
图4是表示在实施方式中的字符串输入处理的流程的流程图。
图5表示的是在字符串输入处理中的显示装置的显示内容的转移的图。
图6是表示确认识别结果之后确认字符串时的处理的流程的流程图。
图7是说明选择字符串时的语音识别产生了识别错误时的处理的图。
图8是表示提示在第3实施方式中的字符串候选的处理的流程的流程图。
图9是说明在第3实施方式中的字符串候选的提示例子的图。
图10是表示提示字符串候选与读法的例子。
具体实施方式
下面将参照附图,详细说明本发明的优选实施方式。
(第1实施方式)
下面是表示将本发明的数据输入装置应用在移动电话的例子。但是,本发明不仅仅限于移动电话,对于PDA等便携式终端、个人计算机等的所有需要用户输入字符的信息处理装置,本发明都可以适用。
图1是表示本实施方式的移动电话的结构的框图。
在图1中,101是控制存储器(ROM)、102是中央处理装置(CPU)、103是存储器(RAM)、104是外部存储装置、105是按键或按钮等输入装置、106是液晶监视器等显示装置、107是声音输入装置(麦克风)、108是语音输出装置(扬声器)、109是总线。如图所示,在外部存储装置104中存储有:用于实现本实施方式的移动电话的控制程序110、用于字符串预测的字符串预测数据209、以及以声音样式为代表的、实施语音识别时所需要的语音识别用数据210等。例如,字符串预测数据209就是由假名汉字转换辞典、使用者的字符输入经历等构成。这些控制程序110、数据209、210在CPU102的控制下,经由总线109存储到RAM103,由CPU102执行。不言而喻,这些不仅可以存储在外部存储装置104,也可以存储在ROM101。
图2是表示关于本实施方式的移动电话的字符串输入的处理的功能结构的框图。
操作输入部201检测以使用者用输入装置105进行的字符输入为代表的按键等的操作。
字符串候选预测部202参照字符串预测用数据209,对使用者已输入的字符串所后续的字符串的候选进行预测。
提示方法确定部203确定所预测的字符串的候选的提示方法。
候选分类部204按照所确定的提示方法,将所预测的字符串的候选分类为多个组。
字符串候选提示部205按照所确定的提示方法,将字符串的候选显示在显示装置106。
其他候选通知部206在提示候选字符串被分成多个组的情况下,通知使用者除了所提示的字符串候选以外还有其他候选。
候选切换部207在将候选字符串分成多个组来进行提示的情况下,检测使用者将所提示的字符串的候选切换成其他字符组的操作,并切换所提示的候选字符组。
语音识别部208进行将由候选字符串提示部205所提示的字符串的候选作为识别对象词的语音识别。识别对象词的读法参照字符串预测用数据209来确定。
语音合成部211在以语音进行向使用者的数据的提示或各种通知的情况下,来生成合成音。
字符串选择方法提示部212向使用者提示从所提示的字符串候选中选择所希望的字符串的方法。
选择方法确定部213检测使用者选择字符串的选择方法的操作,并确定字符串的选择方法。
控制部200对以上的各模块进行控制,并总括涉及字符输入的所有的处理。
图3是表示在输入装置105中的按钮配置例子的图。
301、302是配置于同心圆上的2个按钮,外圈301主要用于以上下左右指示光标移动的移动方向的操作。在以下的说明中用“↑”、“↓”、“←”、“→”来标记。内圈中央按钮302主要用于确认字符选择时所选择的候选的操作。以下用“●”来表示。303~306是随字符串处理的处理过程的状态转移而改变作用的按钮,以下分别用“★”、“*”、“#”来表示。
下面用图4和图5对本实施方式的字符串输入处理进行说明。图4是表示本实施方式的字符串输入处理的流程的流程图;图5是表示该字符串输入处理中的显示装置106的显示内容的转移的图。此外,由于运用现有的技术能够作到字符串的候选的预测及语音识别,所以这里就省略详细的说明。
这里对使用者输入“Thank you so much.”这样的字符串的情况进行说明,假定使用者已经输入“Thank you”,接着将要输入“so”。
在已经输入了“Thank you”的阶段,显示装置106的显示内容如图5的510所示。
使用者输入用于输入“so”的第一个字符“s”(步骤S401)。输入操作部201若检测出该“s”的输入,字符串候选预测部202就参照字符串预测用数据209,预测接着“s”的字符串的候选(步骤S402)。字符串预测用数据209如上述的那样,例如,是利用了表示平假名与汉字的对应关系的假名汉字转换辞典及使用者过去的字符输入经历等的数据。另外,由于在移动电话中,通常一个按钮分担着多个字符,所以,在按一次“PQRS”按钮的阶段,可以将以字符“p”、“q”、“r”、“s”开始的字符串作为字符串候选来进行预测。
所预测的字符串候选由字符串候选提示部205提示给输出装置106(步骤S403)。这时,提示方法确定部203可以对字符串的提示顺序进行规定。例如,在作为字符串预测用数据209使用使用者过去的字符输入经历的情况下,可以参照此经历,按字符串的使用频率的顺序进行显示,或者,从最近所输入的字符串开始依次进行显示。另外,在所预测的字符串的候选数目比较多的情况下,可以用上述的标准确定提示顺序,只是显示预定数目的字符串候选。另外,作为其他方法,从提示候选字符串的画面区域推断出可以提示的字符串候选数目,可以只按该数目显示字符串候选。另外,在步骤S403中,提示了字符串候选的选择方法的同时,还由字符串选择方法提示部212提示字符串选择的方法。
在此,在步骤402中,继续说明以下情况:对于“s”的输入,预测作为字符串候选的“safe”、“save”、“say”、“see”、“so”、“show”、“step”。另外,在本实施方式中,说明能够对通过语音识别选择字符串和通过按键操作选择字符串进行并用的情况。
图5的502表示已提示所预测的字符串候选的情形。在该例子中,将画面分成2部分,在字符输入画面521显示正在输入的字符串,在字符串选择画面522显示字符串候选。另外,伴随字符串的候选的显示,显示用于指定字符串选择方法提示部212的字符串的选择方法的操作按钮引导523。此外,为了表示目前的操作对象是正在进行字符输入的画面,就对字符输入画面增强亮度,例如变换背景颜色等。以上的字符串候选的提示及操作按钮引导的附加显示由提示方法确定部203来控制。
在步骤S404中,在所提示的字符串候选中没有使用者所希望的字符串时,就返回步骤S401,继续输入字符串;在出现所希望的字符串时,就进入步骤S405。
在步骤S405中,转移至使用者选择所希望的字符串的操作。在使用者利用语音识别的情况下,就进入步骤S409;在利用按钮操作的情况下,就进入步骤S406。
首先,说明以按钮操作进行选择的情况。使用者进行用于通过按钮操作来选择字符串的操作(步骤S406)。该操作可以由选择方法确定部213检测,并通过按钮操作来实施以下的字符串的选择。在本实施方式中,通过按压图3的304所示的“★”来选择按钮操作。图5的530表示选择了按钮选择时的显示内容。在530中,为了表示操作对象向显示了字符串候选的画面转移,画面的高亮度区域由字符输入画面向字符串选择画面转移,在字符选择画面的第一个字符串候选“safe”的位置上显示光标。另外,这时将“★”按钮的功能变更为“返回(将操作对象返回到字符输入画面)”。
接下来,使用者通过按钮操作选择所希望的字符串(步骤S408)。在图5中,为了选择目标字符串“so”,使用者按压图3的301的“↓”、“→”按钮来将光标的位置移到“so”。540、550所显示的就是此期间的画面的转移。
下面,在步骤S408中,将进行使用者确认使用字符串的操作。在显示550的状态下,使用者按压302的“●”按钮后,处于备选字符串的“so”就作为使用字符串确认。560显示的是字符串“so”被确认后的画面。以上是通过按钮操作来选择所预测的字符串候选的情况的处理。
下面,说明在步骤S405中使用者选择了使用语音识别的情况。进行使用者选择语音识别的字符串选择的操作(步骤S409)。该操作由选择方法确定部213检测,通过语音识别进行后续的字符串的选择。
在本实施方式中,通过按压
按钮303,来选择语音识别。在图5的520中,使用者按压
按钮后,画面的高亮度区域就从字符输入画面转移到字符选择画面。另外,在选择了语音识别的情况下,由于不通过光标移动来进行字符选择,所以在字符选择画面中不显示光标。下面,使用者对所希望的字符串“so”进行发声(步骤S410)。语音识别部208对该使用者的发声进行语音识别(步骤S411),所得到的识别结果将作为使用字符串被确认(步骤S412)。在步骤S412中的语音识别只是将由字符串候选提示部205所提示的字符串作为识别对象词。此外,这些识别对象词的读法将参照字符串预测用数据209,由语音识别部205来确定。用从图5的570到560的转移来表示通过语音识别选择字符串的情况的显示画面的转移。
这样,依照本实施方式,能够显示采用输入装置105所输入的字符的后续的字符串候选,通过语音识别,从该候选字符串中选择出使用字符串,这就可以大大简化繁琐的按钮操作。另外,由于这里所进行的语音识别仅仅把所显示的字符串候选作为识别对象词,所以该语音识别处理只需要很少的运算量就可完成。因此,即使在将这种语音识别以例如小型便携终端等来实现的情况下,也可以保持很高的识别率、并以很快的速度完成操作。
(第2实施方式)
在上述的第1实施方式中,在步骤S412中,表示了用户没有检查步骤S411的语音识别结果,而确认使用字符串的例子,但是,在这种情况下,如果错误地语音识别了与所希望的字符串不一样的字符串,错误字符串就会作为使用字符串被确认。为了避免这种情况,就必须具备检查识别结果的步骤。因此,在本实施方式中,用图6说明检查识别结果之后确认使用字符串的例子。
图6是表示进行识别结果检查之后确认使用字符串的情况的处理的流程的流程图,它仅表示的是代替图4的流程图中的D~E之间所进行的S410~S412的处理块。其他处理块与第1实施方式一样,所以省略说明,这里仅对与图4不同的D~E之间的处理部分进行说明。
与第1实施方式中的说明同样,使用者对发出所希望的字符串“so”进行发声之后(步骤S601),语音识别部208就会对此进行识别(步骤S602),并提示识别结果(步骤S603)。由此,使用者就能够判断结果的正误(步骤S604)。在识别结果错误的情况下,就返回步骤S601、再次对所希望的词“so”进行发声(步骤S601)。只要得不到正确的结果,就反复进行步骤S601~S604,直到得到正确的识别结果为止。在步骤S604中,在得到了正确识别结果的情况下,不进行使用者确认字符串的操作,而是用得到的识别结果确认字符串(步骤S605)。
图7表示采用了本实施方式情况的画面显示的转移。
图7表示在输入与第1实施方式同样的“Thank you so much.”的“so”的情况下,字符串选择时的语音识别产生了识别错误的情况。
710是确认了到“Thank you”为止的状态,在此,使用者输入“s”后,就与第1实施方式一样、提示从“s”预测出的字符串的候选(720)。在这里,使用者为了用语音识别来进行字符串选择,就按压
按钮,开始进行语音识别(730)。对于使用者的“so”的发声,错误地识别成“show”的情况的步骤S603中的显示是704。该显示例子是通过光标在提示的字符串候选中与识别结果对应的字符串上移动(对字符串画出下划线)来提示识别结果的例子。识别结果的提示方法不限于此,例如也可以在识别结果中对该字符串进行反向显示来提示识别结果。由于所提示的结果“show”不是目标“so”,所以使用者再次对“so”进行发声(步骤S604、否→S601)。第二次发声被正确识别、就将提示作为识别结果“so”的情形表示在750(S602、S603)。因为识别结果正确,所以使用者按压“●”按钮确认字符串(S604、是→S605)。确认该字符串后,就与第1实施方式一样,取消显示已预测字符串候选的画面,返回输入字符的画面(760)。
这样,依据本实施方式,能够做到,在字符串选择时的语音识别产生识别错误时,使用者将再次发声,直到正确地识别为止,并能够使识别错误的纠正操作简单易行。
(第3实施方式)
在上述的实施方式中,只是提示所有预测的字符串候选,或在字符串候选数目很多的情况下提示预定数目的字符串候选,而没有特别考虑在所预测的字符串候选中具有相同读法的字符串候选数目较多时的提示方法。在本实施方式中,对考虑了该问题的字符串候选的提示进行说明。
本实施方式的特征在于,在预测的字符串候选数目较多、或者字符串候选中具有相同读法的字符串候选时,将字符串候选分成多个组,分多次提示字符串候选。下面,就用图8对其处理进行详细说明。
图8是表示本实施方式中的提示字符串候选的处理的流程的流程图。该流程图表示的是图4的一部分,所以图8只表示代替图4的流程图中的A~B之间的步骤S403、S404的处理块。其他的处理块的内容与第1实施方式一样,所以在此省去说明,在此仅说明与图4不同的A~B之间的处理部分。不言而喻,本实施方式将组合第2实施方式中说明的处理。
首先,在步骤S801中判断在图4的步骤S402中所预测的字符串候选的个数是否多于预定数目N。如果字符串候选比N多,就进行要将字符串候选分成多个组来提示的步骤S803的处理。在这里,N是一次提示的候选数目,该数目可以预先确定,或者可以在每次提示字符串的时候根据所预测的字符串候选的字符数以及可以提示的显示区域的大小来求出可以提示的候选数目。
候选数目在小于或等于N的情况下,进入步骤S802。在这里判断是否存在音同而书写不同的字符串。例如:在字符串候选中存在“stake”和“steak”这样的读法相同的字符串候选时,由于语音识别不能够按一个意思选择字符串,因此在步骤S803以后的处理中将进行把字符串候选分成多个来提示的处理。以上的字符串候选的提示方法由提示方法确定部203来确定。另外,在候选数目小于或等于N、且字符串候选中不存在具有相同读法的字符串的情况下,就进入步骤S808、S809,但是,由于这些处理分别与图4的S403、S404的处理相同,故在此省略说明。上述的步骤S801和S802的判断处理由提示方法确定部203进行。
在步骤S808中,通过候选分类部204将字符串候选分成多个组。分类时,例如,可以从使用频率高的字符串候选中按顺序平均抽出N个来分成多个组,或者可以按字母序列顺序排列、把字符串候选按该顺序平均抽出N个来分组。但是,这种分类是为了使同一组中不包含相同读法的字符串候选。另外,作为其他方法,优选的是,为了提高后段处理进行的语音识别的精确度,而使用将各组内的候选字符串的声音分离度变高的分类标准。
下面,在步骤S804中,就对使用者选择提示组。这时,如果是按照使用频率分类的情况,就选择使用频率最高的组。如果是按字母序列顺序分类的情况,同样,选择按字母序列顺序的第一组。在以声音的分离度为标准的情况,就选择声音的分离度最高的组。
接下来进入步骤S805,将字符串候选提示部205所选择的组的字符串候选提示在显示装置106上,并且,其他候选通知部206将在所提示的字符串候选以外还存在字符串候选的情形通知给使用者。另外,与第1实施方式一样,字符串的选择方法由字符串选择方法提示部212来提示。
在步骤S806中,使用者判断在所提示的字符串候选中是否存在所希望的字符串。这里,如果所提示的字符串候选中存在使用者所希望的字符串,就进入图4的S405,与第1实施方式一样,从所提示的字符串候选中选择所希望的字符串。另一方面,如果所提示的字符串候选中没有使用者所希望的字符串,那么在步骤S807中,如果使用者未选择其他组,就返回图4的步骤S401,进行之后的字符的输入。在此,如果使用者选择了其他组,候选切换部207就检测使用者的组选择的操作,将提示的候选切换到使用者所选择的组,返回S805反复进行同样的步骤。
将伴随以上的实施方式所述的步骤,在所预测的字符串候选中存在具有相同读法的字符串候选的情况的字符串候选的提示例子和切换提示的候选情形表示在图9。
图9表示使用者要输入“I want to have steak”,为了接着“I want tohave”输入“steak”,而输入了“st”时的字符串候选的提示例子。在这里,一次提示的字符串的候选数目为N,并设定N=8。
910表示确认了到“I want to have”为止的情形。接着,使用者输入“st”后,得到了5个字符串候选“stack”、“stadium”、“stake”、“star”、“steak”(S401~S402)。因为设定N=8,所以转移到步骤S802。由于所预测的字符串候选中有读法相同的“stake”和“steak”这2个候选字符串(步骤S802),所以,按字母序列顺序将字符串候选分成“stack、stadium、stake、star”和“steak”这两个组,以使“stake”和“steak”位于不同的组(步骤S803)。
按字母序列的顺序将刚才的组“stack、stadium、stake、star”作为提示组选出(步骤S804),并将所选择的字符串候选提示给使用者(步骤S805)。同时,由其他候选通知部206通知除了所提示的字符串候选之外还有其他候选(步骤S805)。920表示该情形。921的“#下一个”就是由其他候选通知部206做出通知的例子。
此时,由于没有提示出所希望的字符串“steak”,所以使用者为了看见其他的候选,就按压“#”按钮,来选择其他的候选(步骤S806)。候选切换部207检测使用者所进行的候选切换的操作,提示使用者所选择的下一个候选、即下一个组(“steak”),并选择该字符串候选(步骤S804)。向使用者提示“steak”的例子是930。由于提示的“steak”之外还有最初提示的组的候选字符串,所以在921所表示的“#下一个”之外,922表示“*返回”,这样就提示出还有其他的字符串候选(步骤S805)。下面,通过第1实施方式或第2实施方式所表示的步骤,从所提示的字符串候选中进行字符串的选择和确认处理。
这样,依照本实施方式,在所预测的字符串候选中含有同音不同书写的单词的情况下,由于将字符串候选分组,使得同音不同书写的单词被分别分成不同的组,对每个组提示字符串候选,所以,能够按每个组将识别结果规定为一个意思,并能够省去使用者的选择操作。
除此之外,在上述的实施方式中,在提示所预测的字符串候选时,在预测的字符串候选中存在多个如“read(/ri:d/)”和“read(/red/)”这样的读法不同的同一字符串的情况下,可以在提示方法确定部203中只选择一个来提示。此时,也可以选择具有比其他字符串候选的读法的声音分离度高的字符串候选。例如:“read(/ri:d/)”、“read(/red/)”、“red(/red/)”存在于所预测的字符串候选中的情况下,由于“read(/red/)”与“red(/red/)”读法相同(由于声音上完全相同,所以声音分离度为0),所以从“read(/red/)”和“read(/ri:d/)”中选择“read(/ri:d/)”,来提示作为字符串候选的“read(/ri:d/)”和“red(/red/)”。
通过进行这样的处理,能够省去使用者的选择操作。
(其他实施方式)
在以上的实施方式中,在提示预测的字符串候选时,仅仅提示了字符串,但是,不限于此,例如:像日语那样,在字符串有读法的时候,可以将字符串候选与各字符串候选的读法一并地提示。另外,也可以在只有假名的字符串候选的书写与读法不同的情况下,对该字符串候选提示读音。此外,也可以将字符串候选和把其翻译成其他语言的译文一并提示。
图10表示提示日语的字符串候选及其读法的例子。1001是对所有的字符串候选提示了读法时的例子。1002是在字符串候选中只对含有平假名和汉字的字符串候选提示了读法而对含有片假名的字符串候选不提示读法的例子。例如:字符串“アイデイア”全是由片假名字符构成的,所以不提示读法。不过也有例外。1003是在只有平假名/片假名的字符串候选的书写与读法不同的情况下,对该字符串候选提示读音的例子。例如:字符串“キヤノン”仅由片假名构成,但由于读法为“/kyanon/”,所以提示该读法。
在以上说明的实施方式中,对在显示装置106中显示字符串候选的提示、识别结果提示以及存在其他候选的通知的情况进行说明,但是,不仅限于此,也可以利用语音合成部211合成语音,从语音输出装置使用语音提示字符串候选。
另外,在以上说明的实施方式中,作为本发明的一个实施方式,对字符串输入进行了说明,但是,不限于此,例如,也可以在用图像上所添加的名称来输入图像数据时等,在输入其他方式的数据的装置上进行实施。
如上所述,本发明的数据输入装置综合了可输入的数据的预测和语音识别这两个功能,利用语音识别从所预测的数据候选选择所希望的数据,由此,可以进行比只使用数据预测或只使用语音识别的数据输入大大提高了效率的数据输入。
此外,在所预测的数据候选中存在多个相同读法的数据的情况下,通过将这些数据分成多个组来提示、使一次提示的候选数据中不再具有读法相同的数据,由此,就能够利用语音识别按一个意思选择出所希望的数据,这样就提高了对数据输入采用语音识别时的便利性。
另外,在上述的实施方式中,仅说明了将所显示的字符串候选作为识别对象词的例子,但是,本发明不限于此,在所预测的字符串候选中,也可以将没有显示的字符串作为识别对象词。
在不脱离本发明的精神和范围的前提下,可以有许多明显不同的实施方式,因此,可以理解为,本发明不限于上述具体实施方式,而是用下面的权利要求中来限定。
Claims (8)
1.一种信息处理装置,包括:
预测已输入的字符串的后续的字符串候选的预测装置;
对由上述预测装置预测出的上述字符串候选的显示进行控制的显示控制装置;
以上述所显示的上述字符串候选作为识别对象词,对所输入的语音进行语音识别的语音识别装置;以及
将成为由上述语音识别装置获得的识别结果的字符串确认为使用字符串的确认装置。
2.根据权利要求1所述的信息处理装置,其特征在于:
还具有控制装置,控制上述显示控制装置和上述语音识别装置,以便为了让使用者确认识别结果的正误,在由上述显示控制装置显示的字符串候选中,突出显示成为由上述语音识别装置获得的识别结果的字符串,在这种状态下对再次输入的发声进行语音识别。
上述确认装置在上述控制装置的控制下,将检测出已按压了预定的按钮的时刻的识别结果,确认为使用字符串。
3.根据权利要求1所述的信息处理装置,其特征在于:
还具有分类装置,在由上述预测装置预测出的字符串候选中含有同音不同书写的单词时,将上述字符串候选分成多个组,使得该各个同音不同书写的单词被分到不同的组;
上述显示控制装置,控制按由上述分类装置所分类的每个组显示上述字符串候选。
4.根据权利要求1所述的信息处理装置,其特征在于:
上述语音识别装置,根据在上述预测装置中所使用的字符串预测用数据,来确定识别对象词的读法。
5.一种信息处理装置的数据输入方法,包括:
预测由字符串输入装置所输入的字符串的后续的字符串候选的预测步骤;
控制将由上述预测步骤预测的字符串候选显示在显示装置的显示控制步骤;
将在上述显示装置上所显示上述字符串候选作为识别对象词、对由语音输入装置所输入的语音进行语音识别的语音识别步骤;以及
将成为由上述语音识别步骤获得的识别结果的字符串作为使用字符串来确认的确认步骤。
6.根据权利要求5所述的数据输入方法,其特征在于:
还具有控制步骤,控制上述显示控制步骤和上述语音识别步骤,以便为了让使用者确认识别结果的正误,在由上述显示装置所显示的字符串候选中,突出显示在上述语音识别步骤中成为识别结果的字符串,在这种状态下对再次输入的发声进行语音识别。
上述确认步骤在上述控制步骤的控制下,将检测出已按压了预定的按钮的时刻的识别结果作为使用字符串来确认。
7.根据权利要求5所述的数据输入方法,其特征在于:
还具有分类步骤,在由上述预测步骤所预测的字符串候选中含有同音不同书写的单词时,将上述字符串候选分成多个组,使得将该同音不同书写的单词分别分成不同的组;
上述显示控制步骤控制按由上述分类步骤所分类的每个组将上述字符串候选显示在上述显示装置。
8.根据权利要求5所述的数据输入方法,其特征在于:
上述语音识别步骤,根据在上述预测步骤中所使用的字符串预测用数据,来确定识别对象词的读法。
Applications Claiming Priority (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP418645/2003 | 2003-12-16 | ||
| JP2003418645A JP4012143B2 (ja) | 2003-12-16 | 2003-12-16 | 情報処理装置およびデータ入力方法 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| CN1629789A true CN1629789A (zh) | 2005-06-22 |
Family
ID=34510622
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| CN200410102278.6A Pending CN1629789A (zh) | 2003-12-16 | 2004-12-15 | 信息处理装置和数据输入方法 |
Country Status (4)
| Country | Link |
|---|---|
| US (1) | US20050131686A1 (zh) |
| EP (1) | EP1544719A3 (zh) |
| JP (1) | JP4012143B2 (zh) |
| CN (1) | CN1629789A (zh) |
Cited By (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN103581275A (zh) * | 2012-08-09 | 2014-02-12 | 腾讯科技(深圳)有限公司 | 一种浏览器地址栏智能提示算法的离线测试方法和系统 |
| CN103885662A (zh) * | 2012-12-20 | 2014-06-25 | 联想(北京)有限公司 | 辅助语音输入的方法和装置 |
| CN104715005A (zh) * | 2013-12-13 | 2015-06-17 | 株式会社东芝 | 信息处理设备以及方法 |
| CN110942772A (zh) * | 2019-11-21 | 2020-03-31 | 新华三大数据技术有限公司 | 一种语音样本收集方法及装置 |
Families Citing this family (33)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US7080325B2 (en) * | 2002-02-22 | 2006-07-18 | Call-Tell Llc | Graphical device for comprehensive viewing and input of variable data via a browser-based display |
| US7363224B2 (en) | 2003-12-30 | 2008-04-22 | Microsoft Corporation | Method for entering text |
| JP4027357B2 (ja) * | 2004-10-08 | 2007-12-26 | キヤノン株式会社 | 文字列入力装置およびその制御方法 |
| US20070180384A1 (en) * | 2005-02-23 | 2007-08-02 | Demetrio Aiello | Method for selecting a list item and information or entertainment system, especially for motor vehicles |
| US7506254B2 (en) * | 2005-04-21 | 2009-03-17 | Google Inc. | Predictive conversion of user input |
| US7516418B2 (en) * | 2006-06-01 | 2009-04-07 | Microsoft Corporation | Automatic tracking of user data and reputation checking |
| US8542927B2 (en) * | 2008-06-26 | 2013-09-24 | Microsoft Corporation | Character auto-completion for online east asian handwriting input |
| KR101502003B1 (ko) * | 2008-07-08 | 2015-03-12 | 엘지전자 주식회사 | 이동 단말기 및 그 텍스트 입력 방법 |
| WO2011064829A1 (ja) * | 2009-11-30 | 2011-06-03 | 株式会社 東芝 | 情報処理装置 |
| CN102193641B (zh) * | 2010-03-09 | 2014-06-18 | 阿里巴巴集团控股有限公司 | 字符输入过程中的待选字符显示方法及装置 |
| DE112011105279B4 (de) * | 2011-05-24 | 2020-09-17 | Mitsubishi Electric Corporation | Zeicheneingabevorrichtung und mit einer Zeicheneingabevorrichtung ausgestattete Fahrzeugnavigationsvorrichtung |
| JP2013019958A (ja) * | 2011-07-07 | 2013-01-31 | Denso Corp | 音声認識装置 |
| US9620122B2 (en) * | 2011-12-08 | 2017-04-11 | Lenovo (Singapore) Pte. Ltd | Hybrid speech recognition |
| US8818791B2 (en) * | 2012-04-30 | 2014-08-26 | Google Inc. | Techniques for assisting a user in the textual input of names of entities to a user device in multiple different languages |
| US9147275B1 (en) * | 2012-11-19 | 2015-09-29 | A9.Com, Inc. | Approaches to text editing |
| US9043349B1 (en) | 2012-11-29 | 2015-05-26 | A9.Com, Inc. | Image-based character recognition |
| CN103076893B (zh) * | 2012-12-31 | 2016-08-17 | 百度在线网络技术(北京)有限公司 | 一种用于实现语音输入的方法与设备 |
| JP6100101B2 (ja) * | 2013-06-04 | 2017-03-22 | アルパイン株式会社 | 音声認識を利用した候補選択装置および候補選択方法 |
| US9898586B2 (en) * | 2013-09-06 | 2018-02-20 | Mortara Instrument, Inc. | Medical reporting system and method |
| JP6427755B2 (ja) | 2014-02-24 | 2018-11-28 | パナソニックIpマネジメント株式会社 | データ入力装置、データ入力方法、プログラム及び車載機 |
| JP6526399B2 (ja) * | 2014-09-10 | 2019-06-05 | シャープ株式会社 | 音声対話装置、音声対話装置の制御方法、および制御プログラム |
| WO2016103988A1 (ja) * | 2014-12-26 | 2016-06-30 | ソニー株式会社 | 情報処理装置、情報処理方法およびプログラム |
| JP6135692B2 (ja) * | 2015-02-18 | 2017-05-31 | 富士通株式会社 | 候補表示プログラム、候補表示方法および候補表示装置 |
| BR112018009795A8 (pt) * | 2015-11-18 | 2019-02-26 | Bolymedia Holdings Co Ltd | dispositivo de entrada |
| JP6070809B1 (ja) * | 2015-12-03 | 2017-02-01 | 国立大学法人静岡大学 | 自然言語処理装置及び自然言語処理方法 |
| JP6848881B2 (ja) * | 2015-12-16 | 2021-03-24 | ソニー株式会社 | 情報処理装置、情報処理方法、及びプログラム |
| EP3474276A4 (en) * | 2016-06-15 | 2019-07-31 | Sony Corporation | INFORMATION PROCESSING DEVICE AND INFORMATION PROCESSING METHOD |
| US10607606B2 (en) | 2017-06-19 | 2020-03-31 | Lenovo (Singapore) Pte. Ltd. | Systems and methods for execution of digital assistant |
| KR102592907B1 (ko) * | 2018-06-22 | 2023-10-23 | 삼성전자주식회사 | 텍스트 입력 디바이스 및 그 방법 |
| JP7159756B2 (ja) * | 2018-09-27 | 2022-10-25 | 富士通株式会社 | 音声再生区間の制御方法、音声再生区間の制御プログラムおよび情報処理装置 |
| EP3931826B1 (en) | 2019-08-13 | 2025-06-11 | Samsung Electronics Co., Ltd. | Server that supports speech recognition of device, and operation method of the server |
| WO2021029643A1 (en) | 2019-08-13 | 2021-02-18 | Samsung Electronics Co., Ltd. | System and method for modifying speech recognition result |
| WO2021029642A1 (en) | 2019-08-13 | 2021-02-18 | Samsung Electronics Co., Ltd. | System and method for recognizing user's speech |
Family Cites Families (20)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US5712957A (en) * | 1995-09-08 | 1998-01-27 | Carnegie Mellon University | Locating and correcting erroneously recognized portions of utterances by rescoring based on two n-best lists |
| US5917890A (en) * | 1995-12-29 | 1999-06-29 | At&T Corp | Disambiguation of alphabetic characters in an automated call processing environment |
| US5953541A (en) * | 1997-01-24 | 1999-09-14 | Tegic Communications, Inc. | Disambiguating system for disambiguating ambiguous input sequences by displaying objects associated with the generated input sequences in the order of decreasing frequency of use |
| DE19709518C5 (de) * | 1997-03-10 | 2006-05-04 | Harman Becker Automotive Systems Gmbh | Verfahren und Vorrichtung zur Spracheingabe einer Zieladresse in ein Zielführungssystem im Echtzeitbetrieb |
| US6006183A (en) * | 1997-12-16 | 1999-12-21 | International Business Machines Corp. | Speech recognition confidence level display |
| JP4438028B2 (ja) * | 1998-07-27 | 2010-03-24 | キヤノン株式会社 | 情報処理装置及びその方法、及びそのプログラムを記憶した記憶媒体 |
| US6801659B1 (en) * | 1999-01-04 | 2004-10-05 | Zi Technology Corporation Ltd. | Text input system for ideographic and nonideographic languages |
| KR20120006569A (ko) * | 1999-10-27 | 2012-01-18 | 피루쯔 가사비안 | 일체화된 키패드 시스템 |
| US7149970B1 (en) * | 2000-06-23 | 2006-12-12 | Microsoft Corporation | Method and system for filtering and selecting from a candidate list generated by a stochastic input method |
| JP3705735B2 (ja) * | 2000-08-29 | 2005-10-12 | シャープ株式会社 | オンデマンド・インタフェース装置とそのウィンドウ表示装置 |
| US7013258B1 (en) * | 2001-03-07 | 2006-03-14 | Lenovo (Singapore) Pte. Ltd. | System and method for accelerating Chinese text input |
| JP4601953B2 (ja) * | 2001-07-12 | 2010-12-22 | ガーサビアン、ベンジャミン、フィルーツ | 小型データ入力ユニットを介したデータ入力を強化する特徴 |
| US7225130B2 (en) * | 2001-09-05 | 2007-05-29 | Voice Signal Technologies, Inc. | Methods, systems, and programming for performing speech recognition |
| US7124085B2 (en) * | 2001-12-13 | 2006-10-17 | Matsushita Electric Industrial Co., Ltd. | Constraint-based speech recognition system and method |
| US7315613B2 (en) * | 2002-03-11 | 2008-01-01 | International Business Machines Corporation | Multi-modal messaging |
| JP3814566B2 (ja) * | 2002-06-20 | 2006-08-30 | キヤノン株式会社 | 情報処理装置、情報処理方法、制御プログラム |
| WO2004053836A1 (en) * | 2002-12-10 | 2004-06-24 | Kirusa, Inc. | Techniques for disambiguating speech input using multimodal interfaces |
| US20050049858A1 (en) * | 2003-08-25 | 2005-03-03 | Bellsouth Intellectual Property Corporation | Methods and systems for improving alphabetic speech recognition accuracy |
| US6983244B2 (en) * | 2003-08-29 | 2006-01-03 | Matsushita Electric Industrial Co., Ltd. | Method and apparatus for improved speech recognition with supplementary information |
| US7363224B2 (en) * | 2003-12-30 | 2008-04-22 | Microsoft Corporation | Method for entering text |
-
2003
- 2003-12-16 JP JP2003418645A patent/JP4012143B2/ja not_active Expired - Fee Related
-
2004
- 2004-12-09 US US11/007,266 patent/US20050131686A1/en not_active Abandoned
- 2004-12-15 CN CN200410102278.6A patent/CN1629789A/zh active Pending
- 2004-12-16 EP EP04257823A patent/EP1544719A3/en not_active Withdrawn
Cited By (7)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN103581275A (zh) * | 2012-08-09 | 2014-02-12 | 腾讯科技(深圳)有限公司 | 一种浏览器地址栏智能提示算法的离线测试方法和系统 |
| CN103581275B (zh) * | 2012-08-09 | 2018-02-27 | 腾讯科技(深圳)有限公司 | 一种浏览器地址栏智能提示算法的离线测试方法和系统 |
| CN103885662A (zh) * | 2012-12-20 | 2014-06-25 | 联想(北京)有限公司 | 辅助语音输入的方法和装置 |
| CN104715005A (zh) * | 2013-12-13 | 2015-06-17 | 株式会社东芝 | 信息处理设备以及方法 |
| CN104715005B (zh) * | 2013-12-13 | 2018-02-16 | 株式会社东芝 | 信息处理设备以及方法 |
| CN110942772A (zh) * | 2019-11-21 | 2020-03-31 | 新华三大数据技术有限公司 | 一种语音样本收集方法及装置 |
| CN110942772B (zh) * | 2019-11-21 | 2022-11-25 | 新华三大数据技术有限公司 | 一种语音样本收集方法及装置 |
Also Published As
| Publication number | Publication date |
|---|---|
| JP4012143B2 (ja) | 2007-11-21 |
| JP2005182208A (ja) | 2005-07-07 |
| US20050131686A1 (en) | 2005-06-16 |
| EP1544719A3 (en) | 2007-05-02 |
| EP1544719A2 (en) | 2005-06-22 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CN1629789A (zh) | 信息处理装置和数据输入方法 | |
| US6864809B2 (en) | Korean language predictive mechanism for text entry by a user | |
| CN1154912C (zh) | 用于从一个小键盘输入文本消息的方法和装置 | |
| CN1189048C (zh) | 通信终端 | |
| US20040163032A1 (en) | Ambiguity resolution for predictive text entry | |
| CN1637702A (zh) | 输入文本的方法 | |
| US7143043B1 (en) | Constrained keyboard disambiguation using voice recognition | |
| CN1344092A (zh) | 键输入装置和利用方向键的字符输入方法 | |
| CN1607491A (zh) | 使用操纵杆输入中文的系统和方法 | |
| CN101243612A (zh) | 数据输入系统 | |
| CN1886717A (zh) | 用于以四向输入设备录入数据的方法和装置 | |
| CN100455080C (zh) | 具有搜索装置的便携式蜂窝电话及搜索操作功能的方法 | |
| KR101099654B1 (ko) | 중국어 입력 시스템 및 방법 | |
| CN1264328C (zh) | 可处理外部装置的输入数据的便携式信息装置及其方法 | |
| JP5282699B2 (ja) | 携帯端末装置、文字変換装置、文字変換方法およびプログラム | |
| CN102177701A (zh) | 便携式电子设备、字符输入画面显示方法及程序 | |
| CN1165829C (zh) | 输入日文的方法和便携式移动单元 | |
| CN101308407B (zh) | 在具有显示屏的终端中实现韩文输入的方法及其终端 | |
| JP5168709B2 (ja) | 携帯端末装置、文字入力変換方法、プログラム | |
| WO2010087301A1 (ja) | 手話キーボードおよびそれを用いた手話検索装置 | |
| CN1472979A (zh) | 移动通信终端设备的日语输入装置和方法 | |
| CN1991743A (zh) | 一种语音输入法方法及其装置 | |
| CN1198198C (zh) | 字符输入方法及字符输入装置 | |
| CN101114196B (zh) | 输入中文短语的方法和设备 | |
| CN1515985A (zh) | 数字信息处理装置及输入汉字的方法 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| C06 | Publication | ||
| PB01 | Publication | ||
| C10 | Entry into substantive examination | ||
| SE01 | Entry into force of request for substantive examination | ||
| C02 | Deemed withdrawal of patent application after publication (patent law 2001) | ||
| WD01 | Invention patent application deemed withdrawn after publication |