CN101836207B - 超出词汇的词的增强的拒绝 - Google Patents
超出词汇的词的增强的拒绝 Download PDFInfo
- Publication number
- CN101836207B CN101836207B CN200880112388.7A CN200880112388A CN101836207B CN 101836207 B CN101836207 B CN 101836207B CN 200880112388 A CN200880112388 A CN 200880112388A CN 101836207 B CN101836207 B CN 101836207B
- Authority
- CN
- China
- Prior art keywords
- gesture
- input
- gestures
- states
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/017—Gesture based interaction, e.g. based on a set of recognized hand gestures
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/03—Arrangements for converting the position or the displacement of a member into a coded form
- G06F3/033—Pointing devices displaced or positioned by the user, e.g. mice, trackballs, pens or joysticks; Accessories therefor
- G06F3/0346—Pointing devices displaced or positioned by the user, e.g. mice, trackballs, pens or joysticks; Accessories therefor with detection of the device orientation or free movement in a 3D space, e.g. 3D mice, 6-DOF [six degrees of freedom] pointers using gyroscopes, accelerometers or tilt-sensors
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/048—Interaction techniques based on graphical user interfaces [GUI]
- G06F3/0487—Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser
- G06F3/0488—Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser using a touch-screen or digitiser, e.g. input of commands through traced gestures
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
- G06V40/28—Recognition of hand or arm movements, e.g. recognition of deaf sign language
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Health & Medical Sciences (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Multimedia (AREA)
- User Interface Of Digital Computer (AREA)
- Position Input By Displaying (AREA)
- Image Analysis (AREA)
Abstract
超出词汇的词的增强的拒绝,其中,基于将输入手势应用于共同模拟训练手势的词汇的隐马尔可夫模型,确定输入手势与每个训练手势匹配的可能性,以及与模拟训练手势的相应状态匹配的输入手势的状态的数量,该模拟训练手势被确定为具有最大可能性。如果所确定的数量不满足阈值,则拒绝该输入手势。
Description
相关申请的交叉引用
本申请要求于2007年8月20日提交的美国临时专利申请No.60/956,776和于2007年8月20日提交的美国临时专利申请No.60/956,784的权益,两者都通过引用并入此处。
技术领域
本公开内容一般涉及交互装置,并且至少一个具体实施方式涉及使用一组界定的手势与移动装置进行交互。
背景技术
诸如手机或个人数字助理(PDA)的移动装置具有一些功能,每个功能都可以通过对按键的独特次序的用户选择或使用屏幕上的菜单来激活。随着移动装置获得越来越多的特征,假定能在移动装置上提供的有限数量的控制器(controls),访问所有这些特征可能变得日益复杂。
发明内容
根据一个一般实施方式,当与词汇的选择的模拟(modeled)手势的相应状态进行比较时,如果输入手势的状态的数量不满足预定的阈值,则由于输入手势超出词汇(out-of-vocabulary)而被拒绝。使用隐马尔可夫(hiddenMarkov)模型,选择模拟手势作为与输入手势最匹配的词汇手势。而其它因素,例如输入手势的状态的次序是否与所选择的模拟手势的状态的相应次序相匹配,可以作为由于该输入手势是“词汇内”(in-vocabulary)或“超出词汇”手势而接收或拒绝该输入手势的基础(basis)。
根据另一个一般实施方式,计算机实施的处理包括:基于将输入手势应用于共同地(collectively)模拟训练手势的词汇的隐马尔可夫模型,确定输入手势与每个训练手势匹配的可能性,以及与模拟训练手势的相应状态匹配的输入手势的状态的数量,该模拟训练手势被确定为具有最大可能性。该处理还包括:如果所确定的数量不满足阈值,则拒绝输入手势。
实施方式可以包括一个或多个以下特征。例如,如果所确定的数量满足阈值,则可以识别该输入手势,并且基于该识别的输入手势可以控制应用。如果所确定的数量满足阈值数量,则可以确定与模拟训练手势相关联的输入命令,该模拟训练手势被确定为具有最大可能性。可以确定与第二模拟训练手势的相应状态匹配的被拒绝的输入手势的状态的第二数量,该第二模拟训练手势被确定为具有第二最大可能性,如果所确定的第二数量不满足阈值,则该被拒绝的输入手势可以被拒绝。界定输入手势的观察符号可以应用于隐马尔可夫模型。如果输入手势的状态的次序与被确定为具有最大可能性的模拟训练手势的相应状态的次序不匹配,则可以拒绝该输入手势。
在另外的例子中,如果输入手势的第一状态或最后状态分别与被确定为具有最大可能性的模拟训练手势的相应第一状态或最后状态不匹配,则可以拒绝该输入手势。使用维特比(Viterbi)算法可以确定可能性和状态改变的次序。如果所确定的数量不满足阈值,则该输入手势由于超出词汇而可以被拒绝。可以训练隐马尔可夫模型以识别训练手势的词汇。可以提取与输入手势相关联的一组状态改变,其中从提取的一组状态改变中可以确定输入手势的状态的数量。
在其它例子中,确定与模拟训练手势的相应状态匹配的输入手势的状态的数量,该模拟训练手势被确定为具有最大可能性,还可以包括:确定这样的状态的数量:对于被确定为具有最大可能性的模拟训练手势的一组训练采样,在每个状态中所述输入手势的提取的中值大于或等于在相应状态中提取的中值中的最小值,或者确定这样的状态的数量:对于被确定为具有最大可能性的模拟训练手势的一组训练采样,在每个状态中所述输入手势的提取的中值比在相应状态中提取的中值中的最小值大非零的调整参数ε或相等。阈值可以表达为相应状态的数量。输入手势可以被规格化(normalized)。
根据另一个一般实施方式,装置包括处理器,该处理器配置成基于将输入手势应用于共同地模拟训练手势词汇的隐马尔可夫模型,确定输入手势与每个训练手势匹配的可能性,以及与模拟训练手势的相应状态匹配的输入手势的状态的数量,该模拟训练手势被确定为具有最大可能性。该处理器还配置成如果所确定的数量不满足阈值,则拒绝该输入手势。在示例性的实施方式中,装置还可以包括配置成接收输入手势的输入模块,其中该输入模块可以是包括相机的交互屏幕。
根据另一个一般实施方式,编码有计算机程序的计算机可读介质,该计算机程序包括这样的指令,当执行时运行以使得计算机执行操作,该操作包括:基于将输入手势应用于共同地模拟训练手势的词汇的隐马尔可夫模型,确定输入手势与每个训练手势匹配的可能性,和与模拟训练手势的相应状态匹配的输入手势的状态的数量,该模拟训练手势被确定为具有最大可能性。该操作还包括如果所确定的数量不满足阈值,则拒绝输入手势。
根据另一个一般实施方式,代替选择在移动装置上控制器,用户可以通过界定手势的一系列动作移动该移动装置,以调用与该手势相关联的移动装置上一定的功能性。这样做时,可以不需要使用物理按钮或用户界面控制器而实施功能,这允许移动装置能够制作得更小,并且实现(effecting)功能性选择时精确性的增加。
根据另一个一般实施方式,计算机实施的处理包括:使用图像数据感测装置的动作,以及识别所感测的装置的动作相应的手势。该处理还包括:确定与所识别的手势相应的装置功能性,以及调用该功能性。
实施方式可以包括一个或多个以下特征。例如,动作可以包括沿第一轨迹的第一动作、以及沿不同的第二轨迹的第二动作。识别手势还可以包括识别通过感测的装置的动作界定的字符形状、几何形状或图案(pattern)。感测装置的动作还可以包括检测装置的用户的下意识身体运动,并且调用的功能性可以与下意识身体运动相关联。该处理还可以包括分别在第一时间和第二时间检测第一用户输入和第二用户输入,其中感测装置的动作还包括感测在第一时间和第二时间之间发生的装置的动作。
在另外的例子中,第一输入可以是摇动用户输入、控制器选择用户输入、或保持静态用户输入。识别手势还可以包括基于将感测的动作与模拟的手势词汇进行比较来选择手势。该处理还可以包括:规格化所感测的装置的动作,将规格化的感测的动作与模拟的手势词汇进行比较,以及基于将所感测的动作与规格化的动作进行比较来确定参数。基于该参数可以确定功能性。参数可以输入到调用的功能性。
在另外的例子中,手势的词汇可以使用任意数量的隐马尔可夫模型(HMM)或基于规则的(rule-based)模型来模拟。该处理还可以包括选择性地激活手势词汇中少于所有可用手势的手势(fewer than all availablegestures),其中基于将所感测的动作与激活的手势进行比较来选择手势。基于制造商设置、用户设置或应用设置,可以使能(enabled)少于所有可用手势的手势。该处理还可以包括训练装置以识别特定手势,以及将该特定手势增加到手势词汇中。调用功能性还可以包括执行应用、操作图像、或输入字符。
在其它例子中,感测装置的动作可以包括分别在第一时间和第二时间检测第一用户输入和第二用户输入,第一时间出现在第二时间之前,在第一时间之前感测沿第一轨迹的第一动作,在第二时间之后感测沿不同的第二轨迹的第二动作,结合第一动作和第二动作,以及将结合的第一动作和第二动作输出,作为所感测的动作。调用功能性还可以包括:在虚拟环境中导航(navigating)、操作图像、输入字符、执行应用或调用媒体集线器功能性。
根据另一个一般实施方式,装置包括传感器和处理器。传感器配置成对动作进行感测。处理器配置成识别与所感测的动作相应的手势,以确定与识别的手势相应的功能性,以及调用该功能性,其中所感测的动作由传感器来感测。在示例性的实施方式中,传感器可以是相机,并且可以使用光流(opticalflow)来感测动作。
根据另一个一般实施方式,计算机可读介质编码有计算机程序。计算机程序包括这样的指令,当执行时运行以使得计算机执行操作,该操作包括:使用图像数据感测装置的动作,识别与所感测的装置的动作相应的手势,确定与所识别的手势相应的装置的功能性,以及调用该功能性。
任何上述技术的实施方式可以包括方法、处理、系统、装置、设备、交互界面、存储在计算机可读介质中的指令、或编码有计算机程序的计算机可读介质。在下面的附图和说明书中阐明了一个或多个实施方式的细节。从说明书和附图以及从权利要求中,其它特征将更加清楚。
附图说明
图1是表明手势识别和拒绝的上下文示意图。
图2是装置的框图。
图3表明响应于手势识别调用装置功能性。
图4表明手势结合。
图5示出了手势规格化。
图6示出了手势训练。
图7示出了下意识手势。
图8示出了示例性的手势词汇。
图9是示例性处理的流程图。
图10示出了用于手势训练的环境。
图11示出了用于手势配置的环境。
图12示出了用于选择手势激活的用户界面。
图13是示例性处理的流程图。
图14示出了示例性手势。
图15示出了用于识别手势的各种方法。
图16示出了示例性的计算装置。
自始至终相似的附图标记表示相应的部件。
具体实施方式
根据一个一般实施方式,当与词汇的所选择的模拟手势的相应状态进行比较时,如果输入手势的状态数量不满足预定的阈值,则输入手势由于超出词汇而被拒绝。使用隐马尔可夫模型,选择模拟手势作为与输入手势最匹配的词汇的手势。而其它因素,例如输入手势的状态次序是否与经选择的模拟手势的相应状态次序相匹配,可以作为由于该输入手势是“词汇内”或“超出词汇”手势而接收或拒绝该输入手势的基础。
因此,并且代替在移动装置上或在用户界面上选择控制器,用户可以通过界定手势的一系列动作而移动(例如,移动他们的手或其它身体部位,或移动移动装置),以调用与该手势相关联的一定功能性。这样做时,可以不需要使用物理按钮或用户界面控制器而实施功能,这使得移动装置能够更小,用户界面更小,并且实现功能性选择中增加的精确性。
在一个例子中,用户通过执行一组界定的手势而与诸如移动装置的装置进行交互。因为移动装置可能较小且被拿在一个人的手中,因此用户在拿着移动装置的同时还可以打手势。用户可以使用除了移动移动装置之外的方法来打手势,例如用他们的手或笔(stylus)在触摸屏或平板电脑上书写。提供了这样的增强方法,其中输入手势被应用于共同地模拟训练手势的词汇的隐马尔可夫模型,并且其中基于确定的可能性和/或确定的匹配状态数量是否满足阈值来识别或拒绝该输入手势。
如这里自始至终使用的,“手势”(gestures)意指一种以人体部分进行的非口头交流的形式,并且与诸如讲话的口头交流形成对照。例如,手势可以通过在第一位置、姿势(pose)或表情(expression)以及第二姿势、位置或表情之间的移动、改变或变换来界定。日常谈话中使用的定制手势包括例如:“空中引用(air quote)”手势、鞠躬、屈膝礼、面颊亲吻、手指或手动作、跪拜、头部摇动或移动、击掌、点头、悲伤的面部、举起的拳头、敬礼、竖起大拇指的动作、拼挤手势、手或身体扭曲或手指指向手势。使用相机,例如通过分析用户的图像,使用倾斜传感器,例如通过检测用户保持或倾斜装置的角度,感测装置的动作或通过任何其它方法,可以检测手势。通过以特定图案或方式执行一系列动作可以形成手势。
通过改变身体部位的位置(也就是摇摆动作),用户可以做出手势(也就是可以“打手势”或“用姿势示意”(gesticulate)),或用户可以打手势而不改变身体部位的位置(也就是通过做出紧握拳头手势,或通过保持身体部位静止一段时间)。尽管该增强的方法例如使用手、手臂或手指的手势,但是也可以使用其它类型的手势。
图1是表明手势识别和拒绝的上下文示意图。例如通过用手指或笔在平板电脑105上画,可以做出第一输入手势104。作为手势输入的另一例子,用户106通过按特定图案移动装置110而在空中创建第二输入手势108。装置110可以是移动电话、音频播放器、时钟或其它装置,并且可以感测装置110的动作(例如使用传感器)。第一输入手势104和第二输入手势108可以表示为输入手势图案,例如作为一组观察符号用于输入到隐马尔可夫模型,或作为格子上的基点、像素或点,其表明手势在空间中经过的两维或三维位置。其它方法也可以用于表示手势,例如将手势表示为矢量集合,或作为一组运动指示(例如,“水平地向右移动”,然后“向上移动并移动到左侧”)。
与第一输入手势104和第二输入手势108相关联的输入手势图案可以与模拟训练手势的词汇112进行比较。例如,词汇112包括分别地与数字8、6、2和3相应的训练手势114a至114d。
使用大量的隐马尔可夫模型(HMM)可以识别时间次序,例如手势移动的次序。使用HMM用于识别目的包括具有一组HMM(例如,与词汇112中的手势的数量一样多),以及用一组这些手势的训练采样来训练它们。对于给定的输入手势,能够采用经训练的模型,以产生这样的可能性:给定的输入手势是词汇中训练的手势中的一个。
诸如训练手势114a的训练手势可以划分成一个或多个手势部分或状态。例如,数字“8”可以表示为第一手势部分116a、随后的第二手势部分116b、随后的第三手势部分116c以及随后的第四手势部分116d,其中第一手势部分116a相应于“8”从右上起点118开始向下到“8”的左下的部分,第二手势部分116b相应于“8”的底部部分,第三手势部分116c相应于“8”的右下到左上部分,第四手势部分116d相应于“8”的顶部部分。
手势部分可以相应于手势状态。隐马尔可夫模型可以包括一组状态和状态过渡(transitions)。使用拓扑120可以示出手势状态,在该例子中,拓扑120包括分别相应于手势部分116a至116d的状态122a至122d。
拓扑120示出了状态过渡。例如,当执行手势部分116a时可以输入第一状态122a。当执行手势部分116b时可以输入第二状态122b,如箭头124a所示。
对于每个训练手势114a至114d,使用一组共同地模拟词汇112的隐马尔可夫模型可以确定这样的可能性,其表明输入手势(例如,手势104、108)与具体训练手势114a至114d匹配的可能性。对于具有所确定的最大可能性的训练手势,可以确定匹配状态的数量。匹配状态的数量可以表明与被确定为具有大(或最大)可能性的模拟训练手势的相应状态相匹配的输入手势的状态的数量。
例如,对于每个训练手势114a至114d,可以确定这样的可能性:表明各个训练手势与输入手势104匹配的可能性。在该例子中,训练手势114a(例如,数字“8”)具有所确定的最大可能性。指示器130a表明第一输入手势104与训练手势114a的第一状态122a匹配,指示器130b表明第一输入手势104与训练手势114a的第二状态122b匹配,指示器130c表明第一输入手势104与训练手势114a的第三状态122c不匹配,并且指示器130d表明第一输入手势104与训练手势114a的第四状态122d不匹配。
可以确定数量130(例如,在该例子中是“2”),该数量130表明与训练手势114a的相应状态相匹配的输入手势104的状态的数量。所确定的数量130可以与阈值132进行比较,并且如果所确定的数量130不满足阈值132,则可以拒绝输入手势104(例如,由于超出词汇112而拒绝)。如该例子所示,第一输入手势104与训练手势114a的两个状态相匹配,这不满足阈值132,导致输入手势104因为超出词汇而被拒绝。
还可以对每个训练手势114a至114d确定可能性,其表明各个训练手势与输入手势108相匹配的可能性。在该例子中,训练手势114a再次具有所确定的最大可能性。指示器140a至140c表明第二输入手势108与训练手势114a的第一状态122a至第三状态122c相匹配。指示器140d表明第二输入手势108与训练手势114a的第四状态122d不匹配。
可以确定数量150(例如,在该例子中是“3”),该数量150表明与训练手势114a的相应状态相匹配的输入手势108的状态的数量。所确定的数量150可以与阈值152进行比较,并且如果所确定的数量150满足阈值152,则可以接受输入手势108。如该例子所示,输入手势108与训练手势114a的三个状态相匹配,这满足阈值152,导致接受(也就是识别)该输入手势108,作为词汇内手势。
响应所识别的手势可以控制应用。例如,响应于将输入手势108识别为与训练手势114a相匹配,可以访问表格或其它数据结构,以确定要调用的功能或命令。例如,可以确定(例如使用查找表)“呼叫鲍勃”功能154被映射到训练手势114a,并且响应于将输入手势108识别为训练手势114a的可接受的匹配,可以调用该功能154。
图2是装置200的框图。装置200可以是移动电话,和/或可以是或包括个人计算机(PC)或游戏系统、便携式电脑、掌上或平板电脑、个人数字助理(“PDA”)或其它类型的嵌入系统的组件,例如计算机键盘或遥控器。装置200还可以是iPod装置或其它便携的音乐播放器、呼叫器或其它通信装置,或用于游戏、通信、计时和/或数据组织的掌上或便携电子装置。在一些实施方式中,装置200附着到或穿在用户身上。装置200包括动作传感器202、处理器204、介质206和用户界面208。
当装置200移动时,动作传感器202可以进行检测,并且可以检测运动的方向和幅度。动作传感器202可以是配置成检测或对装置200的动作或位置进行感测的任何类型的组件或设备。例如,动作传感器202可以是一个或多个相机、一个或多个陀螺仪、一个或多个GPS(全球定位系统)追踪器,或这些装置的结合。动作传感器202可以以各种位置和方向位于装置200的外部或内部。
处理器204可以接受来自用户界面208的输入,并且可以分析由动作传感器202捕捉的数据。处理器可以执行在装置200上运行的应用程序和操作系统。装置200可以包括多个处理器(或其它控制电路),并且可以包括存储器(或其它计算机可读存储介质),其存储应用程序、操作系统、用户输入程序以及由应用程序、操作系统和用户输入程序使用的数据。
介质206存储和记录信息或数据,并且可以是光存储介质、磁存储介质、闪存或任何其它存储介质类型。介质206包括词汇210、训练模块212、手势识别模块214、以及选择性激活模块216。
词汇210包括关于装置200可以识别的手势的信息。例如,词汇210可以包括手势规定(definitions),对于每个识别的手势,该手势规定描述包括在手势中的一组轨迹或运动。在其它例子中,包括在词汇210中的手势规定可以包括手势运动边界和/或界定手势运动图案的多组点。手势规定还可以包括用于定义隐马尔可夫模型的信息。
训练模块212允许用户定制手势。例如,用户可以使用训练界面重复地执行手势以界定手势的边界。该训练界面还可以允许用户手动地改变手势边界的大小或延长手势边界。
手势识别模块214接收来自动作传感器202的动作数据,并且将所接收的动作数据与存储在词汇210中的动作数据进行比较,以确定是否已经执行了可识别的手势。例如,手势识别模式可以使用隐马尔可夫模型,以将所确定的匹配状态的数量与接受阈值进行比较。
选择性激活模块216用于选择性地激活和解除激活(deactivate)词汇210中的手势。在每个用户、每个应用和/或每个装置的基础上,可以对手势进行激活和解除激活。例如,对于使用有效文本输入的应用(例如,电子邮件编辑器),可以对“2”字符手势和“Z”字符手势这两者进行激活。对于具有很少或没有文本输入的应用和相对少量的命令,可以对“2”或“Z”字符手势中的一个进行激活,但是不是对这两者都激活,因为如果没有同时激活类似形状的手势,手势识别可以更加有效或精确。
图3至图12提供了示例性的处理和用于输入手势的装置,基于图13中描述的示例性处理可以接受或拒绝该手势。通过图13中以及上文中描述的处理,也可以使用用于输入手势的其它方法,例如使用图15中描述的装置。
例如,图3示范了响应于手势识别的装置功能性的调用。用户302用装置304在空中创建Z形状手势(也就是,用户302沿向右方向(从读者的视觉)然后沿向下且向左的方向,最后沿基本上与第一向右方向平行的第二向右方向移动装置304)。在装置304上正播放着音乐或其它音频。该装置304可以感测用户302的动作(例如,使用传感器),识别与所感测的动作相应的手势,确定与所识别的手势相应的功能性,并调用所确定的功能性,该装置304可以是移动电话、声频播放器或其它装置。
例如,装置304可以将用户302的运动表现为在此示出为一系列点的输入手势图案306。该输入手势图案306可以与这样的手势规定进行比较,该手势规定包括在存储在装置304上的词汇中。例如,表格308示出了词汇,该词汇包括用于分别表示字符“Z”、“O”、“P”和“2”的手势310a至310d的手势规定。还可以定义更少的或更多的手势规定。
词汇还可以包括边界,例如边界312a至312d,这些边界包括在手势规定中或与之相关联。例如,“Z”字符手势310a可以与边界312a相关联,“O”字符手势310b可以与边界312b相关联,“P”字符手势310c可以与边界312c相关联,并且“2”字符手势310d可以与边界312d相关联。边界(或模板)可以界定手势的规格化或标准化(standardized)形式,这样由用户执行的动作与所述边界进行比较以确定是否执行了特定手势。
尽管边界示出为视觉边界,但是每个手势可以表现为一组可接受的矢量、动作或界定手势的加速度,或界定手势的隐马尔可夫模型。另外,手势规定可能需要一些动作沿一定的方向出现,或需要组成手势的动作以特定的次序出现。
用户执行的输入的手势图案可以与每个词汇手势规定进行比较,以确定输入手势图案是否可以包括在一个或多个词汇手势的边界中。例如,输入手势图案306(也就是,“Z”形状图案)可以与每个边界312a至312d进行比较。输入手势图案306与“O”形状边界312b内部或与“P”形状边界312c内部不相符合。然而,输入手势图案306可以与“Z”形状边界312a内部或与“2”形状边界312d内部相符合。因此,手势310a和310d被识别为候选手势。另外,通过将输入手势图案应用于一个或多个隐马尔可夫模型可以出现比较。
因为执行的手势落入多于一个的边界或规定内是可以预料的,因此通过用户或应用可以使词汇内一些手势无效(或解除激活),以减少在解决冲突中的计算代价并增加准确性。因此,对于词汇手势可以激活或解除激活。例如,表格308示出了“Z”字符手势310a、“O”字符手势310b和“P”字符手势310c是激活的,而在“2”字符手势310d是未激活的。
可以在每个装置或每个应用的基础上对手势可以进行激活或解除激活,并且可以通过终端用户、通过制造商和/或通过应用开发者对手势进行激活以及解除激活。为了识别手势的效率,一组相似手势中的一个手势可以是激活的,而该组中的其它手势是未激活的。例如,“2”和“Z”字符形状相似,因此仅仅相关联手势中的一个是激活的。因为在该例子中,只有候选手势310a和310d中的一个是激活的,所以响应于用户302的运动识别出“Z”字符手势310a。
装置功能可以映射到手势,使得如果识别出手势,则响应于手势的执行来调用所映射的功能性。例如,表格308示出了“调高音量”功能314a被映射到“Z”字符手势310a,“读取邮件”功能314b被映射到“O”字符手势310b,“映射程序”功能314c被映射到“P”字符手势310c,并且“呼叫特定人”功能314d(例如,呼叫“鲍勃”)被映射到“2”字符手势310d。响应于激活的“Z”字符手势的识别,确认(identified)和调用“调高音量”功能,导致在装置304上播放的音频的音量增大。
如上所述,如果输入手势图案位于由词汇手势规定界定的边界的内部,则可以识别该手势。其它方法也可以用于识别手势。例如,可以将词汇手势界定为一组运动的单方向或多方向描述。例如,“Z”字符手势310a可以表示(也就是描述)为“水平地向右移动”、“向下且向左移动”、“与第一移动平行地水平向右移动”。如果输入手势的运动与由词汇手势规定界定的运动相匹配,则可以识别该输入手势。作为识别手势的另一例子,词汇手势可以界定为占据格子上的一组点,并且如果输入手势的运动“越过”同样的点(或一定百分比的点),则可以识别该输入手势。
当使用装置打手势时,在一些情况下可能物理上妨碍用户完成手势,例如,如果墙、桌、另外的人或一些其它物理目标阻挡用户的运动路径。用户可以在中途停止或暂停部分完成的手势,重新确定装置的位置(例如,通过重新确定手臂的位置),并重新开始装置的运动以完成该手势。
用户可以通过执行行动来指出他们希望开始打手势,例如推动装置上的按钮、摇动装置或在短暂的时间(例如一秒)内使装置保持静态。如图3所示,作为手势的第一运动,用户可以将装置从第一位置402向右移动到第二位置404。用户可能期望向下移动以继续该手势,但是物理上可能妨碍这样做。用户可以执行行动来表明将暂停当前的手势,例如摇动装置、使装置保持静态或推动装置上的按钮。装置处于暂停状态时,用户可以通过将装置从位置404移动到位置406来重新定位装置。用户可以执行行动来表明将恢复该手势,例如摇动装置、使装置保持静态或推动装置上的按钮。通过将装置从位置406向下移动到位置408,用户可以完成该手势。
手势表现410a至410d示出了这样的可能手势:从装置在位置402和408之间的运动可以识别该手势。手势表现410a示出了水平和垂直运动结合成连续的手势,如上所述。表现410b示出了两个断开的手势的识别。表现410c示出了仅仅第二个垂直手势的识别,例如如果仅仅接受或识别最后的手势,并且删除、过滤掉或忽略之前的手势(例如第一个水平手势)。表现410d示出了从位置404到位置406的弧线运动的识别,例如如果手势开始边界在位置404处开始,并且手势终止边界在位置406处结束。用户或应用可以确定这些表现中的哪一个表现是期望的表现。
图5示出了手势规格化。手势规定可以包括可以用于形状规格化的高度与宽度比。例如,对于形状类似于“O”字符的手势,可以存储1比1(也就是1∶1)的高度与宽度比,以界定这样的正常(normal)“O”形状:该“O”形状是完美的圆形,或者可以存储诸如1.2∶1的另外比率,以界定这样的正常“O”形状:该“O”形状的高度与其宽度相比稍大。
当识别手势时,可以确定所检测的手势的高度和宽度,并且可以计算所检测的手势的高度与宽度比,以及与存储在手势规定中的高度与宽度比进行比较。如果计算的比率与存储在手势规定中的比率不同,则可以对所检测的手势进行调整(scaled)或规格化到存储在手势规定中的比率。
例如,对于“O”形状手势,“O”形状502界定可接受的边界。“O”形状502具有1∶1的规格化高度与宽度比。用户可以执行不是处于1∶1比率的“O”形状手势,例如,具有2∶1高度与宽度比的“高瘦O”形状504,具有1∶2高度与宽度比的“矮胖O”形状506,或具有2∶2高度与宽度比的“大O”形状508。用户可以执行不具有1∶1比率的“O”形状手势,例如小的“O”形状510。不管形状,如果识别出“O”形状手势,例如形状504至510中的一个,则所检测的高度与宽度比可以与规格化形状502的高度与宽度比进行比较,并且如果比较的比率不同,则可以调整所检测的手势。
用于规格化手势的调整量可以用于确定将调用的功能。例如,如表格511所示,如果识别出具有2∶1比率512a的手势(例如,与正常手势相比较),则可以调用“呼叫鲍勃”功能514a。与1∶1比率相比,2∶1比率可以导致50%的垂直调整(scaling)和0%的水平调整。作为另一例子,识别具有2∶2比率512b(导致50%的垂直调整和50%的水平调整)的手势的执行可以导致调用“读取电子邮件”功能514b。2∶2比率512b表示具有2距离单位高度乘以2距离单位宽度的维度的动作,当用50%的垂直调整和50%的水平调整进行调整时,将导致具有1∶1比率(也就是1距离单位高度乘以1距离单位宽度)的运动或手势。
继续该例子,识别具有1∶1比率512c(也就是没有调整)的手势的执行可以导致调用“关机”功能514c。作为最后一个例子,识别具有1∶2比率512d(导致50%的垂直调整和50%的水平调整)的手势的执行可以导致调用“调低音量”功能514d。
调整量或比率还可以用作将调用的功能的输入参数。例如,装置可以配置成使得如果识别“O”手势,则可以调用特定功能,例如“运行程序Y”(RUN PROGRAM Y)516。功能(例如,“运行程序Y”函数516)可以接收一个或多个可以用作功能输入的参数。在该例子中,一个名为“变量)_X”(VARIABLE_X)的参数518用作对功能516的输入。
通过所识别的手势的所检测的比率,可以确定参数518的值。例如,如表格519所示,如果识别到具有2∶1比率520a的手势,则参数518可以呈现“变量A”(VARIABLE A)522a值。作为另一例子,如果识别到具有2∶2比率520b的手势,则参数518可以呈现“变量B”(VARIABLE B)522B值。继续该例子,如果识别到具有1∶1比率520c的手势,则参数518可以呈现“变量C”(VARIABLE C)522c值。作为最后的例子,如果识别到具有1∶2比率520d的手势,则参数518可以呈现“变量D”(VARIABLE D)522d值。总之,手势可以配置成使得响应于手势的执行来执行特定功能,而提供给所调用的功能的参数值(例如,输入值)可以通过所执行的手势的所检测的高度与宽度比率来确定。
基于输入的手势的特征可以确定多于一个的参数值。例如,手势可以配置成使得响应于手势的执行来调用音频调整(ADJUST-AUDIO)功能524。音频调整功能524可以接受可以用于影响高音(treble)音频设置的调整的参数526,以及可以用于影响基础(base)音频设置的调整的参数528。
通过输入的手势的所检测的高度与宽度比,可以确定参数526和528的值。例如,如表格529所示,如果检测到具有2∶1比率530a的手势,则“100%”532a的值可以用作参数526的值,而“0%”534a的值可以用作参数528的值。换句话说,如果所检测的输入手势比正常手势高两倍,则解释为高音设置可以增加100%(也就是,加倍),并且如果所检测的输入手势与正常手势的宽度相同,则基础设置可以保持不受影响(也就是,增加0%)。
作为另一例子,如果检测到具有2∶2比率530b的手势,则“100%”532b的值可以用作参数526的值,并且“100%”534b的值可以用作参数528的值(也就是,如果输入手势是正常手势的两倍高和两倍宽,则高音设置和基础设置这两者都应该加倍(增加100%))。作为最后的例子,如果检测到具有1∶2比率530c的手势,则“0%”532c的值可以用作参数526的值(表明高音设置没有改变),并且“100%”534c的值可以用作参数528的值(表明基础设置应该加倍)。
图6示出了手势训练。手势表现602a至602h表示由一个或多个用户提供的各种训练手势输入重复地执行“Z”形状的手势。每个手势表现602a至602h都示出为一组这样的点,该些点表示用户在执行各个手势时的运动。手势表现602a至602h彼此重叠以形成Z字符形状604的边界(也就是,一旦界定Z字符形状604,如果用户的运动在Z字符形状604的边界内,则可以识别该Z字符手势)。以相似的方式,手势训练可以用于生成隐马尔可夫模型。
装置可以包括预先存在的(pre-existing)词汇606,该词汇606包括一组界定的手势。Z字符形状604可以插入到预先存在的词汇606中,使得可以识别由用户执行的后来的Z形状的手势。手势由制造商和/或用户界定。制造商可以使用一个或多个测试用户来训练装置,导致形成包括在装置的预定义词汇中的字符的可识别边界或其它形状。用户可以将定制手势添加到装置的词汇中,训练装置以识别用户在执行手势时使用的专用运动。
图7示出了下意识手势。例如,佩戴手表装置704的用户702摇动“鲍勃”706的手。手表装置704识别握手(handshake)手势708,该握手手势界定为一组隔开紧密握在一起的上下运动。响应于该握手手势708的识别,手表装置704启动录音机以在检测到握手手势708之后在短暂的时期(例如,两秒)内进行录音。例如,手表装置704可以记录由鲍勃706说出的声音片段“嗨,我是鲍勃”710。稍后,例如通过手表装置704上的扬声器712,用户702可以播放录制的声音。
表格714示出了其它示例性下意识手势,以及响应于识别执行的下意识手势而功能性调用的伴随装置。例如,响应于识别窒息手势,可以拨打911紧急电话(例如通过移动电话装置)。作为另一例子,如果识别到用户神经紧张,则可以播放舒缓的音乐,或可以提示用户玩娱乐视频游戏。作为再一个例子,如果移动电话装置检测到“将电话移动到耳朵”手势,则可以启动计时器。装置可以是手表装置、移动电话或其它便携装置,或可以并入或用作耐用项目。
图8示出了示例性的手势词汇800。例如,词汇800可以包括示例性的手势表现802a至802o。手势可以是字母(例如,802a、802d)或数字(例如,802c)或可以是其它类型的符号。例如,手势可以包括波状或螺纹线(例如,802g、802j)。手势可以是表示真实世界项目的符号(例如,表现802e表示信封并且表现802m表示八边形或停止标志)。
其它的例子示出了手势可以是一般的直线(例如,802n)或可以是多边形(例如,802d、802m)。通过连接的运动可以形成手势,或手势可以包括不连贯的动作或轨迹(例如,802h)。通过连续的运动可以形成手势,或手势可以包括不连贯的运动(例如,802k,或表示字母“T”的手势(未示出))。手势可以包括交叉线(例如,802e、802L)。其它示例性手势也是可能的,例如三维手势(例如,802o)和由握手形成的紧密运动构成的手势(例如,802i)。
手势可以表示在手写识别技术中使用的字符,例如Unistrokes、Quikwriting和Graffiti。手写识别技术可以包括字符规定,该字符规定使得用户能够不用拿笔就书写字符。例如,表现802b表示Graffiti中的字符“T”,并且表现802f表示Unistrokes中的字符“F”。手势还可以表示词(words)。例如,表现802L可以表示Quikwriting中的词“the”。
图9是示出计算机实施的处理900的流程图,该处理响应于所识别的手势使功能性调用起作用。简要地,计算机实施的处理900包括感测装置的动作,识别相应于所感测的装置动作的手势,确定相应于所识别的手势的装置的功能性,以及调用所确定的功能性。
更详细地,当处理900开始(S901)时,感测装置的动作(S902)。例如,传感器可以检测装置的动作。该传感器可以是配置成检测或感测装置的动作或位置的任何类型的部件或设备。例如,传感器可以是一个或多个内置相机、一个或多个陀螺仪,或一个或多个全球定位系统(GPS)跟踪器。所述装置可以配备有这些装置中的任何装置或这些装置的组合。
基于来自传感器的输入,处理器可以检测装置的动作。例如,在装置包括相机的实施方式中,通过分析由相机捕捉的一系列或一连串图像,处理器可以检测移动装置的动作。在该例子中,通过在由相机捕捉的图像上执行光流处理,处理器可以检测装置的动作。在装置包括陀螺仪的实施方式中,通过分析陀螺仪提供的数据,处理器可以检测装置的动作。在这些实施方式中,通过由陀螺仪产生的动作矢量,可以由处理器检测运动的轨迹。在装置包括GPS跟踪器或接收器的实施方式中,通过分析GPS跟踪器或接收器提供的数据,处理器可以检测装置的动作。在这些实施方式中,通过记录和分析整个运动期间装置的相对位置,处理器可以确定动作矢量。
在一些实施方式中,装置可以配备有位置检测/跟踪设备,例如固定的(onset)或可拆除的(offset)无线位置跟踪工具。任何这样的装置或设备可以用于检测装置的动作,该装置或设备根据装置的独特运动显示(reveal)独特的轨迹。例如,处理器检测的动作可以是所检测的装置的动作轨迹或图案。
响应于检测装置的动作,识别与所感测的装置动作相应的手势(S904)。处理器可以访问手势词汇。例如,处理器可以从与装置相关联的电子存储器中访问界定手势词汇的数据。一组轨迹可以界定为词汇。通过在空中移动装置来画出期望的轨迹,可以执行这些手势。如上所述,处理器可以检测期望的轨迹或动作的图案。手势词汇可以包括界定对应于由装置识别的手势的装置的动作。
基于所检测的装置动作和所访问的动作数据,处理器可以确定手势。例如,大量的处理器可以用于处理从介质或传感器接收的输入,以识别手的手势(hand gestures),特别用于识别手画的轨迹。在一些实施方式中,可以采用点匹配例程、隐马尔可夫模型和其它图案识别处理,以识别手势词汇中界定的手势。
在确定手势中,处理器还可以拒绝词汇中没有界定的手势。拒绝手势可能是重要的,因为处理器可以将不期望是用户输入命令的动作与期望是用户输入命令的动作区分开。基于隐马尔可夫模型(HMM)可以拒绝手势。例如,用于识别手的手势的基于HMM的拒绝方法可以用于拒绝随意运动。
在一些实施方式中,处理器可以比较装置的所检测动作与包括在手势词汇中的动作数据。如果处理器找到匹配,则处理器确定装置的动作相应于与匹配的动作数据相关联的手势。如果处理器没有找到匹配,则处理器继续比较装置的所检测动作与这样的动作数据,该动作数据与手势词汇中的其它手势相关联,直到找到匹配,或者处理器确定所检测动作与任何手势都不匹配。在比较所检测动作数据与包括在手势词汇中的动作数据之前,处理器可以对所检测动作数据进行处理。
替换地,未知手势可以与词汇中所有的模型进行比较,并且可以选择最可能匹配的单个候选手势。该拒绝方法已经发展为避免由于仅寻找最大可能性而可能导致的误匹配。
一般地,手势意指表达想法、意见、情感、交流、命令、示范或表情的运动、位置、姿势或姿态(posture)。用户可以在手握手持装置的同时打手势,或用户在他们身体部位上佩戴装置的同时可以使用一个或多个身体部位来打手势。例如,用户的手势可以是单个或多个手指的手势;单手手势;单手和手臂的手势;单手和手臂以及身体的手势;双手手势;头部姿势或姿态;眼睛位置;面部表情;身体姿势或姿态,或任何其它富有表现力的身体状态。
用户的手势可以表达允许或“约定”手势。约定手势可以是保持预定时间量的姿势表达的具体的手的姿势或手动作次序。一个示例性的约定手势是用户将手持装置保持稳定三秒钟。另一例子是在保持手持装置的同时,通过用户在他们的面部前面伸展他们的手臂,并且在他们头前呈圆形地移动手臂而完成的圆形手动作。作为另一例子,约定手势可以是用户摇动装置。大体上,约定手势向装置指定了用户准备好出现进一步输入。为了减少误差,约定手势可以是非典型的手势,例如在正常谈话期间用身体语言不会下意识地做出的手势,或在正常人类活动的通常执行中不会做出的手势。
手势可以来自于界定用户的想法、意见、情感、交流、命令、示范或表情。例如,用户的手势可以是单个或多个手指的手势;单个手势;单手和手臂的姿势;单手和手臂以及身体的姿势;双手手势;头部姿势或姿态的改变;眼睛位置的改变;面部表情的改变;在握着装置时的手的运动;身体姿势或姿态的改变,或任何其它富有表现力的身体状态的转变。
为了简洁,用于执行相关手势的身体部分或多个身体部分通常称为“控制目标”。例如,用户可以使用他们的整个身体或用其他身体目标表达命令,在此情况下,他们的整个身体或其他身体目标可以是控制目标。通过眨他们的眼睛、通过张开他们的鼻孔或通过摆动手指,用户可以更加巧妙地表达命令,在此情况下,眼睑、鼻子或手指可以是控制目标。控制目标还可以是物理装置,列举几个例子,例如红外手指光、移动装置、手表装置、反向反射器或遥控装置。
存在从动作数据中确定用户手势的许多方式。例如,通过使用手、手臂、身体、头部或其它目标位置信息的手势分析和检测处理,可以检测“在空中画圆圈”或“将手挥到一侧”的手势。尽管手势可以包括两维或三维位置移置,例如做挥动手势时,但是在其它情况下手势包括没有伴随的位置移置的转变。例如,如果手以五个伸出的手指和手掌向前而发出“停止”的信号,则如果所有五个手指缩回成球并且手掌保持向前,即使手或手臂的整体位置保持静止,用户的手势仍改变。
使用启发式(heuristic)技术可以检测手势,例如通过确定手或装置位置信息是否通过规则的明确设定。例如,如果满足下面的手势检测规则:(1)经过小于预定限制的时间间隔,水平位置的改变大于预定距离;(2)经过该时间间隔,水平位置单调地改变;(3)经过该时间间隔,垂直位置的改变小于预定距离;以及(4)在该时间间隔结束时的位置比在该时间间隔开始时的位置更靠近手检测区域的边界(或在手检测区域的边界上),则可以识别“将手挥到一侧”的手势。
一些手势采用以明确的次序被执行且满足的多个这样的规则集合:其中规则集合的满足致使系统改变到采用不同的规则集合的状态。该系统可能不能够检测微妙的手势,在此情况下可以使用隐马尔可夫模型,因为这些模型使得能够检测一系列具体动作,并且还考虑动作充分地适合手势的整体可能性。
为了能够输入复杂的命令以及增加输入选择的数量,用于识别用户手势的处理还可以包括识别沿第一方向的第一位移,识别沿第二方向的第二位移,以及将这些多个位移组合为单个手势。另外,用户手势的识别可以确定用户手势的幅度和方向。
响应于识别手势,确定与所识别的手势相应的装置的功能性(S906)。例如,处理器可以访问与所识别手势相关联的功能数据。例如,处理器可以从与装置相关联的电子存储器中访问与经确定手势相关联的功能数据。在该例子中,与经确定手势相关联的功能数据可以存储在手势词汇中。例如,手势词汇可以包括使所识别手势与特定功能或用户输入命令相关联或相关的数据。手势词汇可以界定为使得每个手势分配给装置中的功能。例如,在空中画Z的手势可以分配给移动电话装置的“打开语音信箱”功能;画圆圈的手势可以分配给“重拨”功能;画半圆的手势可以分配给旋转在装置的显示器上显示的图像或图标的“旋转”功能等。
在已经确定功能性之后,调用该功能性(S908),从而结束该处理900(S910)。例如,处理器可以运行这样的指令,该指令执行所确定的功能性。由装置执行的功能可以打开语音信箱的收件箱,拨打具体的电话号码,旋转与装置相关联的显示器上显示的图像,移动与装置相关联的显示器上显示的图标或目标等。
图10示出了用于手势训练的环境1000。用户1002执行训练手势,在该例子中以圆形动作移动装置1004。用户1002可以是装置1004的最终用户(也就是消费者),定制该装置1004用于他们自己使用,或者用户1002可以是测试用户,训练装置1004作为制造商的一部分设计和/或装置1004的拓展。制造商可以使用多个测试用户来训练装置1004。
在计算装置1008的显示器1007上示出的用户界面1006显示了执行的手势的表现,以及在先执行的手势的表现(在这里显示为一系列的点)。用户1002可以选择按钮1011以输入其它的训练手势。用户1002可以输入跟所期望的一样多的训练手势。由于用户1002重复地执行训练手势,因此计算装置1008绕输入的手势的表现1010设置边界1012。边界1012界定运动范围,一旦该运动范围被界定就可以与后来用户运动进行比较,以识别界定的手势。用户1002可以移动(例如,选择或拖拉)一个或多个尺寸(sizing)调整手柄1014a至1014d,以精炼(例如,改变尺寸、位置、方向)该边界1012。
用户1002可以选择按钮1016,以删除与最近输入的训练手势相关的信息。用户1002可以选择按钮1018,以接受由接受的输入模拟的手势规定。可以示出其它的用户界面元素,例如用于取消当前手势规定的创建的按钮(未示出)。
用户界面1006可以用于模拟多个手势。用户界面1006可以用于界定新的手势规定,和/或可以用于调整或精炼现有的或之前界定的手势规定。例如,消费者用户可以使用该用户界面1006以扩大之前界定的手势的边界。
计算装置1008可以是台式个人计算机、便携式计算机、移动电话、个人数字助理(PDA)、游戏装置或包括显示器的其它装置。装置1004可以经由一个或多个有线的或无线的网络和/或连接与计算装置1008通信。在一些实施方式中,装置1004和计算装置1008是相同的装置(也就是,用户使用装置1004执行训练手势,然后与在装置1004上显示的用户界面1006交互)。
图11示出了用于手势构造的环境1100。环境1100包括用户界面1101。例如在已经训练手势之后可以显示用户界面1101。用户界面1101可以由最终用户(例如,消费者)启动,或由为制造商或应用开发者工作的测试用户启动。
用户界面1101可以在计算装置1103的显示器1102上示出。计算装置1103可以是台式个人计算机、便携式计算机、移动电话、个人数字助理(PDA),游戏装置或包括显示器的其它装置。计算装置1103可以经由一个或多个有线的或无线的网络和/或连接与移动装置1004通信。在一些实施方式中,移动装置1004和计算装置1003是相同的装置。
使用用户界面1101可以输入和/或编辑手势名称1105。通过拖曳和移动一个或多个尺寸调整手柄1107a至1107d,用户可以调整手势的边界1106。使用用户界面1101,功能性可以指定到手势。复选框1108可以用于指出指定的功能性可以是依赖数量的。
例如,手势可以配置成使得如果执行具有2∶1宽度比1110a的手势(也就是,执行的手势的宽度是界定的正常手势的宽度的两倍),则可以调用“打开邮箱A”功能1112a。另外,可以进行下面的示例性配置:1)如果执行具有1∶1宽度比1110b的手势,则可以调用“打开邮箱B”功能1112b;2)如果执行具有3∶1高度比1110c的手势,则可以调用“映射应用”功能1112c;以及3)如果执行具有4∶1高度比1110d的手势,则可以调用“呼叫鲍勃”功能1112d。可以界定默认情况,使得如果执行这样的手势,则可以调用默认的“关机”功能1116,该手势与界定的正常手势相比具有1∶1宽度对高度比。
作为手势配置的例子,如果用户1118使用移动装置1104执行“瘦高的”椭圆形手势1120,则移动装置1104可以识别手势1120,并且通过比较所识别的手势1120的高度与界定的正常手势的高度,可以确定4∶1的高度比。移动装置1104还可以确定功能1112d(“呼叫鲍勃”)已经指定为4∶1高度比1110d,并且响应于识别手势1120,可以调用“呼叫鲍勃”功能1112d。
可以进行其它的手势配置。例如,功能性指定可以取决于除了手势高度和宽度之外的因素。例如,功能性指定可以取决于手势速度(例如,第一功能可以配置成响应于缓慢执行的手势而调用,并且第二功能可以配置成响应于该手势的较快执行而调用)。
图12示出了用于选择性手势激活的用户界面1200。该用户界面1200可以用于选择性地激活或取消激活包括在装置词汇内的手势。例如,装置词汇1202包括手势1204a至1204f,这些手势分别表示字符“O”、“P”、“D”、“R”、“Q”和“F”。基于每个应用,可以选择性地使能或激活手势1204a至1204f。例如,虽然对于映射应用1205而言,手势1204c、1204d、1204e和1204f是废能的(disabled)(也就是,取消激活),但是对于映射应用1205而言手势1204a和1204b是使能的(如对号1206a和1206b所示)。
对于一些应用,例如对于映射应用1205,可以使能相似形状手势集合中的一个手势,同时废能该集合中的其它手势,以避免在说明和识别手势时混淆。例如,由于手势1204c和1204e(分别是“D”和“Q”形状)在形状上与手势1204a的“O”形状类似,因此可以废能手势1204c和1204e。类似地,由于手势1204d和1204f(分别是“R”和“F”形状)在形状上与手势1204b的“P”形状类似,因此可以废能手势1204d和1204f。作为另一例子,对于电子邮件编辑应用1208以及对于网页浏览器应用1210,使能所有的手势1204a至1204f,因为对于这些应用1208和1210,用户可能需要输入文本(例如,电子邮件信息正文,网站地址),因此可能期望的是使能全部字符手势。手势的激活和取消激活还可以是基于制造商设置或基于字符之间过去的混淆。
图13是示出计算机执行的处理1300的流程图,该处理基于所确定的可能性和所确定的匹配状态数量来拒绝输入手势。简要地,计算机执行的处理1300包括:基于将输入手势应用于共同地模拟训练手势词汇的隐马尔可夫模型,确定输入手势与每个训练手势匹配的可能性;确定输入手势这样的状态的数量:该输入手势的状态与确定为具有最大可能性的模拟训练手势的相应状态匹配;以及如果所确定的数量不满足阈值,则拒绝该输入手势。
更详细地,当开始处理1300(S1301)时,基于将输入手势应用于共同地模拟训练手势词汇的隐马尔可夫模型,确定输入手势与训练手势集合中的每个训练手势匹配的可能性(S1302)。
例如,可以将单个隐马尔可夫模型分配给训练手势集合中的每个手势。使用训练和识别阶段期间每个水平和垂直采样的均值和标准差,可以规格化手势的尺寸。通过训练HMM,可以提取每个模型的参数。
λi=(Ai,Bi,πi)表示分配给第i个手势的示例性隐马尔可夫模型λ,其中,π表示在一段时间开始(例如,t=1)时,处于特殊状态的可能性的矢量,A表示状态过渡矩阵,并且B表示观察矩阵,在该观察矩阵中给出了处于特殊状态且观察符号的可能性。V={v1,v2,...,vM}表示可能的观察符号的集合。因此,训练手势集合中手势的采样可以用一系列的观察符号表示。
为了产生合适的置信水平,可以提取状态改变次序。对于手势g的训练采样k,如果每个HMM具有N个状态(N≥2),则根据方程式(1)和(2)使用维特比(Viterbi)处理可以提取状态的次序:
Og,k={og,k,1,og,k,2,...,og,k,P}(2)
1≤g≤G
在方程式2中,Og,k,j表示在手势g的第k个训练采样中第j个观察的符号。在方程式(1)中,为了简单已经排除了标记g和k。
可以以这样的方式界定HMM,使得当离开状态时,在处理给定次序的剩余部分中没有方法返回到该状态。在这些实施方式中,对于观察符号的给定次序,每个状态可以满足一次,而不管在该状态中所花费的时间。同样地,Φ可以界定为训练采样的集合,由下面的方程式(3)反映:
Φ={Ω1,Ω2,...,ΩG}(3)
在方程式(3)中,G表示词汇中词(例如,手势)的数量(例如,在关于图1描述的例子中G=4)。
Ωg={Og,1,Og,2,...,Og,R}(4)
方程式(4)表示手势g的所有训练采样的集合。基于观察矩阵Bg的元素可以界定函数f。
B={B1,B2,...,BG} (5)
δg,n,r=f(Bg,n(Og,r))(6)
在方程式(6)中,Bg,n(Og,r)表示对于第r个训练采样,对于在状态n中的给定观察集合Og,r,处于状态n的手势g的观察矩阵B的元素的集合。函数f可以界定为上述集合的中值或其它函数。函数f的其它界定可以包括均值、最小值、最大值等。因此,在函数f界定为中值的实施方式中,δg,n,r是由Bg,n(Og,r)表示的集合的元素的中值。对于词汇中的给定词(例如,手势)经过δS集合可以界定第二函数h:
Δg,n={δg,n,1,δg,n,2,...,δg,n,R}(7)
τg,n=h(Δg,n) (8)
在方程式(7)中,R是手势g的训练采样的数量,并且方程式(8)中的h界定为给定集合的最小值。还可以使用h的其它界定。鉴于这些界定,τg,n表示使用手势g的训练采样集合提取的,在状态n中该手势g的观察矩阵B的元素的中值的最小值。如果每个HMM具有N个状态:
Tg={τg,1,τg,2,...,τg,N}N≥2(9)
在方程式(9)中界定的集合可以是界定HMM的一部分参数:
Ψg=(Ag,Bg,πg,Tg)(10)
因此,对于给定的输入参数,使用经训练的HMM,以产生给定的手势是词汇内经训练词中的一个的可能性。选择产生最大可能性的HMM作为最佳匹配。给定经训练的隐马尔可夫模型集合,表示输入手势的数据可以提供给所有的模型,并且使用维特比处理可以计算执行的手势或运动与任何经训练的模型匹配的可能性。产生最大可能性的模型是与给定手势相匹配的最可能候选者。为了估计该手势可以确定为与由经选择的模型表示的手势相同的可靠性,可以选择该模型以估计给定的手势。
继续该处理1300,确定输入手势这样的状态的数量:该输入手势的状态与确定为具有最大可能性的模拟训练手势的相应状态匹配(S1304)。
对于选择的HMM,可以提取状态改变的集合(参见方程式(11))。
∑={σ1,σ2,...} (11)
δu,n=f(Bg,n(Ou))(12)
在方程(12)中,Bg,n(Ou)表示对于在状态n中的给定观察集合Ou,处于状态n的观察矩阵Bg的元素的集合。函数f可以具有与方程式(6)相同的泛函性。对于每种状态给定提取的值,可以对给定次序(例如,手势)已经通过建立的HMM的状态进行计数。使用如下界定的方程可以对状态数量进行计数:
d(x,y)=x-y+ε -1≤ε≤1 (15)
在方程式(13)中,z是方程式(14)中界定的单位阶跃函数,并且方程式(15)中的ε界定为可调整值。假设ε=0,c可以解释为这样的状态的数量:对于该状态,对于给定手势提取的中值大于或等于对于选择的模型的训练采样集合提取的中值的最小值。方程式(13)对状态进行计数而不论它们的次序。
在其它实施方式中,我们可以具有如下的替换规定:
qn=z(d(δu,n,τg,n))·qn-1,q0=1(16)
方程式(17)对处于由HMM界定的正确次序的状态的数量进行计数。
继续该处理1300,如果所确定的数量不能满足阈值,则拒绝输入手势(S1306),从而结束该处理1300(S1308)。例如,基于给定手势已经通过的状态的数量,来自方程式(13)和(17)的c或c′,可以做出建立的模型是否可靠地或精确地匹配给定输入手势的决定。阈值可以表达为数量或相应状态的总数量的百分比。阈值是可配置的,例如由制造商或应用开发者进行配置。
在一些实施方式中,两个可调变量ε和可接受的值c或c′给该处理提供了灵活性,以基于手势与词汇中最可能的经训练手势的所有部分匹配的接近程度来接受或拒绝手势。参数ε调整观察的符号的中值与训练阶段期间提取的符号的经训练的中值之间的可接受距离。将ε设置为零意味着观察的中值必须等于或大于对于匹配的HMM的给定状态进行训练期间观察的中值的最小值。
c或c′的值表示已经确定为已经成功满足的状态的数量。虽然如果将给予手势一些灵活性,则较小的值可能是可以接受的,但是限制性的标准可能需要所有的状态得以满足。
因为c′可能需要在前状态已经成功地通过,使得考虑由HMM界定的状态的次序,因此,c′比c可能是更加具有限制性的。
如果输入手势的状态次序与通过相应的HMM确定为具有最大可能性的模拟训练手势的相应状态的次序不相匹配,则可以拒绝输入手势。例如,用户可以画“2”,与表示“2”的模拟训练手势的所有部分相匹配,但是可以向后画“2”,或以与用于训练手势的HMM中限定的次序相反的次序。由于状态次序的不匹配,可以拒绝该“向后的2”。作为另一例子,通过在第二个圆的顶部画或表示一个圆,用户可以创建“8”,可与表示“8”的训练手势的所有部分相匹配,但是可能与由训练手势界定的次序不匹配。如下文更详细地描述,如果输入手势的第一状态或最后状态与确定为具有最大可能性的模拟训练手势的相应第一状态或最后状态不匹配,则可以拒绝该输入手势。
如果拒绝输入手势作为具有所确定的最大可能性的训练手势的相配物,则在决定最终拒绝该输入手势之前,可以考虑第二最可能手势(以及可能的另外手势)作为潜在的相配物。例如,可以确定第二模拟训练手势具有第二最大可能性。可以确定与第二模拟训练手势的相应状态相匹配输入手势状态的第二数量。如果所确定的第二数量不能满足阈值,则可以拒绝该输入手势。例如,如果用户打手势表示“S”形状,则该输入手势可以与表示“8”的最大可能性的训练手势进行比较,并且如果确定该输入手势与“8”不匹配,则该输入手势可以与表示“5”的第二最大可能性的训练手势进行比较。
人员或用户可以在交互桌面(interactive table)上执行大量的手势,其中桌面屏幕下方的相机对用户手指的位置成像并追踪该位置以识别手势。在一些实施方式中,阿拉伯数字“0”至“9”以及运算符“加”、“减”和“等于”可以界定为词汇中的手势集合。单独的4-状态HMM可以分配给每个手势,并且使用特定数量的训练采样(例如,三十)、前后处理以及上述的处理,可以训练该HMM。
使用训练和识别阶段期间每个水平和垂直采样的均值和标准差,可以规格化手势的尺寸。使用经训练的模型,可以执行四十六个手势的集合,该集合主要包括在词汇中没有界定的手势。然而,在词汇中界定的大量手势也包括在该集合中,以为了检查处理的准确性。手势可以界定为原始的、没有规格化的手的运动。原始数据在送到识别处理之前可以进行规格化。
图14示出了示例性的手势1401至1412。每个手势下方的第一个数字(例如,手势1401下方的“8”1414)表示HMM识别为最匹配的手势,并且第二个数字(例如,手势1401下方的“1110”1416)是以二进制数字序列表达的这样的指示:该指示示出了手势的四个状态中哪些状态与示例性处理中解释的标准相匹配。例如,“1011”意味着第一、第三和第四状态通过,但是第二状态没有通过。在该例子中,调整观察的符号的中值与训练阶段期间提取的符号的经训练的中值之间的可接受距离的参数(ε)假设为零(ε=0)。
手势1401示出了这样的手势:除了最后状态之外,该手势类似于数字“8”。使用示例性处理1300,第一至第三状态满足是关于数字8的手势的标准,但是最后状态不满足界定的标准。该处理示出了对于手势1402而言,第一至第三状态已经通过,该手势1402识别为关于数字5的手势。手势1402在某些方面类似于关于数字5的手势,然而该手势1402的结束不类似于数字5。
除了最后状态之外,手势1403类似于数字8的状态。使用该示例性的处理,第一至第三状态满足是关于数字8的手势的标准,但是最后状态不满足界定的标准。除了开始状态之外,手势1404类似于数字3。使用该示例性的处理,第一至第三状态不满足是关于数字3的手势的标准,但是最后状态满足标准。
手势1405和1406这两者识别为与关于数字9的手势最相似。然而,在手势1405中,手势的开始与数字9的开始完全不同。手势1405通过第三和第四状态。在手势1406中,手势开始类似于数字9,接着与数字9不类似,然后变得再次与关于数字9的手势相类似,直到运动结束。手势1406的第一、第三和第四状态满足界定的标准,但是第二状态不满足。
手势1407与任何界定的手势都不相似,但是识别为与数字4最相似。使用该示例性处理,任何状态都不满足是关于数字4的手势的标准。手势1408类似于数字6的开始,但是朝向手势的结束与数字6不同。使用该示例性处理,第一状态满足是关于数字6的手势的标准,但是最后三个状态都不满足该标准。手势1409至1412示出了类似于界定的数字手势的运动。如所示,对于手势1409至1412而言,所有的四个状态都满足界定的标准。
可以界定阈值,该阈值可以用作用于接受和拒绝手势的基础。如果手势通过由阈值界定的最少状态数量,则可以接受该手势。如果手势没有通过由阈值界定的最少状态数量,则可以拒绝该手势。例如,如果界定阈值为3,则因为手势1401至1403、1406以及1409至1412已经通过最少3个状态,因此可以接受这些手势。因为手势1404、1405、1407和1408没有通过最少3个状态,因此可以拒绝它们。
另外地或替换地,如果手势没有通过开始状态和/或结束状态,则可以拒绝该手势。例如,即使手势1401至1403已经通过3个状态并且已经通过第一状态,但是因为它们没有通过结束状态,因此可以拒绝这些手势。作为另一例子,尽管手势1404的一部分看起来像“3”,但是因为该手势没有通过第一状态,因此可以拒绝该手势。
如上所述且如图15所示,用户1502可以使用装置1506在空中形成手势1504。用户还可以使用各种其它方法形成手势。例如,用户可以使用手指或笔在平板计算机1510上形成手势1508。用户1512还可在触摸屏1516上产生手势1514,例如如果触摸屏1516包括在亭子1518中。作为另一例子,用户1520可以在交互桌面1524上产生手势1522,其中手势1522由相机1526识别,该相机可以定位在桌面1524的下方。
图16是可以用于实施在此描述的系统、方法和处理的计算装置1600、1650的框图,该计算装置作为客户端或作为服务器或多个服务器。计算装置1600打算表示各种形式的数字计算机,例如:笔记本电脑、台式机、工作站、个人数字助理、服务器、刀片服务器、大型机和其它合适的计算机。计算装置1650打算表示各种形式的移动装置,例如:个人数字助理、蜂窝电话、智能手机和其它类似的计算装置。在此示出的部件,它们的连接和关系以及它们的功能仅仅意味着是示例性的,并且不意味着限制在该文件中描述的和/或要求的实施方式。
计算装置1600包括处理器1602、存储器1604、存储装置1606、连接到存储器1604和高速扩展端口1610的高速界面1608,以及连接到低速总线1614和存储装置1606的低速界面1612。每个部件1602、1604、1606、1608、1610和1612使用各种总线互连,并且可以安装在共同的主板上或酌情以其它方式安装。处理器1602可以处理用于在计算装置1600内执行的指令,包括存储在存储器1604或存储装置1606中的指令,以显示用于外部输入/输出装置上的GUI的图形信息,例如接合到高速界面1608的显示器1616。在其它实施方式中,根据情况连同多个存储器和存储器的种类一起,可以使用多个处理器和/或多条总线。另外,多个计算装置1600可以与提供部分必需操作的每个装置连接(例如,作为服务器银行、一组刀片服务器或多个处理器系统)。
存储器1604存储计算装置1600内的信息。在一个实施方式中,存储器1604是计算机可读介质。在一个实施方式中,存储器1604是一个或多个易失性存储器单元。在另外的实施方式中,存储器1604是一个或多个非易失性存储器单元。
存储装置1606能够为计算装置1600提供大量存储。在一个实施方式中,存储装置1606是计算机可读介质。在各种不同的实施方式中,存储装置1606可以是软盘驱动器、硬盘设备、光盘设备或磁带机、闪存存储器或其他类似的固态存储器装置,或装置阵列,包括存储区域网络或其它构造中的装置。在一个实施方式中,计算机程序产品确实地包括在信息载体中。计算机程序产品包括这样的指令:当运行时执行一个或多个方法,例如上文所述的那些方法。信息载体是计算机或机器可读介质,例如存储器1604、存储装置1606、处理器1602上的存储器或传播信号。
高速控制器1608管理计算装置1600的带宽密集操作,同时低速控制器1612管理较低带宽密集操作。责任的这样分配仅仅是示例性的。在一个实施方式中,高速控制器1608结合存储器1604、显示器1616(例如,通过图形处理器或加速器)以及可以接受各种扩展卡(未示出)的高速扩展端口1610。在实施方式中,低速控制器1612结合到存储装置1606和低速扩展端口1614。可以包括各种通信端口(例如,USB、蓝牙、以太网、无线以太网)的低速扩展端口例如通过网络适配器可以结合一个或多个输入/输出装置,例如键盘、指向装置、扫描器或诸如开关或路由器的网络设备。
计算装置1600可以以大量的不同形式来实施,如图所示。例如,该计算装置可以实施为标准服务器1620,或多组这样的服务器。该计算装置还可以实施为一部分的机架服务器系统1624。另外,该计算装置可以在诸如笔记本电脑1622的个人计算机中实施。替换地,来自计算装置1600的部件可以与诸如装置1650的移动装置(未示出)中的其它部件相结合。每个这样的装置可以包括一个或多个计算装置1600、1650,并且整个系统可以由彼此通信的多个计算装置1600、1650组成。计算装置1600可以包括一个或多个传感器(未示出),例如陀螺仪、相机或GPS(全球定位卫星)追踪器,该传感器配置成对计算装置1600的位置或动作进行检测或感测。
除了其它部件之外,计算装置1650包括处理器1652、存储器1664、诸如显示器1654的输入/输出装置、通信界面1666和收发器1668。装置1650还可以被提供有存储装置,例如微驱动器或其它装置,以提供附加存储器。每个部件1650、1652、1664、1654、1666和1668使用各种总线互连,并且几个部件可以安装在共同的主板上或酌情以其它方式安装。计算装置1650可以包括一个或多个传感器(未示出),例如陀螺仪、相机或GPS(全球定位卫星)追踪器,该传感器配置成对计算装置1600的位置或动作进行检测或感测。
处理器1652可以处理用于在计算装置1650内执行的指令,包括存储在存储器1664中的指令。该处理器还可以包括分开的模拟和数字处理器。例如,对于装置1650的其它部件的协调,例如用户界面的控制器,处理器可以提供由装置1650运行的应用以及装置1650的无线通信。
处理器1652可以通过结合显示器1654的控制界面1658和显示节目1656与用户进行通信。显示器1654例如可以是TFT LCD显示器或OLED显示器,或其它合适的显示技术。显示界面1656可以包括用于驱动显示器1654的合适电路,以给用户呈现图形和其它信息。控制界面1658可以接收来自用户的命令,并且将它们转化以提供给处理器1652。另外,外部界面1662可以设置成与处理器1652通信,以使得装置1650能够与其它装置近范围通信。例如外部界面1662可以提供有线通信(例如,经由对接程序),或者提供无线通信(例如,经由蓝牙或其它这样的技术)。
存储器1664存储计算装置1650内的信息。在一个实施方式中,存储器1664是计算机可读介质。在一个实施方式中,存储器1664是一个或多个易失性存储器单元。在另外的实施方式中,存储器1664是一个或多个非易失性存储器单元。还可以提供扩展存储器1674,并且扩展存储器1674通过扩展接口1672可以与装置1650连接,该扩展接口1672例如可以包括SIMM卡接口。这样的扩展存储器1674可以给装置1650提供额外的存储空间,或还可以存储装置1650的应用或其它信息。具体地,扩展存储器1674可以包括指令以执行或补充上述的处理,并且还可以包括安全信息。因此,例如扩展存储器1674可以作为安全模块提供给装置1650,并且可以编有允许安全使用装置1650的指令。另外,经由SIMM卡可以提供安全应用以及另外的信息,例如以非可黑方式(non-hackable manner)将识别信息置于SIMM卡上。
存储器例如可以包括闪存存储器和/或MRAM存储器,如下文所述。在一个实施方式中,计算机程序产品确实地包括在信息载体中。计算机程序产品包括这样的指令:当运行时执行一个或多个方法,例如上文所述的那些方法。信息载体是计算机或机器可读介质,例如存储器1664、扩展存储器1674、处理器1652上的存储器或传播信号。
装置1650通过通信接口1666可以无线通信,该通信接口在需要时可以包括数字信号处理电路。通信接口1666在各种模式或协议下可以提供通信,例如GSM语音呼叫、SMS、EMS或MMS信息,CDMA、TDMA、PDC、WCDMA、CDMA2000或GPRS。例如通过射频收发器1668可以出现这样的通信。另外,例如使用蓝牙、WiFi或其它这样的收发器(未示出)可以出现短范围的通信。另外,GPS接收模块1670可以给装置1650提供另外的无线数据,根据情况在装置1650上运行的应用可以使用该无线数据。
使用音频编解码器1660,装置1650还可以进行听得见的通信,该音频编解码器1660可以接收来自用户的说话信息,并将该说话信息转换成可使用的数字信息。同样地,音频编解码器1660可以生成对应用户而言听得见的声音,例如通过装置1650的听筒中的扬声器。这样的声音可以包括来自语音电话呼叫的声音,可以包括记录的声音(例如,语音信息、音乐文件等),并且还可以包括由装置1650上运行的应用生成的声音。
计算装置1650可以以许多不同的形式来实施,如图所示。例如,该计算装置可以实施为蜂窝电话1680。该计算装置还可以实施为部分智能手机1682、个人数字助理或其它类似的移动装置。
在此描述的系统和技术的各种实施方式可以在数字电子电路、集成电路、专门设计的ASIC(应用专用集成电路)、计算机硬件、固件、软件和/或其组合中实现(realized)。这些各种实施方式可以包括在一个或多个计算机程序中的实施方式,其中该计算机程序在可编程系统上可运行和/或可编译,该可编程系统包括至少一个专用或通用目的的可编程处理器、至少一个输入装置以及至少一个输出装置,该可编程处理器结合成接收来自存储系统的数据和指令,以及将数据和指令传送给存储系统。
这些计算机程序(还已知为程序、软件、软件应用或代码)包括可编程处理器的机器指令,并且可以以高水平程序和/或面向对象编程语言,和/或以汇编/机器语言执行。如在此使用的,术语“机器可读介质”、“计算机可读介质”涉及用于给可编程处理器提供机器指令和/或数据的任何计算机程序产品、设备和/或装置(例如,磁盘、光盘、存储器、可编程逻辑器件(PLD)),包括接收机器指令作为机器可读信号的计算机可读介质。术语“机器可读信号”涉及用于给可编程处理器提供机器指令和/或数据的任何信号。
为了提供与用户交互,在此描述的系统和技术可以在这样的计算机上实施:该计算机具有用于给用户显示信息的显示装置(例如,CRT(阴极射线管)或LCD(液晶显示器)监控器),以及键盘和指向装置(例如,鼠标或轨迹球),通过键盘和指向装置用户可以给计算机提供输入。其它类型的装置也可以用于提供与用户交互;例如,提供给用户的反馈可以是任何形式的感官反馈(例如,视觉反馈、听觉反馈或触觉反馈);并且可以以任何形式接收来自用户的输入,包括听觉、口头或触觉输入。
在此描述的系统和技术可以在这样的计算系统中实施:该计算系统包括后端部件(例如,作为数据服务器),或包括中间部件(例如,应用服务器),或包括前端部件(例如,具有图形用户界面或网页浏览器的客户端计算机,通过图形用户界面或网页浏览器用户可以与在此描述的系统和技术的实施方式交互),或这样的后端、中间或前端部件的任何组合。系统的部件可以通过任何形式或数字数据通信的介质(例如,通信网络)而互连。通信网络的例子包括局域网(“LAN”)、广域网(“WAN”)和因特网。
计算系统可以包括客户端和服务器。客户端和服务器一般彼此远离,并且典型地通过通信网络而交互。客户端和服务器的关系依靠在各自计算机上运行且具有客户端-服务器彼此关系的计算机程序而产生。
已经描述了大量的实施方式。然而,应理解在不脱离本公开内容的精神和范围的情况下可以得到各种修改。因而,其它实施方式都在所附权利要求的范围内。
Claims (20)
1.一种计算机实施的方法,包括:
基于将输入手势应用于模拟训练手势的词汇来确定:
所述输入手势与每个模拟训练手势匹配的可能性,和
具有最大可能性的模拟训练手势;
在确定所述模拟训练手势具有所述最大可能性之后,确定与被确定为具有所述最大可能性的模拟训练手势的相应状态匹配的输入手势的状态的数量,其中,所述输入手势和所述模拟训练手势两者的每一状态包括手势的一部分;以及
如果所确定的相匹配的状态的数量不满足阈值,则拒绝所述输入手势,其中,所述阈值表示所述输入手势的状态总量的一量值或百分比。
2.根据权利要求1所述的方法,还包括:如果所确定的数量满足所述阈值,则识别所述输入手势。
3.根据权利要求2所述的方法,还包括:基于所识别的输入手势控制应用。
4.根据权利要求2所述的方法,还包括:如果所确定的数量满足所述阈值,则确定与被确定为具有最大可能性的模拟训练手势相关联的输入命令。
5.根据权利要求1所述的方法,还包括:
确定与第二模拟训练手势的相应状态匹配的、被拒绝的输入手势的状态的第二数量,该第二模拟训练手势被确定为具有第二最大可能性;以及
如果所确定的第二数量不满足所述阈值,则拒绝所述被拒绝的输入手势。
6.根据权利要求1所述的方法,还包括:
将界定所述输入手势的观察符号应用于隐马尔可夫模型。
7.根据权利要求1所述的方法,还包括:
如果所述输入手势的状态的次序与被确定为具有最大可能性的模拟训练手势的相应状态的次序不匹配,则拒绝所述输入手势。
8.根据权利要求1所述的方法,其中,所述可能性和状态改变的次序使用维特比算法来确定。
9.根据权利要求1所述的方法,其中,如果确定的数量不满足所述阈值,则所述输入手势由于超出词汇而被拒绝。
10.根据权利要求1所述的方法,还包括:
训练隐马尔可夫模型以识别训练手势的词汇。
11.根据权利要求1所述的方法,还包括:
提取与所述输入手势相关联的一组状态改变,
其中从提取的一组状态改变中确定所述输入手势的状态的数量。
12.根据权利要求1所述的方法,其中,确定与被确定为具有最大可能性的模拟训练手势的相应状态匹配的输入手势的状态的数量,包括:
确定这样的状态的数量:在每个状态中所述输入手势的提取的中值大于或等于在被确定为具有最大可能性的模拟训练手势的一组训练采样的相应状态中提取的中值中的最小值。
13.根据权利要求1所述的方法,其中,确定与被确定为具有最大可能性的模拟训练手势的相应状态匹配的输入手势的状态的数量,包括:
确定这样的状态的数量:在每个状态中所述输入手势的提取的中值比在被确定为具有最大可能性的模拟训练手势的一组训练采样的相应状态中提取的中值中的最小值大非零的调整参数ε或相等。
14.根据权利要求1所述的方法,其中,所述阈值被表达为相应状态的数量。
15.根据权利要求1所述的方法,还包括规格化所述输入手势。
16.一种包括处理器的装置,所述处理器配置成:
基于将输入手势应用于模拟训练手势的词汇来确定:
所述输入手势与每个训练手势匹配的可能性,和
具有最大可能性的模拟训练手势;
在确定所述模拟训练手势具有所述最大可能性之后,确定与被确定为具有最大可能性的模拟训练手势的相应状态匹配的输入手势的状态的数量,其中,所述输入手势和所述模拟训练手势两者的每一状态包括手势的一部分;以及
如果所确定的相匹配的状态的数量不满足阈值,则拒绝所述输入手势,其中,所述阈值表示所述输入手势的状态总量的一量值或百分比。
17.根据权利要求16所述的装置,还包括:
配置成接收所述输入手势的输入模块。
18.根据权利要求17所述的装置,其中,所述输入模块是包括相机的交互屏幕。
19.根据权利要求16所述的装置,其中,所述可能性和状态改变的次序使用维特比算法来确定。
20.一种用于拒绝输入手势的设备,所述设备包括:
用于基于将输入手势应用于模拟训练手势的词汇而确定所述输入手势与每个训练手势匹配的可能性以及具有最大可能性的模拟训练手势的装置;
用于在确定所述模拟训练手势具有所述最大可能性之后确定与被确定为具有最大可能性的模拟训练手势的相应状态匹配的输入手势的状态的数量的装置,其中,所述输入手势和所述模拟训练手势两者的每一状态包括手势的一部分;以及
用于在所确定的相匹配的状态的数量不满足阈值的情况下拒绝所述输入手势的装置,其中,所述阈值表示所述输入手势的状态总量的一量值或百分比。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN201710080495.7A CN107102723B (zh) | 2007-08-20 | 2008-08-20 | 用于基于手势的移动交互的方法、装置、设备和非暂时性计算机可读介质 |
Applications Claiming Priority (5)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| US95678407P | 2007-08-20 | 2007-08-20 | |
| US95677607P | 2007-08-20 | 2007-08-20 | |
| US60/956,784 | 2007-08-20 | ||
| US60/956,776 | 2007-08-20 | ||
| PCT/US2008/073671 WO2009026337A1 (en) | 2007-08-20 | 2008-08-20 | Enhanced rejection of out-of-vocabulary words |
Related Child Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| CN201710080495.7A Division CN107102723B (zh) | 2007-08-20 | 2008-08-20 | 用于基于手势的移动交互的方法、装置、设备和非暂时性计算机可读介质 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| CN101836207A CN101836207A (zh) | 2010-09-15 |
| CN101836207B true CN101836207B (zh) | 2017-03-01 |
Family
ID=40378606
Family Applications (2)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| CN201710080495.7A Expired - Fee Related CN107102723B (zh) | 2007-08-20 | 2008-08-20 | 用于基于手势的移动交互的方法、装置、设备和非暂时性计算机可读介质 |
| CN200880112388.7A Expired - Fee Related CN101836207B (zh) | 2007-08-20 | 2008-08-20 | 超出词汇的词的增强的拒绝 |
Family Applications Before (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| CN201710080495.7A Expired - Fee Related CN107102723B (zh) | 2007-08-20 | 2008-08-20 | 用于基于手势的移动交互的方法、装置、设备和非暂时性计算机可读介质 |
Country Status (5)
| Country | Link |
|---|---|
| US (1) | US8565535B2 (zh) |
| EP (1) | EP2191397B1 (zh) |
| JP (2) | JP5406188B2 (zh) |
| CN (2) | CN107102723B (zh) |
| WO (1) | WO2009026337A1 (zh) |
Families Citing this family (103)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US7598942B2 (en) | 2005-02-08 | 2009-10-06 | Oblong Industries, Inc. | System and method for gesture based control system |
| US8407725B2 (en) * | 2007-04-24 | 2013-03-26 | Oblong Industries, Inc. | Proteins, pools, and slawx in processing environments |
| US8370383B2 (en) | 2006-02-08 | 2013-02-05 | Oblong Industries, Inc. | Multi-process interactive systems and methods |
| US9823747B2 (en) | 2006-02-08 | 2017-11-21 | Oblong Industries, Inc. | Spatial, multi-modal control device for use with spatial operating system |
| US9910497B2 (en) | 2006-02-08 | 2018-03-06 | Oblong Industries, Inc. | Gestural control of autonomous and semi-autonomous systems |
| US9075441B2 (en) * | 2006-02-08 | 2015-07-07 | Oblong Industries, Inc. | Gesture based control using three-dimensional information extracted over an extended depth of field |
| US8531396B2 (en) | 2006-02-08 | 2013-09-10 | Oblong Industries, Inc. | Control system for navigating a principal dimension of a data space |
| US8537112B2 (en) * | 2006-02-08 | 2013-09-17 | Oblong Industries, Inc. | Control system for navigating a principal dimension of a data space |
| US8537111B2 (en) | 2006-02-08 | 2013-09-17 | Oblong Industries, Inc. | Control system for navigating a principal dimension of a data space |
| US9261979B2 (en) * | 2007-08-20 | 2016-02-16 | Qualcomm Incorporated | Gesture-based mobile interaction |
| US9952673B2 (en) | 2009-04-02 | 2018-04-24 | Oblong Industries, Inc. | Operating environment comprising multiple client devices, multiple displays, multiple users, and gestural control |
| US9684380B2 (en) | 2009-04-02 | 2017-06-20 | Oblong Industries, Inc. | Operating environment with gestural control and multiple client devices, displays, and users |
| US9740922B2 (en) | 2008-04-24 | 2017-08-22 | Oblong Industries, Inc. | Adaptive tracking system for spatial input devices |
| US10642364B2 (en) | 2009-04-02 | 2020-05-05 | Oblong Industries, Inc. | Processing tracking and recognition data in gestural recognition systems |
| US8723795B2 (en) | 2008-04-24 | 2014-05-13 | Oblong Industries, Inc. | Detecting, representing, and interpreting three-space input: gestural continuum subsuming freespace, proximal, and surface-contact modes |
| US9740293B2 (en) | 2009-04-02 | 2017-08-22 | Oblong Industries, Inc. | Operating environment with gestural control and multiple client devices, displays, and users |
| US9495013B2 (en) | 2008-04-24 | 2016-11-15 | Oblong Industries, Inc. | Multi-modal gestural interface |
| CN102112945B (zh) * | 2008-06-18 | 2016-08-10 | 奥布隆工业有限公司 | 用于交通工具接口的基于姿态的控制系统 |
| US10086262B1 (en) | 2008-11-12 | 2018-10-02 | David G. Capper | Video motion capture for wireless gaming |
| US9586135B1 (en) | 2008-11-12 | 2017-03-07 | David G. Capper | Video motion capture for wireless gaming |
| US9335909B2 (en) * | 2009-06-03 | 2016-05-10 | Honda Motor Co., Ltd. | Drawing assist device, drawing assist program, and drawing assist method |
| US9383814B1 (en) | 2008-11-12 | 2016-07-05 | David G. Capper | Plug and play wireless video game |
| US10564721B2 (en) | 2009-03-12 | 2020-02-18 | Immersion Corporation | Systems and methods for using multiple actuators to realize textures |
| US9746923B2 (en) | 2009-03-12 | 2017-08-29 | Immersion Corporation | Systems and methods for providing features in a friction display wherein a haptic effect is configured to vary the coefficient of friction |
| US9696803B2 (en) | 2009-03-12 | 2017-07-04 | Immersion Corporation | Systems and methods for friction displays and additional haptic effects |
| US10007340B2 (en) | 2009-03-12 | 2018-06-26 | Immersion Corporation | Systems and methods for interfaces featuring surface-based haptic effects |
| US9874935B2 (en) | 2009-03-12 | 2018-01-23 | Immersion Corporation | Systems and methods for a texture engine |
| KR101796888B1 (ko) * | 2009-03-12 | 2017-11-10 | 임머숀 코퍼레이션 | 표면-기반 햅틱 효과를 특징으로 하는 인터페이스에 대한 시스템 및 방법, 및 유형의 컴퓨터 판독가능 매체 |
| US9927873B2 (en) | 2009-03-12 | 2018-03-27 | Immersion Corporation | Systems and methods for using textures in graphical user interface widgets |
| US10824238B2 (en) | 2009-04-02 | 2020-11-03 | Oblong Industries, Inc. | Operating environment with gestural control and multiple client devices, displays, and users |
| US9317128B2 (en) | 2009-04-02 | 2016-04-19 | Oblong Industries, Inc. | Remote devices used in a markerless installation of a spatial operating environment incorporating gestural control |
| KR101593598B1 (ko) * | 2009-04-03 | 2016-02-12 | 삼성전자주식회사 | 휴대단말에서 제스처를 이용한 기능 실행 방법 |
| US20100306685A1 (en) * | 2009-05-29 | 2010-12-02 | Microsoft Corporation | User movement feedback via on-screen avatars |
| JP2012530958A (ja) * | 2009-06-19 | 2012-12-06 | アルカテル−ルーセント | ウィンドウまたはアプリケーションを閉じるためのタッチ・センシティブ入力デバイス上でのジェスチャ |
| EP2452258B1 (en) * | 2009-07-07 | 2019-01-23 | Elliptic Laboratories AS | Control using movements |
| US9000887B2 (en) * | 2009-07-23 | 2015-04-07 | Qualcomm Incorporated | Method and apparatus for communicating control information by a wearable device to control mobile and consumer electronic devices |
| JP5238635B2 (ja) * | 2009-07-29 | 2013-07-17 | 京セラ株式会社 | 情報処理装置及びアプリケーションプログラムの起動方法 |
| US9971807B2 (en) | 2009-10-14 | 2018-05-15 | Oblong Industries, Inc. | Multi-process interactive systems and methods |
| US9933852B2 (en) | 2009-10-14 | 2018-04-03 | Oblong Industries, Inc. | Multi-process interactive systems and methods |
| US9174123B2 (en) * | 2009-11-09 | 2015-11-03 | Invensense, Inc. | Handheld computer systems and techniques for character and command recognition related to human movements |
| US9292731B2 (en) | 2009-12-30 | 2016-03-22 | Intel Corporation | Gesture-based signature authentication |
| US8631355B2 (en) | 2010-01-08 | 2014-01-14 | Microsoft Corporation | Assigning gesture dictionaries |
| US20110273380A1 (en) * | 2010-05-07 | 2011-11-10 | Research In Motion Limited | Portable electronic device and method of controlling same |
| US9274594B2 (en) * | 2010-05-28 | 2016-03-01 | Microsoft Technology Licensing, Llc | Cloud-based personal trait profile data |
| US8751215B2 (en) | 2010-06-04 | 2014-06-10 | Microsoft Corporation | Machine based sign language interpreter |
| US20110317871A1 (en) * | 2010-06-29 | 2011-12-29 | Microsoft Corporation | Skeletal joint recognition and tracking system |
| US9952671B2 (en) | 2010-10-12 | 2018-04-24 | Nokia Technologies Oy | Method and apparatus for determining motion |
| US8610831B2 (en) * | 2010-10-12 | 2013-12-17 | Nokia Corporation | Method and apparatus for determining motion |
| US8223589B2 (en) * | 2010-10-28 | 2012-07-17 | Hon Hai Precision Industry Co., Ltd. | Gesture recognition apparatus and method |
| CN102480540A (zh) * | 2010-11-19 | 2012-05-30 | 英业达股份有限公司 | 移动电话及其操作方法 |
| WO2012088626A1 (en) * | 2010-12-29 | 2012-07-05 | Technicolor (China) Technology Co., Ltd. | System and method for gesture recognition |
| US8787006B2 (en) * | 2011-01-31 | 2014-07-22 | Apple Inc. | Wrist-worn electronic device and methods therefor |
| WO2012104312A1 (en) * | 2011-01-31 | 2012-08-09 | Research In Motion Deutschland Gmbh | Method and apparatus for gesture authentication |
| US8873841B2 (en) * | 2011-04-21 | 2014-10-28 | Nokia Corporation | Methods and apparatuses for facilitating gesture recognition |
| JP5747646B2 (ja) * | 2011-05-09 | 2015-07-15 | 株式会社ニコン | 電子装置、データ生成方法およびデータ生成プログラム |
| US8666406B2 (en) * | 2011-05-12 | 2014-03-04 | Qualcomm Incorporated | Gesture-based commands for a group communication session on a wireless communications device |
| IL213514A0 (en) * | 2011-06-13 | 2011-07-31 | Univ Ben Gurion | A 3d free-form gesture recognition system for character input |
| US9390414B2 (en) * | 2011-09-18 | 2016-07-12 | Google Inc. | One-click offline buying |
| CN102592113B (zh) * | 2011-12-23 | 2014-07-30 | 哈尔滨工业大学深圳研究生院 | 一种基于表观特征的静态手势快速识别法 |
| GB201203832D0 (en) * | 2012-03-05 | 2012-04-18 | Elliptic Laboratories As | User input system |
| WO2012126426A2 (zh) | 2012-05-21 | 2012-09-27 | 华为技术有限公司 | 一种非接触式手势控制方法及装置 |
| US9323985B2 (en) * | 2012-08-16 | 2016-04-26 | Microchip Technology Incorporated | Automatic gesture recognition for a sensor system |
| US20140141889A1 (en) | 2012-11-19 | 2014-05-22 | 2343127 Ontario Inc. | Systems and Methods for Capture and Use of Local Elements in Gameplay |
| US9442587B2 (en) | 2012-12-04 | 2016-09-13 | L-3 Communications Corporation | Touch sensor controller responsive to environmental operating conditions |
| US10134267B2 (en) | 2013-02-22 | 2018-11-20 | Universal City Studios Llc | System and method for tracking a passive wand and actuating an effect based on a detected wand path |
| JP5782061B2 (ja) * | 2013-03-11 | 2015-09-24 | レノボ・シンガポール・プライベート・リミテッド | 移動物体の動作を認識する方法および携帯式コンピュータ |
| US20140282272A1 (en) * | 2013-03-15 | 2014-09-18 | Qualcomm Incorporated | Interactive Inputs for a Background Task |
| KR102148645B1 (ko) * | 2013-03-15 | 2020-08-28 | 엘지전자 주식회사 | 이동단말기 및 그 제어방법 |
| EP2973427B1 (en) * | 2013-03-15 | 2020-09-09 | Intel Corporation | Continuous interaction learning and detection in real-time |
| US9829984B2 (en) | 2013-05-23 | 2017-11-28 | Fastvdo Llc | Motion-assisted visual language for human computer interfaces |
| US10026116B2 (en) | 2013-06-05 | 2018-07-17 | Freshub Ltd | Methods and devices for smart shopping |
| US10884493B2 (en) * | 2013-06-20 | 2021-01-05 | Uday Parshionikar | Gesture based user interfaces, apparatuses and systems using eye tracking, head tracking, hand tracking, facial expressions and other user actions |
| US10558272B2 (en) * | 2013-06-20 | 2020-02-11 | Uday Parshionikar | Gesture control via eye tracking, head tracking, facial expressions and other user actions |
| US10137363B2 (en) * | 2013-06-20 | 2018-11-27 | Uday Parshionikar | Gesture based user interfaces, apparatuses and control systems |
| US20190265802A1 (en) * | 2013-06-20 | 2019-08-29 | Uday Parshionikar | Gesture based user interfaces, apparatuses and control systems |
| US9625997B2 (en) | 2013-07-19 | 2017-04-18 | Microchip Technology Incorporated | Human interface device and method |
| WO2015063901A1 (ja) * | 2013-10-30 | 2015-05-07 | 株式会社東芝 | 電子機器、操作制御方法及びプログラム |
| US9405377B2 (en) * | 2014-03-15 | 2016-08-02 | Microsoft Technology Licensing, Llc | Trainable sensor-based gesture recognition |
| US20150261280A1 (en) * | 2014-03-17 | 2015-09-17 | Mediatek Inc. | Apparatuses and methods for waking a display with an adjustable power level to detect touches thereon |
| US9990046B2 (en) | 2014-03-17 | 2018-06-05 | Oblong Industries, Inc. | Visual collaboration interface |
| US9633184B2 (en) | 2014-05-30 | 2017-04-25 | Google Inc. | Dynamic authorization |
| US12158987B2 (en) * | 2014-06-20 | 2024-12-03 | Perceptive Devices Llc | Gesture based user interfaces, apparatuses and systems using eye tracking, head tracking, hand tracking, facial expressions and other user actions |
| US10148692B2 (en) | 2014-06-23 | 2018-12-04 | Google Llc | Aggregation of asynchronous trust outcomes in a mobile device |
| US9805201B2 (en) | 2014-06-23 | 2017-10-31 | Google Inc. | Trust agents |
| JP2017528714A (ja) * | 2014-09-10 | 2017-09-28 | ファロ テクノロジーズ インコーポレーテッド | 3次元座標の光学測定のための方法および3次元測定デバイスの制御 |
| DE102014013678B3 (de) | 2014-09-10 | 2015-12-03 | Faro Technologies, Inc. | Verfahren zum optischen Abtasten und Vermessen einer Umgebung mit einem Handscanner und Steuerung durch Gesten |
| US9602811B2 (en) | 2014-09-10 | 2017-03-21 | Faro Technologies, Inc. | Method for optically measuring three-dimensional coordinates and controlling a three-dimensional measuring device |
| US9746929B2 (en) * | 2014-10-29 | 2017-08-29 | Qualcomm Incorporated | Gesture recognition using gesture elements |
| US20160132642A1 (en) * | 2014-11-06 | 2016-05-12 | Raz Carmi | Device and method for monitoring food intake |
| CN104866110A (zh) | 2015-06-10 | 2015-08-26 | 深圳市腾讯计算机系统有限公司 | 一种手势控制方法,移动终端及系统 |
| JP6640249B2 (ja) * | 2015-06-26 | 2020-02-05 | インテル コーポレイション | ウェアラブルコンピューティングデバイスの、微細運動に基づく入力ジェスチャ制御のための技術 |
| US9665769B2 (en) * | 2015-08-18 | 2017-05-30 | International Business Machines Corporation | Handwriting recognition with natural user input on multitouch surfaces |
| US10169670B2 (en) | 2015-11-30 | 2019-01-01 | International Business Machines Corporation | Stroke extraction in free space |
| KR102433533B1 (ko) * | 2015-12-09 | 2022-08-18 | 한국전자기술연구원 | 모션 학습을 통한 인지 기반 제어 방법 및 시스템 |
| US10529302B2 (en) | 2016-07-07 | 2020-01-07 | Oblong Industries, Inc. | Spatially mediated augmentations of and interactions among distinct devices and applications via extended pixel manifold |
| JP6258442B1 (ja) * | 2016-10-28 | 2018-01-10 | 三菱電機インフォメーションシステムズ株式会社 | 動作特定装置、動作特定方法及び動作特定プログラム |
| JP7143309B2 (ja) * | 2017-02-03 | 2022-09-28 | エッペンドルフ・ソシエタス・エウロパエア | 手持ち式流体移送装置、手持ち式流体移送装置を備える実験室システム、及び手持ち式流体移送装置又は実験室システムを操作する方法 |
| US11093041B2 (en) * | 2018-11-30 | 2021-08-17 | International Business Machines Corporation | Computer system gesture-based graphical user interface control |
| US10877568B2 (en) * | 2018-12-19 | 2020-12-29 | Arizona Board Of Regents On Behalf Of Arizona State University | Three-dimensional in-the-air finger motion based user login framework for gesture interface |
| KR102155103B1 (ko) * | 2019-01-08 | 2020-09-11 | 주식회사 원이멀스 | 가상 환경에서 한글 문자를 입력할 수 있는 시스템 및 방법 |
| WO2022254693A1 (ja) * | 2021-06-04 | 2022-12-08 | 日産自動車株式会社 | 操作検出装置及び操作検出方法 |
| US12284582B2 (en) * | 2022-03-15 | 2025-04-22 | T-Mobile Usa, Inc. | Inaudibly notifying a caller of a status of an open-line call |
| US20240094825A1 (en) * | 2022-09-16 | 2024-03-21 | Apple Inc. | Gesture recognition with hand-object interaction |
Citations (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN1276572A (zh) * | 1999-06-08 | 2000-12-13 | 松下电器产业株式会社 | 手形手势识别装置、识别方法及含该方法程序的记录媒体 |
| CN1615508A (zh) * | 2001-12-17 | 2005-05-11 | 旭化成株式会社 | 语音识别方法、遥控器、信息终端、电话通信终端以及语音识别器 |
| CN1722063A (zh) * | 2004-07-12 | 2006-01-18 | 英业达股份有限公司 | 手势辨识系统及其方法 |
Family Cites Families (44)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US5131053A (en) * | 1988-08-10 | 1992-07-14 | Caere Corporation | Optical character recognition method and apparatus |
| CA2081406C (en) * | 1991-12-23 | 1997-09-16 | Chinmoy Bhusan Bose | Method and apparatus for connected and degraded text recognition |
| US5319721A (en) * | 1992-04-14 | 1994-06-07 | International Business Machines Corporation | Methods and apparatus for evolving a starter set of handwriting prototypes into a user-specific set |
| JPH0728591A (ja) * | 1993-05-13 | 1995-01-31 | Toshiba Corp | 空間操作マウスシステム及び空間動作パターン入力方法 |
| US5454043A (en) * | 1993-07-30 | 1995-09-26 | Mitsubishi Electric Research Laboratories, Inc. | Dynamic and static hand gesture recognition through low-level image analysis |
| IL110137A (en) * | 1994-06-27 | 2000-06-29 | Advanced Recognition Tech | Handwriting recognition system |
| JP3260979B2 (ja) * | 1994-07-15 | 2002-02-25 | 株式会社リコー | 文字認識方法 |
| US5682439A (en) * | 1995-08-07 | 1997-10-28 | Apple Computer, Inc. | Boxed input correction system and method for pen based computer systems |
| JP3869897B2 (ja) * | 1997-01-28 | 2007-01-17 | キヤノン株式会社 | カメラ制御システムおよび映像受信装置および制御方法および記憶媒体 |
| EP0905644A3 (en) * | 1997-09-26 | 2004-02-25 | Matsushita Electric Industrial Co., Ltd. | Hand gesture recognizing device |
| JP3639126B2 (ja) * | 1998-01-22 | 2005-04-20 | 富士通株式会社 | 住所認識装置及び住所認識方法 |
| US6226403B1 (en) * | 1998-02-09 | 2001-05-01 | Motorola, Inc. | Handwritten character recognition using multi-resolution models |
| US6285786B1 (en) * | 1998-04-30 | 2001-09-04 | Motorola, Inc. | Text recognizer and method using non-cumulative character scoring in a forward search |
| US6636631B2 (en) * | 1998-06-04 | 2003-10-21 | Matsushita Electric Industrial Co., Ltd. | Optical character reading method and system for a document with ruled lines and its application |
| US6304674B1 (en) * | 1998-08-03 | 2001-10-16 | Xerox Corporation | System and method for recognizing user-specified pen-based gestures using hidden markov models |
| US6735566B1 (en) * | 1998-10-09 | 2004-05-11 | Mitsubishi Electric Research Laboratories, Inc. | Generating realistic facial animation from speech |
| US6694044B1 (en) * | 1999-09-16 | 2004-02-17 | Hewlett-Packard Development Company, L.P. | Method for motion classification using switching linear dynamic system models |
| SE0000850D0 (sv) * | 2000-03-13 | 2000-03-13 | Pink Solution Ab | Recognition arrangement |
| US6754386B1 (en) * | 2000-08-22 | 2004-06-22 | Microsft Corporation | Method and system of matching ink processor and recognizer word breaks |
| US6823084B2 (en) * | 2000-09-22 | 2004-11-23 | Sri International | Method and apparatus for portably recognizing text in an image sequence of scene imagery |
| US7095401B2 (en) * | 2000-11-02 | 2006-08-22 | Siemens Corporate Research, Inc. | System and method for gesture interface |
| JP3893022B2 (ja) * | 2000-12-18 | 2007-03-14 | 独立行政法人科学技術振興機構 | 文字認識方法、文字認識プログラムを記録したコンピュータ読み取り可能な記録媒体及び文字認識装置 |
| US7274800B2 (en) * | 2001-07-18 | 2007-09-25 | Intel Corporation | Dynamic gesture recognition from stereo sequences |
| US6990639B2 (en) * | 2002-02-07 | 2006-01-24 | Microsoft Corporation | System and process for controlling electronic components in a ubiquitous computing environment using multimodal integration |
| US6938222B2 (en) * | 2002-02-08 | 2005-08-30 | Microsoft Corporation | Ink gestures |
| AU2003217587A1 (en) * | 2002-02-15 | 2003-09-09 | Canesta, Inc. | Gesture recognition system using depth perceptive sensors |
| US7366645B2 (en) * | 2002-05-06 | 2008-04-29 | Jezekiel Ben-Arie | Method of recognition of human motion, vector sequences and speech |
| AU2003275134A1 (en) * | 2002-09-19 | 2004-04-08 | The Penn State Research Foundation | Prosody based audio/visual co-analysis for co-verbal gesture recognition |
| US20040143434A1 (en) * | 2003-01-17 | 2004-07-22 | Ajay Divakaran | Audio-Assisted segmentation and browsing of news videos |
| US8745541B2 (en) * | 2003-03-25 | 2014-06-03 | Microsoft Corporation | Architecture for controlling a computer using hand gestures |
| EP1475741B1 (en) * | 2003-05-08 | 2005-12-21 | Orange S.A. | Data processing apparatus and method |
| US7302099B2 (en) * | 2003-11-10 | 2007-11-27 | Microsoft Corporation | Stroke segmentation for template-based cursive handwriting recognition |
| US7777649B2 (en) * | 2004-01-20 | 2010-08-17 | Nxp B.V. | Advanced control device for home entertainment utilizing three dimensional motion technology |
| US7176888B2 (en) * | 2004-03-23 | 2007-02-13 | Fujitsu Limited | Selective engagement of motion detection |
| WO2005104010A2 (en) * | 2004-04-15 | 2005-11-03 | Gesture Tek, Inc. | Tracking bimanual movements |
| JP4172584B2 (ja) * | 2004-04-19 | 2008-10-29 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 文字認識結果出力装置、文字認識装置、その方法及びプログラム |
| US7308112B2 (en) * | 2004-05-14 | 2007-12-11 | Honda Motor Co., Ltd. | Sign based human-machine interaction |
| US7372993B2 (en) * | 2004-07-21 | 2008-05-13 | Hewlett-Packard Development Company, L.P. | Gesture recognition |
| JP4419768B2 (ja) * | 2004-09-21 | 2010-02-24 | 日本ビクター株式会社 | 電子機器の制御装置 |
| US7496547B2 (en) * | 2005-06-02 | 2009-02-24 | Microsoft Corporation | Handwriting recognition using a comparative neural network |
| JP2007087089A (ja) | 2005-09-21 | 2007-04-05 | Fujitsu Ltd | ジェスチャ認識装置、ジェスチャ認識プログラムおよびジェスチャ認識方法 |
| US20070130547A1 (en) * | 2005-12-01 | 2007-06-07 | Navisense, Llc | Method and system for touchless user interface control |
| JP4744317B2 (ja) * | 2006-02-16 | 2011-08-10 | 富士通株式会社 | 単語検索装置、単語検索方法、及びコンピュータプログラム |
| US9261979B2 (en) * | 2007-08-20 | 2016-02-16 | Qualcomm Incorporated | Gesture-based mobile interaction |
-
2008
- 2008-08-20 CN CN201710080495.7A patent/CN107102723B/zh not_active Expired - Fee Related
- 2008-08-20 WO PCT/US2008/073671 patent/WO2009026337A1/en not_active Ceased
- 2008-08-20 EP EP08827702.5A patent/EP2191397B1/en active Active
- 2008-08-20 US US12/194,780 patent/US8565535B2/en active Active
- 2008-08-20 JP JP2010521990A patent/JP5406188B2/ja not_active Expired - Fee Related
- 2008-08-20 CN CN200880112388.7A patent/CN101836207B/zh not_active Expired - Fee Related
-
2013
- 2013-06-19 JP JP2013128357A patent/JP5619961B2/ja not_active Expired - Fee Related
Patent Citations (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN1276572A (zh) * | 1999-06-08 | 2000-12-13 | 松下电器产业株式会社 | 手形手势识别装置、识别方法及含该方法程序的记录媒体 |
| CN1615508A (zh) * | 2001-12-17 | 2005-05-11 | 旭化成株式会社 | 语音识别方法、遥控器、信息终端、电话通信终端以及语音识别器 |
| CN1722063A (zh) * | 2004-07-12 | 2006-01-18 | 英业达股份有限公司 | 手势辨识系统及其方法 |
Also Published As
| Publication number | Publication date |
|---|---|
| JP2010537320A (ja) | 2010-12-02 |
| JP2013232208A (ja) | 2013-11-14 |
| CN107102723B (zh) | 2019-12-06 |
| CN101836207A (zh) | 2010-09-15 |
| CN107102723A (zh) | 2017-08-29 |
| EP2191397A4 (en) | 2016-03-30 |
| EP2191397A1 (en) | 2010-06-02 |
| EP2191397B1 (en) | 2019-01-23 |
| US20090052785A1 (en) | 2009-02-26 |
| JP5406188B2 (ja) | 2014-02-05 |
| WO2009026337A1 (en) | 2009-02-26 |
| US8565535B2 (en) | 2013-10-22 |
| JP5619961B2 (ja) | 2014-11-05 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CN101836207B (zh) | 超出词汇的词的增强的拒绝 | |
| US9261979B2 (en) | Gesture-based mobile interaction | |
| US8146020B2 (en) | Enhanced detection of circular engagement gesture | |
| CN102165396B (zh) | 挥动约定姿态的增强检测 | |
| US9934775B2 (en) | Unit-selection text-to-speech synthesis based on predicted concatenation parameters | |
| US9990177B2 (en) | Visual indication of a recognized voice-initiated action | |
| US8228292B1 (en) | Flipping for motion-based input | |
| WO2015000382A1 (zh) | 移动操作系统 | |
| US11216181B2 (en) | Device, method, and graphical user interface for simulating and interacting with handwritten text | |
| JP2007317159A (ja) | 電子装置の入力装置およびその入力方法 | |
| US20240385691A1 (en) | User interfaces for gesture detection | |
| US11995899B2 (en) | Pointer-based content recognition using a head-mounted device | |
| Amma et al. | Airwriting: Bringing text entry to wearable computers | |
| EP3835924A1 (en) | Computer system and method for human-machine interaction | |
| HK1235885B (zh) | 用於基於手势的移动交互的方法、装置、设备和非暂时性计算机可读介质 | |
| HK1235885A1 (zh) | 用於基於手势的移动交互的方法、装置、设备和非暂时性计算机可读介质 | |
| HK1235885A (zh) | 超出詞彙的詞的增强的拒絕 | |
| JP6481360B2 (ja) | 入力方法、入力プログラムおよび入力装置 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| C06 | Publication | ||
| PB01 | Publication | ||
| C10 | Entry into substantive examination | ||
| SE01 | Entry into force of request for substantive examination | ||
| ASS | Succession or assignment of patent right |
Owner name: QUALCOMM INC. Free format text: FORMER OWNER: GESTURE TEK INC. Effective date: 20120206 |
|
| C41 | Transfer of patent application or patent right or utility model | ||
| TA01 | Transfer of patent application right |
Effective date of registration: 20120206 Address after: California, USA Applicant after: QUALCOMM Inc. Address before: California, USA Applicant before: GESTURETEK, Inc. |
|
| GR01 | Patent grant | ||
| GR01 | Patent grant | ||
| CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20170301 |
|
| CF01 | Termination of patent right due to non-payment of annual fee |