CN107077201A - 用于多模式会话交互中的口头语言理解的眼睛注视 - Google Patents
用于多模式会话交互中的口头语言理解的眼睛注视 Download PDFInfo
- Publication number
- CN107077201A CN107077201A CN201580050763.XA CN201580050763A CN107077201A CN 107077201 A CN107077201 A CN 107077201A CN 201580050763 A CN201580050763 A CN 201580050763A CN 107077201 A CN107077201 A CN 107077201A
- Authority
- CN
- China
- Prior art keywords
- visual element
- user
- input
- attentively
- computer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G02—OPTICS
- G02B—OPTICAL ELEMENTS, SYSTEMS OR APPARATUS
- G02B27/00—Optical systems or apparatus not provided for by any of the groups G02B1/00 - G02B26/00, G02B30/00
- G02B27/0093—Optical systems or apparatus not provided for by any of the groups G02B1/00 - G02B26/00, G02B30/00 with means for monitoring data relating to the user, e.g. head-tracking, eye-tracking
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/011—Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
- G06F3/012—Head tracking input arrangements
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/011—Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
- G06F3/013—Eye tracking input arrangements
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/174—Facial expression recognition
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/18—Eye characteristics, e.g. of the iris
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/22—Interactive procedures; Man-machine interfaces
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2203/00—Indexing scheme relating to G06F3/00 - G06F3/048
- G06F2203/038—Indexing scheme relating to G06F3/038
- G06F2203/0381—Multimodal input, i.e. interface arrangements enabling the user to issue commands by simultaneous use of input devices of different nature, e.g. voice plus gesture on digitizer
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Human Computer Interaction (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Optics & Photonics (AREA)
- Ophthalmology & Optometry (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- User Interface Of Digital Computer (AREA)
- Machine Translation (AREA)
- Position Input By Displaying (AREA)
Abstract
描述了改进对与计算机化会话系统相关联的视觉上下文中的视觉元素的引用的理解和/或解析的准确性。本文描述的技术利用注视输入与姿势和/或语音输入来改进计算机化会话系统中的口头语言理解。通过改进系统能够关于视觉上下文中的视觉元素来解析引用(或解释用户的意图)的准确性,利用注视输入和语音输入改善了会话系统中的口头语言理解。在至少一个示例中,本文中的技术描述了跟踪注视以生成注视输入,标识语音输入以及从该用户输入提取注视特征和词汇特征。至少部分地基于该注视特征和该词汇特征,可以解析被指向视觉上下文中的视觉元素的用户话语。
Description
背景技术
当人类彼此交谈时,他们自然地将例如语音、姿势、面部/头部姿态和表情等来自不同模态的信息进行组合。随着计算机化设备的激增,人类具有与计算机化设备相关联的显示器交互的更多机会。口头对话系统或会话系统使得人类用户能够通过诸如语音和/或姿态的各种通信模式与计算系统通信。当前会话系统基于各种通信模式来标识用户与会话系统交互的意图。在一些示例中,会话系统通过计算用户的话语以及项目的词汇描述与屏幕上相关联的文本之间的相似性来解析用户话语中的引用表达。在其他示例中,屏幕上对象标识对于理解用户的意图是必要的,因为用户的话语关于用户可以引用的屏幕上的对象是不清楚的。因此,当前技术利用诸如语音和姿势的多模式输入来确定用户在屏幕上引用哪些对象。
发明内容
本文描述了用于理解和解析对与会话计算系统相关联的视觉上下文中对视觉元素的引用的技术。本文中的技术描述至少部分地基于从用户输入(例如,注视、语音等)提取的眼睛注视特征和词汇特征来检测注视、识别语音、以及解释关于视觉上下文中的视觉元素的用户的意图。
在至少一个示例中,本文描述的技术包括:标识诸如web浏览器、应用界面或一些其他会话系统的视觉上下文中可用于用户交互的视觉元素。另外,本文描述的技术包括:接收与视觉上下文中的一个或多个视觉元素相关联的用户输入。在至少一个示例中,用户输入可以包括从语音输入得到的且引用预期特定视觉元素的用户话语以及与视觉元素中的至少一些视觉元素相关联的用户注视输入。本文描述的技术还包括:至少部分地基于用户话语和视觉元素来提取词汇特征,并且至少部分地基于用户注视输入来提取视觉元素和注视特征。此外,本文描述的技术包括:至少部分地基于词汇特征和注视特征来确定与用户输入相关联的一个或多个视觉元素的特定视觉元素。在一些示例中,确定特定视觉元素还可以至少部分地基于热图特征。
提供本发明内容以便以简化形式介绍将在以下具体实施方式中进一步描述的概念的选择。本发明内容不旨在标识所要求保护的主题的关键特征或必要特征,也不旨在用于限制所要求保护的主题的范围。
附图说明
参考附图来描述具体实施方式。在附图中,附图标记的最左边的数字标识附图标记首次出现的附图。不同附图中相同的附图标记指示相似或完全相同的项目。
图1示出了用于解析对与计算机化会话系统相关联的视觉上下文中的视觉元素的引用的示例性环境。
图2示出了包括各种设备和组件的示例性操作环境,其可以被实现用于解析对与计算机化会话系统相关联的视觉上下文中的视觉元素的引用。
图3示出了可以实现用于解析对与计算机化会话系统相关联的视觉上下文中的视觉元素的引用的示例性操作环境。
图4示出了用于解析对与计算机化会话系统相关联的视觉上下文中的视觉元素的引用的示例性处理。
图5示出了用于至少部分地基于词汇特征和注视特征来确定在用户话语中引用的特定视觉元素的示例性处理。
图6示出了用于过滤和标识与计算机化会话系统相关联的视觉上下文中所预期的视觉元素的处理。
具体实施方式
本文描述了用于提高对与会话计算系统相关联的视觉上下文中的视觉元素的引用的理解和解析的准确性的技术。随着在显示器上呈现信息的计算系统的可用性和使用的增加,用户越来越多地寻求机会与系统说话、引用显示器上的视觉元素,以执行与视觉元素相关联的任务。基于用户注视与姿势和/或语音输入的用户注视跟踪和注视输入利用,可以通过提升系统能够理解并解析对视觉上下文中的视觉元素的引用的准确性来改进会话系统中的口头语言理解。
本文描述的技术将注视输入与语音输入组合以更准确地标识用户在显示器上引用的或在另一视觉上下文中呈现的视觉元素。在至少一个示例中,本文描述的技术至少部分地基于与注视和/或语音输入相关联的特征来检测注视、识别语音、并且解释关于视觉上下文中的视觉元素的用户意图。用注视输入补充语音输入的多模式通信降低了标识作为用户话语的预期目标的视觉元素的错误率。也就是说,知道用户正在看和/或关注什么可以通过提升可以解析用户话语中的引用表达的准确性来改进口头语言理解。组合语音和注视输入可以简化用于确定当用户与会话计算系统交互时用户意思是什么和/或正在引用什么的处理。
示意性环境
下面描述的环境仅仅是一个示例,不旨在将下面描述的系统的应用限制到任何一个特定的操作环境。在不脱离所要求保护的主题的精神和范围的情况下,可以使用其他环境。本文描述的各种类型的处理可以在任何数量的环境中实现,包括但不限于独立计算系统、网络环境(例如,局域网或广域网)、对等网络环境、分布式计算(例如,云计算)环境等。
图1示出了用于解析对视觉上下文中的视觉元素的引用的示例性环境100。环境100包括经由一个或多个用户设备104与视觉上下文交互的一个或多个用户102。视觉上下文可以包括向用户呈现信息并且被配置为接收基于用户在呈现的信息中所看到的来指引动作和/或选择的用户输入的任何环境。视觉上下文可以包括web浏览器、会话交互系统、人类机器人和/或其他人类/机器交互系统等。在至少一个示例中,web浏览器可以是自由形式的web浏览器,诸如使用户能够浏览任何网页的web浏览器(例如,Internet 等)。会话交互系统可以是可以经由用户界面向用户102呈现表示电影、餐馆、时间等的视觉元素的应用。
一个或多个用户设备104可以包括例如台式计算机、膝上型计算机、智能电话、视频游戏控制台、电视或下面参照图2描述的用户设备104中的任何一个。一个或更多用户设备104可以与跟踪组件106以及在至少一些示例中的显示器108通信。在至少一个示例中,跟踪组件106和/或显示器108可以集成到一个或更多用户设备104中。在其他示例中,跟踪组件106和/或显示器108可以是连接到一个或多个用户设备104的分离的设备。在图1中,显示器108被集成到用户设备104中,并且跟踪组件106独立于用户设备104。跟踪组件106可以包括可以用于跟踪眼睛注视、头部姿态、身体移动等的任何传感器、照相机、设备、系统等。例如,跟踪组件106可以包括Tobii Rex眼睛跟踪系统、Sentry眼睛跟踪系统、Microsoft技术等。
在至少一个示例中,显示器108可以表现用户界面,并且用户界面可以在诸如web浏览器或会话交互系统的视觉上下文中向用户102呈现一个或多个视觉元素,如上所述。视觉元素可以包括可以由会话计算系统执行的与任务和/或动作(诸如浏览、搜索、过滤等)相关联的文本、对象和/或项目。视觉元素可以经由显示器108呈现给用户102,以用于接收指引会话计算系统执行与视觉元素相关联的任务和/或动作的用户交互。在一些示例中,视觉上下文可以包括web浏览器,web浏览器包括各种形式的超链接、按钮、文本框等。超链接、按钮、文本框等每个均可以代表不同的视觉元素。在其他示例中,视觉上下文可以包括诸如应用界面的会话交互系统,并且可以呈现存储于系统中的项目集合,诸如电影、书籍、图像、餐馆等。代表电影、书、图像、餐馆等的文本和/或图像每个均可以代表不同的视觉元素。在其他示例中,视觉上下文可以包括人类机器人和/或其他人类/机器交互系统。在这样的示例中,显示器108不能作为系统的一部分被包括,并且视觉元素可以包括实体书、视频、图像等。视觉元素可以是动态的和/或情景的,并且可以根据视觉上下文和用户102与视觉元素的交互而改变。
如上所述,一个或多个用户设备104可以与计算机化会话系统的视觉上下文相关联。一个或多个用户102可以经由各种通信模式(诸如注视、语音、姿势、语音韵律、面部表情等)与视觉上下文交互。用户输入可以包括语音输入110、注视输入112、姿势输入等中的一个或多个。在一些示例中,至少两个用户102可以与视觉上下文交互。可以与一个或多个用户设备104相关联以检测和/或接收语音输入110的麦克风和组件可以检测由第一用户说出的用户语音输入110和由第二用户说出的语音输入110的差异。检测语音输入110之间的差异可以使一个或多个用户设备能够将第一用户的注视输入112与第一用户的语音输入110相匹配,并且能够将第一用户的输入与第二用户的注视输入112和第二用户的语音输入110相区分。
用户话语可以包括从语音输入110转录的输入。在一些示例中,用户话语可以包括对视觉上下文中的一个或多个视觉元素的引用。在用户话语中引用的一个或多个视觉元素可以表示用户102打算与之交互或指引其执行对应动作或任务的视觉元素。用户102可以与视觉上下文交互而不受可以构成用户话语的词汇、语法和/或意图选择的约束。在一些示例中,用户话语可以包括基于转录错误和/或可能导致错误的特定语音模式的错误。
用户话语可以包括用以指引会话系统执行与视觉上下文中呈现的视觉元素相关联的任务的命令。用户话语可以包括用于执行诸如滚动、跟随显示器上的链接、填充表格中的空格等请求的用户动作或用户选择的命令。在一些示例中,引用可以包括通用请求,独立于在视觉上下文中呈现给用户的任何视觉元素。例如,用户102可以要求计算机化会话系统“为我显示附近的电影”或“带我去鞋那里”。在其他示例中,引用可以包括引用在视觉上下文中呈现给用户102的视觉元素的命令。例如,用户102可以查看从西雅图WA(SEA)飞往毛伊岛HI(OGG)的多个离开航班选项,并且可以标识要购买的航班。用户102可以说出“将此航班添加到我的购物车”的词语,如图1中的语音输入110所示。如上所述,可以从语音输入110转录用户话语。
用户话语“将此航班添加到我的购物车”可能是不明确的,使得计算机化会话系统可能不知道用户102引用向用户102呈现的多个航班中的哪个航班。计算机化会话系统可以通过考虑在用户102做出用户话语之前、之中或之后不久用户102正在看哪个航班来更容易地标识用户话语中所引用的航班。
在至少一个示例中,用户话语可以包括如上所述的错误。在一些示例中,用户话语可以包括来自语音输入110的错误转录。用户102可能已经说出了词语“将此航班(flight)添加到我的购物车”,而转录的用户话语可能包括词语“将此战斗(fight)添加到我的购物车”。在其他示例中,用户话语可以反映引起转录错误的特定语音模式。用户102可能难以发出词“orange”并且可能想要购买到加利福尼亚州奥兰治县(Orange County)的航班。用户102可能希望说出“将到奥兰治县的航班添加到我的购物车”的词语,但是由于用户102错误地将“orange”发音为“onge”,则用户话语包括错误。然而,在转录错误或导致转录错误的语音模式两者的示例中,计算机化会话系统可以利用注视输入112来解决载有错误的用户话语。也就是说,通过确定在用户做出用户话语之前、之中或之后不久用户102观看和/或固定他或她的注视在其上的航班,计算机化会话系统可以标识用户102期望购买的航班。
注视可以表示在语音输入110期间用户的眼睛面向的方向。跟踪组件106可以跟踪用户注视以生成注视输入112。注视输入112可以包括眼睛注视输入、头部姿态输入和/或鼻子指向输入。头部姿态输入可以包括在语音输入110期间用户的头部姿态的配置。鼻子指向可以包括在语音输入110期间用户的鼻子指向的方向。头部姿态输入和鼻子指向输入各自均可以用作眼睛注视输入的代理。取决于跟踪组件106的范围,可以使用替代的和/或附加的面部取向特性(例如,头部姿态和/或鼻子指向)。在至少一个示例中,跟踪组件106可以在距离用户102的面部的预定距离内,因此,跟踪组件106可以跟踪用户102的眼睛注视用于注视输入112。在替代示例中,跟踪组件可以超出距离用户102的面部的预定距离,并且作为结果,跟踪组件106可以跟踪头部姿态或鼻子指向作为用于用户102注视的代理。
跟踪组件106可以跟踪用户102的眼睛的移动以生成用户102的注视输入112。至少部分地基于从语音输入110和注视输入112得到的用户话语,计算机化会话系统可以标识用户102期望在语音输入110中与哪个视觉元素交互。利用语音输入110和注视输入112的组合可以改进其中计算机化会话系统可以标识在语音输入110中引用的预期视觉元素的准确性。
图2示出了示例性操作环境200,其包括可以被实现为用于解析对视觉上下文中的视觉元素的引用的各种设备和组件。在至少一个示例中,可以远程地(例如,通过服务器、云等)执行本文所描述的技术。在一些示例中,可以如下所述的在计算设备上本地执行本文描述的技术。更具体地,示例性操作环境200可以包括服务提供者202、一个或多个网络204、一个或多个用户102以及与一个或多个用户102相关联的一个或多个用户设备104,如图1所示。
如图所示,服务提供者202可以包括一个或多个服务器和其他机器206和/或一个或多个用户设备104,其中任何一个可以包括一个或多个处理单元208和计算机可读介质210。在各种示例中,服务提供者202可以降低解析对与计算机化会话系统相关联的视觉上下文中的视觉元素的引用的错误率。
在一些示例中,网络204可以是本领域中已知的任何类型的网络,诸如互联网。此外,一个或多个用户设备104可以以任何方式通信地耦合到网络204,诸如通过全球或本地有线或无线连接(例如,局域网(LAN)、内联网等)。网络204可以促进服务器和其他机器206和/或与一个或多个用户102相关联的一个或多个用户设备104之间的通信。
在一些示例中,一个或多个用户102可以与对应的用户设备104交互以执行与一个或多个用户设备104相关联的各种功能,用户设备104可以包括一个或多个处理单元208、计算机可读介质210、跟踪组件106和显示器108。
一个或多个用户设备104可以表示各种各样的设备类型,并且不限于任何特定类型的设备。用户设备104的示例可以包括但不限于固定计算机、移动计算机、嵌入式计算机或其组合。示例性固定计算机可以包括台式计算机、工作站、个人计算机、瘦客户端、终端、游戏控制台、个人视频录像机(PVR)、机顶盒等。示例性移动计算机可以包括膝上型计算机、平板计算机、可佩戴计算机、植入式计算设备、电信设备、汽车计算机、个人数据助理(PDA)、便携式游戏设备、媒体播放器、照相机等。示例性嵌入式计算机可以包括具有网络功能的电视、用于包括在计算设备中的集成组件、电器、微控制器、数字信号处理器或任何其他类型的处理设备等。
服务提供者202可以是可以利用来自通信平台(包括在线通信平台)的特征集合的任何实体、服务器、平台等。此外,如图所示,服务提供者202可以包括一个或多个服务器和/或其他机器206,其可以包括一个或多个处理单元208和诸如存储器的计算机可读介质210。一个或多个服务器和/或其他机器206可以包括如下所述的设备。
示例支持以下场景:可以被包括在一个或多个服务器和/或其他机器206中的设备可以包括在群集或其他分组配置中操作以共享资源、平衡负载、提高性能、提供故障切换支持或冗余、或用于其他目的的一个或多个计算设备。被包括在一个或多个服务器和/或其他机器206中的设备可以属于各种类别或级别的设备,诸如传统的服务器类型设备、台式计算机类型设备、移动设备、专用型装置、嵌入型装置和/或可佩戴型装置。因此,尽管被示为台式计算机,但是设备可以包括各种各样的设备类型,并且不限于特定类型的设备。被包括在一个或多个服务器和/或其他机器206中的设备可以表示但不限于台式计算机、服务器计算机、web服务器计算机、个人计算机、移动计算机、膝上型计算机、平板计算机计算机、可穿戴计算机、植入计算设备、电信设备、汽车计算机、具有网络能力的电视、瘦客户端、终端、个人数字助理(PDA)、游戏控制台、游戏设备、工作站、媒体播放器、个人视频记录器(PVR)、机顶盒、照相机、用于包括在计算设备、电器或任何其他种类的计算设备中的集成组件。
可以被包括在一个或多个服务器和/或其他机器206中的设备可以包括具有诸如经由总线(例如其在一些情况下可以包括系统总线、数据总线、地址总线、PCI总线、Mini-PCI总线和任何种类的本地、外围和/或独立总线中的一个或多个)来可操作地连接到计算机可读介质210的一个或多个处理单元208的任何类型的计算设备。存储于计算机可读介质210上的可执行指令可以包括例如显示模块212、接收模块214、提取模块216、分析模块218以及可由处理单元208加载和执行的其他模块、程序或应用程序。替代地或另外地,本文所描述的功能可至少部分地由诸如加速器的一个或多个硬件逻辑组件来执行。例如但非限制,可以使用的示意类型硬件逻辑组件包括现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、片上系统系统(SOC)、复杂可编程逻辑器件(CPLD)等。例如,加速器可以表示混合设备,诸如来自ZYLEX或ALTERA的混合设备,其包括嵌入在FPGA结构中的CPU路线。
可以被包括在一个或多个服务器和/或其他机器206中的设备还可以包括一个或多个输入/输出(I/O)接口,一个或多个输入/输出(I/O)接口耦合到总线以允许设备与诸如用户输入外围设备(例如,键盘、鼠标、笔、游戏控制器、语音输入设备、触摸输入设备、姿势输入设备、眼睛和/或身体跟踪设备等)和/或输出外围设备(例如,显示器、打印机、音频扬声器、触觉输出等)进行通信。一个或多个输入/输出(I/O)接口可以允许用户设备104与跟踪组件106和/或显示器108进行通信。可以被包括在一个或多个服务器和/或其他机器206中的设备还可以包括一个或多个网络接口,一个或多个网络接口耦合到总线以能够实现计算设备和诸如一个或多个用户设备104的其他联网设备之间的通信。这样的网络接口可以包括一个或多个网络接口控制器(NIC)或用于通过网络发送和接收通信的其他类型的收发器设备。为了简单起见,从所示的设备中省略了一些组件。
用户设备104还可以包括一个或多个输入/输出(I/O)接口,一个或多个输入/输出(I/O)接口耦合到总线以允许用户设备104与诸如用户输入外围设备(例如,键盘、鼠标、笔、游戏控制器、语音输入设备、触摸输入设备、姿势输入设备、眼睛和/或身体跟踪设备等)和/或输出外围设备(例如,打印机、音频扬声器、触觉输出等)的其他设备进行通信。一个或多个输入/输出(I/O)接口可以允许用户设备104与跟踪组件106和/或显示器108通信。
处理单元208可以代表例如中央处理单元(CPU)型处理单元、GPU型处理单元、现场可编程门阵列(FPGA)、另一类数字信号处理器(DSP)、或在一些情况下可由CPU驱动的其它硬件逻辑组件。例如但非限制,可以使用的示意类型的硬件逻辑组件包括专用集成电路(ASIC)、专用标准产品(ASSP)、片上系统系统(SOC)、复杂可编程逻辑设备(CPLD)等。在各种示例中,处理单元208可以执行一个或多个模块和/或过程以使一个或多个用户设备104执行各种功能,如以上所阐述并在下面的公开中进一步详细说明的。另外,处理单元208中的每一个可以拥有其自己的本地存储器,其还可以存储程序模块、程序数据和/或一个或多个操作系统。
在至少一个示例中,一个或多个用户设备104中的计算机可读介质210可以包括促进用户设备104和用户102之间的交互的组件。例如,计算机可读介质210可以至少包括显示模块212、接收模块214、提取模块216和分析模块218,其可以经由至少一个处理单元208被实现为计算机可读指令、各种数据结构等来配置设备以减少在解析对与计算机化会话系统相关联的视觉上下文中的视觉元素的引用的错误率。
在至少一个示例中,显示模块212可以被配置为与显示器108通信并且使得在显示器108上呈现视觉元素(例如,文本、对象、项目等)。如上所述,显示器108可以表示用户界面,并且显示模块212可以与显示器通信以在与web浏览器或会话交互系统相关联的用户界面中向用户102呈现一个或多个视觉元素。视觉元素可以包括与可以由会话计算系统执行的任务和/或动作(诸如浏览、搜索、过滤等)相关联的文本、对象和/或项目。显示模块212可以经由显示器108向用户102呈现视觉元素,用于接收指引会话计算系统执行与视觉元素相关联的任务和/或动作的用户交互,如上所述。
在至少一个示例中,接收模块214可以被配置为从一个或多个用户102接收输入,诸如语音输入110、姿势、注视输入112、身体定位等,如下所述。接收模块214还可以被配置为将语音输入110转录成用户话语以供提取模块216处理。提取模块216可以被配置为至少部分地基于用户输入和视觉上下文中的视觉元素来提取特征。例如,提取模块216可以提取词汇相似性特征、语音匹配特征、注视特征和/或热图特征。关于提取模块216和特征的附加细节在下面描述。分析模块218可以被配置为至少部分地基于所提取的特征来解析对视觉上下文中的视觉元素的引用,如下所述。
根据用户设备104和/或服务器和/或其他机器206的确切配置和类型,计算机可读介质210可以包括计算机存储介质和/或通信介质。计算机存储介质可以包括易失性存储器、非易失性存储器和/或在任何方法或技术中实现以存储诸如计算机可读指令、数据结构、程序模块或其它数据的信息的其他持久性和/或辅助计算机存储介质、可移除和不可移除计算机存储介质。计算机存储器是计算机存储介质的示例。因此,计算机存储介质包括在作为设备的一部分或设备外部的设备和/或硬件组件中的有形和/或物理形式的介质,包括但不限于随机存取存储器(RAM)、静态随机存取存储器存储器(SRAM)、动态随机存取存储器(DRAM)、相变存储器(PRAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM)、闪存、光盘只读存储器(CD-ROM)、数字通用盘(DVD)、光卡或其他光学存储介质、微型硬盘驱动器、存储卡、磁带盒、磁带、磁盘存储、磁卡或其他磁性存储设备或介质、固态存储设备、存储阵列、网络附接存储、存储区域网络、托管计算机存储或可以用于存储和维护用于由计算设备访问的信息的任何其他存储存储器、存储设备和/或存储介质。
相比之下,通信介质可以在诸如载波的调制数据信号或其他传输机制中体现计算机可读指令、数据结构、程序模块或其他数据。如本文所定义的计算机存储介质不包括通信介质。
图3示出了可以被实现为用于解析对视觉上下文中的视觉元素的引用的示例性操作环境300。在至少一个示例中,操作环境300可以使得用户能够以自由形式web浏览视觉上下文、应用界面等来执行常见任务,诸如购买飞机票、查找餐馆、在线购物等。如上以下所述,示例性操作环境300利用接收模块214、提取模块216和分析模块218来改进口头语言理解可用于标识与计算机化会话系统相关联的视觉上下文中的视觉元素的准确性。显示模块212在图3中未示出。
如上所述,接收模块214可以被配置为从一个或多个用户102接收输入,诸如口头语音输入302(例如语音输入110)、姿势、注视输入304(例如注视输入112)、身体定位等。接收模块214可以经由麦克风或被配置为接收语音输入302的与用户设备104相关联的一些其他设备来接收语音输入302。在至少一个示例中,语音输入302可以包括对用户设备104的显示器108上的视觉元素的引用。引用可以显式地标识(例如,直接引用)网页上的项目,或者引用可以隐式地标识(例如,间接引用)网页上的项目。例如,语音输入302可以通过在语音输入302中包括链接、项目、电影等的全部或部分文本来直接引用链接、项目、电影等。在其他示例中,语音输入302可以包括诸如“为我显示红鞋”、“我想购买那个”或“顶部航班看起来不错”的隐式引用。语音输入302可以不受对词汇、语法、和/或可以构成语音输入的意图选择的限制。接收模块214可以被配置为通过转录语音输入302来生成用户话语。用户话语可以被发送到提取模块216用于处理。
另外,接收模块214可以经由跟踪组件106来接收注视输入304。在至少一个示例中,跟踪组件106跟踪用户102的眼睛注视固定。在一些示例中,如上所述,跟踪组件106可以跟踪用户102的头部姿态和/或用户的鼻子指向的方向作为注视固定的代理。跟踪组件106可以向接收模块214提供注视输入304。
接收模块214可以将输入数据306输出到提取模块216。输入数据306可以包括被转录为用户话语的语音输入302、注视输入304和/或其他形式的用户102输入。提取模块216可以被配置为至少部分地基于输入数据306来提取特征。提取模块216可以提取词汇特征、注视特征、热图特征等。
提取模块216可以提取一个或多个词汇特征。词汇相似性描述使用词和相关联的语义来确定两个或更多个词集合中的词之间的相似性的过程。词汇特征可以确定构成与视觉上下文中的一个或多个视觉元素相关联的文本的词与语音输入302中的词之间的词汇相似性。提取模块216可以利用自动语音识别(“ASR”)模型和/通用语言模型来计算词汇特征。提取模块216可以根据视觉项目的视觉上下文来利用各种模型和/或技术。例如,如果视觉上下文包括web浏览器,则提取模块216可以利用解析器来解析与显示器108上的视觉元素相关联的链接。
词汇特征的非限制性示例包括:与视觉上下文中的一个或多个视觉元素相关联的文本的术语向量与语音输入302之间的余弦相似性、与视觉上下文中的一个或多个视觉元素相关联的文本和语音输入302的最长公共子序列中的字符的数目、指示与视觉上下文中的一个或多个视觉元素相关联的文本是否被包括在语音输入302中的二元(binary)特征、以及在该文本被包括在语音输入302中的情况下与视觉上下文中的一个或多个视觉元素相关联的文本的长度。词汇特征可以在短语、词和/或字符级别计算。
提取模块216还可以提取一个或多个注视特征。注视特征可以表示在不同时间的视觉元素与注视输入304的固定点之间的距离。注视特征可以是基于时间的注视特征和/或基于距离的注视特征。基于距离的特征和基于时间的特征可以一起使用。
为了确定注视特征,提取模块216可以标识与链接(例如,在web浏览器视觉上下文中)和/或项目(例如,在会话系统视觉上下文中)相关联的文本和/或图片,并计算文本和/或图像周围的距离或与文本和/或图像相关联的区域。所计算的与文本和/或图像相关联的距离或区域可以表示边界框并且可以用于注视特征提取。注视特征可以考虑边界框的大小和/或表示用户102的注视有多频繁固定于边界框上或固定于边界框附近的频率。
提取模块216可以标识表示用户102的注视落在视觉上下文中何处的固定点。提取模块216可以利用模型来从注视输入数据306标识各个固定点。在至少一个示例中,提取模块216可以利用诸如速度阈值标识算法、隐马尔科夫模型固定标识算法、分散阈值标识算法、最小生成树标识算法、感兴趣区域标识算法和/或基于速度、基于分散和/或基于区域的算法的模型,以从注视输入数据306标识固定点。固定点可以被分组成群集,并且群集可以用于标识各个注视位置。一个群集可以由位于预定距离(例如,小于40个像素等)内的两个或多个单独固定点定义。固定点群集的质心可以用于提取下面描述的注视特征。
注视特征可以表示如上所述的在各个时间的边界框与一个或多个固定点群集的质心固定点之间的距离。注视特征的非限制性示例可以包括以下一项或多项:
·在语音输入302的起始处从质心固定点到边界框的距离;
·在语音输入302的结束处从质心固定点到边界框的距离;
·在语音输入302的起始和语音输入302的结束之间的时间期间从质心固定点到边界框的距离;
·在语音输入302开始之前的预定时间窗(例如,1秒、2秒等)期间从质心固定点到边界框的距离;
·在语音输入302开始之前的预定时间间隔(例如,1秒、2秒、3秒等)处边界框是否在质心固定点的预定半径(例如,1cm、3cm等)内;
·在接收到语音输入302时边界框是否在质心固定点的预定半径(例如,1cm、3cm等)内;
·边界框的大小;
·用户102在语音输入302期间观看边界框的频繁程度;
·在语音输入302期间用户102观看边界框的总时间长度;
·在语音输入302期间边界框在质心固定点的预定半径(例如,1cm、3cm等)内的频繁程度;和/或
·在语音输入302期间边界框在质心固定点的预定半径(例如,1cm、3cm等)内的总时间长度。
提取模块216还可以提取一个或多个热图特征。热图可以表示用户102可能在视觉上下文中正在看什么的概率模型。可以根据注视输入112(例如,眼睛注视、头部姿态等)来计算热图。在至少一个示例中,提取模块216可以利用单个固定点上的二维高斯模型来对用户102已经看了在视觉上下文中呈现的任何特定视觉元素的概率进行建模。如上所述,可以根据注视输入112(例如,眼睛注视、头部姿态等)来确定各个固定点。在一些示例中,高斯模型可以使用预定长度的半径。高斯模型可以对注视固定如何随时间改变进行建模,并且确定用于指示用户102可能观看视觉上下文中的特定视觉元素的可能性的概率。在至少一个示例中,基于眼睛注视输入112所确定的热图可以比基于头部姿态或鼻子指向注视输入112所确定的热图更能代表用户102可能正在看的内容。
提取模块216可以利用热图来提取热图特征。热图特征可以包括连接固定点和在视觉上下文中的视觉元素的一个或多个特征。如上所述,提取模块216可以计算可以呈现在与视觉上下文相关联的显示器108上的每个视觉元素(例如,文本、图片等)周围的距离或与之相关联的区域。所计算的与视觉元素相关联的距离或区域可以表示边界框并且可以用于热图特征提取。在至少一个示例中,热图特征可以至少部分地基于与边界框内的区域相关联的热图概率。与边界框内的区域相关联的热图概率可以用于计算用户102已经看了与显示器108上的边界框相对应的视觉元素的可能性。在一些示例中,热图特征可以包括在预定时间窗上捕获注视固定的一个或多个特征。
提取模块216可以至少部分地基于语音输入302、注视输入304和视觉上下文中的视觉元素来输出特征集合308。特征集合308可以包括词汇特征、眼睛注视特征和/或热图特征。
分析模块218可以被配置为至少部分地基于所提取的特征来解析对视觉上下文中的视觉元素的引用。在至少一个示例中,分析模块218可以利用分类系统来计算与各个视觉元素相关联的概率,并且至少部分地基于所计算的概率来确定哪个视觉元素是语音输入302的主题。在一些示例中,分析模块218可以至少部分地基于标识具有最高概率的视觉元素来标识作为语音输入的主题的视觉元素。在其他示例中,分析模块218可以利用分类系统来标识视觉上下文中具有超过预定阈值的计算概率的视觉元素。分析模块218可以将作为语音输入302的主题的视觉元素标识为具有超过预定阈值的计算概率的视觉元素之一。
在一些示例中,分析模块218可以在对视觉元素进行分类时考虑两个或更多个特征(例如,词汇特征、注视特征、热图特征等)的组合。在至少一个示例中,分析模块218可以利用分类器,分类器被配置为至少部分地基于由提取模块216提取的特征集合308来确定特定视觉元素是否是语音输入302的预期主题。在至少一个示例中,分类器可以包括icsiboost分类器、AdaBoost分类器、睡眠专家分类器、-Bayes分类器、Rocchio分类器、RIPPER分类器等。在一些示例中,分类器可以表示二元分类器。分析模块218可以输出预期引用的概率(例如,P(被引用的项目|项目,f_lexical,f_gaze),其中f_lexical是指词汇特征,并且f_gaze是指注视特征),其表示特定视觉元素是语音输入302的主题的可能性的测量。其他分类器可以由分析模块218用于解析对视觉上下文中的视觉元素的引用。
在至少一个示例中,分析模块218可以经由分类器接收用于处理的特征集合308,如图3所示。在一些示例中,特征集合可以包括特定视觉元素是至少部分地基于词汇特征的在语音输入302中被引用的视觉元素的概率,以及特定视觉元素是至少部分地基于注视特征的视觉元素的概率。分类器可以将两个概率相乘在一起以计算可用于确定特定视觉元素是否是用户102打算在视觉上下文中与之交互的特定视觉元素的新概率。在其他示例中,分析模块218可以单独地对每个特征(例如,词汇特征、注视特征、热图特征)进行分类,然后对分类的输出进行组合以解析对视觉上下文中的视觉元素的引用。替代地,分析模块218可以将第一分类器应用于从用户话语110提取的词汇特征集合,并且如果用户话语模糊和/或不明确,则将第二分类器应用于从注视输入112提取的注视特征集合。
分析模块218可以包括:过滤模块,用于标识具有最高概率的一个或多个视觉元素和/或具有被确定为高于预定阈值的概率的一个或多个视觉元素。在一些示例中,分析模块218可以另外地或替代地包括:排序模块,用于至少部分地基于由分析模块218确定的概率来对视觉元素进行排序。分析模块218可以利用排序模块的结果来解析对视觉上下文中的视觉元素的引用。在一些示例中,具有最高概率的视觉元素可以排列在视觉元素列表的顶部,并且分析模块218可以确定顶部排列的视觉元素是用户话语的预期目标。
图4示出了用于确定与计算机化会话系统相关联的视觉上下文中的一个或多个视觉元素中的预期视觉元素的示例性过程400。
框402示出标识可用于接收视觉上下文中的用户交互的视觉元素。如上所述,视觉上下文可以包括:web浏览器、会话交互系统或用于显示视觉元素的一些其他视觉上下文。各个视觉元素可以与可以由计算机化会话系统执行的动作和/或任务相关联。提取模块216可以标识视觉元素,并且如上所述,可以确定视觉元素周围的距离和/或区域(例如,边界框)。
框404示出接收与视觉上下文中的一个或多个视觉元素相关联的用户输入。接收模块214可以接收用户输入,诸如可以被转录为用户话语的语音输入302、注视输入304(例如,眼睛注视、头部姿态等)、姿势输入等。在至少一个示例中,语音输入302可以引用视觉上下文中的一个或多个视觉元素的特定视觉元素。如上所述,语音输入302可以明确地引用特定的视觉元素和/或隐含地引用特定的视觉元素。语音输入302可以不受可以构成语音输入302的词汇、语法和/或意图的选择的约束。除了语音输入302之外,接收模块214可以接收注视输入304。至少在一个示例中,当用户102与计算机化计算系统交互时,可以由跟踪用户注视、头部姿态等的跟踪组件106来收集注视输入304。
框406示出至少部分地基于视觉元素和用户输入来提取词汇特征和注视特征。提取模块216可以提取词汇特征、注视特征和热图特征,如上所述。提取注视特征可以包括计算在预定时间处在针对各个视觉元素确定的限定区域(例如,边界框)和与注视输入304相关联的固定点(例如,质心固定点和/或任何固定点)之间的距离。提取词汇特征可以包括计算与视觉上下文中的视觉元素的各个视觉元素相关联的文本与语音输入302之间的词汇相似性,如上所述。提取热图特征可以包括提取将注视输入304固定与在显示器108上呈现的视觉元素连接的一个或多个特征。
框408示出确定与用户输入相关联的一个或多个视觉元素的特定视觉元素。分析模块218可以至少部分地基于词汇特征和注视特征来确定作为语音输入302的预期主题的视觉元素。确定预期视觉元素可以包括经由二元分类器对视觉元素进行分类,如上所述。分析模块218可以利用分类器来计算与视觉元素相关联的概率。如上所述,分析模块218可以至少部分地基于所计算的概率来对视觉元素进行进一步的过滤和/或排序。分析模块218可以至少基于所计算的概率来确定特定视觉元素。在至少一些示例中,特定视觉元素可以与动作和/或任务相关联,并且至少部分地基于标识特定视觉元素,分析模块218可以使得与特定视觉元素相关联的动作和/或任务在视觉上下文中被执行。
图5示出了用于至少部分地基于词汇特征和注视特征来确定在用户话语中引用的特定视觉元素的示例性过程500。
框502示出标识用于接收视觉上下文中的用户交互的视觉元素。如上所述,视觉上下文可以包括web浏览器、应用界面或用于显示视觉元素的一些其他视觉上下文。提取模块216可以标识视觉上下文中的视觉元素,并且如上所述,可以确定视觉元素周围的距离和/或区域(例如,边界框)。
框504示出了接收引用视觉上下文中的一个或多个视觉元素中的第一视觉元素的用户话语。接收模块214可以接收诸如语音输入302的用户输入,并且可以将语音输入302转录为用户话语以供提取模块216处理。在至少一个示例中,用户话语可以引用视觉上下文中的一个或多个视觉元素的特定视觉元素。如上所述,用户话语可以明确地引用特定视觉元素和/或隐含地引用特定视觉元素。用户话语可以不受可以构成用户话语的词汇、语法和/或意图选择的约束。
框506示出了接收与视觉上下文中的一个或多个视觉元素中的至少第二视觉元素相关联的注视输入304。接收模块214可以接收用户输入,诸如注视输入304(例如,眼睛注视、头部姿态等)。在至少一个示例中,注视输入304可以由跟踪组件106收集,如上所述。
框508示出了至少部分地基于用户话语和视觉元素来提取词汇特征。提取模块216可以提取词汇特征。提取词汇特征可以包括计算和视觉上下文中的视觉元素的各个视觉元素相关联的文本与用户话语之间的词汇相似性,如上所述。
框510示出了至少部分地基于注视输入304和视觉元素来提取注视特征。提取模块216可以提取注视特征。如上所述,提取注视特征可以包括计算在预定时间处与各个视觉元素相关联的边界框和与注视输入304相关联的固定点之间的距离。
框512示出了确定在用户话语中被引用的视觉元素的特定视觉元素。如上所述,该确定可以至少部分地基于词汇特征和注视特征。在一些示例中,除了词汇特征和注视特征之外,该确定可以基于热图特征。分析模块218可以利用分类器来计算与视觉元素相关联的概率。如上所述,分析模块218可以至少部分地基于所计算的概率来对视觉元素进行进一步的过滤和/或排序。分析模块218可以至少基于所计算的概率来确定预期的视觉元素。在至少一些示例中,预期的视觉元素可以与动作和/或任务相关联,并且至少部分地基于标识预期的视觉元素,分析模块218可以使得计算机化会话系统执行与预期视觉元素相关联的动作和/或任务。
图6示出了用于过滤和标识视觉上下文中的特定视觉元素的过程600。
框602示出至少部分地基于所计算的概率来对视觉元素进行过滤。如上所述,分析模块218可以利用分类器,其被配置为至少部分地基于由提取模块216提取的特征集合308来确定特定视觉元素是否可能是用户话语110的主题。分析模块218可以输出预期引用的概率(例如,P(被引用的项目|项目,f_lexical,f_gaze),其中f_lexical是指词汇特征,并且f_gaze是指注视特征),如上所述。分析模块218可以包括用于至少部分地基于概率来对视觉元素进行过滤的过滤模块。在一些示例中,分析模块218可以附加地或替代地包括:排序模块,用于至少部分地基于由分析模块218确定的概率来对视觉元素进行排序。
框604示出至少部分地基于视觉元素集合中具有高于预定阈值的概率的各个视觉元素来标识视觉元素集合。在至少一个示例中,分析模块218可以标识具有被确定为高于预定阈值的概率的视觉元素集合,如上所述。
框606示出从视觉元素集合中标识特定视觉元素。分析模块218可以从视觉元素集合中标识具有被确定为高于预定阈值的概率的特定视觉元素。在一些示例中,特定视觉元素可以是具有最高概率或高于预定阈值的概率的视觉元素。
A.一种计算机实现的方法,包括:标识视觉上下文中可用于用户交互的视觉元素;接收与所述视觉上下文中的所述视觉元素中的一个或多个视觉元素相关联的用户输入,所述用户输入包括:从引用所述一个或多个视觉元素中的特定视觉元素的语音输入中得到的话语;以及与所述一个或多个视觉元素中的至少一些视觉元素相关联的注视输入,所述一个或多个视觉元素中的所述至少一些视觉元素包括所述特定视觉元素;至少部分地基于所述视觉元素和所述用户输入来提取词汇特征和注视特征;以及至少部分地基于所述词汇特征和注视特征来确定所述特定视觉元素。
B.根据段落A所述的计算机实现的方法,其中所述视觉上下文是自由形式的web浏览器或者应用界面。
C.根据段落A或B中任一段落所述的计算机实现的方法,其中所述注视输入包括至少与所述预期视觉元素相关联的眼睛注视输入或者至少与所述预期元素相关联的头部姿态输入,其中所述用户头部姿态输入用作眼睛注视输入的代理。
D.根据段落A-C中任一段落所述的计算机实现的方法,还包括:计算与所述视觉元素的各个视觉元素相关联的概率以确定所述特定视觉元素,所述概率至少部分地基于所述词汇特征和所述注视特征。
E.根据段落A-D中任一段落所述的计算机实现的方法,还包括:至少部分地基于计算的概率来过滤所述各个视觉元素;至少部分地基于视觉元素集合中具有高于预定阈值的概率的所述各个视觉元素来标识所述视觉元素集合;以及从所述视觉元素集合中标识所述特定视觉元素。
F.根据段落A-E中任一段落所述的计算机实现的方法,其中提取注视特征包括:标识与所述注视输入相关联的多个固定点;将预定数量的所述多个固定点一起分组在一个群集中;以及将所述群集的质心标识为用于提取所述注视特征的特定固定点。
G.根据权利要求A-F中任一项所述的计算机实现的方法,其中提取所述注视特征包括:计算所述语音输入的起始时间和结束时间;以及至少部分地基于以下项来提取所述注视特征:特定固定点和与所述视觉元素的各个视觉元素相关联的区域之间的距离;所述语音输入的所述起始时间;和所述语音输入的所述结束时间。
H.根据权利要求A-G中任一项所述的计算机实现的方法,其中所述特定视觉元素与动作相关联,并且所述方法还包括:至少部分地基于标识所述特定视觉元素,使得与所述预期视觉元素相关联的所述动作在视觉上下文中被执行。
I.一个或多个计算机可读介质,所述计算机可读介质使用指令进行编码,所述指令当由处理器执行时将计算机配置成执行根据段落A-H中任一段落所述的方法。
J.一种设备,包括一个或多个处理器以及用指令编码的一个或多个计算机可读介质,所述指令当由所述一个或多个处理器执行时将计算机配置成执行根据段落A-H中任一段落所述的计算机实现的方法。
K.一种系统,包括:用于标识视觉上下文中可用于用户交互的视觉元素的部件;用于接收与所述视觉上下文中的一个或多个视觉元素相关联的用户输入的部件,所述用户输入包括:从引用所述一个或多个视觉元素的特定视觉元素的语音输入得到的话语;以及与所述一个或多个视觉元素中的至少一些视觉元素相关联的注视输入,所述一个或多个视觉元素中的所述至少一些视觉元素包括所述特定视觉元素;用于至少部分地基于所述视觉元素和所述用户输入来提取词汇特征和注视特征的部件;以及用于至少部分地基于所述词汇特征和注视特征来确定所述特定视觉元素的部件。
L.根据段落K所述的系统,其中所述视觉上下文是自由形式的web浏览器或者应用界面。
M.根据段落K或L中任一段落所述的系统,其中所述注视输入包括至少与所述预期元素相关联的眼睛注视输入或至少与所述预期元素相关联的头部姿态输入,其中所述用户头部姿态输入用作眼睛注视输入的代理。
N.根据段落K-M中任一段落的系统,还包括用于计算与所述视觉元素的各个视觉元素相关联的概率以确定所述特定视觉元素的部件,所述概率至少部分地基于所述词汇特征和所述注视特征。
O.根据段落K-N中任一段落所述的系统,还包括用于至少部分地基于所计算的概率来对各个视觉元素进行过滤的部件;用于至少部分地基于所述视觉元素集合中具有高于预定阈值的概率的所述各个视觉元素来标识所述视觉元素集合的部件;以及用于从所述视觉元素集合中标识所述特定视觉元素的部件。
P.根据段落K-O任一段落所述的系统,其中提取注视特征包括:标识与所述注视输入相关联的多个固定点;将预定数量的所述多个固定点一起分组在一个群集中;以及将所述群集的质心标识为用于提取所述注视特征的特定固定点。
Q.根据段落K-P中任一段落所述的系统,其中提取所述注视特征包括:计算所述语音输入的起始时间和结束时间;以及至少部分地基于以下项来提取所述注视特征:特定固定点和与所述视觉元素的各个视觉元素相关联的区域之间的距离;所述语音输入的起始时间;和所述语音输入的结束时间。
R.根据段落K-Q中任一段落所述的系统,其中所述特定视觉元素与动作相关联,并且所述方法还包括用于至少部分地基于标识所述特定视觉元素来使得与所述预期视觉元素相关联的所述动作在视觉上下文中被执行的部件。
S.一个或多个计算机可读介质,所述计算机可读介质用指令进行编码,所述指令当由处理器执行时将计算机配置成执行包括以下项的动作:标识用于在视觉上下文中接收用户交互的视觉元素;接收从引用所述视觉上下文中的所述视觉元素中的第一视觉元素的语音输入来转录的用户话语;接收至少与所述视觉上下文中的所述视觉元素中的第二视觉元素相关联的注视输入;至少部分地基于所述用户话语和所述视觉元素来提取词汇特征;至少部分地基于所述注视输入和所述视觉元素来提取注视特征;以及至少部分地基于所述词汇特征和注视特征来确定所述第一视觉元素。
T.根据段落S所述的一个或多个计算机可读介质,其中所述动作还包括:至少部分地基于所述注视输入和所述视觉元素来提取热图特征。
U.根据段落S或T中任一段落所述的一个或多个计算机可读介质,其中所述动作还包括:确定针对所述视觉元素的各个视觉元素的边界框,所述边界框包括与所述各个视觉元素相关联的区域。
V.根据段落S-U中任一段落所述的一个或多个计算机可读介质,其中提取注视特征包括:计算在预定时间处各个视觉元素的边界框与所述注视输入相关联的固定点之间的距离,所述边界框包括与所述各个视觉元素相关联的区域。
W.根据段落S-V中任一段落所述的一个或多个计算机可读介质,其中提取词汇特征包括:计算与所述视觉元素的各个视觉元素相关联的文本与所述用户话语之间的词汇相似性。
X.根据段落S-W中任一段落所述的一个或多个计算机可读介质,其中确定所述特定视觉元素包括:至少部分地基于将二元分类器应用于所述词汇特征和所述注视特征中的至少一个来对所述视觉元素进行分类。
Y.一种设备,包括一个或多个处理器和根据段落S-X中任一段落所述的一个或多个计算机可读介质。
Z.一种系统,包括:计算机可读介质;一个或多个处理器;以及在所述计算机可读介质上并且能够由所述一个或多个处理器执行的一个或多个模块,所述一个或多个模块包括:接收模块,被配置为接收:从引用呈现在与视觉上下文相关联的用户界面上的多个视觉元素中的特定视觉元素的语音输入来转录的用户话语;以及指向呈现在与所述视觉上下文相关联的所述用户界面上的所述多个视觉元素中的一个或多个视觉元素的注视输入;提取模块,被配置为至少部分地基于所述多个视觉元素、所述用户话语和所述注视输入来提取特征集合;以及分析模块,被配置为至少部分地基于所述特征集合来标识所述特定视觉元素。
AA.根据段落Z所述的系统,还包括:显示模块,被配置为在所述用户界面上显示所述多个视觉元素。
AB.根据段落Z或AA中任一段落所述的系统,其中所述特征集合至少包括:词汇特征,其中词汇特征代表和所述多个视觉元素中的各个视觉元素相关联的文本与所述用户话语之间的词汇相似性;和注视特征,其中注视特征代表在预定时间处在和所述各个视觉元素相关联的边界框与和所述注视输入相关联的固定点之间的距离。
AC.根据段落Z-AB中任一段落所述的系统,其中所述提取模块还被配置为:至少部分地基于所述注视输入和所述多个视觉元素来提取热图特征。
AD.根据段落Z-AC中任一段落的系统,其中所述分析模块还被配置为:计算与所述多个视觉元素中的各个视觉元素相关联的概率以标识所述特定视觉元素,所述概率至少部分地基于词汇特征和注视功能。
AE.根据段落AD所述的系统,其中所述分析模块还被配置为:至少部分地基于所述特定元素具有与所述多个视觉元素相关联的所有所计算的概率中的最高概率来标识所述特定视觉元素。
AF.根据段落AD所述的系统,其中所述分析模块还被配置为:在第一过程中对所述词汇特征进行分类;在第二过程中对所述注视特征进行分类,所述第二过程在在与所述第一过程不同的时间处;以及至少部分地基于对所述词汇特征进行分类以及对所述注视特征进行分类:计算与所述多个视觉元素中的各个视觉元素相关联的概率,以标识所述特定视觉元素;以及至少部分地基于所计算的概率来标识所述特定视觉元素。
结论
总而言之,尽管已经用对结构特征和/或方法动作而特定的语言描述了各种示例,但是应当理解,在所附表示中定义的主题不一定限于所描述的具体特征或动作。相反,特定特征和动作被公开为实现所要求保护的主题的示例形式。
Claims (15)
1.一种计算机实现的方法,所述方法用于理解和解析对会话计算系统的视觉上下文中的视觉元素的引用,所述方法包括:
标识所述视觉上下文中可用于用户交互的所述视觉元素;
从耦合到所述会话计算系统的一个或多个输入设备接收与所述视觉上下文中的所述视觉元素中的一个或多个视觉元素相关联的用户输入,所述用户输入包括:
从引用所述一个或多个视觉元素中的特定视觉元素的语音输入得到的话语;以及
与所述一个或多个视觉元素中的至少一些视觉元素相关联的注视输入,所述一个或多个视觉元素中的所述至少一些视觉元素包括所述特定视觉元素;
至少部分地基于所述视觉元素和所述用户输入来提取词汇特征和注视特征;以及
至少部分地基于所述词汇特征和注视特征来确定所述特定视觉元素。
2.根据权利要求1所述的计算机实现的方法,其中所述视觉上下文是自由形式的web浏览器或者应用界面。
3.根据权利要求1所述的计算机实现的方法,其中所述注视输入包括至少与所述预期视觉元素相关联的眼睛注视输入或者至少与所述预期元素相关联的头部姿态输入,其中所述用户头部姿态输入用作眼睛注视输入的代理。
4.根据权利要求1所述的计算机实现的方法,还包括:计算与所述视觉元素的各个视觉元素相关联的概率以确定所述特定视觉元素,所述概率至少部分地基于所述词汇特征和所述注视特征。
5.根据权利要求1所述的计算机实现的方法,其中提取注视特征包括:
标识与所述注视输入相关联的多个固定点;
将预定数量的所述多个固定点一起分组在一个群集中;以及
将所述群集的质心标识为用于提取所述注视特征的特定固定点。
6.根据权利要求1所述的计算机实现的方法,其中所述特定视觉元素与动作相关联,并且所述方法还包括:至少部分地基于标识所述特定视觉元素,使得与所述预期视觉元素相关联的所述动作在所述视觉上下文中被执行。
7.一种计算机可读介质,所述计算机可读介质具有在其上的计算机可执行指令,所述计算机可执行指令当被执行时将计算机配置成执行根据权利要求1至6中任一项所述的方法。
8.一种设备,包括:
一个或多个处理器;以及
计算机可读介质,所述计算机可读介质具有在其上的计算机可执行指令,所述计算机可执行指令当由所述一个或多个处理器执行时将所述设备配置成执行根据权利要求1-6中任一项所述的方法。
9.一种会话计算系统,所述会话计算系统用于理解和解析对视觉上下文中的视觉元素的引用,所述会话计算系统包括:
语音输入设备;
跟踪设备;
计算机可读介质;
一个或多个处理器;以及
一个或多个模块,所述一个或多个模块在所述计算机可读介质上并且能够由所述一个或多个处理器执行,所述一个或多个模块包括:
接收模块,被配置为接收:
从语音输入转录的用户话语,所述语音输入从所述语音输入设备接收,所述语音输入引用在与视觉上下文相关联的用户界面上呈现的多个视觉元素中的特定视觉元素;以及
从所述跟踪设备接收的注视输入,所述注视输入被指向与所述视觉上下文相关联的所述用户界面上呈现的所述多个视觉元素中的一个或多个视觉元素;
提取模块,被配置为至少部分地基于所述多个视觉元素、所述用户话语和所述注视输入来提取特征集合;以及
分析模块,被配置为至少部分地基于所述特征集合来标识所述特定视觉元素。
10.根据权利要求9所述的会话计算系统,还包括:显示模块,被配置为在所述用户界面上显示所述多个视觉元素。
11.根据权利要求9所述的会话计算系统,其中所述提取模块还被配置为:至少部分地基于所述注视输入和所述多个视觉元素来提取热图特征。
12.根据权利要求9-11中任一项所述的会话计算系统,其中所述特征集合至少包括:
词汇特征,其中词汇特征代表和所述多个视觉元素中的各个视觉元素相关联的文本与所述用户话语之间的词汇相似性;以及
注视特征,其中所述注视特征代表在预定时间处在和所述各个视觉元素相关联的边界框与和所述注视输入相关联的固定点之间的距离。
13.根据权利要求12所述的会话计算系统,其中所述分析模块还被配置为:计算与所述多个视觉元素中的各个视觉元素相关联的概率以标识所述特定视觉元素,所述概率至少部分地基于所述词汇特征和所述注视特征。
14.根据权利要求13所述的会话计算系统,其中所述分析模块还被配置为:至少部分地基于所述特定元素具有与所述多个视觉元素相关联的所有所计算的概率中的最高概率来标识所述特定视觉元素。
15.根据权利要求13所述的会话计算系统,其中所述分析模块还被配置为:
在第一过程中对所述词汇特征进行分类;
在第二过程中对所述注视特征进行分类,所述第二过程在与所述第一过程不同的时间处;以及
至少部分地基于对所述词汇特征进行分类以及对所述注视特征进行分类:
计算与所述多个视觉元素中的各个视觉元素相关联的概率,以标识所述特定视觉元素;以及
至少部分地基于所计算的概率来标识所述特定视觉元素。
Applications Claiming Priority (3)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| US14/496,538 US10317992B2 (en) | 2014-09-25 | 2014-09-25 | Eye gaze for spoken language understanding in multi-modal conversational interactions |
| US14/496,538 | 2014-09-25 | ||
| PCT/US2015/052194 WO2016049439A1 (en) | 2014-09-25 | 2015-09-25 | Eye gaze for spoken language understanding in multi-modal conversational interactions |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| CN107077201A true CN107077201A (zh) | 2017-08-18 |
| CN107077201B CN107077201B (zh) | 2020-06-23 |
Family
ID=54291650
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| CN201580050763.XA Active CN107077201B (zh) | 2014-09-25 | 2015-09-25 | 用于多模式会话交互中的口头语言理解的眼睛注视 |
Country Status (11)
| Country | Link |
|---|---|
| US (2) | US10317992B2 (zh) |
| EP (1) | EP3198328B1 (zh) |
| JP (1) | JP2017536600A (zh) |
| KR (2) | KR102491846B1 (zh) |
| CN (1) | CN107077201B (zh) |
| AU (1) | AU2015320442A1 (zh) |
| BR (1) | BR112017003636A2 (zh) |
| CA (1) | CA2961279A1 (zh) |
| MX (1) | MX2017003754A (zh) |
| RU (1) | RU2017108533A (zh) |
| WO (1) | WO2016049439A1 (zh) |
Cited By (10)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN109474761A (zh) * | 2017-08-21 | 2019-03-15 | 阿瓦亚公司 | 监控代理对联络中心中的人工智能内容的监督 |
| TWI716885B (zh) * | 2019-05-27 | 2021-01-21 | 陳筱涵 | 即時外語溝通系統 |
| CN112868060A (zh) * | 2018-05-07 | 2021-05-28 | 谷歌有限责任公司 | 用户、自动化助理和其它计算服务之间的多模态交互 |
| US11107469B2 (en) | 2017-01-18 | 2021-08-31 | Sony Corporation | Information processing apparatus and information processing method |
| CN114616598A (zh) * | 2020-10-09 | 2022-06-10 | 谷歌有限责任公司 | 使用眼睛注视数据的文本布局解释 |
| WO2022206184A1 (en) * | 2021-03-29 | 2022-10-06 | International Business Machines Corporation | Graphical adjustment recommendations for vocalization |
| CN116312528A (zh) * | 2018-03-26 | 2023-06-23 | 苹果公司 | 自然助理交互 |
| US12125486B2 (en) | 2018-05-07 | 2024-10-22 | Google Llc | Multi-modal interaction between users, automated assistants, and other computing services |
| CN119550212A (zh) * | 2024-11-12 | 2025-03-04 | 上海交通大学 | 机器人自动打磨方法、机器人设备、计算机设备及介质 |
| WO2025051271A1 (en) * | 2023-09-08 | 2025-03-13 | Huawei Technologies Co., Ltd. | Gaze assisted input for electronic device |
Families Citing this family (213)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
| US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
| US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
| US10002189B2 (en) | 2007-12-20 | 2018-06-19 | Apple Inc. | Method and apparatus for searching using an active ontology |
| US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
| US8600120B2 (en) | 2008-01-03 | 2013-12-03 | Apple Inc. | Personal computing device control using face detection and recognition |
| US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
| US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
| US8676904B2 (en) | 2008-10-02 | 2014-03-18 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
| US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
| US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
| US10255566B2 (en) | 2011-06-03 | 2019-04-09 | Apple Inc. | Generating and processing task items that represent tasks to perform |
| US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
| US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
| US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
| US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
| US8638385B2 (en) | 2011-06-05 | 2014-01-28 | Apple Inc. | Device, method, and graphical user interface for accessing an application in a locked device |
| US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
| US10417037B2 (en) | 2012-05-15 | 2019-09-17 | Apple Inc. | Systems and methods for integrating third party services with a digital assistant |
| US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
| US9547647B2 (en) | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
| BR112015018905B1 (pt) | 2013-02-07 | 2022-02-22 | Apple Inc | Método de operação de recurso de ativação por voz, mídia de armazenamento legível por computador e dispositivo eletrônico |
| US10652394B2 (en) | 2013-03-14 | 2020-05-12 | Apple Inc. | System and method for processing voicemail |
| US10748529B1 (en) | 2013-03-15 | 2020-08-18 | Apple Inc. | Voice activated device for use with a voice-based digital assistant |
| WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
| WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
| US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
| AU2014278592B2 (en) | 2013-06-09 | 2017-09-07 | Apple Inc. | Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant |
| CN105453026A (zh) | 2013-08-06 | 2016-03-30 | 苹果公司 | 基于来自远程设备的活动自动激活智能响应 |
| US9898642B2 (en) | 2013-09-09 | 2018-02-20 | Apple Inc. | Device, method, and graphical user interface for manipulating user interfaces based on fingerprint sensor inputs |
| US10296160B2 (en) | 2013-12-06 | 2019-05-21 | Apple Inc. | Method for extracting salient dialog usage from live data |
| US9412363B2 (en) | 2014-03-03 | 2016-08-09 | Microsoft Technology Licensing, Llc | Model based approach for on-screen item selection and disambiguation |
| US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
| US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
| US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
| EP3149728B1 (en) | 2014-05-30 | 2019-01-16 | Apple Inc. | Multi-command single utterance input method |
| US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
| US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
| US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
| US10317992B2 (en) * | 2014-09-25 | 2019-06-11 | Microsoft Technology Licensing, Llc | Eye gaze for spoken language understanding in multi-modal conversational interactions |
| US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
| US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
| US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
| US10152299B2 (en) | 2015-03-06 | 2018-12-11 | Apple Inc. | Reducing response latency of intelligent automated assistants |
| US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
| US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
| US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
| US10460227B2 (en) | 2015-05-15 | 2019-10-29 | Apple Inc. | Virtual assistant in a communication session |
| US10200824B2 (en) | 2015-05-27 | 2019-02-05 | Apple Inc. | Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device |
| US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
| US9578173B2 (en) | 2015-06-05 | 2017-02-21 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
| US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
| US20160378747A1 (en) | 2015-06-29 | 2016-12-29 | Apple Inc. | Virtual assistant for media playback |
| US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
| US10740384B2 (en) | 2015-09-08 | 2020-08-11 | Apple Inc. | Intelligent automated assistant for media search and playback |
| US10331312B2 (en) | 2015-09-08 | 2019-06-25 | Apple Inc. | Intelligent automated assistant in a media environment |
| US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
| US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
| US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
| US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
| US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
| US10956666B2 (en) | 2015-11-09 | 2021-03-23 | Apple Inc. | Unconventional virtual assistant interactions |
| US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
| US9886958B2 (en) | 2015-12-11 | 2018-02-06 | Microsoft Technology Licensing, Llc | Language and domain independent model based approach for on-screen item selection |
| US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
| US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
| US9978367B2 (en) * | 2016-03-16 | 2018-05-22 | Google Llc | Determining dialog states for language models |
| CN109074364A (zh) * | 2016-05-12 | 2018-12-21 | 索尼公司 | 信息处理装置、信息处理方法和程序 |
| US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
| US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
| US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
| US11227589B2 (en) | 2016-06-06 | 2022-01-18 | Apple Inc. | Intelligent list reading |
| US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
| DK179309B1 (en) | 2016-06-09 | 2018-04-23 | Apple Inc | Intelligent automated assistant in a home environment |
| US12223282B2 (en) | 2016-06-09 | 2025-02-11 | Apple Inc. | Intelligent automated assistant in a home environment |
| US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
| US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
| US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
| US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
| US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
| DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
| DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
| US12197817B2 (en) | 2016-06-11 | 2025-01-14 | Apple Inc. | Intelligent device arbitration and control |
| DK179049B1 (en) | 2016-06-11 | 2017-09-18 | Apple Inc | Data driven natural language event detection and classification |
| DK179343B1 (en) | 2016-06-11 | 2018-05-14 | Apple Inc | Intelligent task discovery |
| US10854190B1 (en) | 2016-06-13 | 2020-12-01 | United Services Automobile Association (Usaa) | Transcription analysis platform |
| US10474753B2 (en) | 2016-09-07 | 2019-11-12 | Apple Inc. | Language identification using recurrent neural networks |
| US10976998B2 (en) | 2016-09-23 | 2021-04-13 | Sony Corporation | Information processing apparatus and information processing method for controlling a response to speech |
| US10043516B2 (en) | 2016-09-23 | 2018-08-07 | Apple Inc. | Intelligent automated assistant |
| DK179978B1 (en) | 2016-09-23 | 2019-11-27 | Apple Inc. | Image data for enhanced user interactions |
| US11281993B2 (en) | 2016-12-05 | 2022-03-22 | Apple Inc. | Model and ensemble compression for metric learning |
| KR102848268B1 (ko) | 2016-12-19 | 2025-08-27 | 삼성전자주식회사 | 사용자의 시선 및 입력에 기반하여 제어되는 전자 장치, 모바일 전자 장치 및 디스플레이 장치 |
| US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
| US10229680B1 (en) * | 2016-12-29 | 2019-03-12 | Amazon Technologies, Inc. | Contextual entity resolution |
| US11204787B2 (en) | 2017-01-09 | 2021-12-21 | Apple Inc. | Application integration with a digital assistant |
| DE102017108194A1 (de) * | 2017-04-18 | 2018-10-18 | Vorwerk & Co. Interholding Gmbh | Verfahren zum Betrieb eines sich selbsttätig fortbewegenden Fahrzeugs |
| CN108235745B (zh) * | 2017-05-08 | 2021-01-08 | 深圳前海达闼云端智能科技有限公司 | 机器人唤醒方法、装置和机器人 |
| US10417266B2 (en) | 2017-05-09 | 2019-09-17 | Apple Inc. | Context-aware ranking of intelligent response suggestions |
| DK201770383A1 (en) | 2017-05-09 | 2018-12-14 | Apple Inc. | USER INTERFACE FOR CORRECTING RECOGNITION ERRORS |
| DK201770439A1 (en) | 2017-05-11 | 2018-12-13 | Apple Inc. | Offline personal assistant |
| DK180048B1 (en) | 2017-05-11 | 2020-02-04 | Apple Inc. | MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION |
| US10395654B2 (en) | 2017-05-11 | 2019-08-27 | Apple Inc. | Text normalization based on a data-driven learning network |
| US10726832B2 (en) | 2017-05-11 | 2020-07-28 | Apple Inc. | Maintaining privacy of personal information |
| US11301477B2 (en) | 2017-05-12 | 2022-04-12 | Apple Inc. | Feedback analysis of a digital assistant |
| DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
| DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
| DK201770428A1 (en) | 2017-05-12 | 2019-02-18 | Apple Inc. | LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT |
| DK201770432A1 (en) | 2017-05-15 | 2018-12-21 | Apple Inc. | Hierarchical belief states for digital assistants |
| DK201770411A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Multi-modal interfaces |
| DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
| US20180336275A1 (en) | 2017-05-16 | 2018-11-22 | Apple Inc. | Intelligent automated assistant for media exploration |
| KR102439054B1 (ko) | 2017-05-16 | 2022-09-02 | 애플 인크. | 이모지 레코딩 및 전송 |
| KR20190141701A (ko) * | 2017-05-16 | 2019-12-24 | 애플 인크. | 향상된 사용자 상호작용들을 위한 이미지 데이터 |
| US10311144B2 (en) | 2017-05-16 | 2019-06-04 | Apple Inc. | Emoji word sense disambiguation |
| US10403278B2 (en) | 2017-05-16 | 2019-09-03 | Apple Inc. | Methods and systems for phonetic matching in digital assistant services |
| DK179560B1 (en) | 2017-05-16 | 2019-02-18 | Apple Inc. | FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES |
| US20180336892A1 (en) | 2017-05-16 | 2018-11-22 | Apple Inc. | Detecting a trigger of a digital assistant |
| US11221823B2 (en) | 2017-05-22 | 2022-01-11 | Samsung Electronics Co., Ltd. | System and method for context-based interaction for electronic devices |
| US10657328B2 (en) | 2017-06-02 | 2020-05-19 | Apple Inc. | Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling |
| US10366691B2 (en) | 2017-07-11 | 2019-07-30 | Samsung Electronics Co., Ltd. | System and method for voice command context |
| US10515625B1 (en) | 2017-08-31 | 2019-12-24 | Amazon Technologies, Inc. | Multi-modal natural language processing |
| US10537244B1 (en) * | 2017-09-05 | 2020-01-21 | Amazon Technologies, Inc. | Using eye tracking to label computer vision datasets |
| KR102185854B1 (ko) | 2017-09-09 | 2020-12-02 | 애플 인크. | 생체측정 인증의 구현 |
| US10445429B2 (en) | 2017-09-21 | 2019-10-15 | Apple Inc. | Natural language understanding using vocabularies with compressed serialized tries |
| US10755051B2 (en) | 2017-09-29 | 2020-08-25 | Apple Inc. | Rule-based natural language processing |
| US10636424B2 (en) | 2017-11-30 | 2020-04-28 | Apple Inc. | Multi-turn canned dialog |
| US10733982B2 (en) | 2018-01-08 | 2020-08-04 | Apple Inc. | Multi-directional dialog |
| US10733375B2 (en) | 2018-01-31 | 2020-08-04 | Apple Inc. | Knowledge-based framework for improving natural language understanding |
| US10789959B2 (en) | 2018-03-02 | 2020-09-29 | Apple Inc. | Training speaker recognition models for digital assistants |
| US10592604B2 (en) | 2018-03-12 | 2020-03-17 | Apple Inc. | Inverse text normalization for automatic speech recognition |
| US10909331B2 (en) | 2018-03-30 | 2021-02-02 | Apple Inc. | Implicit identification of translation payload with neural machine translation |
| US11145294B2 (en) | 2018-05-07 | 2021-10-12 | Apple Inc. | Intelligent automated assistant for delivering content from user experiences |
| US12033296B2 (en) | 2018-05-07 | 2024-07-09 | Apple Inc. | Avatar creation user interface |
| US10928918B2 (en) | 2018-05-07 | 2021-02-23 | Apple Inc. | Raise to speak |
| US10984780B2 (en) | 2018-05-21 | 2021-04-20 | Apple Inc. | Global semantic word embeddings using bi-directional recurrent neural networks |
| US10892996B2 (en) | 2018-06-01 | 2021-01-12 | Apple Inc. | Variable latency device coordination |
| DK180639B1 (en) | 2018-06-01 | 2021-11-04 | Apple Inc | DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT |
| DK201870355A1 (en) | 2018-06-01 | 2019-12-16 | Apple Inc. | VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS |
| US11386266B2 (en) | 2018-06-01 | 2022-07-12 | Apple Inc. | Text correction |
| DK179822B1 (da) | 2018-06-01 | 2019-07-12 | Apple Inc. | Voice interaction at a primary device to access call functionality of a companion device |
| US11170085B2 (en) | 2018-06-03 | 2021-11-09 | Apple Inc. | Implementation of biometric authentication |
| US10504518B1 (en) | 2018-06-03 | 2019-12-10 | Apple Inc. | Accelerated task performance |
| US20190386840A1 (en) * | 2018-06-18 | 2019-12-19 | Cisco Technology, Inc. | Collaboration systems with automatic command implementation capabilities |
| US11010561B2 (en) | 2018-09-27 | 2021-05-18 | Apple Inc. | Sentiment prediction from textual data |
| KR101996039B1 (ko) * | 2018-09-27 | 2019-07-03 | 국립공주병원 | 얼굴 표정 인식을 위한 훈련 템플릿 구축 장치 및 그 방법 |
| US11703939B2 (en) | 2018-09-28 | 2023-07-18 | Shanghai Cambricon Information Technology Co., Ltd | Signal processing device and related products |
| US11170166B2 (en) | 2018-09-28 | 2021-11-09 | Apple Inc. | Neural typographical error modeling via generative adversarial networks |
| US10839159B2 (en) | 2018-09-28 | 2020-11-17 | Apple Inc. | Named entity normalization in a spoken dialog system |
| US11100349B2 (en) | 2018-09-28 | 2021-08-24 | Apple Inc. | Audio assisted enrollment |
| US11462215B2 (en) | 2018-09-28 | 2022-10-04 | Apple Inc. | Multi-modal inputs for voice commands |
| US10860096B2 (en) * | 2018-09-28 | 2020-12-08 | Apple Inc. | Device control using gaze information |
| US11475898B2 (en) | 2018-10-26 | 2022-10-18 | Apple Inc. | Low-latency multi-speaker speech recognition |
| KR102669100B1 (ko) * | 2018-11-02 | 2024-05-27 | 삼성전자주식회사 | 전자 장치 및 그 제어 방법 |
| US11900931B2 (en) | 2018-11-20 | 2024-02-13 | Sony Group Corporation | Information processing apparatus and information processing method |
| US11417236B2 (en) * | 2018-12-28 | 2022-08-16 | Intel Corporation | Real-time language learning within a smart space |
| US11638059B2 (en) | 2019-01-04 | 2023-04-25 | Apple Inc. | Content playback on multiple devices |
| US11455982B2 (en) | 2019-01-07 | 2022-09-27 | Cerence Operating Company | Contextual utterance resolution in multimodal systems |
| US11322136B2 (en) * | 2019-01-09 | 2022-05-03 | Samsung Electronics Co., Ltd. | System and method for multi-spoken language detection |
| US11183185B2 (en) * | 2019-01-09 | 2021-11-23 | Microsoft Technology Licensing, Llc | Time-based visual targeting for voice commands |
| US11107261B2 (en) | 2019-01-18 | 2021-08-31 | Apple Inc. | Virtual avatar animation based on facial feature movement |
| US11348573B2 (en) | 2019-03-18 | 2022-05-31 | Apple Inc. | Multimodality in digital assistant systems |
| DK201970509A1 (en) | 2019-05-06 | 2021-01-15 | Apple Inc | Spoken notifications |
| US11423908B2 (en) | 2019-05-06 | 2022-08-23 | Apple Inc. | Interpreting spoken requests |
| DK201970531A1 (en) | 2019-05-06 | 2021-07-09 | Apple Inc | Avatar integration with multiple applications |
| US11307752B2 (en) | 2019-05-06 | 2022-04-19 | Apple Inc. | User configurable task triggers |
| US11475884B2 (en) | 2019-05-06 | 2022-10-18 | Apple Inc. | Reducing digital assistant latency when a language is incorrectly determined |
| US10969863B2 (en) * | 2019-05-08 | 2021-04-06 | International Business Machines Corporation | Configurable sensor array for a multi-target environment |
| US11140099B2 (en) | 2019-05-21 | 2021-10-05 | Apple Inc. | Providing message response suggestions |
| DK201970511A1 (en) | 2019-05-31 | 2021-02-15 | Apple Inc | Voice identification in digital assistant systems |
| DK180129B1 (en) | 2019-05-31 | 2020-06-02 | Apple Inc. | User activity shortcut suggestions |
| US11496600B2 (en) | 2019-05-31 | 2022-11-08 | Apple Inc. | Remote execution of machine-learned models |
| US11289073B2 (en) | 2019-05-31 | 2022-03-29 | Apple Inc. | Device text to speech |
| US11360641B2 (en) | 2019-06-01 | 2022-06-14 | Apple Inc. | Increasing the relevance of new available information |
| US11227599B2 (en) | 2019-06-01 | 2022-01-18 | Apple Inc. | Methods and user interfaces for voice-based control of electronic devices |
| JP7346135B2 (ja) * | 2019-07-30 | 2023-09-19 | キヤノン株式会社 | 電子機器、電子機器の制御方法、プログラムおよび記憶媒体 |
| JP2021033746A (ja) * | 2019-08-27 | 2021-03-01 | アルパイン株式会社 | サービス提供装置、サービス提供システム、及びサービス提供方法 |
| US11848000B2 (en) * | 2019-09-06 | 2023-12-19 | Microsoft Technology Licensing, Llc | Transcription revision interface for speech recognition system |
| WO2021056255A1 (en) | 2019-09-25 | 2021-04-01 | Apple Inc. | Text detection using global geometry estimators |
| CN113298843B (zh) | 2020-02-24 | 2024-05-14 | 中科寒武纪科技股份有限公司 | 数据量化处理方法、装置、电子设备和存储介质 |
| KR102375508B1 (ko) * | 2020-03-16 | 2022-03-17 | 주식회사 한글과컴퓨터 | 문서 작성 프로그램에서 자주 사용되는 편집 명령에 대한 음성 인식을 가능하게 하는 전자 장치 및 그 동작 방법 |
| KR102909001B1 (ko) * | 2020-04-29 | 2026-01-08 | 현대자동차주식회사 | 차량 음성 인식 방법 및 장치 |
| US11038934B1 (en) | 2020-05-11 | 2021-06-15 | Apple Inc. | Digital assistant hardware abstraction |
| US12301635B2 (en) | 2020-05-11 | 2025-05-13 | Apple Inc. | Digital assistant hardware abstraction |
| US11061543B1 (en) | 2020-05-11 | 2021-07-13 | Apple Inc. | Providing relevant data items based on context |
| US11490204B2 (en) | 2020-07-20 | 2022-11-01 | Apple Inc. | Multi-device audio adjustment coordination |
| US11438683B2 (en) | 2020-07-21 | 2022-09-06 | Apple Inc. | User identification using headphones |
| US11996095B2 (en) | 2020-08-12 | 2024-05-28 | Kyndryl, Inc. | Augmented reality enabled command management |
| EP4264460B1 (en) | 2021-01-25 | 2025-12-24 | Apple Inc. | Implementation of biometric authentication |
| CN116888574A (zh) | 2021-02-23 | 2023-10-13 | 苹果公司 | 共存会话中的数字助理交互 |
| US12210603B2 (en) | 2021-03-04 | 2025-01-28 | Apple Inc. | User interface for enrolling a biometric feature |
| KR20230142775A (ko) | 2021-03-11 | 2023-10-11 | 애플 인크. | 지속적인 다이얼로그를 위한 다중 상태 디지털 어시스턴트 |
| US11955137B2 (en) | 2021-03-11 | 2024-04-09 | Apple Inc. | Continuous dialog with a digital assistant |
| US11756574B2 (en) * | 2021-03-11 | 2023-09-12 | Apple Inc. | Multiple state digital assistant for continuous dialog |
| US12216754B2 (en) | 2021-05-10 | 2025-02-04 | Apple Inc. | User interfaces for authenticating to perform secure operations |
| US20220374109A1 (en) * | 2021-05-14 | 2022-11-24 | Apple Inc. | User input interpretation using display representations |
| US11960790B2 (en) | 2021-05-27 | 2024-04-16 | Microsoft Technology Licensing, Llc | Spatial attention model enhanced voice engagement system |
| US11681364B1 (en) * | 2021-06-29 | 2023-06-20 | Amazon Technologies, Inc. | Gaze prediction |
| US12266354B2 (en) | 2021-07-15 | 2025-04-01 | Apple Inc. | Speech interpretation based on environmental context |
| US12406664B2 (en) | 2021-08-06 | 2025-09-02 | Apple Inc. | Multimodal assistant understanding using on-screen and device context |
| EP4377784A1 (en) | 2021-08-31 | 2024-06-05 | Apple Inc. | Digital assistant for providing graphical overlays of video events |
| US11967335B2 (en) | 2021-09-03 | 2024-04-23 | Google Llc | Foveated beamforming for augmented reality devices and wearables |
| US20230081605A1 (en) * | 2021-09-16 | 2023-03-16 | Apple Inc. | Digital assistant for moving and copying graphical elements |
| WO2023043877A1 (en) * | 2021-09-16 | 2023-03-23 | Apple Inc. | Digital assistant for moving and copying graphical elements |
| GB2616288B (en) * | 2022-03-03 | 2024-10-30 | Sony Interactive Entertainment Inc | Gaze tracking system and method |
| US12423917B2 (en) | 2022-06-10 | 2025-09-23 | Apple Inc. | Extended reality based digital assistant interactions |
| US12400649B2 (en) | 2022-07-21 | 2025-08-26 | Sony Interactive Entertainment LLC | Customized dialogue support |
| US12183340B2 (en) * | 2022-07-21 | 2024-12-31 | Sony Interactive Entertainment LLC | Intent identification for dialogue support |
| US12417596B2 (en) | 2022-09-23 | 2025-09-16 | Apple Inc. | User interfaces for managing live communication sessions |
| KR20240111137A (ko) * | 2023-01-09 | 2024-07-16 | 삼성전자주식회사 | 멀티 윈도우 모드에서 포커싱 윈도우를 변경하기 위한 장치 및 방법 |
| WO2024215857A1 (en) | 2023-04-14 | 2024-10-17 | Apple Inc. | Digital assistant for providing and modifying an output of an electronic document |
| US12236938B2 (en) | 2023-04-14 | 2025-02-25 | Apple Inc. | Digital assistant for providing and modifying an output of an electronic document |
| WO2025014062A1 (ko) * | 2023-07-10 | 2025-01-16 | 삼성전자주식회사 | 전자 장치 및 전자 장치의 사용자 발화 처리 방법 |
| WO2025049649A2 (en) * | 2023-08-28 | 2025-03-06 | Telefonaktiebolaget Lm Ericsson (Publ) | Perceptually optimized immersive video encoding |
Citations (8)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US20030040914A1 (en) * | 2000-01-27 | 2003-02-27 | Siemens Ag | System and method for eye tracking controlled speech processing |
| US20100033333A1 (en) * | 2006-06-11 | 2010-02-11 | Volva Technology Corp | Method and apparatus for determining and analyzing a location of visual interest |
| CN102541438A (zh) * | 2010-11-01 | 2012-07-04 | 微软公司 | 集成话音命令模态的用户界面 |
| CN102567718A (zh) * | 2010-12-24 | 2012-07-11 | 佳能株式会社 | 共享共同属性的视频对象的概要示图 |
| US20120295708A1 (en) * | 2006-03-06 | 2012-11-22 | Sony Computer Entertainment Inc. | Interface with Gaze Detection and Voice Input |
| US20130304479A1 (en) * | 2012-05-08 | 2013-11-14 | Google Inc. | Sustained Eye Gaze for Determining Intent to Interact |
| US20130346085A1 (en) * | 2012-06-23 | 2013-12-26 | Zoltan Stekkelpak | Mouth click sound based computer-human interaction method, system and apparatus |
| US20140184550A1 (en) * | 2011-09-07 | 2014-07-03 | Tandemlaunch Technologies Inc. | System and Method for Using Eye Gaze Information to Enhance Interactions |
Family Cites Families (29)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP3361980B2 (ja) * | 1997-12-12 | 2003-01-07 | 株式会社東芝 | 視線検出装置及びその方法 |
| US6757718B1 (en) | 1999-01-05 | 2004-06-29 | Sri International | Mobile navigation of network-based electronic information using spoken input |
| US6795806B1 (en) | 2000-09-20 | 2004-09-21 | International Business Machines Corporation | Method for enhancing dictation and command discrimination |
| US6964023B2 (en) | 2001-02-05 | 2005-11-08 | International Business Machines Corporation | System and method for multi-modal focus detection, referential ambiguity resolution and mood classification using multi-modal input |
| US7398209B2 (en) | 2002-06-03 | 2008-07-08 | Voicebox Technologies, Inc. | Systems and methods for responding to natural language speech utterance |
| US7881493B1 (en) | 2003-04-11 | 2011-02-01 | Eyetools, Inc. | Methods and apparatuses for use of eye interpretation information |
| US20120253823A1 (en) * | 2004-09-10 | 2012-10-04 | Thomas Barton Schalk | Hybrid Dialog Speech Recognition for In-Vehicle Automated Interaction and In-Vehicle Interfaces Requiring Minimal Driver Processing |
| US8467672B2 (en) | 2005-10-17 | 2013-06-18 | Jeffrey C. Konicek | Voice recognition and gaze-tracking for a camera |
| US7697827B2 (en) | 2005-10-17 | 2010-04-13 | Konicek Jeffrey C | User-friendlier interfaces for a camera |
| US8793620B2 (en) | 2011-04-21 | 2014-07-29 | Sony Computer Entertainment Inc. | Gaze-assisted computer interface |
| US7770136B2 (en) | 2007-01-24 | 2010-08-03 | Microsoft Corporation | Gesture recognition interactive feedback |
| US8676904B2 (en) | 2008-10-02 | 2014-03-18 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
| US10540976B2 (en) | 2009-06-05 | 2020-01-21 | Apple Inc. | Contextual voice commands |
| KR101597289B1 (ko) | 2009-07-31 | 2016-03-08 | 삼성전자주식회사 | 동적 화면에 따라 음성을 인식하는 장치 및 방법 |
| US8487959B1 (en) * | 2010-08-06 | 2013-07-16 | Google Inc. | Generating simulated eye movement traces for visual displays |
| US8700392B1 (en) | 2010-09-10 | 2014-04-15 | Amazon Technologies, Inc. | Speech-inclusive device interfaces |
| US8560321B1 (en) | 2011-01-05 | 2013-10-15 | Interactions Corportion | Automated speech recognition system for natural language understanding |
| US20140099623A1 (en) * | 2012-10-04 | 2014-04-10 | Karmarkar V. Amit | Social graphs based on user bioresponse data |
| US9760566B2 (en) | 2011-03-31 | 2017-09-12 | Microsoft Technology Licensing, Llc | Augmented conversational understanding agent to identify conversation context between two humans and taking an agent action thereof |
| US10642934B2 (en) | 2011-03-31 | 2020-05-05 | Microsoft Technology Licensing, Llc | Augmented conversational understanding architecture |
| US20120259638A1 (en) | 2011-04-08 | 2012-10-11 | Sony Computer Entertainment Inc. | Apparatus and method for determining relevance of input speech |
| US20130030811A1 (en) * | 2011-07-29 | 2013-01-31 | Panasonic Corporation | Natural query interface for connected car |
| US9024844B2 (en) | 2012-01-25 | 2015-05-05 | Microsoft Technology Licensing, Llc | Recognition of image on external display |
| US9823742B2 (en) * | 2012-05-18 | 2017-11-21 | Microsoft Technology Licensing, Llc | Interaction and management of devices using gaze detection |
| CN103885743A (zh) | 2012-12-24 | 2014-06-25 | 大陆汽车投资(上海)有限公司 | 结合注视跟踪技术的语音文本输入方法和系统 |
| US8571851B1 (en) | 2012-12-31 | 2013-10-29 | Google Inc. | Semantic interpretation using user gaze order |
| KR20140132246A (ko) * | 2013-05-07 | 2014-11-17 | 삼성전자주식회사 | 오브젝트 선택 방법 및 오브젝트 선택 장치 |
| CN103605208B (zh) | 2013-08-30 | 2016-09-28 | 北京智谷睿拓技术服务有限公司 | 内容投射系统及方法 |
| US10317992B2 (en) * | 2014-09-25 | 2019-06-11 | Microsoft Technology Licensing, Llc | Eye gaze for spoken language understanding in multi-modal conversational interactions |
-
2014
- 2014-09-25 US US14/496,538 patent/US10317992B2/en active Active
-
2015
- 2015-09-25 CN CN201580050763.XA patent/CN107077201B/zh active Active
- 2015-09-25 CA CA2961279A patent/CA2961279A1/en active Pending
- 2015-09-25 KR KR1020227034256A patent/KR102491846B1/ko active Active
- 2015-09-25 RU RU2017108533A patent/RU2017108533A/ru not_active Application Discontinuation
- 2015-09-25 KR KR1020177010877A patent/KR102451660B1/ko active Active
- 2015-09-25 WO PCT/US2015/052194 patent/WO2016049439A1/en not_active Ceased
- 2015-09-25 JP JP2017516128A patent/JP2017536600A/ja active Pending
- 2015-09-25 BR BR112017003636A patent/BR112017003636A2/pt not_active Application Discontinuation
- 2015-09-25 EP EP15778481.0A patent/EP3198328B1/en active Active
- 2015-09-25 AU AU2015320442A patent/AU2015320442A1/en not_active Abandoned
- 2015-09-25 MX MX2017003754A patent/MX2017003754A/es unknown
-
2019
- 2019-04-30 US US16/399,414 patent/US10901500B2/en active Active
Patent Citations (8)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US20030040914A1 (en) * | 2000-01-27 | 2003-02-27 | Siemens Ag | System and method for eye tracking controlled speech processing |
| US20120295708A1 (en) * | 2006-03-06 | 2012-11-22 | Sony Computer Entertainment Inc. | Interface with Gaze Detection and Voice Input |
| US20100033333A1 (en) * | 2006-06-11 | 2010-02-11 | Volva Technology Corp | Method and apparatus for determining and analyzing a location of visual interest |
| CN102541438A (zh) * | 2010-11-01 | 2012-07-04 | 微软公司 | 集成话音命令模态的用户界面 |
| CN102567718A (zh) * | 2010-12-24 | 2012-07-11 | 佳能株式会社 | 共享共同属性的视频对象的概要示图 |
| US20140184550A1 (en) * | 2011-09-07 | 2014-07-03 | Tandemlaunch Technologies Inc. | System and Method for Using Eye Gaze Information to Enhance Interactions |
| US20130304479A1 (en) * | 2012-05-08 | 2013-11-14 | Google Inc. | Sustained Eye Gaze for Determining Intent to Interact |
| US20130346085A1 (en) * | 2012-06-23 | 2013-12-26 | Zoltan Stekkelpak | Mouth click sound based computer-human interaction method, system and apparatus |
Cited By (14)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US11107469B2 (en) | 2017-01-18 | 2021-08-31 | Sony Corporation | Information processing apparatus and information processing method |
| CN109474761B (zh) * | 2017-08-21 | 2020-08-14 | 阿瓦亚公司 | 监控代理对联络中心中的人工智能内容的监督 |
| CN109474761A (zh) * | 2017-08-21 | 2019-03-15 | 阿瓦亚公司 | 监控代理对联络中心中的人工智能内容的监督 |
| CN116312528A (zh) * | 2018-03-26 | 2023-06-23 | 苹果公司 | 自然助理交互 |
| CN112868060A (zh) * | 2018-05-07 | 2021-05-28 | 谷歌有限责任公司 | 用户、自动化助理和其它计算服务之间的多模态交互 |
| US12125486B2 (en) | 2018-05-07 | 2024-10-22 | Google Llc | Multi-modal interaction between users, automated assistants, and other computing services |
| TWI716885B (zh) * | 2019-05-27 | 2021-01-21 | 陳筱涵 | 即時外語溝通系統 |
| CN114616598B (zh) * | 2020-10-09 | 2023-08-04 | 谷歌有限责任公司 | 使用眼睛注视数据的文本布局解释 |
| US11941342B2 (en) | 2020-10-09 | 2024-03-26 | Google Llc | Text layout interpretation using eye gaze data |
| CN114616598A (zh) * | 2020-10-09 | 2022-06-10 | 谷歌有限责任公司 | 使用眼睛注视数据的文本布局解释 |
| US11688106B2 (en) | 2021-03-29 | 2023-06-27 | International Business Machines Corporation | Graphical adjustment recommendations for vocalization |
| WO2022206184A1 (en) * | 2021-03-29 | 2022-10-06 | International Business Machines Corporation | Graphical adjustment recommendations for vocalization |
| WO2025051271A1 (en) * | 2023-09-08 | 2025-03-13 | Huawei Technologies Co., Ltd. | Gaze assisted input for electronic device |
| CN119550212A (zh) * | 2024-11-12 | 2025-03-04 | 上海交通大学 | 机器人自动打磨方法、机器人设备、计算机设备及介质 |
Also Published As
| Publication number | Publication date |
|---|---|
| EP3198328B1 (en) | 2019-11-06 |
| CA2961279A1 (en) | 2016-03-31 |
| KR20170065563A (ko) | 2017-06-13 |
| MX2017003754A (es) | 2017-06-29 |
| US10317992B2 (en) | 2019-06-11 |
| WO2016049439A1 (en) | 2016-03-31 |
| CN107077201B (zh) | 2020-06-23 |
| US20190391640A1 (en) | 2019-12-26 |
| JP2017536600A (ja) | 2017-12-07 |
| KR20220137810A (ko) | 2022-10-12 |
| BR112017003636A2 (pt) | 2017-11-28 |
| US10901500B2 (en) | 2021-01-26 |
| KR102451660B1 (ko) | 2022-10-05 |
| AU2015320442A1 (en) | 2017-03-16 |
| RU2017108533A (ru) | 2018-09-17 |
| KR102491846B1 (ko) | 2023-01-26 |
| US20160091967A1 (en) | 2016-03-31 |
| EP3198328A1 (en) | 2017-08-02 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CN107077201A (zh) | 用于多模式会话交互中的口头语言理解的眼睛注视 | |
| US11727677B2 (en) | Personalized gesture recognition for user interaction with assistant systems | |
| Yang et al. | Benchmarking commercial emotion detection systems using realistic distortions of facial image datasets | |
| Sultan et al. | Sign language identification and recognition: A comparative study | |
| US9875445B2 (en) | Dynamic hybrid models for multimodal analysis | |
| Arora et al. | AutoFER: PCA and PSO based automatic facial emotion recognition | |
| US12437517B2 (en) | Video domain adaptation via contrastive learning for decision making | |
| Rafiq et al. | Wearable sensors-based human locomotion and indoor localization with smartphone | |
| Dagher et al. | Facial expression recognition using three-stage support vector machines | |
| Ding et al. | Designs of human–robot interaction using depth sensor-based hand gesture communication for smart material-handling robot operations | |
| Xia et al. | Audiovisual speech recognition: A review and forecast | |
| Kaur et al. | Facial emotion recognition: A comprehensive review | |
| Abbas et al. | Automatic face recognition system using deep convolutional mixer architecture and AdaBoost classifier | |
| CN112365957A (zh) | 一种基于虚拟现实的心理治疗系统 | |
| JP2024535731A (ja) | ポインタトランスフォーマネットワークによる読み順 | |
| Khan et al. | Advanced sequence learning approaches for emotion recognition using speech signals | |
| Levonevskii et al. | Methods for determination of psychophysiological condition of user within smart environment based on complex analysis of heterogeneous data | |
| Castillo et al. | The Influence of Speed and Position in Dynamic Gesture Recognition for Human‐Robot Interaction | |
| Xiong et al. | Parallel tracking and detection for long-term object tracking | |
| Wyrembelski | Detection of the Selected, Basic Emotion Based on Face Expression Using Kinect | |
| Zhu | English pronunciation standards based on multimodal acoustic sensors | |
| Şencan | Intention mining: surfacing and reshaping deep intentions by proactive human computer interaction | |
| Algarni | Smart Glasses Assisting Visually-Impaired People | |
| Srinivas et al. | A Framework for Detection of Overall Emotional Score of an Event from the Images Captured by a Drone | |
| Kaushal et al. | Mood Detection Using Face Recognition |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| PB01 | Publication | ||
| PB01 | Publication | ||
| SE01 | Entry into force of request for substantive examination | ||
| SE01 | Entry into force of request for substantive examination | ||
| GR01 | Patent grant | ||
| GR01 | Patent grant |