CN111919250B

CN111919250B - 传达非语言提示的智能助理设备

Info

Publication number: CN111919250B
Application number: CN201980022427.2A
Authority: CN
Inventors: S·N·巴蒂克; V·普拉德普; A·N·贝内特; D·G·奥尼尔; A·C·里德; K·J·卢克韦耶科; T·I·柯拉沃利
Original assignee: Microsoft Technology Licensing LLC
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2018-03-26
Filing date: 2019-03-19
Publication date: 2024-05-14
Anticipated expiration: 2039-03-19
Also published as: CN111919250A; WO2019190812A1; EP3776537A1

Abstract

智能助理设备被配置为传达非语言提示。指示人的存在的图像数据从设备的一个或多个相机被接收。作为响应，设备的一个或多个组件被致动，来以非语言的方式传达人的存在。指示人的上下文信息的数据从一个或多个传感器被接收。至少使用该数据，人的一个或多个上下文被确定，并且设备的一个或多个组件被致动，来以非语言的方式传达人的一个或多个上下文。

Description

传达非语言提示的智能助理设备

背景技术

智能助理设备(诸如，话音(voice)命令设备或“智能扬声器”及其虚拟助理)可以接收并处理语言(verbal)查询和命令，以向用户提供智能辅助。这些设备通常通过说出关键词来激活，并且经由向用户广播的计算机化语音(speech)来提供对请求的语言化响应。然而，在没有用户命令或请求的情况下，这些设备不提供非语言传达(communication)。

发明内容

本发明内容被提供来以简化形式介绍一些概念，这些概念将在下面的具体实施方式中进一步被描述。本发明内容既不旨在标识所要求保护的主题的关键特征或必要特征，也不旨在被用于限制所要求保护的主题的范围。此外，所要求保护的主题不限于解决了本公开的任何部分中指出的任何缺点或所有缺点的实现。

一种用于传达非语言提示的方法，包括：从智能助理设备的一个或多个相机接收指示人的存在的图像数据。作为响应，设备的一个或多个组件被致动，来以非语言的方式传达人的存在。指示人的上下文信息的数据从设备的一个或多个传感器被接收。至少使用该数据，人的一个或多个上下文被确定。作为响应，智能助理设备的一个或多个组件被致动，来以非语言的方式传达人的一个或多个上下文。

附图说明

图1示出了根据本公开的一个示例的具有一体式(all-in-one)计算设备形式的智能助理设备的示例环境。

图2示意性地示出了根据本公开的示例的图1的智能助理设备的一个示例。

图3示意性地示出了根据本公开的示例的智能助理设备的另一示例。

图4示意性地示出了根据本公开的示例的智能助理设备的另一示例。

图5A和图5B示意性地示出了根据本公开的示例的智能助理设备的另一示例。

图6示意性地示出了根据本公开的示例的用于实现智能助理系统的示例逻辑架构。

图7示意性地示出了根据本公开的示例的可以确定一个或多个实体的身份、位置(position)和/或当前状态的实体跟踪计算系统。

图8示意性地示出了根据本公开的示例的在多个时间帧上接收和解译(interpret)传感器数据的实体跟踪计算系统。

图9示意性地示出了根据本公开的示例的经由实体跟踪计算系统的传感器置信度随时间衰减的一个示例。

图10示意性地示出了根据本公开的示例的使用经训练的话音(voice)识别引擎来识别人的语音的一个示例。

图11A和图11B示意性地图示了根据本公开的示例的智能助理设备的传感器在环境中的检测场(FOD)。

图12A、图12B和图12C示出了根据本公开的示例的用于经由智能助理设备来传达非语言提示的方法，该智能助理设备被配置为对自然语言输入做出响应。

图13A和图13B示意性地图示了对传感器的FOD中的实体的检测。

图14示意性地图示了根据本公开的示例的智能助理设备上的光源阵列。

图15A至图15D示意性地示出了根据本公开的示例的智能助理设备中显示经动画绘制的(animated)形状的显示设备。

图16示意性地示出了根据本公开的示例的智能助理设备检测到两个人的示例。

图17是图16的房间的示意俯视图，其示出了根据本公开的示例的智能助理设备以非语言方式传达两个人的定位(location)的一个示例。

图18示意性地示出了根据本公开的示例的一体式计算设备的示例，在该一体式计算设备中，实现本公开的智能助理设备的组件被一起布置在独立设备中。

图19示意性地示出了根据本公开的示例的计算系统。

具体实施方式

随着人们在日常生活中寻求更大的便利，智能助理设备的普及反映了它们的日益增长的流行度。如上所述，这样的设备可以经由便利的话音交互而为用户执行任务和服务。然而，由于这些设备不提供其对用户的理解的非语言传达，因此有助于表达(convey)的许多信息均无法传达。

当人们彼此交互时，非语言传达经常被有意识和无意识地用于表达有用的理解。例如，当爱丽丝(Alice)走在街道上并且另一个人巴瓦那(Bhavana)靠近时，来自巴瓦那的非语言提示可以向爱丽丝传达巴瓦那关于爱丽丝的某些理解。如果巴瓦那带着好奇的视线和面孔看着爱丽丝，则她向爱丽丝传达的是她可能认识爱丽丝或认为她认识爱丽丝。如果巴瓦那对爱丽丝表现出明显的喜悦和惊奇，则她传达了她很兴奋见到爱丽丝。另一方面，如果巴瓦那皱着眉头并且将自己的道路从爱丽丝转移开，则她传达的信息则截然不同。当然，许多其他类型和形式的非语言传达(诸如，姿势、手势、距离等)也可以提供无词语线索和提示。

这样的非语言传达使得人与人之间的交互可以变得更具备信息和更加丰富。因此，本公开涉及智能助理设备以及用于经由这样的设备来传达非语言信息的方法。本文中所讨论的方法和技术主要从独立的、一体式智能助理设备的角度来描述，独立的、一体式智能助理设备被配置为例如通过回答问题或执行动作来响应自然语言输入。智能助理设备利用实体跟踪计算系统。在一些示例中，对环境中实体的跟踪可以仅使用来自智能助理设备的传感器输入来执行。在其他示例中，对实体的跟踪可以使用各种智能助理计算设备和/或其他传感器、安全设备、家庭自动化设备等来执行。

图1图示了人2进入起居室(living room)4，其中一个示例是智能助理设备10呈一体式计算设备形式。如下面更详细描述的，在一些示例中，智能助理设备10可以被配置为接收和处理自然语言输入。用户可以将智能助理设备用于多种功能。例如，用户可以提供自然语言输入，以要求智能助理设备执行各种任务，诸如，提供信息、改变设备的状态、发送消息、完成购买等。

用户可以向系统询问关于广泛主题的信息，诸如，天气、个人日历事件、电影放映时间等。在一些示例中，智能助理设备10还可以被配置为控制起居室4中的元素，诸如，电视6、音乐系统的扬声器8或者机动窗帘16。智能助理设备10还可以用于接收和存储消息和/或提醒，以在适当的未来时间进行递送。使用从传感器接收的数据，智能助理设备可以跟踪一个或多个用户或其他实体和/或与一个或多个用户或其他实体通信。附加地并且如下文更详细地描述的，智能助理设备10可以经由设备的一个或多个光源和/或其他组件而将非语言信息传达给用户。

在一些示例中，智能助理设备10可以使用有线连接来与一个或多个其他计算设备可操作地连接，或者可以经由Wi-Fi、蓝牙或任何其他合适的无线通信协议而采用无线连接。例如，智能助理设备10可以经由网络而被通信地耦合到一个或多个其他计算设备。网络可以采取局域网(LAN)、广域网(WAN)、有线网络、无线网络、个域网或其组合的形式，并且可以包括互联网。关于智能助理设备10的组件和计算方面的附加细节在下面参考图19被更详细地描述。

尽管如上所述，智能助理设备可以操作地连接到其他设备，但是在一些示例中，智能助理设备可以经由设备板上的一个或多个处理器来完全本地地执行本文所描述的方法和技术。有利地，在这些示例中，关联于与远程服务器或其他设备交换数据的任何时延、带宽限制和其他缺点被消除。以这种方式，与用户的更多实时交互和非语言传达成为可能。

图2示意性地图示了根据本公开的智能助理设备的一个示例实现。在该示例中，智能助理设备10是一体式计算设备，其包括多种传感器、输出设备和其他组件。设备包括根据本公开的示例的智能助理系统10，智能助理系统10能够识别和响应自然语言输入。下面提供对智能助理系统10的组件和所执行的功能的附加描述和细节。

在图2的示例中，智能助理设备10包括圆柱形外壳80，圆柱形外壳80容纳麦克风81、相机82、扬声器83以及位于外壳的至少一部分的周围的多个光源84。在该示例中，光源84包括LED。在其他示例中，光源84中的一个或多个光源可以包括一个或多个显示设备或任何其他合适类型的光源。附加地并且如下面更详细地描述的，光源84中的一个或多个光源可以被照亮并被调制为以非语言方式将信息传达给用户。

在不同的示例中，麦克风81可以包括多个麦克风(诸如，麦克风阵列)，多个麦克风被布置在设备上的各个定位处。在本示例中，三个相机82A、82B和82C被示出，并且第四相机(不可见)位于外壳的背侧上。在该示例中，四个相机82的视场重叠，以使得智能助理设备10能够从设备周围的整个360度接收图像数据。在其他示例中，更少或更多的相机，以及提供少于360度检测场(FOD)的配置可以被使用。下面提供了关于可以与智能助理设备10一起使用的各种类型的相机、麦克风和其他传感器的附加细节。

在其他示例中，除了LED之外或代替LED，一个或多个显示设备形式的光源可以被使用。例如并且参考图3，示意性地图示了智能助理设备150的另一实现，智能助理设备150包括围绕外壳80的周边的显示器152。在该示例中，如以下示例中所述，显示器152可以被用于显示向量图形154(诸如，各种静态或经动画绘制的形状、图案等)，从而以非语言方式与用户通信。

在其他示例中，除了或代替使用LED和/或一个或多个显示器来提供非语言传达，智能助理设备还可以利用一个或多个投影仪来将非语言提示投影到表面上。例如并且参考图4，示意性地图示了智能助理设备158的另一实现，智能助理设备158包括投影仪180，投影仪180可以将光投影到表面上。在该示例中，投影仪180将圆182的图像投影到设备所在的桌子的表面184上。如下面更详细地描述的，这样投影的光可以创建任何数量的静态或经动画绘制的形状、图案、图标等，这些形状、图案、图标等可以用于向用户传达非语言提示。

在其他示例中，除了或代替使用LED、一个或多个显示器和/或一个或多个投影仪来提供非语言传达，智能助理设备还可以将一个或多个其他组件致动为以非语言方式向用户传达信息。例如并且参考图5A和图5B，示意性地图示了智能助理设备186的另一实现，智能助理设备186包括可移动(moveable)顶部188，可移动顶部188包括相机189。在该示例中并且如下面更详细地描述的，可移动顶部188可以被致动为向用户传达非语言提示。在一些示例中，智能助理设备186可以跟踪人的定位，并且可移动顶部188可以围绕设备的周边被移动，以跟随人的定位并且将相机189对准(foveate on)人。

将理解，在图2至图5B中描述和示出的示例智能助理设备10、150、158和186仅出于说明性目的被提供，并且这样的设备的许多其他形状因数、形状、配置和其他变型可以被使用并且在本公开的范围内。

现在参考图6，以下是根据本公开的示例的对用于实现智能助理系统20的示例逻辑架构的描述，智能助理系统20能够识别和响应自然语言输入。如下面更详细描述的，在各种示例中，系统20可以在单个、一体式计算设备(诸如，智能助理设备10)中被实现、跨两个或更多个设备被实现、在云支持的网络中被实现以及在上述组合中被实现。

在该示例中，智能助理系统10包括至少一个传感器22、实体跟踪计算系统100、话音监听器(listener)30、解析器40、意图处理器50、承诺引擎(commitment engine)60和至少一个输出设备70。在一些示例中，传感器22可以包括一个或多个麦克风24、可见光相机26、红外相机27和连接性设备28(诸如，Wi-Fi或蓝牙模块)。在一些示例中，(多个)传感器22可以包括立体和/或深度相机、头部跟踪器、眼睛跟踪器、加速度计、陀螺仪、视线检测(gazedetection)设备、电场感测组件、GPS或其他定位跟踪设备、温度传感器、设备状态传感器和/或任何其他合适的传感器。

实体跟踪计算系统100被配置为检测实体及其活动，实体包括人、动物或其他生物以及非生物对象。实体跟踪计算系统100包括实体标识符(identifier)104，实体标识符104被配置为识别人、个体用户和/或非生物对象。话音监听器30接收音频数据，并利用语音识别功能性来将话语转译(translate)为文本。话音监听器30还可以将(多个)置信度值分配给经转译的文本，并且可以执行说话者识别来确定正在说话的人的身份，以及将概率分配给这样的标识的准确度。解析器40对从话音监听器30接收的文本和置信度值进行分析，以得出用户意图并生成对应的机器可执行语言。

意图处理器50从解析器40接收表示用户意图的机器可执行语言，并对缺失和模糊信息进行解析来生成承诺。承诺引擎60存储来自意图处理器50的承诺。在上下文适当的时间，承诺引擎可以递送一个或多个消息和/或执行与一个或多个承诺相关联的一个或多个动作。承诺引擎60可以将消息存储在消息队列62中，或者使一个或多个输出设备70生成输出。输出设备70可以包括以下中的一项或多项：(多个)扬声器72、(多个)视频显示器74、(多个)指示灯76、(多个)触觉设备78和/或其他合适的输出设备。在其他示例中，输出设备70可以包括一个或多个其他设备或系统(例如，家庭照亮、恒温器、媒体程序、门锁等)，一个或多个其他设备或系统可以经由承诺引擎60执行的动作而被控制。

在不同的示例中，话音监听器30、解析器40、意图处理器50、承诺引擎60和/或实体跟踪计算系统100可以被体现在软件中，软件被存储在存储器中并由计算设备的一个或多个处理器执行。在一些实现中，编程专用的逻辑处理器可以被用来增加智能助理设备的计算效率和/或有效性。下面参考图19来更详细地描述关于可以存储和执行这些模块的计算设备的组件和计算方面的附加细节。

在一些示例中，话音监听器30和/或承诺引擎60可以从实体跟踪计算系统100接收上下文信息，上下文信息包括相关联的置信度值。如以下更详细地描述的，实体跟踪计算系统100可以确定一个或多个传感器范围内的一个或多个实体的身份、位置和/或当前状态，并且可以将这样的信息输出到一个或多个其他模块，诸如，话音监听器30、承诺引擎60等。在一些示例中，实体跟踪计算系统100可以解译和评估从一个或多个传感器接收的传感器数据，并且可以基于传感器数据来输出上下文信息。上下文信息可以包括实体跟踪计算系统基于所接收的传感器数据对一个或多个所检测的实体的身份、位置和/或状态的猜测/预测。在一些示例中，猜测/预测可以附加地包括置信度值，置信度值定义了信息准确的统计可能性。

图7示意性地图示了示例实体跟踪计算系统100，实体跟踪计算系统100在一些示例中可以包括智能助理系统20的组件。实体跟踪计算系统100可以用于确定一个或多个传感器范围内的一个或多个实体的身份、位置和/或当前状态。实体跟踪计算系统100可以将这样的信息输出到智能助理系统20的一个或多个其他模块，诸如，承诺引擎60、话音监听器30等。

在实体跟踪计算系统100的上下文中使用的词语“实体”可以指代人、动物或其他生物以及非生物对象。例如，实体跟踪计算系统可以被配置为标识家具、器具、自主机器人、结构、景观特征、交通工具和/或任何其他物理对象，并确定这些物理对象的位置/定位和当前状态。在一些情况下，实体跟踪计算系统100可以被配置为仅标识人，而不标识其他生物或非生物。在这样的情况下，词语“实体”可以与词语“人”或“人类”同义。

实体跟踪计算系统100从一个或多个传感器102(诸如，传感器A 102A、传感器B102B和传感器C 102C)接收传感器数据，但是将理解，实体跟踪计算系统可以与任何数量和种类的合适传感器一起使用。作为示例，可与实体跟踪计算系统一起使用的传感器可以包括相机(例如，可见光相机、UV相机、IR相机、深度相机、热相机)、麦克风、定向麦克风阵列、压力传感器、温度计、运动检测器、接近度传感器、加速度计、全球定位卫星(GPS)接收器、磁力计、雷达系统、激光雷达系统、环境监测设备(例如，烟雾检测器、一氧化碳检测器)、气压计、健康监测设备(例如，心电图仪、血压计、脑电图仪)、汽车传感器(例如，速度计、里程表、转速表、燃油传感器)和/或收集和/或存储与一个或多个人或其他实体的身份、位置和/或当前状态有关的信息的任何其他传感器或设备。在一些示例中，诸如在智能助理设备10中，实体跟踪计算系统100可以与多个传感器102中的一个或多个传感器一起占用公用设备外壳。在其他示例中，实体跟踪计算系统100及其相关联的传感器可以跨多个设备分布，多个设备被配置为经由一个或多个网络通信接口(例如，Wi-Fi适配器、蓝牙接口)进行通信。

如图7的示例中所示，实体跟踪计算系统100可以包括实体标识符104、人标识符105、位置(定位)标识符106和状态标识符108。在一些示例中，人标识符105可以是实体标识符104的专用组件，其相对于其他生物和非生物体被特别优化来识别人类。在其他情况下，人标识符105可以与实体标识符104分离地操作，或者实体跟踪计算系统100可以不包括专用人标识符。

根据特定实现，与实体标识符、人标识符、位置标识符和状态标识符相关联的任何或所有功能可以由单独传感器102A-102C执行。尽管本描述总体上将实体跟踪计算系统100描述为从传感器接收数据，但这并不要求实体标识符104以及实体跟踪计算系统的其他模块必须在单个计算设备上实现，单个计算设备与关联于实体跟踪计算系统的多个传感器分离并且不同于与实体跟踪计算系统相关联的多个传感器。相反，实体跟踪计算系统100的功能可以分布在多个传感器或其他合适的设备之间。例如，不是将原始传感器数据发送到实体跟踪计算系统，而是单独传感器可以被配置为尝试标识它们检测到的实体，并将该标识报告给实体跟踪计算系统100和/或智能助理系统20的其他模块。此外，为了简化下面的描述，术语“传感器”有时不仅用于描述物理测量设备(例如，麦克风或相机)，而且还用于描述各种逻辑处理器，各种逻辑处理器被配置和/或编程为解译来自物理测量设备的信号/数据。例如，“麦克风”可以用于指代将声能转换为电信号的设备、将电信号转换为数字数据的模数转换器、对数字数据进行预处理的板上专用集成电路、以及本文所述的下游模块(例如，实体跟踪计算系统100、实体标识符104、话音监听器30或解析器40)。这样，对通用“传感器”或特定传感器(例如，“麦克风”或“相机”)的引用不应被解释为仅指代物理测量设备，而是指代可以跨一个或多个计算机分布的协作模块/引擎。

实体标识符104、人标识符105、位置标识符106和状态标识符108中的每一个被配置为解译和评估从多个传感器102接收的传感器数据，并基于传感器数据来输出上下文信息110。上下文信息110可以包括实体跟踪计算系统基于所接收的传感器数据对一个或多个所检测的实体的身份、位置和/或状态的猜测/预测。如下面将更详细描述的，实体标识符104、人标识符105、位置标识符106和状态标识符108中的每一个可以输出它们的预测/标识以及置信度值。

本文描述的实体标识符104、人标识符105、位置标识符106、状态标识符108和其他处理模块可以利用一个或多个机器学习技术。这样的机器学习技术的非限制性示例可以包括前馈网络、递归神经网络(RNN)、长短期记忆(LSTM)、卷积神经网络、支持向量机(SVM)、生成对抗网络(GAN)、变体自动编码器、Q学习和决策树。本文所述的各种标识符、引擎和其他处理块可以利用这些或任何其他适当的机器学习技术、经由有监督和/或无监督的学习来进行训练，以进行所描述的评估、决策、标识等。

实体标识符104可以输出所检测实体的实体身份112，并且这样的实体身份可以具有任何合适的特异性程度。换言之，基于所接收的传感器数据，实体跟踪计算系统100可以预测给定实体的身份，并输出诸如实体身份112的信息。例如，实体标识符104可以报告特定实体是人、家具、狗等。附加地或备选地，实体标识符104可以报告特定实体是具有特定型号的烤箱；具有特定名称和品种的宠物狗；智能助理设备10的所有者或已知用户，其中所有者/已知用户具有特定名称和简档。在不同的示例中，实体可以按照以下各种合适的方式中的任一个而被标识：潜在地涉及面部识别、话音识别、检测与已知实体相关联的便携式计算设备的存在、评估人的身高、体重、体形、步态、发型和/或肩膀形状等。

在一些示例中，实体标识符104可以确定人的身份的两个或更多个级别。这样的身份级别可以对应于由置信度值表示的一个或多个身份确定性阈值。例如，这样的身份级别可以包括初始身份和经验证的身份，初始身份与先前标识的人相对应并表示初始置信度值，经验证的身份表示比人是先前标识的人的初始置信度值大的经验证的置信度值。例如，人的初始身份可以被确定，其中相关联的置信度值映射到人是先前标识的人的可能性的至少99.0000％。人的经验证的身份可以被确定，其中相关联的置信度值映射到人是先前标识的人的可能性的至少99.9990％。例如，可能需要经验证的身份才能向企业安全级别的人员进行身份验证，以访问特别敏感的数据，诸如，银行账户、机密公司信息、与健康相关的信息等。在一些示例中，实体标识符104对所检测的实体进行标识/分类的特异性程度可以取决于用户偏好和传感器限制中的一项或多项。在一些情况下，由实体标识符输出的实体身份可以只是通用标识符，通用标识符不提供有关被跟踪实体性质的信息，而是用于区分一个实体与另一实体。

当应用于人时，实体跟踪计算系统100在一些情况下可以收集关于无法通过名称标识的个人的信息。例如，实体标识符104可以记录人脸部的图像，并将这些图像与所记录的人的话音的音频相关联。如果人随后向智能助理系统20讲话或以其他方式寻址，则实体跟踪计算系统100将具有关于智能助理设备正在与谁进行交互的至少一些信息。在一些示例中，智能助理系统20还可以提示人陈述其姓名，以便将来更容易地标识此人。

在一些示例中，智能助理设备10可以利用人的身份来为此人定制用户界面。在一个示例中，具有有限视觉能力的用户可以被标识。在该示例中并且基于该标识，智能助理设备10的显示器(或与用户交互的其他设备)可以被修改为显示较大的文本，或提供仅话音的界面。

位置标识符106可以被配置为输出所检测的实体的实体位置(即，定位)114。换言之，位置标识符106可以基于所收集的传感器数据来预测给定实体的当前位置，并输出诸如实体位置114的信息。与实体身份112相同，实体位置114可以具有任何合适的详细程度，并且该详细程度可以随用户偏好和/或传感器限制而变化。例如，位置标识符106可以报告所检测的实体具有在诸如地板或墙壁的平面上限定的二维位置。在一些示例中，实体位置114(诸如，距这样的设备的角度方向或距离)可以相对于智能助理设备来确定。附加地或备选地，所报告的实体位置114可以包括所检测的实体在现实世界的三维环境内的三维位置。在一些示例中，实体位置114可以包括GPS位置、环境相关坐标系内的定位等。

所报告的针对所检测实体的实体位置114可以对应于实体的几何中心、实体中被分类为重要的特定部分(例如，人的头部)、限定了实体在三维空间中的边界的一系列界限等。位置标识符106可以进一步计算描述所检测实体的位置和/或定向的一个或多个附加参数，诸如，俯仰、侧滚和/或偏航参数。换言之，所检测实体的所报告的位置可以具有任意数量的自由度，并且可以包括限定实体在环境中的位置的任意数量的坐标。在一些示例中，即使实体跟踪计算系统100无法标识实体和/或确定实体的当前状态，所检测实体的实体位置114也可以被报告。

状态标识符108可以被配置为输出所检测实体的实体状态116。换言之，实体跟踪计算系统100可以被配置为基于所接收的传感器数据来预测给定实体的当前状态，并输出诸如实体状态116的信息。“实体状态”实际上可以指代给定实体的任何可测量或可分类的属性、活动或行为。例如，当应用于人时，人的实体状态可以指示人的存在、人的身高、人的姿势(例如，站立、坐着、躺下)、人正在走路/跑步的速度、人的当前活动(例如，睡觉、看电视、工作、玩游戏、游泳、打电话)、人的当前情绪(例如，通过评估人的面部表情或语气)、人的生物学/生理参数(例如，人的心率、呼吸速率、血氧饱和度、体温、神经活动)、人是否有任何当前或即将发生的日历事件/约会等。“实体状态”可以指代当被应用于其他生物或非生物对象时的附加/备选属性或行为，诸如，烤箱或厨房水槽的当前温度、设备(例如，电视、灯、微波炉)是否被导通、门是否打开等。

在一些示例中，状态标识符108可以使用传感器数据来计算人类的各种不同的生物学/生理参数。这可以以各种合适的方式来完成。例如，实体跟踪计算系统100可以被配置为与光学心率传感器、脉搏血氧仪、血压计、心电图仪等接口连接。附加地或备选地，状态标识符108可以被配置为解译来自环境中的一个或多个相机和/或其他传感器的数据，并处理数据以便计算人的心率、呼吸速率、血氧饱和度等。例如，状态标识符108可以被配置为利用欧拉放大率和/或类似技术来将由相机捕获的微小移动或变化进行放大，从而允许状态标识符将流过人的循环系统的血液流动可视化并计算相关联的生理参数。这样的信息可以用于确定例如人何时入睡、锻炼、陷入困境、遇到健康问题等。

在确定了实体身份112、实体位置114和实体状态116中的一个或多个后，这样的信息可以作为上下文信息110被发送到各种外部模块或设备中的任一个，其中这样的信息可以按照多种方式被使用。例如并且如下面更详细地描述的，上下文信息110可以用于确定人类用户的一个或多个上下文，并且用于将智能助理设备的一个或多个组件致动为以非语言方式将一个或多个上下文传达给用户。附加地，上下文信息110可以由承诺引擎60用来管理承诺以及相关联的消息和通知。在一些示例中，上下文信息110可以被承诺引擎60用来确定特定消息、通知或承诺是否应当被执行和/或被呈现给用户。类似地，当响应于关键词触发来解译人类语音或激活功能时，上下文信息110可以被话音监听器30使用。

如上所述，在一些示例中，实体跟踪计算系统100可以在单个计算设备(诸如，智能助理设备10)中实现。在其他示例中，实体跟踪计算系统100的一个或多个功能可以跨协同工作的多个计算设备分布。例如，实体标识符104、人标识符105、位置标识符106和状态标识符108中的一个或多个可以在不同的计算设备上实现，而仍然共同包括被配置为执行本文描述的功能的实体跟踪计算系统。如上所述，实体跟踪计算系统的任何或所有功能可以由单独的传感器102执行。此外，在一些示例中，实体跟踪计算系统100可以省略实体标识符104、人标识符105、位置标识符106和状态标识符108中的一个或多个，和/或包括本文中未描述的一个或多个附加组件，同时仍提供上下文信息110。与可以用于实现实体跟踪计算系统100的组件和计算方面有关的附加细节在下文中相对于图19来更详细地进行描述。

实体身份112、实体位置114和实体状态116中的每一个可以采取任何适当的形式。例如，实体身份112、位置114和状态116中的每一个可以采取离散数据分组的形式，离散数据分组包括描述由实体跟踪计算系统采集的信息的一系列值和/或标签。实体身份112、位置114和状态116中的每一个可以附加地包括置信度值，置信度值定义了信息准确的统计可能性。例如，如果实体标识符104接收到强烈指示特定实体是名为“约翰·史密斯(JohnSmith)”的人类男性的传感器数据，则实体身份112可以包括该信息以及对应相对较高的置信度值(诸如，90％置信度)。如果传感器数据更加模糊，则实体身份112中所包括的置信度值可以相对较低(诸如，62％)。在一些示例中，分离的预测可以被分配分离的置信度值。例如，实体身份112可以以95％的置信度来指示特定实体是人类男性，并且以70％的置信度来指示实体是约翰·史密斯。这样的置信度值(或概率)可以由成本函数用来生成成本计算，成本计算用于向用户提供消息或其他通知和/或执行(多个)动作。

在一些实现中，实体跟踪计算系统100可以被配置为组合或融合来自多个传感器的数据，以便确定上下文信息110和对应的上下文，并输出更准确的预测。作为示例，相机可以在特定房间中对人进行定位。基于相机数据，实体跟踪计算系统100可以以70％的置信度值来标识人。然而，实体跟踪计算系统100可以附加地从麦克风接收所记录的语音。仅基于所记录的语音，实体跟踪计算系统100可以以60％的置信度值来标识人。与仅使用来自任一传感器的数据相比，通过将来自相机的数据与来自麦克风的数据进行组合，实体跟踪计算系统100可以以更高的置信度值来标识人。例如，实体跟踪计算系统可以确定从麦克风接收的所记录的语音对应于当语音被接收时对相机可见的人的嘴唇的移动，从而以相对较高的置信度(诸如，92％)得出对相机可见的人就是说话的人的结论。以这种方式，实体跟踪计算系统100可以将组合两个或更多个预测的置信度值，来以经组合的较高置信度值标识人。

在一些示例中，从各种传感器接收的数据可以根据传感器数据的可靠性而被不同地加权。这在多个传感器正在输出看似不一致的数据的情况下可以尤其相关。在一些示例中，传感器数据的可靠性可以至少部分基于传感器所生成的数据类型。例如，在一些实现中，视频数据的可靠性可以比音频数据的可靠性被赋予更高的权重，因为实体在相机上的存在与假定源自实体的所记录的声音(sound)相比可以是对其身份、位置和/或状态的更可靠的指示符。应当理解，传感器数据的可靠性是与数据实例的预测精度相关联的置信度值不同的因素。例如，视频数据的若干实例可以基于在每一实例处存在的不同上下文因素而具有不同的置信度值。然而，通常，视频数据的这些实例中的每一个可以与视频数据的单个可靠性值相关联。

在一个示例中，来自相机的数据可以诸如经由面部识别分析，以70％的置信度值暗示特定人在厨房中。来自麦克风的数据可以诸如经由话音识别分析，以75％的置信度值暗示同一人在附近的走廊中。即使麦克风数据的实例具有较高的置信度值，实体跟踪计算系统100也可以基于相机数据的较高可靠性(与麦克风数据的较低可靠性相比)来输出人在厨房中的预测。以这种方式并且在一些示例中，针对不同传感器数据的不同可靠性值可以与置信度值一起使用，以协调冲突的传感器数据并确定实体的身份、位置和/或状态。

附加地或备选地，更多的权重可以被赋予具有更高的精度、更多的处理功率或其他更大的能力的传感器。例如，与笔记本电脑中的基本网络摄像机(webcam)相比，专业级摄像机可以具有显著改进的镜头、图像传感器和数字图像处理能力。因此，与网络摄像机相比，更高的权重/可靠性值可以被赋予从专业级摄像机接收的视频数据，因为这样的数据可能更准确。

现在参考图8，在一些示例中，与实体跟踪计算系统100一起使用的单独传感器可以以与实体跟踪计算系统一起使用的其他传感器不同的频率输出数据。类似地，与实体跟踪计算系统100一起使用的传感器可以以与实体跟踪计算系统评估数据并输出上下文信息的频率不同的频率输出数据。在图8的示例中，实体跟踪计算系统100可以在多个时间帧200A、200B和200C上接收并解译传感器数据。单个时间帧可以表示任何合适的时间长度，诸如，1/30秒、1/60秒等。

在该示例中，在时间帧200A期间，实体跟踪计算系统100接收传感器数据集合202，传感器数据集合202包括传感器A数据204A、传感器B数据204B和传感器C数据204C。这样的传感器数据由实体跟踪计算系统100解译并变换为上下文信息206，上下文信息206可以用于确定如上所述一个或多个所检测的实体的身份、位置和/或状态。在时间帧200B期间，实体跟踪计算系统100接收传感器数据208，传感器数据208包括传感器A数据210A和传感器B数据210B。实体跟踪计算系统100在时间帧200B期间未从传感器C接收数据，因为传感器C以不同于传感器A和B的频率输出数据。类似地，实体跟踪计算系统100在时间帧200B期间未输出上下文信息，因为实体跟踪计算系统以与传感器A和B不同的频率输出上下文信息。

在时间帧200C期间，实体跟踪计算系统100接收传感器数据212，传感器数据212包括传感器A数据214A、传感器B数据214B、传感器C数据214C和传感器D数据214D。实体跟踪计算系统100还在时间帧200C期间输出上下文信息216，因为上下文信息在时间帧200A中被最后输出，所以上下文信息216可以基于实体跟踪计算系统所接收的任何或全部传感器数据。换言之，上下文信息216可以至少部分地基于传感器数据208以及传感器数据212。在一些示例中，上下文信息216也可以至少部分地基于传感器数据202和传感器数据208以及传感器数据212。

如图8所示，在实体跟踪计算系统100从特定传感器接收数据之后，在实体跟踪计算系统从同一传感器接收更多数据之前，可能经过多个时间帧。在这些多个时间帧期间，实体跟踪计算系统100可以输出上下文信息。类似地，从特定传感器接收的数据的有用性可以随时间帧而变化。例如，在第一时间帧处，实体跟踪计算系统100可以经由麦克风接收特定人讲话的音频数据，并因此以相对高的置信度值标识该人的实体位置114。在随后的时间帧中，该人可能停留在所标识的位置处，但自第一时间帧以来可能已停止讲话。在这种情况下，来自麦克风的有用数据不存在可能不是人不存在的可靠指示符。其他类型的传感器也可以出现类似的问题。例如，如果人遮挡住人的脸部或被障碍物(诸如，其他人或移动的物体)遮挡，则相机可能会丢失对人的跟踪。在这种情况下，尽管当前相机数据可能无法暗示人的存在，但是相机数据的先前实例可以暗示人仍位于先前标识的位置处。通常，虽然传感器数据可以可靠地指示实体的存在，但是这样的数据在暗示实体不存在时可能不可靠。

因此，实体跟踪计算系统100可以利用一个或多个置信度衰减函数，一个或多个置信度衰减函数在不同的示例中可以由实体跟踪计算系统和/或传感器自身定义。置信度衰减函数可以被应用于传感器数据，以减少自该传感器最后一次肯定地检测到实体以来，随时间流逝，实体跟踪计算系统对来自特定传感器的数据的置信度。作为示例，在传感器检测到特定定位处的实体之后，实体跟踪计算系统100可以以相对高的置信度来报告指示实体位于该定位处的上下文信息110。如果在一个或多个时间帧之后，传感器不再检测到该定位处的实体，并且除非随后采集了相互矛盾的证据，则实体跟踪计算系统100仍可以报告实体位于该定位处，但是置信度较低。自传感器最后一次在该定位处检测到实体以来，随着时间继续流逝，实体仍位于该定位处的可能性逐渐减小。因此，实体跟踪计算系统100可以利用置信度衰减函数来逐渐减小其所报告的上下文信息110的置信度值，如果没有附加传感器检测到实体，则最终达到0％的置信度。

在一些情况下，不同的置信度衰减函数可以用于不同的传感器和传感器类型。特定衰减函数的选择可以至少部分取决于传感器的特定属性。例如，与来自摄像机的数据相关联的置信度值可能比与来自麦克风的数据相关联的置信度值更快地衰减，因为与麦克风记录的静音相比，实体在视频帧中不存在是实体不存在的更可靠指示符。

传感器置信度衰减的一个示例在图9中被示意性地图示，图9示出了实体跟踪计算系统100在三个不同的时间帧300A、300B和300C期间接收传感器数据。在时间帧300A期间，实体跟踪计算系统100接收相机数据302，在相机数据302中，实体在帧中可见。基于该数据，实体跟踪计算系统100以90％的置信度值报告实体位置304。在时间帧300B中，实体跟踪计算系统100接收相机数据306，在相机数据306中，实体在帧中不再可见。然而，实体可能未移动，而只是被遮挡，或者不可由相机检测到。因此，实体跟踪计算系统100报告相同的实体位置304，但是具有80％的较低置信度值。

最后，在时间帧300C中，实体跟踪计算系统100接收指示实体在帧中仍然不可见的相机数据310。随着时间的流逝，实体仍然处于相同位置中的可能性越来越小。因此，实体跟踪计算系统100以60％的更低的置信度值来报告相同的实体位置304。

在一些示例中，传感器数据的可变可靠性可以通过利用数据过滤技术而被至少部分地解决。在一些示例中，卡尔曼滤波器(Kalman filter)可以被用于过滤传感器数据。卡尔曼滤波器是数学函数，其可以将多个不确定的测量值进行组合并以比使用任何单独的测量值更高的置信度来输出预测。输入到卡尔曼滤波器的每个测量值可以基于测量值所感知的可靠性而被赋予权重。卡尔曼滤波器以两步过程进行操作，两步过程包括预测步骤和更新步骤。在预测步骤期间，滤波器基于最近加权的测量值来输出预测。在更新步骤中，滤波器将其预测与实际观察值或状态进行比较，并动态地调整应用于每个测量值的权重，以便输出更准确的预测。

在一些示例中，实体跟踪计算系统100可以包括卡尔曼滤波器，诸如，当自上次肯定检测以来传感器置信度值已经随时间衰减时，卡尔曼滤波器将来自各种传感器的数据进行组合，以补偿较低的传感器可靠性。在一些示例中，当一个或多个传感器置信度值低于预定阈值时，实体跟踪计算系统100可以将卡尔曼滤波器应用于传感器数据。在示例场景中，来自相机的图像数据可以使用面部检测技术来进行分析，以可靠地检测特定房间中的人。作为响应，实体跟踪计算系统100可以以高可信度来报告人位于房间中。

在随后的时间帧中，相机可能不再能够捕获和/或肯定地识别房间中人的面部。例如，人的面部可能被遮挡，或者相机可能以比实体跟踪计算系统100输出上下文信息110低得多的频率来传送数据。如果实体跟踪计算系统100仅依赖于来自相机的数据，则其报告的人的位置的置信度值将逐渐降低，直到下一肯定检测为止。然而，在一些示例中，来自相机的数据可以被补充有来自其他传感器的数据。例如，在随后的时间帧期间，麦克风可以报告它在房间里听到了该人的话音，或者另一传感器报告它可以检测到房间里该人的便携式计算设备的存在。在这种情况下，该数据可以通过卡尔曼滤波器而被分配权重，并且与仅使用相机数据的情况相比，可以用于以更高置信度来预测人的当前定位。

在一些情况下，当传感器数据被背景信息污染时，对环境中的人和/或其他实体的检测可能变得更加复杂。这样的背景信息可能损害实体跟踪计算系统100报告实体身份112、位置114和/或状态116的置信度。例如，智能助理设备10可能需要确定正在讲话的人的身份，以便适当地响应查询或命令。当多个人同时讲话、正在播放电视、正在运行嘈杂的机器等时，这样的确定可能是困难的。

相应地，实体跟踪计算系统100可以使用各种音频处理技术来更确信地标识与其他人和/或与智能助理设备10进行对话的特定活跃参与者。作为一个示例，实体跟踪计算系统100可以实现话音活动检测(VAD)引擎，语音活动检测(VAD)引擎可以将人类话音与环境噪声区分开，并标识人类语音的存在或不存在。

通用VAD引擎可以被用于利用对应置信度值来将特定音频片段分类为包括语音或非语音的目的。实体跟踪计算系统100还可以利用说话者识别引擎来将特定音频片段与特定人进行匹配。随着更多语音被接收，说话者识别引擎可以被逐渐调整，以将音频分类为包括来自特定对话参与者的语音，或者不包括来自特定对话参与者的语音。以这种方式，实体跟踪计算系统100可以识别来自一个或多个特定人/对话参与者的语音。

对说话者识别引擎的训练可以在实体跟踪计算系统100确信地标识特定人并记录了可以确信地归因于该人的音频时发生。例如，使用相机数据，实体跟踪计算系统100可以标识特定人，并确定该人的嘴唇在移动。实体跟踪计算系统100可以从麦克风同时接收音频，音频可以被安全地假定为包括来自所标识的人的语音。因此，所接收的音频可以用于重新训练说话者识别引擎，以更具体地识别所标识的人的话音。

在一些情况下，仅当人已被以高置信度值(诸如，置信度值超过预定阈值时)标识(例如，经由准确的面部识别或任何其他方法)时，以及当实体跟踪计算系统100已接收到具有高音量/幅度和高信噪比(S/N)的人的话音的音频记录时，才可能发生这样的重新训练。使用该技术，实体跟踪计算系统100可以累积各种因人而异的话音模型，从而允许实体跟踪计算系统更一致地标识来自特定人的语音并忽略背景噪声。

现在参考图10，示意性地图示了使用经训练的语音识别引擎来识别来自特定人的语音的示例。在该示例中，实体跟踪计算系统100接收两个语音片段400A和400B。语音片段400A包括所记录的人1的语音，并且语音片段400B包括所记录的人2的语音。实体跟踪计算系统100包括语音识别引擎402，如上所述，语音识别引擎402已经过专门训练，以使用话音1模型404来识别人1的语音。当语音片段400A和语音片段400B被实体跟踪计算系统100接收时，话音1模型404可以被应用于语音片段400A和语音片段400B中的每一者。

在处理语音片段之后，实体跟踪计算系统100输出每个语音片段对应于人1的可能性的预测。如图所示，对于语音片段400A，实体跟踪计算系统以90％的置信度值而输出人1标识404A，从而指示语音片段可能包括来自人1的语音。对于语音片段400B，实体跟踪计算系统以15％的置信度值而输出人1标识404B，从而指示语音片段400B可能不包括来自人1的语音。

在一些示例中，实体跟踪计算系统100可以被配置为标识环境中存在的背景噪声，并且使用音频处理技术而从所接收的音频数据中减去这样的背景噪声。例如，某人家中的特定设备可能正在播放背景音频，诸如，音乐或电视/电影对话。人家中的各种配备麦克风的设备均可以记录这样的音频。在这样的配备麦克风的设备包括智能助理设备10和/或向实体跟踪计算系统100提供音频数据的情况下，这样的背景音频可能损害系统识别、解译和/或响应人类问题或命令的能力。

相应地并且在一些示例中，播放背景音频的设备和/或记录背景音频的另一配备麦克风的设备可以将所捕获的音频信号发送到实体跟踪计算系统100。以这种方式，实体跟踪计算系统100可以从配备麦克风的设备所接收的音频信号中减去背景音频。在一些示例中，在将音频数据发送到实体跟踪计算系统100之前，从所记录的音频数据中减去背景音频信号的操作可以由捕获音频数据的(多个)设备执行、或由相关联的音频处理组件执行。

附加地或备选地，设备和/或实体跟踪计算系统100可以被训练来识别背景噪声的特定源(例如，来自通风口或冰箱)，并自动忽略与所记录的音频中的此类噪声相对应的波形。在一些示例中，实体跟踪计算系统100可以包括经专门训练来识别背景噪声的一个或多个音频识别模型。例如，来自各种噪声数据库的音频可以借助有监督或无监督的学习算法来运行，以便更一致地识别此类噪声。通过允许实体跟踪计算系统100识别不相关的背景噪声，实体跟踪计算系统识别相关的人类语音和其他声音的能力可以被改进。在一些实现中，声源的位置知识可以用于聚焦来自定向麦克风阵列的监听。

如上所述，在一些情况下，如本文所述的智能助理设备可以被配置为在人或其他实体在整个环境中移动时跟踪它们。例如，这可以通过解译从多个传感器接收的数据来完成，多个传感器被通信地耦合到智能助理设备。在一些示例中，智能助理设备可以通过维持环境相关坐标系来跟踪一个或多个实体，多个传感器中的每个传感器的检测场(FOD)被映射到环境相关坐标系。如本文所使用的“环境”可以指代任何现实世界的区域(例如，单个房间、房屋、公寓、商店、办公室、建筑物、场所、室外空间、网格区域等)。

现在参考图11A和图11B，图1的环境4与智能助理设备10一起被示意性地示出。在这些视图中，智能助理设备10的相机82A的FOD 500A和相机82B的FOD 500B被示意性地图示。因为图11A所示的传感器是相机，所以FOD 500A和500B是相机82A和82B的视场(FOV)。换言之，FOD 500A和500B示出了三维空间的各部分，在该三维空间中相机82A和82B可以检测环境4中的实体。如将在下面更详细地描述的，在一些示例中，当从一个或多个相机接收指示人的存在的图像数据时，智能助理设备10可以将一个或多个组件(例如，(多个)光源、可移动部分等)致动为以非语言方式传达人的存在。

尽管图11A和图11B中所示的传感器是相机，但是如上所述，智能助理设备可以包括各种合适的传感器中的任一者。作为非限制性示例，这样的传感器可以包括可见光相机、红外(IR)相机、深度相机、对其他波长的光敏感的相机、麦克风、雷达传感器、本文所述的任何其他传感器和/或可用于跟踪实体的任何其他传感器。此外，与智能助理设备通信的传感器可以采取任何合适的定向。

因此，如上所述，智能助理设备可以维持环境相关坐标系，环境中的传感器的FOD被映射到环境相关坐标系。该坐标系可以例如表示智能助理设备对FOD在环境中的现实世界关系的理解。换言之，环境中每个传感器的FOD可以被映射到环境相关坐标系，使得智能助理设备理解各种传感器可以检测实体存在、移动和其他上下文信息的现实世界区域。环境相关坐标系可以附加地包括与环境有关的其他信息，诸如，环境的物理维度(例如，房间、建筑物、室外空间、网格区段的尺寸)和/或环境内存在的任何家具、障碍物、门廊、传感器或其他可检测特征的位置。

将理解，环境相关坐标系可以采取任何合适的形式，并且包括与环境有关的任何适当的信息。环境相关坐标系可以利用任何合适的尺度、网格系统和/或其他方法来对环境进行映射/量化，并且可以使用任何合适数量的坐标和参数来限定传感器FOD定位。在一些情况下，环境相关坐标系可以是二维坐标系，并且相对于二维表面(诸如，环境的地板)来限定传感器FOD。在其他情况下，环境相关坐标系可以在三维空间中限定传感器FOD。

还应注意，借助私人环境(诸如，居住空间、卧室、浴室等)来跟踪实体可能会引起潜在的隐私问题。因此，由智能助理设备收集的、可能本质上是个人的所有数据(诸如，实体位置、外观、移动、行为、传达等)将以对实体隐私的最大尊重来对待。在一些情况下，只有响应于接收到明确的用户许可，本文所述的任何或所有实体跟踪技术才可以被执行。例如，用户可以指定哪些传感器处于活动状态、由传感器收集的数据量和类型、环境中的哪些空间或房间由实体跟踪计算系统监视、与实体跟踪计算系统所收集的数据一起使用的安全级别或加密级别、所收集的数据是本地存储还是远程存储等。在一些示例中，用户可以选择利用分辨率相对较低的传感器(诸如，雷达传感器)来监视环境中的敏感区域。这可以减轻关于实体跟踪的至少一些隐私问题，从而在无需用户在诸如浴室的敏感区域中安装高分辨率相机的情况下，允许实体跟踪计算设备跟踪实体移动。

如上所述，本公开的智能助理设备可以检测人的存在以及与人有关的各种上下文信息。此外，在一些示例中，在设备中并入一个或多个相机以用于感测一个或多个类型的视觉数据提供了附加的能力和机会来得到增强的辅助和与用户的增强的交互。更具体地，并且如前所述，当非语言传达从另一方被接收时，人与另一人或实体的交互将被增强，并且信息量更大。因此并且现在参考图12A-图12C，公开了用于经由智能助理设备来传达非语言提示的示例方法600。作为示例，方法600可以由智能助理设备10、150、158、186和/或图18的一体式计算设备160来执行。方法600的以下描述参考本文中所描述的以及在图1至图11B和图13A至图19中示出的软件和硬件组件而被提供。将理解，方法600也可以在其他上下文中使用其他合适的硬件和软件组件来执行。

参考图12A，在604处，方法600可以包括从智能助理设备的一个或多个相机接收指示人类存在的图像数据。这在图13A和图13B中示意性地图示，图13A和图13B再次示出了图1的环境4。具体地，图13A示出了人类实体2进入智能助理设备10的相机82B的FOD 500B，而图13B示出了从相机82B的角度来看的环境4的视图800。

在FOD 500A内检测到人类实体2时，相机可以将所检测的实体存在的指示传送到智能助理设备10。根据实现和所使用的特定传感器，实体存在的指示可以采取任何合适的形式。在一个示例场景中，相机可以捕获人脸的图像。在一些情况下，相机可以将未经处理的图像数据传送到智能助理设备，图像数据包括与面部相对应的一个或多个像素。与实体相对应的所传送的像素因此表示实体存在的指示，并且可以由智能助理设备处理以确定实体的位置和/或身份。值得注意的是，图像数据可以由相机以任何合适的频率来传送，并且不需要仅响应于检测到候选实体而被传送。在其他情况下，相机可以对图像数据执行某种程度的处理，并将数据的摘要或解译发送到智能助理设备。这样的摘要可以指示例如特定的、被标识的人存在于由传感器的传感器相关坐标系给出的特定位置处。不论指示实体存在的具体形式如何，在示例场景中，由智能助理设备接收的数据可以仍然可用于标识在传感器的FOD中检测到的人脸。

根据一个或多个附加传感器检测到实体的位置，实体存在的指示还可以包括其他形式的数据。例如，当传感器是麦克风时，实体存在的指示可以包括实体话音的所记录的音频或经由声音处理而确定的实体的传感器相关定位。当传感器是雷达传感器时，实体存在的指示可以包括通过检测从实体反射的无线电波而形成的剪影(silhouette)或“斑点(blob)”。将理解，不同的传感器将以不同的方式检测实体的存在，并且根据所使用的(多个)特定传感器，实体存在的指示可以采取任何合适的形式。此外，传感器数据的处理可以发生在实体跟踪计算系统上、传感器或相关组件上和/或分布在多个设备或系统之中。

简要地返回图12A，在608处，方法600可以包括：响应于接收到指示人的存在的图像数据，将智能助理设备的一个或多个组件致动为以非语言方式传达人的存在。如本文所呈现的示例中所描述的，在一些示例中，一个或多个组件可以包括单个光源或多个光源。在不同的示例中，单个光源可以包括诸如LED的发光元件、或者诸如OLED或LCD显示器的显示器。多个光源可以包括多个发光元件、单个显示器或多个显示器以及前述的各种组合。以这种方式并且如在下面呈现的示例中所描述的，接收这样的非语言传达的人被方便地通知她的存在被智能助理设备检测到。此外，通过经由非语言传达来表达该有用信息，设备方便且非侵入地向用户通知该信息。

在一个示例中并且再次参考图12A，在612处，将智能助理设备的一个或多个组件致动为非语言方式传达人的存在可以包括照亮位于智能助理设备上的至少一个光源。以这种方式，人可以被方便地在视觉上告知智能助理设备已检测到她的存在。

如上所述并且再次参考图2，在一个示例中，智能助理设备10包括圆柱形外壳80，圆柱形外壳80包括围绕外壳的至少一部分周边延伸的多个光源84。为了便于描述，图14是以“展开的”二维视图示出光源阵列84的示意图。在一些示例中，光源84可以围绕智能助理设备10的外壳80的周边延伸360度。在其他示例中，阵列可以围绕周边延伸90度、120度、180度或任何其他合适的程度。附加地，图14的示例示出了大致矩形的4×20的光源阵列。在其他示例中，位于智能助理设备10上的各个定位处的不同数量和布置的光源可以被利用，并且在本公开的范围内。在一些示例中，不同的单独光源可以具有不同的形状、尺寸、输出和/或其他质量或特性。

在一些示例中并且如下面更详细地描述的，为了以非语言方式传达人的存在，智能助理设备10可以确定人相对于设备的定位，并且可以照亮位于设备面向人的一部分上的至少一个光源。

简要地返回图12A，在一些示例中并且在616处，方法600可以包括通过对至少一个光源的频率、亮度、颜色、数量和形状中的至少一个进行调制来照亮至少一个光源，以将非语言提示传达给用户。在一些示例中并且在620处，其中至少一个光源是多个光源，光源可以是LED。在其他示例中，任何其他合适类型的光源可以被利用。

再次参考图14并且如下面更详细地描述的，在一些示例中，一个或多个光源84的频率可以被调制为以非语言方式传达智能助理设备10检测到人的存在。参考图13A的示例，当人2进入起居室4时，在来自智能助理设备10的相机的图像数据指示人2的存在时，一个或多个光源84可以被照亮，来以预定频率闪烁或脉动。附加地并且如以下更详细描述的，响应于确定人的一个或多个上下文(诸如，人的定位、身高或身份)，一个或多个光源可以被照亮，来以不同的频率闪烁或脉动，从而以非语言方式传达人的一个或多个上下文。将理解，照亮(多个)光源的多种技术可以被利用，诸如，创建各种视觉效果、形状、动画等的不同频率和照亮模式。

在一些示例中，除了或代替对(多个)光源的频率进行调制，光源的亮度、颜色和数量中的一个或多个可以被调制。例如，当人2进入起居室4时，一个或多个光源84可以以初始亮度被照亮，从而以非语言方式传达人2的存在。当人的一个或多个其他上下文被确定时，一个或多个光源可以以经修改和增强的亮度而被照亮，从而以非语言方式传达人的一个或多个上下文。

类似地，当人2进入起居室4时，一个或多个光源84可以以初始颜色(诸如，蓝色)被照亮，来以非语言方式传达人2的存在。当人的另一上下文被确定时，一个或多个光源的颜色可以被改变为绿色，来以非语言方式传达人的一个或多个上下文。在另一示例中，(多个)蓝色光源可以被维持为指示存在，并且(多个)其他光源可以以不同颜色被照亮来以非语言方式传达人的一个或多个上下文。在另一示例中，当人2进入起居室4时，光源84中的仅一个可以被照亮来以非语言方式传达人2的存在。当人的另一上下文被确定时，多个光源可以被照亮，从而以非语言方式传达人的一个或多个上下文。将理解，以上示例仅出于说明性目的被提供，并且以各种方式照亮一个或多个光源来传达非语言提示的许多变型和组合可以被利用并且在本公开的范围内。

简要地返回图12A，在624处，方法600可以包括经由智能助理设备的显示器来显示向量图形，从而传达非语言提示。如以上关于图3所指出的，在一些示例中，一个或多个光源可以包括显示器152，显示器152包围设备外壳的全部或部分周边。在这些示例中，显示器152可以被用于显示向量图形154(诸如，各种静态或经动画绘制的形状、图案等)，以非语言方式与用户通信。因此，在一些示例中，由显示器生成的一个或多个形状可以被调制为以非语言方式与用户通信。

现在参考图15A-图15D，在一个示例中，显示器可以动画绘制形状，该形状从图15A中所示的圆形变形为图15B中的水平椭圆、返回到图15C中的圆形并且然后再到图15D中所示的垂直椭圆。如上所述，在其他示例中，显示器可以生成静态和/或经动画绘制的各种各样的形状和/或图案，从而以非语言方式向用户传达各种提示。

简要地返回图12A并且在628处，将一个或多个组件制动为以非语言方式与用户通信可以包括将非语言提示投影到表面上。如以上关于图4所指出的，在一些示例中，智能助理设备158可以包括投影仪180，投影仪180将一个或多个静态或经动画绘制的形状、图案、图标等投影到表面上。在图4的示例中，投影仪180将圆形182的图像投影到设备所在的桌子的表面184上。

在一些示例中，来自智能助理设备的一个或多个传感器的数据可以指示多个人的存在。在这些示例中并且简要地返回图12A，在632处，方法600可以包括从智能助理设备的一个或多个传感器接收多个人的存在的指示。相应地并使用本文描述的一个或多个技术，智能助理设备可以将不同的非语言提示单独传达到多个人中的两个或更多个人。

现在参考图16，在一个示例中，智能助理设备10的一个或多个传感器可以检测起居室4中的第二人12以及第一人2。在该示例中，可能期望智能助理设备以非语言方式传达它对特定人的自然语言输入做出响应；即，特定人拥有设备的“焦点”。例如，在第一人2发起与智能通信设备的互动的情况下(诸如，通过说出“嘿，计算机”之类的关键词短语)，设备随后可以标识第一人的话音，并且仅响应来自第一人的命令和查询。相应地并且简要地参考图12A，在636处，方法600可以包括照亮智能助理设备的至少一个光源，来以非语言方式传达设备对来自第一人2的自然语言输入作出响应。为了在视觉上提供这样的非语言提示，智能助理设备可以使用上述技术中的任一个来照亮设备上的一个或多个光源。

在一些示例中并且如上所述，智能助理设备可以确定第一人2相对于设备的定位。在这些示例中，设备可以照亮一个或多个LED(位于设备面向人的部分上)，从而以非语言方式传达设备所理解的人的定位。附加地并且如下面更详细地描述的，智能助理设备可以提供针对两个或更多个人的其他非语言传达来表达附加的上下文和其他信息，诸如，人的定位、身高和身份。

现在参考图12B，在640处，方法600可以包括从智能助理设备的一个或多个传感器接收指示人的上下文信息的数据。如上所述，上下文信息可以包括实体跟踪计算系统基于所接收的传感器数据对一个或多个所检测的实体的身份、位置和/或状态的猜测/预测。在644处，方法600可以包括：至少使用指示人的上下文信息的数据来确定人的一个或多个上下文。在648处，人的一个或多个上下文可以包括以下中的一项或多项：(1)人相对于智能助理设备的定位；(2)人的身高；(3)与先前所标识的人相对应并且表示初始置信度值的人的初始身份；(4)表示比初始置信度值大的经验证的置信度值的人的经验证的身份；以及(5)人与智能助理设备的距离。

在一些示例中并且如上所述，一个或多个人相对于智能助理设备的定位可以被确定。参考图16和图17的示例，来自智能助理设备的相机的图像数据可以被用于将第一人2和第二人12相对于设备来进行标识和定位。例如，智能助理设备10可以处理图像数据，来生成所检测的人在传感器相关坐标系内的传感器相关位置。例如，传感器相关位置可以由相对于相机所捕获的像素的二维网格的像素坐标集合来给出。当相机是深度相机时，人的传感器相关位置可以是三维位置。

关于实体存在的指示，实体的传感器相关位置可以采取任何合适的形式。在一些示例中，除了图像数据之外或代替图像数据，来自一个或多个其他传感器的数据可以用于确定人的定位。例如，当传感器是麦克风时，传感器相关位置可以从所记录的音频信号的幅度来推断，从而用作人与传感器的距离的指示器。类似地，与环境相关坐标系相同，根据传感器收集或观察的数据类型，每个传感器的传感器相关坐标系可以采取任何合适的形式，并且可以使用任何尺度、网格系统或对传感器本地环境进行标定/量化的其他合适方法。

在一些示例中，所检测的人的传感器相关位置可以被转译为人在环境相关坐标系内的环境相关位置。如上所述，这样的转译可以与传感器的FOD到环境相关坐标系的映射相关。该映射可以以各种合适的方式中的任一个来实现，并且可以在任何合适的时间被执行。例如，在一些情况下，传感器FOD到环境相关坐标系的映射可以在智能助理设备的初始设置时被执行、随着设备的使用逐渐发展和/或在另一合适的时间被执行。

简要地参考图12B，在652处，方法600可以包括：响应于确定人的一个或多个上下文，将智能助理设备的一个或多个组件致动为以非语言方式传达人的一个或多个上下文。再次参考图16和图17，在第一人2的定位被确定的情况下，智能助理设备可以以非言语方式将这样的定位传达给此人。如图17中示意性地示出，在一个示例中，第一人2的定位可以通过照亮位于设备10面向人的部分19上的一个或多个LED来以非语言方式进行传达，如虚线15和15’所示。

在一些示例中，除了以非语言方式传达智能助理设备已检测到第一人2之外，设备还可以传达其正在跟踪第一人的定位。例如并且参考图17，当第一人2从第一定位21步行到第二定位23时，智能助理设备10可以逐渐照亮不同的光源，从而以非语言方式传达设备正在跟踪第一人的定位。在一个示例中并参考图14，当第一人2相对于光源84(可以是LED)阵列沿箭头A的方向移动时，单独LED可以以跟随人的变化定位的方式，从右向左被逐渐照亮和变暗，并因此以非语言方式传达设备正在跟踪人的定位。

如上所述，智能助理设备10可以检测多于一个人的存在。再次简要地参考图12B，在656处，方法600可以包括从智能助理设备的一个或多个传感器接收第二人的存在的指示。在660处，方法600可以包括照亮智能助理设备的至少一个光源来以非语言方式传达：智能助理设备正在跟踪第一人的定位和第二人的定位。

在一个示例中并且再次参考图17，除了通过照亮虚线15所指示的一个或多个LED来以非语言方式传达第一人2的定位之外，以类似的方式，智能助理设备10还可以通过照亮一个或多个LED来以非语言方式传达第二人12的定位，如虚线17所示，一个或多个LED位于设备面向第二人12的不同部分25上。如以上针对第一人2所述，智能助理设备10还可以逐渐照亮不同的光源，来以非语言方式传达设备也在跟踪第二人的定位。

在一些示例中，智能助理设备10可以附加地或备选地以非语言方式传达第一人2与设备的距离。在一个示例中，被照亮来指示人的定位的一个或多个LED的亮度可以随着用户移动靠近设备而增加，而随着用户移动远离设备而降低。将理解，照亮光源来以非言语方式传达与人的距离的许多其他示例可以被利用。

如上所述，智能助理设备10可以使用指示人的上下文信息的数据来确定人的一个或多个上下文。在一些示例中，人的一个或多个上下文可以包括人的身高。在来自深度相机的深度图像数据被接收的一些示例中，智能助理设备可以利用这样的数据来确定所检测的人的身高，并且可以通过照亮其光源中的一个或多个来以非语言方式传达这样的身高的指示。在一个示例中并参考图14，不同的所检测的人的高度通常可以通过照亮垂直列中变化数量的LED来指示。例如，对于身高不足4英尺的人，1个LED可以被照亮；对于身高在4到5英尺之间的人，2个LED可以被照亮；对于身高5至6英尺的人，3个LED可以被照亮；对于超过6英尺高的人，所有4个LED可以被照亮。将理解，照亮光源来以非语言方式传达人的身高的许多其他示例可以被利用。

在一些示例中并且如上所述，人的一个或多个上下文可以包括人的初始身份和经验证的身份。如上所解释，智能助理设备的实体标识符可以确定人的身份的两个或更多个级别。例如，这样的身份级别可以包括初始身份和经验证的身份，初始身份与先前标识的人相对应并表示初始置信度值，经验证的身份表示比人是先前标识的人的初始置信度值大的经验证的置信度值。在初始身份被确定的情况下，智能助理设备可以通过以特定方式照亮其光源中的一个或多个来以非语言方式传达这样的身份的指示。

在一个示例中并参考图14，人的初始身份可以通过以第一颜色(诸如，蓝色)照亮一个或多个LED来指示。在这样的人然后被认证为经验证的身份(表示比初始置信度值大的经验证的置信度值)的情况下，这种经验证的身份可以通过以第二不同颜色(诸如，绿色)照亮一个或多个LED来指示。将理解，许多其他示例可以被利用，这些示例照亮光源来以非语言方式传达人的初始身份、经验证的身份和/或附加的身份安全级别。

在一些示例中，智能助理设备10的用户可能期望知道设备正在收集和利用哪个(哪些)类型的数据。例如，一些用户可能希望设备收集或避免收集一个或多个类型的数据。在一个示例中并且再次简要地参考图12B，在664处，方法600可以包括照亮智能助理设备的至少一个光源来以非语言方式传达由智能助理设备用来确定人的一个或多个上下文的传感器数据的类型。例如，在光源包括设备上的显示器的情况下，显示器可以生成示出相机的向量图形，以指示视频数据正在被设备收集。将理解，许多其他示例可以被利用，这些示例照亮光源来以非语言方式传达由智能助理设备使用的传感器数据的类型。

如上所述，在一些示例中，智能助理设备10可以从设备上的各种不同传感器接收和利用各种不同传感器数据。在一个示例中并且现在参考图12C，在668处，方法600可以包括，其中人的一个或多个上下文包括人的初始身份，从智能助理设备的多个不同传感器接收和融合指示人的上下文信息的数据，以确定人的初始身份。如所指出的，在其他示例中，智能助理设备10可以将这样的数据融合来确定如本文所述的人的各种不同上下文。

同样如上所述，在智能助理设备的一些示例实现(诸如图5A和图5B所示的示例)中，设备的一个或多个组件可以通过平移、旋转和/或以其他方式移动组件而被致动为以非语言方式传达人的存在。再次简要地参考图12C，在672处，方法600可以包括以下中的一项或多项：移动设备的相机来对准人以及移动显示器来跟随人的定位，从而以非语言方式传达人的存在。

在一些示例中，智能助理设备的一个或多个光源可以是红外(IR)发射器。例如，设备可以包括IR投影仪，IR投影仪被配置为发射经编码的IR信号，经编码的IR信号从环境中的物体被反射，以由设备的IR相机接收。在一些示例中，这样的IR投影仪的可见辉光可以被证明是烦人的或分散用户的注意力。因此，在一些示例中并且再次简要地参考图12C，在676处，方法600可以包括，其中智能助理设备包括多个光源，将多个光源中的至少一个光源照亮以进行以下中的一项或多项：(1)降低至少一个IR发射器的可见度，以及(2)将从至少一个IR发射器发射的光并入到由至少一个光源产生的照明图案中。在一个示例中，IR发射器可以位于设备上的多个LED的中间。当IR发射器被照亮时，LED可以被照亮，使得来自IR发射器的辉光混入从LED发射的光中来减小IR发射器的可见度。此外，在一些示例中，如上所述，该技术还可以用于以非语言方式向用户传达信息。在IR发射器位于多个LED之中的另一示例中，当IR发射器被激活时，LED可以被选择性地照亮来产生令人悦目的图案，该图案将来自IR发射器的光并入图案中，从而掩盖这样的IR光。

现在参考图18，智能助理设备10在单个计算设备中的附加示例实现被图示。关于图18中所示的计算设备的组件和计算方面的附加细节在下面参考图19来描述。

图18示出了一体式计算设备160的一个示例，在一体式计算设备160中，实现智能助理设备10的组件被一起布置在独立设备中。在一些示例中，一体式计算设备160可以经由网络166被通信地耦合到一个或多个其他计算设备162。在一些示例中，一体式计算设备160可以被通信地耦合到数据存储库164，数据存储库164可以存储各种数据，诸如，用户简档数据。一体式计算设备160包括至少一个传感器22、话音监听器30、解析器40、意图处理器50、承诺引擎60、实体跟踪计算系统100以及至少一个输出设备70。(多个)传感器22包括用于接收视觉数据的至少一个相机以及用于从用户接收自然语言输入的至少一个麦克风。在一些示例中，也可以包括一个或多个其他类型的(多个)传感器22。

如上所述，话音监听器30、解析器40和意图处理器50协同工作来将自然语言输入转换为由一体式设备160可执行的承诺。这样的承诺可以由承诺引擎60存储。实体跟踪计算系统100可以向承诺引擎60和/或其他模块提供上下文信息。在上下文适当的时间，承诺引擎60可以执行承诺并将诸如音频信号的输出提供给(多个)输出设备70。

在一些实施例中，本文描述的方法和过程可以与一个或多个计算设备的计算系统联系在一起。特别地，这样的方法和过程可以被实现为计算机应用程序或服务、应用程序编程接口(API)、库和/或其他计算机程序产品。

图19示意性地示出了计算系统1300的一个非限制性实施例，计算系统1300可以实现上述方法和过程中的一个或多个。计算系统1300以简化形式被示出。计算系统1300可以采取以下形式：本文所述的一个或多个智能助理设备、一个或多个个人计算机、服务器计算机、平板计算机、家庭娱乐计算机、网络计算设备、游戏设备、移动计算设备、移动通信设备(例如，智能手机)和/或其他计算设备。

计算系统1300包括逻辑机1302和存储机1304。计算系统1300可以可选地包括显示子系统1306、输入子系统1308、通信子系统1310和/或图19中未示出的其他组件。

逻辑机1302包括被配置为执行指令的一个或多个物理设备。例如，逻辑机可以被配置为执行指令，指令是一个或多个应用、服务、程序、例程、库、对象、组件、数据结构或其他逻辑构造的一部分。这样的指令可以被实现为执行任务、实现数据类型、变换一个或多个组件的状态、实现技术效果或以其他方式达到期望结果。

逻辑机可以包括一个或多个处理器，一个或多个处理器被配置为执行软件指令。附加地或备选地，逻辑机可以包括被配置为执行硬件或固件指令的一个或多个硬件或固件逻辑机。逻辑机的处理器可以是单核或多核，并且其上执行的指令可以被配置用于进行顺序、并行和/或分布式处理。逻辑机的单独组件可选地可以分布在两个或更多个分离设备之中，两个或更多个分离设备可以位于远程和/或被配置用于协调处理。逻辑机的各方面可以由可远程访问的联网计算设备来虚拟化和执行，可远程访问的联网计算设备以云计算配置来进行配置。

存储机1304包括一个或多个物理设备，一个或多个物理设备被配置为保持由逻辑机可执行的指令来实现本文描述的方法和过程。当这样的方法和过程被实现时，存储机1304的状态可以被变换为例如以保持不同的数据。

存储机1304可以包括可移除和/或内置设备。存储机1304可以包括光学存储器(例如，CD、DVD、HD-DVD、蓝光光盘等)、半导体存储器(例如，RAM、EPROM、EEPROM等)和/或磁存储器(例如，硬盘驱动器、软盘驱动器、磁带驱动器、MRAM等)等。存储机1304可以包括易失性、非易失性、动态、静态、读/写、只读、随机存取、顺序存取、定位可寻址、文件可寻址和/或内容可寻址的设备。

应当理解，存储机1304包括一个或多个物理设备。然而，本文中描述的指令的各方面备选地可以由物理设备未在有限的持续时间内保持的通信介质(例如，电磁信号、光信号等)来传播。

逻辑机1302和存储机1304的各方面可以被一起集成为一个或多个硬件逻辑组件。这样的硬件逻辑组件可以包括例如现场可编程门阵列(FPGA)、程序专用和应用专用集成电路(PASIC/ASIC)、程序专用和应用专用标准产品(PSSP/ASSP)、片上系统(SOC)和复杂可编程逻辑器件(CPLD)。

术语“模块”、“程序”和“引擎”可以用于描述被实现为执行特定功能的计算系统1300的一个方面。在一些情况下，模块、程序或引擎可以经由逻辑机1302执行存储机1304所保持的指令来实例化。将理解，不同的模块、程序和/或引擎可以根据相同的应用、服务、代码块、对象、库、例程、API、函数等而被实例化。同样，相同的模块、程序和/或引擎可以由不同的应用、服务、代码块、对象、例程、API、函数等实例化。术语“模块”、“程序”和“引擎”可以涵盖可执行文件、数据文件、库、驱动程序、脚本、数据库记录等中的单个或一组。

将理解，如本文所使用的，“服务”是跨多个用户会话可执行的应用程序。服务可以对一个或多个系统组件、程序和/或其他服务可用。在一些实现中，服务可以在一个或多个服务器计算设备上运行。

当被包括时，显示子系统1306可以用于呈现由存储机1304保持的数据的视觉表示。在一些示例中，显示子系统1306可以包括如本文所述的一个或多个光源。在显示子系统1306包括生成向量图形和其他视觉表示的显示设备的情况下，这样的表示可以采取图形用户界面(GUI)的形式。当本文描述的方法和过程改变了由存储机所保持的数据，并因此将存储机的状态变换时，显示子系统1306的状态同样可以被变换来可视地表示基础数据中的改变。显示子系统1306可以包括实际上利用任何类型的技术的一个或多个显示设备。

当被包括时，输入子系统1308可以包括一个或多个用户输入设备(诸如，键盘、鼠标、触摸屏或游戏控制器)或与该一个或多个用户输入设备交互。在一些实施例中，输入子系统可以包括所选择的自然用户输入(NUI)组件或与所选择的自然用户输入(NUI)组件交互。这样的组件可以是集成的或外围的，并且输入动作的转导和/或处理可以在板上或板外执行。示例NUI组件可以包括用于语音和/或话音识别的麦克风；用于机器视觉和/或手势识别的红外、彩色、立体和/或深度相机；用于运动检测和/或意图识别的头部跟踪器、眼睛跟踪器、加速度计和/或陀螺仪；以及用于评估大脑活动的电场感测组件。

当被包括时，通信子系统1310可以被配置为将计算系统1300与一个或多个其他计算设备通信地耦合。通信子系统1310可以包括与一个或多个不同的通信协议兼容的有线和/或无线通信设备。作为非限制性示例，通信子系统可以被配置用于经由无线电话网络或者有线或无线局域网或广域网的通信。在一些实施例中，通信子系统可以允许计算系统1300经由诸如互联网的网络来向其他设备发送消息和/或从其他设备接收消息。

以下段落为主题申请的权利要求提供了附加支持。一个方面提供了，一种在智能助理设备处用于传达非语言提示的方法，该智能助理设备被配置为响应自然语言输入，该方法包括：从智能助理设备的一个或多个相机接收指示人的存在的图像数据；响应于接收到图像数据，将智能助理设备的一个或多个组件致动为以非语言方式传达人的存在；从智能助理设备的一个或多个传感器接收指示人的上下文信息的数据；至少使用指示人的上下文信息的数据，确定人的一个或多个上下文；以及响应于确定人的一个或多个上下文，将智能助理设备的一个或多个组件致动为以非语言方式传达人的一个或多个上下文。方法可以附加地或备选地包括：其中将智能助理设备的一个或多个组件致动为以非语言方式传达人的存在还包括：照亮位于智能助理设备上的至少一个光源。方法可以附加地或备选地包括：其中将智能助理设备的一个或多个组件致动为以非语言方式传达人的存在还包括以下中的一项或多项：移动相机以对准人，以及移动显示器来跟随人的定位。方法可以附加地或备选地包括，其中人的一个或多个上下文包括以下中的一项或多项：(1)人相对于智能助理设备的定位；(2)人的高度；(3)人的初始身份，初始身份与先前标识的人相对应并表示初始置信度值；(4)人的经验证的身份，经验证的身份表示比初始置信度值大的经验证的置信度值；以及(5)人与智能助理设备的距离。方法可以附加地或备选地包括：其中将一个或多个组件致动为以非语言方式传达人的一个或多个上下文还包括：照亮位于智能助理设备上的至少一个光源；并且照亮至少一个光源包括对至少一个光源的频率、亮度、颜色、数量和形状中的至少一个进行调制。方法可以附加地或备选地包括，其中至少一个光源是多个光源，并且多个光源包括多个LED。方法可以附加地或备选地包括，其中将一个或多个组件致动为以非语言方式传达人的一个或多个上下文还包括：经由智能助理设备的显示器来显示向量图形。方法可以附加地或备选地包括，其中将一个或多个组件致动为以非语言方式传达人的一个或多个上下文还包括：将非语言提示投影到表面上。方法可以附加地或备选地包括，其中人是第一人，方法还包括：从智能助理设备的一个或多个传感器接收第二人的存在的指示；以及照亮位于智能助理设备上的至少一个光源，来以非语言方式传达智能助理设备对来自第一人的自然语言输入做出响应。方法可以附加地或备选地包括，其中人是第一人，并且人的一个或多个上下文包括第一人的定位，方法还包括：从智能助理设备的一个或多个传感器接收第二人的存在的指示；以及照亮位于智能助理设备上的至少一个光源，来以非语言方式传达智能助理设备正在跟踪第一人的定位和第二人的定位。方法可以附加地或备选地包括，其中人的一个或多个上下文包括人的初始身份，方法还包括：从智能助理设备的多个不同传感器接收和融合指示人的上下文信息的数据，以确定人的初始身份。方法可以附加地或备选地包括：照亮位于智能助理设备上的至少一个光源，来以非语言方式传达传感器数据的类型，传感器数据由智能助理设备用来确定人的一个或多个上下文。方法可以附加地或备选地包括：其中一个或多个组件包括多个光源，并且多个光源包括至少一个红外发射器，方法还包括照亮多个光源中的至少一个光源，以进行以下中的一项或多项：(1)降低至少一个红外发射器的可见度，以及(2)将从至少一个红外发射器发射的光并入到由至少一个光源产生的照明图案中。

另一方面提供了一种被配置为响应自然语言输入的智能助理设备，包括：多个光源；具有一个或多个相机的多个传感器；至少一个扬声器；逻辑机；以及存储机，存储机保持指令，指令由逻辑机可执行，以：从一个或多个相机中的至少一个相机接收指示人的存在的图像数据；响应于接收到图像数据，将智能助理设备的一个或多个组件致动为以非语言方式传达人的存在；从多个传感器中的一个或多个传感器接收指示人的上下文信息的数据；至少使用指示人的上下文信息的数据，确定人的一个或多个上下文；以及响应于确定人的一个或多个上下文，将智能助理设备的一个或多个组件致动为以非语言方式传达人的一个或多个上下文。智能助理设备可以附加地或备选地包括：其中将智能助理设备的一个或多个组件致动为以非语言方式传达人的存在还包括：照亮多个光源中的至少一个光源。智能助理设备可以附加地或备选地包括，其中将智能助理设备的一个或多个组件致动为以非语言方式传达人的存在还包括以下中的一项或多项：移动相机以对准人以及移动显示器来跟随人的定位。智能助理设备可以附加地或备选地包括，其中将一个或多个组件致动为以非语言方式传达人的一个或多个上下文还包括：照亮位于智能助理设备上的至少一个光源，并且照亮至少一个光源包括对至少一个光源的频率、亮度、颜色、数量和形状中的至少一个进行调制。智能助理设备可以附加地或备选地包括：其中人是第一人，并且指令可执行，以：从智能助理设备的一个或多个传感器接收第二人的存在的指示；以及照亮位于智能助理设备上的至少一个光源，来以非语言方式传达智能助理设备对来自第一人的自然语言输入做出响应。智能助理设备可以附加地或备选地包括，其中人是第一人，并且人的一个或多个上下文包括第一人的定位，并且指令可执行，以：从智能助理设备的一个或多个传感器接收第二人的存在的指示；以及照亮位于智能助理设备上的至少一个光源，来以非语言方式传达智能助理设备正在跟踪第一人的定位和第二人的定位。

另一方面，提供了一种被配置为响应自然语言输入的智能助理设备，包括：外壳；位于外壳的至少一部分周围的多个LED；多个传感器，包括至少一个相机和至少一个麦克风；至少一个扬声器；逻辑机；以及存储机，存储机保持指令，指令由逻辑机可执行，以：从至少一个相机接收指示人的存在的图像数据；响应于接收到图像数据，照亮多个LED中的至少一个LED，来以非语言方式传达对人的存在的检测；从多个传感器中的一个或多个传感器接收指示人的上下文信息的数据；至少使用指示人的上下文信息的数据，确定人的一个或多个上下文；以及响应于确定人的一个或多个上下文，照亮多个LED中的至少一个LED，来以非语言方式传达人的一个或多个上下文。

将理解，本文描述的配置和/或方法本质上是示例性的，并且这些特定实施例或示例不应认为是限制性的，因为可以进行多种变型。本文描述的特定例程或方法可以表示任何数量的处理策略中的一个或多个。这样，所图示和/或描述的各种动作可以按照所图示和/或所描述的顺序来执行、以其他顺序来执行、并行地执行或者被省略。同样，上述过程的顺序可以被改变。

本公开的主题包括本文所公开的各种过程、系统和配置以及其他特征、功能、动作和/或性质的所有新颖和非明显的组合和子组合及其所有等同物。

Claims

1.一种在智能助理设备处用于传达非语言提示的方法，所述智能助理设备被配置为响应自然语言输入，所述方法包括：

通过以下操作从所述智能助理设备的一个或多个相机接收指示人的存在的图像数据：

响应于所述图像数据包括所述人，将所述图像数据的置信度设置为预定值；

响应于所述图像数据不包括所述人并且在一个或多个时间帧之前接收的图像数据包括所述人，根据一个或多个置信度衰减函数衰减所述图像数据的置信度；

响应于接收到所述图像数据，将所述智能助理设备的一个或多个组件致动为以非语言方式传达所述人的所述存在；

从所述智能助理设备的一个或多个传感器接收指示所述人的上下文信息的数据；

至少使用指示所述人的上下文信息的所述数据，确定所述人的一个或多个上下文，其中所述人的所述一个或多个上下文包括：(1)所述人的初始身份，所述初始身份与先前标识的人相对应并表示初始置信度值，和/或(2)所述人的经验证的身份，所述经验证的身份表示比所述初始置信度值大的经验证的置信度值；以及

响应于确定所述人的所述一个或多个上下文，通过移动相机以对准所述人和移动显示器以跟随所述人的位置中的一项或多项，将所述智能助理设备的一个或多个组件致动为以非语言方式传达所述人的所述一个或多个上下文。

2.根据权利要求1所述的方法，其中将所述智能助理设备的一个或多个组件致动为以非语言方式传达所述人的所述存在还包括：照亮位于所述智能助理设备上的至少一个光源。

3.根据权利要求1所述的方法，其中所述人的所述一个或多个上下文包括选自以下的至少一个上下文：(1)所述人相对于所述智能助理设备的定位、(2)所述人的高度、以及(3)所述人与所述智能助理设备的距离。

4.根据权利要求1所述的方法，其中将一个或多个组件致动为以非语言方式传达所述人的所述一个或多个上下文还包括：照亮位于所述智能助理设备上的至少一个光源；并且照亮所述至少一个光源包括对所述至少一个光源的频率、亮度、颜色、数量和形状中的至少一个进行调制。

5.根据权利要求4所述的方法，其中所述至少一个光源是多个光源，并且所述多个光源包括多个LED。

6.根据权利要求1所述的方法，其中将一个或多个组件致动为以非语言方式传达所述人的所述一个或多个上下文还包括：经由所述智能助理设备的显示器来显示向量图形。

7.根据权利要求1所述的方法，其中将一个或多个组件致动为以非语言方式传达所述人的所述一个或多个上下文还包括：将所述非语言提示投影到表面上。

8.根据权利要求1所述的方法，其中所述人是第一人，所述方法还包括：

从所述智能助理设备的一个或多个传感器接收第二人的存在的指示；以及

照亮位于所述智能助理设备上的至少一个光源，来以非语言方式传达所述智能助理设备对来自所述第一人的所述自然语言输入做出响应。

9.根据权利要求1所述的方法，其中所述人是第一人，并且所述人的所述一个或多个上下文包括所述第一人的定位，所述方法还包括：

照亮位于所述智能助理设备上的至少一个光源，来以非语言方式传达所述智能助理设备正在跟踪所述第一人的所述定位和所述第二人的定位。

10.根据权利要求1所述的方法，其中所述人的所述一个或多个上下文包括所述人的所述初始身份，所述方法还包括：从所述智能助理设备的多个不同传感器接收和融合指示所述人的上下文信息的所述数据，以确定所述人的所述初始身份。

11.根据权利要求1所述的方法，还包括：照亮位于所述智能助理设备上的至少一个光源，来以非语言方式传达传感器数据的类型，所述传感器数据由所述智能助理设备用来确定所述人的所述一个或多个上下文。

12.根据权利要求1所述的方法，其中所述一个或多个组件包括多个光源，并且所述多个光源包括至少一个红外发射器，所述方法还包括照亮所述多个光源中的至少一个光源，以进行以下中的一项或多项：(1)降低所述至少一个红外发射器的可见度，以及(2)将从所述至少一个红外发射器发射的光并入到由所述至少一个光源产生的照明图案中。

13.一种被配置为响应自然语言输入的智能助理设备，包括：

多个光源；

多个传感器，包括一个或多个相机；

至少一个扬声器；

逻辑机；以及

存储机，保持指令，所述指令由所述逻辑机可执行，以：

通过以下操作从所述一个或多个相机中的至少一个相机接收指示人的存在的图像数据：

从所述多个传感器中的一个或多个传感器接收指示所述人的上下文信息的数据；

14.根据权利要求13所述的智能助理设备，其中将所述智能助理设备的一个或多个组件致动为以非语言方式传达所述人的所述存在还包括：照亮位于所述智能助理设备上的至少一个光源。

15.根据权利要求13所述的智能助理设备，其中将一个或多个组件致动为以非语言方式传达所述人的所述一个或多个上下文还包括：照亮位于所述智能助理设备上的至少一个光源；并且照亮所述至少一个光源包括对所述至少一个光源的频率、亮度、颜色、数量和形状中的至少一个进行调制。

16.根据权利要求13所述的智能助理设备，其中所述人是第一人，并且所述指令可执行，以：

17.根据权利要求13所述的智能助理设备，其中所述人是第一人，并且所述人的所述一个或多个上下文包括所述第一人的定位，并且所述指令可执行，以：

18.一种被配置为响应自然语言输入的智能助理设备，包括：

外壳；

多个LED，位于所述外壳的至少一部分的周围；

多个传感器，包括至少一个相机和至少一个麦克风；

至少一个扬声器；

逻辑机；以及

存储机，保持指令，所述指令由所述逻辑机可执行，以：

通过以下操作从所述至少一个相机接收指示人的存在的图像数据：

响应于接收到所述图像数据，照亮所述多个LED中的至少一个LED，来以非语言方式传达对所述人的所述存在的检测；

响应于确定所述人的所述一个或多个上下文，照亮所述多个LED中的至少一个LED，来以非语言方式传达所述人的所述一个或多个上下文。