CN119856136A - 用于消息收发系统中的增强现实内容的3d指示器功能 - Google Patents
用于消息收发系统中的增强现实内容的3d指示器功能 Download PDFInfo
- Publication number
- CN119856136A CN119856136A CN202380064722.0A CN202380064722A CN119856136A CN 119856136 A CN119856136 A CN 119856136A CN 202380064722 A CN202380064722 A CN 202380064722A CN 119856136 A CN119856136 A CN 119856136A
- Authority
- CN
- China
- Prior art keywords
- virtual object
- scene
- pose
- user
- dimensions
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/011—Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/017—Gesture based interaction, e.g. based on a set of recognized hand gestures
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/048—Interaction techniques based on graphical user interfaces [GUI]
- G06F3/0481—Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
- G06F3/0482—Interaction with lists of selectable items, e.g. menus
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/048—Interaction techniques based on graphical user interfaces [GUI]
- G06F3/0484—Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
- G06F3/04842—Selection of displayed objects or displayed text elements
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/048—Interaction techniques based on graphical user interfaces [GUI]
- G06F3/0484—Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
- G06F3/04845—Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range for image manipulation, e.g. dragging, rotation, expansion or change of colour
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/048—Interaction techniques based on graphical user interfaces [GUI]
- G06F3/0484—Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
- G06F3/04847—Interaction techniques to control parameter settings, e.g. interaction with sliders or dials
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T19/00—Manipulating 3D models or images for computer graphics
- G06T19/006—Mixed reality
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T19/00—Manipulating 3D models or images for computer graphics
- G06T19/20—Editing of 3D images, e.g. changing shapes or colours, aligning objects or positioning parts
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2200/00—Indexing scheme for image data processing or generation, in general
- G06T2200/24—Indexing scheme for image data processing or generation, in general involving graphical user interfaces [GUIs]
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30196—Human being; Person
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2210/00—Indexing scheme for image generation or computer graphics
- G06T2210/21—Collision detection, intersection
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2219/00—Indexing scheme for manipulating 3D models or images for computer graphics
- G06T2219/20—Indexing scheme for editing of 3D models
- G06T2219/2016—Rotation, translation, scaling
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Computer Graphics (AREA)
- Computer Hardware Design (AREA)
- Software Systems (AREA)
- Architecture (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本技术检测手指的表示的位置和姿态。本技术基于手指的表示的位置和姿态来生成第一虚拟对象。本技术检测第一碰撞事件。本技术响应于第一碰撞事件,将第二虚拟对象的一组尺寸修改成第二组尺寸。本技术检测手指的表示的第二位置和第二姿态。本技术检测第二碰撞事件。本技术将第三虚拟对象的一组尺寸修改成第三组尺寸。本技术在第三场景内基于第三组尺寸渲染第三虚拟对象,第三场景包括根据第二场景的经修改的场景。
Description
优先权申明
本专利申请要求于2022年9月9日提交的序列号为17/941,293的美国申请的优先权的权益,该美国申请的全部内容通过引用并入本文。
背景技术
随着数字图像的使用的增加、便携式计算设备的可负担性、数字存储介质的增加的容量的可用性以及网络连接的增加的带宽和可访问性,数字图像已经成为越来越多人日常生活的一部分。
附图说明
在不一定按比例绘制的附图中,相似的附图标记可以在不同的视图中描述类似的部件。为了容易地识别对任何特定元件或动作的讨论,附图标记中的一个或多个最高位数字是指该元件被首次引入时所在的图号。在附图的图中示出了一些非限制性示例,在附图中:
图1是根据一些示例的可以在其中部署本公开内容的联网环境的图解表示。
图2是根据一些示例的具有客户端侧功能和服务器侧功能二者的消息收发系统的图解表示。
图3是根据一些示例的在数据库中维护的数据结构的图解表示。
图4是根据一些示例的消息的图解表示。
图5示出了根据一些示例的用户界面生成和利用处理。
图6描绘了根据一些示例的示例用户界面处理的顺序图。
图7A示出了根据各种实施方式的示例界面。
图7B示出了根据各种实施方式的示例界面。
图8示出了根据各种实施方式的示例界面。
图9示出了根据各种实施方式的示例界面。
图10示出了根据各种实施方式的示例界面。
图11示出了根据各种实施方式的示例界面。
图12示出了根据各种实施方式的示例界面。
图13示出了根据各种实施方式的示例界面。
图14示出了根据各种实施方式的示例界面。
图15示出了根据各种实施方式的示例界面。
图16示出了根据各种实施方式的示例界面。
图17示出了根据各种实施方式的示例界面。
图18示出了根据各种实施方式的示例界面。
图19示出了根据各种实施方式的示例界面。
图20示出了根据各种实施方式的示例界面。
图21示出了根据各种实施方式的示例界面。
图22示出了根据各种实施方式的示例界面。
图23示出了根据各种实施方式的示例界面。
图24示出了根据各种实施方式的示例界面。
图25示出了根据各种实施方式的示例界面。
图26是示出根据某些示例实施方式的方法的流程图。
图27是根据一些示例的呈计算机系统形式的机器的图解表示,在该计算机系统内可以执行一组指令以使该机器执行本文所讨论的方法中的任何一种或更多种方法。
图28是示出可以在其中实现示例的软件架构的框图。
具体实施方式
来自各地具有各种兴趣的用户可以捕获各种主题的数字图像,并且经由网络(诸如,因特网)使所捕获的图像对于他人可获得。增强用户对数字图像的体验并提供各种特征,使得计算设备能够对在各种变化条件(例如,图像尺度、噪声、照明、运动或几何失真上的变化)下捕获的各种对象和/或特征执行图像处理操作,可能是有挑战性的并且是计算密集的。
增强现实技术旨在通过提供用电子信息增强的增强真实世界环境来弥合虚拟环境与真实世界环境之间的差距。因此,电子信息就像是由用户所感知的真实世界环境的一部分。在示例中,增强现实技术还提供用户界面,以与叠加在增强真实世界环境中的电子信息进行交互。
如上面所提到的,随着数字图像的使用的增加、便携式计算设备的可负担性、数字存储介质的增加的容量的可用性以及网络连接的增加的带宽和可访问性,数字图像已经成为越来越多人日常生活的一部分。来自各地具有各种兴趣的用户可以捕获各种主题的数字图像,并且由网络(诸如,因特网)使所捕获的图像对于他人可获得。增强用户对数字图像的体验并提供各种特征使得计算设备能够对在各种变化条件(例如,图像尺度、噪声、照明、运动或几何失真的变化)下捕获的各种对象和/或特征执行图像处理操作,可能是有挑战性的并且是计算密集的。
增强现实技术旨在通过提供用电子信息增强的增强真实世界环境来弥合虚拟环境与真实世界环境之间的差距。因此,电子信息就像是由用户所感知的真实世界环境的一部分。在示例中,增强现实技术还提供用户界面,以与叠加在增强真实世界环境中的电子信息进行交互。
增强现实(AR)系统使得真实环境和虚拟环境能够在不同程度上被组合来以实时方式促进来自用户的交互。如本文所描述,这样的AR系统因此可以包括真实环境和虚拟环境的各种可能组合并且比虚拟环境(例如,没有真实元素)更接近真实环境,所述真实环境和虚拟环境的各种可能组合包括主要包括真实元素的增强现实。以这种方式,真实环境可以通过AR系统与虚拟环境连接。沉浸在AR环境中的用户可以通过这样的环境导航,并且AR系统可以跟踪用户的视点以基于用户在环境中的位置来提供可视化。可以如在本文的实施方式中所描述的消息收发客户端应用(或消息收发系统)中提供增强现实(AR)体验。
本文所描述的本技术的实施方式能够实现涉及AR内容的各种操作,以用于使用给定电子设备(诸如,移动计算装置)捕获和修改这样的内容。
消息收发系统被频繁使用并且在各种环境中由移动计算设备的用户越来越多地用来以便利的方式提供不同类型的功能。如本文所描述,本消息收发系统包括实际应用,该实际应用通过至少在使用功率和资源受限的电子设备捕获图像数据方面提供技术改进来在捕获图像和基于捕获的图像数据渲染AR内容(例如,图像、视频等)方面提供改进。捕获图像数据方面的这样的改进通过本技术提供的技术来实现,本技术提供的技术减少了延迟并提高了处理捕获的图像数据的效率,从而也减少了捕获设备的功耗。
如本文进一步所讨论的,本基础设施支持在整个消息收发系统的各种部件中创建和共享包括3D内容或AR效果的在本文中称为消息的交互式媒体。在本文描述的示例实施方式中,消息可以从实况摄像装置或从存储装置(例如,其中,包括3D内容和/或AR效果的消息被存储在存储器或数据库中)进入系统。本系统支持运动传感器输入和外部效果和资产数据的加载。
如本文所提及的,短语“增强现实体验”、“增强现实内容项”、“增强现实内容生成器”包括或指代与如本文进一步描述的图像修改、过滤、AR内容生成器、媒体叠加、变换等对应的各种图像处理操作并且还可以包括在AR内容或媒体内容的呈现期间音频或音乐内容的回放。
联网计算环境
图1是示出用于通过网络来交换数据(例如,消息和相关联的内容)的示例消息收发系统100的框图。消息收发系统100包括客户端设备102的多个实例,所述实例中的每一个托管包括消息收发客户端104和其他应用106的多个应用。每个消息收发客户端104经由网络112(例如,因特网)通信地耦接至消息收发客户端104(例如,托管在相应的其他客户端设备102上)的其他实例、消息收发服务器系统108和第三方服务器110。消息收发客户端104还可以使用应用程序接口(API)与本地托管的应用106通信。
消息收发客户端104能够经由网络112与其他消息收发客户端104和消息收发服务器系统108通信并交换数据。在消息收发客户端104之间以及在消息收发客户端104与消息收发服务器系统108之间交换的数据包括功能(例如,用于激活功能的命令)以及有效载荷数据(例如,文本、音频、视频或其他多媒体数据)。
消息收发服务器系统108经由网络112向特定消息收发客户端104提供服务器侧功能。虽然消息收发系统100的某些功能在本文中被描述为由消息收发客户端104或由消息收发服务器系统108执行,但是某些功能的定位是在消息收发客户端104内还是在消息收发服务器系统108内可以是设计选择。例如,在技术上可能优选是:最初将某些技术和功能部署在消息收发服务器系统108内,但是后面将该技术和功能迁移至客户端设备102具有足够处理能力的消息收发客户端104。
消息收发服务器系统108支持向消息收发客户端104提供的各种服务和操作。这样的操作包括向消息收发客户端104发送数据、从消息收发客户端104接收数据以及对由消息收发客户端104生成的数据进行处理。作为示例,该数据可以包括消息内容、客户端设备信息、地理位置信息、媒体增强和叠加、消息内容持久化条件、社交网络信息和实况事件信息。通过经由消息收发客户端104的用户界面(UI)可用的功能来激活和控制消息收发系统100内的数据交换。
现在具体地转至消息收发服务器系统108,应用程序接口(API)服务器116耦接至应用服务器114并向应用服务器114提供编程接口。应用服务器114通信地耦接至数据库服务器120,该数据库服务器120促进对数据库126的访问,该数据库126存储与通过应用服务器114处理的消息相关联的数据。类似地,web服务器128耦接至应用服务器114,并且向应用服务器114提供基于web的接口。为此,web服务器128通过超文本传输协议(HTTP)和若干其他相关协议处理传入的网络请求。
应用程序接口(API)服务器116在客户端设备102与应用服务器114之间接收和发送消息数据(例如,命令和消息有效载荷)。具体地,应用程序接口(API)服务器116提供一组接口(例如,例程和协议),该组接口可以被消息收发客户端104调用或查询以激活应用服务器114的功能。应用程序接口(API)服务器116显露由应用服务器114支持的各种功能,包括:账户注册;登录功能;经由应用服务器114将消息从特定消息收发客户端104发送至另一消息收发客户端104;将媒体文件(例如,图像或视频)从消息收发客户端104发送至消息收发服务器118并用于另一消息收发客户端104的可能访问;媒体数据的集合(例如,故事)的设置;检索客户端设备102的用户的朋友的列表;检索这样的集合;检索消息和内容;在实体图(例如,社交图)中添加和删除实体(例如,朋友);在社交图内定位朋友;以及打开应用事件(例如,与消息收发客户端104有关)。
应用服务器114托管多个服务器应用和子系统,包括例如消息收发服务器118、图像处理服务器122和社交网络服务器124。消息收发服务器118实现多个消息处理技术和功能,特别是与从消息收发客户端104的多个实例接收到的消息中包括的内容(例如,文本和多媒体内容)的聚合和其他处理有关的消息处理技术和功能。如将进一步详细描述的,来自多个源的文本和媒体内容可以被聚合成内容的集合(例如,称为故事或库(gallery))。然后,使这些集合对消息收发客户端104可用。鉴于其他处理器和存储器密集型数据处理的硬件要求,也可以由消息收发服务器118在服务器侧执行这样的处理。
应用服务器114还包括图像处理服务器122,该图像处理服务器122专用于执行各种图像处理操作,通常相对于在从消息收发服务器118发送或者在消息收发服务器118处接收的消息的有效载荷内的图像或视频执行各种图像处理操作。
社交网络服务器124支持各种社交联网功能和服务并使这些功能和服务对消息收发服务器118可用。为此,社交网络服务器124维护并且访问数据库126内的实体图308(如图3中所示)。由社交网络服务器124支持的功能和服务的示例包括识别消息收发系统100的与特定用户有关系或该特定用户正在“关注”的其他用户,以及还包括识别特定用户的兴趣和其他实体。
返回到消息收发客户端104,外部资源(例如,应用106或小程序)的特征和功能经由消息收发客户端104的接口对用户可用。在该上下文中,“外部”是指应用106或小程序在消息收发客户端104外部的事实。外部资源通常由第三方提供,但是也可以由消息收发客户端104的创建者或提供者提供。消息收发客户端104接收对启动或访问这样的外部源的特征的选项的用户选择。外部资源可以是安装在客户端设备102上的应用106(例如,“原生app”),或者是托管在客户端设备102上或远离客户端设备102(例如,在第三方服务器110上)的应用的小规模版本(例如,“小程序”)。应用的小规模版本包括应用(例如,应用的全规模、原生版本)的特征和功能的子集,并且使用标记语言文档来实现。在一个示例中,应用的小规模版本(例如,“小程序”)是应用的基于web的标记语言版本,并且被嵌入在消息收发客户端104中。除了使用标记语言文档(例如,*ml文件)之外,小程序可以包括脚本语言(例如,.*js文件或.json文件)和样式表(例如,*ss文件)。
响应于接收到对启动或访问外部资源的特征的选项的用户选择,消息收发客户端104确定所选择的外部资源是基于web的外部资源还是本地安装的应用106。在一些情况下,本地安装在客户端设备102上的应用106可以例如通过在客户端设备102的主页画面上选择与应用106对应的图标而独立于消息收发客户端104并且与消息收发客户端104分开启动。可以经由消息收发客户端104启动或访问这样的应用的小规模版本,并且在一些示例中,小规模应用的任何部分都不能(或者有限部分才能)在消息收发客户端104之外被访问。可以由消息收发客户端104例如从第三方服务器110接收与小规模应用相关联的标记语言文档并处理这样的文档来启动小规模应用。
响应于确定外部资源是本地安装的应用106,消息收发客户端104指示客户端设备102通过执行与外部资源对应的本地存储的代码来启动外部资源。响应于确定外部资源是基于web的资源,消息收发客户端104与(例如)第三方服务器110通信以获得与所选择的外部资源对应的标记语言文档。然后消息收发客户端104处理所获得的标记语言文档以在消息收发客户端104的用户界面内呈现基于web的外部资源。
消息收发客户端104可以向客户端设备102的用户或与这样的用户有关的其他用户(例如,“朋友”)通知一个或更多个外部资源中发生的活动。例如,消息收发客户端104可以向消息收发客户端104中的对话(例如,聊天会话)的参与者提供与一组用户中的一个或更多个成员当前或最近使用外部资源有关的通知。可以邀请一个或更多个用户加入活跃的外部资源或者启动(在朋友群组中)最近使用过但当前不活跃的外部资源。外部资源可以向对话的各自使用相应的消息收发客户端104的参与者提供与一组用户中的一个或更多个成员将外部资源中的项、状况、状态或位置共享到聊天会话中的能力。共享项可以是交互式聊天卡,聊天的成员可以利用该交互式聊天卡进行交互,例如,以用于启动对应的外部资源、查看外部资源内的特定信息或将聊天的成员带到外部资源内的特定位置或状态。在给定的外部资源内,可以向消息收发客户端104上的用户发送响应消息。外部资源可以基于外部资源的当前上下文将不同的媒体项选择性地包括在响应中。
消息收发客户端104可以向用户呈现可用外部资源(例如,应用106或小程序)的列表以启动或访问给定的外部资源。该列表可以被呈现在上下文敏感菜单中。例如,表示应用106(或小程序)的不同应用(或小程序)的图标可以基于用户如何启动菜单(例如,从对话界面进行或从非对话界面进行)而变化。
系统架构
图2是示出根据一些示例的关于消息收发系统100的其他细节的框图。具体地,消息收发系统100被示为包括消息收发客户端104和应用服务器114。消息收发系统100包含多个子系统,这些子系统在客户端侧由消息收发客户端104支持并且在服务器侧由应用服务器114支持。这些子系统包括例如短暂定时器系统202、集合管理系统204、增强系统208、地图系统210、游戏系统212、以及外部资源系统214。
短暂定时器系统202负责实施消息收发客户端104和消息收发服务器118对内容的临时或时间受限访问。短暂定时器系统202包含若干定时器,这些定时器基于与消息或消息的集合(例如,故事)相关联的持续时间和显示参数,选择性地实现经由消息收发客户端104对消息和相关联的内容进行访问(例如,用于呈现和显示)。下面提供关于短暂定时器系统202的操作的其他细节。
集合管理系统204负责管理媒体的集或集合(例如,文本、图像、视频和音频数据的集合)。内容(例如,消息,包括图像、视频、文本和音频)的集合可以被组织成“事件库”或“事件故事”。可以使这样的集合在指定时间段(例如,与内容有关的事件的持续时间)内可用。例如,可以使与音乐会有关的内容在该音乐会的持续时间内作为“故事”可用。集合管理系统204还可以负责向消息收发客户端104的用户界面发布提供特定集合的存在的通知的图标。
此外,集合管理系统204还包括策展接口206,该策展接口206允许集合管理者管理和策展特定内容集合。例如,策展接口206使得事件组织者能够策展与特定事件相关的内容的集合(例如,删除不适当的内容或冗余消息)。此外,集合管理系统204采用机器视觉(或图像识别技术)和内容规则来自动地策展内容集合。在某些示例中,可以为将用户生成的内容包括到集合中而向用户支付补偿。在这样的情况下,集合管理系统204进行操作以自动地向这样的用户进行支付以使用其内容。
增强系统208提供使得用户能够增强(例如,注解或以其他方式修改或编辑)与消息相关联的媒体内容的各种功能。例如,增强系统208提供与生成和发布用于由消息收发系统100处理的消息的媒体叠加有关的功能。增强系统208基于客户端设备102的地理位置可操作地向消息收发客户端104提供媒体叠加或增强(例如,图像过滤器)。在另一示例中,增强系统208基于诸如客户端设备102的用户的社交网络信息的其他信息可操作地向消息收发客户端104提供媒体叠加。媒体叠加可以包括音频和视觉内容以及视觉效果。音频和视觉内容的示例包括图片、文本、徽标、动画和声音效果。视觉效果的示例包括颜色叠加。音频和视觉内容或视觉效果可以应用于客户端设备102处的媒体内容项(例如,照片)。例如,媒体叠加可以包括可以叠加在由客户端设备102拍摄的照片之上的文本或图像。在另一示例中,媒体叠加包括位置标识叠加(例如,威尼斯海滩)、实况事件的名称或商家名称叠加(例如,海滩咖啡馆)。在另一示例中,增强系统208使用客户端设备102的地理位置来识别包括客户端设备102的地理位置处的商家名称的媒体叠加。媒体叠加可以包括与商家相关联的其他标志。媒体叠加可以存储在数据库126中并且通过数据库服务器120进行访问。
在一些示例中,增强系统208提供基于用户的发布平台,该基于用户的发布平台使得用户能够选择地图上的地理位置,并且上传与选择的地理位置相关联的内容。用户还可以指定特定媒体叠加应当被提供给其他用户的情况。增强系统208生成包括所上传的内容并将所上传的内容与所选择的地理位置相关联的媒体叠加。
在其他示例中,增强系统208提供基于商家的发布平台,该基于商家的发布平台使得商家能够经由竞标过程选择与地理位置相关联的特定媒体叠加。例如,增强系统208使最高出价商家的媒体叠加与对应地理位置相关联达预定义时间量。
地图系统210提供各种地理位置功能,并且支持由消息收发客户端104呈现基于地图的媒体内容和消息。例如,地图系统210使得能够在地图上显示(例如,存储在简档数据316中的)用户图标或化身,以指示用户的“朋友”的当前位置或过去位置,以及由这样的朋友在地图的上下文内生成的媒体内容(例如,包括照片和视频的消息的集合)。例如,可以在消息收发客户端104的地图界面上将用户从特定地理位置发布到消息收发系统100的消息在该特殊位置的地图的上下文内显示给特定用户的“朋友”。用户还可以经由消息收发客户端104与消息收发系统100的其他用户(例如,使用适当的状况化身)分享他或她的位置和状况信息,其中,在消息收发客户端104的地图界面的上下文内将该位置和状况信息类似地显示给选择的用户。
游戏系统212在消息收发客户端104的上下文中提供各种游戏功能。消息收发客户端104提供游戏界面,该游戏界面提供可用游戏的列表,所述游戏可以由用户在消息收发客户端104的上下文内启动并与消息收发系统100的其他用户一起玩。消息收发系统100还使特定用户能够通过从消息收发客户端104向其他用户发出邀请来邀请这样的其他用户参与玩特定游戏。消息收发客户端104还支持玩游戏上下文内的语音和文本消息两者(例如,聊天),为游戏提供排行榜,并且还支持提供游戏内奖励(例如,游戏币和物品)。
外部资源系统214为消息收发客户端104提供接口以与远程服务器(例如,第三方服务器110)通信以启动或访问外部资源(即,应用或小程序)。每个第三方服务器110托管例如基于标记语言(例如,HTML5)的应用或应用的小规模版本(例如,游戏应用、实用程序应用、支付应用或共乘应用)。消息收发客户端104可以通过从与基于web的资源相关联的第三方服务器110访问HTML5文件来启动基于web的资源(例如,应用)。在某些示例中,利用由消息收发服务器118提供的软件开发工具包(SDK)以JavaScript对由第三方服务器110托管的应用进行编程。SDK包括应用编程接口(API),该API具有可以由基于web的应用调用或激活的功能。在某些示例中,消息收发服务器118包括JavaScript库,该JavaScript库提供对消息收发客户端104的某些用户数据的给定外部资源访问。HTML5被用作用于对游戏进行编程的示例技术,但是可以使用基于其他技术编程的应用和资源。
为了将SDK的功能集成到基于web的资源中,SDK由第三方服务器110从消息收发服务器118下载,或者由第三方服务器110以其他方式接收。一旦被下载或接收,SDK就将被包括作为基于web的外部资源的应用代码的一部分。然后,基于web的资源的代码可以调用或激活SDK的某些功能以将消息收发客户端104的特征集成到基于web的资源内。
存储在消息收发服务器118上的SDK有效地提供外部资源(例如,应用106或小程序)与消息收发客户端104之间的桥接。这为用户提供了在消息收发客户端104上与其他用户通信的无缝体验,同时还保留了消息收发客户端104的外观和感觉。为了桥接外部资源与消息收发客户端104之间的通信,在某些示例中,SDK有助于第三方服务器110与消息收发客户端104之间的通信。在某些示例中,在客户端设备102上运行的WebViewJavaScriptBridge在外部资源与消息收发客户端104之间建立两个单向通信通道。在外部资源与消息收发客户端104之间经由这些通信通道异步地发送消息。每个SDK功能激活被作为消息和回调来发送。每个SDK功能通过构造唯一的回调标识符并发送具有该回调标识符的消息来实现。
通过使用SDK,并非来自消息收发客户端104的所有信息都与第三方服务器110共享。SDK基于外部资源的需求来限制共享哪些信息。在某些示例中,每个第三方服务器110向消息收发服务器118提供对应于基于web的外部资源的HTML5文件。消息收发服务器118可以在消息收发客户端104中添加基于web的外部资源的视觉表示(例如,盒设计(box art)或其他图形)。一旦用户通过消息收发客户端104的GUI选择该视觉表示或指示消息收发客户端104访问基于web的外部资源的特征,消息收发客户端104就获得HTML5文件并且使访问基于web的外部资源的特征所需的资源实例化。
消息收发客户端104呈现用于外部资源的图形用户界面(例如,登录页面或标题画面)。在呈现登录页面或标题画面期间、之前或之后,消息收发客户端104确定所启动的外部资源是否先前已被授权访问消息收发客户端104的用户数据。响应于确定所启动的外部资源先前已被授权访问消息收发客户端104的用户数据,消息收发客户端104呈现包括外部资源的功能和特征的外部资源的另一图形用户界面。响应于确定所启动的外部资源先前未被授权访问消息收发客户端104的用户数据,在显示外部资源的登录页面或标题画面的阈值时间段(例如,3秒)之后,消息收发客户端104向上滑动菜单(例如,将菜单动画化为从画面底部浮现到画面中间或其他部分)以用于授权外部资源访问用户数据。该菜单标识外部资源将被授权进行使用的用户数据的类型。响应于接收到对接受选项的用户选择,消息收发客户端104将外部资源添加到授权的外部资源的列表中,并且使得外部资源能够访问来自消息收发客户端104的用户数据。在一些示例中,消息收发客户端104根据OAuth 2框架来授权外部资源访问用户数据。
消息收发客户端104基于被授权的外部资源的类型来控制与外部资源共享的用户数据的类型。例如,包括全规模的应用(例如,应用106)的外部资源被提供有对第一类型的用户数据(例如,具有或不具有不同化身特性的用户的仅二维化身)的访问权。作为另一示例,向包括应用的小规模版本(例如,应用的基于web的版本)的外部资源提供对第二类型的用户数据(例如,支付信息、用户的二维化身、用户的三维化身、以及具有各种化身特性的化身)的访问。化身特性包括定制化身的外观和感觉(例如不同的姿势、面部特征、服装等)的不同方式。
数据架构
图3是示出根据某些示例的可以存储在消息收发服务器系统108的数据库126中的数据结构300的示意图。虽然数据库126的内容被示为包括若干表,但是将认识到,数据可以存储在其他类型的数据结构(例如,面向对象的数据库)中。
数据库126包括存储在消息表302内的消息数据。对于任何特定的一个消息,该消息数据至少包括消息发送方数据、消息接收方(或接收者)数据和有效载荷。下面参照图4描述关于可以被包括在消息中并且被包括在存储在消息表302中的消息数据内的信息的进一步的细节。
实体表306存储实体数据,并且(例如,参考地)链接至实体图308和简档数据316。其记录被维护在实体表306内的实体可以包括个人、公司实体、组织、对象、地点、事件等。无论实体类型如何,消息收发服务器系统108存储关于其的数据的任何实体可以是识别的实体。为每个实体提供唯一的标识符以及实体类型标识符(未示出)。
实体图308存储关于实体之间的关系和关联的信息。仅作为示例,这样的关系可以是社交的、职业的(例如,在共同的公司或组织工作)、基于兴趣的、或基于活动的。
简档数据316存储关于特定实体的多种类型的简档数据。基于由特定实体指定的隐私设置,简档数据316可以被选择性地使用并呈现给消息收发系统100的其他用户。在实体是个人的情况下,简档数据316包括例如用户名、电话号码、地址、设置(例如,通知和私密设置)、以及用户选择的化身表示(或这样的化身表示的集合)。然后,特定用户可以将这些化身表示中的一个或更多个化身表示选择性地包括在经由消息收发系统100传送的消息的内容内以及包括在由消息收发客户端104向其他用户显示的地图界面上。化身表示的集合可以包括“状态化身”,其呈现用户可以选择以在特定时间进行通信的状态或活动的图形表示。
在实体是团体的情况下,除了团体名称、成员和相关团体的各种设置(例如,通知)之外,团体的简档数据316还可以类似地包括与团体相关联的一个或更多个化身表示。
数据库126还在增强表310中存储增强数据,例如叠加或过滤器。增强数据与视频(视频的数据存储在视频表304中)和图像(图像的数据存储在图像表312中)相关联并且应用于视频和图像。
在一个示例中,过滤器是在向接收方用户呈现期间显示为叠加在图像或视频上的叠加。过滤器可以是各种类型的,包括当发送用户正在编写消息时从由消息收发客户端104呈现给发送用户的一组过滤器中用户选择的过滤器。其他类型的过滤器包括地理位置过滤器(也称为地理过滤器),其可以基于地理位置被呈现给发送用户。例如,可以基于由客户端设备102的全球定位系统(GPS)单元确定的地理位置信息,由消息收发客户端104在用户界面内呈现特定于附近或特殊位置的地理位置过滤器。
另一类型的过滤器是数据过滤器,其可以由消息客户端104基于在消息创建过程期间由客户端设备102收集的其他输入或信息选择性地呈现给发送用户。数据过滤器的示例包括特定位置处的当前温度、发送用户出行的当前速度、客户端设备102的电池寿命或当前时间。
可以存储在图像表312内的其他增强数据包括增强现实内容项(例如,对应于应用镜头(Lens)或增强现实体验)。增强现实内容项可以是可以被添加至图像或视频的实时特殊效果和/或声音。
如上所述,增强数据包括增强现实内容项、叠加、图像变换、AR图像,以及涉及可以应用于图像数据(例如,视频或图像)的修改的类似项。这包括实时修改,其在使用客户端设备102的设备传感器(例如,一个或多个摄像装置)捕获图像时对图像进行修改并且然后在客户端设备102的屏幕上显示具有所述修改的图像。这还包括对存储的内容(例如,库中的可以被修改的视频片段)的修改。例如,在访问多个增强现实内容项的客户端设备102中,用户可以将单个视频片段与多个增强现实内容项一起使用来查看不同的增强现实内容项将如何修改存储的片段。例如,通过为内容选择不同的增强现实内容项,可以将应用不同伪随机移动模型的多个增强现实内容项应用于相同的内容。类似地,实时视频捕获可以与所示出的修改一起使用,以示出当前由客户端设备102的传感器捕获的视频图像将如何修改所捕获的数据。这样的数据可以简单地显示在屏幕上而不存储在存储器中,或者由设备传感器捕获的内容可以在进行或不进行修改(或两者)的情况下被记录并被存储在存储器中。在一些系统中,预览特征可以同时示出不同的增强现实内容项在显示器中的不同窗口内看起来如何。这可以例如使得能够同时在显示器上查看具有不同伪随机动画的多个窗口。
因此,使用增强现实内容项的数据和各种系统或使用该数据修改内容的其他这样的变换系统可以涉及视频帧中对象(例如,面部、手、身体、猫、狗、表面、对象等)的检测,在这些对象离开视场、进入视场以及在视场四处移动时对这样的对象的跟踪,以及在跟踪这些对象时对这样的对象的修改或变换。在各种示例中,可以使用用于实现这样的变换的不同的方法。一些示例可以涉及:生成一个或多个对象的三维网格模型;以及在视频内使用模型的变换和动画纹理来实现变换。在其他示例中,可以使用对对象上的点的跟踪来将图像或纹理(可以是二维或三维的)放置在所跟踪的位置处。在更进一步的示例中,可以使用视频帧的神经网络分析来将图像、模型或纹理放置在内容(例如,图像或视频帧)中。因此,增强现实内容项既指代用于在内容中创建变换的图像、模型和纹理,又指代利用对象检测、跟踪和放置来实现这样的变换所需的附加建模和分析信息。
可以利用保存在任何种类的计算机化系统的存储器中的任何种类的视频数据(例如,视频流、视频文件等)来执行实时视频处理。例如,用户可以加载视频文件并将它们保存在设备的存储器中,或者可以使用设备的传感器来生成视频流。此外,可以使用计算机动画模型来处理任何对象,例如人的面部和人体部位、动物或非生命事物(例如,椅子、汽车或其他对象)。
在一些示例中,当连同要变换的内容一起选择特定修改时,要变换的元素由计算设备标识,并且然后如果要变换的元素存在于视频的帧中,则检测和跟踪要变换的元素。根据针对修改的请求来修改对象的元素,从而变换视频流的帧。可以通过用于不同类型的变换的不同方法来执行视频流的帧的变换。例如,对于主要是指改变对象的元素的形式的帧的变换,计算对象的每个元素的特征点(例如,使用主动形状模型(ASM)或其他已知方法)。然后,针对对象的至少一个元素中的每一个,生成基于特征点的网格。该网格用于在视频流中跟踪对象的各元素的后续阶段。在跟踪的过程中,所提及的针对每个元素的网格与每个元素的位置对准。然后,在网格上生成附加点。基于对修改的请求针对每个元素生成第一组第一点,并且基于该组第一点和对修改的请求针对每个元素生成一组第二点。然后,可以通过基于该组第一点和该组第二点以及网格修改对象的元素来变换视频流的帧。在这样的方法中,也可以通过跟踪和修改所修改对象的背景来使所修改对象的背景改变或扭曲。
在一些示例中,可以通过计算针对对象的每个元素的特征点并基于所计算的特征点生成网格来执行使用对象的元素改变对象的一些区域的变换。在网格上生成点,然后生成基于这些点的各种区域。然后,通过将针对每个元素的区域与针对至少一个元素中的每一个的位置对准来跟踪对象的元素,并且可以基于修改的请求来修改区域的性质,从而变换视频流的帧。取决于具体的修改请求,可以以不同的方式来变换所提及的区域的性质。这样的修改可以涉及:改变区域的颜色;从视频流的帧中移除区域的至少一些部分;将一个或更多个新对象包括在基于修改的请求的区域中;以及对区域或对象的元素进行修改或使其发生扭曲。在各种示例中,可以使用这样的修改或其他类似修改的任何组合。对于要被动画化的某些模型,可以选择一些特征点作为控制点以用于确定针对模型动画的选项的整个状态空间。
在使用面部检测来变换图像数据的计算机动画模型的一些示例中,使用特定的面部检测算法(例如,Viola-Jones)在图像上检测面部。然后,将主动形状模型(ASM)算法应用于图像的面部区域以检测面部特征参考点。
可以使用其他适合面部检测的方法和算法。例如,在一些示例中,使用界标来定位特征,该界标表示在所考虑的大多数图像中存在的可区分点。例如,对于面部界标,可以使用左眼瞳孔的位置。如果初始界标不可识别(例如,如果人具有眼罩),则可以使用次级界标。这样的界标标识过程可以被用于任何这样的对象。在一些示例中,一组界标形成形状。可以使用形状中的点的坐标来将形状表示为矢量。利用使形状点之间的平均欧几里德距离最小化的相似性变换(允许平移、缩放和旋转)将一个形状与另一形状对准。平均形状是经对准的训练形状的平均。
在一些示例中,从与由全局面部检测器确定的面部的位置和大小对准的平均形状开始搜索界标。然后,这样的搜索重复以下步骤:通过每个点周围的图像纹理的模板匹配来调整形状点的位置而建议暂定形状,然后使暂定形状符合全局形状模型,直至发生收敛。在一些系统中,个体模板匹配是不可靠的,并且形状模型将弱模板匹配的结果进行池化,以形成更强的整体分类器。整个搜索在从粗分辨率到细分辨率的图像金字塔的每个级别上重复。
变换系统可以在客户端设备(例如,客户端设备102)上捕获图像或视频流,并在客户端设备102上本地执行复杂的图像操纵,同时保持适当的用户体验、计算时间和功耗。复杂的图像操纵可以包括大小和形状改变、情感变换(例如,将面部从皱眉改变为微笑)、状态变换(例如,使主体变老、减小外表年龄、改变性别)、风格变换、图形元素应用以及由已经被配置成在客户端设备102上有效执行的卷积神经网络实现的任何其他合适的图像或视频操纵。
在一些示例中,用于变换图像数据的计算机动画模型可以由系统使用,在该系统中,用户可以使用具有神经网络的客户端设备102来捕获用户的图像或视频流(例如,自拍),该神经网络操作为在客户端设备102上操作的消息收发客户端104的一部分。在消息收发客户端104内操作的变换系统确定图像或视频流内的面部的存在,并且提供与计算机动画模型相关联的修改图标以变换图像数据,或者计算机动画模型可以被呈现为与本文中描述的界面相关联。修改图标包括可以作为修改操作的一部分在图像或视频流内修改用户面部的基础的变化。一旦选择了修改图标,则变换系统发起将用户的图像转换以反映所选择的修改图标(例如,在用户上生成笑脸)的过程。一旦捕获了图像或视频流并且选择了指定的修改,就可以在客户端设备102上显示的图形用户界面中呈现经修改的图像或视频流。变换系统可以在图像或视频流的一部分上实现复杂的卷积神经网络,以生成和应用选择的修改。也就是说,用户可以捕获图像或视频流,并且一旦已经选择了修改图标,就可以实时或接近实时地呈现经修改的结果。此外,当正在捕获视频流时,修改可以是持续的,并且选择的修改图标保持被切换。机器教导的神经网络可以用于实现这样的修改。
呈现由变换系统执行的修改的图形用户界面可以向用户提供附加的交互选项。这样的选项可以基于用于发起内容捕获以及对特定计算机动画模型的选择的界面(例如,从内容创建者用户界面发起)。在各种示例中,在对修改图标的最初选择之后,修改可以是持续的。用户可以通过轻击或以其他方式选择正由变换系统修改的面部来切换以开启或关闭修改,并对其进行存储以供稍后观看或浏览成像应用的其他区域。在由变换系统修改多个面部的情况下,用户可以通过轻击或选择在图形用户界面内修改和显示的单个面部来全局地切换以开启或关闭修改。在一些示例中,可以单独修改一组多个面部中的各个面部,或者可以通过轻击或选择图形用户界面内显示的单独面部或一系列面部来单独切换这样的修改。
故事表314存储关于消息的集合的数据以及相关联的图像、视频或音频数据,这些数据被汇编成集合(例如,故事或库)。特定集合的创建可以由特定用户(例如,其记录被维护在实体表306中的每个用户)发起。用户能够以已由该用户创建和发送/广播的内容的集合的形式创建“个人故事”。为此,消息收发客户端104的用户界面可以包括用户可选择的图标,以使得发送用户能够将特定内容添加到他或她的个人故事。
集合还可以构成作为来自多个用户的内容的集合的“实况故事”,其是手动地、自动地或者使用手动技术和自动技术的组合创建的。例如,“实况故事”可以构成来自各种位置和事件的用户提交内容的策展流。其客户端设备启用了位置服务并且在特定时间处于共同位置事件处的用户可以例如经由消息收发客户端104的用户界面被呈现有将内容贡献给特定实况故事的选项。可以由消息收发客户端104基于他或她的位置向用户标识实况故事。最终结果是从社群角度讲述的“实况故事”。
另一类型的内容集合被称为“位置故事”,“位置故事”使得其客户端设备102位于特定地理位置(例如,在学院或大学校园)内的用户能够对特定集合做出贡献。在一些示例中,对位置故事的贡献可能需要二级认证,以验证最终用户属于特定的组织或其他实体(例如,是大学校园的学生)。
如以上提及的,视频表304存储视频数据,在一个示例中,该视频数据与其记录在消息表302内维护的消息相关联。类似地,图像表312存储与其消息数据在实体表306中存储的消息相关联的图像数据。实体表306可以使来自增强表310的各种增强与存储在图像表312和视频表304中的各种图像和视频相关联。
数据通信架构
图4是示出根据一些示例的消息400的结构的示意图,该消息400由消息收发客户端104生成,以传送至另外的消息收发客户端104或消息收发服务器118。特定消息400的内容用于填充存储在数据库126内、可由消息收发服务器118访问的消息表302。类似地,消息400的内容被存储在存储器中作为客户端设备102或应用服务器114的“传输中”或“飞行中”数据。消息400被示为包括以下示例组成部分:
·消息标识符402:标识消息400的唯一标识符。
·消息文本有效载荷404:要由用户经由客户端设备102的用户界面生成并且包括在消息400中的文本。
·消息图像有效载荷406:由客户端设备102的摄像装置部件捕获的或从客户端设备102的存储器部件检索到的并且包括在消息400中的图像数据。用于发送或接收的消息400的图像数据可以存储在图像表312中。
·消息视频有效载荷408:由摄像装置部件捕获的或从客户端设备102的存储器部件检索到的并且包括在消息400中的视频数据。用于发送或接收的消息400的视频数据可以存储在视频表304中。
·消息音频有效载荷410:由麦克风捕获的或从客户端设备102的存储器部件检索到的并且包括在消息400中的音频数据。
·消息增强数据412:表示要应用于消息400的消息图像有效载荷406、消息视频有效载荷408或消息音频有效载荷410的增强的增强数据(例如,过滤器、贴纸或其他标注或增强)。针对发送或接收的消息400的增强数据可以被存储在增强表310中。
·消息持续时间参数414:以秒为单位指示消息的内容(例如,消息图像有效载荷406、消息视频有效载荷408、消息音频有效载荷410)将经由消息收发客户端104呈现给用户或使其对于用户可访问的时间量的参数值。
·消息地理位置参数416:与消息的内容有效载荷相关联的地理位置数据(例如,纬度坐标和经度坐标)。在有效载荷中可以包括多个消息地理位置参数416值,这些参数值中的每一个与内容中包括的内容项(例如,消息图像有效载荷406内的特定图像,或消息视频有效载荷408中的特定视频)相关联。
·消息故事标识符418:标识与消息400的消息图像有效载荷406中的特定内容项相关联的一个或更多个内容集合(例如,故事表314中标识的“故事”)的标识符值。例如,消息图像有效载荷406内的多个图像可以各自使用标识符值与多个内容集合相关联。
·消息标签420:每个消息400可以用多个标签来标记,所述多个标签中的每一个指示消息有效载荷中包括的内容的主题。例如,在消息图像有效载荷406中包括的特定图像描绘动物(例如,狮子)的情况下,标签值可以被包括在指示相关动物的消息标签420内。标签值可以基于用户输入手动生成,或者可以使用例如图像识别自动生成。
·消息发送者标识符422:指示在其上生成消息400并且从其发送消息400的客户端设备102的用户的标识符(例如,消息收发系统标识符、电子邮件地址或设备标识符)。
·消息接收者标识符424:指示消息400寻址到的客户端设备102的用户的标识符(例如,消息系统标识符、电子邮件地址或设备标识符)。
消息400的各个组成部分的内容(例如,值)可以是指向表中的在其内存储内容数据值的位置的指针。例如,消息图像有效载荷406中的图像值可以是指向图像表312内的位置的指针(或是图像表312内的位置的地址)。类似地,消息视频有效载荷408内的值可以指向存储在视频表304内的数据,存储在消息增强412内的值可以指向存储在增强表310中的数据,存储在消息故事标识符418内的值可以指向存储在故事表314中的数据,并且存储在消息发送者标识符422和消息接收者标识符424内的值可以指向存储在实体表306内的用户记录。
图5描绘了根据一些示例的示例用户界面处理的顺序图。在该处理期间,用户界面引擎504生成包括构成用户界面的交互元素的一个或更多个虚拟对象的用户界面510。虚拟对象可以被描述为具有X(水平)、Y(垂直)和Z(深度)的3元组中的值的3D几何形状中的实体。生成用户界面的渲染并将渲染数据512传送至图形引擎506并且向用户显示516。用户界面引擎504生成一个或更多个虚拟对象514或生成用于一个或更多个虚拟对象的虚拟对象碰撞器。至少一个摄像装置502生成518由用户查看的真实世界的真实世界视频帧数据520。真实世界视频帧数据520中包括由图形引擎506渲染的用户界面内的用户的手中的一个或更多个手的手部位置视频帧数据。因此,真实世界视频帧数据520包括当用户用他们的手做动作时用户的手的手部位置视频帧数据和手部姿态视频帧数据。
如本文所提到的,碰撞器(例如,虚拟对象碰撞器)是指可以附接于虚拟对象的特定区域以使得能够跟踪碰撞器的位置,并检测碰撞器与另一虚拟对象之间何时发生碰撞(例如,碰撞器何时与另一虚拟对象相交)的软件构造。在示例中,当第二虚拟对象与碰撞器附接时,可以基于确定第一对象的第一碰撞器已经与第二虚拟对象的碰撞器相交来检测碰撞事件。如本文进一步讨论的,响应于检测到碰撞事件,用户界面引擎504可以向特定应用(例如,应用508)发送包括这样的碰撞事件的用户交互数据,以使得该应用能够以特定方式进行响应(例如,执行功能或操作等)。
用户界面引擎504利用真实世界视频帧数据520中的手部位置视频帧数据和手部姿态视频帧数据,以从真实世界视频帧数据520中提取用户的手的界标522,并针对用户的手中的一个或更多个手上的一个或更多个界标生成界标碰撞器524。界标碰撞器用于通过检测界标碰撞器与虚拟对象的相应虚拟对象碰撞器之间的碰撞526来确定用户与虚拟对象之间的用户交互。通过用户界面引擎504使用碰撞来确定用户与虚拟对象的用户交互528。用户界面引擎504将用户交互的用户交互数据530传送至应用508以由应用508利用。
在一些示例中,应用508通过利用各种API和系统库来执行用户界面引擎504的功能以接收和处理真实世界视频帧数据520,并指示图形引擎506执行特定的一个或多个操作。
尽管上述描述涉及应用508,但应理解,在一些实施方式中,消息收发客户端104、应用106或应用608(下面讨论)可以执行与应用508相同的操作。
图6描绘了根据一些示例的示例用户界面处理的顺序图。至少一个摄像装置604生成602由用户查看的真实世界的真实世界视频帧数据610。在示例中,可以由诸如客户端设备102的特定客户端设备提供至少一个摄像装置604。真实世界视频帧数据610中包括用户的手中的一个或更多个手的手部位置视频帧数据。因此,真实世界视频帧数据610包括当用户用他们的手做动作时用户的手的手部位置视频帧数据和手部姿态视频帧数据。姿势意图识别引擎606利用真实世界视频帧数据610中的手部位置视频帧数据和手部姿态视频帧数据来生成612包括指示由用户正在做的一个或更多个手部姿势的手部姿势分类信息的手部姿势数据614。姿势意图识别引擎606将手部姿势数据614传送至利用手部姿势数据614作为来自用户界面的输入的应用608。
在一些示例中,应用608通过利用各种API和系统库执行姿势意图识别引擎606的功能以接收和处理来自至少一个摄像装置604的真实世界视频帧数据610来确定手部姿势数据614。
尽管上述描述涉及应用608,但应理解,在一些实施方式中,消息收发客户端104、应用106或程序508可以执行与应用608相同的操作。
此外,应理解,上面在图5中讨论的用户界面引擎504和图形引擎506可以处理手部姿势数据614以执行上面在图5中讨论的类似操作。例如,用户界面引擎504可以至少部分地基于手部姿势数据614来生成用于用户界面的渲染数据,并且图形引擎506可以使用生成的渲染数据来渲染这样的用户界面以用于显示。
图7A示出了根据各种实施方式的示例界面。可以提供示例界面以用于诸如通过消息收发客户端104、应用106、应用608的界面在客户端设备(例如,客户端设备102)上显示。
如所示,界面702包括由摄像装置604捕获的真实世界的真实世界视频帧数据。真实世界视频帧数据包括渲染的界面702内的用户的手中的一个或更多个手,以及还包括当用户用他们的手做动作时用户的手的手部位置视频帧数据和手部姿态视频帧数据。
如前面讨论的,姿势意图识别引擎606利用真实世界视频帧数据中的手部姿态视频帧数据和手部位置视频帧数据来生成包括指示由用户正在做的一个或更多个手部姿势的手部姿势分类信息的手部姿势数据。在实施中,姿势意图识别引擎606将手部姿势数据传送至利用手部姿势数据作为来自用户界面的输入的应用。
图7B示出了根据各种实施方式的示例界面。可以提供示例界面以用于诸如通过消息收发客户端104、应用106、应用608的界面在客户端设备(例如,客户端设备102)上显示。在图7B的以下讨论中描述的示例是图7A的上述讨论的继续。
在图7B的示例中,姿势意图识别引擎606分析界面704中示出的真实世界视频帧数据,以定位当用户用他们的手做动作时用户的手的手部位置视频帧数据和手部姿态视频帧数据。在该示例中,姿势意图识别引擎606利用真实世界视频帧数据中的手部位置视频帧数据和手部姿态视频帧数据来生成包括指示由用户正在做的手部姿势的手部姿势分类信息的手部姿势数据,该用户正在做的手部姿势指示开始或停止摄像装置604的记录的姿势。如图7B中所示,开始或停止记录姿势706对应于用户的手已经抬起并且已经张开以示出手掌的姿势。因此,开始记录姿势对应于前述动作和姿态的第一姿势,而停止记录姿势对应于相同动作和姿态的第二姿势。
在一些示例中,用户可以执行开始/停止记录姿势以将用户的手掌定位在界面704中所示的可选图形项上。这样的可选图形项可以是诸如开始记录按钮或停止记录按钮,或者可以是指示这样的文本信息(例如,“开始”、“停止”等)的按钮的图形表示。
在实施方式中,应用608(或消息收发客户端104、应用106、应用508)在从手部姿势数据中确定开始记录姿势时启动记录,以及在从手部姿势数据中确定停止记录姿势时停止记录。以这种方式,可以提供开始或停止记录的“免提”方法,其中用户不必返回客户端设备并在客户端设备的屏幕上执行这样的动作(例如,通过触摸或轻敲姿势或输入)。
图8示出了根据各种实施方式的示例界面。可以提供示例界面以用于诸如通过消息收发客户端104、应用106、应用608的界面在客户端设备(例如,客户端设备102)上显示。
如所示,界面802提供图形项806、图形区域808、图形项810和图形项812。在该示例中,图形区域808包括对应于真实世界视频帧数据的一组帧,这一组帧以示出这些帧的时间顺序的时间轴显示。图形项806对应于在对应于图形项810的开始点与对应于图形项812的结束点之间可以修剪真实世界视频帧数据(的修剪点例如,其中,修剪点之后的帧被截断、丢弃或删除)。
如所示,界面804示出来自界面802的图形项806已经被移动至对应于图形项814的帧序列的后面。应用608可以执行修剪操作以从对应于图形项814的修剪点移除第二组帧。在实施方式中,通过应用608基于确定帧序列内对应于指示停止记录姿势的开始的帧的点以自动方式确定修剪点,并且然后将该修剪点设置成在指示停止记录姿势的开始的帧之前的阈值量。在实施方式中,帧的阈值量可以是诸如五(5)个帧的预定数量的帧,但是应当理解,可以将该数量设置成任意数量的帧。在实施方式中,用户还可以通过使用客户端设备显示界面804的屏幕上的触摸输入或姿势来调整或修改移动图形项814的定位的修剪点。
尽管上述描述涉及应用608,但应理解,在一些实施方式中,消息收发客户端104、应用106或应用508可以执行与应用608相同的操作。
图9示出了根据各种实施方式的示例界面。可以提供示例界面以用于诸如通过消息收发客户端104、应用106、应用608的界面在客户端设备(例如,客户端设备102)上显示。
图9的示例示出了用于使用2D指示器与其他虚拟对象进行交互的实施方式。
如所示,界面902示出了由摄像装置502捕获的真实世界的真实世界视频帧数据。真实世界视频帧数据包括通过图形引擎506渲染的界面902内的用户的手中的一个或更多个手,以及还包括当用户用他们的手做动作时用户的手的手部位置视频帧数据和手部姿态视频帧数据。基于在真实世界视频帧数据中用户的手指的表示的位置和姿态910,用户界面引擎504生成对应于指示器的虚拟对象912,用于与被渲染以用于在界面902中显示的其他虚拟对象进行交互。
在该示例中,用户界面引擎504使得用户能够使用虚拟对象912与包括虚拟对象914的一组其他虚拟对象进行交互。该示例中的一组其他虚拟对象以类似网格的配置布置,其中每个虚拟对象定位于相邻虚拟对象之间的空间的等距量处。在实施中,用户界面引擎504针对每个虚拟对象生成虚拟对象碰撞器。在实施中,用户界面引擎504将对应于虚拟对象912的指示器的移动限制到一个控制轴上,诸如,x轴(例如,水平的)。因此,虚拟对象912仅可以从界面902中的一组其他虚拟对象中选择一个特定的虚拟对象,例如来自如图9的示例中布置的单个“行”的虚拟对象。如所示,对应于指示器的虚拟对象912基于检测到碰撞事件已经选择了虚拟对象914,碰撞事件中虚拟对象912的第一碰撞器与虚拟对象914的第二碰撞器相交。响应于碰撞事件,用户界面引擎504可以以特定方式将虚拟对象914动画化,并使图形引擎506相应地渲染界面902。此外,用户界面引擎504向特定应用(例如,应用508)发送包括关于碰撞事件的数据的用户交互数据,其中,这样的应用可以响应于碰撞事件来执行功能或操作。
如另一示例中所示,通过图形引擎506渲染的界面904示出用户的手指的位置和姿态930已经相对于界面902改变。基于真实世界视频帧数据中用户的手指的表示的改变的位置和姿态910,用户界面引擎504将指示器从界面902中的位置和姿态移动到界面904中对应于虚拟对象932的位置和姿态。在界面904中,对应于虚拟对象932的指示器与指示碰撞的虚拟对象934交叠,以及用户界面引擎504可以响应于检测到碰撞事件来将虚拟对象934动画化。此外,用户界面引擎504向特定应用(例如,应用508)发送包括关于碰撞事件的数据的用户交互数据,其中,这样的应用可以响应于碰撞事件来执行功能或操作。
尽管上述描述涉及应用508,但应理解,在一些实施方式中,消息收发客户端104、应用106或应用608可以执行与应用508相同的操作。
图10示出了根据各种实施方式的示例界面。可以提供示例界面以用于诸如通过消息收发客户端104、应用106、应用608的界面在客户端设备(例如,客户端设备102)上显示。以下讨论的图10中的描述的示例是上述图9中讨论的继续。
图10的示例示出了用于使用3D指示器与其他虚拟对象进行互动的实施方式。
如所示,界面1002示出了由摄像装置502捕获的真实世界的真实世界视频帧数据。真实世界视频帧数据包括通过图形引擎506渲染的界面1002内的用户的手中的一个或更多个手,以及还包括当用户用他们的手做动作时用户的手的手部位置视频帧数据和手部姿态视频帧数据。基于真实世界视频帧数据中用户的手指的表示的位置和姿态1010,用户界面引擎504生成对应于指示器的虚拟对象1012,用于与被渲染以用于在界面1002中显示的其他虚拟对象进行交互。
在该示例中,用户界面引擎504使得用户能够使用虚拟对象1012与包括虚拟对象1014的一组其他虚拟对象进行互动。该示例中的一组其他虚拟对象以类似网格的配置布置,其中每个虚拟对象定位于相邻虚拟对象之间的空间的等距量处。在实施中,用户界面引擎504针对每个虚拟对象生成虚拟对象碰撞器。在实施中,用户界面引擎504将对应于虚拟对象1012的指示器的移动限制到两个控制轴(例如,超过一个轴)上,诸如,x轴(例如,水平的)和y轴(例如,垂直的)。因此,虚拟对象1012可以从界面1002中的一组其他虚拟对象中选择特定的虚拟对象,例如,来自如图10的示例中布置的上面的“行”的虚拟对象。如所示,对应于指示器的虚拟对象1012基于检测到碰撞事件已经选择了虚拟对象1014,碰撞事件中虚拟对象1012的第一碰撞器与虚拟对象1014的第二碰撞器相交。响应于碰撞事件,用户界面引擎504可以以特定方式将虚拟对象1014动画化,并使图形引擎506相应地渲染界面1002。此外,用户界面引擎504向特定应用(例如,应用508)发送包括关于碰撞事件的数据的用户交互数据,其中,这样的应用可以响应于碰撞事件来执行功能或操作。
如另一示例中所示,通过图形引擎506渲染的界面1004示出用户的手指的位置和姿态1030已经相对于界面902改变。基于真实世界视频帧数据中用户的手指的表示的改变后的位置和姿态910,用户界面引擎504将指示器从界面1002中的位置和姿态移动到界面1004中的在先前选择的虚拟对象1014的下面的行中的与虚拟对象1032对应的位置和姿态。在界面1004中,对应于虚拟对象1032的指示器与指示碰撞的虚拟对象1034交叠,以及用户界面引擎504可以响应于检测到碰撞事件来将虚拟对象1034动画化。此外,用户界面引擎504向特定应用(例如,应用508)发送包括关于碰撞事件的数据的用户交互数据,其中,这样的应用可以响应于碰撞事件来执行功能或操作。例如,功能或操作可以是关于导航、游戏、创作等的任务。
尽管上述描述涉及应用508,但应理解,在一些实施方式中,消息收发客户端104、应用106或应用608可以执行与应用508相同的操作。
图11示出了根据各种实施方式的示例界面。可以提供示例界面以用于诸如通过消息收发客户端104、应用106、应用608的界面在客户端设备(例如,客户端设备102)上显示。
如所示,界面1102包括由摄像装置502捕获的真实世界的真实世界视频帧数据。真实世界视频帧数据包括通过图形引擎506渲染的界面902内的用户的手中的一个或更多个手,以及还包括当用户用他们的手做动作时用户的手的手部位置视频帧数据和手部姿态视频帧数据。基于真实世界视频帧数据中用户的手指(例如,拇指)的表示的位置和姿态1110以及用户的第二手指(例如,食指)的表示的第二位置和第二姿态,用户界面引擎504检测到开枪或射击手势。
通过图形引擎506渲染的界面1104示出用户的第一手指的位置和姿态1130已经相对于界面1102改变。基于真实世界视频帧数据中用户的手指的表示的改变的位置和姿态,用户界面引擎504确定用户的第二手指(例如,食指)指向的方向,并执行光线投射技术来确定用于将虚拟对象(例如,虚拟子弹或激光等)动画化的向量或路径以跟随用户的第二手指。如该示例中所示,图形引擎506渲染界面1104中的虚拟对象1132和虚拟对象1134,并将这些虚拟对象动画化以跟随上述讨论的路径。
图12示出了根据各种实施方式的示例界面。可以提供示例界面以用于诸如通过消息收发客户端104、应用106、应用608的界面在客户端设备(例如,客户端设备102)上显示。下面图12中描述的示例是图11的讨论的继续。
如所示,界面1202包括由摄像装置502捕获的真实世界的真实世界视频帧数据。真实世界视频帧数据包括通过图形引擎506渲染的界面1202内的用户的手中的一个或更多个手,以及还包括当用户用他们的手做动作时用户的手的手部位置视频帧数据和手部姿态视频帧数据。基于真实世界视频帧数据中用户的第二手指(例如,食指)的表示的位置和姿态1210,用户界面引擎504检测到用户的第二手指的位置和姿态相对于界面1102改变。
检测后,用户界面引擎504确定用户第二手指(例如,食指)指向的方向,并执行光线投射技术来确定用于将虚拟对象(例如,虚拟子弹或激光等)动画化的向量或路径以跟随用户的第一手指。如该示例中所示,图形引擎506渲染界面1202中的虚拟对象1212,并将该虚拟对象动画化以跟随上述讨论的路径。
通过图形引擎506渲染的界面1204示出用户的第二手指的位置和姿态1230已经相对于界面1202改变。基于真实世界视频帧数据中用户的第二手指的表示的改变的位置和姿态,用户界面引擎504确定用户的第二手指(例如,食指)指向的新方向,并执行光线投射技术来确定用于将虚拟对象动画化的向量或路径以跟随用户的第二手指。如该示例中所示,图形引擎506渲染界面1204中的虚拟对象1232,并将该虚拟对象动画化以跟随上述讨论的路径。
图13示出了根据各种实施方式的示例界面。可以提供示例界面以用于诸如通过消息收发客户端104、应用106、应用608的界面在客户端设备(例如,客户端设备102)上显示。
如所示,界面1302包括由摄像装置502捕获的真实世界的真实世界视频帧数据。真实世界视频帧数据包括通过图形引擎506渲染的界面1302内的用户的手中的一个或更多个手,以及还包括当用户用他们的手做动作时用户的手的手部位置视频帧数据和手部姿态视频帧数据。基于真实世界视频帧数据中用户的手指(例如,拇指)的表示的位置和姿态1310以及用户的第二手指(例如,食指)的表示的位置和姿态,用户界面引擎504生成对应于指示器的虚拟对象1312,用于与被渲染以用于在界面1102中显示的其他虚拟对象进行交互。如进一步所示,用户界面引擎504生成虚拟对象1314和虚拟对象1316。图形区域1318中示出了用户的手的更近的视图。在实施方式中,图形区域1318从界面1302中隐藏或者不显示在界面1302中。
如所示,对应于指示器的虚拟对象1312基于检测到碰撞事件已经选择了虚拟对象1316,碰撞时间中虚拟对象1312的第一碰撞器与虚拟对象1316的第二碰撞器相交。响应于碰撞事件,用户界面引擎504可以将虚拟对象1316附接至虚拟对象1312,并使图形引擎506相应地渲染这两个虚拟对象(例如,看起来彼此相连)。在该示例中,虚拟对象1316是滑块控件,该滑块控件使得从由虚拟对象1314表示的颜色调色板中能够选择特定颜色,包括根据虚拟对象1316相对于颜色调色板的定位来改变选择的颜色。特别地,在虚拟对象1316的内部显示选择的颜色。
通过图形引擎506渲染的界面1304示出用户的第一手指(例如拇指)的位置和姿态1330和虚拟对象1332已经相对于界面1302改变。响应于用户的第一手指的改变的位置和姿态(例如,拇指现在“闭合”或邻近第二手指),用户界面引擎504向特定应用(例如,应用508)发送包括关于碰撞事件的数据的用户交互数据,其中,这样的应用可以响应于碰撞事件来执行功能或操作(例如,启动诸如在由虚拟对象1314提供的颜色调色板中对应于虚拟对象1316的定位的颜色选择的功能)。在该示例中,虚拟对象1336是与虚拟对象1316相同的对象,并且虚拟对象1332是与虚拟对象1312相同的对象,它们中的每一个具有与界面1302中的先前定位不同的定位。图形区域1338中示出了用户的手的更近的视图。
响应于用户的手的改变的位置和姿态1330,图形引擎506在与界面1302中的虚拟对象1316和虚拟对象1312的先前位置略有不同的位置处渲染界面1304中的虚拟对象1336和虚拟对象1332,这导致从颜色调色板中选择的颜色与界面1302中的虚拟对象1316中所示的颜色不同。
尽管图13中的上述示例讨论了用户的第一手指(例如,拇指在“闭合”或靠近第二手指时充当扳机)使用虚拟对象1336进行选择,但在一些实施方式中,另一手指(例如,食指)可以充当“扳机”手指,用于进行选择或启动一些功能或操作。
图14示出了根据各种实施方式的示例界面。可以提供示例界面以用于诸如通过消息收发客户端104、应用106、应用608的界面在客户端设备(例如,客户端设备102)上显示。下面图14中描述的示例是图13的讨论的继续。
通过图形引擎506渲染的界面1402示出用户的手的位置和姿态1410和虚拟对象1412已经相对于界面1304改变。响应于用户的手的改变的位置和姿态1410和虚拟对象1412,图形引擎506在与界面1304中的虚拟对象1336和虚拟对象1332的先前定位不同的定位处渲染界面1402中的虚拟对象1416和虚拟对象1412,这导致从颜色调色板中选择的颜色与界面1304中的虚拟对象1336中所示的颜色不同。图形区域1418中示出了用户的手的更近的视图。
响应于用户的手的改变的位置和姿态,用户界面引擎504发送用户交互数据以执行颜色选择。在该示例中,虚拟对象1416是与虚拟对象1336相同的对象,并且虚拟对象1412是与虚拟对象1332相同的对象,它们中的每一个具有与界面1304中的先前定位不同的定位。
通过图形引擎506渲染的界面1404示出用户的手的位置和姿态1430已经相对于界面1402改变。响应于用户的手的改变后的位置和姿态1430,图形引擎506在与界面1402中的虚拟对象1416和虚拟对象1412的先前定位不同的定位处渲染界面1404中的虚拟对象1436和虚拟对象1432,这导致从颜色调色板中选择的颜色与界面1402中的虚拟对象1416中所示的颜色不同。图形区域1438中示出了用户的手的更近的视图。
响应于用户的手的改变的位置和姿态,用户界面引擎504发送用户交互数据以执行颜色选择。在该示例中,虚拟对象1436是与虚拟对象1416相同的对象,并且虚拟对象1432是与虚拟对象1412相同的对象,它们中的每一个具有与界面1402中的先前定位不同的定位。
图15示出了根据各种实施方式的示例界面。可以提供示例界面以用于诸如通过消息收发客户端104、应用106、应用608的界面在客户端设备(例如,客户端设备102)上显示。下面图15中描述的示例是图14的讨论的继续。
通过图形引擎506渲染的界面1502示出用户的手的位置和姿态1510和虚拟对象1512已经相对于界面1404改变。响应于用户的手的改变后的位置和姿态1510和虚拟对象1412,图形引擎506在与界面1404中的虚拟对象1436和虚拟对象1432的先前定位不同的定位处渲染界面1502中的虚拟对象1516和虚拟对象1512,这导致从颜色调色板中选择的颜色与界面1404中的虚拟对象1436中所示的颜色不同。图形区域1518中示出了用户的手的更近的视图。
响应于用户的手的改变后的位置和姿态,用户界面引擎504发送用户交互数据以执行颜色选择。在该示例中,虚拟对象1516是与虚拟对象1436相同的对象,并且虚拟对象1512是与虚拟对象1432相同的对象,它们中的每一个具有与界面1304中的先前定位不同的定位。
通过图形引擎506渲染的界面1504示出用户的第一手指(例如,拇指)的位置和姿态1530已经相对于界面1502改变。响应于用户的第一手指的改变后的位置和姿态1430,用户界面引擎504发送用户交互数据以执行从颜色调色板中与界面1502中的虚拟对象1516中所示的颜色一致的最终颜色选择。图形区域1538中示出了用户的手的更近的视图。
图16示出了根据各种实施方式的示例界面。可以提供示例界面以用于诸如通过消息收发客户端104、应用106、应用608的界面在客户端设备(例如,客户端设备102)上显示。
如所示,界面1602包括由摄像装置604捕获的真实世界的真实世界视频帧数据。真实世界视频帧数据包括渲染的界面1602内的用户的手中的一个或更多个手,以及还包括当用户用他们的手做动作时用户的手的手部位置视频帧数据和手部姿态视频帧数据。如进一步所示,界面1602包括可以使用各种姿势操纵的虚拟对象1614。渲染的界面1602示出了用户的第一手的位置和姿态1610以及用户的第二手的位置和姿态1612。
如前面讨论的,姿势意图识别引擎606利用真实世界视频帧数据中的手部位置视频帧数据和手部姿态视频帧数据来生成包括指示由用户正在做的一个或更多个手部姿势的手部姿势分类信息的手部姿势数据。在实施中,姿势意图识别引擎606将手部姿势数据传送至利用手部姿势数据作为来自用户界面的输入的应用。在图16、图17和图18的示例中讨论的这样的手部姿势数据包括针对用户双手的数据,使得姿势意图识别引擎606能够识别涉及双手的多姿势动作。
在图16的示例中,手部姿势数据指示将选择虚拟对象1614以用于与用户的手部动作进行交互和响应。通过应用利用这样的虚拟对象以用于至少部分地基于包括一组对象的虚拟对象的位置和姿态来执行一系列操作。
如进一步所示,界面1604包括已经改变的用户的第一手的位置和姿态1630以及用户的第二手的位置和姿态1632(例如,每个手上的每个拇指已经闭合或靠近食指),并且姿势意图识别引擎606利用手部姿态视频帧数据和手部位置视频帧数据来生成更新的手部姿势数据。在图16的另一示例中,更新的手部姿势数据指示将虚拟对象1614扩展成更大的尺寸,其在渲染的界面1604中被示为虚拟对象1634。
图17示出了根据各种实施方式的示例界面。可以提供示例界面以用于诸如通过消息收发客户端104、应用106、应用608的界面在客户端设备(例如,客户端设备102)上显示。下面图17中描述的示例是图16的讨论的继续。
如所示,界面1702包括已经改变的用户的第一手的位置和姿态1710以及用户的第二手的位置和姿态1712,并且姿势意图识别引擎606利用手部姿态视频帧数据和手部位置视频帧数据来生成更新的手部姿势数据。在图17的该示例中,更新的手部姿势数据指示以特定方向旋转来自图16的虚拟对象1634,其在渲染的界面1702中被示为虚拟对象1714。
如进一步所示,界面1704包括已经改变的用户的第一手的位置和姿态1730以及用户的第二手的位置和姿态1732,并且姿势意图识别引擎606利用手部姿态视频帧数据和手部位置视频帧数据来生成更新的手部姿势数据。在图17的另一示例中,更新的手部姿势数据指示以与界面1702中不同的方向旋转虚拟对象1714,其在渲染的界面1704中被示为虚拟对象1734。
图18示出了根据各种实施方式的示例界面。可以提供示例界面以用于诸如通过消息收发客户端104、应用106、应用608的界面在客户端设备(例如,客户端设备102)上显示。下面图18中描述的示例是图17的讨论的继续。
如所示,界面1802包括已经改变的用户的第一手的位置和姿态1810以及用户的第二手的位置和姿态1812,并且姿势意图识别引擎606利用手部姿态视频帧数据和手部位置视频帧数据来生成更新的手部姿势数据。在图18的该示例中,更新的手部姿势数据指示将来自图17的虚拟对象1734在总体尺寸上扩展,其在渲染的界面1802中被示为虚拟对象1814。
如进一步所示,界面1804包括已经改变的用户的第一手的位置和姿态1830以及用户的第二手的位置和姿态1832,并且姿势意图识别引擎606利用手部姿态视频帧数据和手部位置视频帧数据来生成更新的手部姿势数据。在图18的另一示例中,更新的手部姿势数据指示将界面180202中的虚拟对象1814在总体尺寸上缩小,其在渲染的界面1804中被示为虚拟对象1834。
图19示出了根据各种实施方式的示例界面。可以提供示例界面以用于诸如通过消息收发客户端104、应用106、应用608的界面在客户端设备(例如,客户端设备102)上显示。
如所示,界面1902包括由摄像装置604捕获的真实世界的真实世界视频帧数据。真实世界视频帧数据包括渲染的界面1902内的用户的手中的一个或更多个手,以及还包括当用户用他们的手做动作时用户的手的手部位置视频帧数据和手部姿态视频帧数据。如进一步所示,界面1902包括可以使用各种姿势操纵的虚拟对象1912。渲染的界面1902示出了用户的第一手的位置和姿态1910。
如前面讨论的,姿势意图识别引擎606利用真实世界视频帧数据中的手部位置视频帧数据和手部姿态视频帧数据来生成包括指示由用户正在做的一个或更多个手部姿势的手部姿势分类信息的手部姿势数据。在实施中,姿势意图识别引擎606将手部姿势数据传送至利用手部姿势数据作为来自用户界面的输入的应用。
在图19的示例中,手部姿势数据指示将选择虚拟对象1912的一部分作为起点,以用于至少部分地基于用户的手部动作来修改虚拟对象912。通过应用利用这样的虚拟对象以用于至少部分地基于包括对象的其他特征的虚拟对象的位置和姿态来执行一系列操作。
如进一步所示,界面1904包括已经改变的用户的第一手的位置和姿态1930,并且姿势意图识别引擎606利用手部姿态视频帧数据和手部位置视频帧数据来生成更新的手部姿势数据。在图19的另一示例中,更新的手部姿势数据指示将修改虚拟对象1912,其在渲染的界面1904中被示为虚拟对象1932,其中虚拟对象1932包括从来自界面1902的起点延伸的附加图形数据。
图20示出了根据各种实施方式的示例界面。可以提供示例界面以用于诸如通过消息收发客户端104、应用106、应用608的界面在客户端设备(例如,客户端设备102)上显示。下面图20中描述的示例是图19的讨论的继续。
如所示,界面2002包括已经改变的用户的第一手的位置和姿态2010,并且姿势意图识别引擎606利用手部姿态视频帧数据和手部位置视频帧数据来生成更新的手部姿势数据。在图20的该示例中,更新的手部姿势数据指示将选择虚拟对象1932的第二部分作为起点,以用于至少部分地基于用户的手部动作来修改虚拟对象1932,其在渲染的界面2002中被示为虚拟对象2012。
如进一步所示,界面2004包括已经改变的用户的第一手的位置和姿态2030,并且姿势意图识别引擎606利用手部姿态视频帧数据和手部位置视频帧数据来生成更新的手部姿势数据。在图20的另一示例中,更新的手部姿势数据指示将修改虚拟对象2012,其在渲染的界面2004中被示为虚拟对象2032,其中虚拟对象2032包括从来自界面2002的第二起点延伸的第二附加图形数据。
图21示出了根据各种实施方式的示例界面。可以提供示例界面以用于诸如通过消息收发客户端104、应用106、应用608的界面在客户端设备(例如,客户端设备102)上显示。下面图21中描述的示例是图20的讨论的继续。
如所示,界面2102包括已经改变的用户的第二手的位置和姿态2110,并且姿势意图识别引擎606利用手部姿态视频帧数据和手部位置视频帧数据来生成更新的手部姿势数据。在图21的该示例中,更新的手部姿势数据指示将选择来自图20的虚拟对象2032的第三部分作为第三起点,以用于至少部分地基于用户的手部动作来修改虚拟对象2032,其在渲染的界面2102中被示为虚拟对象2112。
如进一步所示,界面2104包括已经改变的用户的第二手的位置和姿态2130,并且姿势意图识别引擎606利用手部姿态视频帧数据和手部位置视频帧数据来生成更新的手部姿势数据。在图21的另一示例中,更新的手部姿势数据指示将修改虚拟对象2112,其在渲染的界面2104中被示为虚拟对象2132,其中虚拟对象2132包括从来自界面2102的第三起点延伸的第三附加图形数据。
图22示出了根据各种实施方式的示例界面。可以提供示例界面以用于诸如通过消息收发客户端104、应用106、应用608的界面在客户端设备(例如,客户端设备102)上显示。
如所示,界面2202包括由摄像装置604捕获的真实世界的真实世界视频帧数据。真实世界视频帧数据包括渲染的界面2202内的用户的手中的一个或更多个手,以及还包括当用户用他们的手做动作时用户的手的手部位置视频帧数据和手部姿态视频帧数据。如进一步所示,界面2202包括可以使用各种姿势与其进行交互和移动的虚拟对象2214和虚拟对象2216。渲染的界面2202示出了用户的第一手的位置和姿态2210以及用户的第二手的位置和姿态2212。
如前面讨论的,姿势意图识别引擎606利用真实世界视频帧数据中的手部位置视频帧数据和手部姿态视频帧数据来生成包括指示由用户正在做的一个或更多个手部姿势的手部姿势分类信息的手部姿势数据。在实施中,姿势意图识别引擎606将手部姿势数据传送至利用手部姿势数据作为来自用户界面的输入的应用。在图22、图23、图24和图25的示例中讨论的这样的手部姿势数据包括针对用户双手的数据,使得姿势意图识别引擎606能够识别涉及双手的多姿势动作或涉及一个手的姿势动作。
在图22的示例中,手部姿势数据指示响应于用户的手部动作来示出附加虚拟对象。在基于用户的手部动作选择每个虚拟对象后,通过应用利用每个虚拟对象来执行一系列操作。
如进一步所示,界面2204包括已经改变的用户的第一手的位置和姿态2230以及已经改变的用户的第二手的位置和姿态2232(例如,每个手已经朝着界面2204的边缘向外移动),并且姿势意图识别引擎606利用手部姿态视频帧数据和手部位置视频帧数据来生成更新的手部姿势数据。在图22的另一示例中,更新的手部姿势数据指示将修改虚拟对象2112,其在渲染的界面2104中被示为虚拟对象2132,其中虚拟对象2132包括从来自界面2102的第三起点延伸的第三附加图形数据。更新的手部姿势数据使得附加虚拟对象被渲染以用于显示,这些附加虚拟对象在渲染的界面2204中被示为虚拟对象2234、虚拟对象2235、虚拟对象2236、虚拟对象2238和虚拟对象2240。
图23示出了根据各种实施方式的示例界面。可以提供示例界面以用于诸如通过消息收发客户端104、应用106、应用608的界面在客户端设备(例如,客户端设备102)上显示。下面图23中描述的示例是图22的讨论的继续。
如所示,界面2302包括已经改变的用户的第一手的位置和姿态2310以及已经改变的用户的第二手的位置和姿态2312(例如,张开的手部姿势,其中每个拇指张开远离同一个手的其他手指),并且姿势意图识别引擎606利用手部姿态视频帧数据和手部位置视频帧数据来生成更新的手部姿势数据。在图23的该示例中,更新的手部姿势数据指示已经将虚拟对象设置成维持或保持固定在界面2302中它们的当前位置和姿态处。
如进一步所示,界面2304包括已经改变的用户的第一手的位置和姿态2330,并且姿势意图识别引擎606利用手部姿态视频帧数据和手部位置视频帧数据来生成更新的手部姿势数据。在图23的另一示例中,更新的手部姿势数据指示指示将选择虚拟对象2216,这使得应用执行相应的一系列操作。
图24示出了根据各种实施方式的示例界面。可以提供示例界面以用于诸如通过消息收发客户端104、应用106、应用608的界面在客户端设备(例如,客户端设备102)上显示。下面图24中描述的示例是图23的讨论的继续。
如所示,界面2402包括已经改变的用户的第一手的位置和姿态2410以及已经改变的用户的第二手的位置和姿态2412(例如,对于双手从张开的手到捏的姿势),并且姿势意图识别引擎606利用手部姿态视频帧数据和手部位置视频帧数据来生成更新的手部姿势数据。在图24的该示例中,更新的手部姿势数据指示响应于用户的手部动作来移动虚拟对象。
如进一步所示,界面2404包括已经改变的用户的第一手的位置和姿态2430以及已经改变的用户的第二手的位置和姿态2432(例如,第二手已经朝着界面2404的上边缘移动,而第一手已经朝着界面2404的下边缘向下移动),并且姿势意图识别引擎606利用手部姿态视频帧数据和手部位置视频帧数据来生成更新的手部姿势数据。在图22的另一示例中,更新的手部姿势数据使得虚拟对象在渲染的界面2404中位于垂直的布置中。
图25示出了根据各种实施方式的示例界面。可以提供示例界面以用于诸如通过消息收发客户端104、应用106、应用608的界面在客户端设备(例如,客户端设备102)上显示。下面图25中描述的示例是图24的讨论的继续。
如所示,界面2502包括已经改变的用户的第一手的位置和姿态2510以及已经改变的用户的第二手的位置和姿态2512,并且姿势意图识别引擎606利用手部姿态视频帧数据和手部位置视频帧数据来生成更新的手部姿势数据。在图25的该示例中,更新的手部姿势数据指示响应于用户的手部动作来移动虚拟对象。在图25的该示例中,更新的手部姿势数据使得虚拟对象在渲染的界面2502中位于拱形和水平布置中。
如进一步所示,界面2504包括已经改变的用户的第一手的位置和姿态2530以及已经改变的用户的第二手的位置和姿态2532(例如,第二手已经朝着界面2504的中心移动,以及第一手已经朝着界面2504的中心移动),并且姿势意图识别引擎606利用手部姿态视频帧数据和手部位置视频帧数据来生成更新的手部姿势数据。在图25的另一示例中,更新的手部姿势数据使得在渲染的界面2504中移除其他虚拟对象,其中仅虚拟对象2214保留在界面2504中。
图26是示出根据某些示例实施方式的方法2600的流程图。方法2600可以包含在由一个或更多个计算机处理器执行的计算机可读指令中,使得可以部分地或全部地由消息收发客户端104执行方法2600的操作,特别是关于上面在图5和图6中描述的各个部件,或者在与消息收发服务器系统108和其部件一起通信的给定客户端设备(例如,客户端设备102)上执行的应用(例如,应用106);因此,下面通过示例并参照其描述方法2600。然而,应理解,方法2600的至少一些操作可以部署在各种其他硬件配置上,并且方法2600不旨在限于消息收发客户端104或上述任何部件或系统。
在实施方式中,图26中描述的操作至少对应于如上面讨论的图9和图10的描述。
在操作2602处,消息收发客户端104检测由客户端设备的摄像装置捕获的一组帧中的手指的表示的位置和姿态。
在操作2604处,消息收发客户端104至少部分地基于手指的表示的位置和姿态来生成第一虚拟对象,第一虚拟对象从手指的表示延伸。
在操作2606处,消息收发客户端104检测对应于第一虚拟对象的第一碰撞器与第二虚拟对象的第二碰撞器相交的第一碰撞事件。
在操作2608处,响应于第一碰撞事件,消息收发客户端104将第二虚拟对象的一组尺寸修改成与该组尺寸不同的第二组尺寸。
在操作2610处,消息收发客户端104检测由客户端设备的摄像装置捕获的第二组帧中的手指的表示的第二位置和第二姿态,第二位置和第二姿态与上述位置和姿态不同。
在操作2612处,消息收发客户端104至少部分地基于第二位置和第二姿态来检测对应于第一虚拟对象的第二碰撞器与第三虚拟对象的第三碰撞器相交的第二碰撞事件。
在操作2614处,响应于第二碰撞事件,消息收发客户端104将第三虚拟对象的一组尺寸修改成与该组尺寸不同的第三组尺寸。
在操作2616处,消息收发客户端104基于第三组尺寸在第三场景内渲染第三虚拟对象,第三场景包括根据第二场景的经修改的场景。
在操作2618处,消息收发客户端104提供在第三场景内显示渲染的第三虚拟对象。
在实施方式中,消息收发客户端104在第一场景内渲染第一虚拟对象,基于第二组尺寸在第二场景渲染第二虚拟对象,第二场景包括根据第一场景的经修改的场景,并且提供第二场景内渲染的第二虚拟对象的显示。
在实施方式中,消息收发客户端104检测手指的表示的位置和姿态到第二位置和第二姿态的改变,并基于改变将第一虚拟对象移动至第二位置和第二姿态。
在实施方式中,消息收发客户端104生成第一组虚拟对象,第一组虚拟对象中的每个虚拟对象被定位成与来自第一组虚拟对象中的至少一个其他虚拟对象等距。
在实施方式中,一组帧包括对应于由客户端设备的摄像装置捕获的真实世界场景的第一表示的第一帧和对应于真实世界场景的第二表示的第二帧,真实世界场景的第一表示在真实世界场景的第二表示之前被捕获。
在实施方式中,第一场景包括真实世界场景的第一表示和第一虚拟对象。
在实施方式中,第二场景包括真实世界场景的第二表示和第二虚拟对象。
在实施方式中,第一场景包括真实世界视频帧数据和虚拟对象数据,虚拟对象数据包括用于渲染第一虚拟对象或第二虚拟对象的信息。
在实施方式中,将第一虚拟对象移动至第二位置和第二姿态被限制于单个移动轴,并且移动不沿第二轴移动第一虚拟对象,或者将第一虚拟对象移动至第二位置和第二姿态包括沿第一特定移动轴和沿第二特定移动轴的单独移动,第一特定轴和第二特定轴是不同的轴。
在实施方式中,修改第二虚拟对象的一组尺寸包括在至少一个尺寸上扩大该组尺寸。
在实施方式中,修改第二虚拟对象的一组尺寸包括在至少一个尺寸上减小该组尺寸。
机器架构
图27是机器2700的图解表示,在该机器2700内可以执行用于使机器2700执行本文所讨论的方法中的任何一种或更多种方法的指令2710(例如,软件、程序、应用、小程序、app或其他可执行代码)。例如,指令2710可以使机器2700执行本文中描述的方法中的任何一种或更多种方法。指令2710将通用的未经编程的机器2700转换成被编程为以所描述的方式执行描述和示出的功能的特定机器2700。机器2700可以作为独立设备操作,或者可以耦接(例如,联网)至其他机器。在联网部署中,机器2700可以在服务器-客户端网络环境中以服务器机器或客户端机器的身份来操作,或者在对等(或分布式)网络环境中作为对等机器来操作。机器2700可以包括但不限于服务器计算机、客户端计算机、个人计算机(PC)、平板计算机、膝上型计算机、上网本、机顶盒(STB)、个人数字助理(PDA)、娱乐媒体系统、蜂窝电话、智能电话、移动设备、可穿戴设备(例如,智能手表)、智能家居设备(例如,智能电器)、其他智能设备、web设备、网络路由器、网络交换机、网络桥接器或能够顺序地或以其他方式执行指定要由机器2700采取的具体动作的指令2710的任何机器。此外,虽然仅示出了单个机器2700,但是术语“机器”还应被认为包括单独地或联合地执行指令2710以执行本文中讨论的方法中的任何一种或更多种方法的机器的集合。例如,机器2700可以包括客户端设备102或者形成消息收发服务器系统108的一部分的若干服务器设备中的任何一个服务器设备。在一些示例中,机器2700还可以包括客户端系统和服务器系统两者,其中特定方法或算法的某些操作在服务器侧执行,并且特定方法或算法的某些操作在客户端侧执行。
机器2700可以包括可以被配置成经由总线2740彼此通信的处理器2704、存储器2706和输入/输出I/O部件2702。在示例中,处理器2704(例如,中央处理单元(CPU)、精简指令集计算(RISC)处理器、复杂指令集计算(CISC)处理器、图形处理单元(GPU)、数字信号处理器(DSP)、专用集成电路(ASIC)、射频集成电路(RFIC)、另外的处理器或其任何合适的组合)可以包括例如执行指令2710的处理器2708和处理器2712。术语“处理器”旨在包括多核处理器,所述多核处理器可以包括可以同时执行指令的两个或更多个独立的处理器(有时被称为“核”)。尽管图27示出了多个处理器2704,但是机器2700可以包括具有单个核的单个处理器、具有多个核的单个处理器(例如,多核处理器)、具有单个核的多个处理器、具有多个核的多个处理器、或者其任何组合。
存储器2706包括主存储器2714、静态存储器2716和存储单元2718,所述主存储器2714、静态存储器2716和存储单元2718都可由处理器2704经由总线2740访问。主存储器2706、静态存储器2716和存储单元2718存储体现本文中描述的方法或功能中的任何一种或更多种方法或功能的指令2710。指令2710还可以在其由机器2700执行期间完全地或部分地驻留在主存储器2714内、静态存储器2716内、存储单元2718内的机器可读介质2720内、处理器2704中的至少一个处理器内(例如,在处理器的高速缓存存储器内)或者其任何合适的组合内。
I/O部件2702可以包括接收输入、提供输出、产生输出、发送信息、交换信息、捕获测量结果等的各种部件。包括在特定机器中的特定I/O部件2702将取决于机器的类型。例如,便携式机器诸如移动电话可以包括触摸输入设备或其他这样的输入机构,而无头服务器机器将可能不包括这样的触摸输入设备。将认识到,I/O部件2702可以包括图27中未示出的许多其他部件。在各种示例中,I/O部件2702可以包括用户输出部件2726和用户输入部件2728。用户输出部件2726可以包括视觉部件(例如,显示器诸如等离子显示面板(PDP)、发光二极管(LED)显示器、液晶显示器(LCD)、投影仪或阴极射线管(CRT))、声学部件(例如,扬声器)、触觉部件(例如,振动马达、阻力机构)、其他信号发生器等。用户输入部件2728可以包括字母数字输入部件(例如,键盘、被配置成接收字母数字输入的触摸屏、光电键盘或其他字母数字输入部件)、基于点的输入部件(例如,鼠标、触摸板、轨迹球、操纵杆、运动传感器或其他指向仪器)、触觉输入部件(例如,物理按钮、提供触摸或触摸姿势的位置和力的触摸屏或其他触觉输入部件)、音频输入部件(例如,麦克风)等。
在其他示例中,I/O部件2702可以包括生物计量部件2730、运动部件2732、环境部件2734、或定位部件2736以及各种其他部件。例如,生物计量部件2730包括用于检测表达(例如,手表达、面部表达、声音表达、身体姿势或眼睛跟踪)、测量生物信号(例如,血压、心率、体温、出汗或脑波)、识别人(例如,语音识别、视网膜识别、面部识别、指纹识别或基于脑电图的识别)等的部件。运动部件2732包括加速度传感器部件(例如,加速度计)、重力传感器部件、旋转传感器部件(例如,陀螺仪)。
环境部件2734包括例如一个或更多个摄像装置(具有静止图像/照片和视频能力)、照明传感器部件(例如,光度计)、温度传感器部件(例如,检测周围温度的一个或更多个温度计)、湿度传感器部件、压力传感器部件(例如,气压计)、声学传感器部件(例如,检测背景噪声的一个或更多个麦克风)、接近传感器部件(例如,检测附近对象的红外传感器)、气体传感器(例如,为了安全而检测危险气体的浓度或者测量大气中的污染物的气体检测传感器)或者可以提供与周围物理环境对应的指示、测量或信号的其他部件。
关于摄像装置,客户端设备102可以具有摄像装置系统,该摄像装置系统包括例如在客户端设备102的前表面上的前置摄像装置以及在客户端设备102的后表面上的后置摄像装置。前置摄像装置可以例如用于捕获客户端设备102的用户的静止图像和视频(例如,“自拍”),然后可以利用上述增强数据(例如,过滤器)对该静止图像和视频进行增强。后置摄像装置可以例如用于以更传统的摄像装置模式捕获静止图像和视频,其中类似地利用增强数据对这些图像进行增强。除了前置摄像装置和后置摄像装置之外,客户端设备102还可以包括用于捕获360°照片和视频的360°摄像装置。
此外,客户端设备102的摄像装置系统可以包括双后置摄像装置(例如,主摄像装置以及深度感测摄像装置),或者甚至在客户端设备102的前侧和后侧上包括三重、四重或五重后置摄像装置配置。例如,这些多摄像装置系统可以包括广角摄像装置、超广角摄像装置、远距摄像装置、微距摄像装置和深度传感器。
定位部件2736包括位置传感器部件(例如,GPS接收器部件)、海拔传感器部件(例如,检测气压的高度计或气压计,根据气压可以得到海拔)、取向传感器部件(例如,磁力计)等。
可以使用各种各样的技术来实现通信。I/O部件2702还包括通信部件2738,该通信部件2738可操作以经由相应的耦接或连接将机器2700耦接至网络2722或设备2724。例如,通信部件2738可以包括与网络2722对接的网络接口部件或其他合适的设备。在另外的示例中,通信部件2738可以包括:有线通信部件、无线通信部件、蜂窝通信部件、近场通信(NFC)部件、部件(例如,低能耗)、部件以及经由其他模态提供通信的其他通信部件。设备2724可以是另一机器或各种外围设备中的任何外围设备(例如,经由USB耦接的外围设备)。
此外,通信部件2738可以检测指示或包括可操作以检测标识符的部件。例如,通信部件2738可以包括射频识别(RFID)标签阅读器部件、NFC智能标签检测部件、光学阅读器部件(例如,用于检测诸如通用产品代码(UPC)条形码的一维条形码、诸如快速反应(QR)码、Aztec码、数据矩阵、数据符号(Dataglyph)、最大码(MaxiCode)、PDF417、超码(UltraCode)、UCC RSS-2D条形码的多维条形码和其他光学码的光学传感器)或声学检测部件(例如,用于识别标记的音频信号的麦克风)。另外,可以经由通信部件2738得到各种信息,例如经由因特网协议(IP)地理位置获得的位置、经由信号三角测量获得的位置、经由检测可以指示特定位置的NFC信标信号获得的位置等。
各种存储器(例如,主存储器2714、静态存储器2716以及处理器2704的存储器)以及存储单元2718可以存储由本文中所描述的方法或功能中的任何一种或更多种方法或功能实现或使用的一组或更多组指令和数据结构(例如,软件)。在由处理器2704执行的情况下,这些指令(例如,指令2710)使各种操作实现所公开的示例。
可以使用传输介质经由网络接口设备(例如,通信部件2738中包括的网络接口部件)并且使用若干公知的传输协议中的任何一种传输协议(例如,超文本传输协议(HTTP)),通过网络2722来发送或接收指令2710。类似地,可以使用传输介质经由与设备2724的耦接(例如,对等耦接)来发送或接收指令2710。
软件架构
图28是示出可以安装在本文中描述的设备中的任何一个或更多个设备上的软件架构2804的框图2800。软件架构2804由硬件支持,该硬件例如包括处理器2820、存储器2826和I/O部件2838的机器2802。在该示例中,软件架构2804可以被概念化为层的堆栈,其中每个层提供特定功能。软件架构2804包括下述层,例如操作系统2812、库2810、框架2808和应用2806。在操作上,应用2806通过软件堆栈来激活API调用2850并且响应于API调用2850而接收消息2852。
操作系统2812管理硬件资源并提供公共服务。操作系统2812包括例如内核2814、服务器2816以及驱动器2822。内核2814用作硬件与其他软件层之间的抽象层。例如,内核2814提供存储器管理、处理器管理(例如,调度)、部件管理、联网和安全设置等功能。服务器2816可以针对其他软件层提供其他公共服务。驱动器2822负责控制底层硬件或与底层硬件对接。例如,驱动器2822可以包括显示驱动器、摄像装置驱动器、或低能耗驱动器、闪存驱动器、串行通信驱动器(例如,USB驱动器)、驱动器、音频驱动器、电力管理驱动器等。
库2810提供由应用2806使用的公共低级基础设施。库2810可以包括系统库2818(例如,C标准库),该系统库2818提供诸如存储器分配功能、字符串操纵功能、数学功能等的功能。另外,库2810可以包括API库2824,例如媒体库(例如,用于支持各种媒体格式的呈现和操纵的库,所述各种媒体格式例如运动图像专家组-4(MPEG4)、高级视频编码(H.264或AVC)、运动图像专家组层-3(MP3)、高级音频编码(AAC)、自适应多速率(AMR)音频编解码器、联合图像专家组(JPEG或JPG)或便携式网络图形(PNG))、图形库(例如,用于在显示器上的图形内容中以二维(2D)和三维(3D)进行呈现的OpenGL框架)、数据库库(例如,提供各种关系数据库功能的SQLite)、web库(例如,提供web浏览功能的WebKit)等。库2810还可以包括各种其他库2828,以向应用2806提供许多其他API。
框架2808提供由应用2806使用的公共高级基础设施。例如,框架2808提供各种图形用户界面(GUI)功能、高级资源管理和高级定位服务。框架2808可以提供可以由应用2806使用的广泛的其他API,其中一些API可以特定于特定操作系统或平台。
在示例中,应用2806可以包括家庭应用2836、联系人应用2830、浏览器应用2832、书籍阅读器应用2834、位置应用2842、媒体应用2844、消息收发应用2846、游戏应用2848和诸如第三方应用2840的各种各样的其他应用。应用2806是执行程序中定义的功能的程序。可以采用各种编程语言来创建以各种方式构造的应用2806中的一个或更多个应用,所述编程语言例如面向对象的编程语言(例如,Objective-C、Java或C++)或过程编程语言(例如,C或汇编语言)。在特定示例中,第三方应用2840(例如,由特定平台的供应商以外的实体使用ANDROIDTM或IOSTM软件开发工具包(SDK)开发的应用)可以是在诸如IOSTM、ANDROIDTM、Phone的移动操作系统或其他移动操作系统上运行的移动软件。在该示例中,第三方应用2840可以激活由操作系统2812提供的API调用2850以促进本文所描述的功能。
术语表
“载波信号”是指能够存储、编码或携载由机器执行的指令并且包括数字或模拟通信信号的任何无形介质或有助于这样的指令的通信的其他无形介质。可以经由网络接口设备使用传输介质在网络上发送或接收指令。
“客户端设备”是指与通信网络接口以从一个或更多个服务器系统或其他客户端设备获得资源的任何机器。客户端设备可以是但不限于移动电话、桌上型计算机、膝上型计算机、便携式数字助理(PDA)、智能电话、平板计算机、超级本、上网本、膝上型计算机、多处理器系统、基于微处理器的或可编程消费电子产品、游戏控制台、机顶盒或用户可以用于访问网络的任何其他通信设备。
“通信网络”是指网络的一个或更多个部分,该网络可以是自组织网络、内联网、外联网、虚拟专用网络(VPN)、局域网(LAN)、无线LAN(WLAN)、广域网(WAN)、无线WAN(WWAN)、城域网(MAN)、因特网、因特网的一部分、公共交换电话网(PSTN)的一部分、普通老式电话服务(POTS)网络、蜂窝电话网络、无线网络、网络、其他类型的网络或者两个或更多个这样的网络的组合。例如,网络或网络的一部分可以包括无线网络或蜂窝网络,并且耦接可以是码分多址(CDMA)连接、全球移动通信系统(GSM)连接或其他类型的蜂窝或无线耦接。在该示例中,耦接可以实现各种类型的数据传输技术中的任何数据传输技术,诸如单载波无线电传输技术(1xRTT)、演进数据优化(EVDO)技术、通用分组无线电服务(GPRS)技术、增强型数据速率GSM演进(EDGE)技术、包括3G的第三代合作伙伴计划(3GPP)、第四代无线(4G)网络、通用移动通信系统(UMTS)、高速分组接入(HSPA)、全球微波接入互操作性(WiMAX)、长期演进(LTE)标准、由各种标准设置组织定义的其他数据传输技术、其他长距离协议或其他数据传输技术。
“部件”是指具有通过功能或子例程调用、分支点、API或对特定处理或控制功能提供分区或模块化的其他技术定义的边界的逻辑、设备或物理实体。部件可以经由它们的接口与其他部件组合以执行机器处理。部件可以是被设计用于与其他部件一起使用的经封装的功能硬件单元并且可以是通常执行相关功能中的特定功能的程序的一部分。部件可以构成软件部件(例如,在机器可读介质上实施的代码)或硬件部件。“硬件部件”是能够执行某些操作的有形单元并且可以以某种物理方式来配置或布置。在各种示例中,可以通过软件(例如,应用或应用部分)将一个或更多个计算机系统(例如,独立计算机系统、客户端计算机系统或服务器计算机系统)或者计算机系统的一个或更多个硬件部件(例如,处理器或处理器组)配置为进行操作以执行本文中描述的某些操作的硬件部件。也可以机械地、电子地或其任何合适的组合来实现硬件部件。例如,硬件部件可以包括被永久地配置成执行某些操作的专用电路系统或逻辑。硬件部件可以是例如现场可编程门阵列(FPGA)或专用集成电路(ASIC)的专用处理器。硬件部件还可以包括通过软件被短暂配置成执行某些操作的可编程逻辑或电路系统。例如,硬件部件可以包括由通用处理器或其他可编程处理器执行的软件。一旦通过这样的软件被配置,硬件部件就变成被唯一地定制成执行所配置的功能的特定机器(或机器的特定部件),而不再是通用处理器。将认识到,可以出于成本和时间考虑来决定是机械地在专用并且永久配置的电路系统中实现硬件部件还是在临时配置(例如,通过软件配置)的电路系统中实现硬件部件。因此,短语“硬件部件”(或“硬件实现的部件”)应当被理解成包含有形实体,即被物理构造、永久配置(例如,硬连线)或临时配置(例如,编程)成以某种方式操作或者执行本文所描述的某些操作的实体。考虑硬件部件被临时配置(例如,被编程)的示例,无需在任一时刻对硬件部件中的每个硬件部件进行配置或实例化。例如,在硬件部件包括通过软件配置而成为专用处理器的通用处理器的情况下,该通用处理器可以在不同时间处被配置成各自不同的专用处理器(例如,包括不同的硬件部件)。软件相应地将一个或更多个特定处理器配置成例如在一个时刻处构成特定硬件部件并且在不同的时刻处构成不同的硬件部件。硬件部件可以向其他硬件部件提供信息并且从其他硬件部件接收信息。因此,所描述的硬件部件可以被认为是通信地耦接的。在同时存在多个硬件部件的情况下,可以通过在硬件部件中的两个或更多个硬件部件之间(例如,通过适当的电路和总线)的信号传输来实现通信。在其中多个硬件部件在不同时间处被配置或被实例化的示例中,可以例如通过将信息存储在多个硬件部件可以访问的存储器结构中并且在该存储器结构中检索信息来实现这样的硬件部件之间的通信。例如,一个硬件部件可以执行操作并且将该操作的输出存储在其通信地耦接至的存储器设备中。然后,另一硬件部件可以在随后的时间处访问该存储器设备以检索所存储的输出并对所存储的输出进行处理。硬件部件还可以发起与输入设备或输出设备的通信,并且可以对资源(例如,信息的集合)进行操作。本文所描述的示例方法的各种操作可以至少部分地由临时地配置(例如,通过软件)或永久地配置成执行相关操作的一个或更多个处理器来执行。无论是被临时地配置还是被永久地配置,这样的处理器可以构成进行操作以执行本文中描述的一个或更多个操作或功能的处理器实现的部件。如本文所使用的,“处理器实现的部件”是指使用一个或更多个处理器实现的硬件部件。类似地,在本文中所描述的方法可以至少部分地由处理器实现,其中特定的一个或更多个处理器是硬件的示例。例如,方法的操作中的至少一些操作可以由一个或更多个处理器2704或者处理器实现的部件执行。此外,该一个或更多个处理器还可以进行操作以支持“云计算”环境中的相关操作的执行或作为“软件即服务”(SaaS)操作。例如,操作中的至少一些操作可以由一组计算机(作为包括处理器的机器的示例)执行,其中这些操作可经由网络(例如,因特网)并且经由一个或更多个适当的接口(例如,API)来访问。操作中的某些操作的执行可以分布在处理器之间,不是仅驻留在单个机器内,而是被跨若干机器部署。在一些示例中,处理器或处理器实现的部件可以位于单个地理位置(例如,在家庭环境、办公室环境或服务器群内)。在其他示例中,处理器或处理器实现的部件可以跨若干地理位置分布。
“计算机可读存储介质”是指机器存储介质和传输介质二者。因此,这些术语包括存储设备/介质和载波/调制数据信号二者。术语“机器可读介质”、“计算机可读介质”和“设备可读介质”意指相同的事物,并且在本公开内容中可以互换使用。
“短暂消息”是指在有时间限制的持续时间内可访问的消息。短暂消息可以是文本、图像、视频等。针对短暂消息的访问时间可以由消息发送者设置。替选地,访问时间可以是默认设置或者由接收者指定的设置。无论设置技术如何,该消息都是暂时的。
“机器存储介质”是指存储可执行指令、例程和数据的单个或多个存储设备和介质(例如,集中式或分布式数据库,以及相关联的缓存和服务器)。因此,该术语应当被视为包括但不限于固态存储器以及光学和磁介质,包括处理器内部或外部的存储器。机器存储介质、计算机存储介质和设备存储介质的具体示例包括:非易失性存储器,包括例如半导体存储器设备,例如可擦除可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM)、FPGA和闪存设备;磁盘,例如内部硬盘和可移除盘;磁光盘;以及CD-ROM和DVD-ROM盘。术语“机器存储介质”、“设备存储介质”、“计算机存储介质”意指相同的事物并且可以在本公开内容中互换使用。术语“机器存储介质”、“计算机存储介质”和“设备存储介质”明确地排除了载波、调制数据信号和其他这样的介质,其中的至少一些被涵盖在术语“信号介质”中。
“非暂态计算机可读存储介质”是指能够存储、编码或携载由机器执行的指令的有形介质。
“信号介质”是指能够存储、编码或携载由机器执行的指令并且包括数字或模拟通信信号的任何无形介质或者有助于软件或数据的通信的其他无形介质。术语“信号介质”应当被视为包括任何形式的调制数据信号、载波等。术语“调制数据信号”指的是设置或改变其特征集合中的一个或更多个特征以将信息编码在该信号中的信号。术语“传输介质”和“信号介质”指的是相同的事物,并且可以在本公开内容中互换使用。
Claims (20)
1.一种方法,包括:
使用一个或更多个硬件处理器检测由客户端设备的摄像装置捕获的一组帧中的手指的表示的位置和姿态;
使用所述一个或更多个硬件处理器至少部分地基于所述手指的表示的所述位置和所述姿态来生成第一虚拟对象,所述第一虚拟对象从所述手指的表示延伸;
使用所述一个或更多个硬件处理器检测对应于所述第一虚拟对象的第一碰撞器与第二虚拟对象的第二碰撞器相交的第一碰撞事件;
响应于所述第一碰撞事件,使用所述一个或更多个硬件处理器将所述第二虚拟对象的一组尺寸修改成与该组尺寸不同的第二组尺寸;
使用所述一个或更多个硬件处理器检测由所述客户端设备的所述摄像装置捕获的第二组帧中的所述手指的表示的第二位置和第二姿态,所述第二位置和所述第二姿态与所述位置和所述姿态不同;
使用所述一个或更多个硬件处理器至少部分地基于所述第二位置和所述第二姿态,来检测对应于所述第一虚拟对象的第二碰撞器与第三虚拟对象的第三碰撞器相交的第二碰撞事件;
响应于所述第二碰撞事件,使用所述一个或更多个硬件处理器将所述第三虚拟对象的一组尺寸修改成与该组尺寸不同的第三组尺寸;
使用所述一个或更多个硬件处理器在第三场景内基于所述第三组尺寸渲染所述第三虚拟对象,所述第三场景包括根据第二场景的经修改的场景;以及
使用所述一个或更多个硬件处理器提供在所述第三场景内显示经渲染的所述第三虚拟对象。
2.根据权利要求1所述的方法,还包括:
在第一场景内渲染所述第一虚拟对象;
在所述第二场景内基于所述第二组尺寸渲染所述第二虚拟对象,所述第二场景包括根据所述第一场景的经修改的场景;以及
使用所述一个或更多个硬件处理器来提供在所述第二场景内显示经渲染的所述第二虚拟对象。
3.根据权利要求2所述的方法,其中,所述第一场景包括所述第一虚拟对象和真实世界场景的第一表示。
4.根据权利要求3所述的方法,其中,所述第二场景包括所述第二虚拟对象和所述真实世界场景的第二表示。
5.根据权利要求1所述的方法,其中,所述第一场景包括真实世界视频帧数据和虚拟对象数据,所述虚拟对象数据包括用于渲染所述第一虚拟对象或所述第二虚拟对象的信息。
6.根据权利要求1所述的方法,还包括:
检测所述手指的表示的所述位置和所述姿态到所述第二位置和所述第二姿态的改变;以及
基于所述改变将所述第一虚拟对象移动至所述第二位置和所述第二姿态。
7.根据权利要求6所述的方法,其中,将所述第一虚拟对象移动至所述第二位置和所述第二姿态被限制于单个移动轴,并且所述移动不沿第二轴移动所述第一虚拟对象,或者将所述第一虚拟对象移动至所述第二位置和所述第二姿态包括沿第一特定移动轴和沿第二特定移动轴的单独移动,所述第一特定轴和所述第二特定轴是不同的轴。
8.根据权利要求1所述的方法,还包括:
生成第一组虚拟对象,所述第一组虚拟对象中的每个虚拟对象被定位成与来自所述第一组虚拟对象中的至少一个其他虚拟对象等距。
9.根据权利要求1所述的方法,其中,修改所述第二虚拟对象的一组尺寸包括在至少一个尺寸上扩大所述一组尺寸。
10.根据权利要求1所述的方法,其中,修改所述第二虚拟对象的一组尺寸包括在至少一个尺寸上减小所述一组尺寸。
11.一种系统,包括:
处理器;以及
包括指令的存储器,所述指令在由所述处理器执行时使所述处理器执行操作,所述操作包括:
检测由客户端设备的摄像装置捕获的一组帧中的手指的表示的位置和姿态;
至少部分地基于所述手指的表示的所述位置和所述姿态来生成第一虚拟对象,所述第一虚拟对象从所述手指的表示延伸;
检测对应于所述第一虚拟对象的第一碰撞器与第二虚拟对象的第二碰撞器相交的第一碰撞事件;
响应于所述第一碰撞事件,将所述第二虚拟对象的一组尺寸修改成与该组尺寸不同的第二组尺寸;
检测由所述客户端设备的所述摄像装置捕获的第二组帧中的所述手指的表示的第二位置和第二姿态,所述第二位置和所述第二姿态与所述位置和所述姿态不同;
至少部分地基于所述第二位置和所述第二姿态来检测对应于所述第一虚拟对象的第二碰撞器与第三虚拟对象的第三碰撞器相交的第二碰撞事件;
响应于所述第二碰撞事件,将所述第三虚拟对象的一组尺寸修改成与该组尺寸不同的第三组尺寸;
在第三场景内基于所述第三组尺寸渲染所述第三虚拟对象,所述第三场景包括根据第二场景的经修改的场景;以及
提供在所述第三场景内显示经渲染的所述第三虚拟对象。
12.根据权利要求11所述的系统,其中,所述操作还包括:
在第一场景内渲染所述第一虚拟对象;
在所述第二场景内基于所述第二组尺寸渲染所述第二虚拟对象,所述第二场景包括根据所述第一场景的经修改的场景;以及
提供在所述第二场景内显示经渲染的所述第二虚拟对象。
13.根据权利要求12所述的系统,其中,所述第一场景包括所述第一虚拟对象和真实世界场景的第一表示。
14.根据权利要求13所述的系统,其中,所述第二场景包括所述第二虚拟对象和所述真实世界场景的第二表示。
15.根据权利要求11所述的系统,其中,所述第一场景包括真实世界视频帧数据和虚拟对象数据,所述虚拟对象数据包括用于渲染所述第一虚拟对象或所述第二虚拟对象的信息。
16.根据权利要求11所述的系统,其中,所述操作还包括:
检测所述手指的表示的所述位置和所述姿态到所述第二位置和所述第二姿态的改变;以及
基于所述改变将所述第一虚拟对象移动至所述第二位置和所述第二姿态。
17.根据权利要求16所述的系统,其中,将所述第一虚拟对象移动至所述第二位置和所述第二姿态被限制于单个移动轴,并且所述移动不沿第二轴移动所述第一虚拟对象,或者将所述第一虚拟对象移动至所述第二位置和所述第二姿态包括沿第一特定移动轴和沿第二特定移动轴的单独移动,所述第一特定轴和所述第二特定轴是不同的轴。
18.根据权利要求11所述的系统,其中,所述操作还包括:
生成第一组虚拟对象,所述第一组虚拟对象中的每个虚拟对象被定位成与来自所述第一组虚拟对象中的至少一个其他虚拟对象等距。
19.根据权利要求11所述的系统,其中,修改所述第二虚拟对象的所述一组尺寸包括在至少一个尺寸上扩大所述一组尺寸。
20.一种非暂态计算机可读介质,所述非暂态计算机可读介质包括指令,所述指令在由计算设备执行时使所述计算设备执行操作,所述操作包括:
检测由客户端设备的摄像装置捕获的一组帧中的手指的表示的位置和姿态;
至少部分地基于所述手指的表示的所述位置和所述姿态来生成第一虚拟对象,所述第一虚拟对象从所述手指的表示延伸;
检测对应于所述第一虚拟对象的第一碰撞器与第二虚拟对象的第二碰撞器相交的第一碰撞事件;
响应于所述第一碰撞事件,将所述第二虚拟对象的一组尺寸修改成与该组尺寸不同的第二组尺寸;
检测由所述客户端设备的所述摄像装置捕获的第二组帧中的所述手指的表示的第二位置和第二姿态,所述第二位置和所述第二姿态与所述位置和所述姿态不同;
至少部分地基于所述第二位置和所述第二姿态来检测对应于所述第一虚拟对象的第二碰撞器与第三虚拟对象的第三碰撞器相交的第二碰撞事件;
响应于所述第二碰撞事件,将所述第三虚拟对象的一组尺寸修改成与该组尺寸不同的第三组尺寸;
在第三场景内基于所述第三组尺寸渲染所述第三虚拟对象,所述第三场景包括根据第二场景的经修改的场景;以及
提供在所述第三场景内显示经渲染的所述第三虚拟对象。
Applications Claiming Priority (3)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| US17/941,293 US20240087242A1 (en) | 2022-09-09 | 2022-09-09 | 3d cursor functionality for augmented reality content in messaging systems |
| US17/941,293 | 2022-09-09 | ||
| PCT/US2023/073639 WO2024054909A1 (en) | 2022-09-09 | 2023-09-07 | 3d cursor functionality for augmented reality content in messaging systems |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| CN119856136A true CN119856136A (zh) | 2025-04-18 |
Family
ID=88287271
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| CN202380064722.0A Pending CN119856136A (zh) | 2022-09-09 | 2023-09-07 | 用于消息收发系统中的增强现实内容的3d指示器功能 |
Country Status (5)
| Country | Link |
|---|---|
| US (1) | US20240087242A1 (zh) |
| EP (1) | EP4584663A1 (zh) |
| KR (1) | KR20250065687A (zh) |
| CN (1) | CN119856136A (zh) |
| WO (1) | WO2024054909A1 (zh) |
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US12456263B2 (en) | 2022-09-09 | 2025-10-28 | Snap Inc. | Cursor functionality for augmented reality content in messaging systems |
Families Citing this family (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US11948266B1 (en) | 2022-09-09 | 2024-04-02 | Snap Inc. | Virtual object manipulation with gestures in a messaging system |
| US12374055B2 (en) | 2022-09-09 | 2025-07-29 | Snap Inc. | Trigger gesture for selection of augmented reality content in messaging systems |
| US11995780B2 (en) | 2022-09-09 | 2024-05-28 | Snap Inc. | Shooting interaction using augmented reality content in a messaging system |
| US12380925B2 (en) | 2022-09-09 | 2025-08-05 | Snap Inc. | Auto trimming for augmented reality content in messaging systems |
Family Cites Families (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US9740296B2 (en) * | 2013-12-16 | 2017-08-22 | Leap Motion, Inc. | User-defined virtual interaction space and manipulation of virtual cameras in the interaction space |
-
2022
- 2022-09-09 US US17/941,293 patent/US20240087242A1/en active Pending
-
2023
- 2023-09-07 WO PCT/US2023/073639 patent/WO2024054909A1/en not_active Ceased
- 2023-09-07 KR KR1020257011617A patent/KR20250065687A/ko active Pending
- 2023-09-07 CN CN202380064722.0A patent/CN119856136A/zh active Pending
- 2023-09-07 EP EP23783977.4A patent/EP4584663A1/en active Pending
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US12456263B2 (en) | 2022-09-09 | 2025-10-28 | Snap Inc. | Cursor functionality for augmented reality content in messaging systems |
Also Published As
| Publication number | Publication date |
|---|---|
| WO2024054909A1 (en) | 2024-03-14 |
| US20240087242A1 (en) | 2024-03-14 |
| KR20250065687A (ko) | 2025-05-13 |
| EP4584663A1 (en) | 2025-07-16 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US20240087245A1 (en) | Gestures to enable menus using augmented reality content in a messaging system | |
| US12361653B2 (en) | Shooting interaction using augmented reality content in a messaging system | |
| US12505637B2 (en) | Virtual object manipulation with gestures in a messaging system | |
| US12456263B2 (en) | Cursor functionality for augmented reality content in messaging systems | |
| US12374055B2 (en) | Trigger gesture for selection of augmented reality content in messaging systems | |
| US12380925B2 (en) | Auto trimming for augmented reality content in messaging systems | |
| US20240087242A1 (en) | 3d cursor functionality for augmented reality content in messaging systems | |
| CN119836615A (zh) | 在消息收发系统中使用手势雕塑增强现实内容 | |
| CN119173835A (zh) | 多模态人机交互控制增强现实 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| PB01 | Publication | ||
| PB01 | Publication | ||
| SE01 | Entry into force of request for substantive examination | ||
| SE01 | Entry into force of request for substantive examination |