CN111201566A - 用于处理数据和输出用户反馈的口语通信设备和计算体系架构以及相关方法 - Google Patents
用于处理数据和输出用户反馈的口语通信设备和计算体系架构以及相关方法 Download PDFInfo
- Publication number
- CN111201566A CN111201566A CN201880066344.9A CN201880066344A CN111201566A CN 111201566 A CN111201566 A CN 111201566A CN 201880066344 A CN201880066344 A CN 201880066344A CN 111201566 A CN111201566 A CN 111201566A
- Authority
- CN
- China
- Prior art keywords
- data
- user
- speech
- audio
- computing device
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/60—Information retrieval; Database structures therefor; File system structures therefor of audio data
- G06F16/61—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/033—Voice editing, e.g. manipulating the voice of the synthesiser
- G10L13/0335—Pitch control
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/04—Details of speech synthesis systems, e.g. synthesiser structure or memory management
- G10L13/047—Architecture of speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
- G10L15/05—Word boundary detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1815—Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L51/00—User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
- H04L51/02—User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail using automatic reactions or user delegation, e.g. automatic replies or chatbot-generated messages
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/226—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
- G10L2015/228—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Business, Economics & Management (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Signal Processing (AREA)
- Computer Networks & Wireless Communication (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- Entrepreneurship & Innovation (AREA)
- General Business, Economics & Management (AREA)
- Tourism & Hospitality (AREA)
- Human Resources & Organizations (AREA)
- Quality & Reliability (AREA)
- Operations Research (AREA)
- Marketing (AREA)
- User Interface Of Digital Computer (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
典型的图形用户界面和预定义的数据字段限制人与计算系统之间的交互。提供一种口语通信设备和数据使能平台,用于摄取来自人们的口语对话数据以及使用机器学习来提供智能。在前端处,口语对话机器人或聊天机器人与用户进行交互。在后端处,数据支持使能平台具有摄取来自各种外部数据源的数据以及来自内部应用和数据库的数据的计算体系架构。这些数据和算法应用于显现新数据、识别趋势、提供建议、推断新理解、预测动作和事件、并自动地作用于该计算的信息。然后,聊天机器人提供反映由数据使能平台计算的信息的音频数据。例如,系统和设备适用于各种行业。
Description
相关申请的交叉引用
本专利申请要求于2017年8月10日提交的标题为“Oral Communication Deviceand Computing Architecture For Processing Data and Outputting User Feedback,and Related Methods(用于处理数据和输出用户反馈的口语通信设备和计算体系架构以及相关方法)”的美国临时专利申请No.62/543,777的优先权,该申请的全部内容通过引用并入本文。
技术领域
在一方面,以下内容一般而言涉及用于处理数据和诸如经由听觉或视觉媒体或两者输出用户反馈的口语通信设备以及相关的计算体系架构和方法。在另一方面,以下内容一般而言涉及从许多不同数据源摄取大量数据并输出可操作的数据的计算体系架构和机器智能。
背景技术
近年来,已经开发了计算技术以向用户提供可利用计算机设备操作的数据。已经开发出不同计算体系架构和软件程序来摄取数据并对其进行处理。许多现有计算体系架构适合于处理来自内部数据库的数据。此外,计算机网络是按常规设计的,其中多个用户设备(例如台式计算机)通过互联网访问中央服务器或云服务器以输入和检索数据。但是,在本文应认识到的是,这些计算体系架构和软件程序不适合于摄取速度、数量和多样性递增的数据。特别地,不同类型的电子设备(例如,机器对机器通信、面向用户的设备、物联网设备等)的激增增加了待分析和待处理的数据的数量和多样性。
此外,用户通常使用键盘、鼠标或触控板以及显示设备(例如计算机监视器)与他们的用户设备进行交互来研究数据。随着平板电脑和移动设备(例如智能手机)的日益普及,已经开发出允许用户在内置触摸屏上查看数据的应用或“应用程序”。诸如客户关系管理(CRM)软件中的图形用户界面(GUI)具有许多输入表单、表格、图表和图形,以便可视化地组织数据。但是,在这里应认识到的是,这些类型的计算设备交互对于用户而言仍然是复杂的、困难的和耗时的。此外,输入表单(例如,数据字段、数据类型、数据条目等)通常是通过设计预先确定的,因此限制了输入数据的类型。
这些以及其他技术挑战导致更有限的输出数据和更有限的自动化机器动作。
附图说明
图1是示例计算体系架构的示意图,示例计算体系架构用于经由用户设备摄取用户数据,并使用数据使能平台提供大数据计算和机器学习。
图2是另一个示意图,示出了图1中的计算体系架构的另一种表示。
图3是与相应用户设备通信的口语通信设备(OCD)的示意图,这些用户设备进而与数据使能平台通信。
图4A是示出在会议中使用的OCD以及示出各种设备与数据使能平台之间的数据连接的示意图。
图4B是示出包括可穿戴设备的OCD的不同实施例以及被配置为提供增强现实或虚拟现实的OCD实施例的示意图。
图5是示出OCD的示例部件的框图。
图6是示出用于人工智能(AI)平台的示例计算体系架构的示意图,人工智能(AI)平台是数据使能平台的一部分的。
图7是示出用于AI平台的计算体系架构的另一示例方面的示意图。
图8是示出用于极端数据平台的示例计算体系架构的示意图,极端数据平台是AI平台的示例方面。
图9是用于使用用户设备处理语音数据以及使用数据使能平台进一步处理数据的可执行指令的流程图。
图10是驻留在用户设备和数据使能平台上的示例软件模块的框图,示例软件模块使用于销售和营销行业中。
图11是示出图10所示的软件模块之间的数据流的示例示意图。
图12-19是与图10所示的软件模块相关的示例图形用户界面(GUI)的屏幕截图。
图20是用于使用数据使能平台监视给定公司的示例可执行指令的流程图。
图21是用于使用数据使能平台监视给定公司(包括既使用内部数据又使用外部数据)的示例可执行指令的流程图。
图22是用于使用数据使能平台识别与给定公司或人相关的一个或多个联系人的示例可执行指令的流程图。
图23是用于使用数据使能平台提供业务分析的示例可执行指令的流程图。
图24是用于使用数据使能平台修改某些短语和句子的音频参数的示例可执行指令的流程图。
图25是用于使用数据使能平台从语音数据和相关联的背景噪声中提取数据特征的示例可执行指令的流程图。
图26是基于数字信号处理(DSP)的语音合成器的示例实施例。
图27是基于DSP的语音合成器所使用的硬件系统的示例实施例。
图28是用于建立给定人的语音库的示例可执行指令的流程图。
图29是用于与用户交互的智能设备的示例可执行指令的流程图。
图30是用于与用户交互的智能设备的示例可执行指令的流程图。
图31是用于与用户交互的智能设备的示例可执行指令的流程图。
图32是用于与用户交互的智能设备的示例可执行指令的流程图,其延续图32的流程图。
图33是用于与给定主题相关并使用给定人的合成语音与用户交互的智能设备的示例可执行指令的流程图。
图34是用于与给定对话模式相关并使用给定人的合成语音与用户交互的智能设备的示例可执行指令的流程图。
具体实施方式
应认识到的是,为了图示的简单和清楚,在被认为适当的情况下,附图标记可以在附图之间重复以指示对应或相似的元件。此外,阐述了众多具体细节以便提供对本文所述的示例实施例的透彻理解。但是,本领域普通技术人员将理解的是,可以在没有这些具体细节的情况下实践本文所述的示例实施例。在其它情况下,未详细描述众所周知的方法、过程和部件,以免模糊本文所述的示例实施例。而且,本描述不应被认为是对本文所述的示例实施例的范围的限制。
在本文应认识到的是,典型的计算体系架构和软件程序,诸如对于CRM,仅限于摄取有限类型的数据。这些类型的数据基于内部数据库。但是,在本文应认识到的是,存在可以被使用和处理以向人或机器提供可操作数据来发起自动地操作以及来自不同数据源的数据。例如,应认识到的是,数据源可以包括但不限于以下任何一个或多个:来自物联网(loT)设备的数据、CRM软件、社交数据网络和相关平台、内部数据库的数据,经由个人用户设备、证券交易所平台、新闻服务器、博客、第三方搜索引擎获得的数据等。从这些示例源中可以认识到的是,数据的类型是变化的,并且数据可以不断更新。
例如,在本文应认识到的是,销售团队正在调查产品或服务的潜在销售,其涉及特定事物(例如,产品本身,与产品的制造、存储或交付中的一个或多个相关的支持装备,与服务提供相关的支持装备或事物)。应认识到的是,当前的CRM技术不能实时跟踪这些特定事物。CRM技术也不会以很高的详细度和准确性来跟踪这些特定事物,而这些事物会告知产品或服务的潜在销售的能力和参数。
此外,在本文应认识到的是,在许多数据辅助计算系统中,诸如对于CRM技术,数据输入包括预定义字段。人们通常使用键盘或触摸屏设备将文本输入到GUI的预定义字段中。例如,诸如SAIesForce、Microsoft和SugarCRM(仅举几例)的公司提供主要是作为合规性驱动系统(compliance driven systems)的技术系统和软件,并且当新机会出现时,这种技术系统和软件不会在合适的时间对销售人员进行鼓励或为其提供正确信息。这些预定义的输入表单和输入GUI使用更典型的计算软件进行处理。在本文应认识到的是,这种方法固有地忽略了利用可用于各种数据源的数据的多样性和数量,这些数据源可能具有不符合预定义的输入表单和输入GUI的数据类型和数据格式。
在本文应认识到的是,人们常常以非预定义的模式思考、交谈和行动。换句话说,思考过程或人与人之间的对话通常不遵循预定义的GUI和预定义的输入表单。使用现有的CRM软件,人(诸如销售助理)将需要从对话中提取其记录或注释(note),并将提取出的信息部分输入到预定义的GUI和输入表单中。当许多人开会时,这个过程将变得更加繁琐和复杂,并且人必须识别相关的信息以键入预定义的GUI或预定义的输入表单中。这种数据输入过程不仅效率低下,而且该技术固有地忽略了来自于个人想法、对话、会议或其组合的其它数据。
此外,典型的CRM GUI尝试使用各种图表、图解和图形来显示可操作数据。但是,这种传递数据的技术方法可能会使用户的认知能力不堪重负。此外,用户(诸如销售代表)在尝试理解图表、图解、图形和文本的同时可能正在执行多任务(例如驾驶、尝试读取其他信息等),这可能会使理解在CRM GUI中呈现的信息更加困难。
此外,在本文应认识到的是,现有CRM技术缺乏能够处理来自用户的口语数据并使用音频和视觉反馈中的一种或多种与用户交互的用户设备和相关计算体系架构。人们认识到,上述技术挑战以及其他挑战又导致CRM技术方面的其他困难和局限。
将理解的是,尽管许多示例涉及CRM技术和销售,但是本文所述的技术适用于其他数据使能系统,也称为数据辅助决策系统。例如,本文所述的设备、计算体系架构和计算功能可以在军事环境、安全环境、政治环境、医疗手术环境、公司运营环境、教育环境等中辅助。
即使在使用现有CRM技术时,销售人员、销售管理人员和高级执行主管仍在浪费大量的时间理解、鉴定、评估和预测销售机会。例如,当向销售人员呈现新机会时前述的浪费时间区域开始,以及浪费时间量持续累积并随着机会从一个销售过程步骤移动到下一个步骤而增加。
浪费时间来理解、鉴定、评估和预测销售机会的示例包括但不限于:
·销售人员正在处理已经被认为不适于公司提供的产品或服务的机会,但是销售人员应当寻求其他线索;
·销售人员正在研究机会组织,但没有意识到执行负责人或买方已经离开公司;
·销售人员正在花更多的时间研究目标机会组织、行业、机会涉及人员,而在面对面沟通(face to face leads)方面没有投入足够的时间;
·销售人员被迫将机会输入CRM系统中,对输入CRM系统中、但是对于合规性而言是必需的信息几乎没有信心;
·销售人员的经理评估他或她的销售团队中所有低到没有信心的机会,并且出于合规性目的,浪费时间试图评估和获得对这些低信心机会的信心;以及
·总裁和首席财务官评估低到没有信心的机会,意图在知道渠道收入数据不准确、预计收入不足以及将会出现意外收入差距的情况下预测收入。
当前CRM技术的上述技术局限还会进一步导致以下任何一个或多个:非预期的预计收入缺口和暂时性波动;最后一刻的预测收入推测更正;在几乎没有信心的情况下无法预测收入;对于整个销售组织的延迟销售(late sales)机会渠道差异和更正;对于销售团队的延迟销售机会渠道差异和更正;对于单个销售人员的延迟销售机会渠道差异和更正;无法及时将销售策略和战术建议反馈给特定销售人员;以及无法及时将转变为成功或失败的销售线索(leads)/早期机会的特定成功或失败营销活动信息从销售反馈到营销。
因此,本文描述一个或多个用户设备、计算体系架构和计算功能,以解决上述技术挑战中的一个或多个。
在示例实施例中,口语通信用户设备(例如,包括麦克风的设备,或者记录用户的语言输入的一些其他传感器)记录来自用户的口语信息(例如,用户的单词和声音)以与数据使能系统进行交互。数据使能系统处理语音数据以提取至少单词和口语语言,并相应地使用人工智能计算软件和数据科学算法来处理数据。从口语通信设备获得的数据与特定于组织(例如,给定公司)的内部数据和外部数据(例如,可从给定公司外部的数据源获得)相结合地、或者相比较地、或者同时以两种方式进行处理。计算体系架构从外部数据源和内部数据源摄取数据,以提供实时输出或接近实时的数据输出,或两者都输出。数据输出以音频反馈或视觉反馈或两者的形式呈现给用户。可以使用其它类型的用户反馈,包括触觉反馈。可以基于数据输出来发起或执行其它机器动作。
在示例实施例中,本文所述的设备、系统和方法向销售人员、销售经理和执行主管提供更智能、及时和可预测的销售机会和收入信息,同时鼓励和帮助销售人员在将信息输入传统CRM系统之前积极地参与机会。
转到图1,用户设备102与用户101交互。除其它以外,用户设备102尤其包括输入设备113和输出设备114。输入设备包括例如麦克风和键盘(例如,物理键盘或触摸屏键盘,或两者)。输出设备包括例如音频扬声器和显示屏。用户设备的非限制性示例包括移动电话、智能电话、平板电脑、台式计算机、膝上型计算机、电子书、车载计算机接口、可穿戴设备、增强现实设备和虚拟现实设备。用户设备与第三方云计算服务103通信,第三方云计算服务103通常包括服务器机器组。与多个用户112对应的多个用户设备111可以与第三方云计算服务103通信。
云计算服务103与一个或多个数据科学服务器机器104数据通信。这一个或多个数据科学服务器机器与内部应用和数据库105通信,其中内部应用和数据库105可以驻留在分开的服务器机器上,或者在另一个示例实施例中,驻留在数据科学服务器机器上。在示例实施例中,由数据科学服务器执行的数据科学计算以及内部应用和内部数据库被认为是给定组织或公司专有的,因此受到防火墙106的保护。可以使用当前已知的防火墙硬件和软件系统以及将来可知的防火墙系统。
数据科学服务器机器(也称为数据科学服务器)104与人工智能(AI)平台107通信。AI平台107包括一个或多个AI应用程序接口(API)108和AI极端数据(XD)平台109。如稍后将讨论的,AI平台运行适合于不同功能的不同类型的机器学习算法,并且数据科学服务器104可以经由AI API来利用和访问这些算法。
AI平台还连接到各种数据源110,其可以是第三方数据源或内部数据源,或两者。这些各种数据源的非限制性示例包括:新闻服务器、证券交易所服务器、IoT数据、企业数据库、社交媒体数据等。在示例实施例中,AI XD平台109摄取并处理来自各种数据源的不同类型的数据。
在示例实施例中,服务器103、104、105、107和可选的110的网络组成数据使能系统。除其它以外,数据使能系统尤其向用户设备提供与数据相关的信息。在示例实施例中,所有服务器103、104、105和107都驻留在云服务器上。
使用字母参考标记来提供关于图1的操作示例。在操作A处,用户设备102从用户101接收输入。例如,用户正在讲话,并且用户设备记录来自用户的音频数据(例如,语音数据)。用户可以记录或记住自己的想法,或为自己提供将来要完成的待办事项列表,或向数据使能系统提供命令或查询。在示例实施例中,在用户设备上激活数据使能应用,并且该应用被用户置于某种模式或者根据某些条件自主地置于某种模式。
在操作B处,用户设备将记录的音频数据传输到第三方云计算服务器103。在示例实施例中,用户设备还将其它数据传输到服务器103,诸如上下文数据(例如,记录消息的时间、关于用户的信息、在期间内记录消息的数据使能应用的模式等)。数据使能应用的模式的非限制性示例包括:待办事项列表模式;机会模式;介绍模式;会议记录(Meeting notes)模式;日历模式;新闻模式;以及针对不同用户应用的其他功能模式。这些服务器103采用包括人工智能的机器智能,以从音频数据中提取数据特征。除其它以外,这些数据特征尤其包括:文本、情感、情绪、背景噪声、命令或查询、或与所记录的数据的存储或使用或两者相关的元数据,或其组合。
在操作C处,服务器103将提取的数据特征和上下文数据发送到数据科学服务器104。在示例实施例中,服务器103还将原始记录的音频数据发送到数据科学服务器104以进行附加处理。
在操作D处,数据科学服务器104与内部应用和数据库105交互以处理接收到的数据。特别地,数据科学服务器存储并执行一个或多个各种数据科学算法以处理(来自操作C的)接收的数据,这可以包括处理从内部应用和数据库105获得的专有数据和算法。
作为操作D的替代或补充,数据科学服务器104在操作E和G处与AI平台107交互。在示例实施例中,数据科学服务器104具有处理接收到的数据的算法,并且这些算法将信息传输到AI平台以进行处理(例如,操作E)。传输到AI平台的信息可以包括:在操作C处由数据科学服务器接收的数据的部分或全部;在操作D处从内部应用和数据库获得的数据;由数据科学服务器通过在操作C处处理接收的数据、或在操作D处处理接收的数据、或同时执行这两种处理而获得的结果;或其组合。反过来,AI平台107在操作E处处理接收的数据,这包括在操作F处处理从各种数据源110摄取的信息。随后,AI平台107在操作G中将其AI处理的结果返回给数据科学服务器。
例如,基于数据科学服务器104在操作G处接收到的结果,数据科学服务器104更新其内部应用和数据库105(操作D)或其自身的存储器和数据科学算法,或两者。在操作H处,数据科学服务器104还向第三方云计算服务器104提供信息输出。所输出的信息可以是对用户在操作A处发起的查询的直接答复。在另一个示例中,替代地或者附加地,所输出的信息可以包括基于在操作A处接收的音频信息而有意或者无意地请求的辅助信息。在另一个示例中,替代地或者附加地,所输出的信息可以包括由在操作A处接收的音频信息有意或者无意地发起的一个或多个命令。例如,这些一个或多个命令影响用户设备102、或与第三方云计算服务器104通信的其它用户设备111或IoT设备、或其组合的操作或功能。
在操作H和I处的示例实施例中,将文本数据与数据使能应用的当前模式一起发送到用户设备102,并且用户设备102在操作J处本地使用合成语音库和文本来生成和输出口语音频数据。在用户设备接收文本数据、用户设备和当前模式之后,即使当前未激活这些文本数据,用户设备也会将该文本数据传播到数据使能应用的其他模式。
在替代示例实施例中,第三方云计算服务器104获取在操作H处接收的数据并将变换应用于该数据,使得变换后的数据适合于在用户设备102处输出。例如,服务器104在操作H处接收文本数据,然后服务器104将文本数据变换成口语音频数据。在操作I处,这种口语音频数据被传输到用户设备102,然后在操作J处,用户设备102播放音频数据或将其输出给用户。
对各种其他用户112及其用户设备111重复这个过程。例如,在操作K处,另一个用户对另一个用户设备讲话,以及在操作L处,这个音频数据被传递到数据使能平台中。在操作M处,音频数据被处理,以及音频响应数据由另一个用户设备接收。在操作N处,这个音频响应数据被另一个用户设备播放或输出。
在一些其他示例实施例中,作为口语输入的补充或者作为替代,用户在操作A处使用触摸屏手势、增强现实手势或移动、神经肌肉手势、脑信号输入、虚拟现实手势或移动、键入等中的一个或多个向用户设备102提供输入。在另一个示例实施例中,作为音频反馈的补充或者作为替代,用户设备102在操作J处提供视觉信息(例如,文本、视频、图片)。
转到图2,以不同的数据联网配置示出了服务器和设备的另一个示例。用户设备102、云计算服务器103、数据科学服务器104、AI计算平台107和各种数据源110能够经由诸如互联网的网络201发送和接收数据。在示例实施例中,数据科学服务器104以及内部应用和数据库105通过专用网络彼此通信,以增强数据安全性。在另一个示例实施例中,服务器104以及内部应用和数据库105通过相同的网络201彼此通信。
如图2中所示,用户设备102的示例部件包括麦克风、一个或多个其它传感器、音频扬声器、存储器设备、一个或多个显示设备、通信设备以及一个或多个处理器。
在示例实施例中,用户设备的存储器包括作为数据使能应用的一部分的各种“机器人”,其也可以驻留在用户设备上。在示例方面,一个或多个机器人被视为聊天机器人或电子代理。这些机器人包括也驻留在第三方云计算服务器103上的处理。可以适用于本文所述的系统的聊天机器人技术的示例包括但不限于商品名Siri、Google Assistant和Cortana。在示例方面,本文使用的机器人具有专注于各种行业的各种语言词典(例如,包括但不限于销售和营销术语等)。在示例方面,本文使用的机器人被配置来理解特定于各种行业(例如,包括但不限于销售和营销等)的问题和答案。在示例实施例中,聊天机器人可以访问与不同人相关联的不同语音库,并且可以使用语音库中的给定一个使用合成语音讲话。
在示例方面,本文使用的机器人学习用户的独特语音,因此,机器人使用该语音来学习可以特定于用户的行为。这种预期的行为进而被数据使能系统用来预期与给定主题相关的未来问题和答案。这种识别的行为例如还被用于提出动作建议以帮助用户实现结果,并且这些动作建议是基于同一行业中成功用户的识别的行为(例如,经由机器学习识别的)。在示例应用中,问题和答案针对给定的销售机会,而建议和行为与实现销售和营销目标相关。
在示例方面,机器人应用机器学习来识别用户语音中的独特数据特征。机器学习可以包括深度学习。用于提取语音特征的当前已知和将来可知的算法适用于本文所述的原理。语音数据特征的非限制性示例包括以下一个或多个:音调、频率(例如,也称为音色(timbre));响度;单词或短语被说出的速率(例如,也称为节拍(tempo));语音读音(phonetic pronunciation);词汇(例如,单词的选择);语法(例如,句子结构的选择);发声(articulation)(例如,发音(pronounciation)的清晰度);节律(rhythm)(例如,长短音节的模式)和旋律(例如,语音的起伏)。如上所述,这些数据特征可以用于识别用户的行为和意义,并在将来预测用户的内容、行为和意义。应认识到的是,机器学习中的预测操作包括用对应的似然值来计算表示某些预测特征(例如,与内容、行为、意义、动作等有关)的数据值。
用户设备可以附加地或可替代地从用户接收视频数据或图像数据,或两者,以及经由机器人将这种数据传输到数据使能平台。因此,数据使能平台被配置为应用不同类型的机器学习,以从不同类型的接收数据中提取数据特征。例如,第三方云计算服务器使用自然语言处理(NLP)算法或深度神经网络或两者,来处理语音和文本数据。在另一个示例中,第三方云计算服务器使用机器视觉或深度神经网络或两者,来处理视频和图像数据。
转到图3,示出了口语通信设备(OCD)301的示例实施例,其与用户设备102结合操作,以减少由用户设备102执行数据使能功能所消耗的计算资源(例如,硬件和处理资源)的量,如本文所述。在一些情况下,与用户设备102相比,OCD 301提供了更好的或更多的传感器。在一些情况下,与用户设备102相比,OCD 301配备有更好或更多的输出设备。例如,OCD包括一个或多个麦克风、一个或多个相机、一个或多个音频扬声器,以及一个或多个可以将光投射到表面上的多媒体投影仪。OCD还包括处理设备和存储器,其能够处理感测的数据(例如,语音数据、视频数据等)以及处理已经由数据使能平台303输出的数据。如上所述,数据使能平台303包括例如服务器103、104、105和107。
如图3中所示,OCD 301经由无线或有线数据链接与用户设备进行数据通信。在示例实施例中,用户设备102和OCD 301使用蓝牙协议进行数据通信。用户设备102与网络201进行数据通信,网络201进而与数据使能平台303进行通信。在操作中,当用户讲话或拍摄视频时,OCD 301记录音频数据或视觉数据,或两者。例如,OCD 301还预处理记录的数据,例如用于提取数据特征。附加地或者替代地,所记录的数据的预处理可以包括数据压缩。该处理后的数据、或原始数据、或两者被传输到用户设备102,并且用户设备经由网络201将这种数据传输到数据使能平台303。用户设备102还可以将上下文数据与由OCD 301获得或产生的数据一起传输。这种上下文数据可以由在用户设备102上运行的数据使能应用或由OCD 301生成。
来自数据使能平台303的输出被发送到用户设备102,然后用户设备102可以或可以不将输出传输到OCD 301。例如,某些视觉数据可以直接显示在用户设备102的显示屏上。在另一个示例实施例中,OCD接收来自用户设备的输入并提供用户反馈(例如,经由扬声器播放音频数据、经由内置显示屏或内置媒体投影仪显示视觉数据,等等)。
在示例实施例中,OCD 301与用户设备102处于数据连接,并且OCD 301本身具有与网络201的直接连接以与数据使能平台303通信。
类似的功能适用于与台式计算机302数据通信的OCD 301的其他实例。特别地,在本文应认识到的是,许多现有的计算设备和用户设备未配备足够质量的传感器,也未配备用于从感测到的数据中高效地提取特征的处理硬件。因此,OCD 301补充并增强这些计算设备和用户设备的硬件和处理能力。
在示例实施例中,静默OCD 304的不同示例被用于记录用户的语言输入。静默OCD304包括检测其它用户输入(但不是语音)的传感器。静默OCD 304中的传感器的示例包括以下中的一个或多个:脑信号传感器、神经信号传感器和肌肉信号传感器。这些传感器检测静默的手势、想法、微动作等,这些静默的手势、想法、微动作等被翻译成语言(例如,文本数据)。在示例实施例中,这些传感器包括触摸用户的面部或头部的部分的电极。换句话说,用户可以提供语言输入而不必对着麦克风讲话。例如,静默OCD 304是戴在用户头部的可穿戴设备。静默OCD 304有时也被称为静默言语接口或脑计算机接口。例如,静默OCD 304允许用户在会议(参见图4A)中或在公共场合以私有方式与其设备进行交互。
转到图4A,示出了OCD 301以及对应的数据使能应用用于与各种人的会议记录模式中,每个人具有其自己的相应用户设备401、402、403、404、405、304。OCD还可以用于记录数据(例如,音频数据、视觉数据等),并将数据提供给没有其自己的用户设备的人。OCD记录会议的口语对话,例如做会议记录。在另一方面,OCD还链接到用户设备,以例如实时地向他们提供关于会议期间讨论的主题的信息。OCD还减少了单体用户设备上的计算资源(例如,硬件和处理资源)。
在示例实施例中,用户406穿戴静默OCD 304以与OCD 301私下交互。例如,捕获用户的脑信号、神经信号、肌肉信号或其组合,将其合成为言语。以这种方式,用户406可以有时向OCD 301给出私有的或静默的记录、命令、查询等,而在其它时候,可以向OCD 301提供被会议中的其他用户听到的公开的记录、命令、查询等。
在示例实施例中,用户设备401、402、403、404、405、304经由无线连接或有线连接与OCD 301进行数据通信。在示例实施例中,用户设备401、402中的一些不具有互联网接入,但是其它用户设备403、404、405确实通过分开的数据连接X、Y和Z具有互联网接入。因此,OCD 301使用这些数据连接X、Y和Z中的一个或多个向数据使能平台303传输和从其接收数据。
OCD可以基于可用带宽来使用不同的通信路由,这可以由用户设备指示。
例如,OCD将要传输到数据使能平台的数据集解析为三个分开的数据线程,并将这些线程分别传输到用户设备403、404和405。这些数据线程进而由用户设备通过相应的数据连接X、Y和Z传输到数据使能平台303,数据使能平台303将来自分开的线程的数据重新构造为原始数据集。
可替代地,OCD仅使用数据连接中的一个(例如,X),因此通过用户设备403来汇集数据。
在另一个示例实施例中,OCD指定与用户设备403和404对应的数据连接X和Y,用于将数据传输到数据使能平台303。OCD指定与用户设备405对应的数据连接Z,用于从数据使能平台303接收数据。
由OCD获得的、源自用户设备或者源自数据使能平台的数据可以在与OCD通信的用户设备当中分布。OCD还可以向附近的用户提供中央用户反馈(例如,音频数据、视觉数据等)。
因此,应认识到的是,OCD充当用户组中央的本地输入和输出设备。在另一个示例方面,OCD还充当本地中央处理设备以处理感测的数据,或处理来自数据使能平台的数据,或两者。在另一个示例方面,OCD还充当本地中央通信集线器。
在示例实施例中,替代地或者附加地,OCD具有其自己的网络通信设备,并且经由网络201而与数据使能平台303之间发送和接收数据。
OCD结合数据使能平台303提供各种功能。在示例操作中,OCD提供音频输出,音频输出口语传达会议日程表。在示例操作中,OCD记录会议期间说出的讨论项目,并自动地创建包含会议纪要的文本。在示例操作中,OCD监视讨论的流程和当前时间,并在适当的时间(例如,在检测暂停、硬性休会、句子结束等中的一个或多个之后),OCD插入以关于移动到日程表中列举的下一个日程表项目提供相关主题的音频反馈。例如,暂停是给定的静默时间段。
在示例操作中,OCD监视正在讨论的主题和概念,并实时地将辅助和相关数据智能分发给用户设备。在示例操作中,OCD监视正在讨论的主题和概念,并实时地确定是否要共享有关的相关新闻或事实,以及如果要共享,则通过提供有关的相关新闻或事实的音频或视频输出(或两者)来中断对话。在示例方面,OCD在适当的时间插入和提供音频或视觉输出(或两者),诸如在检测暂停暂停、硬性休会、句子结束等中的一个或多个之后。
在另一个示例操作中,OCD监视正在讨论的主题和概念,并实时地确定用户是否提供了不正确的信息,以及如果是,则通过提供正确信息的音频或视觉输出(或两者)来中断对话。例如,通过将讨论的主题与可信数据源(例如,报纸、内部数据库、政府网站等)进行实时比较来确定不正确性。
在另一个示例操作中,OCD在用户之间的会议期间向不同的用户设备提供不同的反馈,以适应特定于不同用户的兴趣和目标。
在另一个示例操作中,OCD使用相机和麦克风来记录数据,以确定各种用户的情绪和情感,这有助于通知决策。
在另一个示例操作中,每个用户可以使用其用户设备并行地与OCD或数据使能平台或两者交互,以在会议期间进行自己的研究或做私有记录(或两者)。
在另一个示例方面,给定用户的私有记录可以使用他们自己的设备(例如,如静默OCD304和设备401的设备)进行,以及公共记录可以基于由OCD 301在阈值可听见级别下记录的讨论进行。例如,私有记录还可以口语记录或使用静默OCD 304通过静默言语记录。对于给定用户,数据使能平台或他们自己的用户设备将编制和呈现基于创建或记录时间组织的给定用户的私有记录以及公共记录两者的编制结果。例如:
@t1:公共记录;
@t2:公共记录+给定用户的私有记录;
@t3:公共记录;
@t4:给定用户的私有记录;
@t5:公共记录+给定用户的私有记录。
在另一个示例实施例中,OCD包括一个或多个媒体投影仪以将光图像投影在周围表面上。
应认识到的是,虽然OCD的壳体被示为圆柱形,但在其它示例实施例中,其具有不同的形状。
转到图4B,处于位置A的用户正在与一个或多个OCD交互,而处于分开的位置(即,位置B)中的用户正在与另一个OCD交互。虽然这些用户处于不同的位置,但他们可以一起通过数字语音和图像数据彼此交互。数据使能平台处理他们的数据输入,这可以包括语音数据、图像数据、物理手势和物理移动。这些数据输入然后被数据使能平台用于向用户提供反馈。
在位置A处,两个OCD单元301彼此进行数据通信,并投影光图像区域411、410、409、408。这些投影的光图像区域以连续的方式定位,以提供实际上能够围绕用户或以弧形方式绕在用户周围的单个大的投影光图像区域。这将产生增强现实或虚拟现实空间。例如,一个OCD单元投影光图像区域411和410,而另一个OCD单元投影光图像区域409和408。
而且,在位置A处还有戴着OCD 301a的另一个实施例的用户407。OCD 301a的这个实施例包括麦克风、音频扬声器、处理器、通信设备和其它电子设备,以跟踪用户的手势和移动。例如,这些电子设备包括陀螺仪、加速度计和磁力计中的一个或多个。在示例实施例中,可以使用三角测量来跟踪OCD 301a,该三角测量是根据来自位于不同位置(但都在位置A内)的两个OCD单元301的无线电能量信号计算出来的。
位置A处的用户可以与位置B处的用户交谈和看见该用户。
相反,位置B处的用户戴着作为OCD 301b的另一个实施例的虚拟现实或增强现实耳机,并使用它与位置A处的用户交谈和看见该用户。OCD实施例301b在用户眼睛附近或用户眼睛上投影或显示图像。除了其它电子部件以外,OCD实施例301b尤其还包括麦克风、音频扬声器、处理器和通信设备。使用OCD实施例301b,用户能够看到相同的图像被投影到图像区域411、410、409和408中的一个或多个上。
转到图5,示出了容纳在OCD 301内的示例部件。所述部件包括一个或多个中央处理器502,与诸如传感器501的各种其它设备交换数据。所述传感器包括例如一个或多个麦克风、一个或多个相机、温度传感器、磁力计、一个或多个输入按钮以及其它传感器。
在示例实施例中,存在多个麦克风,这些麦克风被定向为面向彼此不同的方向。以这种方式,可以确定音频源的相对方向或相对位置。在另一个示例实施例中,存在被调谐或设置为记录不同频率范围的音频波的多个麦克风(例如,用于第一频率范围的麦克风、用于第二频率范围的麦克风、用于第三频率范围的麦克风等)。以这种方式,可以跨更大的频率范围记录更清晰的音频数据。
在示例实施例中,存在被定向为面向不同方向的多个相机。以这种方式,OCD可以获得360度的视野。在另一个示例中,一个或多个相机具有第一分辨率的第一视野,以及一个或多个相机具有第二分辨率的第二视野,其中第一视野大于第二视野,以及第一分辨率低于第二分辨率。在另一个示例方面,具有第二视野和第二分辨率的一个或多个相机可以被机械地定向(例如,倾斜(pitched)、偏斜(yawed)等),而具有第一视野和第一分辨率的一个或多个相机是固定的。以这种方式,可以从更大的角度(例如,周围区域、人的身体及其身体姿势)同时拍摄视频和图像,并且可以针对某些区域(例如,人的脸部及其面部表情)同时拍摄高分辨率的视频和图像。
OCD还包括一个或多个存储器设备503、灯505、一个或多个音频扬声器506、一个或多个通信设备504、一个或多个内置显示屏507,以及一个或多个媒体投影仪508。OCD还包括一个或多个图形处理单元(GPU)509。GPU或其它类型的多线程处理器被配置为执行AI计算,诸如神经网络计算。GPU还例如被用于处理由(一个或多个)多媒体投影仪或(一个或多个)显示屏507或两者输出的图形。
在示例实施例中,通信设备包括一个或多个设备到设备通信收发器,其可用于与一个或多个用户设备进行通信。例如,OCD包括蓝牙收发器。在另一个示例方面,通信设备包括被配置为与网络201通信的一个或多个网络通信设备,诸如网卡或WiFi收发器,或两者。
在示例实施例中,在OCD上,多个音频扬声器506被定位为面向不同的方向。在示例实施例中,存在被配置为播放不同频率范围的声音的多个音频扬声器。
在示例实施例中,内置显示屏在OCD壳体周围形成弯曲的表面。在示例实施例中,存在在不同方向上投射光的多个媒体投影仪。
在示例实施例中,OCD能够使用板载硬件和机器学习算法来本地预处理语音数据、视频数据、图像数据和其它数据。这减少了传输到数据使能平台303的数据量,从而减少带宽消耗。这也减少了数据使能平台所需的处理量。
图6和图7示出数据使能平台的示例计算体系架构,其替代上面讨论的体系架构。在另一个示例中,图6和图7所示的这些计算体系架构被整合到上面讨论的体系架构中。
转到图6,提供示例计算体系架构601,用于收集数据并对该数据进行机器学习。例如,该体系架构601在AI平台107中使用。
体系架构601包括一个或多个数据收集器模块602,数据收集器模块602获得各种源的数据,诸如IoT设备、企业软件、用户生成的网站和数据网络以及公共网站和数据网络。IoT设备的非限制性示例包括用于确定产品状况(例如,产品的数量、产品的当前状态、产品的位置等)的传感器。IoT设备还可以被用于确定用户的状态(例如,可穿戴设备)。IoT设备还可以被用于确定有助于公司提供产品或服务或两者的能力的装备、环境和设施的状态。企业软件可以包括CRM软件和销售软件。用户生成的数据包括社交数据网络、消息通信应用、博客和在线论坛。公共网站和数据网络包括政府网站和数据库、银行组织网站和数据库、经济和金融事务网站和数据库。可以认识到的是,可以由数据收集器模块收集其它数字数据源。
所收集的数据经由消息总线603被传输到流分析引擎604,引擎604应用各种数据变换和机器学习算法。例如,流分析引擎604具有转换传入数据、应用语言检测、向传入数据添加自定义标签、检测趋势以及从图像和视频中提取对象和意义的模块。应认识到的是,其它模块可以被结合到引擎604中。在示例实施方式中,使用以下大数据计算方法中的一种或多种来构造引擎604:NiFi、Spark和TensorFlow。
NiFi使系统之间的数据流自动化并进行管理。更特别地,它是管理从任何源到任何位置的数据流的实时集成数据物流平台。NiFi与数据源无关,以及支持不同格式、架构、协议、速度和尺寸的不同且分布式的源。在示例实施方式中,NiFi在Java虚拟机体系架构内操作,以及包括流控制器、NiFi扩展、内容存储库、流文件存储库和出处存储库。
Spark,也称为Apache Spark,是用于大数据的集群计算框架。Spark的特征中的一个是执行流分析的Spark Streaming。它以小批量摄取数据,并对这些小批量数据执行弹性分布式数据集(RDD)转换。
TensorFlow是谷歌(Google)开发的用于机器智能的软件库。它使用在多个中央处理器(CPU)、GPU和张量处理单元(TPU)上操作的神经网络。
还提供了离线分析和机器学习模块610,以摄取在较长时间段内(例如,从数据湖607)收集的大量数据。这些模块610包括以下中的一个或多个:行为模块、推理模块、会话(sessionization)模块、建模模块、数据挖掘模块和深度学习模块。这些模块也可以例如通过NiFi、Spark或TensorFlow或其组合实现。与流分析引擎604中的这些模块不同,由模块610完成的分析不是流。结果被存储在存储器(例如,高速缓存服务611)中,然后被传输到流分析引擎604。
流分析引擎604输出的结果分析、理解数据和预测数据经由消息总线605传输到摄取器606。从离线分析和机器学习模块610输出的数据也被传输到摄取器606。
摄取器606将数据组织并存储到包括大型数据库框架的数据湖607中。这些数据库框架的非限制性示例包括Hadoop、HBase、Kudu、Giraph、MongoDB、Parquet和MySQL。从摄取器606输出的数据也可以输入到搜索平台608中。搜索平台608的非限制性示例是基于Apache Lucene构建的Solr搜索平台。例如,Solr搜索平台提供分布式索引、负载平衡查询以及自动故障转移和恢复。
来自数据湖和搜索引擎的数据可由API服务609访问。
转到图7,示出在数据已经被存储在数据湖607中并被索引到搜索平台608中之后使用的另一个体系架构701。
核心服务模块702从搜索平台608和数据湖607获得数据,并将数据科学和机器学习服务、分布式处理服务、数据持久性服务应用于所获得的数据。例如,数据科学和机器学习服务是使用以下一种或多种技术实现的:NiFi、Spark、TensorFlow、CloudVision、Caffe、KAIdi和Visage。应认识到的是,其它当前已知和将来可知的数据科学或机器学习平台可以用于执行算法以处理数据。分布式处理服务的非限制性示例包括NiFi和Spark。
API服务模块609包括与核心服务模块702和应用704交互的各种API。例如,API服务模块609使用以下一种或多种协议与应用交换数据:HTTP、网络套接字、通知和JSON。应认识到的是,可以使用其它当前已知或将来可知的数据协议。
模块609包括访问各种API服务的API网关。API服务模块的非限制性示例包括优化服务模块、搜索服务模块、算法服务模块、配置文件服务模块、异步服务模块、通知服务模块和跟踪服务模块。
在示例实施例中,模块609和702是A1平台107的一部分,以及应用704驻留在数据科学服务器104、内部应用和数据库105以及用户设备102中的一个或多个上。应用的非限制性示例包括企业业务应用、A1应用、系统管理应用和智能设备应用。
转到图8,示出根据本文所述的实施例的AI XD平台109的示例实施例,AI XD平台109包括由不同大小的框表示的各种类型的智能设备。AI XD平台109包括例如多个智能设备、智能设备消息总线和网络。各种智能设备可以分散在整个平台中。类似于具有神经元和突触的人脑,神经元可以被视为类似于智能边缘节点,突触可以被视为类似于智能网络。因此,智能边缘节点是分布式的,因此支持分布式决策的概念——执行XD决策科学而产生建议和行动的重要步骤和实施例。但是,与人脑的突触不同,本文所公开的平台109中的智能网络可以具有嵌入式“智能”,其中智能可以指执行数据或决策科学、执行相关算法以及与其他设备和网络通信的能力。
智能边缘节点是一种类型的智能设备,可以包括各种类型的计算设备或部件,诸如处理器、存储器设备、存储设备、传感器或具有这些部件中的至少一个作为部件的其他设备。智能边缘节点可以将这些的任何组合作为部件。计算设备内的每个上述部件可以或可以不具有嵌入在硬件中的数据或决策科学,诸如在GPU中运行的微码数据或决策科学、在操作系统和应用内运行的数据或决策科学、以及作为对硬件和软件计算设备的补充的软件运行的数据或决策科学。
如图8所示,AI XD平台109可以包括各种智能设备,包括但不限于,具有WiFi电路的算法可闪存微型相机、具有WiFi电路的算法可闪存电阻和晶体管、具有WiFi电路的算法可闪存ASIC、算法可闪存步进电机和控制器WiFi电路、具有WiFi电路的算法可闪存传感器以及ML算法创建和收发器系统。以上列出的智能设备可以是“算法可闪存的(AlgoFlashable)”,表示可以将算法(例如,与数据或决策科学相关的算法)安装、移除、嵌入、更新、加载到每个设备。智能设备的其他示例包括用户设备和OCD。
平台109中的每个智能设备可以执行通用或特定类型的数据或决策科学,以及执行不同级别(例如,复杂级别)的计算能力(数据或决策科学的计算、存储等)。例如,与具有WiFi电路的算法可闪存电阻和晶体管相比,具有WiFi电路的算法可闪存传感器可以执行更复杂的数据科学算法,反之亦然。每个智能设备都可以具有智能部件,包括但不限于智能处理器、RAM、磁盘驱动器、电阻、电容器、继电器、二极管和其他智能部件。智能网络(在图8中表示为双向箭头)可以包括有线和无线网络两者的一种或多种组合,其中智能网络包括智能网络设备,其配备有或被配置为应用数据或决策科学能力。
每个智能设备可以被配置为自动地和自主地查询其他智能设备,以便基于或与一个或多个其他智能设备和/或第三方系统一起更好地分析信息和/或应用建议和行动。这示范了在假设该特定时刻可获得所有信息的情况下采取行动之前通过使用尽可能多的数据以及数据或决策科学来应用完美或接近完美的信息。
每个智能设备还可以被配置为基于本地和全局参数来预测和确定哪个或哪些有线或无线网络最适宜传送信息,所述本地和全局参数包括但不限于业务规则、技术指标、网络流量状况、所提议的网络容量和内容、以及优先级/严重性级别,仅举几例。智能设备可以可选地选择多种不同的网络方法以串行或并行方式发送和接收信息。智能设备可以可选地例如通过提供或实现安全协议,确定某些网络中延迟过长或某个网络已受到损害,并且可以使用不同的加密方法重新路由内容和/或重新路由到不同的网络。智能设备可以可选地选择经由例如节点和网络为其内容定义路径。智能设备可以可选地选择使用智能设备消息总线将某些类型的消息(例如,业务告警、系统故障)传送给其他智能设备。一个或多个智能设备消息总线可以连接多个设备和/或网络。
每个智能设备可以可选地具有降低噪声的能力,尤其是减少极端数据的能力,特别是在本地级别或通过整个平台109。这可以使平台109能够识别出明显的趋势并更快做出抢先的业务和技术建议和行动,特别是因为较少重复的数据或极端数据允许更快地识别和建议。
每个智能设备可以包括数据或决策科学软件,包括但不限于操作系统、应用和数据库,直接支持数据或决策科学驱动的智能设备动作。Linux、Android、MySQL、Hive和Titan或其他软件可以驻留在片上系统设备上,使得本地数据或决策科学可以查询本地的、设备上的、相关的数据,以作出更快的建议和行动。
每个智能设备可以可选地具有智能策略和规则系统。智能策略和规则系统提供管理策略、指南、业务规则、正常操作状态、异常状态、响应、关键性能指标(KPI_指标)以及其他策略和规则,使得分布式IDC设备可以遵循上面提及的完美信息指引前提来进行本地的和知情的自主操作。可以存在多个智能策略和规则系统(例如NIPRS),并且上述系统之间可以具有相同或不同的策略和规则,或者可替代地可以具有不同程度或子集的政策和规则。当存在可能不适于其他域或地理区域的本地化业务和技术条件时,后一种选择是非常重要的。
转到图9,提供了用于使用数据使能平台处理数据的示例计算机可执行指令。在方框901处,用户设备或OCD或两者接收输入,以选择驻留在用户设备上的应用(例如,数据使能应用)的功能或模式。在方框902处,用户设备或OCD或两者获得来自用户的语音数据。在方框903处,用户设备或OCD或两者将相同的数据传输到第三方云计算服务器。用户设备还传输例如上下文数据。在方框904处,第三方云计算服务器处理语音数据以获得数据特征。
所提取的数据特征的非限制性示例包括文本、情感、动作标签(例如,命令、请求、问题、紧急程度等)、语音特征等。上下文特征的非限制性示例包括用户信息、设备信息、位置、数据使能应用的功能或模式、以及日期和时间标签。
在替代示例实施例中,语音数据在用户设备上本地处理以生成文本(例如,使用言语到文本处理),以及文本被发送到服务器以用于进一步处理。
所提取的数据特征和上下文特征被传输到数据科学服务器(方框905)。原始数据(例如,原始音频数据)也可以被传输到数据科学服务器。在方框906处,数据科学服务器处理该接收到的数据。
在方框907处,数据科学服务器与AI平台、或内部应用和内部数据库、或两者交互以生成一个或多个输出。
然后,数据科学服务器将一个或多个输出发送到第三方云计算服务器(方框908)。在一个示例实施例中,第三方云计算服务器对输出进行后处理以提供或编制文本、图像、视频或音频数据或其组合(方框909)。在方框910处,第三方云计算服务器将经后处理的输出传输到相关的(一个或多个)用户设备或(一个或多个)OCD。在方框911处,(一个或多个)用户设备或(一个或多个)OCD或两者例如经由音频设备或显示设备或两者输出经后处理的输出。
在替代实施例中,源于方框908,在方框912处,第三方云计算服务器将输出传输到一个或多个相关设备(例如,用户设备或OCD)。然后,在一个或多个相关设备上本地执行后处理(方框913)。然后,这些经后处理的输出经由音频设备或视觉设备或两者,在一个或多个用户设备或OCD上输出(方框911)。
返回到方框907,在示例方面,数据科学服务器从内部应用和内部数据库中拉取数据,或者基于由数据科学服务器产生的结果来更新内部应用和内部数据库,或者执行以上两种操作(方框914)。
在另一个示例方面,数据科学服务器将数据和命令传输到AI平台,以将AI处理应用于所传输的数据。作为回报,AI平台将外部和本地信息以及数据智能传输到数据科学服务器。这些操作在方框915中示出。
可以认识到的是,方框907、914和915中的任何两个或更多个操作可以相互影响。在示例实施例中,在方框915的操作中使用方框914的输出。在另一个示例实施例中,在方框914的操作中使用方框915的输出。
在本文应认识到的是,本文所述的设备、系统和方法使得能够提供可以用于各种行业的可操作数据。在其他适用行业中,一个示例行业是销售和营销。
销售人员、销售管理人员和高级执行主管仍在浪费大量时间来理解、鉴定、评估和预测销售机会。与数据使能平台组合的设备为上述人员提供“完美信息”,这是来自于经济学家的一个概念。
应用完美信息的软件示例是彭博终端。该软件平台集成并显示所有全球交易所(股票市场、货币、自然资源等)、影响行业和公司的全球新闻、以及在这些交易所买卖的能力,从而为交易者提供最新的全球数据“完美信息”进行交易。
以类推的方式,本文所述的数据使能平台与用户设备或OCD或两者相结合,提供完美信息,以帮助销售组织整合和显示与销售和销售机会相关的所有信息。例如,用户与用户设备或OCD上的机器人交谈。
机器人通过自主地捕获、分析、推荐和采取与线索和机会相关的行动,与销售人员、销售经理和执行主管互动。示例包括:创建由销售人员向机器人说出的新线索和机会;机器人与销售人员谈论机会公司的新执行负责人;机器人与销售人员谈论竞争产品中发布的、可能会增加机会完成风险的新功能;机器人与销售人员进行对话,以提供关于机会的特定信息(例如,执行机会赞助、确认的预算等),以将机会从一个销售流程步骤移动到下一步骤;以及机器人与销售人员进行对话,请求允许自动地将机会移动到CRM系统中,因为现在所有信息都已经过验证、并且已准备好用于CRM系统和应用。应理解的是,可以使用本文所述的设备、系统和方法来执行其他示例动作和交互。
在示例方面,有N个专用机器人在数据使能平台、用户设备或OCD或它们的组合内驻留和操作。
这些销售和营销机器人提出基于分布式和自治决策科学的建议和动作,这些建议和动作随着机器人和销售人员的互动越来越多,将随着时间的推移变得越来越智能和快速。特别地,分配给特定销售人员的机器人开始学习销售人员的模式和行为,随后基于销售人员的行为、喜欢和不喜欢而提出建议并提供机会更新。机器人还推荐销售组织中的其他顶级销售人员的动作和最佳实际做法,以帮助给定的销售人员提高他们自己的销售流程并最终帮助更快成交。
在优选实施例中,机器人是具有经由文本语言或口语语言或两者与用户进行交互的语言能力的聊天机器人。但是,在其它示例实施例中,机器人不一定与用户聊天,但是仍然影响呈现给用户的数据的显示。
转到图10,提供了驻留在给定用户设备1001、数据科学服务器1004以及内部应用和数据库1006上的软件模块的示例实施例,这些软件模块适于使能销售和营销动作。
例如,数据使能应用1002驻留在用户设备上,并且该应用包括:待办事项列表模块、会议记录模块、机会新闻模块、机会模块、介绍模块和配置模块。用户设备还包括用户界面(UI)模块1003,模块1003可以是数据使能应用1002的一部分,或者可以与数据使能应用1002交互。UI模块包括一个或多个聊天机器人、被关联以由一个或多个聊天机器人利用的一个或多个语音库/模块、一个或多个GUI、一个或多个消息通信应用、一个或多个触觉反馈模块或其组合。
数据科学服务器1004包括数据科学算法库、待办事项列表模块、会议记录模块、机会新闻模块、机会模块、介绍模块、配置模块、以及策略和规则引擎。例如,策略和规则引擎包括特定于使用数据使能平台的公司或组织的策略和规则。
在示例方面,策略和规则引擎是数据科学驱动的系统,自动地提示销售人员逐步将与机会相关的数据添加到机会中。机会数据可以采用以下形式:从销售使能平台自主地收集的数据、由销售人员直接输入(口头或打字)的数据、会议期间捕获的数据(音频到文本到NLP处理)或上述任何组合。
在另一个示例方面,该策略和规则引擎有助于确保销售人员遵守销售组织的销售流程,使得在将完整及时的机会信息移动到传统CRM应用之前将数据正确、准确且及时地提交到智能销售使能系统中。与在最后时刻并且随意地尝试将机会数据召回(recall)并输入到CRM系统中相反,遵循这种方式自主地执行这些销售流程步骤会提高数据的准确性和及时性。
在其他示例实施例中,策略和规则引擎可以驻留在用户的智能手机上,或公共云或私有云中,或员工的数据中心中,或上述任何组合中。
关于数据科学算法库,应认识到的是,本文的数据科学是指以包括但不限于算法、机器学习、人工科学、神经网络等形式应用于数据的数学和科学。数据科学的结果包括但不限于商业和技术趋势、推荐、动作、趋势等。
在示例方面,数据科学算法库中包括显露(Surface)、趋势、推荐、推断、预测和行动(STRIPA)算法。这一系列STRIPA算法值得一起使用并且被用于将特定类型的数据科学分类到相关的类。
数据科学库中的其它数据科学算法的非限制性示例包括:Word2vec表示学习;情感(例如,多模态、方面、上下文等);否定提示,范围检测;主题分类;TF-IDF特征向量;实体提取;文档摘要;网页排名;模块化;诱导子图;双图传播;用于推断的标签传播;广度优先搜索;特征中心度,输入/输出度;基于GPU的Monte Carlo Markov链(MCMC)模拟;利用区域卷积神经网络(R-CNN)的深度学习;Torch、Caffe和基于GPU的Torch(Torch on GPU);徽标检测;ImageNet、GoogleNet目标检测;SIFT、感兴趣区域语义分割网络(SegNet Regions ofinterest);组合NLP和图像的序列学习;K均值、层次聚类;决策树;线性、逻辑回归;相关性关联(Affinity Association)规则;朴素贝叶斯;支持向量机(SVM);趋势时间序列;突发异常检测;KNN分类器;语言检测;表面语境情感、趋势、推荐;新兴趋势;独特之处(WhatsUnique)查找器;实时事件趋势;趋势洞察;相关查询建议;用户、产品、品牌、公司的实体关系图;实体推断:地理、年龄、性别、人口统计数据等;主题分类;基于方面的NLP(Word2Vec、NLP查询等);分析和报告;视频和音频识别;意图预测;最佳结果路径;基于属性的优化;搜索和发现;以及基于网络的优化。
在其它示例实施例中,上述数据科学可以驻留在用户的智能电话上、公共云或私有云中、或员工的数据中心中,或上述任何组合。
继续图10,UI模块1005也驻留在数据科学服务器1004上.
内部应用和数据库1006还包括被用于帮助销售和营销动作的各种软件和数据库。这些软件包括CRM软件、电子邮件软件、日历软件、联系人列表软件、项目管理软件、会计软件和库存软件。
转到图11,示例数据流程图示出不同模块之间的数据流。数据可以以与图11所示不同的各种组合在待办事项列表模块1101、机会模块1102、介绍模块1103、会议记录模块1104和机会新闻模块1106之间流动。
但是,图11的确提供了示例实施例。会议记录模块记录会议记录(例如,经由音频输入)并生成会议数据。所述会议数据被传输到介绍模块、机会模块和待办事项列表模块。在示例实施例中,会议数据包括在会议设置中获得的数据(例如参见图4A)。
所述会议数据由介绍模块使用,以确定相关的联系人信息和关系数据,所述相关的联系人信息和关系数据被传输到机会模块和待办事项列表模块。
机会模块使用关系数据和会议数据来确定重要的机会。机会模块还从机会新闻模块获得数据,以确定新机会和重要机会。
待办事项列表模块从机会模块获得机会潜力数据、从介绍模块获得联系人信息、从会议记录模块获得会议数据,以生成动作项目并为销售人员确定动作项目的优先级。例如,创建动作项目以与第一位特定联系人共进午餐,讨论与第二位特定联系人的潜在机会,假设有销售机会,则将该动作项目的优先级确定为紧急。待办事项列表模块与日历模块1108交互以自动地为动作安排计划。
机会新闻模块能够与其他模块交互以获得相关的外部数据或相关的内部数据,或两者。
例如,用户处于当前给定模式(例如会议记录模式)。该用户的输入产生来自于数据使能应用的响应,该响应包括文本数据、语音库的指示和当前模式。用户设备接收该响应,并将文本传播到与当前未激活的其他模式相关联的其他模块(例如,待办事项列表模块、机会模块、介绍模块)。以这种方式,其他模块接收与它们的功能相关的更新数据。
在示例实施例中,当用户查看给定会议时,用户可以查看会议记录、由待办事项列表模块生成的相关动作项目、由机会模块生成的相关机会、由介绍模块生成的相关热情介绍、以及从机会新闻模块获得的相关新闻。
在示例方面,这些模块使用机器学习对适合组织的机会进行学习和建模;通过持续的追加销售(upsell)/交叉销售(cross sell)客户机会,对销售人员从机会出现之日起应当执行的正确任务进行学习和建模;对其他销售人员执行的可能适用于销售人员的最佳实际做法进行学习和建模;对销售人员针对每个机会应当每天、每周等执行的任务进行学习和建模;对销售经理需要用来优化其销售团队绩效的任务和报告进行学习和建模;以及对CEO和其他执行主管需要用来自信预测收入的任务和行为进行学习和建模。这些只是数据使能系统执行的一些学习和建模实践。响应于这些机器学习模型的动作包括但不限于采取自主行动,诸如发送与潜在客户(prospect)相关的电子邮件、发送提醒提示以请求来自销售人员的数据、向销售人员提醒即将召开的会议等。
图12-19包括示例GUI的屏幕快照,示出用于将数据使能系统应用于销售和营销。
在图12中,示出用于数据使能应用的主页登录页面1201。它包括用于我的待办事项列表1202、我的机会1203、我的会议记录1204、我的热情介绍1205、我的机会新闻1206以及配置设置1207的GUI控件。
通过选择“我的待办事项列表”控件1202,对话式智能AI机器人被启动,该对话式智能AI机器人每天基于记录、与客户的会议、日历事件等自动地为销售人员推荐任务和确定任务的优先级,并实时更新。
通过选择“我的机会”控件1203,对话式智能AI机器人被启动,该对话式智能AI机器人自动地创建、更新和删除机会,并使用类似棒球卡的系统比喻(metaphor)来实时更新机会信息。
通过选择“我的会议记录”控件1204,对话式智能AI机器人被启动,该对话式智能AI机器人可以记录客户会议、销售经理会议、销售人员提醒记录,并应用NLP和STRIPA。来自NLP和STRIPA的结果随后更新“我的待办事项列表”机器人、“我的机会”机器人等。
通过选择“我的热情介绍”控件1205,对话式智能AI机器人被启动,该对话式智能AI机器人自动地搜索与机会相关的我的同事、朋友、熟人、前员工和老板等,并且可以帮助提供在线索或机会中与决策者、执行发起人等的接触机会。
如果销售人员当前正在处理该机会以提供更快的信息,则对话式机器人向销售人员口头提供新信息以便帮助该销售人员,并且还在“我的机会”区域中提供该更新。
通过选择“我的机会新闻”控件1206,对话式智能AI机器人被启动,该对话式智能AI机器人自动地搜索与机会相关的新闻发布、新闻、社交网站、博客、论坛等,并帮助向销售人员提供见解和建议,使得销售人员掌握所有最新信息以了解和抓住机会。如果销售人员当前正在利用该机会提供更快的信息,则对话式机器人将口头向销售人员提供新信息,以便帮助销售人员,并且还会在“我的机会”区域中提供该更新。
通过选择“配置设置”控件1207,启动应用的设置、配置和首选项部分。
该GUI中的搜索字段1208基于用户输入的关键字(例如,经由语音或通过打字输入)在所有模块上进行全局级别的搜索。
所描绘的控制元件是作为示例。具有不同数据科学、机器人、特征和功能的其它控制元素可以被添加以及与其它控制元素混合。
转到图13,示出“我的待办事项列表”页面GUI 1301的示例实施例。在这种模式下,对话式问答机器人与客户代表交谈,以口头创建新机会任务、回答未完成的任务并标记完成的任务。机器人还允许客户代表口头输入机会数据。在另一个示例方面,机器人使用AI来提供基于重要性而排序的推荐任务列表。机器人基于输入的新任务、变为可用的新数据以及任务的完成情况的状态,动态更新任务列表和优先级。机器人还提醒客户代表口头输入公司所需的机会数据。然后,例如当客户代表准备好进行CRM审阅时,机器人将机会数据传输到CRM软件。使用该系统,客户代表可以更自然地提供相关信息,并且机器人将提取、构建和组织信息以存储在CRM软件中。机器人还可以使用AI执行销售预测。
该GUI中的搜索字段1302接受用户的输入(例如语音输入或键入的输入),以搜索推荐的待办事项列表。
转到图14,示出“我的机会”页面GUI 1401的示例实施例。在这种模式下,对话式问答机器人与用户交谈,以搜索机会并对机会分类。例如,用户可以向机器人口头讲话,以搜索与某个公司、企业、行业或个人相关的特定机会。用户还可以口头命令机器人对机会列表进行排序,诸如按美元金额、过去的成交率、字母顺序、预测成交机会或其组合分类。可以使用其他特征对机会列表进行排序。用户还可以口头控制关于是否将给定机会加载到CRM软件(例如SalesForce.com平台)中。机器人还生成或识别特定于给定机会的相关动作项目,并将它们口头呈现给用户。
GUI 1401还视觉上传达该信息。例如,在GUI中示出搜索字段1402,以及对机会列表排序的各种控件1403。例如,搜索字段1402用于在机会模块内实现搜索。还显示状态标志1404以指示机会是否已被加载到CRM软件中。还可以通过对列表1405中的每个条目进行颜色编码,视觉上显示给定机会的风险级别。
转到图15,示出“我的会议记录”的GUI 1501包括与某些机会相关的每日新闻项目1502。在新项目下方,存在使用机器学习算法确定优先级的动作记录(例如语音数据、其他数据)和提醒1503。在示例实施例中,聊天机器人提供音频新闻并使用音频输出来转达动作记录。还存在机会状态1505的摘要。搜索字段1504用于在会议记录模块内启动搜索。
转到图16,GUI 1601示出人的AI驱动列表1603(例如来自同事的领英(Linkedln)、Outlook、Gmail、社交网络数据库等),该列表可以潜在地帮助客户代表获得机会并获得进一步的机会洞悉。GUI还包括特定于列表1603中的给定人的与待办事项记录或动作项目有关的语音记录1604。还可以包括搜索字段1602,以便于用户在热情介绍列表模块内进行搜索。
转到图17,GUI示出各种公司的机会新闻控件(例如,销售机会)。当用户口头选择给定公司的控件或轻敲给定公司的控件时,显示示出该给定公司的新闻项目的屏幕。
例如,图18和19示出包含给定公司的新闻项目的GUI。例如,根据如使用机器学习确定的、为给定销售人员提供最大销售机会的新闻,对新闻项分类。
以下是用户提出的示例问题和陈述,以及聊天机器人提供的口头反馈。应认识到的是,机器人或聊天机器人是对话式的,并且适应于其正在对话的用户的风格。
示例1
用户:嗨,机器人,给我提供关于机会X的新闻。
机器人:嗨,用户,这是关于客户机会X的最新消息。
机器人读出从各种数据源拉取的最新3-5个最新摘要。
示例2
用户:嗨,机器人,对于客户x的交易我能赚多少佣金?
机器人:嗨,用户,如果销售100,000个软件许可证席位,您将获得350,000美元,这是公司最大的席位部署。
示例3
用户:嗨,机器人,请告诉我该产品或服务的价格?
机器人:嗨,用户,订购少于50,000d席位时,零售价格为每个席位70美元;订购50,000到150,000d席位时,零售价格为每个席位50美元;超过150,000个席位,零售价格为每个席位35美元。
示例4
用户:嗨,机器人,请告诉我了解该产品的最好的系统工程师或产品经理。
机器人:嗨,用户,雅各布·史密斯基于他最近的客户反馈和产品经理反馈,是最佳主题专家。
在示例方面,数据使能平台将NLP情感处理应用于内部公司审阅、内部网网站审阅以及关于用户表现的其他数据源。
示例5
用户:嗨,机器人,请告诉我关于客户X或潜在客户X的关键决策者的3-5件事情?
机器人:嗨,用户,约翰·史密斯是首席财务官,而且领英(Linkedln)建议他是该新方案的决策者。这是领英上的约翰·史密斯的个人简历的链接。
示例6
用户:嗨,机器人,请告诉我应该与哪些成交率超过50%的客户谈谈?
机器人:嗨,用户,基于您先前的记录,您应该关注谷歌(Google)机会、联想(Lenovo)机会和可口可乐(CocaCola)机会。
示例7
用户:嗨,机器人,请基于我的上次联想会议对我的记录和动作进行摘要并告诉我。
机器人:嗨,用户,现有3个您需要完成的联想动作。首先,致电爱丽丝·安德斯,看看您是否可以了解更多关于该新方案的美元预算的信息。第二,致电鲍勃·宾汉,看看该新方案是否针对2017年进行预算的。第三,您需要与雅各布·史密斯谈话,以了解API是否将支持请求数量。
转到图20,示出用于应用自然语言处理(NLP)的示例计算。在方框2001处,用户设备或OCD接收输入以监视给定公司。在方框2002处,以规则的间隔(例如,每天),数据使能平台对与给定公司、给定公司的行业、给定公司的竞争对手、给定公司的财务状况等相关的最新新闻执行外部搜索。在方框2003处,将外部搜索结果存储在存储器中。在方框2004处,数据使能平台对搜索结果应用NLP自动摘要,并将摘要输出到用户设备(例如,经由音频反馈)(方框2005)。然后,根据方框2002,以规则的间隔重复该处理。
转到图21,提供了另一个示例计算。在方框2101处,用户设备或OCD接收输入以监视给定公司。在方框2102处,以规则的间隔(例如,每天),数据使能平台对与给定公司、给定公司的行业、给定公司的竞争对手、给定公司的财务状况等相关的最新新闻执行外部搜索。在方框2103处,将外部搜索结果存储在存储器中。在方框2104处,数据使能平台对给定公司执行内部搜索。在方框2105处,存储这些内部搜索结果。在方框2106处,数据使能平台将外部搜索结果与内部搜索结果进行比较,以确定它们是否彼此影响。例如,数据使能平台确定数据中是否存在差异或数据中是否存在相似性,或两者兼有。在方框2107处,数据使能平台对受影响的外部搜索结果或受影响的内部搜索结果或两者应用NLP自动摘要。摘要被输出到用户设备以用于视觉显示或音频反馈(方框2108)。以这种方式,向用户通知相关新闻以及该新闻为何相关(例如,受影响的内部数据、机会等)。
在示例实施例中,图20或21中的上述方法用于提供机器人或聊天机器人,其为每个特定销售机会提供了消费新闻摘要(例如,新闻发布、产品和竞争对手评论、财务状况、领英、脸书粉丝页面等)的方便快捷的方式,并使用机器学习和其他数据科学算法创建机会计分卡。这可以节省时间并提高对新线索和更新工作的准确性。
转到图22,提供了示例性可执行指令,用于使用K最近邻计算来识别相对于销售机会而言被认为接近给定公司或给定用户的联系人。
方框2201:从用户设备接收识别给定公司/给定人的输入。
方框2202:对即将来找用户的给定公司/给定人的联系人、朋友、追随者、朋友的朋友等,以规则的间隔(例如每天)执行外部搜索。
方框2203:存储外部搜索结果。
方框2204:对用户所共有的给定公司/给定人的联系人、朋友、追随者、朋友的朋友等执行内部搜索。
方框2205:存储内部搜索结果。
方框2206:组合外部搜索和内部搜索结果以开发涉及给定公司/给定人的关系特征数据集。
方框2207:将K最近邻(k-Nearest Neighbor)应用于关系特征数据集,以及通过邻近于给定公司/给定人的“最强关系”确定名称列表的优先级。
方框2208:将名称列表输出到用户设备,以及如果在随后的搜索中有改变,则将该改变通知给用户设备。
在上述计算操作的示例实现方式中,提供了“热情介绍机器人(Warm IntroBot)”,其通过使用搜索和图形数据科学,动态搜索并呈现客户代表需要利用的员工、朋友和熟人的列表,以便得到热情的机会介绍以及获得各自的机会见解。热情线索的成交率较高。
在另一个示例方面,数据使能平台使用关键字、句子、完整对话和主题标签来表征机会。数据使能平台随后执行对现有内部机会的搜索,使得一个给定销售人员不会将时间花在同行销售人员所追求的相同机会上。
转到图23,提供了可执行指令的另一个示例实施例,用于使用回归分析来确定美元价值的机会基线。
方框2301:从用户设备接收识别给定公司的输入。
方框2302:关于机会、已成交交易、丢失交易等的查询内部CRM系统。
方框2303:通过与给定公司相关的(一个或多个)行业分部来分割机会、已成交交易等。
方框2304:对已分割的行业CRM数据执行回归分析,为每个销售阶段的机会创建机会$基线。
方框2305:将在其当前销售阶段与给定公司相关的货币机会(由销售人员提议)与行业分部$基线机会进行比较。
方框2306:呈现给定公司$机会与行业分部$基线之间的差异。
方框2307:基于同一行业中与机器学习相关的交易,计算针对给定公司$机会(由销售人员提议)的提议折扣乘数,并将其输出到用户设备。
方框2308:计算并输出与该机会相关的经修订的销售渠道收入的提议。
在示例实施例中,聊天机器人使用图23中的计算操作来预测销售。特别地,通过客户代表,聊天机器人使用机器学习和数据科学算法来提供现实的(例如,无偏见的)和准确的销售渠道数量。在另一个示例方面,聊天机器人可以帮助新销售人员理解成功所需的条件并创建理想的招聘简介。
转到图24,提供了示例性可执行指令,用于使用动态搜索来影响某些数据在用户设备处的输出方式。
方框2401:当用户设备播放文本的音频时,用户设备将用户的口头命令检测为以下中的至少一个:重复文本的一部分、搜索文本的一部分、澄清文本的一部分、对文本的一部分进行评论、突出显示或记住文本的一部分等。
方框2402:用户设备或数据使能平台或两者执行用户命令。
方框2403:数据使能平台总体统计任何和所有用户或某些排名较高的用户或两者所作用的文本的特定部分的次数。
方框2404:在统计了一定次数之后,数据使能平台标记文本的该特定部分。
方框2405:当正在通过辅助用户设备经由音频手段播放被标记的文本的该特定部分时,用户设备以强调的方式(例如,更慢、更大声、以不同的音调、以不同的语音等)播放音频文本。换句话说,数据使能平台已标记了文本的特定部分,并已对文本的特定部分执行了音频变换。
转到图25,提供了用于处理语音数据和背景噪声的示例可执行指令。
方框2501:用户设备或OCD记录音频数据,包括语音数据和背景噪声。
方框2502:数据使能平台应用音频处理以将语音数据与背景噪声分离。
方框2503:数据使能平台将语音数据和背景噪声保存为分离的文件并彼此关联。
方框2504:数据使能平台应用机器学习来针对以下内容分析语音数据:文本;意义;情绪;文化;语言;用户的健康状态;等等。
方框2505:数据使能平台应用机器学习来针对以下内容分析背景噪声:环境、用户参与的当前活动等。
方框2506:数据使能平台应用机器学习来确定从语音数据中提取的特征与从背景噪声中提取的特征之间的相关性。
以这种方式,可以更准确地确定关于用户的信息,诸如他们的行为和周围环境。这进而可以被用于提供更好地为用户定制的销售机会。
在示例实施例中,包括但不限于OCD的用户设备包括板载语音合成器以生成合成语音。转到图26,板载语音合成器是驻留在用户设备上的基于数字信号处理(DSP)的系统。它包括一个或多个语音库。它还包括文本处理器、汇编器、链接器模块、模拟器、加载器、由硬件资源管理器管理的DSP加速器模块以及语音获取和合成模块(例如,模拟/数字转换器和数字/模拟转换器)。语音获取和合成模块与麦克风和音频扬声器进行数据通信。
图27示出用户设备上的部件的示例子集,其包括DSP板/芯片、ADDA2板/芯片、DSP板的局部总线、主机总线和智能设备的CPU。例如,这些部件支持图26中所示的软件体系架构。
应认识到的是,用户设备中的不同软件和部件体系架构(即,与图26和27中所示的示例体系架构不同)可以用于促进输出合成语音数据。
转到图28,提供了用于构建语音库的示例可执行指令。
方框2801:数据使能平台搜索包括关于给定人的语音数据的媒体内容(例如,访谈访谈、纪录片、自发表内容等)。具有语音数据的媒体内容的示例数据格式包括视频和纯音频媒体。
方框2802:数据使能平台处理媒体内容以摄取语音数据。
方框2803:数据使能平台将语音数据分解为给定人的音频语音属性。音频语音属性的示例包括频率、振幅、音色、元音持续时间、峰值发声声压等级(SPL)、发声连续性、颤音、音高可变性、响度可变性、节拍、语速等。
方框2804:数据使能平台基于所记录的单词来生成单词到语音属性的映射。
方框2805:数据使能平台生成音节到语音属性的映射。
方框2806:数据使能平台为给定人构造任何单词到语音属性之间的合成映射。
方框2807:数据使能平台基于合成映射为给定人生成语音库。
方框2808:数据使能平台将语音库与给定人相关联。
方框2809:属于用户的用户设备接收给定人的语音库。
方框2810:本地用户设备将语音库存储在存储器中。例如,系统以无线方式对DSP芯片进行闪速存储,使得给定人的语音库被存储在智能设备上的RAM中(方框2811)。该数据还可以以其他方式被存储在用户设备上。
图29示出用户设备上的存储器设备2901的示例。存储器设备包括较快访问存储器2902和较慢访问存储器2903。在一个示例实施例中,较快访问存储器是RAM,较慢访问存储器是ROM。可以使用较快访问存储器和较慢访问存储器的其他组合来替代RAM和ROM。
除其它以外,较快访问存储器2902已经在其上存储常见问题(FAQ)和常见陈述(FS)的库,以及对这些FAQ和FS的对应响应。快速访问存储器还已经在其上存储与用户交互的人的语音库以及频繁访问的内容库。这些频繁访问的内容库包括多媒体。存储在存储器2902中的信息或内容提供了频繁需要的局部的、边缘的、快速的“热”反应性内容,使得对于相同已知的已知数据,不需要前往数据使能平台。
除其它以外,较慢访问存储器2903包括:数据科学模块、收集器模块、通信模块、其他语音库、内容库和存储器数据库。存储在存储器2903中的信息或内容提供了所需要的局部的、边缘的、快速的“中等”反应性内容,但不是那么频繁或立即,使得对于相同已知的已知数据,不需要前往数据使能平台。
被称为基于云的访问模块2903a的另一个数据模块允许用户设备与数据使能平台进行交互以访问内容库。这也称为相对较少使用的云“冷”反应性内容。
方框2904:用户设备检测到用户已经问了FAQ或说了FS。
方框2905:用户设备访问较快访问存储器2902,并识别用于所问的FAQ或所说的FS的适当语音库。
方框2906:用户设备访问较快访问存储器2902,并识别对于所问的FAQ或所说的FS的适当响应(例如,音频、视觉、文本等)。
方框2907:用户设备使用所识别出的适当响应和所识别出的语音库来输出音频或视觉(或两者)数据。以这种方式,对FAQ和FS的响应非常快甚至实时地出现,因此提供类似对话的体验。
转到图30,可执行指令的另一个示例集由患者的智能设备执行。
方框3001:用户设备检测到人已经问了问题或说了不是FAQ/FS的陈述。
方框3002:用户设备使用预定的语音库提供即时响应。例如,智能设备说“让我考虑一下”或“嗯...”。该响应例如被预加载到较快访问存储器2902中以用于即时检索。
方框3003:用户设备进行以下中的一个或多个以获得响应:本地数据科学、本地搜索、外部数据科学和外部搜索。该操作例如包括访问较慢访问存储器2903。
方框3004:用户设备识别用于输出所获得的响应的适当语音库。
方框3005:用户设备使用所获得的响应和所识别出的语音库来输出音频或视觉(或两者)数据。
以这种方式,在用户设备上局部地或整体地计算更复杂的算法,同时仍然提供即时响应。
图31和32示出由用户的用户设备执行的可执行指令的另一个示例实施例。如果用户的问题或陈述的回答不是已知的,则用户设备发起与属于用户相关联系人(例如,共同工作者、同事、朋友、客户、家庭成员、服务提供商、承包商等)的计算设备的消息或通信会话。
方框3101:用户设备检测到用户已经问了问题或说了不是FAQ/FS的陈述。
方框3102:用户设备使用预定的语音库提供即时响应。例如,智能设备访问较快访问存储器2902。
方框3103:用户设备识别出需要一个或多个联系人来提供适当响应。例如,用户设备访问较慢访问存储器3103以获得该信息。
方框3104:用户设备识别用于输出所获得的响应的适当语音库。例如,用户设备访问较慢访问存储器3103以获得该信息。
方框3105:用户设备使用所获得的响应和所识别出的语音库来输出音频或视觉(或两者)数据。例如,智能设备说:“我将为您找到”或“我需要查找一些东西,然后稍后将回复您”。
方框3106:用户设备生成(一个或多个)消息并将其传输到适当联系人。
然后,联系人的一个或多个用户设备接收来自联系人的响应。例如,联系人接收与来自患者的用户设备的消息相关的文本消息、电话呼叫、视频呼叫等,以及
方框3107:用户设备接收来自(一个或多个)适当联系人的(一个或多个)响应。
方框3108:用户设备基于接收到的来自(一个或多个)适当联系人的(一个或多个)响应来生成适当响应。
方框3109:用户设备识别用于输出所述适当响应的适当语音库。
方框3110:用户设备使用所述适当响应和所识别出的语音库来输出音频或视觉(或两者)数据。
以这种方式,来自一个或多个联系人的响应被转达回到用户的用户设备。
转到图33,提供了示例性可执行指令,用于输出包括合成语音内容的媒体内容。
例如,用户问“请告诉我关于特斯拉汽车生产的信息”。数据使能应用程序识别出埃隆·马斯克是该主题的相关权威,找到相关内容(例如文本内容、音频、视频等),并使用埃隆·马斯克的合成语音来解释特斯拉的汽车生产。例如,使用埃隆·马斯克合成语音的聊天机器人说:“您好,我是埃隆·马斯克。特斯拉的汽车制造厂位于...”。
在另一个示例中,用户问“比尔·盖茨对阿尔茨海默氏症了解多少?”。数据使能应用程序搜索比尔·盖茨与阿尔茨海默氏病相关的内容(例如,文本内容、音频、视频等),并使用比尔·盖茨合成语音来解释他与阿尔茨海默氏病的关系。例如,使用比尔·盖茨合成语音的聊天机器人说:“您好,我是比尔·盖茨。我参与了检测阿尔茨海默氏病的研究……”。
在图33的第一示例实施例中,该过程从方框3301开始。
方框3301:接收关于主题的查询(例如,语音查询)
方框3302:识别作为该主题的权威、专家、领导者等的给定人
方框3303:搜索并获得与主题相关的和/或由给定人说出的文本引述、文本文章、文本信息
方框3304:获得给定人的语音库
方框3305:生成具有至少音频内容的媒体内容,包括说出所获得的文本数据的人的合成语音
方框3306:输出所生成的媒体内容
在第二示例实施例中,该过程在方框3307处开始以及从方框3307延续到方框3303,然后方框3304,依此类推。
方框3307:接收关于给定人和主题的查询(例如语音查询)
在方框3305的示例方面,数据使能平台将合成语音数据与所记录的语音数据、视频、图像、图形等进行组合(方框3308)。换句话说,所生成的媒体内容包括多种类型的媒体。
转到图34,提供了示例实施例,用于用户以给定对话模式启动给定人的聊天机器人(例如,合成语音机器人)。此处的对话模式是指影响语音属性以及与给定语音机器人一起使用的响应或问题类型的一组参数。例如,在一个示例实现方式中,比尔·盖茨语音机器人可以与第一对话模式一起使用;比尔·盖茨语音机器人可以与第二种对话模式一起使用是另一种实现方式;在另一种实现方式中,埃隆·马斯克语音机器人可以与第一种对话模式一起使用;以及在另一种实现方式中,埃隆·马斯克语音机器人可以与第二种对话模式一起使用。换句话说,不同的语音机器人可以与不同的对话模式配对,反之亦然。
在示例实施例中,对话模式包括一个或多个以下参数:音调、频率(例如,也称为音色);响度;单词或短语被说出的速率(例如,也称为节拍);语音读音;词汇(例如,单词的选择);语法(例如,句子结构的选择);发声(例如,发音的清晰度);节律(例如,长短音节的模式)、旋律(例如,语音的起伏);短语、问题;以及问题或陈述中给出的详细数量。在示例实施例中,多个对话库存储定义每个对话模式的参数。
在图34中,根据方框3401、3402、3403,数据使能系统构建或获得各种库。
在方框3401处,数据使能系统为给定的人建立或获得语音库。
在方框3402处,数据使能系统通过搜索文章、访谈、社交媒体、企业/行业网站、视频、音频访谈、新闻发布等来建立或获得与给定人相关联的主题库。主题的非限制性示例包括公司、行业、企业、产品、服务、技术、人、其他人等。
方框3403,数据使能系统建立或获得分别对应于不同对话模式的不同参数的对话库。对话库的非限制性示例包括以下中的一个或多个:轻松的讨论库;介绍推销商品用语库;详细推销商品用语库;交易成交库;访谈/研究库;辩论库;以及鼓励库。
应认识到的是,这些库是在实现方框3404到3410的过程之前建立的。
方框3404:接收输入以在给定对话模式下激活给定人的语音机器人。
方框3405:访问/加载给定人的语音库、给定对话库以及与给定人相关联的一个或多个主题库。
方框3406:在示例实施例中,数据使能平台预生成或预加载(或两者)与给定人或给定对话模式(或两者)相关联的共同响应或共同问题(或两者)。例如,可以将其预加载到用户设备中用于本地访问,也可以预加载到正在与用户设备交互的数据使能平台上的虚拟机中。
方框3407:接收来自用户的语音数据。例如,用户说出陈述或提出问题。
方框3408:分析语音数据的情感。分析语音数据的情绪。
方框3409:生成/获得陈述响应和/或问题响应。以文本和对应语音参数的中间形式输出陈述响应或问题响应(或两者)。这由给定对话库、给定主题库和给定语音库确定。
方框3410:以给定人的合成语音输出所生成的响应。
例如,使用上述过程,人可以在轻松的讨论对话模式下激活比尔·盖茨语音机器人,并输入语言数据“嗨,比尔,您对疫苗有何看法?”。然后,基于从涉及比尔·盖茨和疫苗的各种数据源中提取的数据,使用比尔·盖茨合成语音的聊天机器人将使用户参与关于疫苗的讨论。比尔·盖茨的合成声音将听起来充实轻松以及还将对用户提出问题。
在另一个示例中,使用上述过程,人们可以在介绍推销商品用语对话模式下激活埃隆·马斯克语音机器人,并输入语言数据“嗨,埃隆,这有可以解决交通问题的令人兴奋的新技术。”然后,使用埃隆·马斯克合成语音的聊天机器人将使用户作为潜在投资者参与,并回复如“什么是潜在市值?”、“您的技术如何使性能提高10倍?”、“这是一个有趣的想法——请告诉我这如何与特斯拉、SpaceX或无聊公司(Boring Company)相关。”的陈述和问题。埃隆·马斯克的合成语音将听起来充满好奇和挑剔,以及聊天机器人响应的词汇内容也会充满好奇和挑剔。
以下提供了设备、系统和方法的其他示例特征。
在示例实施例中,本文所述的设备、系统和方法帮助销售人员和销售经理更准确地筛选、评估和评价早期销售机会。
在示例实施例中,本文所述的设备、系统和方法自主地进行并实时更新与早期销售机会有关的信息,包括但不限于:与早期销售机会相关的人和关系;同行、朋友、整个组织的员工、销售人员组织、购买方的人和组织、熟人、竞争对手、竞争对手最近发布的产品和服务、与竞争产品和服务相关的定价和成本、替代解决方案、最新行业新闻、可能改变机会评估的正交新闻、金融新闻、全球区域新闻、以及政府法规和法律。
在示例实施例中,本文所述的设备、系统和方法自主地捕获早期销售机会,并通过详细信息自动地更新这些机会。例如,该详细信息在本文中也被称为“接近完美信息”或“完美信息”。
在示例实施例中,本文所述的设备、系统和方法自主地预测并推荐销售人员每天应工作的优先销售机会和优先任务,以便实现某些业务指标和目标。
在示例实施例中,本文所述的设备、系统和方法基于销售人员的经验、知识、历史跟踪记录(仅举几例),自动地预测并推荐应将哪些销售线索分配给特定的销售人员,以便增加销售机会的成交率。
在示例实施例中,本文所述的设备、系统和方法自主地评估销售人员。
在示例实施例中,本文所述的设备、系统和方法自主地评估提供早期销售机会的营销努力。
在示例实施例中,本文所述的系统包括驻留在销售人员智能手机或OCD或两者上的机器学习软件智能。数据使能平台包括可以认出销售人员组织内外的行为和模式、并预测行为和模式的机器学习软件。数据使能平台使用这些认出的数据功能和预测出的数据功能在销售人员的组织内提出明智的建议。
在示例实施例中,机器学习包括数据科学算法,以及还包括与人类交互一起的协同计算。换句话说,人类与用户设备、OCD以及其他内部和外部计算系统的交互被用作数据使能平台摄取的输入。这有助于为销售人员、销售人员的经理和执行主管提供相关的结果。
在示例实施例中,数据使能平台在销售人员智能手机或OCD或两者以及销售人员的组织系统和应用上执行自主动作。例如,这些自主动作包括提出建议、自动化销售人员和销售经理任务、以及自主执行可能影响机会的研究。
在示例实施例中,数据使能平台从N个外部数据源(例如,全球新闻、博客、论坛、社交网站、行业博客、金融网站、第三方专有网站和系统等)中摄取数据。
在示例实施例中,数据使能平台从销售人员的组织(CRM、ERP、HR、内部网站、专有系统等)内的N个内部数据源中摄取数据。
在示例实施例中,数据使能平台针对内部和外部数据源应用STRIPA数据科学(包括但不限于算法、图形数据库、机器学习、AI等),以显现、趋势、推断、预测和行动。特别地,STRIPA计算操作应用于与机会有关的现有、新的和变化的信息,并生成基于机器学习的机会得分。
在示例实施例中,数据使能平台在计算机使用基于AI的语音对话与销售人员、销售经理和执行主管交互期间应用STRIPA数据科学。这些计算以口头方式(例如,经由麦克风设备)加速计算系统并使得计算系统能够捕获机会信息。在示例实现方式中,所得数据智能从诸如销售人员、销售经理和执行主管的角度的不同角度提供机会的整体视图。这些计算还可以从销售人员、销售经理和执行主管中的任何一个或多个学习到关于正在进行的机会的特设(ad hoc)信息。
在示例实施例中,数据使能平台将STRIPA数据科学应用于使用基于AI的语音对话与销售人员、销售经理和执行主管的交互以及交互期间,以自主地提醒这些人采取特定的行动以便增加机会(例如机会成交率、机会价值等)。
在示例实施例中,数据使能平台应用STRIPA数据科学以使用基于AI的语音对话与销售人员、销售经理和执行主管交互,以创建临时机会,该临时机会太早致使无法放入传统CRM系统中,但是可以无需人工干预地自动生成物质机会。
在示例实施例中,数据使能平台应用STRIPA数据科学以使用基于AI的语音对话与销售人员、销售经理和执行主管交互,以提醒销售人员口头提供某些信息,以便出于合规性目的(例如,按照内部政策),将机会从一个销售步骤移动到另一个销售步骤。
在示例实施例中,数据使能平台应用STRIPA数据科学以使用基于AI的语音对话与销售人员、销售经理和执行主管交互,以通过关于机会的最新消息更新销售人员,最新消息包括但不限于具有机会的人际关系的新员工、具有机会的新执行主管、可能影响机会的竞争对手的产品或服务等。
在示例实施例中,数据使能平台应用STRIPA数据科学以使用基于AI的语音对话与销售人员、销售经理和执行主管交互,以遵循公司特定的销售流程合规性步骤和规则。
在示例实施例中,数据使能平台应用STRIPA数据科学以使用基于AI的语音对话与销售人员、销售经理和执行主管交互,以学习每个人的行为,因此提出建议来提高/优化销售人员或销售经理或两者的效率。
在示例实施例中,数据使能平台应用STRIPA数据科学以进行学习并自动向某些销售人员给出营销线索,这些销售人员在历史上已经展示(经由STRIPA、机器学习、AI等)较高概率地完成特定行业、职能、公司或解决方案特征等中的机会。
在示例实施例中,数据使能平台使用一些或所有前述操作和特征,以便为销售组织定制解决方案。在其他示例实施例中,数据使能平台被应用于其他行业。
以下描述附加的一般示例实施例和方面。
在示例实施例中,提供了一种口语计算设备,口语计算设备包括壳体,所述壳体容纳至少以下:存储器设备,在其上存储包括会话机器人和用户帐户ID的数据使能应用,用户帐户ID用来访问私有数据库;麦克风,被配置为将用户的口语单词记录为音频数据;处理器,被配置为使用对话机器人来识别与音频数据相关联的上下文数据,上下文数据包括数据使能应用的当前模式和用户帐户ID;数据通信设备,被配置为经由数据网络传输音频数据和上下文数据,并作为响应,接收响应数据,其中,所述响应数据是从私有数据库获得的数据和从外部数据库获得的数据的函数;以及音频扬声器,被处理器控制以将音频响应输出为音频响应数据。
在示例方面,口语计算设备是用于与数据动态交互的可穿戴设备。例如,可穿戴设备包括惯性测量传感器。在另一个示例中,可穿戴设备是智能手表。在另一个示例中,可穿戴设备是耳机。在另一个示例中,可穿戴设备投影图像以提供增强现实。
在另一个示例方面,口语计算设备在周围表面上投影光图像以提供虚拟现实或增强现实。在另一个示例方面,口语计算设备与其它设备数据连接,用于投影光图像以在房间中提供增强现实或虚拟现实。实际上,房间中物理存在的人或通过投影的光图像显示的虚拟人同时进行交互和协作。
在示例方面,口语计算设备包括与所述处理器交换数据的图形处理单元(GPU),所述图形处理单元被配置为使用并行线程计算来预处理所述音频数据以提取数据特征,以及所述数据通信设备与所述上下文数据和所述音频数据相关联地传输所提取的数据特征。
在示例实施例中,口语计算设备是用户设备102或OCD 301的具体实施例。
在另一个一般示例实施例中,提供了一种数据使能系统(在本文也称为数据使能平台),其包括云计算服务器,摄取源自一个或多个用户设备的音频数据,所述音频数据至少包括一个或多个用户的口头对话,以及所述云计算服务器被配置为应用机器学习计算以提取至少内容和情感数据特征;数据科学服务器,与所述云计算服务器、内部应用和数据库以及外部人工智能计算平台进行数据通信;所述数据科学服务器包括数据科学算法库,所述数据科学算法用于使用从所述内部应用和数据库获得的内部数据以及从所述外部人工智能计算平台获得的外部数据来处理所述内容和情感特征;以及所述数据科学服务器将响应数据输出到所述云计算服务器,所述响应数据是响应于所述音频数据;以及所述云计算服务器将所述响应数据格式化为由给定用户设备可播放的音频数据格式,并传输格式化的响应数据。
在另一个一般示例实施例中,言语计算设备包括:存储器设备,在所述存储器设备上存储至少数据使能应用、对话机器人以及一个或多个合成语音库,所述数据使能应用包括与不同模式对应的多个模块,其中所述一个或多个合成语音库中的每个合成语音库包括一个或多个对应的人的语音参数特征;输入传感器,被配置为将用户输入记录为言语数据;处理器,被配置为使用所述对话机器人来识别与所述言语数据相关联的上下文数据,所述上下文数据包括与所述数据使能应用的当前激活的模块对应的当前模式;数据通信设备,被配置为经由数据网络传输音频数据和所述上下文数据,以及作为响应,接收响应数据,其中所述响应数据包括给定的合成语音库的指示、文本数据和所述当前模式;所述处理器还被配置为使用所述对话机器人根据所述给定的合成语音库和所述文本数据生成音频响应,并将所述文本数据传播到当前未激活的一个或多个其他模块;以及音频扬声器,所述音频扬声器被所述处理器控制以输出所述音频响应。
在示例方面,所述当前激活的模块是会议记录模块;所述言语数据包括主题;以及所述文本数据包括与所述主题相关的数据。
在另一个示例方面,所述计算设备检测所述言语数据中的句子的停顿或结束中的至少一个,然后输出所述音频响应。
在另一个示例方面,所述言语数据和所述文本数据被添加到会议记录文件。
在另一个示例方面,所述数据通信设备与至少一个其他用户设备通信,以及所述计算设备还在与输出所述音频响应相同的给定时间段内,将关于所述主题的附加数据传输到所述其他用户设备。
在另一个示例方面,所述输入传感器获得公共言语数据,所述计算设备还接收私有会议记录,以及所述计算设备还生成包括所述私有会议记录和公共记录的会议记录,所述公共记录是从所述公共言语数据和所述响应数据中的所述文本数据导出的。
在另一个示例方面,所述私有记录和所述公共记录是按创建时间组织的。
在另一个示例方面,所述数据通信设备与至少静默通信设备通信以获得私有言语数据;以及所述计算设备还根据所述私有言语数据生成所述私有会议记录。
在另一个示例方面,计算系统还包括视觉显示设备,以及所述响应数据还包括与所述音频响应一起输出的视觉数据。
在另一个示例方面,所述视觉显示设备是投影仪。
在另一个示例方面,所述言语数据包括主题;以及所述文本数据包括与所述主题相关的多篇新闻文章的摘要。
在另一个示例方面,所述当前激活的模块是与所述用户的社交网络平台相关联的介绍模块;所述言语数据包括主题或实体;以及所述文本数据包括从所述社交网络平台获得的与所述主题或所述实体相关的名称的列表。
在另一个示例方面,所述多个模块包括待办事项列表模块、机会模块、介绍模块、会议记录模块和新模块;以及其中所述多个模块中的当前激活的模块将所述文本数据传播到所述多个模块中的其他模块中的至少两个或更多个模块。
在另一个示例方面,所述存储器设备还存储对话库,所述对话库包括由所述对话机器人使用以影响所述音频响应的一个或多个参数;以及所述参数包括以下中的一个或多个:音调、频率;响度;单词或短语被说出的速率;语音读音;词汇;语法;发声;节律;旋律;短语;以及问题。
在另一个示例方面,所述言语数据包括主题;以及所述给定的合成语音库的指示是与作为所述主题的权威或专家的人相关联的。
在另一个示例方面,所述言语数据包括主题和人的名字;所述给定的合成语音库的指示是与所述人相关联的;以及所述文本数据是与所述主题和所述人两者均相关。
在另一个示例方面,所述计算设备包括与所述处理器交换数据的图形处理单元(GPU),所述GPU被配置为使用并行线程计算来预处理所述音频数据以提取数据特征,以及所述数据通信设备与所述上下文数据和所述音频数据相关联地传输所提取出的数据特征。
应认识到的是,本文例示的执行指令的任何模块或部件可以包括或以其它方式可访问计算机可读介质,诸如存储介质、计算机存储介质或数据存储设备(可移动和/或不可移动),诸如例如磁盘、光盘或磁带。计算机存储介质可以包括以用于存储信息(诸如计算机可读指令、数据结构、程序模块或其它数据)的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质的示例包括RAM、ROM、EEPROM、闪存或其它存储器技术、CD-ROM、数字多功能盘(DVD)或其它光学存储、磁带盒、磁带、磁盘存储装置或其它磁性存储设备,或可以被用于存储期望信息以及可以由应用、模块或两者访问的任何其它介质。任何此类计算机存储介质都可以是服务器或计算设备的一部分,或者可由其访问或可连接到其。可以使用可以由此类计算机可读介质存储或以其它方式保持的计算机可读/可执行指令来实现本文描述的任何应用或模块。
应认识到的是,如本文所述,系统和方法的示例实施例的不同特征可以以不同方式彼此组合。换句话说,虽然没有具体说明,但是根据其它示例实施例,可以一起使用不同的设备、模块、操作、功能和部件。
在本文描述的流程图中的步骤或操作仅仅是示例。根据本文描述的原理,这些步骤或操作可以有许多变化。例如,可以以不同的次序执行步骤,或者可以添加、删除或修改步骤。
本文描述的GUI和屏幕截图仅仅是示例。根据本文描述的原理,图形和交互式元素可以有变化。例如,可以将此类元素定位在不同的地方,或者被添加、删除或修改。
还应认识到的是,本文使用的示例和对应系统图仅用于说明目的。在不脱离本文所表达的原理的情况下,可以使用不同的配置和术语。例如,可以在不背离这些原理的情况下添加、删除、修改或布置具有不同连接的部件和模块。
虽然以上已经参考某些具体实施例进行了描述,但是在不脱离所附权利要求的范围的情况下,其各种修改对于本领域技术人员将是显而易见的。
Claims (18)
1.一种言语计算设备,包括:
存储器设备,在所述存储器设备上存储至少数据使能应用、对话机器人以及一个或多个合成语音库,所述数据使能应用包括与不同模式对应的多个模块,其中所述一个或多个合成语音库中的每个合成语音库包括一个或多个对应的人的语音参数特征;
输入传感器,被配置为将用户输入记录为言语数据;
处理器,被配置为使用所述对话机器人来识别与所述言语数据相关联的上下文数据,所述上下文数据包括与所述数据使能应用的当前激活的模块对应的当前模式;
数据通信设备,被配置为经由数据网络传输音频数据和所述上下文数据,以及作为响应,接收响应数据,其中所述响应数据包括给定的合成语音库的指示、文本数据和所述当前模式;所述处理器还被配置为使用所述对话机器人根据所述给定的合成语音库和所述文本数据生成音频响应,并将所述文本数据传播到当前未激活的一个或多个其他模块;以及
音频扬声器,所述音频扬声器被所述处理器控制以输出所述音频响应。
2.根据权利要求1所述的计算设备,其中,所述当前激活的模块是会议记录模块;所述言语数据包括主题;以及所述文本数据包括与所述主题相关的数据。
3.根据权利要求2所述的计算设备,其中,所述计算设备检测所述言语数据中的句子的停顿或结束中的至少一个,然后输出所述音频响应。
4.根据权利要求2所述的计算设备,其中,所述言语数据和所述文本数据被添加到会议记录文件。
5.根据权利要求2所述的计算设备,其中,所述数据通信设备与至少一个其他用户设备通信,以及所述计算设备还在与输出所述音频响应相同的给定时间段内,将关于所述主题的附加数据传输到所述其他用户设备。
6.根据权利要求2所述的计算设备,其中,所述输入传感器获得公共言语数据,所述计算设备还接收私有会议记录,以及所述计算设备还生成包括所述私有会议记录和公共记录的会议记录,所述公共记录是从所述公共言语数据和所述响应数据中的所述文本数据导出的。
7.根据权利要求6所述的计算设备,其中,所述私有记录和所述公共记录是按创建时间组织的。
8.根据权利要求6所述的计算设备,其中,所述数据通信设备与至少静默通信设备通信以获得私有言语数据;以及所述计算设备还根据所述私有言语数据生成所述私有会议记录。
9.根据权利要求1所述的计算设备,还包括视觉显示设备,以及所述响应数据还包括与所述音频响应一起输出的视觉数据。
10.根据权利要求9所述的计算设备,其中,所述视觉显示设备是投影仪。
11.根据权利要求1所述的计算设备,其中,所述言语数据包括主题;以及所述文本数据包括与所述主题相关的多篇新闻文章的摘要。
12.根据权利要求1所述的计算设备,其中,所述当前激活的模块是与所述用户的社交网络平台相关联的介绍模块;所述言语数据包括主题或实体;以及所述文本数据包括从所述社交网络平台获得的与所述主题或所述实体相关的名称的列表。
13.根据权利要求1所述的计算设备,其中,所述多个模块包括待办事项列表模块、机会模块、介绍模块、会议记录模块和新模块;以及其中所述多个模块中的当前激活的模块将所述文本数据传播到所述多个模块中的其他模块中的至少两个或更多个模块。
14.根据权利要求1所述的计算设备,其中,所述存储器设备还存储对话库,所述对话库包括由所述对话机器人使用以影响所述音频响应的一个或多个参数;以及所述参数包括以下中的一个或多个:音调、频率;响度;单词或短语被说出的速率;语音读音;词汇;语法;发声;节律;旋律;短语;以及问题。
15.根据权利要求1所述的计算设备,其中,所述言语数据包括主题;以及所述给定的合成语音库的指示是与作为所述主题的权威或专家的人相关联的。
16.根据权利要求1所述的计算设备,其中,所述言语数据包括主题和人的名字;所述给定的合成语音库的指示是与所述人相关联的;以及所述文本数据是与所述主题和所述人两者均相关。
17.根据权利要求1所述的计算设备,还包括与所述处理器交换数据的图形处理单元(GPU),所述GPU被配置为使用并行线程计算来预处理所述音频数据以提取数据特征,以及所述数据通信设备与所述上下文数据和所述音频数据相关联地传输所提取出的数据特征。
18.一种数据使能系统,包括:
云计算服务器,摄取源自一个或多个用户设备的音频数据,所述音频数据至少包括一个或多个用户的口头对话,以及所述云计算服务器被配置为应用机器学习计算以提取至少内容和情感数据特征;
数据科学服务器,与所述云计算服务器、内部应用和数据库以及外部人工智能计算平台进行数据通信;
所述数据科学服务器包括数据科学算法库,所述数据科学算法用于使用从所述内部应用和数据库获得的内部数据以及从所述外部人工智能计算平台获得的外部数据来处理所述内容和情感特征;以及
所述数据科学服务器将响应数据输出到所述云计算服务器,所述响应数据是响应于所述音频数据;以及
所述云计算服务器将所述响应数据格式化为由给定用户设备可播放的音频数据格式,并传输格式化的响应数据。
Applications Claiming Priority (3)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| US201762543777P | 2017-08-10 | 2017-08-10 | |
| US62/543,777 | 2017-08-10 | ||
| PCT/US2018/046269 WO2019032996A1 (en) | 2017-08-10 | 2018-08-10 | ORAL COMMUNICATION DEVICE AND COMPUTER ARCHITECTURE FOR PROCESSING DATA AND DELIVERING USER FEEDBACK OUTPUT, AND ASSOCIATED METHODS |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| CN111201566A true CN111201566A (zh) | 2020-05-26 |
Family
ID=65271267
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| CN201880066344.9A Pending CN111201566A (zh) | 2017-08-10 | 2018-08-10 | 用于处理数据和输出用户反馈的口语通信设备和计算体系架构以及相关方法 |
Country Status (3)
| Country | Link |
|---|---|
| US (2) | US10896678B2 (zh) |
| CN (1) | CN111201566A (zh) |
| WO (1) | WO2019032996A1 (zh) |
Cited By (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN112037796A (zh) * | 2020-09-08 | 2020-12-04 | 平安科技(深圳)有限公司 | 一种数据处理方法、装置、设备及介质 |
| CN113794808A (zh) * | 2021-09-01 | 2021-12-14 | 北京亿心宜行汽车技术开发服务有限公司 | 代驾电话下单方法及系统 |
| CN114203177A (zh) * | 2021-12-06 | 2022-03-18 | 深圳市证通电子股份有限公司 | 一种基于深度学习与情绪识别的智能语音问答方法和系统 |
| CN116229982A (zh) * | 2023-02-28 | 2023-06-06 | 奇瑞新能源汽车股份有限公司 | 一种低成本的车辆语音控制系统和方法 |
Families Citing this family (18)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US10896678B2 (en) * | 2017-08-10 | 2021-01-19 | Facet Labs, Llc | Oral communication device and computing systems for processing data and outputting oral feedback, and related methods |
| US20200382286A1 (en) * | 2018-01-10 | 2020-12-03 | The Trustees Of Princeton University | System and method for smart, secure, energy-efficient iot sensors |
| US10680979B2 (en) | 2018-06-08 | 2020-06-09 | Capital One Services, Llc | System and method for proactive intervention to reduce high cost channel usage |
| US10657968B1 (en) * | 2018-11-19 | 2020-05-19 | Google Llc | Controlling device output according to a determined condition of a user |
| US11458622B2 (en) * | 2019-03-25 | 2022-10-04 | Honeywell International Inc. | System using natural conversation for monitoring a facility |
| US11950020B2 (en) * | 2019-04-12 | 2024-04-02 | Pinch Labs Pty Ltd | Methods and apparatus for displaying, compressing and/or indexing information relating to a meeting |
| WO2021002493A1 (ko) * | 2019-07-01 | 2021-01-07 | 엘지전자 주식회사 | 지능형 게이트웨이 장치 및 그를 포함하는 제어 시스템 |
| TWI727395B (zh) * | 2019-08-15 | 2021-05-11 | 亞東技術學院 | 語言發音學習系統及方法 |
| CN111581355B (zh) * | 2020-05-13 | 2023-07-25 | 杭州安恒信息技术股份有限公司 | 威胁情报的主题检测方法、装置和计算机存储介质 |
| US11847724B2 (en) | 2020-07-21 | 2023-12-19 | Verint Americas Inc. | Near real-time visualizations for intelligent virtual assistant responses |
| US20220189623A1 (en) * | 2020-12-15 | 2022-06-16 | State Farm Mutual Automobile Insurance Company | Systems and methods of guided information intake |
| CN112735410B (zh) * | 2020-12-25 | 2024-06-07 | 中国人民解放军63892部队 | 一种自动语音交互式兵力模型控制方法及系统 |
| US11763949B1 (en) | 2022-02-01 | 2023-09-19 | Allegheny Singer Research Institute | Computer-based tools and techniques for optimizing emergency medical treatment |
| US12430513B2 (en) * | 2022-04-18 | 2025-09-30 | Dell Products L.P. | Using machine learning for individual classification |
| US12052114B2 (en) * | 2022-05-25 | 2024-07-30 | Parrot AI, Inc. | System and method for documenting and controlling meetings employing bot |
| US12190070B2 (en) * | 2022-06-22 | 2025-01-07 | International Business Machines Corporation | Dynamic meeting attendee introduction generation and presentation |
| US20240202228A1 (en) * | 2022-12-16 | 2024-06-20 | Capital One Services, Llc | Systems and methods for dynamically generating groups of receveid textual data for collective labeling |
| US20250013963A1 (en) * | 2023-07-06 | 2025-01-09 | Praisidio Inc. | Intelligent people analytics from generative artificial intelligence |
Citations (10)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN1455357A (zh) * | 2003-05-23 | 2003-11-12 | 郑方 | 一种实现多路对话的人-机汉语口语对话系统的方法 |
| US20080010070A1 (en) * | 2006-07-10 | 2008-01-10 | Sanghun Kim | Spoken dialog system for human-computer interaction and response method therefor |
| CN101189659A (zh) * | 2004-09-27 | 2008-05-28 | 罗伯特·博世公司 | 用于认知超负荷的设备用户的交互式对话 |
| CN101939740A (zh) * | 2007-12-11 | 2011-01-05 | 声钰科技 | 在集成语言导航服务环境中提供自然语言语音用户界面 |
| CN103000052A (zh) * | 2011-09-16 | 2013-03-27 | 上海先先信息科技有限公司 | 人机互动的口语对话系统及其实现方法 |
| CN104350541A (zh) * | 2012-04-04 | 2015-02-11 | 奥尔德巴伦机器人公司 | 能够将与用户的自然对话合并到其行为中的机器人,以及编程和使用所述机器人的方法 |
| CN104571485A (zh) * | 2013-10-28 | 2015-04-29 | 中国科学院声学研究所 | 一种基于Java Map的人机语音交互系统及方法 |
| CN105513593A (zh) * | 2015-11-24 | 2016-04-20 | 南京师范大学 | 一种语音驱动的智能人机交互方法 |
| US20160300135A1 (en) * | 2015-04-08 | 2016-10-13 | Pearson Education, Inc. | Relativistic sentiment analyzer |
| US20170169816A1 (en) * | 2015-12-09 | 2017-06-15 | International Business Machines Corporation | Audio-based event interaction analytics |
Family Cites Families (20)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US5528726A (en) * | 1992-01-27 | 1996-06-18 | The Board Of Trustees Of The Leland Stanford Junior University | Digital waveguide speech synthesis system and method |
| AU1575499A (en) * | 1997-12-19 | 1999-07-12 | Smartoy Ltd. | A standalone interactive toy |
| US7869998B1 (en) * | 2002-04-23 | 2011-01-11 | At&T Intellectual Property Ii, L.P. | Voice-enabled dialog system |
| US8374873B2 (en) | 2008-08-12 | 2013-02-12 | Morphism, Llc | Training and applying prosody models |
| CN102117614B (zh) * | 2010-01-05 | 2013-01-02 | 索尼爱立信移动通讯有限公司 | 个性化文本语音合成和个性化语音特征提取 |
| US8412530B2 (en) | 2010-02-21 | 2013-04-02 | Nice Systems Ltd. | Method and apparatus for detection of sentiment in automated transcriptions |
| FR2963132A1 (fr) * | 2010-07-23 | 2012-01-27 | Aldebaran Robotics | Robot humanoide dote d'une interface de dialogue naturel, methode d'utilisation et de programmation de ladite interface |
| US8521818B2 (en) * | 2010-08-05 | 2013-08-27 | Solariat, Inc. | Methods and apparatus for recognizing and acting upon user intentions expressed in on-line conversations and similar environments |
| US20130266925A1 (en) | 2012-01-30 | 2013-10-10 | Arizona Board Of Regents On Behalf Of The University Of Arizona | Embedded Conversational Agent-Based Kiosk for Automated Interviewing |
| WO2014197334A2 (en) * | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
| KR102188090B1 (ko) * | 2013-12-11 | 2020-12-04 | 엘지전자 주식회사 | 스마트 가전제품, 그 작동방법 및 스마트 가전제품을 이용한 음성인식 시스템 |
| JP6266372B2 (ja) * | 2014-02-10 | 2018-01-24 | 株式会社東芝 | 音声合成辞書生成装置、音声合成辞書生成方法およびプログラム |
| US9462112B2 (en) | 2014-06-19 | 2016-10-04 | Microsoft Technology Licensing, Llc | Use of a digital assistant in communications |
| US9418663B2 (en) * | 2014-07-31 | 2016-08-16 | Google Inc. | Conversational agent with a particular spoken style of speech |
| JP6731326B2 (ja) * | 2016-10-31 | 2020-07-29 | ファーハット ロボティクス エービー | 音声対話装置及び音声対話方法 |
| US10311857B2 (en) * | 2016-12-09 | 2019-06-04 | Microsoft Technology Licensing, Llc | Session text-to-speech conversion |
| CN108319599B (zh) * | 2017-01-17 | 2021-02-26 | 华为技术有限公司 | 一种人机对话的方法和装置 |
| US10332505B2 (en) * | 2017-03-09 | 2019-06-25 | Capital One Services, Llc | Systems and methods for providing automated natural language dialogue with customers |
| CN109147760A (zh) * | 2017-06-28 | 2019-01-04 | 阿里巴巴集团控股有限公司 | 合成语音的方法、装置、系统及设备 |
| US10896678B2 (en) * | 2017-08-10 | 2021-01-19 | Facet Labs, Llc | Oral communication device and computing systems for processing data and outputting oral feedback, and related methods |
-
2018
- 2018-08-10 US US16/314,744 patent/US10896678B2/en active Active
- 2018-08-10 WO PCT/US2018/046269 patent/WO2019032996A1/en not_active Ceased
- 2018-08-10 CN CN201880066344.9A patent/CN111201566A/zh active Pending
-
2021
- 2021-01-15 US US17/150,485 patent/US11763811B2/en active Active
Patent Citations (10)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN1455357A (zh) * | 2003-05-23 | 2003-11-12 | 郑方 | 一种实现多路对话的人-机汉语口语对话系统的方法 |
| CN101189659A (zh) * | 2004-09-27 | 2008-05-28 | 罗伯特·博世公司 | 用于认知超负荷的设备用户的交互式对话 |
| US20080010070A1 (en) * | 2006-07-10 | 2008-01-10 | Sanghun Kim | Spoken dialog system for human-computer interaction and response method therefor |
| CN101939740A (zh) * | 2007-12-11 | 2011-01-05 | 声钰科技 | 在集成语言导航服务环境中提供自然语言语音用户界面 |
| CN103000052A (zh) * | 2011-09-16 | 2013-03-27 | 上海先先信息科技有限公司 | 人机互动的口语对话系统及其实现方法 |
| CN104350541A (zh) * | 2012-04-04 | 2015-02-11 | 奥尔德巴伦机器人公司 | 能够将与用户的自然对话合并到其行为中的机器人,以及编程和使用所述机器人的方法 |
| CN104571485A (zh) * | 2013-10-28 | 2015-04-29 | 中国科学院声学研究所 | 一种基于Java Map的人机语音交互系统及方法 |
| US20160300135A1 (en) * | 2015-04-08 | 2016-10-13 | Pearson Education, Inc. | Relativistic sentiment analyzer |
| CN105513593A (zh) * | 2015-11-24 | 2016-04-20 | 南京师范大学 | 一种语音驱动的智能人机交互方法 |
| US20170169816A1 (en) * | 2015-12-09 | 2017-06-15 | International Business Machines Corporation | Audio-based event interaction analytics |
Cited By (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN112037796A (zh) * | 2020-09-08 | 2020-12-04 | 平安科技(深圳)有限公司 | 一种数据处理方法、装置、设备及介质 |
| CN113794808A (zh) * | 2021-09-01 | 2021-12-14 | 北京亿心宜行汽车技术开发服务有限公司 | 代驾电话下单方法及系统 |
| CN113794808B (zh) * | 2021-09-01 | 2024-01-30 | 北京亿心宜行汽车技术开发服务有限公司 | 代驾电话下单方法及系统 |
| CN114203177A (zh) * | 2021-12-06 | 2022-03-18 | 深圳市证通电子股份有限公司 | 一种基于深度学习与情绪识别的智能语音问答方法和系统 |
| CN116229982A (zh) * | 2023-02-28 | 2023-06-06 | 奇瑞新能源汽车股份有限公司 | 一种低成本的车辆语音控制系统和方法 |
Also Published As
| Publication number | Publication date |
|---|---|
| US20210134295A1 (en) | 2021-05-06 |
| WO2019032996A1 (en) | 2019-02-14 |
| US10896678B2 (en) | 2021-01-19 |
| US20200349932A1 (en) | 2020-11-05 |
| US11763811B2 (en) | 2023-09-19 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US11763811B2 (en) | Oral communication device and computing system for processing data and outputting user feedback, and related methods | |
| US20240267344A1 (en) | Chatbot for interactive platforms | |
| Chen et al. | Consumers’ perception on artificial intelligence applications in marketing communication | |
| US11669918B2 (en) | Dialog session override policies for assistant systems | |
| US20240412720A1 (en) | Real-time contextually aware artificial intelligence (ai) assistant system and a method for providing a contextualized response to a user using ai | |
| US20230118412A1 (en) | Stylizing Text-to-Speech (TTS) Voice Response for Assistant Systems | |
| US20210117214A1 (en) | Generating Proactive Content for Assistant Systems | |
| US20240095491A1 (en) | Method and system for personalized multimodal response generation through virtual agents | |
| Vinciarelli et al. | A survey of personality computing | |
| US10635752B2 (en) | Method and system for creating interactive inquiry and assessment bots | |
| KR20250139337A (ko) | 챗봇 상호작용들로부터의 사용자 의도 결정 | |
| CN111033494A (zh) | 用于多个搜索机器人和行为机器人的计算体系架构以及相关的设备和方法 | |
| CN114556354A (zh) | 自动确定和呈现来自事件的个性化动作项 | |
| CN111201567A (zh) | 用于与数字媒体内容交互的口语、面部和姿势通信设备和计算体系架构 | |
| JP2021528912A (ja) | 人間と機械との対話における通信の証拠の記録 | |
| US20250119494A1 (en) | Automated call list based on similar discussions | |
| US20250117854A1 (en) | Generating portfolio changes based on upcoming life event | |
| US20250117629A1 (en) | Generating a call script based on conversation | |
| US20250117856A1 (en) | Goal tracking and goal-based advice generation | |
| US20220279051A1 (en) | Generating Proactive Reminders for Assistant Systems | |
| US20250119495A1 (en) | Real-time dynamic visualization of content | |
| US20250117853A1 (en) | Portfolio generation based on missing asset | |
| US20250117855A1 (en) | Predicting performance of a portfolio with asset of interest | |
| Mawalim et al. | Personality trait estimation in group discussions using multimodal analysis and speaker embedding | |
| Shamekhi | Conversational agents for automated group meeting facilitation a computational framework for facilitating small group decision-making meetings |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| PB01 | Publication | ||
| PB01 | Publication | ||
| SE01 | Entry into force of request for substantive examination | ||
| SE01 | Entry into force of request for substantive examination | ||
| WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20200526 |
|
| WD01 | Invention patent application deemed withdrawn after publication |