[go: up one dir, main page]

CN111201567A - 用于与数字媒体内容交互的口语、面部和姿势通信设备和计算体系架构 - Google Patents

用于与数字媒体内容交互的口语、面部和姿势通信设备和计算体系架构 Download PDF

Info

Publication number
CN111201567A
CN111201567A CN201880066436.7A CN201880066436A CN111201567A CN 111201567 A CN111201567 A CN 111201567A CN 201880066436 A CN201880066436 A CN 201880066436A CN 111201567 A CN111201567 A CN 111201567A
Authority
CN
China
Prior art keywords
data
user
audio
spoken
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201880066436.7A
Other languages
English (en)
Inventor
斯图尔特·欧加瓦
林赛·斯帕克斯
西村宏一
威尔弗雷德·P·索
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fawcett Laboratories Co Ltd
Original Assignee
Fawcett Laboratories Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fawcett Laboratories Co Ltd filed Critical Fawcett Laboratories Co Ltd
Publication of CN111201567A publication Critical patent/CN111201567A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/55Rule-based translation
    • G06F40/56Natural language generation
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/48Program initiating; Program switching, e.g. by interrupt
    • G06F9/4806Task transfer initiation or dispatching
    • G06F9/4843Task transfer initiation or dispatching by program, e.g. task dispatcher, supervisor, operating system
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/006Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • G06N5/043Distributed expert systems; Blackboards
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • G10L13/0335Pitch control
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management
    • G10L13/047Architecture of speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L51/00User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
    • H04L51/02User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail using automatic reactions or user delegation, e.g. automatic replies or chatbot-generated messages
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • G06Q10/40
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Probability & Statistics with Applications (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

数字媒体内容的显示包括限制人与计算系统之间的交互的图形用户界面和预定义数据字段。提供一种口语通信设备和数据使能平台,用于摄取来自人们的口语对话数据以及使用机器学习来提供智能。在前端处,口语对话机器人或聊天机器人与用户进行交互。聊天机器人特定于定制的数字杂志,两者都会随着时间的推移朝着给定主题的用户演进。在后端处,数据使能平台具有摄取来自各种外部数据源的数据以及来自内部应用和数据库的数据的计算体系架构。这些数据和算法被应用于显现新数据、识别趋势、提供建议、推断新理解、预测动作和事件、以及自动地作用于该计算的信息。然后,聊天机器人向用户读出内容。

Description

用于与数字媒体内容交互的口语、面部和姿势通信设备和计 算体系架构
相关申请的交叉引用
本专利申请要求于2017年8月10日提交的标题为“Oral Communication Deviceand Computing Architecture For Interacting with Digital Media Content(用于与数字媒体内容交互的口语通信设备和计算体系架构)”美国临时专利申请No.62/543,784的优先权,该申请的全部内容通过引用并入本文。
技术领域
在一方面,以下内容一般而言涉及用于处理数据和诸如经由音频或视觉媒体或两者输出数字媒体内容的口语通信设备以及相关计算体系架构和方法。在另一方面,以下内容一般而言涉及从许多不同数据源摄取大量数据和输出数字媒体内容的计算体系架构和机器智能。
背景技术
诸如笔记本电脑、平板电脑、智能手机等用户设备的日益普及导致许多传统媒体制作方公布数字媒体。数字媒体包括数字文本、视频和音频数据。例如,名为《经济学人》的杂志制作方拥有自己的网站或数字杂志应用(例如,也称为“APP”)。名为《纽约时报》的报纸制作方拥有自己的网站或应用。名为“历史频道”的电视频道拥有自己的网站或应用。类似地,广播频道也可以拥有自己的网站或应用。
对于给定的媒体制作方,他们通常将拥有自己的计算基础设施和应用,他们在所述计算基础设施和应用上存储他们的数字媒体内容和用户,以将他们的内容公布给读者、观众或听众。在典型的操作中,记者、艺术家、广播主持人等将他们的数字媒体内容上传到服务器系统,用户可以在他们的用户设备上访问该服务器系统以阅读、观看或收听内容。用户可以基于内容添加评论。用户还可以经由社交数据网络共享内容。换句话说,典型的媒体制作方自己的计算基础设施和软件通常适合于他们自己的目的。
但是,在此应认识到的是,这些计算体系架构和软件程序不适合摄取速度、数量和多样性递增的数据。特别地,不同类型的电子设备(例如,机器对机器通信、面向用户的设备、物联网设备等)的激增增加了待分析和待处理的数据的数量和多样性。
此外,用户通常使用键盘、鼠标或触控板以及显示设备(例如计算机监视器)与他们的用户设备进行交互以来研究数据。具有触摸屏图形用户界面(GUI)的触摸屏设备使用户交互更加类似于使用传统的纸质报纸或杂志。但是,在此应认识到的是,这些类型的计算设备交互对于用户而言仍然是复杂的、困难的和耗时的。此外,GUI中的输入接口(例如,评论字段、搜索字段、指针或光标接口等)通常是通过设计预先确定的,因此限制了输入数据的类型。
在此应认识到的是,这些以及其他技术挑战限制呈现给用户的数据多样性和相关性,以及限制计算系统和用户之间的交互。
附图说明
现在将参考附图仅通过示例的方式来描述实施例,其中:
图1是示例计算体系架构的示意图,示例计算体系架构用于经由用户设备摄取用户数据,并使用数据使能平台提供大数据计算和机器学习。
图2是另一个示意图,示出了图1中的计算体系架构的另一种表示。
图3是与相应用户设备通信的口语通信设备(OCD)的示意图,这些用户设备进而与数据使能平台通信。
图4A是示出在会议中使用的OCD以及示出各种设备与数据使能平台之间的数据连接的示意图。
图4B是示出包括可穿戴设备的OCD的不同实施例以及被配置为提供增强现实或虚拟现实的OCD实施例的示意图。
图5是示出OCD的示例部件的框图。
图6是示出用于人工智能(AI)平台的示例计算体系架构的示意图,人工智能(AI)平台是数据使能平台的一部分的。
图7是示出用于AI平台的计算体系架构的另一示例方面的示意图。
图8是示出用于极端数据平台的示例计算体系架构的示意图,极端数据平台是AI平台的示例方面。
图9是用于使用用户设备处理语音数据并且使用数据使能平台进一步处理数据的可执行指令的流程图。
图10是驻留在用户设备和数据使能平台上的示例软件模块的框图,示例软件模块使用于数字媒体行业中。
图11是示出图10所示的软件模块中的一些软件模块之间的数据流的示例示意图。
图12和图13是与图显示在用户设备上的数字杂志的示例图形用户界面(GUI)的屏幕截图。
图14是用于使用数据使能平台监视给定主题的示例可执行指令的流程图。
图15是用于使用数据使能平台监视给定主题(包括既使用内部数据又使用外部数据)的示例可执行指令的流程图。
图16是用于使用数据使能平台识别具有与对象用户相似的用户简档的一个或多个用户的示例可执行指令的流程图。
图17是用于使用数据使能平台修改某些短语和句子的音频参数的示例可执行指令的流程图。
图18是用于使用数据使能平台从语音数据和相关联的背景噪声中提取数据特征的示例可执行指令的流程图。
图19是基于数字信号处理(DSP)的语音合成器的示例实施例。
图20是基于DSP的语音合成器所使用的硬件系统的示例实施例。
图21是用于建立给定人的语音库的示例可执行指令的流程图。
图22是用于与用户交互的用户设备的示例可执行指令的流程图。
图23是用于与用户交互的用户设备的示例可执行指令的流程图。
图24是用于与用户交互的用户设备的示例可执行指令的流程图。
图25是用于与用户交互的用户设备的示例可执行指令的流程图,其延续图24的流程图。
图26是用于与给定主题相关并使用给定人的合成语音与用户交互的用户设备的示例可执行指令的流程图。
图27是用于使用给定人的合成语音读出数字文章的用户设备的示例可执行指令的流程图。
具体实施方式
应认识到的是,为了图示的简单和清楚,在被认为适当的情况下,附图标记可以在附图之间重复以指示对应或相似的元件。此外,阐述了众多具体细节以便提供对本文所述的示例实施例的透彻理解。但是,本领域普通技术人员将理解的是,可以在没有这些具体细节的情况下实践本文所述的示例实施例。在其它情况下,未详细描述众所周知的方法、过程和部件,以免模糊本文所述的示例实施例。而且,本描述不应被认为是对本文所述的示例实施例的范围的限制。
在此应认识到的是,典型的计算体系架构和软件程序,诸如对于数字媒体出版物,仅限于摄取有限类型的数据,并且通常从少量数据源中获取数据。这些类型的数据基于内部数据库。但是,在此应认识到的是,存在可以被使用和处理以向人提供感兴趣的数据以及来自不同数据源的数据。例如,应认识到的是,数据源可以包括但不限于以下任何一个或多个:来自物联网(loT)设备的数据、各种报纸服务器、各种电视频道、各种无线电网络、各种杂志服务器、社交数据网络和相关平台、内部数据库的数据,经由个人用户设备、证券交易所平台、博客、第三方搜索引擎获得的数据等。从这些示例源中可以认识到的是,数据的类型是变化的,并且数据可以不断更新。
应认识到的是,存在收集数字媒体内容的应用或网站,使得用户可以集中浏览许多不同的出版物。例如,存在再次公布的网站,这些网站允许用户浏览不同的数字杂志(例如《经济学人》、《时代》、《城堡女主人》、《福布斯》、《连线》等)。但是,用户可能需要查看杂志发行来查找感兴趣的文章。在某些情况下,用户可以进行主题搜索,但这通常会生成不同的链接,这些链接在被激活时会打开不同的数字杂志。对于再次公布报纸文章的再次公布网站,也会发生这种类型的内容划分和交互。因此,应认识到的是,数字媒体内容的组织是脱节的,并在GUI上创建了附加的用户交互步骤。
此外,在此应认识到的是,在许多数字媒体计算系统中,数据输入包括预定义字段。人们通常使用键盘或触摸屏设备将文本输入到GUI的预定义字段中。这些预定义字段和输入GUI使用更典型的计算软件进行处理。在此应认识到的是,这种方法固有地忽略了利用可用于各种数据源的数据的多样性和数量,这些数据源可能具有不符合预定义的输入表单和输入GUI的数据类型和数据格式。
在此应认识到的是,人们常常以非预定义的模式思考、交谈和行动。换句话说,思考过程或人与人之间的对话通常不遵循预定义的GUI和预定义的输入表单。使用现有GUI,人将需要从对话中提取其注释或记录(note),并将提取出的信息部分输入到预定义的GUI和输入表单中。当许多人开会时,这个过程将变得更加繁琐和复杂,并且人必须识别相关的信息以键入预定义的GUI或预定义的输入表单中。这种数据输入过程不仅效率低下,而且该技术固有地忽略了来自于个人想法、对话、会议或其组合的其它数据。
在此还应认识到的是,公布者和内容制作方花费大量时间试图理解、分析和预测消费者对阅读和观看感兴趣的内容。尽管存在来自于脸书(FaceBook)、谷歌(Google)、亚马逊(Amazon)、油管(YouTube)、美国有线电视新闻网络(CNN)(仅举几例)的系统,但这些系统主要是机器学习的内容生成系统,其呈现在广度和深度上有限的内容。对于成为主题或兴趣的发烧友、业余爱好者和鉴赏家的消费者而言,这成为限制因素。例如,如果业余爱好者对建立和评估立体声功放管及电路或铝焊接技术感兴趣,那么发烧友很少会花时间在脸书、谷歌、油管等上。发烧友可以搜索指向包含发烧友内容的网站的链接,诸如出版物、行业新闻、博客和论坛。即使发烧友找到了这些专业网站,继续产生和公布的内容数量也是巨大的,并且发烧友必须搜索和查看具有与他或她相关且感兴趣的特定内容的最新实时信息。
在此应认识到的是,期望提供一种系统和方法来帮助消费者发烧友捕获和读取实时发烧友信息、自动地和智能地捕获深度发烧友信息,并且易于消费。
因此,本文描述一个或多个用户设备、计算体系架构和计算功能,以解决上述技术挑战中的一个或多个。
在示例实施例中,口语通信用户设备(例如,包括麦克风的设备)记录来自用户的口语信息(例如,用户的单词和声音)以与数据使能系统进行交互。数据使能系统处理语音数据以提取至少单词和口语语言,并相应地使用人工智能计算软件和数据科学算法来处理数据。从口语通信设备获得的数据与特定于组织(例如,给定数字媒体公司)的内部数据和外部数据(例如,可从给定数字媒体公司外部的数据源获得)相结合地、或者相比较地、或者同时以两种方式进行处理。计算体系架构从外部数据源和内部数据源摄取数据,以提供实时输出或接近实时的数据输出,或两者都输出。数据输出以音频反馈或视觉反馈或两者的形式呈现给用户。可以使用其它类型的用户反馈,包括触觉反馈。可以基于数据输出来发起或执行其它机器动作。
在另一个示例实施例中,口语通信设备是跟踪用户的移动的可穿戴技术。当前已知和将来可知的可穿戴设备可应用于本文描述的原理。在另一个示例实施例中,口语通信设备是虚拟现实系统或增强现实系统或两者的一部分。换句话说,视觉数据的显示是沉浸式的,并且用户可以使用口语陈述和问题、或者使用物理移动、或者使用面部表情或其组合来与视觉数据进行交互。
转到图1,用户设备102与用户101交互。除其它以外,用户设备102尤其包括输入设备113和输出设备114。输入设备包括例如麦克风和键盘(例如,物理键盘或触摸屏键盘,或两者)。输出设备包括例如音频扬声器和显示屏。用户设备的非限制性示例包括移动电话、智能电话、平板电脑、智能手表、提供增强现实或虚拟现实或两者的耳机、台式计算机、膝上型计算机、电子书以及车载计算机接口。用户设备与第三方云计算服务103通信,第三方云计算服务103通常包括服务器机器组。与多个用户112对应的多个用户设备111可以与第三方云计算服务103通信。
云计算服务103与一个或多个数据科学服务器机器104数据通信。这一个或多个数据科学服务器机器与内部应用和数据库105通信,其中内部应用和数据库105可以驻留在分开的服务器机器上,或者在另一个示例实施例中,驻留在数据科学服务器机器上。在示例实施例中,由数据科学服务器执行的数据科学计算以及内部应用和内部数据库被认为是给定组织或公司专有的,因此受到防火墙106的保护。可以使用当前已知的防火墙硬件和软件系统以及将来可知的防火墙系统。
数据科学服务器机器(也称为数据科学服务器)104与人工智能(AI)平台107通信。AI平台107包括一个或多个AI应用程序接口(API)108和AI极端数据(XD)平台109。如稍后将讨论的,AI平台运行适合于不同功能的不同类型的机器学习算法,并且数据科学服务器104可以经由AI API来利用和访问这些算法。
AI平台还连接到各种数据源110,其可以是第三方数据源或内部数据源,或两者。这些各种数据源的非限制性示例包括:新闻服务器、无线电网络、电视频道网络、杂志服务器、证券交易所服务器、IoT数据、企业数据库、社交媒体数据等。在示例实施例中,AI XD平台109摄取并处理来自各种数据源的不同类型的数据。
在示例实施例中,服务器103、104、105、107和可选的110的网络组成数据使能系统。除其它以外,数据使能系统尤其向用户设备提供与数据相关的信息。在示例实施例中,所有服务器103、104、105和107都驻留在云服务器上。
使用字母参考标记来提供关于图1的操作示例。在操作A处,用户设备102从用户101接收输入。例如,用户正在讲话,并且用户设备记录来自用户的音频数据(例如,语音数据)。用户可以记录或记住自己的想法,或为自己提供将来要完成的待办事项列表,或向数据使能系统提供命令或查询。在示例实施例中,在用户设备上激活数据使能应用,并且该应用被用户置于某种模式或者根据某些条件自主地置于某种模式。
在操作B处,用户设备将记录的音频数据传输到第三方云计算服务器103。在示例实施例中,用户设备还将其它数据传输到服务器103,诸如上下文数据(例如,记录消息的时间、关于用户的信息、其中记录消息的数据使能应用的模式等)。这些服务器103采用包括人工智能的机器智能,以从音频数据中提取数据特征。除其它以外,这些数据特征尤其包括:文本、情感、情绪、背景噪声、命令或查询、或与所记录的数据的存储或使用或两者相关的元数据,或其组合。
在操作C处,服务器103将提取的数据特征和上下文数据发送到数据科学服务器104。在示例实施例中,服务器103还将原始记录的音频数据发送到数据科学服务器104以进行附加处理。
在操作D处,数据科学服务器104与内部应用和数据库105交互以处理接收到的数据。特别地,数据科学服务器存储并执行一个或多个各种数据科学算法以处理(来自操作C的)接收的数据,这可以包括处理从内部应用和数据库105获得的专有数据和算法。
作为操作D的替代或补充,数据科学服务器104在操作E和G处与AI平台107交互。在示例实施例中,数据科学服务器104具有处理接收到的数据的算法,并且这些算法将信息传输到AI平台以进行处理(例如,操作E)。传输到AI平台的信息可以包括:在操作C处由数据科学服务器接收的数据的部分或全部;在操作D处从内部应用和数据库获得的数据;由数据科学服务器通过在操作C处处理接收的数据、或在操作D处处理接收的数据、或同时执行这两种处理而获得的结果;或其组合。反过来,AI平台107在操作E处处理接收的数据,这包括在操作F处处理从各种数据源110摄取的信息。随后,AI平台107在操作G中将其AI处理的结果返回给数据科学服务器。
例如,基于数据科学服务器104在操作G处接收到的结果,数据科学服务器104更新其内部应用和数据库105(操作D)或其自身的存储器和数据科学算法,或两者。在操作H处,数据科学服务器104还向第三方云计算服务器104提供信息输出。所输出的信息可以是对用户在操作A处发起的查询的直接答复。在另一个示例中,替代地或者附加地,所输出的信息可以包括基于在操作A处接收的音频信息而有意或者无意地请求的辅助信息。在另一个示例中,替代地或者附加地,所述输出的信息包括由在操作A处接收的音频信息有意或者无意地发起的一个或多个命令。例如,这些一个或多个命令影响用户设备102、或与第三方云计算服务器104通信的其它用户设备111或IoT设备、或其组合的操作或功能。
例如,第三方云计算服务器104获取在操作H处接收的数据并将变换应用于该数据,使得变换后的数据适合于在用户设备102处输出。例如,服务器104在操作H处接收文本数据,然后服务器104将文本数据变换成口语音频数据。在操作I处,这种口语音频数据被传输到用户设备102,然后在操作J处,用户设备102播放音频数据或将其输出给用户。
对各种其他用户112及其用户设备111重复这个过程。例如,在操作K处,另一个用户对另一个用户设备讲话,并且在操作L处,这个音频数据被传递到数据使能平台中。在操作M处,音频数据被处理,并且音频响应数据由另一个用户设备接收。在操作N处,这个音频响应数据被另一个用户设备播放或输出。
在另一个示例实施例中,作为口语输入的补充或者作为替代,用户在操作A处使用触摸屏姿势或移动、键入等中的一个或多个向用户设备102提供输入。在另一个示例实施例中,作为音频反馈的补充或者作为替代,用户设备102在操作J处提供视觉信息(例如,文本、视频、图片)。
转到图2,以不同的数据联网配置示出了服务器和设备的另一个示例。用户设备102、云计算服务器103、数据科学服务器104、AI计算平台107和各种数据源110能够经由诸如互联网的网络201发送和接收数据。在示例实施例中,数据科学服务器104以及内部应用和数据库105通过专用网络彼此通信,以增强数据安全性。在另一个示例实施例中,服务器104以及内部应用和数据库105通过相同的网络201彼此通信。
如图2中所示,用户设备102的示例部件包括麦克风、一个或多个其它传感器、音频扬声器、存储器设备、一个或多个显示设备、通信设备以及一个或多个处理器。用户设备还可以包括全球定位系统模块,以跟踪用户设备的位置坐标。当用户正在消费数字媒体内容或与数字媒体内容进行交互(例如添加注释、滑动姿势、注视姿势、语音数据、添加图像、添加链接、共享内容等)时,或进行两者,这个位置信息可以用于提供上下文数据。
在示例实施例中,用户设备的存储器包括作为数据使能应用的一部分的各种“机器人”,其也可以驻留在用户设备上。在示例方面,一个或多个机器人被视为聊天机器人或电子代理。这些机器人包括也驻留在第三方云计算服务器103上的处理。可以适用于本文所述的系统的聊天机器人技术的示例包括但不限于商品名Siri、Google Assistant和Cortana。在示例方面,本文使用的机器人具有专注于各种发烧友主题和一般感兴趣主题的各种语言词典。在示例方面,本文使用的机器人被配置来理解特定于各种发烧友主题和一般感兴趣主题的问题和答案。
在示例方面,本文使用的机器人学习用户的独特语音,因此,机器人使用该语音来学习可以特定于用户的行为。这种预期的行为进而被数据使能系统用来预期与给定主题相关的未来问题和答案。这种识别的行为例如还被用于提出动作建议以帮助用户实现结果,并且这些动作建议是基于具有相同主题兴趣的较高排名用户的识别的行为(例如经由及其学习识别的)。例如,基于用户对主题的专长、对主题的影响、对主题的评论深度(例如,私有评论或公共评论、或两者兼有)、聊天机器人针对给定主题的复杂性等,可以对用户进行排名。
在示例方面,机器人应用机器学习来识别用户语音中的独特数据特征。机器学习可以包括深度学习。用于提取语音特征的当前已知和将来可知的算法适用于本文所述的原理。语音数据特征的非限制性示例包括以下一个或多个:音调、频率(例如,也称为音色(timbre));响度;单词或短语被说出的速率(例如,也称为节拍(tempo));语音读音(phonetic pronunciation);词汇(例如,单词的选择);语法(例如,句子结构的选择);发声(articulation)(例如,发音(pronounciation)的清晰度);节律(rhythm)(例如,长短音节的模式)和旋律(例如,语音的起伏)。如上所述,这些数据特征可以用于识别用户的行为和意义,并在将来预测用户的内容、行为和意义。应认识到的是,机器学习中的预测操作包括用对应的似然值来计算表示某些预测特征(例如,与内容、行为、意义、动作等有关)的数据值。
用户设备可以附加地或可替代地从用户接收视频数据或图像数据,或两者,并且经由机器人将这种数据传输到数据使能平台。因此,数据使能平台被配置为应用不同类型的机器学习,以从不同类型的接收数据中提取数据特征。例如,第三方云计算服务器使用自然语言处理(NLP)算法或深度神经网络或两者,来处理语音和文本数据。在另一个示例中,第三方云计算服务器使用机器视觉或深度神经网络或两者,来处理视频和图像数据。
转到图3,示出了口语通信设备(OCD)301的示例实施例,其与用户设备102结合操作,以减少由用户设备102执行数据使能功能所消耗的计算资源(例如,硬件和处理资源)的量,如本文所述。在一些情况下,与用户设备102相比,OCD 301提供了更好的或更多的传感器。在一些情况下,与用户设备102相比,OCD 301配备有更好或更多的输出设备。例如,OCD包括一个或多个麦克风、一个或多个相机、一个或多个音频扬声器,以及一个或多个可以将光投射到表面上的多媒体投影仪。OCD还包括处理设备和存储器,其能够处理感测的数据(例如,语音数据、视频数据等)并且处理已经由数据使能平台303输出的数据。如上所述,数据使能平台303包括例如服务器103、104、105和107。
如图3中所示,OCD 301经由无线或有线数据链接与用户设备进行数据通信。在示例实施例中,用户设备102和OCD 301使用蓝牙协议进行数据通信。用户设备102与网络201进行数据通信,网络201进而与数据使能平台303进行通信。在操作中,当用户讲话或拍摄视频时,OCD 301记录音频数据或视觉数据,或两者。例如,OCD 301还预处理记录的数据,例如用于提取数据特征。附加地或者替代地,所记录的数据的预处理可以包括数据压缩。该处理后的数据、或原始数据、或两者被传输到用户设备102,并且用户设备经由网络201将这种数据传输到数据使能平台303。用户设备102还可以将上下文数据与由OCD 301获得或产生的数据一起传输。这种上下文数据可以由在用户设备102上运行的数据使能应用或由OCD 301生成。
来自数据使能平台303的输出被发送到用户设备102,然后用户设备102可以或可以不将输出传输到OCD 301。例如,某些视觉数据可以直接显示在用户设备102的显示屏上。在另一个示例实施例中,OCD接收来自用户设备的输入并提供用户反馈(例如,经由扬声器播放音频数据、经由内置显示屏或内置媒体投影仪显示视觉数据,等等)。
在示例实施例中,OCD 301与用户设备102处于数据连接,并且OCT 301本身具有与网络201的直接连接以与数据使能平台303通信。
类似的功能适用于与台式计算机302数据通信的OCD 301的其他实例。特别地,在此应认识到的是,许多现有的计算设备和用户设备未配备足够质量的传感器,也未配备用于从感测到的数据中高效地提取特征的处理硬件。因此,OCD 301补充并增强这些计算设备和用户设备的硬件和处理能力。
在示例实施例中,静默OCD 304的不同示例被用于记录用户的语言输入。静默OCD304包括检测其它用户输入(但不是语音)的传感器。静默OCD 304中的传感器的示例包括以下中的一个或多个:脑信号传感器、神经信号传感器和肌肉信号传感器。这些传感器检测静默的姿势、想法、微动作等,这些静默的姿势、想法、微动作等被翻译成语言(例如,文本数据)。在示例实施例中,这些传感器包括触摸用户的面部或头部的部分的电极。换句话说,用户可以提供语言输入而不必对着麦克风讲话。例如,静默OCD 304是戴在用户头部的可穿戴设备。静默OCD 304有时也被称为静默言语接口或脑计算机接口。例如,静默OCD 304允许用户在群组设置(参见图4A)中或在公共场合以私有方式与其设备进行交互。
转到图4A,示出了OCD 301用于与各种人的会议中,每个人具有其自己的相应用户设备401、402、403、404、405、304。OCD还可以用于记录数据(例如,音频数据、视觉数据等),并将数据提供给没有其自己的用户设备的人。OCD记录会议的口语对话,例如做会议记录(Meeting notes)。在另一方面,OCD还链接到用户设备,以例如实时地向他们提供关于会议期间讨论的主题的信息。OCD还减少了单体用户设备上的计算资源(例如,硬件和处理资源)。
在示例实施例中,用户406穿戴静默OCD 304以与OCD 301私下交互。例如,捕获用户的脑信号、神经信号、肌肉信号或其组合,将其合成为言语。以这种方式,用户406可以有时向OCD 301给出私有的或静默的记录、命令、查询等,而在其它时候,可以向OCD 301提供被会议中的其他用户听到的公开的记录、命令、查询等。
在示例实施例中,用户设备401、402、403、404、405、304经由无线连接或有线连接与OCD 301进行数据通信。在示例实施例中,用户设备401、402中的一些不具有互联网接入,但是其它用户设备403、404、405确实通过分开的数据连接X、Y和Z具有互联网接入。因此,OCD 301使用这些数据连接X、Y和Z中的一个或多个向数据使能平台303传输和从其接收数据。
OCD可以基于可用带宽来使用不同的通信路由,这可以由用户设备指示。
例如,OCD将要传输到数据使能平台的数据集解析为三个分开的数据线程,并将这些线程分别传输到用户设备403、404和405。这些数据线程进而由用户设备通过相应的数据连接X、Y和Z传输到数据使能平台303,数据使能平台303将来自分开的线程的数据重新构造为原始数据集。
可替代地,OCD仅使用数据连接中的一个(例如,X),因此通过用户设备403来汇集数据。
在另一个示例实施例中,OCD指定与用户设备403和404对应的数据连接X和Y,用于将数据传输到数据使能平台303。OCD指定与用户设备405对应的数据连接Z,用于从数据使能平台303接收数据。
由OCD获得的、源自用户设备或者源自数据使能平台的数据可以在与OCD通信的用户设备当中分布。OCD还可以向附近的用户提供中央用户反馈(例如,音频数据、视觉数据等)。
因此,应认识到的是,OCD充当本地中央输入和输出设备。在另一个示例方面,OCD还充当本地中央处理设备以处理感测的数据,或处理来自数据使能平台的数据,或两者。在另一个示例方面,OCD还充当本地中央通信集线器。
在示例实施例中,替代地或者附加地,OCD具有其自己的网络通信设备,并且经由网络201而与数据使能平台303之间发送和接收数据。
OCD结合数据使能平台303提供各种功能。在示例操作中,OCD提供音频输出,音频输出口语传达会议日程表。在示例操作中,OCD记录会议期间说出的讨论项目,并自动地创建包含会议纪要的文本。在示例操作中,OCD监视讨论的流程和当前时间,并在适当的时间(例如,在检测暂停、硬性休会、句子结束等中的一个或多个之后),OCD插入以关于移动到日程表中列举的下一个日程表项目提供相关主题的音频反馈。例如,暂停是给定的静默时间段。
在示例操作中,OCD监视正在讨论的主题和概念,并实时地将辅助和相关数据智能分发给用户设备。在示例操作中,OCD监视正在讨论的主题和概念,并实时地确定是否要共享有关的相关新闻或事实,并且如果要共享,则通过提供有关的相关新闻或事实的音频或视频输出(或两者)来中断对话。在示例方面,OCD在适当的时间插入和提供音频或视觉输出(或两者),诸如在检测暂停暂停、硬性休会、句子结束等中的一个或多个之后。
在另一个示例操作中,OCD监视正在讨论的主题和概念,并实时地确定用户是否提供了不正确的信息,并且如果是,则通过提供正确信息的音频或视觉输出(或两者)来中断对话。例如,通过将讨论的主题与可信数据源(例如,报纸、内部数据库、政府网站等)进行实时比较来确定不正确性。
在另一个示例操作中,OCD在用户之间的会议期间向不同的用户设备提供不同的反馈,以适应特定于不同用户的兴趣和目标。
在另一个示例操作中,OCD使用相机和麦克风来记录数据,以确定各种用户的情感和情绪,这有助于通知决策。
在另一个示例操作中,每个用户可以使用其用户设备并行地来与OCD或数据使能平台或两者交互,以在会议期间进行自己的研究或做私有记录(或两者)。
在另一个示例方面,给定用户的私有记录可以使用他们自己的设备(例如,如静默OCD304和设备401的设备)进行的,并且公共记录可以基于由OCD 301在阈值可听见级别下记录的讨论进行的。例如,私有记录还可以口语记录或使用静默OCD 304通过静默言语记录。对于给定用户,数据使能平台或他们自己的用户设备将编制和呈现基于时间组织的给定用户的私有记录以及公共记录两者的编制结果。例如:
@t1:公共记录;
@t2:公共记录+给定用户的私有记录;
@t3:公共记录;
@t4:给定用户的私有记录;
@t5:公共记录+给定用户的私有记录。
在另一个示例实施例中,OCD包括一个或多个媒体投影仪以将光图像投影在周围表面上。
应认识到的是,虽然OCD的壳体被示为圆柱形,但在其它示例实施例中,其具有不同的形状。
转到图4B,处于位置A的用户正在与一个或多个OCD交互,而处于分开的位置(即,位置B)中的用户正在与另一个OCD交互。虽然这些用户处于不同的位置,但他们可以一起通过数字语音和图像数据彼此交互。数据使能平台处理他们的数据输入,这可以包括语音数据、图像数据、物理姿势和物理移动。这些数据输入然后被数据使能平台用于向用户提供反馈。
在位置A处,两个OCD单元301彼此进行数据通信,并投影光图像区域411、410、409、408。这些投影的光图像区域以连续的方式定位,以提供实际上能够围绕用户或以弧形方式绕在用户周围的单个大的投影光图像区域。这将产生增强现实或虚拟现实空间。例如,一个OCD单元投影光图像区域411和410,而另一个OCD单元投影光图像区域409和408。
而且,在位置A处还有戴着OCD 301a的另一个实施例的用户407。OCD 301a的这个实施例包括麦克风、音频扬声器、处理器、通信设备和其它电子设备,以跟踪用户的姿势和移动。例如,这些电子设备包括陀螺仪、加速度计和磁力计中的一个或多个。这些类型的设备都是惯性测量单元或传感器。但是,可以使用其它类型的姿势和移动跟踪。在示例实施例中,可以使用三角测量来跟踪OCD 301a,该三角测量是根据来自位于不同位置(但都在位置A内)的两个OCD单元301的无线电能量信号计算出来的。在另一个示例中,使用来自相机的图像跟踪来跟踪姿势。
位置A处的用户可以与位置B处的用户交谈和看见该用户。
相反,位置B处的用户戴着作为OCD 301b的另一个实施例的虚拟现实或增强现实耳机,并使用它与位置A处的用户交谈和看见该用户。OCD实施例301b在用户眼睛附近或用户眼睛上投影或显示图像。除了其它电子部件以外,OCD实施例301b尤其还包括麦克风、音频扬声器、处理器和通信设备。使用OCD实施例301b,用户能够看到相同的图像被投影到图像区域411、410、409和408中的一个或多个上。
转到图5,示出了容纳在OCD 301内的示例部件。所述部件包括一个或多个中央处理器502,与诸如传感器501的各种其它设备交换数据。所述传感器包括例如一个或多个麦克风、一个或多个相机、温度传感器、磁力计、一个或多个输入按钮以及其它传感器。
在示例实施例中,存在多个麦克风,这些麦克风被定向为面向彼此不同的方向。以这种方式,可以确定音频源的相对方向或相对位置。在另一个示例实施例中,存在被调谐或设置为记录不同频率范围的音频波的多个麦克风(例如,用于第一频率范围的麦克风、用于第二频率范围的麦克风、用于第三频率范围的麦克风等)。以这种方式,可以跨更大的频率范围记录更清晰的音频数据。
在示例实施例中,存在被定向为面向不同方向的多个相机。以这种方式,OCD可以获得360度的视野。在另一个示例中,一个或多个相机具有第一分辨率的第一视野,并且一个或多个相机具有第二分辨率的第二视野,其中第一视野大于第二视野,并且第一分辨率低于第二分辨率。在另一个示例方面,具有第二视野和第二分辨率的一个或多个相机可以被机械地定向(例如,倾斜(pitched)、偏斜(yawed)等),而具有第一视野和第一分辨率的一个或多个相机是固定的。以这种方式,可以从更大的角度(例如,周围区域、人的身体及其身体姿势)同时拍摄视频和图像,并且可以针对某些区域(例如,人的脸部及其面部表情)同时拍摄高分辨率的视频和图像。应认识到的是,用于处理面部表情的当前已知和将来可知的图像处理算法和面部表情数据库可适用于本文所述的原理。
OCD还包括一个或多个存储设备503、灯505、一个或多个音频扬声器506、一个或多个通信设备504、一个或多个内置显示屏507,以及一个或多个媒体投影仪508。OCD还包括一个或多个图形处理单元(GPU)509。GPU或其它类型的多线程处理器被配置为执行AI计算,诸如神经网络计算。GPU还例如被用于处理由(一个或多个)多媒体投影仪或(一个或多个)显示屏507或两者输出的图形。
在示例实施例中,通信设备包括一个或多个设备到设备通信收发器,其可用于与一个或多个用户设备进行通信。例如,OCD包括蓝牙收发器。在另一个示例方面,通信设备包括被配置为与网络201通信的一个或多个网络通信设备,诸如网卡或WiFi收发器,或两者。
在示例实施例中,在OCD上,多个音频扬声器506被定位为面向不同的方向。在示例实施例中,存在被配置为播放不同频率范围的声音的多个音频扬声器。
在示例实施例中,内置显示屏在OCD壳体周围形成弯曲的表面。在示例实施例中,存在在不同方向上投射光的多个媒体投影仪。
在示例实施例中,OCD能够使用板载硬件和机器学习算法来本地预处理语音数据、视频数据、图像数据和其它数据。这减少了传输到数据使能平台303的数据量,从而减少带宽消耗。这也减少了数据使能平台所需的处理量。
图6和图7示出数据使能平台的示例计算体系架构,其替代上面讨论的体系架构。在另一个示例中,图6和图7所示的这些计算体系架构被整合到上面讨论的体系架构中。
转到图6,提供示例计算体系架构601,用于收集数据并对该数据进行机器学习。例如,该体系架构601在AI平台107中使用。
体系架构601包括一个或多个数据收集器模块602,数据收集器模块602获得来自各种源的数据,诸如新闻内容、无线电内容、杂志内容、电视内容、IoT设备、企业软件、用户生成的网站和数据网络以及公共网站和数据网络。IoT设备的非限制性示例包括用于确定产品状况(例如,产品的数量、产品的当前状态、产品的位置等)的传感器。IoT设备还可以被用于确定用户的状态(例如,可穿戴设备)。IoT设备还可以被用于确定用户的状态(例如可穿戴设备)、用户环境或收集关于特定主题的数据的传感器。例如,如果一个人对天气感兴趣,那么IoT传感器可以是位于世界各地的天气传感器。如果一个人对智能城市感兴趣,那么IoT传感器可以包括交通传感器。企业软件可以包括CRM软件使得出版物公司可以管理与用户、公布者、内容制作方的消费者关系。用户生成的数据包括社交数据网络、消息通信应用、博客和在线论坛。公共网站和数据网络包括政府网站和数据库、银行组织网站和数据库、经济和金融事务网站和数据库。可以认识到的是,可以由数据收集器模块收集其它数字数据源。
所收集的数据经由消息总线603被传输到流分析引擎604,引擎604应用各种数据变换和机器学习算法。例如,流分析引擎604具有转换传入数据、应用语言检测、向传入数据添加自定义标签、检测趋势以及从图像和视频中提取对象和意义的模块。应认识到的是,其它模块可以被结合到引擎604中。在示例实施方式中,使用以下大数据计算方法中的一种或多种来构造引擎604:NiFi、Spark和TensorFlow。
NiFi使系统之间的数据流自动化并进行管理。更特别地,它是管理从任何源到任何位置的数据流的实时集成数据物流平台。NiFi与数据源无关,并且支持不同格式、架构、协议、速度和尺寸的不同且分布式的源。在示例实施方式中,NiFi在Java虚拟机体系架构内操作,并且包括流控制器、NiFi扩展、内容存储库、流文件存储库和出处存储库。
Spark,也称为Apache Spark,是用于大数据的集群计算框架。Spark的特征中的一个是执行流分析的Spark Streaming。它以小批量摄取数据,并对这些小批量数据执行弹性分布式数据集(RDD)转换。
TensorFlow是Google开发的用于机器智能的软件库。它使用在多个中央处理器(CPU)、GPU和张量处理单元(TPU)上操作的神经网络。
还提供了离线分析和机器学习模块610,以摄取在较长时间段内(例如,从数据湖607)收集的大量数据。这些模块610包括以下中的一个或多个:行为模块、推理模块、会话(sessionization)模块、建模模块、数据挖掘模块和深度学习模块。这些模块也可以例如通过NiFi、Spark或TensorFlow或其组合实现。与流分析引擎604中的这些模块不同,由模块610完成的分析不是流。结果被存储在存储器(例如,高速缓存服务611)中,然后被传输到流分析引擎604。
流分析引擎604输出的结果分析、理解数据和预测数据经由消息总线605传输到摄取器606。从离线分析和机器学习模块610输出的数据也被传输到摄取器606。
摄取器606将数据组织并存储到包括大型数据库框架的数据湖607中。这些数据库框架的非限制性示例包括Hadoop、HBase、Kudu、Giraph、MongoDB、Parquet和MySQL。从摄取器606输出的数据也可以输入到搜索平台608中。搜索平台608的非限制性示例是基于Apache Lucene构建的Solr搜索平台。例如,Solr搜索平台提供分布式索引、负载平衡查询以及自动故障转移和恢复。
来自数据湖和搜索引擎的数据可由API服务609访问。
转到图7,示出在数据已经被存储在数据湖607中并被索引到搜索平台608中之后使用的另一个体系架构701。
核心服务模块702从搜索平台608和数据湖607获得数据,并将数据科学和机器学习服务、分布式处理服务、数据持久性服务应用于所获得的数据。例如,数据科学和机器学习服务是使用以下一种或多种技术实现的:NiFi、Spark、TensorFlow、CloudVision、Caffe、KAIdi和Visage。应认识到的是,其它当前已知和将来可知的数据科学或机器学习平台可以用于执行算法以处理数据。分布式处理服务的非限制性示例包括NiFi和Spark。
API服务模块703包括与核心服务模块702和应用704交互的各种API。例如,API服务模块703使用以下一种或多种协议与应用交换数据:HTTP、网络套接字、通知和JSON。应认识到的是,可以使用其它当前已知或将来可知的数据协议。
模块703包括访问各种API服务的API网关。API服务模块的非限制性示例包括优化服务模块、搜索服务模块、算法服务模块、简档服务模块、异步服务模块、通知服务模块和跟踪服务模块。
在示例实施例中,模块703和702是A1平台107的一部分,并且应用704驻留在数据科学服务器104、内部应用和数据库105以及用户设备102中的一个或多个上。应用的非限制性示例包括企业业务应用、A1应用、系统管理应用和智能设备应用。
转到图8,示出根据本文所述的实施例的AI XD平台109的示例实施例,AI XD平台109包括由不同大小的框表示的各种类型的智能设备。AI XD平台109包括例如多个智能设备、智能设备消息总线和网络。各种智能设备可以分散在整个平台中。类似于具有神经元和突触的人脑,神经元可以被视为类似于智能边缘节点,突触可以被视为类似于智能网络。因此,智能边缘节点是分布式的,因此支持分布式决策的概念——执行XD决策科学而产生建议和行动的重要步骤和实施例。但是,与人脑的突触不同,本文所公开的平台109中的智能网络可以具有嵌入式“智能”,其中智能可以指执行数据或决策科学、执行相关算法以及与其他设备和网络通信的能力。
智能边缘节点是一种类型的智能设备,可以包括各种类型的计算设备或部件,诸如处理器、存储器设备、存储设备、传感器或具有这些部件中的至少一个作为部件的其他设备。智能边缘节点可以将这些的任何组合作为部件。计算设备内的每个上述部件可以或可以不具有嵌入在硬件中的数据或决策科学,诸如在GPU中运行的微码数据或决策科学、在操作系统和应用内运行的数据或决策科学、以及作为对硬件和软件计算设备的补充的软件运行的数据或决策科学。
如图8所示,AI XD平台109可以包括各种智能设备,包括但不限于,具有WiFi电路的算法可闪存微型相机、具有WiFi电路的算法可闪存电阻和晶体管、具有WiFi电路的算法可闪存ASIC、算法可闪存步进电机和控制器WiFi电路、具有WiFi电路的算法可闪存传感器以及ML算法创建和收发器系统。以上列出的智能设备可以是“算法可闪存的(AlgoFlashable)”,表示可以将算法(例如,与数据或决策科学相关的算法)安装、移除、嵌入、更新、加载到每个设备。智能设备的其他示例包括用户设备和OCD。
平台109中的每个智能设备可以执行通用或特定类型的数据或决策科学,以及执行不同级别(例如,复杂级别)的计算能力(数据或决策科学的计算、存储等)。例如,与具有WiFi电路的算法可闪存电阻和晶体管相比,具有WiFi电路的算法可闪存传感器可以执行更复杂的数据科学算法,反之亦然。每个智能设备都可以具有智能部件,包括但不限于智能处理器、RAM、磁盘驱动器、电阻、电容器、继电器、二极管和其他智能部件。智能网络(在图8中表示为双向箭头)可以包括有线和无线网络两者的一种或多种组合,其中智能网络包括智能网络设备,其配备有或被配置为应用数据或决策科学能力。
每个智能设备可以被配置为自动地和自主地查询其他智能设备,以便基于或与一个或多个其他智能设备和/或第三方系统一起更好地分析信息和/或应用建议和行动。这示范了在假设该特定时刻可获得所有信息的情况下采取行动之前通过使用尽可能多的数据以及数据或决策科学来应用完美或接近完美的信息。
每个智能设备还可以被配置为基于本地和全局参数来预测和确定哪个或哪些有线或无线网络最适宜传送信息,所述本地和全局参数包括但不限于业务规则、技术指标、网络流量状况、所提议的网络容量和内容、以及优先级/严重性级别,仅举几例。智能设备可以可选地选择多种不同的网络方法以串行或并行方式发送和接收信息。智能设备可以可选地例如通过提供或实现安全协议,确定某些网络中延迟过长或某个网络已受到损害,并且可以使用不同的加密方法重新路由内容和/或重新路由到不同的网络。智能设备可以可选地选择经由例如节点和网络为其内容定义路径。智能设备可以可选地选择使用智能设备消息总线将某些类型的消息(例如,业务告警、系统故障)传送给其他智能设备。一个或多个智能设备消息总线可以连接多个设备和/或网络。
每个智能设备可以可选地具有降低噪声的能力,尤其是减少极端数据的能力,特别是在本地级别或通过整个平台109。这可以使平台109能够识别出明显的趋势并更快做出抢先的业务和技术建议和行动,特别是因为较少重复的数据或极端数据允许更快地识别和建议。
每个智能设备可以包括数据或决策科学软件,包括但不限于操作系统、应用和数据库,直接支持数据或决策科学驱动的智能设备动作。Linux、Android、MySQL、Hive和Titan或其他软件可以驻留在SoC设备上,使得本地数据或决策科学可以查询本地的、设备上的、相关的数据,以作出更快的建议和行动。
每个智能设备可以可选地具有智能策略和规则系统。智能策略和规则系统提供管理策略、指南、业务规则、正常操作状态、异常状态、响应、关键性能指标(KPI_指标)以及其他策略和规则,使得分布式IDC设备可以遵循上面提及的完美信息指引前提下来进行本地的和知情的自主操作。可以存在多个智能策略和规则系统(例如NIPRS),并且上述系统之间可以具有相同或不同的策略和规则,或者可替代地可以具有不同程度或子集的政策和规则。当存在可能不适于其他域或地理区域的本地化业务和技术条件时,后一种选择是非常重要的。
转到图9,提供了用于使用数据使能平台处理数据示例计算机可执行指令。在方框901处,用户设备或OCD或两者接收输入,以选择驻留在用户设备上的应用(例如,数据使能应用)的功能或模式。在方框902处,用户设备或OCD或两者获得来自用户的语音数据。在方框903处,用户设备或OCD或两者将相同的数据传输到第三方云计算服务器。用户设备还传输例如上下文数据。在方框904处,第三方云计算服务器处理语音数据以获得数据特征。
所提取的数据特征的非限制性示例包括文本、情感、动作标签(例如,命令、请求、问题、紧急程度等)、语音特征等。上下文特征的非限制性示例包括用户信息、设备信息、位置、数据使能应用的功能或模式、以及日期和时间标签。
所提取的数据特征和上下文特征被传输到数据科学服务器(方框905)。原始数据(例如,原始音频数据)也可以被传输到数据科学服务器。在方框906处,数据科学服务器处理该接收到的数据。
在方框907处,数据科学服务器与AI平台、或内部应用和内部数据库、或两者交互以生成一个或多个输出。
然后,数据科学服务器将一个或多个输出发送到第三方云计算服务器(方框908)。在一个示例实施例中,第三方云计算服务器对输出进行后处理以提供或编制文本、图像、视频或音频数据或其组合(方框909)。在方框910处,第三方云计算服务器将经后处理的输出传输到相关的(一个或多个)用户设备或(一个或多个)OCD。在方框911处,(一个或多个)用户设备或(一个或多个)OCD或两者例如经由音频设备或显示设备或两者输出经后处理的输出。
在替代实施例中,源于方框908,在方框912处,第三方云计算服务器将输出传输到一个或多个相关设备(例如,用户设备或OCD)。然后,在一个或多个相关设备上本地执行后处理(方框913)。然后,这些经后处理的输出经由音频设备或视觉设备或两者,在一个或多个用户设备或OCD上输出(方框911)。
返回到方框907,在示例方面,数据科学服务器从内部应用和内部数据库中拉取数据,或者基于由数据科学服务器产生的结果来更新内部应用和内部数据库,或者执行以上两种操作(方框914)。
在另一个示例方面,数据科学服务器将数据和命令传输到AI平台,以将AI处理应用于所传输的数据。作为回报,AI平台将外部和本地信息以及数据智能传输到数据科学服务器。这些操作在方框915中示出。
可以认识到的是,方框907、914和915中的任何两个或更多个操作可以相互影响。在示例实施例中,在方框915的操作中使用方框914的输出。在另一个示例实施例中,在方框914的操作中使用方框915的输出。
在此应认识到的是,本文所述的设备、系统和方法使得能够提供特定于给定用户的兴趣的相关数字媒体内容。在其他适用行业中,一个示例行业是销售和营销。
与数据使能平台组合的设备为人们提供“完美信息”,这是来自于经济学家的一个概念。
本文所述的数据使能平台与用户设备或OCD或两者相结合,提供完美信息,以帮助人消费数字媒体内容以及与数字媒体内容交互。例如,用户与用户设备或OCD上的机器人交谈。
在优选实施例中,机器人是具有经由文本语言或口语语言或两者与用户进行交互的语言能力的聊天机器人。但是,在其它示例实施例中,机器人不一定与用户聊天,但是仍然影响呈现给用户的数据的显示。
本文所述的系统提供了数字杂志集,每个数字杂志具有绑定的智能机器人。每个数字杂志是由用户创建或定制的,并且表示主题、题材、兴趣、查询、研究项目等。例如,用户可以口头对应用讲话,说:“嗨,机器人,创建黑洞缠结杂志”。该应用程序随后创建数字杂志,从网上选择描述黑洞缠结的图片,并在图片下方显示说明“黑洞缠结”的单词。
应认识到的是,术语“数字杂志”在本文中是指专注于给定主题的数据的统一集合。该数据包括例如文本数据、音频数据和视觉数据中的一个或多个(例如,图像或视频,或两者)。
应用机器人中的一个开始从互联网新闻、博客、论坛、期刊、杂志、社交网站、视频网站等自主搜索与关键字和短语“黑洞缠结”密切匹配的多媒体(文本、音频、视频、图片)。该机器人使用数据科学,诸如但不限于K均值聚类,来识别最能反映黑洞缠结的属性和特征的属性和特征。
用户随后选择黑洞缠结数字杂志,因此,数字杂志开始基于数据科学显示特定于黑洞缠结的信息的摘要信息、图片、文章、视频等。
用户可以相对于每个多媒体图片、文本、音频、视频,口头或手动说出他或她喜欢或不喜欢该内容。行为机器人开始学习该用户喜欢和不喜欢该K均值结果的什么地方,然后调整数据科学以呈现更像机器学习到用户“喜欢”的结果。
用户还可以口头评论内容(例如,这个理论听起来是熟悉的;或来自ABC公司的新卫星应当提供支持这个理论的更多事实)。数据使能平台使用这个信息在同一本电子杂志中提供相关信息。
在特定示例中,当用户阅读、收听或观看多媒体片段时,用户可以告诉应用暂停。在这个暂停点,用户可以创建语音和键入机器人注释,这些注释链接到多媒体中的关键词、短语、图片、视频帧和声音字节——暂停点机器人。这些由用户创建的机器人注释使得用户能够插入想法、评论、提醒、待办事项等,并对其加索引以供将来访问。在这个暂停点,在替代实施例中,用户可以使用诸如Google或Bing的搜索引擎来执行搜索。如果用户喜欢来自搜索结果页面的结果中的一个,那么用户可以将链接的多媒体口头连接到数字杂志暂停点以供将来参考。在这个暂停点,在替代实施例中,用户可以口头链接到不同的网站、论坛、博客、论坛等、搜索结果,并将这个结果信息链接回暂停点。暂停点机器人可以同时开始搜索其它互联网多媒体文档,将K均值应用于结果,并推荐与每个评论、待办事项、提醒、搜索结果链接、论坛、博客、新闻、期刊等非常相似的其它多媒体文档,这类似于看到针对主题的这些结果的人也搜索并找到了X个多媒体,这X个多媒体具有与特定想法、待办事项、视频等密切相关的特征和属性。
当用户阅读、收听以及将更多的相关评论、注释、链接等添加到黑洞缠结数字杂志时,用户可以选择经由社交媒体、论坛、博客等公布和与其他人共享他的(一个或多个)数字杂志。
当用户阅读、收听以及将更多的相关评论、注释、链接等添加到黑洞缠结数字杂志时,用户可以创建文档、拍摄图片/视频、记录音频、输入IoT数据以及将上述数据关联到黑洞缠结棒球数字杂志。
当用户向数字杂志添加口语评论时,机器人将情感分析应用于口头说出的评论,从而创建可帮助机器学习机器人理解数字杂志中的对于某个片段(例如,文章、视频、博客条目、音频段(audio cast)或播客等)的兴奋、悲伤等的元数据。
当用户向数字杂志添加口语、图片和视频评论时,机器人可以记录/观察背景噪声、背景图片/视频元素(位置、颜色、人、物体),以创建能够帮助机器学习机器人更好地理解用户正在其中消费关于黑洞缠结数字杂志的信息的上下文或环境的元数据。例如,数据使能平台确定用户是否在火车上、飞机上、在浴室中、在公园里还是在与周围有人的情况下等等消费媒体。
数字杂志机器人还可以执行可视图形数据表示,该数据表示示出所有黑洞缠结媒体块如何彼此关联以便于将来访问,并建议和推荐其它媒体文章、网站、新闻、博客和论坛,以查看并可能将其添加到黑洞缠结数字杂志中。
如果数字杂志创建者公布并允许人们遵循这个数字杂志,那么数据使能平台还使其他人能够遵循用户的特定数字杂志。
在示例方面,为某个主题创建数字杂志的人可以调整设置,这些设置指导数据使能平台与所选择的联系人私下共享给定的数字杂志,或者公开共享。
该系统使数字杂志创建者能够接收评论、问题、链接、数字媒体,并决定是否将这种提交的信息添加到现有的黑洞缠结数字杂志。
在示例方面,关于特定主题、题材、兴趣等的上述信息的结果产生最接近、实时、完美的信息数字杂志。
用户(例如数字杂志创建者)不再需要花费大量时间搜索现有内容,而可以将更多时间花费在创建新内容或学习新内容上。
基于这些技术特征,实际上对于用户,即作为发烧友的用户来说,不再需要进行与用户感兴趣的题材、主题相关的深入搜索。数据使能平台和用户设备以易于消费和交互的格式,为用户一起拉取该信息。
转到图10,提供了驻留在给定用户设备1001、数据科学服务器1002以及内部应用和数据库1003上的软件模块的示例实施例,这些软件模块适于生成和公布数字杂志以及与数字杂志交互。
例如,数据使能应用1004驻留在用户设备上,并且该应用包括:用于主题1的第一数字杂志模块、用于主题2的第二数字杂志模块等等、探索模块、以及配置模块。用户设备还包括用户界面(UI)模块1005,模块1005可以是数据使能应用1004的一部分,或者可以与数据使能应用1004交互。UI模块包括与每个数字杂志相关联或作为其一部分的聊天机器人。例如,聊天机器人1链接到用于主题1的第一数字杂志模块,而聊天机器人2链接到用于主题2的第二数字杂志模块。还有全局聊天机器人,它与整个应用1004以及特定于其他杂志的聊天机器人(例如聊天机器人1和聊天机器人2)交互。Ul模块还包括一个或多个GUI、合成器语音模块、一个或多个消息通信应用、以及一个或多个触觉反馈模块,或其组合。
在示例实施例,探索模块帮助用户探索不同主题、不同子主题以及不同数据源。
数据科学服务器1002包括数据科学算法库、数字内容模块、用户简档模块、主题-用户模块、配置模块、以及策略和规则引擎。例如,策略和规则引擎包括特定于使用数据使能平台的公司或组织的策略和规则。
关于数据科学算法库,应认识到的是,本文的数据科学是指以包括但不限于算法、机器学习、人工科学、神经网络等形式应用于数据的数学和科学。数据科学的结果包括但不限于商业和技术趋势、推荐、动作、趋势等。
在示例方面,数据科学算法库中包括显露(Surface)、趋势、推荐、推断、预测和动作(STRIPA)算法。这一系列STRIPA算法值得一起使用并且被用于将特定类型的数据科学分类到相关的类。
数据科学库中的其它数据科学算法的非限制性示例包括:Word2vec表示学习;情感(例如,多模态、方面、上下文等);否定提示,范围检测;主题分类;TF-IDF特征向量;实体提取;文档摘要;网页排名;模块化;诱导子图;双图传播;用于推断的标签传播;广度优先搜索;特征中心度,输入/输出度;基于GPU的Monte Carlo Markov链(MCMC)模拟;利用区域卷积神经网络(R-CNN)的深度学习;Torch、Caffe和基于GPU的Torch(Torch on GPU);徽标检测;ImageNet、GoogleNet目标检测;SIFT、感兴趣区域语义分割网络(SegNet Regions ofinterest);组合NLP和图像的序列学习;K均值、层次聚类;决策树;线性、逻辑回归;相关性关联(Affinity Association)规则;朴素贝叶斯;支持向量机(SVM);趋势时间序列;突发异常检测;KNN分类器;语言检测;表面语境情感、趋势、推荐;新兴趋势;独特之处(WhatsUnique)查找器;实时事件趋势;趋势洞察;相关查询建议;用户、产品、品牌、公司的实体关系图;实体推断:地理、年龄、性别、人口统计数据等;主题分类;基于方面的NLP(Word2Vec、NLP查询等);分析和报告;视频和音频识别;意图预测;最佳结果路径;基于属性的优化;搜索和发现;以及基于网络的优化。
在其它示例实施例中,上述数据科学可以驻留在用户的智能电话上、公共云或私有云中、或员工的数据中心中,或上述任何组合。
继续图10,UI模块1006也驻留在数据科学服务器1004上。
内部应用和数据库1003还包括被用于协助管理数字媒体内容的各种软件和数据库。这些软件包括数字内容和布局软件、公布和分发软件、消息通信软件、联系人列表软件、以及客户关系管理(CRM)软件。
转到图11,示例数据流程图示出不同模块之间的数据流。分别属于用户1和用户2的用户设备1101和1102已经在其上存储数字杂志模块。可替代地,这些模块不驻留在用户设备上的存储器中,而是可以经由网络门户(web portal)访问,用户可以使用他们的账户登录到该门户。特别地,对于用户1,存在数字杂志主题A.1模块,该模块表示特定于用户1的用于主题A的数字杂志,该模块与聊天机器人A.1相关联。与用户1相关联的还有数字杂志主题B.1模块,该模块表示特定于用户1的用于主题B的不同数字杂志,该模块与聊天机器人B.1相关联。
对于用户2,存在数字杂志主题A.2模块,该模块表示特定于用户2的用于主题A的数字杂志,该模块与聊天机器人A.2相关联。与用户2相关联的还有数字杂志主题C.2模块,该模块表示特定于用户2的用于主题C的不同数字杂志,该模块与聊天机器人C.2相关联。尽管用户2和用户1两者均具有专注于主题A的数字杂志,但他们的杂志可能基于他们的行为、输入的数据和其他兴趣而有所不同。而且,他们的聊天机器人(例如,聊天机器人A.1和聊天机器人A.2)也会以不同方式演进以适应他们的特定用户(例如,分别为用户1和用户2)。
来自每个用户的数据被传输到用户简档模块1103中。所传输数据的示例包括语音记录、视频数据、文本数据、时间、滑动(swipe)或姿势数据、其他音频数据、用户设备数据等。在示例实施例中,将从用户设备获得的原始数据在用户设备上进行预处理以提取数据特征,并且这些数据特征也被传输到用户简档模块1103。
用户简档模块为每个用户简档组织和存储数据。例如,来自用户1的数据被存储在用户1简档中,来自用户2的数据被存储在用户2简档中。
基于用户简档数据和从数据科学算法库1106获得的数据科学算法,数字内容模块1104获得适合于给定用户且与之相关的数字媒体内容。然后,它将数字媒体内容返回给用户简档模块1103,用于分发给相应用户。
随着时间的推移,随着聊天机器人A.1更多地了解用户1和主题A,聊天机器人A.1将使用当前已知和将来可知的人工智能计算技术演进。类似地,随着时间的推移,随着聊天机器人A.2更多地了解用户2和主题A,聊天机器人A.2将使用当前已知和将来可知的人工智能计算技术演进。随着时间的推移,聊天机器人A.1可能会变得与聊天机器人A.2非常不同,比聊天机器人A.2更加复杂。类似地,为用户1和用户2生成的用于主题A的数字杂志可能会变得非常不同。
主题-用户介绍模块1105可以识别出数字杂志主题A.1模块或聊天机器人A.1或两者与用户2的对应模块和聊天机器人不同(例如更好)。因此,假设提供了来自用户1的共享或公布许可,模块1105向用户2传输或提供数字杂志主题A.1模块或聊天机器人A.1或两者的公共副本。例如,该数据被发送到用户2的探索模块。
在示例方面,从用户1输入的数据(诸如注释、突出显示、评论、图像,视频等)是数字杂志主题A.1模块的公共副本的一部分。在另一个示例方面,该输入的数据不是数字杂志主题A.1模块的公共副本的一部分,并且,如果用户1允许,则将其单独发送给另一个用户(例如,用户2)。
图12-13包括示例GUI的屏幕快照,示出用于将数据使能系统应用于数字杂志的显示。
在图12中,示出了用于数据使能应用的主页登录页面1201。它包括搜索字段1202,用于接收针对主题、名称、事物等的文本输入。用户还可以向全局聊天机器人讲话,以探索或搜索主题、名称、事物等。它还包括用于激活每个数字杂志的GUI控件1203、1204。例如,控件1203表示关于黑洞缠结的数字杂志,而控件1204表示关于沙漠气候中的园艺的不同数字杂志。通过接收对于这些控件之一的选择(例如,通过GUI或者通过口头命令),用户设备将启动特定于所选择的数字杂志的GUI,并将激活对应的聊天机器人。
图13示出了所选择的数字杂志的示例GUI 1301。内容的布局和格式可以随时间改变,并且可以因用户而异。GUI可以包括文本、视频或图像或其组合。文本字段1302接收文本输入以发起搜索或存储与给定数字媒体片段相关的评论。可视内容的显示可以上下滚动,或者可以被呈现为可以翻转的页面。
通过在GUI中选择一段内容,聊天机器人开始朗读该内容。
应认识到的是,即使用户正在观看数字杂志,数字杂志中的内容也可以实时更新,因为该内容是由数据使能平台获得的。
所描绘的控制元件是作为示例。具有不同数据科学、机器人、特征和功能的其它控制元素可以被添加以及与其它控制元素混合。
以下是用户提出的示例问题和陈述,以及聊天机器人提供的口语反馈。应认识到的是,机器人或聊天机器人是对话式的,并且适应于其正在对话的用户的风格。
示例1
用户:嗨,机器人,请向我提供有关主题X的文章。
机器人:嗨,用户,这是有关主题X的最新文章以及有关主题X的引用最多的文章。
机器人读出来自各种数据源的最新的3篇新文章的摘要,并读出引用最多的3篇文章的摘要。
示例2
用户:嗨,机器人,为我阅读XYZ文章。
机器人读出文章XYZ。
用户:嗨,机器人,请重复最后几句话。
机器人重新阅读最后三个句子,停顿,并继续阅读文章XYZ的其余部分。
读出3篇被引用最多的文章的摘要。
示例3
用户:嗨,机器人,为我阅读XYZ文章。
机器人读出文章XYZ。
用户:嗨,机器人,我认为R理论的观点很有趣。P教授正在做一些研究来反驳它。
机器人:嗨,用户,我发现了更多关于R理论的内容、P教授关于R理论的文章、以及关于反驳R理论的其它内容。您想现在听这些内容还是将其保存以备后用?
用户:嗨,机器人,继续阅读本文章,然后为我读P教授的文章。
机器人继续读出XYZ文章。之后,机器人读出P教授的文章。
转到图14,示出用于应用自然语言处理(NLP)的示例计算。在方框1401处,用户设备或OCD接收输入以监视给定主题。在方框1402处,以规则的间隔(例如,每天),数据使能平台针对与给定主题有关的最新新闻执行外部搜索。在方框1403处,将外部搜索结果存储在存储器中。在方框1404处,数据使能平台对搜索结果应用NLP自动摘要,并将摘要输出到用户设备(例如,经由音频反馈)(方框1405)。然后,根据方框1402,以规则的间隔重复该处理。
转到图15,提供了另一个示例计算。在方框1501处,用户设备或OCD接收输入以监视给定主题。在方框1502处,以规则的间隔(例如,每天),数据使能平台针对与给定主题有关的最新新闻执行外部搜索。在方框1503处,将外部搜索结果存储在存储器中。在方框1504处,数据使能平台对给定主题执行内部搜索。在方框1505处,存储这些内部搜索结果。在方框1506处,数据使能平台将外部搜索结果与内部搜索结果进行比较,以确定它们是否彼此影响。例如,数据使能平台确定数据中是否存在差异或数据中是否存在相似性,或两者兼有。在方框1507处,数据使能平台对受影响的外部搜索结果或受影响的内部搜索结果或两者应用NLP自动摘要。摘要被输出到用户设备以用于视觉显示或音频反馈(方框1508)。以这种方式,向用户通知相关新闻以及该新闻为何相关(例如,受影响的内部数据等)。
在示例实施例中,图14或15中的上述方法用于提供机器人或聊天机器人,其为每个特定主题提供了消费新闻摘要(例如,新闻公布、调查性文章、纪录片、领英(Linkedln)、脸书(Facebook)粉丝页面等)的方便快捷的方式。
转到图16,提供了示例性可执行指令,用于使用K最近邻计算来识别具有相似特征的其他用户。
方框1601:从对象用户的用户设备接收识别给定主题的输入。
方框1602:数据使能平台以规则的间隔(例如每天)对所有用户执行搜索,以确定具有匹配主题兴趣的用户。
方框1603:在所得用户中,数据使能平台基于每个用户的简档为每个用户生成特征数据集。
方框1604:数据使能平台将K近邻计算应用于特征数据集,并通过与对象用户的特征数据集的最近邻来确定名称列表的优先级。
方框1605:针对前N个最近邻用户中的每个,数据使能平台识别:给定主题的数字杂志;或与给定主题相关联的聊天机器人;或评论、突出显示、相关链接/主题;或其组合。
然后,数据使能平台在方框1606、1607和1608中的一个或多个中执行操作。
方框1606:将所识别的数字杂志公布给对象用户的用户设备。
方框1607:将所识别的聊天机器人上传到对象用户的用户设备。
方框1608:将所识别的评论、突出显示、相关链接/主题传输给对象用户的用户设备。
转到图17,提供了示例性可执行指令,用于使用动态搜索来影响某些数据在用户设备上的输出方式。
方框1701:当用户设备播放文本的音频时,用户设备将用户的口语命令检测为以下中的至少一个:重复文本的一部分、搜索文本的一部分、澄清文本的一部分、评论文本的一部分进行评论、突出显示或记住文本的一部分等。
方框1702:用户设备或数据使能平台或两者执行用户命令。
方框1703:数据使能平台总体统计任何和所有用户或某些排名较高的用户或两者所作用的文本的特定部分的次数。
方框1704:在统计了一定次数之后,数据使能平台标记文本的该特定部分。
方框1705:当正在通过辅助用户设备经由音频手段播放被标记的文本的特定部分时,用户设备以强调的方式(例如,更慢、更大声、以不同的音调、以不同的语音等)播放音频文本。换句话说,数据使能平台已标记了文本的特定部分,并已对文本的特定部分执行了音频变换。
因此,如果用户1评论某些文本、音频或视频,则当用户2查看相同数据时,针对用户2的聊天机器人将重点读取该文本。在示例实施例中,用户2不知道注释是什么,而仅知道文本的该部分被许多用户认为是重要的。
转到图18,提供了用于处理语音数据和背景噪声的示例可执行指令。
方框1801:用户设备或OCD记录音频数据,包括语音数据和背景噪声。
方框1802:数据使能平台应用音频处理以将语音数据与背景噪声分离。
方框1803:数据使能平台将语音数据和背景噪声保存为分离的文件并彼此关联。
方框1804:数据使能平台应用机器学习来针对以下内容分析语音数据:文本;意义;情绪;文化;语言;用户的健康状态;等等。
方框1805:数据使能平台应用机器学习来针对以下内容分析背景噪声:环境、用户参与的当前活动等。
方框1806:数据使能平台应用机器学习来确定从语音数据提取的特征与从背景噪声提取的特征之间的相关性。
以这种方式,可以更准确地确定关于用户的信息,诸如他们的行为和周围环境。这个信息被存储为给定用户简档的一部分(例如,用户1简档、用户2简档等)。这进而可以被用于为用户策划更相关的内容、识别相似的用户、格式化内容的输出(例如,语言、阅读的速度、音量、视觉布局、字体等),以满足用户的简档,并将数据提供给公布者和内容制作者以生成更相关内容。
在示例实施例中,包括但不限于OCD的用户设备包括板载语音合成器以生成合成语音。转到图19,板载语音合成器是驻留在用户设备上的基于数字信号处理(DSP)的系统。它包括一个或多个语音库。它还包括文本处理器、汇编器、链接器模块、模拟器、加载器、由硬件资源管理器管理的DSP加速器模块以及语音获取和合成模块(例如,模拟/数字转换器和数字/模拟转换器)。语音获取和合成模块与麦克风和音频扬声器进行数据通信。
图20示出用户设备上的部件的示例子集,其包括DSP板/芯片、ADDA2板/芯片、DSP板的局部总线、主机总线和智能设备的CPU。例如,这些部件支持图19中所示的软件体系架构。
应认识到的是,用户设备中的不同软件和部件体系架构(即,与图19和20中所示的示例体系架构不同)可以用于促进输出合成语音数据。
转到图21,提供了用于构建语音库的示例可执行指令。
方框2101:数据使能平台搜索包括关于给定人的语音数据的媒体内容(例如,访谈、纪录片、自发表内容等)。具有语音数据的媒体内容的示例数据格式包括视频和纯音频媒体。
方框2102:数据使能平台处理媒体内容以摄取语音数据。
方框2103:数据使能平台将语音数据分解为给定人的音频语音属性。音频语音属性的示例包括频率、振幅、音色、元音持续时间、峰值发声声压等级(SPL)、发声连续性、颤音、音高可变性、响度可变性、节拍、语速等。
方框2104:数据使能平台基于所记录的单词来生成单词到语音属性的映射。
方框2105:数据使能平台生成音节到语音属性的映射。
方框2106:数据使能平台为给定人构造任何单词到语音属性之间的合成映射。
方框2107:数据使能平台基于合成映射为给定人生成语音库。
方框2108:数据使能平台将语音库与给定人相关联。
方框2109:属于用户的用户设备接收给定人的语音库。
方框2110:本地用户设备将语音库存储在存储器中。例如,系统以无线方式对DSP芯片进行闪速存储,使得给定人的语音库被存储在智能设备上的RAM中(方框2111)。该数据还可以以其他方式被存储在用户设备上。
例如,可以针对记者、作者、在数字杂志中被采访或引用的人、或评论数字杂志的读者、或其组合的语音,获得不同语音库。
图22示出用户设备上的存储器设备2201的示例。存储器设备包括较快访问存储器2202和较慢访问存储器2203。在一个示例实施例中,较快访问存储器是RAM,较慢访问存储器是ROM。可以使用较快访问存储器和较慢访问存储器的其他组合来替代RAM和ROM。
除其它以外,较快访问存储器2202已经在其上存储常见问题(FAQ)和常见陈述(FS)的库,以及对这些FAQ和FS的对应响应。快速访问存储器还已经在其上存储与用户交互的人的语音库以及频繁访问的内容库。这些频繁访问的内容库包括多媒体。存储在存储器2202中的信息或内容提供了频繁需要的局部的、边缘的、快速的“热”反应性内容,使得对于相同已知的已知数据,不需要前往数据使能平台。
除其它以外,较慢访问存储器2203包括:数据科学模块、收集器模块、通信模块、其他语音库和内容库。存储在存储器2203中的信息或内容提供了所需要的局部的、边缘的、快速的“中等”反应性内容,但不是那么频繁或立即,使得对于相同已知的已知数据,不需要前往数据使能平台。
被称为基于云的访问模块2203a的另一个数据模块允许用户设备与数据使能平台进行交互以访问内容库。这也称为相对较少使用的云“冷”反应性内容。
方框2204:用户设备检测到用户已经问了FAQ或说了FS。
方框2205:用户设备访问较快访问存储器2202,并识别用于所问的FAQ或所说的FS的适当语音库。
方框2206:用户设备访问较快访问存储器2202,并识别对于所问的FAQ或所说的FS的适当响应(例如,音频、视觉、文本等)。
方框2207:用户设备使用所识别出的适当响应和所识别出的语音库来输出音频或视觉(或两者)数据。以这种方式,对FAQ和FS的响应非常快甚至实时地出现,因此提供类似对话的体验。
转到图23,可执行指令的另一个示例集由患者的智能设备执行。
方框2301:用户设备检测到人已经问了问题或说了不是FAQ/FS的陈述。
方框2302:用户设备使用预定的语音库提供即时响应。例如,智能设备说“让我考虑一下”或“嗯...”。该响应例如被预加载到较快访问存储器2202中以用于即时检索。
方框2303:用户设备进行以下中的一个或多个以获得响应:本地数据科学、本地搜索、外部数据科学和外部搜索。该操作例如包括访问较慢访问存储器2203。
方框2304:用户设备识别用于输出所获得的响应的适当语音库。
方框2305:用户设备使用所获得的响应和所识别出的语音库来输出音频或视觉(或两者)数据。
以这种方式,在用户设备上局部地或整体地计算更复杂的算法,同时仍然提供即时响应。
图24和25示出由用户的用户设备执行的可执行指令的另一个示例实施例。如果用户的问题或陈述的回答不是已知的,则用户设备发起与属于用户相关联系人(例如与数字媒体内容正在交互的另一个人、数字媒体内容的记者或作者、可能对数字媒体内容具有共同的兴趣的朋友或共同工作者等)的计算设备的消息或通信会话。
方框2401:用户设备检测到用户已经问了问题或说了不是FAQ/FS的陈述。
方框2402:用户设备使用预定的语音库提供即时响应。例如,智能设备访问较快访问存储器2202。
方框2403:用户设备识别出需要一个或多个联系人来提供适当响应。例如,用户设备访问较慢访问存储器2203以获得该信息。
方框2404:用户设备识别用于输出所获得的响应的适当语音库。例如,用户设备访问较慢访问存储器2203以获得该信息。
方框2405:用户设备使用所获得的响应和所识别出的语音库来输出音频或视觉(或两者)数据。例如,智能设备说:“我将为您找到”或“我需要查找一些东西,稍后将回复您”。
方框2406:用户设备生成(一个或多个)消息并将其传输到适当联系人。
然后,联系人的一个或多个用户设备接收来自联系人的响应。例如,联系人接收与来自患者的用户设备的消息相关的文本消息、电话呼叫、视频呼叫等,以及
方框2407:用户设备接收来自(一个或多个)适当联系人的(一个或多个)响应。
方框2408:用户设备基于接收到的来自(一个或多个)适当联系人的(一个或多个)响应来生成适当响应。
方框2409:用户设备识别用于输出适当响应的适当语音库。
方框2410:用户设备使用适当响应和所识别出的语音库来输出音频或视觉(或两者)数据。
以这种方式,来自一个或多个联系人的响应被转达回到用户的用户设备。
转到图26,提供了示例性可执行指令,用于输出包括合成语音内容的媒体内容。
例如,用户问“请告诉我关于特斯拉(Tesla)汽车生产的信息”。数据使能应用程序识别出埃隆·马斯克(Elon Musk)是该主题的相关权威,找到相关内容(例如文本内容、音频、视频等),并使用Elon Musk的合成语音来解释特斯拉的汽车生产。例如,使用Elon Musk合成语音的聊天机器人说:“您好,我是Elon Musk。特斯拉的汽车制造厂位于...”。
在另一个示例中,用户说“请告诉我比尔·奈(Bill Nye)对气候变化的看法”。数据使能应用程序搜索Bill Nye与气候变化相关的内容(例如,文本内容、音频、视频等),并使用Bill Nye合成语音来解释他对气候变化和全球变暖的观点。例如,使用Bill Nye合成语音的聊天机器人说:“您好,我是科学专家Bill Nye。气候变化是基于科学的……”。
在图26的第一示例实施例中,该过程从方框2601开始。
方框2601:接收关于主题的查询(例如,语音查询)
方框2602:识别作为该主题的权威、专家、领导者等的给定人
方框2603:搜索并获得与主题相关的和/或由给定人说出的文本引述、文本文章、文本信息
方框2604:获得给定人的语音库
方框2605:生成具有至少音频内容的媒体内容,包括说出所获得的文本数据的人的合成语音
方框2606:输出所生成的媒体内容
在第二示例实施例中,该过程在方框2607处开始并且从方框2607延续到方框2603,然后方框2604,依此类推。
方框2607:接收关于给定人和主题的查询(例如语音查询)
在方框2605的示例方面,数据使能平台将合成语音数据与所记录的语音数据、视频、图像、图形等进行组合(方框2608)。换句话说,所生成的媒体内容包括多种类型的媒体。
转到图27,提供了示例实施例,其中不同记者或作者具有不同的语音库。以这种方式,当用户进行交互或收听数字文章时,他们可以收听数字文章的记者或作者的合成声音。
在示例实施例中,不同的音频样式库与不同的数字杂志出版物相关联。特别地,在此应认识到的是,不同出版物具有不同的写作风格。在图27的示例实施例中,不同出版物具有不同的音频样式参数集,这些参数会影响记者或作者的语音的语音属性。例如,在《经济学人》工作的记者可根据“经济学人”的音频样式库对其合成语音进行进一步修改;在《纽约时报》工作的记者可根据“纽约时报”的音频样式库对其合成语音进行进一步的修改。
在示例实施例中,音频样式库包括一个或多个以下参数:音调、频率(例如,也称为音色);响度;单词或短语被说出的速率(例如,也称为节拍);语音读音;词汇(例如,单词的选择);语法(例如,句子结构的选择);发声(例如,发音的清晰度);节律(例如,长短音节的模式)、旋律(例如,语音的起伏);短语、问题;以及问题或陈述中给出的详细数量。在示例实施例中,不同音频样式库存储定义每个出版物的音频样式的参数。
在使用图27的过程的另一个示例方面,《纽约时报》的第一名记者和第二名记者可能仍然听起来不同,但可以被进一步修改以使合成语音的说话方式具有一定的一致性,这意味着具有《纽约时报》的特征。
在图27中,根据方框2701和2702,数据使能平台建立或获得不同库
在方框2701处,数据使能平台为记者和作者建立或获得语音库。
在方框2702处,数据使能平台建立或获得音频样式库。非限制性示例包括经济学人样式库、纽约时代样式库、华尔街日报样式库、英国广播公司样式库等。
在获得库之后,可以处理对查询的响应。
方框2703:数据使能平台接收输入以播放或收听给定的数字文章。
方框2704:数据使能平台识别给定记者/作者的相关语音库和给定数字文章的相关样式库。
方框2705:数据使能平台自动生成给定数字文章的摘要。
方框2706:数据使能平台或用户设备使用所识别的记者的合成语音并根据音频样式库,经由音频输出摘要。
方框2707:数据使能平台或用户设备询问“您希望听到完整文章吗?”。
方框2708:数据使能平台或用户设备检测到用户响应“是”。
方框2709:用户设备的数据使能平台使用所识别的记者的合成语音并根据音频样式库,音频输出完整给定数字文章。
以下描述附加的一般示例实施例和方面。
在示例实施例中,提供了一种口语计算设备,所述口语计算设备包括壳体,所述壳体容纳至少以下:存储器设备,在所述存储器设备上至少存储数据使能应用,所述数据使能应用包括多对对应的对话机器人和数字杂志模块,每对所述对应的对话机器人和数字杂志模块特定于用户账户和主题;显示设备,用于显示当前选择的数字杂志;麦克风,被配置为将用户的话语单词记录为音频数据;处理器,被配置为使用所述对话机器人来识别与所述音频数据相关联的上下文数据,所述上下文数据包括所述当前选择的数字杂志;数据通信设备,被配置为经由数据网络传输所述音频数据和所述上下文数据,以及作为响应,接收响应数据,其中所述响应数据是与所述主题有关的文章的文本;以及音频扬声器,被所述处理器控制以输出从至少所述文章的所述文本导出的音频响应。
在示例方面,口语计算设备是用于与数据动态交互的可穿戴设备。例如,可穿戴设备包括惯性测量传感器。在另一个示例中,可穿戴设备是智能手表。在另一个示例中,可穿戴设备是耳机。在另一个示例中,可穿戴设备投影图像以提供增强现实。
在另一个示例方面,口语计算设备在周围表面上投影光图像以提供虚拟现实或增强现实。在另一个示例方面,口语计算设备与其它设备数据连接,用于投影光图像以在房间中提供增强现实或虚拟现实。实际上,房间中物理存在的人或通过投影的光图像显示的虚拟人同时进行交互和协作。
在示例方面,口语计算设备包括与所述处理器交换数据的图形处理单元(GPU),所述图形处理单元被配置为使用并行线程计算来预处理所述音频数据以提取数据特征,以及所述数据通信设备与所述上下文数据和所述音频数据相关联地传输所提取的数据特征。
在示例实施例中,所述口语计算设备是用户设备102或OCD 301的具体实施例。
在另一个一般示例实施例中,提供了一种数据使能系统(在本文也称为数据使能平台),其包括云计算服务器,该云计算服务器摄取源自一个或多个用户设备的音频数据,该音频数据包括至少一个或多个用户的口语对话,并且云计算服务器被配置为应用机器学习计算来提取至少内容和情感数据特征。
还存在与所述云计算服务器以及外部人工智能计算平台进行数据通信的数据科学服务器。数据科学服务器包括多个用户简档,每个用户简档与多对对应的对话机器人和数字杂志模块相关联,以及每对所述对应的对话机器人和数字杂志模块特定于给定用户账户和给定主题。数据科学服务器还包括数据科学算法库,所述数据科学算法用于针对给定对话机器人和对应的数字杂志模块来处理所述内容和情感特征。换句话说,数据科学算法库还可以特定于给定对的给定对话机器人和对应数字杂志模块。数据科学服务器将响应数据输出到所述云计算服务器,所述响应数据是响应于所述音频数据的。随后,云计算服务器将所述响应数据格式化为由给定用户设备可播放的音频数据格式,并传输格式化的响应数据。
在另一个一般示例实施例中,口语计算设备包括:存储器设备,在所述存储器设备上至少存储数据使能应用,所述数据使能应用包括多对对应的对话机器人和数字杂志模块,每对所述对应的对话机器人和数字杂志模块特定于用户账户和主题;显示设备,用于显示当前选择的数字杂志;麦克风,被配置为将用户的话语单词记录为音频数据;处理器,被配置为使用所述对话机器人来识别与所述音频数据相关联的上下文数据,所述上下文数据包括所述当前选择的数字杂志;数据通信设备,被配置为经由数据网络传输所述音频数据和所述上下文数据,以及作为响应,接收响应数据,其中所述响应数据是与所述主题有关的文章的文本;以及音频扬声器,被所述处理器控制以输出从至少所述文章的所述文本导出的音频响应
在示例方面,所述存储器设备还在其上存储一个或多个合成语音库,其中所述一个或多个合成语音库中的每个合成语音库包括一个或多个对应的人的语音参数特征,以及所述一个或多个合成语音库被所述处理器使用以生成所述音频响应。
在另一个示例方面,所述存储器设备还在其上至少存储包括所述文章的作者的语音参数特征的合成语音库;所述处理器还被配置为根据所述文章的所述文本和所述合成语音库生成所述音频响应;以及所述音频扬声器以所述作者的合成语音来输出所述文章的所述文本。
在另一个示例方面,所述存储器设备还在其上至少存储包括在所述文章中被采访或引用的人的语音参数特征的合成语音库;所述处理器还被配置为根据所述文章的所述文本的至少一部分和所述合成语音库生成所述音频响应;以及所述音频扬声器以所述被采访或被引用的人的合成语音输出所述文章的所述文本的至少所述部分。
在另一个示例方面,所述存储器设备还在其上存储与所述多个数字杂志模块相关联的多个合成语音库。
在另一个示例方面,所述存储器设备还在其上存储分别与所述多个数字杂志模块相关联的多个音频样式库,以及每个音频样式库包括被所述对话机器人使用以影响所述音频响应的一个或多个参数;以及所述参数包括以下中的一个或多个:音调;频率;响度;单词或短语被说出的速率;语音读音;词汇;语法;发声;节律和旋律。
在另一个示例方面,所述音频响应包括所述文章的所述文本的摘要以及询问所述用户是否希望听到完整文章的问题。
在另一个示例方面,还接收对于所述问题的“是”响应,以及所述口语计算设备随后生成另一个音频响应,所述另一个音频响应包括经由所述音频扬声器完整读出所述文章的所述文本。
在另一个示例方面,所述响应数据还包括视觉数据,所述视觉数据是使用所述显示设备,与所述音频响应一起输出的。
在另一个示例方面,所述显示设备包括显示屏、或投影仪、或两者。
在另一个示例方面,所述文章的所述文本的一部分被标记,以及所述计算设备输出所述音频响应包括以听觉强调的方式来播放所述文本的所述部分。
在另一示例方面,所述听觉强调包括通过调整以下听觉参数中的一个或多个来播放所述文本的所述部分:说话速度、响度和语调。
在另一个示例方面,如果至少一定数量的其他用户已经作用于所述文章的所述文本的所述部分,则标记所述文本的所述部分。
在另一个示例方面,所述用户账户与所述用户的特征数据集相关联;以及所述口语计算设备还被配置为下载具有与所述用户相似的特征数据集的另一个用户的新聊天机器人和新数字杂志模块。
在另一个示例方面,所述音频数据包括针对一个或多个数据特征被分析的语音数据,所述一个或多个数据特征包括:文本、意义、情绪、文化、语言、用户的健康状态;以及所述一个或多个数据特征是与所述用户帐户相关联地存储的。
应认识到的是,本文例示的执行指令的任何模块或部件可以包括或以其它方式可访问计算机可读介质,诸如存储介质、计算机存储介质或数据存储设备(可移动和/或不可移动),诸如例如磁盘、光盘或磁带。计算机存储介质可以包括以用于存储信息(诸如计算机可读指令、数据结构、程序模块或其它数据)的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质的示例包括RAM、ROM、EEPROM、闪存或其它存储器技术、CD-ROM、数字多功能盘(DVD)或其它光学存储、磁带盒、磁带、磁盘存储装置或其它磁性存储设备,或可以被用于存储期望信息并且可以由应用、模块或两者访问的任何其它介质。任何此类计算机存储介质都可以是服务器或计算设备的一部分,或者可由其访问或可连接到其。可以使用可以由此类计算机可读介质存储或以其它方式保持的计算机可读/可执行指令来实现本文描述的任何应用或模块。
应认识到的是,如本文所述,系统和方法的示例实施例的不同特征可以以不同方式彼此组合。换句话说,虽然没有具体说明,但是根据其它示例实施例,可以一起使用不同的设备、模块、操作、功能和部件。
在本文描述的流程图中的步骤或操作仅仅是示例。根据本文描述的原理,这些步骤或操作可以有许多变化。例如,可以以不同的次序执行步骤,或者可以添加、删除或修改步骤。
本文描述的GUI和屏幕截图仅仅是示例。根据本文描述的原理,图形和交互式元素可以有变化。例如,可以将此类元素定位在不同的地方,或者被添加、删除或修改。
还应认识到的是,本文使用的示例和对应系统图仅用于说明目的。在不脱离本文所表达的原理的情况下,可以使用不同的配置和术语。例如,可以在不背离这些原理的情况下添加、删除、修改或布置具有不同连接的部件和模块。
虽然以上已经参考某些具体实施例进行了描述,但是在不脱离所附权利要求的范围的情况下,其各种修改对于本领域技术人员将是显而易见的。

Claims (17)

1.一种口语计算设备,包括:
存储器设备,在所述存储器设备上至少存储数据使能应用,所述数据使能应用包括多对对应的对话机器人和数字杂志模块,每对所述对应的对话机器人和数字杂志模块特定于用户账户和主题;
显示设备,用于显示当前选择的数字杂志;
麦克风,被配置为将用户的话语单词记录为音频数据;
处理器,被配置为使用所述对话机器人来识别与所述音频数据相关联的上下文数据,所述上下文数据包括所述当前选择的数字杂志;
数据通信设备,被配置为经由数据网络传输所述音频数据和所述上下文数据,以及作为响应,接收响应数据,其中所述响应数据是与所述主题有关的文章的文本;以及
音频扬声器,被所述处理器控制以输出从至少所述文章的所述文本导出的音频响应。
2.根据权利要求1所述的口语计算设备,还包括与所述处理器交换数据的图形处理单元(GPU),所述图形处理单元被配置为使用并行线程计算来预处理所述音频数据以提取数据特征,以及所述数据通信设备与所述上下文数据和所述音频数据相关联地传输所提取的数据特征。
3.根据权利要求1所述的口语计算设备,其中,所述存储器设备还在其上存储一个或多个合成语音库,其中所述一个或多个合成语音库中的每个合成语音库包括一个或多个对应的人的语音参数特征,以及所述一个或多个合成语音库被所述处理器使用以生成所述音频响应。
4.根据权利要求1所述的口语计算设备,其中,所述存储器设备还在其上至少存储包括所述文章的作者的语音参数特征的合成语音库;所述处理器还被配置为根据所述文章的所述文本和所述合成语音库生成所述音频响应;以及所述音频扬声器以所述作者的合成语音来输出所述文章的所述文本。
5.根据权利要求1所述的口语计算设备,其中,所述存储器设备还在其上至少存储包括在所述文章中被采访或引用的人的语音参数特征的合成语音库;所述处理器还被配置为根据所述文章的所述文本的至少一部分和所述合成语音库生成所述音频响应;以及所述音频扬声器以所述被采访或被引用的人的合成语音输出所述文章的所述文本的至少所述部分。
6.根据权利要求1所述的口语计算设备,其中,所述存储器设备还在其上存储与所述多个数字杂志模块相关联的多个合成语音库。
7.根据权利要求1所述的口语计算设备,其中,所述存储器设备还在其上存储分别与所述多个数字杂志模块相关联的多个音频样式库,以及每个音频样式库包括被所述对话机器人使用以影响所述音频响应的一个或多个参数;以及所述参数包括以下中的一个或多个:音调;频率;响度;单词或短语被说出的速率;语音读音;词汇;语法;发声;节律和旋律。
8.根据权利要求1所述的口语计算设备,其中,所述音频响应包括所述文章的所述文本的摘要以及询问所述用户是否希望听到完整文章的问题。
9.根据权利要求8所述的口语计算设备,还接收对于所述问题的“是”响应,以及所述口语计算设备随后生成另一个音频响应,所述另一个音频响应包括经由所述音频扬声器完整读出所述文章的所述文本。
10.根据权利要求1所述的口语计算设备,其中,所述响应数据还包括视觉数据,所述视觉数据是使用所述显示设备,与所述音频响应一起输出的。
11.根据权利要求10所述的口语计算设备,其中,所述显示设备包括显示屏、或投影仪、或两者。
12.根据权利要求1所述的口语计算设备,其中,所述文章的所述文本的一部分被标记,以及所述计算设备输出所述音频响应包括以听觉强调的方式来播放所述文本的所述部分。
13.根据权利要求12所述的口语计算设备,其中,所述听觉强调包括通过调整以下听觉参数中的一个或多个来播放所述文本的所述部分:说话速度、响度和语调。
14.根据权利要求12所述的口语计算设备,其中,如果至少一定数量的其他用户已经作用于所述文章的所述文本的所述部分,则标记所述文本的所述部分。
15.根据权利要求1所述的口语计算设备,其中,所述用户账户与所述用户的特征数据集相关联;以及所述口语计算设备还被配置为下载具有与所述用户相似的特征数据集的另一个用户的新聊天机器人和新数字杂志模块。
16.根据权利要求1所述的口语计算设备,其中,所述音频数据包括针对一个或多个数据特征被分析的语音数据,所述一个或多个数据特征包括:文本、意义、情绪、文化、语言、用户的健康状态;以及所述一个或多个数据特征是与所述用户帐户相关联地存储的。
17.一种数据使能系统,包括:
云计算服务器,摄取源自一个或多个用户设备的音频数据,所述音频数据至少包括一个或多个用户的口语对话,以及所述云计算服务器被配置为应用机器学习计算来提取至少内容和情感数据特征;
数据科学服务器,与所述云计算服务器以及外部人工智能计算平台进行数据通信;
所述数据科学服务器包括多个用户简档,每个用户简档与多对对应的对话机器人和数字杂志模块相关联,以及每对所述对应的对话机器人和数字杂志模块特定于给定用户账户和给定主题;
所述数据科学服务器包括数据科学算法库,所述数据科学算法用于针对给定对话机器人和对应的数字杂志模块来处理所述内容和情感特征;以及
所述数据科学服务器将响应数据输出到所述云计算服务器,所述响应数据是响应于所述音频数据的;以及
所述云计算服务器将所述响应数据格式化为由给定用户设备可播放的音频数据格式,并传输格式化的响应数据。
CN201880066436.7A 2017-08-10 2018-08-10 用于与数字媒体内容交互的口语、面部和姿势通信设备和计算体系架构 Pending CN111201567A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201762543784P 2017-08-10 2017-08-10
US62/543,784 2017-08-10
PCT/US2018/046265 WO2019032994A1 (en) 2017-08-10 2018-08-10 ORAL, FACIAL AND GESTURE COMMUNICATION DEVICES AND COMPUTER INTERACTION ARCHITECTURE WITH DIGITAL MULTIMEDIA CONTENT

Publications (1)

Publication Number Publication Date
CN111201567A true CN111201567A (zh) 2020-05-26

Family

ID=65271298

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201880066436.7A Pending CN111201567A (zh) 2017-08-10 2018-08-10 用于与数字媒体内容交互的口语、面部和姿势通信设备和计算体系架构

Country Status (3)

Country Link
US (1) US20200357382A1 (zh)
CN (1) CN111201567A (zh)
WO (1) WO2019032994A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112818651A (zh) * 2021-01-21 2021-05-18 北京明略软件系统有限公司 基于企业微信的智能推荐撰写方法及系统
US20230050622A1 (en) * 2021-08-11 2023-02-16 Yanran Wei Evolution of topics in a messaging system

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10657968B1 (en) * 2018-11-19 2020-05-19 Google Llc Controlling device output according to a determined condition of a user
KR102713283B1 (ko) * 2019-01-09 2024-10-04 삼성전자 주식회사 네트워크를 이용한 단말에서의 오디오 음질 제어 방법 및 장치
US11227195B2 (en) * 2019-10-02 2022-01-18 King Fahd University Of Petroleum And Minerals Multi-modal detection engine of sentiment and demographic characteristics for social media videos
US11551143B2 (en) 2019-11-21 2023-01-10 International Business Machines Corporation Reinforcement learning for chatbots
US11544886B2 (en) * 2019-12-17 2023-01-03 Samsung Electronics Co., Ltd. Generating digital avatar
US11508392B1 (en) 2020-06-05 2022-11-22 Meta Platforms Technologies, Llc Automated conversation content items from natural language
US12033258B1 (en) 2020-06-05 2024-07-09 Meta Platforms Technologies, Llc Automated conversation content items from natural language
KR102426792B1 (ko) * 2020-09-16 2022-07-29 한양대학교 산학협력단 무음 발화 인식 방법 및 장치
US11934445B2 (en) 2020-12-28 2024-03-19 Meta Platforms Technologies, Llc Automatic memory content item provisioning
US12079884B2 (en) 2021-04-19 2024-09-03 Meta Platforms Technologies, Llc Automated memory creation and retrieval from moment content items
US11677692B2 (en) 2021-09-15 2023-06-13 International Business Machines Corporation Conversational systems content related to external events
CN114415846B (zh) * 2021-12-30 2025-11-28 北京百度网讯科技有限公司 控制输入方法、装置、电子设备、存储介质及程序产品
US12430513B2 (en) * 2022-04-18 2025-09-30 Dell Products L.P. Using machine learning for individual classification
US12477159B2 (en) 2023-03-22 2025-11-18 Samsung Electronics Co., Ltd. Cache-based content distribution network
US20260023745A1 (en) * 2023-12-17 2026-01-22 MFTB Holdco, Inc. Automated Tool For Enforcing Fair Housing Compliant Searching

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150279347A1 (en) * 2014-03-27 2015-10-01 International Business Machines Corporation Text-to-Speech for Digital Literature
CN105917404A (zh) * 2014-01-15 2016-08-31 微软技术许可有限责任公司 在响应中具有模仿和丰富多媒体的数字个人助理交互
US20160300135A1 (en) * 2015-04-08 2016-10-13 Pearson Education, Inc. Relativistic sentiment analyzer
US20160378080A1 (en) * 2015-06-25 2016-12-29 Intel Corporation Technologies for conversational interfaces for system control
US20170060917A1 (en) * 2015-08-24 2017-03-02 Google Inc. Generation of a topic index with natural language processing
US20170169816A1 (en) * 2015-12-09 2017-06-15 International Business Machines Corporation Audio-based event interaction analytics
CN106910513A (zh) * 2015-12-22 2017-06-30 微软技术许可有限责任公司 情绪智能聊天引擎

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8412530B2 (en) * 2010-02-21 2013-04-02 Nice Systems Ltd. Method and apparatus for detection of sentiment in automated transcriptions
FR2963132A1 (fr) * 2010-07-23 2012-01-27 Aldebaran Robotics Robot humanoide dote d'une interface de dialogue naturel, methode d'utilisation et de programmation de ladite interface
US9713774B2 (en) * 2010-08-30 2017-07-25 Disney Enterprises, Inc. Contextual chat message generation in online environments
US20130266925A1 (en) * 2012-01-30 2013-10-10 Arizona Board Of Regents On Behalf Of The University Of Arizona Embedded Conversational Agent-Based Kiosk for Automated Interviewing
WO2014197334A2 (en) * 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
US9462112B2 (en) * 2014-06-19 2016-10-04 Microsoft Technology Licensing, Llc Use of a digital assistant in communications
US9639854B2 (en) * 2014-06-26 2017-05-02 Nuance Communications, Inc. Voice-controlled information exchange platform, such as for providing information to supplement advertising

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105917404A (zh) * 2014-01-15 2016-08-31 微软技术许可有限责任公司 在响应中具有模仿和丰富多媒体的数字个人助理交互
US20150279347A1 (en) * 2014-03-27 2015-10-01 International Business Machines Corporation Text-to-Speech for Digital Literature
US20160300135A1 (en) * 2015-04-08 2016-10-13 Pearson Education, Inc. Relativistic sentiment analyzer
US20160378080A1 (en) * 2015-06-25 2016-12-29 Intel Corporation Technologies for conversational interfaces for system control
US20170060917A1 (en) * 2015-08-24 2017-03-02 Google Inc. Generation of a topic index with natural language processing
US20170169816A1 (en) * 2015-12-09 2017-06-15 International Business Machines Corporation Audio-based event interaction analytics
CN106910513A (zh) * 2015-12-22 2017-06-30 微软技术许可有限责任公司 情绪智能聊天引擎

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112818651A (zh) * 2021-01-21 2021-05-18 北京明略软件系统有限公司 基于企业微信的智能推荐撰写方法及系统
US20230050622A1 (en) * 2021-08-11 2023-02-16 Yanran Wei Evolution of topics in a messaging system

Also Published As

Publication number Publication date
WO2019032994A1 (en) 2019-02-14
US20200357382A1 (en) 2020-11-12

Similar Documents

Publication Publication Date Title
US11061972B2 (en) Computing architecture for multiple search bots and behavior bots and related devices and methods
CN111201567A (zh) 用于与数字媒体内容交互的口语、面部和姿势通信设备和计算体系架构
US11763811B2 (en) Oral communication device and computing system for processing data and outputting user feedback, and related methods
US20250037212A1 (en) In-call experience enhancement for assistant systems
US11159767B1 (en) Proactive in-call content recommendations for assistant systems
US20230118412A1 (en) Stylizing Text-to-Speech (TTS) Voice Response for Assistant Systems
Deldjoo et al. Towards multi-modal conversational information seeking
US20240095491A1 (en) Method and system for personalized multimodal response generation through virtual agents
Shen et al. Kwickchat: A multi-turn dialogue system for aac using context-aware sentence generation by bag-of-keywords
JP7171911B2 (ja) ビジュアルコンテンツからのインタラクティブなオーディオトラックの生成
US11809480B1 (en) Generating dynamic knowledge graph of media contents for assistant systems
CN114930363A (zh) 为助理系统生成主动内容
US11144279B1 (en) Memory retention system
JP2023531346A (ja) 補助システムにおけるマルチパーソンコーリングのための単一の要求の使用
TW202301080A (zh) 輔助系統的多裝置調解
US20250131024A1 (en) Context and Profile based Automation of Generative AI Systems
US20250095686A1 (en) Personalized adaptive meeting playback
TW202520134A (zh) 基於自動化使用者介面回饋的生成式ai系統
JP2021533489A (ja) フィードバックを収集するためのコンピュータ実装システム及び方法
Karpouzis et al. Induction, recording and recognition of natural emotions from facial expressions and speech prosody
US20250165744A1 (en) Method and system for integrated multimodal input processing for virtual agents
US20200250220A1 (en) Methods and Apparatuses for Enhancing User Interaction with Audio and Visual Data Using Emotional and Conceptual Content
Tanaka et al. End-to-end modeling for selection of utterance constructional units via system internal states
WO2025192563A1 (ja) 資料生成装置、資料生成方法、およびプログラム
Campbell et al. Annotating the TCD D-ANS Corpus–A Multimodal Multimedia Monolingual Biometric Corpus of Spoken Social Interaction

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20200526