[go: up one dir, main page]

CN111903139B - 信息处理装置、信息处理方法、发送装置、及发送方法 - Google Patents

信息处理装置、信息处理方法、发送装置、及发送方法 Download PDF

Info

Publication number
CN111903139B
CN111903139B CN201980020092.0A CN201980020092A CN111903139B CN 111903139 B CN111903139 B CN 111903139B CN 201980020092 A CN201980020092 A CN 201980020092A CN 111903139 B CN111903139 B CN 111903139B
Authority
CN
China
Prior art keywords
voice
information
program
call name
viewer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201980020092.0A
Other languages
English (en)
Other versions
CN111903139A (zh
Inventor
津留卓己
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Publication of CN111903139A publication Critical patent/CN111903139A/zh
Application granted granted Critical
Publication of CN111903139B publication Critical patent/CN111903139B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof
    • H04N21/8126Monomedia components thereof involving additional data, e.g. news, sports, stocks, weather forecasts
    • H04N21/8133Monomedia components thereof involving additional data, e.g. news, sports, stocks, weather forecasts specifically related to the content, e.g. biography of the actors in a movie, detailed information about an article seen in a video program
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/422Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
    • H04N21/42203Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS] sound input device, e.g. microphone
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/435Processing of additional data, e.g. decrypting of additional data, reconstructing software from modules extracted from the transport stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/472End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/84Generation or processing of descriptive data, e.g. content descriptors
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • H04N21/854Content authoring
    • H04N21/8547Content authoring involving timestamps for synchronizing content
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/235Processing of additional data, e.g. scrambling of additional data or processing content descriptors
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/472End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content
    • H04N21/4722End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content for requesting additional data associated with the content
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/60Network structure or processes for video distribution between server and client or between remote clients; Control signalling between clients, server and network components; Transmission of management data between server and client, e.g. sending from server to client commands for recording incoming content stream; Communication details between server and client 
    • H04N21/65Transmission of management data between client and server
    • H04N21/658Transmission by the client directed to the server
    • H04N21/6587Control parameters, e.g. trick play commands, viewpoint selection
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/845Structuring of content, e.g. decomposing content into time segments
    • H04N21/8456Structuring of content, e.g. decomposing content into time segments by decomposing the content in the time domain, e.g. in time segments

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Theoretical Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

本技术涉及信息处理装置、信息处理方法、发送装置和发送方法,其使得可以提高与内容协作使用的语音AI辅助服务的便利性。提供了包括处理单元的信息处理装置,该处理单元在使用与内容协作的语音AI辅助服务时,处理与观看者发出的语音中包含的通用调用名称相关联的特定信息,由于用于调用对观看内容的观看者发出的语音进行相应处理的程序的调用名称与每个程序的特定信息相关联,因此这种处理是基于对多个程序通用的调用名称的相应信息执行。该技术可应用于例如与语音AI辅助服务协作的系统。

Description

信息处理装置、信息处理方法、发送装置、及发送方法
技术领域
本技术涉及信息处理装置、信息处理方法、发送装置和发送方法。具体地,本技术涉及能够提高与内容协作使用的语音AI辅助服务的便利性的信息处理装置、信息处理方法、发送装置和发送方法。
背景技术
开发了结合广播内容运行的广播应用(例如,参见专利文献1)。广播应用的使用使得能够例如显示与广播内容的相关信息。
此外,开发了关于分析用户的话语内容的语音识别的技术(例如,参见专利文献2)。例如,应用于电视机或便携式终端设备的这种技术使得能够分析用户说出的文字并且执行与该话语相对应的处理。
引用列表
专利文献
专利文献1:日本专利申请公开第2013-187781号
专利文献2:日本专利申请公开第2014-153663号。
发明内容
本发明要解决的问题
近年来,语音AI辅助服务得到了快速普及。存在语音AI辅助服务与由接收器(诸如,电视机)回放的广播内容或广播应用协作使用的情况。在这种情况下,用于调用程序的调用名称对于每个广播电台或广播节目是不同的,该程序执行与观看广播内容的观看者发出的语音相对应的处理。
因此,观看者需要知道所有调用名称并且切换每个目标的调用名称,这可能有损与内容(诸如,广播内容)协作使用的语音AI辅助服务的便利性,因此存在对提高语音AI辅助服务的便利性的技术的需求。
鉴于这种情况做出本技术,并且本技术旨在提高与内容协作使用的语音AI辅助服务的便利性。
问题的解决方案
根据本技术的第一方面的信息处理装置包括处理单元,该处理单元被配置为在使用与内容协作的语音AI辅助服务时,基于使通用调用名称与每一个程序的特定信息相关联的关联信息,处理与观看内容的观看者发出的语音中所包含的通用调用名称相关联的特定信息,通用调用名称作为用于调用程序的调用名称,对执行与观看者发出的语音相对应的处理的多个程序通用。
根据本技术的第一方面的信息处理装置可以是独立的设备或者可以是构成一个设备的内部块件。此外,根据本技术的第一方面的信息处理方法是与根据本技术的第一方面的上述信息处理装置相对应的信息处理方法。
根据本技术的第一方面,提供一种由信息处理装置执行的信息处理方法,该方法包括:由信息处理装置在使用与内容协作的语音AI辅助服务时,基于使通用调用名称与每一个程序的特定信息相关联的关联信息,处理与观看内容的观看者发出的语音中包含的通用调用名称相关联的特定信息,通用调用名称作为用于调用程序的调用名称,对执行与观看者发出的语音相对应的处理的多个程序通用。
根据本技术的第二方面的发送装置包括:生成单元,被配置为在与内容协作的语音AI辅助服务中使用使通用调用名称与每一个程序的特定调用名称相关联的关联信息时,生成包含特定调用名称的元数据,通用调用名称作为用于调用程序的调用名称,对执行与观看内容的观看者发出的语音相对应的处理的多个程序通用;并且包括发送单元,被配置为发送所生成的元数据。
根据本技术的第二方面的发送装置可以是独立的设备或者可以是构成一个设备的内部块件。此外,根据本技术的第二方面的发送方法是与根据本技术的第二方面的上述发送装置相对应的发送方法。
根据本技术的第二方面,提供一种由发送装置执行的发送方法,该方法包括:由发送装置在与内容协作的语音AI辅助服务中使用使通用调用名称与每一个程序的特定调用名称相关联的关联信息时,生成包含特定调用名称的元数据,通用调用名称作为用于调用程序的调用名称,对执行与观看内容的观看者发出的语音相对应的处理的多个程序通用;并且通过发送装置发送生成的元数据。
根据本技术的第三方面的信息处理装置包括处理单元,处理单元被配置为在使用与内容协作的语音AI辅助服务时,基于至少包括观看者的账号信息、执行与观看者发出的语音相对应的处理的程序的名称、以及用于调用个性化程序的调用名称的生成信息,生成专用于观看内容的观看者的个性化程序,其中处理单元基于至少包含账号信息、个性化程序的名称、及除了调用名称之外的登记信息的更新信息更新生成的个性化程序,登记信息是针对个性化程序而登记的信息。
根据本技术的第三方面的信息处理装置可以是独立的设备或者可以是构成一个设备的内部块件。此外,根据本技术的第三方面的信息处理方法是与根据本技术的第三方面的上述信息处理装置相对应的信息处理方法。
根据本技术的第三方面,提供一种由信息处理装置执行的信息处理方法,该方法包括:由信息处理装置在使用与内容协作的语音AI辅助服务时,基于生成信息生成专用于观看内容的观看者的个性化程序,生成信息至少包括观看者的账号信息、执行与观看者发出的语音相对应的处理的程序的名称、以及用于调用个性化程序的调用名称,其中基于至少包括账号信息、个性化程序的名称、及除调用名称之外的登记信息的更新信息来更新生成的个性化程序,登记信息是针对个性化程序而登记的信息。
本发明的效果
根据本技术的第一方面至第三方面,可以改进与内容协作使用的语音AI辅助服务的便利性。
注意,本文描述的有益效果不一定是限制性的,并且可获得本公开中描述的任何有利效果。
附图说明
图1是示出应用了本技术的内容语音AI协作系统的实施方式的配置的实例的框图。
图2是示出每个广播电台或广播节目的调用名称的第一实例的示图。
图3是示出每个广播电台或广播节目的调用名称的第二实例的示图。
图4是示出每个广播电台或广播节目的调用名称的第三实例的示图。
图5是示出第一实施方式的配置的第一实例的示图。
图6是示出第一实施方式的配置的第二实例的示图。
图7是示出第一实施方式的配置的第三实例的示图。
图8是示出根据第一实施方式的每个设备的详细配置的实例的框图。
图9是示出描述根据第一实施方式的每个设备中的处理流程的流程图。
图10是示出调用名称元数据的描述的实例的示图。
图11是示出第二实施方式的配置的第一实例的示图。
图12是示出第二实施方式的配置的第二实例的示图。
图13是示出第二实施方式的配置的第三实例的示图。
图14是示出根据第二实施方式的每个设备的详细配置的实例的框图。
图15是示出描述根据第二实施方式的每个设备中的处理流程的流程图。
图16是示出上下文元数据合并的实例的示图。
图17是示出第三实施方式的配置的第一实例的示图。
图18是示出第三实施方式的配置的第二实例的示图。
图19是示出第三实施方式的配置的第三实例的示图。
图20是示出根据第三实施方式的每个设备的详细配置的实例的框图。
图21是示出描述根据第三实施方式的每个设备中的处理流程的流程图。
图22是示出MPD的描述的实例的示图。
图23是示出技能登记信息元数据的描述的实例的示图。
图24是示出接收装置的另一配置的实例的框图。
图25是示出计算机的配置的实例的框图。
具体实施方式
现在将参考附图描述本技术的实施方式。应注意,按以下顺序进行说明。
1.系统的配置
2.本技术的实施方式
(1)第一实施方式:替换本地侧的调用名称的配置
(2)第二实施方式:使用云侧的别名技能切换目标技能的配置
(3)第三实施方式:生成或更新私人技能的配置
3.变型
4.计算机的配置
<1.系统的配置>
(内容语音AI协作系统的配置)
图1是示出应用了本技术的内容语音AI协作系统的实施方式的配置的实例的框图。
内容语音AI协作系统1是用于传送内容的系统并且允许使用与所传送的内容协作的语音AI辅助服务。
在图1中,内容语音AI协作系统1包括广播传送系统10、接收装置20、语音用户接口设备30、语音辅助服务器40、及处理服务器50。
此外,在内容语音AI协作系统1中,安装在观看者的房屋中的接收装置20和语音用户接口设备30能够经由互联网60连接到各种服务器,(诸如,安装在数据中心等中的语音辅助服务器40和处理服务器50)用于交换各种数据。
广播传送系统10包括一个或多个广播服务器等。广播传送系统10对要传送的内容执行必要的处理,并且从安装在发射站处的发射天线发出通过处理获得的所得广播信号(广播波)。
例如,接收装置20被配置为诸如电视机和个人计算机的固定接收器或者诸如智能电话、蜂窝电话和平板计算机的移动接收器。接收装置20接收并处理从广播传送系统10发送的广播信号并且回放所传送的内容(例如,广播节目或AD)。
例如,语音用户接口设备30是能够执行无线通信(诸如蓝牙(注册商标)、无线局域网(LAN)和蜂窝通信)或有线通信的语音处理设备(例如,扬声器),该语音处理设备也被称为例如智能扬声器或本地代理(home agent,家乡代理)。除了播放音乐之外,这种类型的扬声器还能够用作例如用于语音AI辅助服务的用户接口,或者在诸如照明装备或空调装备的仪器上执行语音操作。
语音用户接口设备30能够与服务器(诸如,云侧的语音辅助服务器40)协作地向终端用户(内容的观看者)提供语音AI辅助服务。在该描述中,语音AI辅助服务例如是响应于终端用户的问题或请求而结合诸如语音识别或自然语言分析的处理适当地回答或操作的功能或服务。
语音辅助服务器40具有提供语音AI辅助服务、各种数据库等的功能。语音辅助服务器40响应于来自语音用户接口设备30的请求执行提供语音AI辅助服务的处理,并且经由互联网60向语音用户接口设备30回复处理结果(响应)。
处理服务器50与语音辅助服务器40协作以执行提供语音AI辅助服务的处理,并且经由互联网60或网络70(例如,诸如租用线路的通信线路)向语音辅助服务器40发送处理结果(响应)。此外,由处理服务器50获得的处理结果不仅能够被发送到语音辅助服务器40,而且能够经由互联网60被发送到接收装置20或语音用户接口设备30。
在如上所述配置的内容语音AI协作系统1中,执行称为技能的程序以使得能够使用与内容协作的语音AI辅助服务。
在本说明书中,技能包括诸如对哪种语音做出响应、将什么单词作为参数使用什么功能、或者什么处理服务器(处理程序)实际执行该功能的信息。此外,技能是用于基于上述信息执行与从语音用户接口设备30发送的语音相对应的处理的程序(计算机程序)。
此外,用于调用技能的调用名称称为调用名称。换句话说,终端用户(观看内容的观看者)在使用技能时必须说出调用名称。
然而,在多个广播电台使用语音AI辅助服务运行技能的情况下,用于激活技能的调用名称对于每个广播电台(或每个广播节目等)是不同的。例如,图2至图4示出了在调用名称对于每个广播电台或广播节目不同的情况下的详细实例。
图2示出了观看者2在启动接收装置20并观看XXX广播台(广播电台XXX)的问答节目时使用该问答节目的技能的场景。在这个场景中,观看者2向语音用户接口设备30说出,例如,“AAAA,询问XXX问答,红色!!”,并且能够通过针对给定问答讲述观看者自己的的答案(使用蓝色、红色、绿色和黄色按钮的替代问答)来参与问答节目。
图3示出了观看者2在观看戏剧节目时使用XXX广播台的戏剧节目的技能的场景。在该场景中,观看者2向语音用户接口设备30说出与戏剧节目的内容有关的问题,例如,“AAAA,询问XXX戏剧,谁是Liz?”,并且然后可以得到答案。
图4示出了观看者2在观看YYY广播台(广播电台YYY)的信息节目时使用信息节目的技能的场景。在该场景中,观看者2能够通过向语音用户接口设备30说出例如“AAAA,询问YYY节目,红色!”参与信息节目并且回答游戏,对调查问卷进行投票等。
如上所述,观看者2在观看XXX广播台的问答节目时足以发出“XXX问答”作为调用名称,但观看者2在观看XXX广播台的戏剧节目时必须发出“XXX戏剧”并且在观看YYY广播台的信息节目时必须发出“YYY节目”。
换言之,在这种环境中,观看者2必须重复调用每个广播电台或广播节目的所有技能的调用名称,以了解当时哪个台的哪个节目在哪个时间正被观看并且通过切换它们说出调用名称。这使得便利性有可能受损(可用性将变得更差)。
此外,关于一个广播电台运用的技能,所需的话语或意图对于每个广播节目或伴随广播节目的应用是不同的,因此难以仅通过支持它们全部的一个技能对它们进行操作。例如,假设操作根据每个节目或类型的具体标准对技能进行划分而动态地变化。
因此,观看者需要能够仅使用一个调用名称与每个技能进行交互,而不会察觉到广播电台之间的技能差异(或诸如节目和类型的特定标准),技能动态变化等等。这使得能够提高与诸如广播节目的内容协作使用的语音AI辅助服务的便利性。
因此,本技术允许观看者说出一个调用名称以与期望的技能交互,这使得能够提高使用与诸如广播节目的内容协作的语音AI辅助服务的便利性。现在描述作为本技术的模式的第一实施方式至第三实施方式。
此外,作为调用名称,本文中描述了多个技能的通用调用名称和每个技能的特定调用名称。因此,在下文中前者称为通用调用名称并且后者称为可操作调用名称以对它们进行区分。此外,例如,下文描述的别名技能和接收器操作技能被用作调用名称,但是除非具体需要对它们进行区分,否则它们仅简称为调用名称。
<2.本技术的实施方式>
(1)第一实施方式
现在描述本地侧的接收装置20和语音用户接口设备30对调用名称进行替换通信以替换观看者2的话语中包含的调用名称的配置,作为参考图5至图10的第一实施方式。
(配置的第一实例)
图5是示出第一实施方式的配置的第一实例的示图。
在图5中,接收装置20接收从广播传送系统10发送的广播信号并且然后回放诸如广播节目的内容或者执行伴随广播的应用。此外,接收装置20记录接收装置20包含的记录单元200中的登记列表(调用名称列表)。
该登记列表包括关联信息,在该关联信息中作为多个技能通用的调用名称的通用调用名称和用于调用每个广播电台等运用的技能的可操作调用名称彼此相关联。在图5的实例中,对于通用调用名称“TV节目”,XXX广播台的可操作调用名称“XXX节目”与YYY广播台的可操作调用名称“YYY节目”相关联。
例如,当观看者2观看XXX广播台的问答节目时,接收装置20正结合XXX广播台的问答节目执行XXX广播台的伴随广播的应用。此外,在这种情况下,接收装置20从符合正观看的XXX广播台的登记列表获取可操作的调用名称“XXX节目”(S11)。
在该描述中,第一实例假设观看者2使用XXX广播台提供的技能参与正在被观看的XXX广播台的问答节目。在这种情况下,观看者2向语音用户接口设备30说出例如“AAAA,询问TV节目,红色!!”并且针对给定问答讲述观看者自己的答案(使用蓝色、红色、绿色、及黄色的按钮的可替代问答)(S12)。
在话语“AAAA,询问TV节目,红色!!”中,第一个单词“AAAA”称为唤醒词。例如,本地侧的语音用户接口设备30在检测该单词时开始与云侧的服务器通信,并且然后将后续的单词发送至服务器作为语音数据。
此外,下一个单词“询问”称为发起短语,并且该发起短语告诉云侧的服务器后面的单词为技能名称,即,调用名称。在该实例中,观看者2在发起短语“询问”之后说出通用调用名称“TV节目”。此外,后面的单词“红色”是问答的答案并且是传递给目标技能的参数。
在这种情况下语音用户接口设备30与接收装置20进行无线通信以将来自“TV节目”的调用名称替换为“XXX节目”(S13)。然后,语音用户接口设备30在替换调用名称之后将话语“AAAA,询问XXX节目,红色!!”的语音数据经由互联网60发送至语音辅助服务器40(S14)。
以此方式,接收装置20提前记录关联信息,在该关联信息中通用调用名称和可操作调用名称彼此关联作为登记列表。此外,接收装置20在从观看者2讲出的话语中检测到通用调用名称(例如,“TV节目”)时对语音用户接口设备30进行预先设置,使得进行与接收装置20本身替换调用名称的通信。
然后,在语音用户接口设备30发出替换调用名称的请求的情况下,接收装置20利用从登记列表获取的可操作调用名称(观看频道的调用名称)替换通用调用并且回复语音用户接口设备30。这使得语音用户接口设备30可以将使用可操作调用名称替换通用调用名称的话语的语音数据发送到语音辅助服务器40。
语音辅助服务器40将多个技能记录到语音辅助服务器40中包括的记录单元400中,这使得CPU(诸如,下文描述的图25中的CPU 1001)执行技能。在图5的实例中,登记可操作调用名称“XXX节目”和端点统一资源定位符(URL)“https://XXX”作为XXX广播台的技能信息。此外,作为YYY广播台的技能信息,登记可操作调用名称“YYY节目”和端点URL“https://YYY”。
语音辅助服务器40将来自语音用户接口设备30的话语的语音数据转换为文本数据并且从多个技能中指定目标技能(S15)。在图5的实例中,话语的文本数据包括可操作调用名称“XXX节目”,因此指定XXX广播台的技能。然后,例如,将话语的文本数据作为参数传递到在XXX广播台中执行的技能。此外,作为该描述中的参数,除了能够传递话语的文本数据的一部分之外,例如,可传递全部文本数据或其他信息。
在该实例中,将URL“https://XXX”(即,XXX广播台服务器50A的URL)设置为XXX广播台的技能的端点URL,因此在语音辅助服务器40中执行的XXX广播台的技能向XXX广播台服务器50A通知请求消息。因此,执行XXX广播台的技能(例如,对问答的答案的处理,“红色”)并且呈现处理结果(S16)。
作为呈现该处理结果的方法,根据其操作假设各种呈现方法,但例如,可采用以下呈现方法。换言之,在XXX广播台服务器50A中执行的XXX广播台的技能与在本地侧的接收装置20中执行的XXX广播台的伴随广播的应用协作。然后,将处理结果结合到伴随广播的应用呈现的内容中,或者经由语音辅助服务器40向本地侧的语音用户接口设备30通知由XXX广播台服务器50A产生的处理,从而能够作为响应语音输出。
以此方式,观看者2能够参与正在观看的问答节目。具体地,在该实例中,当观看者2使用由XXX广播台提供的技能时,观看者2足以向语音用户接口设备30讲出通用调用名称“TV节目”。因此,观看者可以仅用一个调用名称与每个广播电台提供的技能(或诸如节目或类型的特定标准)交互。
(配置的第二实例)
图6是示出第一实施方式的配置的第二实例的示图。
在图6中,接收装置20具有其中记录的登记列表,登记列表包括通用调用名称和可操作调用名称彼此关联的关联信息,类似于图5。
此外,在图6中,例如当观看者2观看YYY广播台的信息节目时,接收装置20结合YYY广播台的信息节目执行YYY广播台的伴随广播的应用。此外,在这种情况下,接收装置20从符合正被观看的YYY广播台的登记列表中获取可操作调用名称“YYY节目”(S21)。
在该描述中,第二实例假设观看者2使用YYY广播台提供的技能参与正在观看的YYY广播台的信息节目。在这方面,观看者2向语音用户接口设备30说出例如“AAAA,询问TV节目,红色!!”,并且例如向游戏回复答案,对调查问卷进行投票等(S22)。
在该第二实例中,观看者2在发起短语“询问”之后说出通用调用名称“TV节目”。此外,后面的单词“红色”是对游戏等的回复并且是传递到目标技能的参数。
在这种情况下,语音用户接口设备30与接收装置20进行无线通信以将“TV节目”的调用名称替换为“YYY节目”(S23)。然后,语音用户接口设备30在替换调用名称之后将话语“AAAA,询问YYY节目,红色!!”的语音数据经由互联网60发送至语音辅助服务器40(S24)。换言之,语音用户接口设备30将使用可操作调用名称替换通用调用名称的话语的语音数据发送到语音辅助服务器40。
语音辅助服务器40记录多个技能,类似于图5。语音辅助服务器40将来自语音用户接口设备30的话语的语音数据转换为文本数据并且从多个技能中指定目标技能(S25)。在图6的实例中,话语的语音数据包括可操作调用名称“YYY节目”,因此指定YYY广播台的技能并且将参数(话语的文本数据)传递到在YYY广播台中执行的技能。
在该实例中,URL“https://YYY”(即,YYY广播台服务器50B的URL)被设置为YYY广播台的技能的端点URL,因此语音辅助服务器40向YYY广播台服务器50B通知请求消息。因此,处理YYY广播台的技能(例如,对游戏的回复等的处理,“红色”)并且呈现处理结果(S26)。在这种情况下,例如,YYY广播台的技能能够与YYY广播台的伴随广播的应用协作以将处理结果结合到伴随广播的应用呈现的内容中,如上所述。
以此方式,观看者2能够参与正在观看的信息节目。具体地,在该实例中,当观看者2使用由YYY广播台提供的技能时,观看者2足以向语音用户接口设备30说出通用调用名称“TV节目”。因此,观看者可以仅用一个调用名称与为每个广播电台提供的技能(或诸如节目的特定标准)交互。
更具体地,将图6中的第二实例与图5中的第一实例相比较,YYY广播台使用的技能与XXX广播台使用的技能不同,但两个观看者2都能够通过说出通用调用名称“TV节目”而使用期望技能。
(配置的第三实例)
图7是示出第一实施方式的配置的第三实例的示图。
在图7中,接收装置20接收从广播传送系统10发送的广播信号并且然后回放诸如广播节目的内容或者执行伴随广播的应用。广播流具有插入其中用于通知动态变化的技能的可操作调用名称的元数据(在下文中,还称作“调用名称元数据”)。
此外,如下文将详细描述的,可以通过使用媒体展现描述(MPD)的元素EventStream等发送调用名称元数据。此外,在该第三实例中,在记录单元中记录的登记列表中,未登记用于调用XXX广播台的戏剧节目的技能的可操作调用名称。
例如,在观看者2观看XXX广播台的戏剧节目时,接收装置20依照XXX广播台的戏剧节目执行XXX广播台的伴随广播的应用。此外,在这种情况下,接收装置20根据正在被观看的XXX广播台的戏剧节目从广播流中提取调用名称元数据并且从提取的元数据中获取可操作调用名称“XXX戏剧”(S31)。
关于这方面,第三实例假设观看者2使用由XXX广播台提供的戏剧节目的技能对戏剧节目的内容进行提问。在该实例中,观看者2向语音用户接口设备30说出例如“AAAA,询问TV节目,谁是Liz?”以对戏剧节目的内容进行提问(S32)。
在该第三实例中,观看者2在发起短语“询问”之后说出通用调用名称“TV节目”。此外,后面的话语“谁是Liz?”是对戏剧节目的内容的提问并且是传递到目标技能的参数。
在这种情况下,语音用户接口设备30与接收装置20进行无线通信以将“TV节目”的调用名称替换为“XXX戏剧”(S33)。然后,语音用户接口设备30在替换调用名称之后将话语“AAAA,询问XXX戏剧,谁是Liz?”的语音数据经由互联网60发送至语音辅助服务器40(S34)。
以此方式,在技能存在动态变化的情况下,广播流具有插入其中的调用名称元数据,元数据包括假设当前使用的技能的可操作调用名称。因此,接收装置20获取(预先获取)可操作调用名称并且在从观看者2讲出的话语中检测到通用调用名称时对语音用户接口设备30进行预先设置,使得进行与接收装置20本身替换自身的调用名称的通信。
然后,在语音用户接口设备30发出替换调用名称的请求的情况下,接收装置20利用从调用名称元数据获取的可操作调用名称(观看频道的调用名称)替换通用调用,并且回复语音用户接口设备30。这使得语音用户接口设备30可以将使用可操作调用名称替换通用调用名称的话语的语音数据发送到语音辅助服务器40。
语音辅助服务器40将多个技能记录到记录单元400中。然而,在图7的实例中,除了与XXX广播台的技能信息和YYY广播台的技能有关的信息之外,将可操作调用名称“XXX戏剧”和端点URL“https://XXX/drama”登记为与XXX广播台的戏剧节目的技能有关的信息。
语音辅助服务器40将来自语音用户接口设备30的话语的语音数据转换为文本数据并且从多个技能中指定目标技能(S35)。在图7的实例中,话语的语音数据包括可操作调用名称“XXX戏剧”,因此指定XXX广播台的戏剧节目的技能。然后,参数(话语的文本数据)被传递至在XXX广播台中运行的戏剧节目的技能。
在该实例中,将URL“https://XXX/drama”设置为XXX广播台的戏剧节目的技能的端点URL,因此语音辅助服务器40向XXX广播台服务器50A通知请求消息。因此,进行针对XXX广播台的戏剧节目的技能的处理(例如,对问题“谁是Liz?”的处理)并且然后通知处理结果(S36)。
在这种情况下,例如,XXX广播台的戏剧节目的技能与XXX广播台的伴随广播的应用协作。因此,如上所述,可以结合本地侧的接收装置20中伴随广播的应用呈现的内容的处理结果(例如,对问题进行回答)或者从本地侧的语音用户接口设备30输出与处理结果相对应的响应语音(例如,作为语音输出问题的答案)。
以此方式,观看者2能够获得与正在被观看的戏剧节目的内容有关的信息。具体地,在该实例中,当观看者2使用XXX广播台的戏剧节目的技能时,观看者2足以向语音用户接口设备30说出通用调用名称“TV节目”。因此,观看者可以仅用一个调用名称与为每个广播电台提供的技能(或诸如节目的特定标准)交互。
更具体地,将图7所示的第三实例与图5所示的第一实例和图6所示的第二实例相比较,XXX广播台使用的戏剧节目的技能与XXX广播台使用的技能和YYY广播台使用的技能不同,但观看者2都能够通过说出通用调用名称“TV节目”使用期望的技能。
(每个设备的详细配置的实例)
图8是示出了根据第一实施方式的每个设备的详细配置的实例的框图。
图8示出了设置在广播电台侧(发送侧)的广播传送系统10和设置在本地侧(接收侧)的接收装置20的配置的实例。此外,图8示出了设置在本地侧的语音用户接口设备30的配置和设置在云侧的语音辅助服务器40和处理服务器50的配置的实例。
在图8中,广播传送系统10包括节目内容处理单元101、伴随广播的应用生成单元102、元数据生成单元103、复用器104、及发送单元105。
节目内容处理单元101对输入其中的内容进行必要的处理(例如,AV编码)并且将结果提供给复用器104。此外,内容为例如广播节目、广告等并且从外部服务器、相机、记录介质等获取。
伴随广播的应用生成单元102生成伴随广播的应用并且将伴随广播的应用提供给复用器104。在该描述中,伴随广播的应用是结合诸如广播节目的内容执行的应用。
元数据生成单元103在技能存在动态变化的情况下(例如,图7所示的第三实例的情况)生成调用名称元数据并且将调用名称元数据提供给复用器104。在该描述中,调用名称元数据是用于通知动态变化的技能的可操作调用名称的元数据。
复用器104复用从节目内容处理单元101提供的内容和从伴随广播的应用生成单元102提供的伴随广播的应用,并且将得到的流提供给发送单元105。此外,在技能存在动态变化的情况下,复用器104复用调用名称元数据以及内容和伴随广播的应用,并且将所得到的流提供给发送单元105。
发送单元105对从复用器104提供的流进行必要的处理(例如,纠错编码或调制处理),并且通过安装在发射台处的发射天线发送得到的广播信号(广播流)。
在图8中,除了记录单元200之外(图5至图7),接收装置20还包括调谐器201、解复用器202、AV解码器203、伴随广播的应用执行单元204、渲染器205、显示器206、扬声器207、调用名称管理单元208、调用名称转换单元209、及通信单元210。
调谐器201通过安装在观看者的房屋等中的接收天线接收从广播传送系统10发送的广播信号(广播流),对广播信号进行必要的处理(例如,解调处理或纠错解码),并且将得到的流提供到解复用器202。
解复用器202将从调谐器201提供的流分离为视频、音频、及伴随广播的应用的流。解复用器202将视频和音频流提供给AV解码器203并且将伴随广播的应用流提供到伴随广播的应用执行单元204。
AV解码器203对从解复用器202提供的视频流进行解码并且将结果提供到渲染器205。此外,AV解码器203还对从解复用器202提供的音频流进行解码并且将结果提供到渲染器205。
渲染器205对从AV解码器203提供的视频数据进行渲染并且使得到的视频显示在显示器206(诸如,液晶显示器(LCD)或有机发光二极管(OLED))上。
此外,渲染器205对从AV解码器203提供的语音数据进行渲染并且通过扬声器207输出得到的音频。这就使得在接收装置20中诸如广播节目的内容的视频显示在显示器206上并且通过扬声器207输出与视频同步的音频。
伴随广播的应用执行单元204为例如与超文本标记语言5(HTML5)、Java脚本(注册商标)等兼容的浏览器。伴随广播的应用执行单元204基于从解复用器202提供的应用数据执行伴随广播的应用并且将视频数据提供到渲染器205。
渲染器205对从伴随广播的应用执行单元204提供的视频数据进行渲染并且使得到的视频显示在显示器206上。这就使得在接收装置20中与诸如广播节目的内容相结合的伴随广播的应用的视频显示在显示器206上。
调用名称管理单元208管理调用名称。调用名称转换单元209通过查询调用名称管理单元208获取可操作调用名称。调用名称转换单元209使用从调用名称管理单元208获取的可操作调用名称替换从语音用户接口设备30发送的通用调用名称。
在这种情况下,将可操作调用名称(观看频道的调用名称)从调用名称管理单元208回复给调用名称转换单元209,但是获取路线在技能不存在动态变化的情况和技能存在动态变化的情况中不同。换言之,在技能不存在动态变化的情况下,调用名称管理单元208响应于来自调用名称转换单元209的询问,从记录在记录单元200中的登记列表(调用名称列表)中获取可操作调用名称,并且用可操作调用名称进行回复。
另一方面,在技能存在动态变化的情况下,将调用名称元数据插入广播传送系统10中的广播流中,因此解复用器202从调谐器201提取包含在流中的调用名称元数据,并且将调用名称元数据提供给调用名称管理单元208。然后,调用名称管理单元208响应于来自调用名称转换单元209的查询,使用从调用名称元数据获得的可操作调用名称进行回复。
此外,在接收装置20中,诸如,诸如调用名称管理单元208和调用名称转换单元209的处理模块构成处理单元220,处理单元进行与调用名称相关的处理。处理单元220通过例如运行预定程序(计算机程序)的CPU(下文描述的图25中的CPU 1001等)实现。此外,记录单元200是包含非易失性存储器(诸如,非易失性RAM(NVRAM))的半导体存储器、或者是诸如硬盘驱动器(HDD)的记录介质,并且各种数据均可记录于其中。
通信单元210例如被配置为通信模块,通信模块与无线通信(诸如蓝牙(注册商标)、无线LAN和蜂窝通信)或有线通信相兼容。通信单元210根据预定通信方案与语音用户接口设备30(具体地,其通信单元305)通信以交换各种数据。
在该描述中,在接收装置20的通信单元210与语音用户接口设备30的通信单元305之间进行如上所述替换调用名称的通信。通信单元210接收从通信单元305发送的调用名称替换请求并且将该请求提供给调用名称转换单元209。然后,通信单元210将从调用名称转换单元209提供的替换的可操作调用名称发送到通信单元305。
在图8中,语音用户接口设备30包括麦克风301、扬声器302、通信单元303、语音分析单元304、通信单元305、及设置管理单元306。
麦克风301获取观看者2的话语并且将话语的语音数据提供到语音分析单元304。
语音分析单元304基于从麦克风301提供的话语的语音数据分析语音话语,并且将与分析结果对应的话语的语音数据提供到通信单元303。
换言之,在观看者2说出通用调用的情况下,语音分析单元304发出调用名称替换请求并将该请求提供给通信单元305。然后,语音分析单元304向通信单元303提供通过使用可操作调用名称替换待分析的话语的语音数据的通用调用名称部分而获取的语音数据,该可操作调用名称是通过通信单元305与接收装置20进行替换通信获取的。
通信单元303经由互联网60将语音分析单元304提供的话语的语音数据发送到语音辅助服务器40。此外,通信单元303经由互联网60接收语音数据作为从语音辅助服务器40发送的响应并且将该响应提供给扬声器302。
扬声器302基于语音数据输出响应语音作为从通信单元303提供的响应。
通信单元303被配置为通信模块,该通信模块与无线通信(诸如,无线LAN和蜂窝通信)或有线通信相兼容。此外,通信单元305被配置为通信模块,该通信模块与无线通信(诸如蓝牙(注册商标)、无线LAN和蜂窝通信)或有线通信相兼容。此外,在图8中,为了便于描述,通信单元303和通信单元305被描述为分立的通信模块,但它们可集成为一个通信模块。
设置管理单元306根据从观看者2输入的设置进行各种设置。在该描述中,例如,设置通用调用名称,或者当从话语中检测到通用调用名称而进行调用名称替换通信时设置通信目的地。此外,在该描述中,例如,设置输入可由观看者2利用按钮或触摸板(未示出)的操作输入而接收或者可由观看者2利用麦克风301的语音输入而接收。
在图8中,除了记录单元400(参见图5至图7)之外,语音辅助服务器40还包括通信单元401、通信单元402、语音分析单元403及语音生成单元404。
通信单元401经由互联网60接收从语音用户接口设备30发送的话语的语音数据并且将该语音数据提供给语音分析单元403。
语音分析单元403分析从通信单元401提供的话语的语音数据并且将话语的语音数据转换为文本数据。此外,语音分析单元403基于通过分析话语的语音数据获得的结果,从多个技能(技能_1至技能_N)中指定目标技能(图8的实例中的技能_1)。然后,语音分析单元403使得话语的文本数据作为一个参数传递给指定的目标技能。
在该实例中,从记录单元400中读出目标技能(程序)并且由CPU(诸如,稍后描述的图25中的CPU 1001)执行。被执行的目标技能基于从语音分析单元403接收的参数创建请求消息,并且将请求消息提供给通信单元402。
通信单元402经由网络70将从正被执行的目标技能提供的请求消息发送到处理服务器50。此外,通信单元402经由网络70接收从处理服务器50发送的语音响应数据并且将语音响应数据提供给语音生成单元404。
语音生成单元404基于从通信单元402提供的语音响应数据生成语音数据作为响应并且将该响应提供给通信单元401。
通信单元401经由互联网60将从语音生成单元404提供的作为响应的语音数据发送到语音用户接口设备30。
此外,通信单元401和通信单元402被配置为通信模块,该通信模块与无线通信或有线通信相兼容。此外,在图8中,为了便于描述,通信单元401和通信单元402被描述为分立的通信模块,但它们可集成为一个通信模块。此外,记录单元400是诸如半导体存储器、HDD或光盘的记录介质并且各种数据均可记录在其中。
在图8中,处理服务器50包括通信单元501、处理单元502、及记录单元503。
通信单元501经由网络70接收从语音辅助服务器40发送的请求消息并且将请求消息提供给处理单元502。此外,通信单元501被配置为通信模块,其与无线通信或有线通信相兼容。
处理单元502基于从通信单元501提供的请求消息,提取记录在记录单元503中的语音响应数据并且将结果提供给通信单元501。记录单元503是诸如半导体存储器、HDD或光盘的记录介质并且各种数据(诸如,语音响应数据)可记录在其中。
该语音响应数据是作出与应观看者2的话语相对应的语音响应的数据。此外,语音响应数据不限于记录在记录单元503中的数据,并且例如可由处理单元502基于各种类型的数据(诸如,从外部服务器获取的或记录在记录单元503中的数据或者从外部服务器获取的数据)生成。
通信单元501经由网络70将从处理单元502提供的语音响应数据发送到语音辅助服务器40。
此外,例如,处理单元502为处理模块,处理模块实现为执行预定程序(计算机程序)的CPU(诸如,稍后描述的图25中的CPU 1001)。考虑到包含在请求消息中的参数是使用由语音辅助服务器40指定(识别)的目标技能的端点URL传递,可以认为该参数构成目标技能的一部分。
换言之,可以认为处理服务器50对应于图5至图7中示出的XXX广播台服务器50A或YYY广播台服务器50B。因此,处理服务器50可以经由网络70(诸如,互联网60)将响应数据(不限于语音)发送到接收装置20。在这种情况下,接收装置20基于从处理服务器50接收的响应数据进行处理。
(每个设备中的处理流程)
现在参考图9的流程图描述第一实施方式的每个设备中的处理流程。
首先执行步骤S101的处理作为预设置。换言之,在语音用户接口设备30中,设置管理单元306根据来自观看者2的指令,设置通用调用名称和调用名称的替换通信的通信目的地(S101)。在这个阶段中,例如,可以将“TV节目”设置为通用调用名称并且将接收装置20设置为替换通信目的地。
在进行预设置之后,在正观看广播节目的观看者2说出问题的情况下,执行步骤S102和后续步骤的处理操作。换言之,在语音用户接口设备30中,麦克风301获取观看者2的话语,并且语音分析单元304分析所获取话语的语音数据(S102)。
在步骤S103中,语音分析单元304通过询问设置管理单元306来检查(确定)所分析的话语的语音数据是否包括通用调用名称的话语。
此外,语音分析单元304在询问设置管理单元306时能够获取在后续处理中使用的替换通信目的地。在该实例中,假设接收装置20被设置为替换通信目的地。
在步骤S103中确定说出通用调用名称(例如,“TV节目”)的情况下,处理进行至步骤S104。在步骤S104中,语音分析单元304基于从设置管理单元306获取的替换通信目的地,向接收装置20发出调用名称替换请求。
该调用名称替换请求由接收装置20使用无线通信等接收,并且执行步骤S121至S125的处理操作。
在步骤S121中,调用名称转换单元209通过询问调用名称管理单元208来获取可操作调用名称。
在这个阶段中,调用名称管理单元208检查(确定)是否能够从调用名称元数据获取可操作调用名称(S122)。在确定不能从调用名称元数据获取的情况下(S122中的“否”),处理进行至步骤S123。
然后,调用名称管理单元208从记录在记录单元200中的登记列表(调用名称列表)中获取观看者2正观看的频道(观看频道)的可操作调用名称(S123)并且回复给调用名称转换单元209(S124)。
在步骤S125中,调用名称转换单元209使用从调用名称管理单元208回复的可操作调用名称替换调用名称替换请求中包含的通用调用名称。此外,调用名称转换单元209用替换的可操作调用名称(具体地,其语音数据)回复语音用户接口设备30(S125)。
由语音用户接口设备30使用无线通信等接收替换的调用名称(具体地,其语音数据),并且在其上执行步骤S105的处理。
在步骤S105中,语音分析单元304向语音辅助服务器40发送使用可操作调用名称替换通用调用名称部分的语音数据作为话语的语音数据。
在这方面,例如,如图5所示,在正在观看XXX广播台的节目的观看者2说出“AAAA,询问TV节目,红色!!”的情况下,用XXX广播台的可操作调用名称(“XXX节目”)替换通用调用名称“TV节目”。发送话语“AAAA,询问XXX节目,红色!!”的语音数据。
此外,在步骤S103中确定未发出通用调用名称的情况下(S103中的“否”),跳过步骤S104的处理。未执行以上描述的调用名称替换通信(步骤S104和S121至S125),并且假设说出了可操作调用名称,则将话语的语音数据发送到语音辅助服务器40而不作任何修改。
语音辅助服务器40经由互联网60从语音用户接口设备30接收话语的语音数据,并且执行步骤S106至S109的处理操作。
在步骤S106中,语音分析单元403分析来自语音用户接口设备30的语音数据并且将话语的语音数据转换为文本数据。
在步骤S107中,语音分析单元403基于话语的语音数据的分析结果指定多个技能(例如,技能_1至技能_N)中的目标技能。在语音辅助服务器40中,通过CPU等执行目标技能(程序),并且语音分析单元403将话语的转换的文本数据用作参数以传递所指定的目标技能(例如,技能_1)(S108)。
在步骤S109中,目标技能基于来自语音分析单元403的话语的文本数据创建请求消息。此外目标技能经由网络70将所创建的请求消息发送到端点URL指定的处理服务器50(具体地,其处理单元502)。
处理服务器50经由网络70接收该请求消息,并且执行步骤S110的处理。
在步骤S110中,处理单元502基于来自语音辅助服务器40的请求消息,提取记录在记录单元503中的语音响应数据(其执行的目标技能)。在该过程中,提取用于对观看者2的查询话语作出语音响应的数据。
此外,处理单元502经由网络70将所提取的语音响应数据发送到语音辅助服务器40。在语音辅助服务器40中,语音生成单元404基于语音响应数据生成语音数据作为响应并且经由互联网60将该响应发送到语音用户接口设备30。
该配置允许语音用户接口设备30通过扬声器302将与作为来自语音辅助服务器40的响应的语音数据相对应的响应语音输出。因此,观看者2能够检查与观看者自己的查询话语相对应的响应语音。
以上描述了在技能处于静态(即,技能不存在动态变化的情况下)的处理流程。然而,在技能存在动态变化的情况下,除了以上描述的处理流程之外,执行包括图9的步骤S131至S133的处理等的处理操作。
换言之,在广播传送系统10中,元数据生成单元103生成调用名称元数据,并且复用器104将所生成的调用名称元数据插入到包含内容和伴随广播的应用的的流中(S131)。
在该描述中,例如,在将内容传送为符合MPEG-DASH(基于HTTP的动态自适应流传输)的流的情况下,可以使用媒体展现描述(MPD)传送调用名称元数据,媒体展现描述是视频或者音频文件的控制信息。
图10示出了调用名称元数据插入到MPD中的实例。在该实例中,MPD包括分级结构中的Period元素、AdaptationSet元素、及Representation元素。
元素Period是描述诸如广播节目的内容的配置的元素。此外,用于构成内容的组件(诸如,视频、音频和字幕)的每个流的元素AdaptationSet和Representation能够描述每个流的属性。
此外,可以描述元素Period中的元素EventStream。此外,可以将元素EventStream中的属性schemeIdUri描述为其属性。在属性schemeIdUri中,描述了用于识别方案的统一资源标识符(URI)。在图10的MPD描述实例中,‘urn:XXX’被定义为识别用于传送XXX广播台的调用名称元数据的方案的URI,并且被描述为属性schemeIdUri的属性值。
此外,元素EventStream是元素Event的上级元素。可以描述属性messageData,其中事件消息的数据被指定为元素Event的属性。在图10的MPD描述实例中,在XXX广播台的节目中使用的可操作调用名称在元素Period中被描述为元素EventStream中的元素Event的属性messageData的属性值。
具体地,“XXX Drama”在第一Period元素中(start属性=“PT0S”)被描述为XXX广播台的戏剧节目的可操作调用名称,并且‘XXX Quiz’在第二Period元素中(start属性=‘PT1H0M0S’)被描述为XXX广播台的问答节目的可操作调用名称。
此外,除了属性messageData之外,可以描述指定呈现时间(开始时间)的属性presentationTime以及在元素Event中指定从开始时间起的时段作为其属性的duration属性。在该实例中,假设描述为属性messageData的属性值的可操作调用名称在不使用这些属性的情况下正常有效。
返回参照图9,在步骤S132中,发送单元105发送插入有调用名称元数据的广播流。接收装置20接收该广播流,并且在其上执行步骤S133的处理。
在步骤S133中,调用名称管理单元208获取从由解复用器202分离的流中获得的调用名称元数据。
然后,当在以上描述的步骤S121的处理中调用名称管理单元208从调用名称转换单元209接收关于可操作调用名称的询问时,确定在步骤S122的检查处理中可以从调用名称元数据中获取(S122中的“是”)。因此,跳过步骤S123的处理并且处理进行至步骤S124。
在步骤S124中,调用名称管理单元208从调用名称元数据获取可操作调用名称并且回复给调用名称转换单元209。这就使得调用名称转换单元209使用从调用名称管理单元208回复的可操作调用名称替换调用名称替换请求中包含的通用调用名称(S125)。
然后,语音用户接口设备30向语音辅助服务器40发送使用可操作调用名称替换通用调用名称部分的语音数据作为话语的语音数据。
在这方面,例如,如图7所示,在正在观看YYY广播台的戏剧节目的观看者2说出“AAAA,询问TV节目,谁是Liz?”的情况下,用XXX广播台的戏剧节目的可操作调用名称(“XXX戏剧”)替换通用调用名称“TV节目”。发送话语“AAAA,询问XXX戏剧,谁是Liz?”的语音数据。
给出以上描述作为第一实施方式的每个设备中的处理流程,具体地,给出在技能不存在动态变化的情况和技能存在动态变化的情况下使用正被观看的节目的可操作调用名称替换观看者2说出的通用调用名称的处理。
如上所述,在第一实施方式中,当使用与内容(诸如,XXX广播台或YYY的广播节目)协作的语音AI辅助服务时,接收装置20的处理单元220处理与包括观看者2的话语语音的通用调用名称(通用调用名)相关联的特定信息。基于关联信息(登记列表)进行该处理,在关联信息中通用调用名称和每个技能(程序)特定的信息是相关联的。通用调用名称(通用调用名)作为用于调用技能(程序)的调用名称(调用名)对多个技能(程序)通用,该技能(程序)进行与观看内容的观看者2发出的语音相对应的处理。
此外,在关联信息(登记列表)中,可操作调用名称(特定调用名称)与通用调用名称(通用调用名)相关联作为每个技能(程序)的特定信息。处理单元220基于关联信息(登记列表)进行将通用调用名称(通用调用名)转换为可操作调用名称(特定调用名)的处理,作为与通用调用名称(通用调用名)相关联的特定信息的处理。此外,可操作调用名称(特定调用名)还能够从经由广播传送的调用名称元数据(元数据)获取。因此,可以认为接收装置20是包括处理单元220的信息处理装置。
例如,这就使得观看者2即使在要使用的技能不同的情况下也能够通过说出通用调用名称而使用期望技能,诸如,XXX广播台的技能或YYY广播台的技能。因此,可以提高在与内容(诸如,XXX广播台的广播节目或YYY广播台的广播节目)协作使用的语音AI辅助服务的便利性。
此外,以上描述给出了在技能不存在动态变化的情况下的操作和技能存在动态变化的情况下的操作,但这些操作可分别进行或同时进行。此外,在接收装置20中,在进行替换调用名称的通信之前的定时,在记录单元200中记录登记列表,但定时是可选的。
(2)第二实施方式
尽管第一实施方式采用在本地侧替换调用名称的配置,但是云侧的语音辅助服务器40可以采用使用别名技能切换目标技能的配置。在这种情况下,观看者2能够通过说出别名技能的调用名称而使用期望技能。因此,给出了第二实施方式的描述,参照图11至图16,第二实施方式采用在云侧的语音辅助服务器40中使用别名技能切换目标技能的配置。
在该描述中,别名技能(alias skill)是包含调用自身的调用名称(别名技能的调用名称)和广播节目的元数据信息的对表及相应技能(用于切换的程序)的技能。这种别名技能的使用使得能够基于广播节目的元数据信息,切换到对应于信息的另一技能(正常技能)。
可以认为,从本地侧的观看者2的角度看,该别名技能的调用名称是通用调用名称(通用调用名)。此外,在第二实施方式中,正常技能还称为正常技能以将正常技能与别名技能区分开。
(配置的第一实例)
图11是示出第二实施方式的配置的第一实例的示图。
在图11中,在观看者2观看XXX广播台的问答节目的情况下,在接收装置20中,结合XXX广播台的问答节目执行XXX广播台的伴随广播的应用。此外,在图11中,接收装置20不记录上述登记列表(调用名称列表)。
在该描述中,第一实例假设观看者2使用XXX广播台提供的技能(正常技能)参与正在被观看的XXX广播台的问答节目。在这种情况下,观看者2例如向语音用户接口设备30说出“AAAA,询问TV节目,红色!!”并且对于给定问答讲述观看者自己的答案(S41)。
在这种情况下,语音用户接口设备30与接收装置20进行无线通信以获取用于指定观看者2正在观看的内容的元数据(在下文中,还称作上下文元数据)(S42)。此外,尽管随后将描述细节,但上下文元数据可以包括例如观看信息,诸如正在观看(当前观看)的广播节目的频道号(Channel Number)和媒体时间(Media Time)。
如上所述,进行预设置使得接收装置20与语音用户接口设备30通信以在从观看者2的话语中检测到调用名称(“TV节目”)时利用自身获取上下文元数据。
然后,在从语音用户接口设备30发出上下文元数据获取请求的情况下,接收装置20利用上下文元数据回复语音用户接口设备30,上下文元数据包括正在被观看的节目的频道号和媒体时间。这使得语音用户接口设备30可以将上下文元数据添加并且发送到话语的语音数据。
具体地,语音用户接口设备30通过互联网60将频道号=XX并且媒体时间=T3的上下文元数据连同话语“AAAA,询问TV节目,红色!!”的语音数据一起发送到语音辅助服务器40(S43)。
语音辅助服务器40在包含的记录单元400中记录别名技能。别名技能(AliasSkill)包括用于调用自身的调用名称(例如,“TV节目”)和广播节目的元数据信息的对表及相应技能。
在图11的实例中,调度技能表和每个广播电台的技能彼此相关联作为由调用名称(即,“TV节目”)调用的别名技能。具体地,调度技能表在T1至T5的时间向XX频道号分配XXX广播台的技能并且在T5至T10的时间分配XXX广播台的戏剧节目的技能。此外,调度技能表在所有时区向频道号(即,YY)分配YYY广播台的技能。
此外,在图11的实例中,在别名技能中,作为与调度技能表相关联的每个广播电台的技能(正常技能),登记XXX广播台的技能、XXX广播台的戏剧节目的技能、以及YYY广播台的技能。
在该描述中,将调用名称“XXX节目”和端点URL“https://XXX”登记为XXX广播台的技能信息。此外,登记调用名称“XXX戏剧”和端点URL“https://XXX/drama”作为XXX广播台的戏剧节目的技能信息,并且,登记调用名称“YYY节目”和端点URL“https://YYY”作为YYY广播台的技能信息。
此外,例如,由制造接收装置20(诸如,电视机)的制造商,与每个广播电台的技能(正常技能)分开地创建该别名技能,并且提供给语音辅助服务器40。
语音辅助服务器40将来自语音用户接口设备30的话语的语音数据转换为文本数据。此外,在语音辅助服务器40中,基于从话语的文本数据获得的调用名称(即,“TV节目”)(别名技能的调用名称)指定别名技能,并且指定的别名技能使得技能基于上下文元数据(频道号和媒体时间)调度到相应技能(正常技能)(S44)。
更具体地,上下文元数据包括频道号=XX和媒体时间=T3,因此可以根据指定的别名技能中的调度技能表而调度到在时间T1至T5为频道号XX分配的XXX广播台的技能(XXX节目技能)。然后,将参数(话语的文本数据)传递给由别名技能调度的XXX广播台的技能。
在该实例中,将URL“https://XXX”设置为XXX广播台的技能的端点URL,因此在语音辅助服务器40中执行的XXX广播台的技能向XXX广播台服务器50A通知请求消息。因此,处理XXX广播台的技能(例如,对问答的答案的处理,“红色”)并且呈现处理结果(S45)。在这种情况下,例如,XXX广播台的技能能够与XXX广播台的伴随广播的应用协作,以将处理结果结合到伴随广播的应用呈现的内容中,如上所述。
以此方式,观看者2能够参与正在被观看的问答节目。具体地,在该实例中,当观看者2使用由XXX广播台提供的技能(正常技能)时,观看者2足以向语音用户接口设备30说出通用调用名称“TV节目”(别名技能的调用名称)。因此,观看者可以仅用一个调用名称与每个广播电台提供的技能(或诸如节目等的特定标准)交互。
(配置的第二实例)
图12是示出第二实施方式的配置的第二实例的示图。
在图12中,在观看者2观看XXX广播台的戏剧节目的情况下,在接收装置20中,结合XXX广播台的戏剧节目执行XXX广播台的伴随广播的应用。
在这方面,第二实例假设观看者2使用由XXX广播台提供的戏剧节目的技能对戏剧节目的内容进行提问。在该实例中,观看者2向语音用户接口设备30说出例如“AAAA,询问TV节目,谁是Liz?”以对戏剧节目的内容进行提问(S51)。
在这种情况下,语音用户接口设备30与接收装置20进行无线通信以获取上下文元数据(S52)。然后,语音用户接口设备30通过互联网60将频道号=XX并且媒体时间=T7的上下文元数据连同话语“AAAA,询问TV节目,谁是Liz?”的语音数据一起发送到语音辅助服务器40(S53)。
语音辅助服务器40将来自语音用户接口设备30的话语的语音数据转换为文本数据。此外,在语音辅助服务器40中,基于从话语的文本数据获得的调用名称(即,“TV节目”)指定别名技能,并且别名技能使得技能基于上下文元数据(频道号和媒体时间)调度到相应技能(正常技能)(S54)。
在第二实例中,上下文元数据包括频道号=XX和媒体时间=T7,因此可以根据指定的别名技能中的调度技能表,调度到在时间T5至T10为频道号XX分配的XXX广播台的戏剧节目的技能(XXX戏剧技能)。然后,将参数(话语的文本数据)传递给由别名技能调度的XXX广播台的戏剧节目的技能。
在该实例中,将URL“https://XXX/drama”设置为XXX广播台的戏剧节目的技能的端点URL,因此语音辅助服务器40向XXX广播台服务器50A通知请求消息。因此,处理XXX广播台的戏剧节目的技能(例如,对问题“谁是Liz?”的处理)并且呈现处理结果(S55)。在这种情况下,例如,XXX广播台的戏剧节目的技能能够与XXX广播台的伴随广播的应用协作,以将处理结果结合到伴随广播的应用呈现的内容中,如上所述。
以此方式,观看者2能够获得与正在被观看的戏剧节目的内容有关的信息。具体地,在该实例中,当观看者2使用XXX广播台的戏剧节目的技能(正常技能)时,观看者2足以向语音用户接口设备30说出通用调用名称“TV节目”(别名技能的调用名称)。因此,观看者可以仅用一个调用名称与每个广播电台提供的技能(或诸如节目等的特定标准)交互。
更具体地,将图12中示出的第二实例与图11中示出的第一实例相比较,XXX广播台使用的戏剧节目的技能与XXX广播台使用的技能不同,但两个观看者2都能够通过说出通用调用名称“TV节目”而使用期望技能。
(配置的第三实例)
图13是示出第二实施方式的配置的第三实例的示图。
在图13中,在观看者2观看YYY广播台的信息节目的情况下,在接收装置20中,结合YYY广播台的信息节目执行YYY广播台的伴随广播的应用。
在该描述中,第三实例假设观看者2使用YYY广播台提供的技能参与正在被观看的YYY广播台的信息节目。在这方面,观看者2向语音用户接口设备30说出例如“AAAA,询问TV节目,红色!!”,并且例如用答案回复游戏、对调查问卷进行投票等(S61)。
在这种情况下,语音用户接口设备30与接收装置20进行无线通信以获取上下文元数据(S62)。然后,语音用户接口设备30通过互联网60将频道号=YY并且媒体时间=T7的上下文元数据连同话语“AAAA,询问TV节目,红色!!”的语音数据一起发送到语音辅助服务器40(S63)。
语音辅助服务器40将来自语音用户接口设备30的话语的语音数据转换为文本数据。此外,在语音辅助服务器40中,基于从话语的文本数据获得的调用名称(即,“TV节目”)指定别名技能,并且别名技能使得技能基于上下文元数据(频道号和媒体时间)调度到相应技能(正常技能)(S64)。
在第三实例中,上下文元数据包括频道号=YY和媒体时间=T7,因此可以根据指定的别名技能中的调度技能表,调度到在时间为所有时间为频道号YY分配的YYY广播台的技能(YYY节目技能)。然后,将参数(话语的文本数据)传递给由别名技能调度的YYY广播台的技能。
在该实例中,将URL“https://YYY”设置为YYY广播台的技能的端点URL,因此语音辅助服务器40向YYY广播台服务器50B通知请求消息。因此,处理YYY广播台的技能(例如,对游戏的回复等的处理,“红色”)并且呈现处理结果(S65)。在这种情况下,例如,YYY广播台的技能能够与YYY广播台的伴随广播的应用协作,以将处理结果结合到伴随广播的应用呈现的内容中,如上所述。
以此方式,观看者2能够参与正在被观看的信息节目。具体地,在该实例中,当观看者2使用由YYY广播台的技能(正常技能)时,观看者2足以向语音用户接口设备30说出通用调用名称“TV节目”(别名技能的调用名称)。因此,观看者可以仅用一个调用名称与每个广播电台提供的技能(或诸如节目等的特定标准)交互。
更具体地,将图13示出的第三实例与图11示出的第一实例和图12示出的第二实例相比较,YYY广播台使用的技能,与XXX广播台使用的技能和XXX广播台使用的戏剧节目的技能不同,但观看者2都能够通过说出通用调用名称“TV节目”使用期望的技能。
(每个设备的详细配置的实例)
图14是示出了根据第二实施方式的每个设备的详细配置的实例的框图。
图14示出发送侧的广播传送系统10和接收侧的接收装置20的配置的实例、以及本地侧的语音用户接口设备30和云侧的语音辅助服务器40和处理服务器50的配置的实例,类似于图8。
此外,在图14中,广播传送系统10和处理服务器50在配置上与图8所示的那些配置相似,因而省略对其的描述。然而,在第二实施方式中,广播传送系统10不必生成调用名称元数据,因此省略元数据生成单元103。
在图14中,接收装置20包括调谐器201、解复用器202、AV解码器203、伴随广播的应用执行单元204、渲染器205、显示器206、扬声器207、通信单元210、及元数据管理单元211。换言之,与图8所示的配置相比,图14所示的接收装置20使用元数据管理单元211代替记录单元200、调用名称管理单元208、及调用名称转换单元209。
元数据管理单元211获取正在被观看的节目的观看信息并且管理包含观看信息的上下文元数据。换言之,元数据管理单元211在从语音用户接口设备30接收元数据获取请求的情况下,基于所获取的观看信息生成上下文元数据(频道号和媒体时间)并且回复给语音用户接口设备30。
在图14中,语音用户接口设备30包括麦克风301、扬声器302、通信单元303、通信单元305、设置管理单元306、及语音分析和元数据合并单元307。换言之,图14所示的语音用户接口设备30与图8所示的配置的不同之处在于设置语音分析和元数据合并单元307代替语音分析单元304。
语音分析和元数据合并单元307基于从麦克风301提供的话语的语音数据分析语音话语。
此外,在说出别名技能的调用名称的情况下,语音分析和元数据合并单元307将元数据获取请求发送到接收装置20以获取上下文元数据(频道号和媒体时间)。语音分析和元数据合并单元307将所获取的上下文元数据添加到话语的语音数据以生成发送数据。通过通信单元303经由互联网60将发送数据发送到语音辅助服务器40。
在图14中,语音辅助服务器40包括记录单元400、通信单元401、通信单元402、语音生成单元404、及语音分析和元数据提取单元405。
换言之,在图14所示的语音辅助服务器40中,与图8所示的配置相比,设置了语音分析和元数据提取单元405以代替语音分析单元403。此外,在记录单元400中,代替多个技能(技能_1至技能_N),记录别名技能和多个正常技能(正常技能_1至正常技能_N)。此外,从记录单元400读取(其节目的)别名技能和正常技能并且由CPU(诸如,稍后描述的图25中的CPU 1001)执行。
语音分析和元数据提取单元405将来自语音用户接口设备30的发送数据中包含的话语的语音数据转换为文本数据。此外,语音分析和元数据提取单元405基于通过分析话语的语音数据获得的结果指定目标技能。在指定目标技能是别名技能的情况下,语音分析和元数据提取单元405将从发送数据中提取的上下文元数据(频道号和媒体时间)连同转换的话语的文本数据一起传递给正在被执行的别名技能。
正在被执行的别名技能基于调度技能表等,指定与语音分析和元数据提取单元405中的上下文元数据(频道号和媒体时间)匹配的目标正常技能(例如,图14的实例中的正常技能_1),并且将话语的文本数据作为参数传递。
由别名技能调度的正常技能(例如,正常技能_1)基于作为参数传递的话语的文本数据创建请求消息。该请求消息通过通信单元402经由网络70被发送到处理服务器50。
此外,在语音辅助服务器40中,正在执行的用于处理别名技能、正常技能等的语音分析和元数据提取单元405和处理模块,构成根据别名技能的调用名称来执行处理的处理单元420。
(每个设备中的处理流程)
现在参考图15的流程图描述第二实施方式的每个设备中的处理流程。
首先执行步骤S201的处理作为预设置。换言之,在语音用户接口设备30中,设置管理单元306根据来自观看者2的指令,设置别名技能的调用名称(通用调用名称)和技能所需的上下文元数据的目的地(元数据获取通信目的地)(S201)。
在该描述中,例如,“TV节目”可被设置为别名技能的调用名称,并且接收装置20可被设置为元数据获取通信目的地。
当执行该预设置时,接收装置20接收从广播传送系统10发送的广播流并且回放与观看者2的频道调谐操作相对应的广播节目(S231)。在这种情况下,在接收装置20中,元数据管理单元211获取正在被观看的广播节目的观看信息(S232)。
此外,在观看者2说出问题的情况下,执行步骤S202及其后续步骤的处理操作。换言之,在语音用户接口设备30中,麦克风301获取观看者2的话语,并且语音分析和元数据合并单元307分析所获取话语的语音数据(S202)。
在步骤S203中,语音分析和元数据合并单元307通过询问设置管理单元306来检查(确定)分析的话语的语音数据是否包括别名技能的调用名称的话语。
此外,语音分析和元数据合并单元307能够在询问设置管理单元306时获取在后续处理中使用的元数据获取通信目的地。在该实例中,假设接收装置20被设置为元数据获取通信目的地。
在步骤S203中确定说出了别名技能的调用名称(步骤S203中为“是”)的情况下,处理进入步骤S204。在步骤S204中,语音分析和元数据合并单元307基于从设置管理单元306获取的元数据获取通信目的地,使用无线通信等向接收装置20发出元数据获取请求,以获取上下文元数据。
换言之,在接收装置20中,在接收来自语音用户接口设备30的元数据获取请求的情况下,元数据管理单元211基于正在被观看的广播节目的观看信息生成上下文元数据(频道号和媒体时间)并且回复给语音用户接口设备30。这使得语音分析和元数据合并单元307能够获取包括正在被观看(当前观看)的广播节目的频道号(ChannelNumber)和媒体时间(MediaTime)的上下文元数据。
在步骤S205中,语音分析和元数据合并单元307将所获取的上下文元数据(频道号和媒体时间)与发送数据合并。在该实例中,将包括正在被观看的广播节目的频道号和媒体时间的上下文元数据添加到话语的语音数据以生成发送数据。
作为该发送数据,例如,能够发送图16所示的数据。换言之,语音分析和元数据合并单元307将上下文元数据描述(合并)为HTTP请求的主体中的JavaScript(注册商标)对象符号(JSON)格式数据,其中话语的语音数据被布置为生成多部分HTTP请求。
JSON格式对象由具有冒号(:)的键值对表示,并且这些对由逗号(,)隔开,列出零对或更多对,并且整体被包围在花括号({})中。在图16的实例中,频道号“8.1”被描述为频道号的值,并且媒体时间“2018-01-29T18:00:05Z”被描述为上下文元数据(“ContextMetaDatas”)的对象的媒体时间的值。
返回参考图15,在步骤S206中,语音分析和元数据合并单元307向语音辅助服务器40发送生成的发送数据。语音辅助服务器40接收从语音用户接口设备30发送的发送数据,并且执行步骤S207到S211的处理。
在步骤S207中,语音分析和元数据提取单元405将包括在来自语音用户接口设备30的发送数据中的话语的语音数据转换为文本数据。
在步骤S208中,语音分析和元数据提取单元405基于通过分析话语的语音数据获得的结果指定目标技能。
在步骤S209中,语音分析和元数据提取单元405检查(确定)指定的目标技能是否是别名技能。根据步骤S209中的确定处理的结果,执行别名技能处理或正常技能处理。此外,在这种情况下,在语音辅助服务器40中,由CPU等执行别名技能或正常技能。
换言之,在步骤S209中确定指定的目标技能是别名技能的情况下,处理进行到步骤S210,并且由语音辅助服务器40和处理服务器50执行别名技能处理。
在该别名技能处理中,首先,语音分析和元数据提取单元405从发送数据中提取上下文元数据,并将所提取的上下文元数据与所转换的话语的文本数据一起传递给正在执行的别名技能(S210A)。
然后,别名技能基于调度技能表等,指定与来自语音分析和元数据提取单元405的上下文元数据(频道号和媒体时间)匹配的目标技能(正常技能)(S210B)。此外,别名技能将话语的文本数据作为参数传递给在步骤S210B的处理中由别名技能自身指定的目标技能(正常技能)(S210C)。
以这种方式,由别名技能调度的正常技能,基于作为参数传递的话语的文本数据创建请求消息(S210D)。然后,正常技能经由网络70将创建的请求消息发送到由端点URL指定的处理服务器50(其处理单元502)(S210D)。
另一方面,在步骤S209中确定指定的目标技能不是别名技能(即,正常技能)的情况下,处理进行到步骤S211,并且语音辅助服务器40和处理服务器50执行正常技能处理。
在该正常技能处理中,语音分析和元数据提取单元405将话语的文本数据作为参数传递给在步骤S208的处理中指定的目标技能(正常技能)(S211A)。正常技能基于作为参数传递的话语的文本数据创建请求消息,并且将请求消息发送到由端点URL指定的处理服务器50(其处理单元502)(S211B)。
当别名技能处理(S210)或正常技能处理(S211)完成时,处理进行到步骤S212。具体地,处理服务器50经由网络70接收由目标技能(正常技能)发送的请求消息,并执行步骤S212的处理。
在步骤S212中,处理单元502基于请求消息提取观看者2说出的对查询的语音响应的数据,并经由网络70将该数据发送到语音辅助服务器40。该配置允许语音用户接口设备30从扬声器302输出与语音数据相对应的响应语音作为来自语音辅助服务器40的响应。因此,观看者2能够检查与观看者自己的查询话语相对应的响应语音。
以上描述给出了在使用云侧的语音辅助服务器40中的别名技能来切换目标技能的情况下的处理流程,作为第二实施方式的每个设备的处理流程。
如上所述,在第二实施方式中,当语音辅助服务器40的处理单元420使用内容(诸如XXX广播台或YYY广播台的广播节目)协作的语音AI辅助服务时,处理特定信息。该特定信息与观看者2说出的语音中所包含的别名技能的调用名称(通用调用名称)相关联。该处理基于别名技能的调用名称(通用调用名称)和与各正常技能(程序)所特有的信息相关联的关联信息(诸如,别名技能的调度技能表等)来进行。别名技能的调用名称(通用调用名称)作为用于调用正常技能(程序)的调用(调用名称)对多个正常技能(程序)通用,该正常技能(程序)进行与观看内容的观看者2发出的语音相对应的处理。
此外,关联信息是用于指定观看者2正在观看的广播节目(内容)的上下文元数据(元数据)与正常技能(特定程序)彼此相关联的信息(诸如调度技能表)。关联信息包含在由别名技能的调用名称(通用调用名称)指定的别名技能(用于切换的程序)中。在处理单元420中,基于别名技能的调用名称(通用调用名称)指定别名技能(用于切换的程序),并且将别名技能(用于切换的程序)调度至与上下文元数据(元数据)相关联的正常技能(特定程序),执行与观看者2发出的语音相对应的处理。因此,可以认为,语音辅助服务器40是包括处理单元420的信息处理装置。
这就使得观看者2即使在要使用的技能不同的情况下也能够通过说出别名技能的通用调用名称(通用调用名)而使用期望技能,诸如,XXX广播台或YYY广播台的技能。因此,可以提高在使用与内容(诸如,XXX广播台或YYY广播台的广播节目)协作的语音AI辅助服务的便利性。
此外,以上描述给出了在诸如正在被观看(当前观看)的广播节目的频道号(ChannelNumber)和媒体时间(MediaTime)的观看信息被包括作为上下文元数据的情况。然而,包括在上下文元数据中的上下文信息不限于观看信息,并且可包括各种类型的信息。例如,本地侧的接收装置20、语音用户接口设备30等可以通过无线通信(例如,蓝牙(注册商标))从其他设备(例如,相关的外围设备)获取语音AI辅助服务中的有用的上下文信息。此外,上下文元数据可添加至话语的语音数据并可发送。
(3)第三实施方式
然后,第三实施方式示出云侧的语音辅助服务器40生成链接到观看者的账号信息的私人技能(private skill),并且参照图17至图23基于经由广播传送的元数据来更新(实时更新)私人技能的配置。
(初始登记时的配置实例)
图17示出了初始登记时的配置作为第三实施方式的配置的第一实例。
在初始登记时,观看者2将用于接收者操作技能的调用名称和观看者自己的账号信息登记在接收装置20中(S71)。
由此,在接收装置20中,记录单元200响应于由观看者2输入的设置(D1)登记接收者操作技能(技能名称:TV节目技能)的调用名称“TV节目”和账号信息“BBBB”。此外,记录单元200记录从广播传送系统10传送的传送技能的当前版本(初始值:0)。
此外,当使用内容语音AI协作系统1时,观看者2具有服务A的账号信息(“BBBB”),该服务使用语音用户接口设备30作为用户接口提供语音AI辅助服务。在初始登记时,观看者2能够登记服务A的账号信息(“BBBB”)。
具体地,例如,在使用安装在作为典型的语音AI辅助服务的Amazon Echo(注册商标)中的Alexa(注册商标)的情况下,观看者2能够通过使用Amazon.com(注册商标)的预登记的账号信息来登记Alexa(注册商标)。
接收装置20基于由观看者2输入的设置的内容,经由互联网60向语音辅助服务器40发送技能创建请求(S72)。
除了账号信息“BBBB”、技能名称“TV节目技能”和调用名称“TV节目”之外,该技能创建请求还能够包括除了调用名称之外的技能登记信息作为发送数据。然而,假设在初始登记时发送的技能登记信息限于最小必要信息。
语音辅助服务器40基于来自接收装置20的技能创建请求(其中所包含的发送数据)生成私人技能,并且将私人技能记录在记录单元400中(S73)。
该私人技能是链接到账号信息“BBBB”的技能,并且技能名称是“TV节目技能”。除了调用名称“TV节目”和端点URL“https://ZZZ”之外,技能信息还包括意图列表、话语意图转换表等。
在该描述中,意图列表是执行对应通过分析观看者2的话语的语音数据(例如,诸如观看者2的意图或期望)而获得的结果的处理的意图的列表。换言之,技能(私人技能)通过执行对应意图的处理来满足观看者2的请求。另外,话语意图转换表是话语和意图彼此相关联的表,并且该表的使用能够将观看者2的话语转换为意图。
然而,在初始登记时,仅将最小必要信息登记在意图列表或话语意图转换表中。此外,在该实例中,描述了端点URL、意图列表和话语意图转换表包含在所生成的私人技能中,但是可以包括其他信息。
以这种方式,在初始登记阶段,生成伴随广播的应用使用的技能(自动登记生成)作为链接到分配给语音用户接口设备30的账号信息(“BBBB”)的私人技能。然而,在初始登记阶段,除了调用名称(“TV节目”)之外的信息是技能信息的最小必要信息,因此可以认为在更新的前提下预先创建第一个技能(私人技能)。
(观看时的配置的第一实例)
图18示出观看时配置的第一实例作为第三实施方式的配置的第二实例。
在图18中,接收装置20接收从广播传送系统10发送的广播流并且然后回放内容(诸如,广播节目)或者执行伴随广播的应用。然而,在广播流中插入用于通知技能登记信息的元数据(在下文中称为“技能登记信息元数据”)。
此外,虽然稍后将描述细节,但是可以使用MPD的EventStream等发送技能登记信息元数据。另外,通过图17所示的初始登记时的处理,将调用名称“TV节目”和账号信息“BBBB”登记在接收者操作技能(技能名:TV节目技能)的记录单元200中。此外,传送技能的当前版本是1。
例如,当观看者2观看XXX广播台的问答节目时,接收装置20正结合XXX广播台的问答节目执行XXX广播台的伴随广播的应用。此外,在这种情况下,接收装置20从符合正在被观看的XXX广播台的问答节目的广播流中获取XXX广播台的技能登记信息元数据(S81)。
接收装置20基于所获取的XXX广播台的技能登记信息元数据确定是否更新接收者操作技能(S82)。在第一实例中,记录在记录单元200中的传送技能的当前版本为1,但所获取的XXX广播台的传送技能的版本为2,因此版本增加。因此,接收装置20经由互联网60将技能更新请求发送到语音辅助服务器40(S83)。
该技能更新请求能够包括账号信息“BBBB”、技能名称“TV节目技能”和除了调用名称以外的技能登记信息作为发送数据。例如,技能登记信息可以包括更新的端点URL、意图列表、及话语意图转换表。然而,在该阶段发送的技能登记信息对应于从XXX广播台的技能登记信息元数据中获得的信息(XXX广播台的技能登记信息)。
此外,在此,描述了当更新传送技能的版本时发出技能更新请求以更新私人技能。然而,私人技能的更新时刻不限于此。例如,更新时刻可以是通过观看者2的远程控制器的操作将频道切换为另一广播电台的情况或接收装置20的电源接通的情况(调整频带(频道)的情况)的时刻。
语音辅助服务器40基于来自接收装置20的技能更新请求(其中所包含的发送数据)更新记录在记录单元400中的私人技能(其一部分)(S84)。
在该实例中,尽管通过在图17所示的初始登记时的处理将私人技能登记在记录单元400中,但可以用作为技能更新请求的发送数据发送的XXX广播台的技能登记信息更新除了该私人技能的调用名称以外的信息。具体地,在第一实例中,在记录单元400中,将端点URL从“https://ZZZ”更新至“https://XXX”。此外,例如,将意图列表更新至XXX广播台的技能的意图列表,并且将话语意图转换表更新至XXX广播台的技能的话语意图转换表。
此外,第一实例假设观看者2使用XXX广播台提供的技能参与正在被观看的XXX广播台的问答节目。在这种情况下,观看者2例如向语音用户接口设备30说出“AAAA,询问TV节目,红色!!”并且针对给定问答讲述观看者自己的答案(S85)。
语音用户接口设备30将话语“AAAA,询问TV节目,红色!!”的语音数据发送至语音辅助服务器40(S86)。
语音辅助服务器40将话语的语音数据从语音用户接口设备30转换为文本数据并且指定目标技能(私人技能)。在图18的实例中,话语的语音数据包括调用名称“TV节目”,因此指定链接到观看者2的账号信息(“BBBB”)的私人技能(“TV节目技能”)。然后,将话语的文本数据作为参数传递给正在执行的私人技能(“TV节目技能”)。
在该实例中,将URL“https://XXX”(即,XXX广播台服务器50A的URL)设置为私人技能(“TV节目技能”)的端点URL,这样在语音辅助服务器40中执行的私人技能向XXX广播台服务器50A通知请求消息。因此,处理链接到观看者2的账号信息的私人技能(例如,对问答的答案的处理,“红色”)并且呈现处理结果(S87)。在这种情况下,例如,私人技能能够与XXX广播台的伴随广播的应用协作以将处理结果结合到伴随广播的应用呈现的内容中,如上所述。
以此方式,观看者2能够参与正在观看的问答节目,但是在此,当使用链接到观看者2的账号信息的私人技能时,可以通过向语音用户接口设备30说出调用名称“TV节目”而与私人技能交互。
(观看时的配置的第二实例)
图19示出观看时配置的第二实例作为第三实施方式的配置的第三实例。
例如,在图19中,当观看者2观看YYY广播台的信息节目时,接收装置20结合YYY广播台的信息节目执行YYY广播台的伴随广播的应用。此外,在这种情况下,接收装置20从符合正在被观看的YYY广播台的信息节目的广播流中获取YYY广播台的技能登记信息元数据(S91)。
接收装置20基于所获取的YYY广播台的技能登记信息元数据确定是否更新接收者操作技能(S92),并且在第二实例中,所获取的YYY广播台的传送技能的版本为2,因此版本增加。因此,接收装置20经由互联网60将技能更新请求发送到语音辅助服务器40(S93)。
该技能更新请求能够包括账号信息“BBBB”、技能名称“TV节目技能”和除了调用名称以外的技能登记信息作为发送数据。然而,在该阶段发送的技能登记信息对应于从YYY广播台的技能登记信息元数据中获得的信息(YYY广播台的技能登记信息)。
语音辅助服务器40基于来自接收装置20的技能更新请求更新记录在记录单元400中的私人技能(其一部分)(S94)。具体地,在第二实例中,在记录单元400中,将端点URL从“https://ZZZ”更新到“https://YYY”,将意图列表更新到YYY广播台的技能的意图列表,并且将话语意图转换表更新到YYY广播台的技能的话语意图转换表。
在该描述中,第二实例假设观看者2使用YYY广播台提供的技能参与正在观看的YYY广播台的信息节目。在这方面,观看者2向语音用户接口设备30说出例如“AAAA,询问TV节目,红色!!”,并且例如用答案回复游戏等(S95)。
语音用户接口设备30将话语“AAAA,询问TV节目,红色!!”的语音数据发送至语音辅助服务器40(S96)。
语音辅助服务器40将来自语音用户接口设备30的话语的语音数据转换为文本数据并且指定目标技能(私人技能)。在图19的实例中,话语的语音数据包括调用名称“TV节目”,因此指定链接到观看者2的账号信息(“BBBB”)的私人技能(“TV节目技能”)。然后,将参数(话语的文本数据)传递给正在被执行的私人技能(TV节目技能)。
在该实例中,将URL“https://YYY”(即,YYY广播台服务器50B的URL)设置为私人技能(“TV节目技能”)的端点URL,因此语音辅助服务器40向YYY广播台服务器50B通知请求消息。因此,处理私人技能(例如,对游戏的回复等的处理,“红色”)并且呈现处理结果(S97)。在这种情况下,如上所述,例如私人技能能够与YYY广播台的伴随广播的应用协作以将处理结果结合到伴随广播的应用所呈现的内容中。
以此方式,观看者2能够参与正在观看的信息节目,但是在此,当使用链接到观看者2的账号信息的私人技能时,可以通过向语音用户接口设备30说出调用名称“TV节目”而与私人技能交互。
(每个设备的详细配置的实例)
图20是示出了根据第三实施方式的每个设备的详细配置的实例的框图。
图20示出了发送侧的广播传送系统10和接收侧的接收装置20的配置的实例、以及本地侧的语音用户接口设备30和云侧的语音辅助服务器40和处理服务器50的配置的实例,类似于图8。
此外,在图20中,广播传送系统10和处理服务器50在配置上与图8所示的那些配置相似,因此将省略对其的描述。然而,在第三实施方式中,广播传送系统10需要传送技能登记信息元数据。因此,元数据生成单元103生成技能登记信息元数据来代替调用名称元数据。
在图20中,除了记录单元200(图17至图19)之外,接收装置20还包括调谐器201、解复用器202、AV解码器203、伴随广播的应用执行单元204、渲染器205、显示器206、扬声器207、通信单元210、设置管理单元212、技能创建和更新请求发布管理单元213、及技能版本管理单元214。
换言之,相比于图8所示的配置,在图20所示的接收装置20中,设置管理单元212、技能创建和更新请求发布管理单元213、及技能版本管理单元214,来代替调用名称管理单元208和调用名称转换单元209。
设置管理单元212根据从观看者2输入的设置进行各种设置。在该描述中,例如,设置接收者操作技能的调用名称、账号信息等并且记录在记录单元200中。此外,在该描述中的设置例如不仅能够通过观看者2使用远程控制器、按钮、触摸板(未示出)等的操作输入进行输入,而且还能够通过观看者2经由语音用户接口设备30的语音输入进行输入。
技能创建和更新请求发布管理单元213基于诸如由设置管理单元212设置的设置信息和技能登记信息(限于最小必要信息)的信息生成技能创建请求。经由互联网60将该技能创建请求从通信单元210发送到语音辅助服务器40。
此外,技能创建和更新请求发布管理单元213基于从解复用器202提供的技能登记信息元数据和诸如从设置管理单元212获取的技能名称和账号信息等的信息来生成技能更新请求。经由互联网60将该技能更新请求从通信单元210发送到语音辅助服务器40。
技能版本管理单元214根据来自技能创建和更新请求发布管理单元213的指示,管理传送技能的当前版本。将该版本信息记录在记录单元200中。
此外,例如,通信单元210被配置为与无线通信(诸如无线LAN或蜂窝通信)或有线通信兼容的通信模块,并且根据预定的通信方案经由互联网60与语音辅助服务器40(其通信单元407)通信以交换各种数据。
在图20中,语音用户接口设备30包括麦克风301、扬声器302和通信单元303。具体地,与图8所示的配置相比,图20所示的语音用户接口设备30不包括语音分析单元304、通信单元305和设置管理单元306。
此外,在图20中,除了记录单元400(图17至图19)之外,语音辅助服务器40还包括通信单元401、通信单元402、语音分析单元403、语音生成单元404、技能创建和更新单元406和通信单元407。具体地,与图8所示的配置相比,图20所示的语音辅助服务器40另外设置有技能创建和更新单元406和通信单元407。另外,记录单元400使得已创建或更新的私人技能(Private Skill)记录在其中,代替多个技能(技能_1至技能_N)。
技能创建和更新单元406基于从接收装置20发送的技能创建请求生成私人技能。该私人技能(程序)记录在记录单元400中。另外,技能创建和更新单元406根据从接收装置20发送的技能更新请求而更新(替换)记录单元400中记录的私人技能的内容。
从记录单元400读取私人技能(程序)并且由CPU(诸如稍后描述的图25中的CPU1001)执行。正在被执行的私人技能基于从语音分析单元403接收的参数(话语的文本数据)创建请求消息。该请求消息通过通信单元402经由网络70发送到处理服务器50。
此外,在语音辅助服务器40中,技能创建和更新单元406构成生成私人技能并更新所生成的私人技能的处理单元430。
通信单元407被配置为与无线通信或有线通信兼容的通信模块,并且根据预定的通信方案经由互联网60与接收装置20(其通信单元210)进行通信以交换各种数据。此外,在图20中,为了便于描述,通信单元407被描述为与通信单元401和通信单元402不同的通信模块,但是它们可集成到一个通信模块中。
(各设备中的处理流程)
现在参照图21的流程图描述第三实施方式的各设备中的处理流程。
在初始登记时,首先执行步骤S301至S304的处理。具体地,接收装置20接受由观看者2输入的设置,并且执行步骤S301至S303的处理。
换言之,在接收装置20中,设置管理单元212根据来自观看者2的指令,设置接收者操作技能的调用名称和账号信息(S301)。在这个阶段,例如,可以为接收者操作技能(技能名称:TV节目技能)设置调用名称“TV节目”和账号信息“BBBB”。
此外,技能创建和更新请求发布管理单元213基于由设置管理单元212设置的设置信息和技能登记信息(限于最小必要信息)向语音辅助服务器40发出技能创建请求(S302)。另外,技能版本管理单元214根据来自技能创建和更新请求发布管理单元213的指令,将传送技能的当前版本重置为0(S303)。
语音辅助服务器40通过互联网60接收技能创建请求,并执行步骤S304的处理。
换言之,技能创建和更新单元406基于从接收装置20接收到的技能创建请求而生成私人技能(S304)。例如,该私人技能(程序)记录在记录单元400中,并且可以由CPU等执行。
在执行初始登记之后更新私人技能的情况下,执行步骤S311至S318的处理。此外,这里描述了更新传送技能的版本时更新私人技能,但是例如当将频道切换到另一广播电台时可进行更新,如上所述。
换言之,在广播传送系统10中,元数据生成单元103生成技能登记信息元数据,并且多路复用器104将生成的技能登记信息元数据插入流中(S311)。
在该阶段中,例如,在内容作为符合MPEG-DASH的流传送的情况下,可以使用作为其控制信息的MPD发送技能登记信息元数据。
图22示出了将技能登记信息元数据插入到MPD中的实例。
如上所述,MPD在其分级结构中包括元素Period,并且可以在元素Period中描述元素EventStream。此外,在元素EventStream中,作为其属性,可以描述指示用于识别方案的URI的属性schemeIdUri。在图22的MPD描述实例中,“urn:XXX”被定义为识别用于发送XXX广播台的技能登记信息元数据的方案的URI,并且被描述为属性schemeIdUri的属性值。
此外,还可以描述元素EventStream的元素Event。可以描述属性messageData,其中事件消息的数据被指定为元素Event的属性。在图22的MPD描述实例中,可扩展标记语言(XML)格式(图中的“XML TEXT”)的XXX广播台的技能登记信息元数据被描述为元素Event的属性messageData的属性值。
图23示出XML格式的XXX广播台的技能登记信息元数据的描述的实例。
在图23中,作为XXX广播台的技能登记信息,例如,XXX广播台的传送技能的版本(即,“1”)被描述为元素SkillRegistrationInfo的版本属性。另外,在元素InvocationName的开始标签和结束标签之间描述了调用名称“XXX Quiz”,并且在元素EndpointUrl的开始标签和结束标签之间描述了端点URL“http://XXX”。此外,作为其他技能登记信息,例如,通过Intents、SlotValues等的元素来描述与意图或时隙(参数)有关的信息等。
此外,尽管元素Event可将属性presentationTime和属性duration描述为其属性,但在这里,假设描述为属性messageData的属性值的技能登记信息元数据通常在不使用这些属性的情况下有效。
返回参照图21,在步骤S312中,发送单元105发送插入有技能登记信息元数据的广播流。接收装置20接收该广播流,并且在该广播流上执行步骤S313至S317的处理。
在步骤S313中,技能创建和更新请求发布管理单元213获取技能登记信息元数据,该技能登记信息元数据是从解复用器202分离的流中获得的。
在步骤S314中,技能创建和更新请求发布管理单元213通过询问技能版本管理单元214来检查版本是否更新。在该阶段中,在步骤S315至S318中示出了在步骤S314的处理中确定版本已更新的情况下的处理。
在步骤S315中,技能创建和更新请求发布管理单元213通过询问设置管理单元212而获取接收者操作技能的技能名称和观看者2的账号信息。
在步骤S316中,技能创建和更新请求发布管理单元213基于从广播流获取的技能登记信息元数据和从设置管理单元212获取的技能名称和账号信息,向语音辅助服务器40发出技能更新请求。
在步骤S317中,技能版本管理单元214根据来自技能创建和更新请求发布管理单元213的指令,更新传送技能的当前版本。在该描述中,例如,当前版本从0增加到1。
语音辅助服务器40经由互联网60接收技能更新请求,并执行步骤S318的处理。
在步骤S318中,技能创建和更新单元406基于从接收装置20接收的技能更新请求,更新(替换)链接到观看者2的账号信息的私人技能的内容。例如,更新的私人技能(程序)记录在记录单元400中,并且由CPU(例如,诸如稍后描述的图25中的CPU 1001)执行。
另外,尽管描述了更新传送技能的版本并且更新私人技能的情况,但在传送技能的版本没有更新的情况下,跳过步骤S315至S318中更新时的处理。私人技能没有更新,并且例如按原样执行更新之前的私人技能。
然后,当观看者2说出问题时,执行步骤S321和后续步骤的处理操作。换言之,在语音用户接口设备30中,将麦克风301获取的观看者2的话语发送到语音辅助服务器40(S321),并且语音分析单元403将话语的语音数据转换为文本数据(S322)。
此外,语音分析单元403基于话语的语音数据的分析结果,从记录在记录单元400中的技能中指定目标技能(私人技能)(S323)。在这方面,在语音辅助服务器40中,由CPU等执行目标私人技能,因此语音分析单元403将转换的话语的目标文本数据(参数)传递给指定的目标技能(私人技能)(S324)。
目标私人技能基于来自语音分析单元403的话语的文本数据创建请求消息,并且将请求消息发送到由端点URL指定的处理服务器50(其处理单元502)(S325)。处理服务器50经由网络70接收该请求消息,并且执行步骤S326的处理。
在步骤S326中,提取观看者2说出的对问题的语音响应的数据,并且经由网络70将该数据发送到语音辅助服务器40。该配置允许语音用户接口设备30从扬声器302输出与来自语音辅助服务器40的语音数据对应的响应语音。由此,观看者2能够检查对应于观看者自己的问题话语的响应语音。
上面描述了在云侧的语音辅助服务器40生成链接到观看者的账号信息的私人技能并且基于经由广播传送的技能登记信息元数据来更新私人技能(实时更新)的情况下的流程,作为根据第三实施例的每个设备的处理流程。
如上所述,在第三实施方式中,存在语音辅助服务器40的处理单元430使用与内容(诸如XXX广播台或YYY广播台的广播节目)协作的语音AI辅助服务的情况。处理单元430基于技能登记信息(生成信息)来生成私人技能(个性化程序),技能登记信息(生成信息)至少包括观看内容的观看者2的账号信息、专用于观看者的私人技能(个性化的程序)(即执行与观看者的话语的语音相对应的处理的程序)的名称、以及用于调用个性化程序的调用名称(调用名)。另外,处理单元430基于更新信息来更新所生成的私人技能(个性化程序),该更新信息至少包括账号信息、个性化程序的名称以及除调用名称之外的技能登记信息(更新信息),该技能登记信息是针对个性化程序而登记的信息。
此外,在处理单元430中,通过与从语音用户接口设备30发送的调用名称(调用名)相关联的私人技能(个性化程序),执行与观看者2发出的语音相对应的处理。由此,可以认为,语音辅助服务器40是包括处理单元430的信息处理装置。
另外,虽然上文给出了私人技能的描述,但提供私人技能的形式并不限定于上述实施方式。例如,在诸如语音辅助服务器40的装置中,假设获取(接收)、定制通用技能(诸如添加适合于目标受众的语音模式(如口音)),并且用作私人技能。
<3.变型例>
(其他配置的实例)
以上给出了对接收装置20和语音用户接口设备30为不同的设备的描述。然而,例如,如图24所示,这些设备可以集成以形成一个设备(信息处理装置)。
换言之,图24所示的接收装置20是支持语音AI辅助服务的诸如电视机或智能电话的设备。除了记录单元200、和调谐器201至调用名称转换单元209之外,接收装置20还包括语音用户接口设备30侧的麦克风301、通信单元303、语音分析单元304以及设置管理单元306。然而,在图24中,扬声器207也用作语音用户接口设备30侧的扬声器302。
在图24所示的接收装置20中,调用名称管理单元208和调用名称转换单元209也构成处理单元220。处理单元220允许基于记录单元200中记录的登记列表和调用名称元数据,来执行将通用调用转换为可操作调用名称的处理。
此外,参照图24描述接收装置20与语音AI辅助服务相兼容的配置。然而,记录单元200和处理单元220(其功能的全部或一部分)设置在语音用户接口设备30侧,并且可以从接收装置20侧获取必要的信息。另外,虽然在图24中示出与第一实施方式相对应的配置,但是接收装置20和语音用户接口设备30可以集成,这与第二实施方式和第三实施方式类似。
此外,由于提供语音AI辅助服务的功能,存在本地侧的功能(例如,诸如语音分析单元304的功能)和云侧的功能(例如,诸如语音分析单元403和语音生成单元404的功能)。然而,所有的这些功能可在本地侧的设备(终端)或云侧的设备(服务器)中实现,或者这些功能中的一些可在本地侧的设备(终端)或云侧的设备(服务器)中实现。
此外,在以上描述的图1的内容语音AI协作系统1中,示出了一个接收装置20(例如,电视机)和一个语音用户接口设备30(智能扬声器)安装在观看者的房屋中的情况。然而,例如,可以为每个观看者的房屋提供应用本技术的接收装置20和语音用户接口设备30。此外,尽管假设接收装置20和语音用户接口设备30安装在观看者的房屋处的同一房间中,但它们也可安装在不同的房间中。此外,可以为一个接收装置20设置多个语音用户接口设备30,或者相反,可以为一个语音用户接口设备30设置多个接收装置20。
此外,在以上描述的图1的内容语音AI协作系统1中,示出了安装一个语音辅助服务器40和一个处理服务器50的情况,但是例如,可以为每个功能或提供者(例如,广播者)安装多个这些服务器。另一方面,语音辅助服务器40和处理服务器50的功能的全部或一部分可集成并且可由一个或多个服务器提供。
(广播系统的实例)
作为用于将从广播传送系统10发送的广播信号(数字广播信号)传输至接收装置20的广播系统,例如,可以应用高级电视系统委员会(ATSC),即,在美国等采用的系统。除了此之外,可以应用综合业务数字广播(ISDB),其是日本和其他国家采用的系统,或者数字视频广播(DVB),其是欧洲国家等采用的系统。此外,发送路径不限于地面广播,并且例如,也可以应用于使用广播卫星(BS)、通信卫星(CS)等的卫星广播或者诸如有线电视(CATV)的有线广播。
此外,上述广播传送系统10包括一个或多个广播服务器等。例如,在普通的数字广播系统中,复用器104(复用器服务器)和发送单元105(发送服务器)可以安装在不同的地方。更具体地,例如,复用器104安装在广播电台中,而发送单元105安装在发射台中。此外,节目内容处理单元101(节目内容服务器)、伴随广播的应用生成单元102(伴随广播的应用服务器)、及元数据生成单元103(元数据服务器)可以安装在相同的位置(例如,广播电台内部的位置)作为复用器104(复用器服务器)或者安装在不同的地方(例如,广播电台外部的位置)。
(内容应用的实例)
此外,在以上描述中,节目和广告被例示为要传送的内容,但应用本技术的内容不仅包括移动图像或音乐而且还包括任何类型的内容应用(诸如,电子书、游戏和广告)。此外,在上文中,将由广播传送系统10经由广播的传送描述为内容的传送路线,但提供过顶(OTT)服务等的通信分配系统可经由通信传送流。此外,可经由广播或通信传送包括内容(诸如,节目)的所有组件(例如,视频、音频或字幕),或可经由广播或通信传送组件的一部分(经由通信或广播传送剩余部分)。
此外,伴随广播的应用可以是例如用标记语言(诸如,HTML 5)或脚本语言(诸如,JavaScript(注册商标))开发的应用,但不限于此。例如,其可以是用诸如Java(注册商标)的编程语言开发的应用。此外,伴随广播的应用不限于浏览器(伴随广播的应用执行单元204)执行的应用,但可作为在操作系统(OS)环境等中的所谓的本地应用执行。
此外,以上描述了广播传送系统10经由广播传送伴随广播的应用的情况,但其不限于此。例如,生成伴随广播的应用的应用服务器可经由通信(经由互联网60)对伴随广播的应用进行传送。此外,以上描述了伴随广播的应用与经由广播传送的内容结合,但伴随广播的应用可以是结合经由通信传送的内容执行的应用。
(其他)
此外,本文中使用的术语为示例性的,并且实际上,在一些情况下使用其他术语。然而,这些术语中的差异为形式差异,并且对象的实质性内容是不同的。例如,在一些情况下,以上提及的“技能”称作“动作”、“应用”等。此外,可提供技能作为应用编程接口(API),或可通过使用API实现其功能的一部分。
作为进一步的说明,例如,在某些情况下,上述“唤醒词”被称为“激活关键词”、“命令词”等,上述“参数”被称为“时隙”等,并且上述“AI辅助服务”被称为“AI协助服务”等。
<4.计算机的配置>
可通过硬件或软件执行上述一系列处理。在通过软件执行一系列处理的在情况下,构成软件的程序安装在计算机中。图25是示出通过程序执行以上描述的一系列处理的计算机的示例性硬件结构的示图。
在该计算机1000中,中央处理器(CPU)1001、只读存储器(ROM)1002、及随机存取存储器(RAM)1003通过总线1004彼此连接。输入/输出接口1005进一步连接至总线1004。输入单元1006、输出单元1007、记录单元1008、通信单元1009、及驱动器1010连接至输入/输出接口1005。
输入单元1006包括键盘、鼠标、麦克风等。输出单元1007包括显示器、扬声器等。记录单元1008包括硬盘、非易失性存储器等。通信单元1009包括网络接口等。驱动器1010驱动可移动记录介质1011,诸如,磁盘、光盘、磁光盘、或半导体存储器。
在如上所述配置的计算机1000中,CPU 1001将记录在ROM 1002或记录单元1008中的程序经由输入/输出接口1005和总线1004加载到RAM1003上,并且执行该程序。因此,进行上述一系列的处理。
例如,提供记录在可移动记录介质1011中的计算机1000(CPU 1001)要执行的程序,可移动记录介质为封装介质等。另外,程序可以经由有线或无线传输介质(诸如,局域网、互联网或数字卫星广播)提供。
在计算机1000中,通过将可移动记录介质1011安装在驱动器1010上,可经由输入/输出接口1005将程序安装在记录单元1008上。此外,程序可由通信单元1009经由有线或无线传输介质接收,并且可安装在记录单元1008上。此外,程序可提前安装在ROM 1002或记录单元1008上。
在此,在该描述中,由计算机根据程序执行的处理可以不必按照流程图描述的顺序按时间顺序执行。即,由计算机根据程序执行的处理还包括并行或单独执行的处理(例如,并行处理或通过对象的处理)。此外,程序可以由一个计算机(处理器)处理或者可以由多个计算机分发和处理。
此外,本技术的实施方式不限于上述实施方式,并且在不背离本技术的范围的情况下,可以进行各种改变和修改。
此外,本技术还可以如下配置。
(1)
一种信息处理装置,包括:
处理单元,被配置为在使用与内容协作的语音AI辅助服务时,基于使通用调用名称与每一个程序的特定信息相关联的关联信息,处理与观看内容的观看者发出的语音中所包含的通用调用名称相关联的特定信息,通用调用名称作为用于调用程序的调用名称,对进行与观看者发出的语音相对应的处理的多个程序通用。
(2)
根据(1)的信息处理装置,
其中关联信息将通用调用名称与每一个程序特定的调用名称相关联,并且
处理单元基于关联信息将观看者发出的语音中包含的通用调用名称转换为特定调用名称。
(3)
根据(2)的信息处理装置,还包括:
记录单元,具有预先记录的关联信息,
其中处理单元基于记录的关联信息将通用调用名称转换为特定调用名称。
(4)
根据(2)的信息处理装置,
其中信息处理装置被配置作为接收装置,接收装置被配置为接收经由广播传送的内容。
从经由广播传送的元数据中获取特定调用名称,并且
处理单元将通用调用名称转换为从元数据获取的特定调用名称。
(5)
根据(2)至(4)中任一项的信息处理装置,
其中信息处理装置被配置作为接收装置,接收装置被配置为接收经由广播传送的内容,并且
响应于来自被配置为用作语音AI辅助服务的用户接口的语音处理设备的请求,将通用调用名称转换为特定调用名称。
(6)
根据(1)的信息处理装置,
其中关联信息是通过将用于指定观看者正在观看的内容的元数据与特定程序相关联而获得的信息,并且包含在通过通用调用名称指定的切换程序中,并且
处理单元基于与切换程序相关联的关联信息,对与通用调用名称一起发送的元数据相关联的特定程序进行与观看者发出的语音相对应的处理。
(7)
根据(6)的信息处理装置,
其中信息处理装置被配置为经由网络连接至被配置为用作语音AI辅助服务的用户接口的语音处理设备的服务器,并且
处理单元调度至特定程序,特定程序与从语音处理设备和通用调用名称一起发送的元数据相关联。
(8)
根据(6)或(7)的信息处理装置,
其中元数据包括指示观看者正在观看的内容的频道的频道信息、和指示内容的播放时间轴上对应观看者的话语的时间的时间信息。
(9)
根据(1)至(8)中任一项的信息处理装置,
其中程序至少包括对哪种语音做出反应、将什么单词作为参数实现什么功能、或者什么服务器设备或处理程序实际执行功能的信息,并且基于信息执行与从被配置为用作语音AI辅助服务的用户接口的语音处理设备发送的观看者发出的语音相对应的处理。
(10)
根据(4)的信息处理装置,
其中内容作为符合MPEG-DASH的流经由广播传送,并且
特定调用名称使用MPD经由广播传送。
(11)
根据(7)或(8)的信息处理装置,
其中使用HTTP请求将频道信息和时间信息经由通信与观看者发出的语音数据一起发送。
(12)
根据(1)至(11)中任一项的信息处理装置,
其中内容是经由广播传送的广播内容,并且
程序是为每个广播者或广播节目提供的。
(13)
一种由信息处理装置执行的信息处理方法,信息处理方法包括:
由信息处理装置,
在使用与内容协作的语音AI辅助服务时,基于使通用调用名称与每一个程序的特定信息相关联的关联信息,处理与观看内容的观看者发出的语音中包含的通用调用名称相关联的特定信息,通用调用名称作为用于调用程序的调用名称,对进行与观看者发出的语音相对应的处理的多个程序通用。
(14)
一种发送装置,包括:
生成单元,被配置为在与内容协作的语音AI辅助服务中使用使通用调用名称与每一个程序的特定调用名称相关联的关联信息时,生成包含特定调用名称的元数据,通用调用名称作为用于调用程序的调用名称,对进行与观看内容的观看者发出的语音相对应的处理的多个程序通用;以及
发送单元,被配置为发送所生成的元数据。
(15)
根据(14)的发送装置,
其中生成单元通过识别信息生成以可识别的表述描述的MPD,识别信息被用于识别特定调用名称用于语音AI辅助服务,并且
发送单元将内容与MPD一起作为符合MPEG-DASH的流经由广播传送。
(16)
一种由发送装置执行的发送方法,发送方法包括:
由发送装置在与内容协作的语音AI辅助服务中使用使通用调用名称与每一个程序的特定调用名称相关联的关联信息时,生成包含特定调用名称的元数据,通用调用名称作为用于调用程序的调用名称对进行与观看内容的观看者发出的语音相对应的处理的多个程序通用;以及
由发送装置发送生成的元数据。
(17)
一种信息处理装置,包括:
处理单元,被配置为在使用与内容协作的语音AI辅助服务时,基于生成信息生成专用于观看内容的观看者的个性化程序,生成信息至少包括观看者的账号信息、进行与观看者发出的语音相对应的处理的程序的名称、以及用于调用个性化程序的调用名称,
其中处理单元基于更新信息更新生成的个性化程序,更新信息至少包括账号信息、个性化程序的名称、以及除了调用名称以外的登记信息,登记信息是针对个性化程序而登记的信息。
(18)
根据(17)的信息处理装置,
其中信息处理装置被配置为经由网络连接至被配置为用作语音AI辅助服务的用户接口的语音处理设备的服务器设备,并且
处理单元对与从语音处理设备发送的调用名称相关联的个性化程序执行与观看者发出的语音相对应的处理。
(19)
根据(17)或(18)的信息处理装置,
其中内容作为符合MPEG-DASH的流经由广播传送,
使用MPD经由广播传送登记信息,并且
当更新登记信息的版本时或当观看者切换频道时,处理单元基于更新信息更新个性化程序。
(20)
一种由信息处理装置执行的信息处理方法,方法包括:
由信息处理装置在使用与内容协作的语音AI辅助服务时基于生成信息生成专用于观看内容的观看者的个性化程序,生成信息至少包括观看者的账号信息、进行与观看者发出的语音相对应的处理的程序的名称、以及用于调用个性化程序的调用名称,
其中基于更新信息更新生成的个性化程序,更新信息至少包括账号信息、个性化程序的名称、以及除了调用名称以外的登记信息,登记信息是针对个性化程序而登记的信息。
参考符号列表
1 内容语音AI协作系统
10 广播传送系统
20 接收装置
30 语音用户接口设备
40 语音辅助服务器
50 处理服务器
60 互联网
70 网络
101 节目内容处理单元
102 伴随广播的应用生成单元
103 元数据生成单元
104 复用器
105 发送单元
200 记录单元
201 调谐器
202 解复用器
203 AV解码器
204 伴随广播的应用执行单元
205 渲染器
206 显示器
207 扬声器
208 调用名称管理单元
209 调用名称转换单元
210 通信单元
211 元数据管理单元
212 设置管理单元
213 技能创建和更新请求发布管理单元
214 技能版本管理单元
220 处理单元
301 麦克风
302 扬声器
303 通信单元
304 语音分析单元
305 通信单元
306 设置管理单元
307 语音分析和元数据合并单元
400 记录单元
401 通信单元
402 通信单元
403 语音分析单元
404 语音生成单元
405 语音分析和元数据提取单元
406 技能创建和更新单元
407 通信单元
420、430 处理单元
501 通信单元
502 处理单元
503 记录单元
1000 计算机
1001 CPU。

Claims (25)

1.一种信息处理装置,包括:
处理单元,被配置为在使用与内容协作的语音AI辅助服务时,基于通用调用名称和关联信息,针对所述内容,处理与观看者发出的语音中包含的通用调用名称相关联的特定信息,所述通用调用名称对用于执行所述观看者发出的语音相对应的处理的多个节目通用,其中,所述特定信息特定于是每个节目的信息,
其中,
所述关联信息将所述通用调用名称与所述观看者正在观看的节目的特定调用名称相关联,所述特定调用名称特定于所述节目中的每一个并且调用所述观看者正在观看的所述节目的技能,并且所述处理单元被配置为基于所述关联信息,将所述观看者发出的语音中包含的所述通用调用名称转换为所述特定调用名称。
2.根据权利要求1所述的信息处理装置,包括:
记录单元,预先记录所述关联信息。
3.根据权利要求1所述的信息处理装置,
其中,所述信息处理装置被配置为接收装置,所述接收装置被配置为接收经由广播传送的内容,以及
从经由广播传送的元数据中获取所述特定调用名称。
4.根据权利要求1所述的信息处理装置,
其中,所述信息处理装置被配置为接收装置,所述接收装置被配置为接收经由广播传送的内容,并且
所述处理单元被配置为响应于来自语音处理设备的请求,将所述通用调用名称转换为所述特定调用名称,所述语音处理设备被配置为用作所述语音AI辅助服务的用户接口。
5.根据权利要求1所述的信息处理装置,
其中,所述关联信息是通过将用于指定所述观看者正在观看的所述内容的元数据与特定节目相关联而获得的信息,并且包含在由所述通用调用名称指定的切换节目中,并且
所述处理单元被配置为基于通过所述切换节目进行关联的所述关联信息,对与所述通用调用名称一起发送的所述元数据相关联的所述特定节目进行与所述观看者发出的语音相对应的处理。
6.根据权利要求5所述的信息处理装置,
其中,所述信息处理装置被配置为经由网络连接至语音处理设备的服务器,所述语音处理设备被配置为用作所述语音AI辅助服务的用户接口,并且
所述处理单元被配置为调度至与所述元数据相关联的所述特定节目,所述元数据和所述通用调用名称一起从所述语音处理设备发送。
7.根据权利要求6所述的信息处理装置,
其中,所述元数据包括指示所述观看者正在观看的所述内容的频道的频道信息、和指示所述内容的播放时间轴上对应所述观看者的话语的时间的时间信息。
8.根据权利要求1所述的信息处理装置,
其中,所述节目至少包括对哪种语音做出反应、将哪种单词用作参数实现什么功能、和什么服务器设备或处理程序执行功能的信息,并且基于所述信息执行与从被配置用作所述语音AI辅助服务的用户接口的语音处理设备发送的所述观看者发出的语音相对应的处理。
9.根据权利要求3所述的信息处理装置,
其中,所述内容作为符合MPEG-DASH的流经由广播传送,并且
所述特定调用名称使用媒体展现描述经由广播传送。
10.根据权利要求7所述的信息处理装置,
其中,使用HTTP请求将所述频道信息和所述时间信息与所述观看者发出的语音数据一起经由通信发送。
11.根据权利要求1所述的信息处理装置,
其中,所述内容是经由广播传送的广播内容,并且
所述节目是针对每个广播者或广播节目而提供。
12.一种由信息处理装置执行的信息处理方法,所述信息处理方法包括:
由所述信息处理装置在使用与内容协作的语音AI辅助服务时,基于通用调用名称和关联信息,针对所述内容,处理与观看者发出的语音中包含的所述通用调用名称相关联的特定信息,所述通用调用名称对用于执行所述观看者发出的语音相对应的处理的多个节目通用,其中,所述特定信息特定于是每个节目的信息,
其中,
所述关联信息将所述通用调用名称与所述观看者正在观看的节目的特定调用名称相关联,所述特定调用名称特定于所述节目中的每一个并且调用所述观看者正在观看的所述节目的技能,并且所述信息处理装置基于所述关联信息,将所述观看者发出的语音中包含的所述通用调用名称转换为所述特定调用名称。
13.根据权利要求12所述的信息处理方法,包括:
预先记录所述关联信息。
14.根据权利要求12所述的信息处理方法,
其中,所述信息处理装置被配置为接收装置,所述接收装置被配置为接收经由广播传送的内容,以及
从经由广播传送的元数据中获取所述特定调用名称。
15.根据权利要求12所述的信息处理方法,
其中,所述信息处理装置被配置为接收装置,所述接收装置被配置为接收经由广播传送的内容,并且
所述信息处理装置被配置为响应于来自语音处理设备的请求,将所述通用调用名称转换为所述特定调用名称,所述语音处理设备被配置为用作所述语音AI辅助服务的用户接口。
16.根据权利要求12所述的信息处理方法,
其中,所述关联信息是通过将用于指定所述观看者正在观看的所述内容的元数据与特定节目相关联而获得的信息,并且包含在由所述通用调用名称指定的切换节目中,并且
所述信息处理装置被配置为基于通过所述切换节目进行关联的所述关联信息,对与所述通用调用名称一起发送的所述元数据相关联的所述特定节目进行与所述观看者发出的语音相对应的处理。
17.根据权利要求16所述的信息处理方法,
其中,所述信息处理装置被配置为经由网络连接至语音处理设备的服务器,所述语音处理设备被配置为用作所述语音AI辅助服务的用户接口,并且
所述信息处理装置被配置为调度至与所述元数据相关联的所述特定节目,所述元数据和所述通用调用名称一起从所述语音处理设备发送。
18.根据权利要求17所述的信息处理方法,
其中,所述元数据包括指示所述观看者正在观看的所述内容的频道的频道信息、和指示所述内容的播放时间轴上对应所述观看者的话语的时间的时间信息。
19.根据权利要求12所述的信息处理方法,
其中,所述节目至少包括对哪种语音做出反应、将哪种单词用作参数实现什么功能、和什么服务器设备或处理程序执行功能的信息,并且基于所述信息执行与从被配置用作所述语音AI辅助服务的用户接口的语音处理设备发送的所述观看者发出的语音相对应的处理。
20.根据权利要求14所述的信息处理方法,
其中,所述内容作为符合MPEG-DASH的流经由广播传送,并且
所述特定调用名称使用媒体展现描述经由广播传送。
21.根据权利要求18所述的信息处理方法,
其中,使用HTTP请求将所述频道信息和所述时间信息与所述观看者发出的语音数据一起经由通信发送。
22.根据权利要求12所述的信息处理方法,
其中,所述内容是经由广播传送的广播内容,并且
所述节目是针对每个广播者或广播节目而提供。
23.一种发送装置,包括:
生成单元,被配置为在与内容协作的语音AI辅助服务中,在使用通用调用名称和关联信息时,生成包含特定调用名称的元数据,所述通用调用名称作为用于调用节目的调用名称对进行与观看内容的观看者发出的语音相对应的处理的多个节目通用,并且所述特定调用名称针对所述节目中的每一个是特定的;
所述生成单元还被配置为基于所述关联信息,将所述观看者发出的语音中包含的所述通用调用名称转换为所述特定调用名称;以及
发送单元,被配置为发送生成的所述元数据。
24.根据权利要求23所述的发送装置,
其中,所述生成单元通过识别信息生成以能识别的表述描述的媒体展现描述,所述识别信息用于识别所述特定调用名称用于所述语音AI辅助服务,并且
所述发送单元将所述内容与所述媒体展现描述一起作为符合MPEG-DASH的流经由广播传送。
25.一种由发送装置执行的发送方法,所述发送方法包括:
由所述发送装置在与内容协作的语音AI辅助服务中,使用通用调用名称和关联信息时,生成包含特定调用名称的元数据,所述通用调用名称作为用于调用节目的调用名称对进行与观看内容的观看者发出的语音相对应的处理的多个节目通用,并且所述特定调用名称针对所述节目中的每一个是特定的;
由所述发送装置基于所述关联信息,将所述观看者发出的语音中包含的所述通用调用名称转换为所述特定调用名称;以及
由所述发送装置发送生成的所述元数据。
CN201980020092.0A 2018-03-27 2019-03-13 信息处理装置、信息处理方法、发送装置、及发送方法 Active CN111903139B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2018059345 2018-03-27
JP2018-059345 2018-03-27
PCT/JP2019/010147 WO2019188269A1 (ja) 2018-03-27 2019-03-13 情報処理装置、情報処理方法、送信装置、及び送信方法

Publications (2)

Publication Number Publication Date
CN111903139A CN111903139A (zh) 2020-11-06
CN111903139B true CN111903139B (zh) 2024-06-25

Family

ID=68061405

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201980020092.0A Active CN111903139B (zh) 2018-03-27 2019-03-13 信息处理装置、信息处理方法、发送装置、及发送方法

Country Status (6)

Country Link
US (1) US11343588B2 (zh)
EP (1) EP3780641B1 (zh)
JP (1) JP7269221B2 (zh)
KR (1) KR20200135343A (zh)
CN (1) CN111903139B (zh)
WO (1) WO2019188269A1 (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20230094830A (ko) * 2021-12-21 2023-06-28 삼성전자주식회사 전자 장치 및 그 제어 방법

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6741791B1 (en) * 2000-01-31 2004-05-25 Intel Corporation Using speech to select a position in a program
JPWO2004064393A1 (ja) 2003-01-15 2006-05-18 松下電器産業株式会社 放送受信方法、放送受信システム、記録媒体、及びプログラム
US8626511B2 (en) * 2010-01-22 2014-01-07 Google Inc. Multi-dimensional disambiguation of voice commands
JP5903939B2 (ja) 2012-03-08 2016-04-13 ソニー株式会社 受信装置、受信方法、及びプログラム
KR20140004515A (ko) * 2012-07-03 2014-01-13 삼성전자주식회사 디스플레이 장치, 대화형 시스템 및 응답 정보 제공 방법
CN102833633B (zh) * 2012-09-04 2016-01-20 深圳创维-Rgb电子有限公司 一种电视机语音控制系统及方法
KR20140080089A (ko) * 2012-12-20 2014-06-30 삼성전자주식회사 음성인식장치 및 음성인식방법, 음성인식장치용 데이터 베이스 및 음성인식장치용 데이터 베이스의 구축방법
KR20140089876A (ko) * 2013-01-07 2014-07-16 삼성전자주식회사 대화형 인터페이스 장치 및 그의 제어 방법
JP2014153663A (ja) 2013-02-13 2014-08-25 Sony Corp 音声認識装置、および音声認識方法、並びにプログラム
TW201505023A (zh) 2013-07-19 2015-02-01 Richplay Information Co Ltd 個人化語音助理之方法
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
JP5726359B1 (ja) * 2014-09-05 2015-05-27 株式会社電通 テレビ番組関連コンテンツ提供システム、および提供方法
CN116631391A (zh) * 2016-06-27 2023-08-22 亚马逊技术公司 用于将内容路由到相关联输出设备的系统和方法
US10332513B1 (en) * 2016-06-27 2019-06-25 Amazon Technologies, Inc. Voice enablement and disablement of speech processing functionality
US20190034542A1 (en) * 2017-07-26 2019-01-31 Scripps Networks Interactive, Inc. Intelligent agent system and method of accessing and delivering digital files
US11025919B2 (en) * 2017-10-03 2021-06-01 Koninklijke Kpn N.V. Client-based adaptive streaming of nonlinear media

Also Published As

Publication number Publication date
US20210021910A1 (en) 2021-01-21
US11343588B2 (en) 2022-05-24
EP3780641A1 (en) 2021-02-17
JP7269221B2 (ja) 2023-05-08
JPWO2019188269A1 (ja) 2021-03-11
WO2019188269A1 (ja) 2019-10-03
CN111903139A (zh) 2020-11-06
EP3780641B1 (en) 2023-01-25
EP3780641A4 (en) 2021-02-17
KR20200135343A (ko) 2020-12-02

Similar Documents

Publication Publication Date Title
US11676595B2 (en) Information processing device, reception device, and information processing method
US11930248B2 (en) Information processing apparatus, information processing method, transmission apparatus, and transmission method
KR20220053795A (ko) 인공지능 비서 서비스 제공 시스템 및 방법
US12035006B2 (en) Electronic apparatus having notification function, and control method for electronic apparatus
CN111903139B (zh) 信息处理装置、信息处理方法、发送装置、及发送方法
US20210084378A1 (en) Apparatus and system for providing content based on user utterance
JP2009005260A (ja) コンテンツ視聴装置
CN113228166B (zh) 指令控制装置、控制方法及非易失性存储介质
JP7783964B2 (ja) 受信装置及び受信方法
JP2009088627A (ja) 視聴装置、パラメータ管理手段、視聴システム
JP7737586B1 (ja) 受信装置及び受信方法
US20250373875A1 (en) Television and system control method
JP2024035527A (ja) 受信装置、受信方法、及びプログラム
JP2023134110A (ja) 放送システム、受信機、受信方法、及びプログラム
WO2021155812A1 (zh) 接收装置、服务器以及语音信息处理系统
JPWO2019026599A1 (ja) 情報処理装置、情報処理方法、プログラム、および放送装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant