[go: up one dir, main page]

JP2014003609A - ディスプレイ装置、ディスプレイ装置の制御方法、サーバ及びサーバの制御方法 - Google Patents

ディスプレイ装置、ディスプレイ装置の制御方法、サーバ及びサーバの制御方法 Download PDF

Info

Publication number
JP2014003609A
JP2014003609A JP2013125502A JP2013125502A JP2014003609A JP 2014003609 A JP2014003609 A JP 2014003609A JP 2013125502 A JP2013125502 A JP 2013125502A JP 2013125502 A JP2013125502 A JP 2013125502A JP 2014003609 A JP2014003609 A JP 2014003609A
Authority
JP
Japan
Prior art keywords
voice
user
display device
text
server
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2013125502A
Other languages
English (en)
Inventor
Seung-Il Yoon
勝 一 尹
Kishaku Kin
基 錫 金
Sung-Kil Cho
成 吉 趙
Hae-Hyeon Heo
惠 賢 許
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Samsung Electronics Co Ltd
Original Assignee
Samsung Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Samsung Electronics Co Ltd filed Critical Samsung Electronics Co Ltd
Publication of JP2014003609A publication Critical patent/JP2014003609A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/44Receiver circuitry for the reception of television signals according to analogue transmission standards
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/165Management of the audio stream, e.g. setting of volume, audio stream path
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/422Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
    • H04N21/42203Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS] sound input device, e.g. microphone
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/431Generation of visual interfaces for content selection or interaction; Content or additional data rendering
    • H04N21/4312Generation of visual interfaces for content selection or interaction; Content or additional data rendering involving specific graphical features, e.g. screen layout, special fonts or colors, blinking icons, highlights or animations
    • H04N21/4316Generation of visual interfaces for content selection or interaction; Content or additional data rendering involving specific graphical features, e.g. screen layout, special fonts or colors, blinking icons, highlights or animations for displaying supplemental content in a region of the screen, e.g. an advertisement in a separate window
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/441Acquiring end-user identification, e.g. using personal code sent by the remote control or by inserting a card
    • H04N21/4415Acquiring end-user identification, e.g. using personal code sent by the remote control or by inserting a card using biometric characteristics of the user, e.g. by voice recognition or fingerprint scanning
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/16Analogue secrecy systems; Analogue subscription systems
    • H04N7/173Analogue secrecy systems; Analogue subscription systems with two-way working, e.g. subscriber sending a programme selection signal
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Business, Economics & Management (AREA)
  • Marketing (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • User Interface Of Digital Computer (AREA)
  • Telephonic Communication Services (AREA)
  • Information Transfer Between Computers (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Controls And Circuits For Display Device (AREA)

Abstract

【課題】 本発明の目的とするところは、外部のサーバと連動してユーザと対話可能なディスプレイ装置、ディスプレイ装置の制御方法、サーバ及びサーバの制御方法を提供することにある。
【解決手段】 ディスプレイ装置が開示される。本ディスプレイ装置は、ユーザの音声を収集する音声収集部と、ユーザの音声を第1サーバに伝送し、第1サーバからユーザの音声に対応するテキスト情報を受信する第1通信部と、受信されたテキスト情報を第2サーバに伝送し、テキスト情報に対応する応答情報を受信する第2通信部と、応答情報に基づいてユーザの音声に対応する応答メッセージを出力する出力部と、同一の発話意図を有するユーザの音声が再度収集された場合、以前に収集されたユーザの音声に対応する応答メッセージと差別化した応答メッセージを出力するように出力部を制御する制御部とを含む。
【選択図】 図3

Description

本発明は、ディスプレイ装置、ディスプレイ装置の制御方法、サーバ及びサーバの制御方法に関し、より詳細には、サーバと連動してユーザの音声に応じて制御されるディスプレイ装置、ディスプレイ装置の制御方法、サーバ及びサーバの制御方法に関する。
電子技術の発達により、多様な種類のディスプレイ装置が開発及び普及され、ユーザの要求に応じて益々多様な機能を備えるようになった。特に、テレビの場合、最近では、インターネットと接続されてインターネットサービスまでサポートし、ユーザはテレビを通じて多くのデジタル放送チャネルまで視聴できるようになった。
一方、最近はディスプレイ装置をより便利かつ直観的に制御するために、音声認識を用いた技術が開発されている。特に、テレビの場合、ユーザの音声を認識し、音量調節またはチャネル変更のように、ユーザの音声に対応する機能を行うことができるようになった。
しかし、従来のユーザの音声を認識するディスプレイ装置は、認識された音声に対応する機能を提供するだけで、ユーザとの対話を通じてインタラクティブな情報を提供することができないという限界が存在していた。
米国特開第2002−0087321号公報
そこで、本発明は、上記問題に鑑みてなされたものであり、本発明の目的とするところは、外部のサーバと連動してユーザと対話可能なディスプレイ装置、ディスプレイ装置の制御方法、サーバ及びサーバの制御方法を提供することにある。
以上のような目的を達成するための本発明の一実施形態に係るディスプレイ装置は、ユーザの音声を収集する音声収集部と、前記ユーザの音声を第1サーバに伝送し、前記第1サーバから前記ユーザの音声に対応するテキスト情報を受信する第1通信部と、前記受信されたテキスト情報を第2サーバに伝送し、前記テキスト情報に対応する応答情報を受信する第2通信部と、前記応答情報に基づいて前記ユーザの音声に対応する応答メッセージを出力する出力部と、同一の発話意図を有するユーザの音声が再度収集された場合、以前に収集されたユーザの音声に対応する応答メッセージと差別化した応答メッセージを出力するように前記出力部を制御する制御部とを含む。
ここで、前記第2サーバは、前記テキスト情報を分析してユーザの音声に含まれた発話意図を判断し、前記判断された発話意図に対応する応答情報を前記ディスプレイ装置に伝送してよい。
なお、前記第2サーバは、連続的に受信された第1及び第2テキスト情報に含まれた発話意図が同一である場合、第1テキスト情報に対応する応答情報と差別化するように第2テキスト情報に対応する応答情報を生成して前記ディスプレイ装置に伝送してよい。
そして、前記制御部は、前記第2テキスト情報に対応する応答情報に基づいて、再度受信されたユーザの音声に対応する応答メッセージを音声及びテキストで前記出力部を介して出力してよい。
なお、前記制御部は、前記第2テキスト情報に対応する応答情報に基づいて、前記ディスプレイ装置から出力されるコンテンツに対するオーディオ音量を、前記応答メッセージで出力される音声に対する音量より相対的に低く出力するように前記出力部を制御してよい。
そして、前記制御部は、前記第2テキスト情報に対応する応答情報に基づいて、再度受信されたユーザの音声に対応する応答メッセージを、予め設定されたキーワードがハイライトされたテキストで前記出力部を介して出力してよい。
一方、本発明の一実施形態に係るディスプレイ装置と連動するサーバは、前記ディスプレイ装置から収集したユーザの音声に対応するテキスト情報を受信する通信部と、前記テキスト情報を分析して前記ユーザの音声に含まれた発話意図を判断し、前記判断された発話意図に対応する応答情報を前記ディスプレイ装置に伝送するように前記通信部を制御する制御部とを含み、前記制御部は、第1及び第2テキスト情報に含まれた発話意図が同一である場合、前記第2テキスト情報に対応する応答情報を、前記第1テキスト情報に対応する応答情報と差別化するように生成して前記ディスプレイ装置に伝送する。
ここで、前記ディスプレイ装置は、前記応答情報に基づいて、前記ユーザの音声に対応する応答メッセージを音声及びテキストのうち少なくとも一方で出力してよい。
なお、前記制御部は、前記第1及び第2テキスト情報が連続的に受信された場合、前記ディスプレイ装置から音声またはテキストで前記応答メッセージを出力するように前記第1テキスト情報に対応する応答情報を生成し、前記ディスプレイ装置から音声及びテキストで前記応答メッセージを出力するように前記第2テキスト情報に対応する応答情報を生成してよい。
そして、前記制御部は、前記第1及び第2テキスト情報が連続的に受信された場合、前記ディスプレイ装置から出力されるコンテンツに対するオーディオ音量が、前記応答メッセージで出力される音声に対する音量より相対的に低く出力されるように前記第2テキスト情報に対応する応答情報を生成してよい。
なお、前記制御部は、前記第1及び第2テキスト情報が連続的に受信された場合、前記ディスプレイ装置からテキストで前記応答メッセージを出力するように前記第1テキスト情報に対応する応答情報を生成し、前記ディスプレイ装置から予め設定されたキーワードがハイライトされたテキストで前記応答メッセージを出力するように前記第2テキスト情報に対応する応答情報を生成してよい。
一方、本発明の一実施形態に係るディスプレイ装置の制御方法は、ユーザの音声を収集するステップと、前記ユーザの音声を第1サーバに伝送し、前記第1サーバから前記ユーザの音声に対応するテキスト情報を受信するステップと、前記受信されたテキスト情報を第2サーバに伝送し、前記テキスト情報に対応する応答情報を受信するステップと、同一の発話意図を有するユーザの音声が再度収集された場合、前記応答情報に基づいて、以前に収集されたユーザの音声に対応する応答メッセージと差別化した応答メッセージを出力する出力ステップとを含む。
ここで、前記第2サーバは、前記テキスト情報を分析してユーザの音声に含まれた発話意図を判断し、前記判断された発話意図に対応する応答情報を前記ディスプレイ装置に伝送してよい。
なお、前記第2サーバは、連続的に受信された第1及び第2テキスト情報に含まれた発話意図が同一である場合、第1テキスト情報に対応する応答情報と差別化するように第2テキスト情報に対応する応答情報を生成して前記ディスプレイ装置に伝送してよい。
そして、前記出力ステップは、前記第2テキスト情報に対応する応答情報に基づいて、再度受信されたユーザの音声に対応する応答メッセージを音声及びテキストで出力してよい。
なお、前記出力ステップは、前記第2テキスト情報に対応する応答情報に基づいて、前記ディスプレイ装置から出力されるコンテンツに対するオーディオ音量を、前記応答メッセージで出力される音声に対する音量より相対的に低く出力してよい。
そして、前記出力ステップは、前記第2テキスト情報に対応する応答情報に基づいて、再度受信されたユーザの音声に対応する応答メッセージを、予め設定されたキーワードがハイライトされたテキストで出力してよい。
一方、本発明の一実施形態に係るディスプレイ装置と連動するサーバの制御方法は、前記ディスプレイ装置から収集したユーザの音声に対応するテキスト情報を受信するステップと、前記テキスト情報を分析して前記ユーザの音声に含まれた発話意図を判断するステップと、第1及び第2テキスト情報に含まれた発話意図が同一である場合、前記第2テキスト情報に対応する応答情報を、前記第1テキスト情報に対応する応答情報と差別化するように生成して前記ディスプレイ装置に伝送するステップとを含んでよい。
ここで、前記ディスプレイ装置は、前記応答情報に基づいて、前記ユーザの音声に対応する応答メッセージを音声及びテキストのうち少なくとも一方で出力してよい。
なお、前記伝送するステップは、前記第1及び第2テキスト情報が連続的に受信された場合、前記ディスプレイ装置から音声またはテキストで前記応答メッセージを出力するように前記第1テキスト情報に対応する応答情報を生成し、前記ディスプレイ装置から音声及びテキストで前記応答メッセージを出力するように前記第2テキスト情報に対応する応答情報を生成してよい。
そして、前記伝送するステップは、前記第1及び第2テキスト情報が連続的に受信された場合、前記ディスプレイ装置から出力されるコンテンツに対するオーディオ音量が、前記応答メッセージで出力される音声に対する音量より相対的に低く出力されるように前記第2テキスト情報に対応する応答情報を生成してよい。
なお、前記伝送するステップは、前記第1及び第2テキスト情報が連続的に受信された場合、前記ディスプレイ装置からテキストで前記応答メッセージを出力するように前記第1テキスト情報に対応する応答情報を生成し、前記ディスプレイ装置から予め設定されたキーワードがハイライトされたテキストで前記応答メッセージを出力するように前記第2テキスト情報に対応する応答情報を生成してよい。
以上説明したように、本発明によれば、ユーザと対話可能なディスプレイ装置を提供できるため、ユーザの便宜性を向上させることができる。なお、同一の発話意図を有するユーザの音声が再度収集された場合、ディスプレイ装置は以前と違って、ユーザ音声に対する応答メッセージを出力するため、ユーザの理解度を向上させることができる。
本発明の一実施形態に係る対話型システムを説明するための図である。 図1に示す対話型システムの各動作を説明するためのタイミング図である。 図1に示すディスプレイ装置の構成を説明するためのブロック図である。 図3に示すディスプレイ装置の細部構成を説明するためのブロック図である。 図1に示す第1サーバの構成を説明するためのブロック図である。 図1に示す第2サーバの構成を説明するためのブロック図である。 図6に示す第2サーバの細部構成を説明するためのブロック図である。 本発明の一実施形態に係る対話型システムの動作を説明するための図である。 本発明の一実施形態に係る対話型システムの動作を説明するための図である。 本発明の一実施形態に係る対話型システムの動作を説明するための図である。 本発明の一実施形態に係るディスプレイ装置の制御方法を説明するためのフローチャートである。 本発明の一実施形態に係るディスプレイ装置と連動するサーバの制御方法を説明するためのフローチャートである。
以下に添付図面を参照しながら、本発明の好適な実施形態について詳細に説明する。
図1は、本発明の一実施形態に係る対話型システムを説明するための図である。同図に示すように、対話型システムは、ディスプレイ装置100と、第1サーバ200及び第2サーバ300を含む。ディスプレイ装置100は、同図に示すように、スマートテレビであってよいが、それは一実施形態に過ぎず、スマートフォンのような携帯電話、デスクトップパソコン、ノートパソコン、ナビゲーション等のような多様な電子装置で実現されてよい。
一方、ディスプレイ装置100は、ディスプレイ装置100を制御するための遠隔制御装置(図示せず)によって制御されてよい。例えば、ディスプレイ装置100がテレビで実現された場合、リモコン(図示せず)から受信された制御信号に応じて電源オン/オフ、チャネル変換、音量変更等の動作を行うことができる。
ディスプレイ装置100は、収集されたユーザの音声を第1サーバ200に伝送する。第1サーバ200は、ディスプレイ装置100からユーザの音声が受信されると、受信されたユーザの音声をテキスト情報(または、テキスト)に変換し、テキスト情報をディスプレイ装置100に伝送する。
そして、ディスプレイ装置100は、第1サーバ200から受信されたテキスト情報を第2サーバ300に伝送する。ディスプレイ装置100からテキスト情報が受信されると、第2サーバ300は、受信されたテキスト情報に対応する応答情報を生成してディスプレイ装置100に伝送する。
ディスプレイ装置100は、第2サーバ300から受信された応答情報に基づいて、多様な動作を行うことができる。例えば、ディスプレイ装置100は、ユーザの音声に対応する応答メッセージを出力することができる。ここで、応答メッセージは、音声及びテキストのうち少なくとも一方で出力されてよい。具体的に、ディスプレイ装置100は、放送番組の放送時間を問い合わせるユーザの音声が入力されると、該当放送番組の放送時間を音声またはテキストで出力したり、これらの組み合わせで出力してよい。
なお、ディスプレイ装置100は、ユーザの音声に対応する機能を行うことができる。例えば、ディスプレイ装置100は、チャネル変更のためのユーザの音声が入力されると、当該チャネルを選局してディスプレイすることができる。この場合、ディスプレイ装置100は、当該機能に対応する応答メッセージを併せて提供することもできる。上述の例の場合、ディスプレイ装置100は、変更されたチャネルに対する情報またはチャネル変更が完了していることを示すメッセージを、音声及びテキストのうち少なくとも一方で出力することができる。
特に、ディスプレイ装置100は、同一の発話意図を有するユーザの音声が再度収集された場合、以前に収集されたユーザの音声に対応する応答メッセージと差別化した応答メッセージを出力することができる。すなわち、上述の例において、放送番組の放送時間を問い合わせるユーザの音声が入力された後、同一の放送番組の放送時間を問い合わせるユーザの音声が再度入力された場合、ディスプレイ装置100は多様な方式を通じて以前とは異なる形態で当該放送番組放送時間を出力することができる。
図2は、図1に示す対話型システムの各動作を説明するためのタイミング図である。
同図に示すように、ディスプレイ装置100は、ユーザ音声を収集し(S11)、第1サーバ200に伝送する(S12)。具体的に、ユーザ音声を収集するためのモードが開始されると、ディスプレイ装置100は予め設定された距離内において、ユーザが発話した音声を収集して第1サーバ200に伝送することができる。
そのために、ディスプレイ装置100は、ユーザが発話した音声を受信するためのマイク等を備えてよい。この場合、マイクは、ディスプレイ装置100に内蔵されて一体型をなすか、ディスプレイ装置100と分離した形態で実現されてよい。分離した形態で実現される場合、マイクはユーザが手で握る形態、または食卓やテーブルに置かれる形態で実現されてよく、ディスプレイ装置100と有線または無線ネットワークを通じて接続されてよい。
第1サーバ200は、ディスプレイ装置100から受信されたユーザ音声をテキスト情報に変換する(S13)。具体的に、第1サーバ200は、STT(Speech to Text)アルゴリズムを用いて、ディスプレイ装置100から受信されたユーザの音声をテキスト情報に変換することができる。そして、第1サーバ200は、テキスト情報をディスプレイ装置100に伝送する(S14)。
ディスプレイ装置100は、第1サーバ200から受信されたテキスト情報を第2サーバ300に伝送する(S15)。
第2サーバ300は、ディスプレイ装置100からテキスト情報が受信されると、テキスト情報に対応する応答情報を生成し(S16)、ディスプレイ装置100に応答情報を伝送する(S17)。
ここで、応答情報は、ディスプレイ装置100から応答メッセージを出力するための応答メッセージ情報を含む。応答メッセージは、ディスプレイ装置100から収集されたユーザの音声に対応する回答として、応答メッセージ情報はユーザの音声に対してディスプレイ装置100から出力される応答メッセージがテキスト形式で表現されたものであってよい。それにより、ディスプレイ装置100は、応答メッセージ情報に基づいてユーザの音声に対応する応答メッセージを音声及びテキストのうち、少なくとも一方で出力することができる。なお、応答情報は、ディスプレイ装置100でユーザ音声に対応する機能を実行するための制御命令を更に含んでよい。
一方、ディスプレイ装置100は、受信された応答情報に基づいて、ユーザの音声に対応する動作を行う(S18)。
具体的に、ディスプレイ装置100は応答情報に含まれた応答メッセージ情報に基づいて、ユーザの音声に対応する応答メッセージを出力することができる。すなわち、ディスプレイ装置100は、第2サーバ300からテキスト形式の応答メッセージ情報が受信されると、TTS(Text to Speech)アルゴリズムを用いてテキストを音声に変換して出力したり、応答メッセージ情報を構成するテキストが含まれるように、UI(User Interface)画面を構成して出力することができる。
例えば、ディスプレイ装置100で“○○○(放送番組名)は何時から?”というユーザ音声が収集された場合、第2サーバ300は、“土曜日の夕方7時からです”というテキスト形式の応答メッセージ情報をディスプレイ装置100に伝送することができる。それにより、ディスプレイ装置100は、“土曜日の夕方7時からです”という応答メッセージを音声及びテキストのうち、少なくとも一方で出力することができる。
なお、ディスプレイ装置100は、応答情報に含まれた制御命令に従って、ユーザ音声に対応する機能を行うように制御することができる。例えば、“ディスプレイ装置100で○○○(放送番組名)を録画して”というユーザの音声が収集された場合、第2サーバ300は“○○○”の予約録画機能を行うための制御命令をディスプレイ装置100に伝送することができる。それにより、ディスプレイ装置100は、当該放送番組に対する予約録画を行うことができる。
この場合、応答情報は、ディスプレイ装置100で実行される機能に対応する応答メッセージ情報を更に含んでよい。すなわち、上述の例において、第2サーバ300は、“○○○の録画が予約されました”というテキスト形式の応答メッセージ情報をディスプレイ装置100に制御命令とともに伝送し、ディスプレイ装置100は予約録画機能の実行とともに、“○○○の録画が予約されました”という応答メッセージを音声及びテキストのうち、少なくとも一方で出力することができる。
一方、ディスプレイ装置100は、ユーザの音声が再度収集されると(S19)、それを第1サーバ200に伝送し(S20)、第1サーバ200は、ディスプレイ装置100から受信されたユーザ音声をテキスト情報に変換する(S21)。
その後、第1サーバ200が、テキスト情報をディスプレイ装置100に伝送すると(S22)、ディスプレイ装置100は、受信されたテキスト情報を第2サーバ300に伝送する(S23)。
一方、第2サーバ300は、ディスプレイ装置100からテキスト情報が受信されると、テキスト情報に対応する応答情報を生成し(S24)、ディスプレイ装置100に伝送する(S25)。
このとき、第2サーバ300は、現在受信されたテキスト情報に含まれたユーザの発話意図が以前に受信されたテキスト情報に含まれたユーザの発話意図と同一ではない場合、以前と同一の方式で応答情報を生成してディスプレイ総理100に伝送する。
しかし、第2サーバ300は、現在受信されたテキスト情報に含まれたユーザの発話意図が以前に受信されたテキスト情報に含まれたユーザの発話意図と同一である場合、以前に生成された応答情報と差別化するように現在受信されたテキスト情報に対応する応答情報を生成してディスプレイ装置100に伝送する。
例えば、“現在放送中の番組の名前は何?”というユーザ音声が入力された後、それと同様の発話意図を有するユーザ音声が入力された場合を仮定する。ここで、同一の発話意図を有するユーザ音声は、“現在放送中の番組の名前は何?”のように、以前と同一のユーザ音声及び“何?”または“もう一度言ってくれる?”等のように、以前と同様の回答を誘導できるユーザ音声を含む。
この場合、第2サーバ300は、ディスプレイ装置100で“お問い合わせの放送番組は○○○(放送番組名)です”という応答メッセージが音声及びテキストで出力されるように応答情報を生成したり、ディスプレイ装置100で放送番組のタイトルがハイライトされた“お問い合わせの放送番組は○○○です”という応答メッセージがテキストで出力されるように応答情報を生成することができる。なお、ディスプレイ装置100でコンテンツを再生している場合、第2サーバ300は、ディスプレイ装置100から出力されるコンテンツのオーディオ音量が応答メッセージで出力される音声の音量より低く出力されるようにする制御命令を生成することができる。
一方、ディスプレイ装置100は、応答情報に基づいてユーザ音声に対応する動作を行う(S26)。特に、同一の発話意図を有するユーザの音声が再度収集された場合、以前ユーザの音声に対応する応答メッセージと区別できるように、現在ユーザの音声に対応する応答メッセージが多様な形態で出力することができる。
具体的に、ディスプレイ装置100は、応答メッセージを音声及びテキストで出力したり、予め設定されたキーワードがハイライトされたテキストで出力したり、応答メッセージで出力される音声の音量をディスプレイ装置100から出力されるコンテンツのオーディオ音量より高く出力することができる。
図3は、図1に示すディスプレイ装置の構成を説明するためのブロック図である。同図に示すように、ディスプレイ装置100は、音声収集部110と、第1通信部120と、第2通信部130と、出力部140及び制御部150を含む。
音声収集部110は、ユーザの音声を収集する。例えば、音声収集部110は、ユーザの音声を収集するためのマイクで実現され、ディスプレイ装置100に内蔵されて一体型をなすか、ディスプレイ装置100と分離された形態で実現されてよい。分離された形態で実現される場合、音声収集部110は、ユーザが手で握る形態、または食卓やテーブルに置かれる形態で実現されてよく、ディスプレイ装置100と有線または無線ネットワークを通じて接続されて収集されたユーザの音声をディスプレイ装置100に伝送することができる。
一方、音声収集部110は、収集された音声がユーザの音声かを判断し、ユーザの音声からノイズ(例えば、エアコンの音や掃除機の音、音楽の音等)をフィルタリングすることもできる。
例えば、音声収集部110は、アナログ形態のユーザ音声が入力されると、それをサンプリングしてデジタル信号に変換する。そして、音声収集部110は、変換されたデジタル信号のエネルギーを計算し、デジタル信号のエネルギーが予め設定された値以上であるか否かを判断する。
デジタル信号のエネルギーが予め設定された値以上である場合、音声収集部110はデジタル信号からノイズ成分を除去し、第1通信部120に伝達する。このとき、ノイズ成分は、家庭環境で発生し得る突発性雑音として、エアコンの音や掃除機の音、音楽の音等が含まれてよい。一方、デジタル信号のエネルギーが予め設定された値未満である場合、音声収集部110はデジタル信号に特別な処理過程を経ずに、別の入力を待つ。
それにより、ユーザの音声ではない別の音によって全オーディオ処理過程が活性化しないため、無駄な電力消耗を防止することができる。
第1通信部120は、第1サーバ(図1の200)と通信を行う。具体的に、第1通信部120は、ユーザの音声を第1サーバ200に伝送し、ユーザの音声に対応するテキスト情報を第1サーバ200から受信することができる。
第2通信部130は、第2サーバ(図1の300)と通信を行う。具体的に、第2通信部130は、受信されたテキスト情報を第2サーバ300に伝送し、テキスト情報に対応する応答情報を第2サーバ300から受信することができる。
そのために、第1通信部120及び第2通信部130は、多様な通信方式を用いて第1サーバ200及び第2サーバ300と通信を行うことができる。
例えば、第1通信部120及び第2通信部130は、有/無線LAN(Local Area Network)、WAN、イーサネット(登録商標)、ブルートゥース(Bluetooth(登録商標))、Zigbee(登録商標)、USB(Universal Serial Bus)、IEEE 1394、Wi−Fi等を用いて、第1サーバ200及び第2サーバ300と通信を行うことができる。そのために、第1通信部120及び第2通信部130は、各通信方式に対応するチップまたは入力ポート等を具備することができる。例えば、有線LAN方式で通信を行う場合、第1通信部120及び第2通信部130は、有線LANカード(図示せず)及び入力ポート(図示せず)を備えてよい。
一方、上述の実施形態では、ディスプレイ装置100が第1サーバ200及び第2サーバ300と通信を行うために、別途の通信部120、130を備えるものとして説明したが、それは一例に過ぎない。すなわち、ディスプレイ装置100は一つの通信モジュールを通じて第1サーバ200及び第2サーバ300と通信を行うことができることは言うまでもない。
出力部140は、応答情報に基づいて、ユーザの音声に対応する応答メッセージを出力することができる。具体的に、出力部140は、応答メッセージを音声及びテキストのうち、少なくとも一方の形態で出力することができ、そのために、ディスプレイ部(図示せず)及びオーディオ出力部(図示せず)を備えてよい。
具体的に、ディスプレイ部(図示せず)は、液晶表示装置(Liquid Crystal Display:LCD)、有機電気発光ダイオード(Organic Light Emitting Display:OLED)またはプラズマ表示パネル(Plasma Display Panel:PDP)等で実現され、ディスプレイ装置100を介して提供可能な多様なディスプレイ画面を提供することができる。特に、ディスプレイ部(図示せず)は、ユーザの音声に対応する応答メッセージをテキストまたはイメージ形態でディスプレイすることができる。
ここで、ディスプレイ部(図示せず)がタッチパッドとともに相互レイヤ構造をなすタッチスクリーン形態で実現されてよく、タッチスクリーンはタッチ入力位置、面積、タッチ入力の圧力までも検出するように構成されてよい。
一方、オーディオ出力部(図示せず)は、ジャック等のような出力ポートまたはスピーカ等で実現され、ユーザ音声に対応する応答メッセージを音声で出力することができる。
制御部150は、ディスプレイ装置100の動作全般を制御する。具体的に、制御部150は、音声収集部110を介してユーザの音声を収集し、収集されたユーザの音声を第1サーバ200に伝送するように第1通信部120を制御することができる。そして、制御部150は、ユーザの音声に対応するテキスト情報を受信するように、第1通信部120を制御することができる。
一方、制御部150は、テキスト情報に対応する応答情報が第2サーバ300から受信されると、応答情報に基づいてユーザの音声に対応する応答メッセージを出力するように出力部140を制御することができる。
ここで、応答情報は、応答メッセージを出力するための応答メッセージ情報を含んでよい。応答メッセージ情報は、ユーザの音声に対してディスプレイ装置100から出力される応答メッセージがテキスト形式で表現されたものとして、制御部150は応答メッセージ情報に基づいて、ユーザの音声に対応する応答メッセージを音声及びテキストのうち、少なくとも一方の形態で出力部140を介して出力することができる。
具体的に、制御部150は、TTSエンジンを用いて、テキスト形態の応答メッセージ情報を音声に変換して出力部140を介して出力することができる。ここで、TTSエンジンとは、テキストを音声に変換するためのモジュールとして、従来開示されている多様なTTSアルゴリズムを用いてテキストを音声に変換することができる。なお、制御部150は、応答メッセージ情報を構成するテキストを含むように、UI画面を構成して出力部140を介して出力することもできる。
例えば、テレビで実現されたディスプレイ装置100が“一番人気のある番組名を教えて”というユーザの音声を収集すると、第2サーバ300は“一番人気のある番組は○○○(放送番組名)です”をテキスト形式で表現してディスプレイ装置100に伝送することができる。この場合、制御部150は、“一番人気のある番組は○○○(放送番組名)です”を音声に変換して出力部140を介して出力したり、“一番人気のある番組は○○○(放送番組名)です”というテキストが含まれるように、UI画面を構成して出力部140を介して出力するように制御することができる。
このように、制御部150は、ディスプレイ装置100で別途の機能を実行することなく、ユーザ音声に対応する応答メッセージを出力する場合は、ユーザの音声がディスプレイ装置100で実行できない機能を実行させようとする意味を含んだり、回答を要求する質問である場合を挙げることができる。
例えば、ディスプレイ装置100がスマートテレビで実現され、“XXXに電話をかけて”というユーザ音声が入力されたが、スマートテレビでテレビ電話機能をサポートしていない場合、制御部150は、別途の機能を実行することなく、第2サーバ300から受信された応答メッセージ情報に基づいて“サポートされていない機能です”という応答メッセージを出力部140を介して音声及びテキストのうち少なくとも一方で出力することができる。なお、ディスプレイ装置100がスマートテレビで実現され、“最近一番人気のある番組名を教えて”というユーザ音声が入力されると、制御部150は別途の機能を実行することなく、第2サーバ300から受信された応答メッセージ情報に基づいて“一番人気のある番組は○○○(放送番組名)です”という応答メッセージを、出力部140を介して音声及びテキストのうち少なくとも一方で出力することができる。
一方、応答情報は、ディスプレイ装置100の機能を制御するための制御命令を更に含んでよい。ここで、制御命令は、ディスプレイ装置100で実行可能な機能のうち、ユーザの音声に対応する機能を実行するための命令を含んでよい。これにより、制御部150は、第2サーバ300から受信された制御命令に基づいてディスプレイ装置100の製品種類に応じて、ディスプレイ装置100で実行可能な特定機能を実行するようにディスプレイ装置100の各構成要素を制御することができる。
例えば、テレビで実現されたディスプレイ装置100が、“テレビの音量を上げて”というユーザ音声を収集すると、第2サーバ300はディスプレイ装置100の音量を上げるための制御命令をディスプレイ装置100に伝送することができる。この場合、制御部150は、制御命令に基づいて出力部140を介して出力されるオーディオの音量を上げることができる。ただ、それは一例に過ぎず、制御部150は、収集されたユーザの音声に応じて、電源オン/オフ、チャネル変更等の多様な動作が行われるように、ディスプレイ装置100の各構成要素を制御することができる。
なお、応答情報は、ディスプレイ装置100の機能を制御するための制御命令及び制御命令に従って実行された特定機能に関連する応答メッセージ情報を含んでよい。この場合、制御部150は、制御命令による機能を行い、それに関連した応答メッセージを音声及びテキストのうち、少なくとも一方で出力部140を介して出力することができる。
例えば、ユーザの音声がディスプレイ装置100で実行できる機能を実行させようとする意味を含むと、制御部150は、第2サーバ300から受信された制御命令に従ってユーザが意図する機能を実行し、応答メッセージ情報に基づいて実行された機能に関連したメッセージを音声及びテキストのうち少なくとも一方で出力することができる。例えば、ディスプレイ装置100がスマートテレビで実現され、“チャネルを11番に変更して”というユーザ音声が入力されると、制御部150は、チャネルを11番に変更するための制御命令に従ってチャネル11番を選局し、応答メッセージ情報に基づいて、“チャネルを11番に変更しました”または“チャネル変更が完了しました”という応答メッセージを音声及びテキストのうち少なくとも一方で出力部140を介して出力することができる。
一方、制御部150は、同様の発話意図を有するユーザの音声が再度収集された場合、以前に収集されたユーザの音声に対応する応答メッセージと差別化した応答メッセージを出力するように出力部140を制御することができる。
ここで、同様の発話意図を有するユーザの音声とは、以前に収集したユーザの音声と同一のユーザの音声及び以前に収集されたユーザの音声と同一の回答を誘導するためのユーザの音声を含んでよい。例えば、以前に収集されたユーザの音声が“現在放送中の番組は何時に終わる?”である場合、同様の発話意図を有するユーザ音声は以前と同一の“現在放送中の番組は何時に終わる?”または“何?”、“何時に?”、“もう一度言って”のような以前のユーザ音声と同一の回答を誘導できるユーザ音声を含んでよい。
すなわち、制御部150は、以前に収集されたユーザの音声と同一の意図を有する音声が再度収集されると、以前に収集されたユーザの音声に対して出力されていた応答メッセージとは異なるように、現在収集されたユーザの音声に対する応答メッセージを出力することができる。
以下では、以前に収集されたユーザの音声がテキストに変換されたものを第1テキスト情報とし、以前に収集されたユーザの音声と同一の発話意図を有し、その以後に収集されたユーザの音声がテキストに変換されたものを第2テキスト情報とする。
この場合、第1テキスト情報と第2テクスト情報とは、ディスプレイ装置100から連続的に収集された音声がそれぞれ変換されてテキストであってよい。すなわち、ディスプレイ装置100からユーザの音声を収集して、それに対応する応答メッセージを出力した後、その次に収集されたユーザの音声が同様の発話意図を有する場合、順次に受信された各ユーザの音声の変換されたテキストが、第1テキスト情報と第2テキスト情報であってよい。
ただ、第1テキスト情報と第2テキスト情報とは、必ずしも連続的に収集された音声が変換されたテキストに限定される必要はない。すなわち、以前に収集されたユーザの音声と同一のユーザの音声が受信される場合には、当該ユーザの音声が連続的に受信されなくても、同様の発話意図を有するユーザの音声と見なすことができるため、各ユーザの音声の変換されたテキストが、第1及び第2テキスト情報であってよい。
一方、制御部150は、第2テキスト情報に対応する応答情報に基づいて、再度受信されたユーザの音声に対応する応答メッセージを音声及びテキストで出力部140を介して出力することができる。
すなわち、制御部150は、第1テキスト情報に対応する応答メッセージ情報が第2サーバ300から受信され、以前収集されたユーザの音声に対応する応答メッセージを音声またはテキストで出力した場合、第2テキスト情報に対応する応答メッセージ情報を第2サーバ300から受信し、現在収集されたユーザの音声に対応する応答メッセージを音声及びテキストで出力することができる。
例えば、以前に収集されたユーザの音声が“現在放送中の番組の名前は何?”である場合を仮定する。この場合、制御部150は、第2サーバ300から受信された応答メッセージ情報に基づいて、“お問い合わせの番組の名前は○○○(放送番組名)です”という応答メッセージを出力部140を介して音声で出力することができる。その後、“現在放送中の番組の名前は何?”または“何?”、“もう一度言って”等のように、以前収集されたユーザの音声と同様の発話意図を有するユーザの音声が受信されると、制御部150は、第2サーバ300から受信された制御命令及び応答メッセージ情報に基づいて、“お問い合わせの番組の名前は○○○です”という応答メッセージを出力部140を介して音声及びテキストで出力することができる。ここで、制御命令は、ディスプレイ装置100で応答メッセージが音声及びテキストの両方で出力されるようにする命令であってよい。
なお、制御部150は、第2テキスト情報に対応する応答情報に基づいて、ディスプレイ装置100から出力されるコンテンツに対するオーディオ音量を応答メッセージで出力される音声に対する音量より相対的に低く出力するように出力部140を制御することができる。ここで、コンテンツは、放送コンテンツ、各種マルチメディアコンテンツ等を含んでよい。
具体的に、制御部150は、第2サーバ300から受信された制御命令に基づいてコンテンツの音量を予め設定されたレベルに下げたり、音声で出力される応答メッセージの音量を予め設定されたレベルに上げて、コンテンツのオーディオより応答メッセージで出力される音声を相対的に高い音量で出力することができる。このように、制御部150は、応答メッセージで出力される音声の音量をコンテンツのオーディオ音量より相対的に高く出力するために、コンテンツ音量または応答メッセージの音量を調節することができる。なお、制御部150は、応答メッセージで出力される音声の音量及びコンテンツのオーディオ音量の両方を調節することもできる。例えば、制御部150は、コンテンツの音量を予め設定されたレベルに下げ、コンテンツのオーディオ音量より予め設定されたレベルだけ高いレベルで応答メッセージで出力される音声を出力することができる。
なお、制御部150は、第2テキスト情報に対応する応答情報に基づいて、再度受信されたユーザの音声に対応する応答メッセージを予め設定されたキーワードがハイライトされたテキストで出力部140を介して出力することができる。
ここで、ハイライトされて表示されるキーワードは、ユーザの発話意図に応じて異なってよい。例えば、制御部150は、ユーザの発話意図が特定の放送番組のタイトルを問い合わせるものなら、放送番組のタイトルをハイライトさせて出力し、ユーザの発話意図が特定の放送番組の開始時間を問い合わせるものなら、番組の開始時間をハイライトさせて出力することができる。
例えば、以後に収集されたユーザの音声が“現在放送中の番組の終了時間は何時?”という場合を仮定する。この場合、制御部150は、第2サーバ300から受信された応答メッセージ情報に基づいて、“お問い合わせの番組の終了時間はXX時XX分です”という応答メッセージを出力部140を介してテキストで出力する一方で、“XX時XX分”をハイライトさせて出力することができる。
しかし、それは一例に過ぎず、制御部150は、多様な方式で予め設定されたキーワードを他のキーワードと区分させることができる。すなわち、制御部150は、キーワードを別のテキストより大きく表示したり、色を変えて出力することもできる。
一方、上述の実施形態では、第2サーバ300から伝送される応答メッセージ情報は、応答メッセージがテキスト形式で表現されたものとして説明したが、それは一例に過ぎない。すなわち、応答メッセージ情報は、ディスプレイ装置100から出力される応答メッセージを構成する音声データそのものか、当該応答メッセージを構成する音声データの一部か、ディスプレイ装置100に予め保存された音声またはテキストを用いて、当該応答メッセージを出力するための制御信号の形態であってよい。
それにより、制御部150は、応答メッセージ情報の形態を考慮し、応答メッセージを出力することができる。具体的に、制御部150は、応答メッセージを構成する音声データそのものが受信されると、当該データを出力部140から出力可能な形態で処理して出力することができる。
一方で、制御部150は、応答メッセージを出力するための制御信号が受信されると、ディスプレイ装置100に予め保存されたデータのうち、制御信号にマッチするデータを検索し、検索された音声またはテキストデータを出力可能な形態で処理して、出力部140を介して出力することができる。そのために、ディスプレイ装置100は、機能実行に関連した応答メッセージを提供するための音声またはテキストデータ、情報提供要請に関連した音声またはテキストデータ等を保存していることができる。例えば、ディスプレイ装置100は、“チャネル変更が完了しました”といった完全な文章形態のデータを保存していてよく、なお、“チャネルを・・番に変更しました”のような文章を構成する一部データを保存していてよい。この場合、当該文章を完成させるチャネル名は第2サーバ300から受信されてよい。
図4は、図3に示すディスプレイ装置の細部構成を説明するためのブロック図である。同図に示すように、ディスプレイ装置100は、図3に示す構成要素の他に、入力部160と、保存部170と、受信部180及び信号処理部190を更に含んでよい。図4に示す構成要素のうち、図3に示す構成要素と重複する構成要素は、その機能が同一であるため、詳細な説明は省略する。
入力部160は、多様なユーザ操作を受信して制御部150に伝達するための入力手段として、入力パネルで実現されてよい。ここで、入力パネルは、タッチパッド(Touch Pad)或いは各種機能キーや数字キー、特殊キー、文字キー等を備えたキーパッド(Key Pad)またはタッチスクリーン(Touch Screen)方式で行われてよい。更に、入力部160は、ディスプレイ装置100を制御するためのリモコンから伝送されるリモコン信号を受信するためのIR受信部(図示せず)で実現されてよい。
一方、入力部160は、ディスプレイ装置100の機能を制御するための各種ユーザ操作を受信することができる。例えば、ディスプレイ装置100がスマートテレビで実現される場合、電源オン/オフ、チャネル変更、音量変更等、スマートテレビの機能を制御するためのユーザ操作を受信することができる。この場合、制御部150は、入力部160を介して入力されたユーザ操作に対応する各種機能を実行するように別の構成要素を制御することができる。例えば、制御部150は、電源オフ命令が入力されると、ディスプレイ装置100の各構成要素に供給される電源を遮断することができ、チャネル変更が入力されると、ユーザ操作に応じて選択されたチャネルを選局するように、受信部180を制御することができる。
特に、入力部160は、ユーザの音声を収集するための音声認識モードを開始するためのユーザ操作を入力される。例えば、入力部160は、ディスプレイ部とともにタッチスクリーン形態で実現され、音声認識モードを入力されるためのオブジェクト(仮に、アイコン)をディスプレイすることができる。一方で、入力部160は、音声認識モードを入力されるための別途のボタンを備えることもできる。音声認識モードを開始するためのユーザ操作が入力部160を介して入力されると、制御部150は音声収集部110を活性化して、予め設定された距離内で発話されるユーザの音声を収集することができる。そして、制御部150は、第1サーバ200及び第2サーバ300との通信を通じて収集されたユーザ音声に対応する応答情報を受信し、応答メッセージを出力したり、特定機能を実行するように制御することができる。
保存部170は、ディスプレイ装置100を動作させるために必要な各種プログラム等が保存される保存媒体として、メモリやHDD(Hard Disk Drive)等で実現可能である。例えば、保存部170は、制御部150の動作実行のためのプログラムを保存するためのROM、制御部150の動作実行によるデータを一時的に保存するためのRAM等を備えてよい。なお、各種参照データを保存するためのEEPROM(Electrically Erasable and Programmable ROM)等を更に備えてよい。
特に、保存部170は、ユーザの音声に対応する各種応答メッセージを音声またはテキストデータで予め保存していてよい。それにより、制御部150は、第2サーバ300から受信される音声メッセージ情報(特に、制御信号)に対応する音声またはテキストデータを保存部170から読み取ってオーディオ出力部142またはディスプレイ部141に出力することができる。この場合、制御部150は、音声データに対してデコーディング等の信号処理を行い、デコーディングされた音声データを増幅してオーディオ出力部142を介して出力することができ、テキストデータを構成するテキストが含まれるようにUI画面を構成してディスプレイ部141を介して出力することができる。上述の実施形態では、制御部150が保存部170から読み取られた音声及びテキストデータに対する信号処理を行うものとして説明したが、制御部150は、音声及びテキストデータに対する信号処理を行うように、信号処理部190を制御することもできる。
受信部180は、多様なコンテンツを受信する。具体的に、受信部180は、放送ネットワークを用いて放送番組コンテンツを伝送する放送局またはインターネットを用いてコンテンツファイルを伝送するウェブサーバからコンテンツを受信する。なお、ディスプレイ装置100内に設けられたり、ディスプレイ装置100に接続された各種記録媒体再生装置からコンテンツを受信することもできる。記録媒体再生装置とは、CDやDVD、ハードディスク、ブルーレイディスク、メモリカード、USBメモリ等のような多様な記録媒体に保存されたコンテンツを再生する装置を意味する。
放送局からコンテンツを受信する実施形態の場合には、受信部180は、チューナ(図示せず)、復調器(図示せず)、等化器(図示せず)等のような構成を含む形態で実現されてよい。一方、ウェブサーバのようなソースからコンテンツを受信する実施形態の場合には、受信部180は、ネットワークインターフェースカード(図示せず)で実現されてよい。または、上述の各種記録媒体再生装置からコンテンツを受信する実施形態の場合には、受信部180は、記録媒体再生装置と接続されたインターフェース部(図示せず)で実現されてよい。このように、受信部180は、実施形態に応じて多様な形態で実現されてよい。
信号処理部190は、受信部180を介して受信されたコンテンツが出力部140を介して出力できるようにコンテンツに対する信号処理を行う。
具体的に、信号処理部190は、コンテンツに含まれたビデオ信号に対してデコーディング、スケーリング及びフレームレート変換等の動作を行い、ディスプレイ部141から出力可能な形態でビデオ信号を変換することができる。なお、信号処理部190は、コンテンツに含まれたオーディオ信号に対してデコーディング等の信号処理を行ってオーディオ出力部142から出力可能な形態でオーディオ信号を変換することができる。
図5は、図1に示す第1サーバの構成を説明するためのブロック図である。同図に示すように、第1サーバ200は、通信部210及び制御部220を含む。
通信部210は、ディスプレイ装置100と通信を行う。具体的に、通信部210は、ディスプレイ装置100からユーザの音声を受信し、ユーザ音声に対応するテキスト情報をディスプレイ装置100に伝送することができる。そのために、通信部210は、多様な通信モジュールを含んでよい。
制御部220は、第1サーバ200の動作全般を制御する。特に、制御部220は、ディスプレイ装置100からユーザの音声が受信されると、ユーザの音声に対応するテキスト情報を生成し、それをディスプレイ装置100に伝送するように通信部210を制御する。
具体的に、制御部220は、STT(Speech to Text)エンジンを用いて、ユーザの音声に対応するテキスト情報を生成することができる。ここで、STTエンジンとは、音声信号をテキストに変換するためのモジュールとして、従来開示されている多様なSTTアルゴリズムを用いて音声信号をテキストに変換することができる。
例えば、制御部220は、受信されたユーザの音声内でユーザが発話した音声の開始と終了とを検出して音声区間を判断する。具体的に、制御部220は、受信された音声信号のエネルギーを計算し、計算されたエネルギーに応じて音声信号のエネルギーレベルを分類して、動的プログラミングを通じて音声区間を検出することができる。そして、制御部220は、検出された音声区間内において、音響モデル(Acoustic Model)に基づいて、音声の最小単位である音素を検出して音素データを生成し、生成された音素データにHMM(Hidden Markov Model)確率モデルを適用して、ユーザの音声をテキストに変換することができる。
図6は、図1に示す第2サーバの構成を説明するためのブロック図である。同図に示すように、第2サーバ300は、通信部310及び制御部320を含む。
通信部310は、ディスプレイ装置100から収集したユーザの音声に対応するテキスト情報を受信する。そして、通信部310は、テキスト情報に対応する応答情報をディスプレイ装置100に伝送することができる。
そのために、通信部310は、ディスプレイ装置100と通信を行うための多様な通信モジュールを含んでよい。
なお、通信部310は、インターネット網を通じてウェブサーバ(図示せず)と通信を行い、各種検索キーワードをウェブサーバに伝送し、それによるウェブ検索結果を受信することができる。ここで、検索キーワードとは、天気関連キーワード(仮に、地域名、気温、降雨確率等)、コンテンツ関連キーワード(仮に、映画のタイトル、映画の公開日、音楽のタイトル、ミュージシャン等)等のように、ウェブ検索が可能な多様なキーワードを含んでよく、各種検索キーワードは、第2サーバ300に保存されていてよい。
制御部320は、第2サーバ300の動作全般を制御する。特に、制御部320は、受信されたテキスト情報に対応する応答情報を生成し、生成された応答情報を通信部310を介してディスプレイ装置100に伝送するように制御する。具体的に、制御部320は、テキスト情報を分析してユーザの音声に含まれた発話意図を判断し、判断された発話意図に対応する応答情報をディスプレイ装置100に伝送するように通信部310を制御する。
そのために、制御部320は、受信されたテキストにマッチする対話パターンが存在するコーパス(corpus)データベースを検出し、ユーザの音声が属するサービスドメインを判断することができる。
ここで、サービスドメインは、ユーザが発話した音声が属するテーマに応じて、“放送”、“VOD”、“アプリ管理”、“機器制御”、“情報(天気や株式、ニュース等)提供”等で区分されてよい。しかし、それは一例に過ぎず、その他にも、多様なテーマに応じてサービスドメインを区分することができることはいうまでもない。
そして、コーパスデータベースは、サービスドメイン別に備えられ、各サービスドメイン別に対話パターンを保存することができる。ここで、コーパスデータベースは、例文及びそれに対する回答を保存する形態で実現されてよい。
すなわち、第2サーバ300は、各サービスドメイン別に複数の例文及び各例文に対する回答を保存することができる。なお、第2サーバ300は、例文を解釈するための情報及び例文に対応する回答を各例文ごとにタグ付け(Tagging)して保存することができる。
例えば、第2サーバ300が放送サービスドメインに対する第1コーパスデータベース及び天気サービスドメインに対する第2コーパスデータベースを備える場合を仮定する。この場合、第1コーパスデータベースは、放送サービスドメイン内で発生し得る多様な対話パターンを保存することができる。
例えば、放送サービスドメイン内に“番組は何時から?”という例文が保存された場合を仮定する。
この場合、第2サーバ300は、“番組は何時から?”といった例文を解釈するための情報を当該例文にタグ付けして保存することができる。具体的に、第2サーバ300は、“番組は何時から?”のような例文において、“番組”は放送番組を示し、“何時”は放送時間に関するお問い合わせを示し、“から?”は例文のタイプが疑問文であることを示す情報を当該例文にタグ付けして保存することができる。
なお、第2サーバ300は、“番組は何時から?”に対する回答を当該例文にタグ付けして保存することができる。具体的に、第2サーバ300は、“番組は何時から?”に対する回答として、“どの番組の開始時間を知りたいですか?”をタグ付けして保存することができる。
しかし、それは一例に過ぎず、第2サーバ300は、“○○○(放送番組名)は何時から?”という例文を保存し、当該例文を解釈するための情報及び回答を当該例文にタグ付けして保存することができる。
具体的に、第2サーバ300は、“○○○(放送番組名)は何時から?”という例文において、“○○○(放送番組名)”は放送番組を示し、“何時”は放送時間に関するお問い合わせを示し、“から?”は例文のタイプが疑問文であることを示す情報を当該例文にタグ付けして保存することができる。なお、第2サーバ300は、“〜は何時から?”という形式を有する例文の冒頭には、放送番組に関連する単語が配置されるという情報を当該例文にタグ付けして保存することができる。ここで、放送番組に関連する単語は、放送番組名、出演者、演出者等が含まれてよい。
なお、第2サーバ300は、“○○○(放送番組名)は何時から?”に対する回答を当該例文にタグ付けして保存することができる。具体的に、第2サーバ300は、“○○○(放送番組名)は何時から?”に対する回答として、“お問い合わせの<放送番組名>の放送時間は<放送時間>です”をタグ付けして保存することができる。
このように、第2サーバ300は、放送サービスドメイン内で多様な対話パターンを保存することができる。
なお、第2コーパスデータベースは、天気サービスドメイン内で発生し得る対話パターンを保存することができる。
例えば、天気サービスドメイン内に“○○(地域名)の天気はどう?”という例文が保存された場合を仮定する。
この場合、第2サーバ300は、“○○(地域名)の天気はどう?”のような例文を解釈するための情報を当該例文にタグ付けして保存することができる。具体的に、第2サーバ300は、“○○(地域名)の天気はどう?”のような例文において、“○○(地域名)”は地域を示し、“天気はどう”は天気に関するお問い合わせを示し、“どう?”は例文のタイプが疑問文であることを示す情報を当該例文にタグ付けして保存することができる。なお、第2サーバ300は、“〜天気はどう?”という形式を有する例文の冒頭には地域名称に関連した単語が配置されるという情報を当該例文にタグ付けして保存することができる。
なお、第2サーバ300は、“○○(地域名)の天気はどう?”に対する回答を当該例文にタグ付けして保存することができる。具体的に、第2サーバ300は、“○○(地域名)の天気はどう?”に対する回答として、“気温を教えましょうか?”をタグ付けして保存することができる。
しかし、それは一例に過ぎず、第2サーバ300は、“○○(地域名)の気温はどう?”という例文を保存し、当該例文を解釈するための情報及び“お問い合わせの○○(地域名)の気温は<温度>です”という回答を当該例文にタグ付けして保存することができる。
このように、第2サーバ300は、天気サービスドメイン内で多様な対話パターンを保存することができる。
以上では、第2サーバ300に保存される例文及びそれに対する回答に対して説明してきた。しかし、それは一例に過ぎず、サービスドメイン別に多様な例文及びそれに対する回答が保存されていてよい。
このような場合、制御部320は、ディスプレイ装置100から“番組は何時から?”というテキストが受信されると、ディスプレイ装置100から収集されたユーザの音声が放送サービスドメインに属すると判断し、ディスプレイ装置100から“○○(地域名)の気温はどう?”というテキストが受信されると、ディスプレイ装置100から収集したユーザの音声が天気サービスドメインに属すると判断することができる。すなわち、制御部320は、受信されたテキストを各サービスドメイン別に保存された例文と比較し、受信されたテキストにマッチする例文が属するサービスドメインをユーザ音声が属するサービスドメインと判断することができる。
その後、制御部320は、ユーザの音声が属するサービスドメインに基づいて、ユーザの音声から対話作用(dialogue act)、主作用(main action)及び構成要素(component slot)を抽出する。例えば、制御部320は、ユーザの音声からMaxEnt(Maximum Entropy Classfier)を用いて対話作用、主作用を抽出し、CRF(Condition Random Fields)を用いて構成要素を抽出することができる。しかし、しかし、それに限定されるものではなく、既に公知とされている多様な方式を通じて対話作用、主作用及び構成要素を抽出することができる。例えば、制御部320は、ユーザの音声とマッチする例文にタグ付けされた情報を用いて、ユーザの音声から対話作用、主作用及び構成要素を抽出することもできる。
ここで、対話作用は、文章の形態に関連する分類基準として、当該文章が叙述部(Statement)、要求文(Request)、Why疑問文(WH−Question)またはYes−No疑問文(YN−Question)であるかを示すものである。主作用は、当該発話が特定ドメインで対話を通じて所望の行為を示す意味的情報である。例えば、放送サービスドメインで、主作用はテレビ電源オン/オフ、番組検索、番組時間検索、番組予約等を含んでよい。構成要素は、発話に示される特定ドメインに対する個体情報、すなわち、特定ドメインで意図する行動の意味を具体化するために与えられる情報である。例えば、放送サービスドメインにおいて、構成要素はジャンル、番組名、開始時間、チャネル名、俳優の名前等を含んでよい。
なお、制御部320は、抽出された対話作用、主作用及び構成要素を用いてユーザの音声に含まれた発話意図を判断し、判断された発話意図に対応する応答情報を生成してディスプレイ装置100に伝送することができる。
ここで、応答情報は、ユーザの音声に対応する応答メッセージ情報を含む。応答メッセージ情報は、ユーザの音声に対してディスプレイ装置100から出力される応答メッセージがテキスト形式で表現されたものとして、ディスプレイ装置100はサーバ200から受信された応答メッセージ情報に基づいて、ユーザの音声に対応する応答メッセージを出力することができる。
具体的に、制御部320は、判断された発話意図に対する回答をコーパスデータベースから抽出し、抽出された回答をテキストに変換して応答メッセージ情報を生成することができる。
例えば、テキストに変換された“○○○(放送番組名)は何時から?”というユーザ音声がディスプレイ装置100から受信された場合を仮定する。この場合、制御部320は、ユーザの音声とマッチする対話パターンが存在するコーパスデータベースを検索し、“○○○は何時から?”という音声が放送サービスドメインに含まれると判断することができる。
そして、制御部320は、対話作用を通じて音声の文章の形態が“疑問形”であると判断し、主作用及び構成要素を通じて、“○○○”に対する“番組開始時間”を知りたがっていると判断する。結果として、制御部320は、ユーザ音声に含まれた発話意図は“○○○”に対して“番組開始時間”を“問い合わせる”ものと判断することができる。
その後、制御部320は、“○○○”に対して“番組開始時間”を“問い合わせる”発話意図に対して“お問い合わせの○○○の開始時間は…です”という回答を放送サービスドメインのコーパスデータベースから抽出する。すなわち、制御部320は、“○○○(放送番組名)は何時から?”という例文にマッチする回答を放送サービスドメインのコーパスデータベースから検索し、“お問い合わせの○○○の開始時間は…です”という回答を抽出することができる。
この場合、制御部320は、EPG(Electronic Program Guide)情報を用いて“○○○”に対する放送開始時間を検索し、“お問い合わせの○○○の開始時間は土曜日の7時からです”という応答メッセージ情報を生成してディスプレイ装置100に伝送することができる。
別の例として、テキストに変換された“ソウルの気温はどう?”というユーザの音声がディスプレイ装置100から受信された場合を仮定する。この場合、制御部320は、ユーザの音声とマッチする対話パターンが存在するコーパスデータベースを検索し、“ソウルの気温はどう?”というユーザの音声が天気サービスドメインに含まれると判断することができる。
そして、制御部320は、対話作用を通じて当該音声の文章の形態が“疑問形”であると判断し、主作用及び構成要素を通じて、“ソウル”に対する“天気”を知りたがっていると判断する。結果として、制御部320は、ユーザ音声に含まれた発話意図は“ソウル”に対して“天気”を“問い合わせる”ものと判断することができる。
その後、制御部320は、“ソウル”に対して“天気”を“問い合わせる”発話意図に対して“お問い合わせのソウルの気温は…です”という回答を天気サービスドメインのコーパスデータベースから抽出する。この場合、制御部320は、ユーザの音声から予め保存されたキーワードを検出し、検出されたキーワードをウェブサーバに伝送するように通信部310を制御し、当該キーワードに関連した検索情報を受信することができる。すなわち、制御部320は、ユーザの音声から“ソウル”、“気温”をキーワードとして抽出し、それをウェブサーバに伝送し、ソウルの気温に対する検索結果をウェブサーバから受信し、“お問い合わせのソウルの気温は23℃です”という応答メッセージ情報をディスプレイ装置100に伝送することができる。
一方、ディスプレイ装置100で応答メッセージの一部の文章データを保存している場合、制御部320は、当該文章を完成させるための一部のテキストをディスプレイ装置100に伝送することができる。
例えば、テキストに変換された“○番にチャネルを変更して”というユーザの音声がディスプレイ装置100から受信された場合を仮定する。この場合、制御部320は、当該音声に対する発話意図が“○番”への“チャネル変更”を“要請”すると判断することができる。
それにより、制御部320は、ディスプレイ装置100で“○番”へのチャネル変更を行うための制御命令を生成して、ディスプレイ装置100に伝送することができる。このとき、ディスプレイ装置100で“チャネルを…番に変更しました”のようなテキストデータを保存している場合、制御部320は、“○番”を応答メッセージ情報として生成してディスプレイ装置100に伝送し、ディスプレイ装置100から“チャネルを○番に変更しました”という応答メッセージが出力されるように制御することができる。この場合、制御部320は、ディスプレイ装置100に予め保存された音声データを出力するための別途の制御信号をディスプレイ装置100に伝送することができる。
なお、応答情報は、ディスプレイ装置100の機能を制御するための制御命令を更に含んでよい。すなわち、制御部320は、ユーザの発話意図に対応する機能がディスプレイ装置100で行われるようにするための制御命令を生成してよい。
そのために、第2サーバ300は、ユーザの発話意図に対応する制御命令を予め保存していてよい。例えば、ユーザの発話意図がチャネル変更である場合、ディスプレイ装置100のチャネルを変更するための制御命令をマッチさせて保存し、ユーザの発話意図が予約録画である場合、ディスプレイ装置100で特定番組に対する予約録画機能を実行させるための制御命令をマッチさせて保存していてよい。
例えば、テキストに変換された“○○○(放送番組名)を予約して”というユーザ音声がディスプレイ装置100から受信された場合を仮定する。この場合、制御部320は、ユーザの音声とマッチする対話パターンが存在するコーパスデータベースを検索し、“○○○を予約して”というユーザの音声が放送サービスドメインに含まれると判断することができる。
そして、制御部320は、対話作用を通じて当該音声が“要請”に関連した文章形態であると判断し、主作用及び構成要素を通じて“○○○”に対する“番組予約”を望むと判断する。結果として、制御部320は、ユーザ音声に含まれた発話意図は“○○○”に対して“番組予約”を“要請”するものと判断することができる。
その後、制御部320は、“○○○”に対して“番組予約”を“要請”する発話意図に対応する制御命令を検出し、ディスプレイ装置100で“○○○”の予約録画機能を実行するための制御命令を生成することができる。この場合、制御部320は、“○○○”に対して“番組予約”を“要請”する発話意図に対して、“ご要請の番組の録画が予約されました”という応答メッセージ情報を放送サービスドメインのコーパスデータベースから抽出し、ディスプレイ装置100に併せて伝送することができる。
一方、制御部320は、受信されたテキストにマッチする例文にタグ付けされた情報を用いてユーザの発話意図を判断することもできる。
例えば、ディスプレイ装置100からテキスト“○○○(放送番組名)は何時から?”が受信された場合を仮定する。
この場合、制御部320は、受信されたテキストが放送サービスドメインに属すると判断し、放送サービスドメイン内で受信されたテキストとマッチする例文である“○○○(放送番組名)は何時から?”にタグ付けされた情報を用いて、ユーザの音声から対話作用、主作用及び構成要素を抽出し、それに対する応答情報を生成することができる。
すなわち、放送サービスドメインに保存された例文である“○○○(放送番組名)は何時から?”には、例文を解釈するための情報として、“○○○(放送番組名)”は放送番組を示し、“何時”は放送時間に対する問い合わせを示し、“から?”は例文のタイプが疑問文であることを示す情報がタグ付けされている。よって、制御部320は、これらの情報を参照してディスプレイ装置100から受信されたテキスト“○○○(放送番組名)は何時から?”の対話作用は疑問文であり、主作用は放送時間に関するお問い合わせであり、構成要素は○○○(放送番組名)であると判断することができる。それにより、制御部320は、ユーザの音声に含まれた発話意図は“○○○”に対する“放送時間”を“問い合わせる”ものと判断することができる。
そして、制御部320は、放送サービスドメインに保存された例文である“○○○(放送番組名)は何時から?”にタグ付けされた回答を、第2サーバ300から検索し、タグ付けされた回答を用いて応答メッセージ情報を生成することができる。
すなわち、制御部320は、放送サービスドメインに保存された例文である“○○○(放送番組名)は何時から?”にタグ付けされた回答である“お問い合わせの○○○の開始時間は<放送時間>からです”をユーザ音声に対応する回答として検索する。
この場合、制御部320は、検索された回答に含まれたブランクを完成し、完全な形の文章を生成することができる。
例えば、制御部320は、“お問い合わせの<放送番組名>の放送時間は<放送時間>からです”のような回答で、ブランク<放送番組名>は放送番組名である“○○○(放送番組名)”を載せることができる。そして、制御部320は、EPG(Electronic Program Guide)情報を通じて“○○○(放送番組名)”の放送時間を検索し、検索された放送時間を別のブランクである<放送時間>に載せることができる。それにより、制御部320は、“お問い合わせの○○○(放送番組名)の放送時間は土曜日の7時からです”という完全な形の文章をユーザの音声に対応する応答メッセージ情報として生成し、生成された応答メッセージ情報をディスプレイ装置100に伝送することができる。
それにより、ディスプレイ装置100は、第2サーバ300から受信された応答メッセージ情報に基づいて、“お問い合わせの○○○(放送番組名)の放送時間は土曜日の7時からです”を音声及びテキストのうち、少なくとも一方の形態で出力することができる。
一方、制御部320は、現在受信されたユーザの音声に含まれたユーザの発話意図を判断することができない場合、以前に受信されたユーザの音声に参照し、現在受信されたユーザの音声に含まれたユーザの発話意図を判断することができる。すなわち、制御部320は、現在受信されたユーザの音声をコーパスデータベースに保存された対話パターンと比較し、現在受信されたユーザの音声が対話パターンで最初のユーザ発話に該当するか否かを判断し、最初のユーザ発話に該当しないと判断されると、以前に受信されたユーザの音声を参照し、現在受信されたユーザの音声に含まれたユーザの発話意図を判断することができる。
例えば、“○○○(放送番組名)は何時から?”というユーザ音声が入力された後、“何時から?”というユーザ音声が入力された場合を仮定する。この場合、制御部320は、“何時から?”というユーザ音声が放送サービスドメイン内で最初のユーザ発話に該当しないと判断されると、以前に受信された“○○○は何時から?”というユーザ音声に基づいて、“何時から?”の発話意図を判断するようになる。
すなわち、制御部320は、構成要素を抽出することができない“何時から?”というユーザ音声の発話意図を判断するために、以前に受信されたユーザ音声に含まれた“○○○”を用いて“何時から?”の発話意図を“○○○”に対する“番組開始時間”を“問い合わせる”ものと判断することができる。
一方、制御部320は、第1及び第2テキスト情報に含まれた発話意図が同一である場合、第2テキスト情報に対応する応答情報を、第1テキスト情報に対応する応答情報と差別化するように生成し、ディスプレイ装置100に伝送することができる。
すなわち、制御部320は、ディスプレイ装置100から受信されたテキスト情報に対応する応答情報を生成してディスプレイ装置100に伝送した後、以前に受信されたテキスト情報と同一の発話意図を有するテキスト情報が受信されると、以前に受信されたテキスト情報とは差別化するように、現在受信されたテキスト情報に対応する応答情報を生成することができる。
具体的に、制御部320は、同一の発話意図を含む第1及び第2テキスト情報が連続的に受信された場合、ディスプレイ装置100から音声またはテキスト応答メッセージを出力するように第1テキスト情報に対応する応答情報を生成し、ディスプレイ装置100から音声及びテキストで応答メッセージを出力するように第2テキスト情報に対応する応答情報を生成することができる。
そのために、制御部320は、第2テキスト情報に対応する応答情報を生成してディスプレイ装置100に伝送する際、ディスプレイ装置100から音声及びテキスト両方で応答メッセージを出力するようにする制御命令を生成してディスプレイ装置100に伝送することができる。
なお、制御部320は、同一の発話意図を含む第1及び第2テキスト情報を連続的に受信された場合、ディスプレイ装置100から出力されるコンテンツに対するオーディオ音量が応答メッセージで出力される音声に対する音量より相対的に低く出力されるように、第2テキスト情報に対応する応答情報を生成することができる。
そのために、制御部320は、第2テキスト情報に対応する応答情報を生成してディスプレイ装置100に伝送する際、ディスプレイ装置100でコンテンツのオーディオ音量を予め設定されたレベルに下げたり、応答メッセージで出力される音声の音量を予め設定されたレベルに上げるための制御命令を生成してディスプレイ装置100に伝送することができる。なお、制御部320は、ディスプレイ装置100でコンテンツの音量を予め設定されたレベルに下げ、コンテンツのオーディオ音量より予め設定されたレベルだけ高いレベルに応答メッセージで出力される音声の音量を調節するための制御命令を生成してディスプレイ装置100に伝送することもできる。
なお、制御部320は、同一の発話意図を含む第1及び第2テキスト情報が連続的に受信された場合、ディスプレイ装置100からテキストで応答メッセージを出力するように第1テキスト情報に対応する応答情報を生成し、ディスプレイ装置100で予め設定されたキーワードがハイライトされたテキストで応答メッセージを出力するように、第2テキストに対応する応答情報を生成することができる。
そのために、制御部320は、ディスプレイ装置100から第2テキスト情報に対応する応答メッセージ出力時、応答メッセージ情報を構成するテキストで発話意図に対する中核回答になるキーワード、すなわち、ユーザの発話意図に対応して検索された情報をハイライトさせて出力するための制御命令を生成してディスプレイ装置100に伝送することができる。
例えば、制御部320は、テキスト情報に含まれたユーザの発話意図が“○○○”に対して“番組開始時間”を“問い合わせる”ものである場合、制御部320は、“土曜日の7時からです”をテキスト形式でディスプレイ装置100に伝送する。このとき、制御部320は、ユーザの発話意図に対する中核回答になる“土曜日の7時”をハイライトさせるための制御命令をディスプレイ装置100に併せて伝送することができる。
図7は、図6に示す第2サーバの細部構成を説明するためのブロック図である。同図に示すように、第2サーバ300は、図6に示す構成要素の他に、保存部330を更に含んでよい。図7に示す構成要素のうち、図6に示す構成要素と重複する構成要素は、その機能が同様であるため、詳細な説明は省略する。
保存部330は、応答情報を生成するための多様な情報を保存する。具体的に、保存部330は、各サービスドメイン別のコーパスデータベースを備え、サービスドメイン別の対話パターンを保存することができる。なお、保存部330は、ユーザの発話意図別に制御命令をマッチさせて保存していてよい。
一方、図1ないし図7において、第1サーバ200と第2サーバ300とが別途に実現されるものとして示しているが、それは一例に過ぎない。すなわち、第1サーバ200と第2サーバ300は、一つのサーバで実現されてよい。この場合、ディスプレイ装置100はユーザの音声に対応するテキスト情報を受信せずに、一つで実現されたサーバ(図示せず)でユーザの音声をテキストに変換し、変換されたテキストに基づいてユーザの音声に対応する応答情報を生成してディスプレイ装置100に伝送することができる。
図8ないし図10は、本発明の一実施形態に係る対話型システムの動作を説明するための図である。
例えば、図8の(a)のように、放送番組を視聴していたユーザ620が“○○○(放送番組名)は何時から放送?”と発話した場合を仮定する。この場合、ディスプレイ装置610は、第1及び第2サーバ(図示せず)との連動を通じて収集された“○○○は何時から放送?”に対応する応答メッセージを音声で出力することができる。すなわち、図8の(a)のように、ディスプレイ装置610は、第2サーバから応答メッセージ情報を受信し、“○○○は何時から放送?”というユーザの音声に対して“火曜日の夜6時からです”という応答メッセージを音声で出力することができる。
その後、同一の発話意図を有するユーザの音声が再度受信された場合、ディスプレイ装置610は以前に受信されたユーザの音声に対する応答メッセージと差別化するように、現在受信されたユーザの音声に対する応答メッセージを音声及びテキストで出力することができる。例えば、図8の(b)のように、ディスプレイ装置610が“○○○は何時から放送?”というユーザ620の音声を再度受信した場合、ディスプレイ装置610は第2サーバから受信された応答情報に基づいて、再度受信された“○○○は何時から放送?”に対する回答として、“火曜日の夜6時からです”を音声及びテキストで出力することができる。
一方で、図9の(a)に示すように、放送番組を視聴していたユーザ720が、“○○○は何時から放送?”と発話した場合を仮定する。この場合、ディスプレイ装置710は、第1及び第2サーバ(図示せず)との連動を通じて収集された“○○○は何時から放送?”に対応する応答メッセージを音声で出力することができる。すなわち、図9の(a)のように、ディスプレイ装置710は、第2サーバから応答メッセージ情報を受信し、“○○○は何時から放送?”に対するユーザの音声に対して“火曜日の夜6時からです”という応答メッセージを音声で出力することができる。
その後、同一の発話意図を有するユーザの音声が再度受信された場合、ディスプレイ装置710は以前に受信されたユーザの音声に対する応答メッセージと差別化するように、ディスプレイ装置710から出力されるオーディオの音量を調節することができる。例えば、図9の(b)のように、ディスプレイ装置710が“○○○は何時から放送?”というユーザ720の音声を再度受信した場合、ディスプレイ装置710はサーバから受信された応答情報に基づいて、放送番組のオーディオである“ぶーん”という音量を下げ、音声で出力される音声メッセージである“火曜日の夜6時からです”の音量を放送番組のオーディオより高く出力することができる。しかし、それは一例に過ぎず、ディスプレイ装置710は、番組のオーディオである“ぶーん”という音量のみを予め設定されたレベルに下げたり、応答メッセージである“火曜日の夜6時からです”の音量を予め設定されたレベルに上げることもできる。
もう一方で、図10の(a)に示すように、放送番組を視聴していたユーザ820が、“○○○は何時から放送?”と発話した場合を仮定する。この場合、ディスプレイ装置810は、第1及び第2サーバ(図示せず)との連動を通じて収集された“○○○は何時から放送?”に対応する応答メッセージをテキストで出力することができる。すなわち、図10の(a)のように、ディスプレイ装置710は、第2サーバから応答メッセージ情報を受信し、“○○○は何時から放送?”に対するユーザの音声に対して“火曜日の夜6時からです”という応答メッセージをテキストで出力することができる。
その後、同一の発話意図を有するユーザの音声が再度受信された場合、ディスプレイ装置810は以前に受信されたユーザの音声に対する応答メッセージと差別化するように、現在受信されるユーザの音声に応じて出力されるテキストで予め設定されたキーワードの表示形態を変更して出力することができる。例えば、図10の(b)のように、ディスプレイ装置810が“○○○は何時から放送?”というユーザ820の音声を再度受信した場合、ディスプレイ装置810は第2サーバから受信された応答情報に基づいて出力される“火曜日の夜6時からです”で“火曜日の夜6時”をハイライトさせることができる。上述の図では、予め設定されたキーワードがハイライトされるものとして説明したが、それは一例に過ぎない。すなわち、ディスプレイ装置810は、上述の図10の(b)において、“火曜日の夜6時”を他のテキストより大きく表示したり、色を変えて出力することもできる。
図11は、本発明の一実施形態に係るディスプレイ装置の制御方法を説明するためのフローチャートである。
まず、ユーザ音声を収集する(S910)。具体的に、ディスプレイ装置と一体型か、分離された形態のマイクを通じて、ユーザの音声を収集することができる。
続いて、ユーザの音声を第1サーバに伝送し、第1サーバからユーザの音声に対応するテキスト情報を受信する(S920)。そして、受信されたテキスト情報を第2サーバに伝送し、テキスト情報に対応する応答情報を受信する(S930)。すなわち、第2サーバは、テキスト情報を分析してユーザの音声に含まれた発話意図を判断し、判断された発話意図に対応する応答情報をディスプレイ装置に伝送することができる。
一方、同一の発話意図を有するユーザの音声が再度受信されると、応答情報に基づいて以前に収集されたユーザの音声に対応する応答メッセージと差別化した応答メッセージを出力する(S940)。
具体的に、第2サーバは、連続的に受信された第1及び第2テキスト情報に含まれた発話意図が同一である場合、第1テキスト情報に対応する応答情報と差別化するように、第2テキスト情報に対応する応答情報を生成してディスプレイ装置に伝送することができる。
それにより、第2テキスト情報に対応する応答情報に基づいて、再度受信されたユーザの音声に対応する応答メッセージを音声及びテキストで出力することができる。なお、第2テキスト情報に対応する応答情報に基づいて、ディスプレイ装置から出力されるコンテンツに対するオーディオ音量を応答メッセージで出力される音声に対する音量より相対的に低く出力することができる。そして、第2テキスト情報に対応する応答情報に基づいて、再度受信されたユーザの音声に対応する応答メッセージを予め設定されたキーワードがハイライトされたテキストで出力することができる。
図12は、本発明の一実施形態に係るディスプレイ装置と連動するサーバの制御方法を説明するためのフローチャートである。
まず、ディスプレイ装置から収集したユーザの音声に対応するテキスト情報を受信する(S1010)。
その後、テキスト情報を分析し、ユーザの音声に含まれた発話意図を判断する(S1020)。この場合、ディスプレイ装置は、応答情報に基づいてユーザの音声に対応する応答メッセージを音声及びテキストのうち、少なくとも一方で出力することができる。
このとき、第1及び第2テキスト情報に含まれた発話意図が同一である場合、第2テキスト情報に対応する応答情報を、第1テキスト情報に対応する応答情報と差別化するように生成してディスプレイ装置に伝送する(S1030)。
具体的に、第1及び第2テキスト情報が連続的に受信された場合、ディスプレイ装置から音声またはテキストで応答メッセージを出力するように第1テキスト情報に対応する応答情報を生成し、ディスプレイ装置から音声及びテキストで応答メッセージを出力するように第2テキスト情報に対応する応答情報を生成することができる。
なお、第1及び第2テキスト情報が連続的に受信された場合、ディスプレイ装置から出力されるコンテンツに対するオーディオ音量が応答メッセージで出力される音声に対する音量より相対的に低く出力されるように第2テキスト情報に対応する応答情報を生成することもできる。
そして、第1及び第2テキスト情報が連続的に受信された場合、ディスプレイ装置からテキストで応答メッセージを出力するように第1テキスト情報に対応する応答情報を生成し、ディスプレイ装置から予め設定されたキーワードがハイライトされたテキストで応答メッセージを出力するように第2テキスト情報に対応する応答情報を生成することもできる。
なお、本発明に係るディスプレイ装置及びサーバの制御方法を順次行うプログラムが保存された非一時的な読み取り可能な媒体(Non−transitory computer readable medium)が提供されてよい。
非一時的な読み取り可能な媒体とは、レジスタやキャッシュ、メモリ等のような短い間データを保存する媒体ではなく、半永久的にデータを保存し、機器によって読み取り(Reading)が可能な媒体を意味する。具体的には、上述の多様なアプリケーションまたはプログラムは、CDやDVD、ハードディスク、ブルーレイディスク、USB、メモリカード、ROM等のような非一時的な読み取り可能な媒体に保存されて提供されてよい。
なお、ディスプレイ装置及びサーバに対して示した上述のブロック図では、バス(Bus)を示していないが、ディスプレイ装置及びサーバで各構成要素間の通信はバスによって行われてよい。なお、各デバイスには、上述の多様なステップを行うCPU、マイクロプロセッサ等のようなプロセッサが更に含まれてよい。
以上、添付図面を参照しながら本発明の好適な実施形態について詳細に説明したが、本発明は以上の実施形態に限定されない。本発明の属する技術の分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的趣旨の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本発明の技術的範囲に属するものと了解される。
100、610、710、810 ディスプレイ装置
110 音声収集部
120 第1通信部
130 第2通信部
140 出力部
141 ディスプレイ部
142 オーディオ出力部
150、220、320 制御部
160 入力部
170、330 保存部
180 受信部
190 信号処理部
200 第1サーバ
210、310 通信部
300 第2サーバ
720 ユーザ

Claims (15)

  1. ディスプレイ装置において、
    ユーザの音声を収集する音声収集部と、
    前記ユーザの音声を第1サーバに伝送し、前記第1サーバから前記ユーザの音声に対応するテキスト情報を受信する第1通信部と、
    前記受信されたテキスト情報を第2サーバに伝送し、前記テキスト情報に対応する応答情報を受信する第2通信部と、
    前記応答情報に基づいて前記ユーザの音声に対応する応答メッセージを出力する出力部と、
    同一の発話意図を有するユーザの音声が再度収集された場合、以前に収集されたユーザの音声に対応する応答メッセージと差別化した応答メッセージを出力するように前記出力部を制御する制御部と
    を含むディスプレイ装置。
  2. 前記第2サーバは、
    前記テキスト情報を分析してユーザの音声に含まれた発話意図を判断し、前記判断された発話意図に対応する応答情報を前記ディスプレイ装置に伝送することを特徴とする請求項1に記載のディスプレイ装置。
  3. 前記第2サーバは、
    連続的に受信された第1及び第2テキスト情報に含まれた発話意図が同一である場合、第1テキスト情報に対応する応答情報と差別化するように第2テキスト情報に対応する応答情報を生成して前記ディスプレイ装置に伝送することを特徴とする請求項2に記載のディスプレイ装置。
  4. 前記制御部は、
    前記第2テキスト情報に対応する応答情報に基づいて、再度受信されたユーザの音声に対応する応答メッセージを音声及びテキストで前記出力部を介して出力することを特徴とする請求項3に記載のディスプレイ装置。
  5. 前記制御部は、
    前記第2テキスト情報に対応する応答情報に基づいて、前記ディスプレイ装置から出力されるコンテンツに対するオーディオ音量を、前記応答メッセージで出力される音声に対する音量より相対的に低く出力するように前記出力部を制御することを特徴とする請求項3に記載のディスプレイ装置。
  6. 前記制御部は、
    前記第2テキスト情報に対応する応答情報に基づいて、再度受信されたユーザの音声に対応する応答メッセージを、予め設定されたキーワードがハイライトされたテキストで前記出力部を介して出力することを特徴とする請求項3に記載のディスプレイ装置。
  7. ディスプレイ装置と連動するサーバにおいて、
    前記ディスプレイ装置から収集したユーザの音声に対応するテキスト情報を受信する通信部と、
    前記テキスト情報を分析して前記ユーザの音声に含まれた発話意図を判断し、前記判断された発話意図に対応する応答情報を前記ディスプレイ装置に伝送するように前記通信部を制御する制御部と
    を含み、
    前記制御部は、
    第1及び第2テキスト情報に含まれた発話意図が同一である場合、前記第2テキスト情報に対応する応答情報を、前記第1テキスト情報に対応する応答情報と差別化するように生成して前記ディスプレイ装置に伝送するサーバ。
  8. 前記ディスプレイ装置は、
    前記応答情報に基づいて、前記ユーザの音声に対応する応答メッセージを音声及びテキストのうち少なくとも一方で出力することを特徴とする請求項7に記載のサーバ。
  9. 前記制御部は、
    前記第1及び第2テキスト情報が連続的に受信された場合、前記ディスプレイ装置から音声またはテキストで前記応答メッセージを出力するように前記第1テキスト情報に対応する応答情報を生成し、前記ディスプレイ装置から音声及びテキストで前記応答メッセージを出力するように前記第2テキスト情報に対応する応答情報を生成することを特徴とする請求項8に記載のサーバ。
  10. 前記制御部は、
    前記第1及び第2テキスト情報が連続的に受信された場合、前記ディスプレイ装置から出力されるコンテンツに対するオーディオ音量が、前記応答メッセージで出力される音声に対する音量より相対的に低く出力されるように前記第2テキスト情報に対応する応答情報を生成することを特徴とする請求項8に記載のサーバ。
  11. 前記制御部は、
    前記第1及び第2テキスト情報が連続的に受信された場合、前記ディスプレイ装置からテキストで前記応答メッセージを出力するように前記第1テキスト情報に対応する応答情報を生成し、前記ディスプレイ装置から予め設定されたキーワードがハイライトされたテキストで前記応答メッセージを出力するように前記第2テキスト情報に対応する応答情報を生成することを特徴とする請求項8に記載のサーバ。
  12. ディスプレイ装置の制御方法において、
    ユーザの音声を収集するステップと、
    前記ユーザの音声を第1サーバに伝送し、前記第1サーバから前記ユーザの音声に対応するテキスト情報を受信するステップと、
    前記受信されたテキスト情報を第2サーバに伝送し、前記テキスト情報に対応する応答情報を受信するステップと、
    同一の発話意図を有するユーザの音声が再度収集された場合、前記応答情報に基づいて、以前に収集されたユーザの音声に対応する応答メッセージと差別化した応答メッセージを出力する出力ステップと
    を含む制御方法。
  13. 前記第2サーバは、
    前記テキスト情報を分析してユーザの音声に含まれた発話意図を判断し、前記判断された発話意図に対応する応答情報を前記ディスプレイ装置に伝送することを特徴とする請求項12に記載の制御方法。
  14. 前記第2サーバは、
    連続的に受信された第1及び第2テキスト情報に含まれた発話意図が同一である場合、第1テキスト情報に対応する応答情報と差別化するように第2テキスト情報に対応する応答情報を生成して前記ディスプレイ装置に伝送することを特徴とする請求項13に記載の制御方法。
  15. 前記出力ステップは、
    前記第2テキスト情報に対応する応答情報に基づいて、再度受信されたユーザの音声に対応する応答メッセージを音声及びテキストで出力することを特徴とする請求項14に記載の制御方法。
JP2013125502A 2012-06-15 2013-06-14 ディスプレイ装置、ディスプレイ装置の制御方法、サーバ及びサーバの制御方法 Pending JP2014003609A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020120064500A KR102056461B1 (ko) 2012-06-15 2012-06-15 디스플레이 장치 및 디스플레이 장치의 제어 방법
KR10-2012-0064500 2012-06-15

Publications (1)

Publication Number Publication Date
JP2014003609A true JP2014003609A (ja) 2014-01-09

Family

ID=48793864

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013125502A Pending JP2014003609A (ja) 2012-06-15 2013-06-14 ディスプレイ装置、ディスプレイ装置の制御方法、サーバ及びサーバの制御方法

Country Status (9)

Country Link
US (2) US20130339031A1 (ja)
EP (2) EP2674854A3 (ja)
JP (1) JP2014003609A (ja)
KR (1) KR102056461B1 (ja)
CN (3) CN108391149B (ja)
BR (1) BR112014030550A2 (ja)
MX (1) MX2014015019A (ja)
RU (1) RU2015101124A (ja)
WO (1) WO2013187714A1 (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018182692A (ja) * 2017-04-21 2018-11-15 ソニー株式会社 情報処理装置、受信装置、及び情報処理方法
JP2019128384A (ja) * 2018-01-22 2019-08-01 ヤフー株式会社 情報処理システム、情報処理方法、およびプログラム
JP2019159121A (ja) * 2018-03-13 2019-09-19 東芝映像ソリューション株式会社 音声対話端末、および音声対話端末制御方法
JP2019161636A (ja) * 2018-03-09 2019-09-19 バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド スマートテレビの音声インタラクティブフィードバック方法、システム及びコンピュータプログラム
JP2019207708A (ja) * 2018-09-07 2019-12-05 バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド スマートスピーカーのサービス処理方法、装置及びスマートスピーカー

Families Citing this family (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20150066193A (ko) * 2013-12-06 2015-06-16 삼성전자주식회사 디스플레이장치, 디스플레이시스템 및 그 검색결과 제공방법
US9514748B2 (en) * 2014-01-15 2016-12-06 Microsoft Technology Licensing, Llc Digital personal assistant interaction with impersonations and rich multimedia in responses
KR102193559B1 (ko) * 2014-02-18 2020-12-22 삼성전자주식회사 대화형 서버 및 이의 제어 방법
EP3496377B1 (en) * 2014-05-23 2020-09-30 Samsung Electronics Co., Ltd. System and method of providing voice-message call service
TWI614613B (zh) * 2014-09-11 2018-02-11 廣達電腦股份有限公司 伺服器系統與其相關的控制方法
JP2016192121A (ja) * 2015-03-31 2016-11-10 ソニー株式会社 制御装置、制御方法及びコンピュータプログラム
US9898250B1 (en) * 2016-02-12 2018-02-20 Amazon Technologies, Inc. Controlling distributed audio outputs to enable voice output
US9858927B2 (en) * 2016-02-12 2018-01-02 Amazon Technologies, Inc Processing spoken commands to control distributed audio outputs
JP6526584B2 (ja) * 2016-02-19 2019-06-05 株式会社ジャパンディスプレイ タッチ検出装置、タッチ検出機能付き表示装置及び制御方法
US10057681B2 (en) * 2016-08-01 2018-08-21 Bose Corporation Entertainment audio processing
TWI606390B (zh) * 2016-09-23 2017-11-21 元鼎音訊股份有限公司 可自動調整聲音輸出之方法及電子裝置
US10559309B2 (en) 2016-12-22 2020-02-11 Google Llc Collaborative voice controlled devices
RU2648572C1 (ru) * 2017-01-12 2018-03-26 Общество с ограниченной ответственностью "Инвестиционная группа "Коперник" Алгоритм поиска в компьютерных системах и базах данных
KR102389625B1 (ko) * 2017-04-30 2022-04-25 삼성전자주식회사 사용자 발화를 처리하는 전자 장치 및 이 전자 장치의 제어 방법
KR102480570B1 (ko) * 2017-11-10 2022-12-23 삼성전자주식회사 디스플레이장치 및 그 제어방법
KR102701423B1 (ko) * 2018-04-20 2024-09-02 삼성전자 주식회사 음성 인식을 수행하는 전자 장치 및 전자 장치의 동작 방법
US11276396B2 (en) * 2018-05-01 2022-03-15 Dell Products, L.P. Handling responses from voice services
JP7151181B2 (ja) * 2018-05-31 2022-10-12 トヨタ自動車株式会社 音声対話システム、その処理方法及びプログラム
KR102499731B1 (ko) * 2018-06-27 2023-02-14 주식회사 엔씨소프트 하이라이트 영상 생성 방법 및 시스템
CN109003605B (zh) * 2018-07-02 2020-04-21 北京百度网讯科技有限公司 智能语音交互处理方法、装置、设备及存储介质
CN110822637A (zh) * 2018-08-14 2020-02-21 珠海格力电器股份有限公司 运行状态的获取方法及家电设备、空调
US10930284B2 (en) * 2019-04-11 2021-02-23 Advanced New Technologies Co., Ltd. Information processing system, method, device and equipment
KR20210012266A (ko) * 2019-07-24 2021-02-03 현대자동차주식회사 허브 대화 시스템, 허브 대화 시스템의 제어 방법 및 전자 장치
KR20190098110A (ko) * 2019-08-02 2019-08-21 엘지전자 주식회사 지능형 프레젠테이션 방법
US11317162B2 (en) 2019-09-26 2022-04-26 Dish Network L.L.C. Method and system for navigating at a client device selected features on a non-dynamic image page from an elastic voice cloud server in communication with a third-party search service
KR20210051319A (ko) * 2019-10-30 2021-05-10 엘지전자 주식회사 인공 지능 장치
CN111190715B (zh) * 2019-12-31 2023-05-12 杭州涂鸦信息技术有限公司 产品服务的分发调度方法和系统、可读存储介质及计算机
CN111968636B (zh) * 2020-08-10 2021-11-12 湖北亿咖通科技有限公司 语音请求文本的处理方法及计算机存储介质
CN114945103B (zh) * 2022-05-13 2023-07-18 深圳创维-Rgb电子有限公司 语音交互系统及语音交互方法
CN115457957B (zh) * 2022-08-25 2025-01-24 维沃移动通信有限公司 语音信息显示方法和装置
CN115860823B (zh) * 2023-03-03 2023-05-16 深圳市人马互动科技有限公司 人机互动问卷答题场景中的数据处理方法及相关产品

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002041276A (ja) * 2000-07-24 2002-02-08 Sony Corp 対話型操作支援システム及び対話型操作支援方法、並びに記憶媒体
US7747434B2 (en) * 2000-10-24 2010-06-29 Speech Conversion Technologies, Inc. Integrated speech recognition, closed captioning, and translation system and method
US6889188B2 (en) * 2002-11-22 2005-05-03 Intel Corporation Methods and apparatus for controlling an electronic device
US8140980B2 (en) * 2003-08-05 2012-03-20 Verizon Business Global Llc Method and system for providing conferencing services
JP4127668B2 (ja) * 2003-08-15 2008-07-30 株式会社東芝 情報処理装置、情報処理方法、およびプログラム
US7827032B2 (en) * 2005-02-04 2010-11-02 Vocollect, Inc. Methods and systems for adapting a model for a speech recognition system
US8582729B2 (en) * 2006-02-24 2013-11-12 Qualcomm Incorporated System and method of controlling a graphical user interface at a wireless device
JP4814673B2 (ja) * 2006-03-30 2011-11-16 株式会社日立製作所 デジタル放送受信装置
US9318108B2 (en) * 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US7697922B2 (en) * 2006-10-18 2010-04-13 At&T Intellectual Property I., L.P. Event notification systems and related methods
US8117022B2 (en) * 2006-12-07 2012-02-14 Linker Sheldon O Method and system for machine understanding, knowledge, and conversation
US20080153465A1 (en) * 2006-12-26 2008-06-26 Voice Signal Technologies, Inc. Voice search-enabled mobile device
US20080208589A1 (en) * 2007-02-27 2008-08-28 Cross Charles W Presenting Supplemental Content For Digital Media Using A Multimodal Application
US8175885B2 (en) * 2007-07-23 2012-05-08 Verizon Patent And Licensing Inc. Controlling a set-top box via remote speech recognition
KR101513615B1 (ko) * 2008-06-12 2015-04-20 엘지전자 주식회사 이동 단말기 및 그 음성 인식 방법
US8180644B2 (en) * 2008-08-28 2012-05-15 Qualcomm Incorporated Method and apparatus for scrolling text display of voice call or message during video display session
US8676904B2 (en) * 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
KR101289081B1 (ko) * 2009-09-10 2013-07-22 한국전자통신연구원 음성 인터페이스를 이용한 iptv 시스템 및 서비스 방법
US20110099596A1 (en) * 2009-10-26 2011-04-28 Ure Michael J System and method for interactive communication with a media device user such as a television viewer
CN102136187A (zh) * 2010-01-26 2011-07-27 苏州捷新环保电子科技有限公司 一种交互式语音控制led显示屏的实现方法
US8386252B2 (en) * 2010-05-17 2013-02-26 Avaya Inc. Estimating a listener's ability to understand a speaker, based on comparisons of their styles of speech
US8473289B2 (en) * 2010-08-06 2013-06-25 Google Inc. Disambiguating input based on context
CN102387241B (zh) * 2010-09-02 2015-09-23 联想(北京)有限公司 一种移动终端及其发送处理方法

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018182692A (ja) * 2017-04-21 2018-11-15 ソニー株式会社 情報処理装置、受信装置、及び情報処理方法
JP7026449B2 (ja) 2017-04-21 2022-02-28 ソニーグループ株式会社 情報処理装置、受信装置、及び情報処理方法
US11676595B2 (en) 2017-04-21 2023-06-13 Saturn Licensing Llc Information processing device, reception device, and information processing method
JP2019128384A (ja) * 2018-01-22 2019-08-01 ヤフー株式会社 情報処理システム、情報処理方法、およびプログラム
JP2019161636A (ja) * 2018-03-09 2019-09-19 バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド スマートテレビの音声インタラクティブフィードバック方法、システム及びコンピュータプログラム
JP2019159121A (ja) * 2018-03-13 2019-09-19 東芝映像ソリューション株式会社 音声対話端末、および音声対話端末制御方法
JP2019207708A (ja) * 2018-09-07 2019-12-05 バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド スマートスピーカーのサービス処理方法、装置及びスマートスピーカー
US11321045B2 (en) 2018-09-07 2022-05-03 Baidu Online Network Technology (Beijing) Co., Ltd. Service processing method and apparatus for smart sound box, and smart sound box

Also Published As

Publication number Publication date
CN108391149A (zh) 2018-08-10
MX2014015019A (es) 2015-02-20
KR20130141240A (ko) 2013-12-26
EP2674854A3 (en) 2014-03-12
CN108391149B (zh) 2021-05-25
KR102056461B1 (ko) 2019-12-16
US20190333515A1 (en) 2019-10-31
US20130339031A1 (en) 2013-12-19
WO2013187714A1 (en) 2013-12-19
CN108063969A (zh) 2018-05-22
RU2015101124A (ru) 2016-08-10
BR112014030550A2 (pt) 2018-04-10
CN108063969B (zh) 2021-05-25
EP2674854A2 (en) 2013-12-18
EP3361378A1 (en) 2018-08-15
CN103517119A (zh) 2014-01-15
CN103517119B (zh) 2018-03-27

Similar Documents

Publication Publication Date Title
US20190333515A1 (en) Display apparatus, method for controlling the display apparatus, server and method for controlling the server
US9230559B2 (en) Server and method of controlling the same
KR101309794B1 (ko) 디스플레이 장치, 디스플레이 장치의 제어 방법 및 대화형 시스템
US20140195230A1 (en) Display apparatus and method for controlling the same
JP2014132756A (ja) ディスプレイ装置及びその制御方法
JP2014132465A (ja) ディスプレイ装置及びその制御方法
US20130339015A1 (en) Terminal apparatus and control method thereof
CN103916709A (zh) 服务器和用于控制服务器的方法
KR20180014137A (ko) 디스플레이 장치 및 그의 제어 방법
KR102160756B1 (ko) 디스플레이 장치 및 디스플레이 장치의 제어 방법
KR20140026220A (ko) 단말 장치 및 단말 장치의 제어 방법
KR102091006B1 (ko) 디스플레이 장치 및 그의 제어 방법
KR102182689B1 (ko) 서버 및 그의 제어 방법
KR102118195B1 (ko) 서버 및 그의 제어 방법
KR20200133697A (ko) 서버 및 그의 제어 방법
KR20170038772A (ko) 디스플레이 장치 및 그의 제어 방법