JP2014003609A

JP2014003609A - ディスプレイ装置、ディスプレイ装置の制御方法、サーバ及びサーバの制御方法

Info

Publication number: JP2014003609A
Application number: JP2013125502A
Authority: JP
Inventors: Seung-Il Yoon; 勝一尹; Kishaku Kin; 基錫金; Sung-Kil Cho; 成吉趙; Hae-Hyeon Heo; 惠賢許
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2012-06-15
Filing date: 2013-06-14
Publication date: 2014-01-09
Also published as: CN108391149A; MX2014015019A; KR20130141240A; EP2674854A3; CN108391149B; KR102056461B1; US20190333515A1; US20130339031A1; WO2013187714A1; CN108063969A; RU2015101124A; BR112014030550A2; CN108063969B; EP2674854A2; EP3361378A1; CN103517119A; CN103517119B

Abstract

【課題】本発明の目的とするところは、外部のサーバと連動してユーザと対話可能なディスプレイ装置、ディスプレイ装置の制御方法、サーバ及びサーバの制御方法を提供することにある。
【解決手段】ディスプレイ装置が開示される。本ディスプレイ装置は、ユーザの音声を収集する音声収集部と、ユーザの音声を第１サーバに伝送し、第１サーバからユーザの音声に対応するテキスト情報を受信する第１通信部と、受信されたテキスト情報を第２サーバに伝送し、テキスト情報に対応する応答情報を受信する第２通信部と、応答情報に基づいてユーザの音声に対応する応答メッセージを出力する出力部と、同一の発話意図を有するユーザの音声が再度収集された場合、以前に収集されたユーザの音声に対応する応答メッセージと差別化した応答メッセージを出力するように出力部を制御する制御部とを含む。
【選択図】図３

Description

本発明は、ディスプレイ装置、ディスプレイ装置の制御方法、サーバ及びサーバの制御方法に関し、より詳細には、サーバと連動してユーザの音声に応じて制御されるディスプレイ装置、ディスプレイ装置の制御方法、サーバ及びサーバの制御方法に関する。

電子技術の発達により、多様な種類のディスプレイ装置が開発及び普及され、ユーザの要求に応じて益々多様な機能を備えるようになった。特に、テレビの場合、最近では、インターネットと接続されてインターネットサービスまでサポートし、ユーザはテレビを通じて多くのデジタル放送チャネルまで視聴できるようになった。

一方、最近はディスプレイ装置をより便利かつ直観的に制御するために、音声認識を用いた技術が開発されている。特に、テレビの場合、ユーザの音声を認識し、音量調節またはチャネル変更のように、ユーザの音声に対応する機能を行うことができるようになった。

しかし、従来のユーザの音声を認識するディスプレイ装置は、認識された音声に対応する機能を提供するだけで、ユーザとの対話を通じてインタラクティブな情報を提供することができないという限界が存在していた。

米国特開第２００２−００８７３２１号公報

そこで、本発明は、上記問題に鑑みてなされたものであり、本発明の目的とするところは、外部のサーバと連動してユーザと対話可能なディスプレイ装置、ディスプレイ装置の制御方法、サーバ及びサーバの制御方法を提供することにある。

以上のような目的を達成するための本発明の一実施形態に係るディスプレイ装置は、ユーザの音声を収集する音声収集部と、前記ユーザの音声を第１サーバに伝送し、前記第１サーバから前記ユーザの音声に対応するテキスト情報を受信する第１通信部と、前記受信されたテキスト情報を第２サーバに伝送し、前記テキスト情報に対応する応答情報を受信する第２通信部と、前記応答情報に基づいて前記ユーザの音声に対応する応答メッセージを出力する出力部と、同一の発話意図を有するユーザの音声が再度収集された場合、以前に収集されたユーザの音声に対応する応答メッセージと差別化した応答メッセージを出力するように前記出力部を制御する制御部とを含む。

ここで、前記第２サーバは、前記テキスト情報を分析してユーザの音声に含まれた発話意図を判断し、前記判断された発話意図に対応する応答情報を前記ディスプレイ装置に伝送してよい。

なお、前記第２サーバは、連続的に受信された第１及び第２テキスト情報に含まれた発話意図が同一である場合、第１テキスト情報に対応する応答情報と差別化するように第２テキスト情報に対応する応答情報を生成して前記ディスプレイ装置に伝送してよい。

そして、前記制御部は、前記第２テキスト情報に対応する応答情報に基づいて、再度受信されたユーザの音声に対応する応答メッセージを音声及びテキストで前記出力部を介して出力してよい。

なお、前記制御部は、前記第２テキスト情報に対応する応答情報に基づいて、前記ディスプレイ装置から出力されるコンテンツに対するオーディオ音量を、前記応答メッセージで出力される音声に対する音量より相対的に低く出力するように前記出力部を制御してよい。

そして、前記制御部は、前記第２テキスト情報に対応する応答情報に基づいて、再度受信されたユーザの音声に対応する応答メッセージを、予め設定されたキーワードがハイライトされたテキストで前記出力部を介して出力してよい。

一方、本発明の一実施形態に係るディスプレイ装置と連動するサーバは、前記ディスプレイ装置から収集したユーザの音声に対応するテキスト情報を受信する通信部と、前記テキスト情報を分析して前記ユーザの音声に含まれた発話意図を判断し、前記判断された発話意図に対応する応答情報を前記ディスプレイ装置に伝送するように前記通信部を制御する制御部とを含み、前記制御部は、第１及び第２テキスト情報に含まれた発話意図が同一である場合、前記第２テキスト情報に対応する応答情報を、前記第１テキスト情報に対応する応答情報と差別化するように生成して前記ディスプレイ装置に伝送する。

ここで、前記ディスプレイ装置は、前記応答情報に基づいて、前記ユーザの音声に対応する応答メッセージを音声及びテキストのうち少なくとも一方で出力してよい。

なお、前記制御部は、前記第１及び第２テキスト情報が連続的に受信された場合、前記ディスプレイ装置から音声またはテキストで前記応答メッセージを出力するように前記第１テキスト情報に対応する応答情報を生成し、前記ディスプレイ装置から音声及びテキストで前記応答メッセージを出力するように前記第２テキスト情報に対応する応答情報を生成してよい。

そして、前記制御部は、前記第１及び第２テキスト情報が連続的に受信された場合、前記ディスプレイ装置から出力されるコンテンツに対するオーディオ音量が、前記応答メッセージで出力される音声に対する音量より相対的に低く出力されるように前記第２テキスト情報に対応する応答情報を生成してよい。

なお、前記制御部は、前記第１及び第２テキスト情報が連続的に受信された場合、前記ディスプレイ装置からテキストで前記応答メッセージを出力するように前記第１テキスト情報に対応する応答情報を生成し、前記ディスプレイ装置から予め設定されたキーワードがハイライトされたテキストで前記応答メッセージを出力するように前記第２テキスト情報に対応する応答情報を生成してよい。

一方、本発明の一実施形態に係るディスプレイ装置の制御方法は、ユーザの音声を収集するステップと、前記ユーザの音声を第１サーバに伝送し、前記第１サーバから前記ユーザの音声に対応するテキスト情報を受信するステップと、前記受信されたテキスト情報を第２サーバに伝送し、前記テキスト情報に対応する応答情報を受信するステップと、同一の発話意図を有するユーザの音声が再度収集された場合、前記応答情報に基づいて、以前に収集されたユーザの音声に対応する応答メッセージと差別化した応答メッセージを出力する出力ステップとを含む。

そして、前記出力ステップは、前記第２テキスト情報に対応する応答情報に基づいて、再度受信されたユーザの音声に対応する応答メッセージを音声及びテキストで出力してよい。

なお、前記出力ステップは、前記第２テキスト情報に対応する応答情報に基づいて、前記ディスプレイ装置から出力されるコンテンツに対するオーディオ音量を、前記応答メッセージで出力される音声に対する音量より相対的に低く出力してよい。

そして、前記出力ステップは、前記第２テキスト情報に対応する応答情報に基づいて、再度受信されたユーザの音声に対応する応答メッセージを、予め設定されたキーワードがハイライトされたテキストで出力してよい。

一方、本発明の一実施形態に係るディスプレイ装置と連動するサーバの制御方法は、前記ディスプレイ装置から収集したユーザの音声に対応するテキスト情報を受信するステップと、前記テキスト情報を分析して前記ユーザの音声に含まれた発話意図を判断するステップと、第１及び第２テキスト情報に含まれた発話意図が同一である場合、前記第２テキスト情報に対応する応答情報を、前記第１テキスト情報に対応する応答情報と差別化するように生成して前記ディスプレイ装置に伝送するステップとを含んでよい。

なお、前記伝送するステップは、前記第１及び第２テキスト情報が連続的に受信された場合、前記ディスプレイ装置から音声またはテキストで前記応答メッセージを出力するように前記第１テキスト情報に対応する応答情報を生成し、前記ディスプレイ装置から音声及びテキストで前記応答メッセージを出力するように前記第２テキスト情報に対応する応答情報を生成してよい。

そして、前記伝送するステップは、前記第１及び第２テキスト情報が連続的に受信された場合、前記ディスプレイ装置から出力されるコンテンツに対するオーディオ音量が、前記応答メッセージで出力される音声に対する音量より相対的に低く出力されるように前記第２テキスト情報に対応する応答情報を生成してよい。

なお、前記伝送するステップは、前記第１及び第２テキスト情報が連続的に受信された場合、前記ディスプレイ装置からテキストで前記応答メッセージを出力するように前記第１テキスト情報に対応する応答情報を生成し、前記ディスプレイ装置から予め設定されたキーワードがハイライトされたテキストで前記応答メッセージを出力するように前記第２テキスト情報に対応する応答情報を生成してよい。

以上説明したように、本発明によれば、ユーザと対話可能なディスプレイ装置を提供できるため、ユーザの便宜性を向上させることができる。なお、同一の発話意図を有するユーザの音声が再度収集された場合、ディスプレイ装置は以前と違って、ユーザ音声に対する応答メッセージを出力するため、ユーザの理解度を向上させることができる。

本発明の一実施形態に係る対話型システムを説明するための図である。図１に示す対話型システムの各動作を説明するためのタイミング図である。図１に示すディスプレイ装置の構成を説明するためのブロック図である。図３に示すディスプレイ装置の細部構成を説明するためのブロック図である。図１に示す第１サーバの構成を説明するためのブロック図である。図１に示す第２サーバの構成を説明するためのブロック図である。図６に示す第２サーバの細部構成を説明するためのブロック図である。本発明の一実施形態に係る対話型システムの動作を説明するための図である。本発明の一実施形態に係る対話型システムの動作を説明するための図である。本発明の一実施形態に係る対話型システムの動作を説明するための図である。本発明の一実施形態に係るディスプレイ装置の制御方法を説明するためのフローチャートである。本発明の一実施形態に係るディスプレイ装置と連動するサーバの制御方法を説明するためのフローチャートである。

以下に添付図面を参照しながら、本発明の好適な実施形態について詳細に説明する。

図１は、本発明の一実施形態に係る対話型システムを説明するための図である。同図に示すように、対話型システムは、ディスプレイ装置１００と、第１サーバ２００及び第２サーバ３００を含む。ディスプレイ装置１００は、同図に示すように、スマートテレビであってよいが、それは一実施形態に過ぎず、スマートフォンのような携帯電話、デスクトップパソコン、ノートパソコン、ナビゲーション等のような多様な電子装置で実現されてよい。

一方、ディスプレイ装置１００は、ディスプレイ装置１００を制御するための遠隔制御装置（図示せず）によって制御されてよい。例えば、ディスプレイ装置１００がテレビで実現された場合、リモコン（図示せず）から受信された制御信号に応じて電源オン／オフ、チャネル変換、音量変更等の動作を行うことができる。

ディスプレイ装置１００は、収集されたユーザの音声を第１サーバ２００に伝送する。第１サーバ２００は、ディスプレイ装置１００からユーザの音声が受信されると、受信されたユーザの音声をテキスト情報（または、テキスト）に変換し、テキスト情報をディスプレイ装置１００に伝送する。

そして、ディスプレイ装置１００は、第１サーバ２００から受信されたテキスト情報を第２サーバ３００に伝送する。ディスプレイ装置１００からテキスト情報が受信されると、第２サーバ３００は、受信されたテキスト情報に対応する応答情報を生成してディスプレイ装置１００に伝送する。

ディスプレイ装置１００は、第２サーバ３００から受信された応答情報に基づいて、多様な動作を行うことができる。例えば、ディスプレイ装置１００は、ユーザの音声に対応する応答メッセージを出力することができる。ここで、応答メッセージは、音声及びテキストのうち少なくとも一方で出力されてよい。具体的に、ディスプレイ装置１００は、放送番組の放送時間を問い合わせるユーザの音声が入力されると、該当放送番組の放送時間を音声またはテキストで出力したり、これらの組み合わせで出力してよい。

なお、ディスプレイ装置１００は、ユーザの音声に対応する機能を行うことができる。例えば、ディスプレイ装置１００は、チャネル変更のためのユーザの音声が入力されると、当該チャネルを選局してディスプレイすることができる。この場合、ディスプレイ装置１００は、当該機能に対応する応答メッセージを併せて提供することもできる。上述の例の場合、ディスプレイ装置１００は、変更されたチャネルに対する情報またはチャネル変更が完了していることを示すメッセージを、音声及びテキストのうち少なくとも一方で出力することができる。

特に、ディスプレイ装置１００は、同一の発話意図を有するユーザの音声が再度収集された場合、以前に収集されたユーザの音声に対応する応答メッセージと差別化した応答メッセージを出力することができる。すなわち、上述の例において、放送番組の放送時間を問い合わせるユーザの音声が入力された後、同一の放送番組の放送時間を問い合わせるユーザの音声が再度入力された場合、ディスプレイ装置１００は多様な方式を通じて以前とは異なる形態で当該放送番組放送時間を出力することができる。

図２は、図１に示す対話型システムの各動作を説明するためのタイミング図である。

同図に示すように、ディスプレイ装置１００は、ユーザ音声を収集し（Ｓ１１）、第１サーバ２００に伝送する（Ｓ１２）。具体的に、ユーザ音声を収集するためのモードが開始されると、ディスプレイ装置１００は予め設定された距離内において、ユーザが発話した音声を収集して第１サーバ２００に伝送することができる。

そのために、ディスプレイ装置１００は、ユーザが発話した音声を受信するためのマイク等を備えてよい。この場合、マイクは、ディスプレイ装置１００に内蔵されて一体型をなすか、ディスプレイ装置１００と分離した形態で実現されてよい。分離した形態で実現される場合、マイクはユーザが手で握る形態、または食卓やテーブルに置かれる形態で実現されてよく、ディスプレイ装置１００と有線または無線ネットワークを通じて接続されてよい。

第１サーバ２００は、ディスプレイ装置１００から受信されたユーザ音声をテキスト情報に変換する（Ｓ１３）。具体的に、第１サーバ２００は、ＳＴＴ（ＳｐｅｅｃｈｔｏＴｅｘｔ）アルゴリズムを用いて、ディスプレイ装置１００から受信されたユーザの音声をテキスト情報に変換することができる。そして、第１サーバ２００は、テキスト情報をディスプレイ装置１００に伝送する（Ｓ１４）。

ディスプレイ装置１００は、第１サーバ２００から受信されたテキスト情報を第２サーバ３００に伝送する（Ｓ１５）。

第２サーバ３００は、ディスプレイ装置１００からテキスト情報が受信されると、テキスト情報に対応する応答情報を生成し（Ｓ１６）、ディスプレイ装置１００に応答情報を伝送する（Ｓ１７）。

ここで、応答情報は、ディスプレイ装置１００から応答メッセージを出力するための応答メッセージ情報を含む。応答メッセージは、ディスプレイ装置１００から収集されたユーザの音声に対応する回答として、応答メッセージ情報はユーザの音声に対してディスプレイ装置１００から出力される応答メッセージがテキスト形式で表現されたものであってよい。それにより、ディスプレイ装置１００は、応答メッセージ情報に基づいてユーザの音声に対応する応答メッセージを音声及びテキストのうち、少なくとも一方で出力することができる。なお、応答情報は、ディスプレイ装置１００でユーザ音声に対応する機能を実行するための制御命令を更に含んでよい。

一方、ディスプレイ装置１００は、受信された応答情報に基づいて、ユーザの音声に対応する動作を行う（Ｓ１８）。

具体的に、ディスプレイ装置１００は応答情報に含まれた応答メッセージ情報に基づいて、ユーザの音声に対応する応答メッセージを出力することができる。すなわち、ディスプレイ装置１００は、第２サーバ３００からテキスト形式の応答メッセージ情報が受信されると、ＴＴＳ（ＴｅｘｔｔｏＳｐｅｅｃｈ）アルゴリズムを用いてテキストを音声に変換して出力したり、応答メッセージ情報を構成するテキストが含まれるように、ＵＩ（ＵｓｅｒＩｎｔｅｒｆａｃｅ）画面を構成して出力することができる。

例えば、ディスプレイ装置１００で“○○○（放送番組名）は何時から？”というユーザ音声が収集された場合、第２サーバ３００は、“土曜日の夕方７時からです”というテキスト形式の応答メッセージ情報をディスプレイ装置１００に伝送することができる。それにより、ディスプレイ装置１００は、“土曜日の夕方７時からです”という応答メッセージを音声及びテキストのうち、少なくとも一方で出力することができる。

なお、ディスプレイ装置１００は、応答情報に含まれた制御命令に従って、ユーザ音声に対応する機能を行うように制御することができる。例えば、“ディスプレイ装置１００で○○○（放送番組名）を録画して”というユーザの音声が収集された場合、第２サーバ３００は“○○○”の予約録画機能を行うための制御命令をディスプレイ装置１００に伝送することができる。それにより、ディスプレイ装置１００は、当該放送番組に対する予約録画を行うことができる。

この場合、応答情報は、ディスプレイ装置１００で実行される機能に対応する応答メッセージ情報を更に含んでよい。すなわち、上述の例において、第２サーバ３００は、“○○○の録画が予約されました”というテキスト形式の応答メッセージ情報をディスプレイ装置１００に制御命令とともに伝送し、ディスプレイ装置１００は予約録画機能の実行とともに、“○○○の録画が予約されました”という応答メッセージを音声及びテキストのうち、少なくとも一方で出力することができる。

一方、ディスプレイ装置１００は、ユーザの音声が再度収集されると（Ｓ１９）、それを第１サーバ２００に伝送し（Ｓ２０）、第１サーバ２００は、ディスプレイ装置１００から受信されたユーザ音声をテキスト情報に変換する（Ｓ２１）。

その後、第１サーバ２００が、テキスト情報をディスプレイ装置１００に伝送すると（Ｓ２２）、ディスプレイ装置１００は、受信されたテキスト情報を第２サーバ３００に伝送する（Ｓ２３）。

一方、第２サーバ３００は、ディスプレイ装置１００からテキスト情報が受信されると、テキスト情報に対応する応答情報を生成し（Ｓ２４）、ディスプレイ装置１００に伝送する（Ｓ２５）。

このとき、第２サーバ３００は、現在受信されたテキスト情報に含まれたユーザの発話意図が以前に受信されたテキスト情報に含まれたユーザの発話意図と同一ではない場合、以前と同一の方式で応答情報を生成してディスプレイ総理１００に伝送する。

しかし、第２サーバ３００は、現在受信されたテキスト情報に含まれたユーザの発話意図が以前に受信されたテキスト情報に含まれたユーザの発話意図と同一である場合、以前に生成された応答情報と差別化するように現在受信されたテキスト情報に対応する応答情報を生成してディスプレイ装置１００に伝送する。

例えば、“現在放送中の番組の名前は何？”というユーザ音声が入力された後、それと同様の発話意図を有するユーザ音声が入力された場合を仮定する。ここで、同一の発話意図を有するユーザ音声は、“現在放送中の番組の名前は何？”のように、以前と同一のユーザ音声及び“何？”または“もう一度言ってくれる？”等のように、以前と同様の回答を誘導できるユーザ音声を含む。

この場合、第２サーバ３００は、ディスプレイ装置１００で“お問い合わせの放送番組は○○○（放送番組名）です”という応答メッセージが音声及びテキストで出力されるように応答情報を生成したり、ディスプレイ装置１００で放送番組のタイトルがハイライトされた“お問い合わせの放送番組は○○○です”という応答メッセージがテキストで出力されるように応答情報を生成することができる。なお、ディスプレイ装置１００でコンテンツを再生している場合、第２サーバ３００は、ディスプレイ装置１００から出力されるコンテンツのオーディオ音量が応答メッセージで出力される音声の音量より低く出力されるようにする制御命令を生成することができる。

一方、ディスプレイ装置１００は、応答情報に基づいてユーザ音声に対応する動作を行う（Ｓ２６）。特に、同一の発話意図を有するユーザの音声が再度収集された場合、以前ユーザの音声に対応する応答メッセージと区別できるように、現在ユーザの音声に対応する応答メッセージが多様な形態で出力することができる。

具体的に、ディスプレイ装置１００は、応答メッセージを音声及びテキストで出力したり、予め設定されたキーワードがハイライトされたテキストで出力したり、応答メッセージで出力される音声の音量をディスプレイ装置１００から出力されるコンテンツのオーディオ音量より高く出力することができる。

図３は、図１に示すディスプレイ装置の構成を説明するためのブロック図である。同図に示すように、ディスプレイ装置１００は、音声収集部１１０と、第１通信部１２０と、第２通信部１３０と、出力部１４０及び制御部１５０を含む。

音声収集部１１０は、ユーザの音声を収集する。例えば、音声収集部１１０は、ユーザの音声を収集するためのマイクで実現され、ディスプレイ装置１００に内蔵されて一体型をなすか、ディスプレイ装置１００と分離された形態で実現されてよい。分離された形態で実現される場合、音声収集部１１０は、ユーザが手で握る形態、または食卓やテーブルに置かれる形態で実現されてよく、ディスプレイ装置１００と有線または無線ネットワークを通じて接続されて収集されたユーザの音声をディスプレイ装置１００に伝送することができる。

一方、音声収集部１１０は、収集された音声がユーザの音声かを判断し、ユーザの音声からノイズ（例えば、エアコンの音や掃除機の音、音楽の音等）をフィルタリングすることもできる。

例えば、音声収集部１１０は、アナログ形態のユーザ音声が入力されると、それをサンプリングしてデジタル信号に変換する。そして、音声収集部１１０は、変換されたデジタル信号のエネルギーを計算し、デジタル信号のエネルギーが予め設定された値以上であるか否かを判断する。

デジタル信号のエネルギーが予め設定された値以上である場合、音声収集部１１０はデジタル信号からノイズ成分を除去し、第１通信部１２０に伝達する。このとき、ノイズ成分は、家庭環境で発生し得る突発性雑音として、エアコンの音や掃除機の音、音楽の音等が含まれてよい。一方、デジタル信号のエネルギーが予め設定された値未満である場合、音声収集部１１０はデジタル信号に特別な処理過程を経ずに、別の入力を待つ。

それにより、ユーザの音声ではない別の音によって全オーディオ処理過程が活性化しないため、無駄な電力消耗を防止することができる。

第１通信部１２０は、第１サーバ（図１の２００）と通信を行う。具体的に、第１通信部１２０は、ユーザの音声を第１サーバ２００に伝送し、ユーザの音声に対応するテキスト情報を第１サーバ２００から受信することができる。

第２通信部１３０は、第２サーバ（図１の３００）と通信を行う。具体的に、第２通信部１３０は、受信されたテキスト情報を第２サーバ３００に伝送し、テキスト情報に対応する応答情報を第２サーバ３００から受信することができる。

そのために、第１通信部１２０及び第２通信部１３０は、多様な通信方式を用いて第１サーバ２００及び第２サーバ３００と通信を行うことができる。

例えば、第１通信部１２０及び第２通信部１３０は、有／無線ＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）、ＷＡＮ、イーサネット（登録商標）、ブルートゥース（Ｂｌｕｅｔｏｏｔｈ（登録商標））、Ｚｉｇｂｅｅ（登録商標）、ＵＳＢ（ＵｎｉｖｅｒｓａｌＳｅｒｉａｌＢｕｓ）、ＩＥＥＥ１３９４、Ｗｉ−Ｆｉ等を用いて、第１サーバ２００及び第２サーバ３００と通信を行うことができる。そのために、第１通信部１２０及び第２通信部１３０は、各通信方式に対応するチップまたは入力ポート等を具備することができる。例えば、有線ＬＡＮ方式で通信を行う場合、第１通信部１２０及び第２通信部１３０は、有線ＬＡＮカード（図示せず）及び入力ポート（図示せず）を備えてよい。

一方、上述の実施形態では、ディスプレイ装置１００が第１サーバ２００及び第２サーバ３００と通信を行うために、別途の通信部１２０、１３０を備えるものとして説明したが、それは一例に過ぎない。すなわち、ディスプレイ装置１００は一つの通信モジュールを通じて第１サーバ２００及び第２サーバ３００と通信を行うことができることは言うまでもない。

出力部１４０は、応答情報に基づいて、ユーザの音声に対応する応答メッセージを出力することができる。具体的に、出力部１４０は、応答メッセージを音声及びテキストのうち、少なくとも一方の形態で出力することができ、そのために、ディスプレイ部（図示せず）及びオーディオ出力部（図示せず）を備えてよい。

具体的に、ディスプレイ部（図示せず）は、液晶表示装置（ＬｉｑｕｉｄＣｒｙｓｔａｌＤｉｓｐｌａｙ：ＬＣＤ）、有機電気発光ダイオード（ＯｒｇａｎｉｃＬｉｇｈｔＥｍｉｔｔｉｎｇＤｉｓｐｌａｙ：ＯＬＥＤ）またはプラズマ表示パネル（ＰｌａｓｍａＤｉｓｐｌａｙＰａｎｅｌ：ＰＤＰ）等で実現され、ディスプレイ装置１００を介して提供可能な多様なディスプレイ画面を提供することができる。特に、ディスプレイ部（図示せず）は、ユーザの音声に対応する応答メッセージをテキストまたはイメージ形態でディスプレイすることができる。

ここで、ディスプレイ部（図示せず）がタッチパッドとともに相互レイヤ構造をなすタッチスクリーン形態で実現されてよく、タッチスクリーンはタッチ入力位置、面積、タッチ入力の圧力までも検出するように構成されてよい。

一方、オーディオ出力部（図示せず）は、ジャック等のような出力ポートまたはスピーカ等で実現され、ユーザ音声に対応する応答メッセージを音声で出力することができる。

制御部１５０は、ディスプレイ装置１００の動作全般を制御する。具体的に、制御部１５０は、音声収集部１１０を介してユーザの音声を収集し、収集されたユーザの音声を第１サーバ２００に伝送するように第１通信部１２０を制御することができる。そして、制御部１５０は、ユーザの音声に対応するテキスト情報を受信するように、第１通信部１２０を制御することができる。

一方、制御部１５０は、テキスト情報に対応する応答情報が第２サーバ３００から受信されると、応答情報に基づいてユーザの音声に対応する応答メッセージを出力するように出力部１４０を制御することができる。

ここで、応答情報は、応答メッセージを出力するための応答メッセージ情報を含んでよい。応答メッセージ情報は、ユーザの音声に対してディスプレイ装置１００から出力される応答メッセージがテキスト形式で表現されたものとして、制御部１５０は応答メッセージ情報に基づいて、ユーザの音声に対応する応答メッセージを音声及びテキストのうち、少なくとも一方の形態で出力部１４０を介して出力することができる。

具体的に、制御部１５０は、ＴＴＳエンジンを用いて、テキスト形態の応答メッセージ情報を音声に変換して出力部１４０を介して出力することができる。ここで、ＴＴＳエンジンとは、テキストを音声に変換するためのモジュールとして、従来開示されている多様なＴＴＳアルゴリズムを用いてテキストを音声に変換することができる。なお、制御部１５０は、応答メッセージ情報を構成するテキストを含むように、ＵＩ画面を構成して出力部１４０を介して出力することもできる。

例えば、テレビで実現されたディスプレイ装置１００が“一番人気のある番組名を教えて”というユーザの音声を収集すると、第２サーバ３００は“一番人気のある番組は○○○（放送番組名）です”をテキスト形式で表現してディスプレイ装置１００に伝送することができる。この場合、制御部１５０は、“一番人気のある番組は○○○（放送番組名）です”を音声に変換して出力部１４０を介して出力したり、“一番人気のある番組は○○○（放送番組名）です”というテキストが含まれるように、ＵＩ画面を構成して出力部１４０を介して出力するように制御することができる。

このように、制御部１５０は、ディスプレイ装置１００で別途の機能を実行することなく、ユーザ音声に対応する応答メッセージを出力する場合は、ユーザの音声がディスプレイ装置１００で実行できない機能を実行させようとする意味を含んだり、回答を要求する質問である場合を挙げることができる。

例えば、ディスプレイ装置１００がスマートテレビで実現され、“ＸＸＸに電話をかけて”というユーザ音声が入力されたが、スマートテレビでテレビ電話機能をサポートしていない場合、制御部１５０は、別途の機能を実行することなく、第２サーバ３００から受信された応答メッセージ情報に基づいて“サポートされていない機能です”という応答メッセージを出力部１４０を介して音声及びテキストのうち少なくとも一方で出力することができる。なお、ディスプレイ装置１００がスマートテレビで実現され、“最近一番人気のある番組名を教えて”というユーザ音声が入力されると、制御部１５０は別途の機能を実行することなく、第２サーバ３００から受信された応答メッセージ情報に基づいて“一番人気のある番組は○○○（放送番組名）です”という応答メッセージを、出力部１４０を介して音声及びテキストのうち少なくとも一方で出力することができる。

一方、応答情報は、ディスプレイ装置１００の機能を制御するための制御命令を更に含んでよい。ここで、制御命令は、ディスプレイ装置１００で実行可能な機能のうち、ユーザの音声に対応する機能を実行するための命令を含んでよい。これにより、制御部１５０は、第２サーバ３００から受信された制御命令に基づいてディスプレイ装置１００の製品種類に応じて、ディスプレイ装置１００で実行可能な特定機能を実行するようにディスプレイ装置１００の各構成要素を制御することができる。

例えば、テレビで実現されたディスプレイ装置１００が、“テレビの音量を上げて”というユーザ音声を収集すると、第２サーバ３００はディスプレイ装置１００の音量を上げるための制御命令をディスプレイ装置１００に伝送することができる。この場合、制御部１５０は、制御命令に基づいて出力部１４０を介して出力されるオーディオの音量を上げることができる。ただ、それは一例に過ぎず、制御部１５０は、収集されたユーザの音声に応じて、電源オン／オフ、チャネル変更等の多様な動作が行われるように、ディスプレイ装置１００の各構成要素を制御することができる。

なお、応答情報は、ディスプレイ装置１００の機能を制御するための制御命令及び制御命令に従って実行された特定機能に関連する応答メッセージ情報を含んでよい。この場合、制御部１５０は、制御命令による機能を行い、それに関連した応答メッセージを音声及びテキストのうち、少なくとも一方で出力部１４０を介して出力することができる。

例えば、ユーザの音声がディスプレイ装置１００で実行できる機能を実行させようとする意味を含むと、制御部１５０は、第２サーバ３００から受信された制御命令に従ってユーザが意図する機能を実行し、応答メッセージ情報に基づいて実行された機能に関連したメッセージを音声及びテキストのうち少なくとも一方で出力することができる。例えば、ディスプレイ装置１００がスマートテレビで実現され、“チャネルを１１番に変更して”というユーザ音声が入力されると、制御部１５０は、チャネルを１１番に変更するための制御命令に従ってチャネル１１番を選局し、応答メッセージ情報に基づいて、“チャネルを１１番に変更しました”または“チャネル変更が完了しました”という応答メッセージを音声及びテキストのうち少なくとも一方で出力部１４０を介して出力することができる。

一方、制御部１５０は、同様の発話意図を有するユーザの音声が再度収集された場合、以前に収集されたユーザの音声に対応する応答メッセージと差別化した応答メッセージを出力するように出力部１４０を制御することができる。

ここで、同様の発話意図を有するユーザの音声とは、以前に収集したユーザの音声と同一のユーザの音声及び以前に収集されたユーザの音声と同一の回答を誘導するためのユーザの音声を含んでよい。例えば、以前に収集されたユーザの音声が“現在放送中の番組は何時に終わる？”である場合、同様の発話意図を有するユーザ音声は以前と同一の“現在放送中の番組は何時に終わる？”または“何？”、“何時に？”、“もう一度言って”のような以前のユーザ音声と同一の回答を誘導できるユーザ音声を含んでよい。

すなわち、制御部１５０は、以前に収集されたユーザの音声と同一の意図を有する音声が再度収集されると、以前に収集されたユーザの音声に対して出力されていた応答メッセージとは異なるように、現在収集されたユーザの音声に対する応答メッセージを出力することができる。

以下では、以前に収集されたユーザの音声がテキストに変換されたものを第１テキスト情報とし、以前に収集されたユーザの音声と同一の発話意図を有し、その以後に収集されたユーザの音声がテキストに変換されたものを第２テキスト情報とする。

この場合、第１テキスト情報と第２テクスト情報とは、ディスプレイ装置１００から連続的に収集された音声がそれぞれ変換されてテキストであってよい。すなわち、ディスプレイ装置１００からユーザの音声を収集して、それに対応する応答メッセージを出力した後、その次に収集されたユーザの音声が同様の発話意図を有する場合、順次に受信された各ユーザの音声の変換されたテキストが、第１テキスト情報と第２テキスト情報であってよい。

ただ、第１テキスト情報と第２テキスト情報とは、必ずしも連続的に収集された音声が変換されたテキストに限定される必要はない。すなわち、以前に収集されたユーザの音声と同一のユーザの音声が受信される場合には、当該ユーザの音声が連続的に受信されなくても、同様の発話意図を有するユーザの音声と見なすことができるため、各ユーザの音声の変換されたテキストが、第１及び第２テキスト情報であってよい。

一方、制御部１５０は、第２テキスト情報に対応する応答情報に基づいて、再度受信されたユーザの音声に対応する応答メッセージを音声及びテキストで出力部１４０を介して出力することができる。

すなわち、制御部１５０は、第１テキスト情報に対応する応答メッセージ情報が第２サーバ３００から受信され、以前収集されたユーザの音声に対応する応答メッセージを音声またはテキストで出力した場合、第２テキスト情報に対応する応答メッセージ情報を第２サーバ３００から受信し、現在収集されたユーザの音声に対応する応答メッセージを音声及びテキストで出力することができる。

例えば、以前に収集されたユーザの音声が“現在放送中の番組の名前は何？”である場合を仮定する。この場合、制御部１５０は、第２サーバ３００から受信された応答メッセージ情報に基づいて、“お問い合わせの番組の名前は○○○（放送番組名）です”という応答メッセージを出力部１４０を介して音声で出力することができる。その後、“現在放送中の番組の名前は何？”または“何？”、“もう一度言って”等のように、以前収集されたユーザの音声と同様の発話意図を有するユーザの音声が受信されると、制御部１５０は、第２サーバ３００から受信された制御命令及び応答メッセージ情報に基づいて、“お問い合わせの番組の名前は○○○です”という応答メッセージを出力部１４０を介して音声及びテキストで出力することができる。ここで、制御命令は、ディスプレイ装置１００で応答メッセージが音声及びテキストの両方で出力されるようにする命令であってよい。

なお、制御部１５０は、第２テキスト情報に対応する応答情報に基づいて、ディスプレイ装置１００から出力されるコンテンツに対するオーディオ音量を応答メッセージで出力される音声に対する音量より相対的に低く出力するように出力部１４０を制御することができる。ここで、コンテンツは、放送コンテンツ、各種マルチメディアコンテンツ等を含んでよい。

具体的に、制御部１５０は、第２サーバ３００から受信された制御命令に基づいてコンテンツの音量を予め設定されたレベルに下げたり、音声で出力される応答メッセージの音量を予め設定されたレベルに上げて、コンテンツのオーディオより応答メッセージで出力される音声を相対的に高い音量で出力することができる。このように、制御部１５０は、応答メッセージで出力される音声の音量をコンテンツのオーディオ音量より相対的に高く出力するために、コンテンツ音量または応答メッセージの音量を調節することができる。なお、制御部１５０は、応答メッセージで出力される音声の音量及びコンテンツのオーディオ音量の両方を調節することもできる。例えば、制御部１５０は、コンテンツの音量を予め設定されたレベルに下げ、コンテンツのオーディオ音量より予め設定されたレベルだけ高いレベルで応答メッセージで出力される音声を出力することができる。

なお、制御部１５０は、第２テキスト情報に対応する応答情報に基づいて、再度受信されたユーザの音声に対応する応答メッセージを予め設定されたキーワードがハイライトされたテキストで出力部１４０を介して出力することができる。

ここで、ハイライトされて表示されるキーワードは、ユーザの発話意図に応じて異なってよい。例えば、制御部１５０は、ユーザの発話意図が特定の放送番組のタイトルを問い合わせるものなら、放送番組のタイトルをハイライトさせて出力し、ユーザの発話意図が特定の放送番組の開始時間を問い合わせるものなら、番組の開始時間をハイライトさせて出力することができる。

例えば、以後に収集されたユーザの音声が“現在放送中の番組の終了時間は何時？”という場合を仮定する。この場合、制御部１５０は、第２サーバ３００から受信された応答メッセージ情報に基づいて、“お問い合わせの番組の終了時間はＸＸ時ＸＸ分です”という応答メッセージを出力部１４０を介してテキストで出力する一方で、“ＸＸ時ＸＸ分”をハイライトさせて出力することができる。

しかし、それは一例に過ぎず、制御部１５０は、多様な方式で予め設定されたキーワードを他のキーワードと区分させることができる。すなわち、制御部１５０は、キーワードを別のテキストより大きく表示したり、色を変えて出力することもできる。

一方、上述の実施形態では、第２サーバ３００から伝送される応答メッセージ情報は、応答メッセージがテキスト形式で表現されたものとして説明したが、それは一例に過ぎない。すなわち、応答メッセージ情報は、ディスプレイ装置１００から出力される応答メッセージを構成する音声データそのものか、当該応答メッセージを構成する音声データの一部か、ディスプレイ装置１００に予め保存された音声またはテキストを用いて、当該応答メッセージを出力するための制御信号の形態であってよい。

それにより、制御部１５０は、応答メッセージ情報の形態を考慮し、応答メッセージを出力することができる。具体的に、制御部１５０は、応答メッセージを構成する音声データそのものが受信されると、当該データを出力部１４０から出力可能な形態で処理して出力することができる。

一方で、制御部１５０は、応答メッセージを出力するための制御信号が受信されると、ディスプレイ装置１００に予め保存されたデータのうち、制御信号にマッチするデータを検索し、検索された音声またはテキストデータを出力可能な形態で処理して、出力部１４０を介して出力することができる。そのために、ディスプレイ装置１００は、機能実行に関連した応答メッセージを提供するための音声またはテキストデータ、情報提供要請に関連した音声またはテキストデータ等を保存していることができる。例えば、ディスプレイ装置１００は、“チャネル変更が完了しました”といった完全な文章形態のデータを保存していてよく、なお、“チャネルを・・番に変更しました”のような文章を構成する一部データを保存していてよい。この場合、当該文章を完成させるチャネル名は第２サーバ３００から受信されてよい。

図４は、図３に示すディスプレイ装置の細部構成を説明するためのブロック図である。同図に示すように、ディスプレイ装置１００は、図３に示す構成要素の他に、入力部１６０と、保存部１７０と、受信部１８０及び信号処理部１９０を更に含んでよい。図４に示す構成要素のうち、図３に示す構成要素と重複する構成要素は、その機能が同一であるため、詳細な説明は省略する。

入力部１６０は、多様なユーザ操作を受信して制御部１５０に伝達するための入力手段として、入力パネルで実現されてよい。ここで、入力パネルは、タッチパッド（ＴｏｕｃｈＰａｄ）或いは各種機能キーや数字キー、特殊キー、文字キー等を備えたキーパッド（ＫｅｙＰａｄ）またはタッチスクリーン（ＴｏｕｃｈＳｃｒｅｅｎ）方式で行われてよい。更に、入力部１６０は、ディスプレイ装置１００を制御するためのリモコンから伝送されるリモコン信号を受信するためのＩＲ受信部（図示せず）で実現されてよい。

一方、入力部１６０は、ディスプレイ装置１００の機能を制御するための各種ユーザ操作を受信することができる。例えば、ディスプレイ装置１００がスマートテレビで実現される場合、電源オン／オフ、チャネル変更、音量変更等、スマートテレビの機能を制御するためのユーザ操作を受信することができる。この場合、制御部１５０は、入力部１６０を介して入力されたユーザ操作に対応する各種機能を実行するように別の構成要素を制御することができる。例えば、制御部１５０は、電源オフ命令が入力されると、ディスプレイ装置１００の各構成要素に供給される電源を遮断することができ、チャネル変更が入力されると、ユーザ操作に応じて選択されたチャネルを選局するように、受信部１８０を制御することができる。

特に、入力部１６０は、ユーザの音声を収集するための音声認識モードを開始するためのユーザ操作を入力される。例えば、入力部１６０は、ディスプレイ部とともにタッチスクリーン形態で実現され、音声認識モードを入力されるためのオブジェクト（仮に、アイコン）をディスプレイすることができる。一方で、入力部１６０は、音声認識モードを入力されるための別途のボタンを備えることもできる。音声認識モードを開始するためのユーザ操作が入力部１６０を介して入力されると、制御部１５０は音声収集部１１０を活性化して、予め設定された距離内で発話されるユーザの音声を収集することができる。そして、制御部１５０は、第１サーバ２００及び第２サーバ３００との通信を通じて収集されたユーザ音声に対応する応答情報を受信し、応答メッセージを出力したり、特定機能を実行するように制御することができる。

保存部１７０は、ディスプレイ装置１００を動作させるために必要な各種プログラム等が保存される保存媒体として、メモリやＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）等で実現可能である。例えば、保存部１７０は、制御部１５０の動作実行のためのプログラムを保存するためのＲＯＭ、制御部１５０の動作実行によるデータを一時的に保存するためのＲＡＭ等を備えてよい。なお、各種参照データを保存するためのＥＥＰＲＯＭ（ＥｌｅｃｔｒｉｃａｌｌｙＥｒａｓａｂｌｅａｎｄＰｒｏｇｒａｍｍａｂｌｅＲＯＭ）等を更に備えてよい。

特に、保存部１７０は、ユーザの音声に対応する各種応答メッセージを音声またはテキストデータで予め保存していてよい。それにより、制御部１５０は、第２サーバ３００から受信される音声メッセージ情報（特に、制御信号）に対応する音声またはテキストデータを保存部１７０から読み取ってオーディオ出力部１４２またはディスプレイ部１４１に出力することができる。この場合、制御部１５０は、音声データに対してデコーディング等の信号処理を行い、デコーディングされた音声データを増幅してオーディオ出力部１４２を介して出力することができ、テキストデータを構成するテキストが含まれるようにＵＩ画面を構成してディスプレイ部１４１を介して出力することができる。上述の実施形態では、制御部１５０が保存部１７０から読み取られた音声及びテキストデータに対する信号処理を行うものとして説明したが、制御部１５０は、音声及びテキストデータに対する信号処理を行うように、信号処理部１９０を制御することもできる。

受信部１８０は、多様なコンテンツを受信する。具体的に、受信部１８０は、放送ネットワークを用いて放送番組コンテンツを伝送する放送局またはインターネットを用いてコンテンツファイルを伝送するウェブサーバからコンテンツを受信する。なお、ディスプレイ装置１００内に設けられたり、ディスプレイ装置１００に接続された各種記録媒体再生装置からコンテンツを受信することもできる。記録媒体再生装置とは、ＣＤやＤＶＤ、ハードディスク、ブルーレイディスク、メモリカード、ＵＳＢメモリ等のような多様な記録媒体に保存されたコンテンツを再生する装置を意味する。

放送局からコンテンツを受信する実施形態の場合には、受信部１８０は、チューナ（図示せず）、復調器（図示せず）、等化器（図示せず）等のような構成を含む形態で実現されてよい。一方、ウェブサーバのようなソースからコンテンツを受信する実施形態の場合には、受信部１８０は、ネットワークインターフェースカード（図示せず）で実現されてよい。または、上述の各種記録媒体再生装置からコンテンツを受信する実施形態の場合には、受信部１８０は、記録媒体再生装置と接続されたインターフェース部（図示せず）で実現されてよい。このように、受信部１８０は、実施形態に応じて多様な形態で実現されてよい。

信号処理部１９０は、受信部１８０を介して受信されたコンテンツが出力部１４０を介して出力できるようにコンテンツに対する信号処理を行う。

具体的に、信号処理部１９０は、コンテンツに含まれたビデオ信号に対してデコーディング、スケーリング及びフレームレート変換等の動作を行い、ディスプレイ部１４１から出力可能な形態でビデオ信号を変換することができる。なお、信号処理部１９０は、コンテンツに含まれたオーディオ信号に対してデコーディング等の信号処理を行ってオーディオ出力部１４２から出力可能な形態でオーディオ信号を変換することができる。

図５は、図１に示す第１サーバの構成を説明するためのブロック図である。同図に示すように、第１サーバ２００は、通信部２１０及び制御部２２０を含む。

通信部２１０は、ディスプレイ装置１００と通信を行う。具体的に、通信部２１０は、ディスプレイ装置１００からユーザの音声を受信し、ユーザ音声に対応するテキスト情報をディスプレイ装置１００に伝送することができる。そのために、通信部２１０は、多様な通信モジュールを含んでよい。

制御部２２０は、第１サーバ２００の動作全般を制御する。特に、制御部２２０は、ディスプレイ装置１００からユーザの音声が受信されると、ユーザの音声に対応するテキスト情報を生成し、それをディスプレイ装置１００に伝送するように通信部２１０を制御する。

具体的に、制御部２２０は、ＳＴＴ（ＳｐｅｅｃｈｔｏＴｅｘｔ）エンジンを用いて、ユーザの音声に対応するテキスト情報を生成することができる。ここで、ＳＴＴエンジンとは、音声信号をテキストに変換するためのモジュールとして、従来開示されている多様なＳＴＴアルゴリズムを用いて音声信号をテキストに変換することができる。

例えば、制御部２２０は、受信されたユーザの音声内でユーザが発話した音声の開始と終了とを検出して音声区間を判断する。具体的に、制御部２２０は、受信された音声信号のエネルギーを計算し、計算されたエネルギーに応じて音声信号のエネルギーレベルを分類して、動的プログラミングを通じて音声区間を検出することができる。そして、制御部２２０は、検出された音声区間内において、音響モデル（ＡｃｏｕｓｔｉｃＭｏｄｅｌ）に基づいて、音声の最小単位である音素を検出して音素データを生成し、生成された音素データにＨＭＭ（ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ）確率モデルを適用して、ユーザの音声をテキストに変換することができる。

図６は、図１に示す第２サーバの構成を説明するためのブロック図である。同図に示すように、第２サーバ３００は、通信部３１０及び制御部３２０を含む。

通信部３１０は、ディスプレイ装置１００から収集したユーザの音声に対応するテキスト情報を受信する。そして、通信部３１０は、テキスト情報に対応する応答情報をディスプレイ装置１００に伝送することができる。

そのために、通信部３１０は、ディスプレイ装置１００と通信を行うための多様な通信モジュールを含んでよい。

なお、通信部３１０は、インターネット網を通じてウェブサーバ（図示せず）と通信を行い、各種検索キーワードをウェブサーバに伝送し、それによるウェブ検索結果を受信することができる。ここで、検索キーワードとは、天気関連キーワード（仮に、地域名、気温、降雨確率等）、コンテンツ関連キーワード（仮に、映画のタイトル、映画の公開日、音楽のタイトル、ミュージシャン等）等のように、ウェブ検索が可能な多様なキーワードを含んでよく、各種検索キーワードは、第２サーバ３００に保存されていてよい。

制御部３２０は、第２サーバ３００の動作全般を制御する。特に、制御部３２０は、受信されたテキスト情報に対応する応答情報を生成し、生成された応答情報を通信部３１０を介してディスプレイ装置１００に伝送するように制御する。具体的に、制御部３２０は、テキスト情報を分析してユーザの音声に含まれた発話意図を判断し、判断された発話意図に対応する応答情報をディスプレイ装置１００に伝送するように通信部３１０を制御する。

そのために、制御部３２０は、受信されたテキストにマッチする対話パターンが存在するコーパス（ｃｏｒｐｕｓ）データベースを検出し、ユーザの音声が属するサービスドメインを判断することができる。

ここで、サービスドメインは、ユーザが発話した音声が属するテーマに応じて、“放送”、“ＶＯＤ”、“アプリ管理”、“機器制御”、“情報（天気や株式、ニュース等）提供”等で区分されてよい。しかし、それは一例に過ぎず、その他にも、多様なテーマに応じてサービスドメインを区分することができることはいうまでもない。

そして、コーパスデータベースは、サービスドメイン別に備えられ、各サービスドメイン別に対話パターンを保存することができる。ここで、コーパスデータベースは、例文及びそれに対する回答を保存する形態で実現されてよい。

すなわち、第２サーバ３００は、各サービスドメイン別に複数の例文及び各例文に対する回答を保存することができる。なお、第２サーバ３００は、例文を解釈するための情報及び例文に対応する回答を各例文ごとにタグ付け（Ｔａｇｇｉｎｇ）して保存することができる。

例えば、第２サーバ３００が放送サービスドメインに対する第１コーパスデータベース及び天気サービスドメインに対する第２コーパスデータベースを備える場合を仮定する。この場合、第１コーパスデータベースは、放送サービスドメイン内で発生し得る多様な対話パターンを保存することができる。

例えば、放送サービスドメイン内に“番組は何時から？”という例文が保存された場合を仮定する。

この場合、第２サーバ３００は、“番組は何時から？”といった例文を解釈するための情報を当該例文にタグ付けして保存することができる。具体的に、第２サーバ３００は、“番組は何時から？”のような例文において、“番組”は放送番組を示し、“何時”は放送時間に関するお問い合わせを示し、“から？”は例文のタイプが疑問文であることを示す情報を当該例文にタグ付けして保存することができる。

なお、第２サーバ３００は、“番組は何時から？”に対する回答を当該例文にタグ付けして保存することができる。具体的に、第２サーバ３００は、“番組は何時から？”に対する回答として、“どの番組の開始時間を知りたいですか？”をタグ付けして保存することができる。

しかし、それは一例に過ぎず、第２サーバ３００は、“○○○（放送番組名）は何時から？”という例文を保存し、当該例文を解釈するための情報及び回答を当該例文にタグ付けして保存することができる。

具体的に、第２サーバ３００は、“○○○（放送番組名）は何時から？”という例文において、“○○○（放送番組名）”は放送番組を示し、“何時”は放送時間に関するお問い合わせを示し、“から？”は例文のタイプが疑問文であることを示す情報を当該例文にタグ付けして保存することができる。なお、第２サーバ３００は、“〜は何時から？”という形式を有する例文の冒頭には、放送番組に関連する単語が配置されるという情報を当該例文にタグ付けして保存することができる。ここで、放送番組に関連する単語は、放送番組名、出演者、演出者等が含まれてよい。

なお、第２サーバ３００は、“○○○（放送番組名）は何時から？”に対する回答を当該例文にタグ付けして保存することができる。具体的に、第２サーバ３００は、“○○○（放送番組名）は何時から？”に対する回答として、“お問い合わせの＜放送番組名＞の放送時間は＜放送時間＞です”をタグ付けして保存することができる。

このように、第２サーバ３００は、放送サービスドメイン内で多様な対話パターンを保存することができる。

なお、第２コーパスデータベースは、天気サービスドメイン内で発生し得る対話パターンを保存することができる。

例えば、天気サービスドメイン内に“○○（地域名）の天気はどう？”という例文が保存された場合を仮定する。

この場合、第２サーバ３００は、“○○（地域名）の天気はどう？”のような例文を解釈するための情報を当該例文にタグ付けして保存することができる。具体的に、第２サーバ３００は、“○○（地域名）の天気はどう？”のような例文において、“○○（地域名）”は地域を示し、“天気はどう”は天気に関するお問い合わせを示し、“どう？”は例文のタイプが疑問文であることを示す情報を当該例文にタグ付けして保存することができる。なお、第２サーバ３００は、“〜天気はどう？”という形式を有する例文の冒頭には地域名称に関連した単語が配置されるという情報を当該例文にタグ付けして保存することができる。

なお、第２サーバ３００は、“○○（地域名）の天気はどう？”に対する回答を当該例文にタグ付けして保存することができる。具体的に、第２サーバ３００は、“○○（地域名）の天気はどう？”に対する回答として、“気温を教えましょうか？”をタグ付けして保存することができる。

しかし、それは一例に過ぎず、第２サーバ３００は、“○○（地域名）の気温はどう？”という例文を保存し、当該例文を解釈するための情報及び“お問い合わせの○○（地域名）の気温は＜温度＞です”という回答を当該例文にタグ付けして保存することができる。

このように、第２サーバ３００は、天気サービスドメイン内で多様な対話パターンを保存することができる。

以上では、第２サーバ３００に保存される例文及びそれに対する回答に対して説明してきた。しかし、それは一例に過ぎず、サービスドメイン別に多様な例文及びそれに対する回答が保存されていてよい。

このような場合、制御部３２０は、ディスプレイ装置１００から“番組は何時から？”というテキストが受信されると、ディスプレイ装置１００から収集されたユーザの音声が放送サービスドメインに属すると判断し、ディスプレイ装置１００から“○○（地域名）の気温はどう？”というテキストが受信されると、ディスプレイ装置１００から収集したユーザの音声が天気サービスドメインに属すると判断することができる。すなわち、制御部３２０は、受信されたテキストを各サービスドメイン別に保存された例文と比較し、受信されたテキストにマッチする例文が属するサービスドメインをユーザ音声が属するサービスドメインと判断することができる。

その後、制御部３２０は、ユーザの音声が属するサービスドメインに基づいて、ユーザの音声から対話作用（ｄｉａｌｏｇｕｅａｃｔ）、主作用（ｍａｉｎａｃｔｉｏｎ）及び構成要素（ｃｏｍｐｏｎｅｎｔｓｌｏｔ）を抽出する。例えば、制御部３２０は、ユーザの音声からＭａｘＥｎｔ（ＭａｘｉｍｕｍＥｎｔｒｏｐｙＣｌａｓｓｆｉｅｒ）を用いて対話作用、主作用を抽出し、ＣＲＦ（ＣｏｎｄｉｔｉｏｎＲａｎｄｏｍＦｉｅｌｄｓ）を用いて構成要素を抽出することができる。しかし、しかし、それに限定されるものではなく、既に公知とされている多様な方式を通じて対話作用、主作用及び構成要素を抽出することができる。例えば、制御部３２０は、ユーザの音声とマッチする例文にタグ付けされた情報を用いて、ユーザの音声から対話作用、主作用及び構成要素を抽出することもできる。

ここで、対話作用は、文章の形態に関連する分類基準として、当該文章が叙述部（Ｓｔａｔｅｍｅｎｔ）、要求文（Ｒｅｑｕｅｓｔ）、Ｗｈｙ疑問文（ＷＨ−Ｑｕｅｓｔｉｏｎ）またはＹｅｓ−Ｎｏ疑問文（ＹＮ−Ｑｕｅｓｔｉｏｎ）であるかを示すものである。主作用は、当該発話が特定ドメインで対話を通じて所望の行為を示す意味的情報である。例えば、放送サービスドメインで、主作用はテレビ電源オン／オフ、番組検索、番組時間検索、番組予約等を含んでよい。構成要素は、発話に示される特定ドメインに対する個体情報、すなわち、特定ドメインで意図する行動の意味を具体化するために与えられる情報である。例えば、放送サービスドメインにおいて、構成要素はジャンル、番組名、開始時間、チャネル名、俳優の名前等を含んでよい。

なお、制御部３２０は、抽出された対話作用、主作用及び構成要素を用いてユーザの音声に含まれた発話意図を判断し、判断された発話意図に対応する応答情報を生成してディスプレイ装置１００に伝送することができる。

ここで、応答情報は、ユーザの音声に対応する応答メッセージ情報を含む。応答メッセージ情報は、ユーザの音声に対してディスプレイ装置１００から出力される応答メッセージがテキスト形式で表現されたものとして、ディスプレイ装置１００はサーバ２００から受信された応答メッセージ情報に基づいて、ユーザの音声に対応する応答メッセージを出力することができる。

具体的に、制御部３２０は、判断された発話意図に対する回答をコーパスデータベースから抽出し、抽出された回答をテキストに変換して応答メッセージ情報を生成することができる。

例えば、テキストに変換された“○○○（放送番組名）は何時から？”というユーザ音声がディスプレイ装置１００から受信された場合を仮定する。この場合、制御部３２０は、ユーザの音声とマッチする対話パターンが存在するコーパスデータベースを検索し、“○○○は何時から？”という音声が放送サービスドメインに含まれると判断することができる。

そして、制御部３２０は、対話作用を通じて音声の文章の形態が“疑問形”であると判断し、主作用及び構成要素を通じて、“○○○”に対する“番組開始時間”を知りたがっていると判断する。結果として、制御部３２０は、ユーザ音声に含まれた発話意図は“○○○”に対して“番組開始時間”を“問い合わせる”ものと判断することができる。

その後、制御部３２０は、“○○○”に対して“番組開始時間”を“問い合わせる”発話意図に対して“お問い合わせの○○○の開始時間は…です”という回答を放送サービスドメインのコーパスデータベースから抽出する。すなわち、制御部３２０は、“○○○（放送番組名）は何時から？”という例文にマッチする回答を放送サービスドメインのコーパスデータベースから検索し、“お問い合わせの○○○の開始時間は…です”という回答を抽出することができる。

この場合、制御部３２０は、ＥＰＧ（ＥｌｅｃｔｒｏｎｉｃＰｒｏｇｒａｍＧｕｉｄｅ）情報を用いて“○○○”に対する放送開始時間を検索し、“お問い合わせの○○○の開始時間は土曜日の７時からです”という応答メッセージ情報を生成してディスプレイ装置１００に伝送することができる。

別の例として、テキストに変換された“ソウルの気温はどう？”というユーザの音声がディスプレイ装置１００から受信された場合を仮定する。この場合、制御部３２０は、ユーザの音声とマッチする対話パターンが存在するコーパスデータベースを検索し、“ソウルの気温はどう？”というユーザの音声が天気サービスドメインに含まれると判断することができる。

そして、制御部３２０は、対話作用を通じて当該音声の文章の形態が“疑問形”であると判断し、主作用及び構成要素を通じて、“ソウル”に対する“天気”を知りたがっていると判断する。結果として、制御部３２０は、ユーザ音声に含まれた発話意図は“ソウル”に対して“天気”を“問い合わせる”ものと判断することができる。

その後、制御部３２０は、“ソウル”に対して“天気”を“問い合わせる”発話意図に対して“お問い合わせのソウルの気温は…です”という回答を天気サービスドメインのコーパスデータベースから抽出する。この場合、制御部３２０は、ユーザの音声から予め保存されたキーワードを検出し、検出されたキーワードをウェブサーバに伝送するように通信部３１０を制御し、当該キーワードに関連した検索情報を受信することができる。すなわち、制御部３２０は、ユーザの音声から“ソウル”、“気温”をキーワードとして抽出し、それをウェブサーバに伝送し、ソウルの気温に対する検索結果をウェブサーバから受信し、“お問い合わせのソウルの気温は２３℃です”という応答メッセージ情報をディスプレイ装置１００に伝送することができる。

一方、ディスプレイ装置１００で応答メッセージの一部の文章データを保存している場合、制御部３２０は、当該文章を完成させるための一部のテキストをディスプレイ装置１００に伝送することができる。

例えば、テキストに変換された“○番にチャネルを変更して”というユーザの音声がディスプレイ装置１００から受信された場合を仮定する。この場合、制御部３２０は、当該音声に対する発話意図が“○番”への“チャネル変更”を“要請”すると判断することができる。

それにより、制御部３２０は、ディスプレイ装置１００で“○番”へのチャネル変更を行うための制御命令を生成して、ディスプレイ装置１００に伝送することができる。このとき、ディスプレイ装置１００で“チャネルを…番に変更しました”のようなテキストデータを保存している場合、制御部３２０は、“○番”を応答メッセージ情報として生成してディスプレイ装置１００に伝送し、ディスプレイ装置１００から“チャネルを○番に変更しました”という応答メッセージが出力されるように制御することができる。この場合、制御部３２０は、ディスプレイ装置１００に予め保存された音声データを出力するための別途の制御信号をディスプレイ装置１００に伝送することができる。

なお、応答情報は、ディスプレイ装置１００の機能を制御するための制御命令を更に含んでよい。すなわち、制御部３２０は、ユーザの発話意図に対応する機能がディスプレイ装置１００で行われるようにするための制御命令を生成してよい。

そのために、第２サーバ３００は、ユーザの発話意図に対応する制御命令を予め保存していてよい。例えば、ユーザの発話意図がチャネル変更である場合、ディスプレイ装置１００のチャネルを変更するための制御命令をマッチさせて保存し、ユーザの発話意図が予約録画である場合、ディスプレイ装置１００で特定番組に対する予約録画機能を実行させるための制御命令をマッチさせて保存していてよい。

例えば、テキストに変換された“○○○（放送番組名）を予約して”というユーザ音声がディスプレイ装置１００から受信された場合を仮定する。この場合、制御部３２０は、ユーザの音声とマッチする対話パターンが存在するコーパスデータベースを検索し、“○○○を予約して”というユーザの音声が放送サービスドメインに含まれると判断することができる。

そして、制御部３２０は、対話作用を通じて当該音声が“要請”に関連した文章形態であると判断し、主作用及び構成要素を通じて“○○○”に対する“番組予約”を望むと判断する。結果として、制御部３２０は、ユーザ音声に含まれた発話意図は“○○○”に対して“番組予約”を“要請”するものと判断することができる。

その後、制御部３２０は、“○○○”に対して“番組予約”を“要請”する発話意図に対応する制御命令を検出し、ディスプレイ装置１００で“○○○”の予約録画機能を実行するための制御命令を生成することができる。この場合、制御部３２０は、“○○○”に対して“番組予約”を“要請”する発話意図に対して、“ご要請の番組の録画が予約されました”という応答メッセージ情報を放送サービスドメインのコーパスデータベースから抽出し、ディスプレイ装置１００に併せて伝送することができる。

一方、制御部３２０は、受信されたテキストにマッチする例文にタグ付けされた情報を用いてユーザの発話意図を判断することもできる。

例えば、ディスプレイ装置１００からテキスト“○○○（放送番組名）は何時から？”が受信された場合を仮定する。

この場合、制御部３２０は、受信されたテキストが放送サービスドメインに属すると判断し、放送サービスドメイン内で受信されたテキストとマッチする例文である“○○○（放送番組名）は何時から？”にタグ付けされた情報を用いて、ユーザの音声から対話作用、主作用及び構成要素を抽出し、それに対する応答情報を生成することができる。

すなわち、放送サービスドメインに保存された例文である“○○○（放送番組名）は何時から？”には、例文を解釈するための情報として、“○○○（放送番組名）”は放送番組を示し、“何時”は放送時間に対する問い合わせを示し、“から？”は例文のタイプが疑問文であることを示す情報がタグ付けされている。よって、制御部３２０は、これらの情報を参照してディスプレイ装置１００から受信されたテキスト“○○○（放送番組名）は何時から？”の対話作用は疑問文であり、主作用は放送時間に関するお問い合わせであり、構成要素は○○○（放送番組名）であると判断することができる。それにより、制御部３２０は、ユーザの音声に含まれた発話意図は“○○○”に対する“放送時間”を“問い合わせる”ものと判断することができる。

そして、制御部３２０は、放送サービスドメインに保存された例文である“○○○（放送番組名）は何時から？”にタグ付けされた回答を、第２サーバ３００から検索し、タグ付けされた回答を用いて応答メッセージ情報を生成することができる。

すなわち、制御部３２０は、放送サービスドメインに保存された例文である“○○○（放送番組名）は何時から？”にタグ付けされた回答である“お問い合わせの○○○の開始時間は＜放送時間＞からです”をユーザ音声に対応する回答として検索する。

この場合、制御部３２０は、検索された回答に含まれたブランクを完成し、完全な形の文章を生成することができる。

例えば、制御部３２０は、“お問い合わせの＜放送番組名＞の放送時間は＜放送時間＞からです”のような回答で、ブランク＜放送番組名＞は放送番組名である“○○○（放送番組名）”を載せることができる。そして、制御部３２０は、ＥＰＧ（ＥｌｅｃｔｒｏｎｉｃＰｒｏｇｒａｍＧｕｉｄｅ）情報を通じて“○○○（放送番組名）”の放送時間を検索し、検索された放送時間を別のブランクである＜放送時間＞に載せることができる。それにより、制御部３２０は、“お問い合わせの○○○（放送番組名）の放送時間は土曜日の７時からです”という完全な形の文章をユーザの音声に対応する応答メッセージ情報として生成し、生成された応答メッセージ情報をディスプレイ装置１００に伝送することができる。

それにより、ディスプレイ装置１００は、第２サーバ３００から受信された応答メッセージ情報に基づいて、“お問い合わせの○○○（放送番組名）の放送時間は土曜日の７時からです”を音声及びテキストのうち、少なくとも一方の形態で出力することができる。

一方、制御部３２０は、現在受信されたユーザの音声に含まれたユーザの発話意図を判断することができない場合、以前に受信されたユーザの音声に参照し、現在受信されたユーザの音声に含まれたユーザの発話意図を判断することができる。すなわち、制御部３２０は、現在受信されたユーザの音声をコーパスデータベースに保存された対話パターンと比較し、現在受信されたユーザの音声が対話パターンで最初のユーザ発話に該当するか否かを判断し、最初のユーザ発話に該当しないと判断されると、以前に受信されたユーザの音声を参照し、現在受信されたユーザの音声に含まれたユーザの発話意図を判断することができる。

例えば、“○○○（放送番組名）は何時から？”というユーザ音声が入力された後、“何時から？”というユーザ音声が入力された場合を仮定する。この場合、制御部３２０は、“何時から？”というユーザ音声が放送サービスドメイン内で最初のユーザ発話に該当しないと判断されると、以前に受信された“○○○は何時から？”というユーザ音声に基づいて、“何時から？”の発話意図を判断するようになる。

すなわち、制御部３２０は、構成要素を抽出することができない“何時から？”というユーザ音声の発話意図を判断するために、以前に受信されたユーザ音声に含まれた“○○○”を用いて“何時から？”の発話意図を“○○○”に対する“番組開始時間”を“問い合わせる”ものと判断することができる。

一方、制御部３２０は、第１及び第２テキスト情報に含まれた発話意図が同一である場合、第２テキスト情報に対応する応答情報を、第１テキスト情報に対応する応答情報と差別化するように生成し、ディスプレイ装置１００に伝送することができる。

すなわち、制御部３２０は、ディスプレイ装置１００から受信されたテキスト情報に対応する応答情報を生成してディスプレイ装置１００に伝送した後、以前に受信されたテキスト情報と同一の発話意図を有するテキスト情報が受信されると、以前に受信されたテキスト情報とは差別化するように、現在受信されたテキスト情報に対応する応答情報を生成することができる。

具体的に、制御部３２０は、同一の発話意図を含む第１及び第２テキスト情報が連続的に受信された場合、ディスプレイ装置１００から音声またはテキスト応答メッセージを出力するように第１テキスト情報に対応する応答情報を生成し、ディスプレイ装置１００から音声及びテキストで応答メッセージを出力するように第２テキスト情報に対応する応答情報を生成することができる。

そのために、制御部３２０は、第２テキスト情報に対応する応答情報を生成してディスプレイ装置１００に伝送する際、ディスプレイ装置１００から音声及びテキスト両方で応答メッセージを出力するようにする制御命令を生成してディスプレイ装置１００に伝送することができる。

なお、制御部３２０は、同一の発話意図を含む第１及び第２テキスト情報を連続的に受信された場合、ディスプレイ装置１００から出力されるコンテンツに対するオーディオ音量が応答メッセージで出力される音声に対する音量より相対的に低く出力されるように、第２テキスト情報に対応する応答情報を生成することができる。

そのために、制御部３２０は、第２テキスト情報に対応する応答情報を生成してディスプレイ装置１００に伝送する際、ディスプレイ装置１００でコンテンツのオーディオ音量を予め設定されたレベルに下げたり、応答メッセージで出力される音声の音量を予め設定されたレベルに上げるための制御命令を生成してディスプレイ装置１００に伝送することができる。なお、制御部３２０は、ディスプレイ装置１００でコンテンツの音量を予め設定されたレベルに下げ、コンテンツのオーディオ音量より予め設定されたレベルだけ高いレベルに応答メッセージで出力される音声の音量を調節するための制御命令を生成してディスプレイ装置１００に伝送することもできる。

なお、制御部３２０は、同一の発話意図を含む第１及び第２テキスト情報が連続的に受信された場合、ディスプレイ装置１００からテキストで応答メッセージを出力するように第１テキスト情報に対応する応答情報を生成し、ディスプレイ装置１００で予め設定されたキーワードがハイライトされたテキストで応答メッセージを出力するように、第２テキストに対応する応答情報を生成することができる。

そのために、制御部３２０は、ディスプレイ装置１００から第２テキスト情報に対応する応答メッセージ出力時、応答メッセージ情報を構成するテキストで発話意図に対する中核回答になるキーワード、すなわち、ユーザの発話意図に対応して検索された情報をハイライトさせて出力するための制御命令を生成してディスプレイ装置１００に伝送することができる。

例えば、制御部３２０は、テキスト情報に含まれたユーザの発話意図が“○○○”に対して“番組開始時間”を“問い合わせる”ものである場合、制御部３２０は、“土曜日の７時からです”をテキスト形式でディスプレイ装置１００に伝送する。このとき、制御部３２０は、ユーザの発話意図に対する中核回答になる“土曜日の７時”をハイライトさせるための制御命令をディスプレイ装置１００に併せて伝送することができる。

図７は、図６に示す第２サーバの細部構成を説明するためのブロック図である。同図に示すように、第２サーバ３００は、図６に示す構成要素の他に、保存部３３０を更に含んでよい。図７に示す構成要素のうち、図６に示す構成要素と重複する構成要素は、その機能が同様であるため、詳細な説明は省略する。

保存部３３０は、応答情報を生成するための多様な情報を保存する。具体的に、保存部３３０は、各サービスドメイン別のコーパスデータベースを備え、サービスドメイン別の対話パターンを保存することができる。なお、保存部３３０は、ユーザの発話意図別に制御命令をマッチさせて保存していてよい。

一方、図１ないし図７において、第１サーバ２００と第２サーバ３００とが別途に実現されるものとして示しているが、それは一例に過ぎない。すなわち、第１サーバ２００と第２サーバ３００は、一つのサーバで実現されてよい。この場合、ディスプレイ装置１００はユーザの音声に対応するテキスト情報を受信せずに、一つで実現されたサーバ（図示せず）でユーザの音声をテキストに変換し、変換されたテキストに基づいてユーザの音声に対応する応答情報を生成してディスプレイ装置１００に伝送することができる。

図８ないし図１０は、本発明の一実施形態に係る対話型システムの動作を説明するための図である。

例えば、図８の（ａ）のように、放送番組を視聴していたユーザ６２０が“○○○（放送番組名）は何時から放送？”と発話した場合を仮定する。この場合、ディスプレイ装置６１０は、第１及び第２サーバ（図示せず）との連動を通じて収集された“○○○は何時から放送？”に対応する応答メッセージを音声で出力することができる。すなわち、図８の（ａ）のように、ディスプレイ装置６１０は、第２サーバから応答メッセージ情報を受信し、“○○○は何時から放送？”というユーザの音声に対して“火曜日の夜６時からです”という応答メッセージを音声で出力することができる。

その後、同一の発話意図を有するユーザの音声が再度受信された場合、ディスプレイ装置６１０は以前に受信されたユーザの音声に対する応答メッセージと差別化するように、現在受信されたユーザの音声に対する応答メッセージを音声及びテキストで出力することができる。例えば、図８の（ｂ）のように、ディスプレイ装置６１０が“○○○は何時から放送？”というユーザ６２０の音声を再度受信した場合、ディスプレイ装置６１０は第２サーバから受信された応答情報に基づいて、再度受信された“○○○は何時から放送？”に対する回答として、“火曜日の夜６時からです”を音声及びテキストで出力することができる。

一方で、図９の（ａ）に示すように、放送番組を視聴していたユーザ７２０が、“○○○は何時から放送？”と発話した場合を仮定する。この場合、ディスプレイ装置７１０は、第１及び第２サーバ（図示せず）との連動を通じて収集された“○○○は何時から放送？”に対応する応答メッセージを音声で出力することができる。すなわち、図９の（ａ）のように、ディスプレイ装置７１０は、第２サーバから応答メッセージ情報を受信し、“○○○は何時から放送？”に対するユーザの音声に対して“火曜日の夜６時からです”という応答メッセージを音声で出力することができる。

その後、同一の発話意図を有するユーザの音声が再度受信された場合、ディスプレイ装置７１０は以前に受信されたユーザの音声に対する応答メッセージと差別化するように、ディスプレイ装置７１０から出力されるオーディオの音量を調節することができる。例えば、図９の（ｂ）のように、ディスプレイ装置７１０が“○○○は何時から放送？”というユーザ７２０の音声を再度受信した場合、ディスプレイ装置７１０はサーバから受信された応答情報に基づいて、放送番組のオーディオである“ぶーん”という音量を下げ、音声で出力される音声メッセージである“火曜日の夜６時からです”の音量を放送番組のオーディオより高く出力することができる。しかし、それは一例に過ぎず、ディスプレイ装置７１０は、番組のオーディオである“ぶーん”という音量のみを予め設定されたレベルに下げたり、応答メッセージである“火曜日の夜６時からです”の音量を予め設定されたレベルに上げることもできる。

もう一方で、図１０の（ａ）に示すように、放送番組を視聴していたユーザ８２０が、“○○○は何時から放送？”と発話した場合を仮定する。この場合、ディスプレイ装置８１０は、第１及び第２サーバ（図示せず）との連動を通じて収集された“○○○は何時から放送？”に対応する応答メッセージをテキストで出力することができる。すなわち、図１０の（ａ）のように、ディスプレイ装置７１０は、第２サーバから応答メッセージ情報を受信し、“○○○は何時から放送？”に対するユーザの音声に対して“火曜日の夜６時からです”という応答メッセージをテキストで出力することができる。

その後、同一の発話意図を有するユーザの音声が再度受信された場合、ディスプレイ装置８１０は以前に受信されたユーザの音声に対する応答メッセージと差別化するように、現在受信されるユーザの音声に応じて出力されるテキストで予め設定されたキーワードの表示形態を変更して出力することができる。例えば、図１０の（ｂ）のように、ディスプレイ装置８１０が“○○○は何時から放送？”というユーザ８２０の音声を再度受信した場合、ディスプレイ装置８１０は第２サーバから受信された応答情報に基づいて出力される“火曜日の夜６時からです”で“火曜日の夜６時”をハイライトさせることができる。上述の図では、予め設定されたキーワードがハイライトされるものとして説明したが、それは一例に過ぎない。すなわち、ディスプレイ装置８１０は、上述の図１０の（ｂ）において、“火曜日の夜６時”を他のテキストより大きく表示したり、色を変えて出力することもできる。

図１１は、本発明の一実施形態に係るディスプレイ装置の制御方法を説明するためのフローチャートである。

まず、ユーザ音声を収集する（Ｓ９１０）。具体的に、ディスプレイ装置と一体型か、分離された形態のマイクを通じて、ユーザの音声を収集することができる。

続いて、ユーザの音声を第１サーバに伝送し、第１サーバからユーザの音声に対応するテキスト情報を受信する（Ｓ９２０）。そして、受信されたテキスト情報を第２サーバに伝送し、テキスト情報に対応する応答情報を受信する（Ｓ９３０）。すなわち、第２サーバは、テキスト情報を分析してユーザの音声に含まれた発話意図を判断し、判断された発話意図に対応する応答情報をディスプレイ装置に伝送することができる。

一方、同一の発話意図を有するユーザの音声が再度受信されると、応答情報に基づいて以前に収集されたユーザの音声に対応する応答メッセージと差別化した応答メッセージを出力する（Ｓ９４０）。

具体的に、第２サーバは、連続的に受信された第１及び第２テキスト情報に含まれた発話意図が同一である場合、第１テキスト情報に対応する応答情報と差別化するように、第２テキスト情報に対応する応答情報を生成してディスプレイ装置に伝送することができる。

それにより、第２テキスト情報に対応する応答情報に基づいて、再度受信されたユーザの音声に対応する応答メッセージを音声及びテキストで出力することができる。なお、第２テキスト情報に対応する応答情報に基づいて、ディスプレイ装置から出力されるコンテンツに対するオーディオ音量を応答メッセージで出力される音声に対する音量より相対的に低く出力することができる。そして、第２テキスト情報に対応する応答情報に基づいて、再度受信されたユーザの音声に対応する応答メッセージを予め設定されたキーワードがハイライトされたテキストで出力することができる。

図１２は、本発明の一実施形態に係るディスプレイ装置と連動するサーバの制御方法を説明するためのフローチャートである。

まず、ディスプレイ装置から収集したユーザの音声に対応するテキスト情報を受信する（Ｓ１０１０）。

その後、テキスト情報を分析し、ユーザの音声に含まれた発話意図を判断する（Ｓ１０２０）。この場合、ディスプレイ装置は、応答情報に基づいてユーザの音声に対応する応答メッセージを音声及びテキストのうち、少なくとも一方で出力することができる。

このとき、第１及び第２テキスト情報に含まれた発話意図が同一である場合、第２テキスト情報に対応する応答情報を、第１テキスト情報に対応する応答情報と差別化するように生成してディスプレイ装置に伝送する（Ｓ１０３０）。

具体的に、第１及び第２テキスト情報が連続的に受信された場合、ディスプレイ装置から音声またはテキストで応答メッセージを出力するように第１テキスト情報に対応する応答情報を生成し、ディスプレイ装置から音声及びテキストで応答メッセージを出力するように第２テキスト情報に対応する応答情報を生成することができる。

なお、第１及び第２テキスト情報が連続的に受信された場合、ディスプレイ装置から出力されるコンテンツに対するオーディオ音量が応答メッセージで出力される音声に対する音量より相対的に低く出力されるように第２テキスト情報に対応する応答情報を生成することもできる。

そして、第１及び第２テキスト情報が連続的に受信された場合、ディスプレイ装置からテキストで応答メッセージを出力するように第１テキスト情報に対応する応答情報を生成し、ディスプレイ装置から予め設定されたキーワードがハイライトされたテキストで応答メッセージを出力するように第２テキスト情報に対応する応答情報を生成することもできる。

なお、本発明に係るディスプレイ装置及びサーバの制御方法を順次行うプログラムが保存された非一時的な読み取り可能な媒体（Ｎｏｎ−ｔｒａｎｓｉｔｏｒｙｃｏｍｐｕｔｅｒｒｅａｄａｂｌｅｍｅｄｉｕｍ）が提供されてよい。

非一時的な読み取り可能な媒体とは、レジスタやキャッシュ、メモリ等のような短い間データを保存する媒体ではなく、半永久的にデータを保存し、機器によって読み取り（Ｒｅａｄｉｎｇ）が可能な媒体を意味する。具体的には、上述の多様なアプリケーションまたはプログラムは、ＣＤやＤＶＤ、ハードディスク、ブルーレイディスク、ＵＳＢ、メモリカード、ＲＯＭ等のような非一時的な読み取り可能な媒体に保存されて提供されてよい。

なお、ディスプレイ装置及びサーバに対して示した上述のブロック図では、バス（Ｂｕｓ）を示していないが、ディスプレイ装置及びサーバで各構成要素間の通信はバスによって行われてよい。なお、各デバイスには、上述の多様なステップを行うＣＰＵ、マイクロプロセッサ等のようなプロセッサが更に含まれてよい。

以上、添付図面を参照しながら本発明の好適な実施形態について詳細に説明したが、本発明は以上の実施形態に限定されない。本発明の属する技術の分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的趣旨の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本発明の技術的範囲に属するものと了解される。

１００、６１０、７１０、８１０ディスプレイ装置
１１０音声収集部
１２０第１通信部
１３０第２通信部
１４０出力部
１４１ディスプレイ部
１４２オーディオ出力部
１５０、２２０、３２０制御部
１６０入力部
１７０、３３０保存部
１８０受信部
１９０信号処理部
２００第１サーバ
２１０、３１０通信部
３００第２サーバ
７２０ユーザ

Claims

ディスプレイ装置において、
ユーザの音声を収集する音声収集部と、
前記ユーザの音声を第１サーバに伝送し、前記第１サーバから前記ユーザの音声に対応するテキスト情報を受信する第１通信部と、
前記受信されたテキスト情報を第２サーバに伝送し、前記テキスト情報に対応する応答情報を受信する第２通信部と、
前記応答情報に基づいて前記ユーザの音声に対応する応答メッセージを出力する出力部と、
同一の発話意図を有するユーザの音声が再度収集された場合、以前に収集されたユーザの音声に対応する応答メッセージと差別化した応答メッセージを出力するように前記出力部を制御する制御部と
を含むディスプレイ装置。
前記第２サーバは、
前記テキスト情報を分析してユーザの音声に含まれた発話意図を判断し、前記判断された発話意図に対応する応答情報を前記ディスプレイ装置に伝送することを特徴とする請求項１に記載のディスプレイ装置。
前記第２サーバは、
連続的に受信された第１及び第２テキスト情報に含まれた発話意図が同一である場合、第１テキスト情報に対応する応答情報と差別化するように第２テキスト情報に対応する応答情報を生成して前記ディスプレイ装置に伝送することを特徴とする請求項２に記載のディスプレイ装置。
前記制御部は、
前記第２テキスト情報に対応する応答情報に基づいて、再度受信されたユーザの音声に対応する応答メッセージを音声及びテキストで前記出力部を介して出力することを特徴とする請求項３に記載のディスプレイ装置。
前記制御部は、
前記第２テキスト情報に対応する応答情報に基づいて、前記ディスプレイ装置から出力されるコンテンツに対するオーディオ音量を、前記応答メッセージで出力される音声に対する音量より相対的に低く出力するように前記出力部を制御することを特徴とする請求項３に記載のディスプレイ装置。
前記制御部は、
前記第２テキスト情報に対応する応答情報に基づいて、再度受信されたユーザの音声に対応する応答メッセージを、予め設定されたキーワードがハイライトされたテキストで前記出力部を介して出力することを特徴とする請求項３に記載のディスプレイ装置。
ディスプレイ装置と連動するサーバにおいて、
前記ディスプレイ装置から収集したユーザの音声に対応するテキスト情報を受信する通信部と、
前記テキスト情報を分析して前記ユーザの音声に含まれた発話意図を判断し、前記判断された発話意図に対応する応答情報を前記ディスプレイ装置に伝送するように前記通信部を制御する制御部と
を含み、
前記制御部は、
第１及び第２テキスト情報に含まれた発話意図が同一である場合、前記第２テキスト情報に対応する応答情報を、前記第１テキスト情報に対応する応答情報と差別化するように生成して前記ディスプレイ装置に伝送するサーバ。
前記ディスプレイ装置は、
前記応答情報に基づいて、前記ユーザの音声に対応する応答メッセージを音声及びテキストのうち少なくとも一方で出力することを特徴とする請求項７に記載のサーバ。
前記制御部は、
前記第１及び第２テキスト情報が連続的に受信された場合、前記ディスプレイ装置から音声またはテキストで前記応答メッセージを出力するように前記第１テキスト情報に対応する応答情報を生成し、前記ディスプレイ装置から音声及びテキストで前記応答メッセージを出力するように前記第２テキスト情報に対応する応答情報を生成することを特徴とする請求項８に記載のサーバ。
前記制御部は、
前記第１及び第２テキスト情報が連続的に受信された場合、前記ディスプレイ装置から出力されるコンテンツに対するオーディオ音量が、前記応答メッセージで出力される音声に対する音量より相対的に低く出力されるように前記第２テキスト情報に対応する応答情報を生成することを特徴とする請求項８に記載のサーバ。
前記制御部は、
前記第１及び第２テキスト情報が連続的に受信された場合、前記ディスプレイ装置からテキストで前記応答メッセージを出力するように前記第１テキスト情報に対応する応答情報を生成し、前記ディスプレイ装置から予め設定されたキーワードがハイライトされたテキストで前記応答メッセージを出力するように前記第２テキスト情報に対応する応答情報を生成することを特徴とする請求項８に記載のサーバ。
ディスプレイ装置の制御方法において、
ユーザの音声を収集するステップと、
前記ユーザの音声を第１サーバに伝送し、前記第１サーバから前記ユーザの音声に対応するテキスト情報を受信するステップと、
前記受信されたテキスト情報を第２サーバに伝送し、前記テキスト情報に対応する応答情報を受信するステップと、
同一の発話意図を有するユーザの音声が再度収集された場合、前記応答情報に基づいて、以前に収集されたユーザの音声に対応する応答メッセージと差別化した応答メッセージを出力する出力ステップと
を含む制御方法。
前記第２サーバは、
前記テキスト情報を分析してユーザの音声に含まれた発話意図を判断し、前記判断された発話意図に対応する応答情報を前記ディスプレイ装置に伝送することを特徴とする請求項１２に記載の制御方法。
前記第２サーバは、
連続的に受信された第１及び第２テキスト情報に含まれた発話意図が同一である場合、第１テキスト情報に対応する応答情報と差別化するように第２テキスト情報に対応する応答情報を生成して前記ディスプレイ装置に伝送することを特徴とする請求項１３に記載の制御方法。
前記出力ステップは、
前記第２テキスト情報に対応する応答情報に基づいて、再度受信されたユーザの音声に対応する応答メッセージを音声及びテキストで出力することを特徴とする請求項１４に記載の制御方法。