JP2016110151A

JP2016110151A - 音声管理サーバー装置、会話音声提供方法、会話音声提供システム

Info

Publication number: JP2016110151A
Application number: JP2015238101A
Authority: JP
Inventors: 悠之介北; Yunosuke Kita
Original assignee: Individual
Current assignee: Individual
Priority date: 2014-12-04
Filing date: 2015-12-04
Publication date: 2016-06-20
Anticipated expiration: 2035-12-04
Also published as: JP6598369B2

Abstract

【課題】人間らしい音声の提供を可能とし、ユーザに対して会話の楽しみを与えることができる会話音声提供方法を提供する。【解決手段】ヒトの音声を合成するための複数の音声合成用データが記録された音声管理サーバー装置と、該サーバー装置との間で送受信可能なユーザ端末と、を用いた会話音声提供方法であって、ユーザのトーク音声をユーザ端末からサーバー装置へ自動送信するステップと、ユーザ端末から受信したトーク音声の内容をサーバー装置に記録するステップと、受信したトーク内容に応答する応答メッセージを、サーバー装置の人工知能により生成するステップと、ユーザが予め選択した音声で応答メッセージを出力するための音声応答データを、音声合成用データを利用して、サーバー装置の人工知能により生成するステップと、音声応答データを、ユーザ側の会話端末へ送信するステップと、を含む。【選択図】図１

Description

本発明は、音声管理サーバー装置、会話音声提供方法、会話音声提供システムに関するものであり、また、人工知能（A.I.／Artificial Intelligence）を利用して会話するための機能を備えた装置、方法、システムに関するものである。

コンピュータを利用した簡易会話システムが提供されているが、従来型の会話システムは、音声が人工的（機械的）であったため、人間らしさをほとんど感じることができなかった。また、ユーザが発した音声に対する応答メッセージは、あらかじめ決められた定型句であったため極めて短期間で飽き易く、また、会話の面白みに欠けるといった問題があった。

上述した従来技術の問題点に鑑み、本発明の目的は、人間らしい音声を提供することができ、ユーザに対して会話の楽しみを長期にわたって与えることができる音声管理サーバー装置、会話音声提供方法、会話音声提供システムを提供することにある。

上記目的は、異なる複数の動物（ヒトを含む）の音声の各々について作成された複数の音声合成用データ（音声素片データ）であって、該音声を合成するための複数の音声合成用データが記録された音声情報記録手段（情報記録媒体）を有する音声管理サーバー装置によって達成される。
複数の音声合成用データは、それぞれ異なるヒトの音声に由来する音声素片データで構成され、当該ヒトの音声を合成する際に用いられる。

上記音声管理サーバー装置において、前記複数の音声合成用データは、それぞれ、ヒトの音声に由来する音声素片データで構成され、当該ヒトの音声を合成する際に用いられる。
「音声素片データ」とは、例えば、ヒトの音声を構成する短い区間のデータ（五十音、濁音、半濁音などの発音一つ一つの音のデータ）である。例えば、五十音、濁音、半濁音などの発音一つ一つ（音声素片）をつなぎ合わせることで、音声（当該音声素片を発した本人の声）を合成することができる。

上記音声管理サーバー装置は、
前記複数の動物の音声のうち、ユーザが選択した任意の音声を指定する音声利用リクエストをインターネットを通じて受け付ける受信手段と、
前記ユーザに対する応答メッセージをユーザが選択した前記音声により出力するための音声応答データを、前記音声合成用データ（音声素片データ）を利用して生成（合成）する情報処理手段と、
を更に有する

また、上記音声管理サーバー装置は、
前記音声応答データを、ユーザが選択した任意の端末に対して、インターネットを通じて送信するための送信手段を、更に有する。

また、上記音声管理サーバー装置は、
前記音声合成用データ（音声素片データ）の利用頻度を示す利用データを記録する利用情報記録手段を更に具備し、前記情報処理手段は、前記ユーザからの音声利用リクエストに応じて、前記利用情報記録手段の利用データを更新する。

前記複数の動物の音声には、現在実在するヒトの音声、過去実在したヒトの音声、人工的に作り出した人物の音声、現在実在する動物の音声、過去実在した動物の音声、人工的に作り出した動物の音声、の１種または２種以上が含まれる。

また、前記複数の動物の音声には、キャラクターの音声、アイドルの音声、タレントの音声、声優の音声、女優の音声、俳優の音声、アナウンサーの音声、歌手の音声、有名人や著名人の音声、家族や親族の音声の１種または２種以上が含まれる。

また、前述した目的は、複数の動物（ヒトを含む）の音声の各々について作成された複数の音声合成用データ（音声素片データ）であって、該音声を合成するための複数の音声合成用データが記録された音声管理サーバー装置と、該サーバー装置との間で送受信可能なユーザ端末と、を用いた会話音声提供方法であって、
(a) ユーザのトーク音声をユーザ端末からサーバー装置へ自動送信するステップと、
(b) ユーザ端末から受信したトーク音声の内容をサーバー装置に記録するステップと、
(c) 受信したトーク内容に応答する応答メッセージを、サーバー装置の人工知能（Artificial Intelligence）により生成するステップと、
(d) ユーザが予め選択した音声で前記応答メッセージを出力するための音声応答データを、前記音声合成用データ（音声素片データ）を利用して、サーバー装置の人工知能により生成するステップと、
(e) 前記音声応答データを、ユーザ側の会話端末へ送信するステップと、
を含む会話音声提供方法によって達成される。

また、上記会話音声提供方法の前記ステップ(c)において、サーバー装置に記録されたユーザのトーク内容を踏まえた応答内容になるように、受信したトーク内容に応答する応答メッセージを生成する。

また、上記会話音声提供方法は、
前記複数の動物の音声うち、ユーザが選択した任意の音声を指定する音声利用リクエストをユーザ端末から受信するステップを更に含んでいる。

また、上記会話音声提供方法の前記ステップ(b)において、ユーザ端末から受信したユーザのトーク音声の内容を、その受信日時に関する日時データと関連付けた状態で、サーバー装置に記録する。

また、上記会話音声提供方法は、
ユーザ端末から受信したユーザのトーク音声から、ユーザの感情を解析するステップと、解析した感情に関するデータをトーク内容に関連付けした状態で記録するステップと、を更に含んでおり、
前記ステップ(c)において、記録されたユーザのトーク音声の内容とそれに対応するユーザの感情とを踏まえた応答内容になるように、受信したトーク内容に応答する応答メッセージを生成する。

また、上記会話音声提供方法では、
一定の期間内における前記音声の利用頻度を示す利用頻度データを生成し、該音声の識別情報に関連付けた状態で記録する。

また、上記会話音声提供方法では、
前記ユーザ端末は、ユーザが居住または滞在する空間に設置されている。

また、上記会話音声提供方法では、
前記ユーザ端末は、家庭用電気機械器具、家具、玩具のいずれかに取り付けられている。

また、前述した目的は、
複数の動物（ヒトを含む）の音声の各々について作成された複数の音声合成用データであって、該音声を合成するための複数の音声合成用データが記録された音声管理サーバー装置と、ユーザのトーク音声をユーザ端末からサーバー装置へ送信するとともに、該トーク音声に対する応答音声をサーバー装置から受信するユーザ端末と、を含んで構成される会話音声提供システムであって、
前記音声管理サーバー装置は、
ユーザ端末から受信したユーザのトーク音声の内容をサーバー装置に記録する手段と、
受信したトーク内容に応答する応答メッセージを、サーバー装置の人工知能（Artificial Intelligence）により生成する手段と、
ユーザが予め選択した音声で前記応答メッセージを出力するための音声応答データを作成する手段と、
前記音声応答データを、ユーザ側の会話端末へ送信する手段と、を含んでおり、
前記ユーザ端末は、
ユーザのトーク音声をユーザ端末からサーバー装置へ送信する手段と、
前記トーク音声に応答する音声応答データをサーバー装置から受信する手段と、を含む
ことを特徴とする会話音声提供システムによって達成される。

本発明によれば、実在・架空のヒトの音声を商材として利用できるようになる。また、商材としての音声をコンピュータで管理できるようになる。

また、商材としての音声をコンピュータで一括管理することで、音声の持ち主（実在の場合）や権利者（合成の場合）に対して、音声の利用量や利用頻度に応じた利益（音声使用量）を分配することができる。

また、商材としての音声をコンピュータで一括管理することで、音声の不正使用を防止することが可能になる。

また、本発明によれば、ユーザは、あらゆる音声を、自分が好きな音声（アイドルやキャラクターなどの音声）で聞くことができるようになる。

また、本発明によれば、自分の好きな音声との間で自由に会話ができるようになる。その結果、例えば遠い存在であるはずのアイドルやキャラクターなどが、常に自分の身近にいるような新たな感覚（楽しみ）をユーザに与えることが可能になる。また、アイドルやキャラクターなどが、近くで自分を常に見守ってくれているような感覚（安心感）をユーザに与えることができる。

また、サーバー装置がユーザの行動パターン（発音を伴う行動パターン）を随時記録するので、そのユーザの行動パターンに応じて、返答内容（応答メッセージ）を返すことが可能になる。その結果、ユーザは、擬似的な会話相手（実際には音声管理サーバーから送信される合成音声）を、より身近な会話相手に感じることができるようになる。

また、本発明では、ユーザの過去のトーク音声の内容等を踏まえた応答メッセージを生成するので、定型句のような面白みに欠けた応答が従来よりも遥かに少なくなり、その結果、ユーザに対し長期にわたって会話の楽しみを与えることができる。

また本発明では、ユーザの過去のトーク内容などを踏まえて、当該ユーザのトークに対して応答を返すので、オリジナリティーのある自分だけの会話相手（擬似的な会話相手あるいは応援者）を育てるという新たな楽しみをユーザに与えることができる。

また、本発明を利用することで、家族と離れて暮らす者や、身寄りのない一人暮らしの者、一人暮らしの老人などの孤独感や寂しさが解消されるとともに、安心感を与えることができる。また、このような一人暮らしの者に対して、楽しい会話の機会を多く与えることで、日常生活におけるやる気を向上させることが可能になる。

また、コミュニケーションが不慣れな者・苦手な者に対して、積極的な会話の場を与えることが可能になる。

また、本発明は、少なくとも音声をモニターするので、ユーザ不在時の防犯に利用することも可能である。

本発明の会話音声提供システムの概略構成を示す図である。本発明の音声管理サーバー装置の概略構成を示す図である。データベースに記録される「音声情報」のデータ構成の一例を示す図である。データベースに記録される「ユーザ情報」のデータ構成の一例を示す図である。データベースに記録される「音声利用情報」のデータ構成の一例を示す図である。データベースに記録される「トーク情報」のデータ構成の一例を示す図である。音声管理サーバー装置で実行される「ユーザが利用する音声の登録処理」の一例を示す図である。会話用ユーザ端末で実行される「会話用ユーザ端末における音声送信処理」の一例を示す図である。音声管理サーバー装置で実行される「音声管理サーバー装置におけるトーク内容の記録処理」の一例を示す図である。音声管理サーバー装置で実行される「音声管理サーバー装置における応答処理」の一例を示す図である。会話用ユーザ端末で実行される「会話用ユーザ端末における音声出力処理」の一例を示す図である。本発明で用いる音声合成用データ（音声素片データ）を集める方法の概要を示す図である。本発明で用いる音声合成用データ（音声素片データ）を集める方法の概要を示すフローチャートである。

（音声管理サーバー装置）
はじめに、本発明の音声管理サーバー装置の実施形態の一例について説明する。

音声管理サーバー装置は、図１に示すような会話音声提供システムで用いられるサーバー装置である。

この音声管理サーバー装置は、図２に示すように、主として、
人工知能などの各種プログラムがインストールされたプログラム格納部と、
後述する各種情報を記録するためのデータベースと、
応答メッセージの生成や音声の合成の際に用いられるＣＰＵ（情報処理手段／Central Processing Unit）と、
各種情報処理の際などに用いられるメモリと、
インターネットを通じてユーザ側の端末を情報の送受信を行うための通信装置と、
を具備している。

プログラム格納部には、人工知能（A.I.／Artificial Intelligence）などの各種プログラムがインストールされている。人工知能プログラムは、後述するユーザと、擬似的な会話相手（現実的には音声管理サーバー装置）との間で、人間的会話を成立させるためのプログラムである。この人工知能プログラムを利用することで、ユーザとサーバー装置との間の会話が、ありふれた会話や定型句などのやりとりになることなく、ユーザのトーク内容（過去のトーク内容を含む）に応じた人間味にあふれた返答をサーバー装置から返すことができる。

データベースには、音声情報記録部と、ユーザ情報記録部と、音声利用情報記録部と、トーク情報記録部と、辞書情報記録部とが含まれている。

データベースの音声情報記録部には、図３に示すようなデータ構成の音声情報が記録されている。図３に示すとおり、複数の動物（ヒトを含む）の音声の各々について作成された複数の音声合成用データであって、該音声を合成するための複数の音声合成用データが記録されている。本実施形態では、この音声合成用データは、実在の発声者の音声に基づいて作成されている。

なお、音声情報記録部に記録する音声合成用データは、必ずしも、現在実在するヒトの音声に限定されず、過去に実在したヒトの音声であってもよく、あるいは、人工的に作り出した人物の音声（架空の人物の音声）であってもよい。また、現在実在する動物の音声、過去実在した動物の音声、人工的に作り出した動物の音声（架空の動物の音声）であってもよい。

また、ヒトの音声に関する音声合成用データの具体例としては、例えば図３に示すように、キャラクターの音声、アイドルの音声、タレントの音声、声優の音声、女優の音声、俳優の音声、アナウンサーの音声、歌手の音声、有名人や著名人の音声、現存する家族や親族の音声、亡くなった家族や親族の声、といったヒトの音声を合成するためのデータが挙げられる。

また、ヒトの音声に関する音声合成用データは、上述したものに限定されず、例えば、聞きやすい男性又は女性の声、他人を威嚇する怖い男性の声、子どもの声、老人の声などでもよい。

そして、上述した音声合成用データは、図３に示すとおり、音声の識別情報（音声ＩＤ）、音声の種類を示す情報に関連付けた状態（紐付けした状態）でデータベースに記録されている。

データベースのユーザ情報記録部には、図４に示すとおり、ユーザの識別情報（ユーザＩＤ）と、ユーザによって選択された音声の種類を示す情報と、選択された音声の識別情報（音声ＩＤ）と、が関連付けされた状態（紐付けされた状態）で記録されている。

データベースの音声利用情報記録部には、図５に示すとおり、音声合成用データの利用頻度を示す音声利用データが記録される。また、音声利用データには、その音声の識別情報（音声ＩＤ）と、その音声の種類を示す情報とが関連付けされた状態（紐付けされた状態）で記録されている。

データベースのトーク情報記録部には、図６に示すとおり、
会話用ユーザ側の端末から受信したトーク音声の内応を示す情報と、
その端末のユーザの識別情報（ユーザＩＤ）と、
そのトーク音声を受信した日時の情報と、
そのトーク音声から解析して得られたユーザの感情情報と、
そのトーク音声の内容を解析して得られたトーク重要度に関する情報と、
が関連付けした状態で（紐付けした状態で）記録されている。

感情情報とは、図６に示すとおり、例えば「喜び」「リラックス」「怒り」「悲しみ」といった感情を５段階で数値化した情報である。これらの感情情報は、ユーザ側の端末から受信したトーク音声を解析することで得ることができる。

トーク重要度とは、図６に示すとおり、トークの重要度を５段階で数値化したものであり、例えば「おはよう」「ただいま」といった極めて日常的なトークは、重要度１と判断される。また、「もうすぐ試験だから勉強しなくちゃ。いやだなぁ。」とういった非日常的で深い内容のトークは、重要度５であると判断される。

音声管理サーバー装置は、上述したデータベースのほか、図２に示すとおり、応答メッセージの生成や音声の合成の際に用いられるＣＰＵ（情報処理手段／Central Processing Unit）を有している。

このＣＰＵは、例えば、ユーザに対する応答メッセージを生成するとともに、ユーザが選択した前記音声により前記応答メッセージを出力するための音声応答データを、前記音声合成用データを利用して生成するといった情報処理を実行する役割を担っている。また例えば、ユーザからの音声利用リクエストに応じて、利用情報記録部の音声利用データを更新するといった情報処理を実行する役割を担っている。

また、音声管理サーバー装置の通信装置には、図２に示すとおり、
複数の動物の音声のうち、ユーザが選択した任意の音声を指定する音声利用リクエストをインターネットを通じて受け付ける受信手段と、
前記音声応答データを、ユーザが選択した任意の端末に対して、インターネットを通じて送信するための送信手段と、
を含んで構成されている。

（会話音声提供システム）
次に、本発明の会話音声提供システムの実施形態の一例について説明する。

会話音声提供システムは、図１に示すとおり、
複数の動物（ヒトを含む）の音声の各々について作成された複数の音声合成用データであって、該音声を合成するための複数の音声合成用データが記録された「音声管理サーバー装置」と、
ユーザのトーク音声をユーザ端末からサーバー装置へ送信するとともに、該トーク音声に対する応答音声をサーバー装置から受信する「会話用ユーザ端末」と、
を含んで構成される。

音声管理サーバー装置の構成は前述したとおりである。

会話用ユーザ端末は、図１に示すとおり、マイクとスピーカーとを含んで構成されている。このユーザ端末は、ユーザが居住または滞在する空間に設置される。ユーザが居住する空間の具体例としては、例えば、ユーザの住居の室内が挙げられる。また、ユーザが滞在する空間の具体例としては、例えば乗用車の車内やホテルなどの室内が挙げられる。

このような会話用ユーザ端末は、単に、居住空間や滞在空間に取り付けられてもよく、あるいは、家庭用電気機械器具、家具、玩具のいずれかに組み込まれた状態で取り付けられてもよい。

以下、本発明の会話音声提供システム（音声管理サーバー装置、設定用ユーザ端末、会話用ユーザ端末）を利用した会話音声提供方法の一例について、処理別に説明する。

（ユーザが利用する音声の登録処理）
主として図７に基づいて説明する。

はじめに、音声管理サーバー装置は、スタンバイ状態で待機している。続いて、設定用ユーザ端末から利用音声の登録リクエストを受け付けると、選択可能な音声リストのデータを設定用ユーザ端末に、インターネットを通じて送信する。選択可能な音声リストとは、例えば図３に列挙したような「音声の種類」のリストである。設定用ユーザ端末とは、例えば、ユーザが所有するスマートフォンやパソコンなどである。

続いて、設定用ユーザ端末は、サーバー装置から受信した音声リストをディスプレイに表示し、ユーザは、その表示リストのなかから、自己の好みに応じて、好きな音声を選択する。

例えば、好きなアイドルの音声で会話音声を受信したい場合には、設定用ユーザ端末を操作して、そのアイドルの音声を選択して、その選択結果を音声管理サーバー装置に送信する。あるいは、好きなキャラクターの音声で会話音声を受信したい場合には、そのアイドルの音声を選択する。このように音声を選択することで、自己のトーク音声に対する応答（会話音声）を、自身が選んだ好みの音声で聞くことができる。

続いて、設定用ユーザ端末は、ユーザが選択した音声の識別情報（音声ＩＤ、図３参照）を、サーバー装置へ送信し、サーバー装置はその音声ＩＤをインターネットを通じて受信する。

次に、サーバー装置は、選択可能な応答頻度の情報を、設定用ユーザ端末に送信する。その選択可能な応答頻度を受信したユーザ端末は、当該応答頻度を選択可能に画面に表示し、続いて、ユーザはそのなかから、最適な応答頻度を選択する。つまり、ユーザは、自己のトーク音声に対するサーバー装置からの応答の頻度を、自由に設定することができる。

続いて、設定用ユーザ端末は、ユーザが選択した応答頻度の識別情報（応答頻度ＩＤ）をサーバー装置へ送信し、サーバー装置はインターネットを通じて当該識別情報を受信する。

次に、サーバー装置では、今回通信を行ったユーザ端末の識別情報（ユーザＩＤ）と、先のステップで受信した選択音声の識別情報（音声ＩＤ）と、先のステップで受信した反応頻度に関する識別情報（応答頻度ＩＤ）とを、相互に関連付けた状態で（紐付けした状態で）データベースに記録する。

以上でユーザが利用する音声の登録処理が完了し、プログラム終了の場合を除いて、再びスタンバイ状態に復帰する。

（会話用ユーザ端末における音声送信処理）
主として図８に基づいて説明する。

ユーザの居住空間や滞在空間に設置されたユーザ端末は、マイクやＣＰＵ等を利用して、ユーザのトーク音声をモニターしている。トーク音声とは、ユーザが口から発する音のすべてを含むものである。すなわち、トーク音声には、ユーザの会話音声のほか、独り言、ため息、咳、くしゃみ等のあらゆる音声が含まれる。

ユーザ端末がユーザ音声を検出すると、当該音声を音声データ化する。この音声データ化処理を、無音を検出するまで継続する。続いて、得られた音声データを、インターネットを通じて、サーバー装置へ送信する。

以上で会話用ユーザ端末における音声送信処理が完了し、プログラム終了の場合を除いて、再びスタンバイ状態に復帰する。

（音声管理サーバー装置におけるトーク内容の記録処理）
主として図９に基づいて説明する。

はじめに、音声管理サーバー装置は、スタンバイ状態で待機している。続いて、会話用ユーザ端末からトーク音声のデータを受信すると、受信したトーク音声データに基づいて、ユーザのトーク音声の内容を１フレーズ毎に（又は１センテンス毎に）テキストデータ化する。トーク音声のテキストデータ化には、音声認識プログラムを用いる。

続いて、受信した音声データに基づいて、トーク音声におけるユーザの感情、トーク内容の重要度を解析してデータ化する。ユーザの感情とは、例えば図６に示すように、喜び、リラックス、怒り、悲しみといったものであり、５段階で数値化される。ユーザの感情の数値化は、例えばユーザの声の波長に基づいて判断される。ユーザのトーク内容の重要度は、例えば５段階で数値化され、その重要度は受信したトーク内容から判断される。例えば、単なる「おはよう」や「いってきます」といった日常的な定型句のトーク内容の場合には、重要度は低いと判断され、また、「もうすぐ試験だ」といった非日常的なトーク内容の場合には、重要度が高いと判断される。

次に、音声管理サーバー装置は、先のステップで受信したトーク音声の受信日時、先のステップで識別したトーク音声の内容（テキストデータ）、先のステップで解析したユーザの感情や重要度を、相互に関連付けした状態で（紐付けした状態で）、データベースに記録する。図６参照。

以上で音声管理サーバー装置におけるトーク内容の記録処理が完了し、プログラム終了の場合を除いて、再びスタンバイ状態に復帰する。

（音声管理サーバー装置における応答処理）
主として図１０に基づいて説明する。

はじめに、音声管理サーバー装置は、スタンバイ状態で待機している。続いて、会話用ユーザ端末からトーク音声のデータを受信すると、音声管理サーバー装置は、今回受信したトーク音声に対して応答するか否かの判断を行う。この応答判断は、例えば、あらかじめ指定された応答頻度（図７参照）や、トーク音声の内容の重要度（図６参照）などに基づいて行う。

そして、音声管理サーバー装置は、今回のトーク音声に対して応答すると判断した場合には、データベースに記録されているトーク情報（当該ユーザの過去のトーク内容やそのトークの日時など）を参照するとともに、その参照したトーク情報の受信日時・トーク内容・ユーザの感情・トークの重要度などを踏まえた応答メッセージを生成する。

ここでいう「トーク情報の受信日時・トーク内容・ユーザの感情・トークの重要度などを踏まえた応答メッセージ」とは、例えば次のとおりである。

例えば図６に例示するトーク情報の場合では、2011年1月27日23時55分のトーク内容「おやすみなさい」に対しては、同日18時10分のトーク内容「もうすぐ試験だから勉強しなくちゃ。いやだなぁ。」を参照し、そのトーク内容を踏まえて「いいの？もうすぐ試験だから勉強した方がいいんじゃない？」といった応答メッセージを生成する。
また例えば、2011年1月28日6時10分のトーク内容「今日はＡＫＢのコンサートに行ってくるよ」に対しては、前日23時50分のトーク内容「明日は雨か」を参照し、そのトーク内容を踏まえて「おはよう。今日も頑張ってね。今日は雨だから傘を忘れないでね。」といった応答メッセージを生成する。

続いて、音声管理サーバー装置は、ユーザが予め選択した音声によって応答メッセージを出力するための応答音声を合成して、その合成した応答音声のデータをインターネットを通じてユーザ端末へ送信する。「応答音声のデータ」とは、先のステップで生成した応答メッセージを、ユーザが予め選択した音声で出力するためのデータである。この「応答音声のデータ」を使って音声を出力することで、ユーザが予め選択した音声の本人や動物が、自分に対して直接語りかけているかのような感覚を楽しむことができる。

以上で音声管理サーバー装置における応答処理が完了し、プログラム終了の場合を除いて、再びスタンバイ状態に復帰する。

（会話用ユーザ端末における音声出力処理）
主として図１１に基づいて説明する。

はじめに、会話用ユーザ端末は、スタンバイ状態で待機している。続いて、会話用ユーザ端末が音声管理サーバー装置から応答音声データを受信すると、その受信データに基づいて、所定の音声（ユーザが予め選択した音声）による応答をスピーカーから出力する。

以上でユーザ端末における音声出力完了し、プログラム終了の場合を除いて、再びスタンバイ状態に復帰する。

（音声採取方法の第１実施形態）
次に、本発明で用いる音声合成用データ（音声素片データ）を集める方法、すなわち、音声採取方法の実施形態について説明する。

この出願で言及する「音声採取方法」とは、ヒト（人間）の音声を合成する際に用いる音声素片データであって、当該ヒトの音声に由来する音声素片データを、インターネットとサーバー装置を利用して採取する方法である。

この方法の処理の流れは、図１２の概略図と図１３のフローチャートに示すとおりである。

すなわち、音声採取方法の第１実施形態の概要は、
音声提供者の音声を入力できるように構成された音声提供者用端末（音声登録用端末）から、インターネットを介して、音声素片データの収集に用いるサーバー装置へアクセスし、
前記音声提供者用端末（音声登録用端末）に接続された音声入力手段を介して、音声提供者の音声をサンプリングし、
サンプリングした前記音声に関する音声サンプリングデータを、音声提供者用端末からサーバー装置へ送信し、
前記サーバー装置において、前記音声サンプリングデータに基づいて音声素片データを生成し、
前記音声提供者に関する提供者識別情報と前記音声素片データとを関連付けした状態で、前記サーバー装置の情報記録手段に保存する、
というものである。

なお、この出願において「音声提供者用端末（音声登録用端末）」とは、例えば図１２に示すとおり、インターネットにアクセス可能なコンピュータや、携帯型情報端末（例えばスマートフォンや携帯電話）などが挙げられる。
また、「音声入力手段」とは、例えば、コンピュータに接続されたマイクや、携帯型情報端末が内蔵するマイクなどが挙げられる。
また、「音声素片データ」とは、例えば、ヒト音声を構成する短い区間のデータ（五十音、濁音、半濁音などの発音一つ一つの音のデータ）である。例えば、五十音、濁音、半濁音などの発音一つ一つ（音声素片）をつなぎ合わせることで、音声（当該音声素片を発した本人の声）を合成することができる。

（音声採取方法の第２実施形態）
音声採取方法の第２実施形態の概要は、
音声提供者の音声を入力できるように構成された音声提供者用端末から、インターネットを介して、音声素片データの収集に用いるサーバー装置へアクセスし、
前記音声提供者用端末に接続された音声入力手段を介して、音声提供者の音声をサンプリングし、
前記音声提供者用端末において、サンプリングした前記音声に関する音声サンプリングデータに基づいて、音声素片データを生成し、
生成した前記音声素片データを音声提供者用端末からサーバー装置へ送信し、
前記音声提供者に関する提供者識別情報と前記音声素片データとを関連付けした状態で、前記サーバー装置の情報記録手段に保存する、
というものである。

本発明で用いる会話用ユーザ端末の機能は、例えば、アンドロイド、ロボット、テレビ、スマートフォン、パソコンのモニター、ぬいぐるみ、人形、玩具などに組み込んで、これらの物と一緒に使用する事が可能である。また、会話用ユーザ端末は、３Ｄ立体画像と同期させて機能させるようにしてもよい。また、画像のマッピング（二次元の画像）や、壁や被写体への画像などと、融合させて機能させることも可能である。

Claims

異なる複数のヒトの音声の各々について作成された複数の音声合成用データであって、当該複数のヒトの音声を合成するための複数の音声合成用データが記録された音声情報記録手段を有する音声管理サーバー装置。
前記複数の音声合成用データは、それぞれ、
ヒトの音声に由来する音声素片データで構成され、
当該ヒトの音声を合成する際に用いられる、
ことを特徴とする請求項１に記載の音声管理サーバー装置。
前記複数のヒトの音声のうち、ユーザが選択した任意の音声を指定する音声利用リクエストをインターネットを通じて受け付ける受信手段と、
前記ユーザに対する応答メッセージをユーザが選択した前記音声により出力するための音声応答データを、前記音声合成用データを利用して生成する情報処理手段と、
を有する請求項１に記載の音声管理サーバー装置。
前記音声応答データを、ユーザが選択した任意の端末に対して、インターネットを通じて送信するための送信手段を、更に有することを特徴とする請求項３に記載の音声管理サーバー装置。
異なる複数のヒトの音声の各々について作成された複数の音声合成用データであって、当該複数のヒトの音声を合成するための複数の音声合成用データが記録された音声管理サーバー装置と、該サーバー装置との間で送受信可能なユーザ端末と、を用いた会話音声提供方法であって、
(a) ユーザのトーク音声をユーザ端末からサーバー装置へ自動送信するステップと、
(b) ユーザ端末から受信したトーク音声の内容をサーバー装置に記録するステップと、
(c) 受信したトーク内容に応答する応答メッセージを、サーバー装置により生成するステップと、
(d) ユーザが予め選択した音声で前記応答メッセージを出力するための音声応答データを、前記音声合成用データを利用して、サーバー装置により生成するステップと、
(e) 前記音声応答データを、サーバー装置からユーザ端末へ送信するステップと、
を含む会話音声提供方法。
前記ステップ(c)において、サーバー装置に記録されたユーザの現在及び／又は過去のトーク内容を踏まえた応答内容になるように、受信したトーク内容に応答する応答メッセージを生成する、
ことを特徴とする請求項５に記載の会話音声提供方法。
前記複数のヒトの音声うち、ユーザが選択した任意の音声を指定する音声利用リクエストをユーザ端末から受信するステップを更に含んでいる、
ことを特徴とする請求項５に記載の会話音声提供方法。
異なる複数のヒトの音声の各々について作成された複数の音声合成用データであって、当該複数のヒトの音声を合成するための複数の音声合成用データが記録された音声管理サーバー装置と、ユーザのトーク音声をユーザ端末からサーバー装置へ送信するとともに、該トーク音声に対する応答音声をサーバー装置から受信するユーザ端末と、を含んで構成される会話音声提供システムであって、
前記音声管理サーバー装置は、
ユーザ端末から受信したユーザのトーク音声の内容をサーバー装置に記録する手段と、
受信したトーク内容に応答する応答メッセージを生成する手段と、
ユーザが予め選択した音声で前記応答メッセージを出力するための音声応答データを作成する手段と、
前記音声応答データをユーザ端末へ送信する手段と、を含んでおり、
前記ユーザ端末は、
ユーザのトーク音声をユーザ端末からサーバー装置へ送信する手段と、
前記トーク音声に応答する音声応答データをサーバー装置から受信する手段と、
を含むことを特徴とする会話音声提供システム。