JP2012039391A

JP2012039391A - 再生装置及び方法、並びにプログラム

Info

Publication number: JP2012039391A
Application number: JP2010177839A
Authority: JP
Inventors: Tamotsu Irie; 保入江
Original assignee: Casio Computer Co Ltd
Current assignee: Casio Computer Co Ltd
Priority date: 2010-08-06
Filing date: 2010-08-06
Publication date: 2012-02-23

Abstract

【課題】オリジナルの画像データを再生している最中に、オリジナルの画像の構図及び構成を維持したまま、音声データに含まれる音声内容を反映した画像も表示させる処理を容易かつ手軽に実現する。
【解決手段】音声出力部１９は、音声データを再生することによって、当該音声データにより表される音声を出力する。音声内容認識部５２は、音声出力部１９の再生対象の音声データを解析することによって、当該音声データに含まれる音声内容を認識する。表示部１８は、画像データを再生することによって、当該画像データにより表される画像を、オリジナルの画像として表示する。音声内容反映部５４は、表示部１８により画像データが再生されている最中に、オリジナルの画像の構成及び構図を維持したまま、音声内容認識部５２により認識された音声内容を反映させた画像を表示する処理を、音声内容反映処理として実行する。
【選択図】図２

Description

本発明は、再生装置及び方法、並びにプログラムに関し、特に、オリジナルの画像データを再生している最中に、オリジナルの画像の構図及び構成を維持したまま、音声データに含まれる音声内容を反映した画像も表示させる処理を容易かつ手軽に実現できるようにする技術に関する。

近年、画像を鑑賞する際の演出効果を高める目的で、画像データに対して各種画像処理が施されるようになっている。
例えば、デジタルフォトフレームに代表される再生装置では、画像データと共に音声データも再生できるようになっている。
そこで、特許文献１には、画像データに同期した音声データを文字データに変換して、この文字データと画像データとを関連付ける技術が開示されている。
また、特許文献２には、音楽再生機器から出力される音楽のテンポに合わせて、画面で表示するキャラクタを動作させる技術、即ち、音楽のテンポにあわせて変化するキャラクタを被写体に含む新たな画像データを創造して再生する技術が開示されている。

特開２００７−１０１９４５号公報特開２００７−１６００６５号公報

しかしながら、特許文献１に記載の技術では、音声データを解析して文字データを作成し、作成した文字データを画像データに関連付ける、といった複雑で時間のかかる処理が必要であった。
このため、当該処理を画像データの再生中に並行して実行しながら、当該処理結果を画像データの再生内容に逐次反映させていくこと、即ち音声データに含まれる音声内容を反映させた画像データの再生を実現することは非常に困難である。換言すると、画像データを再生する前に、当該処理を予め実行しておき、画像データについてのメタデータに文字データを含める等の事前準備をした上でないと、音声データに含まれる音声内容を反映させた画像データの再生をすることは非常に困難である。
また、特許文献２に記載の技術では、上述したように、音楽のテンポにあわせて変化するキャラクタを被写体に含む新たな画像データを創造するため、オリジナルの画像を鑑賞する目的のデジタルフォトフレーム等に適用することは好適でない。
このため、オリジナルの画像データを再生している最中に、オリジナルの画像の構図及び構成を維持したまま、音声データに含まれる音声内容を反映した画像も表示させる処理を容易かつ手軽に実現することが要求されている状況である。

本発明は、このような状況に鑑みてなされたものであり、オリジナルの画像データを再生している最中に、オリジナルの画像の構図及び構成を維持したまま、音声データに含まれる音声内容を反映した画像も表示させる処理を容易かつ手軽に実現することを目的とする。

本発明の一態様によると、
音声データを再生することによって、当該音声データにより表わされる音声を出力する音声再生手段と、
前記音声再生手段の再生対象の前記音声データを解析することによって、当該音声データに含まれる音声内容を認識する音声内容認識手段と、
画像データを再生することによって、当該画像データにより表わされる画像を、オリジナルの画像として表示する画像再生手段と、
前記画像再生手段により前記画像データが再生されている最中に、前記オリジナルの画像の構成及び構図を維持したまま、前記音声内容認識手段により認識された前記音声内容を反映させた画像を表示する処理を、音声内容反映処理として実行する音声内容反映手段と、
を備える再生装置を提供する。

本発明の他の態様によると、上述した本発明の一態様に係るに対応する方法及びプログラムの各々を提供する。

本発明によれば、オリジナルの画像データを再生している最中に、オリジナルの画像の構図及び構成を維持したまま、音声データに含まれる音声内容を反映した画像も表示させる処理を容易かつ手軽に実現することができる。

本発明の一実施形態に係る再生装置のハードウェアの構成を示すブロック図である。音声再生処理及び画像再生処理を実行するための再生装置の機能的構成を示す機能ブロック図である。図２のＣＰＵが実行する音声再生処理の流れを説明するフローチャートである。図２の再生音声取得部により処理対象期間の音声データが取得される再生対象の音声データの一例を示すタイミングチャートである。再生対象の音声データに対して、ＦＦＴ処理を施した結果の一例を示している。図２のＣＰＵが実行する画像再生処理の流れを説明するフローチャートである。装飾付加オリジナル画像の一例を示している。本発明の第２実施形態に係るＣＰＵが実行する画像再生処理の流れを説明するフローチャートである。音声内容に対応したオリジナルの画像の一例を示している。

以下、本発明の一実施形態を図面に基づいて説明する。

［第１実施形態］
図１は、本発明の一実施形態に係る再生装置１のハードウェアの構成を示すブロック図である。再生装置１は、例えばデジタルフォトフレームにより構成することができる。

再生装置１は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）１１と、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）１２と、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）１３と、ＲＴＣ（ＲｅａｌＴｉｍｅＣｌｏｃｋ）１４と、バス１５と、入出力インターフェース１６と、操作部１７と、表示部１８と、音声出力部１９と、記憶部２０と、通信部２１と、ドライブ２２と、を備えている。

ＣＰＵ１１は、ＲＯＭ１２に記録されているプログラムに従って各種の処理を実行する。又は、ＣＰＵ１１は、記憶部２０からＲＡＭ１３にロードされたプログラムに従って各種の処理を実行する。
ＲＡＭ１３にはまた、ＣＰＵ１１が各種の処理を実行する上において必要なデータ等も適宜記憶される。

例えば本実施形態では、後述する図２の再生音声取得部５１乃至音声内容反映部５４の各機能を実現するプログラムが、ＲＯＭ１２や記憶部２０に記憶されている。従って、ＣＰＵ１１が、これらのプログラムに従った処理を実行することで、後述する図２の再生音声取得部５１乃至音声内容反映部５４の各機能を実現することができる。

ＲＴＣ１４は、計時動作をして、例えば現在時刻をＣＰＵ１１に出力する。即ち、ＣＰＵ１１は、ＲＴＣ１４から現在時刻を所定時間毎に取得し、この現在時刻に基づいて音声データ及び画像データの取得タイミングを制御するようにしている。

ＣＰＵ１１、ＲＯＭ１２、ＲＡＭ１３、及びＲＴＣ１４は、バス１５を介して相互に接続されている。このバス１５にはまた、入出力インターフェース１６も接続されている。入出力インターフェース１６には、操作部１７、表示部１８、音声出力部１９、記憶部２０及び通信部２１が接続されている。

操作部１７は、各種釦等で構成され、ユーザの指示操作を受け付ける。
表示部１８は、後述する図２のディスプレイ６２を含み、ＣＰＵ１１の制御の下、所定の画像データにより表現される画像を当該ディスプレイ６２に表示する。
音声出力部１９は、後述する図２のスピーカ７２を含み、ＣＰＵ１１の制御の下、所定の音声データにより表現される音声を、当該スピーカ７２から出力する。

なお、所定の画像データに基づいて、当該画像データにより表現される画像をディスプレイ６２に表示させることを、以下、「画像データを再生する」と表現する。また、所定の音声データに基づいて、当該音声データにより表現される音声をスピーカ７２から出力させることを、以下、「音声データを再生する」と表現する。
即ち、ＣＰＵ１１の制御の下、表示部１８は画像データを再生し、音声出力部１９は、音声データを再生する。

記憶部２０は、ＤＲＡＭ（ＤｙｎａｍｉｃＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）等で構成される。記憶部２０は、各種音声処理や画像処理に必要な各種データ、例えば、各種フラグの値、閾値等も記憶する。記憶部２０はまた、その一領域として、音声記憶部３１及び画像記憶部３２を含んでいる。

音声記憶部３１は、再生可能な複数の音声データ、例えば楽曲等の音声データを記憶する。
音声記憶部３１に記憶される音声データの形式は、特に限定されない。例えば、本実施形態では、所定のフォーマットに従って符号化され、必要に応じて圧縮された音声データが、音声記憶部３１に記憶されている。なお、所定のフォーマットとしては、例えば、ＷＡＶＥ形式、ＭＰ３（ＭｏｖｉｎｇＰｉｃｔｕｒｅＥｘｐｅｒｔｓＧｒｏｕｐＡｕｄｉｏＬａｙｅｒ−３）形式、ＡＡＣ（ＡｄｖａｎｃｅｄＡｕｄｉｏＣｏｄｉｎｇ）形式等を採用することができる。

画像記憶部３２は、再生可能な複数の画像データ、例えばデジタルカメラ等で撮影された写真、スキャナで読みこまれた画像、パーソナルコンピュータ等により加工若しくは創造された画像等の各種画像データを記憶する。
画像記憶部３２に記憶される画像データの形式は、特に限定されない。例えば、本実施形態では、所定のフォーマットに従って圧縮符号化された静止画の画像データが、画像記憶部３２に記憶されている。なお、所定のフォーマットとしては、例えば、ＪＰＥＧ（ＪｏｉｎｔＰｈｏｔｏｇｒａｐｈｉｃＥｘｐｅｒｔｓＧｒｏｕｐ）を採用することができる。或いは、ＧＩＦ（ＧｒａｐｈｉｃｓＩｎｔｅｒｃｈａｎｇｅＦｏｒｍａｔ）、ＰＮＧ（ＰｏｒｔａｂｌｅＮｅｔｗｏｒｋＧｒａｐｈｉｃｓ）、ＴＩＦＦ（ＴａｇｇｅｄＩｍａｇｅＦｉｌｅＦｏｒｍａｔ）等を、所定のフォーマットとして採用してもよい。なお、後述するＣＰＵ１１（より詳細には音声内容反映部５４）によって加工された画像データと区別すべく、画像記憶部３２に記憶されている画像データを、以下、「オリジナルの画像データ」と呼ぶ。また、オリジナルの画像データが再生された場合にディスプレイ６２に表示される画像を、以下、「オリジナルの画像」と呼ぶ。

通信部２１は、インターネットを含むネットワークを介して他の装置（図示せず）との間で行う通信を制御する。

入出力インターフェース１６にはまた、必要に応じてドライブ２２が接続され、磁気ディスク、光ディスク、光磁気ディスク、或いは半導体メモリ等よりなるリムーバブルメディア４１が適宜装着される。ドライブ２２によってリムーバブルメディア４１から読み出されたプログラムは、必要に応じて記憶部２０にインストールされる。また、リムーバブルメディア４１は、記憶部２０に記憶されている画像データや音声データ等の各種データも、記憶部２０と同様に記憶することができる。

このような構成を有する再生装置１は、次のような一連の処理を実行することができる。

即ち、再生装置１は、音声記憶部３１に記憶されている複数の音声データのうち、再生対象の音声データを取得する。
再生装置１は、再生対象の音声データを解析することによって、当該音声データに含まれる音声の内容（以下、単に「音声内容」と呼ぶ）を認識する。
再生装置１は、再生対象の音声データを再生する。
このような一連の処理を、以下、「音声再生処理」と呼ぶ。

また、再生装置１は、画像記憶部３２に記憶されている複数の画像データのうち、再生対象の画像データを再生する場合、当該再生対象の画像データをオリジナルの画像データとして、次のような画像をディスプレイ６２に表示させる。即ち、再生装置１は、オリジナルの画像の構成及び構図を維持したまま、上述の音声再生処理により認識された音声内容を反映させた画像をディスプレイ６２表示させる。
なお、このような一連の処理を、以下、「画像再生処理」と呼ぶ。

本実施形態では、再生装置１は、画像再生処理の一部として、オリジナルの画像に対して、上述の音声再生処理により認識された音声内容に対応した装飾画像を付加する画像処理を、オリジナルの画像データに対して施す。これにより、オリジナルの画像の構成及び構図を維持したまま、上述の音声再生処理により認識された音声内容を反映させた画像（本実施形態では装飾画像）がディスプレイ６２に表示される。

図２は、このような音声再生処理及び画像再生処理を実行するための再生装置１の機能的構成を示す機能ブロック図である。
図２においては、図１の再生装置１の構成のうち、ＣＰＵ１１と、ＲＴＣ１４と、操作部１７と、表示部１８と、音声出力部１９と、記憶部２０と、のみが図示されている。
ＣＰＵ１１は、再生音声取得部５１と、音声内容認識部５２と、再生画像取得部５３と、音声内容反映部５４と、を備えている。
表示部１８は、表示制御部６１と、ディスプレイ６２と、を備えている。
音声出力部１９は、音声出力制御部７１と、スピーカ７２と、を備えている。

再生音声取得部５１は、操作部１７に対するユーザの指示操作により動作を開始すると、再生対象の音声データを音声記憶部３１から取得する。ここで、再生対象の音声データは、操作部１７に対するユーザの指示操作により予め決定されているものとする。
詳細については、図３のフローチャートを参照して後述するが、再生対象の音声データとは、１つの楽曲の開始から終了までの音声データであり、１回の処理で扱うには容量が大きい。そこで、再生対象の音声データは、所定期間毎の音声データに分割されて、所定の時間間隔毎に読み出される。即ち、再生音声取得部５１を含むＣＰＵ１１は、この所定期間分の音声データを単位として、再生音声処理を実行する。このような再生音声処理の対象となる１単位の音声データを、以下、「処理対象期間の音声データ」と呼ぶ。
また、処理対象期間の音声データが読み出される時間間隔は、本実施形態では、ＲＴＣ１４から現在時刻がＣＰＵ１１に対して送信される時間間隔に基づいて設定されており、具体的には２３ｍｓ間隔であるものとする。
即ち、本実施形態では、再生音声取得部５１は、ＲＴＣ１４から現在時刻が送信されるタイミングに同期して、２３ｍｓ間隔毎に、処理対象期間の音声データを音声記憶部３１から順次取得して、音声内容認識部５２に順次供給する。
なお、処理対象期間の音声データが、符号化され、必要に応じて圧縮されている場合には、再生音声取得部５１は、当該音声データを、必要に応じて伸長して、復号するものとする。

音声内容認識部５２は、再生音声取得部５１から供給された処理対象期間の音声データに含まれる音声内容を認識する。
音声内容認識部５２により認識される音声内容は、特に限定されず、また、音声内容を認識する手法も特に限定されない。
ただし、本実施形態では、音声内容認識部５２により認識される音声内容は、男性の声、女性の声、及び、人間（男性及び女性）の声を含まない音、といった３種類の音声内容のうちの何れかであるものとする。
詳細については後述するが、これらの３種類の音声内容は何れも、特定の周波数帯域に特徴がある。ところが、再生音声取得部５１から供給された処理対象期間の音声データとは、時間領域の音声データである。時間領域の音声データとは、後述する図４に示すように、横軸が時間となっている時系列の音のデータをいう。時間領域の音声データは、音圧の時間推移を解析する用途では好適なデータであるが、周波数分布を解析する用途では不適なデータである。即ち、音声内容認識部４２は、時間領域の音声データの形態のまま、特定の周波数帯の特徴を認識することは困難である。
そこで、本実施形態では、音声内容認識部５２は、処理対象期間の音声データを、時間領域の音声データの形態から周波数領域の形態に変換する。ここで、周波数領域の音声データとは、後述する図５に示すように、横軸が周波数となっている周波数分布を示す音のデータをいう。
ただし、「時間領域」や「周波数領域」は、「データ」に係る修飾語であるため、以下、係り受けの位置は適宜変化するものとする。
時間領域の音声データの形態から周波数領域の形態に変換する手法としては、いわゆるフーリエ変換処理を採用することができる。より具体的には、本実施形態では、ＦＦＴ（ＦａｓｔＦｏｕｒｉｅｒＴｒａｎｓｆｏｒｍ）処理が採用されている。
即ち、音声内容認識部５２は、処理対象期間の音声データに対してＦＦＴ処理を施し、その結果得られる周波数領域の音声データを用いて、当該音声データに含まれる音声内容として、男性の声、女性の声、又は、人間の声を含まない音を認識する。
音声内容認識部５２の認識結果は、音声内容反映部５４に供給される。一方、処理対象期間の音声データは、時間領域の音声データの形態として、音声出力制御部７１に供給される。

再生画像取得部５３は、操作部１７に対するユーザの指示操作により動作を開始すると、再生対象のオリジナルの画像データを画像記憶部３２から取得する。ここで、再生対象のオリジナルの画像データとして、複数の画像データが、操作部１７に対するユーザの指示操作により予め決定されているものとする。さらに、当該複数の画像データの再生順番も、操作部１７に対するユーザの指示操作により予め決定されているものとする。
従って、再生画像取得部５３は、所定の時間間隔毎に、次の再生順番となっている画像データを画像記憶部３２から取得する。このような、次の再生順番となっている画像データを、以下、「次回再生対象のオリジナルの画像データ」と呼ぶ。
また、次回再生対象のオリジナルの画像データが読み出される時間間隔は、本実施形態では、ＲＴＣ１４から現在時刻がＣＰＵ１１に対して送信される時間間隔に基づいて設定されており、具体的には３ｓ間隔であるものとする。
即ち、本実施形態では、再生画像取得部５３は、ＲＴＣ１４から現在時刻が送信されるタイミングに同期して、３ｓ間隔毎に、次回再生対象のオリジナルの画像データを画像記憶部３２から取得して、音声内容反映部５４に供給する。
なお、次回再生対象のオリジナルの画像データが、圧縮符号化されている場合には、再生画像取得部５３は、当該画像データを、伸長復号するものとする。

音声内容反映部５４は、次回再生対象のオリジナルの画像データを再生する場合に、当該オリジナルの画像の構成及び構図を維持したまま、音声内容認識部５２により認識された音声内容を反映させた画像をディスプレイ６２表示させる処理を実行する。このような音声内容反映部５４の処理を、以下、「音声内容反映処理」と呼ぶ。
本実施形態では、音声内容反映部５４は、音声内容反映処理として、再生画像取得部５３から供給された次回再生対象のオリジナルの画像データに対して、当該オリジナルの画像に、音声内容認識部５２により認識された音声内容に対応した装飾画像を付加する画像処理を施す。
これにより、オリジナルの画像に装飾画像が付加された画像（以下、「装飾付加オリジナル画像」と呼ぶ）の画像データが得られ、音声内容反映部５４から表示制御部６１に供給される。

表示制御部６１は、ＣＰＵ１１の制御の下、音声内容反映部５４から供給された画像データを再生する。これにより、本実施形態では、装飾付加オリジナル画像がディスプレイ６２に表示される。
ここで、音声内容認識部５２の認識結果、即ち音声内容は、上述の如く、２３ｍｓ間隔で音声内容反映部５４に供給される。一方で、次回再生対象のオリジナルの画像データは、上述の如く、３ｓ間隔で音声内容反映部５４に供給される。
そこで、本実施形態では、音声内容反映部５４は、２３ｍｓ間隔で、音声内容反映処理を実行するものとする。即ち、装飾付加オリジナル画像のデータは、２３ｍｓ間隔で更新されて、表示制御部６１に供給されるものとする。
これにより、オリジナルの画像については、３ｓ間同一の画像がディスプレイ６２に表示されたまま（それ故、３ｓ間、構図及び構成が維持されたまま）、２３ｍｓ間隔で、音声内容に対応した装飾画像の表示は更新されることになる。

音声出力制御部７１は、ＣＰＵ１１の制御の下、音声内容認識部５２から供給される処理対象期間の音声データ（時間領域の音声データ）を再生する。即ち、本実施形態では、上述の如く、処理対象期間の音声データは音声内容認識部５２から２３ｍｓ間隔で音声出力制御部７１に順次供給されてくる。そこで、音声出力制御部７１は、処理対象期間の音声データに対応する音声、即ち、現在ディスプレイに表示されている装飾画像に対応する音声内容の２３ｍｓ分の音声を、スピーカ７２から出力する。

次に、図３を参照して、このような図２の機能的構成を有する再生装置１の処理のうち、音声再生処理について説明する。
図３は、音声再生処理の流れを説明するフローチャートである。

例えば、音声再生処理は、本実施形態では、ユーザが操作部１７を指示操作することによって、再生対象の音声データ、再生対象の複数のオリジナルの画像データ、及び、それらの画像データの再生順番を決定したことを契機として、開始する。なお、音声再生処理の開始と同期して、後述する図６の画像再生処理も開始する。
なお、ここでは、モノラルの音声データであって、サンプリング周波数４４．１ｋＨｚで１６ビット符号化された音声データが無圧縮でＷＡＶＥ形式のファイルに含められて、再生音声取得部５１に記憶されているものとする。

ステップＳ１において、再生音声取得部５１は、音声記憶部３１に記憶された再生対象の音声データのうち、読み出しアドレスから所定期間分の音声データを、処理対象期間の音声データとして取得する。
ここで、読み出しアドレスとは、再生対象の音声データが記憶されている音声記憶部３１のアドレスのうち、原則として、前回の処理対象期間の音声データの最後尾のアドレスの次のアドレス（以下、「処理対象期間の次のアドレス」と表現する）をいう。ただし、音声再生処理が開始された直後の初回のステップＳ１の処理、及び、後述するステップＳ４の処理が実行された後のステップＳ１の処理では、再生対象の音声データの最初の部分が記憶されているアドレス（以下、単に「最初」と表現する）が、読み出しアドレスになる。
より具体的には、本実施形態では、所定期間として２３ｍｓが採用されている。そして、４４．１ｋＨｚでサンプリングされた音声データが採用されている。このため、処理対象期間の音声データとは、２３ｍｓに相当する個数、即ち１０２４個のサンプルデータとなる。従って、読み出しアドレスから順に１０２４個のサンプルデータが、音声記憶部３１から読み出され、処理対象期間の音声データとして再生音声取得部５１に取得される。即ち、処理対象期間の音声データのサイズは、１０２４個分のサンプルデータに相当する２０４８バイトである。従って、読み出しアドレスから２０４８バイト分のデータが、処理対象期間の音声データとして音声記憶部３１から読み出される。

図４は、ステップＳ１の処理で再生音声取得部５１により処理対象期間の音声データが取得される再生対象の音声データの一例を示すタイミングチャートである。
図４のタイミングチャートにおいて、横軸は、時間を示している。また、縦軸は、音圧を示している。
なお、図４において、横軸の目盛値は、音声データのサンプル数の区切りに合わせて付与しているため、秒単位とはなっていない。処理対象期間の音声データが２４個分集合した場合に相当する時間（５５０ｍｓ）は、この目盛間隔の１／８程度になる。即ち、この目盛間隔の（１／８）×（１／２４）程度の期間分のデータが、１回のステップＳ１の処理により、処理対象期間の音声データとして取得されることになる。

図３のステップＳ２において、音声内容認識部５２は、ステップＳ１の処理で取得した音声データの処理対象期間は、再生対象の最後の期間であるか否かを判定する。

再生対象の最後の期間ではない場合、ステップＳ２において、ＮＯであると判定されて、ステップＳ３に進む。

ステップＳ３において、音声内容認識部５２は、読み出しアドレスを処理対象期間の次のアドレスに更新する。

これに対して、再生対象の最後の期間である場合、ステップＳ２において、ＹＥＳであると判定されて、ステップＳ４に進む。
ステップＳ４において、音声内容認識部５２は、読み出しアドレスを最初に更新する。
これにより、次回のステップＳ１の処理では、再生対象の音声データは最初から読み出されることになる。即ち、再生対象の音声データは、最初から再生されることになる。このようにして、本実施形態では、再生対象の音声データの繰り返し再生を実現している。

ステップＳ３又はステップＳ４の処理により、読み出しアドレスが更新されると、処理はステップＳ５に進む。

ステップＳ５において、音声内容認識部５２は、処理対象期間の音声データに対して、ＦＦＴ処理を施す。
ここで、ステップＳ５のＦＦＴ処理結果、即ち、処理対象期間の周波数領域の音声データは、過去から連続して数１０回分が、所定のメモリ、例えば記憶部２０の一領域（図２には図示せず）に記憶されるものとする。

ステップＳ６において、音声内容認識部５２は、処理対象期間と、過去の複数期間との各々のＦＦＴ処理結果（周波数領域の音声データ）を比較することにより、処理対象期間の音声内容を認識する。
具体的には、処理対象期間の音声データの音声内容が、男性の声、女性の声、及び人間の声を含まない音のうちの何れの種類であるのかが、周波数領域での比較に基づいて判定される。

さらに、以下、図５を参照して、音声内容認識部５２によるステップＳ５及びＳ６の処理の詳細について説明する。

図５（Ａ）は、再生対象の音声データのうち、人間の声を含まない音に対応する音声データに対して、ＦＦＴ処理を施した結果の一例を示している。即ち、人間の声を含まない音に対応する周波数領域の音声データの一例が、図５（Ａ）に示されている。
図５（Ｂ）は、再生対象の音声データのうち、男性の声を含む音に対応する音声データに対して、ＦＦＴ処理を施した結果の一例を示している。即ち、男性の声を含む音に対応する周波数領域の音声データの一例が、図５（Ｂ）に示されている。

図５（Ａ）と図５（Ｂ）とを比較すると、図５（Ｂ）においては、２５０Ｈｚ付近の周波数成分の強度が強いのに対して、図５（Ａ）においては、２５０Ｈｚ付近の周波数成分の強度が弱いことがわかる。このことは、男性のピッチ（基本周波数）は２５０Ｈｚ付近にあるといわれているという内容と一致している。
また、図示はしないが、このピッチは、男性と女性で差異があることも知られており、男性のピッチが上述した２５０Ｈｚ付近であるのに対して、女性のピッチは５６０Ｈｚ付近であるといわれている。
従って、音声内容認識部５２は、２５０Ｈｚや５６０Ｈｚ付近の特定周波数帯に着目して、過去数１０回分の周波数領域のデータ（ＦＦＴ処理結果）を比較し、着目した特定周波数帯の周波数成分の強度の変化度合に基づいて、音声内容を認識することができる。
即ち、音声内容認識部５２は、２５０Ｈｚ付近の周波数成分の強度変化が大きい場合には、処理対象領域の音声データの音声内容は、男性の声であると認識することができる。
音声内容認識部５２は、５６０Ｈｚ付近の周波数成分の強度変化が大きい場合には、処理対象領域の音声データの音声内容は、女性の声であると認識することができる。
そして、音声内容認識部５２は、２５０Ｈｚ付近及び５６０Ｈｚ付近の何れの周波数成分の強度変化が小さい場合には、処理対象領域の音声データの音声内容は、人間の声を含まない音であると認識することができる。

なお、音声内容認識部５２による音声内容の認識手法は、特に前段落の例に限定されず、任意でもよい。
例えば、音声内容認識部５２は、最初に、人間の声を含むか否かを切り分け、人間の声を含む場合にのみ、当該人間の声が男性の声であるのか女性の声であるのかを切り分けるようにしてもよい。この場合、最初の人間の声を含むか否かの判断では、広範囲な周波数帯、例えば、数１０Ｈｚ乃至２０００Ｈｚの周波数成分の強度変化の度合を用いることができる。即ち、これらの強度変化の度合が、大きい場合には、人間の声を含むと判定される一方、小さい場合には、人間の声を含まないと判定される。
また、音声内容認識部５２による音声内容の認識に用いる要素も、周波数成分の単純な強弱の変化のみならず、例えば、増状態の保持時間、次の増状態の時間との間（滅状態の期間）等様々な要素を採用することができる。
さらにまた、１つの処理対象期間の音声データの音声内容を認識する場合において、比較対象として用いられる音声データは、特に限定されない。ただし、比較として用いられる音声データの数は、画像表示の間隔（本実施形態では３ｓ）や、画像データが読み込まれてから表示されるまでの一連の処理に要する時間等を加味すると、数１００ｍｓ程度分の個数が好適である。そこで、例えば、５００ｍｓ程度分の音声データを採用するとした場合、処理対象期間の音声データに換算すると２４個分となり、数１０個とした上述の例と合致する。

以上、音声内容認識部５２によるステップＳ５及びＳ６の処理の詳細について説明した。このようなステップＳ５及びＳ６の処理が終了し、音声内容認識部５２の認識結果、即ち、音声内容が、音声内容反映部５４に供給されると、処理はステップＳ７に進む。

ステップＳ７において、音声出力部１９は、処理対象期間の音声データを再生する。
即ち、音声出力部１９は、処理対象期間の音声データに対応する音声、即ち、ステップＳ６の処理で認識された音声内容の音声を、スピーカ７２から出力する。

ステップＳ８において、再生音声取得部５１は、処理の終了指示があったか否かを判定する。
終了の指示は、特に限定されないが、本実施形態では、ユーザが操作部１７を操作して行う、画像及び音声の再生終了の指示が採用されているものとする。

この場合、再生終了の指示がなされていない場合、ステップＳ８においてＮＯであると判定されて、処理はステップＳ１に戻され、それ以降の処理が繰り返される。即ち、再生終了の指示がなさるまでの間、ステップＳ１乃至Ｓ８のループ処理が繰り返し実行される。処理対象期間の音声データを単位として、その音声内容が認識されると共に、その音声内容の音声がスピーカ７２から出力される、といった処理が繰り返し実行される。

その後、再生終了の指示がなされると、ステップＳ８においてＹＥＳであると判定されて、音楽再生処理は終了となる。

以上、図３を参照して、図２の再生装置１の処理のうち、音声再生処理について説明した。
次に、図６を参照して、図２の再生装置１の処理のうち、画像再生処理について説明する。
図６は、画像再生処理の流れを説明するフローチャートである。

例えば、画像再生処理は、本実施形態では、ユーザが操作部１７を指示操作することによって、再生対象の音声データ、再生対象の複数のオリジナルの画像データ、及び、それらの画像データの再生順番を決定したことを契機として、開始する。即ち、上述したように、図３の音声再生処理の開始と同期して図６の画像再生処理も開始する。
なお、ここでは、デジタルカメラ等で撮影された写真の画像データが、いわゆるＪＰＥＧ符号化されてＪＰＥＧ形式のファイルに含まれたデータ（以下、「ＪＰＥＧデータ」と呼ぶ）が、再生対象の複数のオリジナルの画像データとして決定されているものとする。そして、これらの複数のオリジナルの画像データが、３秒間隔で、いわゆるスライド再生されるものとする。

ステップＳ２１において、再生画像取得部５３は、次回再生対象の初期設定を行う。即ち、ここでは、上述の再生順番として１番が決定されたオリジナルの画像データが、次回再生対象の画像データとして設定されるものとする。

ステップＳ２２において、再生画像取得部５３は、画像記憶部３２に記憶されている再生対象の複数のオリジナルの画像データのうち、次回再生対象のオリジナルの画像データを取得する。
なお、ここでは、次回再生対象のオリジナルの画像データはＪＰＥＧデータである。そこで、再生画像取得部５３は、当該ＪＰＥＧデータに対して伸長復号処理を施す。ここで、伸長復号処理の結果得られる画像データの形態は特に限定されず、例えば、出力サイズ（例えば、１０２４×７６８、１０２４×６００、８００×６００、６４０×４８０）に合わせた非圧縮のＲＧＢの１画素当たり２４ビットの画像データ、ＹＵＶ４２２の１画素当たり１６ビットの画像データ、或いは、ＹＵＶ４２０の１画素当たり１２ビットの画像データ等を採用することができる。

ステップＳ２３において、音声内容反映部５４は、音声内容を取得する。ここで、音声内容反映部５４が取得する音声内容とは、図３の音声再生処理のステップＳ６の処理で音声内容認識部５２により認識された、処理対象期間の音声データについての音声内容である。
即ち、音声内容反映部５４は、処理対象期間の音声データについての音声内容として、男性の声、女性の声、及び人間の声を含まない音のうちの何れの種類を取得する。
より具体的には例えば、本実施形態では、音声内容認識部５２は、処理対象期間の音声データについての音声内容の認識結果を、識別コードとして音声内容反映部５４に供給するものとする。即ち、音声内容認識部５２は、男性の声を認識した場合には識別コードＣＢを発行し、女性の声（子供の声の可能性あり）を認識した場合には識別コードＣＣを発行し、人間の声を含まない音を認識した場合には識別コードＣＤを発行する。
音声内容反映部５４は、ステップＳ２３の処理で、これらの識別コードＣＢ，ＣＣ，ＣＤのうちの何れかを音声内容として取得する。

ステップＳ２４において、音声内容反映部５４は、ステップＳ２３の処理で取得した音声内容が前回から変化したか否かを判定する。

直前の回のステップＳ２３の処理で取得された識別コードが、その前の回のステップＳ２３の処理で取得された識別コードと同一である場合、音声内容が前回から変化していないため、ステップＳ２４において、ＮＯであると判定されて、処理はステップＳ２５に進む。
ステップＳ２５において、音声内容反映部５４は、次回再生対象の画像に対して前回と同一の装飾画像を付加する処理を、音声内容反映処理として、次回再生対象の画像データに対して施す。

これに対して、直前の回のステップＳ２３の処理で取得された識別コードが、その前の回のステップＳ２３の処理で取得された識別コード異なる場合、音声内容が前回から変化しているため、ステップＳ２４において、ＹＥＳであると判定されて、処理はステップＳ２６に進む。
ステップＳ２６において、音声内容反映部５４は、次回再生対象の画像に対して音声内容に対応した装飾画像を付加する処理を、音声内容反映処理として、次回再生対象の画像データに対して施す。

ステップＳ２７において、表示部１８は、ＣＰＵ１１の制御の下、装飾画像が付加された次回再生対象のオリジナルの画像データを再生する。これにより、本実施形態では、図７に示すような装飾付加オリジナル画像がディスプレイ６２に表示される。

図７は、装飾付加オリジナル画像の一例を示している。
図７の例では、猫を被写体に含むオリジナルの画像８１が採用されている。
また、ステップＳ２５又はステップＳ２６の処理で付加される装飾画像としては、男性の声に対応する装飾画像９１と、女性の声に対応する装飾画像９２と、人間の声を含まない音に対応する装飾画像９３（音符で模している装飾画像９３）とが採用されている。
例えば、ステップＳ２３の処理で音声内容として識別コードＣＢが取得された場合、即ち男性の声が認識された場合、次のステップＳ２５又はステップＳ２６の処理で、オリジナルの画像８１に対して装飾画像９１が付加される音声内容反映処理が実行される。その結果、次のステップＳ２７の処理では、図７の右方の一番上に示す装飾付加オリジナル画像１０１がディスプレイ６２に表示される。
また例えば、ステップＳ２３の処理で音声内容として識別コードＣＣが取得された場合、即ち女性の声が認識された場合、次のステップＳ２５又はステップＳ２６の処理で、オリジナルの画像８１に対して装飾画像９２が付加される音声内容反映処理が実行される。その結果、次のステップＳ２７の処理では、図７の右方の中央に示す装飾付加オリジナル画像１０２がディスプレイ６２に表示される。
また例えば、ステップＳ２３の処理で音声内容として識別コードＣＤが取得された場合、即ち人間の声を含まない音が認識された場合、次のステップＳ２５又はステップＳ２６の処理で、オリジナルの画像８１に対して装飾画像９３が付加される音声内容反映処理が実行される。その結果、次のステップＳ２７の処理では、図７の右方の一番下に示す装飾付加オリジナル画像１０３がディスプレイ６２に表示される。
なお、装飾付加オリジナル画像１０１乃至１０３は、例示に過ぎない。即ち、装飾画像は、図７の例の装飾画像９１乃至９３に限定されず、任意でもよい。また、本実施形態では、３種類の音声内容をユーザに提示できれば足りるので、装飾画像の種類は３種類である必要はなく、２種類でもよい。具体的には例えば、人間の声を含まない音の場合、装飾画像９３を付加しないオリジナルの画像８１がそのままディスプレイ６２に表示されたとしても、人間の声を含まない音であることをユーザに提示することができる。

図６のステップＳ２８において、再生画像取得部５３は、表示切替条件を満たしたか否かを判定する。
ここで、表示切替条件とは、次回再生対象の画像データを切り替える条件をいい、本実施形態では、当該表示切替条件を前回に満たした時から３秒経過したこと、という条件が採用されている。このような条件を採用することにより、オリジナルの画像の更新を３秒毎に実行することが可能になる。

従って、表示切替条件を前回に満たした時から未だ３秒経過していない場合、即ち、現在ディスプレイ６２に表示されているオリジナルの画像（装飾画像を除いた部分）が、継続して３秒間表示されていない場合、表示切替条件は満たされていない。このような場合、ステップＳ２８においてＮＯであると判定されて、処理はステップＳ２９に進む。
ステップＳ２９において、再生画像取得部５３は、次回の再生対象を現状のまま維持する。

これに対して、表示切替条件を前回に満たした時から３秒経過した場合、即ち、現在ディスプレイ６２に表示されているオリジナルの画像（装飾画像を除いた部分）が、継続して３秒間表示され続けた場合、表示切替条件は満たされる。このような場合、ステップＳ２８においてＹＥＳであると判定されて、処理はステップＳ３０に進む。
ステップＳ３０において、再生画像取得部５３は、次回再生対象を、次の再生順番の画像データに更新する。

このようにして、ステップＳ２９又はステップＳ３０の処理で、次回再生対象が決定されると、処理はステップＳ３１に進む。

ステップＳ３１において、再生画像取得部５３は、処理の終了指示があったか否かを判定する。
終了の指示は、特に限定されないが、本実施形態では、図３の音声再生処理と同一の指示、即ち、ユーザが操作部１７を操作して行う、画像及び音声の再生終了の指示が採用されているものとする。

この場合、再生終了の指示がなされていない場合、ステップＳ３１においてＮＯであると判定されて、処理はステップＳ２２に戻され、それ以降の処理が繰り返される。即ち、再生終了の指示がなさるまでの間、ステップＳ２２乃至Ｓ３１のループ処理が繰り返し実行される。
ここで、ステップＳ２２乃至Ｓ３１のループ処理は、本実施形態では、図３の音声再生処理とあわせて２３ｍｓ毎に実行されるものとする。即ち、音声再生処理により認識される音声内容が更新される毎に、ステップＳ２３の処理で、更新後の音声内容が取得されるものとする。これにより、ステップＳ２５又はＳ２６の処理で付加される装飾画像は、２３ｍｓ毎に更新されることになる。
一方、次回再生対象のオリジナルの画像データは、ステップＳ２８乃至Ｓ３０の処理より、表示切替条件を満たす毎に、即ち、本実施形態では３ｓ毎に更新されることになる。即ち、オリジナルの画像は、３ｓ毎に、いわゆるスライド再生されることになる。

その後、再生終了の指示がなされると、ステップＳ３１においてＹＥＳであると判定されて、画像再生処理は終了となる。なお、このとき、図３の音声再生処理もほぼ同時に終了することになる。

以上説明したように、本実施形態の再生装置１は、表示部１８と、音声出力部１９と、音声内容認識部５２と、音声内容反映部５４と、を備えている。
音声出力部１９は、音声データを再生することによって、当該音声データにより表される音声を出力する。
音声内容認識部５２は、音声出力部１９の再生対象の音声データを解析することによって、当該音声データに含まれる音声内容を認識する。
表示部１８は、画像データを再生することによって、当該画像データにより表される画像を、オリジナルの画像として表示する。
音声内容反映部５４は、表示部１８により画像データが再生されている最中に、オリジナルの画像の構成及び構図を維持したまま、音声内容認識部５２により認識された音声内容を反映させた画像を表示する処理を、音声内容反映処理として実行する。
これにより、オリジナルの画像データを再生している最中に、オリジナルの画像の構図及び構成を維持したまま、音声データに含まれる音声内容を反映した画像も表示させる処理を容易かつ手軽に実現することが可能になる。
また、音声内容反映部５４は、オリジナルの画像に対して、音声内容認識部５２により認識された音声内容に対応した装飾画像を付加する画像処理を、音声内容反映処理として、再生対象の画像データに対して施す。
従って、音声内容に対応した装飾画像を付加することにより、オリジナルの画像の構図及び構成を維持したまま、音声データに含まれる音声内容を反映した画像も表示させる処理を容易かつ手軽に実現することが可能となる。
これにより、オリジナルの画像を改変せずに、音声データに含まれる音声内容を再生対象の画像データに対し反映することができ、ユーザによる表現方法の多様化を図ることができる。

以上、本発明の第１実施形態に係る再生装置について説明した。
以下、本発明の第２実施形態に係る再生装置について説明する。

［第２実施形態］
以上説明したように、本発明に係る再生装置は、画像再生処理の少なくとも一部として、再生対象の画像データを再生する場合、次のような音声内容反映処理を実行する。即ち、再生装置は、再生対象の画像データにより表わされる画像を、オリジナルの画像として、当該オリジナルの画像の構成及び構図を維持したまま、音声再生処理により認識された音声内容を反映させた画像を表示する処理を、音声内容反映処理として実行する。

第１実施形態では、音声内容反映処理として、オリジナルの画像に対して、音声再生処理により認識された音声内容に対応した装飾画像を付加する画像処理が採用された。これにより、オリジナルの画像の構成及び構図を維持したまま、上述の音声再生処理により認識された音声内容を反映させた画像（本実施形態では装飾画像）の表示が実現可能になる。

これに対して、第２実施形態では、複数の再生対象候補の画像データの中から再生対象が選択されるものとして、次のような音声内容反映処理が採用される。即ち、複数の再生対象候補の画像データのうち、音声再生処理により認識された音声内容に対応する画像データを、再生対象の画像データとして選択する処理が、音声内容反映処理として採用される。

このような第２実施形態の音声内容反映処理は、第１実施形態の再生装置１と同様のハードウェア構成及び機能的構成により実現できる。
そこで、第２実施形態に係る再生装置も、図１のハードウェア構成を有し、かつ、図２の機能的構成を有するものとする。従って、第２実施形態に係る再生装置についても、第１実施形態と同一の符号を用いて説明し、第１実施形態で説明した構成については、その説明を省略する。
また、第２実施形態に係る再生装置１の処理のうち、音楽再生処理は、第１実施形態と同様に図３のフローチャートに従って実行することが可能である。そこで、第２実施形態に係る音楽再生処理の説明は省略する。

そこで、以下、図８を参照して、第２実施形態に係る再生装置１の処理のうち、画像再生処理についてのみ説明する。
図８は、第２実施形態に係る画像再生処理の流れを説明するフローチャートである。

例えば、第２実施形態に係る画像再生処理は、ユーザが操作部１７を指示操作することによって、再生対象の音声データ、再生対象候補の複数のオリジナルの画像データを決定したことを契機として、開始する。即ち、図３の音声再生処理の開始と同期して図８の画像再生処理も開始する。

ただし、第２実施形態では、再生対象候補の複数のオリジナルの画像データについては、再生順番は特に決定されておらず、場合によっては（再生される音声データに含まれる音声内容によっては）、再生されない可能性もあり得る。ただし、再生対象候補の複数のオリジナルの画像データの各々は、音声再生処理により認識される得る音声内容のうちの少なくとも１つが対応付けられているものとする。
具体的には例えば、第２実施形態でも、第１実施形態と同様に、音声再生処理により認識される得る音声内容として、男性の声、女性の声、及び人間の声を含まない音の３種類が採用されているものとする。従って、ここでは、再生対象候補の複数のオリジナルの画像データの各々は、男性の声、女性の声、及び人間の声を含まない音の３種類のうちの何れかの種類が対応付けられているものとする。
より具体的には例えば、ここでは、男性を被写体に含む画像データに対しては、男性の声が対応付けられているものとする。また、女性を被写体に含む画像データに対しては、女性の声が対応付けられているものとする。そして、人間を含まない風景画等の画像データに対しては、人間の声を含まない音が対応付けられているものとする。

ステップＳ４１において、音声内容反映部５４は、音声内容を取得する。ここで、音声内容反映部５４が取得する音声内容とは、図３の音声再生処理のステップＳ６の処理で音声内容認識部５２により認識された、処理対象期間の音声データについての音声内容である。具体的には例えば、音声内容反映部５４は、ステップＳ２３の処理で、第１実施形態と同様の識別コードＣＢ，ＣＣ，ＣＤのうちの何れかを音声内容として取得するものとする。

ステップＳ４２において、音声内容反映部５４は、ステップＳ４１の処理で取得した音声内容が前回から変化したか否かを判定する。

直前の回のステップＳ４１の処理で取得された識別コードが、その前の回のステップＳ４１の処理で取得された識別コードと同一である場合、音声内容が前回から変化していないため、ステップＳ４２において、ＮＯであると判定されて、処理はステップＳ４３に進む。
ステップＳ４３において、音声内容反映部５４は、前回と同一の画像データを、次回再生対象として、再生画像取得部５３を介して取得する、といった音声内容反映処理を実行する。
即ち、音声内容反映部５４は、前回と同一の画像データを、次回再生対象として取得するように、再生画像取得部５３に指示する。再生画像取得部５３は、指示された画像データを画像記憶部３２から取得して、音声内容反映部５４に供給する。
なお、音声内容反映部５４が、画像データをバッファリングする機能を有している場合、特に、再生画像取得部５３に同一の画像データを取得させる必要はない。

これに対して、直前の回のステップＳ４１の処理で取得された識別コードが、その前の回のステップＳ４１の処理で取得された識別コードと異なる場合、音声内容が前回から変化しているため、ステップＳ４２において、ＹＥＳであると判定されて、処理はステップＳ４４に進む。
ステップＳ４４において、音声内容反映部５４は、音声内容に対応した画像データを、次回再生対象として、再生画像取得部５３を介して取得する、といった音声内容反映処理を実行する。
なお、ステップ４４の処理は、取得対象の画像データが異なることを除いては、ステップＳ４３の処理と基本的に同様であるため、画像データの具体的な取得手法等については、その説明を省略する。

ステップＳ４５において、表示部１８は、ＣＰＵ１１の制御の下、ステップＳ４３又はＳ４４の処理で次回再生対象として取得された画像データ、即ち、オリジナルの画像データを再生する。これにより、本実施形態では、図９に示すようなオリジナルの画像であって、音声内容に対応した画像がディスプレイ６２に表示される。

図９は、ステップＳ４５の処理で表示されるオリジナルの画像であって、音声内容に対応した画像の一例を示している。
図９の例では、３つのオリジナルの画像１１１乃至１１３が、再生対象候補の画像として採用されている。オリジナルの画像１１１とは、女性１２１を被写体に含む画像であって、女性の声に対応付けられている。オリジナルの画像１１２とは、男性１２２を被写体に含む画像であって、男性の声に対応付けられている。オリジナルの画像１１３とは、人間を含まず風景１２３を被写体に含む画像であって、人間の声を含まない音が対応付けられている。
例えば、ステップＳ４１の処理で音声内容として識別コードＣＢが取得された場合、即ち男性の声が認識された場合、次のステップＳ４３又はステップＳ４４の処理で、オリジナルの画像１１２の画像データを次回再生対象として取得する、といった音声内容反映処理が実行される。その結果、次のステップＳ４５の処理では、図９の右方に示すような、男性１２２を被写体に含むオリジナルの画像１１２がディスプレイ６２に表示される。
また例えば、ステップＳ４１の処理で音声内容として識別コードＣＣが取得された場合、即ち女性の声が認識された場合、次のステップＳ４３又はステップＳ４４の処理で、オリジナルの画像１１１の画像データを次回再生対象として取得する、といった音声内容反映処理が実行される。その結果、次のステップＳ４５の処理では、図９の左上方に示すような、女性１２１を被写体に含むオリジナルの画像１１１がディスプレイ６２に表示される。
また例えば、ステップＳ４１の処理で音声内容として識別コードＣＤが取得された場合、即ち人間の声を含まない音が認識された場合、次のステップＳ４３又はステップＳ４４の処理で、オリジナルの画像１１３の画像データを次回再生対象として取得する、といった音声内容反映処理が実行される。その結果、次のステップＳ４５の処理では、図９の左下方に示すような、人間を被写体に含まずに風景１２３のみを被写体に含むオリジナルの画像１１３がディスプレイ６２に表示される。

このようにして、ステップＳ４５の処理により、オリジナルの画像であって、音声内容に対応した画像がディスプレイ６２に表示されると、処理はステップＳ４６に進む。

ステップＳ４６において、再生画像取得部５３は、処理の終了指示があったか否かを判定する。
終了の指示は、特に限定されないが、第２実施形態でも、第１実施形態と同様に、図３の音声再生処理と同一の指示、即ち、ユーザが操作部１７を操作して行う、画像及び音声の再生終了の指示が採用されているものとする。

この場合、再生終了の指示がなされていない場合、ステップＳ４６においてＮＯであると判定されて、処理はステップＳ４１に戻され、それ以降の処理が繰り返される。即ち、再生終了の指示がなさるまでの間、ステップＳ４１乃至Ｓ４６のループ処理が繰り返し実行される。
ここで、ステップＳ４１乃至Ｓ４６のループ処理は、図３の音声再生処理とあわせて２３ｍｓ毎に実行されるものとすると、２３ｍｓでオリジナル画像の表示が更新されてしまい、ユーザの目には更新タイミングが早過ぎるように映る。従って、ここでは、ステップＳ４１乃至Ｓ４６のループ処理は、図３の音声再生処理とあわせて３ｓ毎に実行されるものとする。これにより、３ｓ毎に、音声内容に対応するオリジナルの画像が、いわゆるスライド再生されることになる。

その後、再生終了の指示がなされると、ステップＳ４６においてＹＥＳであると判定されて、画像再生処理は終了となる。なお、このとき、図３の音声再生処理もほぼ同時に終了することになる。

以上説明したように、本実施形態の再生装置１は、表示部１８と、音声出力部１９と、音声内容認識部５２と、音声内容反映部５４と、を備えている。
音声出力部１９は、音声データを再生することによって、当該音声データにより表される音声を出力する。
音声内容認識部５２は、音声出力部１９の再生対象の音声データを解析することによって、当該音声データに含まれる音声内容を認識する。
表示部１８は、複数の再生対象候補の画像データの中から選択された、再生対象の画像データを再生することによって、当該画像データにより表される画像を、オリジナルの画像として表示する。
音声内容反映部５４は、表示部１８により画像データが再生されている最中に、オリジナルの画像の構成及び構図を維持したまま、複数の再生対象候補の画像データのうち、音声内容認識部５２により認識された音声内容に対応する画像データを、再生対象の画像データとして選択する処理を、音声内容反映処理として実行する。
従って、音声内容に対応する画像データを再生対象の画像データとして選択することにより、オリジナルの画像の構図及び構成を維持したまま、音声データに含まれる音声内容を反映した画像を表示することができる。
これにより、オリジナルの画像を改変せずに、複数のオリジナル画像を用いて、ユーザによる表現方法の多様化を図ることができる。

なお、本発明は、上述の実施形態に限定されるものではなく、本発明の目的を達成できる範囲での変形、改良等は本発明に含まれるものである。

例えば、上述の実施形態では、オリジナルの画像に対して、音声内容に対応した装飾画像を付加しているが、この装飾画像は、動きのない静止画に限定されない。例えば、装飾画像は、動きのあるアニメーションＧＩＦや、ＡｄｏｂｅＦｌａｓｈ（登録商標）形式、ＭＰ４形式の動画像でもよい。
また、装飾画像として、男性の声に対応する装飾画像９１と、女性の声に対応する装飾画像９２と、人間の声を含まない音に対応する装飾画像９３（音符で模している装飾画像９３）を採用しているがこれらに限定されない。例えば、音声内容のテンポに応じて装飾画像上のキャラクタが踊ったり、音声内容の発声に対応して装飾画像上の男性、女性又は動物等のキャラクタが口パクしたりしてもよい。

また、上述の実施形態では、音声データは、楽曲であるがこれに限られない。例えば、音声データとしては、声のみのナレーションや、台詞等により構成されている音声データであってもよい。

なお、音声記憶部３１が記憶する音声データは、ドライブ２２を介してリムーバブルメディア４１から取得した音声データに限定されず、通信部２１を介して外部から取得した音声データであってもよい。

また例えば、上述した実施形態では、本発明が適用される再生装置１は、デジタルフォトフレームとして構成される例として説明した。
しかしながら、本発明は、特にこれに限定されず、表示機能を有する電子機器一般に適用することができ、例えば、本発明は、パーソナルコンピュータ、携帯型ナビゲーション装置、ポータブルゲーム機等に幅広く適用可能である。

上述した一連の処理は、ハードウェアにより実行させることもできるし、ソフトウェアにより実行させることもできる。

一連の処理をソフトウェアにより実行させる場合には、そのソフトウェアを構成するプログラムが、コンピュータ等にネットワークや記録媒体からインストールされる。コンピュータは、専用のハードウェアに組み込まれているコンピュータであってもよい。また、コンピュータは、各種のプログラムをインストールすることで、各種の機能を実行することが可能なコンピュータ、例えば汎用のパーソナルコンピュータであってもよい。

このようなプログラムを含む記録媒体は、ユーザにプログラムを提供するために装置本体とは別に配布されるリムーバブルメディア４１により構成されるだけでなく、装置本体に予め組み込まれた状態でユーザに提供される記録媒体等で構成される。リムーバブルメディア４１は、例えば、磁気ディスク（フロッピディスクを含む）、光ディスク、又は光磁気ディスク等により構成される。光ディスクは、例えば、ＣＤ−ＲＯＭ（ＣｏｍｐａｃｔＤｉｓｋ−ＲｅａｄＯｎｌｙＭｅｍｏｒｙ），ＤＶＤ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｋ）等により構成される。光磁気ディスクは、ＭＤ（Ｍｉｎｉ−Ｄｉｓｋ）等により構成される。また、装置本体に予め組み込まれた状態でユーザに提供される記録媒体は、例えば、プログラムが記録されているＲＯＭ１２や記憶部２０に含まれるハードディスク等で構成される。

なお、本明細書において、記録媒体に記録されるプログラムを記述するステップは、その順序に沿って時系列的に行われる処理はもちろん、必ずしも時系列的に処理されなくとも、並列的或いは個別に実行される処理をも含むものである。

１・・・再生装置、１１・・・ＣＰＵ、１２・・・ＲＯＭ、１３・・・ＲＡＭ、１４・・・ＲＴＣ、１５・・・バス、１６・・・入出力インターフェース、１７・・・操作部、１８・・・表示部、１９・・・音声出力部、２０・・・記憶部、２１・・・通信部、２２・・・ドライブ、３１・・・音声記憶部、３２・・・画像記憶部、４１・・・リムーバブルメディア、５１・・・再生音声取得部、５２・・・音声内容認識部、５３・・・再生画像取得部、５４・・・音声内容反映部、６１・・・表示制御部、６２・・・ディスプレイ、７１・・・音声出力制御部、７２・・・スピーカ

Claims

音声データを再生することによって、当該音声データにより表わされる音声を出力する音声再生手段と、
前記音声再生手段の再生対象の前記音声データを解析することによって、当該音声データに含まれる音声内容を認識する音声内容認識手段と、
画像データを再生することによって、当該画像データにより表わされる画像を、オリジナルの画像として表示する画像再生手段と、
前記画像再生手段により前記画像データが再生されている最中に、前記オリジナルの画像の構成及び構図を維持したまま、前記音声内容認識手段により認識された前記音声内容を反映させた画像を表示する処理を、音声内容反映処理として実行する音声内容反映手段と、
を備える再生装置。
前記音声内容反映手段は、
前記オリジナルの画像に対して、前記音声内容認識手段により認識された前記音声内容に対応した装飾画像を付加する画像処理を、前記音声内容反映処理として、前記再生対象の画像データに対して施す、
請求項１に記載の再生装置。
前記画像再生手段は、複数の再生対象候補の画像データの中から選択された、前記再生対象の画像データを再生し、
前記音声内容反映手段は、
前記複数の再生対象候補の画像データのうち、前記音声内容認識手段により認識された前記音声内容に対応する画像データを、前記再生対象の画像データとして選択する処理を、前記音声内容反映処理として実行する、
請求項１に記載の再生装置。
音声データを再生することによって、当該音声データにより表わされる音声を出力する音声再生手段と、
画像データを再生することによって、当該画像データにより表わされる画像を、オリジナルの画像として表示する画像再生手段と、
を備える再生装置の再生方法であって、
前記音声再生手段の再生対象の前記音声データを解析することによって、当該音声データに含まれる音声内容を認識する音声内容認識ステップと、
前記画像再生手段により前記画像データが再生されている最中に、前記オリジナルの画像の構成及び構図を維持したまま、前記音声内容認識ステップの処理により認識された前記音声内容を反映させた画像を表示する処理を、音声内容反映処理として実行する音声内容反映ステップと、
を含む再生方法。
音声データを再生することによって、当該音声データにより表わされる音声を出力する音声再生手段と、
画像データを再生することによって、当該画像データにより表わされる画像を、オリジナルの画像として表示する画像再生手段と、
を備える再生装置を制御するコンピュータに、
前記音声再生手段の再生対象の前記音声データを解析することによって、当該音声データに含まれる音声内容を認識する音声内容認識機能と、
前記画像再生手段により前記画像データが再生されている最中に、前記オリジナルの画像の構成及び構図を維持したまま、前記音声内容認識機能の発揮により認識された前記音声内容を反映させた画像を表示する処理を、音声内容反映処理として実行する音声内容反映機能と、
を実現させるプログラム。