[go: up one dir, main page]

JP2012039391A - 再生装置及び方法、並びにプログラム - Google Patents

再生装置及び方法、並びにプログラム Download PDF

Info

Publication number
JP2012039391A
JP2012039391A JP2010177839A JP2010177839A JP2012039391A JP 2012039391 A JP2012039391 A JP 2012039391A JP 2010177839 A JP2010177839 A JP 2010177839A JP 2010177839 A JP2010177839 A JP 2010177839A JP 2012039391 A JP2012039391 A JP 2012039391A
Authority
JP
Japan
Prior art keywords
audio
image
data
audio content
reproduction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2010177839A
Other languages
English (en)
Inventor
Tamotsu Irie
保 入江
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Casio Computer Co Ltd
Original Assignee
Casio Computer Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Casio Computer Co Ltd filed Critical Casio Computer Co Ltd
Priority to JP2010177839A priority Critical patent/JP2012039391A/ja
Publication of JP2012039391A publication Critical patent/JP2012039391A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Television Signal Processing For Recording (AREA)

Abstract

【課題】オリジナルの画像データを再生している最中に、オリジナルの画像の構図及び構成を維持したまま、音声データに含まれる音声内容を反映した画像も表示させる処理を容易かつ手軽に実現する。
【解決手段】音声出力部19は、音声データを再生することによって、当該音声データにより表される音声を出力する。音声内容認識部52は、音声出力部19の再生対象の音声データを解析することによって、当該音声データに含まれる音声内容を認識する。表示部18は、画像データを再生することによって、当該画像データにより表される画像を、オリジナルの画像として表示する。音声内容反映部54は、表示部18により画像データが再生されている最中に、オリジナルの画像の構成及び構図を維持したまま、音声内容認識部52により認識された音声内容を反映させた画像を表示する処理を、音声内容反映処理として実行する。
【選択図】図2

Description

本発明は、再生装置及び方法、並びにプログラムに関し、特に、オリジナルの画像データを再生している最中に、オリジナルの画像の構図及び構成を維持したまま、音声データに含まれる音声内容を反映した画像も表示させる処理を容易かつ手軽に実現できるようにする技術に関する。
近年、画像を鑑賞する際の演出効果を高める目的で、画像データに対して各種画像処理が施されるようになっている。
例えば、デジタルフォトフレームに代表される再生装置では、画像データと共に音声データも再生できるようになっている。
そこで、特許文献1には、画像データに同期した音声データを文字データに変換して、この文字データと画像データとを関連付ける技術が開示されている。
また、特許文献2には、音楽再生機器から出力される音楽のテンポに合わせて、画面で表示するキャラクタを動作させる技術、即ち、音楽のテンポにあわせて変化するキャラクタを被写体に含む新たな画像データを創造して再生する技術が開示されている。
特開2007−101945号公報 特開2007−160065号公報
しかしながら、特許文献1に記載の技術では、音声データを解析して文字データを作成し、作成した文字データを画像データに関連付ける、といった複雑で時間のかかる処理が必要であった。
このため、当該処理を画像データの再生中に並行して実行しながら、当該処理結果を画像データの再生内容に逐次反映させていくこと、即ち音声データに含まれる音声内容を反映させた画像データの再生を実現することは非常に困難である。換言すると、画像データを再生する前に、当該処理を予め実行しておき、画像データについてのメタデータに文字データを含める等の事前準備をした上でないと、音声データに含まれる音声内容を反映させた画像データの再生をすることは非常に困難である。
また、特許文献2に記載の技術では、上述したように、音楽のテンポにあわせて変化するキャラクタを被写体に含む新たな画像データを創造するため、オリジナルの画像を鑑賞する目的のデジタルフォトフレーム等に適用することは好適でない。
このため、オリジナルの画像データを再生している最中に、オリジナルの画像の構図及び構成を維持したまま、音声データに含まれる音声内容を反映した画像も表示させる処理を容易かつ手軽に実現することが要求されている状況である。
本発明は、このような状況に鑑みてなされたものであり、オリジナルの画像データを再生している最中に、オリジナルの画像の構図及び構成を維持したまま、音声データに含まれる音声内容を反映した画像も表示させる処理を容易かつ手軽に実現することを目的とする。
本発明の一態様によると、
音声データを再生することによって、当該音声データにより表わされる音声を出力する音声再生手段と、
前記音声再生手段の再生対象の前記音声データを解析することによって、当該音声データに含まれる音声内容を認識する音声内容認識手段と、
画像データを再生することによって、当該画像データにより表わされる画像を、オリジナルの画像として表示する画像再生手段と、
前記画像再生手段により前記画像データが再生されている最中に、前記オリジナルの画像の構成及び構図を維持したまま、前記音声内容認識手段により認識された前記音声内容を反映させた画像を表示する処理を、音声内容反映処理として実行する音声内容反映手段と、
を備える再生装置を提供する。
本発明の他の態様によると、上述した本発明の一態様に係るに対応する方法及びプログラムの各々を提供する。
本発明によれば、オリジナルの画像データを再生している最中に、オリジナルの画像の構図及び構成を維持したまま、音声データに含まれる音声内容を反映した画像も表示させる処理を容易かつ手軽に実現することができる。
本発明の一実施形態に係る再生装置のハードウェアの構成を示すブロック図である。 音声再生処理及び画像再生処理を実行するための再生装置の機能的構成を示す機能ブロック図である。 図2のCPUが実行する音声再生処理の流れを説明するフローチャートである。 図2の再生音声取得部により処理対象期間の音声データが取得される再生対象の音声データの一例を示すタイミングチャートである。 再生対象の音声データに対して、FFT処理を施した結果の一例を示している。 図2のCPUが実行する画像再生処理の流れを説明するフローチャートである。 装飾付加オリジナル画像の一例を示している。 本発明の第2実施形態に係るCPUが実行する画像再生処理の流れを説明するフローチャートである。 音声内容に対応したオリジナルの画像の一例を示している。
以下、本発明の一実施形態を図面に基づいて説明する。
[第1実施形態]
図1は、本発明の一実施形態に係る再生装置1のハードウェアの構成を示すブロック図である。再生装置1は、例えばデジタルフォトフレームにより構成することができる。
再生装置1は、CPU(Central Processing Unit)11と、ROM(Read Only Memory)12と、RAM(Random Access Memory)13と、RTC(Real Time Clock)14と、バス15と、入出力インターフェース16と、操作部17と、表示部18と、音声出力部19と、記憶部20と、通信部21と、ドライブ22と、を備えている。
CPU11は、ROM12に記録されているプログラムに従って各種の処理を実行する。又は、CPU11は、記憶部20からRAM13にロードされたプログラムに従って各種の処理を実行する。
RAM13にはまた、CPU11が各種の処理を実行する上において必要なデータ等も適宜記憶される。
例えば本実施形態では、後述する図2の再生音声取得部51乃至音声内容反映部54の各機能を実現するプログラムが、ROM12や記憶部20に記憶されている。従って、CPU11が、これらのプログラムに従った処理を実行することで、後述する図2の再生音声取得部51乃至音声内容反映部54の各機能を実現することができる。
RTC14は、計時動作をして、例えば現在時刻をCPU11に出力する。即ち、CPU11は、RTC14から現在時刻を所定時間毎に取得し、この現在時刻に基づいて音声データ及び画像データの取得タイミングを制御するようにしている。
CPU11、ROM12、RAM13、及びRTC14は、バス15を介して相互に接続されている。このバス15にはまた、入出力インターフェース16も接続されている。入出力インターフェース16には、操作部17、表示部18、音声出力部19、記憶部20及び通信部21が接続されている。
操作部17は、各種釦等で構成され、ユーザの指示操作を受け付ける。
表示部18は、後述する図2のディスプレイ62を含み、CPU11の制御の下、所定の画像データにより表現される画像を当該ディスプレイ62に表示する。
音声出力部19は、後述する図2のスピーカ72を含み、CPU11の制御の下、所定の音声データにより表現される音声を、当該スピーカ72から出力する。
なお、所定の画像データに基づいて、当該画像データにより表現される画像をディスプレイ62に表示させることを、以下、「画像データを再生する」と表現する。また、所定の音声データに基づいて、当該音声データにより表現される音声をスピーカ72から出力させることを、以下、「音声データを再生する」と表現する。
即ち、CPU11の制御の下、表示部18は画像データを再生し、音声出力部19は、音声データを再生する。
記憶部20は、DRAM(Dynamic Random Access Memory)等で構成される。記憶部20は、各種音声処理や画像処理に必要な各種データ、例えば、各種フラグの値、閾値等も記憶する。記憶部20はまた、その一領域として、音声記憶部31及び画像記憶部32を含んでいる。
音声記憶部31は、再生可能な複数の音声データ、例えば楽曲等の音声データを記憶する。
音声記憶部31に記憶される音声データの形式は、特に限定されない。例えば、本実施形態では、所定のフォーマットに従って符号化され、必要に応じて圧縮された音声データが、音声記憶部31に記憶されている。なお、所定のフォーマットとしては、例えば、WAVE形式、MP3(Moving Picture Experts Group Audio Layer−3)形式、AAC(Advanced Audio Coding)形式等を採用することができる。
画像記憶部32は、再生可能な複数の画像データ、例えばデジタルカメラ等で撮影された写真、スキャナで読みこまれた画像、パーソナルコンピュータ等により加工若しくは創造された画像等の各種画像データを記憶する。
画像記憶部32に記憶される画像データの形式は、特に限定されない。例えば、本実施形態では、所定のフォーマットに従って圧縮符号化された静止画の画像データが、画像記憶部32に記憶されている。なお、所定のフォーマットとしては、例えば、JPEG(Joint Photographic Experts Group)を採用することができる。或いは、GIF(Graphics Interchange Format)、PNG(Portable Network Graphics)、TIFF(Tagged Image File Format)等を、所定のフォーマットとして採用してもよい。なお、後述するCPU11(より詳細には音声内容反映部54)によって加工された画像データと区別すべく、画像記憶部32に記憶されている画像データを、以下、「オリジナルの画像データ」と呼ぶ。また、オリジナルの画像データが再生された場合にディスプレイ62に表示される画像を、以下、「オリジナルの画像」と呼ぶ。
通信部21は、インターネットを含むネットワークを介して他の装置(図示せず)との間で行う通信を制御する。
入出力インターフェース16にはまた、必要に応じてドライブ22が接続され、磁気ディスク、光ディスク、光磁気ディスク、或いは半導体メモリ等よりなるリムーバブルメディア41が適宜装着される。ドライブ22によってリムーバブルメディア41から読み出されたプログラムは、必要に応じて記憶部20にインストールされる。また、リムーバブルメディア41は、記憶部20に記憶されている画像データや音声データ等の各種データも、記憶部20と同様に記憶することができる。
このような構成を有する再生装置1は、次のような一連の処理を実行することができる。
即ち、再生装置1は、音声記憶部31に記憶されている複数の音声データのうち、再生対象の音声データを取得する。
再生装置1は、再生対象の音声データを解析することによって、当該音声データに含まれる音声の内容(以下、単に「音声内容」と呼ぶ)を認識する。
再生装置1は、再生対象の音声データを再生する。
このような一連の処理を、以下、「音声再生処理」と呼ぶ。
また、再生装置1は、画像記憶部32に記憶されている複数の画像データのうち、再生対象の画像データを再生する場合、当該再生対象の画像データをオリジナルの画像データとして、次のような画像をディスプレイ62に表示させる。即ち、再生装置1は、オリジナルの画像の構成及び構図を維持したまま、上述の音声再生処理により認識された音声内容を反映させた画像をディスプレイ62表示させる。
なお、このような一連の処理を、以下、「画像再生処理」と呼ぶ。
本実施形態では、再生装置1は、画像再生処理の一部として、オリジナルの画像に対して、上述の音声再生処理により認識された音声内容に対応した装飾画像を付加する画像処理を、オリジナルの画像データに対して施す。これにより、オリジナルの画像の構成及び構図を維持したまま、上述の音声再生処理により認識された音声内容を反映させた画像(本実施形態では装飾画像)がディスプレイ62に表示される。
図2は、このような音声再生処理及び画像再生処理を実行するための再生装置1の機能的構成を示す機能ブロック図である。
図2においては、図1の再生装置1の構成のうち、CPU11と、RTC14と、操作部17と、表示部18と、音声出力部19と、記憶部20と、のみが図示されている。
CPU11は、再生音声取得部51と、音声内容認識部52と、再生画像取得部53と、音声内容反映部54と、を備えている。
表示部18は、表示制御部61と、ディスプレイ62と、を備えている。
音声出力部19は、音声出力制御部71と、スピーカ72と、を備えている。
再生音声取得部51は、操作部17に対するユーザの指示操作により動作を開始すると、再生対象の音声データを音声記憶部31から取得する。ここで、再生対象の音声データは、操作部17に対するユーザの指示操作により予め決定されているものとする。
詳細については、図3のフローチャートを参照して後述するが、再生対象の音声データとは、1つの楽曲の開始から終了までの音声データであり、1回の処理で扱うには容量が大きい。そこで、再生対象の音声データは、所定期間毎の音声データに分割されて、所定の時間間隔毎に読み出される。即ち、再生音声取得部51を含むCPU11は、この所定期間分の音声データを単位として、再生音声処理を実行する。このような再生音声処理の対象となる1単位の音声データを、以下、「処理対象期間の音声データ」と呼ぶ。
また、処理対象期間の音声データが読み出される時間間隔は、本実施形態では、RTC14から現在時刻がCPU11に対して送信される時間間隔に基づいて設定されており、具体的には23ms間隔であるものとする。
即ち、本実施形態では、再生音声取得部51は、RTC14から現在時刻が送信されるタイミングに同期して、23ms間隔毎に、処理対象期間の音声データを音声記憶部31から順次取得して、音声内容認識部52に順次供給する。
なお、処理対象期間の音声データが、符号化され、必要に応じて圧縮されている場合には、再生音声取得部51は、当該音声データを、必要に応じて伸長して、復号するものとする。
音声内容認識部52は、再生音声取得部51から供給された処理対象期間の音声データに含まれる音声内容を認識する。
音声内容認識部52により認識される音声内容は、特に限定されず、また、音声内容を認識する手法も特に限定されない。
ただし、本実施形態では、音声内容認識部52により認識される音声内容は、男性の声、女性の声、及び、人間(男性及び女性)の声を含まない音、といった3種類の音声内容のうちの何れかであるものとする。
詳細については後述するが、これらの3種類の音声内容は何れも、特定の周波数帯域に特徴がある。ところが、再生音声取得部51から供給された処理対象期間の音声データとは、時間領域の音声データである。時間領域の音声データとは、後述する図4に示すように、横軸が時間となっている時系列の音のデータをいう。時間領域の音声データは、音圧の時間推移を解析する用途では好適なデータであるが、周波数分布を解析する用途では不適なデータである。即ち、音声内容認識部42は、時間領域の音声データの形態のまま、特定の周波数帯の特徴を認識することは困難である。
そこで、本実施形態では、音声内容認識部52は、処理対象期間の音声データを、時間領域の音声データの形態から周波数領域の形態に変換する。ここで、周波数領域の音声データとは、後述する図5に示すように、横軸が周波数となっている周波数分布を示す音のデータをいう。
ただし、「時間領域」や「周波数領域」は、「データ」に係る修飾語であるため、以下、係り受けの位置は適宜変化するものとする。
時間領域の音声データの形態から周波数領域の形態に変換する手法としては、いわゆるフーリエ変換処理を採用することができる。より具体的には、本実施形態では、FFT(Fast Fourier Transform)処理が採用されている。
即ち、音声内容認識部52は、処理対象期間の音声データに対してFFT処理を施し、その結果得られる周波数領域の音声データを用いて、当該音声データに含まれる音声内容として、男性の声、女性の声、又は、人間の声を含まない音を認識する。
音声内容認識部52の認識結果は、音声内容反映部54に供給される。一方、処理対象期間の音声データは、時間領域の音声データの形態として、音声出力制御部71に供給される。
再生画像取得部53は、操作部17に対するユーザの指示操作により動作を開始すると、再生対象のオリジナルの画像データを画像記憶部32から取得する。ここで、再生対象のオリジナルの画像データとして、複数の画像データが、操作部17に対するユーザの指示操作により予め決定されているものとする。さらに、当該複数の画像データの再生順番も、操作部17に対するユーザの指示操作により予め決定されているものとする。
従って、再生画像取得部53は、所定の時間間隔毎に、次の再生順番となっている画像データを画像記憶部32から取得する。このような、次の再生順番となっている画像データを、以下、「次回再生対象のオリジナルの画像データ」と呼ぶ。
また、次回再生対象のオリジナルの画像データが読み出される時間間隔は、本実施形態では、RTC14から現在時刻がCPU11に対して送信される時間間隔に基づいて設定されており、具体的には3s間隔であるものとする。
即ち、本実施形態では、再生画像取得部53は、RTC14から現在時刻が送信されるタイミングに同期して、3s間隔毎に、次回再生対象のオリジナルの画像データを画像記憶部32から取得して、音声内容反映部54に供給する。
なお、次回再生対象のオリジナルの画像データが、圧縮符号化されている場合には、再生画像取得部53は、当該画像データを、伸長復号するものとする。
音声内容反映部54は、次回再生対象のオリジナルの画像データを再生する場合に、当該オリジナルの画像の構成及び構図を維持したまま、音声内容認識部52により認識された音声内容を反映させた画像をディスプレイ62表示させる処理を実行する。このような音声内容反映部54の処理を、以下、「音声内容反映処理」と呼ぶ。
本実施形態では、音声内容反映部54は、音声内容反映処理として、再生画像取得部53から供給された次回再生対象のオリジナルの画像データに対して、当該オリジナルの画像に、音声内容認識部52により認識された音声内容に対応した装飾画像を付加する画像処理を施す。
これにより、オリジナルの画像に装飾画像が付加された画像(以下、「装飾付加オリジナル画像」と呼ぶ)の画像データが得られ、音声内容反映部54から表示制御部61に供給される。
表示制御部61は、CPU11の制御の下、音声内容反映部54から供給された画像データを再生する。これにより、本実施形態では、装飾付加オリジナル画像がディスプレイ62に表示される。
ここで、音声内容認識部52の認識結果、即ち音声内容は、上述の如く、23ms間隔で音声内容反映部54に供給される。一方で、次回再生対象のオリジナルの画像データは、上述の如く、3s間隔で音声内容反映部54に供給される。
そこで、本実施形態では、音声内容反映部54は、23ms間隔で、音声内容反映処理を実行するものとする。即ち、装飾付加オリジナル画像のデータは、23ms間隔で更新されて、表示制御部61に供給されるものとする。
これにより、オリジナルの画像については、3s間同一の画像がディスプレイ62に表示されたまま(それ故、3s間、構図及び構成が維持されたまま)、23ms間隔で、音声内容に対応した装飾画像の表示は更新されることになる。
音声出力制御部71は、CPU11の制御の下、音声内容認識部52から供給される処理対象期間の音声データ(時間領域の音声データ)を再生する。即ち、本実施形態では、上述の如く、処理対象期間の音声データは音声内容認識部52から23ms間隔で音声出力制御部71に順次供給されてくる。そこで、音声出力制御部71は、処理対象期間の音声データに対応する音声、即ち、現在ディスプレイに表示されている装飾画像に対応する音声内容の23ms分の音声を、スピーカ72から出力する。
次に、図3を参照して、このような図2の機能的構成を有する再生装置1の処理のうち、音声再生処理について説明する。
図3は、音声再生処理の流れを説明するフローチャートである。
例えば、音声再生処理は、本実施形態では、ユーザが操作部17を指示操作することによって、再生対象の音声データ、再生対象の複数のオリジナルの画像データ、及び、それらの画像データの再生順番を決定したことを契機として、開始する。なお、音声再生処理の開始と同期して、後述する図6の画像再生処理も開始する。
なお、ここでは、モノラルの音声データであって、サンプリング周波数44.1kHzで16ビット符号化された音声データが無圧縮でWAVE形式のファイルに含められて、再生音声取得部51に記憶されているものとする。
ステップS1において、再生音声取得部51は、音声記憶部31に記憶された再生対象の音声データのうち、読み出しアドレスから所定期間分の音声データを、処理対象期間の音声データとして取得する。
ここで、読み出しアドレスとは、再生対象の音声データが記憶されている音声記憶部31のアドレスのうち、原則として、前回の処理対象期間の音声データの最後尾のアドレスの次のアドレス(以下、「処理対象期間の次のアドレス」と表現する)をいう。ただし、音声再生処理が開始された直後の初回のステップS1の処理、及び、後述するステップS4の処理が実行された後のステップS1の処理では、再生対象の音声データの最初の部分が記憶されているアドレス(以下、単に「最初」と表現する)が、読み出しアドレスになる。
より具体的には、本実施形態では、所定期間として23msが採用されている。そして、44.1kHzでサンプリングされた音声データが採用されている。このため、処理対象期間の音声データとは、23msに相当する個数、即ち1024個のサンプルデータとなる。従って、読み出しアドレスから順に1024個のサンプルデータが、音声記憶部31から読み出され、処理対象期間の音声データとして再生音声取得部51に取得される。即ち、処理対象期間の音声データのサイズは、1024個分のサンプルデータに相当する2048バイトである。従って、読み出しアドレスから2048バイト分のデータが、処理対象期間の音声データとして音声記憶部31から読み出される。
図4は、ステップS1の処理で再生音声取得部51により処理対象期間の音声データが取得される再生対象の音声データの一例を示すタイミングチャートである。
図4のタイミングチャートにおいて、横軸は、時間を示している。また、縦軸は、音圧を示している。
なお、図4において、横軸の目盛値は、音声データのサンプル数の区切りに合わせて付与しているため、秒単位とはなっていない。処理対象期間の音声データが24個分集合した場合に相当する時間(550ms)は、この目盛間隔の1/8程度になる。即ち、この目盛間隔の(1/8)×(1/24)程度の期間分のデータが、1回のステップS1の処理により、処理対象期間の音声データとして取得されることになる。
図3のステップS2において、音声内容認識部52は、ステップS1の処理で取得した音声データの処理対象期間は、再生対象の最後の期間であるか否かを判定する。
再生対象の最後の期間ではない場合、ステップS2において、NOであると判定されて、ステップS3に進む。
ステップS3において、音声内容認識部52は、読み出しアドレスを処理対象期間の次のアドレスに更新する。
これに対して、再生対象の最後の期間である場合、ステップS2において、YESであると判定されて、ステップS4に進む。
ステップS4において、音声内容認識部52は、読み出しアドレスを最初に更新する。
これにより、次回のステップS1の処理では、再生対象の音声データは最初から読み出されることになる。即ち、再生対象の音声データは、最初から再生されることになる。このようにして、本実施形態では、再生対象の音声データの繰り返し再生を実現している。
ステップS3又はステップS4の処理により、読み出しアドレスが更新されると、処理はステップS5に進む。
ステップS5において、音声内容認識部52は、処理対象期間の音声データに対して、FFT処理を施す。
ここで、ステップS5のFFT処理結果、即ち、処理対象期間の周波数領域の音声データは、過去から連続して数10回分が、所定のメモリ、例えば記憶部20の一領域(図2には図示せず)に記憶されるものとする。
ステップS6において、音声内容認識部52は、処理対象期間と、過去の複数期間との各々のFFT処理結果(周波数領域の音声データ)を比較することにより、処理対象期間の音声内容を認識する。
具体的には、処理対象期間の音声データの音声内容が、男性の声、女性の声、及び人間の声を含まない音のうちの何れの種類であるのかが、周波数領域での比較に基づいて判定される。
さらに、以下、図5を参照して、音声内容認識部52によるステップS5及びS6の処理の詳細について説明する。
図5(A)は、再生対象の音声データのうち、人間の声を含まない音に対応する音声データに対して、FFT処理を施した結果の一例を示している。即ち、人間の声を含まない音に対応する周波数領域の音声データの一例が、図5(A)に示されている。
図5(B)は、再生対象の音声データのうち、男性の声を含む音に対応する音声データに対して、FFT処理を施した結果の一例を示している。即ち、男性の声を含む音に対応する周波数領域の音声データの一例が、図5(B)に示されている。
図5(A)と図5(B)とを比較すると、図5(B)においては、250Hz付近の周波数成分の強度が強いのに対して、図5(A)においては、250Hz付近の周波数成分の強度が弱いことがわかる。このことは、男性のピッチ(基本周波数)は250Hz付近にあるといわれているという内容と一致している。
また、図示はしないが、このピッチは、男性と女性で差異があることも知られており、男性のピッチが上述した250Hz付近であるのに対して、女性のピッチは560Hz付近であるといわれている。
従って、音声内容認識部52は、250Hzや560Hz付近の特定周波数帯に着目して、過去数10回分の周波数領域のデータ(FFT処理結果)を比較し、着目した特定周波数帯の周波数成分の強度の変化度合に基づいて、音声内容を認識することができる。
即ち、音声内容認識部52は、250Hz付近の周波数成分の強度変化が大きい場合には、処理対象領域の音声データの音声内容は、男性の声であると認識することができる。
音声内容認識部52は、560Hz付近の周波数成分の強度変化が大きい場合には、処理対象領域の音声データの音声内容は、女性の声であると認識することができる。
そして、音声内容認識部52は、250Hz付近及び560Hz付近の何れの周波数成分の強度変化が小さい場合には、処理対象領域の音声データの音声内容は、人間の声を含まない音であると認識することができる。
なお、音声内容認識部52による音声内容の認識手法は、特に前段落の例に限定されず、任意でもよい。
例えば、音声内容認識部52は、最初に、人間の声を含むか否かを切り分け、人間の声を含む場合にのみ、当該人間の声が男性の声であるのか女性の声であるのかを切り分けるようにしてもよい。この場合、最初の人間の声を含むか否かの判断では、広範囲な周波数帯、例えば、数10Hz乃至2000Hzの周波数成分の強度変化の度合を用いることができる。即ち、これらの強度変化の度合が、大きい場合には、人間の声を含むと判定される一方、小さい場合には、人間の声を含まないと判定される。
また、音声内容認識部52による音声内容の認識に用いる要素も、周波数成分の単純な強弱の変化のみならず、例えば、増状態の保持時間、次の増状態の時間との間(滅状態の期間)等様々な要素を採用することができる。
さらにまた、1つの処理対象期間の音声データの音声内容を認識する場合において、比較対象として用いられる音声データは、特に限定されない。ただし、比較として用いられる音声データの数は、画像表示の間隔(本実施形態では3s)や、画像データが読み込まれてから表示されるまでの一連の処理に要する時間等を加味すると、数100ms程度分の個数が好適である。そこで、例えば、500ms程度分の音声データを採用するとした場合、処理対象期間の音声データに換算すると24個分となり、数10個とした上述の例と合致する。
以上、音声内容認識部52によるステップS5及びS6の処理の詳細について説明した。このようなステップS5及びS6の処理が終了し、音声内容認識部52の認識結果、即ち、音声内容が、音声内容反映部54に供給されると、処理はステップS7に進む。
ステップS7において、音声出力部19は、処理対象期間の音声データを再生する。
即ち、音声出力部19は、処理対象期間の音声データに対応する音声、即ち、ステップS6の処理で認識された音声内容の音声を、スピーカ72から出力する。
ステップS8において、再生音声取得部51は、処理の終了指示があったか否かを判定する。
終了の指示は、特に限定されないが、本実施形態では、ユーザが操作部17を操作して行う、画像及び音声の再生終了の指示が採用されているものとする。
この場合、再生終了の指示がなされていない場合、ステップS8においてNOであると判定されて、処理はステップS1に戻され、それ以降の処理が繰り返される。即ち、再生終了の指示がなさるまでの間、ステップS1乃至S8のループ処理が繰り返し実行される。処理対象期間の音声データを単位として、その音声内容が認識されると共に、その音声内容の音声がスピーカ72から出力される、といった処理が繰り返し実行される。
その後、再生終了の指示がなされると、ステップS8においてYESであると判定されて、音楽再生処理は終了となる。
以上、図3を参照して、図2の再生装置1の処理のうち、音声再生処理について説明した。
次に、図6を参照して、図2の再生装置1の処理のうち、画像再生処理について説明する。
図6は、画像再生処理の流れを説明するフローチャートである。
例えば、画像再生処理は、本実施形態では、ユーザが操作部17を指示操作することによって、再生対象の音声データ、再生対象の複数のオリジナルの画像データ、及び、それらの画像データの再生順番を決定したことを契機として、開始する。即ち、上述したように、図3の音声再生処理の開始と同期して図6の画像再生処理も開始する。
なお、ここでは、デジタルカメラ等で撮影された写真の画像データが、いわゆるJPEG符号化されてJPEG形式のファイルに含まれたデータ(以下、「JPEGデータ」と呼ぶ)が、再生対象の複数のオリジナルの画像データとして決定されているものとする。そして、これらの複数のオリジナルの画像データが、3秒間隔で、いわゆるスライド再生されるものとする。
ステップS21において、再生画像取得部53は、次回再生対象の初期設定を行う。即ち、ここでは、上述の再生順番として1番が決定されたオリジナルの画像データが、次回再生対象の画像データとして設定されるものとする。
ステップS22において、再生画像取得部53は、画像記憶部32に記憶されている再生対象の複数のオリジナルの画像データのうち、次回再生対象のオリジナルの画像データを取得する。
なお、ここでは、次回再生対象のオリジナルの画像データはJPEGデータである。そこで、再生画像取得部53は、当該JPEGデータに対して伸長復号処理を施す。ここで、伸長復号処理の結果得られる画像データの形態は特に限定されず、例えば、出力サイズ(例えば、1024×768、1024×600、800×600、640×480)に合わせた非圧縮のRGBの1画素当たり24ビットの画像データ、YUV422の1画素当たり16ビットの画像データ、或いは、YUV420の1画素当たり12ビットの画像データ等を採用することができる。
ステップS23において、音声内容反映部54は、音声内容を取得する。ここで、音声内容反映部54が取得する音声内容とは、図3の音声再生処理のステップS6の処理で音声内容認識部52により認識された、処理対象期間の音声データについての音声内容である。
即ち、音声内容反映部54は、処理対象期間の音声データについての音声内容として、男性の声、女性の声、及び人間の声を含まない音のうちの何れの種類を取得する。
より具体的には例えば、本実施形態では、音声内容認識部52は、処理対象期間の音声データについての音声内容の認識結果を、識別コードとして音声内容反映部54に供給するものとする。即ち、音声内容認識部52は、男性の声を認識した場合には識別コードCBを発行し、女性の声(子供の声の可能性あり)を認識した場合には識別コードCCを発行し、人間の声を含まない音を認識した場合には識別コードCDを発行する。
音声内容反映部54は、ステップS23の処理で、これらの識別コードCB,CC,CDのうちの何れかを音声内容として取得する。
ステップS24において、音声内容反映部54は、ステップS23の処理で取得した音声内容が前回から変化したか否かを判定する。
直前の回のステップS23の処理で取得された識別コードが、その前の回のステップS23の処理で取得された識別コードと同一である場合、音声内容が前回から変化していないため、ステップS24において、NOであると判定されて、処理はステップS25に進む。
ステップS25において、音声内容反映部54は、次回再生対象の画像に対して前回と同一の装飾画像を付加する処理を、音声内容反映処理として、次回再生対象の画像データに対して施す。
これに対して、直前の回のステップS23の処理で取得された識別コードが、その前の回のステップS23の処理で取得された識別コード異なる場合、音声内容が前回から変化しているため、ステップS24において、YESであると判定されて、処理はステップS26に進む。
ステップS26において、音声内容反映部54は、次回再生対象の画像に対して音声内容に対応した装飾画像を付加する処理を、音声内容反映処理として、次回再生対象の画像データに対して施す。
ステップS27において、表示部18は、CPU11の制御の下、装飾画像が付加された次回再生対象のオリジナルの画像データを再生する。これにより、本実施形態では、図7に示すような装飾付加オリジナル画像がディスプレイ62に表示される。
図7は、装飾付加オリジナル画像の一例を示している。
図7の例では、猫を被写体に含むオリジナルの画像81が採用されている。
また、ステップS25又はステップS26の処理で付加される装飾画像としては、男性の声に対応する装飾画像91と、女性の声に対応する装飾画像92と、人間の声を含まない音に対応する装飾画像93(音符で模している装飾画像93)とが採用されている。
例えば、ステップS23の処理で音声内容として識別コードCBが取得された場合、即ち男性の声が認識された場合、次のステップS25又はステップS26の処理で、オリジナルの画像81に対して装飾画像91が付加される音声内容反映処理が実行される。その結果、次のステップS27の処理では、図7の右方の一番上に示す装飾付加オリジナル画像101がディスプレイ62に表示される。
また例えば、ステップS23の処理で音声内容として識別コードCCが取得された場合、即ち女性の声が認識された場合、次のステップS25又はステップS26の処理で、オリジナルの画像81に対して装飾画像92が付加される音声内容反映処理が実行される。その結果、次のステップS27の処理では、図7の右方の中央に示す装飾付加オリジナル画像102がディスプレイ62に表示される。
また例えば、ステップS23の処理で音声内容として識別コードCDが取得された場合、即ち人間の声を含まない音が認識された場合、次のステップS25又はステップS26の処理で、オリジナルの画像81に対して装飾画像93が付加される音声内容反映処理が実行される。その結果、次のステップS27の処理では、図7の右方の一番下に示す装飾付加オリジナル画像103がディスプレイ62に表示される。
なお、装飾付加オリジナル画像101乃至103は、例示に過ぎない。即ち、装飾画像は、図7の例の装飾画像91乃至93に限定されず、任意でもよい。また、本実施形態では、3種類の音声内容をユーザに提示できれば足りるので、装飾画像の種類は3種類である必要はなく、2種類でもよい。具体的には例えば、人間の声を含まない音の場合、装飾画像93を付加しないオリジナルの画像81がそのままディスプレイ62に表示されたとしても、人間の声を含まない音であることをユーザに提示することができる。
図6のステップS28において、再生画像取得部53は、表示切替条件を満たしたか否かを判定する。
ここで、表示切替条件とは、次回再生対象の画像データを切り替える条件をいい、本実施形態では、当該表示切替条件を前回に満たした時から3秒経過したこと、という条件が採用されている。このような条件を採用することにより、オリジナルの画像の更新を3秒毎に実行することが可能になる。
従って、表示切替条件を前回に満たした時から未だ3秒経過していない場合、即ち、現在ディスプレイ62に表示されているオリジナルの画像(装飾画像を除いた部分)が、継続して3秒間表示されていない場合、表示切替条件は満たされていない。このような場合、ステップS28においてNOであると判定されて、処理はステップS29に進む。
ステップS29において、再生画像取得部53は、次回の再生対象を現状のまま維持する。
これに対して、表示切替条件を前回に満たした時から3秒経過した場合、即ち、現在ディスプレイ62に表示されているオリジナルの画像(装飾画像を除いた部分)が、継続して3秒間表示され続けた場合、表示切替条件は満たされる。このような場合、ステップS28においてYESであると判定されて、処理はステップS30に進む。
ステップS30において、再生画像取得部53は、次回再生対象を、次の再生順番の画像データに更新する。
このようにして、ステップS29又はステップS30の処理で、次回再生対象が決定されると、処理はステップS31に進む。
ステップS31において、再生画像取得部53は、処理の終了指示があったか否かを判定する。
終了の指示は、特に限定されないが、本実施形態では、図3の音声再生処理と同一の指示、即ち、ユーザが操作部17を操作して行う、画像及び音声の再生終了の指示が採用されているものとする。
この場合、再生終了の指示がなされていない場合、ステップS31においてNOであると判定されて、処理はステップS22に戻され、それ以降の処理が繰り返される。即ち、再生終了の指示がなさるまでの間、ステップS22乃至S31のループ処理が繰り返し実行される。
ここで、ステップS22乃至S31のループ処理は、本実施形態では、図3の音声再生処理とあわせて23ms毎に実行されるものとする。即ち、音声再生処理により認識される音声内容が更新される毎に、ステップS23の処理で、更新後の音声内容が取得されるものとする。これにより、ステップS25又はS26の処理で付加される装飾画像は、23ms毎に更新されることになる。
一方、次回再生対象のオリジナルの画像データは、ステップS28乃至S30の処理より、表示切替条件を満たす毎に、即ち、本実施形態では3s毎に更新されることになる。即ち、オリジナルの画像は、3s毎に、いわゆるスライド再生されることになる。
その後、再生終了の指示がなされると、ステップS31においてYESであると判定されて、画像再生処理は終了となる。なお、このとき、図3の音声再生処理もほぼ同時に終了することになる。
以上説明したように、本実施形態の再生装置1は、表示部18と、音声出力部19と、音声内容認識部52と、音声内容反映部54と、を備えている。
音声出力部19は、音声データを再生することによって、当該音声データにより表される音声を出力する。
音声内容認識部52は、音声出力部19の再生対象の音声データを解析することによって、当該音声データに含まれる音声内容を認識する。
表示部18は、画像データを再生することによって、当該画像データにより表される画像を、オリジナルの画像として表示する。
音声内容反映部54は、表示部18により画像データが再生されている最中に、オリジナルの画像の構成及び構図を維持したまま、音声内容認識部52により認識された音声内容を反映させた画像を表示する処理を、音声内容反映処理として実行する。
これにより、オリジナルの画像データを再生している最中に、オリジナルの画像の構図及び構成を維持したまま、音声データに含まれる音声内容を反映した画像も表示させる処理を容易かつ手軽に実現することが可能になる。
また、音声内容反映部54は、オリジナルの画像に対して、音声内容認識部52により認識された音声内容に対応した装飾画像を付加する画像処理を、音声内容反映処理として、再生対象の画像データに対して施す。
従って、音声内容に対応した装飾画像を付加することにより、オリジナルの画像の構図及び構成を維持したまま、音声データに含まれる音声内容を反映した画像も表示させる処理を容易かつ手軽に実現することが可能となる。
これにより、オリジナルの画像を改変せずに、音声データに含まれる音声内容を再生対象の画像データに対し反映することができ、ユーザによる表現方法の多様化を図ることができる。
以上、本発明の第1実施形態に係る再生装置について説明した。
以下、本発明の第2実施形態に係る再生装置について説明する。
[第2実施形態]
以上説明したように、本発明に係る再生装置は、画像再生処理の少なくとも一部として、再生対象の画像データを再生する場合、次のような音声内容反映処理を実行する。即ち、再生装置は、再生対象の画像データにより表わされる画像を、オリジナルの画像として、当該オリジナルの画像の構成及び構図を維持したまま、音声再生処理により認識された音声内容を反映させた画像を表示する処理を、音声内容反映処理として実行する。
第1実施形態では、音声内容反映処理として、オリジナルの画像に対して、音声再生処理により認識された音声内容に対応した装飾画像を付加する画像処理が採用された。これにより、オリジナルの画像の構成及び構図を維持したまま、上述の音声再生処理により認識された音声内容を反映させた画像(本実施形態では装飾画像)の表示が実現可能になる。
これに対して、第2実施形態では、複数の再生対象候補の画像データの中から再生対象が選択されるものとして、次のような音声内容反映処理が採用される。即ち、複数の再生対象候補の画像データのうち、音声再生処理により認識された音声内容に対応する画像データを、再生対象の画像データとして選択する処理が、音声内容反映処理として採用される。
このような第2実施形態の音声内容反映処理は、第1実施形態の再生装置1と同様のハードウェア構成及び機能的構成により実現できる。
そこで、第2実施形態に係る再生装置も、図1のハードウェア構成を有し、かつ、図2の機能的構成を有するものとする。従って、第2実施形態に係る再生装置についても、第1実施形態と同一の符号を用いて説明し、第1実施形態で説明した構成については、その説明を省略する。
また、第2実施形態に係る再生装置1の処理のうち、音楽再生処理は、第1実施形態と同様に図3のフローチャートに従って実行することが可能である。そこで、第2実施形態に係る音楽再生処理の説明は省略する。
そこで、以下、図8を参照して、第2実施形態に係る再生装置1の処理のうち、画像再生処理についてのみ説明する。
図8は、第2実施形態に係る画像再生処理の流れを説明するフローチャートである。
例えば、第2実施形態に係る画像再生処理は、ユーザが操作部17を指示操作することによって、再生対象の音声データ、再生対象候補の複数のオリジナルの画像データを決定したことを契機として、開始する。即ち、図3の音声再生処理の開始と同期して図8の画像再生処理も開始する。
ただし、第2実施形態では、再生対象候補の複数のオリジナルの画像データについては、再生順番は特に決定されておらず、場合によっては(再生される音声データに含まれる音声内容によっては)、再生されない可能性もあり得る。ただし、再生対象候補の複数のオリジナルの画像データの各々は、音声再生処理により認識される得る音声内容のうちの少なくとも1つが対応付けられているものとする。
具体的には例えば、第2実施形態でも、第1実施形態と同様に、音声再生処理により認識される得る音声内容として、男性の声、女性の声、及び人間の声を含まない音の3種類が採用されているものとする。従って、ここでは、再生対象候補の複数のオリジナルの画像データの各々は、男性の声、女性の声、及び人間の声を含まない音の3種類のうちの何れかの種類が対応付けられているものとする。
より具体的には例えば、ここでは、男性を被写体に含む画像データに対しては、男性の声が対応付けられているものとする。また、女性を被写体に含む画像データに対しては、女性の声が対応付けられているものとする。そして、人間を含まない風景画等の画像データに対しては、人間の声を含まない音が対応付けられているものとする。
ステップS41において、音声内容反映部54は、音声内容を取得する。ここで、音声内容反映部54が取得する音声内容とは、図3の音声再生処理のステップS6の処理で音声内容認識部52により認識された、処理対象期間の音声データについての音声内容である。具体的には例えば、音声内容反映部54は、ステップS23の処理で、第1実施形態と同様の識別コードCB,CC,CDのうちの何れかを音声内容として取得するものとする。
ステップS42において、音声内容反映部54は、ステップS41の処理で取得した音声内容が前回から変化したか否かを判定する。
直前の回のステップS41の処理で取得された識別コードが、その前の回のステップS41の処理で取得された識別コードと同一である場合、音声内容が前回から変化していないため、ステップS42において、NOであると判定されて、処理はステップS43に進む。
ステップS43において、音声内容反映部54は、前回と同一の画像データを、次回再生対象として、再生画像取得部53を介して取得する、といった音声内容反映処理を実行する。
即ち、音声内容反映部54は、前回と同一の画像データを、次回再生対象として取得するように、再生画像取得部53に指示する。再生画像取得部53は、指示された画像データを画像記憶部32から取得して、音声内容反映部54に供給する。
なお、音声内容反映部54が、画像データをバッファリングする機能を有している場合、特に、再生画像取得部53に同一の画像データを取得させる必要はない。
これに対して、直前の回のステップS41の処理で取得された識別コードが、その前の回のステップS41の処理で取得された識別コードと異なる場合、音声内容が前回から変化しているため、ステップS42において、YESであると判定されて、処理はステップS44に進む。
ステップS44において、音声内容反映部54は、音声内容に対応した画像データを、次回再生対象として、再生画像取得部53を介して取得する、といった音声内容反映処理を実行する。
なお、ステップ44の処理は、取得対象の画像データが異なることを除いては、ステップS43の処理と基本的に同様であるため、画像データの具体的な取得手法等については、その説明を省略する。
ステップS45において、表示部18は、CPU11の制御の下、ステップS43又はS44の処理で次回再生対象として取得された画像データ、即ち、オリジナルの画像データを再生する。これにより、本実施形態では、図9に示すようなオリジナルの画像であって、音声内容に対応した画像がディスプレイ62に表示される。
図9は、ステップS45の処理で表示されるオリジナルの画像であって、音声内容に対応した画像の一例を示している。
図9の例では、3つのオリジナルの画像111乃至113が、再生対象候補の画像として採用されている。オリジナルの画像111とは、女性121を被写体に含む画像であって、女性の声に対応付けられている。オリジナルの画像112とは、男性122を被写体に含む画像であって、男性の声に対応付けられている。オリジナルの画像113とは、人間を含まず風景123を被写体に含む画像であって、人間の声を含まない音が対応付けられている。
例えば、ステップS41の処理で音声内容として識別コードCBが取得された場合、即ち男性の声が認識された場合、次のステップS43又はステップS44の処理で、オリジナルの画像112の画像データを次回再生対象として取得する、といった音声内容反映処理が実行される。その結果、次のステップS45の処理では、図9の右方に示すような、男性122を被写体に含むオリジナルの画像112がディスプレイ62に表示される。
また例えば、ステップS41の処理で音声内容として識別コードCCが取得された場合、即ち女性の声が認識された場合、次のステップS43又はステップS44の処理で、オリジナルの画像111の画像データを次回再生対象として取得する、といった音声内容反映処理が実行される。その結果、次のステップS45の処理では、図9の左上方に示すような、女性121を被写体に含むオリジナルの画像111がディスプレイ62に表示される。
また例えば、ステップS41の処理で音声内容として識別コードCDが取得された場合、即ち人間の声を含まない音が認識された場合、次のステップS43又はステップS44の処理で、オリジナルの画像113の画像データを次回再生対象として取得する、といった音声内容反映処理が実行される。その結果、次のステップS45の処理では、図9の左下方に示すような、人間を被写体に含まずに風景123のみを被写体に含むオリジナルの画像113がディスプレイ62に表示される。
このようにして、ステップS45の処理により、オリジナルの画像であって、音声内容に対応した画像がディスプレイ62に表示されると、処理はステップS46に進む。
ステップS46において、再生画像取得部53は、処理の終了指示があったか否かを判定する。
終了の指示は、特に限定されないが、第2実施形態でも、第1実施形態と同様に、図3の音声再生処理と同一の指示、即ち、ユーザが操作部17を操作して行う、画像及び音声の再生終了の指示が採用されているものとする。
この場合、再生終了の指示がなされていない場合、ステップS46においてNOであると判定されて、処理はステップS41に戻され、それ以降の処理が繰り返される。即ち、再生終了の指示がなさるまでの間、ステップS41乃至S46のループ処理が繰り返し実行される。
ここで、ステップS41乃至S46のループ処理は、図3の音声再生処理とあわせて23ms毎に実行されるものとすると、23msでオリジナル画像の表示が更新されてしまい、ユーザの目には更新タイミングが早過ぎるように映る。従って、ここでは、ステップS41乃至S46のループ処理は、図3の音声再生処理とあわせて3s毎に実行されるものとする。これにより、3s毎に、音声内容に対応するオリジナルの画像が、いわゆるスライド再生されることになる。
その後、再生終了の指示がなされると、ステップS46においてYESであると判定されて、画像再生処理は終了となる。なお、このとき、図3の音声再生処理もほぼ同時に終了することになる。
以上説明したように、本実施形態の再生装置1は、表示部18と、音声出力部19と、音声内容認識部52と、音声内容反映部54と、を備えている。
音声出力部19は、音声データを再生することによって、当該音声データにより表される音声を出力する。
音声内容認識部52は、音声出力部19の再生対象の音声データを解析することによって、当該音声データに含まれる音声内容を認識する。
表示部18は、複数の再生対象候補の画像データの中から選択された、再生対象の画像データを再生することによって、当該画像データにより表される画像を、オリジナルの画像として表示する。
音声内容反映部54は、表示部18により画像データが再生されている最中に、オリジナルの画像の構成及び構図を維持したまま、複数の再生対象候補の画像データのうち、音声内容認識部52により認識された音声内容に対応する画像データを、再生対象の画像データとして選択する処理を、音声内容反映処理として実行する。
従って、音声内容に対応する画像データを再生対象の画像データとして選択することにより、オリジナルの画像の構図及び構成を維持したまま、音声データに含まれる音声内容を反映した画像を表示することができる。
これにより、オリジナルの画像を改変せずに、複数のオリジナル画像を用いて、ユーザによる表現方法の多様化を図ることができる。
なお、本発明は、上述の実施形態に限定されるものではなく、本発明の目的を達成できる範囲での変形、改良等は本発明に含まれるものである。
例えば、上述の実施形態では、オリジナルの画像に対して、音声内容に対応した装飾画像を付加しているが、この装飾画像は、動きのない静止画に限定されない。例えば、装飾画像は、動きのあるアニメーションGIFや、Adobe Flash(登録商標)形式、MP4形式の動画像でもよい。
また、装飾画像として、男性の声に対応する装飾画像91と、女性の声に対応する装飾画像92と、人間の声を含まない音に対応する装飾画像93(音符で模している装飾画像93)を採用しているがこれらに限定されない。例えば、音声内容のテンポに応じて装飾画像上のキャラクタが踊ったり、音声内容の発声に対応して装飾画像上の男性、女性又は動物等のキャラクタが口パクしたりしてもよい。
また、上述の実施形態では、音声データは、楽曲であるがこれに限られない。例えば、音声データとしては、声のみのナレーションや、台詞等により構成されている音声データであってもよい。
なお、音声記憶部31が記憶する音声データは、ドライブ22を介してリムーバブルメディア41から取得した音声データに限定されず、通信部21を介して外部から取得した音声データであってもよい。
また例えば、上述した実施形態では、本発明が適用される再生装置1は、デジタルフォトフレームとして構成される例として説明した。
しかしながら、本発明は、特にこれに限定されず、表示機能を有する電子機器一般に適用することができ、例えば、本発明は、パーソナルコンピュータ、携帯型ナビゲーション装置、ポータブルゲーム機等に幅広く適用可能である。
上述した一連の処理は、ハードウェアにより実行させることもできるし、ソフトウェアにより実行させることもできる。
一連の処理をソフトウェアにより実行させる場合には、そのソフトウェアを構成するプログラムが、コンピュータ等にネットワークや記録媒体からインストールされる。コンピュータは、専用のハードウェアに組み込まれているコンピュータであってもよい。また、コンピュータは、各種のプログラムをインストールすることで、各種の機能を実行することが可能なコンピュータ、例えば汎用のパーソナルコンピュータであってもよい。
このようなプログラムを含む記録媒体は、ユーザにプログラムを提供するために装置本体とは別に配布されるリムーバブルメディア41により構成されるだけでなく、装置本体に予め組み込まれた状態でユーザに提供される記録媒体等で構成される。リムーバブルメディア41は、例えば、磁気ディスク(フロッピディスクを含む)、光ディスク、又は光磁気ディスク等により構成される。光ディスクは、例えば、CD−ROM(Compact Disk−Read Only Memory),DVD(Digital Versatile Disk)等により構成される。光磁気ディスクは、MD(Mini−Disk)等により構成される。また、装置本体に予め組み込まれた状態でユーザに提供される記録媒体は、例えば、プログラムが記録されているROM12や記憶部20に含まれるハードディスク等で構成される。
なお、本明細書において、記録媒体に記録されるプログラムを記述するステップは、その順序に沿って時系列的に行われる処理はもちろん、必ずしも時系列的に処理されなくとも、並列的或いは個別に実行される処理をも含むものである。
1・・・再生装置、11・・・CPU、12・・・ROM、13・・・RAM、14・・・RTC、15・・・バス、16・・・入出力インターフェース、17・・・操作部、18・・・表示部、19・・・音声出力部、20・・・記憶部、21・・・通信部、22・・・ドライブ、31・・・音声記憶部、32・・・画像記憶部、41・・・リムーバブルメディア、51・・・再生音声取得部、52・・・音声内容認識部、53・・・再生画像取得部、54・・・音声内容反映部、61・・・表示制御部、62・・・ディスプレイ、71・・・音声出力制御部、72・・・スピーカ

Claims (5)

  1. 音声データを再生することによって、当該音声データにより表わされる音声を出力する音声再生手段と、
    前記音声再生手段の再生対象の前記音声データを解析することによって、当該音声データに含まれる音声内容を認識する音声内容認識手段と、
    画像データを再生することによって、当該画像データにより表わされる画像を、オリジナルの画像として表示する画像再生手段と、
    前記画像再生手段により前記画像データが再生されている最中に、前記オリジナルの画像の構成及び構図を維持したまま、前記音声内容認識手段により認識された前記音声内容を反映させた画像を表示する処理を、音声内容反映処理として実行する音声内容反映手段と、
    を備える再生装置。
  2. 前記音声内容反映手段は、
    前記オリジナルの画像に対して、前記音声内容認識手段により認識された前記音声内容に対応した装飾画像を付加する画像処理を、前記音声内容反映処理として、前記再生対象の画像データに対して施す、
    請求項1に記載の再生装置。
  3. 前記画像再生手段は、複数の再生対象候補の画像データの中から選択された、前記再生対象の画像データを再生し、
    前記音声内容反映手段は、
    前記複数の再生対象候補の画像データのうち、前記音声内容認識手段により認識された前記音声内容に対応する画像データを、前記再生対象の画像データとして選択する処理を、前記音声内容反映処理として実行する、
    請求項1に記載の再生装置。
  4. 音声データを再生することによって、当該音声データにより表わされる音声を出力する音声再生手段と、
    画像データを再生することによって、当該画像データにより表わされる画像を、オリジナルの画像として表示する画像再生手段と、
    を備える再生装置の再生方法であって、
    前記音声再生手段の再生対象の前記音声データを解析することによって、当該音声データに含まれる音声内容を認識する音声内容認識ステップと、
    前記画像再生手段により前記画像データが再生されている最中に、前記オリジナルの画像の構成及び構図を維持したまま、前記音声内容認識ステップの処理により認識された前記音声内容を反映させた画像を表示する処理を、音声内容反映処理として実行する音声内容反映ステップと、
    を含む再生方法。
  5. 音声データを再生することによって、当該音声データにより表わされる音声を出力する音声再生手段と、
    画像データを再生することによって、当該画像データにより表わされる画像を、オリジナルの画像として表示する画像再生手段と、
    を備える再生装置を制御するコンピュータに、
    前記音声再生手段の再生対象の前記音声データを解析することによって、当該音声データに含まれる音声内容を認識する音声内容認識機能と、
    前記画像再生手段により前記画像データが再生されている最中に、前記オリジナルの画像の構成及び構図を維持したまま、前記音声内容認識機能の発揮により認識された前記音声内容を反映させた画像を表示する処理を、音声内容反映処理として実行する音声内容反映機能と、
    を実現させるプログラム。
JP2010177839A 2010-08-06 2010-08-06 再生装置及び方法、並びにプログラム Pending JP2012039391A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010177839A JP2012039391A (ja) 2010-08-06 2010-08-06 再生装置及び方法、並びにプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010177839A JP2012039391A (ja) 2010-08-06 2010-08-06 再生装置及び方法、並びにプログラム

Publications (1)

Publication Number Publication Date
JP2012039391A true JP2012039391A (ja) 2012-02-23

Family

ID=45850880

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010177839A Pending JP2012039391A (ja) 2010-08-06 2010-08-06 再生装置及び方法、並びにプログラム

Country Status (1)

Country Link
JP (1) JP2012039391A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103812758A (zh) * 2012-11-09 2014-05-21 财团法人资讯工业策进会 经由音频发布信息的系统及方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103812758A (zh) * 2012-11-09 2014-05-21 财团法人资讯工业策进会 经由音频发布信息的系统及方法

Similar Documents

Publication Publication Date Title
CN110675886B (zh) 音频信号处理方法、装置、电子设备及存储介质
KR100762585B1 (ko) 율동 기반 음악 동조화 장치 및 방법
JP6641045B1 (ja) コンテンツ生成システム、及びコンテンツ生成方法
JP7069386B1 (ja) 音声変換装置、音声変換方法、プログラム、および記録媒体
JP2011250100A (ja) 画像処理装置および方法、並びにプログラム
EP1653468A2 (en) Content using apparatus, content using method, distribution server apparatus, information distribution method, and recording medium
JP5910379B2 (ja) 情報処理装置、情報処理方法、表示制御装置および表示制御方法
JP2017040867A (ja) 情報処理装置
JP4070742B2 (ja) オーディオファイルとテキストを同期化させる同期信号の埋込/検出方法及び装置
CN113794927A (zh) 信息显示方法、装置及电子设备
CN113538628A (zh) 表情包生成方法、装置、电子设备及计算机可读存储介质
CN114783408B (zh) 一种音频数据处理方法、装置、计算机设备以及介质
JP2012039391A (ja) 再生装置及び方法、並びにプログラム
CN114550690B (zh) 歌曲合成方法及装置
CN107871492A (zh) 音乐合成方法和系统
US20220415363A1 (en) Utilizing multiple versions of music for video playback
JPH10304242A (ja) 劇的映像制作支援方法および装置
JP4533234B2 (ja) 記録再生装置及び記録再生方法
KR100670443B1 (ko) 음악/이미지 동조용 데이터 파일이 기록된 컴퓨터로 읽을수 있는 기록매체 및 이미지 데이터 샘플을 오디오 파일에삽입하는 방법
JP4563418B2 (ja) 音声処理装置、音声処理方法、ならびに、プログラム
JP2011150191A (ja) 音声変更装置、音声変更方法、プログラム及び記録媒体
KR20050100820A (ko) 캐릭터 완구용 음성변조시스템 및 그 방법
JP7661044B2 (ja) コンテンツの一部の対象を表示するためのシステムおよび方法
KR100793023B1 (ko) 오디오 음원 표시 방법 및 그 장치
JP2006162760A (ja) 語学学習装置