JP2015018079A - Subtitle voice generation apparatus - Google Patents
Subtitle voice generation apparatus Download PDFInfo
- Publication number
- JP2015018079A JP2015018079A JP2013144500A JP2013144500A JP2015018079A JP 2015018079 A JP2015018079 A JP 2015018079A JP 2013144500 A JP2013144500 A JP 2013144500A JP 2013144500 A JP2013144500 A JP 2013144500A JP 2015018079 A JP2015018079 A JP 2015018079A
- Authority
- JP
- Japan
- Prior art keywords
- voice
- subtitle
- sound
- audio
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003860 storage Methods 0.000 claims description 7
- 230000005236 sound signal Effects 0.000 description 11
- 238000010586 diagram Methods 0.000 description 8
- 238000004891 communication Methods 0.000 description 6
- 238000000034 method Methods 0.000 description 6
- 238000000926 separation method Methods 0.000 description 6
- 230000015572 biosynthetic process Effects 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 238000003786 synthesis reaction Methods 0.000 description 3
- 125000002066 L-histidyl group Chemical group [H]N1C([H])=NC(C([H])([H])[C@](C(=O)[*])([H])N([H])[H])=C1[H] 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000002360 preparation method Methods 0.000 description 2
- 230000002194 synthesizing effect Effects 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Landscapes
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
Abstract
Description
本発明は、字幕音声を生成する装置に関する。 The present invention relates to an apparatus for generating caption audio.
従来、放送信号等に含まれる字幕の文字列を音声合成し、字幕音声を生成する字幕音声生成装置が知られている。 2. Description of the Related Art Conventionally, there is known a caption audio generation device that generates a caption audio by synthesizing a subtitle character string included in a broadcast signal or the like.
例えば、特許文献1には、映像信号から字幕部分を抽出し、抽出された字幕部分に含まれる文字列を文字認識し、文字認識された字幕の文字列を音声合成し、字幕音声をスピーカから出力させる字幕抽出装置が開示されている。
For example, in
この字幕抽出装置では、入力される音声信号から音質の特徴を分析し、この音質に最も近い音質を音声データベースから選択し音声合成する。例えば、外国映画で日本語の字幕が表示されるときに出力される音声が女優の声である場合、その声の音質の特徴から女性の音質で音声合成が行われる。 In this caption extraction device, the characteristics of the sound quality are analyzed from the input sound signal, and the sound quality closest to the sound quality is selected from the sound database and synthesized. For example, when the voice output when a Japanese subtitle is displayed in a foreign movie is an actress's voice, voice synthesis is performed with the female voice quality based on the voice quality characteristics of the voice.
これにより、無機質になりがちな音声合成された音声に、多少なりとも個性を持たせることができるとしている。 As a result, the synthesized speech that tends to be inorganic can be given some individuality.
しかしながら、映画等で人物は話すスピードや声の強弱などを変えながら話すのが通常であるが、上記特許文献1では音声合成の際にこの点が考慮されておらず、字幕音声を聞く視聴者にとって違和感が生じる。
However, in a movie or the like, it is normal for a person to speak while changing the speaking speed, voice strength, etc. However, in the above-mentioned
上記問題点に鑑み、本発明は、ユーザに与える違和感を軽減する字幕音声を生成することが可能となる字幕音声生成装置を提供することを目的とする。 In view of the above problems, an object of the present invention is to provide a caption audio generation device that can generate caption audio that reduces a sense of discomfort given to a user.
上記目的を達成するために本発明の字幕音声生成装置は、入力される音声データに基づき、人物の話し方の状態を解析する音声解析部と、前記音声データに対応する字幕データと前記音声解析部による解析結果に基づき、合成音声である字幕音声を生成する合成音声生成部と、を備える構成としている。 In order to achieve the above object, a subtitle audio generating apparatus according to the present invention includes an audio analysis unit that analyzes a state of speech of a person based on input audio data, subtitle data corresponding to the audio data, and the audio analysis unit. And a synthesized speech generation unit that generates subtitle speech that is synthesized speech based on the analysis result of the above.
このような構成によれば、人物の話し方の状態を字幕音声に反映させることができるので、ユーザに与える違和感を軽減する字幕音声を生成することができる。 According to such a configuration, the state of the person's speaking can be reflected in the subtitle sound, so that it is possible to generate subtitle sound that reduces a sense of discomfort given to the user.
また、上記構成において、前記人物の話し方の状態は、声のスピード及び/又は声の強弱であることとしてもよい。 In the above-described configuration, the person's speaking state may be voice speed and / or voice strength.
このような構成によれば、声のスピード及び/又は声の強弱を字幕音声に反映させることができる。特に、声のスピードを字幕音声に反映させると、映像における人物の口の動きと字幕音声とのずれを抑えることができ、映像を見ているユーザにとって違和感を抑えることができる。 According to such a configuration, the speed of the voice and / or the strength of the voice can be reflected in the subtitle sound. In particular, when the speed of the voice is reflected in the caption audio, it is possible to suppress the difference between the movement of the mouth of the person and the caption audio in the video, and it is possible to suppress a sense of discomfort for the user watching the video.
また、上記いずれかの構成において、前記音声解析部は、前記音声データに基づき複数の人物を検出し、前記合成音声生成部は、予め記憶部上に格納されて準備された複数の合成音声パターンから前記検出された複数の人物の各人に前記合成音声パターンを割り当てて前記字幕音声を生成することとしてもよい。 In any one of the above-described configurations, the speech analysis unit detects a plurality of persons based on the speech data, and the synthesized speech generation unit stores a plurality of synthesized speech patterns that are stored and prepared in advance in a storage unit. The subtitle sound may be generated by assigning the synthesized sound pattern to each of the detected plurality of persons.
このような構成によれば、複数の人物が登場する場合に、複数の人物が話しているかのような字幕音声を生成でき、ユーザにとってより違和感を抑えることができる。また、予め準備された複数の合成音声パターンを割り当てるので、字幕音声を速く生成することができる。 According to such a configuration, when a plurality of persons appear, it is possible to generate subtitle sound as if the plurality of persons are speaking, and it is possible to further suppress a sense of discomfort for the user. In addition, since a plurality of synthesized speech patterns prepared in advance are assigned, subtitle speech can be generated quickly.
また、上記構成において、前記合成音声生成部は、番組情報に基づき前記複数の合成音声パターンを予め前記記憶部上に格納させて準備することとしてもよい。 In the above configuration, the synthesized speech generation unit may prepare the plurality of synthesized speech patterns in advance on the storage unit based on program information.
このような構成によれば、複数の合成音声パターンを番組に応じて必要なだけ準備することができ、必要以上に準備することを抑えることができる。 According to such a configuration, a plurality of synthesized voice patterns can be prepared as necessary according to the program, and preparation more than necessary can be suppressed.
また、前記複数の合成音声パターンは、性別ごとに複数準備された声質の異なる合成音声パターンであることとしてもよい。 Further, the plurality of synthesized speech patterns may be synthesized speech patterns having different voice qualities prepared for each gender.
このような構成によれば、複数の性別の異なる人物が登場する場合に、複数の性別の異なる人物が話しているかのような字幕音声を生成することができる。 According to such a configuration, when a plurality of persons with different genders appear, subtitle sound can be generated as if a plurality of persons with different genders are talking.
また、上記いずれかの構成において、前記合成音声生成部は、音声が無いことを検出したとき、又は映像に人物が映っていないことを検出したとき、前記字幕データに基づき単調な前記字幕音声を生成することとしてもよい。 In any one of the configurations described above, when the synthesized sound generation unit detects that there is no sound or detects that a person is not shown in the video, the synthesized sound generating unit outputs the monotonous subtitle sound based on the subtitle data. It may be generated.
このような構成によれば、音声が無い場合、又は映像に人物が映っていない場合に、ナレーションのような字幕音声を生成することができる。 According to such a configuration, it is possible to generate caption audio such as narration when there is no audio or when a person is not shown in the video.
また、上記いずれかの構成において、前記音声データに基づく音声を内蔵スピーカから発生させると共に、前記字幕音声に基づく音声を外部出力端子から出力させることとしてもよい。 In any of the above-described configurations, sound based on the sound data may be generated from a built-in speaker, and sound based on the subtitle sound may be output from an external output terminal.
このような構成によれば、例えば外国語で音声を聞きたいユーザは内蔵スピーカから音声を聞き、自国語で音声を聞きたいユーザは外部出力端子から出力される字幕音声を聞くことができる。 According to such a configuration, for example, a user who wants to hear a sound in a foreign language can hear the sound from the built-in speaker, and a user who wants to hear the sound in his / her own language can hear the subtitle sound output from the external output terminal.
また、上記いずれかの構成において、前記音声データに基づく音声を内蔵スピーカから発生させると共に、前記字幕音声を無線信号を用いて外部のモバイル機器に送信させることとしてもよい。 In any of the above configurations, sound based on the sound data may be generated from a built-in speaker, and the subtitle sound may be transmitted to an external mobile device using a radio signal.
このような構成によれば、例えば外国語で音声を聞きたいユーザは内蔵スピーカから音声を聞き、自国語で音声を聞きたいユーザは手元のモバイル機器から出力される字幕音声を聞くことができる。 According to such a configuration, for example, a user who wants to hear a sound in a foreign language can hear the sound from the built-in speaker, and a user who wants to hear the sound in his / her own language can hear the subtitle sound output from the mobile device at hand.
本発明によると、ユーザに与える違和感を軽減する字幕音声を生成することが可能となる。 According to the present invention, it is possible to generate subtitle sound that reduces a sense of discomfort given to a user.
<第1実施形態>
以下に本発明の一実施形態について図面を参照して説明する。以下では、字幕音声生成装置として、テレビ装置を一例に挙げて説明する。本発明の第1実施形態に係るテレビ装置の概略構成を示すブロック図を図1に示す。図1に示すテレビ装置1は、チューナ11と、復調部12と、分離部13と、映像デコーダ14と、データデコーダ15と、音声デコーダ16と、映像出力部17と、表示部18と、OSD(オンスクリーンディスプレイ)部19と、音声解析部20と、合成音声生成部21と、音声出力部22と、スピーカ23を備えている。チューナ11には、アンテナ2が接続される。
<First Embodiment>
An embodiment of the present invention will be described below with reference to the drawings. Hereinafter, a television device will be described as an example of the caption audio generation device. FIG. 1 is a block diagram showing a schematic configuration of the television apparatus according to the first embodiment of the present invention. 1 includes a tuner 11, a
チューナ11は、例えば、地上デジタル放送、BSデジタル放送、CSデジタル放送の少なくともいずれかに対応するものであり、アンテナ2から入力された高周波の放送信号から所望のチャンネルの放送信号を選局する。
The tuner 11 corresponds to, for example, at least one of terrestrial digital broadcast, BS digital broadcast, and CS digital broadcast, and selects a broadcast signal of a desired channel from a high-frequency broadcast signal input from the
復調部12は、チューナ11において選局されたチャンネルの放送信号に対してデジタル復調及び誤り訂正などの処理を行い、トランスポートストリームを生成し、分離部13へ出力する。
The
分離部(デマルチプレクサ)13は、復調部12から入力されるトランスポートストリームを映像ストリーム、音声ストリーム、字幕データ等に分離する。
The separation unit (demultiplexer) 13 separates the transport stream input from the
映像デコーダ14は、分離部13から入力される映像ストリームに対してデコードを行い、生成された映像データを映像出力部17に出力する。
The
データデコーダ15は、分離部13から入力される字幕データに対してデコードを行い、生成された字幕テキストデータをOSD部19へ出力する。
The
OSD部19は、メニュー表示などのオンスクリーンディスプレイ用の表示データを生成し、映像出力部17に出力する。また、OSD部19は、データデコーダ15から入力される字幕テキストデータに基づき字幕表示データを生成することも可能であり、字幕表示データを映像出力部17に出力する。
The OSD
映像出力部17は、映像デコーダ14から入力される映像データにOSD部19から入力される表示データを重畳し、重畳後の映像データを表示部18に適した映像信号に変換し、表示部18に出力する。なお、重畳せずに映像デコーダ14から入力される映像データか、OSD部19から入力される表示データのいずれかのみを映像信号に変換して表示部18に出力する場合もある。
The
表示部18は、例えば液晶ディスプレイであり、映像出力部17から入力される映像信号に基づき映像を表示する。これにより、字幕を含んだ放送番組の映像や、メニュー画面などの各種映像が表示部18に表示される。
The
音声デコーダ16は、分離部13から入力される音声ストリームに対してデコードを行い、生成された音声データを音声出力部22へ出力する。音声出力部22は、音声デコーダ16から入力される音声データをスピーカ23に適した音声信号に変換し、スピーカ23へ出力する。スピーカ23は、音声出力部22から入力される音声信号に基づき音声を発生させる。これにより、スピーカ23から放送番組の音声が発生する。
The
また、音声デコーダ16は、生成された音声データを音声解析部20へ出力することも可能である。音声解析部20は、音声デコーダ16から入力される音声データを解析し、その解析結果を音声合成部21へ通知する。
The
合成音声生成部21は、データデコーダ15から入力される字幕テキストデータと、音声解析部20から通知された音声の解析結果に基づき合成音声である字幕音声データを生成し音声出力部22へ出力する。この場合、音声出力部22は、合成音声生成部21から入力される字幕音声データをスピーカ23に適した音声信号に変換してスピーカ23に出力する。これにより、スピーカ23から字幕音声が発生する。
The synthesized
次に、本実施形態に係るテレビ装置1における字幕音声出力動作について、より詳細に説明する。
Next, the caption audio output operation in the
例えば、或る放送番組の音声が英語によるもののみであり、字幕は日本語と英語によるものであるとする。この場合、通常モードとしては、映像デコーダ14から出力される映像データに、データデコーダ15から出力される日本語による字幕テキストデータ(字幕テキストデータの言語は選択可能)に基づきOSD部19から出力される字幕表示データが映像出力部17で重畳され、表示部18に日本語字幕を含んだ放送映像が表示される(なお、字幕を表示させない選択も可能である)。この通常モードの場合、音声デコーダ16から英語による音声データが音声出力部22に出力され、スピーカ23からは英語による放送音声が発生する。
For example, it is assumed that the sound of a certain broadcast program is only in English, and the subtitles are in Japanese and English. In this case, as the normal mode, the video data output from the
英語による音声で放送を視聴したい場合は、上記通常モードで視聴すればよいが、日本語による音声で視聴したい場合は、下記で説明する字幕音声出力モードに移行する。字幕音声出力モードへの移行は、例えば、リモコン装置(不図示)による操作に応じてテレビ装置1の制御部(不図示)が行う。字幕音声出力モードに移行すると、音声デコーダ16は、音声データを音声出力部22には出力せず、音声解析部20のみに出力する。これにより、放送信号の音声データによる音声(上記の場合であれば英語による音声)はスピーカ23から出力されない。なお、字幕音声出力モードでは、映像表示に関しては上記通常モードと同様である。
If you want to watch the broadcast in English, you can watch it in the normal mode, but if you want to watch in Japanese, you can move to the subtitle audio output mode described below. The transition to the caption audio output mode is performed by, for example, a control unit (not shown) of the
ここで、音声解析部20による解析処理に関して、図2に示すフローチャートを用いて説明する。なお、音声解析部20には不図示のバッファが備えられ、音声デコーダ16から入力されて上記バッファに蓄えられた音声データに対して音声解析部20は解析を行う。また、図2の処理は繰り返し行われる。
Here, analysis processing by the
図2に示すフローチャートが開始されると、まずステップS1で、音声解析部20は、解析対象の音声データから例えば音声の周波数特徴などの音声特徴を取得する。
When the flowchart shown in FIG. 2 is started, first, in step S1, the
次に、ステップS2で、音声解析部20は、ステップS1で取得された音声特徴が過去に取得された音声特徴と一致するか否かを判定する。
Next, in step S2, the
もしステップS2で音声特徴が一致しない場合は(ステップS2のN)、ステップS3へ進み、音声解析部20は、解析対象の音声データに基づき男性の声であるか女性の声であるかの判別を行う。
If the voice features do not match in step S2 (N in step S2), the process proceeds to step S3, and the
ステップS3の後、ステップS4で、音声解析部20は、解析対象の音声データに基づき声のスピード、及び声の強弱を検出する。
After step S3, in step S4, the
そして、ステップS5で、音声解析部20は、男性または女性の新たに検出された人物をステップS1で取得された音声特徴に対応付けて登録する。ここでは、ステップS3で判別された性別の結果に応じて登録することとなる。例えば、男性の声と判別された場合は、登録順に男性A、B、C・・・など、女性の声と判別された場合は、登録順に女性A、B、C・・・などと登録する。なお、ステップS2で判定するための過去に取得した音声特徴とは、ここで登録された音声特徴のことである。
Then, in step S5, the
そして、ステップS6で、音声解析部20は、ステップS5で新たに登録された人物、及びステップS4で検出された声のスピード及び強弱を合成音声生成部21に通知する。
In step S6, the
また、ステップS2で、音声特徴が一致した場合は(ステップS2のY)、ステップS7へ進み、音声解析部20は、解析対象の音声データに基づき声のスピード、及び声の強弱を検出する。そして、ステップS8で、音声解析部20は、ステップS1で取得された音声特徴と一致した音声特徴に対応する人物(即ち過去に検出された人物)、及びステップS7で検出された声のスピード及び強弱を合成音声生成部21に通知する。
If the voice features match in step S2 (Y in step S2), the process proceeds to step S7, where the
ステップS6またはステップS8の後、処理は完了となる(エンド)。 After step S6 or step S8, the process is completed (end).
そして、合成音声生成部21は、ステップS6またはステップS8で音声解析部20から通知された解析結果と、データデコーダ15から入力される字幕テキストデータに基づき、合成音声である字幕音声データを生成する。
Then, the synthesized
より具体的には、合成音声生成部21は、例えば図3に示すように、男女別に声質の異なる複数の合成音声パターンを予め記憶部(不図示)上に格納して準備しておき、音声解析部20から通知された人物に応じた合成音声パターンを選択し、字幕音声データの生成に使用する。例えば、音声解析部20から通知された人物が「男性C」であれば、図3の「男声C」の合成音声パターンを選択する等である。
More specifically, as shown in FIG. 3, for example, the synthesized
そして、音声出力部22が合成音声生成部21から入力される字幕音声データをスピーカ23に適した音声信号に変換することで、スピーカ23から字幕音声が発生する。
Then, the
このように本実施形態では、テレビ装置1(字幕音声生成装置)は、音声デコーダ16から入力される音声データに基づき、声のスピード及び強弱(人物の話し方の状態)を解析する音声解析部20と、上記音声データに対応する字幕テキストデータと音声解析部20による解析結果に基づき、合成音声である字幕音声を生成する合成音声生成部21を備える構成としている。
As described above, in the present embodiment, the television apparatus 1 (caption sound generation apparatus) analyzes the voice speed and strength (state of person's speaking) based on the sound data input from the
これにより、声のスピード及び強弱(人物の話し方の状態)を字幕音声に反映させることができるので、ユーザに与える違和感を軽減する字幕音声を生成することができる。 Thereby, since the speed and strength of the voice (state of how the person speaks) can be reflected in the subtitle sound, it is possible to generate subtitle sound that reduces a sense of discomfort given to the user.
特に、声のスピードを字幕音声に反映させると、映像における人物の口の動きと字幕音声とのずれを抑えることができ、映像を見ているユーザに与える違和感を抑えることができる。 In particular, when the speed of the voice is reflected in the caption audio, it is possible to suppress the difference between the movement of the person's mouth in the image and the caption audio, and to suppress the uncomfortable feeling given to the user watching the image.
また、音声解析部20は、上記音声データに基づき複数の人物を検出し(図2の処理)、合成音声生成部21は、予め記憶部上に格納されて準備された複数の合成音声パターン(例えば図3)から上記検出された複数の人物の各人に合成音声パターンを割り当てて字幕音声を生成する。
Also, the
これにより、複数の人物が登場する場合に、複数の人物が話しているかのような字幕音声を生成でき、ユーザに与える違和感をより抑えることができる。また、予め準備された複数の合成音声パターンを割り当てるので、字幕音声を速く生成することができる。 Thereby, when a plurality of persons appear, subtitle sound as if the plurality of persons are speaking can be generated, and the uncomfortable feeling given to the user can be further suppressed. In addition, since a plurality of synthesized speech patterns prepared in advance are assigned, subtitle speech can be generated quickly.
また、例えば図3のように、上記複数の合成音声パターンは、性別ごとに複数準備された声質の異なる合成音声パターンであることとしてもよい。 For example, as shown in FIG. 3, the plurality of synthesized speech patterns may be synthesized speech patterns having different voice qualities prepared for each gender.
これにより、複数の性別の異なる人物が登場する場合に、複数の性別の異なる人物が話しているかのような字幕音声を生成することができる。 Thereby, when a plurality of persons with different genders appear, subtitle sound as if a plurality of persons with different genders are speaking can be generated.
<第2実施形態>
次に、本発明の第2実施形態について説明する。本発明の第2実施形態に係るテレビ装置の概略構成を示すブロック図を図4に示す。以下、図4に示すテレビ装置1’の上記第1実施形態(図1)との相違点について主に述べる。
Second Embodiment
Next, a second embodiment of the present invention will be described. FIG. 4 is a block diagram showing a schematic configuration of the television apparatus according to the second embodiment of the present invention. Hereinafter, differences from the first embodiment (FIG. 1) of the
図4に示すテレビ装置1’ は、ネットワークインタフェース24を備えている。ネットワークインタフェース24は、インターネット3に接続可能であり、インターネット3を介してサーバ装置4と通信を行う。
The
データデコーダ15’は、第1実施形態のように字幕テキストデータを合成音声生成部21’へ出力する。それと共にデータデコーダ15’は、分離部13でトランスポートストリームから分離されるSI(Service Information)に対してデコードを行い、デコード後のSIに含まれるEPG(Electronic Program Guide)情報を合成音声生成部21’へ出力する。
The data decoder 15 'outputs the caption text data to the synthesized speech generation unit 21' as in the first embodiment. At the same time, the
合成音声生成部21’は、入力されたEPG情報に含まれる例えば番組詳細情報をネットワークインタフェース24を用いてインターネット3を介してサーバ装置4へ送る。
The synthesized
ここで、サーバ装置4には、人物名と性別が対応付けられたデータベースを有している。そして、サーバ装置4は、受け取った番組詳細情報に含まれる番組出演者を上記データベースを用いて検索し、性別ごとの出演者の人数を検出する(例えば、男性10人、女性8人など)。そして、サーバ装置4は、この検出結果をインターネット3及びネットワークインタフェース24を介して合成音声生成部21’に送る。
Here, the
合成音声生成部21’は、受け取った検出結果に応じて、性別ごとのパターン数の合成音声パターンを予め記憶部(不図示)上に格納させて準備しておく(例えば、検出結果が男性10人、女性8人であれば、図3に示す合成音声パターンを男性は10パターン、女性は8パターン準備するなど)。
The synthesized
そして、合成音声生成部21’は、音声解析部20から通知された人物に応じて上記準備された合成音声パターンを選択し、字幕音声データの生成に使用する。
Then, the synthesized
このように本実施形態によれば、合成音声生成部21’は、EPG情報(番組情報)に基づき複数の合成音声パターンを予め準備することとしている。これにより、複数の合成音声パターンを番組に応じて必要なだけ準備することができ、必要以上に準備することを抑えることができる。
As described above, according to the present embodiment, the synthesized
<第3実施形態>
次に、本発明の第3実施形態について説明する。本発明の第3実施形態に係るテレビ装置の概略構成を示すブロック図を図5に示す。
<Third Embodiment>
Next, a third embodiment of the present invention will be described. FIG. 5 is a block diagram showing a schematic configuration of the television apparatus according to the third embodiment of the present invention.
図5に示すテレビ装置1’ ’の上記第1実施形態(図1)との相違点は、音声の出力形態である。
The difference between the
図5に示すテレビ装置1’は、音声出力部25と、外部出力端子26と、音声出力部27と、スピーカ28を備えている。外部出力端子26には、ヘッドホン5の端子が脱着可能である。
The
上記第1実施形態(図1)では、字幕音声出力モードに移行すると、音声デコーダ16は音声出力部22に音声データを出力せず、字幕音声のみがスピーカ23から出力されたが、本実施形態では、字幕音声出力モードに移行すると、音声デコーダ16は音声解析部20に加え音声出力部27にも音声データを出力する。
In the first embodiment (FIG. 1), when the subtitle audio output mode is entered, the
これにより、合成音声生成部21は、合成音声である字幕音声を生成して音声出力部25に出力する。そして、音声出力部25は、外部出力端子26を介して、外部出力端子26に接続されたヘッドホン5に字幕音声の音声信号を出力する。従って、ヘッドホン5からは字幕音声が発生する。
As a result, the synthesized
それと共に、音声出力部27は、音声デコーダ16から入力される音声データをスピーカ28に適した音声信号に変換し、スピーカ28に出力する。これにより、スピーカ28からは放送番組の音声が発生する。
At the same time, the audio output unit 27 converts the audio data input from the
このような本実施形態によれば、テレビ装置1’ ’のスピーカ28から放送番組の音声(例えば英語による音声)が発生すると共に、ヘッドホン5から字幕音声(例えば日本語による音声)が発生する。従って、外国語学習をしたいなどで放送番組の音声で聞きたいユーザはスピーカ28からの音声を聞き、字幕音声を聞きたいユーザはヘッドホン5から発生する音声を聞くことができる。
According to the present embodiment as described above, sound of a broadcast program (for example, sound in English) is generated from the
ヘッドホン5で字幕音声を聞けば、ヘッドホンを使用しているユーザにとってはスピーカ28からの音声が聞こえることを抑制すると共に、スピーカ28からの音声を聞いているユーザにとっては字幕音声が聞こえることを抑制できる。
If the
また、放送番組の音声の言語が理解できない目の不自由なユーザであっても、ヘッドホン5から発生する字幕音声を聞くことで、放送を鑑賞することができる。
Further, even a blind user who cannot understand the language of the audio of the broadcast program can appreciate the broadcast by listening to the subtitle audio generated from the
なお、本実施形態において、上記第2実施形態のようにインターネット接続可能な構成(図4)を適用することも可能である。 In the present embodiment, it is also possible to apply a configuration (FIG. 4) capable of connecting to the Internet as in the second embodiment.
<第4実施形態>
次に、本発明の第4実施形態について説明する。本発明の第4実施形態に係るテレビ装置1’ ’ ’の概略構成を示すブロック図を図6に示す。
<Fourth embodiment>
Next, a fourth embodiment of the present invention will be described. FIG. 6 is a block diagram showing a schematic configuration of a
図6に示すテレビ装置1’ ’ ’の上記第3実施形態(図5)との相違点は、無線通信部30を備えていることである。
A difference from the third embodiment (FIG. 5) of the
本実施形態では、字幕音声出力モードにおいては、上記第3実施形態と同様に合成生成部21から字幕音声データが音声出力部29に出力されると共に、音声出力部27からスピーカ28へ音声信号が出力される。音声出力部29は、入力される字幕音声データを無線通信部30に出力する。
In the present embodiment, in the subtitle audio output mode, the subtitle audio data is output from the
無線通信部30は、例えばBluetoothやWi-Fiなどの規格に対応してモバイル機器6と無線通信を行う。モバイル機器6は、例えばスマートフォンや携帯電話などである。
The
無線通信部30は、音声出力部29から入力された音声データを対応する規格に準じた無線信号によりモバイル機器6へ送信する。これにより、モバイル機器6が有する内蔵スピーカから字幕音声が発生する。
The
このような本実施形態によれば、テレビ装置1’ ’ ’のスピーカ28から放送番組の音声(例えば英語による音声)が発生すると共に、モバイル機器6から字幕音声(例えば日本語による音声)が発生する。従って、外国語学習をしたいなどで放送番組の音声で聞きたいユーザはスピーカ28からの音声を聞き、字幕音声を聞きたいユーザは手元のモバイル機器6の内蔵スピーカから発生する音声を聞くことができる。特に、テレビ装置1’ ’ ’の設置された部屋と別の部屋においてモバイル機器6から字幕音声を聞くこともできる。
According to the present embodiment as described above, sound of a broadcast program (for example, sound in English) is generated from the
また、放送番組の音声の言語が理解できない目の不自由なユーザであっても、手元のモバイル機器6から発生する字幕音声を聞くことで、放送を鑑賞することができる。また、モバイル機器6に接続されたヘッドホンで音声を聞けば、ヘッドホンを使用しているユーザにとってはスピーカ28からの音声が聞こえることを抑制すると共に、スピーカ28からの音声を聞いているユーザにとっては字幕音声が聞こえることを抑制できる。
Moreover, even a blind user who cannot understand the language of the audio of the broadcast program can appreciate the broadcast by listening to the subtitle audio generated from the mobile device 6 at hand. In addition, if the user listens to the sound through the headphones connected to the mobile device 6, the user who uses the headphones is prevented from hearing the sound from the
なお、モバイル機器6は、例えばBluetoothに対応したスピーカ装置のようなものであってもよい。 Note that the mobile device 6 may be a speaker device compatible with Bluetooth, for example.
また、本実施形態において、上記第2実施形態のようにインターネット接続可能な構成(図4)を適用することも可能である。 Further, in the present embodiment, it is also possible to apply a configuration (FIG. 4) capable of connecting to the Internet as in the second embodiment.
<第5実施形態>
上記第1実施形態〜第4実施形態において、合成音声生成部21(または21’)は更に以下のような構成を採ってもよい。
<Fifth Embodiment>
In the first to fourth embodiments, the synthesized speech generation unit 21 (or 21 ′) may further have the following configuration.
合成音声生成部21は、音声デコーダ16が出力する音声データに基づき音声が無いことを検出した場合、ナレーションであると判断し、声のスピード及び強弱は一定として字幕テキストデータから合成音声を生成する。この際、合成音声パターンは男性または女性の所定のパターンを使用する。
When the synthesized
または、合成音声生成部21は、映像デコーダ14が出力する映像データに基づき映像に人物が映っていないことを検出した場合に、上記のようにナレーションと判断してもよい。
Alternatively, when the synthesized
このような本実施形態によれば、ナレーションと判断した場合は、単調な字幕音声が発生することとなり、ユーザはあたかもナレーションであると思わせる字幕音声を聞くことができる。 According to the present embodiment, when it is determined that the narration is determined, monotonous subtitle sound is generated, and the user can listen to the subtitle sound that makes the user think that it is narration.
以上、本発明の実施形態について説明したが、本発明の趣旨の範囲内であれば、実施形態は種々の変更が可能である。 As mentioned above, although embodiment of this invention was described, if it is in the range of the meaning of this invention, embodiment can be variously changed.
例えば、本発明は、放送信号を受信できるものであれば、テレビ装置に限らず、例えばハードディスクレコーダ、光ディスクレコーダやセットトップボックスなどに適用しても構わない。また、映像音声及び字幕は、放送信号に限らず、再生信号に基づくものでも構わない。 For example, the present invention is not limited to a television device as long as it can receive a broadcast signal, and may be applied to, for example, a hard disk recorder, an optical disk recorder, a set top box, and the like. Also, the video and audio and the subtitle are not limited to the broadcast signal, but may be based on the reproduction signal.
1 テレビ装置
2 アンテナ
3 インターネット
4 サーバ装置
5 ヘッドホン
6 モバイル機器
11 チューナ
12 復調部
13 分離部
14 映像デコーダ
15 データデコーダ
16 音声デコーダ
17 映像出力部
18 表示部
19 OSD部
20 音声解析部
21 合成音声生成部
22 音声出力部
23 スピーカ
24 ネットワークインタフェース
25 音声出力部
26 外部出力端子
27 音声出力部
28 スピーカ
29 音声出力部
30 無線通信部
DESCRIPTION OF
Claims (8)
前記音声データに対応する字幕データと前記音声解析部による解析結果に基づき、合成音声である字幕音声を生成する合成音声生成部と、
を備える字幕音声生成装置。 A voice analysis unit that analyzes the state of the person's speech based on the input voice data;
A synthesized voice generation unit that generates subtitle voice that is a synthesized voice based on the caption data corresponding to the voice data and the analysis result by the voice analysis unit;
A subtitle sound generating apparatus comprising:
前記合成音声生成部は、予め記憶部上に格納されて準備された複数の合成音声パターンから前記検出された複数の人物の各人に前記合成音声パターンを割り当てて前記字幕音声を生成することを特徴とする請求項1又は請求項2に記載の字幕音声生成装置。 The voice analysis unit detects a plurality of persons based on the voice data,
The synthesized speech generation unit generates the subtitle speech by assigning the synthesized speech pattern to each of the plurality of detected persons from a plurality of synthesized speech patterns stored and prepared in advance in a storage unit. The caption audio generation device according to claim 1 or 2, characterized in that
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2013144500A JP2015018079A (en) | 2013-07-10 | 2013-07-10 | Subtitle voice generation apparatus |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2013144500A JP2015018079A (en) | 2013-07-10 | 2013-07-10 | Subtitle voice generation apparatus |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JP2015018079A true JP2015018079A (en) | 2015-01-29 |
Family
ID=52439132
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2013144500A Pending JP2015018079A (en) | 2013-07-10 | 2013-07-10 | Subtitle voice generation apparatus |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP2015018079A (en) |
Cited By (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US10477136B2 (en) | 2017-09-26 | 2019-11-12 | JVC Kenwood Corporation | Display mode determining device, display, display mode determining method, and non-transitory storage medium |
| JPWO2024004130A1 (en) * | 2022-06-30 | 2024-01-04 | ||
| WO2024063313A1 (en) * | 2022-09-21 | 2024-03-28 | 삼성전자주식회사 | Electronic device and audio track obtaining method therefor |
-
2013
- 2013-07-10 JP JP2013144500A patent/JP2015018079A/en active Pending
Cited By (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US10477136B2 (en) | 2017-09-26 | 2019-11-12 | JVC Kenwood Corporation | Display mode determining device, display, display mode determining method, and non-transitory storage medium |
| JPWO2024004130A1 (en) * | 2022-06-30 | 2024-01-04 | ||
| WO2024004130A1 (en) * | 2022-06-30 | 2024-01-04 | 日本電信電話株式会社 | User device, common device, method thereby, and program |
| WO2024063313A1 (en) * | 2022-09-21 | 2024-03-28 | 삼성전자주식회사 | Electronic device and audio track obtaining method therefor |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CN108093653B (en) | Voice prompt method, recording medium and voice prompt system | |
| JP2016091057A (en) | Electronic device | |
| US20050036069A1 (en) | Image display apparatus having sound level control function and control method thereof | |
| KR20160057085A (en) | Display apparatus and the control method thereof | |
| JP2010200085A (en) | Video apparatus | |
| US20200252726A1 (en) | Terminal, audio cooperative reproduction system, and content display apparatus | |
| JP2015018079A (en) | Subtitle voice generation apparatus | |
| CN112930686A (en) | Receiving apparatus | |
| JP6043767B2 (en) | Program output device, auxiliary information management server, program and auxiliary information output method, and program | |
| JP6385236B2 (en) | Video playback apparatus and video playback method | |
| JP2008160232A (en) | Video audio reproducing apparatus | |
| JP2013121096A (en) | Voice regulator and digital broadcast receiver | |
| JPWO2016009834A1 (en) | Transmission device, transmission method, reception device, and reception method | |
| JP2009260685A (en) | Broadcast receiver | |
| KR20140012463A (en) | Broadcast receiver and method of processing an audio signal in the broadcast receiver | |
| WO2014207874A1 (en) | Electronic device, output method, and program | |
| JP2015019299A (en) | Scene detection apparatus and mobile apparatus | |
| WO2011077627A1 (en) | Broadcast receiver apparatus and program information voice output method in broadcast receiver apparatus | |
| KR20110123417A (en) | Apparatus and method for providing voice service in digital broadcast receiver | |
| KR101559170B1 (en) | A display apparatus and method for controllong thesame | |
| JP2006093918A (en) | Digital broadcast receiving apparatus, digital broadcast receiving method, digital broadcast receiving program, and program recording medium | |
| EP3820060A1 (en) | Broadcast system, terminal device, broadcast method, terminal device operation method, and program | |
| JP2008141463A (en) | On-screen display device and television receiver | |
| KR20090074659A (en) | How to provide caption information | |
| JP2013126079A (en) | Television apparatus, information processing method, and program |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20150601 |