WO2006075457A1

WO2006075457A1 - 記録装置

Info

Publication number: WO2006075457A1
Application number: PCT/JP2005/022270
Authority: WO
Inventors: Yoshiharu Morita
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 2005-01-11
Filing date: 2005-12-05
Publication date: 2006-07-20
Anticipated expiration: 2007-07-11
Also published as: CN101099197A; JPWO2006075457A1; US20080089668A1

Abstract

　映像音声記録装置は、それぞれ映像音声放送されて入力された音声信号または映像信号を符号化する音声符号化部１０１および映像符号化部１０２と、符号化された音声信号と映像信号とを多重化する符号多重化部１０３を備えている。音声符号化部１０１は、符号化前の音声信号に基づいて、無音部であることや、音声信号の振幅レベル、周波数分布などの特徴量の抽出をする。抽出結果は、符号化によって生成されるパケットのヘッダにおける固定値領域に埋め込まれる。そこで、映像音声信号から抽出された特徴量等と映像音声信号との対応付けのための情報や処理を要することなく両者の対応関係を容易にとることができる。

Description

明細書

記録装置

技術分野

[0001] 本発明は、映像信号や音声信号を符号ィ匕して磁気ディスクや光ディスクなどに保存するハードディスクレコーダや DVDレコーダなどの映像音声記録装置等に関し、特に、例えば、コマーシャルメッセージ（CM)放送の判別や要約再生などのために用いられる、音声の特徴量を抽出する機能等を有する装置に関するものである。背景技術

[0002] 従来の映像音声記録装置には、例えば、放送された映像音声信号などに対する自動 CM検出を行うために、無音状態等を検出する手法を用いたものが知られている（例えば、特許文献 1参照。）。

[0003] また、近年では、映像音声信号をディジタルィ匕してハードディスクなどの記憶装置に記録する記録装置が用いられつつある。これらの記録装置では、記憶装置の大容量ィ匕により、映像音声放送等を大量に録画できるようになってきたが、非圧縮の映像音声信号を記録していくのは非効率的であるため、通常、映像音声信号を MPEG ( Motion Picture Expert Group) 2などの圧縮手段を用いて符号化して記録している。再生時には、それが伸張されて再生される。

[0004] この種の装置では、映像音声放送を大量に録画できるようになつてきたため、一層、必要なシーンのみを視聴できるようにすることが望まれている。すなわち、自動 CM 検出、除去などの必要性が一層高まっているうえ、ハイライトシーン検出機能などもより重要となっている。これらの機能を実現するには、映像音声信号の内容を解析する必要がある。

[0005] 上記のように映像音声信号を符号ィ匕して記録するとともに、 CMの検出等を行う装置としては、符号ィ匕部とは独立して設けられた CM検出部などを有し、符号化されてメモリに保持された音声信号に基づ、て CMを検出する装置が知られて、る（例えば、特許文献 2参照。）。

特許文献 1：特開平 8 - 317342号公報特許文献 2 :特開 2002— 247516号公報

発明の開示

発明が解決しょうとする課題

[0006] し力しながら、上記のように符号ィ匕部とは独立して設けられた CM検出部などによつて CMの検出などをする場合、自動 CM除去などの処理を行うためには、検出結果が映像音声信号のどの部分に対応するものなの力の対応関係をとることが困難である。すなわち、符号ィ匕部で符号化された映像音声信号と、抽出された特徴量等とで、どの時刻の映像音声信号と一致するものであるか、同期を取ることや対応付けが困難である。それゆえ、対応関係を示す情報を記憶するようにしたり、その情報を用いた対応付け処理が行われるようにしたりするために、回路やマイクロコードなどが複雑化し、回路規模の増大等を招くと、う問題点を有して、た。

[0007] 本発明は、上記の点に鑑み、映像信号や音声信号から抽出された特徴量等と映像音声信号等との対応関係を容易にとることができ、しかも、対応付けのための情報や処理を低減または不要にして、回路規模の低減等も容易に図り得るようにすることを目的としている。

課題を解決するための手段

[0008] 上記の課題を解決するため、本発明の実施形態の第 1の装置は、

映像信号および音声信号の少なくとも一方を符号化し、ヘッダを有する符号化信号を生成する符号化手段と、

上記符号化信号を記録媒体に記録する記録手段と、

上記映像信号または音声信号における所定の特徴状態、または特徴量を抽出する特徴抽出手段と、

符号ィ匕信号のヘッダにおける、複数の符号ィ匕信号で同じ値が設定される固定値領域に、上記特徴抽出手段の抽出結果を設定する抽出結果設定手段と、

を備えたことを特徴とする。

[0009] また、本発明の実施形態の第 2の装置は、

第 1の記録装置であって、

上記特徴抽出手段は、上記音声信号における、無音状態、振幅、および周波数分布のうちの少なくとも 1つを抽出するように構成されていることを特徴とする。

[0010] また、本発明の実施形態の第 3の装置は、

第 1の記録装置であって、

上記特徴抽出手段は、上記映像信号における、振幅、および周波数分布のうちの少なくとも 1つを抽出するように構成されていることを特徴とする。

[0011] これらにより、映像信号や音声信号から抽出された特徴量等が、ヘッダの固定値領域に設定され、映像音声信号等と対応づけられる。また、固定値領域に設定されていたデータは、上記特徴量等によって上書きされたとしても、複数のヘッダについて共通の値なので、容易に復元することができる。

[0012] また、本発明の実施形態の第 4の装置は、

第 1の記録装置であって、

上記特徴抽出手段は、映像信号または音声信号を符号ィ匕するための演算の結果を用いて、上記抽出を行うように構成されてヽることを特徴とする。

[0013] これにより、特徴抽出手段と符号化手段との回路やプログラムコードの共通化を容易に図ることができる。

[0014] また、本発明の実施形態の第 5の装置は、

第 1の記録装置であって、

上記特徴抽出手段による抽出が行われた後に、上記符号化が行われるように構成されていることを特徴とする。

[0015] また、本発明の実施形態の第 6の装置は、

第 5の記録装置であって、

さらに、ノッファ記憶部を有し、

上記符号化手段、および特徴抽出手段は、上記バッファの保持内容に基づいて、上記符号ィ匕または抽出を行うとともに、

上記符号化手段は、生成された符号ィ匕信号を上記バッファに保持させるように構成されていることを特徴とする。

[0016] これにより、符号ィ匕前のバッファの保持内容が符号ィ匕によって書き換えられる場合でも、特徴抽出手段による抽出が適切に行われる。 [0017] また、本発明の実施形態の第 7の装置は、

第 1の記録装置であって、さらに、

上記ヘッダの固定値領域に抽出結果が設定された符号化信号を、元の固定値が設定された符号化信号に復元する固定値復元手段を備えたことを特徴とする。

[0018] また、本発明の実施形態の第 8の装置は、

第 7の記録装置であって、

上記記録手段は、上記固定値復元手段によって復元された符号化信号を上記記録媒体に記録するように構成されてヽることを特徴とする。

[0019] これにより、特徴抽出が行われない装置との互換性などを容易に図ることができる。

[0020] また、本発明の実施形態の第 9の装置は、

第 7の記録装置であって、

上記記録手段は、上記ヘッダの固定値領域に抽出結果が設定された符号化信号を上記記録媒体に記録する一方、

上記固定値復元手段は、上記記録媒体から再生される符号化信号に対して、上記復元を行うように構成されて、ることを特徴とする。

[0021] これにより、特徴抽出が行われない装置との互換性などを容易に図ることができるとともに、記録媒体に必要な記憶容量を低減することも容易にできる。

発明の効果

[0022] 本発明によれば、映像音声信号カゝら抽出された特徴量等と映像音声信号との対応関係を容易にとることができ、し力も、対応付けのための情報や処理を低減または不要にして、回路規模の低減等も容易に図ることができる。

図面の簡単な説明

[0023] [図 1]図 1は、本発明の実施形態の映像音声記録装置の要部の構成を示すブロック図である。

[図 2]図 2は、同、音声符号ィ匕部 101の具体的な構成を示すブロック図である。

[図 3]図 3は、同、音声符号化部 101の動作の例を示すフローチャートである。

[図 4]図 4は、ハードディスクへの記憶内容等の例を示す説明図である。

符号の説明 [0024] 101 音声符号化部

101a ワークメモリ

101b 特徴抽出部

101c 符号化処理部

102 映像符号化部

103 符号多重化部

発明を実施するための最良の形態

[0025] 以下、本発明の実施形態を図面に基づいて詳細に説明する。

[0026] 本発明の実施形態の映像音声記録装置は、図 1に示すように、例えばそれぞれ映像音声放送されて入力された音声信号または映像信号を符号化する音声符号ィ匕部 101および映像符号ィ匕部 102と、符号化された音声信号と映像信号とを多重化する符号多重化部 103を備えて構成されている。このような映像音声記録装置は、特に限定されないが、例えば、画像信号を符号化してハードディスクに保存するハードデイスタレコーダや、ハードディスクレコーダ内蔵電気機器、ハードディスクレコーダ内蔵テレビジョン装置、ハードディスクレコーダ内蔵ビデオレコーダ、ハードディスクレコーダ内蔵 DVDプレーヤなどに用いられ、これらの装置用の半導体集積回路の一部などとして形成される。

[0027] 上記音声符号ィ匕部 101には、例えば図 2に示すように、ワークメモリ 101a、特徴抽出部 101b、および符号ィ匕処理部 101cが設けられている。

[0028] 上記ワークメモリ 101aは、符号ィ匕前後の音声信号を保持するようになって!/、る。なお、符号ィ匕前後でワークメモリ 101aが兼用されることによって、回路や入力信号線数を少なく抑えることができ、回路規模の低減が容易になるが、これに限るものではない。

[0029] 特徴抽出部 101bは、例えばワークメモリ 101aに保持された符号ィ匕前の音声信号に基づいて、無音部であることや、音声信号の振幅レベル、周波数分布などの特徴量の抽出をするようになっている。抽出結果は、後に詳述するように、符号ィ匕によって生成されるパケットのヘッダにおける固定値領域に埋め込まれる。

[0030] また、符号化処理部 101cは、例えば MPEG2などの方式で符号ィ匕処理を行い、へッダを含むパケットを生成するようになっている。具体的には、例えば PESヘッダを含む PES (Packetized Elementary Stream)のパケットが生成される。

[0031] 上記特徴抽出部 101bは、具体的には、例えば符号ィ匕処理部 101cが、マイクロコードなどを用いたソフトウェア処理によって音声符号ィ匕処理を行うように構成されている場合には、特に特徴抽出用の回路を設けることなぐソフトウェアのコードを設けるのみで容易に実現することができる。ただし、これに限定されず、ソフトウェア処理のみで無音検出処理や特徴量抽出処理を実現できない場合などには、無音検出処理等の一部または全部がハードウェアによって行われるようにしてもよい。

[0032] 上記のように構成された映像音声記録装置では、図 3に示すようにして無音部ゃ特徴量の抽出が行われる。ここで、通常は符号化後のデータ量よりも符号化前のデータ量の方が多いが、図 3では説明の便宜上、同じデータ量として描いている。

[0033] (S101) 音声符号ィ匕部 101で、例えば n—l番目の音声信号に対する符号ィ匕処理が行われて、符号ィ匕音声信号 [n—l]がワークメモリ 101aに保持されていた状態で、次の所定量の入力音声信号 [n]が入力されると、その入力音声信号 [n]によって符号化音声信号 [n— 1]が上書きされる。

[0034] (S102) 例えば符号ィ匕処理部 101cにより、ワークメモリ 101aに保持されている入力音声信号 [_n]に基づいて、 PTS (Presentation Time Stamp)や DTS (Decod eing Time Stamp)などの時刻情報等とともに固定値 [n]を含むヘッダ [n]が生成される。上記固定値 [n]は、例えばパケットごとに変化のない、すなわち一連の (少なくとも複数の)パケットに対して等しく設定される値である。生成されたヘッダ [n]はヮークメモリ 101aに保持される（ヘッダ [n—l]が上書きされる。）。

[0035] (S103) 特徴抽出部 101bにより、ワークメモリ 101aに保持されている入力音声信号 [n]に基づいて、その音声が無音であるかどうかや、振幅、周波数分布などが抽出される。ここで、例えば、ソフトウェアによって無音検出などが行われる場合には、そのソフトウェアの実行によって、ワークメモリ 101aに保持されている音声信号がディジタル信号処理回路などに読み込まれる。また、ハードウェアによって無音検出などが行われる場合には、ワークメモリ 101aから出力された信号が無音検出回路などに入力される。 [0036] 無音等の検出結果としての、無音部であるかどうかや種々の特徴量を示す情報は、特徴量 [n]として、ヘッダ [n]に固定値 [n]と置換して埋め込まれる。すなわち、符号ィ匕が行われる際には、符号化データの内容を示すためや、符号化データの時刻情報を示すなどのためにヘッダの付カ卩が行われる力そのようなヘッダ部分に、（符号ィ匕状態のときに)符号ィ匕用およびその他のパラメータが変更されない限り変化しない固定値部分が存在する場合には、そのような固定値部分に抽出した特徴量を埋め込むことによって、抽出された特徴量を保存したり、その特徴量に基づく処理を行う部分に伝達したりすることができ、新たにレジスタ領域や外部メモリ領域等を確保する必要がない。なお、必要に応じて、固定値部分に多重化したことを示すためのフラグを立てるようにしてもよい。また、例えば DVDレコーダとして全てのパケットに対して固定値であるというような場合ならば、その固定値は、その DVDレコーダにおける後段の処理部においても既知の情報であるため、全く伝達する必要はない。（パケットが DVDレコーダ等の外部に出力される際など、すなわち DVDなどの交換可能な記録媒体に書き出す場合など、他の規格や仕様の DVDプレーヤやレコーダなどとの互換性を保つ必要がある場合などには、その際に、所定の固定値が復元されるようにすればよい。）一方、ある符号ィ匕状態においては固定値というような場合には、その固定値は伝達する必要がある力その場合は、はじめの 1パケット目のみに多重するとかにより伝達すればよいので、各パケットのヘッダによって伝達する必要はない。したがって、上記のように、抽出された特徴量を固定値部分に多重化することが容易に行える。なお、ヘッダなどの未使用領域部分に埋め込まれるようにしてもよい。

[0037] (S104) 符号ィ匕処理部 101cによって、ワークメモリ 101aに保持されている入力音声信号 [n]の符号化が行われる。符号化前の入力音声信号 [n]は、符号化によって生成された符号化音声信号 [n]によって上書きされる。

[0038] (S105) 上記のようにして生成され、ワークメモリ 101aに保持されたヘッダ [n]および符号化音声信号 [n]が、パケットとして音声符号化部 101から出力される。以下、 n+ 1以降の入力音声信号に対しても同様の処理が繰り返される。

[0039] 音声符号ィ匕部 101から出力された符号ィ匕音声信号は、符号多重化部 103により、映像符号ィ匕部 102から出力された映像信号のパケットと多重化されて、音声映像 (A V)多重ストリームデータとして出力され、記録媒体への記録等がなされる。上記多重化の際の音声信号と映像信号との同期は、 PESヘッダに埋め込まれた PTSや DTS などの時刻情報によって行われる。

[0040] 上記のようにヘッダの固定値部分または未使用領域部分に特徴量を示す情報が埋め込まれたパケットは、符号多重化部 103やその後段の図示しない処理部などによって、各パケットから切り出された特徴量に基づいて、自動 CM検出、除去や、要約再生を可能にするためのハイライトシーン検出などの処理が行われる。この場合、上記のように各パケットのヘッダに特徴量を示す情報が埋め込まれて、るので、各パケットと特徴量とを対応づけた処理が容易に行える。すなわち、特徴量を別途保存する場合には、その特徴量と音声信号等とを対応づけるための情報や処理が必要となるのに対して、パケットごとに処理を行うだけで、そのような対応付けが保証されることになる。また、符号多重化部 103の動作について説明したように、音声信号と映像信号との同期は時刻情報等によって容易にとられるので、結果的に、例えば音声信号について抽出された特徴量と映像信号との同期をとることも容易にできることになる。

[0041] また、上記自動 CM検出などの処理結果に基づいた処理力さらに後段の処理部によって行われる場合などには、その処理結果がヘッダの固定値部分や未使用領域部分に埋め込まれるようにしてもょ、。

[0042] また、特徴量の埋め込みがヘッダなどの未使用領域部分ではなく固定値部分に行われている場合には、無音検出等の処理が行われた後、必要に応じて、元の固定値部分の値を上書きし、元のパケットが復元される。ここで、特徴量が埋め込まれた固定値部分を元の固定値の値に復元するためには、特徴量の埋め込みの際に、元の固定値の値を保存しておく必要がある場合もあるが、例えば図 4に示すように、破線で示す固定値 [ 1]〜固定値 [n]が共通の値であれば、 1つの固定値を保存する少量の記憶領域を用意して保存するようにすれば、固定値を n— 1個分保存するための記憶容量の削減が可能となる。

[0043] なお、上記のような特徴抽出処理と符号化処理とに共通の処理が含まれる場合には、これらの処理が兼用の処理回路や処理プログラムによって行われるようにしてもよい。具体的には、例えば符号ィ匕処理部 101cでは、音声符号化処理を行うために、無音検出、振幅レベル、周波数分布などの特徴量を抽出していることがある。これらの情報は、本来は符号ィ匕のために用いられるものであっても、無音検出や CM検出などの特徴量として用いるようにしてもょ、。このように符号ィ匕のための特徴量を CM 検出などの特徴量として用いるようにする場合には、特徴量抽出のためのソフトゥェァのコードや回路を設ける必要がなぐ回路規模等を容易に低減することができる。

[0044] ここで、符号ィ匕のために求められた特徴量が、無音検出などの処理のために参照される前に逐次更新されるような場合には、埋め込む時点まで、上記特徴量を別のメモリ領域に退避して残しておくようにすればよい。そのためのメモリ領域の容量は、非圧縮の映像音声情報を退避しておくべきメモリ容量に比べて小容量だけ確保すればよい。

[0045] また、上記のような装置は、ディジタル放送を受信して記録する装置などに適用してもよい。すなわち、ディジタル放送では、既に映像符号化、音声符号化された映像音声放送として配信されるため、アナログ放送をディジタル記録する録画装置のように、記録時点で必ずしも符号ィ匕部を通す必要があるとは限らない。しかし、符号化された映像音声放送を、符号化解除し、再度、符号化を行うといった再符号化をする場合などには、符号ィ匕部を通ることになるため、符号化部に特徴量を抽出する機能を持たせて、ディジタル放送に関しても無音検出などを行わせることができる。

[0046] また、上記の例では、音声信号につ!、て特徴抽出が行われる例を示したが、音声符号ィ匕部 101に特徴抽出部 101bを設けるのに代えて、またはこれとともに、映像符号ィ匕部 102に特徴抽出部を設けて、映像信号について同様の特徴抽出が行われるようにしてもよい。なお、音声符号化部 101と映像符号化部 102との両方に特徴抽出部が設けられる場合でも、それぞれ別個に動作するようにしてもよいし、両方動作することも、片方のみ動作することも可能なようにしてもょ、。

[0047] また、パケットの固定値部分に特徴量が上書きされた状態のままで、ハードディスクなどの記録媒体に記録等され、再生時等に復元されるようにしてもよい。これによつて、効率的な記録等を実現できる。すなわち、各パケットなどに必要な特徴量を保存しておく必要がある場合、その特徴量を符号ィ匕音声信号などとは別領域に保存しておくには、さらなる記憶容量が必要であったり、その特徴量がどのパケットと対応するものであるかの情報を特徴量とセットで保持しておくためにさらに記憶容量が必要であつたりする力これに対して、ヘッダの固定値部分に特徴量を埋め込んで記録媒体に記録等することによって、そのような記憶容量の増大などを回避することができる。産業上の利用可能性

本発明にかかる記録装置は、映像信号や音声信号から抽出された特徴量等と映像音声信号等との対応関係を容易にとることができ、しかも、対応付けのための情報や処理を低減または不要にして、回路規模の低減等も容易に図ることができるという効果を有し、映像音声信号を符号化して磁気ディスクや光ディスクなどに保存するハードディスクレコーダや DVDレコーダなどの記録装置等として有用である。

Claims

請求の範囲

[1] 映像信号および音声信号の少なくとも一方を符号化し、ヘッダを有する符号化信号を生成する符号化手段と、

上記符号化信号を記録媒体に記録する記録手段と、

を備えたことを特徴とする記録装置。

[2] 請求項 1の記録装置であって、

上記特徴抽出手段は、上記音声信号における、無音状態、振幅、および周波数分布のうちの少なくとも 1つを抽出するように構成されていることを特徴とする記録装置。

[3] 請求項 1の記録装置であって、

上記特徴抽出手段は、上記映像信号における、振幅、および周波数分布のうちの少なくとも 1つを抽出するように構成されていることを特徴とする記録装置。

[4] 請求項 1の記録装置であって、

上記特徴抽出手段は、映像信号または音声信号を符号ィ匕するための演算の結果を用いて、上記抽出を行うように構成されてヽることを特徴とする記録装置。

[5] 請求項 1の記録装置であって、

上記特徴抽出手段による抽出が行われた後に、上記符号化が行われるように構成されてヽることを特徴とする記録装置。

[6] 請求項 5の記録装置であって、

さらに、ノッファ記憶部を有し、

上記符号化手段は、生成された符号ィ匕信号を上記バッファに保持させるように構成されてヽることを特徴とする記録装置。

[7] 請求項 1の記録装置であって、さらに、上記ヘッダの固定値領域に抽出結果が設定された符号化信号を、元の固定値が設定された符号化信号に復元する固定値復元手段を備えたことを特徴とする記録装置。

[8] 請求項 7の記録装置であって、

上記記録手段は、上記固定値復元手段によって復元された符号化信号を上記記録媒体に記録するように構成されてヽることを特徴とする記録装置。

[9] 請求項 7の記録装置であって、

上記固定値復元手段は、上記記録媒体から再生される符号化信号に対して、上記復元を行うように構成されてヽることを特徴とする記録装置。