JP2004528600A - オーディトリーイベントに基づく特徴付けを使ったオーディオ信号の時間調整方法 - Google Patents
オーディトリーイベントに基づく特徴付けを使ったオーディオ信号の時間調整方法 Download PDFInfo
- Publication number
- JP2004528600A JP2004528600A JP2003500892A JP2003500892A JP2004528600A JP 2004528600 A JP2004528600 A JP 2004528600A JP 2003500892 A JP2003500892 A JP 2003500892A JP 2003500892 A JP2003500892 A JP 2003500892A JP 2004528600 A JP2004528600 A JP 2004528600A
- Authority
- JP
- Japan
- Prior art keywords
- signal
- audio signal
- audio
- time
- characterization
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/4302—Content synchronisation processes, e.g. decoder synchronisation
- H04N21/4307—Synchronising the rendering of multiple content streams or additional data on devices, e.g. synchronisation of audio on a mobile phone with the video output on the TV screen
- H04N21/43072—Synchronising the rendering of multiple content streams or additional data on devices, e.g. synchronisation of audio on a mobile phone with the video output on the TV screen of multiple content streams on the same device
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N5/00—Details of television systems
- H04N5/04—Synchronising
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/26—Recognition of special voice characteristics, e.g. for use in lie detectors; Recognition of animal voices
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/04—Time compression or expansion
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/233—Processing of audio elementary streams
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/83—Generation or processing of protective or descriptive data associated with content; Content structuring
- H04N21/845—Structuring of content, e.g. decomposing content into time segments
- H04N21/8455—Structuring of content, e.g. decomposing content into time segments involving pointers to the content, e.g. pointers to the I-frames of the video stream
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N5/00—Details of television systems
- H04N5/44—Receiver circuitry for the reception of television signals according to analogue transmission standards
- H04N5/60—Receiver circuitry for the reception of television signals according to analogue transmission standards for the sound signals
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2218/00—Aspects of pattern recognition specially adapted for signal processing
- G06F2218/12—Classification; Matching
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/018—Audio watermarking, i.e. embedding inaudible data in the audio signal
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Quality & Reliability (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Auxiliary Devices For Music (AREA)
- Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
- Measurement And Recording Of Electrical Phenomena And Electrical Characteristics Of The Living Body (AREA)
- Signal Processing For Digital Recording And Reproducing (AREA)
- Stereophonic System (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
- Stereo-Broadcasting Methods (AREA)
- Signal Processing Not Specific To The Method Of Recording And Reproducing (AREA)
Abstract
Description
【0001】
本発明は、オーディオ信号に関する。とりわけ、本発明は、オーディオ信号の特徴づけと、特徴付けを使って、ひとつのオーディオ信号が別のオーディオ信号から生成されたオーディオ信号同士、又は、2つのオーディオ信号が同じオーディオ信号から生成されたオーディオ信号同士の時間調整又は同期化を行うことに関する。このような同期化は、例えば、テレビジョン音声を映像と同期させて再生する(lip-sync)ときや、オーディオ信号に埋め込まれた透かしを検出するときに役に立つ(透かしのある信号は、透かし無し信号版と比較される)。本発明は、低い処理労力による処理でこのような2つのオーディオ信号を実質的に時間調整させるために実施される。
【背景技術】
【0002】
サウンドを別の音として感じる単位に分割することは、「オーディトリーイベントアナリシス」又は「オーディトリーシーンアナリシス」(「ASA」)と呼ばれることもある。オーディトリーシーンアナリシスの幅広い議論は、Albert S. Bregmanの「Auditory Scene Analysis - The Perceptual Organization of Sound」マサチューセッツ工科大学、1991年、第4版、2001年、第2MITプレスペーパーバック版に公開されている。加えて、Bhadkamkar他の米国特許6,002,776,1999年12月14日付でも、1976年に発行された「prior art work related to sound separation by auditory scene analysis」を引用している。しかし、Bhadkamkar他の特許は、オーディトリーシーンアナリシスの実用的な採用の意欲を失わせるものであり、「オーディトリーシーンアナリシスを必要とする技術は、人間の聴覚処理のモデルという観点から科学的には興味があるものの、現時点ではコンピュータに対する要望が非常に強すぎ、特別なものなので、基本的な処理がなされるまでオーディオ分割の実用的な技術と考えることはできない。」と結論付けている。
【0003】
Bregmanは文中に「オーディオが音色、高さ、大きさ、又は(小さい範囲で)空間的な位置が突然変化したとき、別々の単位として聞こえる。」(Auditory Scene Analysis - The perceptual Organization of Sound, 469ページ)。Bregmanは、例えば周波数が別々であるとき、たくさんのオーディオが同時に流れたときのオーディオの認知について議論している。
【0004】
オーディオからの特性や特徴を抽出する多くの異なった方法がある。特徴や特性が適切に定義されているという条件で、これらの抽出は、自動的な処理工程にて実行される。例えば「ISO/IEC JTC1/SC 29/WG 11」(MPEG)は、現時点ではMPEG-7標準の一部としてのさまざまなオーディオ記述子の標準となりつつある。このような方法に共通する欠点は、ASAを無視していることである。このような方法は、高さ、大きさ、パワー、和音構成、及びスペクトルフラットネスのような古典的な信号処理変数を繰り返し探求するものである。このような変数は、有益な情報をもたらすものではあるが、人間の認知により別のものと知覚される成分に分けて信号を個性化するものではない。
【0005】
オーディトリーシーンアナリシスは、成分を人間の認知に従って別のものと識別することで、人間の聴覚と似た方法でオーディオ信号を個性化する試みである。このような方法を開発することで、これまで人間の補助を必要としていた仕事を正確に自動的な処理工程で実行することができる。
【0006】
別のものと認識される成分を特定することで、信号そのもの全てより実質的には少ない情報を用いてオーディオ信号の一意的な識別が可能となる。オーディトリーイベントに基づくコンパクトで一意的な識別は、例えば、もうひとつ別の信号からコピーされた(又は、同じ音源の信号から別の信号としてコピーされた)信号の識別のために採用され得る。
【発明の開示】
【0007】
オーディオ信号を特定するために用いることができるオーディオ信号の、一意的で縮減された情報による特徴付けを発生させる方法が記載されている。特徴付けは、オーディオ信号の「サイン」又は「指紋」と考えることもできる。本発明によれば、オーディトリーシーンアナリシス(ASA)は、オーディオ信号の特徴付けの基準として、オーディトリーイベントの特定を実行する。理想的には、オーディトリーシーンアナリシスは、オーディオについて、低ビットレートのコーディングやラウドスピーカーを通じて音響的に伝達されるような処理がなされた後でも、人間のリスナーに認識されると思われるオーディトリーイベントを特定する。オーディオ信号は、オーディトリーイベントの境界域や、代案的に、各オーディトリーイベントの優勢な周波数サブ帯域により特徴付けられる。その結果得られた情報パターンは、速く及び/又は低い労力で元のオーディオ信号同士の時間差を決定するために、オーディオの指紋やサインと比較することができるコンパクトなオーディオの指紋やサインを構成する。縮減された情報による特徴は、オーディオ信号の相対的なタイミングと実質的に同じタイミングを持つ。
【0008】
本発明によるオーディトリーシーンアナリシスの方法は、オーディトリーイベント情報を含んだサインを比較することにより、特に音楽についての2つのオーディオ信号の速くて正確な時間調整方法を提供する。ASAは、オーディオ信号の間の類似性認識におけるそれほど本質的でない(高さ、大きさ、音量、調波構成のような)特徴を抽出する従来の特徴抽出法と比べて、類似性認識におけるより本質的な情報又は特徴を抽出する。ASAの使用は、低ビットコーディングやラウドスピーカーを通して伝達されるアコースティックのような、かなり処理を施された材料における類似性を見つける機会、従って時間調整をする機会、を向上する。
【0009】
以下に論ずる実施例において、論議の対象となる2つのオーディオ信号は共通の音源から由来するものと想定する。本発明による方法は、お互いに関してほぼ同期状態にすることができるように、このようなオーディオ信号を他の信号に対する時間補正を決定する。
【0010】
本発明は、アナログ領域でもディジタル領域でも(又はこの2つの組み合わせでも)原則として実施可能であるが、本発明の実際の実施例では、オーディオ信号はデータのブロックにおけるサンプルとして表現され、ディジタル領域において処理される。
【0011】
図1Aを参照すると、オーディトリーシーンアナリシス2は、オーディオ信号に関する「サイン」又は「指紋」を生成するために、そのオーディオ信号に適用される。ここに、関心のある2つのオーディオ信号がある。これらは、一方は他方から得られたものであるか、又は両方とも前もって同じ音源から得られたものであり類似する。このように、オーディトリーシーンアナリシスは両方の信号に適用される。簡単のために図1AではASAを1つの信号にのみ適用した場合を示す。図1Bに示すように、2つの信号に対するサインであるサイン1とサイン2は、2つのサイン間における相対時間の補正の程度である「補正」出力を計算する時間補正計算機能4に適用される。
【0012】
サインはオーディオ信号を表すが実質的にはその源となるオーディオ信号より短いので、サイン同士の時間補正を、オーディオ信号同士の時間補正を決定するのに比べてかなり速く決定することができる。さらに、サインは、その源となるオーディオ信号と実質的に同じ相対的な時間関係を保持するので、サイン同士の時間補正の計算は元のオーディオ信号の時間調整に使用できる。このように、機能4の補正出力は時間調整機能6に適用される。時間調整機能は、2つのオーディオ信号、すなわちオーディオ信号1とオーディオ信号2(サイン1とサイン2がここから導き出される)も受け取り、2つのオーディオ信号出力、すなわちオーディオ信号3とオーディオ信号4を供給する。時間調整(同期化)又はほぼ同期化させるためには、オーディオ信号1のオーディオ信号2に対する相対的タイミングを調整することが望ましい。これを実行するために一方を他方に対して時間移動させてもよいし、あるいは、原則として、両方時間移動させてもよい。実際には、オーディオ信号の内の1つは、オーディオ信号1又はオーディオ信号2が「通り抜けたもの」であり(すなわち、実質的に同じ信号)、他は、補正計算と時間調整機能の分解能の精度に応じて、オーディオ信号3とオーディオ信号4が、時間同期化又はほぼ時間同期化されるよう時間的に修正された他方の信号の時間移動版となる。もしさらに大きな時間調整の精度が要求される場合は、本発明を構成しない1以上の工程により、さらなる処理がオーディオ信号3及び/又はオーディオ信号4に適用されよう。
【0013】
信号の時間調整は、例えば、テレビジョン音声を映像と同期させて再生する(lip-sync)ときや、オーディオ信号埋め込まれた透かしを検出するときに役に立つ。前者の場合は、オーディオのサインは、音声や映像が同期はずれを起こすかもしれないビデオ信号に、伝達又は保存に先立って埋め込まれる。再生ポイントにおいて、サインは、オーディオ信号から生成され、同期して再生するためにビデオ信号に埋め込まれたサインと比較される。オーディトリーシーンアナリシスに基づく特徴付けを採用しないタイプのシステムはアメリカ合衆国特許33.535、5,202,761、6,211,919、及び6,246,439に記載されており、これらの特許は、全体的に参照用としてここに組み込まれる。第2の場合は、オーディオ信号の元のバージョンは、透かしを回復させるためにオーディオ信号の透かしを入れたバージョンと比較される。このような回復のためには、2つのオーディオ信号に緊密な時間調整を要求する。これは、ここに述べるように、元のオーディオ信号の時間調整を手助けするために各オーディオ信号のサインを生成することで第1級の調整が実行される。さらに図1Aと1Bの詳細が以下に述べられる。
【0014】
ある用途には、図1Aと1Bの処理は実時間で行われなければならない。他の用途に対しては、実時間である必要はない。実時間での応用例においては、この処理は、各入力信号に対する(例えば、数秒間の)オーディトリーシーンアナリシスの履歴を保存する。周期的に、このイベント履歴が適用され、時間調整を連続的に修正するために、補正計算の更新を行う。各入力信号に対するオーディトリーシーンアナリシス情報は実時間で生成され、又は、いずれかの入力信号情報はすでに存在しているかもしれない(あるオフラインのオーディトリーシーンアナリシス処理はすでに実行されていることを前提とする)。実時間システムの1つの用途は、例えば、上述のような音声/映像位置調整である。連続したイベント境界は、オーディオから生成される。他の連続したイベント境界は、ビデオから再生される(いくつかのオーディトリーイベントの境界が前もってビデオに埋め込まれていることを前提とする)。2つのイベント境界の順序は、例えばlip-syncを改善するために、音声と映像の間の時間補正を決定するために、周期的に比較される。
【0015】
このようにサインの時間補正が計算され、実質的な同時性を達成するようにオーディオ信号の時間調整に用いられるのと同時に、2つのサインが生成される。代案として、比較されるべき1つのサインが、例えば、先に説明したような音声と映像の位置調整の場合の映像信号のように、もう一方の信号に埋め込むことによって生成されたオーディオ信号と一緒に生成することとしてもよい。更なる代案として、両方のサインが前もって生成されるようにし、比較と時間修正のみを実時間で行うこととしてもよい。例えば、(音声と映像のある)同じテレビジョンプログラムの2つの信号源の場合、両方とも埋め込まれたサインで、各テレビジョン信号(音声信号を含む)は、再生されたサインを比較することで同期化される(音声と映像の両方)。各テレビジョン信号における音声と映像の相対的なタイミング関係は変わらないままである。テレビジョン信号の同期化は実時間で行われるが、サインの生成は実時間でも同時でもない。
【0016】
本発明の特徴によれば、オーディオを、別のものと認識される「オーディトリーイベント」又は時間的な区分に分割するためのコンピュータによる効率的な処理が提供される。
【0017】
認識されたオーディトリーイベントの開始点又は終点の説得力のある識別は、スペクトル内容の変化であるとみられる。音色と高さ(スペクトル内容)の変化と、補助的な結果として、振幅の変化を検出するために、本発明の特徴によるオーディオイベントの検出過程で、時間に対するスペクトル内容の変化を検出する。追加的に、本発明の更なる特徴により、この処理の過程で、時間に対するスペクトル内容の変化の検出では検出できない時間に対する振幅の変化をも検出することも可能である。
【0018】
コンピュータに最小限の負荷しか与えない実施においては、周波数帯域全体又は実質的に周波数帯域の全体を分析することで、この処理はオーディオ(全帯域のオーディオ)を、時間区分に分割する(現実の実施例では、スペクトルの終端で帯域制限のフィルターがしばしば適用される)。この方法は、短い時間スケール(20msec以下)では耳は、その時間において単一のオーディトリーイベントに集中する傾向にあることを利用するものである。これは、同時に複数のイベントが起こったとき、ひとつの要素が聴覚的にもっとも優勢になる傾向があり、それが発生したただ1つのイベントであるかのように処理される可能性がある。この効果を利用することはオーディトリーイベントの検出が複雑なオーディオの処理に対応することを可能にする。例えば、もし入力オーディオ信号が単一の楽器で演奏されていたならば、特定されるオーディオイベントは、おそらく単一の調子で演奏されたものとなるだろう。入力音声信号も同様に、発話の各成分、例えば母音と子音は、おそらく単一のオーディオ成分として特定されるだろう。ドラムビートや多数の楽器と音声による音楽のように、オーディオの複雑性が増大したとき、オーディトリーイベントは、その時々の最も顕著な(すなわち、音の大きい)オーディオ成分を特定する。代わりに、この「最も顕著な」オーディオ成分は、聴覚閾値や周波数応答を考慮に入れて決めてもよい。
【0019】
状況に応じて、本発明のさらなる特徴に従い、コンピュータが非常に複雑になるが、処理において、全帯域幅より、離散的な周波数帯域(固定又は動的に決定された又は固定と動的な決定の両方の帯域)における時間に関してスペクトル構成の変化を考慮に入れてもよい。この代案的な方法は、単一のオーディオの流れが特定の時間で認識されるとみなすより、異なる周波数帯域の1つ以上のオーディオの流れを考慮に入れるものである。
【0020】
オーディオを区分するための本発明の特徴に従った、コンピュータを使った効率的で単純な方法ではあるが、この方法は、オーディトリーイベントを特定するのに有益であることが分かった。
【0021】
本発明によるオーディトリーイベントの検出方法を、オーディオ波形の時間領域を時間間隔又はブロックに分割することにより実行し、分割の後、離散フーリエ変換(DFT)(スピードを加速するため高速フーリエ変換(FFT)として実行される)のような、フィルターバンク又は時間−周波数変換を用いて、各ブロックのデータを周波数領域に変換してもよい。各ブロックのスペクトル内容の振幅は、振幅の変化による影響を削除又は縮減するために正規化しておくことができる。結果として現れる各周波数領域は、特定のブロックにおけるオーディオのスペクトル内容(周波数の関数としての振幅)の表示を提供する。連続するブロックにおけるスペクトル内容は、比較され、閾値より大きな変化は、オーディトリーイベントの時間的開始点又は時間的終点を表示するとみなすことができる。
【0022】
コンピュータの複雑化を最低限に抑えるために、好ましくは全周波数帯域のスペクトラム(平均的な質のミュージックシステムでは50Hzから15kHzまでとなるだろう)又は、実質的に全周波数帯域(例えば、非常に低周波や高周波の部分を除外するフィルターにより定義される帯域)について、時間領域におけるオーディオ波形のただ1つの周波数帯域を処理してもよい。
【0023】
以下に述べるように周波数領域におけるデータは正規化されることが好ましい。周波数領域のデータが正規化されるために必要とする程度により、振幅の表示が与えられる。従って、もし、この程度を変化させたとき、あらかじめ定められた閾値を超えると、イベントの境界とみなされる部分が多くなりすぎてしまう。スペクトルの変化により決められたイベントの開始点と終点と振幅の変化により決められた開始点と終点とは、OR条件により結合し、両方のタイプの変化から得られたイベントの境界を特定してもよい。
【0024】
実際の実施例では、サンプル値により表現されるオーディオはブロックに分けられ、各オーディトリーイベントの時間的開始点及び時間的終点の境界は、時間領域におけるオーディオ波形が分割されるブロックの境界と一致する必要がある。実時間処理からの要求(ブロックを大きくすれば処理負荷は低くなる)とイベント位置の分解能(ブロックが小さいほうが、オーディトリーイベントの位置に関する詳細な情報が得られる)との間には二律背反の関係がある。
【0025】
さらなる選択として、前に示唆したように、コンピュータによる処理が複雑となってしまうが、時間領域における単一の周波数帯域における波形のスペクトル内容に対して処理を行う代わりに、時間領域の波形のスペクトルを周波数領域に変換する前に、2以上の周波数帯域に分割してもよい。周波数帯域の各々について周波数領域に変換し、そしてそれが独立のチャンネルであるかのように処理することができる。そして、得られたイベントの境界は、OR条件で結合し、そのチャンネルにおけるイベントの境界を定義することができる。多数の周波数帯域は、固定しても、状況に応じて変更することとしても、あるいは固定と状況に応じての変更とを組み合わせてもよい。例えば、オーディオノイズ低減その他の技術に用いられるトラッキングフィルター技術を、状況に応じて周波数帯域を決めるため(例えば、800Hzと2kHzにおける同時的な主正弦波を、この2つの周波数を中心にした、状況適応的な帯域とする)に採用してもよい。
【0026】
オーディトリーシーンアナリシスをもたらす他の技術を、本発明におけるオーディトリーイベントを特定するために採用してもよい。
【発明を実施するための最良の形態】
【0027】
本発明の実用的な実施例では、44.1kHzのサンプリングレートの入力オーディオにおいて約11.6msecに相当する、512個のサンプルからなるブロック内で処理されるサンプルにより、オーディオ信号が表現される。最短の認識可能なオーディトリーイベント(約20msec)より短い継続時間のブロック長さが望ましい。本発明の特徴は、このような実用的な実施例に限定されないことは了解されている。本発明は本質的に、オーディトリーイベントに先立ってオーディオをサンプルブロックに編成したり、一定長さのブロックを提供したりすることを必要としない。しかし、複雑性を最低限にするために、512個のサンプル(又は他の2の累乗個のサンプル)からなる固定長さのブロックが、3つの主な理由により有効である。第1に、実時間処理のアプリケーションにとって受け入れ可能な、十分短い待ち時間を提供するからである。第2に、フーリエ変換(FFT)分析に有効な2の累乗個のサンプルだからである。第3に、役に立つオーディトリーシーンアナリシスを実施するために適当な大きさの窓サイズを提供するからである。
【0028】
以下の議論で、この入力信号は、〔−1,1〕の範囲の振幅を持つデータであると仮定する。
【0029】
〈オーディトリーシーンアナリシス(図1A)〉
入力データのブロック化に引き続き(図示せず)、入力信号はオーディトリーイベントに分割され、各々は、図1Aの処理2(「オーディトリーシーンアナリシス」)において別のものと認識される傾向にある。オーディトリーシーンアナリシスは、前述のオーディトリーシーンアナリシス(ASA)処理により実行される。しかし、オーディトリーシーンアナリシスを実施するのに適当な1つの方法が、以下に詳細に述べられる。本発明は、ASAを実行するための他の有効な技術を採用してもよい。
【0030】
図2は、図1Aのオーディトリーシーンアナリシス処理として用いられる本発明の技術に従った処理の概要を示す。ASAステップ又はプロセスは3つの概略サブステップからなる。最初のサブステップ2−1(「スペクトル分析の実行」)は、オーディオ信号を取り上げ、それをブロックに分割し、ブロックのそれぞれについてスペクトルプロファイル又はスペクトル内容を計算する。スペクトル分析により、オーディオ信号を短時間の周波数領域内に変換する。これは、変換又は帯域パスフィルターの列のどちらかを基礎として、(人間の耳の特性によく近似させた、バークスケールやクリティカルバンドのような)直線的又は曲線的周波数空間のどちらかにおいて、フィルターバンクを用いて実行される。どんなフィルターバンクであっても、時間と周波数との間には二律背反関係が存在する。時間分解能を大きくし、従って時間間隔を短くすれば、周波数分解能が低くなる。周波数分解能を大きくし、従ってサブ帯域を小さくすれば、時間間隔が長くなる。
【0031】
第1のサブステップでは、連続するオーディオ信号の時間区分におけるスペクトル内容の計算を行う。実用的な実施例では、以下に述べるように、ASAブロックサイズは512個のサンプルの入力オーディオ信号である(図3)。第2のサブステップ2−2では、ブロックとブロックとの間のスペクトル内容の違いを決定する(「スペクトルプロファイルの差異の計測」)。このように、第2のサブステップは、連続するオーディオ信号の時間区分同士のスペクトル内容の違いを計算する。第3のサブステップ2−3(「オーディトリーイベントの境界位置の特定」)では、あるスペクトラルプロファイルのブロックと次のスペクトラルプロファイルのブロックとの差が閾値より大きいとき、そのブロックの境界はオーディトリーイベントの境界と見なす。このようにして、連続する時間区分間でスペクトラルプロファイルの内容同士の差が閾値を超えたとき、第3のサブステップは、この連続する時間区分間にオーディトリーイベントの境界を設定する。上記で論じた通り、認識されたオーディトリーイベントの開始点又は終点の強力な指標はスペクトル内容の変更点であると考えられる。イベント境界の位置はサインとして保存される。随意的な処理ステップ2−4(「優勢なサブ帯域の特定」)では、スペクトル分析を用い、これもまたサインの一部として保存される優勢な周波数のサブ帯域を特定する。
【0032】
この実施例では、オーディトリーイベントの境界は最低限のスペクトラルプロファイルブロック長さ(この例では512個のサンプル)を持ったスペクトラルプロファイルのブロックの整数倍の長さを持ったオーディトリーイベントとして定義する。原則的には、イベント境界をそのように限定する必要はない。オーディオ区分の重複する部分又は重複しない部分のいずれか一方は、窓化され入力オーディオのスペクトラルプロファイルを解散するために用いられる。重複によりオーディトリーイベントの位置の細かい分解能が得られ、また、トランジエントのようなイベントを見逃すことが少なくなると思われる。しかし、時間分解能があがるにつれて、周波数分解能は下がる。また重複により、コンピューターの複雑性は増大する。図3は、窓化され離散フーリエ変換(DFT)により周波数領域に変換された、重複のない512個のサンプルブロックを概念的に表したものである。各ブロックは窓化され、例えばDFT、好ましくは速度を上げるため高速フーリエ変換(FFT)を用いて周波数領域に変換される。
【0033】
以下の変数を入力ブロックのスペクトルプロファイルの計算に使うことができる。
N =入力信号のサンプル数
M =スペクトルプロファイルの計算に使われる窓内のサンプル数
P =スペクトル計算の重複サンプル数
Q =計算されたスペクトル窓/領域数
原則として、どんな整数を上記変数として使ってもよい。しかし、スペクトルプロファイルの計算に標準的なFFTを使うことができるように、Mは2の累乗にしておけば、計算はもっと効率的になる。オーディトリーシーンアナリシス処理における実際の実施例では、上掲の変数は以下のように定められる。
M =512サンプル(又は、44.1kHzで11.6msec)
P =0サンプル
上掲の変数は実験により求められたもので、おおむね、オーディトリーイベントの位置と継続時間について十分な精度を満たすとみなされることが分かった。しかし、Pの値を256サンプル(50%重複)にすることは、見つけにくいイベントを特定するのに有益であることが分かっている。窓関数に起因するスペクトラルアーティファクトを最小限にするために多くの異なるタイプの窓関数が使われるが、スペクトラルプロファイルの計算に使われる窓関数は、Mポイント・ハニング、カイザー・ベッセルその他の適当なもので、非方形の窓関数が望ましい。広範囲にわたる試験の結果、広い範囲のオーディオ素材にわたって優れた成果をあげたことから、上記値とハニング窓を選択した。非方形の窓は、低周波の内容が優勢なオーディオ信号の処理に望ましい。方形窓は、イベントの不適切な検出の原因になるスペクトルアーティファクトを作る。全体として重複/付加する処理を、制限を一定レベルで設けるようなコーディックでないアプリケーションは、ここでは適用されず、窓は時間/周波数分解能やストップバンドの排除のような特徴により選ぶことができる。
【0034】
サブステップ2−1(図2)で、M個のサンプルのブロックは、Mポイント・ハニング、カイザー・ベッセルその他の適当な窓関数にてデータが窓化されて計算することができ、M・ポイント高速フーリエ変換を用いて周波数領域に変換され、FFT係数の振幅が計算される。結果出てきたデータは、最大振幅を単位と定めるように正規化され、正規化されたM個の数値は対数領域に変換される。これらの数値群は対数領域に変換する必要はないが、変換することはサブステップ2−2での差異の大きさの計算を簡単にする。さらに、対数領域は人間の聴覚システムの対数領域での特性と親密な整合性がある。対数領域における値はマイナス無限大からゼロまでである。実際の実施例では、最小リミット値がこのレンジに重ねあわされる。すなわち、リミット値を例えば−60dBに固定、あるいは、高周波数では小さい静かな音の可聴性が低いことを反映して、周波数に依存した値にすることができる。(正の周波数と同様に負も示すFFTにおいて、数値群をM/2個のサイズに減らすことも可能なことに注意すべきである)。
【0035】
サブステップ2−2では、隣り合うサブブロックのスペクトル間の差異の大きさの計算を行う。各ロックについて、サブステップ2−1からのM(対数)個のスペクトル係数の各々を先行するサブブロックの対応する係数から減算し、その差異の大きさを計算する(符号は無視する)。これらのM個の差異は加算されひとつの数となる。すべてのオーディオ信号に対して、結果はQ個の正数群となり、数値が大きければ大きいほど、サブブロックのスペクトルが、先のサブブロックとは異なっている。差異の大きさの計算値は、和の計算で用いたスペクトル係数の数で、この差異の計算値を割ることによりスペクトル係数ごとの平均差異を示させることも可能である(この場合はM個の係数)。
【0036】
サブステップ2−3では、サブステップ2−2で計算した差異の数値群に閾値を適用することでオーディトリーイベントの境界の位置を定義する。差異が閾値を上回っていると判断したとき、スペクトルの変化は新しいイベントの信号を送るのに十分だと判断され、ブロック数の変化はイベントの境界として記録される。上記で与えられたM及びPと(サブステップ2−1の)dB単位で表した対数領域での値に対して、閾値は、FFT強度全体と比較する場合(鏡像部分も含む)は、2500に設定され、FFT強度の半分と比較される場合(先に注記したように、FFTは正の周波数と同様に負も示す。従って、FFTの強度については、一方は他方の鏡像となる)は、1250に設定される。この値は、試験的に選ばれたものであり、好適なオーディトリーイベントの検出をもたらす。この変数値はイベントの検出を減らしたり(閾値を増大する)、増やしたり(閾値を減少する)することために変更が可能である。
【0037】
この現実的な実施例の詳細は必須条件ではない。連続する時間区分間の相違を計算し、このような連続する時間区分間でのスペクトルプロファイルの内容の相違が閾値を超えたとき、連続する時間区分間の各々の境界にオーディトリーイベントの境界を設定するような、連続するオーディオ信号の時間区分のスペクトルの内容を計算する他の方法を適用してもよい。
【0038】
(大きさがM個のサンプルで)Q個のブロックから構成されるオーディオ信号に対する、図1Aの2の機能であるオーディトリーシーンアナリシス処理の出力は、q=0,1,...,Q−1からなるオーディトリーイベントの境界の位置を示す情報の配列B(q)となる。ブロックサイズM=512サンプル、重複がP=0サンプルそして、信号サンプリングレートが44.1kHzに対して、オーディトリーシーンアナリシス処理2は、1秒間に約86の値を出力する。配列B(q)は、基本的な形では優勢なサブ帯域情報を任意に付加しないで、オーディオ信号のサインがオーディトリーイベントの境界の列を代表する配列B(q)となるように、サインとして保存される。
【0039】
2つの異なった信号に対するオーディトリーシーンアナリシスの結果の一例を図4Aと4Bに示す。上図、図4Aは、オーディトリーイベントの境界がサンプル1024個目と1536個目のところに特定されたオーディトリーシーン処理の結果を示している。下図、4Bは、イベントの境界がサンプル1024個目、2048個目および3072個目のところに特定されたものを示している。
【0040】
〈優勢なサブ帯域の特定(任意的)〉
各ブロックに対し、ASA処理(図2に示す)において任意に付加されたステップはブロック(各ブロックにおけるデータの周波数領域への変換は、周波数サブ帯域に分割された情報をもたらす)の優勢な「サブ帯域」であることを示すオーディオ信号から情報を引き出す。このブロック毎の情報はオーディトリーイベント毎の情報に変換され、優勢な周波数のサブ帯域が各オーディトリーイベントにおいて特定される。各オーディトリーイベントに対するこの情報は、オーディトリーイベントの境界に加えて他の情報とともに(以下に説明する)相関処理を提供する。優勢な(最も振幅の大きい)サブ帯域は、人間の耳がもっとも感度の高い周波数帯域又は範囲内の、例えば3又は4の複数のサブ帯域から選ぶことができる。代案的に、他の条件をサブ帯域の選定に使ってもよい。
【0041】
スペクトルは例えば3つのサブ帯域に分割される。好ましいサブ帯域の周波数範囲は、
サブ帯域1 301Hzから560Hz
サブ帯域2 560Hzから1938Hz
サブ帯域3 1938Hzから9948Hz
である。
【0042】
優勢なサブ帯域を決定するために、スペクトル振幅の自乗(又はスペクトルのパワーマグニチュード)が各サブ帯域において加算される。このサブ帯域毎の加算結果が算出されてもっとも大きなものが選ばれる。重み付けは、各サブ帯域での合計をそのサブ帯域のスペクトル値の数で割るという形式を取る。あるいは、その代わり、他より重要な帯域を強調するために、付加又は乗算するような形をとってもよい。これは、あるサブ帯域が他のサブ帯域より平均的にはエネルギーを持っているが、聴覚的には重要ではない場合に有効である。
【0043】
Q個のブロックからなるオーディオ信号を考える、優勢なサブ帯域処理の出力は、各ブロック(q=0,1,...,Q−1)の優勢なサブ帯域を表す情報の配列DS(q)となる。配列DS(q)は、配列B(q)と共にサインの中に保存されることが好ましい。このようにして、任意的な優勢なサブ帯域の情報と共に、オーディオ信号のサインは、各々オーディトリーイベントの境界の列と各ブロック内の優勢な周波数サブ帯域の列を表す配列B(q)と配列DS(q)の2つとなる。このように、理想的な例では、2つの配列は(3つの優勢なサブ帯域があるケースでは)以下のような値となる。
【0044】
10100010010000010 (イベント境界)
11222211133333311 (優勢なサブ帯域)
ほとんどの場合、優勢なサブ帯域は、この例に示すように、各オーディトリーイベント内において同じとなるか、又は、イベント内のすべてのブロックが一様でない場合は、平均値となる。このように、優勢なサブ帯域は、各オーディトリーイベント内で決定され、配列DS(q)は、同じ優勢なサブ帯域がイベント内の各ブロックに割り当てられるように修正され得る。
【0045】
〈時間補正計算〉
抽出したサインの出力(図1A)は、前述のような、サインとして保存されるオーディトリーシーンアナリシス情報の1以上の配列である。時間補正計算機能(図1B)は、2つのサインを取り上げ、それらの時間のずれの程度を計算する。これは、既知の相互相関法を用いて算出される。
【0046】
S1(長さQ1)をサイン1からの1つの配列とし、S2(長さQ2)をサイン2からの1つの配列とする。最初に配列RE1E2の相関を計算する(例えば John G. Proakis, Dimitris G. Manolakis,Digital Signal Processing: Principles, Algorithms, and Applications, Macmillan Publishing Company, 1992, ISBN 0-02-396815-X参照)。
【数1】
【0047】
現実的な実施例では、相互相関は、実行時間短縮のため標準的なFFTに基づく技術を用いて計算される。S1とS2は両方とも長さが有限なので、ゼロでないRE1E2はQ1+Q2−1の長さを持つ。RE1E2における最大成分に対応する遅れlは、S1に対するS2の時間のずれを表す。
【数2】
【0048】
この補正(時間のずれ)はサイン配列S1とS2と同じ単位を持つ。現実的な実施例では、S1とS2の成分は、配列から隣接ブロックとの重複部を差し引いて配列を生成するために用いられたオーディオブロックサイズと等価な更新された比率をもつ。すなわちM−P=512−0=512サンプルとなる。
【0049】
〈時間調整〉
時間調整機能6(図1B)は、2つのオーディオ信号における時間調整のために時間差を計算するために用いられる。これは、オーディオ信号入力S1とS2(2つのサインを生成するために用いられる)を取り上げ、両方が時間的に緊密に整列するよう、他方に対して一方を補正する。2つの調整された信号はオーディオ信号3と4として出力される。適用された遅れ又は補正の量は、サインS1とS2間の相対サイン遅れlpeakによる生成物であり、サインのサンプルにおける分解能M−Pである。
【0050】
2つの音源の共通部分に関心がある応用例について(透かしが付けられていない信号と透かしが付けられた信号とを直接比較するような透かし検出の場合のように)、2つの音源は共通する部分が残るよう切りつめられる。
【0051】
情報が失われない応用例では、先行するサンプルを挿入することにより一方の信号が補正される。例えば、x1を長さN1のオーディオ信号1のサンプルとし、x2を長さN2のオーディオ信号2のサンプルとする。またlpeakがM−Pのオーディオサンプルにおいて、S2に対する相対的なS1の補正を表す。オーディオ信号S1に対する相対的なオーディオ信号S2の補正D21は、サインの補正lpeakとM−Pからの生成物である。
【数3】
【0052】
もしD21がゼロなら、信号3と4のように、補正されないで出力される(図1B)。もしD21が正であれば、入力信号x1(n)は、先行するサンプルを挿入することで補正される。
【数4】
【0053】
信号x’1(n)とx2(n)は、信号3と4として出力される(図1B)。もしD21が負であれば、入力信号x2(n)は、先行するサンプルを挿入することで補正される。
【数5】
【0054】
〈計算の複雑さと精度〉
補正計算に必要なコンピュータの計算能力はサイン配列Q1とQ2に比例する。ここに記載された処理はある補正誤差を持つので、本発明による時間調整処理は、サインよりむしろオーディオ信号に直接作用する細かい分解能を持った従来からの処理によるだろう。例えば、時間調整されたオーディオ信号の一部を受け取り、この部分を正確なサンプル誤差又は細かい補正を決定するために、相互相関計算するであろう。サイン配列はサインの補正計算に用いられるので、時間調整方法の精度は、512個のサンプル数であるこの実施例では、サインを生成するオーディオブロックのサイズに制限される。言い換えれば、この方法は、サンプル補正において、プラスマイナスブロックサイズの約半分、この実施例では±256個のサンプル数の誤差を持つ。
【0055】
この誤差は、サインの分解能を上げることにより減少させることができる。しかし、精度と計算の複雑さとの間には二律背反の関係がある。補正誤差を少なくするためにはサイン配列において分解能を上げる必要があり(より多くの配列要素を必要とする)、このことは相互相関の計算において高い計算処理能力を必要とする。大きな補正誤差でよければ、サイン配列において分解能は粗くてよく(配列要素が少ない)、このことは相互相関の計算において低い計算処理能力でよいことになる。
【0056】
〈応用〉
透かしを入れるためには、しるしをつけた信号を作るために他の信号を付加することも含め、何らかのあらかじめ定められた方法によりサインを変更することにより、サインの中に情報を埋め込むことを必要とする。埋め込まれた情報の検出又は抽出は、透かしの入った信号と元の信号源との比較に頼ることになる。また、透かしの入った信号は、オーディオコーディングやスピーカー/マイクロフォンの音響機器への伝達を含む処理を受ける。本発明は、透かしの入った信号の元の信号源に対する時間調整の方法を提供し、埋め込まれた情報の抽出を容易にする。
【0057】
コード化された信号と元の信号源とを比較することにより、オーディオコーダーの質を決める主観的な方法及び客観的な方法においては、信号の劣化の程度を作成するためにコード化された信号を作り出していた(例えばITU−R5ポイント劣化評価)。比較は、コード化された信号と元の信号源との比較における時間調整に依存する。この方法は、音源とコード化された信号との時間調整の方法を提供する。
【0058】
本発明は、例えば、先に説明したような音声信号を映像信号のlip-syncingの改善など、他の応用も可能である。
【0059】
本発明及びその様々な特徴に基づく変更又は修正による他の実施形態は、当業者にとって明らかであり、本発明は具体的に記載された実施の形態に限定されないことは了解されるべきである。従って、あらゆる変更や修正又は本質的な思想とここに開示され、請求された原則的な基本原理と均等なものは本発明の範囲に含まれる。
【0060】
本発明とその種々の特徴は、ディジタル信号処理装置、プログラムされた汎用ディジタルコンピュータ及び/又は専用ディジタルコンピュータのソフトウエアの機能により実行することができる。アナログ信号とディジタル信号の流れは適当なハードウエアにより、及び/又はソフトウエア及び/又はファームウエアの機能として実行されよう。
【図面の簡単な説明】
【0061】
【図1】図1Aは、本発明による、オーディオ信号からサインを抽出する処理を示したフローチャートである。オーディオ信号は、たとえば音楽を表現するもの(例えば、音楽作品や歌)でもよい。図1Bは、本発明による、2つのオーディオ信号の時間調整処理を図示したフローチャートである。
【図2】図2は、本発明による、オーディオイベントの位置を抽出し、状況に応じて、オーディオ信号から優勢なサブ帯域を抽出することを図示したフローチャートである。
【図3】図3は、本発明よる、スペクトル分析のステップを表した概念図である。
【図4】図4Aと4Bは、本発明による、複数のオーディトリーイベントの位置又はオーディトリーイベントの境界を示した理想的なオーディオ波形である。
Claims (9)
- 1つの信号が別の信号から生成され、又は、2つの信号がもう1つ別の信号から生成されたオーディオ信号の時間調整方法であって、
前記オーディオ信号の、オーディトリーシーンアナリシスに基づく縮減された情報による特徴付けを生成し、
他の特徴付けに対する一方の特徴付けの時間補正を計算し、
前記時間補正に応答して、前記オーディオ信号が実質的に相互に同時性を持つように、相互に前記オーディオ信号の時間関係を修正することを含む、オーディオ信号の時間調整方法。 - 前記縮減された情報による特徴付けは前記オーディオ信号から生成され、前記計算と修正に先立ってこれらを生成し、当該オーディオ信号と共に実行される他の信号の各々に埋め込まれる、請求項1に記載の方法。
- 前記他の信号は、テレビジョン信号の映像部分であり、前記オーディオ信号は各テレビジョン信号の音声部分である、請求項2に記載の方法。
- 1つのオーディオ信号と他の1つの信号との時間調整方法であって、
オーディオ信号の、オーディトリーシーンアナリシスに基づく縮減された情報による特徴付けを生成し、当該オーディオ信号と他の信号が実質的に同期化されているとき当該信号に前記特徴付けを埋め込み、
前記他の信号から埋め込まれた前記オーディオ信号を再生し、前記オーディオ信号と前記他の信号とが時間差に対する補正を受けた後に、オーディトリーシーンアナリシスに基づいて当該オーディオ信号に埋め込まれた特徴付けが生成されたのと同じ方法で、前記オーディオ信号から前記オーディオ信号の縮減された情報による特徴付けを生成し、
他の特徴付けに対する1つの特徴付けの時間補正を計算し、
前記補正に応答して、当該オーディオ信号と他の信号とが実質的に相互に同期するように、他の信号に対する当該オーディオ信号との時間的関係を修正することを含む、時間調整方法。 - 前記他の信号がビデオ信号である請求項4に記載の方法。
- 当該時間補正の計算には前記特徴付けの相互相関計算を含む請求項1又は請求項4に記載の方法。
- オーディトリーシーンアナリシスにも続く前記縮減された情報による特徴付けは、少なくともオーディトリーイベント境界の位置を表現する情報の配列である請求項1乃至請求項6のいずれか1項に記載の方法
- 前記オーディトリーイベント境界は、
前記オーディオ信号の連続する時間区分のスペクトル内容を計算し、
前記オーディオ信号の連続する時間区分同士のスペクトル内容の違いを計算し、
連続する時間区分同士のスペクトル内容の違いが閾値を超えたとき、連続する時間区分間の境界をオーディトリーイベント境界と特定することで、決定される請求項7に記載の方法。 - 前記情報の配列は前記オーディトリーイベントの各々の優勢な周波数サブ帯域をも表現する、請求項7又は請求項8に記載の方法。
Applications Claiming Priority (9)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| US29382501P | 2001-05-25 | 2001-05-25 | |
| US60/293,825 | 2001-05-25 | ||
| US4564402A | 2002-01-11 | 2002-01-11 | |
| US10/045,644 | 2002-01-11 | ||
| US35149802P | 2002-01-23 | 2002-01-23 | |
| US60/351,498 | 2002-01-23 | ||
| USPCT/US02/04317 | 2002-02-12 | ||
| PCT/US2002/004317 WO2002084645A2 (en) | 2001-04-13 | 2002-02-12 | High quality time-scaling and pitch-scaling of audio signals |
| PCT/US2002/005806 WO2002097791A1 (en) | 2001-05-25 | 2002-02-25 | Method for time aligning audio signals using characterizations based on auditory events |
Publications (3)
| Publication Number | Publication Date |
|---|---|
| JP2004528600A true JP2004528600A (ja) | 2004-09-16 |
| JP2004528600A5 JP2004528600A5 (ja) | 2005-12-22 |
| JP4906230B2 JP4906230B2 (ja) | 2012-03-28 |
Family
ID=39362827
Family Applications (2)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2003500892A Expired - Fee Related JP4906230B2 (ja) | 2001-05-25 | 2002-02-25 | オーディトリーイベントに基づく特徴付けを使ったオーディオ信号の時間調整方法 |
| JP2003500893A Expired - Lifetime JP4763965B2 (ja) | 2001-05-25 | 2002-02-26 | オーディオ信号の聴覚的イベントへの分割 |
Family Applications After (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2003500893A Expired - Lifetime JP4763965B2 (ja) | 2001-05-25 | 2002-02-26 | オーディオ信号の聴覚的イベントへの分割 |
Country Status (10)
| Country | Link |
|---|---|
| EP (2) | EP1390942B1 (ja) |
| JP (2) | JP4906230B2 (ja) |
| KR (3) | KR100873396B1 (ja) |
| CN (2) | CN1272765C (ja) |
| AT (1) | ATE470927T1 (ja) |
| DE (1) | DE60236648D1 (ja) |
| DK (1) | DK1393300T3 (ja) |
| ES (1) | ES2400700T3 (ja) |
| MX (2) | MXPA03010751A (ja) |
| WO (1) | WO2002097791A1 (ja) |
Cited By (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2008281792A (ja) * | 2007-05-10 | 2008-11-20 | Casio Comput Co Ltd | コンテンツ再生方法、再生装置、及びプログラム |
| KR101453254B1 (ko) * | 2006-06-13 | 2014-10-21 | 코닌클리케 필립스 엔.브이. | 비디오를 식별하고 동기화하기 위한 핑거프린트, 장치 및 방법 |
| JP2015515818A (ja) * | 2012-04-05 | 2015-05-28 | トムソン ライセンシングThomson Licensing | マルチメディア・ストリームの同期 |
Families Citing this family (43)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US7610205B2 (en) | 2002-02-12 | 2009-10-27 | Dolby Laboratories Licensing Corporation | High quality time-scaling and pitch-scaling of audio signals |
| US7283954B2 (en) | 2001-04-13 | 2007-10-16 | Dolby Laboratories Licensing Corporation | Comparing audio using characterizations based on auditory events |
| US7711123B2 (en) | 2001-04-13 | 2010-05-04 | Dolby Laboratories Licensing Corporation | Segmenting audio signals into auditory events |
| US7461002B2 (en) | 2001-04-13 | 2008-12-02 | Dolby Laboratories Licensing Corporation | Method for time aligning audio signals using characterizations based on auditory events |
| DE60225130T2 (de) | 2001-05-10 | 2009-02-26 | Dolby Laboratories Licensing Corp., San Francisco | Verbesserung der transientenleistung bei kodierern mit niedriger bitrate durch unterdrückung des vorgeräusches |
| US7502743B2 (en) * | 2002-09-04 | 2009-03-10 | Microsoft Corporation | Multi-channel audio encoding and decoding with multi-channel transform selection |
| ATE475964T1 (de) | 2004-03-01 | 2010-08-15 | Dolby Lab Licensing Corp | Mehrkanal-audiodekodierung |
| US7508947B2 (en) | 2004-08-03 | 2009-03-24 | Dolby Laboratories Licensing Corporation | Method for combining audio signals using auditory scene analysis |
| EP1805918B1 (en) | 2004-09-27 | 2019-02-20 | Nielsen Media Research, Inc. | Methods and apparatus for using location information to manage spillover in an audience monitoring system |
| BRPI0611505A2 (pt) | 2005-06-03 | 2010-09-08 | Dolby Lab Licensing Corp | reconfiguração de canal com informação secundária |
| US7948557B2 (en) * | 2005-06-22 | 2011-05-24 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method for generating a control signal for a film event system |
| JP4940588B2 (ja) * | 2005-07-27 | 2012-05-30 | ソニー株式会社 | ビート抽出装置および方法、音楽同期画像表示装置および方法、テンポ値検出装置および方法、リズムトラッキング装置および方法、音楽同期表示装置および方法 |
| TWI396188B (zh) * | 2005-08-02 | 2013-05-11 | Dolby Lab Licensing Corp | 依聆聽事件之函數控制空間音訊編碼參數的技術 |
| US7539616B2 (en) * | 2006-02-20 | 2009-05-26 | Microsoft Corporation | Speaker authentication using adapted background models |
| CA2648237C (en) | 2006-04-27 | 2013-02-05 | Dolby Laboratories Licensing Corporation | Audio gain control using specific-loudness-based auditory event detection |
| GB2457694B (en) | 2008-02-21 | 2012-09-26 | Snell Ltd | Method of Deriving an Audio-Visual Signature |
| JP2010017216A (ja) * | 2008-07-08 | 2010-01-28 | Ge Medical Systems Global Technology Co Llc | 音声データ処理装置,音声データ処理方法、および、イメージング装置 |
| JP5439586B2 (ja) * | 2009-04-30 | 2014-03-12 | ドルビー ラボラトリーズ ライセンシング コーポレイション | 低複雑度の聴覚イベント境界検出 |
| US8855101B2 (en) | 2010-03-09 | 2014-10-07 | The Nielsen Company (Us), Llc | Methods, systems, and apparatus to synchronize actions of audio source monitors |
| CN102142257B (zh) * | 2010-12-28 | 2013-07-03 | 北大方正集团有限公司 | 一种音频信号处理方法及装置 |
| CN103548079B (zh) * | 2011-08-03 | 2015-09-30 | Nds有限公司 | 音频水印 |
| CN103180847B (zh) * | 2011-10-19 | 2016-03-02 | 华为技术有限公司 | 音乐查询方法和装置 |
| US9406303B2 (en) | 2011-11-18 | 2016-08-02 | Sirius Xm Radio Inc. | Systems and methods for implementing cross-fading, interstitials and other effects downstream |
| MX343807B (es) | 2012-03-06 | 2016-11-24 | Sirius Xm Radio Inc | Sistemas y métodos para el mapeo de atributos de audio. |
| CA2870884C (en) | 2012-04-17 | 2022-06-21 | Sirius Xm Radio Inc. | Systems and methods for implementing efficient cross-fading between compressed audio streams |
| US9596386B2 (en) | 2012-07-24 | 2017-03-14 | Oladas, Inc. | Media synchronization |
| US20140114456A1 (en) * | 2012-10-22 | 2014-04-24 | Arbitron Inc. | Methods and Systems for Clock Correction and/or Synchronization for Audio Media Measurement Systems |
| US9021516B2 (en) | 2013-03-01 | 2015-04-28 | The Nielsen Company (Us), Llc | Methods and systems for reducing spillover by measuring a crest factor |
| US9118960B2 (en) | 2013-03-08 | 2015-08-25 | The Nielsen Company (Us), Llc | Methods and systems for reducing spillover by detecting signal distortion |
| US9191704B2 (en) | 2013-03-14 | 2015-11-17 | The Nielsen Company (Us), Llc | Methods and systems for reducing crediting errors due to spillover using audio codes and/or signatures |
| EP2974253B1 (en) | 2013-03-15 | 2019-05-08 | Dolby Laboratories Licensing Corporation | Normalization of soundfield orientations based on auditory scene analysis |
| EP3100458B1 (en) | 2014-01-31 | 2018-08-15 | Thomson Licensing | Method and apparatus for synchronizing the playback of two electronic devices |
| CN104036794A (zh) * | 2014-06-27 | 2014-09-10 | 广东远峰汽车电子有限公司 | 可识别车载多媒体设备工作频道的加装设备、车载多媒体设备工作频道识别方法及装置 |
| US9924224B2 (en) | 2015-04-03 | 2018-03-20 | The Nielsen Company (Us), Llc | Methods and apparatus to determine a state of a media presentation device |
| US9848222B2 (en) | 2015-07-15 | 2017-12-19 | The Nielsen Company (Us), Llc | Methods and apparatus to detect spillover |
| US10394518B2 (en) * | 2016-03-10 | 2019-08-27 | Mediatek Inc. | Audio synchronization method and associated electronic device |
| CN109791773B (zh) * | 2016-11-04 | 2020-03-24 | 惠普发展公司,有限责任合伙企业 | 音频输出产生系统、音频通道输出方法和计算机可读介质 |
| GB2556058A (en) | 2016-11-16 | 2018-05-23 | Nokia Technologies Oy | Distributed audio capture and mixing controlling |
| WO2019088853A1 (en) * | 2017-11-03 | 2019-05-09 | Klaps Limited | Live audio replacement in a digital stream |
| CN110476960B (zh) * | 2019-09-19 | 2021-06-15 | 河北省农林科学院植物保护研究所 | 噻虫胺薄膜缓释型种子处理悬浮剂及其制备方法与应用 |
| CN111489759A (zh) * | 2020-03-23 | 2020-08-04 | 天津大学 | 基于光纤语音时域信号波形对齐的噪声评估方法 |
| CN112651429B (zh) * | 2020-12-09 | 2022-07-12 | 歌尔股份有限公司 | 一种音频信号时序对齐方法和装置 |
| US20250005778A1 (en) * | 2023-06-27 | 2025-01-02 | Sony Group Corporation | Fractal-geometry based fingerprint value determination from media content |
Citations (6)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH10171486A (ja) * | 1996-12-13 | 1998-06-26 | Korea Electron Telecommun | 動画像とテキスト/音声変換器間の同期化システム |
| JPH10229336A (ja) * | 1997-02-17 | 1998-08-25 | Nippon Telegr & Teleph Corp <Ntt> | 波形同期方法 |
| JPH11259066A (ja) * | 1998-03-09 | 1999-09-24 | Nippon Telegr & Teleph Corp <Ntt> | 音楽音響信号分離方法、その装置およびそのプログラム記録媒体 |
| JP2000181449A (ja) * | 1998-12-15 | 2000-06-30 | Sony Corp | 情報処理装置および方法、並びに提供媒体 |
| JP2001051689A (ja) * | 1999-07-02 | 2001-02-23 | Mitsubishi Electric Inf Technol Center America Inc | 信号の混合物からの特徴抽出方法およびその装置 |
| JP2001050779A (ja) * | 1999-08-17 | 2001-02-23 | Dainippon Printing Co Ltd | 信号監視用音楽演奏装置 |
Family Cites Families (8)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US4624009A (en) | 1980-05-02 | 1986-11-18 | Figgie International, Inc. | Signal pattern encoder and classifier |
| US5040081A (en) * | 1986-09-23 | 1991-08-13 | Mccutchen David | Audiovisual synchronization signal generator using audio signature comparison |
| US5055939A (en) | 1987-12-15 | 1991-10-08 | Karamon John J | Method system & apparatus for synchronizing an auxiliary sound source containing multiple language channels with motion picture film video tape or other picture source containing a sound track |
| WO1991019989A1 (en) * | 1990-06-21 | 1991-12-26 | Reynolds Software, Inc. | Method and apparatus for wave analysis and event recognition |
| US5175769A (en) * | 1991-07-23 | 1992-12-29 | Rolm Systems | Method for time-scale modification of signals |
| JPH05181464A (ja) * | 1991-12-27 | 1993-07-23 | Sony Corp | 楽音認識装置 |
| US6002776A (en) | 1995-09-18 | 1999-12-14 | Interval Research Corporation | Directional acoustic signal processor and method therefor |
| US6211919B1 (en) * | 1997-03-28 | 2001-04-03 | Tektronix, Inc. | Transparent embedment of data in a video signal |
-
2002
- 2002-02-12 MX MXPA03010751A patent/MXPA03010751A/es active IP Right Grant
- 2002-02-12 MX MXPA03010750A patent/MXPA03010750A/es active IP Right Grant
- 2002-02-22 CN CNB028106709A patent/CN1272765C/zh not_active Expired - Fee Related
- 2002-02-22 AT AT02706372T patent/ATE470927T1/de not_active IP Right Cessation
- 2002-02-22 KR KR1020037015333A patent/KR100873396B1/ko not_active Expired - Fee Related
- 2002-02-22 DE DE60236648T patent/DE60236648D1/de not_active Expired - Lifetime
- 2002-02-25 JP JP2003500892A patent/JP4906230B2/ja not_active Expired - Fee Related
- 2002-02-25 EP EP02707896A patent/EP1390942B1/en not_active Expired - Lifetime
- 2002-02-25 WO PCT/US2002/005806 patent/WO2002097791A1/en not_active Ceased
- 2002-02-25 CN CNB028106725A patent/CN1264137C/zh not_active Expired - Fee Related
- 2002-02-25 KR KR1020037015335A patent/KR100871607B1/ko not_active Expired - Fee Related
- 2002-02-26 DK DK02721201.8T patent/DK1393300T3/da active
- 2002-02-26 KR KR1020037015336A patent/KR100911679B1/ko not_active Expired - Lifetime
- 2002-02-26 JP JP2003500893A patent/JP4763965B2/ja not_active Expired - Lifetime
- 2002-02-26 ES ES02721201T patent/ES2400700T3/es not_active Expired - Lifetime
- 2002-02-26 EP EP12189110.5A patent/EP2549475B1/en not_active Expired - Lifetime
Patent Citations (6)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH10171486A (ja) * | 1996-12-13 | 1998-06-26 | Korea Electron Telecommun | 動画像とテキスト/音声変換器間の同期化システム |
| JPH10229336A (ja) * | 1997-02-17 | 1998-08-25 | Nippon Telegr & Teleph Corp <Ntt> | 波形同期方法 |
| JPH11259066A (ja) * | 1998-03-09 | 1999-09-24 | Nippon Telegr & Teleph Corp <Ntt> | 音楽音響信号分離方法、その装置およびそのプログラム記録媒体 |
| JP2000181449A (ja) * | 1998-12-15 | 2000-06-30 | Sony Corp | 情報処理装置および方法、並びに提供媒体 |
| JP2001051689A (ja) * | 1999-07-02 | 2001-02-23 | Mitsubishi Electric Inf Technol Center America Inc | 信号の混合物からの特徴抽出方法およびその装置 |
| JP2001050779A (ja) * | 1999-08-17 | 2001-02-23 | Dainippon Printing Co Ltd | 信号監視用音楽演奏装置 |
Cited By (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| KR101453254B1 (ko) * | 2006-06-13 | 2014-10-21 | 코닌클리케 필립스 엔.브이. | 비디오를 식별하고 동기화하기 위한 핑거프린트, 장치 및 방법 |
| JP2008281792A (ja) * | 2007-05-10 | 2008-11-20 | Casio Comput Co Ltd | コンテンツ再生方法、再生装置、及びプログラム |
| JP2015515818A (ja) * | 2012-04-05 | 2015-05-28 | トムソン ライセンシングThomson Licensing | マルチメディア・ストリームの同期 |
Also Published As
| Publication number | Publication date |
|---|---|
| CN1272765C (zh) | 2006-08-30 |
| HK1066087A1 (en) | 2005-03-11 |
| KR20040004647A (ko) | 2004-01-13 |
| JP2004528601A (ja) | 2004-09-16 |
| EP2549475B1 (en) | 2019-07-31 |
| MXPA03010751A (es) | 2005-03-07 |
| EP1390942B1 (en) | 2012-08-01 |
| DE60236648D1 (de) | 2010-07-22 |
| EP2549475A1 (en) | 2013-01-23 |
| ATE470927T1 (de) | 2010-06-15 |
| KR20040004646A (ko) | 2004-01-13 |
| KR100873396B1 (ko) | 2008-12-11 |
| CN1264137C (zh) | 2006-07-12 |
| HK1066902A1 (en) | 2005-04-01 |
| EP1390942A1 (en) | 2004-02-25 |
| JP4763965B2 (ja) | 2011-08-31 |
| CN1511311A (zh) | 2004-07-07 |
| CN1620684A (zh) | 2005-05-25 |
| KR100871607B1 (ko) | 2008-12-02 |
| DK1393300T3 (da) | 2013-03-18 |
| WO2002097791A1 (en) | 2002-12-05 |
| KR20040004648A (ko) | 2004-01-13 |
| MXPA03010750A (es) | 2004-07-01 |
| KR100911679B1 (ko) | 2009-08-10 |
| ES2400700T3 (es) | 2013-04-11 |
| JP4906230B2 (ja) | 2012-03-28 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP4906230B2 (ja) | オーディトリーイベントに基づく特徴付けを使ったオーディオ信号の時間調整方法 | |
| CA2448178C (en) | Method for time aligning audio signals using characterizations based on auditory events | |
| US7461002B2 (en) | Method for time aligning audio signals using characterizations based on auditory events | |
| US7283954B2 (en) | Comparing audio using characterizations based on auditory events | |
| US9165562B1 (en) | Processing audio signals with adaptive time or frequency resolution | |
| AU2002242265A1 (en) | Method for time aligning audio signals using characterizations based on auditory events | |
| AU2002240461A1 (en) | Comparing audio using characterizations based on auditory events | |
| KR100870870B1 (ko) | 오디오 신호의 고품질 타임 스케일링 및 피치 스케일링 | |
| HK1066087B (en) | Method for time aligning audio signals using characterizations based on auditory events | |
| HK1066902B (en) | Segmenting audio signals into auditory events |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20041206 |
|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20041206 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070807 |
|
| A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20071101 |
|
| A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20071108 |
|
| A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20090127 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090527 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20090525 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090723 |
|
| A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20090729 |
|
| A912 | Re-examination (zenchi) completed and case transferred to appeal board |
Free format text: JAPANESE INTERMEDIATE CODE: A912 Effective date: 20100319 |
|
| A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20100929 |
|
| A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20101005 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20101202 |
|
| A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20110802 |
|
| A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20110808 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20111201 |
|
| RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20111226 |
|
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120110 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150120 Year of fee payment: 3 |
|
| R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| LAPS | Cancellation because of no payment of annual fees |