JP2002169579A

JP2002169579A - オーディオ信号への付加データ埋め込み装置及びオーディオ信号からの付加データ再生装置

Info

Publication number: JP2002169579A
Application number: JP2000367429A
Authority: JP
Inventors: Takayuki Arai; 隆行荒井; Shino Sakaguchi; 志野阪口; Yuji Murahara; 雄二村原
Original assignee: Individual
Current assignee: Individual
Priority date: 2000-12-01
Filing date: 2000-12-01
Publication date: 2002-06-14

Abstract

(57)【要約】【課題】音声信号に対する加工処理に対して付加データ
が破壊されるおそれの少ない、オーディオ信号への付加
データ埋め込み装置を提供する。【解決手段】入力端子１１に入力されるオーディオ信号
の極性を反転させる極性反転部１３及びオーディオ信号
の音節境界を検出する境界検出部１４を有し、入力端子
１２に入力される付加データに応じて音節単位で極性が
反転されたオーディオ信号を出力端子１７から出力す
る。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、音声信号や楽音信
号などのオーディオ信号に対して付加データを埋め込む
装置及び付加データが埋め込まれたオーディオ信号から
付加データを再生する装置に関する。

【０００２】

【従来の技術】音声信号や楽音信号などのオーディオ信
号に対し、聴感上分からないように別のデータ（付加デ
ータ）を埋め込む方法として、聴覚マスキング特性を利
用する方法が提案されている。聴覚マスキング特性は、
レベルの高い成分に対して周波数または時間が近いレベ
ルの低い成分は聞き取りにくいという人間の聴覚の性質
である。

【０００３】従って、マスカーと呼ばれる前者の成分を
伝達しようとする主たるオーディオ信号とし、マスキー
と呼ばれる後者の成分に対して付加データを割り当てる
ことによって、オーディオ信号に付加データを埋め込む
ことができる。この方法によると、比較的高いビットレ
ートで付加データを埋め込むことが可能であり、データ
ハイディングや電子透かしなどへの応用が期待できる。

【０００４】

【発明が解決しようとする課題】聴覚マスキング特性を
利用してオーディオ信号に付加データを埋め込む方法で
は、オーディオ信号に対する加工処理によって付加デー
タが破壊されてしまうという問題がある。例えば、ＭＰ
３(MPEG-1 Audio Layer-III)に代表されるようなＭＰＥ
Ｇオーディオ、またはＡＴＲＡＣ(Adaptive Transform
Acoustic Coding)といった高品質・高能率のオーディオ
圧縮符号化技術では、聴覚マスキング特性を利用して圧
縮を行っている。従って、上述した手法で付加データが
埋め込まれたオーディオ信号に対して、このようなオー
ディオ圧縮符号化の処理を行うと、付加データは破壊さ
れてしまうことになる。

【０００５】また、聴覚マスキング特性を利用しない処
理、例えばＡ／Ｄ（アナログ−ディジタル変換）−Ｄ／
Ａ（ディジタル−アナログ変換）の処理を付加データが
埋め込まれたオーディオ信号に対して行った場合も、同
様に付加データが破壊される可能性がある。

【０００６】本発明は、オーディオ信号への加工処理に
よって付加データが破壊されるおそれの少ない、オーデ
ィオ信号への付加データ埋め込み装置及びオーディオ信
号からの付加データ再生装置を提供することを目的とす
る。

【０００７】

【課題を解決するための手段】上記の課題を解決するた
め、本発明では人間の聴覚はオーディオ信号の極性反転
に対して鈍感であるという性質を利用して、オーディオ
信号の極性反転の有無により付加データを埋め込み、ま
たオーディオ信号の極性反転を検出することによって、
埋め込まれた付加データを再生する。

【０００８】すなわち、本発明はオーディオ信号をその
所定単位毎に二値の付加データに応じて極性反転して出
力することにより、オーディオ信号に対して二値の付加
データを埋め込むことを基本的な特徴とする。オーディ
オ信号が音声信号の場合は、例えばオーディオ信号の音
節境界を検出し、その音節境界に基づきオーディオ信号
を音節単位毎に付加データに応じて極性反転して出力す
る。

【０００９】音節境界の検出は、例えば入力されるオー
ディオ信号をフレームに分割し、各フレームのオーディ
オ信号を線形予測分析して得られる残差信号の自己相関
をとって変形自己相関関数を求め、この変形自己相関関
数とオーディオ信号の各フレームの低周波エネルギーか
ら有声区間と非有声区間を判別し、オーディオ信号の非
有声区間と判別されたフレームのエネルギーから音節境
界を決定することにより行われる。

【００１０】また、本発明では上述のようにして所定単
位毎に二値の付加データに応じて極性反転されることで
付加データが埋め込まれたオーディオ信号の極性を所定
単位毎に判定することにより、埋め込まれた付加データ
を再生することを基本的な特徴とする。付加データが埋
め込まれたオーディオ信号が音声信号であって、そのオ
ーディオ信号が音節単位毎に付加データに応じて極性反
転されている場合は、オーディオ信号の音節境界を検出
し、その音節境界に基づきオーディオ信号の極性を音節
単位毎に判定することにより付加データを再生すること
ができる。

【００１１】ここで、音節境界の検出は付加データ埋め
込み時と同様に、入力されるオーディオ信号をフレーム
に分割し、各フレームのオーディオ信号を線形予測分析
して得られる残差信号の自己相関をとって変形自己相関
関数を求め、この変形自己相関関数とオーディオ信号の
各フレームの低周波エネルギーから有声区間と非有声区
間を判別し、オーディオ信号の非有声区間と判別された
フレームのエネルギーから音節境界を決定することによ
り行われる。付加データの再生は、決定された音節境界
で挟まれた音節毎に有声区間と判別されたフレームの残
差信号の極性の多数決をとることで、オーディオ信号の
極性を音節単位毎に判定することにより行われる。

【００１２】

【発明の実施の形態】以下、図面を参照して本発明の実
施の形態を説明する。図１は、本発明の一実施形態に係
るオーディオ信号への付加データ埋め込み装置の概略構
成を示している。図１において、入力端子１１にはディ
ジタル化された音声信号（言語音声）や楽音信号などの
オーディオ信号が入力され、もう一つの入力端子１２に
はオーディオ信号に埋め込むべき二値（バイナリ）の付
加データが入力される。

【００１３】入力端子１１からのオーディオ信号は、極
性反転部１３と境界検出部１４に入力される。極性反転
部１３は、入力されたオーディオ信号の極性を反転する
（振幅値に−１を乗じる）ものである。境界検出部１４
は、入力されたオーディオ信号の所定の境界を検出する
ものであり、具体的にはオーディオ信号が音声信号の場
合は、例えば後述するように音節境界を検出し、オーデ
ィオ信号が楽音信号の場合は、曲中の無音区間、曲間な
どを検出する。

【００１４】入力端子１２からの付加データは、データ
バッファ１５に一時保持される。データバッファ１５に
保持された付加データは、境界検出部１４で境界が検出
される毎に１ビットずつ読み出される。データバッファ
１５から読み出された付加データは、スイッチ１６に制
御信号として与えられる。

【００１５】スイッチ１６は、入力端子１１からのオー
ディオ信号と極性反転部１３からの極性反転されたオー
ディオ信号が入力として与えられており、境界検出部１
４で境界が検出される毎に、次に境界が検出されるまで
の期間、データバッファ１５から読み出された付加デー
タの各ビットの値に応じて切り替えられ、二つの入力の
いずれかのオーディオ信号を選択して出力端子１７へ出
力する。

【００１６】例えば、境界検出部１４で境界が検出され
たときに、データバッファ１５から読み出された付加デ
ータのビットが“１”の場合は、スイッチ１６では入力
端子１１からのオーディオ信号が選択される。データバ
ッファ１５から読み出された付加データのビットが
“０”の場合には、スイッチ１６では極性反転部１３で
極性反転されたオーディオ信号が選択される。

【００１７】スイッチ１６が切り替わるときの各境界で
の不連続の影響を最小限に抑えるために、例えばスイッ
チ１６が切り替わるとき、それまで選択していた信号の
レベルを徐々に減少させ、次に選択する信号のレベルを
徐々に増加させるようにしてもよい。これは具体的に
は、オーディオ信号の境界と境界で挟まれた区間の両端
の所定時間長（例えば、１〜１０ｍｓ程度）の区間で直
線的な立ち上がり及び立ち下がり特性を持つ台形窓をス
イッチ１６に適用することにより実現できる。

【００１８】また、図１では説明を分かりやすくするた
め、極性反転部１３とスイッチ１６に分けて説明した
が、スイッチ１６を省くと共に、極性反転部１３に利得
制御機能を持たせてもよい。その場合、データバッファ
１５から読み出された付加データに応じて極性反転部１
３における極性反転の有無を制御し、さらに極性反転の
開始時と終了時、つまりオーディオ信号の境界と境界で
挟まれた区間両端の所定時間長の区間で直線的な立ち上
がり及び立ち下がり特性を持つように利得を制御するよ
うな構成とすればよい。

【００１９】このようにして出力端子１７からは、付加
データの各ビットの値に応じて境界と境界で挟まれた素
片（例えば、音節）単位で付加データに応じて極性反転
されたオーディオ信号が出力される。すなわち、付加デ
ータの“０”のビットに対応する素片の波形は極性反転
されず、付加データの“１”のビットに対応する素片の
波形は極性反転されることによって、付加データが素片
波形の極性反転の有無としてオーディオ信号（音声信
号）に埋め込まれる。

【００２０】こうして素片波形の極性反転の有無として
付加データが埋め込まれたオーディオ信号は、人間の聴
覚特性上特に大きな品質劣化はなく、さらに聴覚マスキ
ング特性を利用した手法に比較して、オーディオ信号に
対する圧縮符号化やＡ／Ｄ−Ｄ／Ａといった種々の加工
処理によって、埋め込まれた付加データが破壊されて再
生不能になってしまう可能性は非常に少ない。

【００２１】図２は、この様子を入力のオーディオ信号
が音声信号の場合について示した図であり、（ａ）は元
の音声信号波形、（ｂ）は付加データに応じて音節単位
で極性反転された音声信号波形をそれぞれ示している。
図２（ｂ）においては、矢印を付した音節波形が極性反
転している。入力されるオーディオ信号が楽音信号の場
合は、例えば曲毎、あるいは曲中の無音区間と無音区間
の間に挟まれた区間毎に付加データに応じて極性反転さ
れることにより、同様に極性反転の有無としてオーディ
オ信号に埋め込まれる。

【００２２】図３に、本発明の一実施形態に係るオーデ
ィオ信号からの付加データ再生装置の概略構成を示す。
この付加データ再生装置は図１の付加データ埋め込み装
置に対応しており、入力端子２１には付加データが極性
反転の有無として埋め込まれたオーディオ信号が入力さ
れる。

【００２３】入力端子２１からの付加データが埋め込ま
れたオーディオ信号は、極性判定部２２及び境界検出部
２３に入力される。境界検出部２３は、図１中の境界検
出部１４と同様に入力されたオーディオ信号の境界を検
出するものであり、オーディオ信号が音声信号の場合
は、例えば後述するように音節境界を検出し、オーディ
オ信号が楽音信号の場合は、曲中の無音区間、曲間など
を検出する。極性判定部２２では、境界検出部２３によ
って境界が検出される毎に入力されたオーディオ信号の
極性判定を行い、その極性の判定結果を再生された付加
データとして出力端子２５へ出力する。また、入力端子
２１からのオーディオ信号は出力端子２４にも導かれ
る。

【００２４】次に、オーディオ信号が音声信号の場合に
ついてさらに具体的に説明する。前述したように本発明
では、オーディオ信号をある境界と境界とで挟まれた素
片に分割し、その各素片に対して付加データの１ビット
を割り当て、割り当てたビットに応じて各素片の極性を
反転させたり反転させなかったりすることで付加データ
を埋め込む。ここで、オーディオ信号の素片の長さを決
める際には、１）素片の両端では波形の振幅が十分に小
さいこと、２）素片の長さが十分に長いこと、の二つの
条件を満たすことが望ましい。

【００２５】１）の条件は、極性反転した際の波形の不
連続を小さくするために望まれる。音声信号の場合、極
性反転は無音区間や非有声閉鎖子音の閉鎖区間などで行
うのが理想的であるが、母音に比べれば子音の振幅は相
対的に小さいので、子音の最中に極性を反転することも
考えられる。

【００２６】２）の条件に関しては、トレードオフが存
在する。すなわち、素片の長さは極性を判定できる程度
に十分に長いことが望まれる一方で、埋め込む付加デー
タのビットレートをできるだけ最大化するためには、で
きるだけ短い方がよい。例えば、素片として文を用いた
場合、文には極性を推定するに十分な母音が含まれるこ
とになるので、確実に付加データ１ビットを埋め込むこ
とが可能となるが、ビットレートはかなり低下してしま
う。これに対して、音節は極性判定のし易さと付加デー
タのビットレートの両方の面で、極性反転を行う素片単
位として最も効率がよい。

【００２７】通常の音節は、核、開始部及び末尾からな
り、開始部や末尾では波形のパワーは通常、小さい。こ
れは上記１）の条件を満たしている。また、音節は母音
の定常部において極性を推定するという意味でも最適な
長さである。例えば、米国英語における音節の持続時間
は２００〜２５０ｍｓであり、また母音の持続時間は約
１００ｍｓである。

【００２８】そこで、本実施形態では対象とするオーデ
ィオ信号が音声信号の場合、図１における境界検出部１
４及び図３における境界検出部２３において、音節境界
を検出する。音節境界を自動的に検出するアルゴリズム
の公知例として、S. Wu, M.L. Shire, S. Greenberg an
d N. Morgan,“Integrating Syllable Boundary Inform
ation into Speech Recognition,”Proc. ICASSP(IEE
E), 1997と題した論文に、サブバンド・エネルギ軌跡に
基づいた音節開始部の自動検出アルゴリズムが記載され
ている。これに対して、本実施形態ではフルバンド・エ
ネルギ軌跡と変形自己相関関数による有声化検出とを併
用した方法を用いることで、二つの連続する音節境界間
に有声区間（特に、母音）が必ず存在するようにした。

【００２９】図４は、図１における境界検出部１４及び
図３における境界検出部２３として用いられる音節境界
部の構成を示している。入力端子１１からの音声信号
は、まずフレーム分割部３１に入力され、所定のフレー
ム長のフレームに分割された後、窓掛け処理部３２によ
って窓掛け処理が行われる。

【００３０】入力された音声信号が１６ｋＨｚサンプリ
ングのディジタル音声信号の場合、フレーム分割は例え
ばフレーム長：２５６点＝１６ｍｓ、フレーム周期：１
２８点＝８ｍｓで、すなわち連続するフレームが時間的
に５０％（１２８点）だけオーバラップするように行わ
れる。ここで、フレーム周期は、隣接するフレーム間の
ずれ幅である。また、窓掛け処理部３２ではフレーム長
と同じ窓掛け長で、例えばハミング窓により窓掛け処理
が行われる。窓掛け処理後の各フレームの音声信号は、
線形予測（ＬＰＣ：Linear Predictive Coding）分析部
３３に入力される。ＬＰＣ分析部３３における分析次数
は、例えば１６次である。

【００３１】ＬＰＣ分析部３３によって得られたＬＰＣ
係数をフィルタ係数とする逆フィルタ３４が構成され、
この逆フィルタ３４によってフレーム分割部３１からの
各フレームの音声信号についてＬＰＣの予測誤差である
残差信号が求められる。残差信号は自己相関演算部３５
に入力され、その自己相関関数（これを変形自己相関関
数という）が求められる。図５はこの様子を示す図であ
り、（ａ）はある典型的な音声信号の母音波形、（ｂ）
は線形予測分析による残差信号、（ｃ）は変形自己相関
関数をそれぞれ示している。

【００３２】変形自己相関関数は、有声／非有声判別部
３６に入力される。有声／非有声判別部３６には、さら
に低周波エネルギー算出部３７によって求められた低周
波エネルギーが入力される。低周波エネルギー算出部３
７では、フレーム分割部３１からの各フレームの音声信
号のうち、例えば１ｋＨｚ以下の低周波成分のエネルギ
ー（これをフレーム内低周波エネルギーという）が算出
される。

【００３３】有声／非有声判別部３６では、変形自己相
関関数とフレーム内低周波エネルギーから、各フレーム
が有声区間か非有声区間かの判別が行われる。具体的に
は、変形自己相関関数を正規化したとき、例えばラグが
０．２ｍｓ以上のところにピーク値が０．２以上の正規
化ピークが存在し、かつ、フレーム内低周波エネルギー
がある区間全体の平均的な低周波エネルギーよりも大き
いとき有声区間と決定され、それ以外の区間は非有声区
間と決定される。

【００３４】有声／非有声判別部３６の判別結果は、フ
レーム内エネルギー算出部３８によりフレーム分割部３
１からの各フレームの音声信号について求められたフレ
ーム内エネルギーと共に、音節境界決定部３９に入力さ
れる。音節境界決定部３９では、基本的には有声区間と
有声区間とで挟まれた連続した非有声区間毎に、フレー
ム内エネルギーが最小となる点が音節境界として決定さ
れる。

【００３５】より詳しくは、ある非有声区間でフレーム
内エネルギーが最小（Ｅmin）のフレームを見出し、そ
のフレーム内エネルギーＥminが所定のしきい値Ｅth以
下で、かつ直前の音節境界からの時間差Δｔが１００ｍ
ｓ以上、好ましくは２００ｍｓ以上の点が音節境界とし
て決定される。図６は、音声信号のうちの母音波形につ
いて有声／非有声判別部３６で求められた有声区間（矩
形で示す）と、音節境界決定部３９で求められた音節境
界（丸印で示す）の例を示している。

【００３６】次に、図２における極性判定部２２につい
て具体例について説明する。音声信号のパワーの源は、
ほとんどの言語で呼吸器系であり、肺から空気が吐き出
される。肺からの空気は気管を通って、咽頭で声帯の間
を通過する。音声は通常、息を吐くときに発声されるの
で、発声時の声門気流は単一方向であり、その結果、音
声信号波形の極性は常に一定となる。

【００３７】音声信号波形の極性を測定する一つの方法
は、音声信号の声門気流を線形予測（ＬＰＣ：Linear P
redictive Coding）分析などの逆フィルタ法を用いて推
定する方法である。言語音は、一般的に有声音と非有声
音からなっており、複数の音源を入力とするときの声道
フィルタシステムからの応答として有声音と非有声音は
モデル化される。

【００３８】線形予測分析では、有声音の音源は準周期
的なパルス、非有声音の音源はランダム雑音と仮定され
る。有声音に対する線形予測分析での残差信号はインパ
ルス的になるので、図５（ａ）に示した元の音声信号波
形の極性を調べるよりは、図５（ｂ）に示したような線
形予測分析による残差信号のパルスの方向を調べること
によって、音源の方向性、すなわち元の音声信号波形の
極性を調べることができることが分かる。この図の例で
は、残差信号のパルスの方向は上向きとなっており、音
声信号波形の極性は正極性である。種々の条件、例えば
息を吐くときに発声するとか、録音する際の機器の極性
が時間と共に変わらないといった条件が変わらない限
り、母音の種類が変わっても音声信号波形の極性は一定
である。以上の点を踏まえて、極性判定部２２について
説明する。

【００３９】図７は、入力されるオーディオ信号が音声
信号の場合における図３の極性判定部２２と境界検出部
２３の構成を合わせて示すブロック図である。入力端子
２１には、図１に示した付加データ埋め込み装置によっ
て付加データが埋め込まれたオーディオ信号（音声信
号）が入力される。

【００４０】図７において、フレーム分割部３１、窓掛
け処理部３２、ＬＰＣ分析部３３、逆フィルタ３４、自
己相関演算部３５、有声／非有声判別部３６、低周波エ
ネルギー算出部３７、フレーム内エネルギー算出部３８
及び音節境界決定部３９については図４と同様であり、
図７はさらに極性計算部４１が追加された構成となって
いる。図３との対応を示すと、フレーム分割部３１、窓
掛け処理部３２、ＬＰＣ分析部３３、逆フィルタ３４、
自己相関演算部３５、有声／非有声判別部３６、低周波
エネルギー算出部３７、フレーム内エネルギー算出部３
８及び音節境界決定部３９は、図３の極性判定部２２と
境界検出部２３で共有され、これに極性計算部４１がさ
らに組み合わされることにより、極性判定部２２が構成
されている。

【００４１】極性計算部４１においては、逆フィルタ３
４からの残差信号と有声／非有声判別部３６の判別結果
及び音節境界決定部３９により決定された音節境界が入
力されることにより、有声区間の残差信号から音節境界
と音節境界とで挟まれた音節単位で音声信号波形の極性
が計算により求められる。具体的には、極性計算部４１
では各音節内の有声区間のフレーム毎に残差信号パルス
の極性の多数決がとられることにより、各音節の音声信
号波形の極性が判別される。すなわち、各音節内の有声
区間で極性が反転していると推定されたフレームと非反
転と推定されたフレームとの間で多数決がとられる。

【００４２】入力端子２１には、音節単位で付加データ
に応じて極性反転されることにより付加データが埋め込
まれた音声信号が入力されるので、極性計算部４１で得
られた極性判別結果は付加データを表しており、これが
再生された付加データとして出力端子２５から出力され
る。

【００４３】オーディオ信号へのデータハイディングや
電子透かしの過程において、オーディオ信号の品質が劣
化しないようにすることは重要である。この要求に対し
て、本発明では人間の聴覚はオーディオ信号の極性反転
に対して鈍感であるという性質を利用している。この点
を確認するため、発明者らは元の音声信号と、音節単位
の極性反転の有無による付加データの埋め込み後の音声
信号との弁別実験を複数の被験者に対して試みた。以下
の実験では、音節境界の検出は手動で行った。

【００４４】音声信号としては、ＴＩＭＩＴデータベー
スの２０文を用いた。被験者は２０人の日本語母語話者
であり、いずれも健聴者であった。実験では、ＡＢＸ弁
別法（ＸはＡかＢのいずれか）を用いた。Ａが元の音声
信号で、かつＢが極性反転信号、またはその逆のいずれ
かである。刺激の順番は、被験者毎にランダムに並べ替
えた。実験は簡易防音室でＰＣ（パーソナルコンピュー
タ）を用いて行われ、被験者はヘッドフォン（Sennheis
er社製、ＨＤ６００）を介して刺激音を聞き、ＰＣの
画面上の指示に従って回答した。各被験者は同じ刺激を
最大１０回まで聞くことができた。Ｘが元の音声信号で
ある場合とＸが極性反転信号である場合の正答率は５０
％、すなわち同じ音声信号に対して元の音声信号と回答
する人の割合と極性判定された音声信号と回答する人の
割合が等しいことが理想である。

【００４５】この弁別実験の結果、Ｘが元の音声信号で
ある場合とＸが極性反転信号である場合の正答率の平均
は５１．３％であり、本発明の手法による付加データの
埋め込み後の音声信号は、元の音声信号と識別できず、
付加データの埋め込みが信号品質にほとんど影響を与え
ないことが確認された。

【００４６】一方、音節境界の検出を図４に示したよう
な構成で自動的に行った場合について同様の弁別実験を
行ったところ、Ｘが元の音声信号である場合と、Ｘが極
性反転信号である場合の正答率の平均は５３．０％であ
った。この結果から、自動的に検出された音節境界に対
しても、人間の聴覚は元の音声信号と極性反転後の音声
信号を弁別できないことが分かった。

【００４７】次に、上記のようにして音声信号に埋め込
まれた付加データを図７に示すような構成で自動的に抽
出して再生することを試みた。この付加データ自動抽出
アルゴリズムは、前述したＬＰＣ分析に基づくものであ
り、まず音節境界を検出し、各音声フレームに対して音
節境界間（音節単位）で正負の極性に対する多数決を求
め、多い方の極性をその音節の極性とした。

【００４８】付加データとしては、幾つかのバイナリデ
ータ列を用い、ＴＩＭＩＴデータベースの２０文に埋め
込んだ。その際、平均ビット長は１文当たり７．６ビッ
トであった。次に、埋め込まれた付加データであるバイ
ナリデータ列を抽出して再生し、埋め込む前の元の付加
データと比較したところ、９６．７８％の確率で正しく
再生された（１５２ビット中、５つの誤り）。誤りの内
訳は、自動音節境界検出における誤り２つと、自動極性
判定による誤り３つである。これらの検出や判定の精度
を高めることで、さらに誤りを低減することができる。

【００４９】上記実施形態では、音声信号の音節境界を
検出して音節境界間、すなわち音節単位で付加データに
応じて音声信号の極性反転を行う例について述べたが、
付加データに基づく極性反転の単位は音節単位に限られ
ないことはいうまでもなく、例えば付加データのビット
レートが小さくてもよい場合は、単語・語句・文といっ
た単位であってもよい。

【００５０】また、音声信号の極性反転させる単位の境
界として、音声信号の零クロス点を用いてもよい。零ク
ロス点で音声信号の極性を反転させた場合、若干の信号
品質劣化はあるが、振幅の大きなところで極性反転させ
る場合に比較して大きなノイズの発生はなく、品質をさ
ほど問題としない用途には使用できる。

【００５１】さらに、対象とするオーディオ信号は楽音
信号であってもよいことは前述した通りであり、その場
合は曲の無音区間、曲間などを境界として付加データに
応じた極性反転を行うようにすればよい。

【００５２】上述した本発明に基づくオーディオ信号へ
の付加データ埋め込み及びオーディオ信号からの付加デ
ータ再生の処理は、ＤＳＰ（ディジタル信号プロセッ
サ）のようなハードウェアで実現可能であるが、パーソ
ナルコンピュータのようなコンピュータを用いてソフト
ウェアにより実行することも可能である。従って、本発
明によれば以下に挙げるようなプログラム、あるいは当
該プログラムを格納したコンピュータ読み取り可能な記
録媒体を提供することができる。

【００５３】（１）オーディオ信号に対して二値の付加
データを埋め込む処理をコンピュータに実行させるため
のプログラム、あるいは当該プログラムを格納したコン
ピュータ読み取り可能な記録媒体であって、前記オーデ
ィオ信号を該オーディオ信号の所定単位毎に前記付加デ
ータに応じて極性反転して出力する処理をコンピュータ
に実行させるためのプログラム、あるいは当該プログラ
ムを格納したコンピュータ読み取り可能な記録媒体。

【００５４】（２）オーディオ信号に対して二値の付加
データを埋め込む処理をコンピュータに実行させるため
のプログラム、あるいは当該プログラムを格納したコン
ピュータ読み取り可能な記録媒体であって、前記オーデ
ィオ信号の音節境界を検出する処理と、検出された音節
境界に基づき前記オーディオ信号を音節単位毎に前記付
加データに応じて極性反転して出力する処理をコンピュ
ータに実行させるためのプログラム、あるいは当該プロ
グラムを格納したコンピュータ読み取り可能な記録媒
体。

【００５５】（３）上記（２）において、前記音節境界
を検出する処理は、入力されるオーディオ信号をフレー
ムに分割する処理と、分割された各フレームのオーディ
オ信号を線形予測分析する処理と、該線形予測分析にお
ける残差信号の自己相関をとって変形自己相関関数を求
める処理と、前記変形自己相関関数と前記オーディオ信
号の各フレームの低周波エネルギーから有声区間と非有
声区間を判別する処理と、前記オーディオ信号の非有声
区間と判別されたフレームのエネルギーから音節境界を
決定する処理とを有する。

【００５６】（４）所定単位毎に二値の付加データに応
じて極性反転されることにより該付加データが埋め込ま
れたオーディオ信号から該付加データを再生する処理を
コンピュータに実行させるためのプログラム、あるいは
当該プログラムを格納したコンピュータ読み取り可能な
記録媒体であって、前記オーディオ信号の極性を所定単
位毎に判定することにより前記付加データを再生する処
理をコンピュータに実行させるためのプログラム、ある
いは当該プログラムを格納したコンピュータ読み取り可
能な記録媒体。

【００５７】（５）所定単位毎に二値の付加データに応
じて極性反転されることにより該付加データが埋め込ま
れたオーディオ信号から該付加データを再生する処理を
コンピュータに実行させるためのプログラム、あるいは
当該プログラムを格納したコンピュータ読み取り可能な
記録媒体であって、前記オーディオ信号の音節境界を検
出する処理と、検出された音節境界に基づき前記オーデ
ィオ信号の極性を音節単位毎に判定することにより前記
付加データを再生する処理とをコンピュータに実行させ
るためのプログラム、あるいは当該プログラムを格納し
たコンピュータ読み取り可能な記録媒体。

【００５８】（６）上記（５）において、前記音節境界
を検出する処理は、入力されるオーディオ信号をフレー
ムに分割する処理と、分割された各フレームのオーディ
オ信号を線形予測分析する処理と、該線形予測分析にお
ける残差信号の自己相関をとって変形自己相関関数を求
める処理と、前記変形自己相関関数と前記オーディオ信
号の各フレームの低周波エネルギーから有声区間と非有
声区間を判別する処理と、前記オーディオ信号の前記非
有声区間と判別されたフレームのエネルギーから音節境
界を決定する処理とを有し、前記付加データを再生する
処理は、前記決定された音節境界により挟まれた音節毎
に前記有声区間と判別されたフレームの残差信号の極性
の多数決をとることにより前記オーディオ信号の極性を
音節単位毎に判定する処理を有する。

【００５９】さらに、本発明によると上述したオーディ
オ信号への付加データ埋め込み処理及びオーディオ信号
からの付加データ再生処理の両方の機能を有する装置、
及びプログラムあるいは記録媒体を提供することもでき
る。

【００６０】

【発明の効果】以上説明したように、本発明によればオ
ーディオ信号への加工処理によって付加データが破壊さ
れるおそれの少ないオーディオ信号への付加データの埋
め込み及びオーディオ信号からの付加データの再生を行
うことが可能となる。

【図面の簡単な説明】

【図１】本発明の一実施形態に係るオーディオ信号への
付加データ埋め込み装置の構成を示すブロック図

【図２】音声信号の極性反転前及び極性反転後の波形を
示す図

【図３】同実施形態に係るオーディオ信号からの付加デ
ータ再生装置の構成を示すブロック図

【図４】同実施形態における境界検出部の構成を示すブ
ロック図

【図５】音声信号の母音波形と残差信号及び変形自己相
関関数の例を示す図

【図６】音声信号の母音波形と有声区間及び音節境界の
例を示す図

【図７】同実施形態における極性判定部の構成を境界検
出部と共に示すブロック図

【符号の説明】

１１…オーディオ信号入力端子１２…付加データ入力端子１３…極性反転部１４…境界検出部１５…データバッファ１６…スイッチ１７…オーディオ信号出力端子２１…オーディオ信号入力端子２２…極性判定部２３…境界検出部２４…オーディオ信号出力端子２５…付加データ出力端子３１…フレーム分割部３２…窓掛け処理部３３…線形予測分析部３４…逆フィルタ３５…自己相関関数演算部３６…有声／非有声判別部３７…低周波エネルギー算出部３８…フレーム内エネルギー算出部３９…音節境界決定部４１…極性計算部

Claims

【特許請求の範囲】

【請求項１】オーディオ信号に対して二値の付加データ
を埋め込む装置において、前記オーディオ信号を該オーディオ信号の所定単位毎に
前記付加データに応じて極性反転して出力することを特
徴とするオーディオ信号への付加データ埋め込み装置。
【請求項２】オーディオ信号に対して二値の付加データ
を埋め込む装置において、前記オーディオ信号の音節境界を検出する手段と、検出された音節境界に基づき前記オーディオ信号を音節
単位毎に前記付加データに応じて極性反転して出力する
手段とを備えたことを特徴とするオーディオ信号に対す
るオーディオ信号への付加データ埋め込み装置。
【請求項３】前記音節境界を検出する手段は、入力されるオーディオ信号をフレームに分割する手段
と、分割された各フレームのオーディオ信号を線形予測
分析する手段と、該線形予測分析における残差信号の自
己相関をとって変形自己相関関数を求める手段と、前記
変形自己相関関数と前記オーディオ信号の各フレームの
低周波エネルギーから有声区間と非有声区間を判別する
手段と、前記オーディオ信号の非有声区間と判別された
フレームのエネルギーから音節境界を決定する手段とを
有することを特徴とする請求項２記載のオーディオ信号
への付加データ埋め込み装置。
【請求項４】所定単位毎に二値の付加データに応じて極
性反転されることにより該付加データが埋め込まれたオ
ーディオ信号から該付加データを再生する装置におい
て、前記オーディオ信号の極性を所定単位毎に判定すること
により前記付加データを再生することを特徴とするオー
ディオ信号からの付加データ再生装置。
【請求項５】所定単位毎に二値の付加データに応じて極
性反転されることにより該付加データが埋め込まれたオ
ーディオ信号から該付加データを再生する装置におい
て、前記オーディオ信号の音節境界を検出する手段と、検出された音節境界に基づき前記オーディオ信号の極性
を音節単位毎に判定することにより前記付加データを再
生する手段とを備えたことを特徴とするオーディオ信号
からの付加データ再生装置。
【請求項６】前記音節境界を検出する手段は、入力されるオーディオ信号をフレームに分割する手段
と、分割された各フレームのオーディオ信号を線形予測
分析する手段と、該線形予測分析における残差信号の自
己相関をとって変形自己相関関数を求める手段と、前記
変形自己相関関数と前記オーディオ信号の各フレームの
低周波エネルギーから有声区間と非有声区間を判別する
手段と、前記オーディオ信号の非有声区間と判別された
フレームのエネルギーから音節境界を決定する手段とを
有し、前記付加データを再生する手段は、前記決定された音節
境界により挟まれた音節毎に前記有声区間と判別された
フレームの残差信号の極性の多数決をとることにより前
記オーディオ信号の極性を音節単位毎に判定することを
特徴とする請求項５記載のオーディオ信号からの付加デ
ータ再生装置。