[go: up one dir, main page]

JP2002169579A - オーディオ信号への付加データ埋め込み装置及びオーディオ信号からの付加データ再生装置 - Google Patents

オーディオ信号への付加データ埋め込み装置及びオーディオ信号からの付加データ再生装置

Info

Publication number
JP2002169579A
JP2002169579A JP2000367429A JP2000367429A JP2002169579A JP 2002169579 A JP2002169579 A JP 2002169579A JP 2000367429 A JP2000367429 A JP 2000367429A JP 2000367429 A JP2000367429 A JP 2000367429A JP 2002169579 A JP2002169579 A JP 2002169579A
Authority
JP
Japan
Prior art keywords
audio signal
additional data
polarity
syllable
signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2000367429A
Other languages
English (en)
Inventor
Takayuki Arai
隆行 荒井
Shino Sakaguchi
志野 阪口
Yuji Murahara
雄二 村原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to JP2000367429A priority Critical patent/JP2002169579A/ja
Publication of JP2002169579A publication Critical patent/JP2002169579A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

(57)【要約】 【課題】音声信号に対する加工処理に対して付加データ
が破壊されるおそれの少ない、オーディオ信号への付加
データ埋め込み装置を提供する。 【解決手段】入力端子11に入力されるオーディオ信号
の極性を反転させる極性反転部13及びオーディオ信号
の音節境界を検出する境界検出部14を有し、入力端子
12に入力される付加データに応じて音節単位で極性が
反転されたオーディオ信号を出力端子17から出力す
る。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、音声信号や楽音信
号などのオーディオ信号に対して付加データを埋め込む
装置及び付加データが埋め込まれたオーディオ信号から
付加データを再生する装置に関する。
【0002】
【従来の技術】音声信号や楽音信号などのオーディオ信
号に対し、聴感上分からないように別のデータ(付加デ
ータ)を埋め込む方法として、聴覚マスキング特性を利
用する方法が提案されている。聴覚マスキング特性は、
レベルの高い成分に対して周波数または時間が近いレベ
ルの低い成分は聞き取りにくいという人間の聴覚の性質
である。
【0003】従って、マスカーと呼ばれる前者の成分を
伝達しようとする主たるオーディオ信号とし、マスキー
と呼ばれる後者の成分に対して付加データを割り当てる
ことによって、オーディオ信号に付加データを埋め込む
ことができる。この方法によると、比較的高いビットレ
ートで付加データを埋め込むことが可能であり、データ
ハイディングや電子透かしなどへの応用が期待できる。
【0004】
【発明が解決しようとする課題】聴覚マスキング特性を
利用してオーディオ信号に付加データを埋め込む方法で
は、オーディオ信号に対する加工処理によって付加デー
タが破壊されてしまうという問題がある。例えば、MP
3(MPEG-1 Audio Layer-III)に代表されるようなMPE
Gオーディオ、またはATRAC(Adaptive Transform
Acoustic Coding)といった高品質・高能率のオーディオ
圧縮符号化技術では、聴覚マスキング特性を利用して圧
縮を行っている。従って、上述した手法で付加データが
埋め込まれたオーディオ信号に対して、このようなオー
ディオ圧縮符号化の処理を行うと、付加データは破壊さ
れてしまうことになる。
【0005】また、聴覚マスキング特性を利用しない処
理、例えばA/D(アナログ−ディジタル変換)−D/
A(ディジタル−アナログ変換)の処理を付加データが
埋め込まれたオーディオ信号に対して行った場合も、同
様に付加データが破壊される可能性がある。
【0006】本発明は、オーディオ信号への加工処理に
よって付加データが破壊されるおそれの少ない、オーデ
ィオ信号への付加データ埋め込み装置及びオーディオ信
号からの付加データ再生装置を提供することを目的とす
る。
【0007】
【課題を解決するための手段】上記の課題を解決するた
め、本発明では人間の聴覚はオーディオ信号の極性反転
に対して鈍感であるという性質を利用して、オーディオ
信号の極性反転の有無により付加データを埋め込み、ま
たオーディオ信号の極性反転を検出することによって、
埋め込まれた付加データを再生する。
【0008】すなわち、本発明はオーディオ信号をその
所定単位毎に二値の付加データに応じて極性反転して出
力することにより、オーディオ信号に対して二値の付加
データを埋め込むことを基本的な特徴とする。オーディ
オ信号が音声信号の場合は、例えばオーディオ信号の音
節境界を検出し、その音節境界に基づきオーディオ信号
を音節単位毎に付加データに応じて極性反転して出力す
る。
【0009】音節境界の検出は、例えば入力されるオー
ディオ信号をフレームに分割し、各フレームのオーディ
オ信号を線形予測分析して得られる残差信号の自己相関
をとって変形自己相関関数を求め、この変形自己相関関
数とオーディオ信号の各フレームの低周波エネルギーか
ら有声区間と非有声区間を判別し、オーディオ信号の非
有声区間と判別されたフレームのエネルギーから音節境
界を決定することにより行われる。
【0010】また、本発明では上述のようにして所定単
位毎に二値の付加データに応じて極性反転されることで
付加データが埋め込まれたオーディオ信号の極性を所定
単位毎に判定することにより、埋め込まれた付加データ
を再生することを基本的な特徴とする。付加データが埋
め込まれたオーディオ信号が音声信号であって、そのオ
ーディオ信号が音節単位毎に付加データに応じて極性反
転されている場合は、オーディオ信号の音節境界を検出
し、その音節境界に基づきオーディオ信号の極性を音節
単位毎に判定することにより付加データを再生すること
ができる。
【0011】ここで、音節境界の検出は付加データ埋め
込み時と同様に、入力されるオーディオ信号をフレーム
に分割し、各フレームのオーディオ信号を線形予測分析
して得られる残差信号の自己相関をとって変形自己相関
関数を求め、この変形自己相関関数とオーディオ信号の
各フレームの低周波エネルギーから有声区間と非有声区
間を判別し、オーディオ信号の非有声区間と判別された
フレームのエネルギーから音節境界を決定することによ
り行われる。付加データの再生は、決定された音節境界
で挟まれた音節毎に有声区間と判別されたフレームの残
差信号の極性の多数決をとることで、オーディオ信号の
極性を音節単位毎に判定することにより行われる。
【0012】
【発明の実施の形態】以下、図面を参照して本発明の実
施の形態を説明する。図1は、本発明の一実施形態に係
るオーディオ信号への付加データ埋め込み装置の概略構
成を示している。図1において、入力端子11にはディ
ジタル化された音声信号(言語音声)や楽音信号などの
オーディオ信号が入力され、もう一つの入力端子12に
はオーディオ信号に埋め込むべき二値(バイナリ)の付
加データが入力される。
【0013】入力端子11からのオーディオ信号は、極
性反転部13と境界検出部14に入力される。極性反転
部13は、入力されたオーディオ信号の極性を反転する
(振幅値に−1を乗じる)ものである。境界検出部14
は、入力されたオーディオ信号の所定の境界を検出する
ものであり、具体的にはオーディオ信号が音声信号の場
合は、例えば後述するように音節境界を検出し、オーデ
ィオ信号が楽音信号の場合は、曲中の無音区間、曲間な
どを検出する。
【0014】入力端子12からの付加データは、データ
バッファ15に一時保持される。データバッファ15に
保持された付加データは、境界検出部14で境界が検出
される毎に1ビットずつ読み出される。データバッファ
15から読み出された付加データは、スイッチ16に制
御信号として与えられる。
【0015】スイッチ16は、入力端子11からのオー
ディオ信号と極性反転部13からの極性反転されたオー
ディオ信号が入力として与えられており、境界検出部1
4で境界が検出される毎に、次に境界が検出されるまで
の期間、データバッファ15から読み出された付加デー
タの各ビットの値に応じて切り替えられ、二つの入力の
いずれかのオーディオ信号を選択して出力端子17へ出
力する。
【0016】例えば、境界検出部14で境界が検出され
たときに、データバッファ15から読み出された付加デ
ータのビットが“1”の場合は、スイッチ16では入力
端子11からのオーディオ信号が選択される。データバ
ッファ15から読み出された付加データのビットが
“0”の場合には、スイッチ16では極性反転部13で
極性反転されたオーディオ信号が選択される。
【0017】スイッチ16が切り替わるときの各境界で
の不連続の影響を最小限に抑えるために、例えばスイッ
チ16が切り替わるとき、それまで選択していた信号の
レベルを徐々に減少させ、次に選択する信号のレベルを
徐々に増加させるようにしてもよい。これは具体的に
は、オーディオ信号の境界と境界で挟まれた区間の両端
の所定時間長(例えば、1〜10ms程度)の区間で直
線的な立ち上がり及び立ち下がり特性を持つ台形窓をス
イッチ16に適用することにより実現できる。
【0018】また、図1では説明を分かりやすくするた
め、極性反転部13とスイッチ16に分けて説明した
が、スイッチ16を省くと共に、極性反転部13に利得
制御機能を持たせてもよい。その場合、データバッファ
15から読み出された付加データに応じて極性反転部1
3における極性反転の有無を制御し、さらに極性反転の
開始時と終了時、つまりオーディオ信号の境界と境界で
挟まれた区間両端の所定時間長の区間で直線的な立ち上
がり及び立ち下がり特性を持つように利得を制御するよ
うな構成とすればよい。
【0019】このようにして出力端子17からは、付加
データの各ビットの値に応じて境界と境界で挟まれた素
片(例えば、音節)単位で付加データに応じて極性反転
されたオーディオ信号が出力される。すなわち、付加デ
ータの“0”のビットに対応する素片の波形は極性反転
されず、付加データの“1”のビットに対応する素片の
波形は極性反転されることによって、付加データが素片
波形の極性反転の有無としてオーディオ信号(音声信
号)に埋め込まれる。
【0020】こうして素片波形の極性反転の有無として
付加データが埋め込まれたオーディオ信号は、人間の聴
覚特性上特に大きな品質劣化はなく、さらに聴覚マスキ
ング特性を利用した手法に比較して、オーディオ信号に
対する圧縮符号化やA/D−D/Aといった種々の加工
処理によって、埋め込まれた付加データが破壊されて再
生不能になってしまう可能性は非常に少ない。
【0021】図2は、この様子を入力のオーディオ信号
が音声信号の場合について示した図であり、(a)は元
の音声信号波形、(b)は付加データに応じて音節単位
で極性反転された音声信号波形をそれぞれ示している。
図2(b)においては、矢印を付した音節波形が極性反
転している。入力されるオーディオ信号が楽音信号の場
合は、例えば曲毎、あるいは曲中の無音区間と無音区間
の間に挟まれた区間毎に付加データに応じて極性反転さ
れることにより、同様に極性反転の有無としてオーディ
オ信号に埋め込まれる。
【0022】図3に、本発明の一実施形態に係るオーデ
ィオ信号からの付加データ再生装置の概略構成を示す。
この付加データ再生装置は図1の付加データ埋め込み装
置に対応しており、入力端子21には付加データが極性
反転の有無として埋め込まれたオーディオ信号が入力さ
れる。
【0023】入力端子21からの付加データが埋め込ま
れたオーディオ信号は、極性判定部22及び境界検出部
23に入力される。境界検出部23は、図1中の境界検
出部14と同様に入力されたオーディオ信号の境界を検
出するものであり、オーディオ信号が音声信号の場合
は、例えば後述するように音節境界を検出し、オーディ
オ信号が楽音信号の場合は、曲中の無音区間、曲間など
を検出する。極性判定部22では、境界検出部23によ
って境界が検出される毎に入力されたオーディオ信号の
極性判定を行い、その極性の判定結果を再生された付加
データとして出力端子25へ出力する。また、入力端子
21からのオーディオ信号は出力端子24にも導かれ
る。
【0024】次に、オーディオ信号が音声信号の場合に
ついてさらに具体的に説明する。前述したように本発明
では、オーディオ信号をある境界と境界とで挟まれた素
片に分割し、その各素片に対して付加データの1ビット
を割り当て、割り当てたビットに応じて各素片の極性を
反転させたり反転させなかったりすることで付加データ
を埋め込む。ここで、オーディオ信号の素片の長さを決
める際には、1)素片の両端では波形の振幅が十分に小
さいこと、2)素片の長さが十分に長いこと、の二つの
条件を満たすことが望ましい。
【0025】1)の条件は、極性反転した際の波形の不
連続を小さくするために望まれる。音声信号の場合、極
性反転は無音区間や非有声閉鎖子音の閉鎖区間などで行
うのが理想的であるが、母音に比べれば子音の振幅は相
対的に小さいので、子音の最中に極性を反転することも
考えられる。
【0026】2)の条件に関しては、トレードオフが存
在する。すなわち、素片の長さは極性を判定できる程度
に十分に長いことが望まれる一方で、埋め込む付加デー
タのビットレートをできるだけ最大化するためには、で
きるだけ短い方がよい。例えば、素片として文を用いた
場合、文には極性を推定するに十分な母音が含まれるこ
とになるので、確実に付加データ1ビットを埋め込むこ
とが可能となるが、ビットレートはかなり低下してしま
う。これに対して、音節は極性判定のし易さと付加デー
タのビットレートの両方の面で、極性反転を行う素片単
位として最も効率がよい。
【0027】通常の音節は、核、開始部及び末尾からな
り、開始部や末尾では波形のパワーは通常、小さい。こ
れは上記1)の条件を満たしている。また、音節は母音
の定常部において極性を推定するという意味でも最適な
長さである。例えば、米国英語における音節の持続時間
は200〜250msであり、また母音の持続時間は約
100msである。
【0028】そこで、本実施形態では対象とするオーデ
ィオ信号が音声信号の場合、図1における境界検出部1
4及び図3における境界検出部23において、音節境界
を検出する。音節境界を自動的に検出するアルゴリズム
の公知例として、S. Wu, M.L. Shire, S. Greenberg an
d N. Morgan,“Integrating Syllable Boundary Inform
ation into Speech Recognition,”Proc. ICASSP(IEE
E), 1997と題した論文に、サブバンド・エネルギ軌跡に
基づいた音節開始部の自動検出アルゴリズムが記載され
ている。これに対して、本実施形態ではフルバンド・エ
ネルギ軌跡と変形自己相関関数による有声化検出とを併
用した方法を用いることで、二つの連続する音節境界間
に有声区間(特に、母音)が必ず存在するようにした。
【0029】図4は、図1における境界検出部14及び
図3における境界検出部23として用いられる音節境界
部の構成を示している。入力端子11からの音声信号
は、まずフレーム分割部31に入力され、所定のフレー
ム長のフレームに分割された後、窓掛け処理部32によ
って窓掛け処理が行われる。
【0030】入力された音声信号が16kHzサンプリ
ングのディジタル音声信号の場合、フレーム分割は例え
ばフレーム長:256点=16ms、フレーム周期:1
28点=8msで、すなわち連続するフレームが時間的
に50%(128点)だけオーバラップするように行わ
れる。ここで、フレーム周期は、隣接するフレーム間の
ずれ幅である。また、窓掛け処理部32ではフレーム長
と同じ窓掛け長で、例えばハミング窓により窓掛け処理
が行われる。窓掛け処理後の各フレームの音声信号は、
線形予測(LPC:Linear Predictive Coding)分析部
33に入力される。LPC分析部33における分析次数
は、例えば16次である。
【0031】LPC分析部33によって得られたLPC
係数をフィルタ係数とする逆フィルタ34が構成され、
この逆フィルタ34によってフレーム分割部31からの
各フレームの音声信号についてLPCの予測誤差である
残差信号が求められる。残差信号は自己相関演算部35
に入力され、その自己相関関数(これを変形自己相関関
数という)が求められる。図5はこの様子を示す図であ
り、(a)はある典型的な音声信号の母音波形、(b)
は線形予測分析による残差信号、(c)は変形自己相関
関数をそれぞれ示している。
【0032】変形自己相関関数は、有声/非有声判別部
36に入力される。有声/非有声判別部36には、さら
に低周波エネルギー算出部37によって求められた低周
波エネルギーが入力される。低周波エネルギー算出部3
7では、フレーム分割部31からの各フレームの音声信
号のうち、例えば1kHz以下の低周波成分のエネルギ
ー(これをフレーム内低周波エネルギーという)が算出
される。
【0033】有声/非有声判別部36では、変形自己相
関関数とフレーム内低周波エネルギーから、各フレーム
が有声区間か非有声区間かの判別が行われる。具体的に
は、変形自己相関関数を正規化したとき、例えばラグが
0.2ms以上のところにピーク値が0.2以上の正規
化ピークが存在し、かつ、フレーム内低周波エネルギー
がある区間全体の平均的な低周波エネルギーよりも大き
いとき有声区間と決定され、それ以外の区間は非有声区
間と決定される。
【0034】有声/非有声判別部36の判別結果は、フ
レーム内エネルギー算出部38によりフレーム分割部3
1からの各フレームの音声信号について求められたフレ
ーム内エネルギーと共に、音節境界決定部39に入力さ
れる。音節境界決定部39では、基本的には有声区間と
有声区間とで挟まれた連続した非有声区間毎に、フレー
ム内エネルギーが最小となる点が音節境界として決定さ
れる。
【0035】より詳しくは、ある非有声区間でフレーム
内エネルギーが最小(Emin)のフレームを見出し、そ
のフレーム内エネルギーEminが所定のしきい値Eth以
下で、かつ直前の音節境界からの時間差Δtが100m
s以上、好ましくは200ms以上の点が音節境界とし
て決定される。図6は、音声信号のうちの母音波形につ
いて有声/非有声判別部36で求められた有声区間(矩
形で示す)と、音節境界決定部39で求められた音節境
界(丸印で示す)の例を示している。
【0036】次に、図2における極性判定部22につい
て具体例について説明する。音声信号のパワーの源は、
ほとんどの言語で呼吸器系であり、肺から空気が吐き出
される。肺からの空気は気管を通って、咽頭で声帯の間
を通過する。音声は通常、息を吐くときに発声されるの
で、発声時の声門気流は単一方向であり、その結果、音
声信号波形の極性は常に一定となる。
【0037】音声信号波形の極性を測定する一つの方法
は、音声信号の声門気流を線形予測(LPC:Linear P
redictive Coding)分析などの逆フィルタ法を用いて推
定する方法である。言語音は、一般的に有声音と非有声
音からなっており、複数の音源を入力とするときの声道
フィルタシステムからの応答として有声音と非有声音は
モデル化される。
【0038】線形予測分析では、有声音の音源は準周期
的なパルス、非有声音の音源はランダム雑音と仮定され
る。有声音に対する線形予測分析での残差信号はインパ
ルス的になるので、図5(a)に示した元の音声信号波
形の極性を調べるよりは、図5(b)に示したような線
形予測分析による残差信号のパルスの方向を調べること
によって、音源の方向性、すなわち元の音声信号波形の
極性を調べることができることが分かる。この図の例で
は、残差信号のパルスの方向は上向きとなっており、音
声信号波形の極性は正極性である。種々の条件、例えば
息を吐くときに発声するとか、録音する際の機器の極性
が時間と共に変わらないといった条件が変わらない限
り、母音の種類が変わっても音声信号波形の極性は一定
である。以上の点を踏まえて、極性判定部22について
説明する。
【0039】図7は、入力されるオーディオ信号が音声
信号の場合における図3の極性判定部22と境界検出部
23の構成を合わせて示すブロック図である。入力端子
21には、図1に示した付加データ埋め込み装置によっ
て付加データが埋め込まれたオーディオ信号(音声信
号)が入力される。
【0040】図7において、フレーム分割部31、窓掛
け処理部32、LPC分析部33、逆フィルタ34、自
己相関演算部35、有声/非有声判別部36、低周波エ
ネルギー算出部37、フレーム内エネルギー算出部38
及び音節境界決定部39については図4と同様であり、
図7はさらに極性計算部41が追加された構成となって
いる。図3との対応を示すと、フレーム分割部31、窓
掛け処理部32、LPC分析部33、逆フィルタ34、
自己相関演算部35、有声/非有声判別部36、低周波
エネルギー算出部37、フレーム内エネルギー算出部3
8及び音節境界決定部39は、図3の極性判定部22と
境界検出部23で共有され、これに極性計算部41がさ
らに組み合わされることにより、極性判定部22が構成
されている。
【0041】極性計算部41においては、逆フィルタ3
4からの残差信号と有声/非有声判別部36の判別結果
及び音節境界決定部39により決定された音節境界が入
力されることにより、有声区間の残差信号から音節境界
と音節境界とで挟まれた音節単位で音声信号波形の極性
が計算により求められる。具体的には、極性計算部41
では各音節内の有声区間のフレーム毎に残差信号パルス
の極性の多数決がとられることにより、各音節の音声信
号波形の極性が判別される。すなわち、各音節内の有声
区間で極性が反転していると推定されたフレームと非反
転と推定されたフレームとの間で多数決がとられる。
【0042】入力端子21には、音節単位で付加データ
に応じて極性反転されることにより付加データが埋め込
まれた音声信号が入力されるので、極性計算部41で得
られた極性判別結果は付加データを表しており、これが
再生された付加データとして出力端子25から出力され
る。
【0043】オーディオ信号へのデータハイディングや
電子透かしの過程において、オーディオ信号の品質が劣
化しないようにすることは重要である。この要求に対し
て、本発明では人間の聴覚はオーディオ信号の極性反転
に対して鈍感であるという性質を利用している。この点
を確認するため、発明者らは元の音声信号と、音節単位
の極性反転の有無による付加データの埋め込み後の音声
信号との弁別実験を複数の被験者に対して試みた。以下
の実験では、音節境界の検出は手動で行った。
【0044】音声信号としては、TIMITデータベー
スの20文を用いた。被験者は20人の日本語母語話者
であり、いずれも健聴者であった。実験では、ABX弁
別法(XはAかBのいずれか)を用いた。Aが元の音声
信号で、かつBが極性反転信号、またはその逆のいずれ
かである。刺激の順番は、被験者毎にランダムに並べ替
えた。実験は簡易防音室でPC(パーソナルコンピュー
タ)を用いて行われ、被験者はヘッドフォン(Sennheis
er社製、HD 600)を介して刺激音を聞き、PCの
画面上の指示に従って回答した。各被験者は同じ刺激を
最大10回まで聞くことができた。Xが元の音声信号で
ある場合とXが極性反転信号である場合の正答率は50
%、すなわち同じ音声信号に対して元の音声信号と回答
する人の割合と極性判定された音声信号と回答する人の
割合が等しいことが理想である。
【0045】この弁別実験の結果、Xが元の音声信号で
ある場合とXが極性反転信号である場合の正答率の平均
は51.3%であり、本発明の手法による付加データの
埋め込み後の音声信号は、元の音声信号と識別できず、
付加データの埋め込みが信号品質にほとんど影響を与え
ないことが確認された。
【0046】一方、音節境界の検出を図4に示したよう
な構成で自動的に行った場合について同様の弁別実験を
行ったところ、Xが元の音声信号である場合と、Xが極
性反転信号である場合の正答率の平均は53.0%であ
った。この結果から、自動的に検出された音節境界に対
しても、人間の聴覚は元の音声信号と極性反転後の音声
信号を弁別できないことが分かった。
【0047】次に、上記のようにして音声信号に埋め込
まれた付加データを図7に示すような構成で自動的に抽
出して再生することを試みた。この付加データ自動抽出
アルゴリズムは、前述したLPC分析に基づくものであ
り、まず音節境界を検出し、各音声フレームに対して音
節境界間(音節単位)で正負の極性に対する多数決を求
め、多い方の極性をその音節の極性とした。
【0048】付加データとしては、幾つかのバイナリデ
ータ列を用い、TIMITデータベースの20文に埋め
込んだ。その際、平均ビット長は1文当たり7.6ビッ
トであった。次に、埋め込まれた付加データであるバイ
ナリデータ列を抽出して再生し、埋め込む前の元の付加
データと比較したところ、96.78%の確率で正しく
再生された(152ビット中、5つの誤り)。誤りの内
訳は、自動音節境界検出における誤り2つと、自動極性
判定による誤り3つである。これらの検出や判定の精度
を高めることで、さらに誤りを低減することができる。
【0049】上記実施形態では、音声信号の音節境界を
検出して音節境界間、すなわち音節単位で付加データに
応じて音声信号の極性反転を行う例について述べたが、
付加データに基づく極性反転の単位は音節単位に限られ
ないことはいうまでもなく、例えば付加データのビット
レートが小さくてもよい場合は、単語・語句・文といっ
た単位であってもよい。
【0050】また、音声信号の極性反転させる単位の境
界として、音声信号の零クロス点を用いてもよい。零ク
ロス点で音声信号の極性を反転させた場合、若干の信号
品質劣化はあるが、振幅の大きなところで極性反転させ
る場合に比較して大きなノイズの発生はなく、品質をさ
ほど問題としない用途には使用できる。
【0051】さらに、対象とするオーディオ信号は楽音
信号であってもよいことは前述した通りであり、その場
合は曲の無音区間、曲間などを境界として付加データに
応じた極性反転を行うようにすればよい。
【0052】上述した本発明に基づくオーディオ信号へ
の付加データ埋め込み及びオーディオ信号からの付加デ
ータ再生の処理は、DSP(ディジタル信号プロセッ
サ)のようなハードウェアで実現可能であるが、パーソ
ナルコンピュータのようなコンピュータを用いてソフト
ウェアにより実行することも可能である。従って、本発
明によれば以下に挙げるようなプログラム、あるいは当
該プログラムを格納したコンピュータ読み取り可能な記
録媒体を提供することができる。
【0053】(1)オーディオ信号に対して二値の付加
データを埋め込む処理をコンピュータに実行させるため
のプログラム、あるいは当該プログラムを格納したコン
ピュータ読み取り可能な記録媒体であって、前記オーデ
ィオ信号を該オーディオ信号の所定単位毎に前記付加デ
ータに応じて極性反転して出力する処理をコンピュータ
に実行させるためのプログラム、あるいは当該プログラ
ムを格納したコンピュータ読み取り可能な記録媒体。
【0054】(2)オーディオ信号に対して二値の付加
データを埋め込む処理をコンピュータに実行させるため
のプログラム、あるいは当該プログラムを格納したコン
ピュータ読み取り可能な記録媒体であって、前記オーデ
ィオ信号の音節境界を検出する処理と、検出された音節
境界に基づき前記オーディオ信号を音節単位毎に前記付
加データに応じて極性反転して出力する処理をコンピュ
ータに実行させるためのプログラム、あるいは当該プロ
グラムを格納したコンピュータ読み取り可能な記録媒
体。
【0055】(3)上記(2)において、前記音節境界
を検出する処理は、入力されるオーディオ信号をフレー
ムに分割する処理と、分割された各フレームのオーディ
オ信号を線形予測分析する処理と、該線形予測分析にお
ける残差信号の自己相関をとって変形自己相関関数を求
める処理と、前記変形自己相関関数と前記オーディオ信
号の各フレームの低周波エネルギーから有声区間と非有
声区間を判別する処理と、前記オーディオ信号の非有声
区間と判別されたフレームのエネルギーから音節境界を
決定する処理とを有する。
【0056】(4)所定単位毎に二値の付加データに応
じて極性反転されることにより該付加データが埋め込ま
れたオーディオ信号から該付加データを再生する処理を
コンピュータに実行させるためのプログラム、あるいは
当該プログラムを格納したコンピュータ読み取り可能な
記録媒体であって、前記オーディオ信号の極性を所定単
位毎に判定することにより前記付加データを再生する処
理をコンピュータに実行させるためのプログラム、ある
いは当該プログラムを格納したコンピュータ読み取り可
能な記録媒体。
【0057】(5)所定単位毎に二値の付加データに応
じて極性反転されることにより該付加データが埋め込ま
れたオーディオ信号から該付加データを再生する処理を
コンピュータに実行させるためのプログラム、あるいは
当該プログラムを格納したコンピュータ読み取り可能な
記録媒体であって、前記オーディオ信号の音節境界を検
出する処理と、検出された音節境界に基づき前記オーデ
ィオ信号の極性を音節単位毎に判定することにより前記
付加データを再生する処理とをコンピュータに実行させ
るためのプログラム、あるいは当該プログラムを格納し
たコンピュータ読み取り可能な記録媒体。
【0058】(6)上記(5)において、前記音節境界
を検出する処理は、入力されるオーディオ信号をフレー
ムに分割する処理と、分割された各フレームのオーディ
オ信号を線形予測分析する処理と、該線形予測分析にお
ける残差信号の自己相関をとって変形自己相関関数を求
める処理と、前記変形自己相関関数と前記オーディオ信
号の各フレームの低周波エネルギーから有声区間と非有
声区間を判別する処理と、前記オーディオ信号の前記非
有声区間と判別されたフレームのエネルギーから音節境
界を決定する処理とを有し、前記付加データを再生する
処理は、前記決定された音節境界により挟まれた音節毎
に前記有声区間と判別されたフレームの残差信号の極性
の多数決をとることにより前記オーディオ信号の極性を
音節単位毎に判定する処理を有する。
【0059】さらに、本発明によると上述したオーディ
オ信号への付加データ埋め込み処理及びオーディオ信号
からの付加データ再生処理の両方の機能を有する装置、
及びプログラムあるいは記録媒体を提供することもでき
る。
【0060】
【発明の効果】以上説明したように、本発明によればオ
ーディオ信号への加工処理によって付加データが破壊さ
れるおそれの少ないオーディオ信号への付加データの埋
め込み及びオーディオ信号からの付加データの再生を行
うことが可能となる。
【図面の簡単な説明】
【図1】本発明の一実施形態に係るオーディオ信号への
付加データ埋め込み装置の構成を示すブロック図
【図2】音声信号の極性反転前及び極性反転後の波形を
示す図
【図3】同実施形態に係るオーディオ信号からの付加デ
ータ再生装置の構成を示すブロック図
【図4】同実施形態における境界検出部の構成を示すブ
ロック図
【図5】音声信号の母音波形と残差信号及び変形自己相
関関数の例を示す図
【図6】音声信号の母音波形と有声区間及び音節境界の
例を示す図
【図7】同実施形態における極性判定部の構成を境界検
出部と共に示すブロック図
【符号の説明】
11…オーディオ信号入力端子 12…付加データ入力端子 13…極性反転部 14…境界検出部 15…データバッファ 16…スイッチ 17…オーディオ信号出力端子 21…オーディオ信号入力端子 22…極性判定部 23…境界検出部 24…オーディオ信号出力端子 25…付加データ出力端子 31…フレーム分割部 32…窓掛け処理部 33…線形予測分析部 34…逆フィルタ 35…自己相関関数演算部 36…有声/非有声判別部 37…低周波エネルギー算出部 38…フレーム内エネルギー算出部 39…音節境界決定部 41…極性計算部

Claims (6)

    【特許請求の範囲】
  1. 【請求項1】オーディオ信号に対して二値の付加データ
    を埋め込む装置において、 前記オーディオ信号を該オーディオ信号の所定単位毎に
    前記付加データに応じて極性反転して出力することを特
    徴とするオーディオ信号への付加データ埋め込み装置。
  2. 【請求項2】オーディオ信号に対して二値の付加データ
    を埋め込む装置において、 前記オーディオ信号の音節境界を検出する手段と、 検出された音節境界に基づき前記オーディオ信号を音節
    単位毎に前記付加データに応じて極性反転して出力する
    手段とを備えたことを特徴とするオーディオ信号に対す
    るオーディオ信号への付加データ埋め込み装置。
  3. 【請求項3】前記音節境界を検出する手段は、 入力されるオーディオ信号をフレームに分割する手段
    と、分割された各フレームのオーディオ信号を線形予測
    分析する手段と、該線形予測分析における残差信号の自
    己相関をとって変形自己相関関数を求める手段と、前記
    変形自己相関関数と前記オーディオ信号の各フレームの
    低周波エネルギーから有声区間と非有声区間を判別する
    手段と、前記オーディオ信号の非有声区間と判別された
    フレームのエネルギーから音節境界を決定する手段とを
    有することを特徴とする請求項2記載のオーディオ信号
    への付加データ埋め込み装置。
  4. 【請求項4】所定単位毎に二値の付加データに応じて極
    性反転されることにより該付加データが埋め込まれたオ
    ーディオ信号から該付加データを再生する装置におい
    て、 前記オーディオ信号の極性を所定単位毎に判定すること
    により前記付加データを再生することを特徴とするオー
    ディオ信号からの付加データ再生装置。
  5. 【請求項5】所定単位毎に二値の付加データに応じて極
    性反転されることにより該付加データが埋め込まれたオ
    ーディオ信号から該付加データを再生する装置におい
    て、 前記オーディオ信号の音節境界を検出する手段と、 検出された音節境界に基づき前記オーディオ信号の極性
    を音節単位毎に判定することにより前記付加データを再
    生する手段とを備えたことを特徴とするオーディオ信号
    からの付加データ再生装置。
  6. 【請求項6】前記音節境界を検出する手段は、 入力されるオーディオ信号をフレームに分割する手段
    と、分割された各フレームのオーディオ信号を線形予測
    分析する手段と、該線形予測分析における残差信号の自
    己相関をとって変形自己相関関数を求める手段と、前記
    変形自己相関関数と前記オーディオ信号の各フレームの
    低周波エネルギーから有声区間と非有声区間を判別する
    手段と、前記オーディオ信号の非有声区間と判別された
    フレームのエネルギーから音節境界を決定する手段とを
    有し、 前記付加データを再生する手段は、前記決定された音節
    境界により挟まれた音節毎に前記有声区間と判別された
    フレームの残差信号の極性の多数決をとることにより前
    記オーディオ信号の極性を音節単位毎に判定することを
    特徴とする請求項5記載のオーディオ信号からの付加デ
    ータ再生装置。
JP2000367429A 2000-12-01 2000-12-01 オーディオ信号への付加データ埋め込み装置及びオーディオ信号からの付加データ再生装置 Pending JP2002169579A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000367429A JP2002169579A (ja) 2000-12-01 2000-12-01 オーディオ信号への付加データ埋め込み装置及びオーディオ信号からの付加データ再生装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000367429A JP2002169579A (ja) 2000-12-01 2000-12-01 オーディオ信号への付加データ埋め込み装置及びオーディオ信号からの付加データ再生装置

Publications (1)

Publication Number Publication Date
JP2002169579A true JP2002169579A (ja) 2002-06-14

Family

ID=18837857

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000367429A Pending JP2002169579A (ja) 2000-12-01 2000-12-01 オーディオ信号への付加データ埋め込み装置及びオーディオ信号からの付加データ再生装置

Country Status (1)

Country Link
JP (1) JP2002169579A (ja)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002095727A1 (en) * 2001-05-17 2002-11-28 International Business Machines Corporation Content boundary detecting device, monitoring method, content position determining method, program, and storge medium
JP2005241796A (ja) * 2004-02-25 2005-09-08 Dainippon Printing Co Ltd 電子透かしの埋め込み方法および音響信号の再生装置
JP2007501957A (ja) * 2003-08-11 2007-02-01 ファクルテ ポリテクニーク デ モン 共振周波数を推定するための方法
US7606388B2 (en) * 2002-05-14 2009-10-20 International Business Machines Corporation Contents border detection apparatus, monitoring method, and contents location detection method and program and storage medium therefor
JP2010530989A (ja) * 2007-06-22 2010-09-16 ヴォイスエイジ・コーポレーション 音声区間検出および音声信号分類ための方法および装置
WO2015068310A1 (ja) * 2013-11-11 2015-05-14 株式会社東芝 電子透かし検出装置、方法及びプログラム
JP2017504892A (ja) * 2014-01-20 2017-02-09 曲立東 音声周波数をベースとするデータタグ配布システム及び方法
US12051421B2 (en) * 2022-12-21 2024-07-30 Actionpower Corp. Method for pronunciation transcription using speech-to-text model

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002095727A1 (en) * 2001-05-17 2002-11-28 International Business Machines Corporation Content boundary detecting device, monitoring method, content position determining method, program, and storge medium
US7606388B2 (en) * 2002-05-14 2009-10-20 International Business Machines Corporation Contents border detection apparatus, monitoring method, and contents location detection method and program and storage medium therefor
JP2007501957A (ja) * 2003-08-11 2007-02-01 ファクルテ ポリテクニーク デ モン 共振周波数を推定するための方法
JP2005241796A (ja) * 2004-02-25 2005-09-08 Dainippon Printing Co Ltd 電子透かしの埋め込み方法および音響信号の再生装置
JP2010530989A (ja) * 2007-06-22 2010-09-16 ヴォイスエイジ・コーポレーション 音声区間検出および音声信号分類ための方法および装置
US8990073B2 (en) 2007-06-22 2015-03-24 Voiceage Corporation Method and device for sound activity detection and sound signal classification
WO2015068310A1 (ja) * 2013-11-11 2015-05-14 株式会社東芝 電子透かし検出装置、方法及びプログラム
JPWO2015068310A1 (ja) * 2013-11-11 2017-03-09 株式会社東芝 電子透かし検出装置、方法及びプログラム
US9747907B2 (en) 2013-11-11 2017-08-29 Kabushiki Kaisha Toshiba Digital watermark detecting device, method, and program
JP2017504892A (ja) * 2014-01-20 2017-02-09 曲立東 音声周波数をベースとするデータタグ配布システム及び方法
US12051421B2 (en) * 2022-12-21 2024-07-30 Actionpower Corp. Method for pronunciation transcription using speech-to-text model

Similar Documents

Publication Publication Date Title
US8670990B2 (en) Dynamic time scale modification for reduced bit rate audio coding
Owren et al. Measuring emotion-related vocal acoustics
WO2020224217A1 (zh) 语音处理方法、装置、计算机设备及存储介质
JP2002014689A (ja) デジタルに圧縮されたスピーチの了解度を向上させる方法および装置
BR112016030056B1 (pt) Aperfeiçoamento de classificação entre codificação de domínio de tempo e codificação de domínio de frequência
JPH02242298A (ja) 声門波形に基づく話者識別装置
ES2656022T3 (es) Detección y codificación de altura tonal muy débil
US11915714B2 (en) Neural pitch-shifting and time-stretching
Fuchs The effects of mp3 compression on acoustic measurements of fundamental frequency and pitch range
JP2002169579A (ja) オーディオ信号への付加データ埋め込み装置及びオーディオ信号からの付加データ再生装置
Maiti et al. Speech denoising by parametric resynthesis
Sakaguchi et al. The effect of polarity inversion of speech on human perception and data hiding as an application
JP3618217B2 (ja) 音声のピッチ符号化方法及び音声のピッチ符号化装置並びに音声のピッチ符号化プログラムが記録された記録媒体
Hunt Delayed decisions in speech recognition—the case of formants
Kim et al. TAPS: Throat and acoustic paired speech dataset for deep learning-based speech enhancement
CN112786071A (zh) 面向语音交互场景语音片段的数据标注方法
JP4778402B2 (ja) 休止時間長算出装置及びそのプログラム、並びに音声合成装置
Yoon et al. Voice quality dependent speech recognition
JP6526602B2 (ja) 音声認識装置、その方法、及びプログラム
WO2004077381A1 (en) A voice playback system
RU2234746C2 (ru) Способ дикторонезависимого распознавания звуков речи
JPH07295588A (ja) 発話速度推定方法
JP2006010739A (ja) 音声認識装置
JPH10133678A (ja) 音声再生装置
Sharifzadeh Reconstruction of natural sounding speech from whispers