[go: up one dir, main page]

JP2008145988A - 雑音検出装置および雑音検出方法 - Google Patents

雑音検出装置および雑音検出方法 Download PDF

Info

Publication number
JP2008145988A
JP2008145988A JP2006336336A JP2006336336A JP2008145988A JP 2008145988 A JP2008145988 A JP 2008145988A JP 2006336336 A JP2006336336 A JP 2006336336A JP 2006336336 A JP2006336336 A JP 2006336336A JP 2008145988 A JP2008145988 A JP 2008145988A
Authority
JP
Japan
Prior art keywords
noise
data
sound source
final
discriminator
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2006336336A
Other languages
English (en)
Other versions
JP4787979B2 (ja
Inventor
Tetsuya Takiguchi
哲也 滝口
Yasuo Ariki
康雄 有木
Nobuyuki Miyake
信之 三宅
Kentaro Koga
健太郎 古賀
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Denso Ten Ltd
Kobe University NUC
Original Assignee
Denso Ten Ltd
Kobe University NUC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Denso Ten Ltd, Kobe University NUC filed Critical Denso Ten Ltd
Priority to JP2006336336A priority Critical patent/JP4787979B2/ja
Publication of JP2008145988A publication Critical patent/JP2008145988A/ja
Application granted granted Critical
Publication of JP4787979B2 publication Critical patent/JP4787979B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

【課題】雑音の種類(音源)を識別することを課題とする。
【解決手段】雑音が音声区間に重畳して存在する雑音重畳音声のデータが所定の音源による雑音であるか否かの二値を識別する最終識別器を所定の音源ごとに保持し、入力された雑音重畳音声のデータを保持された所定の音源ごとの最終識別器各々を用いて識別し、識別の結果、二値のうちいずれか一つの値に識別されたスコアが最も高い最終識別器を判定することで、データに存在する雑音の音源が判定された最終識別器が示す所定の音源であることを検出する。また、雑音重畳音声のデータを含む複数のデータを学習用データとして保持し、ブースティングを用いて、保持された学習用データから所定の音源ごとの最終識別器を導出する。
【選択図】 図1

Description

この発明は、雑音検出装置および雑音検出方法に関する。
従来より、音声認識技術が使用されるにあたっては、発話に雑音が重畳することに起因して、誤認識が引き起こされることが少なくない。このことに着目し、スペクトラルサブトラクションを始めとした雑音を除去する研究が、数多くなされている。ここで、雑音の除去について具体的に説明すると、雑音の除去は、まず、雑音を推定し、次に、推定された雑音を雑音重畳音声(雑音が重畳された音声)から減算するという手順で行われる。この雑音の推定には、発話直前の雑音のみの区間(非音声区間)から雑音を推定する手法や、雑音のみの区間から得られた情報を確率的に追跡して雑音を推定する手法などが用いられることが多い。例えば、最小統計量に基づく雑音推定法などが用いられる(V.Stahl, A.Fischer, and R.Bippus, “Quantile based noise estimation for spectral subtruction and Wiener filtering”, Proc.ICASSP 2000, pp.1875-1878, May 2000)。
ところで、雑音の除去の前段階としての雑音の推定は、定常的な雑音や、時間的に緩やかに変化する雑音に対しては、非常に有効な手法であると考えられ、雑音除去(抑圧)に高い効果が得られることが期待できる。しかしながら、例えば、家の中のような実環境で音声認識技術が使用されることを考えると、雑音の中には、電話のコール音など、発話中に突如発生するもの(突発性雑音)も少なくない。例えば、図18は、音声中に電話のコール音が重畳している波形を示すものである。このように、発話中に雑音が突如発生した時は、たとえ雑音が短時間しか継続しない場合であっても、音声認識率は低下する。
このため、かかる突発性雑音に対しても有効な手法を検討しなければならないが、上記したような手法を用いて突発性雑音を推定することは、通常困難である。また、HMM合成の手法(三木一浩,西浦敬信,中村哲,鹿野清宏,“HMMを用いた環境音識別の検討”,電子情報通信学会音声研究会,SP99-106,pp.79-84(1999-12)、伊田政樹,中村哲,“雑音DBを用いたモデル適応化HMMのSN比別マルチパスモデルによる雑音下音声認識”,電子情報通信学会技術報告,Vol.101,No.522,pp.51-56,2001-12)を用いることも考えられるが、HMM合成の手法を用いるには、あらかじめどのような雑音が音声に重畳されるかを特定しておかない限り、組み合わせの数が増えてしまい、結果として、音声認識に時間がかかることから、適切な手法であるとはいえない。
このようなことから、突発性雑音に対処することを目的とした場合には、雑音の除去の前段階として雑音を推定するのではなく、雑音を検出する手順によることが望ましいと考えられる。また、この雑音の検出には、音声のパワーを調べることで雑音を検出する手法や、AdaBoost(アダブースト)によって雑音を検出する手法などを用いることが考えられる。もっとも、音声のパワーを調べることで雑音を検出する手法は、図18の波形のように、極端にSNR(Signal vs. Noise Ratio)が悪い場合であれば、ある程度の検出をすることができるが、図19の波形のように、SNRが5dBの3種類の雑音(「スプレー音」、「紙を破る音」、「電話のコール音」)が音声区間に重畳して存在している場合には(「スプレー音」、「電話のコール音」は完全に音声区間に重畳して存在している)、これらを検出することは不可能に近い。
一方、AdaBoostによって雑音を検出する手法について説明すると、AdaBoostとは、二値判別問題に対して強力な手法であり、Boosting(ブースティング)と呼ばれる手法の一つである。ここで、Boostingとは、判別性能の低い複数の弱識別器の重み付き多数決によって最終的な識別器を生成し、最終的な識別器による識別の結果を出力する手法である。AdaBoostは、高精度かつ高速であることから、画像情報から顔などのオブジェクトを検出する手法としてよく用いられている(Paul Viola and Michael Jones:“Rapid Object Detection using a Boosted Cascadeof Simple Features”.IEEECVPR,vol.1,pp.511-518,2001.)。また、非特許文献1および非特許文献2では、AdaBoostを用いて雑音を含まない音声区間を検出する手法が開示されている。
Kwon,O.,Lee,T.:"Optimizing speech/non-speech classifier design using adaboost"Proc.IEEE ICASSP 2003, pp I-436-I-439.pp.Apr.2003 松田博義,滝口哲也,有木康雄:"Real Adaboostによる音声区間検出",日本音響学会2006年秋季研究発表会,2-P-12,PP.117-118,2006-09.
ところで、上記した従来の技術では、以下に説明するように、雑音の種類(音源)を識別することができないという課題があった。すなわち、AdaBoostによって雑音を検出する手法では、識別器は、例えば、「雑音」か「雑音ではない」かの二値を識別するものであることから、雑音の種類(音源)を識別することができない。
そこで、この発明は、上記した従来技術の課題を解決するためになされたものであり、雑音の種類(音源)を識別することが可能な雑音検出装置および雑音検出方法を提供することを目的とする。
上述した課題を解決し、目的を達成するため、請求項1に係る発明は、雑音が音声区間に重畳して存在する雑音重畳音声のデータが所定の音源による雑音であるか否かの二値を識別する最終識別器を所定の音源ごとに保持する最終識別器保持手段と、入力された前記雑音重畳音声のデータを前記最終識別器保持手段によって保持された前記所定の音源ごとの最終識別器各々を用いて識別し、当該識別の結果前記二値のうちいずれか一つの値に識別されたスコアが最も高い最終識別器を判定することで、当該データに存在する雑音の音源が当該判定された最終識別器が示す所定の音源であることを検出する検出手段と、を備えたことを特徴とする。
また、請求項2に係る発明は、上記の発明において、雑音重畳音声のデータを含む複数のデータを学習用データとして保持する学習用データ保持手段と、データが所定の音源による雑音であるか否かの二値を識別する識別器を学習用データから学習させることで学習が終了した最終識別器を導出するブースティングを用いて、前記学習用データ保持手段によって保持された前記学習用データから所定の音源ごとの最終識別器を導出する最終識別器導出手段と、をさらに備えたことを特徴とする。
また、請求項3に係る発明は、上記の発明において、前記最終識別器導出手段は、前記ブースティングとして、アダブーストを用いて前記最終識別器を導出することを特徴とする。
また、請求項4に係る発明は、上記の発明において、前記検出手段は、前記雑音重畳音声のデータをフレーム単位で識別し、当該データの雑音の区間が当該フレームで区切られた区間であることをさらに検出することを特徴とする。
また、請求項5に係る発明は、上記の発明において、入力された前記データの連続するフレームの中に、前記検出手段によって判定された前記最終識別器で識別された識別の結果が他のフレームとは異なる結果のフレームが含まれる場合には、当該異なる結果のフレームに対して平滑化を行う平滑化手段をさらに備えたことを特徴とする。
また、請求項6に係る発明は、雑音が音声区間に重畳して存在する雑音重畳音声のデータが所定の音源による雑音であるか否かの二値を識別する最終識別器を所定の音源ごとに保持する最終識別器保持工程と、入力された前記雑音重畳音声のデータを前記最終識別器保持工程によって保持された前記所定の音源ごとの最終識別器各々を用いて識別し、当該識別の結果前記二値のうちいずれか一つの値に識別されたスコアが最も高い最終識別器を判定することで、当該データに存在する雑音の音源が当該判定された最終識別器が示す所定の音源であることを検出する検出工程と、を含んだことを特徴とする。
請求項1または6の発明によれば、雑音が音声区間に重畳して存在する雑音重畳音声のデータが所定の音源による雑音であるか否かの二値を識別する最終識別器を所定の音源ごとに保持し、入力された雑音重畳音声のデータを保持された所定の音源ごとの最終識別器各々を用いて識別し、識別の結果、二値のうちいずれか一つの値に識別されたスコアが最も高い最終識別器を判定することで、データに存在する雑音の音源が判定された最終識別器が示す所定の音源であることを検出するので、雑音の種類(音源)を識別することが可能になる。
また、請求項2の発明によれば、雑音重畳音声のデータを含む複数のデータを学習用データとして保持し、データが所定の音源による雑音であるか否かの二値を識別する識別器を学習用データから学習させることで学習が終了した最終識別器を導出するブースティングを用いて、保持された学習用データから所定の音源ごとの最終識別器を導出するので、雑音の種類(音源)を適切に識別することが可能になる。
また、請求項3の発明によれば、雑音検出装置は、ブースティングとして、アダブーストを用いて最終識別器を導出するので、雑音の種類(音源)を適切に識別することが可能になる。
また、請求項4の発明によれば、雑音検出装置は、雑音重畳音声のデータをフレーム単位で識別し、データの雑音の区間がフレームで区切られた区間であることをさらに検出するので、上記の効果に加え、雑音の区間を検出することも可能になる。
また、請求項5の発明によれば、雑音検出装置は、入力されたデータの連続するフレームの中に、検出手段によって判定された最終識別器で識別された識別の結果が他のフレームとは異なる結果のフレームが含まれる場合には、異なる結果のフレームに対して平滑化を行うので、雑音の種類(音源)を正確に識別することが可能になる。
以下に添付図面を参照して、この発明に係る雑音検出装置および雑音検出方法の実施例を詳細に説明する。なお、以下では、実施例で用いる主要な用語、実施例1に係る雑音検出装置の概要および特徴、実施例1に係る雑音検出装置の構成および処理の手順、実施例1の効果を順に説明し、次に、他の実施例について説明する。
[用語の説明]
まず最初に、以下の実施例で用いる主要な用語を説明する。以下の実施例で用いる「雑音」とは、音声認識技術を使用するにあたり、認識すべき「音声」とは異なる「音」のことであり、認識すべき「音声」の認識において、通常妨げになると考えられる「音」のことである。以下では、認識対象の「音声」を、認識すべき「音声」が存在する区間である「音声区間」と、認識すべき「音声」が存在しない「非音声区間」との2つに大きく分類し、かかる「音声区間」に「雑音」が重畳して存在することと(認識すべき「音声」と「雑音」とが重畳する「音声」)、「雑音」のみが「非音声区間」に存在することとを、「雑音重畳音声」と定義する。
ところで、認識対象の「音声」に「雑音」が含まれると音声認識率は低下することから、「雑音」を除去(抑圧)した上で音声認識を行うべきであるが、この「雑音」の除去(抑圧)の前段階としては、「雑音」を検出することが必要になる。しかも、「雑音」の検出は、「雑音」の種類(音源)を識別した上で検出されることが望ましい。
ここで、「音源」について具体的に説明すると、例えば、「雑音」には、「スプレー音」(例えば、『シューッ』という音など)、「紙を破る音」(例えば、『ビリビリビリ』という音など)、「電話のコール音」(例えば、『プルルルル』という音など)など、様々な種類の「音源」があると考えられる。これらの「音源」の違いは、図19に示すような波形の違いとなって現れることから、「雑音」を検出する際に「音源」を識別して検出することは、「雑音」を除去(抑圧)する際にも役立つことになる。言い換えると、「雑音」の「音源」を識別することで(どのような「雑音」が「音声」に混入したのかまでを知ることで)、雑音除去(抑圧)時には、あらかじめ「音源」ごとに保存された「雑音」のデータを用いて「雑音」を除去(抑圧)することができる。このようなことから、本発明に係る「雑音検出装置」が、いかなる方法によって「雑音」の「音源」を識別するかが、重要な点になる。
[実施例1に係る雑音検出装置の概要および特徴]
続いて、図1を用いて、実施例1に係る雑音検出装置の概要および特徴を説明する。図1は、実施例1に係る雑音検出装置の概要および特徴を説明するための図である。
実施例1に係る雑音検出装置は、上記したように、認識対象の「音声」から「雑音」を検出することを概要とし、雑音の種類(音源)を識別することを主たる特徴とする。
この主たる特徴について簡単に説明すると、実施例1に係る雑音検出装置は、学習用データ保持部に、雑音重畳音声を含むデータを、学習用データとして保持している。
例えば、実施例1に係る雑音検出装置は、図1の(1)に示すように、学習用データ保持部に、学習用データとして、複数のデータで構成された一つのグループを保持し、この一つのグループに対して、「音声のみ」、「スプレー音」、「紙を破る音」、「電話のコール音」などの音源ごとに、ラベルを付与して保持している。
これらの学習用データは、実施例1に係る雑音検出装置が最終識別器(雑音の検出に利用する識別器)を導出するためのデータであるので、雑音検出装置の利用者によって予め入力されたりすることで、雑音検出装置が予め保持しているものである。
このような構成のもと、実施例1に係る雑音検出装置は、ブースティングを用いて音源ごとの最終識別器を導出する。ここで、Boosting(ブースティング)とは、データが所定の音源であるか否かの二値を識別する識別器を学習用データから学習させることで、学習が終了した最終識別器を導出するアルゴリズムのことである。実施例1においては、Boostingとして、AdaBoost(アダブースト)を用いて音源ごとの最終識別器を導出する。なお、AdaBoostのアルゴリズムについては、雑音検出装置の構成を説明する際に、詳述する。
例えば、雑音検出装置は、図1の(2)に示すように、AdaBoostを用いて、『音声のみの識別器』(「音声のみ」であるか否かを識別する識別器)を学習データから学習させることで、『音声のみの最終識別器』を導出して保持する。同様に、雑音検出装置は、図1の(2)に示すように、AdaBoostを用いて、『スプレー音の識別器』(「スプレー音」であるか否かを識別する識別器)を学習データから学習させることで、『スプレー音の最終識別器』を導出して保持し、『紙を破る音の識別器』(「紙を破る音」であるか否かを識別する識別器)を学習データから学習させることで、『紙を破る音の最終識別器』を導出して保持し、『電話のコール音の識別器』(「電話のコール音」であるか否かを識別する識別器)を学習データから学習させることで、『電話のコール音の最終識別器』を導出して保持する。
次に、実施例1に係る雑音検出装置は、入力された雑音重畳音声のデータを、保持された音源ごとの最終識別器によってデータのフレーム単位で識別する。ここで、データのフレームとは、データをある時間で区切った固まりのことであり(例えば、『20ms』など)、データの区間を示すものである。
例えば、雑音検出装置は、図1の(3)に示すように、入力されたデータを、『音声のみの最終識別器』、『スプレー音の最終識別器』、『紙を破る音の最終識別器』、『電話のコール音の最終識別器』などの最終識別器を用いて、データの「フレームNo.100」の区間について識別する。すると、例えば、図1の(3)に示すように、データの「フレームNo.100」は、『音声のみの最終識別器』を用いた識別の結果、二値のうちいずれか一つの値に『−0.3』というスコアで識別される。同様に、『スプレー音の最終識別器』を用いた識別の結果、二値のうちいずれか一つの値に『−0.1』というスコアで識別され、『紙を破る音の最終識別器』を用いた識別の結果、二値のうちいずれか一つの値に『−0.2』というスコアで識別され、『電話のコール音の最終識別器』を用いた識別の結果、二値のうちいずれか一つの値(ここでは、『電話のコール音』)に『0.5』というスコアで識別される。
続いて、実施例1に係る雑音検出装置は、二値のうちいずれか一つの値に識別されたスコアが最も高い最終識別器を判定する。例えば、雑音検出装置は、図1の(4)に示すように、二値のうちいずれか一つの値に『0.5』という最も高いスコアで識別された最終識別器が『電話のコール音の最終識別器』であることを判定する。
そして、雑音検出装置は、データの雑音区間がこのフレームで区切られた区間であること、並びに、データに存在する雑音の音源が判定された最終識別器が示す音源であることを検出する。例えば、雑音検出装置は、図1の(5)に示すように、データの雑音区間が「フレームNo.100」で区切られた区間であること、並びに、データに存在する雑音の音源が『電話のコール音』であることを検出する。
このようなことから、実施例1に係る雑音検出装置によれば、雑音の種類(音源)を識別することが可能になる。
なお、実施例1においては、雑音検出装置が、学習用データを予め保持し、学習用データから最終識別器を導出して保持した後に、保持した最終識別器を用いて入力された雑音重畳音声のデータの検出処理を行う事例について説明したが、本発明はこれに限られるものではない。例えば、学習用データの保持や、学習用データから最終識別器を導出する処理については、雑音検出装置とは異なる別の装置が行い、本発明に係る雑音検出装置は、別の装置で導出された最終識別器を保持し、保持した最終識別器を用いて入力された雑音重畳音声のデータの検出処理を行う事例についても、本発明を同様に適用することができる。
また、実施例1においては、雑音検出装置が、入力された雑音重畳音声のデータをフレーム単位で識別し、データの雑音の区間がフレームで区切られた区間であることをも検出する手法について説明したが、本発明はこれに限られるものではなく、雑音検出装置が、入力された雑音重畳音声のデータをフレーム単位で識別する手法によらない場合にも、本発明を同様に適用することができる。
また、実施例1においては、雑音検出装置が一つのグループを保持し、この一つのグループに対して、「音声のみ」、「スプレー音」、「紙を破る音」、「電話のコール音」などの音源ごとにラベルを付与して保持している事例について説明したが、本発明はこれに限られるものではない。例えば、音源としてその他の音源を選択する場合や、一つのグループに対して音源ごとのラベルを付与するのではなく、重複して複数のグループを保持する場合にも(ラベルは音源ごとに付与される)、本発明を同様に適用することができる。すなわち、音源は、本発明に係る雑音検出装置が利用される環境等に合わせて適宜選択されればよく、また、保持の形態はいずれでもよい。
[実施例1に係る雑音検出装置の構成]
次に、図2〜図10を用いて、実施例1に係る雑音検出装置を説明する。図2は、実施例1に係る雑音検出装置の構成を示すブロック図であり、図3は、出力部を説明するための図であり、図4は、学習用データ保持部を説明するための図であり、図5は、最終識別器保持部を説明するための図であり、図6は、検出結果記憶部を説明するための図であり、図7および図8は、最終識別器導出処理(AdaBoost)を説明するための図であり、図9および図10は、区間音源検出処理(Multi−class AdaBoost)を説明するための図である。
実施例1に係る雑音検出装置10は、図2に示すように、入力部11と、出力部12と、入出力制御I/F部13と、記憶部20と、制御部30とを備える。
入力部11は、制御部30による各種処理に用いるデータや、各種処理をするための操作指示などを、マイク、キーボード、またはマウスなどによって入力する。具体的には、入力部11が、学習用データ(雑音重畳音声のデータを含む複数のデータ)をマイクで入力すると、入力されたデータは、後述する学習用データ保持部21によって保持される。また、入力部11が、後述する区間音源検出部32による検出対象となるデータをマイクで入力すると、入力されたデータは、後述する入力データ一時記憶部23によって保持される。
なお、実施例1においては、学習用データや検出対象となるデータを、マイクとしての入力部11が雑音検出装置10に入力する手法について説明したが、本発明はこれに限られるものではなく、学習用データを電子データ化した音声ファイルや、検出対象となるデータを電子データ化した音声ファイルなどを、外部記憶装置や通信部としての入力部11が雑音検出装置10に入力する手法などにも、本発明を同様に適用することができる。
出力部12は、制御部30による各種処理の結果や、各種処理をするための操作指示などを、ディスプレイまたはプリンタなどに出力する。具体的には、出力部12は、後述する検出結果記憶部24に記憶された検出結果を、ディスプレイまたはプリンタなどに出力する。
例えば、出力部12は、図3に示すような検出結果をディスプレイに出力する。図3について具体的に説明すると、図3の上半分は、検出対象となるデータであって、音声区間に雑音が重畳して存在する雑音重畳音声の波形を示す図である。また、図3の下半分は、上半分に示した雑音重畳音声から、本発明に係る雑音検出装置10が、雑音の区間を検出し、かつ、雑音の種類(音源)を識別した結果を示したものである。すなわち、図3に例示されている雑音重畳音声の波形においては、「スプレー音」(spray)を音源とする雑音と、「紙を破る音」(paper)を音源とする雑音と、「電話のコール音」(phone)を音源とする雑音とが、音声に重畳して存在していたことがわかる。
なお、図3の例では、出力部12が、波形等で検出結果を出力する手法について説明したが、本発明はこれに限られるものではなく、検出結果をテキスト(例えば、「フレームNo.100」で区切られた区間のデータに存在する雑音の音源は『電話のコール音』である、など)で出力したり、ディスプレイやプリンタに出力するのではなく、雑音を除去(抑圧)する他の装置に出力するなど、いずれでもよい。
入出力制御I/F部13は、入力部11と、出力部12と、記憶部20と、制御部30との間におけるデータ転送を制御する。
記憶部20は、制御部30における各種制御に用いられるデータを記憶し、特に本発明に密接に関連するものとしては、図2に示すように、学習用データ保持部21と、最終識別器保持部22と、入力データ一時記憶部23と、検出結果記憶部24とを備える。なお、学習用データ保持部21は、特許請求の範囲に記載の「学習用データ保持手段」に対応し、最終識別器保持部22は、特許請求の範囲に記載の「最終識別器保持手段」に対応する。
学習用データ保持部21は、雑音重畳音声のデータを含む複数のデータを、学習用データとして保持する。具体的には、学習用データ保持部21は、入力部11によって入力された学習用データを保持し、保持した学習用データは、後述する最終識別器導出部31による処理に利用される。
ここで、学習用データ保持部21が保持する学習用データは、最終識別器導出部31が最終識別器(雑音の検出に利用する識別器)を導出するためのデータであるので、雑音検出装置10の利用者によって予め入力されたりすることで、学習用データ保持部21が予め保持しているものである。なお、実施例1においては、雑音検出装置10が学習用データ保持部21に学習用データを予め保持する事例について説明したが、本発明はこれに限られるものではなく、学習用データの保持や、学習用データから最終識別器を導出する処理については、雑音検出装置10とは異なる別の装置が行う事例にも、本発明を同様に適用することができる。この場合には、雑音検出装置10は、学習用データ保持部21を備えなくてもよい。
学習用データについて例を挙げて説明すると、例えば、学習用データ保持部21は、図4に示すような学習用データを保持する。すなわち、学習用データ保持部21は、「音声のみ」の学習用データのグループ、「スプレー音」の学習用データのグループ、「紙を破る音」の学習用データのグループ、および、「電話のコール音」の学習用データのグループとして、複数の音声データ(図4においては波形で図示する)で構成された共通の一つのグループを保持する。この学習用データのグループのことを、AdaBoostの理論においては、「特徴ベクトル」と表現したりする。
また、学習用データ保持部21は、音源ごとに、「音声のみであるのか、それ以外であるのか」、「スプレー音であるのか、それ以外であるのか」、「紙を破る音であるのか、それ以外であるのか」、「電話のコール音であるのか、それ以外であるのか」などの情報を、音声データ各々について対応づけて保持している。これらの情報のことを、AdaBoostの理論においては、「ラベル」と表現したりする。「特徴ベクトル」や「ラベル」については、最終識別器導出部31を説明する際に、詳述する。
なお、実施例1においては、学習用データ保持部21が、共通の一つのグループを保持し、この一つのグループに対して、「音声のみ」、「スプレー音」、「紙を破る音」、「電話のコール音」などの音源ごとにラベルを付与して保持している事例について説明したが、本発明はこれに限られるものではない。例えば、音源としてその他の音源を選択する場合や、一つのグループに対して音源ごとのラベルを付与するのではなく、重複して複数のグループを保持する場合にも(ラベルは音源ごとに付与される)、本発明を同様に適用することができる。すなわち、音源は、本発明に係る雑音検出装置10が利用される環境等に合わせて適宜選択されればよく、また、保持の形態はいずれでもよい。
最終識別器保持部22は、所定の音源による雑音重畳音声のデータを識別する最終識別器(所定の音源による雑音であるか否かの二値を識別する最終識別器)を、所定の音源ごとに保持する。具体的には、最終識別器保持部22は、後述する最終識別器導出部31によって導出された最終識別器を所定の音源ごとに保持し、保持した最終識別器は、後述する区間音源検出部32による処理に利用される。
ここで、最終識別器保持部22が保持する最終識別器は、区間音源検出部32が雑音を検出するための識別器であるので、区間音源検出部32による検出処理の前に、最終識別器導出部31によって予め導出され、最終識別器保持部22が予め保持しているものである。なお、実施例1においては、雑音検出装置10が最終識別器導出部31を備え、最終識別器導出部31によって導出された最終識別器を最終識別器保持部22が保持する事例について説明したが、本発明はこれに限られるものではなく、学習用データの保持や、学習用データから最終識別器を導出する処理については、雑音検出装置10とは異なる別の装置が行う事例にも、本発明を同様に適用することができる。この場合には、雑音検出装置10は、雑音検出装置10の利用者によって予め入力されたりすることで、最終識別器を保持するなどする。
最終識別器について例を挙げて説明すると、例えば、最終識別器保持部22は、図5に示すような最終識別器を保持する。すなわち、最終識別器保持部22は、識別内容として「音声のみであるか否かを識別」する『「音声のみ」の最終識別器』、識別内容として「スプレー音であるか否かを識別」する『「スプレー音」の最終識別器』、識別内容として「紙を破る音であるか否かを識別」する『「紙を破る音」の最終識別器』、識別内容として「電話のコール音であるか否かを識別」する『「電話のコール音」の最終識別器』などを保持する。なお、実施例1において、最終識別器はAdaBoostの理論を用いて導出されたものであるが、AdaBoostの理論については、最終識別器導出部31を説明する際に、詳述する。また、図5に示す「識別内容」の項目などは、説明の便宜上付与したものであって、最終識別器保持部22が必ず保持しなければならない項目ではない。
入力データ一時記憶部23は、雑音検出装置10の検出対象となるデータを一時的に記憶する。具体的には、入力データ一時記憶部23は、入力部11によって入力された検出対象となるデータを一時的に記憶し、一時的に記憶した検出対象のデータは、後述する区間音源検出部32による処理に利用される。
ここで、入力データ一時記憶部23が保持するデータは、区間音源検出部32が雑音を検出するためのデータであるので、雑音検出装置10の利用者によって予め入力されたり、雑音検出にあたりその都度入力されたりすることで、入力データ一時記憶部23が一時的に記憶するものである。また、入力データ一時記憶部23が一時的に記憶した入力データは、区間音源検出部32による処理が終了した直後に削除されてもよく、あるいは、必要に応じて所定の期間記憶し続けていてもよく、入力データ一時記憶部23が入力データを記憶する期間は、運用に応じて適宜変更することができる。
検出結果記憶部24は、検出対象となるデータの検出結果を記憶する。具体的には、検出結果記憶部24は、後述する区間音源検出部32や平滑化部33によって検出(もしくは検出後平滑化)された検出結果を記憶し、記憶した検出結果は、出力部12によって出力されるなどする。
ここで、検出結果記憶部24が記憶した検出結果は、出力部12による出力処理が終了した直後に削除されてもよく、あるいは、必要に応じて所定の期間記憶し続けていてもよく、検出結果記憶部24が検出結果を記憶する期間は、運用に応じて適宜変更することができる。
検出結果について例を挙げて説明すると、例えば、検出結果記憶部24は、図6に示すような検出結果を記憶する。すなわち、検出結果記憶部24は、データのフレームで区切られた区間ごとに、データに存在する雑音の音源に関する情報を対応づけて保持する。ここで、図6の上半分は、区間音源検出部32によって検出処理を行ったデータの平滑化前の検出結果であり、図6の下半分は、区間音源検出部32によって検出処理を行ったデータに対して、平滑化部33によって平滑化処理を行った後の検出結果を示すものである。両者の違いについては、平滑化部33を説明する際に、詳述する。
なお、実施例1においては、検出結果記憶部24が図6に示すような検出結果を記憶する手法について説明したが、本発明はこれに限られるものではなく、その他の形態で検出結果を記憶する手法や、平滑化前の検出結果を記憶しない手法など、検出結果記憶部24が記憶する検出結果については、運用に応じて適宜変更することができる。
制御部30は、雑音検出装置10における各種制御を行い、特に本発明に密接に関連するものとしては、図2に示すように、最終識別器導出部31と、区間音源検出部32と、平滑化部33とを備える。なお、最終識別器導出部31は、特許請求の範囲に記載の「最終識別器導出手段」に対応し、区間音源検出部32は、特許請求の範囲に記載の「検出手段」に対応し、平滑化部33は、特許請求の範囲に記載の「平滑化手段」に対応する。
最終識別器導出部31は、識別器(データが所定の音源による雑音であるか否かの二値を識別する識別器、以下、弱識別器)を学習用データから学習させることで学習が終了した最終識別器を導出するブースティングを用いて、所定の音源ごとの最終識別器を導出する。具体的には、最終識別器導出部31は、学習用データ保持部21によって保持された学習用データから、AdaBoostの理論を用いて最終識別器を導出し、導出した最終識別器を、最終識別器保持部22に保持させる。
なお、実施例1においては、雑音検出装置10が学習用データ保持部21に学習用データを予め保持し、最終識別器導出部31が予め保持された学習用データから最終識別器を導出する事例について説明したが、本発明はこれに限られるものではなく、学習用データの保持や、学習用データから最終識別器を導出する処理については、雑音検出装置10とは異なる別の装置が行う事例にも、本発明を同様に適用することができる。この場合には、雑音検出装置10は、最終識別器導出部31を備えなくてもよい。
以下、最終識別器導出部31による最終識別器導出処理について、詳述する。最終識別器導出処理は、ブースティング(Boosting)を用いて行われるが、実施例1においては、ブースティングの一つであるアダブースト(AdaBoost)を用いて行われる例について説明する。
AdaBoostの手順について、図7を用いて概要を説明すると、AdaBoostでは、まず、初期の重みで重み付けされた学習用データ(ステップS701〜ステップS702)から弱識別器を学習した後(ステップS703)、その弱識別器で誤識別を起こした学習用データの重みが大きくなるように、学習用データの重みを更新する(ステップS705)。次に、更新された新しい重みで重み付けされた学習用データから新しい弱識別器を学習し(ステップS703)、再び、その新しい弱識別器で誤識別を起こした学習用データの重みが大きくなるように、学習用データの重みを更新する(ステップS705)。こうして、弱識別器を自動で生成(学習)していき、最後に、複数生成された弱識別器の重み付き多数決で(ステップS704)、最終的な識別器(最終識別器)を生成する(ステップS706)。
上記したAdaBoostの手順について、図8を用いてより詳細に説明すると、AdaBoostでは、まず、図8の(A)に示すように、「特徴ベクトル」と「ラベル」とが対応づけられた学習用データを与える(ステップS701に相当)。ここで、「特徴ベクトル」および「ラベル」は、実施例1においては、例えば、学習用データ保持部21によって保持される学習用データのグループ、および、「スプレー音であるのか、それ以外であるのか」の情報のことである。
次に、AdaBoostでは、図8の(B)に示すように、学習用データの重みを初期化する(ステップS702に相当)。すなわち、例えば、ある学習用データの「ラベル」が「スプレー音」であれば、学習用データ全体の中で「ラベル」が「スプレー音」となるデータの数の2倍の値で割ったものを、この学習用データの初期の重みとする。同様に、例えば、ある学習用データの「ラベル」が「それ以外(スプレー音以外)」であれば、学習用データ全体の中で「ラベル」が「それ以外(スプレー音以外)」となるデータの数の2倍の値で割ったものを、この学習用データの初期の重みとする。なお、2倍の値で割るのは、正規化するためである。
続いて、AdaBoostでは、図8の(C)に示すように、初期の重みで重み付けされた学習用データから弱識別器で学習した後、弱識別器自体の重みを決定するとともに、その弱識別器で誤識別を起こした学習用データの重みが大きくなるように、学習用データの重みを更新する(ステップS703〜705に相当)。すなわち、例えば、図8の(B)で初期の重みで重み付けされた「スプレー音」の学習用データから、(2.1)で示すように、誤識別が最小となるように弱識別器を学習した後(弱識別器1とする)、(2.2)式および(2.3)式で示すように、弱識別器1自体の重みを決定するとともに、(2.4)式で示すように、弱識別器1で誤識別を起こした学習用データの重みが大きくなるように、学習用データの重みを更新する。
こうして、AdaBoostでは、弱識別器1から弱識別器Tまで、複数の弱識別器を自動で生成(学習)していき、最後に、図8の(D)に示すように、複数生成された弱識別器の重み付き多数決で、最終的な識別器(最終識別器)を生成する(ステップS706に相当)。例えば、「スプレー音」の最終識別器を生成する。言い換えると、弱識別器は、各次元(1〜T)において、重み付きエラーが最小になるように閾値を設定し、その中でさらに重み付きエラーが最小となる次元を選択したことになる。
このようにして、実施例1における最終識別器導出部31は、上記してきたようなAdaBoostの理論を用いて、学習用データから所定の音源ごとの最終識別器を導出する。具体的には、最終識別器導出部31は、図9の(1.1)式に示すように、学習用データ保持部21によって保持された学習用データ(共通の一つのグループ)の「ラベル」を所定の音源ごとに付け替え、(1.2)式に示すように、所定の音源ごとの最終識別器を導出する。
ここで、上記してきたように、AdaBoostは、基本的に二クラス判別であるが、雑音の除去(抑圧)を考えるのであれば、雑音の音源を識別し(どのような雑音が音声に混入したのかまでを知り)、雑音除去(抑圧)時には、あらかじめ音源ごとに保存された雑音のデータを用いて雑音を除去(抑圧)することが望ましい。このようなことから、最終識別器導出部31は、AdaBoostを多クラス問題に適応できるように拡張することで(1クラス対その他のクラスの二値判別器を複数作成)、Multi―classを実現し、区間音源検出部32において雑音の種類(音源)の識別まで行えるようにしているのである。
区間音源検出部32は、入力された雑音重畳音声のデータの雑音の区間と雑音の音源とを検出する。具体的には、区間音源検出部32は、入力データ一時記憶部23によって記憶された雑音重畳音声データを、最終識別器保持部22によって保持された所定の音源ごとの最終識別器各々を用いてフレーム単位で識別し、識別の結果、二値のうちいずれか一つの値に識別されたスコアが最も高い最終識別器を判定することで、データの雑音の区間がフレームで区切られた区間であること、並びに、データに存在する雑音の音源が判定された最終識別器が示す所定の音源であることを検出し、検出した結果を、検出結果記憶部24に記憶させたり、平滑化部33による処理に利用させたりする。
以下、区間音源検出部32の検出処理について、図10を用いて説明すると、区間音源検出部32は、まず、入力データ一時記憶部23によって記憶された雑音重畳音声データ(ステップS1001)を、最終識別器保持部22によって保持された所定の音源ごとの最終識別器各々を用いてフレーム単位で識別する(ステップS1002)。言い換えると、区間音源検出部32は、Multi−class AdaBoostに、フレームごとの特徴量である対数メルフィルタバンクを入力し、「音声のみであるか否か」、「スプレー音であるか否か」、「紙を破る音であるか否か」、「電話のコール音であるか否か」、というように識別していく。そして、識別の結果、二値のうちいずれか一つの値に識別されたスコアが最も高い最終識別器を判定することで(ステップS1003)、データの雑音の区間がフレームで区切られた区間であること、並びに、データに存在する雑音の音源が判定された最終識別器が示す所定の音源であることを検出する。
区間音源検出部32の検出処理について具体的に例を挙げて説明すると、区間音源検出部32は、入力された雑音重畳音声のデータを、保持された音源ごとの最終識別器によってデータのフレーム単位で識別する。ここで、データのフレームとは、データをある時間で区切った固まりのことであり(例えば、『20ms』など)、データの区間を示すものである。
例えば、区間音源検出部32は、入力されたデータを、『音声のみの最終識別器』、『スプレー音の最終識別器』、『紙を破る音の最終識別器』、『電話のコール音の最終識別器』などの最終識別器を用いて、データの「フレームNo.100」の区間について識別する。すると、例えば、データの「フレームNo.100」は、『音声のみの最終識別器』を用いた識別の結果、二値のうちいずれか一つの値に『−0.3』というスコアで識別される。同様に、データの「フレームNo.100」は、『スプレー音の最終識別器』を用いた識別の結果、二値のうちいずれか一つの値に『−0.1』というスコアで識別され、『紙を破る音の最終識別器』を用いた識別の結果、二値のうちいずれか一つの値に『−0.2』というスコアで識別され、『電話のコール音の最終識別器』を用いた識別の結果、二値のうちいずれか一つの値(ここでは、『電話のコール音』)に『0.5』というスコアで識別される。
続いて、区間音源検出部32は、二値のうちいずれか一つの値に識別されたスコアが最も高い最終識別器を判定する。例えば、区間音源検出部32は、二値のうちいずれか一つの値に『0.5』という最も高いスコアで識別された最終識別器が『電話のコール音の最終識別器』であることを判定する。
そして、区間音源検出部32は、データの雑音区間がこのフレームで区切られた区間であること、並びに、データに存在する雑音の音源が判定された最終識別器が示す音源であることを検出する。例えば、区間音源検出部32は、データの雑音区間が「フレームNo.100」で区切られた区間であること、並びに、データに存在する雑音の音源が『電話のコール音』であることを検出する。
このように、区間音源検出部32は、AdaBoostを多クラス問題に適応できるように拡張することで(複数の二値判別器のうち、最も結果の高かったものを識別結果とすることで)、Multi―classを実現し、雑音の種類(音源)の識別まで行えるようにしているのである。
なお、実施例1においては、区間音源検出部32による検出の後、平滑化部33による平滑化処理(ステップS1004)や、出力部12による出力処理(ステップS1005)などが行われる。また、実施例1においては、区間音源検出部32が、入力された雑音重畳音声のデータをフレーム単位で識別し、データの雑音の区間がフレームで区切られた区間であることをも検出する手法について説明したが、本発明はこれに限られるものではなく、区間音源検出部32が、入力された雑音重畳音声のデータをフレーム単位で識別する手法によらない場合にも、本発明を同様に適用することができる。
平滑化部33は、入力されたデータの連続するフレームの中に、識別の結果が他のフレームとは異なる結果のフレームが含まれる場合には、異なる結果のフレームに対して平滑化を行う。具体的には、平滑化部33は、区間音源検出部32によって検出された検出結果で、検出結果記憶部24に記憶された検出結果に対して、識別の結果が他のフレームとは異なる結果のフレームが含まれる場合には、異なる結果のフレームに対して平滑化を行い、平滑化を行った結果を、検出結果記憶部24に記憶する。
例えば、平滑化部33は、「雑音」として検出されるフレームが連続している中で、ごくわずかに「音声」として検出されるフレームが存在した場合、このフレームは「音声」ではなく、誤識別を起こした「雑音」だと考える。具体的に例を挙げて説明すると、平滑化部33は、例えば、前後3フレームおよびそのフレームの計7フレームの中で、最も多い検出結果をそのフレームの検出結果とし、変更がなくなるまで繰り返す。平滑化部33は、連続して「雑音」と判定されている区間は、フレームごとに検出結果が異なっても、ひとつの「雑音」とみなす。
図6に示すように、平滑化部33は、例えば、「フレームNo.101」に着目すると、「フレームNo.101」の前後3フレームおよびそのフレームの計7フレームの中で、最も多い検出結果は「電話のコール音」であるので、「フレームNo.101」の検出結果も「電話のコール音」であるとする。
なお、実施例1における平滑化部33は、例えば、継続時間が200ms以上の雑音を対象としているため、それより明らかに小さい継続時間で雑音と判定されるものは、「湧き出し」と考える。例えば、継続時間が200msの半分である100ms以下の雑音については、切り取りを行う。
また、実施例1においては、平滑化部33が異なる結果のフレームに対して平滑化を行い、平滑化された結果を検出結果として出力する手法について説明したが、本発明はこれに限られるものではなく、平滑化部33によって平滑化処理が行われず、平滑化されていない結果を検出結果として出力する手法にも、本発明を同様に適用することができる。
[実施例1に係る雑音検出装置による処理の手順]
次に、図11を用いて、実施例1に係る雑音検出装置による処理の手順(一例)を説明する。図11は、実施例1に係る雑音検出装置による処理の手順を示すフローチャートである。
まず、雑音検出装置10は、区間音源検出部32において、検出対象のデータの入力を受け付けたか否かを判定する(ステップS1101)。データの入力を受け付けていない場合には(ステップS1101否定)、雑音検出装置10は、区間音源検出部32において、検出対象のデータの入力を受け付けたか否かを判定する処理に戻る。
一方、データの入力を受け付けた場合には(ステップS1101肯定)、雑音検出装置10は、区間音源検出部32において、所定の音源の最終識別器で、入力されたデータの1フレームを識別する(ステップS1102)。
続いて、雑音検出装置10は、区間音源検出部32において、全ての音源の最終識別器で識別したか否かを判定する(ステップS1103)。全ての音源の最終識別器で識別していない場合には(ステップS1103否定)、雑音検出装置10は、区間音源検出部32において、最終識別器を変更し(ステップS1104)、変更後の所定の音源の最終識別器で、入力されたデータの1フレームを識別する処理に戻る。
一方、全ての音源の最終識別器で識別した場合には(ステップS1103肯定)、雑音検出装置10は、区間音源検出部32において、二値のうちいずれか一つの値に識別されたスコアが最も高い最終識別器を判定する(ステップS1105)。
そして、雑音検出装置10は、区間音源検出部32において、データの雑音の区間がフレームで区切られた区間であること、並びに、データに存在する雑音の音源が、判定された最終識別器が示す所定の音源であることを検出する(ステップS1106)。
次に、雑音検出装置10は、区間音源検出部32において、全てのフレームについて検出したか否かを判定する(ステップS1107)。全てのフレームについて検出していない場合には(ステップS1107否定)、雑音検出装置10は、区間音源検出部32において、フレームを変更し(ステップS1108)、所定の音源の最終識別器で、入力されたデータの1フレームを識別する処理に戻る。
一方、全てのフレームについて検出した場合には(ステップS1107肯定)、雑音検出装置10は、平滑化部33において、平滑化処理を行い(ステップS1109)、検出結果を出力部12に出力するなどして(ステップS1110)、処理を終了する。
このようにして、実施例1に係る雑音検出装置10は、雑音の種類(音源)を識別することが可能になる。
[実施例1の効果]
上記してきたように、実施例1によれば、雑音が音声区間に重畳して存在する雑音重畳音声のデータが所定の音源による雑音であるか否かの二値を識別する最終識別器を所定の音源ごとに保持し、入力された雑音重畳音声のデータを保持された所定の音源ごとの最終識別器各々を用いて識別し、識別の結果、二値のうちいずれか一つの値に識別されたスコアが最も高い最終識別器を判定することで、データに存在する雑音の音源が判定された最終識別器が示す所定の音源であることを検出するので、雑音の種類(音源)を識別することが可能になる。
また、実施例1によれば、雑音重畳音声のデータを含む複数のデータを学習用データとして保持し、データが所定の音源による雑音であるか否かの二値を識別する識別器を学習用データから学習させることで学習が終了した最終識別器を導出するブースティングを用いて、保持された学習用データから所定の音源ごとの最終識別器を導出するので、雑音の種類(音源)を適切に識別することが可能になる。
また、実施例1によれば、雑音検出装置は、ブースティングとして、アダブーストを用いて最終識別器を導出するので、雑音の種類(音源)を適切に識別することが可能になる。
また、実施例1によれば、雑音検出装置は、雑音重畳音声のデータをフレーム単位で識別し、データの雑音の区間がフレームで区切られた区間であることをさらに検出するので、上記の効果に加え、雑音の区間を検出することも可能になる。
また、実施例1によれば、雑音検出装置は、入力されたデータの連続するフレームの中に、検出手段によって判定された最終識別器で識別された識別の結果が他のフレームとは異なる結果のフレームが含まれる場合には、異なる結果のフレームに対して平滑化を行うので、雑音の種類(音源)を正確に識別することが可能になる。
さて、これまで、実施例1として、雑音検出装置10の概要および特徴、構成、処理の手順などについて説明してきたが、次に、実施例2として、本発明に係る雑音検出装置10による評価実験について説明する。なお、実施例2における評価実験は、本発明に係る雑音検出装置10の再現率、適合率、および、雑音の識別率を評価することを主たる目的としている。
[実験条件]
まず、実施例2における評価実験の実験条件について説明する。「学習用データ」には、ASJから提供されている研究用連続音声データベースから、男性話者21人×10発話の発話データを用い、検証対象である「評価データ」には、同じくASJから提供されている研究用連続音声データベースから、男性話者5人×平均240発話の発話データを用いた。また、「雑音」には、RWCPの提供する非音声ドライソースの中から、「スプレー音」、「紙を破る音」、「電話のコール音」の三種類のデータを用いた。
「学習用データ」には、発話データと、さらに、その発話データにSNRを調整した各「雑音」を重畳させたものとを用いた。また、「学習用データ」のSNRは、『−5dB』から『5dB』の間でランダムに変化させた。一方、「評価データ」には、1発話に200ms以上の継続時間のSNRを調整した「雑音」を1〜3つ重畳させたものを用いた。ただし、雑音が重畳した区間に、さらに別の雑音が重畳するようなデータは存在しない。また、「評価データ」のSNRは、『−5dB』、『0dB』、『5dB』の3つである。
なお、実施例2における評価実験において、SNRは、図12の(A)〜(C)に示す式で求めた。また、特徴量には、「対数メルフィルタバンク」を使用した。「学習用データ」、「評価データ」ともに、フレーム幅は『20ms』、フレームシフト『10ms』であり、「1−(0.97zの(−1)乗)」のプリエンファシス、ハミング窓を用いている。
[雑音検出]
実施例2における評価実験における判定について説明すると、まず、検出という観点のみから、区間が正しく検出できているものは、雑音の種類(音源)が異なっていたとしても、「正解」と判定することとする。また、誤差のマージンを決めておき、正解データとの誤差がそのマージン以内であるものも、「正解」と判定する。なお、マージンは、実施例2における評価実験では、『30ms』とした。また、検出区間が大きすぎるものは、「誤検出」、検出区間が小さすぎるものは、「未検出」とした。
評価には、図13の(A)に示す検出率(Detection rate)、図13の(B)に示す再現率(Recall rate)、および、図13の(C)に示す適合率(Precision rate)の3つを用いる。ここで、検出率、再現率、および適合率は、検出した区間の中で正解した数「Tp」、誤検出数「Fp」、未検出数「Tn」、雑音の総数「Ta」を用いて、図13の(A)〜(C)式で計算される。ここで、本来、検出率と再現率とは等しいものだが、実施例2における評価実験では、区間を大きく取りすぎた雑音を「誤検出」として評価していることから、検出率と再現率とで異なる値が出る場合があるので、その両方を示すものである。
評価実験の結果は、図14に示す通りとなった。全てのSNRに対して、検出率、再現率、および適合率が『95%以上』と良好な結果がでており、『5dB』以上の強さの「雑音」であれば、検出できることが確認された。
[雑音識別]
ところで、上記では、区間さえ正しければ雑音の種類(音源)が異なっていたとしても「正解」と判定したが、次に、区間が正しく判定された雑音の中での雑音の識別率を評価し、さらに、検出率と併せて、区間が正しく、かつ、雑音の識別結果も正しいものを、雑音の正解率として求めた。その結果が、図15である。
図15から、すべてのSNRにおいて、『99.5%』を超える高い雑音識別率(ノイズ識別率)を得ることができていることがわかる。すなわち、検出できたもののほとんどについて、雑音の種類(音源)を正しく識別できていることになる。なお、正しく検出や識別ができている評価実験の出力例は、図3に示したものである。図3に示すように、波形のみでは「電話のコール音」を見分けることはできないが、本発明に係る雑音検出装置10によって、全て、正しく検出できており、雑音の種類(音源)を正しく識別できている。
[ミスマッチモデルによる検出精度の変化]
ところで、上記では、「評価データ」の「雑音」と「学習用データ」の「雑音」とのSNRが等しかったが、次に、「評価データ」と「学習用データ」とのSNRを変化させ、検出精度がどの程度変化するかを調べることとする。上記と同様に『SNR−5dB〜5dB』の「学習用データ」で学習したモデル、『SNR−5dBのみ』の「学習用データ」で学習したモデル、『SNR0dBのみ』の「学習用データ」で学習したモデル、『SNR5dBのみ』の「学習用データ」を用いて学習したモデルのそれぞれについて、『SNR−10dB〜10dB』の「評価データ」に対する検出率、再現率、および適合率を算出し、違いを比較する。なお、AdaBoostの学習回数は、同様に、1,000回である。
結果は、図16に示すとおりである。適合率は、「評価データ」の「雑音」のSNRを変化させても、誤検出数には影響しなかったことから、学習時に用いる「学習用データ」のSNRによって、ほぼ決定する。「学習用データ」のSNRが低くなるほど、適合率は高くなる結果となった。
また、「評価データ」のSNRが高くなるほど、未検出数が増える傾向がある。図16より、「学習用データ」『SNR−5dB』の識別器を用いたとき、「評価データ」『SNR5dB』において、検出率は『76.7%』、「学習用データ」『SNR0dB』の識別器では、評価データ『SNR10dB』において、検出率『69.9%』まで下がる。全てについて学習した識別器では、『−5dB』、『0dB』と比べ適合率が下がるが、検出率、再現率の減少量は少なかった。
[ミスマッチモデルによる雑音識別精度の変化]
上記と同様の条件で、「雑音」の識別率および正解率を評価する。結果は、図17に示す。図17より、「学習用データ」の「雑音」のSNRと、「評価データ」のSNRとの差が大きいほど、識別率は低下するという結果になった。『SNR−5dB』で学習した識別器を用いたときの「評価データ」『SNR10dB』の識別率は、『94.4%』と減少はするものの、高い値を示しており、『SNR5dB』で学習した識別器を用いたとき、「評価データ」『SNR−10dB』の識別率は、『80.1%』と比較的低い値となった。また、『SNR0dB』で学習したデータを見ると、「評価データ」『SNR10dB』では、『95.9%』、「評価データ」『SNR−10dB』では、『93.7%』となった。また、「雑音」の正解率は、モデルマッチの高いものが、高い値を示すが、平均的にみると、『SNR−5dB〜5dB』で学習したものが、一番高い値を示した。
さて、これまで本発明の実施例について説明したが、本発明は上記した実施例以外にも、種々の異なる形態にて実施されてよいものである。
[システム構成等]
本実施例において説明した各処理のうち、自動的におこなわれるものとして説明した処理(例えば、保持する学習用データから最終識別器を導出する処理など)の全部または一部を手動的におこなうこともでき(例えば、必要に応じてコマンドを入力することで、保持する学習用データから最終識別器を導出する処理など)、あるいは、手動的におこなわれるものとして説明した処理(例えば、学習用データの入力など)の全部または一部を公知の方法で自動的におこなうこともできる(例えば、ネットワークを介して自動的にダウンロードなど)。この他、上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示(例えば、図2など)の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる(例えば、検出結果記憶部を、平滑化前と平滑化後とで分散して構成するなど)。さらに、各装置にて行なわれる各処理機能は、その全部または任意の一部が、CPUおよび当該CPUにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。
なお、本実施例で説明した雑音検出方法は、あらかじめ用意されたプログラムをパーソナルコンピュータやワークステーションなどのコンピュータで実行することによって実現することができる。このプログラムは、インターネットなどのネットワークを介して配布することができる。また、このプログラムは、ハードディスク、フレキシブルディスク(FD)、CD−ROM、MO、DVDなどのコンピュータで読み取り可能な記録媒体に記録され、コンピュータによって記録媒体から読み出されることによって実行することもできる。
以上のように、本発明に係る雑音検出装置および雑音検出方法は、「雑音」を検出することに有用であり、特に、雑音の種類(音源)を識別することに適する。
実施例1に係る雑音検出装置の概要および特徴を説明するための図である。 実施例1に係る雑音検出装置の構成を示すブロック図である。 出力部を説明するための図である。 学習用データ保持部を説明するための図である。 最終識別器保持部を説明するための図である。 検出結果記憶部を説明するための図である。 最終識別器導出処理(AdaBoost)を説明するための図である。 最終識別器導出処理(AdaBoost)を説明するための図である。 区間音源検出処理(Multi−class AdaBoost)を説明するための図である。 区間音源検出処理(Multi−class AdaBoost)を説明するための図である。 実施例1に係る雑音検出装置による処理の手順を示すフローチャートである。 SNRを求める計算式を説明するための図である。 検出率、再現率、および適合率を説明するための図である。 実施例2に係る雑音検出装置の評価結果を示す図である。 実施例2に係る雑音検出装置の評価結果を示す図である。 実施例2に係る雑音検出装置の評価結果を示す図である。 実施例2に係る雑音検出装置の評価結果を示す図である。 音声に電話音が重畳した波形を示す図である。 音声に各雑音が重畳した波形を示す図である。
符号の説明
10 雑音検出装置
11 入力部
12 出力部
13 入出力制御I/F部
20 記憶部
21 学習用データ保持部
22 最終識別器保持部
23 入力データ一時記憶部
24 検出結果記憶部
30 制御部
31 最終識別器導出部
32 区間音源検出部
33 平滑化部

Claims (6)

  1. 雑音が音声区間に重畳して存在する雑音重畳音声のデータが所定の音源による雑音であるか否かの二値を識別する最終識別器を所定の音源ごとに保持する最終識別器保持手段と、
    入力された前記雑音重畳音声のデータを前記最終識別器保持手段によって保持された前記所定の音源ごとの最終識別器各々を用いて識別し、当該識別の結果前記二値のうちいずれか一つの値に識別されたスコアが最も高い最終識別器を判定することで、当該データに存在する雑音の音源が当該判定された最終識別器が示す所定の音源であることを検出する検出手段と、
    を備えたことを特徴とする雑音検出装置。
  2. 雑音重畳音声のデータを含む複数のデータを学習用データとして保持する学習用データ保持手段と、
    データが所定の音源による雑音であるか否かの二値を識別する識別器を学習用データから学習させることで学習が終了した最終識別器を導出するブースティングを用いて、前記学習用データ保持手段によって保持された前記学習用データから所定の音源ごとの最終識別器を導出する最終識別器導出手段と、
    をさらに備えたことを特徴とする請求項1に記載の雑音検出装置。
  3. 前記最終識別器導出手段は、前記ブースティングとして、アダブーストを用いて前記最終識別器を導出することを特徴とする請求項2に記載の雑音検出装置。
  4. 前記検出手段は、前記雑音重畳音声のデータをフレーム単位で識別し、当該データの雑音の区間が当該フレームで区切られた区間であることをさらに検出することを特徴とする請求項1〜3のいずれか一つに記載の雑音検出装置。
  5. 入力された前記データの連続するフレームの中に、前記検出手段によって判定された前記最終識別器で識別された識別の結果が他のフレームとは異なる結果のフレームが含まれる場合には、当該異なる結果のフレームに対して平滑化を行う平滑化手段をさらに備えたことを特徴とする請求項4に記載の雑音検出装置。
  6. 雑音が音声区間に重畳して存在する雑音重畳音声のデータが所定の音源による雑音であるか否かの二値を識別する最終識別器を所定の音源ごとに保持する最終識別器保持工程と、
    入力された前記雑音重畳音声のデータを前記最終識別器保持工程によって保持された前記所定の音源ごとの最終識別器各々を用いて識別し、当該識別の結果前記二値のうちいずれか一つの値に識別されたスコアが最も高い最終識別器を判定することで、当該データに存在する雑音の音源が当該判定された最終識別器が示す所定の音源であることを検出する検出工程と、
    を含んだことを特徴とする雑音検出方法。
JP2006336336A 2006-12-13 2006-12-13 雑音検出装置および雑音検出方法 Expired - Fee Related JP4787979B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006336336A JP4787979B2 (ja) 2006-12-13 2006-12-13 雑音検出装置および雑音検出方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006336336A JP4787979B2 (ja) 2006-12-13 2006-12-13 雑音検出装置および雑音検出方法

Publications (2)

Publication Number Publication Date
JP2008145988A true JP2008145988A (ja) 2008-06-26
JP4787979B2 JP4787979B2 (ja) 2011-10-05

Family

ID=39606208

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006336336A Expired - Fee Related JP4787979B2 (ja) 2006-12-13 2006-12-13 雑音検出装置および雑音検出方法

Country Status (1)

Country Link
JP (1) JP4787979B2 (ja)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010204392A (ja) * 2009-03-03 2010-09-16 Nec Corp 雑音抑圧の方法、装置、及びプログラム
JP2011181021A (ja) * 2010-03-04 2011-09-15 Nippon Telegr & Teleph Corp <Ntt> 時系列信号識別装置、時系列信号識別方法、およびプログラム
US20110235812A1 (en) * 2010-03-25 2011-09-29 Hiroshi Yonekubo Sound information determining apparatus and sound information determining method
US8874440B2 (en) 2009-04-17 2014-10-28 Samsung Electronics Co., Ltd. Apparatus and method for detecting speech
WO2017171051A1 (ja) * 2016-04-01 2017-10-05 日本電信電話株式会社 異常音検出学習装置、音響特徴量抽出装置、異常音サンプリング装置、これらの方法及びプログラム
WO2019176830A1 (ja) * 2018-03-12 2019-09-19 日本電信電話株式会社 学習用音声データ生成装置、その方法、およびプログラム
WO2020183845A1 (ja) * 2019-03-08 2020-09-17 日本電気株式会社 音響処理方法
JP2021131485A (ja) * 2020-02-20 2021-09-09 富士通株式会社 認識方法、認識プログラム及び認識装置
CN115050356A (zh) * 2022-06-07 2022-09-13 中山大学 一种噪声识别方法、装置以及计算机可读存储介质
JP2023550405A (ja) * 2020-12-03 2023-12-01 ▲騰▼▲訊▼科技(深▲セン▼)有限公司 人工知能に基づく音声処理方法、装置、電子機器、及びコンピュータプログラム

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010204392A (ja) * 2009-03-03 2010-09-16 Nec Corp 雑音抑圧の方法、装置、及びプログラム
US8874440B2 (en) 2009-04-17 2014-10-28 Samsung Electronics Co., Ltd. Apparatus and method for detecting speech
JP2011181021A (ja) * 2010-03-04 2011-09-15 Nippon Telegr & Teleph Corp <Ntt> 時系列信号識別装置、時系列信号識別方法、およびプログラム
US20110235812A1 (en) * 2010-03-25 2011-09-29 Hiroshi Yonekubo Sound information determining apparatus and sound information determining method
JP2011203500A (ja) * 2010-03-25 2011-10-13 Toshiba Corp 音情報判定装置、及び音情報判定方法
WO2017171051A1 (ja) * 2016-04-01 2017-10-05 日本電信電話株式会社 異常音検出学習装置、音響特徴量抽出装置、異常音サンプリング装置、これらの方法及びプログラム
JPWO2017171051A1 (ja) * 2016-04-01 2019-03-07 日本電信電話株式会社 異常音検出学習装置、音響特徴量抽出装置、異常音サンプリング装置、これらの方法及びプログラム
JP7028311B2 (ja) 2018-03-12 2022-03-02 日本電信電話株式会社 学習用音声データ生成装置、その方法、およびプログラム
WO2019176830A1 (ja) * 2018-03-12 2019-09-19 日本電信電話株式会社 学習用音声データ生成装置、その方法、およびプログラム
JPWO2019176830A1 (ja) * 2018-03-12 2021-02-12 日本電信電話株式会社 学習用音声データ生成装置、その方法、およびプログラム
WO2020183845A1 (ja) * 2019-03-08 2020-09-17 日本電気株式会社 音響処理方法
US11996115B2 (en) 2019-03-08 2024-05-28 Nec Corporation Sound processing method
JP2021131485A (ja) * 2020-02-20 2021-09-09 富士通株式会社 認識方法、認識プログラム及び認識装置
JP2023550405A (ja) * 2020-12-03 2023-12-01 ▲騰▼▲訊▼科技(深▲セン▼)有限公司 人工知能に基づく音声処理方法、装置、電子機器、及びコンピュータプログラム
US12308041B2 (en) 2020-12-03 2025-05-20 Tencent Technology (Shenzhen) Company Limited Artificial intelligence-based audio processing method, apparatus, electronic device, computer-readable storage medium, and computer program product
JP7700236B2 (ja) 2020-12-03 2025-06-30 ▲騰▼▲訊▼科技(深▲セン▼)有限公司 人工知能に基づく音声処理方法、装置、電子機器、及びコンピュータプログラム
CN115050356A (zh) * 2022-06-07 2022-09-13 中山大学 一种噪声识别方法、装置以及计算机可读存储介质

Also Published As

Publication number Publication date
JP4787979B2 (ja) 2011-10-05

Similar Documents

Publication Publication Date Title
CN111524527B (zh) 话者分离方法、装置、电子设备和存储介质
CN110136749B (zh) 说话人相关的端到端语音端点检测方法和装置
JP4568371B2 (ja) 少なくとも2つのイベント・クラス間を区別するためのコンピュータ化された方法及びコンピュータ・プログラム
US9009048B2 (en) Method, medium, and system detecting speech using energy levels of speech frames
JP4728972B2 (ja) インデキシング装置、方法及びプログラム
CN104903954B (zh) 使用基于人工神经网络的亚语音单位区分的说话人验证及识别
CN102227767B (zh) 自动语音-文本转换系统和方法
US11837236B2 (en) Speaker recognition based on signal segments weighted by quality
US20120130716A1 (en) Speech recognition method for robot
US20130054236A1 (en) Method for the detection of speech segments
EP3989217B1 (en) Method for detecting an audio adversarial attack with respect to a voice input processed by an automatic speech recognition system, corresponding device, computer program product and computer-readable carrier medium
KR101888058B1 (ko) 발화된 단어에 기초하여 화자를 식별하기 위한 방법 및 그 장치
Van Segbroeck et al. Rapid language identification
JP2017032857A (ja) 音声処理装置及び音声処理方法
JP4787979B2 (ja) 雑音検出装置および雑音検出方法
CN114299962A (zh) 基于音频流的对话角色分离方法、系统、设备及存储介质
JPWO2010128560A1 (ja) 音声認識装置、音声認識方法、及び音声認識プログラム
JP2009086581A (ja) 音声認識の話者モデルを作成する装置およびプログラム
JP4696418B2 (ja) 情報検出装置及び方法
CN109065026B (zh) 一种录音控制方法及装置
JP6220733B2 (ja) 音声分類装置、音声分類方法、プログラム
JP7743875B2 (ja) 音声信号の処理方法、音声信号処理装置、およびプログラム
Vadillo et al. On the human evaluation of audio adversarial examples
Kinnunen et al. HAPPY team entry to NIST OpenSAD challenge: a fusion of short-term unsupervised and segment i-vector based speech activity detectors
JP7613587B2 (ja) 信号処理装置、信号処理方法及び信号処理プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20091104

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110428

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110607

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110628

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20110628

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140729

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees