JP2008145988A

JP2008145988A - 雑音検出装置および雑音検出方法

Info

Publication number: JP2008145988A
Application number: JP2006336336A
Authority: JP
Inventors: Tetsuya Takiguchi; 哲也滝口; Yasuo Ariki; 康雄有木; Nobuyuki Miyake; 信之三宅; Kentaro Koga; 健太郎古賀
Original assignee: Denso Ten Ltd; Kobe University NUC
Current assignee: Denso Ten Ltd; Kobe University NUC
Priority date: 2006-12-13
Filing date: 2006-12-13
Publication date: 2008-06-26
Anticipated expiration: 2026-12-13
Also published as: JP4787979B2

Abstract

【課題】雑音の種類（音源）を識別することを課題とする。
【解決手段】雑音が音声区間に重畳して存在する雑音重畳音声のデータが所定の音源による雑音であるか否かの二値を識別する最終識別器を所定の音源ごとに保持し、入力された雑音重畳音声のデータを保持された所定の音源ごとの最終識別器各々を用いて識別し、識別の結果、二値のうちいずれか一つの値に識別されたスコアが最も高い最終識別器を判定することで、データに存在する雑音の音源が判定された最終識別器が示す所定の音源であることを検出する。また、雑音重畳音声のデータを含む複数のデータを学習用データとして保持し、ブースティングを用いて、保持された学習用データから所定の音源ごとの最終識別器を導出する。
【選択図】図１

Description

この発明は、雑音検出装置および雑音検出方法に関する。

従来より、音声認識技術が使用されるにあたっては、発話に雑音が重畳することに起因して、誤認識が引き起こされることが少なくない。このことに着目し、スペクトラルサブトラクションを始めとした雑音を除去する研究が、数多くなされている。ここで、雑音の除去について具体的に説明すると、雑音の除去は、まず、雑音を推定し、次に、推定された雑音を雑音重畳音声（雑音が重畳された音声）から減算するという手順で行われる。この雑音の推定には、発話直前の雑音のみの区間（非音声区間）から雑音を推定する手法や、雑音のみの区間から得られた情報を確率的に追跡して雑音を推定する手法などが用いられることが多い。例えば、最小統計量に基づく雑音推定法などが用いられる（V.Stahl, A.Fischer, and R.Bippus, “Quantile based noise estimation for spectral subtruction and Wiener filtering”, Proc.ICASSP 2000, pp.1875-1878, May 2000）。

ところで、雑音の除去の前段階としての雑音の推定は、定常的な雑音や、時間的に緩やかに変化する雑音に対しては、非常に有効な手法であると考えられ、雑音除去（抑圧）に高い効果が得られることが期待できる。しかしながら、例えば、家の中のような実環境で音声認識技術が使用されることを考えると、雑音の中には、電話のコール音など、発話中に突如発生するもの（突発性雑音）も少なくない。例えば、図１８は、音声中に電話のコール音が重畳している波形を示すものである。このように、発話中に雑音が突如発生した時は、たとえ雑音が短時間しか継続しない場合であっても、音声認識率は低下する。

このため、かかる突発性雑音に対しても有効な手法を検討しなければならないが、上記したような手法を用いて突発性雑音を推定することは、通常困難である。また、ＨＭＭ合成の手法（三木一浩，西浦敬信，中村哲，鹿野清宏，“ＨＭＭを用いた環境音識別の検討”，電子情報通信学会音声研究会，SP99-106，pp.79-84(1999-12)、伊田政樹，中村哲，“雑音ＤＢを用いたモデル適応化ＨＭＭのＳＮ比別マルチパスモデルによる雑音下音声認識”，電子情報通信学会技術報告，Vol.101，No.522，pp.51-56，2001-12）を用いることも考えられるが、ＨＭＭ合成の手法を用いるには、あらかじめどのような雑音が音声に重畳されるかを特定しておかない限り、組み合わせの数が増えてしまい、結果として、音声認識に時間がかかることから、適切な手法であるとはいえない。

このようなことから、突発性雑音に対処することを目的とした場合には、雑音の除去の前段階として雑音を推定するのではなく、雑音を検出する手順によることが望ましいと考えられる。また、この雑音の検出には、音声のパワーを調べることで雑音を検出する手法や、ＡｄａＢｏｏｓｔ（アダブースト）によって雑音を検出する手法などを用いることが考えられる。もっとも、音声のパワーを調べることで雑音を検出する手法は、図１８の波形のように、極端にＳＮＲ（Signal vs. Noise Ratio）が悪い場合であれば、ある程度の検出をすることができるが、図１９の波形のように、ＳＮＲが５ｄＢの３種類の雑音（「スプレー音」、「紙を破る音」、「電話のコール音」）が音声区間に重畳して存在している場合には（「スプレー音」、「電話のコール音」は完全に音声区間に重畳して存在している）、これらを検出することは不可能に近い。

一方、ＡｄａＢｏｏｓｔによって雑音を検出する手法について説明すると、ＡｄａＢｏｏｓｔとは、二値判別問題に対して強力な手法であり、Ｂｏｏｓｔｉｎｇ（ブースティング）と呼ばれる手法の一つである。ここで、Ｂｏｏｓｔｉｎｇとは、判別性能の低い複数の弱識別器の重み付き多数決によって最終的な識別器を生成し、最終的な識別器による識別の結果を出力する手法である。ＡｄａＢｏｏｓｔは、高精度かつ高速であることから、画像情報から顔などのオブジェクトを検出する手法としてよく用いられている（Paul Viola and Michael Jones：“Rapid Object Detection using a Boosted Cascadeof Simple Features”．IEEECVPR，vol.1，pp.511-518，2001.）。また、非特許文献１および非特許文献２では、ＡｄａＢｏｏｓｔを用いて雑音を含まない音声区間を検出する手法が開示されている。

Kwon，O.,Lee,T.："Optimizing speech／non-speech classifier design using adaboost"Proc.IEEE ICASSP 2003, pp I-436-I-439.pp.Apr.2003 松田博義，滝口哲也，有木康雄："Real Adaboostによる音声区間検出"，日本音響学会2006年秋季研究発表会，2-P-12，PP.117-118，2006-09.

ところで、上記した従来の技術では、以下に説明するように、雑音の種類（音源）を識別することができないという課題があった。すなわち、ＡｄａＢｏｏｓｔによって雑音を検出する手法では、識別器は、例えば、「雑音」か「雑音ではない」かの二値を識別するものであることから、雑音の種類（音源）を識別することができない。

そこで、この発明は、上記した従来技術の課題を解決するためになされたものであり、雑音の種類（音源）を識別することが可能な雑音検出装置および雑音検出方法を提供することを目的とする。

上述した課題を解決し、目的を達成するため、請求項１に係る発明は、雑音が音声区間に重畳して存在する雑音重畳音声のデータが所定の音源による雑音であるか否かの二値を識別する最終識別器を所定の音源ごとに保持する最終識別器保持手段と、入力された前記雑音重畳音声のデータを前記最終識別器保持手段によって保持された前記所定の音源ごとの最終識別器各々を用いて識別し、当該識別の結果前記二値のうちいずれか一つの値に識別されたスコアが最も高い最終識別器を判定することで、当該データに存在する雑音の音源が当該判定された最終識別器が示す所定の音源であることを検出する検出手段と、を備えたことを特徴とする。

また、請求項２に係る発明は、上記の発明において、雑音重畳音声のデータを含む複数のデータを学習用データとして保持する学習用データ保持手段と、データが所定の音源による雑音であるか否かの二値を識別する識別器を学習用データから学習させることで学習が終了した最終識別器を導出するブースティングを用いて、前記学習用データ保持手段によって保持された前記学習用データから所定の音源ごとの最終識別器を導出する最終識別器導出手段と、をさらに備えたことを特徴とする。

また、請求項３に係る発明は、上記の発明において、前記最終識別器導出手段は、前記ブースティングとして、アダブーストを用いて前記最終識別器を導出することを特徴とする。

また、請求項４に係る発明は、上記の発明において、前記検出手段は、前記雑音重畳音声のデータをフレーム単位で識別し、当該データの雑音の区間が当該フレームで区切られた区間であることをさらに検出することを特徴とする。

また、請求項５に係る発明は、上記の発明において、入力された前記データの連続するフレームの中に、前記検出手段によって判定された前記最終識別器で識別された識別の結果が他のフレームとは異なる結果のフレームが含まれる場合には、当該異なる結果のフレームに対して平滑化を行う平滑化手段をさらに備えたことを特徴とする。

また、請求項６に係る発明は、雑音が音声区間に重畳して存在する雑音重畳音声のデータが所定の音源による雑音であるか否かの二値を識別する最終識別器を所定の音源ごとに保持する最終識別器保持工程と、入力された前記雑音重畳音声のデータを前記最終識別器保持工程によって保持された前記所定の音源ごとの最終識別器各々を用いて識別し、当該識別の結果前記二値のうちいずれか一つの値に識別されたスコアが最も高い最終識別器を判定することで、当該データに存在する雑音の音源が当該判定された最終識別器が示す所定の音源であることを検出する検出工程と、を含んだことを特徴とする。

請求項１または６の発明によれば、雑音が音声区間に重畳して存在する雑音重畳音声のデータが所定の音源による雑音であるか否かの二値を識別する最終識別器を所定の音源ごとに保持し、入力された雑音重畳音声のデータを保持された所定の音源ごとの最終識別器各々を用いて識別し、識別の結果、二値のうちいずれか一つの値に識別されたスコアが最も高い最終識別器を判定することで、データに存在する雑音の音源が判定された最終識別器が示す所定の音源であることを検出するので、雑音の種類（音源）を識別することが可能になる。

また、請求項２の発明によれば、雑音重畳音声のデータを含む複数のデータを学習用データとして保持し、データが所定の音源による雑音であるか否かの二値を識別する識別器を学習用データから学習させることで学習が終了した最終識別器を導出するブースティングを用いて、保持された学習用データから所定の音源ごとの最終識別器を導出するので、雑音の種類（音源）を適切に識別することが可能になる。

また、請求項３の発明によれば、雑音検出装置は、ブースティングとして、アダブーストを用いて最終識別器を導出するので、雑音の種類（音源）を適切に識別することが可能になる。

また、請求項４の発明によれば、雑音検出装置は、雑音重畳音声のデータをフレーム単位で識別し、データの雑音の区間がフレームで区切られた区間であることをさらに検出するので、上記の効果に加え、雑音の区間を検出することも可能になる。

また、請求項５の発明によれば、雑音検出装置は、入力されたデータの連続するフレームの中に、検出手段によって判定された最終識別器で識別された識別の結果が他のフレームとは異なる結果のフレームが含まれる場合には、異なる結果のフレームに対して平滑化を行うので、雑音の種類（音源）を正確に識別することが可能になる。

以下に添付図面を参照して、この発明に係る雑音検出装置および雑音検出方法の実施例を詳細に説明する。なお、以下では、実施例で用いる主要な用語、実施例１に係る雑音検出装置の概要および特徴、実施例１に係る雑音検出装置の構成および処理の手順、実施例１の効果を順に説明し、次に、他の実施例について説明する。

［用語の説明］
まず最初に、以下の実施例で用いる主要な用語を説明する。以下の実施例で用いる「雑音」とは、音声認識技術を使用するにあたり、認識すべき「音声」とは異なる「音」のことであり、認識すべき「音声」の認識において、通常妨げになると考えられる「音」のことである。以下では、認識対象の「音声」を、認識すべき「音声」が存在する区間である「音声区間」と、認識すべき「音声」が存在しない「非音声区間」との２つに大きく分類し、かかる「音声区間」に「雑音」が重畳して存在することと（認識すべき「音声」と「雑音」とが重畳する「音声」）、「雑音」のみが「非音声区間」に存在することとを、「雑音重畳音声」と定義する。

ところで、認識対象の「音声」に「雑音」が含まれると音声認識率は低下することから、「雑音」を除去（抑圧）した上で音声認識を行うべきであるが、この「雑音」の除去（抑圧）の前段階としては、「雑音」を検出することが必要になる。しかも、「雑音」の検出は、「雑音」の種類（音源）を識別した上で検出されることが望ましい。

ここで、「音源」について具体的に説明すると、例えば、「雑音」には、「スプレー音」（例えば、『シューッ』という音など）、「紙を破る音」（例えば、『ビリビリビリ』という音など）、「電話のコール音」（例えば、『プルルルル』という音など）など、様々な種類の「音源」があると考えられる。これらの「音源」の違いは、図１９に示すような波形の違いとなって現れることから、「雑音」を検出する際に「音源」を識別して検出することは、「雑音」を除去（抑圧）する際にも役立つことになる。言い換えると、「雑音」の「音源」を識別することで（どのような「雑音」が「音声」に混入したのかまでを知ることで）、雑音除去（抑圧）時には、あらかじめ「音源」ごとに保存された「雑音」のデータを用いて「雑音」を除去（抑圧）することができる。このようなことから、本発明に係る「雑音検出装置」が、いかなる方法によって「雑音」の「音源」を識別するかが、重要な点になる。

［実施例１に係る雑音検出装置の概要および特徴］
続いて、図１を用いて、実施例１に係る雑音検出装置の概要および特徴を説明する。図１は、実施例１に係る雑音検出装置の概要および特徴を説明するための図である。

実施例１に係る雑音検出装置は、上記したように、認識対象の「音声」から「雑音」を検出することを概要とし、雑音の種類（音源）を識別することを主たる特徴とする。

この主たる特徴について簡単に説明すると、実施例１に係る雑音検出装置は、学習用データ保持部に、雑音重畳音声を含むデータを、学習用データとして保持している。

例えば、実施例１に係る雑音検出装置は、図１の（１）に示すように、学習用データ保持部に、学習用データとして、複数のデータで構成された一つのグループを保持し、この一つのグループに対して、「音声のみ」、「スプレー音」、「紙を破る音」、「電話のコール音」などの音源ごとに、ラベルを付与して保持している。

これらの学習用データは、実施例１に係る雑音検出装置が最終識別器（雑音の検出に利用する識別器）を導出するためのデータであるので、雑音検出装置の利用者によって予め入力されたりすることで、雑音検出装置が予め保持しているものである。

このような構成のもと、実施例１に係る雑音検出装置は、ブースティングを用いて音源ごとの最終識別器を導出する。ここで、Ｂｏｏｓｔｉｎｇ（ブースティング）とは、データが所定の音源であるか否かの二値を識別する識別器を学習用データから学習させることで、学習が終了した最終識別器を導出するアルゴリズムのことである。実施例１においては、Ｂｏｏｓｔｉｎｇとして、ＡｄａＢｏｏｓｔ（アダブースト）を用いて音源ごとの最終識別器を導出する。なお、ＡｄａＢｏｏｓｔのアルゴリズムについては、雑音検出装置の構成を説明する際に、詳述する。

例えば、雑音検出装置は、図１の（２）に示すように、ＡｄａＢｏｏｓｔを用いて、『音声のみの識別器』（「音声のみ」であるか否かを識別する識別器）を学習データから学習させることで、『音声のみの最終識別器』を導出して保持する。同様に、雑音検出装置は、図１の（２）に示すように、ＡｄａＢｏｏｓｔを用いて、『スプレー音の識別器』（「スプレー音」であるか否かを識別する識別器）を学習データから学習させることで、『スプレー音の最終識別器』を導出して保持し、『紙を破る音の識別器』（「紙を破る音」であるか否かを識別する識別器）を学習データから学習させることで、『紙を破る音の最終識別器』を導出して保持し、『電話のコール音の識別器』（「電話のコール音」であるか否かを識別する識別器）を学習データから学習させることで、『電話のコール音の最終識別器』を導出して保持する。

次に、実施例１に係る雑音検出装置は、入力された雑音重畳音声のデータを、保持された音源ごとの最終識別器によってデータのフレーム単位で識別する。ここで、データのフレームとは、データをある時間で区切った固まりのことであり（例えば、『２０ｍｓ』など）、データの区間を示すものである。

例えば、雑音検出装置は、図１の（３）に示すように、入力されたデータを、『音声のみの最終識別器』、『スプレー音の最終識別器』、『紙を破る音の最終識別器』、『電話のコール音の最終識別器』などの最終識別器を用いて、データの「フレームＮｏ．１００」の区間について識別する。すると、例えば、図１の（３）に示すように、データの「フレームＮｏ．１００」は、『音声のみの最終識別器』を用いた識別の結果、二値のうちいずれか一つの値に『−０．３』というスコアで識別される。同様に、『スプレー音の最終識別器』を用いた識別の結果、二値のうちいずれか一つの値に『−０．１』というスコアで識別され、『紙を破る音の最終識別器』を用いた識別の結果、二値のうちいずれか一つの値に『−０．２』というスコアで識別され、『電話のコール音の最終識別器』を用いた識別の結果、二値のうちいずれか一つの値（ここでは、『電話のコール音』）に『０．５』というスコアで識別される。

続いて、実施例１に係る雑音検出装置は、二値のうちいずれか一つの値に識別されたスコアが最も高い最終識別器を判定する。例えば、雑音検出装置は、図１の（４）に示すように、二値のうちいずれか一つの値に『０．５』という最も高いスコアで識別された最終識別器が『電話のコール音の最終識別器』であることを判定する。

そして、雑音検出装置は、データの雑音区間がこのフレームで区切られた区間であること、並びに、データに存在する雑音の音源が判定された最終識別器が示す音源であることを検出する。例えば、雑音検出装置は、図１の（５）に示すように、データの雑音区間が「フレームＮｏ．１００」で区切られた区間であること、並びに、データに存在する雑音の音源が『電話のコール音』であることを検出する。

このようなことから、実施例１に係る雑音検出装置によれば、雑音の種類（音源）を識別することが可能になる。

なお、実施例１においては、雑音検出装置が、学習用データを予め保持し、学習用データから最終識別器を導出して保持した後に、保持した最終識別器を用いて入力された雑音重畳音声のデータの検出処理を行う事例について説明したが、本発明はこれに限られるものではない。例えば、学習用データの保持や、学習用データから最終識別器を導出する処理については、雑音検出装置とは異なる別の装置が行い、本発明に係る雑音検出装置は、別の装置で導出された最終識別器を保持し、保持した最終識別器を用いて入力された雑音重畳音声のデータの検出処理を行う事例についても、本発明を同様に適用することができる。

また、実施例１においては、雑音検出装置が、入力された雑音重畳音声のデータをフレーム単位で識別し、データの雑音の区間がフレームで区切られた区間であることをも検出する手法について説明したが、本発明はこれに限られるものではなく、雑音検出装置が、入力された雑音重畳音声のデータをフレーム単位で識別する手法によらない場合にも、本発明を同様に適用することができる。

また、実施例１においては、雑音検出装置が一つのグループを保持し、この一つのグループに対して、「音声のみ」、「スプレー音」、「紙を破る音」、「電話のコール音」などの音源ごとにラベルを付与して保持している事例について説明したが、本発明はこれに限られるものではない。例えば、音源としてその他の音源を選択する場合や、一つのグループに対して音源ごとのラベルを付与するのではなく、重複して複数のグループを保持する場合にも（ラベルは音源ごとに付与される）、本発明を同様に適用することができる。すなわち、音源は、本発明に係る雑音検出装置が利用される環境等に合わせて適宜選択されればよく、また、保持の形態はいずれでもよい。

［実施例１に係る雑音検出装置の構成］
次に、図２〜図１０を用いて、実施例１に係る雑音検出装置を説明する。図２は、実施例１に係る雑音検出装置の構成を示すブロック図であり、図３は、出力部を説明するための図であり、図４は、学習用データ保持部を説明するための図であり、図５は、最終識別器保持部を説明するための図であり、図６は、検出結果記憶部を説明するための図であり、図７および図８は、最終識別器導出処理（ＡｄａＢｏｏｓｔ）を説明するための図であり、図９および図１０は、区間音源検出処理（Ｍｕｌｔｉ−ｃｌａｓｓＡｄａＢｏｏｓｔ）を説明するための図である。

実施例１に係る雑音検出装置１０は、図２に示すように、入力部１１と、出力部１２と、入出力制御Ｉ／Ｆ部１３と、記憶部２０と、制御部３０とを備える。

入力部１１は、制御部３０による各種処理に用いるデータや、各種処理をするための操作指示などを、マイク、キーボード、またはマウスなどによって入力する。具体的には、入力部１１が、学習用データ（雑音重畳音声のデータを含む複数のデータ）をマイクで入力すると、入力されたデータは、後述する学習用データ保持部２１によって保持される。また、入力部１１が、後述する区間音源検出部３２による検出対象となるデータをマイクで入力すると、入力されたデータは、後述する入力データ一時記憶部２３によって保持される。

なお、実施例１においては、学習用データや検出対象となるデータを、マイクとしての入力部１１が雑音検出装置１０に入力する手法について説明したが、本発明はこれに限られるものではなく、学習用データを電子データ化した音声ファイルや、検出対象となるデータを電子データ化した音声ファイルなどを、外部記憶装置や通信部としての入力部１１が雑音検出装置１０に入力する手法などにも、本発明を同様に適用することができる。

出力部１２は、制御部３０による各種処理の結果や、各種処理をするための操作指示などを、ディスプレイまたはプリンタなどに出力する。具体的には、出力部１２は、後述する検出結果記憶部２４に記憶された検出結果を、ディスプレイまたはプリンタなどに出力する。

例えば、出力部１２は、図３に示すような検出結果をディスプレイに出力する。図３について具体的に説明すると、図３の上半分は、検出対象となるデータであって、音声区間に雑音が重畳して存在する雑音重畳音声の波形を示す図である。また、図３の下半分は、上半分に示した雑音重畳音声から、本発明に係る雑音検出装置１０が、雑音の区間を検出し、かつ、雑音の種類（音源）を識別した結果を示したものである。すなわち、図３に例示されている雑音重畳音声の波形においては、「スプレー音」（ｓｐｒａｙ）を音源とする雑音と、「紙を破る音」（ｐａｐｅｒ）を音源とする雑音と、「電話のコール音」（ｐｈｏｎｅ）を音源とする雑音とが、音声に重畳して存在していたことがわかる。

なお、図３の例では、出力部１２が、波形等で検出結果を出力する手法について説明したが、本発明はこれに限られるものではなく、検出結果をテキスト（例えば、「フレームＮｏ．１００」で区切られた区間のデータに存在する雑音の音源は『電話のコール音』である、など）で出力したり、ディスプレイやプリンタに出力するのではなく、雑音を除去（抑圧）する他の装置に出力するなど、いずれでもよい。

入出力制御Ｉ／Ｆ部１３は、入力部１１と、出力部１２と、記憶部２０と、制御部３０との間におけるデータ転送を制御する。

記憶部２０は、制御部３０における各種制御に用いられるデータを記憶し、特に本発明に密接に関連するものとしては、図２に示すように、学習用データ保持部２１と、最終識別器保持部２２と、入力データ一時記憶部２３と、検出結果記憶部２４とを備える。なお、学習用データ保持部２１は、特許請求の範囲に記載の「学習用データ保持手段」に対応し、最終識別器保持部２２は、特許請求の範囲に記載の「最終識別器保持手段」に対応する。

学習用データ保持部２１は、雑音重畳音声のデータを含む複数のデータを、学習用データとして保持する。具体的には、学習用データ保持部２１は、入力部１１によって入力された学習用データを保持し、保持した学習用データは、後述する最終識別器導出部３１による処理に利用される。

ここで、学習用データ保持部２１が保持する学習用データは、最終識別器導出部３１が最終識別器（雑音の検出に利用する識別器）を導出するためのデータであるので、雑音検出装置１０の利用者によって予め入力されたりすることで、学習用データ保持部２１が予め保持しているものである。なお、実施例１においては、雑音検出装置１０が学習用データ保持部２１に学習用データを予め保持する事例について説明したが、本発明はこれに限られるものではなく、学習用データの保持や、学習用データから最終識別器を導出する処理については、雑音検出装置１０とは異なる別の装置が行う事例にも、本発明を同様に適用することができる。この場合には、雑音検出装置１０は、学習用データ保持部２１を備えなくてもよい。

学習用データについて例を挙げて説明すると、例えば、学習用データ保持部２１は、図４に示すような学習用データを保持する。すなわち、学習用データ保持部２１は、「音声のみ」の学習用データのグループ、「スプレー音」の学習用データのグループ、「紙を破る音」の学習用データのグループ、および、「電話のコール音」の学習用データのグループとして、複数の音声データ（図４においては波形で図示する）で構成された共通の一つのグループを保持する。この学習用データのグループのことを、ＡｄａＢｏｏｓｔの理論においては、「特徴ベクトル」と表現したりする。

また、学習用データ保持部２１は、音源ごとに、「音声のみであるのか、それ以外であるのか」、「スプレー音であるのか、それ以外であるのか」、「紙を破る音であるのか、それ以外であるのか」、「電話のコール音であるのか、それ以外であるのか」などの情報を、音声データ各々について対応づけて保持している。これらの情報のことを、ＡｄａＢｏｏｓｔの理論においては、「ラベル」と表現したりする。「特徴ベクトル」や「ラベル」については、最終識別器導出部３１を説明する際に、詳述する。

なお、実施例１においては、学習用データ保持部２１が、共通の一つのグループを保持し、この一つのグループに対して、「音声のみ」、「スプレー音」、「紙を破る音」、「電話のコール音」などの音源ごとにラベルを付与して保持している事例について説明したが、本発明はこれに限られるものではない。例えば、音源としてその他の音源を選択する場合や、一つのグループに対して音源ごとのラベルを付与するのではなく、重複して複数のグループを保持する場合にも（ラベルは音源ごとに付与される）、本発明を同様に適用することができる。すなわち、音源は、本発明に係る雑音検出装置１０が利用される環境等に合わせて適宜選択されればよく、また、保持の形態はいずれでもよい。

最終識別器保持部２２は、所定の音源による雑音重畳音声のデータを識別する最終識別器（所定の音源による雑音であるか否かの二値を識別する最終識別器）を、所定の音源ごとに保持する。具体的には、最終識別器保持部２２は、後述する最終識別器導出部３１によって導出された最終識別器を所定の音源ごとに保持し、保持した最終識別器は、後述する区間音源検出部３２による処理に利用される。

ここで、最終識別器保持部２２が保持する最終識別器は、区間音源検出部３２が雑音を検出するための識別器であるので、区間音源検出部３２による検出処理の前に、最終識別器導出部３１によって予め導出され、最終識別器保持部２２が予め保持しているものである。なお、実施例１においては、雑音検出装置１０が最終識別器導出部３１を備え、最終識別器導出部３１によって導出された最終識別器を最終識別器保持部２２が保持する事例について説明したが、本発明はこれに限られるものではなく、学習用データの保持や、学習用データから最終識別器を導出する処理については、雑音検出装置１０とは異なる別の装置が行う事例にも、本発明を同様に適用することができる。この場合には、雑音検出装置１０は、雑音検出装置１０の利用者によって予め入力されたりすることで、最終識別器を保持するなどする。

最終識別器について例を挙げて説明すると、例えば、最終識別器保持部２２は、図５に示すような最終識別器を保持する。すなわち、最終識別器保持部２２は、識別内容として「音声のみであるか否かを識別」する『「音声のみ」の最終識別器』、識別内容として「スプレー音であるか否かを識別」する『「スプレー音」の最終識別器』、識別内容として「紙を破る音であるか否かを識別」する『「紙を破る音」の最終識別器』、識別内容として「電話のコール音であるか否かを識別」する『「電話のコール音」の最終識別器』などを保持する。なお、実施例１において、最終識別器はＡｄａＢｏｏｓｔの理論を用いて導出されたものであるが、ＡｄａＢｏｏｓｔの理論については、最終識別器導出部３１を説明する際に、詳述する。また、図５に示す「識別内容」の項目などは、説明の便宜上付与したものであって、最終識別器保持部２２が必ず保持しなければならない項目ではない。

入力データ一時記憶部２３は、雑音検出装置１０の検出対象となるデータを一時的に記憶する。具体的には、入力データ一時記憶部２３は、入力部１１によって入力された検出対象となるデータを一時的に記憶し、一時的に記憶した検出対象のデータは、後述する区間音源検出部３２による処理に利用される。

ここで、入力データ一時記憶部２３が保持するデータは、区間音源検出部３２が雑音を検出するためのデータであるので、雑音検出装置１０の利用者によって予め入力されたり、雑音検出にあたりその都度入力されたりすることで、入力データ一時記憶部２３が一時的に記憶するものである。また、入力データ一時記憶部２３が一時的に記憶した入力データは、区間音源検出部３２による処理が終了した直後に削除されてもよく、あるいは、必要に応じて所定の期間記憶し続けていてもよく、入力データ一時記憶部２３が入力データを記憶する期間は、運用に応じて適宜変更することができる。

検出結果記憶部２４は、検出対象となるデータの検出結果を記憶する。具体的には、検出結果記憶部２４は、後述する区間音源検出部３２や平滑化部３３によって検出（もしくは検出後平滑化）された検出結果を記憶し、記憶した検出結果は、出力部１２によって出力されるなどする。

ここで、検出結果記憶部２４が記憶した検出結果は、出力部１２による出力処理が終了した直後に削除されてもよく、あるいは、必要に応じて所定の期間記憶し続けていてもよく、検出結果記憶部２４が検出結果を記憶する期間は、運用に応じて適宜変更することができる。

検出結果について例を挙げて説明すると、例えば、検出結果記憶部２４は、図６に示すような検出結果を記憶する。すなわち、検出結果記憶部２４は、データのフレームで区切られた区間ごとに、データに存在する雑音の音源に関する情報を対応づけて保持する。ここで、図６の上半分は、区間音源検出部３２によって検出処理を行ったデータの平滑化前の検出結果であり、図６の下半分は、区間音源検出部３２によって検出処理を行ったデータに対して、平滑化部３３によって平滑化処理を行った後の検出結果を示すものである。両者の違いについては、平滑化部３３を説明する際に、詳述する。

なお、実施例１においては、検出結果記憶部２４が図６に示すような検出結果を記憶する手法について説明したが、本発明はこれに限られるものではなく、その他の形態で検出結果を記憶する手法や、平滑化前の検出結果を記憶しない手法など、検出結果記憶部２４が記憶する検出結果については、運用に応じて適宜変更することができる。

制御部３０は、雑音検出装置１０における各種制御を行い、特に本発明に密接に関連するものとしては、図２に示すように、最終識別器導出部３１と、区間音源検出部３２と、平滑化部３３とを備える。なお、最終識別器導出部３１は、特許請求の範囲に記載の「最終識別器導出手段」に対応し、区間音源検出部３２は、特許請求の範囲に記載の「検出手段」に対応し、平滑化部３３は、特許請求の範囲に記載の「平滑化手段」に対応する。

最終識別器導出部３１は、識別器（データが所定の音源による雑音であるか否かの二値を識別する識別器、以下、弱識別器）を学習用データから学習させることで学習が終了した最終識別器を導出するブースティングを用いて、所定の音源ごとの最終識別器を導出する。具体的には、最終識別器導出部３１は、学習用データ保持部２１によって保持された学習用データから、ＡｄａＢｏｏｓｔの理論を用いて最終識別器を導出し、導出した最終識別器を、最終識別器保持部２２に保持させる。

なお、実施例１においては、雑音検出装置１０が学習用データ保持部２１に学習用データを予め保持し、最終識別器導出部３１が予め保持された学習用データから最終識別器を導出する事例について説明したが、本発明はこれに限られるものではなく、学習用データの保持や、学習用データから最終識別器を導出する処理については、雑音検出装置１０とは異なる別の装置が行う事例にも、本発明を同様に適用することができる。この場合には、雑音検出装置１０は、最終識別器導出部３１を備えなくてもよい。

以下、最終識別器導出部３１による最終識別器導出処理について、詳述する。最終識別器導出処理は、ブースティング（Ｂｏｏｓｔｉｎｇ）を用いて行われるが、実施例１においては、ブースティングの一つであるアダブースト（ＡｄａＢｏｏｓｔ）を用いて行われる例について説明する。

ＡｄａＢｏｏｓｔの手順について、図７を用いて概要を説明すると、ＡｄａＢｏｏｓｔでは、まず、初期の重みで重み付けされた学習用データ（ステップＳ７０１〜ステップＳ７０２）から弱識別器を学習した後（ステップＳ７０３）、その弱識別器で誤識別を起こした学習用データの重みが大きくなるように、学習用データの重みを更新する（ステップＳ７０５）。次に、更新された新しい重みで重み付けされた学習用データから新しい弱識別器を学習し（ステップＳ７０３）、再び、その新しい弱識別器で誤識別を起こした学習用データの重みが大きくなるように、学習用データの重みを更新する（ステップＳ７０５）。こうして、弱識別器を自動で生成（学習）していき、最後に、複数生成された弱識別器の重み付き多数決で（ステップＳ７０４）、最終的な識別器（最終識別器）を生成する（ステップＳ７０６）。

上記したＡｄａＢｏｏｓｔの手順について、図８を用いてより詳細に説明すると、ＡｄａＢｏｏｓｔでは、まず、図８の（Ａ）に示すように、「特徴ベクトル」と「ラベル」とが対応づけられた学習用データを与える（ステップＳ７０１に相当）。ここで、「特徴ベクトル」および「ラベル」は、実施例１においては、例えば、学習用データ保持部２１によって保持される学習用データのグループ、および、「スプレー音であるのか、それ以外であるのか」の情報のことである。

次に、ＡｄａＢｏｏｓｔでは、図８の（Ｂ）に示すように、学習用データの重みを初期化する（ステップＳ７０２に相当）。すなわち、例えば、ある学習用データの「ラベル」が「スプレー音」であれば、学習用データ全体の中で「ラベル」が「スプレー音」となるデータの数の２倍の値で割ったものを、この学習用データの初期の重みとする。同様に、例えば、ある学習用データの「ラベル」が「それ以外（スプレー音以外）」であれば、学習用データ全体の中で「ラベル」が「それ以外（スプレー音以外）」となるデータの数の２倍の値で割ったものを、この学習用データの初期の重みとする。なお、２倍の値で割るのは、正規化するためである。

続いて、ＡｄａＢｏｏｓｔでは、図８の（Ｃ）に示すように、初期の重みで重み付けされた学習用データから弱識別器で学習した後、弱識別器自体の重みを決定するとともに、その弱識別器で誤識別を起こした学習用データの重みが大きくなるように、学習用データの重みを更新する（ステップＳ７０３〜７０５に相当）。すなわち、例えば、図８の（Ｂ）で初期の重みで重み付けされた「スプレー音」の学習用データから、（２．１）で示すように、誤識別が最小となるように弱識別器を学習した後（弱識別器１とする）、（２．２）式および（２．３）式で示すように、弱識別器１自体の重みを決定するとともに、（２．４）式で示すように、弱識別器１で誤識別を起こした学習用データの重みが大きくなるように、学習用データの重みを更新する。

こうして、ＡｄａＢｏｏｓｔでは、弱識別器１から弱識別器Ｔまで、複数の弱識別器を自動で生成（学習）していき、最後に、図８の（Ｄ）に示すように、複数生成された弱識別器の重み付き多数決で、最終的な識別器（最終識別器）を生成する（ステップＳ７０６に相当）。例えば、「スプレー音」の最終識別器を生成する。言い換えると、弱識別器は、各次元（１〜Ｔ）において、重み付きエラーが最小になるように閾値を設定し、その中でさらに重み付きエラーが最小となる次元を選択したことになる。

このようにして、実施例１における最終識別器導出部３１は、上記してきたようなＡｄａＢｏｏｓｔの理論を用いて、学習用データから所定の音源ごとの最終識別器を導出する。具体的には、最終識別器導出部３１は、図９の（１．１）式に示すように、学習用データ保持部２１によって保持された学習用データ（共通の一つのグループ）の「ラベル」を所定の音源ごとに付け替え、（１．２）式に示すように、所定の音源ごとの最終識別器を導出する。

ここで、上記してきたように、ＡｄａＢｏｏｓｔは、基本的に二クラス判別であるが、雑音の除去（抑圧）を考えるのであれば、雑音の音源を識別し（どのような雑音が音声に混入したのかまでを知り）、雑音除去（抑圧）時には、あらかじめ音源ごとに保存された雑音のデータを用いて雑音を除去（抑圧）することが望ましい。このようなことから、最終識別器導出部３１は、ＡｄａＢｏｏｓｔを多クラス問題に適応できるように拡張することで（１クラス対その他のクラスの二値判別器を複数作成）、Ｍｕｌｔｉ―ｃｌａｓｓを実現し、区間音源検出部３２において雑音の種類（音源）の識別まで行えるようにしているのである。

区間音源検出部３２は、入力された雑音重畳音声のデータの雑音の区間と雑音の音源とを検出する。具体的には、区間音源検出部３２は、入力データ一時記憶部２３によって記憶された雑音重畳音声データを、最終識別器保持部２２によって保持された所定の音源ごとの最終識別器各々を用いてフレーム単位で識別し、識別の結果、二値のうちいずれか一つの値に識別されたスコアが最も高い最終識別器を判定することで、データの雑音の区間がフレームで区切られた区間であること、並びに、データに存在する雑音の音源が判定された最終識別器が示す所定の音源であることを検出し、検出した結果を、検出結果記憶部２４に記憶させたり、平滑化部３３による処理に利用させたりする。

以下、区間音源検出部３２の検出処理について、図１０を用いて説明すると、区間音源検出部３２は、まず、入力データ一時記憶部２３によって記憶された雑音重畳音声データ（ステップＳ１００１）を、最終識別器保持部２２によって保持された所定の音源ごとの最終識別器各々を用いてフレーム単位で識別する（ステップＳ１００２）。言い換えると、区間音源検出部３２は、Ｍｕｌｔｉ−ｃｌａｓｓＡｄａＢｏｏｓｔに、フレームごとの特徴量である対数メルフィルタバンクを入力し、「音声のみであるか否か」、「スプレー音であるか否か」、「紙を破る音であるか否か」、「電話のコール音であるか否か」、というように識別していく。そして、識別の結果、二値のうちいずれか一つの値に識別されたスコアが最も高い最終識別器を判定することで（ステップＳ１００３）、データの雑音の区間がフレームで区切られた区間であること、並びに、データに存在する雑音の音源が判定された最終識別器が示す所定の音源であることを検出する。

区間音源検出部３２の検出処理について具体的に例を挙げて説明すると、区間音源検出部３２は、入力された雑音重畳音声のデータを、保持された音源ごとの最終識別器によってデータのフレーム単位で識別する。ここで、データのフレームとは、データをある時間で区切った固まりのことであり（例えば、『２０ｍｓ』など）、データの区間を示すものである。

例えば、区間音源検出部３２は、入力されたデータを、『音声のみの最終識別器』、『スプレー音の最終識別器』、『紙を破る音の最終識別器』、『電話のコール音の最終識別器』などの最終識別器を用いて、データの「フレームＮｏ．１００」の区間について識別する。すると、例えば、データの「フレームＮｏ．１００」は、『音声のみの最終識別器』を用いた識別の結果、二値のうちいずれか一つの値に『−０．３』というスコアで識別される。同様に、データの「フレームＮｏ．１００」は、『スプレー音の最終識別器』を用いた識別の結果、二値のうちいずれか一つの値に『−０．１』というスコアで識別され、『紙を破る音の最終識別器』を用いた識別の結果、二値のうちいずれか一つの値に『−０．２』というスコアで識別され、『電話のコール音の最終識別器』を用いた識別の結果、二値のうちいずれか一つの値（ここでは、『電話のコール音』）に『０．５』というスコアで識別される。

続いて、区間音源検出部３２は、二値のうちいずれか一つの値に識別されたスコアが最も高い最終識別器を判定する。例えば、区間音源検出部３２は、二値のうちいずれか一つの値に『０．５』という最も高いスコアで識別された最終識別器が『電話のコール音の最終識別器』であることを判定する。

そして、区間音源検出部３２は、データの雑音区間がこのフレームで区切られた区間であること、並びに、データに存在する雑音の音源が判定された最終識別器が示す音源であることを検出する。例えば、区間音源検出部３２は、データの雑音区間が「フレームＮｏ．１００」で区切られた区間であること、並びに、データに存在する雑音の音源が『電話のコール音』であることを検出する。

このように、区間音源検出部３２は、ＡｄａＢｏｏｓｔを多クラス問題に適応できるように拡張することで（複数の二値判別器のうち、最も結果の高かったものを識別結果とすることで）、Ｍｕｌｔｉ―ｃｌａｓｓを実現し、雑音の種類（音源）の識別まで行えるようにしているのである。

なお、実施例１においては、区間音源検出部３２による検出の後、平滑化部３３による平滑化処理（ステップＳ１００４）や、出力部１２による出力処理（ステップＳ１００５）などが行われる。また、実施例１においては、区間音源検出部３２が、入力された雑音重畳音声のデータをフレーム単位で識別し、データの雑音の区間がフレームで区切られた区間であることをも検出する手法について説明したが、本発明はこれに限られるものではなく、区間音源検出部３２が、入力された雑音重畳音声のデータをフレーム単位で識別する手法によらない場合にも、本発明を同様に適用することができる。

平滑化部３３は、入力されたデータの連続するフレームの中に、識別の結果が他のフレームとは異なる結果のフレームが含まれる場合には、異なる結果のフレームに対して平滑化を行う。具体的には、平滑化部３３は、区間音源検出部３２によって検出された検出結果で、検出結果記憶部２４に記憶された検出結果に対して、識別の結果が他のフレームとは異なる結果のフレームが含まれる場合には、異なる結果のフレームに対して平滑化を行い、平滑化を行った結果を、検出結果記憶部２４に記憶する。

例えば、平滑化部３３は、「雑音」として検出されるフレームが連続している中で、ごくわずかに「音声」として検出されるフレームが存在した場合、このフレームは「音声」ではなく、誤識別を起こした「雑音」だと考える。具体的に例を挙げて説明すると、平滑化部３３は、例えば、前後３フレームおよびそのフレームの計７フレームの中で、最も多い検出結果をそのフレームの検出結果とし、変更がなくなるまで繰り返す。平滑化部３３は、連続して「雑音」と判定されている区間は、フレームごとに検出結果が異なっても、ひとつの「雑音」とみなす。

図６に示すように、平滑化部３３は、例えば、「フレームＮｏ．１０１」に着目すると、「フレームＮｏ．１０１」の前後３フレームおよびそのフレームの計７フレームの中で、最も多い検出結果は「電話のコール音」であるので、「フレームＮｏ．１０１」の検出結果も「電話のコール音」であるとする。

なお、実施例１における平滑化部３３は、例えば、継続時間が２００ｍｓ以上の雑音を対象としているため、それより明らかに小さい継続時間で雑音と判定されるものは、「湧き出し」と考える。例えば、継続時間が２００ｍｓの半分である１００ｍｓ以下の雑音については、切り取りを行う。

また、実施例１においては、平滑化部３３が異なる結果のフレームに対して平滑化を行い、平滑化された結果を検出結果として出力する手法について説明したが、本発明はこれに限られるものではなく、平滑化部３３によって平滑化処理が行われず、平滑化されていない結果を検出結果として出力する手法にも、本発明を同様に適用することができる。

［実施例１に係る雑音検出装置による処理の手順］
次に、図１１を用いて、実施例１に係る雑音検出装置による処理の手順（一例）を説明する。図１１は、実施例１に係る雑音検出装置による処理の手順を示すフローチャートである。

まず、雑音検出装置１０は、区間音源検出部３２において、検出対象のデータの入力を受け付けたか否かを判定する（ステップＳ１１０１）。データの入力を受け付けていない場合には（ステップＳ１１０１否定）、雑音検出装置１０は、区間音源検出部３２において、検出対象のデータの入力を受け付けたか否かを判定する処理に戻る。

一方、データの入力を受け付けた場合には（ステップＳ１１０１肯定）、雑音検出装置１０は、区間音源検出部３２において、所定の音源の最終識別器で、入力されたデータの１フレームを識別する（ステップＳ１１０２）。

続いて、雑音検出装置１０は、区間音源検出部３２において、全ての音源の最終識別器で識別したか否かを判定する（ステップＳ１１０３）。全ての音源の最終識別器で識別していない場合には（ステップＳ１１０３否定）、雑音検出装置１０は、区間音源検出部３２において、最終識別器を変更し（ステップＳ１１０４）、変更後の所定の音源の最終識別器で、入力されたデータの１フレームを識別する処理に戻る。

一方、全ての音源の最終識別器で識別した場合には（ステップＳ１１０３肯定）、雑音検出装置１０は、区間音源検出部３２において、二値のうちいずれか一つの値に識別されたスコアが最も高い最終識別器を判定する（ステップＳ１１０５）。

そして、雑音検出装置１０は、区間音源検出部３２において、データの雑音の区間がフレームで区切られた区間であること、並びに、データに存在する雑音の音源が、判定された最終識別器が示す所定の音源であることを検出する（ステップＳ１１０６）。

次に、雑音検出装置１０は、区間音源検出部３２において、全てのフレームについて検出したか否かを判定する（ステップＳ１１０７）。全てのフレームについて検出していない場合には（ステップＳ１１０７否定）、雑音検出装置１０は、区間音源検出部３２において、フレームを変更し（ステップＳ１１０８）、所定の音源の最終識別器で、入力されたデータの１フレームを識別する処理に戻る。

一方、全てのフレームについて検出した場合には（ステップＳ１１０７肯定）、雑音検出装置１０は、平滑化部３３において、平滑化処理を行い（ステップＳ１１０９）、検出結果を出力部１２に出力するなどして（ステップＳ１１１０）、処理を終了する。

このようにして、実施例１に係る雑音検出装置１０は、雑音の種類（音源）を識別することが可能になる。

［実施例１の効果］
上記してきたように、実施例１によれば、雑音が音声区間に重畳して存在する雑音重畳音声のデータが所定の音源による雑音であるか否かの二値を識別する最終識別器を所定の音源ごとに保持し、入力された雑音重畳音声のデータを保持された所定の音源ごとの最終識別器各々を用いて識別し、識別の結果、二値のうちいずれか一つの値に識別されたスコアが最も高い最終識別器を判定することで、データに存在する雑音の音源が判定された最終識別器が示す所定の音源であることを検出するので、雑音の種類（音源）を識別することが可能になる。

また、実施例１によれば、雑音重畳音声のデータを含む複数のデータを学習用データとして保持し、データが所定の音源による雑音であるか否かの二値を識別する識別器を学習用データから学習させることで学習が終了した最終識別器を導出するブースティングを用いて、保持された学習用データから所定の音源ごとの最終識別器を導出するので、雑音の種類（音源）を適切に識別することが可能になる。

また、実施例１によれば、雑音検出装置は、ブースティングとして、アダブーストを用いて最終識別器を導出するので、雑音の種類（音源）を適切に識別することが可能になる。

また、実施例１によれば、雑音検出装置は、雑音重畳音声のデータをフレーム単位で識別し、データの雑音の区間がフレームで区切られた区間であることをさらに検出するので、上記の効果に加え、雑音の区間を検出することも可能になる。

また、実施例１によれば、雑音検出装置は、入力されたデータの連続するフレームの中に、検出手段によって判定された最終識別器で識別された識別の結果が他のフレームとは異なる結果のフレームが含まれる場合には、異なる結果のフレームに対して平滑化を行うので、雑音の種類（音源）を正確に識別することが可能になる。

さて、これまで、実施例１として、雑音検出装置１０の概要および特徴、構成、処理の手順などについて説明してきたが、次に、実施例２として、本発明に係る雑音検出装置１０による評価実験について説明する。なお、実施例２における評価実験は、本発明に係る雑音検出装置１０の再現率、適合率、および、雑音の識別率を評価することを主たる目的としている。

［実験条件］
まず、実施例２における評価実験の実験条件について説明する。「学習用データ」には、ＡＳＪから提供されている研究用連続音声データベースから、男性話者２１人×１０発話の発話データを用い、検証対象である「評価データ」には、同じくＡＳＪから提供されている研究用連続音声データベースから、男性話者５人×平均２４０発話の発話データを用いた。また、「雑音」には、ＲＷＣＰの提供する非音声ドライソースの中から、「スプレー音」、「紙を破る音」、「電話のコール音」の三種類のデータを用いた。

「学習用データ」には、発話データと、さらに、その発話データにＳＮＲを調整した各「雑音」を重畳させたものとを用いた。また、「学習用データ」のＳＮＲは、『−５ｄＢ』から『５ｄＢ』の間でランダムに変化させた。一方、「評価データ」には、１発話に２００ｍｓ以上の継続時間のＳＮＲを調整した「雑音」を１〜３つ重畳させたものを用いた。ただし、雑音が重畳した区間に、さらに別の雑音が重畳するようなデータは存在しない。また、「評価データ」のＳＮＲは、『−５ｄＢ』、『０ｄＢ』、『５ｄＢ』の３つである。

なお、実施例２における評価実験において、ＳＮＲは、図１２の（Ａ）〜（Ｃ）に示す式で求めた。また、特徴量には、「対数メルフィルタバンク」を使用した。「学習用データ」、「評価データ」ともに、フレーム幅は『２０ｍｓ』、フレームシフト『１０ｍｓ』であり、「１−（０．９７ｚの（−１）乗）」のプリエンファシス、ハミング窓を用いている。

［雑音検出］
実施例２における評価実験における判定について説明すると、まず、検出という観点のみから、区間が正しく検出できているものは、雑音の種類（音源）が異なっていたとしても、「正解」と判定することとする。また、誤差のマージンを決めておき、正解データとの誤差がそのマージン以内であるものも、「正解」と判定する。なお、マージンは、実施例２における評価実験では、『３０ｍｓ』とした。また、検出区間が大きすぎるものは、「誤検出」、検出区間が小さすぎるものは、「未検出」とした。

評価には、図１３の（Ａ）に示す検出率（Ｄｅｔｅｃｔｉｏｎｒａｔｅ）、図１３の（Ｂ）に示す再現率（Ｒｅｃａｌｌｒａｔｅ）、および、図１３の（Ｃ）に示す適合率（Ｐｒｅｃｉｓｉｏｎｒａｔｅ）の３つを用いる。ここで、検出率、再現率、および適合率は、検出した区間の中で正解した数「Ｔｐ」、誤検出数「Ｆｐ」、未検出数「Ｔｎ」、雑音の総数「Ｔａ」を用いて、図１３の（Ａ）〜（Ｃ）式で計算される。ここで、本来、検出率と再現率とは等しいものだが、実施例２における評価実験では、区間を大きく取りすぎた雑音を「誤検出」として評価していることから、検出率と再現率とで異なる値が出る場合があるので、その両方を示すものである。

評価実験の結果は、図１４に示す通りとなった。全てのＳＮＲに対して、検出率、再現率、および適合率が『９５％以上』と良好な結果がでており、『５ｄＢ』以上の強さの「雑音」であれば、検出できることが確認された。

［雑音識別］
ところで、上記では、区間さえ正しければ雑音の種類（音源）が異なっていたとしても「正解」と判定したが、次に、区間が正しく判定された雑音の中での雑音の識別率を評価し、さらに、検出率と併せて、区間が正しく、かつ、雑音の識別結果も正しいものを、雑音の正解率として求めた。その結果が、図１５である。

図１５から、すべてのＳＮＲにおいて、『９９．５％』を超える高い雑音識別率（ノイズ識別率）を得ることができていることがわかる。すなわち、検出できたもののほとんどについて、雑音の種類（音源）を正しく識別できていることになる。なお、正しく検出や識別ができている評価実験の出力例は、図３に示したものである。図３に示すように、波形のみでは「電話のコール音」を見分けることはできないが、本発明に係る雑音検出装置１０によって、全て、正しく検出できており、雑音の種類（音源）を正しく識別できている。

［ミスマッチモデルによる検出精度の変化］
ところで、上記では、「評価データ」の「雑音」と「学習用データ」の「雑音」とのＳＮＲが等しかったが、次に、「評価データ」と「学習用データ」とのＳＮＲを変化させ、検出精度がどの程度変化するかを調べることとする。上記と同様に『ＳＮＲ−５ｄＢ〜５ｄＢ』の「学習用データ」で学習したモデル、『ＳＮＲ−５ｄＢのみ』の「学習用データ」で学習したモデル、『ＳＮＲ０ｄＢのみ』の「学習用データ」で学習したモデル、『ＳＮＲ５ｄＢのみ』の「学習用データ」を用いて学習したモデルのそれぞれについて、『ＳＮＲ−１０ｄＢ〜１０ｄＢ』の「評価データ」に対する検出率、再現率、および適合率を算出し、違いを比較する。なお、ＡｄａＢｏｏｓｔの学習回数は、同様に、１，０００回である。

結果は、図１６に示すとおりである。適合率は、「評価データ」の「雑音」のＳＮＲを変化させても、誤検出数には影響しなかったことから、学習時に用いる「学習用データ」のＳＮＲによって、ほぼ決定する。「学習用データ」のＳＮＲが低くなるほど、適合率は高くなる結果となった。

また、「評価データ」のＳＮＲが高くなるほど、未検出数が増える傾向がある。図１６より、「学習用データ」『ＳＮＲ−５ｄＢ』の識別器を用いたとき、「評価データ」『ＳＮＲ５ｄＢ』において、検出率は『７６．７％』、「学習用データ」『ＳＮＲ０ｄＢ』の識別器では、評価データ『ＳＮＲ１０ｄＢ』において、検出率『６９．９％』まで下がる。全てについて学習した識別器では、『−５ｄＢ』、『０ｄＢ』と比べ適合率が下がるが、検出率、再現率の減少量は少なかった。

［ミスマッチモデルによる雑音識別精度の変化］
上記と同様の条件で、「雑音」の識別率および正解率を評価する。結果は、図１７に示す。図１７より、「学習用データ」の「雑音」のＳＮＲと、「評価データ」のＳＮＲとの差が大きいほど、識別率は低下するという結果になった。『ＳＮＲ−５ｄＢ』で学習した識別器を用いたときの「評価データ」『ＳＮＲ１０ｄＢ』の識別率は、『９４．４％』と減少はするものの、高い値を示しており、『ＳＮＲ５ｄＢ』で学習した識別器を用いたとき、「評価データ」『ＳＮＲ−１０ｄＢ』の識別率は、『８０．１％』と比較的低い値となった。また、『ＳＮＲ０ｄＢ』で学習したデータを見ると、「評価データ」『ＳＮＲ１０ｄＢ』では、『９５．９％』、「評価データ」『ＳＮＲ−１０ｄＢ』では、『９３．７％』となった。また、「雑音」の正解率は、モデルマッチの高いものが、高い値を示すが、平均的にみると、『ＳＮＲ−５ｄＢ〜５ｄＢ』で学習したものが、一番高い値を示した。

さて、これまで本発明の実施例について説明したが、本発明は上記した実施例以外にも、種々の異なる形態にて実施されてよいものである。

［システム構成等］
本実施例において説明した各処理のうち、自動的におこなわれるものとして説明した処理（例えば、保持する学習用データから最終識別器を導出する処理など）の全部または一部を手動的におこなうこともでき（例えば、必要に応じてコマンドを入力することで、保持する学習用データから最終識別器を導出する処理など）、あるいは、手動的におこなわれるものとして説明した処理（例えば、学習用データの入力など）の全部または一部を公知の方法で自動的におこなうこともできる（例えば、ネットワークを介して自動的にダウンロードなど）。この他、上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。

また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示（例えば、図２など）の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる（例えば、検出結果記憶部を、平滑化前と平滑化後とで分散して構成するなど）。さらに、各装置にて行なわれる各処理機能は、その全部または任意の一部が、ＣＰＵおよび当該ＣＰＵにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。

なお、本実施例で説明した雑音検出方法は、あらかじめ用意されたプログラムをパーソナルコンピュータやワークステーションなどのコンピュータで実行することによって実現することができる。このプログラムは、インターネットなどのネットワークを介して配布することができる。また、このプログラムは、ハードディスク、フレキシブルディスク（ＦＤ）、ＣＤ−ＲＯＭ、ＭＯ、ＤＶＤなどのコンピュータで読み取り可能な記録媒体に記録され、コンピュータによって記録媒体から読み出されることによって実行することもできる。

以上のように、本発明に係る雑音検出装置および雑音検出方法は、「雑音」を検出することに有用であり、特に、雑音の種類（音源）を識別することに適する。

実施例１に係る雑音検出装置の概要および特徴を説明するための図である。実施例１に係る雑音検出装置の構成を示すブロック図である。出力部を説明するための図である。学習用データ保持部を説明するための図である。最終識別器保持部を説明するための図である。検出結果記憶部を説明するための図である。最終識別器導出処理（ＡｄａＢｏｏｓｔ）を説明するための図である。最終識別器導出処理（ＡｄａＢｏｏｓｔ）を説明するための図である。区間音源検出処理（Ｍｕｌｔｉ−ｃｌａｓｓＡｄａＢｏｏｓｔ）を説明するための図である。区間音源検出処理（Ｍｕｌｔｉ−ｃｌａｓｓＡｄａＢｏｏｓｔ）を説明するための図である。実施例１に係る雑音検出装置による処理の手順を示すフローチャートである。ＳＮＲを求める計算式を説明するための図である。検出率、再現率、および適合率を説明するための図である。実施例２に係る雑音検出装置の評価結果を示す図である。実施例２に係る雑音検出装置の評価結果を示す図である。実施例２に係る雑音検出装置の評価結果を示す図である。実施例２に係る雑音検出装置の評価結果を示す図である。音声に電話音が重畳した波形を示す図である。音声に各雑音が重畳した波形を示す図である。

符号の説明

１０雑音検出装置
１１入力部
１２出力部
１３入出力制御Ｉ／Ｆ部
２０記憶部
２１学習用データ保持部
２２最終識別器保持部
２３入力データ一時記憶部
２４検出結果記憶部
３０制御部
３１最終識別器導出部
３２区間音源検出部
３３平滑化部

Claims

雑音が音声区間に重畳して存在する雑音重畳音声のデータが所定の音源による雑音であるか否かの二値を識別する最終識別器を所定の音源ごとに保持する最終識別器保持手段と、
入力された前記雑音重畳音声のデータを前記最終識別器保持手段によって保持された前記所定の音源ごとの最終識別器各々を用いて識別し、当該識別の結果前記二値のうちいずれか一つの値に識別されたスコアが最も高い最終識別器を判定することで、当該データに存在する雑音の音源が当該判定された最終識別器が示す所定の音源であることを検出する検出手段と、
を備えたことを特徴とする雑音検出装置。
雑音重畳音声のデータを含む複数のデータを学習用データとして保持する学習用データ保持手段と、
データが所定の音源による雑音であるか否かの二値を識別する識別器を学習用データから学習させることで学習が終了した最終識別器を導出するブースティングを用いて、前記学習用データ保持手段によって保持された前記学習用データから所定の音源ごとの最終識別器を導出する最終識別器導出手段と、
をさらに備えたことを特徴とする請求項１に記載の雑音検出装置。
前記最終識別器導出手段は、前記ブースティングとして、アダブーストを用いて前記最終識別器を導出することを特徴とする請求項２に記載の雑音検出装置。
前記検出手段は、前記雑音重畳音声のデータをフレーム単位で識別し、当該データの雑音の区間が当該フレームで区切られた区間であることをさらに検出することを特徴とする請求項１〜３のいずれか一つに記載の雑音検出装置。
入力された前記データの連続するフレームの中に、前記検出手段によって判定された前記最終識別器で識別された識別の結果が他のフレームとは異なる結果のフレームが含まれる場合には、当該異なる結果のフレームに対して平滑化を行う平滑化手段をさらに備えたことを特徴とする請求項４に記載の雑音検出装置。
雑音が音声区間に重畳して存在する雑音重畳音声のデータが所定の音源による雑音であるか否かの二値を識別する最終識別器を所定の音源ごとに保持する最終識別器保持工程と、
入力された前記雑音重畳音声のデータを前記最終識別器保持工程によって保持された前記所定の音源ごとの最終識別器各々を用いて識別し、当該識別の結果前記二値のうちいずれか一つの値に識別されたスコアが最も高い最終識別器を判定することで、当該データに存在する雑音の音源が当該判定された最終識別器が示す所定の音源であることを検出する検出工程と、
を含んだことを特徴とする雑音検出方法。