JP2008145988A - 雑音検出装置および雑音検出方法 - Google Patents
雑音検出装置および雑音検出方法 Download PDFInfo
- Publication number
- JP2008145988A JP2008145988A JP2006336336A JP2006336336A JP2008145988A JP 2008145988 A JP2008145988 A JP 2008145988A JP 2006336336 A JP2006336336 A JP 2006336336A JP 2006336336 A JP2006336336 A JP 2006336336A JP 2008145988 A JP2008145988 A JP 2008145988A
- Authority
- JP
- Japan
- Prior art keywords
- noise
- data
- sound source
- final
- discriminator
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims description 227
- 230000013016 learning Effects 0.000 claims abstract description 130
- 238000009499 grossing Methods 0.000 claims description 36
- 238000000034 method Methods 0.000 description 67
- 238000011156 evaluation Methods 0.000 description 30
- 239000007921 spray Substances 0.000 description 27
- 238000012545 processing Methods 0.000 description 24
- 238000010586 diagram Methods 0.000 description 10
- 238000002474 experimental method Methods 0.000 description 9
- 101100148545 Caenorhabditis elegans snr-5 gene Proteins 0.000 description 8
- 238000009795 derivation Methods 0.000 description 6
- 230000007423 decrease Effects 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 230000001629 suppression Effects 0.000 description 4
- 239000013598 vector Substances 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000000717 retained effect Effects 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000037433 frameshift Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000001308 synthesis method Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Abstract
【解決手段】雑音が音声区間に重畳して存在する雑音重畳音声のデータが所定の音源による雑音であるか否かの二値を識別する最終識別器を所定の音源ごとに保持し、入力された雑音重畳音声のデータを保持された所定の音源ごとの最終識別器各々を用いて識別し、識別の結果、二値のうちいずれか一つの値に識別されたスコアが最も高い最終識別器を判定することで、データに存在する雑音の音源が判定された最終識別器が示す所定の音源であることを検出する。また、雑音重畳音声のデータを含む複数のデータを学習用データとして保持し、ブースティングを用いて、保持された学習用データから所定の音源ごとの最終識別器を導出する。
【選択図】 図1
Description
まず最初に、以下の実施例で用いる主要な用語を説明する。以下の実施例で用いる「雑音」とは、音声認識技術を使用するにあたり、認識すべき「音声」とは異なる「音」のことであり、認識すべき「音声」の認識において、通常妨げになると考えられる「音」のことである。以下では、認識対象の「音声」を、認識すべき「音声」が存在する区間である「音声区間」と、認識すべき「音声」が存在しない「非音声区間」との2つに大きく分類し、かかる「音声区間」に「雑音」が重畳して存在することと(認識すべき「音声」と「雑音」とが重畳する「音声」)、「雑音」のみが「非音声区間」に存在することとを、「雑音重畳音声」と定義する。
続いて、図1を用いて、実施例1に係る雑音検出装置の概要および特徴を説明する。図1は、実施例1に係る雑音検出装置の概要および特徴を説明するための図である。
次に、図2〜図10を用いて、実施例1に係る雑音検出装置を説明する。図2は、実施例1に係る雑音検出装置の構成を示すブロック図であり、図3は、出力部を説明するための図であり、図4は、学習用データ保持部を説明するための図であり、図5は、最終識別器保持部を説明するための図であり、図6は、検出結果記憶部を説明するための図であり、図7および図8は、最終識別器導出処理(AdaBoost)を説明するための図であり、図9および図10は、区間音源検出処理(Multi−class AdaBoost)を説明するための図である。
次に、図11を用いて、実施例1に係る雑音検出装置による処理の手順(一例)を説明する。図11は、実施例1に係る雑音検出装置による処理の手順を示すフローチャートである。
上記してきたように、実施例1によれば、雑音が音声区間に重畳して存在する雑音重畳音声のデータが所定の音源による雑音であるか否かの二値を識別する最終識別器を所定の音源ごとに保持し、入力された雑音重畳音声のデータを保持された所定の音源ごとの最終識別器各々を用いて識別し、識別の結果、二値のうちいずれか一つの値に識別されたスコアが最も高い最終識別器を判定することで、データに存在する雑音の音源が判定された最終識別器が示す所定の音源であることを検出するので、雑音の種類(音源)を識別することが可能になる。
まず、実施例2における評価実験の実験条件について説明する。「学習用データ」には、ASJから提供されている研究用連続音声データベースから、男性話者21人×10発話の発話データを用い、検証対象である「評価データ」には、同じくASJから提供されている研究用連続音声データベースから、男性話者5人×平均240発話の発話データを用いた。また、「雑音」には、RWCPの提供する非音声ドライソースの中から、「スプレー音」、「紙を破る音」、「電話のコール音」の三種類のデータを用いた。
実施例2における評価実験における判定について説明すると、まず、検出という観点のみから、区間が正しく検出できているものは、雑音の種類(音源)が異なっていたとしても、「正解」と判定することとする。また、誤差のマージンを決めておき、正解データとの誤差がそのマージン以内であるものも、「正解」と判定する。なお、マージンは、実施例2における評価実験では、『30ms』とした。また、検出区間が大きすぎるものは、「誤検出」、検出区間が小さすぎるものは、「未検出」とした。
ところで、上記では、区間さえ正しければ雑音の種類(音源)が異なっていたとしても「正解」と判定したが、次に、区間が正しく判定された雑音の中での雑音の識別率を評価し、さらに、検出率と併せて、区間が正しく、かつ、雑音の識別結果も正しいものを、雑音の正解率として求めた。その結果が、図15である。
ところで、上記では、「評価データ」の「雑音」と「学習用データ」の「雑音」とのSNRが等しかったが、次に、「評価データ」と「学習用データ」とのSNRを変化させ、検出精度がどの程度変化するかを調べることとする。上記と同様に『SNR−5dB〜5dB』の「学習用データ」で学習したモデル、『SNR−5dBのみ』の「学習用データ」で学習したモデル、『SNR0dBのみ』の「学習用データ」で学習したモデル、『SNR5dBのみ』の「学習用データ」を用いて学習したモデルのそれぞれについて、『SNR−10dB〜10dB』の「評価データ」に対する検出率、再現率、および適合率を算出し、違いを比較する。なお、AdaBoostの学習回数は、同様に、1,000回である。
上記と同様の条件で、「雑音」の識別率および正解率を評価する。結果は、図17に示す。図17より、「学習用データ」の「雑音」のSNRと、「評価データ」のSNRとの差が大きいほど、識別率は低下するという結果になった。『SNR−5dB』で学習した識別器を用いたときの「評価データ」『SNR10dB』の識別率は、『94.4%』と減少はするものの、高い値を示しており、『SNR5dB』で学習した識別器を用いたとき、「評価データ」『SNR−10dB』の識別率は、『80.1%』と比較的低い値となった。また、『SNR0dB』で学習したデータを見ると、「評価データ」『SNR10dB』では、『95.9%』、「評価データ」『SNR−10dB』では、『93.7%』となった。また、「雑音」の正解率は、モデルマッチの高いものが、高い値を示すが、平均的にみると、『SNR−5dB〜5dB』で学習したものが、一番高い値を示した。
本実施例において説明した各処理のうち、自動的におこなわれるものとして説明した処理(例えば、保持する学習用データから最終識別器を導出する処理など)の全部または一部を手動的におこなうこともでき(例えば、必要に応じてコマンドを入力することで、保持する学習用データから最終識別器を導出する処理など)、あるいは、手動的におこなわれるものとして説明した処理(例えば、学習用データの入力など)の全部または一部を公知の方法で自動的におこなうこともできる(例えば、ネットワークを介して自動的にダウンロードなど)。この他、上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。
11 入力部
12 出力部
13 入出力制御I/F部
20 記憶部
21 学習用データ保持部
22 最終識別器保持部
23 入力データ一時記憶部
24 検出結果記憶部
30 制御部
31 最終識別器導出部
32 区間音源検出部
33 平滑化部
Claims (6)
- 雑音が音声区間に重畳して存在する雑音重畳音声のデータが所定の音源による雑音であるか否かの二値を識別する最終識別器を所定の音源ごとに保持する最終識別器保持手段と、
入力された前記雑音重畳音声のデータを前記最終識別器保持手段によって保持された前記所定の音源ごとの最終識別器各々を用いて識別し、当該識別の結果前記二値のうちいずれか一つの値に識別されたスコアが最も高い最終識別器を判定することで、当該データに存在する雑音の音源が当該判定された最終識別器が示す所定の音源であることを検出する検出手段と、
を備えたことを特徴とする雑音検出装置。 - 雑音重畳音声のデータを含む複数のデータを学習用データとして保持する学習用データ保持手段と、
データが所定の音源による雑音であるか否かの二値を識別する識別器を学習用データから学習させることで学習が終了した最終識別器を導出するブースティングを用いて、前記学習用データ保持手段によって保持された前記学習用データから所定の音源ごとの最終識別器を導出する最終識別器導出手段と、
をさらに備えたことを特徴とする請求項1に記載の雑音検出装置。 - 前記最終識別器導出手段は、前記ブースティングとして、アダブーストを用いて前記最終識別器を導出することを特徴とする請求項2に記載の雑音検出装置。
- 前記検出手段は、前記雑音重畳音声のデータをフレーム単位で識別し、当該データの雑音の区間が当該フレームで区切られた区間であることをさらに検出することを特徴とする請求項1〜3のいずれか一つに記載の雑音検出装置。
- 入力された前記データの連続するフレームの中に、前記検出手段によって判定された前記最終識別器で識別された識別の結果が他のフレームとは異なる結果のフレームが含まれる場合には、当該異なる結果のフレームに対して平滑化を行う平滑化手段をさらに備えたことを特徴とする請求項4に記載の雑音検出装置。
- 雑音が音声区間に重畳して存在する雑音重畳音声のデータが所定の音源による雑音であるか否かの二値を識別する最終識別器を所定の音源ごとに保持する最終識別器保持工程と、
入力された前記雑音重畳音声のデータを前記最終識別器保持工程によって保持された前記所定の音源ごとの最終識別器各々を用いて識別し、当該識別の結果前記二値のうちいずれか一つの値に識別されたスコアが最も高い最終識別器を判定することで、当該データに存在する雑音の音源が当該判定された最終識別器が示す所定の音源であることを検出する検出工程と、
を含んだことを特徴とする雑音検出方法。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2006336336A JP4787979B2 (ja) | 2006-12-13 | 2006-12-13 | 雑音検出装置および雑音検出方法 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2006336336A JP4787979B2 (ja) | 2006-12-13 | 2006-12-13 | 雑音検出装置および雑音検出方法 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2008145988A true JP2008145988A (ja) | 2008-06-26 |
| JP4787979B2 JP4787979B2 (ja) | 2011-10-05 |
Family
ID=39606208
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2006336336A Expired - Fee Related JP4787979B2 (ja) | 2006-12-13 | 2006-12-13 | 雑音検出装置および雑音検出方法 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP4787979B2 (ja) |
Cited By (10)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2010204392A (ja) * | 2009-03-03 | 2010-09-16 | Nec Corp | 雑音抑圧の方法、装置、及びプログラム |
| JP2011181021A (ja) * | 2010-03-04 | 2011-09-15 | Nippon Telegr & Teleph Corp <Ntt> | 時系列信号識別装置、時系列信号識別方法、およびプログラム |
| US20110235812A1 (en) * | 2010-03-25 | 2011-09-29 | Hiroshi Yonekubo | Sound information determining apparatus and sound information determining method |
| US8874440B2 (en) | 2009-04-17 | 2014-10-28 | Samsung Electronics Co., Ltd. | Apparatus and method for detecting speech |
| WO2017171051A1 (ja) * | 2016-04-01 | 2017-10-05 | 日本電信電話株式会社 | 異常音検出学習装置、音響特徴量抽出装置、異常音サンプリング装置、これらの方法及びプログラム |
| WO2019176830A1 (ja) * | 2018-03-12 | 2019-09-19 | 日本電信電話株式会社 | 学習用音声データ生成装置、その方法、およびプログラム |
| WO2020183845A1 (ja) * | 2019-03-08 | 2020-09-17 | 日本電気株式会社 | 音響処理方法 |
| JP2021131485A (ja) * | 2020-02-20 | 2021-09-09 | 富士通株式会社 | 認識方法、認識プログラム及び認識装置 |
| CN115050356A (zh) * | 2022-06-07 | 2022-09-13 | 中山大学 | 一种噪声识别方法、装置以及计算机可读存储介质 |
| JP2023550405A (ja) * | 2020-12-03 | 2023-12-01 | ▲騰▼▲訊▼科技(深▲セン▼)有限公司 | 人工知能に基づく音声処理方法、装置、電子機器、及びコンピュータプログラム |
-
2006
- 2006-12-13 JP JP2006336336A patent/JP4787979B2/ja not_active Expired - Fee Related
Cited By (17)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2010204392A (ja) * | 2009-03-03 | 2010-09-16 | Nec Corp | 雑音抑圧の方法、装置、及びプログラム |
| US8874440B2 (en) | 2009-04-17 | 2014-10-28 | Samsung Electronics Co., Ltd. | Apparatus and method for detecting speech |
| JP2011181021A (ja) * | 2010-03-04 | 2011-09-15 | Nippon Telegr & Teleph Corp <Ntt> | 時系列信号識別装置、時系列信号識別方法、およびプログラム |
| US20110235812A1 (en) * | 2010-03-25 | 2011-09-29 | Hiroshi Yonekubo | Sound information determining apparatus and sound information determining method |
| JP2011203500A (ja) * | 2010-03-25 | 2011-10-13 | Toshiba Corp | 音情報判定装置、及び音情報判定方法 |
| WO2017171051A1 (ja) * | 2016-04-01 | 2017-10-05 | 日本電信電話株式会社 | 異常音検出学習装置、音響特徴量抽出装置、異常音サンプリング装置、これらの方法及びプログラム |
| JPWO2017171051A1 (ja) * | 2016-04-01 | 2019-03-07 | 日本電信電話株式会社 | 異常音検出学習装置、音響特徴量抽出装置、異常音サンプリング装置、これらの方法及びプログラム |
| JP7028311B2 (ja) | 2018-03-12 | 2022-03-02 | 日本電信電話株式会社 | 学習用音声データ生成装置、その方法、およびプログラム |
| WO2019176830A1 (ja) * | 2018-03-12 | 2019-09-19 | 日本電信電話株式会社 | 学習用音声データ生成装置、その方法、およびプログラム |
| JPWO2019176830A1 (ja) * | 2018-03-12 | 2021-02-12 | 日本電信電話株式会社 | 学習用音声データ生成装置、その方法、およびプログラム |
| WO2020183845A1 (ja) * | 2019-03-08 | 2020-09-17 | 日本電気株式会社 | 音響処理方法 |
| US11996115B2 (en) | 2019-03-08 | 2024-05-28 | Nec Corporation | Sound processing method |
| JP2021131485A (ja) * | 2020-02-20 | 2021-09-09 | 富士通株式会社 | 認識方法、認識プログラム及び認識装置 |
| JP2023550405A (ja) * | 2020-12-03 | 2023-12-01 | ▲騰▼▲訊▼科技(深▲セン▼)有限公司 | 人工知能に基づく音声処理方法、装置、電子機器、及びコンピュータプログラム |
| US12308041B2 (en) | 2020-12-03 | 2025-05-20 | Tencent Technology (Shenzhen) Company Limited | Artificial intelligence-based audio processing method, apparatus, electronic device, computer-readable storage medium, and computer program product |
| JP7700236B2 (ja) | 2020-12-03 | 2025-06-30 | ▲騰▼▲訊▼科技(深▲セン▼)有限公司 | 人工知能に基づく音声処理方法、装置、電子機器、及びコンピュータプログラム |
| CN115050356A (zh) * | 2022-06-07 | 2022-09-13 | 中山大学 | 一种噪声识别方法、装置以及计算机可读存储介质 |
Also Published As
| Publication number | Publication date |
|---|---|
| JP4787979B2 (ja) | 2011-10-05 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CN111524527B (zh) | 话者分离方法、装置、电子设备和存储介质 | |
| CN110136749B (zh) | 说话人相关的端到端语音端点检测方法和装置 | |
| JP4568371B2 (ja) | 少なくとも2つのイベント・クラス間を区別するためのコンピュータ化された方法及びコンピュータ・プログラム | |
| US9009048B2 (en) | Method, medium, and system detecting speech using energy levels of speech frames | |
| JP4728972B2 (ja) | インデキシング装置、方法及びプログラム | |
| CN104903954B (zh) | 使用基于人工神经网络的亚语音单位区分的说话人验证及识别 | |
| CN102227767B (zh) | 自动语音-文本转换系统和方法 | |
| US11837236B2 (en) | Speaker recognition based on signal segments weighted by quality | |
| US20120130716A1 (en) | Speech recognition method for robot | |
| US20130054236A1 (en) | Method for the detection of speech segments | |
| EP3989217B1 (en) | Method for detecting an audio adversarial attack with respect to a voice input processed by an automatic speech recognition system, corresponding device, computer program product and computer-readable carrier medium | |
| KR101888058B1 (ko) | 발화된 단어에 기초하여 화자를 식별하기 위한 방법 및 그 장치 | |
| Van Segbroeck et al. | Rapid language identification | |
| JP2017032857A (ja) | 音声処理装置及び音声処理方法 | |
| JP4787979B2 (ja) | 雑音検出装置および雑音検出方法 | |
| CN114299962A (zh) | 基于音频流的对话角色分离方法、系统、设备及存储介质 | |
| JPWO2010128560A1 (ja) | 音声認識装置、音声認識方法、及び音声認識プログラム | |
| JP2009086581A (ja) | 音声認識の話者モデルを作成する装置およびプログラム | |
| JP4696418B2 (ja) | 情報検出装置及び方法 | |
| CN109065026B (zh) | 一种录音控制方法及装置 | |
| JP6220733B2 (ja) | 音声分類装置、音声分類方法、プログラム | |
| JP7743875B2 (ja) | 音声信号の処理方法、音声信号処理装置、およびプログラム | |
| Vadillo et al. | On the human evaluation of audio adversarial examples | |
| Kinnunen et al. | HAPPY team entry to NIST OpenSAD challenge: a fusion of short-term unsupervised and segment i-vector based speech activity detectors | |
| JP7613587B2 (ja) | 信号処理装置、信号処理方法及び信号処理プログラム |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20091104 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20110428 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20110607 |
|
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20110628 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20110628 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140729 Year of fee payment: 3 |
|
| R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| LAPS | Cancellation because of no payment of annual fees |