JP2009020460A - 音声処理装置およびプログラム - Google Patents
音声処理装置およびプログラム Download PDFInfo
- Publication number
- JP2009020460A JP2009020460A JP2007184874A JP2007184874A JP2009020460A JP 2009020460 A JP2009020460 A JP 2009020460A JP 2007184874 A JP2007184874 A JP 2007184874A JP 2007184874 A JP2007184874 A JP 2007184874A JP 2009020460 A JP2009020460 A JP 2009020460A
- Authority
- JP
- Japan
- Prior art keywords
- section
- acoustic model
- sound
- voice
- correlation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012545 processing Methods 0.000 title claims abstract description 82
- 230000005236 sound signal Effects 0.000 claims description 68
- 238000000034 method Methods 0.000 claims description 44
- 230000008569 process Effects 0.000 claims description 25
- 238000003860 storage Methods 0.000 claims description 25
- 230000002596 correlated effect Effects 0.000 claims description 5
- 239000013598 vector Substances 0.000 description 28
- 230000004048 modification Effects 0.000 description 12
- 238000012986 modification Methods 0.000 description 12
- 238000009826 distribution Methods 0.000 description 7
- 239000011295 pitch Substances 0.000 description 6
- 230000000694 effects Effects 0.000 description 4
- 230000006978 adaptation Effects 0.000 description 3
- 230000000875 corresponding effect Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000012935 Averaging Methods 0.000 description 2
- 241000282412 Homo Species 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000001755 vocal effect Effects 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 238000005311 autocorrelation function Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 238000010187 selection method Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Images
Landscapes
- Telephonic Communication Services (AREA)
- Telephone Function (AREA)
Abstract
【解決手段】音声区分部12は、音声信号Sを時間軸上で発音区間PAと非発音区間PBとに区分する。記憶装置20は、目的音の概括的な音響モデルを記憶する。選別処理部13は、音響モデルと各発音区間PA内の音声信号Sの特徴量との相関の有無を判定し、音響モデルと相関のある発音区間PAを有効区間PA1に選定するとともに音響モデルと相関のない発音区間PAを棄却区間PA2に選定する。音声分類部14は、音声区分部12が画定した複数の発音区間PAのうち有効区間PA1に選別された発音区間PAを、当該発音区間PA内の音声信号Sの特徴量に基づいて発声者ごとに分類する。
【選択図】図1
Description
図1は、本発明の第1実施形態に係る音声処理装置の構成を示すブロック図である。同図に示すように、音声処理装置100は、制御装置10と記憶装置20とを具備するコンピュータシステムである。制御装置10は、プログラムを実行する演算処理装置である。記憶装置20は、制御装置10が実行するプログラムや制御装置10が使用する各種のデータを記憶する。半導体記憶装置や磁気記憶装置など公知の記憶媒体が記憶装置20として任意に採用される。制御装置10には出力装置30が接続される。本形態の出力装置30は、制御装置10による制御のもとに各種の画像を表示する表示機器である。
λ={pi,μi,Σi} (i=1〜M) ……(1)
式(1)のpiは、第i番目の正規分布の加重値(重み値)である。加重値p1〜pMの総和は1である。式(1)のμiは第i番目の正規分布の平均ベクトルであり、Σiは第i番目の正規分布の共分散行列である。なお、式(1)のμiのように、実際にはベクトルを意味する記号であっても、当該記号がベクトルを意味することを例えば「平均ベクトル」という表現で明示したうえで、本明細書ではベクトルの記号(文字上の右向き矢印)を省略する。
次に、本発明の第2実施形態について説明する。本形態においては、第1実施形態における平均尤度Lに代えて、VQ(Vector Quantization)歪を音響モデルと音声信号Sとの相関指標値として採用する。なお、以下の各形態において機能や作用が第1実施形態と同等である要素については、以上と同じ符号を付して各々の詳細な説明を適宜に省略する。
以上の各形態には様々な変形を加えることができる。具体的な変形の態様を例示すれば以下の通りである。なお、以下の例示から2以上の態様を任意に選択して組合わせてもよい。
以上の各形態においては、発音区間PAの各フレームFから抽出された特徴量(特徴ベクトルx)を有声音および無声音の何れであるかに拘わらず音響モデルと対比したが、発音区間PAのうち有声音のフレームFから抽出された特徴量のみを音響モデルと対比する構成も採用される。記憶装置20に格納される音響モデルは、試料となる音声から無声音の区間や無音の区間を除外した有声音の区間内の特徴量に基づいて生成される。選別処理部13は、選択区間PA_S内の複数のフレームFのうち有声音のフレームFから抽出された特徴量のみを利用して図3のステップS4にて平均尤度L(第2実施形態ではVQ歪D)を算定し、音響モデルと選択区間PA_S内の音声信号Sとの相関の有無をステップS5にて判定する。雑音と目的音とは有声音の特性に関して特に相違が顕著であるから、以上の変形例のように発音区間Pのうち有声音のフレームFのみを音響モデルとの対比に使用する構成によれば、ステップS5における判定の正確性を高めることができる。
以上の形態においては、選択区間PA_Sの直前の非発音区間PBにおける雑音レベルに基づいて閾値TH1を設定したが(ステップS3)、閾値TH1の設定の基準は適宜に変更される。例えば、音声信号Sのうち先頭の非発音区間PBにおける雑音レベルに基づいて閾値TH1を設定し、各発音区間PAを選別するステップS5にて当該閾値TH1を共通に適用する構成も採用される。もっとも、選択区間PA_Sの直前にある非発音区間PBの雑音レベルを当該選択区間PA_Sの選別に適用する第1実施形態の構成によれば、音声信号Sの途中の時点で雑音レベルが変化した場合であっても、変化後の雑音レベルに応じて閾値TH1が更新されるから、ステップS5における選別の精度が低下する可能性は低減される。
以上の各形態においてはひとつの音響モデルを利用したが、複数の音響モデルを選択的に利用して発音区間PAを有効区間PA1と棄却区間PA2とに選別してもよい。例えば、平均ピッチが相違する複数種の音声から生成された複数の音響モデルを事前に作成して記憶装置20に格納する。図3のステップS4において、選別処理部13は、選択区間PA_S内の音声信号Sのピッチ(平均ピッチ)を検出し、複数の音響モデルのうち当該ピッチに対応した音響モデルを使用して平均尤度L(第2実施形態ではVQ歪D)を算定する。以上の構成によれば、男性の発声音と女性の発声音とが混在する場合のように音声信号Sが多様なピッチの音声を含む場合であっても、発音区間PAを正確に有効区間PA1と棄却区間PA2とに選別することが可能である。
音声区分部12が音声信号Sを区分する方法は以上の例示に限定されない。例えば、音声信号SのSN比や音量に応じて音声信号Sを発音区間PAおよび非発音区間PBに区分する第1処理と、包絡線Eの谷部Dを境界として音声信号Sを区分する第2処理との一方のみを実行してもよい。また、音声信号Sの特性とは無関係に設定された固定または可変の時間長の区間ごとに音声信号Sを区分する構成も採用される。すなわち、発音区間PAと非発音区間PBとの区分は本発明の形態において必須ではない。
以上の各形態においては、音響モデルに対する相関指標値(平均尤度LやVQ歪D)を利用したステップS5の判定と、有声音のフレームFの割合Rを利用したステップS9の判定とを実行した。しかし、ステップS5の判定の結果のみに基づいて各発音区間PAを有効区間PA1と棄却区間PA2とに選別する構成(すなわち図3のステップS7からステップS9を省略した構成)も採用される。また、ステップS9の判定のみに基づいて各発音区間PAを有効区間PA1と棄却区間PA2とに選別する構成(すなわち図3のステップS3からステップS5を省略した構成)も採用される。
音声処理装置100が作成した議事録を印刷する印刷装置を出力装置30として採用してもよい。もっとも、音声処理装置100による処理の結果が議事録(文字)の形式で出力される必要はなく、例えば音声分類部14による分類の結果を出力することも可能である。例えば、音声分類部14が分類した複数の有効区間PA1のうち利用者が指定した時刻を含む有効区間PA1内の音声信号Sを放音装置(例えばスピーカ)から音波として出力する構成によれば、利用者が各発声者の発言を選択的に聴取して適宜に確認しながら会議の議事録を作成するといった作業を有効に支援することが可能である。また、選別処理部13が発音区間PAを有効区間PA1と棄却区間PA2とに選別した結果を音声処理装置100から外部装置に出力する構成も採用される。外部装置においては、音声処理装置100からの出力に対して図1の音声分類部14と同様の処理や他の適切な処理が実行される。例えば、複数の発音区間PAのうち選別処理部13が選別した有効区間PA1のみを選択的に外部装置に出力し、各有効区間PA1を対象として所定の処理(発声者ごとの分類や音声認識)が外部装置にて実行される。以上のように、音声分類部14や音声認識部16は音声処理装置100にとって必須の要素ではない。
以上の各形態においては記憶装置20に予め記憶された音声信号Sを処理の対象としたが、収音装置(マイクロホン)から供給される音声信号Sや通信網を経由して順次に供給される音声信号Sを対象として実時間的に処理を実行してもよい。また、音声信号Sが表す音響の種類は本発明において任意である。例えば、特定の楽器の演奏音を目的音とする音響モデルが記憶装置20に格納された構成によれば、当該楽器の演奏会にて収録された音声区間Sから目的音以外の音声(例えば拍手音の区間)の区間を棄却区間PA2として除外することが可能である。
Claims (5)
- 目的音の音響モデルを記憶する記憶手段と、
音声信号を時間軸上で複数の区間に区分する音声区分手段と、
前記音響モデルと前記各区間内の音声信号の特徴量との相関の有無を判定する相関判定手段と、
前記複数の区間のうち前記音響モデルに相関すると判定された区間を有効区間に選定し、前記音響モデルに相関しないと判定された区間を棄却区間に選定する区間選別手段と
を具備する音声処理装置。 - 前記音声区分手段は、前記音声信号を発音区間と非発音区間とに区分し、
前記相関判定手段は、前記音響モデルと前記各区間内の音声信号の特徴量との相関の指標値を第1閾値と比較することで相関の有無を判定し、
前記非発音区間内の音声信号の特性に応じて前記第1閾値を設定する閾値設定手段を具備する
請求項1の音声処理装置。 - 前記複数の区間の各々におけるフレームの総数に対する当該区間内の有声音のフレームの個数の割合が第2閾値を上回るか否かを前記区間ごとに判定する有声判定手段を具備し、
前記区間選別手段は、前記音響モデルに相関すると前記相関判定手段が判定し、かつ、有声音のフレームの個数の割合が第2閾値を上回ると前記有声判定手段が判定した区間を、有効区間に選定する
請求項1または請求項2の音声処理装置。 - 前記相関判定手段は、前記複数の区間の各々における有声音のフレームの特徴量のみを前記音響モデルと対比する
請求項1から請求項3の何れかの音声処理装置。 - 目的音の音響モデルを記憶する記憶手段を具備するコンピュータに、
音声信号を時間軸上で複数の区間に区分する音声区分処理と、
前記音響モデルと前記各区間内の音声信号の特徴量との相関の有無を判定する相関判定処理と、
前記複数の区間のうち前記音響モデルに相関すると判定された区間を処理の対象となる有効区間に選定し、前記音響モデルに相関しないと判定された区間を前記処理の対象外の棄却区間に選定する区間選別処理と
を実行させるプログラム。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2007184874A JP5050698B2 (ja) | 2007-07-13 | 2007-07-13 | 音声処理装置およびプログラム |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2007184874A JP5050698B2 (ja) | 2007-07-13 | 2007-07-13 | 音声処理装置およびプログラム |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2009020460A true JP2009020460A (ja) | 2009-01-29 |
| JP5050698B2 JP5050698B2 (ja) | 2012-10-17 |
Family
ID=40360112
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2007184874A Expired - Fee Related JP5050698B2 (ja) | 2007-07-13 | 2007-07-13 | 音声処理装置およびプログラム |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP5050698B2 (ja) |
Cited By (8)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2009053430A (ja) * | 2007-08-27 | 2009-03-12 | Yamaha Corp | 音声処理装置およびプログラム |
| WO2010092914A1 (ja) * | 2009-02-13 | 2010-08-19 | 日本電気株式会社 | 多チャンネル音響信号処理方法、そのシステム及びプログラム |
| JP2012048119A (ja) * | 2010-08-30 | 2012-03-08 | Nippon Telegr & Teleph Corp <Ntt> | 音声区間検出方法、音声認識方法、音声区間検出装置、音声認識装置、そのプログラム及び記録媒体 |
| US9117456B2 (en) | 2010-11-25 | 2015-08-25 | Fujitsu Limited | Noise suppression apparatus, method, and a storage medium storing a noise suppression program |
| JP2018200617A (ja) * | 2017-05-29 | 2018-12-20 | 京セラドキュメントソリューションズ株式会社 | 情報処理システム |
| JP2021021749A (ja) * | 2019-07-24 | 2021-02-18 | 富士通株式会社 | 検出プログラム、検出方法、検出装置 |
| CN114242116A (zh) * | 2022-01-05 | 2022-03-25 | 成都锦江电子系统工程有限公司 | 一种语音的话音与非话音的综合判决方法 |
| JPWO2022168251A1 (ja) * | 2021-02-05 | 2022-08-11 |
Citations (8)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPS61138299A (ja) * | 1984-12-10 | 1986-06-25 | 日本電信電話株式会社 | 音声区間検出方式 |
| JPS6456499A (en) * | 1987-08-27 | 1989-03-03 | Matsushita Electric Industrial Co Ltd | Voice recognition |
| JPH04369695A (ja) * | 1991-06-19 | 1992-12-22 | Matsushita Electric Ind Co Ltd | 音声判別装置 |
| JPH06110488A (ja) * | 1992-09-30 | 1994-04-22 | Matsushita Electric Ind Co Ltd | 音声検出方法および音声検出装置 |
| JPH08305388A (ja) * | 1995-04-28 | 1996-11-22 | Matsushita Electric Ind Co Ltd | 音声区間検出装置 |
| JP2002023800A (ja) * | 1998-08-21 | 2002-01-25 | Matsushita Electric Ind Co Ltd | マルチモード音声符号化装置及び復号化装置 |
| JP2005195955A (ja) * | 2004-01-08 | 2005-07-21 | Toshiba Corp | 雑音抑圧装置及び雑音抑圧方法 |
| JP2006133284A (ja) * | 2004-11-02 | 2006-05-25 | Kddi Corp | 音声情報抽出装置 |
-
2007
- 2007-07-13 JP JP2007184874A patent/JP5050698B2/ja not_active Expired - Fee Related
Patent Citations (8)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPS61138299A (ja) * | 1984-12-10 | 1986-06-25 | 日本電信電話株式会社 | 音声区間検出方式 |
| JPS6456499A (en) * | 1987-08-27 | 1989-03-03 | Matsushita Electric Industrial Co Ltd | Voice recognition |
| JPH04369695A (ja) * | 1991-06-19 | 1992-12-22 | Matsushita Electric Ind Co Ltd | 音声判別装置 |
| JPH06110488A (ja) * | 1992-09-30 | 1994-04-22 | Matsushita Electric Ind Co Ltd | 音声検出方法および音声検出装置 |
| JPH08305388A (ja) * | 1995-04-28 | 1996-11-22 | Matsushita Electric Ind Co Ltd | 音声区間検出装置 |
| JP2002023800A (ja) * | 1998-08-21 | 2002-01-25 | Matsushita Electric Ind Co Ltd | マルチモード音声符号化装置及び復号化装置 |
| JP2005195955A (ja) * | 2004-01-08 | 2005-07-21 | Toshiba Corp | 雑音抑圧装置及び雑音抑圧方法 |
| JP2006133284A (ja) * | 2004-11-02 | 2006-05-25 | Kddi Corp | 音声情報抽出装置 |
Cited By (12)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2009053430A (ja) * | 2007-08-27 | 2009-03-12 | Yamaha Corp | 音声処理装置およびプログラム |
| WO2010092914A1 (ja) * | 2009-02-13 | 2010-08-19 | 日本電気株式会社 | 多チャンネル音響信号処理方法、そのシステム及びプログラム |
| JP5605574B2 (ja) * | 2009-02-13 | 2014-10-15 | 日本電気株式会社 | 多チャンネル音響信号処理方法、そのシステム及びプログラム |
| US9009035B2 (en) | 2009-02-13 | 2015-04-14 | Nec Corporation | Method for processing multichannel acoustic signal, system therefor, and program |
| JP2012048119A (ja) * | 2010-08-30 | 2012-03-08 | Nippon Telegr & Teleph Corp <Ntt> | 音声区間検出方法、音声認識方法、音声区間検出装置、音声認識装置、そのプログラム及び記録媒体 |
| US9117456B2 (en) | 2010-11-25 | 2015-08-25 | Fujitsu Limited | Noise suppression apparatus, method, and a storage medium storing a noise suppression program |
| JP2018200617A (ja) * | 2017-05-29 | 2018-12-20 | 京セラドキュメントソリューションズ株式会社 | 情報処理システム |
| JP2021021749A (ja) * | 2019-07-24 | 2021-02-18 | 富士通株式会社 | 検出プログラム、検出方法、検出装置 |
| JP7331523B2 (ja) | 2019-07-24 | 2023-08-23 | 富士通株式会社 | 検出プログラム、検出方法、検出装置 |
| JPWO2022168251A1 (ja) * | 2021-02-05 | 2022-08-11 | ||
| JP7333878B2 (ja) | 2021-02-05 | 2023-08-25 | 三菱電機株式会社 | 信号処理装置、信号処理方法、及び信号処理プログラム |
| CN114242116A (zh) * | 2022-01-05 | 2022-03-25 | 成都锦江电子系统工程有限公司 | 一种语音的话音与非话音的综合判决方法 |
Also Published As
| Publication number | Publication date |
|---|---|
| JP5050698B2 (ja) | 2012-10-17 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CN108305615B (zh) | 一种对象识别方法及其设备、存储介质、终端 | |
| EP1210711B1 (en) | Sound source classification | |
| EP0625774B1 (en) | A method and an apparatus for speech detection | |
| JP4568371B2 (ja) | 少なくとも2つのイベント・クラス間を区別するためのコンピュータ化された方法及びコンピュータ・プログラム | |
| Kos et al. | Acoustic classification and segmentation using modified spectral roll-off and variance-based features | |
| JP5050698B2 (ja) | 音声処理装置およびプログラム | |
| Zelinka et al. | Impact of vocal effort variability on automatic speech recognition | |
| EP2083417B1 (en) | Sound processing device and program | |
| EP1569200A1 (en) | Identification of the presence of speech in digital audio data | |
| WO2018051945A1 (ja) | 音声処理装置、音声処理方法、および記録媒体 | |
| CN114303186B (zh) | 用于在语音合成中适配人类说话者嵌入的系统和方法 | |
| JP5647455B2 (ja) | 音声に含まれる吸気音を検出する装置、方法、及びプログラム | |
| WO2018163279A1 (ja) | 音声処理装置、音声処理方法、および音声処理プログラム | |
| Archana et al. | Gender identification and performance analysis of speech signals | |
| JP4973352B2 (ja) | 音声処理装置およびプログラム | |
| JP5083951B2 (ja) | 音声処理装置およびプログラム | |
| JPWO2020049687A1 (ja) | 音声処理装置、音声処理方法、およびプログラム | |
| JP7159655B2 (ja) | 感情推定システムおよびプログラム | |
| JP4877114B2 (ja) | 音声処理装置およびプログラム | |
| JP5109050B2 (ja) | 音声処理装置およびプログラム | |
| JPH06110488A (ja) | 音声検出方法および音声検出装置 | |
| JP2006154212A (ja) | 音声評価方法および評価装置 | |
| Grewal et al. | Isolated word recognition system for English language | |
| Zeng et al. | Adaptive context recognition based on audio signal | |
| US12394431B2 (en) | Synthetic voice detection method based on biological sound, recording medium and apparatus for performing the same |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20100520 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20110822 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110830 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20111027 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20111122 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120117 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120626 |
|
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120709 |
|
| R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150803 Year of fee payment: 3 |
|
| LAPS | Cancellation because of no payment of annual fees |