[go: up one dir, main page]

JP2000148184A - 音声認識装置 - Google Patents

音声認識装置

Info

Publication number
JP2000148184A
JP2000148184A JP10316204A JP31620498A JP2000148184A JP 2000148184 A JP2000148184 A JP 2000148184A JP 10316204 A JP10316204 A JP 10316204A JP 31620498 A JP31620498 A JP 31620498A JP 2000148184 A JP2000148184 A JP 2000148184A
Authority
JP
Japan
Prior art keywords
voice
information input
image information
microphone
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP10316204A
Other languages
English (en)
Inventor
Hiroya Murao
浩也 村尾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sanyo Electric Co Ltd
Original Assignee
Sanyo Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sanyo Electric Co Ltd filed Critical Sanyo Electric Co Ltd
Priority to JP10316204A priority Critical patent/JP2000148184A/ja
Publication of JP2000148184A publication Critical patent/JP2000148184A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Image Processing (AREA)

Abstract

(57)【要約】 【課題】 音声認識装置において、認識率を向上させる
ことを目的とする。 【解決手段】 画像情報解析部26は、画像情報入力部
25から得られた画像データを解析し、画像内の話者の
位置を検出する。画像内における話者の位置は、話者の
顔画像を抽出し、それを追跡することなどで求めること
ができる。音声入力制御部21は、前記画像情報解析部
26から送られてくる話者の位置データに基づいて、マ
イクロホンを備える音声情報入力部20の指向特性、入
力特性、マイクロホンの方向を制御する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、マイクロホン等の
音声情報入力装置から入力された音声情報に基づいて機
器を制御・操作するための音声認識装置に関するもので
あり、特にカメラ等の撮像装置からの映像情報を併用し
てより正確な音声の認識を行うための装置に関する。
【0002】
【従来の技術】図4は従来の音声認識装置の構成を示す
ブロック図である。同図において、10はマイクロホン
等で構成される音声情報入力部、11は前記音声情報入
力部10より入力された音声情報より音声の特徴を抽出
する処理を行う音声特徴ベクトル抽出部、12は前記音
声特徴ベクトル抽出部より得られた音声の特徴情報に基
づいて音声を認識する音声認識部、13は前記音声認識
部12で認識された結果を表示するための認識結果表示
部である。
【0003】話者より発せられた音声は、音声情報入力
部10で電気信号に変換され、音声特徴ベクトル抽出部
11へ入力される。該音声特徴ベクトル抽出部11で
は、入力された電気信号を単位時間毎にA/D変換した
後、周波数分析(FFT分析)などの既知の音声分析手
法によって分析し、音声の特徴ベクトル列に変換する。
【0004】尚、音声分析手法としては、通過帯域周波
数の異なる16個のバンドパスフィルタ群による分析法
や、FFTアルゴリズムによる方法等がある。こうして
得られた音声特徴ベクトルは、音声認識部12において
正規化処理、次元圧縮処理などが行われ、音声パターン
に変換された後、既知の音声認識手法によって認識結果
が求められる。
【0005】尚、音声認識手法としては、DTW(Dyna
mic Time Warping)アルゴリズム等により登録済みの音
声パターンとの比較を行うパターンマッチング手法、大
量の音声パターンの分布を学習したニューラルネットワ
ークによるクラス分類手法、統計的確率モデルHMM
(Hidden Markov Model)による統計的手法等がある。
【0006】
【発明が解決しようとする課題】然し乍ら、上記の構成
による音声認識装置では、以前にリファレンスとなる音
声パターンを収集した状況に近い発声環境下で発声され
た音声パターンについては高い認識性能を有するもの
の、話者と入力装置(マイクロホン)との位置関係の変
化や周囲雑音の有無等による発声環境の変化によって音
声パターンが変化してしまい、認識率が低下してしまう
という問題がある。そこで、予め種々の発声環境を想定
し、さまざまな音声レベルや周囲雑音下において音声パ
ターンを収集しておくことによって認識率の低下を防ぐ
ことも考えられるが、全ての発声環境を網羅することは
不可能であり、よって十分な音声認識性能を得ることは
極めて困難である。
【0007】一方、特開平7−28490号公報(G1
0L3/00)のように、音声認識の精度を向上させる
ため、カメラ等の撮像装置を用いて話者の画像情報(発
音時の口の形状等)を画像データベースとして予め登録
しておき、音声認識時に、音声情報だけでなく、カメラ
から入力される画像情報と画像データベースの画像とを
照合してこれを補助データとして利用することで、認識
性能を向上させるべく構成された装置が知られている
が、画像データベースに画像を登録した時の環境と音声
認識時の環境とが相違する場合(話者とカメラの位置関
係が相違する場合等)には、やはり良好な音声認識がで
きないという問題があった。
【0008】
【課題を解決するための手段】上記課題を解決するため
本発明では、像情報を取り込むための画像情報入力手段
と、該画像情報入力手段より入力された画像情報を解析
するための画像情報解析手段と、音声情報を取り込むた
めの音声情報入力手段と、前記画像情報解析手段からの
情報に基づいて前記音声情報入力手段の音声入力特性を
変化させるための入力特性変更手段とを備えたことを特
徴とする。
【0009】前記入力特性変更手段は、前記音声情報入
力手段の感度特性を変化させることを特徴とする。
【0010】前記入力特性変更手段は、前記音声情報入
力手段の指向特性を変化させることを特徴とする。
【0011】前記入力特性変更手段は、前記音声情報入
力手段の方向を変化させることを特徴とする。
【0012】前記音声情報入力手段は、直列に配列され
た複数のマイクロホンで構成されたマクロホンアレイを
備えることを特徴とする。
【0013】前記音声情報入力手段は、パラメトリック
マイクロホンを備えることを特徴とする。
【0014】前記画像情報解析手段は、前記画像情報入
力手段より入力された画像情報に基づいて話者の位置に
関する情報を解析することを特徴とする。
【0015】前記画像情報解析手段は、前記画像情報入
力手段より入力された画像情報より話者の特定部分の画
像を抽出し、それを追跡して話者の位置に関する情報を
解析することを特徴とする。
【0016】
【発明の実施の形態】以下、図面を参照しつつ本発明の
実施形態について詳述する。先ず、図1は本発明の音声
認識装置の構成を示すブロック図である。同図におい
て、20はマイクロホンアレイ等の指向特性や感度特性
等を可変できる構成とした音声情報入力部、21は前記
音声情報入力部20の指向特性あるいは感度特性等を調
整する音声入力制御部、22は前記音声入力制御部21
の制御に基づいて音声情報入力部20より入力された音
声信号をA/D変換し、周波数分析を行い、音声の特徴
ベクトル列に変換する音声特徴ベクトル抽出部、23は
前記音声特徴ベクトル抽出部22から得られた音声特徴
ベクトルによって音声認識を行う音声認識部、24は認
識結果表示部である。尚、音声認識のための各種手法に
ついては既に述べた通りである。また、25はカメラ等
の撮像装置で構成される画像情報入力部、26は前記画
像情報入力部25から入力された画像情報を解析する画
像情報解析部である。
【0017】ここで前記音声情報入力部20に用いるマ
イクロホンについて詳述する。図2は音声情報入力部2
0にマイクロホンアレイを適用した例を示している。同
図に示すように、マイクロホンアレイユニット30の内
部には複数のマイクロホン30a...が直列に並んで
おり、話者からの音声を受音する。マイクロホンアレイ
ユニット30内の各マイクロホン30aと話者との距離
がそれぞれ異なるため、各マイクロホン30aによって
受ける音声は振幅も伝搬時間もその距離によって異なっ
ている。
【0018】このような直列の配列構造を有するマイク
ロホンアレイユニット30内の各マイクロホンで受けた
音声は、振幅について各ウェイティング用アンプ31に
て調整が行われ、その結果、マイクロホンアレイの指向
特性におけるサイドローブが最も小さく(指向性が最も
鋭くなる)ように成される。
【0019】また、各遅延回路32を設け、該遅延回路
32により各マイクロホン30aの持つ伝搬時間の差分
に応じて、マイクロホンアレイユニット30の焦点位置
が話者の位置になるように調整することで、さらに高い
耐雑音性を得ることができる。また、方向制御機構35
により、マイクロホンアレイユニット30の話者に対す
る方向を変更することが可能になっている。
【0020】各マイクロホンからの出力は、マイクロホ
ンアンプ33で加算され、次段のA/D変換回路34で
ディジタル信号に変換された後に出力される。こうして
得られた信号が前記図1の音声特徴ベクトル抽出部22
に送られる。
【0021】また、このようなマイクロホンアレイ以外
にも、日本音響学会誌51巻5号(1995)、第40
0ページ乃至406頁にも発表されているようなパラメ
トリックマイクロホン(超指向性マイクロホン)も利用
できる。パラメトリックマイクロホンとは、音波の非線
型性を利用し、プローブ波として大振幅の超音波を発生
させ、その伝播空間(超音波音場)内において、進入し
てくる音波と非線型相互作用を起こし、その結果とし
て、プローブ波は空間中で振幅変調され(非線型歪みの
発生)、その変調を利用するものである。
【0022】即ち、プローブ波と入射音波の交差空間が
長い程変調(非線型歪み)は大きくなり、これがパラメ
トリックマイクロホンの受音方向性(指向特性)を決定
する。従って、プローブ波と同方向に進む音波が最も変
調(非線型歪み)が大きくなる。さらに、超音波は鋭い
指向性を有しているため、交差空間は限定されてしまう
が、この交差空間がマイクロホンアレイと等価の働きを
し仮想的な縦形の配列構造を有するマイクロホンを形成
する。従ってパラメトリックマイクロホンは、ある一定
方向から入射してくる音のみを受音することができる。
【0023】図3は音声情報入力部20にパラメトリッ
クマイクロホンを適用した具体例を示している。パラメ
トリックマイクロホンユニット40はプローブ波発生部
41と受音部42により構成され、前記プローブ波発生
部41では、プローブ波発生回路43よりプローブ波信
号が供給され、超音波(約40KHz周辺)を発生す
る。入力音声はプローブ波の伝搬方向と同方向に伝搬す
る方向から音場(パラメトリックマイクロホンユニット
40内)に入ってくる。この音声とプローブ波はパラメ
トリックマイクロホンユニット40内で非線型相互作用
を起こし、プローブ波が振幅変調(非線型歪み)を生じ
る。
【0024】プローブ波の伝搬方向と音声の伝搬方向が
一致しなければ上述の振幅変調(非線型歪み)の発生が
小さくなり、音声信号を抽出することは困難になるの
で、かなりの狭指向性(耐ノイズ性)を有することにな
る。この振幅変調(非線型歪み)はプローブ波の伝搬経
路と音声の伝搬経路の交差点で発生するため、見かけ上
仮想マイクロホン素子が縦形配列を形成しているような
状態となるものである。
【0025】プローブ波発生部41からのプローブ波を
受音部42で受け、復調回路44で音声だけを抽出し、
マイクロホンアンプ45で増幅した後、A/D変換回路
46を介して出力信号を得る。この信号が前記図1の音
声特徴ベクトル抽出部22に送られる。また、方向制御
機構47によってパラメトリックマイクロホンユニット
40の方向を変更させることができる。さらに、アレイ
長変更機構によってアレイ長(プローブ波発生部41と
受音部42との間の距離)を変更することができる。
【0026】続いて本発明の音声認識装置の動作につい
て説明する。前記図1において、画像情報解析部26
は、画像情報入力部25から得られた画像データを解析
し、画像内の話者の位置を検出する。画像内における話
者の位置は、話者の顔画像を抽出し、それを追跡するこ
となどで求めることができる。音声入力制御部21は、
前記画像情報解析部26から送られてくる話者の位置デ
ータに基づいて、音声情報入力部20の指向特性や入力
特性、方向を制御する。
【0027】前記図2の如くマイクロホンアレイを用い
る場合、遅延回路32の遅延時間を制御して常に焦点位
置が話者の位置になるように調整する、話者とマイクロ
ホンアレイユニット30との距離の変化に応じてマイク
ロホンアンプ33のゲインを変更する、話者とマイクロ
ホンアレイユニット30との位置関係の変化に応じて方
向制御機構35を駆動してマイクロホンアレイユニット
30の向きを調整する等の制御が可能である。
【0028】また、前記図3の如くパラメトリックマイ
クロホンを用いる場合、感度特性はアレイ長とプローブ
波の角周波数との積によって決定されるため、アレイ長
や、プローブ波の周波数(プローブ波の周波数とプロー
ブ波の角周波数の変化とは正比例する)を変更すれば受
波感度を変化させることができるが、実施例ではプロー
ブ波発生回路43を制御してプローブ波の周波数を変化
させるようにしている。
【0029】また、指向特性はアレイ長と信号波波数と
の積によって決定されるので、アレイ長と信号波波数と
の積により求められる該値を変化させることで指向特性
を変化させることができる(前記値が高くなるほど狭指
向性となる)。実施例においては、アレイ長変更機構4
8を駆動してアレイ長を変化させるようにしている。
【0030】そして、話者とパラメトリックマイクロホ
ンユニット40との距離の変化に応じてマイクロホンア
ンプ45のゲインを変更することができる。
【0031】さらには、方向制御機構47により、パラ
メトリックマイクロホンユニット40の方向を話者の方
へ向けることができる。
【0032】このような制御により、話者の位置の変化
に対しては、話者の方向へマイクロホンの指向特性やマ
イクロホンの方向を調整することで、また、話者とマイ
クロホンとの間の距離の変動に対しては、マイクロホン
の感度特性を変更することで、安定して品質の良い音声
を得ることができ、認識率の向上を図ることができる。
【0033】また同時に、マイクロホンの指向特性の制
御により、話者の位置と異なる方向から発生している騒
音のレベルを相対的に抑制することができるため、周囲
雑音の影響が少なくなり、認識率の向上を図ることがで
きる。
【0034】このようにして前記図2または図3で示し
た音声情報入力部で取り込まれた信号は、従来の音声認
識装置と同様に、音声特徴ベクトル抽出部22において
分析処理が施され、音声特徴ベクトル列に変換される。
変換された音声特徴ベクトルは音声認識部23において
正規化処理等が行われ、音声パターンに変換された後、
既に述べたような既知の音声認識手法によって認識結果
が得られる。
【0035】尚、マイクロホンの感度特性、マイクロホ
ンの指向特性、マイクロホンの方向の全てを変化させる
ようにしてもよいし、マイクロホンの感度特性、マイク
ロホンの指向特性、マイクロホンの方向のいずれか1つ
だけを変化させるように構成してもよい。例えば、話者
とマイクロホンとの間の位置がある程度限定されるよう
な場所に設置された音声認識装置ならば、感度特性のみ
変えるようにしてもよい。
【0036】
【発明の効果】以上、詳述した如く本発明に依れば、常
に話者のいる方向からの音を適確に捕捉すると共に、話
者の位置の変化や周囲雑音等の影響を低減し、話者の発
する音声を良好な品質で取り込むことができるので、認
識率を向上させることができる。
【図面の簡単な説明】
【図1】本発明の音声認識装置の構成を示す回路ブロッ
ク図である。
【図2】本発明の音声認識装置において、音声情報入力
部20にマイクロホンアレイを適用した例を示す回路ブ
ロック図である。
【図3】本発明の音声認識装置において、音声情報入力
部20にパラメトリックマイクロホンを適用した例を示
す回路ブロック図である。
【図4】従来の音声認識装置の構成を示す回路ブロック
図である。
【符号の説明】
20 音声情報入力部 21 音声入力制御部 22 音声特徴ベクトル抽出部 23 音声認識部 24 認識結果表示部 25 画像情報入力部 26 画像情報解析部 30 マイクロホンアレイユニット 31 ウェイティング用アンプ 32 遅延回路 33 マイクロホンアンプ 34 A/D変換回路 35 方向制御機構 40 パラメトリックマイクロホンユニット 41 プローブ波発生部 42 受音部 43 プローブ波発生回路 44 復調回路 45 マイクロホンアンプ 46 A/D変換回路 47 方向制御機構 48 アレイ長変更機構

Claims (8)

    【特許請求の範囲】
  1. 【請求項1】 画像情報を取り込むための画像情報入力
    手段と、該画像情報入力手段より入力された画像情報を
    解析するための画像情報解析手段と、音声情報を取り込
    むための音声情報入力手段と、前記画像情報解析手段か
    らの情報に基づいて前記音声情報入力手段の音声入力特
    性を変化させるための入力特性変更手段とを備えたこと
    を特徴とする音声認識装置。
  2. 【請求項2】 前記入力特性変更手段は、前記音声情報
    入力手段の感度特性を変化させることを特徴とする請求
    項1記載の音声認識装置。
  3. 【請求項3】 前記入力特性変更手段は、前記音声情報
    入力手段の指向特性を変化させることを特徴とする請求
    項1記載の音声認識装置。
  4. 【請求項4】 前記入力特性変更手段は、前記音声情報
    入力手段の方向を変化させることを特徴とする請求項1
    記載の音声認識装置。
  5. 【請求項5】 前記音声情報入力手段は、直列に配列さ
    れた複数のマイクロホンで構成されたマクロホンアレイ
    を備えることを特徴とする請求項1乃至請求項4のうち
    いずれかに記載の音声認識装置。
  6. 【請求項6】 前記音声情報入力手段は、パラメトリッ
    クマイクロホンを備えることを特徴とする請求項1乃至
    請求項4記載の音声認識装置。
  7. 【請求項7】 前記画像情報解析手段は、前記画像情報
    入力手段より入力された画像情報に基づいて話者の位置
    に関する情報を解析することを特徴とする請求項1乃至
    請求項6のうちいずれかに記載の音声認識装置。
  8. 【請求項8】 前記画像情報解析手段は、前記画像情報
    入力手段より入力された画像情報より話者の特定部分の
    画像を抽出し、それを追跡して話者の位置に関する情報
    を解析するを特徴とする請求項7記載の音声認識装置。
JP10316204A 1998-11-06 1998-11-06 音声認識装置 Pending JP2000148184A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP10316204A JP2000148184A (ja) 1998-11-06 1998-11-06 音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP10316204A JP2000148184A (ja) 1998-11-06 1998-11-06 音声認識装置

Publications (1)

Publication Number Publication Date
JP2000148184A true JP2000148184A (ja) 2000-05-26

Family

ID=18074468

Family Applications (1)

Application Number Title Priority Date Filing Date
JP10316204A Pending JP2000148184A (ja) 1998-11-06 1998-11-06 音声認識装置

Country Status (1)

Country Link
JP (1) JP2000148184A (ja)

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002264051A (ja) * 2001-03-09 2002-09-18 Japan Science & Technology Corp ロボット視聴覚システム
JP2002264053A (ja) * 2001-03-09 2002-09-18 Japan Science & Technology Corp ロボット視聴覚システム
JP2002264052A (ja) * 2001-03-09 2002-09-18 Japan Science & Technology Corp ロボット視聴覚システム
JP2002264058A (ja) * 2001-03-09 2002-09-18 Japan Science & Technology Corp ロボット視聴覚システム
WO2002072317A1 (en) * 2001-03-09 2002-09-19 Japan Science And Technology Corporation Robot audiovisual system
JP2003271196A (ja) * 2002-03-18 2003-09-25 Sony Corp ロボット装置及びその制御方法
JP2004240154A (ja) * 2003-02-06 2004-08-26 Hitachi Ltd 情報認識装置
JP2004283927A (ja) * 2003-03-20 2004-10-14 Sony Corp ロボット制御装置および方法、記録媒体、並びにプログラム
CN104657105A (zh) * 2015-01-30 2015-05-27 腾讯科技(深圳)有限公司 一种开启终端的语音输入功能的方法和装置
JP2021033140A (ja) * 2019-08-27 2021-03-01 富士通クライアントコンピューティング株式会社 情報処理装置およびプログラム
JP2021527853A (ja) * 2018-06-21 2021-10-14 マジック リープ, インコーポレイテッドMagic Leap,Inc. ウェアラブルシステム発話処理
CN114981886A (zh) * 2019-11-20 2022-08-30 元平台技术有限公司 使用多个数据源的语音转录
US11790935B2 (en) 2019-08-07 2023-10-17 Magic Leap, Inc. Voice onset detection
US11854550B2 (en) 2019-03-01 2023-12-26 Magic Leap, Inc. Determining input for speech processing engine
US11917384B2 (en) 2020-03-27 2024-02-27 Magic Leap, Inc. Method of waking a device using spoken voice commands
US12327573B2 (en) 2019-04-19 2025-06-10 Magic Leap, Inc. Identifying input for speech recognition engine
US12417766B2 (en) 2020-09-30 2025-09-16 Magic Leap, Inc. Voice user interface using non-linguistic input

Cited By (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6967455B2 (en) 2001-03-09 2005-11-22 Japan Science And Technology Agency Robot audiovisual system
JP2002264052A (ja) * 2001-03-09 2002-09-18 Japan Science & Technology Corp ロボット視聴覚システム
JP2002264058A (ja) * 2001-03-09 2002-09-18 Japan Science & Technology Corp ロボット視聴覚システム
WO2002072317A1 (en) * 2001-03-09 2002-09-19 Japan Science And Technology Corporation Robot audiovisual system
JP2002264053A (ja) * 2001-03-09 2002-09-18 Japan Science & Technology Corp ロボット視聴覚システム
JP2002264051A (ja) * 2001-03-09 2002-09-18 Japan Science & Technology Corp ロボット視聴覚システム
JP2003271196A (ja) * 2002-03-18 2003-09-25 Sony Corp ロボット装置及びその制御方法
JP2004240154A (ja) * 2003-02-06 2004-08-26 Hitachi Ltd 情報認識装置
JP2004283927A (ja) * 2003-03-20 2004-10-14 Sony Corp ロボット制御装置および方法、記録媒体、並びにプログラム
CN104657105A (zh) * 2015-01-30 2015-05-27 腾讯科技(深圳)有限公司 一种开启终端的语音输入功能的方法和装置
US12347448B2 (en) 2018-06-21 2025-07-01 Magic Leap, Inc. Wearable system speech processing
JP2021527853A (ja) * 2018-06-21 2021-10-14 マジック リープ, インコーポレイテッドMagic Leap,Inc. ウェアラブルシステム発話処理
US11854566B2 (en) 2018-06-21 2023-12-26 Magic Leap, Inc. Wearable system speech processing
JP7745603B2 (ja) 2018-06-21 2025-09-29 マジック リープ, インコーポレイテッド ウェアラブルシステム発話処理
JP2023159461A (ja) * 2018-06-21 2023-10-31 マジック リープ, インコーポレイテッド ウェアラブルシステム発話処理
JP7419270B2 (ja) 2018-06-21 2024-01-22 マジック リープ, インコーポレイテッド ウェアラブルシステム発話処理
US11854550B2 (en) 2019-03-01 2023-12-26 Magic Leap, Inc. Determining input for speech processing engine
US12243531B2 (en) 2019-03-01 2025-03-04 Magic Leap, Inc. Determining input for speech processing engine
US12327573B2 (en) 2019-04-19 2025-06-10 Magic Leap, Inc. Identifying input for speech recognition engine
US11790935B2 (en) 2019-08-07 2023-10-17 Magic Leap, Inc. Voice onset detection
US12094489B2 (en) 2019-08-07 2024-09-17 Magic Leap, Inc. Voice onset detection
JP2021033140A (ja) * 2019-08-27 2021-03-01 富士通クライアントコンピューティング株式会社 情報処理装置およびプログラム
CN114981886A (zh) * 2019-11-20 2022-08-30 元平台技术有限公司 使用多个数据源的语音转录
US12238496B2 (en) 2020-03-27 2025-02-25 Magic Leap, Inc. Method of waking a device using spoken voice commands
US11917384B2 (en) 2020-03-27 2024-02-27 Magic Leap, Inc. Method of waking a device using spoken voice commands
US12417766B2 (en) 2020-09-30 2025-09-16 Magic Leap, Inc. Voice user interface using non-linguistic input

Similar Documents

Publication Publication Date Title
JP2000148184A (ja) 音声認識装置
CN111044973B (zh) 一种用于麦克风方阵的mvdr目标声源定向拾音方法
US9100734B2 (en) Systems, methods, apparatus, and computer-readable media for far-field multi-source tracking and separation
CN111445920B (zh) 一种多声源的语音信号实时分离方法、装置和拾音器
CN110379439B (zh) 一种音频处理的方法以及相关装置
KR102191736B1 (ko) 인공신경망을 이용한 음성향상방법 및 장치
US8364483B2 (en) Method for separating source signals and apparatus thereof
CN110970049A (zh) 多人声识别方法、装置、设备及可读存储介质
US20060053002A1 (en) System and method for speech processing using independent component analysis under stability restraints
EP1455552A2 (en) Microphone array, method and apparatus for forming constant directivity beams using the same, and method and apparatus for estimating acoustic source direction using the same
CN102164328A (zh) 一种用于家庭环境的基于传声器阵列的音频输入系统
US20030061032A1 (en) Selective sound enhancement
CN110610718B (zh) 一种提取期望声源语音信号的方法及装置
JPH09251299A (ja) マイクロホンアレイ入力型音声認識装置及び方法
CN108109617A (zh) 一种远距离拾音方法
CN114245266B (zh) 小型麦克风阵列设备的区域拾音方法及系统
CN118486318A (zh) 一种户外直播环境杂音消除方法、介质及系统
CN113936687A (zh) 一种实时语音分离语音转写的方法
CN116129930B (zh) 无参考回路的回声消除装置及方法
KR101414233B1 (ko) 음성 신호의 명료도를 향상시키는 장치 및 방법
CN114464184B (zh) 语音识别的方法、设备和存储介质
CN115691540A (zh) 一种实时语音分离语音转写的方法
CN121054020A (zh) 一种音频数据处理方法、装置及电子设备
Takatani et al. High-fidelity blind separation of acoustic signals using SIMO-model-based independent component analysis
CN110211606B (zh) 一种语音认证系统的重放攻击检测方法

Legal Events

Date Code Title Description
A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20041005