[go: up one dir, main page]

JPH02195400A - 音声認識装置 - Google Patents

音声認識装置

Info

Publication number
JPH02195400A
JPH02195400A JP1013098A JP1309889A JPH02195400A JP H02195400 A JPH02195400 A JP H02195400A JP 1013098 A JP1013098 A JP 1013098A JP 1309889 A JP1309889 A JP 1309889A JP H02195400 A JPH02195400 A JP H02195400A
Authority
JP
Japan
Prior art keywords
recognition
phoneme
speech
dynamic programming
phonemes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP1013098A
Other languages
English (en)
Inventor
Tetsuo Kosaka
哲夫 小坂
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP1013098A priority Critical patent/JPH02195400A/ja
Priority to EP90300693A priority patent/EP0380297B1/en
Priority to DE69031284T priority patent/DE69031284T2/de
Publication of JPH02195400A publication Critical patent/JPH02195400A/ja
Priority to US08/340,468 priority patent/US5893058A/en
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/12Speech classification or search using dynamic programming techniques, e.g. dynamic time warping [DTW]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/32Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units

Landscapes

  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Machine Translation (AREA)
  • Image Analysis (AREA)
  • Document Processing Apparatus (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 [産業上の利用分野] 本発明は音声認識装置に関し、特に不特定話者を対象と
し、音韻表記の単語辞書を参照して音声認識を行う音声
認識装置に関するものである。
[従来の技術] 近年、音声認識装置においては、音韻や音節を単位とし
た手法が研究されている。これは以下のような理由によ
る。
六語常を対象とした音声認識装置では、各単語単位で標
準パターンを持つには大容量のメモリを必要とする。ま
た、対象単語の登録作業が必要となるために登録作業に
労力を要し、新たに単語を追加するのが困難である。こ
れに対し、音韻などを認識の基本単位とする方法では、
ローマ字やかな書きで単語を辞書に登録できるので、先
に挙げた問題を排除することができる。
しかしながら、音韻の認識は、発話ごとの音韻のスペク
トルの変動、調音結合、破裂音等の識別が困難な音韻の
存在などの問題があり、そう容易なことではない。さら
に、不特定話者を対象とした場合には、個人差の影響も
あり、さらに困難なものとなる。
これらの問題に対処するために、これまでに、以下のよ
うな手法が検討されてきた。
(1)母音の学習 (2)統計的判別法 (3)ヒドン・マルコフ・モデル (4)マルチ・テンプレート法 [発明が解決しようとしている課題] しかしながら、日本語の各音韻は音韻群ごとにその音韻
性の表われ方が異なり、−律の手法では認識が困難であ
った。
例えば、母音ではフォルマントの相対的な位置が特徴と
なるが、半母音・破裂音などではスペクトルの時間的な
遷移が特徴となっている。また、半母音と破裂音のそれ
ぞれで、スペクトル遷移が特徴であると言っても、半母
音では比較的ゆるやかにスペクトルが遷移するが、破裂
音では短時間で急激にスペクトルが遷移する、といった
違いが見られる。
これら特徴の異なる音韻の認識に関し、従来例では先に
述べたような手法の一つを用い、すべての音韻を一律に
認識しているために、高い認識率が得られない、という
欠点があった0例えば上記(2)に属する手法として、
「連続音声の認識を目的としたセグメント特徴の検出」
 (小坂他、日本音響学会音声研究会資料585−53
.1985−12)があるが、この手法ではスペクトル
の時間変化に対応しているために、破裂音などの認識率
は高いが、反面スペクトル時間変化の時間方向の変動に
は対処していないので、半母音などの遷移の遅く、時間
構造の変化する音韻の認識には適していない。
また、MITリンカーン研究所のシステム(新美康永著
「音声認識J 1979.10.共立出版p、81〜p
、87)のように、大まかにセグメンテーションした後
に、大分類された各グループに対し、それぞれ異る手法
で音韻の認識を行うというシステムも存在するが、この
ようなシステムではセグメンテーションに大きな負荷が
かかり、そのセグメンテーションの良否によって、認識
率が大きく依存する、という欠点があった。
本発明は、上記課題を解決するために成されたもので、
音韻認識の困難さ、特に、不特定話者を対象とした場合
の困難さを除去し、認識精度の高い音声認識装置を提供
することを目的とする。
[課題を解決するための手段] 上記目的を達成するために、本発明の音声認識装置は以
下の構成を備える。即ち、 音韻表記の単語辞書を有し音・韻認識を基本として音声
を認識する音声認識装置において、各音韻ごとに、異な
る音声分析法及び認識法により認識を行う認識手段と、
該認識手段での認識結果を動的計画法を用いて特定する
特定手段とを備える。
また好ましくは、前記認識手段は、母音及び撥音に対し
認識開始前に各話者ごとに係数を学習したニューラルネ
ットを用いて認識を行う第1の認識手段と、半母音に対
し統計的距離尺度を用いた動的計画法を用いて認識を行
う第2の認識手段と、その他の音韻に対しスペクトルの
時間変化パターンのベイズ決定による識別法を用いて認
識を行う第3の認識手段とを備える。
[作用] 以上の構成において、音韻の大まかなセグメンテーショ
ンを行い大分類をした後に、その各音韻に対して、それ
ぞれ適した認識法を用いて認識を行う、さらに、詳細に
音韻境界を求めるために、先に計算した音韻認識結果の
テーブルを使って、単語辞書より展開した記号系列と入
力音声のマツチングを動的計画法を用いて行う。この動
的計画法によって得られた得点の大小比較により最終的
に認識単語の決定を行うように動作する。
これにより音韻認識の困難さに対しては、音韻ごとに異
なる認識手法を用いることによって対処し、またセグメ
ンテーションの困難さに対しては動的計画法を用いるこ
とにより対処し、単語認識の精度の向上を図ったもので
ある。
[実施例] 以下、添付図面に従って本発明による実施例を詳細に説
明する。
第1図が本装置の動作を最も良く表す流れ図である。こ
の図は単語が発声され、分析された後の処理の過程を示
している。なお、本実施例では、母音という表現には撥
音/N/も含む。
まず、ステップS1において、入力された単語のパラメ
ータ時系列すべてを用いて、音声区間をいくつかの音韻
群にクラス分けする。なお、いくつに区分するかは、以
下の音韻の認識方式が何通り用意されているかに依存す
る。本実施例では、母音/半母音/その他の3クラスに
区分する。
また、区分法については、新美康永著、「音声認識J 
 (1979,10,共立出版)などに記載されており
、ここでの説明は省略する。
次に、ステップs2では入力音声のフレームを表わすポ
インタfr(この場合は、fr=1より音声データが入
っているものとする。)の初期化(本実施例では“0”
クリア)を行う。そして、ステップS3に処理を進め、
フレームポインタfrをインクリメントし、1つ先のデ
ータを読み込む。次に、ステップS4では、音声区間の
終了を判定する処理であり、音声データファイルが終了
した場合は、ステップS12へ、それ以外ではステップ
S5へ処理を進める。
ステップS5では、ステップS1の処理による大まかな
セグメンテーションの結果を参照して、音韻の種類を判
定する。本実施例では母音/半母音/その他の3種類に
判定し、その結果に従ってそれぞれステップS6.ステ
ップS8.ステップSIOへ処理を進める。このステッ
プS6.8゜10では、それぞれ母音の認識、半母音の
認識。
その他音韻の認識を行う。そして、認識が終了すると、
その結果として出力する値を、ステップ7、ステップS
9.ステップS10の各処理で“O”〜“1”の範囲に
正規化する。
なお、本実施例ではステップS6の母音の認識には、各
話者ごとに係数を学習したニューラル・ネットを用いる
。このニューラル・ネット作成法及び認識法については
、中周を一著「確率モデルによる音声認識J  (19
88,7,電子情報通信学会p156〜p177)に詳
細に述べられており、ここでの説明は省略する。
また、ステップS8の半母音の認識には、統計的な距離
尺度を用いた動的計画法(以下、DPという)を用いる
。この方法は、マハラノビスDPという名で論文「マハ
ラノビス距離を用いるDPマツチングによる単語音声認
識」 (電子通信学会論文誌’83/IVol。J66
−ANo、1p、64〜p、70)に詳細に述べられて
いる。
この論文では、単語認識について述べられているが、本
実施例では、ステップS1のセグメンテーション結果に
よる半母音の始端及び終端をDPの始端・終端として、
この手法を適用する。
次に、ステップSIOのその他音韻の認識に関しては、
スペクトルの時間変化パターンのベイズ決定による識別
法を用いる。この手法は、研究会資料「連続音声の認識
を目的としたセグメント特徴の検出」 (日本音響学会
音声研究会資料585−53.1985−12)に詳し
く述べられている。
ステップS6の母音及びステップSIOのその他音韻の
認識処理では、出力結果が既に“0”〜“1”の範囲に
収まっている。また、この場合、出力が大きい程その音
韻らしいと言える。これに対して、ステップS8の半母
音の認識処理では、認識時にマハラノビス距離を用いて
いるために、出力結果が小さい程その音韻らしいと言え
、その出力値の範囲も“O”〜数十程度の範囲を取る。
そのために、ステップS9での正規化の方法は、まず、
出力値に負符号をつけ、最大値が“0“になるようにす
る。次にスレショルドth (<O)を設定し、それ以
下の出力値をthで置き換え、値をthから“O”の範
囲とする。さらに、th=“0”O“−“l”となるよ
うに線形変換を行い、その結果を正規化出力とする。
以上説明した各ステップでの処理を音声区間が終了する
まで繰り返し、終了した時点でステップS12へ処理を
進める。
このステップS12では、ステップS1での大まかなセ
グメンテーションの結果を基に、単語の予備選択を行う
。具体的には、セグメンテーションの結果得られた3種
類のセグメントの並びが一致する単語のみ、単語辞書よ
り選択する処理である。次にステップ313では、ステ
ップS12で選択された単語辞書中の単語を、一つずつ
読み込み、ステップS14で、選択した単語とすべてマ
ツチングしたかどうかを判断する。その結果、終了して
いなければステップS15でDPによる得点計算を行う
。このDPは単語辞書から得られた音韻記号列に対応す
る音韻標準パターン列と、入力音声のパラメータ時系列
を直接マツチングするもので、フレームコ。音韻クラス
CLでの得点d (i、j)は、各ステップS7.9.
11で求めた値をそのまま用いる。このDPの式は、以
下のように表わせる。
g (i、0) =−■ g (0,j) =−c。
g (1,1) =d(1,1) g (1,j) =d(1,j)+g(1,0−1) 
  −= (a)D (A、 X) −g (1,J)
/I◆J但し、A;辞書  X;入力単語 g (i、j)  ;  (i、j)での累積得点1、
J ; i及びjの最大値 次に、ステップS14の判断で辞書が終了したらステッ
プS16に処理を進め、ステップS16において、マツ
チングした単語のうち最大得点を与えるものを選択し入
力音声の認識結果とする。
そして、ステップS17で、この認識結果の出力を行う
第2図は、本装置をハード化した場合の構成を示すブロ
ック図である。図示するように、18のマイクから入力
された音声は、19の分析部で帯域フィルタ群により分
析され短時間スペクトルに変換される。第1図に示した
処理手順の制御は20のCPUで行われ、このプログラ
ムは21のROMIに格納されている。また22のRO
M2は単語辞書用である。23は音韻パターン格納用の
RAMであり、24のフロッピーディスク又はROMか
らのデータを格納する。なお、RAMに音韻パターンを
格納するようにしたのは、母音は学習により特定の個人
へ音韻パターンを適応させるのが可能なためであり、こ
の場合は、RAMの内容を書き換え、母音パターンを登
録する。
本実施例では、−例として、同一パラメータを用いた認
識法について述べたが、パラメータを音韻群により別の
ものを用いるという方法も考えられる。この場合、大ま
かなセグメンテーションの段階では、音韻の種類がまだ
分からないのでパラメータの選択はできない。しかし、
第1図で示すステップS5の処理で音韻の種類がわかり
、再び入力音声を別な手法で分析し異なるパラメータを
用いることができる。
なお、この場合に、ステップS10では同様に帯域フィ
ルタ出力を用い、ステップS6,8ではピークが良く表
わせるLPC形のパラメータを用いるという手法をとる
以上の実施例では、各種のパラメータを用いるので分析
はソフトウェアで行うこととする。そのために、ハード
ウェア構成は、簡易化することができる。従って、第2
図で示す19の分析部は、入力音声の分析を行う必要が
なく、A/D変換を行い、バスに取り込むだけで良い。
[発明の効果] 以上説明したように、本発明によれば、音韻の種類によ
り異なるパラメータ、異なる認識手法を用い、またセグ
メンテーションは大まかに行ったのち、入力音声に対す
る音韻パターンの位置決めには、動的計画法を用いると
いう手法を取るために、精度の高い音声認識が可能とな
る。さらに、母音のような個人性の強く表われる音韻に
対しては、話者ごとに学習を行うことで、不特定話者に
強い音声認識を行うことができる。
【図面の簡単な説明】
第1図は本実施例における音声認識の処理手順を示すフ
ローチャート、 第2図は本実施例における音声認識装置の構成を示すブ
ロック図である。 図中、18・・・マイク、19・・・分析部、20・・
・CPU、21・・・プログラム用ROM、22・・・
単語辞書用ROM、23・・・音韻パターン用RAM。 24・・・フロッピディスク装置である。

Claims (2)

    【特許請求の範囲】
  1. (1)音韻表記の単語辞書を有し音韻認識を基本として
    音声を認識する音声認識装置において、各音韻ごとに、
    異なる音声分析法及び認識法により認識を行う認識手段
    と、該認識手段での認識結果を動的計画法を用いて特定
    する特定手段とを備えることを特徴とする音声認識装置
  2. (2)前記認識手段は、母音及び撥音に対し認識開始前
    に各話者ごとに係数を学習したニューラルネットを用い
    て認識を行う第1の認識手段と、半母音に対し統計的距
    離尺度を用いた動的計画法を用いて認識を行う第2の認
    識手段と、その他の音韻に対しスペクトルの時間変化パ
    ターンのベイズ決定による識別法を用いて認識を行う第
    3の認識手段とを備えることを特徴とする請求項第1項
    に記載の音声認識装置。
JP1013098A 1989-01-24 1989-01-24 音声認識装置 Pending JPH02195400A (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP1013098A JPH02195400A (ja) 1989-01-24 1989-01-24 音声認識装置
EP90300693A EP0380297B1 (en) 1989-01-24 1990-01-23 Method and apparatus for speech recognition
DE69031284T DE69031284T2 (de) 1989-01-24 1990-01-23 Verfahren und Einrichtung zur Spracherkennung
US08/340,468 US5893058A (en) 1989-01-24 1994-11-14 Speech recognition method and apparatus for recognizing phonemes using a plurality of speech analyzing and recognizing methods for each kind of phoneme

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP1013098A JPH02195400A (ja) 1989-01-24 1989-01-24 音声認識装置

Publications (1)

Publication Number Publication Date
JPH02195400A true JPH02195400A (ja) 1990-08-01

Family

ID=11823676

Family Applications (1)

Application Number Title Priority Date Filing Date
JP1013098A Pending JPH02195400A (ja) 1989-01-24 1989-01-24 音声認識装置

Country Status (4)

Country Link
US (1) US5893058A (ja)
EP (1) EP0380297B1 (ja)
JP (1) JPH02195400A (ja)
DE (1) DE69031284T2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009107411A1 (ja) * 2008-02-28 2009-09-03 日本電気株式会社 音声認識装置、音声認識方法、及び、音声認識プログラムが記録された記録媒体
WO2016006038A1 (ja) * 2014-07-08 2016-01-14 三菱電機株式会社 音声認識システム及び音声認識方法

Families Citing this family (66)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2107317A1 (en) * 1992-10-30 1994-05-01 Rajendra Prasad Mikkilineni Speech recognition system
ES2078834B1 (es) * 1992-10-30 1997-04-16 Alcatel Standard Electrica Metodo de segmentacion de cadenas de palabras en la fase de entrenamiento de un reconocedor de palabras conectadas.
EP0838073B1 (en) * 1995-05-26 2002-07-24 Speechworks International, Inc. Method and apparatus for dynamic adaptation of a large vocabulary speech recognition system and for use of constraints from a database in a large vocabulary speech recognition system
JP3584458B2 (ja) * 1997-10-31 2004-11-04 ソニー株式会社 パターン認識装置およびパターン認識方法
JPH11184491A (ja) * 1997-12-18 1999-07-09 Ricoh Co Ltd 音声認識装置
US6148284A (en) * 1998-02-23 2000-11-14 At&T Corporation Method and apparatus for automatic speech recognition using Markov processes on curves
JP3075250B2 (ja) * 1998-03-04 2000-08-14 日本電気株式会社 話者認識方法及び装置
JP2002519747A (ja) * 1998-06-23 2002-07-02 インテリックス アクティーゼルスカブ n項組又はRAMベース・ニューラルネットワーク分類システム及び方法
DE19834321A1 (de) * 1998-07-30 2000-02-03 Alcatel Sa Verfahren, Endgerät, Knoten, Programmodul und Bedienoberfläche zur Ermittlung von für eine Kommunikationsbeziehung erforderlichen Merkmalen
JP3893763B2 (ja) * 1998-08-17 2007-03-14 富士ゼロックス株式会社 音声検出装置
US6223319B1 (en) * 1998-08-20 2001-04-24 General Electric Company Turbo code decoder with controlled probability estimate feedback
WO2000022607A1 (en) * 1998-10-09 2000-04-20 Sony Corporation Learning device and method, recognizing device and method, and recording medium
KR100277694B1 (ko) * 1998-11-11 2001-01-15 정선종 음성인식시스템에서의 발음사전 자동생성 방법
US6321200B1 (en) * 1999-07-02 2001-11-20 Mitsubish Electric Research Laboratories, Inc Method for extracting features from a mixture of signals
US6374216B1 (en) * 1999-09-27 2002-04-16 International Business Machines Corporation Penalized maximum likelihood estimation methods, the baum welch algorithm and diagonal balancing of symmetric matrices for the training of acoustic models in speech recognition
JP2001117579A (ja) * 1999-10-21 2001-04-27 Casio Comput Co Ltd 音声照合装置、音声照合方法、及び音声照合処理プログラムを記憶した記憶媒体
CA2387091A1 (en) * 1999-10-28 2001-05-03 At&T Corp. Method and system for detection of phonetic features
WO2001048738A1 (en) * 1999-12-23 2001-07-05 Intel Corporation A global approach for segmenting characters into words
RU2231830C2 (ru) * 2000-06-01 2004-06-27 Юрьев Дмитрий Николаевич Способ распознавания звуков
RU2231133C2 (ru) * 2000-06-01 2004-06-20 Юрьев Дмитрий Николаевич Способ распознавания звуков
US7318032B1 (en) * 2000-06-13 2008-01-08 International Business Machines Corporation Speaker recognition method based on structured speaker modeling and a “Pickmax” scoring technique
JP3342864B2 (ja) * 2000-09-13 2002-11-11 株式会社エントロピーソフトウェア研究所 音声の類似度検出方法及びその検出値を用いた音声認識方法、並びに、振動波の類似度検出方法及びその検出値を用いた機械の異常判定方法、並びに、画像の類似度検出方法及びその検出値を用いた画像認識方法、並びに、立体の類似度検出方法及びその検出値を用いた立体認識方法、並びに、動画像の類似度検出方法及びその検出値を用いた動画像認識方法
JP2002099916A (ja) * 2000-09-25 2002-04-05 Olympus Optical Co Ltd パターン分類方法及びその装置、コンピュータにより読み取り可能な記憶媒体
KR20030057562A (ko) * 2000-11-30 2003-07-04 양 밍 폭 신경 코텍스
US7113637B2 (en) * 2001-08-24 2006-09-26 Industrial Technology Research Institute Apparatus and methods for pattern recognition based on transform aggregation
DE10220524B4 (de) 2002-05-08 2006-08-10 Sap Ag Verfahren und System zur Verarbeitung von Sprachdaten und zur Erkennung einer Sprache
EP1363271A1 (de) 2002-05-08 2003-11-19 Sap Ag Verfahren und System zur Verarbeitung und Speicherung von Sprachinformationen eines Dialogs
JP3673507B2 (ja) * 2002-05-16 2005-07-20 独立行政法人科学技術振興機構 音声波形の特徴を高い信頼性で示す部分を決定するための装置およびプログラム、音声信号の特徴を高い信頼性で示す部分を決定するための装置およびプログラム、ならびに擬似音節核抽出装置およびプログラム
US7356466B2 (en) * 2002-06-28 2008-04-08 Samsung Electronics Co., Ltd. Method and apparatus for performing observation probability calculations
JP4178319B2 (ja) * 2002-09-13 2008-11-12 インターナショナル・ビジネス・マシーンズ・コーポレーション 音声処理におけるフェーズ・アライメント
RU2234746C2 (ru) * 2002-10-30 2004-08-20 Пермский государственный университет Способ дикторонезависимого распознавания звуков речи
US7617104B2 (en) * 2003-01-21 2009-11-10 Microsoft Corporation Method of speech recognition using hidden trajectory Hidden Markov Models
TWI226600B (en) * 2003-03-12 2005-01-11 Leadtek Research Inc Nasal detection method and device thereof
JP4194433B2 (ja) * 2003-07-07 2008-12-10 キヤノン株式会社 尤度算出装置および方法
US7650282B1 (en) * 2003-07-23 2010-01-19 Nexidia Inc. Word spotting score normalization
US7664642B2 (en) * 2004-03-17 2010-02-16 University Of Maryland System and method for automatic speech recognition from phonetic features and acoustic landmarks
JP2006105943A (ja) * 2004-10-08 2006-04-20 Omron Corp 知識作成装置及びパラメータ探索方法並びにプログラム製品
US7627537B2 (en) * 2004-10-28 2009-12-01 Intel Corporation Score result reuse for Bayesian network structure learning
CN101091177B (zh) * 2004-12-31 2010-05-26 英特尔公司 贝叶斯网络结构学习并行化的方法、设备及系统
US8694317B2 (en) * 2005-02-05 2014-04-08 Aurix Limited Methods and apparatus relating to searching of spoken audio data
TWI277947B (en) * 2005-09-14 2007-04-01 Delta Electronics Inc Interactive speech correcting method
CN102222499B (zh) * 2005-10-20 2012-11-07 日本电气株式会社 声音判别系统、声音判别方法以及声音判别用程序
KR100717393B1 (ko) * 2006-02-09 2007-05-11 삼성전자주식회사 음성 인식기의 음성 인식에 대한 신뢰도 측정 방법 및 그장치
US20070239444A1 (en) * 2006-03-29 2007-10-11 Motorola, Inc. Voice signal perturbation for speech recognition
JP2009540398A (ja) * 2006-06-02 2009-11-19 テルコーディア テクノロジーズ インコーポレイテッド 音声ドキュメントに関する概念ベースのメディア間インデックス化および取り出し
US7447723B2 (en) * 2006-11-28 2008-11-04 International Business Machine Corporation Method for fast relevance discovery in time series
US20080243503A1 (en) * 2007-03-30 2008-10-02 Microsoft Corporation Minimum divergence based discriminative training for pattern recognition
DE102007030209A1 (de) * 2007-06-27 2009-01-08 Siemens Audiologische Technik Gmbh Glättungsverfahren
US8160866B2 (en) * 2008-04-18 2012-04-17 Tze Fen Li Speech recognition method for both english and chinese
EP2109096B1 (en) * 2008-09-03 2009-11-18 Svox AG Speech synthesis with dynamic constraints
TWI396184B (zh) * 2009-09-17 2013-05-11 Tze Fen Li 一種語音辨認所有語言及用語音輸入單字的方法
US20120116764A1 (en) * 2010-11-09 2012-05-10 Tze Fen Li Speech recognition method on sentences in all languages
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US10311865B2 (en) * 2013-10-14 2019-06-04 The Penn State Research Foundation System and method for automated speech recognition
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
JP6509694B2 (ja) * 2015-09-15 2019-05-08 株式会社東芝 学習装置、音声検出装置、学習方法およびプログラム
US10366158B2 (en) * 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US10522169B2 (en) * 2016-09-23 2019-12-31 Trustees Of The California State University Classification of teaching based upon sound amplitude
JP6618884B2 (ja) * 2016-11-17 2019-12-11 株式会社東芝 認識装置、認識方法およびプログラム
KR102017244B1 (ko) * 2017-02-27 2019-10-21 한국전자통신연구원 자연어 인식 성능 개선 방법 및 장치
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
SG10201809737UA (en) * 2018-11-01 2020-06-29 Rakuten Inc Information processing device, information processing method, and program
JP7192492B2 (ja) * 2018-12-27 2022-12-20 富士通株式会社 学習装置、学習方法および学習プログラム
CN112599118B (zh) * 2020-12-30 2024-02-13 中国科学技术大学 语音识别方法、装置、电子设备和存储介质
US11699430B2 (en) * 2021-04-30 2023-07-11 International Business Machines Corporation Using speech to text data in training text to speech models

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS4912778B1 (ja) * 1969-11-05 1974-03-27
JPS58105295A (ja) * 1981-12-18 1983-06-23 株式会社日立製作所 音声標準パタン作成方法
US4509186A (en) * 1981-12-31 1985-04-02 Matsushita Electric Works, Ltd. Method and apparatus for speech message recognition
JPS58130396A (ja) * 1982-01-29 1983-08-03 株式会社東芝 音声認識装置
JPS5972496A (ja) * 1982-10-19 1984-04-24 株式会社東芝 単音識別装置
US4817159A (en) * 1983-06-02 1989-03-28 Matsushita Electric Industrial Co., Ltd. Method and apparatus for speech recognition
JPS59226400A (ja) * 1983-06-07 1984-12-19 松下電器産業株式会社 音声認識装置
US4852181A (en) * 1985-09-26 1989-07-25 Oki Electric Industry Co., Ltd. Speech recognition for recognizing the catagory of an input speech pattern
US4856067A (en) * 1986-08-21 1989-08-08 Oki Electric Industry Co., Ltd. Speech recognition system wherein the consonantal characteristics of input utterances are extracted
US4852170A (en) * 1986-12-18 1989-07-25 R & D Associates Real time computer speech recognition system

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009107411A1 (ja) * 2008-02-28 2009-09-03 日本電気株式会社 音声認識装置、音声認識方法、及び、音声認識プログラムが記録された記録媒体
JP5381973B2 (ja) * 2008-02-28 2014-01-08 日本電気株式会社 音声認識装置、音声認識方法、及び、音声認識プログラムが記録された記録媒体
WO2016006038A1 (ja) * 2014-07-08 2016-01-14 三菱電機株式会社 音声認識システム及び音声認識方法
CN106663421A (zh) * 2014-07-08 2017-05-10 三菱电机株式会社 声音识别系统以及声音识别方法
US10115394B2 (en) 2014-07-08 2018-10-30 Mitsubishi Electric Corporation Apparatus and method for decoding to recognize speech using a third speech recognizer based on first and second recognizer results

Also Published As

Publication number Publication date
EP0380297A2 (en) 1990-08-01
EP0380297B1 (en) 1997-08-20
DE69031284D1 (de) 1997-09-25
DE69031284T2 (de) 1998-01-08
EP0380297A3 (en) 1991-03-27
US5893058A (en) 1999-04-06

Similar Documents

Publication Publication Date Title
JPH02195400A (ja) 音声認識装置
JP4224250B2 (ja) 音声認識装置、音声認識方法および音声認識プログラム
JPS59226400A (ja) 音声認識装置
Chandrakala et al. Representation learning based speech assistive system for persons with dysarthria
Vadwala et al. Survey paper on different speech recognition algorithm: challenges and techniques
Kumar et al. Improvements in the detection of vowel onset and offset points in a speech sequence
US12488805B2 (en) Using optimal articulatory event-types for computer analysis of speech
Manjunath et al. Improvement of phone recognition accuracy using articulatory features
Přibil et al. GMM-based evaluation of emotional style transformation in czech and slovak
JP2001312293A (ja) 音声認識方法およびその装置、並びにコンピュータ読み取り可能な記憶媒体
Thirumuru et al. Application of non-negative frequency-weighted energy operator for vowel region detection
Zolnay Acoustic feature combination for speech recognition
JPH0619497A (ja) 音声認識方法
JPH07210197A (ja) 話者識別方法
Singh et al. Isolated Word Recognition and Feature Extraction Using Machine Learning
Bhattachajee et al. An experimental analysis of speech features for tone speech recognition
JP2862306B2 (ja) 音声認識装置
KR100488121B1 (ko) 화자간 변별력 향상을 위하여 개인별 켑스트럼 가중치를 적용한 화자 인증 장치 및 그 방법
EP4658154A1 (en) Identifying optimal articulatory event-types for computer analysis of speech
Schnall et al. Comparing speaker independent and speaker adapted classification for word prominence detection
JPS6069695A (ja) 語頭子音のセグメンテ−ション法
JPS6293000A (ja) 音声認識方法
JPS6069694A (ja) 語頭子音のセグメンテ−ション法
JPH07146696A (ja) 音声認識における単語テンプレートの自動作成方法
JPH0235500A (ja) 音声認識方式